SoPilotSoPilot

🔥 Search Hot Tweets

Search and analyze hot tweets from KOL accounts list (list: https://x.com/i/lists/1961235697677017443) within 6 hours. Use SoPilot plugin to quickly comment and occupy the comment section.

Real-time Hot Tweet Analysis

宝玉

宝玉

@dotey· 140.2K followers

解读《DeepSeek-OCR: Contexts Optical Compression》 你有没有觉得,虽然现在的AI(比如大语言模型)越来越聪明,但它们有个大问题:记性“太好”了,也好得“太死板”了。 你给它一份100页的PDF报告,它会一个字一个字地去读、去比较。这不仅慢得要命,而且计算成本高到飞起。这就像你让一个人去背诵整本电话黄页,而不是让他“查一下”某个人的号码。 为什么会这样?因为AI处理文本时,工作量是“平方级”增长的。意思是,文本长度翻一倍,AI的工作量(和成本)不是翻一倍,而是翻四倍(2x2)。文本翻10倍,工作量就翻100倍! 这导致了一个核心矛盾:我们既希望AI能“过目不忘”,处理超长文档,又承受不起这种“暴力记忆”带来的恐怖算力消耗。 那么,有没有“捷径”可走? 来自 DeepSeek 的几位研究者提出了一个堪称“作弊”的绝妙思路。他们在论文《DeepSeek-OCR:上下文光学压缩》中问了一个颠覆性的问题: **“我们为什么非要让AI‘阅读’文字呢?我们能不能让它‘看’文字?”** --- 把1000个单词,压缩成一个“视觉ZIP包” 你没听错。他们的想法是,别再一个一个地把“文字token”(可以理解为单词或字符)喂给AI了,而是先把整页文档“拍一张照片”,然后把这张高分辨率图片喂给AI。 这个过程,他们称之为“光学压缩”(Optical Compression)。 为了实现这个想法,他们打造了一个新模型,叫做 DeepSeek-OCR。它就像一个高效的“两段式”系统: * 一个超级“眼睛”(DeepEncoder):这可不是普通的OCR扫描。这个“眼睛”会查看高分辨率的文档图片,然后用一种极其聪明的办法,把整页的视觉信息……“压缩”!它会把满页的文字,压缩成极其少量的“视觉token”。 * 一个解码“大脑”(DeepSeek3B-MoE):这个“大脑”接收来自“眼睛”的、被高度压缩的“视觉token”,然后负责把这些浓缩的信息“解压”还原成原始的文本。 打个比方:传统方法是给AI发送一个10MB的Word文档,让它逐字阅读。而DeepSeek-OCR的方法是,先把这个文档拍成一张“照片”,然后用一个超级压缩算法,把照片压缩成一个仅仅1MB的“视觉ZIP包”。AI的“大脑”只需要接收这个小小的ZIP包,就能完美还原出原来的10MB文档内容。 --- 效果好到“离谱” 这个“视觉ZIP包”到底有多小?还原效果又有多好? 论文的数据给出了惊人的答案: * 10倍压缩,97%的精度!实验显示,当“文字token”的数量是“视觉token”的10倍以内时(比如把1000个单词压缩成100个视觉单位),模型“解压”还原文字的精度高达97%。 * 20倍压缩,依然可用!即便是在接近20倍的极限压缩下(比如把1200多个单词硬塞进64个视觉单位),模型的准确率竟然还能保持在60%左右。这就像你只看一眼超级模糊的缩略图,就能猜出原图的大部分内容。 在实际的文档处理基准测试(OmniDocBench)上,DeepSeek-OCR只用了100个视觉token,就超过了使用256个token的GOT-OCR2.0;它用了不到800个token,就击败了需要近7000个token的MinerU2.0! 这证明了:让AI“看”图片,真的比“读”文字要高效得多。 --- “所以呢?”——这不仅是OCR,这是“AI记忆”的革命 你可能会说,这不就是个更牛的OCR(文字识别)工具吗? 不,这只是它最表层的价值。这项技术真正打开的,是通往“AI长时记忆”的大门。 还记得我们开头说的吗?AI的“死板记忆”是个大问题。它们要么“全记住”(成本爆炸),要么“全忘掉”(上下文丢失)。 但我们人类的记忆不是这样的。 我们对“刚刚发生”的事(比如你刚说的话)记得“极其清楚”;对“1天前”的事记得“比较清楚”;而对“1周前”的事,我们只记得一个“模糊的大概”。 这是一种“渐进式遗忘”,它不是缺陷,而是我们大脑高效运行的核心机制! 而DeepSeek-OCR的“光学压缩”,第一次让我们有可能在AI身上模拟这种机制: * 对于“现在”的对话:AI使用原始的“文字token”,保持100%的“晶莹剔透”(Crystal Clear)。 * 对于“1小时前”的对话:AI不存储文字了,而是把它“拍”成一张高分辨率图片,用“Large”模式压缩。信息被压缩了10倍,但依然“非常清晰”(Very Clear)。 * 对于“1天前”的对话:AI把那张高分辨率图片,进一步降采样,用“Base”模式压缩。信息变得“清晰”(Clear),但有些模糊。 * 对于“1周前”的对话:AI再次压缩,用“Tiny”模式。信息被压缩了20倍,变得“非常模糊”(Very Blurry)。 看,这就是AI的“遗忘曲线”! AI不再需要“删除”旧记忆,它只是把旧记忆“压缩”得越来越狠,占用的“脑容量”(token)越来越少。这样,AI就能把宝贵的“注意力”放在当下,同时又保留了对遥远过去的“模糊印象”。 --- 从“过目不忘”到“重点分明” DeepSeek-OCR这篇论文的真正意义,是为“AI长上下文”问题提供了一个全新的、优雅的解决方案。 与其疯狂地扩展AI的“内存条”(增加上下文窗口),不如给AI装上一个“视觉压缩器”,让信息自己“变小”。 这不仅是一个更强的OCR工具,它更是一种对AI记忆机制的深刻反思——从“过目不忘”的蛮力,转向“重点分明”的智慧。 这为未来实现“理论上无限上下文”的AI架构,铺平了道路。 ---- 本文 Gemini 生成,提示词:见引用推文 原始会话:https://t.co/O1g3k63cr0

85
20
4
20.9K
Posted 2d ago · Data updated 1d ago
Reply Suggestion

Est. 800 views for your reply