【DS论文精读】LM长上下文新解法！DeepSeek-OCR用“光学压缩”实现10倍记忆扩容

今天，我又挖到了一篇AI Agent领域的“宝藏”论文，迫不及不及要和大家分享！

我们都知道，AI Agent的“大脑”——LLM，有一个众所周知痛点： 上下文长度（Context Window） 。当对话历史、文档资料、任务步骤变得越来越长时，LLM的计算量会呈二次方级暴涨，token很快就不够用了。这极大地限制了Agent执行长期、复杂任务的能力。

如果我告诉你，有一种方法，可以不把长篇大论的文本喂给LLM，而是先把它们”拍张照”，再把这张图片喂给LLM呢？

这就是我们今天的主角——来自DeepSeek-AI的最新研究： DeepSeek-OCR 。它提出的“上下文光学压缩”（Contexts Optical Compression），可能为AI Agent的长记忆问题提供了一个全新的、脑洞大开的解决思路！

论文速览：DeepSeek-OCR是做什么的？

简单来说，DeepSeek-OCR是一个VLM（视觉语言模型），但它的研究视角非常独特： 它不只是把OCR（光学字符识别）当成一个工具，而是把它当成一个“文本解压缩”的过程 。

2.1 核心思想：“光学压缩”

这篇论文的洞察点在于： ** 一个包含大量文本的图像，其占用的“Vision Tokens”（视觉令牌）要远远少于其等效的“Text Tokens”（文本令牌） ** 。

举个例子：一篇1000个单词的文档，如果转成文本token，可能需要1000多个token。但如果把它渲染成一张图片，模型可能只需要100个vision token就能“看完”这张图。

这就是”光学压缩”：利用视觉2D映射作为文本信息的高效压缩媒介。

2.2 核心贡献：惊人的压缩率

DeepSeek-OCR要验证的就是，这种压缩到底靠不靠谱？模型能否从被“压缩”的图片中，高精度地“解压”出原始文本？

答案是：非常靠谱！

• 高精度压缩： 实验显示，当压缩比小于10倍时（例如，用100个视觉token去解码近1000个文本token），模型能达到 97%的OCR解码精度 ！
• 极限压缩： 即使在高达20倍的压缩比下，OCR精度依然能保持在 约60% 。
• SOTA性能： 在实战中，DeepSeek-OCR在OmniDocBench基准上， 仅用100个视觉token，就超越了使用256个token的GOT-OCR2.0 。并且 使用不到800个token，就击败了需要近7000个token的MinerU2.0 ！

一句话总结：DeepSeek-OCR证明了，以极少的视觉token实现对海量文本的高效压缩和高保真解码，是完全可行的。

核心技术深度解析：Agent如何实现“光学记忆”？

DeepSeek-OCR作为一个VLM，采用了标准的Encoder-Decoder架构。但它的魔鬼细节，全在Encoder（编码器）里。

3.1 核心架构：DeepEncoder + MoE解码器

• 解码器 (The “Brain”): 它使用了 DeepSeek3B-MoE 模型。为什么用MoE（混合专家）？因为它 兼顾了效率和能力 。它拥有3B（30亿）的总参数量，但在推理时只激活约570M（5.7亿）的参数。这让它拥有3B模型的强大表达力，同时享受着500M级别模型的推理速度，非常适合OCR这种专业领域的任务。
• 编码器 (The “Magic Eye”): 这就是本文的核心创新—— DeepEncoder 。

传统的Vision Encoder（如ViT）在处理高分辨率图片（这对看清密密麻麻的文字至关重要）时，会产生海量的vision token，导致激活内存爆炸。

DeepEncoder的设计堪称精妙，它通过一个“串联”结构解决了这个问题：

1. SAM-base (局部感知): 首先，图片输入到一个80M参数的SAM（Segment Anything Model）。它主要由窗口注意力（Window Attention）构成。它负责处理高分辨率输入的繁重任务，因为局部注意力机制在内存控制上更友好。
2. 16x 卷积压缩器 (中枢压缩): SAM输出的大量token，会立刻进入一个2层的卷积模块。这个模块会执行 16倍的token下采样 。比如，SAM输出的4096个token，经过它之后只剩下 256个 。
3. CLIP-large (全局理解): 最后，这256个被高度压缩的token，才被送入一个300M参数的CLIP模型。CLIP采用的是 全局注意力（Global Attention） 。由于输入的token数量已经极低（只有256个），此时即使用计算昂贵的全局注意力，也毫无压力。

这个 “局部处理 → 强力压缩 → 全局理解” 的三级流水线，使得DeepEncoder既能“看清”高分辨率图像，又能保持极低的激活内存和极少的输出token。

3.2 关键机制：多分辨率支持

为了系统性地研究不同压缩比的效果，DeepEncoder被设计为支持多种分辨率模式，并且是 一个模型同时支持所有模式 ，这是通过动态插值位置编码实现的。

根据论文和GitHub仓库，主要模式包括：

• Tiny: 512x512 分辨率 (Resize)，输出 64 个视觉token
• Small: 640x640 分辨率 (Resize)，输出 100 个视觉token
• Base: 1024x1024 分辨率 (Padding)，输出 256 个视觉token
• Large: 1280x1280 分辨率 (Padding)，输出 400 个视觉token
• Gundam: 动态分辨率（Tiling + Padding），例如个token

这些模式让研究者可以像调节“压缩档位”一样，自由控制输入的精细度和token开销。

实验验证：效果究竟如何？

4.1 压缩比研究：10倍压缩，97%精度！

研究者在Fox基准上，专门测试了模型的“压缩-解压”能力。他们选取了包含600-1300个文本token的文档，分别用Tiny (64 tokens) 和 Small (100 tokens) 模式去“读取”。

结果如Figure 1(a)和Table 2所示：

• < 10x 压缩区 (高保真): 当文本token数在600-700时，使用100个视觉token（压缩比约7x），精度高达 98.5% 。使用64个视觉token（压缩比约10.5x），精度也高达 96.5% 。这几乎是“无损压缩”！
• 10x-12x 压缩区 (性能下降): 当文本token数在1000-1100时，使用100个视觉token（压缩比约10.6x），精度下降到 91.5% 。
• ~20x 压缩区 (极限压缩): 当文本token数在1200-1300时，使用64个视觉token（压缩比约19.7x），精度掉到 59.1% 。这说明信息开始“模糊”了，但也证明了模型在极限压缩下仍能抢救回大部分内容。

4.2 实用性研究：SOTA性能，最少Token！

在OmniDocBench基准上，DeepSeek-OCR展示了其作为OCR工具的强悍实力 (Figure 1(b))：

• 以少胜多： DeepSeek-OCR (Small, 100 tokens) 战胜了 GOT-OCR2.0 (256 tokens)。
• 降维打击： DeepSeek-OCR (Gundam, < 800 tokens) 显著优于需要6000+ tokens 的 MinerU2.0。
• 全能解析： 它不仅能识别文字，还能进行“深度解析”，如解析图表、化学分子式、几何图形等 (见论文Fig 7-10)。

智使解读：这不仅是OCR，这是Agent“记忆”的新范式

读完这篇论文，我最大的感受是， ** 这绝不只是一篇SOTA的OCR论文，它更是一篇为LLM长上下文问题“投石问路”的概念验证（proof-of- concept）。 5.1 论文亮点与贡献 1. 1. “光学压缩”概念： 这是最大的亮点。它将OCR任务从“识别”重新定义为“解压”，这个视角的转变打开了全新的想象空间。 2. 2. DeepEncoder架构： “SAM (局部) → Conv (压缩) → CLIP (全局)” 的架构设计非常优雅，它在不牺牲高分辨率的前提下，极致地压缩了token数量，是实现光学压缩的核心硬件。 3. 3. 惊人的效率： 实验数据（尤其是对比MinerU2.0）证明了这种架构在效率上的绝对优势。

5.2 潜在应用场景：Agent的“遗忘曲线”

这篇论文对AI Agent的意义，远大于OCR本身。

1. Agent的长时记忆库： 想象一下，Agent的对话历史、执行过的任务记录、读过的文档……这些海量文本都可以被“拍照”渲染成图片，作为Agent的“光学记忆”存储起来。当Agent需要“回忆”时，它调用的不再是数万的text token，而是几百个vision token。
2. 模拟“遗忘机制”： 这是我个人认为最震撼的启发点！论文在Figure 13中完美地展示了这个思路：

这不就是模拟了人类记忆的“遗忘曲线”吗？ 越近的记忆越清晰，越远的记忆越模糊，但依然保留了核心信息（60%的精度）。这种机制不仅极大地节省了上下文空间，还让Agent变得更像“人”。

 * •  <strong>刚刚发生的 (Recent):</strong> 保持为高保真的 "Text token"。 
 * •  <strong>昨天的 (1 day):</strong> 渲染成 "Large" 模式图片 (清晰)。 
 * •  <strong>上周的 (1 week):</strong> 渲染成 "Base" 模式图片 (开始模糊)。 
 * •  <strong>上个月的 (1 month):</strong> 渲染成 "Small" 或 "Tiny" 模式 (非常模糊)。 
 *

5. 3. 超级数据工厂： 论文提到，单卡A100-40G每天可以处理20万+页面的数据（或20个节点每天3300万页）。这使其成为一个强大的LLM/VLM预训练数据生产工具。

5.3 局限性与未来研究

作者非常坦诚地指出，这只是一个初步的探索。

• 局限： 目前只是验证了OCR（文本解压）的可行性，但这不等于“真正的上下文理解”。
• 未来： 下一步，他们将进行“数字-光学文本交错预训练”，并进行“大海捞针”（Needle-in-a-Haystack）测试，以验证LLM是否能像理解数字文本一样，真正理解这些被“压缩”的光学文本。

总而言之，DeepSeek-OCR 不仅是一个性能炸裂的OCR工具，它更是一个极具启发性的“思想实验”。它所展示的“上下文光学压缩”路径，特别是模拟“遗忘机制”的潜力，为构建更高效、更仿生、拥有超长记忆的AI Agent打开了一扇全新的大门。后台回复”OCR”获取论文PDF和代码

读完这篇硬核解读，你对“光学压缩”这个思路怎么看？你觉得它会成为未来Agent长记忆的主流方案吗？

欢迎在评论区留下你的思考！

以上就是今天分享的全部内容。如果觉得有所收获，记得一键三连，点个关注、分享、喜欢，也 欢迎将文章分享给更多有需要的同学 。

我创建了一个高质量的 「论文研读社群」，专注于大模型、AI Agent等方向。在这里，我们 每日打卡 (精读并分享最新的Agent动态和顶会论文), 定期讨论 (围绕关键技术与研究思路进行深入交流), 资源共享 (共享高质量的学习资料与科研工具)。后台私信或下方扫码” Agent ”拉你入群。