DeepSeek又出王炸：不止是最强开源OCR…

(｡･∀･)ﾉﾞ嗨，大家好！

今天，我给大家介绍一款刚开源就爆火的神器—— DeepSeek-OCR ！

你是不是也受够了？从PDF里复制文字，格式全乱；想提取截图里的表格，只能一个一个手打；看到扫描版的文档，更是头皮发麻。

别慌！你遇到的这些抓狂瞬间，DeepSeek-OCR 都能摆平。它不仅是个简单的OCR（文字识别）工具，更是一个能“看懂”文档的AI。

它能把乱七八糟的文档、图片，瞬间转换成整整齐齐的Markdown，甚至连里面的图表、公式都能给你扒得明明白白！

今天这篇，就是零门槛的保姆级教程，带你快速上手这个大杀器！

本文目录

1. DeepSeek-OCR是啥？ （它和普通OCR有啥不一样？）
2. 它到底能干嘛？ （功能多到吓人！）
3. 零门槛！三分钟上手教程 （手把手教你跑起来）
4. 总结（赶紧去试试！）

1. DeepSeek-OCR是啥？

简单说，DeepSeek-OCR 是 DeepSeek-AI 团队搞出来的一个智能文档解析模型。

它和咱们以前用的那些“截图识字”工具有本质区别。

• 传统OCR： 像个“睁眼瞎”，它只认识字，不理解排版。你给它一个两栏的论文，它会一行一行“横着读”，结果就是一团糟。
• DeepSeek-OCR： 像个“真学霸”，它利用了“上下文光学压缩” (Contexts Optical Compression) 的黑科技。它会先把整个文档当成一张“图” ，用视觉能力去理解它的结构、排版、哪里是标题、哪里是图表。

它最牛的地方在于效率。

其他AI大模型（VLM）也能“看懂”文档，但代价巨大。一篇文档可能要吃掉几千个“视觉令牌”（vision tokens），又贵又慢。

而 DeepSeek-OCR 走的是“压缩”路线。它用一个叫 DeepEncoder 的编码器，把高分辨率的图片信息“压缩”成极少数的视觉令牌。

打个比方：别家模型看一篇文档平均要用 6000+ 个令牌， 而 DeepSeek-OCR 用不到 800 个令牌就能搞定，效果甚至更好 ！当压缩比在10倍以内时，它的解码（OCR）精度高达97% 。

省钱，高效，还聪明，这就是它火爆的原因。

2. 它到底能干嘛？

功能简直全能！

1. 复杂排版，一键转Markdown

这是它的基本功。无论是多栏的论文、带图表的报告，还是网页截图，它都能“看懂”排版，然后转换成格式完美的Markdown。

2. “深度解析”，图表公式通吃

这才是它的“杀手锏”。它不光认识文字，还认识文档里的“图”。

• 解析图表 (Chart)： 看到柱状图、折线图？它能直接把图里的数据提出来，转成 HTML 表格 。
• 解析化学公式 (Chemical Formula)： 看到复杂的分子结构图，它能直接转成 SMILES 文本格式 ，科研党狂喜。
• 解析几何图形 (Geometry)： 甚至连平面几何图形它也能识别。

3. 近100种语言，随便识别

它在训练时学习了包含近100种语言的PDF数据。所以不管你扔给它的是中文、英文，还是阿拉伯文、僧伽罗文……它都能搞定。

4. 通用视觉能力

虽然它叫OCR，但它本质是个VLM（视觉语言模型）。所以你让它“描述一下这张图” 或者“图里的教师在哪里” ，它也照样能做。

3. 零门槛！三分钟上手教程

“别废话，怎么用？”

来了！官方提供了 vLLM（高性能）和 Transformers（标准易用）两种方式。作为零门槛教程，我们 ** 首选最简单通用的 Transformers 方式 ** 。

（需要你本地有Python环境和一块GPU）

第一步：下载代码和环境

1. 先把项目克隆（下载）到你电脑上：

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
2. 进入项目目录，并创建一个干净的Python环境（用Conda为例）：

cd DeepSeek-OCR
conda create -n deepseek-ocr python=3.10 -y
conda activate deepseek-ocr
3. 安装所有需要的“魔法包”（依赖库）：

pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 —index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt
pip install flash-attn==2.5.8 —no-build-isolation

第二步：准备好你的“咒语” (Prompts)

DeepSeek-OCR 非常智能，你希望它干什么，就通过“提示词”（Prompt）告诉它。

这里是几个最常用的“咒语”：

• 转Markdown（最推荐）：
prompt = "<image>\n<|grounding|>Convert the document to markdown. "
• 只要纯文本（不要排版）：
prompt = "<image>\nFree OCR. "
• 解析图表/公式：
prompt = "<image>\nParse the figure. "
• 常规看图说话：
prompt = "<image>\nDescribe this image in detail. "

第三步：开跑！

官方提供了一个 run_dpsk_ocr.py 脚本，但我们直接用Python代码跑更直观。

新建一个 test.py 文件，把下面的代码复制进去：

from transformers import AutoModel, AutoTokenizer  
import torch  
import os  
  
# 指定用哪块卡os.environ["CUDA_VISIBLE_DEVICES"] = '0'  
  
# 模型下载地址model_name = 'deepseek-ai/DeepSeek-OCR'tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)  
  
# 加载模型，注意这里用了 flash_attention_2 加速，显卡不支持就去掉model = AutoModel.from_pretrained(    model_name,     _attn_implementation='flash_attention_2',     trust_remote_code=True,     use_safetensors=True)model = model.eval().cuda().to(torch.bfloat16)  
  
# --- 你的配置 ---  
  
# 1. 选个“咒语” (从上面选一个)prompt = "<image>\n<|grounding|>Convert the document to markdown. "  
  
# 2. 你的图片路径 (换成你自己的)image_file = 'your_image.jpg'   
# image_file = 'your_document_page_1.png'  
  
# 3. 结果保存路径output_path = 'your/output/dir'   
  
# --- 开始推理 ---  
print("开始处理图片...")res = model.infer(    tokenizer,     prompt=prompt,     image_file=image_file,     output_path=output_path,     base_size=1024,      # 基础分辨率    image_size=640,      # 处理时的大小 (Small模式)    crop_mode=True,      # 自动裁剪    save_results=True,   # 保存结果    test_compress=True   # 测试压缩)  
  
print("处理完成！结果已保存。")

把 image_file 换成你自己的图片路径，然后运行这个 test.py 文件。

稍等片刻，它就会在 output_path 路径下生成结果文件！一个完美的Markdown文档就诞生了！

4. 总结

DeepSeek-OCR 的出现，不仅仅是又多了一个OCR工具，它真正展示了“上下文光学压缩”这个新思路的潜力。

它证明了AI可以不用堆砌海量的“令牌”，而是通过更智能的“压缩”方式来理解世界。这种“先压缩再解压”的模式，未来甚至可能用来处理超长的对话历史，模拟人类的“记忆遗忘曲线” 。

总而言之，它开源、免费、高效，而且 效果惊人 。

这绝对是近期最值得一试的AI项目！

大家赶紧去GitHub上给它点个 Star 体验吧！

GitHub地址： https://github.com/deepseek-ai/DeepSeek-OCR

觉得这篇文章有用？ 记得帮忙点个“在看”和转发~ 感谢！

以上就是今天分享的内容啦，觉得我的文章有用，记得一键三连，点个关注、分享、喜欢。我正在组建一个 AI 技术和副业公益群，每天都会分享一些 Al 的最新玩法和案例拆解，下方扫码备注“ AI ”拉你入群。