YUAN'Blog |

DeepSeek又出王炸不止是最强开源OCR

Date: October 23, 2025 | Estimated Reading Time: 5 min | Author: YUAN

1.jpg

DeepSeek又出王炸:不止是最强开源OCR…

(。・∀・)ノ゙嗨,大家好!

今天,我给大家介绍一款刚开源就爆火的神器—— DeepSeek-OCR

你是不是也受够了?从PDF里复制文字,格式全乱;想提取截图里的表格,只能一个一个手打;看到扫描版的文档,更是头皮发麻。

别慌!你遇到的这些抓狂瞬间,DeepSeek-OCR 都能摆平。它不仅是个简单的OCR(文字识别)工具,更是一个能“看懂”文档的AI。

2.jpg

它能把乱七八糟的文档、图片,瞬间转换成整整齐齐的Markdown,甚至连里面的图表、公式都能给你扒得明明白白!

今天这篇,就是零门槛的保姆级教程,带你快速上手这个大杀器!


本文目录

  1. 1. DeepSeek-OCR是啥? (它和普通OCR有啥不一样?)
  2. 2. 它到底能干嘛? (功能多到吓人!)
  3. 3. 零门槛!三分钟上手教程 (手把手教你跑起来)
  4. 4. 总结 (赶紧去试试!)

1. DeepSeek-OCR是啥?

简单说,DeepSeek-OCR 是 DeepSeek-AI 团队搞出来的一个智能文档解析模型。

它和咱们以前用的那些“截图识字”工具有本质区别。

它最牛的地方在于 效率

其他AI大模型(VLM)也能“看懂”文档,但代价巨大。一篇文档可能要吃掉几千个“视觉令牌”(vision tokens),又贵又慢 。

而 DeepSeek-OCR 走的是“压缩”路线 。它用一个叫 DeepEncoder 的编码器 ,把高分辨率的图片信息“压缩”成极少数的视觉令牌 。

3.jpg

打个比方:别家模型看一篇文档平均要用 6000+ 个令牌 , 而 DeepSeek-OCR 用不到 800 个令牌就能搞定,效果甚至更好 !当压缩比在10倍以内时,它的解码(OCR)精度高达97% 。

省钱,高效,还聪明,这就是它火爆的原因。

2. 它到底能干嘛?

功能简直全能!

1. 复杂排版,一键转Markdown

这是它的基本功。无论是多栏的论文、带图表的报告,还是网页截图,它都能“看懂”排版,然后转换成格式完美的Markdown。

2. “深度解析”,图表公式通吃

这才是它的“杀手锏”。它不光认识文字,还认识文档里的“图”。

3. 近100种语言,随便识别

它在训练时学习了包含近100种语言的PDF数据 。所以不管你扔给它的是中文、英文,还是阿拉伯文、僧伽罗文……它都能搞定 。

4. 通用视觉能力

虽然它叫OCR,但它本质是个VLM(视觉语言模型)。所以你让它“描述一下这张图” 或者“图里的教师在哪里” ,它也照样能做。

3. 零门槛!三分钟上手教程

“别废话,怎么用?”

来了!官方提供了 vLLM(高性能)和 Transformers(标准易用)两种方式。作为零门槛教程,我们 ** 首选最简单通用的 Transformers 方式 ** 。

(需要你本地有Python环境和一块GPU)

第一步:下载代码和环境

  1. 1. 先把项目克隆(下载)到你电脑上:

    git clone https://github.com/deepseek-ai/DeepSeek-OCR.git

  2. 2. 进入项目目录,并创建一个干净的Python环境(用Conda为例):

    cd DeepSeek-OCR
    conda create -n deepseek-ocr python=3.10 -y
    conda activate deepseek-ocr

  3. 3. 安装所有需要的“魔法包”(依赖库):

    pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 —index-url https://download.pytorch.org/whl/cu118
    pip install -r requirements.txt
    pip install flash-attn==2.5.8 —no-build-isolation

第二步:准备好你的“咒语” (Prompts)

DeepSeek-OCR 非常智能,你希望它干什么,就通过“提示词”(Prompt)告诉它。

这里是几个最常用的“咒语”:

第三步:开跑!

官方提供了一个 run_dpsk_ocr.py 脚本,但我们直接用Python代码跑更直观。

新建一个 test.py 文件,把下面的代码复制进去:

from transformers import AutoModel, AutoTokenizer  
import torch  
import os  
  
# 指定用哪块卡os.environ["CUDA_VISIBLE_DEVICES"] = '0'  
  
# 模型下载地址model_name = 'deepseek-ai/DeepSeek-OCR'tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)  
  
# 加载模型,注意这里用了 flash_attention_2 加速,显卡不支持就去掉model = AutoModel.from_pretrained(    model_name,     _attn_implementation='flash_attention_2',     trust_remote_code=True,     use_safetensors=True)model = model.eval().cuda().to(torch.bfloat16)  
  
# --- 你的配置 ---  
  
# 1. 选个“咒语” (从上面选一个)prompt = "<image>\n<|grounding|>Convert the document to markdown. "  
  
# 2. 你的图片路径 (换成你自己的)image_file = 'your_image.jpg'   
# image_file = 'your_document_page_1.png'  
  
# 3. 结果保存路径output_path = 'your/output/dir'   
  
# --- 开始推理 ---  
print("开始处理图片...")res = model.infer(    tokenizer,     prompt=prompt,     image_file=image_file,     output_path=output_path,     base_size=1024,      # 基础分辨率    image_size=640,      # 处理时的大小 (Small模式)    crop_mode=True,      # 自动裁剪    save_results=True,   # 保存结果    test_compress=True   # 测试压缩)  
  
print("处理完成!结果已保存。")  

image_file 换成你自己的图片路径,然后运行这个 test.py 文件。

稍等片刻,它就会在 output_path 路径下生成结果文件!一个完美的Markdown文档就诞生了!

4. 总结

DeepSeek-OCR 的出现,不仅仅是又多了一个OCR工具,它真正展示了“上下文光学压缩”这个新思路的潜力 。

它证明了AI可以不用堆砌海量的“令牌”,而是通过更智能的“压缩”方式来理解世界 。这种“先压缩再解压”的模式,未来甚至可能用来处理超长的对话历史 ,模拟人类的“记忆遗忘曲线” 。

总而言之,它 开源免费高效 ,而且 效果惊人

这绝对是近期最值得一试的AI项目!

大家赶紧去GitHub上给它点个 Star 体验吧!

GitHub地址: https://github.com/deepseek-ai/DeepSeek-OCR

觉得这篇文章有用? 记得帮忙点个“在看”和转发~ 感谢!

以上就是今天分享的内容啦,觉得我的文章有用,记得一键三连,点个 关注、分享、喜欢 。 我正在组建一个 AI 技术和副业公益群,每天都会分享一些 Al 的最新玩法和案例拆解,下方扫码备注“ AI ”拉你入群。

4.jpg