DeepSeek 再次证明:AI 也许能以更高效率运行 —— 图像或许比文本更适合 LLM
中国研究团队 DeepSeek 再度引发行业讨论。这一次并非因为参数量惊人的大型 LLM,而是因其最新发布的 DeepSeek-OCR 模型。虽然它只是一个“概念验证”级别的 OCR 模型,但真正震撼业内的是背后的思想:AI 或许应该更多依赖图像,而非文本处理。
多位业内专家对 DeepSeek-OCR 表示认可。OpenAI 联合创始人 Andrej Karpathy 更指出,DeepSeek-OCR 可能纠正了 AI 领域长期以来的一个误解——“所有提供给大模型的输入,可能都应该是图像。”
原因在于:在 LLM 的上下文窗口中,图像的压缩效率可能远高于文本。
图像比文本更省空间?
当前 AI 进展深受“压缩”理念主导:
-
数据越小 → 训练越快
-
模型越轻 → 节省成本
-
推理越高效 → 降低算力需求
DeepSeek-OCR 的关键创新在于,它利用一个 仅 3.8 亿参数的视觉编码器 将图像信息高效压缩,再由 仅激活 5.7 亿参数的 30 亿参数解码器 进行推理,依然达到 97% 的准确率。
相比传统纯文本输入,这种方法能让模型在相同上下文窗口中容纳 成倍以上的数据量。也就是说:
-
以前模型能读几万字
-
现在可能能读几十页文档
-
且性能更稳、成本更低
这让人重新思考:像素可能比字符更适合作为 LLM 的输入载体。
DeepSeek 再次扮演“AI 压缩专家”角色
DeepSeek 此前凭借 DeepSeek-R1 在全球引爆关注,原因包括:
-
6710 亿参数的开源模型,性能逼近顶级闭源 LLM
-
训练成本号称不足 30 万欧元
-
被怀疑大量学习了 ChatGPT 的输出,引发争议
而此次 DeepSeek-OCR 再次展示其强项:以极端低成本实现高效率 AI。
更重要的是,它的研究完全公开,全球 AI 社区都能直接使用这套思想。
相比之下,Google、OpenAI、Anthropic 等公司的模型结构 largely 黑箱。外界无法确定他们是否也使用类似的视觉压缩技术——虽然 Google Gemini 的“超大上下文窗口”隐隐透露出类似的思路。
图像输入是否是未来方向?尚未定论
DeepSeek-OCR 不是直接改变行业格局的产品,但背后的方法可能推动两种重要趋势:
-
LLM 可能以更高效率处理输入信息
文本先转为图像,图像再压缩,大幅减少上下文占用,同时保持较高精度。 -
更大规模数据可进入 LLM 处理范围
包括:合规文档、公司知识库、技术资料、风格指南等。
未来模型生成的企业级内容可能比现在更完整、更精准。
尽管市场对 DeepSeek-OCR 的反应不似当初 R1 那般剧烈,但研究本身为 AI 行业提供了新的思考方向:
也许打造“更大模型”并非唯一路径,更聪明地压缩信息同样能带来巨大的性能飞跃。




