DeepSeek 再次证明：AI 也许能以更高效率运行 —— 图像或许比文本更适合 LLM

evan 行业资讯 11-18 121

中国研究团队 DeepSeek 再度引发行业讨论。这一次并非因为参数量惊人的大型 LLM，而是因其最新发布的 DeepSeek-OCR 模型。虽然它只是一个“概念验证”级别的 OCR 模型，但真正震撼业内的是背后的思想：AI 或许应该更多依赖图像，而非文本处理。

多位业内专家对 DeepSeek-OCR 表示认可。OpenAI 联合创始人 Andrej Karpathy 更指出，DeepSeek-OCR 可能纠正了 AI 领域长期以来的一个误解——“所有提供给大模型的输入，可能都应该是图像。”
原因在于：在 LLM 的上下文窗口中，图像的压缩效率可能远高于文本。

图像比文本更省空间？

当前 AI 进展深受“压缩”理念主导：

数据越小 → 训练越快
模型越轻 → 节省成本
推理越高效 → 降低算力需求

DeepSeek-OCR 的关键创新在于，它利用一个 仅 3.8 亿参数的视觉编码器 将图像信息高效压缩，再由 仅激活 5.7 亿参数的 30 亿参数解码器 进行推理，依然达到 97% 的准确率。

相比传统纯文本输入，这种方法能让模型在相同上下文窗口中容纳 成倍以上的数据量。也就是说：

以前模型能读几万字
现在可能能读几十页文档
且性能更稳、成本更低

这让人重新思考：像素可能比字符更适合作为 LLM 的输入载体。

DeepSeek 再次扮演“AI 压缩专家”角色

DeepSeek 此前凭借 DeepSeek-R1 在全球引爆关注，原因包括：

6710 亿参数的开源模型，性能逼近顶级闭源 LLM
训练成本号称不足 30 万欧元
被怀疑大量学习了 ChatGPT 的输出，引发争议

而此次 DeepSeek-OCR 再次展示其强项：以极端低成本实现高效率 AI。
更重要的是，它的研究完全公开，全球 AI 社区都能直接使用这套思想。

相比之下，Google、OpenAI、Anthropic 等公司的模型结构 largely 黑箱。外界无法确定他们是否也使用类似的视觉压缩技术——虽然 Google Gemini 的“超大上下文窗口”隐隐透露出类似的思路。

图像输入是否是未来方向？尚未定论

DeepSeek-OCR 不是直接改变行业格局的产品，但背后的方法可能推动两种重要趋势：

LLM 可能以更高效率处理输入信息
文本先转为图像，图像再压缩，大幅减少上下文占用，同时保持较高精度。
更大规模数据可进入 LLM 处理范围
包括：合规文档、公司知识库、技术资料、风格指南等。
未来模型生成的企业级内容可能比现在更完整、更精准。

尽管市场对 DeepSeek-OCR 的反应不似当初 R1 那般剧烈，但研究本身为 AI 行业提供了新的思考方向：
也许打造“更大模型”并非唯一路径，更聪明地压缩信息同样能带来巨大的性能飞跃。