主机发布

DeepSeek 再次证明:AI 也许能以更高效率运行 —— 图像或许比文本更适合 LLM

DeepSeek 再次证明:AI 也许能以更高效率运行 —— 图像或许比文本更适合 LLM

中国研究团队 DeepSeek 再度引发行业讨论。这一次并非因为参数量惊人的大型 LLM,而是因其最新发布的 DeepSeek-OCR 模型。虽然它只是一个“概念验证”级别的 OCR 模型,但真正震撼业内的是背后的思想:AI 或许应该更多依赖图像,而非文本处理

多位业内专家对 DeepSeek-OCR 表示认可。OpenAI 联合创始人 Andrej Karpathy 更指出,DeepSeek-OCR 可能纠正了 AI 领域长期以来的一个误解——“所有提供给大模型的输入,可能都应该是图像。”
原因在于:在 LLM 的上下文窗口中,图像的压缩效率可能远高于文本

图像比文本更省空间?

当前 AI 进展深受“压缩”理念主导:

  • 数据越小 → 训练越快

  • 模型越轻 → 节省成本

  • 推理越高效 → 降低算力需求

DeepSeek-OCR 的关键创新在于,它利用一个 仅 3.8 亿参数的视觉编码器 将图像信息高效压缩,再由 仅激活 5.7 亿参数的 30 亿参数解码器 进行推理,依然达到 97% 的准确率

相比传统纯文本输入,这种方法能让模型在相同上下文窗口中容纳 成倍以上的数据量。也就是说:

  • 以前模型能读几万字

  • 现在可能能读几十页文档

  • 且性能更稳、成本更低

这让人重新思考:像素可能比字符更适合作为 LLM 的输入载体

DeepSeek 再次扮演“AI 压缩专家”角色

DeepSeek 此前凭借 DeepSeek-R1 在全球引爆关注,原因包括:

  • 6710 亿参数的开源模型,性能逼近顶级闭源 LLM

  • 训练成本号称不足 30 万欧元

  • 被怀疑大量学习了 ChatGPT 的输出,引发争议

而此次 DeepSeek-OCR 再次展示其强项:以极端低成本实现高效率 AI
更重要的是,它的研究完全公开,全球 AI 社区都能直接使用这套思想。

相比之下,Google、OpenAI、Anthropic 等公司的模型结构 largely 黑箱。外界无法确定他们是否也使用类似的视觉压缩技术——虽然 Google Gemini 的“超大上下文窗口”隐隐透露出类似的思路。

图像输入是否是未来方向?尚未定论

DeepSeek-OCR 不是直接改变行业格局的产品,但背后的方法可能推动两种重要趋势:

  1. LLM 可能以更高效率处理输入信息
    文本先转为图像,图像再压缩,大幅减少上下文占用,同时保持较高精度。

  2. 更大规模数据可进入 LLM 处理范围
    包括:合规文档、公司知识库、技术资料、风格指南等。
    未来模型生成的企业级内容可能比现在更完整、更精准。

尽管市场对 DeepSeek-OCR 的反应不似当初 R1 那般剧烈,但研究本身为 AI 行业提供了新的思考方向:
也许打造“更大模型”并非唯一路径,更聪明地压缩信息同样能带来巨大的性能飞跃。