|

股票

像素取代文本?DeepSeek-OCR引发AI底层范式之思

来源:证券之星资讯

2025-11-04 14:22:44

近日,DeepSeek宣布开源最新大模型DeepSeek-OCR。所谓的OCR,据DeepSeek在论文中解释称,是通过光学2D映射压缩长上下文可行性的初步研究。DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。DeepEncoder作为核心引擎,设计为在高分辨率输入下保持低激活,同时实现高压缩比,以确保视觉tokens数量优化且可管理。

通俗而言,这是一种视觉-文本压缩范式,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。

让AI长出“眼睛”和学会“遗忘”

这一创新不仅解决了长文本处理的技术难题,更让我们重新审视大模型的认知方式。传统以大模型始终通过文本token这一抽象符号来理解世界,而DeepSeek-OCR的革命性在于,它让模型首次真正拥有了“视觉感知”的能力。通过将文本转化为图像再进行压缩处理,模型得以绕过语言的抽象过滤层,直接从更丰富的视觉信息中提取特征,这类似于人类通过眼睛直接观察世界而非仅依靠他人描述。

过去的大模型,不管是什么 ChatGPT、Gemini、Llama、Qwen、还是 DeepSeek 过去的自己,在读取数据的用的都是一种方式:文字,也就是平时常说的 token。

但目前的大模型普遍面临一个超长文本的效率处理问题。当下主流大模型的上下文窗口大多在 128k-200k tokens,可财报、科研论文、书籍等动辄上千页,还混着表格、公式,传统办法只能 “切片段、多轮传”,不仅逻辑断档,还会有延时等问题。而 DeepSeek-OCR 用了个反常规思路:把文本转成图像再压缩,需要用到文本时候再解压缩。不但 Tokens 消耗直接降一个数量级,精度还没怎么丢。

为此DeepSeek-OCR模型,首次提出了“上下文光学压缩(Contexts Optical Compression)”的概念,通过文本转图像实现信息的高效压缩。

这一方法的可行性已经得到验证,在10倍压缩比下,DeepSeek-OCR的解码精度可达97%,近乎实现无损压缩;在20倍压缩比下,精度仍保持约60%。

在论文中DeepSeek团队还提出用光学压缩模拟人类的遗忘机制。

例如近期记忆就像近处的物体,清晰可见。所以可以将其渲染成高分辨率图像,用较多的视觉token来保留高保真信息。

远期记忆 就像远处的物体,逐渐模糊。所以可以将其渐进式地缩放成更小、更模糊的图像,用更少的视觉token来表示,从而实现信息的自然遗忘和压缩。

这样一来,理论上模型就可以在处理超长对话或文档时,动态地为不同时期的上下文分配不同数量的计算资源,从而可能构建出一种无限长上下文的架构。

团队表示,虽然这还是个早期研究方向,但不失为模型处理超长上下文的一种新思路。

这样的创新无疑引发了AI社区对视觉路线的深入思考。OpenAI联合创始成员、前特斯拉自动驾驶总监Andrej Karpathy表示,它是一个很好的OCR模型,但更值得关注的是它可能带来的范式转变。

Karpathy提出一个大胆设想:对于大语言模型来说,像素是否比文本更适合作为输入?

像素对于文本的优势和目前的问题

从信息密度的角度看,像素作为原始视觉信号,其承载的信息远超经过高度抽象和压缩的文本。一段文字描述“夕阳下的金色麦田”,虽能传达概念,但丢失了光影的渐变、麦穗的纹理和空间的层次感。而这些细节,恰恰蕴含在像素矩阵之中。大模型直接处理像素,等于绕过了人类语言的“过滤层”,能从更本源、更丰富的感官数据中学习世界的复杂模式。

DeepSeek-OCR的团队认为:“一张包含文档文本(document text)的图像,可以用比等效数字文本(digital text)少得多的token,来表示丰富信息。这表明,通过视觉token进行光学压缩可以实现更高的压缩比。”

其次,像素具有跨文化的通用性。文本受限于特定语言体系和文化背景,存在理解壁垒。而一幅图像或一段视频的像素,其所呈现的物理世界规律(如重力、光影)是普适的,这为模型构建一个更统一、更底层的世界模型奠定了基础。模型无需先掌握英语或中文的语法,就能理解“球体滚动”这一物理现象。

最终,这种以像素为起点的学习路径,更接近人类“眼见为实”的认知过程。它迫使模型从混沌的感官输入中主动抽象出对象、属性和关系,从而可能催生出更鲁棒、更具泛化能力的智能。当模型能够理解并生成连贯的像素序列(如视频),它便掌握了模拟和创造视觉世界的能力,这无疑是迈向通用人工智能更为坚实的一步。因此,像素作为信息载体,为大模型提供了更接近现实、更本真的学习素材。

那么DeepSeek-OCR模型是不是完美无缺的呢?那也不是。论文里也坦诚提到问题。

例如超高压缩比有风险。压缩比超过 30 倍,关键信息保留率会跌破 45%,法律、医疗这种对精度要求极高的场景不太适用。其次是复杂图形识别还不够强,三维图表、手写艺术字的识别准确率比印刷体低 12-18 个百分点。

结语:DeepSeek-OCR提供了新的解题思路

DeepSeek-OCR的推出,标志着AI发展进入了一个新的探索阶段。它不仅仅是一个技术工具的升级,更是一次认知框架的重构——当大模型开始通过像素而非纯文本来理解世界时,我们正在见证一场从“符号处理”到“感知理解”的范式转移。这种转变的意义远超出解决长文本处理这一具体问题,它暗示着未来AI可能建立起更接近人类感官体验的认知体系,从多模态的原始数据中直接构建对世界的理解。

然而,正如研究团队所提示的,这仍是一个早期研究方向。技术突破往往伴随着新的挑战:如何在压缩效率与信息保真度之间找到最佳平衡?如何让模型在“学会遗忘”的同时不丢失关键信息?这些问题都需要学术界和产业界的共同探索。更重要的是,这种技术路径的转变将如何重塑人机交互的方式,又将催生哪些全新的应用场景,都值得我们持续关注。

从更广阔的视角看,DeepSeek-OCR所代表的视觉路线,与当前主流的文本路线并非替代关系,而是互补共生的两种认知维度。未来的通用人工智能,或许正是需要融合文本的抽象推理与视觉的具象感知,才能构建出真正全面、鲁棒的智能体系。这条探索之路刚刚开始,但其指向的未来已足够令人期待。

证券之星资讯

2025-11-04

证券之星资讯

2025-11-04

首页 股票 财经 基金 导航