智谱和DeepSeek撞论文了AI视觉Token大战撞车刚发论文就撞车,智谱和D

量子位看科技 2025-10-23 10:40:48

智谱和DeepSeek撞论文了AI视觉Token大战撞车

刚发论文就撞车,智谱和DeepSeek这回在视觉Token方案上正面打了个照面。

前者刚开源Glyph,后者OCR方案还在热搜。两家都盯上了一个目标——用图像压缩文本Token,让大模型吃下更多内容、更省算力。

大模型能力是猛,但上下文太长一直是块难啃的骨头。

原来50K的上下文窗口想翻倍到100K,算力直接飙到4倍,关键是,效果未必更好。

信息太杂,模型不但不聪明,反而更迷糊。

所以这两年主要有3类解决方案:

- 拓展位置编码,但推理成本不降

- 优化注意力机制,速度快但Token还在

- 上RAG走检索,快是快,质量难说

先看智谱这边,这次选择了“看图说话”:

- 把长文本排版成图片当成输入

- 用视觉大模型一次性读完,不用Token拆碎再拼

- 同样长度的输入下,能看内容更多,还能理解整体结构

比如一部《简·爱》文本版本要240K Token,视觉形式只用80K视觉Token就能看完。

而DeepSeek靠OCR压缩Token,同样方向、不同路径:

- OCR更贴近真实文档解析场景

- Glyph更偏学术范式实验+训练体系完整设计

但从底层逻辑来看,两者都在试图把“像素”当作未来AI的基本单元。

卡帕西早就喊过:像素天然比文本更适合作为LLM输入。信息密度高、内容类型全、形式也灵活。

换句话说,文本是人类给机器的适配方案,而视觉输入,才更像AI自己“看世界”的方式。

这场撞车,也许是下一代AI范式切换的信号。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注