DeepSeek最新开源的模型DeepSeek-OCR受到海外开发者关注。该模型提出了“上下文光学压缩”的思路,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。编码器DeepEncoder将图片转为高压视觉token,解码器DeepSeek3B-MoE-A570M则从视觉token重建文字,实现以小博大。
甚至有开发者惊呼,DeepSeek-OCR的推出是“AI的JPEG时刻”。
DeepSeek最新开源的模型DeepSeek-OCR受到海外开发者关注。该模型提出了“上下文光学压缩”的思路,通过用少量的视觉token来表示原本需要大量文本token的内容,以此降低大模型的计算开销。编码器DeepEncoder将图片转为高压视觉token,解码器DeepSeek3B-MoE-A570M则从视觉token重建文字,实现以小博大。
甚至有开发者惊呼,DeepSeek-OCR的推出是“AI的JPEG时刻”。
猜你喜欢
作者最新文章
热门分类
财经TOP
财经最新文章