🇨🇳中国字节跳动推出了一款AI视频编辑器,在视频理解能力上优于Gem

姬永思锋 2025-11-30 18:22:55

🇨🇳 中国字节跳动推出了一款 AI 视频编辑器,在视频理解能力上优于 Gemini 3 Pro。Vidi2 是一种视频模型,能通过文本在长视频中准确定位动作与物体。它在全新的检索与定位基准上明显领先主流商业模型,在视频问答任务中同样表现优异。大多数现有工具无法真正“读完”整段视频,因此搞不清事件何时开始、结束,以及参与者是谁。Vidi2 加入了时空定位功能:面对文本查询,它既预测准确的时间段,又在连续帧中为目标物体生成一条边界框轨迹。其核心采用多模态编码器加语言模型主干,联合处理文本、视觉帧与音频,并在合成片段与大量真实视频的混合数据上训练。为应对极短与极长片段,它自适应压缩视觉 token,使内存受控且不丢失关键上下文。团队还构建了两个长视频基准,分别用于时空框和时序检索,通过预测与真实时间、框的重合度给模型打分。

0 阅读:0
姬永思锋

姬永思锋

感谢大家的关注