[LG]《TransformersfromCompressedRepres

爱生活爱珂珂 2025-10-30 06:28:04

[LG]《Transformers from Compressed Representations》J C. L Alcazar, M Soldan, M Saatialsoruji, A Pardo... [King Abdullah University of Science and Technology] (2025)

本文提出了TEMPEST(TransformErs froM comPressed rEpreSenTations),一套从压缩文件格式(CFF)直接学习语义表示的高效Transformer方法。它巧妙利用压缩数据中的结构性子组件作为token,避免了传统基于字节级别的冗长序列处理。

相比于直接处理原始字节流,TEMPEST通过“块级”嵌入显著缩短序列长度,减少计算复杂度和内存占用,且无需完整解码,从而实现高效的多模态压缩数据理解。

在音频(MP3、Opus)和图像(JPEG)多种压缩格式与数据集上,TEMPEST达到了与最先进模型相当的分类准确率,同时序列长度缩短约3倍,注意力矩阵规模减少11倍,显著提升效率。

此外,本文发现多比特率训练和推理在压缩域内可视作数据增强,进一步提升模型泛化能力。TEMPEST不仅开启了压缩数据直接语义建模的新方向,也为海量媒体文件的快速分析提供了实用方案。

详细技术细节及实验结果见论文:

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注