FrancoisFleuret提出了一种全新的Transformer模型

爱生活爱珂珂 2025-10-23 08:27:57

Francois Fleuret 提出了一种全新的 Transformer 模型,实现了基于隐变量的条件生成。其核心思想是在生成时仅依靠随机性,而训练时则采用条件变分自编码器(VAE)的策略。模型通过共享编码器和解码器一半的层,将额外的非因果专用模块加入解码器,从而使编码器能观察整个序列,并利用 KL 散度来调控传递信息的量。实验结果表明,随着 KL 散度的增大,模型逐步依赖于隐变量,直至出现崩溃现象;同时,在不同参数规模和数据量(从 1.5B 参数/47B token 到 8B 参数/1T token)的设置下,这一方法均显著提升了标准基准测试的表现。该探索不仅为生成控制提供了新途径,更从密度建模角度扩展了模型的“内部样本”范畴,启示了未来 β-Transformer-VAE、VQ-Transformer-VAE、WAE-Transformer 等结构的研究方向。

🔗 《The Free Transformer》 arxiv.org/abs/2510.17558

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注