翁荔陈丹琦公司第二篇AI论文OpenAI前CTO力挺流形优化新方法
明星创业公司Thinking Machines,第二篇研究论文热乎出炉!
公司创始人、OpenAI前CTO Mira Murati依旧亲自站台,翁荔等一众大佬也纷纷转发支持。
论文主题为“Modular Manifolds”,通过让整个网络的不同层/模块在统一框架下进行约束和优化,来提升训练的稳定性和效率。
之所以进行这项研究,主要是为了解决神经网络训练中的一个基本挑战:
网络内部的张量(如权重、激活、梯度)若数值过大或过小,会引发不稳定、梯度爆炸/消失、训练效率低下等问题。
因此,论文唯一作者Jeremy Bernstein提出了一种新的优化思路——模块化流形(Modular Manifolds),不仅对单个权重张量施加约束,还能把整个网络视为组合的流形结构,从而统一设计学习率、约束方式与优化逻辑。
下面具体来看。