老美这次怕是要彻夜难眠了。 这些年,西方总想着用技术封锁卡我们的脖子,尤其是在芯片领域,高端光刻机被禁运,就想让我们的高端算力发展停步。但他们可能没想到,我们已经走出了一条新路子。 北京大学孙仲团队联合其他研究团队,拿出了一款新型芯片的硬成果,不仅在特定任务上的算力比当前顶级GPU还高千倍,能效提升百倍,更关键的是,它能绕开高端光刻机的限制,用成熟工艺就能量产。这一下,那些靠封锁就能锁死我们的想法,彻底落空了。 现在我们用的高端算力芯片,比如顶级GPU,处理大规模数据计算时,速度和能耗都是大问题。孙仲团队的这款新型芯片,在处理矩阵计算这类特定任务时,表现完全不一样。 实验数据显示,当处理32×32矩阵求逆任务时,它的算力已经超过了高端GPU的单核性能;要是任务规模扩大到128×128矩阵求逆,它的计算吞吐量直接达到了顶级数字处理器的1000倍以上。 简单说,同样处理一个128×128的矩阵计算任务,顶级GPU要花一天时间,这款芯片可能一天能完成上千个,效率提升非常明显。 能效方面的优势更突出。相同精度要求下,这款新型芯片的能效比传统数字处理器提升了超100倍。这意味着,完成同样多的计算任务,它消耗的电量只有传统芯片的百分之一。 现在数据中心、人工智能训练中心都是耗电大户,要是用这种芯片,能节省大量电力,降低运营成本,这对大规模算力应用来说,是非常关键的优势。 更让西方封锁失效的,是它绕开高端光刻机的能力。这些年,高端光刻机一直是我们的“卡脖子”难题,尤其是制造7纳米以下先进工艺芯片必需的极紫外光刻机,被国外垄断,还禁止向我们出口。 但孙仲团队的这款新型芯片,根本不需要这么高端的设备。它基于阻变存储器制造,采用28纳米及以上的成熟工艺就能量产。 28纳米工艺是我们已经完全掌握的成熟技术,相关生产设备和产能都很充足,不用依赖任何国外受限设备。这就相当于,西方在高端光刻机这条路上堵死了我们,我们却在另一条成熟工艺的路上,造出了性能更优的芯片。 用成熟工艺,计算精度会不会不够?这正是孙仲团队突破的核心难题之一。过去的模拟计算芯片,精度很低,相对误差能达到1%,这种误差在大规模计算中会不断累积,最后导致结果完全不准。 而孙仲团队通过原创的反馈电路和迭代优化算法,把相对误差降到了千万分之一的量级,相当于把精度提升了五个数量级,首次实现了24位定点精度的模拟计算。这个精度已经和主流数字计算的32位浮点精度相当,完全能满足人工智能训练、6G通信等前沿领域的需求。 比如6G通信里的大规模多输入多输出信号检测。这个任务需要快速处理大量天线接收到的信号,对算力和实时性要求很高。 孙仲团队用这款芯片做实验,仅需三次迭代,检测性能就和32位浮点精度的数字处理器差不多,而且响应速度极快,模拟矩阵乘法的响应时间只有约60纳秒,矩阵求逆电路在120纳秒内就能完成收敛。 这意味着,未来用这款芯片做6G基站的信号处理,能让网络响应更快、容量更大,还能降低基站的能耗。 在人工智能领域,训练一个大型AI模型,需要海量的矩阵计算,耗时耗力。这款芯片的高算力和高能效,能大幅提升模型训练的速度,还能降低训练过程中的电力消耗。 而且它的低功耗特性,未来还有可能用在手机、智能终端等小型设备上,让这些设备不用依赖云端,就能直接完成复杂的AI计算任务。 需要说明的是,目前这款芯片还处于实验室阶段,团队下一步计划在两年内把芯片的阵列规模从现在的16×16提升到128×128,最终力争扩展到512×512,达到这个规模后,就能在具身智能、6G通信等中等规模场景中产生实际效用了。 但这并不影响这个成果的重大意义,它最关键的价值,是证明了我们在芯片领域,不用跟着西方的技术路线走,也能实现突破。 过去,西方总觉得靠技术封锁就能限制我们的发展,尤其是在芯片这种高端领域。但孙仲团队的成果告诉我们,封锁只能倒逼我们创新。 这款新型芯片,用成熟工艺实现了高端性能,既解决了算力和能效的问题,又绕开了光刻机的限制,为我们开辟了一条全新的算力提升路径。 孙仲团队的新型模拟矩阵计算芯片,有三个核心硬指标:128×128矩阵任务算力超顶级GPU千倍以上,相同精度下能效提升超百倍,28纳米成熟工艺可量产绕开高端光刻机。 这不是夸张的宣传,而是实实在在的技术突破,也让我们看到,换道超车,我们真的有了新路径,那些想靠封锁锁死我们的人,该醒醒了。 对于此事,你有怎样的见解?欢迎在评论区分享你的观点。
