其实中科曙光打破了国外垄断这件事值得大家看看,他们发布了首款全栈自研的400G无损高速网络产品,叫scaleFabric。简单来说,就是给万卡集群大规模算力系统,实现网络互通的。
因为单张显卡的算力再强,它的性能也是有天花板的。如果我们要把算力往上提,那就只有把几万张显卡凑在一起搞集群协同工作,这才是是唯一的出路。
万卡这东西对于咱们普通人来说,可能有点陌生,但对于国家来说,这种大规模算力系统才有真正的战略价值,像做天气预报、搞基因测序、发现新材料、探索宇宙,甚至是国防、军用、金融等等,都是必不可少的,全得靠海量的计算。
咱们可以这么理解,这东西就是AI的“水电”的基础设施,而因为数据传送技术,也被称为“算力大动脉”。
咱们现在AI算力群问题不是芯片,反而是数据传输技术更严重的一点。
啥意思呢?
以前大家总觉得,搞这个万卡集群,数量越多算力就越强,咱们也能依靠大量的AI算力芯片,打破美国垄断,但却忽略了一个问题,这些计算卡可要不停地同步和交换数据。,把几万块显卡组织到一块,它们之间怎么传数据,是个大麻烦,尤其是显卡越大,传数据越麻烦。
根据研究显示,在这种训练里,网络通信占掉的时间比例已经达到百分之三十到五十,如果用上更复杂的并行策略,这个比例能到百分之五十到七十。如果把时间都浪费在数据传输上,那么损耗的电力、算力等资源非常恐怖。
更关键的是,如果是单一的万卡集群,那么还没啥,但是咱们国家是有几十万格集群。
这么一加起来,浪费的资源和时间就非常恐怖了!
因此必须解决这个问题,以前咱们得方法是买买买,也就是向英特尔买,但现在显然不行,给你来一个后门,或者关键时刻给你来一下,就老实了。
那就只能自己突破了!曙光scaleFabric就是这么来的,更关键点的是它不是一个环节突破,而是从最底层的112G SerDes IP、交换芯片,到网卡、交换机,再到驱动和管理软件,全都是自己研发的。
也就是说,咱们其实是打破了这个垄断,保证了咱们AI算力群的安全和效率,确实牛啊!点赞

