其实中科曙光打破了国外垄断这件事值得大家看看，他们发布了首款全栈自研的400G无

其实中科曙光打破了国外垄断这件事值得大家看看，他们发布了首款全栈自研的400G无损高速网络产品，叫scaleFabric。简单来说，就是给万卡集群大规模算力系统，实现网络互通的。

因为单张显卡的算力再强，它的性能也是有天花板的。如果我们要把算力往上提，那就只有把几万张显卡凑在一起搞集群协同工作，这才是是唯一的出路。

万卡这东西对于咱们普通人来说，可能有点陌生，但对于国家来说，这种大规模算力系统才有真正的战略价值，像做天气预报、搞基因测序、发现新材料、探索宇宙，甚至是国防、军用、金融等等，都是必不可少的，全得靠海量的计算。

咱们可以这么理解，这东西就是AI的“水电”的基础设施，而因为数据传送技术，也被称为“算力大动脉”。

咱们现在AI算力群问题不是芯片，反而是数据传输技术更严重的一点。

啥意思呢？

以前大家总觉得，搞这个万卡集群，数量越多算力就越强，咱们也能依靠大量的AI算力芯片，打破美国垄断，但却忽略了一个问题，这些计算卡可要不停地同步和交换数据。，把几万块显卡组织到一块，它们之间怎么传数据，是个大麻烦，尤其是显卡越大，传数据越麻烦。

根据研究显示，在这种训练里，网络通信占掉的时间比例已经达到百分之三十到五十，如果用上更复杂的并行策略，这个比例能到百分之五十到七十。如果把时间都浪费在数据传输上，那么损耗的电力、算力等资源非常恐怖。

更关键的是，如果是单一的万卡集群，那么还没啥，但是咱们国家是有几十万格集群。

这么一加起来，浪费的资源和时间就非常恐怖了！

因此必须解决这个问题，以前咱们得方法是买买买，也就是向英特尔买，但现在显然不行，给你来一个后门，或者关键时刻给你来一下，就老实了。

那就只能自己突破了！曙光scaleFabric就是这么来的，更关键点的是它不是一个环节突破，而是从最底层的112G SerDes IP、交换芯片，到网卡、交换机，再到驱动和管理软件，全都是自己研发的。

也就是说，咱们其实是打破了这个垄断，保证了咱们AI算力群的安全和效率，确实牛啊！点赞

0 阅读：0