400G光模块，够ChatGPT用吗？-深圳市升腾元科技有限公司

下一篇：没有了

400G光模块，够ChatGPT用吗？

发布于：2023-11-25 15:13:51

今年初，以ChatGPT为代表的AIGC应用横空出世，火爆程度席卷全球。国内互联网公司也争相进行大规模的大模型投资。由此带来的问题之一是GPU的互连接口和带宽，国内此前采用的通用以太网架构大多基于400G体系，第三代与第二代400G的不同之处在于前者的host板卡侧基于下一代112G Serdes/PHY，可以非常灵活地过渡升级到800G系统。

因此，目前国内大型互联网公司在AI大模型的互联方面大多采用800G接口降速为400G的应用，但在后续接口应用上，实际上都是基于112G技术。

就目前而言，400G还能够满足AIGC的需求，但随着GPT-4和GPT-5对算力要求的不断增加，预计下一代GPU互联需要超过800G带宽才能满足需求，这也将推动整个产业链迅速转向下一代基于112G的新架构和多沟通模型。

如今，不仅是板卡内部通信，甚至板卡之间以及与交换机的连接，都采用了这种典型的结构。在连接需求剧增的情况下，如何确保多通道112G在不同的情况下能够稳定运行，是目前整个产业链正在努力解决的问题。

从400G到800G，需要注意什么?

从切换过程来看，400G到800G，需要特别注意的点有哪些呢?

AI大型模型是一个整体系统，涵盖了芯片、板卡、服务器和交换机，最终构成了需要相应资源调配的后端管控系统。在光通信方面，首要考虑的是光模块和IOC电缆等光连接技术，这些光连接涉及的距离可能从3米、10米甚至到100米不等，典型的互联方式各有不同。

因此从400G切换到800G系统时，有几个核心要点值得注意：

首先，要关注光模块的封装。硅光对下一代AI应用而言是非常重要的技术，因此现在的光模块设计更注重性能。目前硅光是单模技术，但随着技术发展，最终可能在成本上与传统多模光技术持平，由此带来的集成度会更高。

其次，数字信号处理(DSP)。尽管目前出现了一些线性驱动可插拨光模块(LPO)技术，但目前主流应用仍然基于DSP技术，关于这两者的性能平衡问题，学术界和行业内还存在不同看法。部分声音认为DSP和LPO已经达到了良好的性能平衡，可以在许多交换机上应用来实现更好的性能；另一部分则认为LPO技术在前10分钟内性能非常好，但随着时间推移，Margin会越来越低，直接导致热噪声，没有DSP的情况下，反射或温度带来的效应会加重后端主芯片处理的压力。

如果能实现DSP和LPO之间的平衡，就能确保在不同环境条件下，交换机长期稳定运行。

最后，112G技术成熟度。这涉及到从插件、PCV、先进封装和交换机性能、系统集成和处理等方面整个产业链，现在每一步看起来都面临着巨大的挑战。

我们今天讨论800G，明年也许就会讨论1.6T，这是AI大模型超前部署或大规模部署导致的数据流量的变化带来的加速，光模块厂家必须提前布局。