扫一扫,下载登录/注册信息平权()发布于2024-03-23 21:25来自雪球·上海关注继续讨论GB200网络架构来源:雪球App,作者: 信息平权,(https://xueqiu.com/3032919926/283255556)
GB200网络架构的问题从周二一直研究到周五,各种猜想分歧很大,原因也很明显,NV留了一个盲点,要么方案他们内部也没确定好,要么还有新东西等后面发布。今天仔细梳理了过去一周的所有信息,大概有了眉目。
首先,让我们回到GTC之前被广泛流传的那份Taiwan报告(后来线下肉身见到了报告原机构的taiwan兄弟,他们也没想到流传这么广....),鉴于其准确度几乎99%,特意回去看了下报告中对NVL72网络部分的描述:
这就是GTC上发布的NVL72,上面写的清清楚楚,这一款是“Non-scalable”,不可扩展。原因也很简单,18个GPU tray:9个NVLink Switch tray,也就是72 GPU:18 NVS ASIC芯片。72张GPU 1.8TB/s双向互联总带宽需求是72*1.8=129.6TB,18个NVS ASIC也就提供了18*7.2TB=129.6TB(就是这么配的),意味着负责把72张GPU全部互联的所谓下行带宽已经占满了这9个NVS tray的全部端口,根本没有留出上行带宽。那怎么办呢?报告中提供了NV另一种方案——2个36
而且写的清清楚楚,这款是“scalable”的NVS,因为单rack内的GPU:NVS ASIC比例降低了一半,36:18,下行负载和上行负载各占一半。报告中描述如下:
每个NVS tray一半端口连接背板,一半端口连接18个OSFP(扩展端口)
rack to rack用的啥?LACC Linear Active Copper Cables(但要特别注意,这里仅仅可以明确是2个36机柜之间用铜;更多rack的互联,OSFP理论上可铜可光,且LACC的距离限制估计比较难满足最远rack之间的连接,大概率还是光)
这就很清楚了。要扩展,就用36卡的机柜。既可以用LACC连接隔壁rack的交换机,扩展为一个72卡的NVL72。也可以继续扩展更多rack,比如大家关心的576卡,一共16个小rack(8个大rack),但这就需要再加一层NVS 网络了(类似GH200),每个rack的L1 NVS端口一半上行连接到L2(前提是无阻塞上行)。但到这里,分歧来了。你会听到有人说类似GH200 1:9,有人说第二层直接走back end网络也就是IB,那就是1:2.5/3.5等等。当然,也出现了另一种最为激进的理论,就是576卡(8 72 rack或 16个36 rack)之间全部或者一半用了full mesh,直接走铜...这个似乎过于激进...因为首先1)在rack距离进一步压缩之前,这可以说是挑战铜的物理极限了...(如果是真的我给NV跪了)。2) blackwell这一代的理念就是尽量向前兼容供应链,你说72内用了这么多铜已经invovle了新供应商,用更多,似乎供应链也不太支持。