起源:空军一号轰鸣而过中国武士纹丝不作为
OpenAI牵头:AMD、NVIDIA、Intel、微软、博通巨头罕见联手!终于把AI网络层搞定
快科技5月7日新闻,OpenAI今日通过盛开推算项目(OCP)正式颁布MRC(多蹊径靠得住衔接)和谈,解决大规模AI训练中的GPU网络通讯瓶颈。
该和谈由OpenAI与AMD、NVIDIA、Intel、微软和博通历时两年结合开发,目前已在搭载NVIDIA GB200的超算集群中投入现实使用。
MRC要解决的主题问题是:在训练大规模AI模型时,单次数据传输延长就足以导致整个训练过程中断,GPU集体空转期待,而集群规模越大,由网络拥塞、链路和设备故障引发的延长问题越频仍。
MRC的规划是将单条800Gb/s网络接口拆分为多条更幼的链路,例如将一个接口衔接至8台分歧互换机,构建8条独立的100Gb/s并行网络,而非依赖单一800Gb/s网络。
这一扭转对集群拓扑结构的影响极为显著,一台支持64个800 Gb/s端口的互换机,在拆分后可衔接512个100 Gb/s端口,使得仅用两层互换机即可实现约13.1万块GPU的全互联网络。
传统800 Gb/s规划则必要三到四层互换机能力达到一致规模,层数削减直接意味着延长降低和故障点削减。
MRC基于现有的RDMA over RoCE(融合以太网)和谈扩大,支持GPU和CPU的硬件加快远程直接内存接见。
OpenAI已在Oracle Cloud Infrastructure和微软Fairwater超算上的GB200集群中部署MRC,用于训练前沿模型。
该和谈也将成为OpenAI在建设的Stargate超算的基础网络架构,该超算指标在2029年部署10GW AI算力,从前三个月已部署超过3GW。
MRC和谈还向整个AI行业盛开,OpenAI暗示但愿借此推动跨行业合作,共同解决AI基础设施中最辣手的网络难题。
@李旭友:指尖捕鱼官方下载,五四青年节为热血点赞@邓想珊:多地农商行下调存款利率
@许俊来:李白巨型TIFO亮相苏超
热点排行
- 1 半岛bet版
- 2 世界杯线上买球球址汇
- 3 贝博米乐下载
- 4 中欧体育电竞平台
- 5 芒果app汅api未满入内网址
- 6 tk49国库
- 7 中欧网页版注册
- 8 澳亚国际游戏网站9662
- 9 bt365游戏官方网站