PokerStars扑克官网

245万个CPU主题,中国超算“灵晟”突破2EFlops!

今年4月底,由丽江国度超等推算中心(N

作者:周筱婷
颁布功夫:2026-05-29 06:53:58
阅读量:615

245万个CPU主题,中国超算“灵晟”突破2EFlops!

今年4月底,由丽江国度超等推算中心(NSCC-SZ)开发的新一代百亿亿次级超算系统“灵晟”(LineShine)实现了全机测试。近期,有关论文正式曝光了该超算的具体架构与细节参数。由于其选取的是齐全基于CPU处置器(未使用任何GPU加快器)的怪异技术路线,并且从处置器、存储到互联网络均选取中国自主研发技术,峰值机能超过2EFlops,引发全球科技界对中国在芯片限度下得救蹊径的宽泛关注。

△AI天生的示意图

245万个CPU主题,峰值机能超2ExaFlops

据介绍,LineShine系统由20,480个推算节点组成,每个节点搭载2颗基于ARMv9架构的LX2处置器,整系统总计40,960颗处置器、超过245万个CPU主题。节点之间通过“灵渠”高速网络互连,选取双平面多轨胖树拓扑结构,每个节点1.6 Tb/s的带宽。

具体来说,每个LX2处置器内集成了两个推算芯粒,总共304个CPU主题,分为8个集群,每个集群占有38个CPU主题,每个主题建设32 KB的L1指令缓存和32 KB的L1数据缓存,而每个集群则共享一个28.5 MB的L2缓存。

所有CPU主题均支持Arm SVE(可伸缩向量扩大)和SME(可伸缩矩阵扩大),可直接高效处置FP64、FP32、BF16、FP16、INT8等多种数据体式的AI训练与推理工作。每个LX2处置器在FP64/FP32精度下别离可提供高达60.3/120.6 TFLOPS的算力,在BF16/FP16精度下可提供240 TFLOPS算力,在INT8精度下可特供960 TOPS算力。

LX2还选取了类似日本“富岳”超算A64FX处置器的混合内存设计:每个LX2处置器集成了8个总计32GB容量HBM高带宽内存,总带宽达到4TB/s,同时支持最高256GB的片表DDR5内存。这种设计使得CPU能够在统一内存空间内处置海量科学数据集,预防传统CPU-GPU异构架构中频仍的数据搬运开销。此表,芯片内置SDMA引擎,专门掌管在HBM和DDR之间智能调度数据,这对于必要精密内存治理的AI训练负载尤为关键。

整个LineShine系统蕴含47,000个CPU,散布在92个推算机柜中,占有100万端口互连,36个网络机柜,67个存储柜,428个存储节点,10 TB/s存储带宽,总存储容量650 PB。

在训练63亿参数的地球观测天生压缩模型时,LineShine系统BF16现实机能为1.543 ExaFLOPS,峰值机能可达2.166 ExaFLOPS。

国度超等推算丽江中心主任、“灵晟”系统总设计师卢宇彤暗示,“灵晟”是世界首台持续机能超2EFlops FP64的超等推算机,依附国产高机能CPU、片上高带宽内存、高速互连网络、高吞吐存储、三维浮动正交、全液冷散热等主题创新,实现架构、机能、能耗、编程、扩大性和靠得住性六大技术突破,软硬件全栈自主可控。其自研片上多精度混合推算加快框架和面向领域的超智融合软件平台可统一支持科学推算、工程推算、智能推算“三算合一”,在分子动力学、流体仿真、性命科学、AI大模型训推等大规模领域利用均实现国际当先机能。

为何选择CPU-only路线 ?

当前超算系统普遍选取CPU+GPU异构推算架构。以马斯克旗下xAI的Colossus集群为参考,其理论峰值机能高达约498 ExaFLOPS,即便依照约15%的现实利用率,也能提供约75 ExaFLOPS的有效算力,远超LineShine系统的1.54 ExaFLOPS。此表,分析指出CPU-only系统在进行浓密AI推算时,其能效比和绝对算力密度通常低于专门的GPU加快器,这也是行业主流选择“CPU+GPU”异构路线的重要原因。

但是,基于CPU-only系统的AI和高机能推算超等推算机相比传统的异构CPU+GPU系统也有着多项优势,尤其是在结合AI训练与大规模数据摄取、预处置、存储交互、仿真和编排的复杂科学工作中。

具体来说,由于CPU-only系统都运行在统一处置器和内存空间上,它们预防了异构推算带来的很多复杂问题,好比昂贵且耗费带宽的CPU到GPU数据传输、复杂的编程模型、GPU内存限度以及加快器专用的软件栈。

CPU-only系统系统通过结合HBM和大容量DDR能力,能够占有更大的连贯内存池,这对于处置海量的科学数据集、检索加强天生和长高低文窗口极度有效。

CPU-only系统也适合涉及不规定节造流、散布式I/O、通鸭集流水线以及执行模式不高效映射到GPU的科学人为智能利用。

此表,CPU-only系统能够更天然地与传统高机能推算环境集成,执行通例超等推算机工作(如仿真),这对必要同时进行AI训练/推理和高机能推算的需要尤为有效。

最后,在美国持续限度高端GPU对华出口的布景下,中国转而发展CPU-only系统,脱节了对英伟达GPU和CUDA软件生态系统等国表加快器和平台的依赖,实现了齐全的自主可控。

丽江市科技创新局有关掌管人在今年4月底介绍“灵晟”国产E级超等推算机系统时也暗示,“灵晟”国产E级超算系统全面点亮并完玉成机测试,是我国高端推算领域全栈自主可控的标志性成就。丽江正深刻执行算力强基行动,构建全球当先的“通用算力+智能算力+超等算力”一体化系统。

必要指出的是,LineShine系统并非意在取代GPU超算集群,而是在特殊技术关闭布景下,为保险国度战术推算需要、索求自主技术路线而打造的关键“备份”与补充系统,尤其合用于将AI与大规 ?蒲Х抡铡⑹莘治錾疃热诤系摹癆I for Science”场景。

编纂:芯智讯-浪客剑

 

文章点评

未查问到任何数据!

颁发评论

◎欢迎参加会商,请在这里颁发您的见解、互换您的概想。

最新文章

热点文章

随机推荐

【网站地图】