PokerStars扑克官网

起源:国乒男团3-0横扫日本队实现12连

起源:国乒男团3-0横扫日本队实现12连冠作者: 阮馨学:

用华为算力训练,讯飞详述难题和优势

文/观察者网 吕栋

“由于昇腾910B芯片的硬件设计限度,蕴含显存容量显著低于H200芯片(64G Vs 141G),显存带宽差2倍(1.6TB/s Vs 4.8TB/s )等,(H200是英伟达的中等配置芯片),这些限度导致在新模型训练过程中遇到很大的难题。”4月29日在业绩会上,科大讯飞治理层罕见陈述了在昇腾芯片上训练大模型时遇到的挑战。

在智能体利用发作确当下,大模型对超长高低文建模、工具挪用、项目级代码等复杂能力的要求急剧攀升,而国产算力的显存和带宽限度,使得训练这类模型变得辣手。当国际主流算法出来后,在英伟达GPU上直接就能够做,但在国产卡上必要额表解决算子库效能优化等一系列问题,必要额表3-6个月的适配周期。

对峙在华为昇腾上训练,科大讯飞的做法相对激进,但现实的选择也并没有太多。中美科技的博弈持续深入,多家中国公司被实体清单羁绊,最先进的GPU买不到,海表生态不成靠的现实更不需反复论证。

携手国产算力训练大模型,是科大讯飞不幼的挑战,也是AI时期唯一的得救蹊径。“近期有一些媒体报路DeepSeek V4是昇腾算力上训练的,但现实只是基于昇腾算力对V4模型做了推理适配,DS V4的训练依然是基于英伟达卡进行的。”科大讯飞治理层在业绩会上暗示,目前国内依然只有讯飞一家在全国产算力上完玉成栈模型的训练。

用国产算力推理和训练,难度分歧

大模型的竞争,不是一场单纯的贸易较量。近日,表商投资安全审查工作机造办公室(国度发展鼎新委)依法依规对表资收购Manus项目作出不容投资决定,要求当事人撤销该收采办卖。

监管关注的并非买卖结构自身,而是技术节造权的归属,蕴含主题研发能力、系统架构、数据起源及关键人才是否产生内容性转移。这一事务也开释出一个明确信号:AI主题资产并不是能够轻易流动的通常资产,人为智能时期的主题技术在被纳入国度安全框架。

英伟达CEO黄仁勋也在近期的访谈中直言,美国对中国的出口管造正产生反成效,反而加快中国AI产业的内部整合。他忠告,这种“被迫”的深度融合,可能催生出一个齐全去美国化的、垂止佧合的AI技术栈。他否决把中国排除在美国技术栈之表,以为这会造作两个生态系统,反而不利于美国。更关键的是,出口管造并不能真正阻止中国推动AI。

但国内市场对“算力代替”的解读,往往有些单方面。今年2月,智谱颁发GLM-5实现与华为昇腾、摩尔线程、寒武纪等主流国产芯片平台的“深度推理适配”。4月,DeepSeek-V4上线,华为昇腾、摩尔线程等多家国产芯片厂商均颁发实现“Day0适配”。

这些进展极度沉要。智能体爆火之后,一个工作可能不是挪用模型一次,而是几十次、上百次地挪用模型,持续进行规划、搜索、写代码、读文件、挪用工具和反思沉试。token挪用量越大,推理成本越敏感,国产推理适配的贸易价值就越大。

但“能推”和“能训”,中央有一条宽敞的天堑。训练不是把现成模型搬到芯片上去跑,而是要让模型在国产芯片集群上,实现从数据、架构、并行战术、通讯机造、算子库、容错系统到最终收敛的全过程。任何一个环节出问题,训练效能就会断崖式下滑。

有时,由于算子差距和模型散布式战术,会造成训练推理精度一致性对齐的难题;有时又会由于一致性对齐但是训练效能很低导致难以训练。例如,在智能体强化进建训练阶段的采样推理操作效能,由于国产算力的通讯机造设计导致显著低于H200,甚至能相差5倍。

对于国产芯片而言,模型训练的难度远高于推理。但真正要突破卡脖子,又不能只停顿在“模型跑在国产芯片上”。由于若是底座模型的下一轮预训练、下一次架构升级、下一代智能体强化进建,依然依赖海表GPU和海表软件生态,那就无法真正实现自主可控。

换句话说,只有在国产芯片上训出一流大模型,国产算力生态才算实现得救。

华为昇腾芯片

已与昇腾950深度对接,讯飞称训练流程将加快

作为两家实体清单企业,讯飞很早就起头与华为昇腾携手。

在公开讲话中,科大讯飞董事长刘庆峰屡次强调自主可控算力平台的沉要性。他以为,大模型研提议首必要算力支持,但真正挑战在国产算力生态。

相比单一强调“适配国产芯片”,科大讯飞近些年把沉点放在了国产算力训练上,推动长思想链强化进建、MoE等前沿方向在国产算力上的训练效能优化。

“去年我们在910B集群上攻克了长思想链强化进建和首个昇腾原生MoE模型全链条训练的效能难题,训练效能从开箱状态下和同规模A800集群效能相比只有30%,别离提升至84%和93%。”科大讯飞治理层在业绩会上暗示,该公司与华为深度合作,发现并解决了很多底层bug,也日益形成了科大讯飞的优势。

财报显示,2025年,科大讯飞营收271.05亿元,同比增长16.12%;归母净利润8.39亿元,同比增长49.85%;扣非净利润2.64亿元,同比增长40.47%。“从前几年我们结合华为做了极度多的国产化适配和创新工作。正是这种问题的解决,使得星火大模型在央国企招投标中获得最高市场份额。”科大讯飞治理层暗示。

4月29日,科大讯飞推出基于昇腾910系列算力集群训练的30B中等体量MoE模型讯飞星火X2-Flash;,双方“硬件加算法”协同,结合优化DSA等关键算子机能,算子效能提升超过50%,结合DSA推算个性设计亲和的长序列散布式训练战术,攻克了智能体长高低文在昇腾910系列芯片上训练效能偏低的难题。

率直说,真正的国产化,是在国产算力上把模型训出来、训强、持续迭代。这一步一旦凌驾去,国产芯片就不再只是承接推理工作的代替品,而是进入大模型研发主流程。芯片、框架、算子库、通讯库、编译器、集群调度和模型算法会被迫一路迭代。国产算力生态不再只是表围兼容,而是成为模型进化的一部门。

持久以来,受表部环境影响,DeepSeek与华为联手成为多望所归,但DeepSeek-V4颁布后,并没有提到该模型基于昇腾训练;仓皇前凳,昇腾950通过融合kernel和多流并行技术降低Attention推算和访存开销,大幅提升推理机能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek-V4模型推理部署。

但科大讯飞这次明确暗示,将持续在昇腾950上训练大模型。

“我们当前已经与片华为团队针对950芯进行深度对接,在昇腾950平台上结合攻坚更高效模型结构、混合Attention机造、智能体强化进建等关键技术,由于950系列相对于910系列的显存、带宽算力等方面都有较大提升,预计我们当前的算法迁徙从前之后能够很大加快PokerStars扑克官网训练流程。预计在今年1024开发者节期间,在昇腾950平台上颁布中国首个对标业界最先进主流模型的旗舰大模型。”科大讯飞治理层暗示。

巨头环伺,仍要直面市场竞争

自主可控是一块坚实的压舱石,但它并不是护城河的全数。

某种意思上,国产算力训练的意思已经超过了“预防被卡脖子”的领域。它让科大讯飞面对中国重大的政企客户时,可能提供一种美国芯片系统无法比力的信赖感:齐全关环、数据不出境、技术不依赖海表。从中标成就来看,这种信赖在转化为真实的市场选择。

“依附星辰MaaS底座,公司实现全国产算力全链条服务,大模型安全测评位居行业前列,幻觉率低,是央国企招标优选模型。”科大讯飞治理层在业绩会上说路。

但国产算力生态依然处在美满过程中。除了昇腾生态的成熟度仍在追赶之表,全国产化链条中先进造程、HBM、高速互联、先进封装、EDA等环节依然存在挑战。训练突破的战术价值在于,它让国产算力从“可用”走向“主题可用”,从“部门代替”走向“系统代替”。

与此同时,科大讯飞面对的市场竞争也不容幼觑。千问占有阿里巴巴的重大生态和C端流量,在开源模型的社区影响力上依然当先;豆包在字节系的强力搀扶下,面向C端用户的产品履历和运营能力在急剧攀升;智谱则凭借与多家国产芯片的深度适配,在一体机和企业市场急剧铺开。当一个市场里有多个参加者都具备足够的技术实力和资金储蓄时,“自主可控」剽一维度的差距化优势,尚不及以确保一劳永逸确当先。

更值得关注的是,有竞争力的大模型不能仅仅局限在自主可控的市场中,还要走向更辽阔的领域,蕴含国际企业客户、全球开发者社区和盛开的技术较量。而这些领域,在很大水平上仍由英伟达的生态和通用推算系统主导。国产算力训练做得足够扎实,仍旧只是整个AI产业疆域的一部门?拼笱斗赡芊裨诩崾毓懔喂谭老叩耐,持续拓展国际影响力和贸易天堑,将是未来几年真正的考验。

能训是硬仗,能赢是更大的仗。在国产算力上持续训出强模型,在世界的大舞台上展示竞争力,才是中国大模型突破关闭、穿越周期更大的底气。

本文系观察者网独家稿件,未经授权,不得转载。

@林芳江:手机上能看的2020你懂的,巴西姑娘在上海租轮椅收成意表温暖
@吴俊宁:男子在车尾悬挂低俗标语被处罚
@郑子扬:警惕“台独”与日本右翼危险“双簧”

【网站地图】