PokerStars扑克官网

端侧算力的“奇点”时刻—需要，模型，芯片的三维共振

端侧算力的真正发作可能不在手机和电脑上

作者：阮琳谦

颁布功夫：2026-05-29 07:04:07

阅读量：859

端侧算力的“奇点”时刻—需要，模型，芯片的三维共振

端侧算力的真正发作可能不在手机和电脑上，而在会动的机械人身上。

5月18日，国盛证券通讯行业钻研团队（分析师宋嘉吉、黄瀚、邵帅）颁布深度钻研汇报，梳理了端侧算力在需要、模型、芯片三个维度的最新进展，并作出判断：端侧算力正走入"奇点"时刻。

这份汇报的起点，是一次坦诚的自我复盘。

两年前，国盛证券曾颁布端侧算力深度汇报，预判手机、PC等AI设备上的本地算力将迎来高速增长。但现实是——这些设备上的AI职能，大无数仍依赖云端算力，端侧算力并未如期放量。

端侧算力（On-Device Computing / Edge Computing）是指直接在用户终端设备（如智能手机、AI眼镜、PC、智能家居、此刻可能蕴含机械人等）上执行的数据处置和推算能力，无需齐全依赖远程云端服务器。

汇报用两句话总结了这段汗青："不要低估云端模型的能力天堑"，以及"需要不是凭空设想的"。

云端太强，传统端侧需要被"压住了"

从前三年，云端大模型的进化速度远超预期。

汇报指出，随着"超节点"、"PD分离"等云端算力架构部署，云端模型在能力急剧提升的同时，单元Token成本在加快降低。

以文生图为例：三年前高通还在端侧部署Stable Diffusion，端侧只能天生512×512的底图，逻辑性较差；而云端的GPT-4o、Nano Banana等模型已经能够在10秒内天生4K高分辨率图像，且逻辑细节远胜端侧。

正本支持端侧算力的三大理由——隐衷性、低成本、低时延——也在云端的强势进化下逐一被颠簸。汇报以为，"隐衷性"和"低成本"这两个需要在被证伪，真正站得住脚的，只剩下"低时延"这一个。

但这里说的低时延，不是指人类期待AI回复的速度。腾讯混元T1模型的吐字速度已达60-80 token/秒，首字秒出，早已低于人类舒服反映区间。

汇报所说的低时延，是设备对表部信号的内生处置速度

人脑处置视觉-活动反映约需180-200毫秒；而一个设备从接管信号、传送云端解析、再传回本地执行，往往必要2-5秒以上——若是是图片等多模态信号，还会更长。

这就是云端算力无法触及的盲区。汇报用了一个类比：把人体神经换成无线信号，把大脑换成云端算力，整个链路的不变性和延长就会被无线拉长。

需要在哪里？在会动的机械人上

锁定"低时延"这一主题命题后，真正的需要方向也随之清澈：让"类人终端"更像人。

分析师将当前类人终端按智能水平分为四类：

第一类：摄像优等感知硬件，必要处置更多路信号、更精密的鉴别模型

第二类：工具机械人（割草、泳池等），必要鉴别更多场景——好比割草机械人能鉴别宠物粪便、石头、积雪、落叶，就能进化为四时可用的"天井机械人"

第三类：智能车，必要理解异形阻碍物和极端复杂场景

第四类：人形机械人，必要实时理解物理世界并产生互动，输入涵盖视觉、听觉、触觉，输出是复杂肢体作为

分析师主题判断是：这一轮端侧需要，不是本钱市场的一厢情愿，而是来自"客户需要增长叠加行业能力进化的关环了局"——割草机械人、送餐机械人、无人汽车的遍及，让用户在接受基础职能的同时，也起头提出更高要求。

模型三级跳：从“看图识字”到“预判未来”

需要侧的演进，离不开模型侧的支持。汇报梳理了端侧视觉模型的进化蹊径，逻辑清澈。

第一代：YOLO模型

大模型时期之前，机械视觉依赖CNN算法下的YOLO模型。其道理是把图像划分为网格，让每个格子掌管预测其中的物体——汇报打了个譬喻：就像"一个经验丰硕的保安站在高处急剧扫视人群，只有某个格子里或许率出现了'车'或者'人'的特点，它就立刻画一个框圈出来"？，但有硬伤：难以处置异形物体和3D画面，也无法理解物品之间的逻辑关联。

第二代：Vision Transformer（ViT）

大模型思路引入视觉领域后，ViT打开了新天花板。它把图像切成幼方块，像做阅读理解一样，思虑每个碎片与全图其他碎片的关系。汇报的描述很形象："看到左上角的'猫耳朵'，它会立刻通过逻辑遐想到右下角的'猫尾巴'，即便它们隔得很远。"

ViT更亏损算力，这刚好买通了端侧算力升级的逻辑——更强的算力能够真正转化为更强的能力，而不是"空有算力却无法提升能力"。

第三代：VLM→VLA→世界模型

智能驾驶加快了这一演进。

VLM（视觉-说话模型）：能看懂图像并翻译成语义信息，相当于"坐在副驾的解说员"，把路况造成机械能听懂的"谍报"

VLA（视觉-说话-作为模型）：在VLM基础上参与"作为"维度，直接从视觉感知输出节造指令——"方向盘左打10度"、"油门踩下20%"，实现从眼睛直达手脚的端到端节造。英伟达已于近期颁布开源VLA模型Alpamayo

世界模型：更进一步，引入预测机造，在执行作为前预演未来几秒的多种情况，"通过天生未来的视频画面来评估风险，从而在无数个'平行宇宙'当选出最安全的那一条路去走"

机械人前沿：GEM模型

相比智能驾驶，让机械人理解并与物理世界互动的难度更高一个量级。智能车的指标是"预防与表界互动"，机械人则必须实时与表界产生物理和说话接触。

汇报以为，GEM（Grounding Embedding Model）是解决这一难题的可能蹊径之一。单一说，它能把机械人的感知数据（摄像头画面、激光雷达点云）和高层指令（"把蓝色的杯子递给我"）映射到统一个特点空间，让机械人即便没见过某个物体，也能通过语义理解实现作为。谷歌的RT-2模型已在索求这一方向，将图像、作为、说话全数token化来实现对齐。

汇报指出，GEM模型当前的重要痛点在于分歧模态信号的对齐，以及苦难性忘却、模态天堑等问题，"不仅必要模型工程上的持续优化，在未来执行层面，也必要专门的算力芯片架构进行共同"。

芯片之争：NPU遇到天花板，GPGPU向下渗入

模型需要确定了，芯片是最终落脚点。汇报具体分析了NPU与GPGPU两条路线的曲直。

NPU：从YOLO起身，遭逢架构瓶颈

NPU的第一波放量来自YOLO模型——安防摄像头、低级自主移动机械人大量搭载NPU芯片。瑞芯微RK系列凭借性价比和低功耗成为主流选择，其交易收入从2016年的12.98亿元增长至2025年的44.02亿元。

但进入大模型时期，NPU遇到了架构层面的硬约束：在扫地机械人等低功耗场景下，若是要运行以ViT为基座的模型代替YOLO，算力需要将靠近100TFLOPS。更关键的是，NPU短缺CUDA CORE，所有指令由CPU下发，而端侧功耗和成本限度下无法使用高机能CPU——"一旦在较弱的CPU下挂在了过多的NPU核，用于AI工作的指令就会占据CPU所有的通讯总线，从而使得设备宕机"。

当前有两条破局蹊径：

高通跃龙IQ10：换装更好的CPU和更大面积的NPU核，并融合部门GPU工作调度结构

瑞芯微RK182x：选取3D-DRAM+协处置器双轨并行，通过堆叠封装加大NPU与存储间的带宽，同时将AI推理从主芯片解放出来，缓解总线拥挤

GPGPU：从云端继承，生态优势放大

相比NPU，GPGPU的端侧蹊径更顺滑。云端GPGPU本就是全职能芯片，走向端侧只需按需缩减面积和主题数量，不存在NPU面对的架构刷新难题。

英伟达智能驾驶业务收入从2021财年的5.36亿美元增长至2026财年的23.49亿美元，Orin、Thor系列已推出覆盖分歧价位和算力段的产品线。

但GPGPU的主题优势不只是硬件，更在于生态。汇报指出，大部门端侧模型的预训练和微调都必要借助CUDA生态实现，"若是在端侧使用GPGPU架构的算力，那么无论是部署速度，部署成效城市远超必要转译的NPU环境"。同时，英伟达在FP4等低精度推理方面已有成熟规划，能够直接下放端侧，而NPU则追赶艰巨。

分析师的结论是：看好GPGPU架构在端侧渗入率持续提升。但英伟达高昂的售价注定其不会成为市场唯一选择，这也为高通（通讯+推算融合的SOC规划）和国内芯片公司（以性价比切入下沉市。┝舫隽丝占。

投资布局：芯片、模组、存储三条线

分析师将端侧算力的投资机遇分为三个环节：

芯片：价值量提升最大的环节。关注NPU迭代与GPGPU向下渗入。汇报出格指出，端侧设备中算力成本占比将显著提升，"这一逻辑与云端基建类似"。

模组：汇报称之为"郝吩保收的中央商"。端侧算力客户极端分散，模组公司承担衔接上游芯片和下游万千用户的桥梁作用。无论哪种芯片路线最终胜出，模组厂商都能受益。在IoT时期已实现全球"东生西落"的中国模组公司，被以为不会缺席这一轮增长。

存储：3D-DRAM是汇报沉点提及的新方向。端侧芯片的推理能力同样受内存大幼和带宽造约，3D-DRAM通过将DRAM与NPU堆叠封装，在低成本、低功耗前提下提升带宽。

　

【编纂者：吕秀美】

有关标签

江苏第二座30万吨级原油船埠正式投产幼创新撬动大市场广交会幼商品赢得全球采购商青睐香港航天怨毓示手臂上五星红旗并比心沪指开盘站上4200点贮存芯片概想股强势拉升

文章点评

未查问到任何数据！

颁发评论

◎欢迎参加会商，请在这里颁发您的见解、互换您的概想。

【网站地图】