起源:新人500元请司仪要求随礼600作
人形机械人交付元年,行业从卷模型转向拼数据
2026 年 4 月,斯坦福 HAI 颁布的《AI Index Report 2026》揭示了具身智能的凶残近况:机械人操控在仿真环境中的成功率高达 89.4%,但在真实家庭场景中骤降至 12%。
这 77 个百分点的“迁徙天堑”(Sim-to-Real Gap)成为行业当下所有作为的注脚:特斯拉在 2025 年 Q4 财报会上坦言,Optimus 目前的首要工作并非干活,而是通过实地运前进行数据采集;“十五五”规划纲领明确提出两全布局具身智能实训;不到一年功夫,国内涵建或建成的具身智能训练场靠近 30 家。
最强势的玩家、最高层的政策、最密集的基础设施投入,全数围着统一件事打转:那 77 个百分点要靠什么补上。
去年比模型,今年比数据
步入 2026 年,具身智能的行业叙事产生了变换。
最直观的体现,在于全球权威机构对“人形机械人数据”职位的沉新界说。《麻省理工科技评论》在 2026 年度 AI 洞察中,将其列为当下最沉要的命题。其主题逻辑在于:大说话模型靠海量文本学会了天生说话,那人形机械人能不能靠海量活动数据学会在真实世界里干活?
然而,描述人类活动方式的数据集远不像互联网文本那样现成。智元机械人首创人之一、觅蜂科技 CEO 姚卯青曾在 4 月的一场颁布会上给出一组对比数据,大说话模型 GPT-5 训练语料折合约 100 亿幼时,而全行业汇聚的高质量具身数据仅约 50 万幼时,差距以万倍计。
乐聚机械人技术总监王松也曾深度分解具身智能行业的主题痛点。他指出,当前人形机械人产业发展面对本体与幼脑技术趋于成熟,但“大脑”进化严沉碰壁于数据的困境。真机数据是模型落地的最后一步,也是关键一步,而训练场则是规;⑾低郴霾婊莸幕∩枋。
为了凑出这个数据集,全行业起头走出尝试室:在中国的训练场,工人穿戴表骨骼和 VR 设备沉复着单调的作为;在阿根廷和印度,零工们通过拍摄家务视频换取报答......
这种集体转向并不是无意。“我们能够参考自动驾驶做一个粗略的对照。训练一个 L4 级自动驾驶模型,所需数据量通常以百万幼时计;而人形机械人的自由度、操作复杂度、场景多样性比自动驾驶逾越 1 到 2 个数量级,对应的数据规模差距也在这个量级。也就是说,训练一个具备盛开世界泛化能力的具身基座模型,所需真机数据量大体在数百万到上千万幼时之间。”王松暗示。
那能不能用仿真来补?
仿真善于足式活动等刚体动力学工作,但在“接触丰硕”(contact-rich)的场景下力有不逮。2025 年的一项钻研指出,仿真器难以建模零件形变、非线性摩擦及柔性物体(如衣物、流体)的物理个性。工业精密装配或家庭折叠衣物时,由于建模成本和算力开销甚至高于真机采集,仿真无法齐全代替现实。
在真实部署的“最后一公里”,真机数据仍是跨不外的门槛。仿真环境是梦想化的,而现实充斥变量:光照扭转、物体移位或杯子沉了 50 克,都可能导致模型失效。补齐 77% 的成功率缺口,依附的不是更大规模的模型,而是覆盖多变量、多样本的真机数据。
这一行业共识,在乐聚的实际中得到了最直接的验证:400 条高质量真机数据训练成效远超 1,300 条低质量数据,模型迭代时长由 7-10 天缩短至 2-3 天,整体飞轮效能提升 3 至 4 倍,设备部署成功率从不及 60% 提升至 90% 以上。
此表,乐聚率先跑通了真机数据的贸易化关环。依附规;盗烦∠低,数据服务成为独立业务,落地服务一汽、海晨物流、兆丰等实体企业。其以真实产业场景、成熟贸易买卖,切实证明:真机数据既是技术迭代的主题抓手,也是具身智能走向规;逃玫墓丶С。
机械人的“练兵场”
采集真机数据并不容易,单台机械人动辄数十万的成本、关节磨损的守护开销,以及低效的遥操作,使得数据采集成为一种高壁垒的行为。
这也是为何数据“训练场”已从企业内部设施演变为具身智能产业的公共基础设施。2025 年以来,建设具身智能训练场这一产业共识在急剧转化为国度层面的战术部署,“十五五”规划纲领明确提出两全布局具身智能实训场,推动虚实融合协同训练。
凭据中国信通院结合清华大学电子工程系颁布的《具身智能发展汇报(2025年)》,国内已建成或打算在建的训练场已靠近 30 家。石景隐士形机械人数据训练中心作为目前全国最大的中枢,通过“采集-洗濯-标注”的全流程关环,年产高质量训练数据超 600 万条;上海张江则聚焦异构机械人训练,打算形成千万级数据集,力争突破分歧本体间的数据孤岛。
头部企业在这场数据飞轮竞争中阐发尤为激进。
好比,乐聚在全国参加建设了十个训练场,年产真机数据 2,500 万条。数据覆盖轮臂、灵巧手、全身运控全维度,横跨工业、商服、家庭、康养四大类,共 219 种场景、1,751 个工作、5,592 个物体。
LET 数据集全平台下载量突破 100 万次。60,000 分钟真机数据免费开源,还罕见万幼使劓机数据已交付行业客户——从开源影响力到贸易变现,一面服务开源生态,一面服务具身基模数据产业。
凭据公开信息,其近期颁布的训练场 2.0,提出了 LET 三级数据系统,覆盖轮臂、灵巧手与全尺寸人形,并要求全信号同步误差节造在 10ms 以内,并通过 1:1 还原智能造作和智慧物流场景,极大地缩短了模型在现实环境中的进化周期。这种“训练场模式”不仅压低了单条数据的出产成本,更实现了跨本体、跨场景的知识迁徙。
而更深层的战术在于与模型厂商的深度绑定。作为蚂蚁灵波等主题团队的合作同伴,乐聚为其 LingBot-VLA 模型提供了覆盖多种构型的万幼使劓机数据。这种合作不仅让乐聚的数据深度嵌入了主流算法的成长蹊径,也让其硬件本体成为了模型训练的标配载体。加上近期推出的科研框架 2.0,通过降低作为采集门槛来赋能整个科研圈,乐聚的野心已经很显著:不只是卖机械人,而是要成为具身智能时期那个不成或缺的基座平台。
抢滩真机数据
其他公司如智元试图通过独立实体觅蜂科技来解决行业的数据荒漠问题;宇树招股书显示,打算将近一半的募资投向模型和数据;京东规划建设大规模数据采集中心,打算两年内储蓄千万幼时级优质数据......
海表巨头的动向同样印证了这一趋向。特斯拉在工厂内部署大规模 Optimus 真机测试与数据采集系统,以真实产线场景反哺模型迭代;Figure AI 则通过真实工业产线持久部署与多样化真实世界环境数据采集,构建了高效的数据飞轮,持续反哺模型的迭代升级......
要训练一个真正通用的机械人“大脑”,高质量的真机数据是必不成少的燃料。《2026 全球具身智能产业投资风向标》中明确提到, 2026 年是具身智能的交付元年,投资应聚焦具备“真机数据关环”的团队;最早构建“场景-数据-成本”自强化飞轮的企业,将获得界说未来的非对称优势。
当然,在现阶段,仿真数据在大规模预训练和战术索求中依然不成代替,行业仍需面对真机与仿真的关环对齐、数据隐衷、以及跨平台复用等现实难题。但目前的共识已经极度明确:要补上那 77 个百分点的成功率差距,不能只靠增长模型的参数规模,必须靠覆盖更多场景、更多变量、甚至更多失败样本的真机数据。
真机数据的稀缺是行业最大的造约,但同时也是最大的机遇点。在这一轮竞速中,谁能率先通过训练场模式实现高效、低成本的数据获取,谁就更有机遇率先跑统统用人形机械人的量产之路。
1.https://www.caict.ac.cn/kxyj/qwfb/bps/202601/P020260130541978285206.pdf
2.https://www.ndrc.gov.cn/fggz/fzzlgh/gjfzgh/202603/U020260317369114704096.pdf
3.https://hai.stanford.edu/assets/files/ai_index_report_2026.pdf
4.https://www.technologyreview.com/2026/04/21/1135656/humanoid-data-robot-training-ai-artificial-intelligence/
5.http://jjckb.xinhuanet.com/20260202/47b05862a0e340abab5a516775917bc0/c.html
运营/排版:何晨龙
注:封面/首图由 AI 辅助天生
@马晓宏:国产精品久久久久最新,〖矿沉大变乱隐患判定尺度》已订正通过@李淑福:男子住70元酒店发现空调挂女士内裤
@杨扬倩:国台办回应《给阿嬷的情书》引两岸共识
热点排行
- 1 国产老熟女
- 2 黄色视频免费看网站
- 3 日韩黄色网络
- 4 媚娘导入
- 5 国产a自拍
- 6 美女拉屎
- 7 亚洲欧美另类一区二区
- 8 91n免费处女在线破视频+进https://www.zfgnlcb.com:2087/1035.html
- 9 91免费短视频下载