起源:成都传递酒店卫生问题作者: 吴文燕
港科大联手社区开源StarVLA:一个框架揭秘所有主流VLA
若是说 2017 年的 PyTorch 让深度进建从 "少数派的炼丹炉" 造成了 "人人可用的工程平台",那么具身智能(Embodied AI)在期待属于它自己的 "PyTorch 时刻"。
从前两年,VLA(Vision-Language-Action,视觉-说话-作为)模型险些是机械人领域最火热的方向:从 Google 的 RT-2、Physical Intelligence 的 π?,到 NVIDIA 的 GR00T、OpenVLA、Cosmos…… 险些每隔几周就有新模型刷屏。但走进任何一个机械人尝试室你城市发现一个狼狈的现实:
想复现一篇论文?代码不全、数据接口对不上;想平正对比两种步骤?训练和谈、评估基准各搞一套;想换个作为头试试?整个工程险些要沉写一遍;想知路 "VLM 主干" 和 "World Model 主干" 到底谁更强?没有人在一致前提下比过。
整个 VLA 领域看似繁华,实则像是一个个 "黑箱" 散落在分歧尝试室里。
最近,来自港科大和开源社区团队推出了StarVLA盛开钻研平台。与其说他们创造了一个全新的 VLA 模型,不如说他们做了一件更 “基础设施” 的事:将当前主流的 VLA 范式、作为头、训练战术和评估基准,统一整合到统一个开源框架中,让所有尝试都能够在平正、通明、可复现的前提下进行。
值得一提的是,StarVLA 并非一挥而就的新品,它早已在社区中经过充分检验,占有超过 2.2k的 star,并获得了宽泛认可,一向是社区最盛行的框架之一,仅次于美国 NVIDIA 和 Physics Intelligent,在国内同类项目中中断档当先。
这或许正是 VLA 领域所必要的 “PyTorch 时刻”—— 不再只是比谁的 demo 更炫,而是让钻研者们站在统一条起跑线上,将 VLA 真正作为一门能够科学验证的学科来深刻钻研。
论文标题:StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing论文:https://arxiv.org/pdf/2604.05014代码:https://github.com/starVLA/starVLA支持基准:LIBERO / SimplerEnv / RoboTwin 2.0 / RoboCasa-GR1 / BEHAVIOR-1K / VLA-Arena / Calvin / DOMINO ...
一、为什么说 VLA 必要一个 "PyTorch 时刻"?
回首深度进建的发展史,会发现一个法规:任何一个领域真正发作,都离不开一个统一的、盛开的、可复现的尝试平台。
推算机视觉之于 ImageNet + Caffe / PyTorch;天然说话处置之于 HuggingFace Transformers;大模型微调之于 LLaMA-Factory、DeepSpeed。
而 VLA 目前正处在 ImageNet 之前的 "前夕":模型好多、demo 很炫、论文产出很快,但没有人能通知你,在严格节造变量的前提下,哪种设计真的更好。
举几个具体的 "魂灵拷问":
自回归作为分词(FAST)、并行回归(OFT)、Flow Matching(π?)、双系统(GR00T)——这四种作为头在统一个主干下的阐发到底差几多?VLM 路线(RT-2、π?)和 World Model 路线(Cosmos, DreamZero)——真的是两条性质分歧的路,还是只是 "辅助信号" 的选择分歧?多模态协同训练、跨具身结合训练 ——到底有没有效?提升有多大?在 LIBERO 上 SOTA 的步骤,到 RoboCasa、RoboTwin, Behavior 上还能打吗?
在 StarVLA 之前,这些问题险些没有人能给出系统性答案—— 由于底子没有同时支持这所有的统一平台。
二、StarVLA 是什么?一个 "全栈式" 的 VLA 尝试平台
StarVLA 的设计哲学非?嗽欤翰环⑾中虏街,而是把别人发现的好步骤,统一搬到一个屋檐下。
整个框架由四层可插拔?樽槌桑
每一层都能够自由代替、自由组合。 想做 "换作为头不换主干" 的对比?改一行配置。想验证 "协同训练" 的成效?改一个开关。想把 LIBERO 上训好的模型搬到 RoboTwin 上跑实机?统一个接口。
这就是为什么我们说它是 VLA 领域的 "PyTorch 时刻"——它把之前必要沉写整个工程能力做的事,造成炼一行配置文件的事。
三、广义 VLA 视角:所有步骤,其实是一个公式
在统一这些步骤的过程中,作者还提出了一个十吩殳亮的理论观察。
VLA 看似门户多多 —— 有的基于说话模型,有的基于视频天生模型;有的自回归,有的扩散;有的单系统,有的双系统 —— 但当你把它们都塞进统一个框架后会发现,它们在数学结构上能够用统一个公式表白:
分歧步骤的性质区别,仅在于选用什么 "预训练模型初始化" 以及 "辅助训练的信号" 是什么:
VLM 路线:辅助信号是说话推理(让模型持续 "会措辞");World Model 路线:辅助信号是未来画面预测(让模型持续 "会设想");极简路线:索性没有辅助信号,纯作为监督。
作者把这个统一视角称为"广义 VLA"(Generalized VLA)。它意味着:与其纠结 "该选哪条路线",不如思虑 "该选什么样的辅助信号"。这一视角,为后续 VLA 的系统性钻研提供了一个清澈的理论坐标系。
VLM to VLA 和 World-Model to VLA 的统一架构
四、几个 "反直觉" 的尝试发现
固然 StarVLA 主打 "平台" 而非 "刷榜",但作者在搭建过程中也 "顺手" 做了一批严格节造变量的尝试,了局颇有意思:
发现 1:极简设置就能打出强基线
不做任何数据加强、只用基准原始数据和公开预训练权沉,StarVLA 在 LIBERO 上仅用 30K 步就达到了 98.8% 的成功率, 在其他主流的 SimplerEnv, Robocasa-GR1, Robotwin 2.0, LIBERO-Plus 上也都有和主流大厂的模型拥有极度靠近的成效。
而前人代表步骤 OpenVLA-OFT, GR00T, PI 等 在统一基准上必要 175K 步 ——训练步数削减了 6 倍。
这注明:以前好多论文堆的 "训练 trick",可能并没有设想中那么必要。一个干净、统一的工程实现自身,就能开释出巨大的机能空间。
发现 2:数据 "杂" 反而更强 —— 通用模型超过专用模型
把 LIBERO、SimplerEnv、RoboTwin、RoboCasa 四个基准的数据混在一路训练统一个模型,了局在难度最高的类人操作基准RoboCasa-GR1 上,成功率从 48.8% 提升到了 57.3%。
这意味着:跨工作、跨状态的多样化数据并不会 "互有关扰",反而会带来正向迁徙。这是支持 "机械人大一统模型" 路线的一个沉要经验证据。
发现 3:VLM 主干 vs World Model 主干,差距没有设想中大
在统一个 OFT 作为头下别离接入 Qwen3-VL(VLM 路线)和 Cosmos-Predict2(World Model 路线),两者的机能相当靠近。
这是一个极度沉要的初步结论:业界一向在争论的 "哪条路线才是 VLA 的未来",可能自身就是个伪命题—— 真正决定机能的,也许并不是主干的 "血统",而是辅助信号、训练战术和数据组合。
发现 4:不做协同训练,VLM 会在几千步内 "失忆"
把一个预训练好的 VLM 微调成机械人战术时,它在几千步内就会迅速迷失原有的视觉理解和说话推理能力—— 物体鉴别变差、空间定位崩坏、指令理解退化。
而参与多模态协同训练后,模型能够同时保住 "动脑" 和 "着手" 两种能力。这一景象在论文中以清澈的曲线图出现,给所有想要微调 VLM 做机械人的钻研者提了一个醒。
五、为什么这件事 "值得被看见"?
VLA 是当前最受本钱和学术界关注的具身智能方向之一,但它也是最容易陷入 "内卷式刷榜" 的方向:每家都汇报自己 SOTA,但没人能在平正前提下被验证。
StarVLA 的意思刚好在于突破这种困境:
?对钻研者:终于有了一个可复现、可节造变量的尝试平台,做消融、做对比不再必要从零造轮子;
?对工程师:?榛杓 + 统一接口,从 "换主干" 到 "换基准" 再到 "上实机" 全数买通;
?对整个领域:当所有步骤都能在统一个框架里被平正地 "摆出来",VLA 的发展就从 "比谁声音大",进入到 "比谁经得起验证" 的科学阶段。
这正是一个领域走向成熟的标志 —— 也正是我们说它是具身智能的"PyTorch 时刻"的原因。
六、开源信息
StarVLA 由香港科技大学团队结合开源社区共同推出,目前全数代码、训练剧本、评估接口与预训练权沉已开源,并将持续迭代。
论文:https://arxiv.org/pdf/2604.05014代码仓库:https://github.com/starVLA/starVLA (目前已经 2.2k star, 感激各人)已支持基准:LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K已集成步骤:[QwenVL and Wan] X [FAST、OFT、π?、GR00T] 形形色色的 backbone X action header …
若是你在做 VLA 钻延注想搭一套机械人战术基线、或者只是想搞明显 "这些花里胡哨的 VLA 模型到底差在哪"——这个仓库,值得 Star 一下。
本文报路由港科大 StarVLA 团队提供素材,面向关注具身智能与机械人大模型的读者;队 GitHub 上参加会商与共建。
@曾舜文:九尾狐app下载安装,克宫:普京访华重要铺排均已敲定@庾鸿映:?怂怪鞒秩送虏壑泄司帧胺怠
@李彦男:荷兰:全世界都在致力研发光刻技术
热点排行
- 1 天堂无码一区二区三区
- 2 porono1000
- 3 欧美国产精品一区二区三区
- 4 男人天堂视频网
- 5 www.色色色.com...
- 6 91免费下载视频
- 7 fill研究免费入口
- 8 日本黄页网址
- 9 一品道免费视频