4.5亿美元融资背后:Rhoda AI 用DVA 挑战机器人主流架构

在静默18个月后,美国机器人公司Rhoda AI终于在最近结束了隐身状态,并发布了其核心的DVA(直接视频动作)模型,试图撼动VLA(视觉-语言-动作)模型的行业主流地位。相比较VLA模型,Rhoda AI带来的技术路线明显不同,DVA模型的目标是让机器人直接从视频中学习世界如何变化,再将这种预测能力转化为动......

4.5亿美元融资背后:Rhoda AI 用DVA 挑战机器人主流架构

本文来自微信公众号: 42号电波 ,作者:兰博,编辑:James,原文标题:《4.5 亿美元融资背后:Rhoda AI 用 DVA 挑战机器人主流架构》

在静默18个月后,美国机器人公司Rhoda AI终于在最近结束了隐身状态,并发布了其核心的DVA(直接视频动作)模型,试图撼动VLA(视觉-语言-动作)模型的行业主流地位。

相比较VLA模型,Rhoda AI带来的技术路线明显不同,DVA模型的目标是让机器人直接从视频中学习世界如何变化,再将这种预测能力转化为动作控制。

在VLA模型已经吸走了具身圈半壁江山的背景下,DVA似乎是一种「反主流」路线,但资本的态度非常明显。

在DVA模型发布的同时,Rhoda AI也宣布完成4.5亿美元(约合人民币32亿元)的A轮融资,公司估值达到17亿美元(约合人民币123亿元)。

单轮超30亿元的融资,如果放在国内,也仅仅只有一两家明星级别的机器人公司能够达到这种规模,这背后其实也代表着资本对于DVA这条技术路线的明确押注。

而这场路线之争的核心,其实只有一个问题,到底什么样的方式才能让机器人能真正地走入现实生活。

其实要想搞清楚为什么机器人行业有那么多眼花缭乱的技术路线,就要知道数据在其中扮演着什么样的角色。

当下主流的VLA模型,在训练时往往比较依赖机器人遥操作数据,这种数据包含了视觉观察、机器人状态和人类操作动作。也就是说,每一条数据都需要真实机器人、专业操作员和专用设备,数据成本相当高。

更重要的是,它很难覆盖现实世界中的长尾场景。实验室环境中,机器人的任务成功率看起来很可观,但在真实应用场景中,成功率会出现大幅波动。

出现这种变化的原因也很简单,因为真实世界的变化远远多于训练数据。在这种情况下,大家也开始思考机器人干活离开大量人类标注数据的可能性。

所以Rhoda AI发布的DVA模型,在数据方面的做法有着明显不同。

Rhoda AI选择先利用大规模互联网视频对模型进行预训练,让系统从海量视频中学习物体运动、接触关系以及人类操作模式等基本的物理规律。在完成视频层面的预训练之后,再通过少量真实机器人数据进行微调,将这种对「世界如何变化」的理解映射到具体的机器人动作控制上。

在这种技术逻辑下,DVA试图把机器人学习的大部分过程,从昂贵的机器人数据转移到规模更大的视频数据上。

毕竟即便遥操作的数据再多,在规模庞大的数十亿小时的网络数据面前,也仅仅只能占据一小部分而已,并且网络视频数据的成本更低。

DVA把机器人控制变成视频生成

Rhoda AI提出的DVA架构,核心思路是机器人先想象未来,再决定动作。

乍一看,感觉跟此前也有很多人在提的世界模型没什么两样。但DVA的最大变化就是把「预测未来视频」直接变成动作控制,整个系统分为两步:

预测未来视频,首先使用因果视频模型(Causal Video Model)。模型根据当前视觉观察,预测未来几帧的视频画面。机器人会先想象如果我这样行动,世界会变成什么样?

将视频转化为动作,在预测后,接着使用逆动力学模型(Inverse Dynamics Model)。它会根据预测的视频变化,反推出机器人应该执行的动作。形成一个观察、想象、行动、再观察的闭环,整个过程每秒会重复多次。关键是它只需要约10小时数据就可以训练完成,还可以跨任务复用。

为了让视频预测真正能够控制机器人,Rhoda AI还提出了两项关键的技术来支撑。

上下文摊销:传统的视频模型通常逐帧预测未来。Rhoda AI的方法是在多个时间点同时预测未来帧。这让模型可以处理数百帧的长上下文视频,拥有更长的视觉记忆,使得机器人有能力基础去处理长程任务。

蛙跳推理:因为视频生成往往需要大量算力支持,所以Rhoda AI采用类似流水线的策略,机器人执行当前动作时,模型已经在预测下一步视频。这种推理与执行并行的方式,可以大幅降低延迟。

在技术博客中,Rhoda AI也给出了一些较为完整的实验,用来证明DVA在真实任务中的数据效率和任务控制能力。

其中比较有代表性的是拆箱,这项任务需要机器人从箱子中取出物品,并将其倒入另一容器,整个过程包含抓取、移动、倾倒等多个连续动作,对视觉理解和动作协调都有较高要求。

按照Rhoda AI披露的数据,这项任务的机器人真机操作数据规模只有约11小时,模型就能够稳定完成操作。

相比之下,传统依赖遥操作数据训练的机器人模型,往往需要数百小时甚至更长时间的数据才能达到类似水平。

这也是DVA路线反复强调的一点,通过在互联网规模视频上进行预训练,模型已经提前学习到大量关于物体运动和物理变化的「运动先验」,因此在机器人场景中只需要少量数据即可完成适配。

另一个更接近工业环境的任务是容器拆解,机器人需要识别容器结构,并完成拆解和分类处理等步骤,属于典型的多阶段流程操作。

这项任务使用的机器人真机数据规模约为17小时,同样显著低于传统机器人训练规模。更重要的是,这类任务往往具有明显的时间依赖关系,某些步骤必须在正确顺序下完成,否则整个流程就会失败。

实验结果显示,DVA在这类任务中能够保持稳定表现,这也被团队视为视频预测路线在长流程操作中的一个重要优势。

总体来看,Rhoda AI的想表达的内容已经非常清楚了,当机器人控制被转化为视频预测问题后,系统可以借助互联网规模视频数据学习物理世界的基本规律,从而大幅降低对昂贵机器人数据的依赖。

在这种框架下,机器人并不直接学习「应该做什么动作」,会先学习「世界接下来会发生什么变化」,再根据这些预测结果推导出动作策略,这也正是DVA架构与主流VLA路线之间最大的差异。

机器人的Transformer时刻?

其实总体看下来,DVA的架构确实新颖,通过将控制问题转化为视频生成,降低了对遥操数据的依赖,同时具备了长上下文记忆和可解释性。

所以DVA在数据效率和泛化能力上,让人联想到Transformer在自然语言处理领域带来的范式转移,它或许能带来具身智能领域的类似突破。

但问题没有那么简单,仅仅是实时推理的延迟,就足以成为DVA模型目前最大的卡点。

虽然Rhoda AI前面提到有利用蛙跳推理来降低延迟,但现实生活中的复杂性,决定了机器人面对的环境非常多变,而且一些涉及到实时操作的问题,需要机器人在瞬时间作出反应。

如果一个简单的拿起杯子的内容,机器人都需要反应五六秒钟,那在生活中的使用体验就会大打折扣,更何况做饭这种长程任务,如果延迟太高,菜可能就会糊掉。

另外就是算力问题,尽管DVA在数据方面会节省一些成本,但最终还是要其他地方来代偿,那就是算力。

大量视频生成所需要的计算开销是一个很大的数字,加上如今全球范围算力的稀缺,短时间内算力使用成本下降还是不太现实的。

所以,Rhoda AI的DVA模型是否能够真正改变行业,还是要看算力成本、实时推理适配落地等问题能否得到解决。

如果这些问题能够解决,那么未来机器人学习世界的方式,可能真的会从预测动作变成预测未来。而这,也许正是具身智能的下一个范式转移。

https://www.rhoda.ai/research/direct-video-action

THE END
免责声明:本文版权归原作者所有;旨在传递信息,不代表鲸媒智集的观点和立场。
相关阅读
  • 350位CEO:有关AI的三重真相和投资逻辑

    350位CEO:有关AI的三重真相和投资逻辑

    分钟咨询公司Teneo调查了350位年营收超过十亿美元的上市公司CEO,针对有关于AI的支出(CapEx)等关键问题做了调研,得出了一份非常具备参考性,同时也在某些方面与大众认知出现反差的信息报告。核心信息及数据如下:68%的CEO计划在2026年…

    2025年12月19日 14:43
  • MIT仅录取2人,斯坦福、密歇根狂撒20枚录取...今年的美国早申, 中国学生卷到新高度

    MIT仅录取2人,斯坦福、密歇根狂撒20枚录取...今年的美国早申, 中国学生卷到新高度

    早申放榜只是美本申请的开端,数据显示,ED录取率通常只有20%左右,有超过70%的申请者最终都是在RD阶段竞争。所以即使在早申里没有获得理想的结果,也不意味着申请就结束了。

    2025年12月19日 14:37
  • 防治骚扰电话要感谢美国?

    防治骚扰电话要感谢美国?

    2025年12月8日,美国联邦通信委员会执法局向中国移动、中国联通和中国电信在香港的运营实体公司发出“合规令”,认定其在反自动拨号骚扰电话数据库中的认证存在“重大缺陷”,并要求在14天内完成整改或作出说明,否则将面临被移出RMD、直…

    2025年12月17日 16:41
  • AI时代最重要的技能

    AI时代最重要的技能

    如果说这辈子最需要掌握的技能是啥,我觉得有俩:1、搜索能力;2、输出能力。这里说的“搜索”当然跟之前搜索引擎时代不太一样了,不过逻辑是相同的,都是从浩如烟海的网络信息里查找自己需要的。大家应该注意到了,自从大模型出现后,信…

    2025年12月17日 16:37

栏目精选