4.5亿美元融资背后：Rhoda AI 用DVA 挑战机器人主流架构

2026-03-16 09:17

在静默18个月后，美国机器人公司Rhoda AI终于在最近结束了隐身状态，并发布了其核心的DVA（直接视频动作）模型，试图撼动VLA（视觉-语言-动作）模型的行业主流地位。相比较VLA模型，Rhoda AI带来的技术路线明显不同，DVA模型的目标是让机器人直接从视频中学习世界如何变化，再将这种预测能力转化为动......

4.5亿美元融资背后：Rhoda AI 用DVA 挑战机器人主流架构

本文来自微信公众号： 42号电波，作者：兰博，编辑：James，原文标题：《4.5 亿美元融资背后：Rhoda AI 用 DVA 挑战机器人主流架构》

在静默18个月后，美国机器人公司Rhoda AI终于在最近结束了隐身状态，并发布了其核心的DVA（直接视频动作）模型，试图撼动VLA（视觉-语言-动作）模型的行业主流地位。

相比较VLA模型，Rhoda AI带来的技术路线明显不同，DVA模型的目标是让机器人直接从视频中学习世界如何变化，再将这种预测能力转化为动作控制。

在VLA模型已经吸走了具身圈半壁江山的背景下，DVA似乎是一种「反主流」路线，但资本的态度非常明显。

在DVA模型发布的同时，Rhoda AI也宣布完成4.5亿美元（约合人民币32亿元）的A轮融资，公司估值达到17亿美元（约合人民币123亿元）。

单轮超30亿元的融资，如果放在国内，也仅仅只有一两家明星级别的机器人公司能够达到这种规模，这背后其实也代表着资本对于DVA这条技术路线的明确押注。

而这场路线之争的核心，其实只有一个问题，到底什么样的方式才能让机器人能真正地走入现实生活。

其实要想搞清楚为什么机器人行业有那么多眼花缭乱的技术路线，就要知道数据在其中扮演着什么样的角色。

当下主流的VLA模型，在训练时往往比较依赖机器人遥操作数据，这种数据包含了视觉观察、机器人状态和人类操作动作。也就是说，每一条数据都需要真实机器人、专业操作员和专用设备，数据成本相当高。

更重要的是，它很难覆盖现实世界中的长尾场景。实验室环境中，机器人的任务成功率看起来很可观，但在真实应用场景中，成功率会出现大幅波动。

出现这种变化的原因也很简单，因为真实世界的变化远远多于训练数据。在这种情况下，大家也开始思考机器人干活离开大量人类标注数据的可能性。

所以Rhoda AI发布的DVA模型，在数据方面的做法有着明显不同。

Rhoda AI选择先利用大规模互联网视频对模型进行预训练，让系统从海量视频中学习物体运动、接触关系以及人类操作模式等基本的物理规律。在完成视频层面的预训练之后，再通过少量真实机器人数据进行微调，将这种对「世界如何变化」的理解映射到具体的机器人动作控制上。

在这种技术逻辑下，DVA试图把机器人学习的大部分过程，从昂贵的机器人数据转移到规模更大的视频数据上。

毕竟即便遥操作的数据再多，在规模庞大的数十亿小时的网络数据面前，也仅仅只能占据一小部分而已，并且网络视频数据的成本更低。

DVA把机器人控制变成视频生成

Rhoda AI提出的DVA架构，核心思路是机器人先想象未来，再决定动作。

乍一看，感觉跟此前也有很多人在提的世界模型没什么两样。但DVA的最大变化就是把「预测未来视频」直接变成动作控制，整个系统分为两步：

预测未来视频，首先使用因果视频模型（Causal Video Model）。模型根据当前视觉观察，预测未来几帧的视频画面。机器人会先想象如果我这样行动，世界会变成什么样？

将视频转化为动作，在预测后，接着使用逆动力学模型（Inverse Dynamics Model）。它会根据预测的视频变化，反推出机器人应该执行的动作。形成一个观察、想象、行动、再观察的闭环，整个过程每秒会重复多次。关键是它只需要约10小时数据就可以训练完成，还可以跨任务复用。

为了让视频预测真正能够控制机器人，Rhoda AI还提出了两项关键的技术来支撑。

上下文摊销：传统的视频模型通常逐帧预测未来。Rhoda AI的方法是在多个时间点同时预测未来帧。这让模型可以处理数百帧的长上下文视频，拥有更长的视觉记忆，使得机器人有能力基础去处理长程任务。

蛙跳推理：因为视频生成往往需要大量算力支持，所以Rhoda AI采用类似流水线的策略，机器人执行当前动作时，模型已经在预测下一步视频。这种推理与执行并行的方式，可以大幅降低延迟。

在技术博客中，Rhoda AI也给出了一些较为完整的实验，用来证明DVA在真实任务中的数据效率和任务控制能力。

其中比较有代表性的是拆箱，这项任务需要机器人从箱子中取出物品，并将其倒入另一容器，整个过程包含抓取、移动、倾倒等多个连续动作，对视觉理解和动作协调都有较高要求。

按照Rhoda AI披露的数据，这项任务的机器人真机操作数据规模只有约11小时，模型就能够稳定完成操作。

相比之下，传统依赖遥操作数据训练的机器人模型，往往需要数百小时甚至更长时间的数据才能达到类似水平。

这也是DVA路线反复强调的一点，通过在互联网规模视频上进行预训练，模型已经提前学习到大量关于物体运动和物理变化的「运动先验」，因此在机器人场景中只需要少量数据即可完成适配。

另一个更接近工业环境的任务是容器拆解，机器人需要识别容器结构，并完成拆解和分类处理等步骤，属于典型的多阶段流程操作。

这项任务使用的机器人真机数据规模约为17小时，同样显著低于传统机器人训练规模。更重要的是，这类任务往往具有明显的时间依赖关系，某些步骤必须在正确顺序下完成，否则整个流程就会失败。

实验结果显示，DVA在这类任务中能够保持稳定表现，这也被团队视为视频预测路线在长流程操作中的一个重要优势。

总体来看，Rhoda AI的想表达的内容已经非常清楚了，当机器人控制被转化为视频预测问题后，系统可以借助互联网规模视频数据学习物理世界的基本规律，从而大幅降低对昂贵机器人数据的依赖。

在这种框架下，机器人并不直接学习「应该做什么动作」，会先学习「世界接下来会发生什么变化」，再根据这些预测结果推导出动作策略，这也正是DVA架构与主流VLA路线之间最大的差异。

机器人的Transformer时刻？

其实总体看下来，DVA的架构确实新颖，通过将控制问题转化为视频生成，降低了对遥操数据的依赖，同时具备了长上下文记忆和可解释性。

所以DVA在数据效率和泛化能力上，让人联想到Transformer在自然语言处理领域带来的范式转移，它或许能带来具身智能领域的类似突破。

但问题没有那么简单，仅仅是实时推理的延迟，就足以成为DVA模型目前最大的卡点。

虽然Rhoda AI前面提到有利用蛙跳推理来降低延迟，但现实生活中的复杂性，决定了机器人面对的环境非常多变，而且一些涉及到实时操作的问题，需要机器人在瞬时间作出反应。

如果一个简单的拿起杯子的内容，机器人都需要反应五六秒钟，那在生活中的使用体验就会大打折扣，更何况做饭这种长程任务，如果延迟太高，菜可能就会糊掉。

另外就是算力问题，尽管DVA在数据方面会节省一些成本，但最终还是要其他地方来代偿，那就是算力。

大量视频生成所需要的计算开销是一个很大的数字，加上如今全球范围算力的稀缺，短时间内算力使用成本下降还是不太现实的。

所以，Rhoda AI的DVA模型是否能够真正改变行业，还是要看算力成本、实时推理适配落地等问题能否得到解决。

如果这些问题能够解决，那么未来机器人学习世界的方式，可能真的会从预测动作变成预测未来。而这，也许正是具身智能的下一个范式转移。

https://www.rhoda.ai/research/direct-video-action

。

THE END

免责声明：本文版权归原作者所有；旨在传递信息，不代表鲸媒智集的观点和立场。

相关阅读

350位CEO：有关AI的三重真相和投资逻辑

分钟咨询公司Teneo调查了350位年营收超过十亿美元的上市公司CEO，针对有关于AI的支出（CapEx）等关键问题做了调研，得出了一份非常具备参考性，同时也在某些方面与大众认知出现反差的信息报告。核心信息及数据如下：68%的CEO计划在2026年…

2025年12月19日 14:43
MIT仅录取2人，斯坦福、密歇根狂撒20枚录取...今年的美国早申, 中国学生卷到新高度

早申放榜只是美本申请的开端，数据显示，ED录取率通常只有20%左右，有超过70%的申请者最终都是在RD阶段竞争。所以即使在早申里没有获得理想的结果，也不意味着申请就结束了。

2025年12月19日 14:37
防治骚扰电话要感谢美国？

2025年12月8日，美国联邦通信委员会执法局向中国移动、中国联通和中国电信在香港的运营实体公司发出“合规令”，认定其在反自动拨号骚扰电话数据库中的认证存在“重大缺陷”，并要求在14天内完成整改或作出说明，否则将面临被移出RMD、直…

2025年12月17日 16:41
AI时代最重要的技能

如果说这辈子最需要掌握的技能是啥，我觉得有俩：1、搜索能力；2、输出能力。这里说的“搜索”当然跟之前搜索引擎时代不太一样了，不过逻辑是相同的，都是从浩如烟海的网络信息里查找自己需要的。大家应该注意到了，自从大模型出现后，信…

2025年12月17日 16:37

栏目精选

深度

350位CEO：有关AI的三重真相和投资逻辑

分钟咨询公司Teneo调查了350位年营收超过十亿美元的上市公司CEO，针对有关于AI的支出（CapEx）等关键问题做了调研，得出了一份非常具备参考性，同时也在某些方面与大众认知出现反差的信息报告。核心信息及数据如下：68%的CEO计划在2026年…

2025年12月19日 14:43 独特视角创新科技资讯商业评论

4.5亿美元融资背后：Rhoda AI 用DVA 挑战机器人主流架构

4.5亿美元融资背后：Rhoda AI 用DVA 挑战机器人主流架构

350位CEO：有关AI的三重真相和投资逻辑

MIT仅录取2人，斯坦福、密歇根狂撒20枚录取...今年的美国早申, 中国学生卷到新高度

防治骚扰电话要感谢美国？

AI时代最重要的技能

栏目精选

350位CEO：有关AI的三重真相和投资逻辑