强化学习灵魂西尔弗,引领AI走出LLM之谷吗

强化学习大神西尔弗(David Silver)在去年11月离开DeepMind之后,正在以40亿美元的估值,获得一笔高达10亿美元的天使轮融资,红杉领投,英伟达、谷歌、微软等也在排队加入。西尔弗创办的“不可言喻的智能”(Ineffable Intelligence)公司,研究主要从经验而不是人类语言学习的AI......

强化学习灵魂西尔弗,引领AI走出LLM之谷吗

本文来自微信公众号: 未尽研究 ,作者:未尽研究,原文标题:《强化学习灵魂西尔弗,引领AI走出LLM之谷吗 |笔记》

强化学习大神西尔弗(David Silver)在去年11月离开DeepMind之后,正在以40亿美元的估值,获得一笔高达10亿美元的天使轮融资,红杉领投,英伟达、谷歌、微软等也在排队加入。

西尔弗创办的“不可言喻的智能”(Ineffable Intelligence)公司,研究主要从经验而不是人类语言学习的AI系统,“一种能够自我发现所有知识基础的无限学习型超级智能”。

西尔弗曾批评AI正在陷入“大语言模型之谷”。他认为,超级规模的强化学习展开了一条通向超人智能的明确路径。其有效性已经一再得到证明(如Atari,AlphaGo,AlphaZero......)。同样的方法也适用于强大的LLM先验模型(例如AlphaProof)。他说此番话在2024年9月,后来可验证的强化学习(RLVR)成为技术主流,引领着推理模型迅速演进,在编程和数学等领域取得突破。

西尔弗与强化学习之父、图灵奖获得者萨顿(Rich Sutton)于2025年4月发布论文《欢迎来到经验时代》,这个AI时代的特征,是智能体及其环境。智能体将主要从与经验的互动中学习,而不仅仅是来自人类的数据。强大的智能体将会像人类一样,在长时间尺度中持续学习新的知识,最终达到超人类的智能。

西尔弗长期担任DeepMind的首席研究科学家,是强化学习的一面旗帜。他主导了AlphaGo、AlphaZero的研究,产生了AlphaGo在对局李世石的第二盘下出第37手的顿悟时刻,并且在对弈领域通过无监督学习实现超级智能。DeepSeek的R1 Zero,被认为是在向AlphaZero致敬。

即使在ChatGPT推出后的深度学习主导生成式AI时期,西尔弗对强化学习的信念也坚定不移。在OpenAI负责推理模型的科学家布朗(Noam Brown),曾在DeepMind实习,参与了AlphaGo和AlphaZero项目,深受西尔弗影响。他延着强化学习的思路,扩展后训练规模,构建了GPT模型的“慢思考”推理模型。

DeepMind的强化学习与OpenAI的深度学习之间的竞争,其学术背景是辛顿(Geoffery Hinton)与萨顿学派之争,他们一位在加拿大东部的多伦多大学执教,一位在加拿大西部的阿尔伯塔大学研究。西尔弗与OpenAI首席科学家伊利亚(Ilya Sutskever)分别出自萨顿和辛顿门下。

伊利亚在离开OpenAI创业之后,成立安全超级智能(SSI)公司,并且宣布预训练已死,深度学习结合强化学习是其选定的方向。

西尔弗与DeepMind创始人、诺贝尔奖得主哈萨比斯(Damis Hassabis)相识于剑桥大学本科阶段,他曾参与了哈萨比斯创办的万灵药游戏工作室,后来成为DeepMind的最早AI研究骨干。他是世界顶级的AI研究科学家,在伦敦大学学院担任教授,是DeepMind发表论文最多的员工之一,论文引用高达20万次。

西尔弗和伊利亚、李飞飞、杨立昆创业,代表了一批新型AI研究实验室的涌现。这些顶级AI实验室首席科学家和顶级AI科学家,从强化学习和世界模型两条道路,探索超越大语言模型,以实现AGI或者超级AI,得到了风险资本和科技巨头的追捧。李飞飞的世界实验室(World Labs)从a16z、英伟达、AMD等融最新融资10亿美元,用于研究世界模型,开发机器人和科学探索方面的应用。

最近杨立昆的AMI Labs正在以30亿欧元(35亿美元)估值融资5亿欧元。这样,英国伦敦和法国巴黎将各自拥有两家一流的AI实验室,其背后的主要风险资本来自美国,但欧洲正在真正投入AI的全球竞争。

西尔弗对强化学习有坚定的信念,被公认为是强化学习领域的灵魂人物之一;如此地位,很大程度上源于他能够将复杂的理论转化为具有划时代意义的工程实践。值得马年期待。

THE END
免责声明:本文版权归原作者所有;旨在传递信息,不代表鲸媒智集的观点和立场。
相关阅读
  • 350位CEO:有关AI的三重真相和投资逻辑

    350位CEO:有关AI的三重真相和投资逻辑

    分钟咨询公司Teneo调查了350位年营收超过十亿美元的上市公司CEO,针对有关于AI的支出(CapEx)等关键问题做了调研,得出了一份非常具备参考性,同时也在某些方面与大众认知出现反差的信息报告。核心信息及数据如下:68%的CEO计划在2026年…

    2025年12月19日 14:43
  • MIT仅录取2人,斯坦福、密歇根狂撒20枚录取...今年的美国早申, 中国学生卷到新高度

    MIT仅录取2人,斯坦福、密歇根狂撒20枚录取...今年的美国早申, 中国学生卷到新高度

    早申放榜只是美本申请的开端,数据显示,ED录取率通常只有20%左右,有超过70%的申请者最终都是在RD阶段竞争。所以即使在早申里没有获得理想的结果,也不意味着申请就结束了。

    2025年12月19日 14:37
  • 防治骚扰电话要感谢美国?

    防治骚扰电话要感谢美国?

    2025年12月8日,美国联邦通信委员会执法局向中国移动、中国联通和中国电信在香港的运营实体公司发出“合规令”,认定其在反自动拨号骚扰电话数据库中的认证存在“重大缺陷”,并要求在14天内完成整改或作出说明,否则将面临被移出RMD、直…

    2025年12月17日 16:41
  • AI时代最重要的技能

    AI时代最重要的技能

    如果说这辈子最需要掌握的技能是啥,我觉得有俩:1、搜索能力;2、输出能力。这里说的“搜索”当然跟之前搜索引擎时代不太一样了,不过逻辑是相同的,都是从浩如烟海的网络信息里查找自己需要的。大家应该注意到了,自从大模型出现后,信…

    2025年12月17日 16:37

栏目精选