228小时狂飙100篇论文、烧光114亿Token:FARS杀疯了

这个春节,AI圈最硬核的一场「真人秀」,悄然完成了阶段性收官。主角不是动漫人物,也不是舞枪弄棒的机器人,而是一位7×24小时从不疲倦的AI科学家FARS(Fully Automated Research System)。这套由Analemma(日行迹)打造的全自动研究系统,在长达228小时28分33秒的连续公......

228小时狂飙100篇论文、烧光114亿Token:FARS杀疯了

本文来自微信公众号: 机器之心 ,编辑:Sia,作者:关注AI的

这个春节,AI圈最硬核的一场「真人秀」,悄然完成了阶段性收官。

主角不是动漫人物,也不是舞枪弄棒的机器人,而是一位7×24小时从不疲倦的AI科学家FARS(Fully Automated Research System)。

这套由Analemma(日行迹)打造的全自动研究系统,在长达228小时28分33秒的连续公开运行中,自己提假设、做实验、写论文,共生成244个研究假设,「肝」出100篇短论文(short paper)。

算下来,在这座流水线式的「科研工厂」中,每隔约2小时就有一篇论文产出。

让AI自己写100篇论文目标达成,花了228个小时。目前,计划持续一个月的直播仍在进行中。直播地址:https://analemma.ai/fars

这种跳出传统科研范式的工业级吞吐量,很快让围观网友坐不住了。

首批深度「验货」的专业网友给出了一个颇为一致的判断:结果超过预期、相当出色。

如果把它当作人类顶会论文,还不够惊艳;但如果考虑到这是一个全自动系统的阶段性产出,其完成度已经明显超出很多人的事前预期。

「考虑到这只是一个AI的自主起步,能7×24小时稳定产出到这个质量,还要啥自行车?」

而且,真work没有通篇幻觉。

至少在当前阶段,FARS已经完成了一次关键跨越。它首次证明,一条无人值守的科研「流水线」不仅能跑,而且能在相对稳定条件下,持续产出具备一定学术竞争力的short paper级工作。

「发论文这件事本身的稀缺性」被摧毁了。

恐怖的「工业节拍」,算力正在转化为知识

FARS并不是一个单体模型,而是一套多智能体系统,包括四个功能模块:

Ideation(构思):负责文献调研与假设生成

Planning(规划):负责实验方案设计

Experiment(实验):负责代码编写与执行

Writing(写作):负责论文撰写

从实时运行界面可以直观看到,FARS以项目队列的方式并行推进多个研究任务。每个课题依次穿过Ideation→Planning→Experiment→Writing四个阶段,流程高度模块化,呈现出明显的「科研装配线」特征。

FARS实时运行界面:从假设生成到论文写作,自动化科研流水线首次以可观测形态完整展开。

为了让它心无旁骛的做研究,Analemma(日行迹)还给它搭建了一个160张显卡的计算集群,并允许它调用几乎任何开源和闭源大模型,实验条件远超大部分高校实验室。

而这条「流水线」的产能,已经到了让人很难忽视的程度。在约228小时(≈9.5天)的连续运行周期内:

系统生成244个研究假设

完成100篇short paper

累计消耗114亿Token

总成本约10.4万美元(≈75万元人民币)

进一步归一化后,这套系统的「工业节拍」变得更加直观:平均每隔约2小时17分就有一篇研究论文完成,平均每篇论文成本大约1000美元,花费1亿多Token。

对比人类科研常见的3–6个月/篇的周期,这种吞吐差距几乎是数量级级别的,成本也极为低廉。

不过,如果把目光从吞吐转向效率,约1.14亿Token/篇的消耗,已经明显高于普通写作生成(通常百万级Token)以及常见复杂Agent任务(通常百万、千万级Token)的开销。

这表明,FARS仍处于「算力换智能」的阶段,其表现更多来自计算密度,而非算法效率的极限压缩。

综合来看,一方面,FARS已经用实测结果证明,端到端自动化科研流水线在吞吐层面是切实可行的。另一方面,其当前的Token与成本结构,距离「足够便宜地大规模跑」还有工程空间。

质量:它写得快,那写得好吗?

量大,从来不自动等于质优。FARS写出来的东西,到底处在什么水平?

为此,研究团队使用斯坦福大学开发的AI审稿系统Agentic Reviewer(paperreview.ai),按照ICLR的评审标准,对这100篇论文进行了统一打分。

根据开发者公开评估,Agentic Reviewer在审稿一致性上,已达到人类审稿人的判断水平。

开发者在ICLR 2025审稿数据上做了对比评测,使用的是Spearman相关系数。人类vs人类:0.41;AI vs人类:0.42。开发者认为agentic reviewing正在逼近人类水平。

从整体评分结果来看,FARS产出的100篇论文中,平均得分为5.05(区间3.0–6.3)。

少量论文处于3.0–4.5的低分段,也有极少数突破6.0分。

FARS论文分数主要堆在5分附近,说明产出质量并不是随机波动,而是已经形成相对稳定的「质量带」。少量样本进入6分以上区间,意味着系统偶尔能产出超强作品。

这个成绩,与人类战绩相比,又如何呢?

作为参照,ICLR 2026人类投稿的平均分为4.21,而最终被接收论文的平均分为5.39。

对照来看,FARS的平均分5.05,已经明显高于人类投稿的整体平均水平,但距离「平均中稿线」仍存在差距。

可谓比下有余,比上未满。

FARS生成的学术论文平均分超过人类投稿者的平均水平,但与平均中稿分数仍有差距。

需要再次强调的是,本次自动化生产以短论文为主,并未以当前学术会议的评审标准作为优化目标。因此,无论是斯坦福大学Agentic Reviewer还是其他基于现有特定审稿标准的AI审稿结果,都只能作为一种参照,而非盖棺定论。

据团队透露,除AI审稿外,目前也在同步开展人工质量评审,并将在评估完成后形成综合质量报告。

即便在这一审慎前提下,将前后两部分数据合并观察,整体信号仍然较为清晰:在接近人类评审尺度的评价体系中,FARS已然一台稳定的中分段输出机器。

从「极速跟进」到「直面失败」

如果说前面的数据与评分只能给出一条宏观刻度,那么具体论文样本,才真正暴露出FARS的研究成色。

已有网友拆解其中一篇LLM-as-a-Judge工作后评价,这类论文在摘要组织与问题切入上已经相当工整。

考虑这是AI自动产出,完成度已经「超出预期」。框架图、结果图、分析基本都齐全,「像那么回事」

也有人觉得编号为FA0008的项目「make sense」。

接下来,我们选择一成一败两篇代表作,一探究竟。

先看「做成」的一篇FA0042。它瞄准的是文本embedding里一个老矛盾:

双向注意力质量高,但会破坏KV-cache;因果注意力能流式推理,但表示能力吃亏。

FA0042的解法非常工程导向——训练阶段用双向拿质量,推理阶段用因果保效率。具体路径是先训一个双向teacher,再把能力蒸馏进causal student。为了避免直接切双向带来的分布漂移,论文还引入了刚发布不久的GG-SM做渐进过渡。

结果也确实「能打」,这条工程折中路线被验证是work的。

MTEB-slice主要结果

LoCoV1长文档检索结果。student模型以0.284的NDCG@10大幅领先所有baseline(包括teacher的0.212),出人意料。

当然,short paper气质也很足:细粒度成对任务提升有限,长文档检索反超teacher的机制还没完全讲透。

但更值得注意的是,蚂蚁集团的GG-SM发布3天就被接入实验流程,这种紧跟前沿的速度,本身就是FARS系统敏捷性的一个信号。

再看一篇「没做成」的FA0121。

它的文献调研很给力,盯上了DeepSeek新提出的Engram稀疏架构,并抓到了一个很研究味的问题——

hot-to-cold advantage flip,即Engram中的门控(gate)在训练过程中难以准确根据n-gram embedding的实际效用进行调整,存在高频(hot)和低频(cold)偏置。

为了打破这种「马太效应」,FARS尝试了一个直觉上非常硬核的方案:试图通过「反事实门控监督(CGS)」修复DeepSeek Engram架构中的「冷热偏置」问题。

在特定训练步骤中分别强制gate全开和全关,计算两种情况下的loss差值来估计当前n-gram embedding的实际效用,以此作为辅助监督信号来训练gate。

FA0121方法示意图

思路很直觉。但结果很诚实——基本没救回来。

CGS带来的那点提升,甚至不如让模型多训练几步来得实在。这说明,要解决AI的偏见,光靠「教练现场打分」是不够的,得从更深层的制度(架构)上下功夫。

论文给出的复盘也很到位:Gate和n-gram embedding的训练是一个相互耦合的系统动力学问题,不是简单加监督就能补的。

这篇工作的价值正在于:它没有试图掩盖负面结果,没有为了追求正面结果而篡改数据或强行解释,而是通过一套严密的诊断性实验(Diagnostic Experiments),反思CGS的失败。

这种「算法诚实」是当前学术界稀缺的品质。

从「又一个Demo」到「科研流水线雏形」

随着FARS「直播真人秀」数据披露,社区讨论也迅速升温,高频指向一个关键词——生产线。

不少围观者很快抓住了真正的冲击点:这次引发不安的,并不是某一篇论文写得多惊艳,而是系统所展现出的连续科研运转能力。

当一个系统能够稳定提出假设、自动完成实验、并持续吐出成稿时,评价坐标其实已经悄然移动。问题不再是「AI会不会写论文」,而是更具结构性的那一句——AI是否开始具备科研工业产能的雏形。

这种叙事重心的变化,本身就意味着社区对AI科研系统的预期正在抬升。一些技术讨论甚至认为,LLM在AI方向论文写作上的能力已「基本够用」,剩余差距更多体现在工程细节层面。

「3个月内就可能出现非常成熟可用的自动paper pipeline。」

换言之,大多数人几乎已经默认:科研流水线时代,迟早会来。真正悬而未决的问题反而是,当科研开始规模化自动生产,人类的不可替代性究竟还剩下什么?

对此,也有人给出答案:决定上限的,或许仍是研究者个人品味。

当然,社区并非只有单一声音。

有人认为,与其关注单纯scale出大量「普通conference paper」,不如将算力与模型能力投入到真正困难的开放问题上,这或许才是更具长期价值的方向。

FARS的这100篇论文,并不是终点,更像是一枚被钉下的坐标点。

它证明了一件很重要的事:端到端自动科研流水线,已经能够在相对稳定的运行条件下,持续产出具备一定学术竞争力的short paper,并且开始展现出基础的自我纠错与负结果报告能力。

这意味着,自动化科研第一次以一种可连续运转的系统形态,正式进入现实。

但如果把放大镜再压近一层,当前阶段的天花板同样清晰可见。

FARS很会把一条合理路径走通,却还不够擅长在复杂假设空间中做出真正具有突破性的研究取舍;能完成结构完整的论证,但在思想压强和机制洞察上仍有提升空间;而在算力利用率上,系统也还停留在明显的「算力换智能」阶段。

此刻的FARS,更像一位极度勤奋、训练有素且从不疲倦的初级研究员,距离那种能够稳定打出顶会级工作的成熟研究者,仍有一段需要跨越的进化距离。

不过,真正重要的或许并不是它此刻已经多强,而是那条「无限心智生产线」,已经可以稳定地跑起来。

THE END
免责声明:本文版权归原作者所有;旨在传递信息,不代表鲸媒智集的观点和立场。
相关阅读
  • 350位CEO:有关AI的三重真相和投资逻辑

    350位CEO:有关AI的三重真相和投资逻辑

    分钟咨询公司Teneo调查了350位年营收超过十亿美元的上市公司CEO,针对有关于AI的支出(CapEx)等关键问题做了调研,得出了一份非常具备参考性,同时也在某些方面与大众认知出现反差的信息报告。核心信息及数据如下:68%的CEO计划在2026年…

    2025年12月19日 14:43
  • MIT仅录取2人,斯坦福、密歇根狂撒20枚录取...今年的美国早申, 中国学生卷到新高度

    MIT仅录取2人,斯坦福、密歇根狂撒20枚录取...今年的美国早申, 中国学生卷到新高度

    早申放榜只是美本申请的开端,数据显示,ED录取率通常只有20%左右,有超过70%的申请者最终都是在RD阶段竞争。所以即使在早申里没有获得理想的结果,也不意味着申请就结束了。

    2025年12月19日 14:37
  • AI时代最重要的技能

    AI时代最重要的技能

    如果说这辈子最需要掌握的技能是啥,我觉得有俩:1、搜索能力;2、输出能力。这里说的“搜索”当然跟之前搜索引擎时代不太一样了,不过逻辑是相同的,都是从浩如烟海的网络信息里查找自己需要的。大家应该注意到了,自从大模型出现后,信…

    2025年12月17日 16:37

栏目精选