关于中美AI 竞争的差距，我可能真的说错了

2026-02-08 14:55

比如我和一些做基模的专业同学沟通，他们的判断——编程模型差5%-10%，整体上可能是3-6个月的差距——这些就是基于他们自己的专业判断，有基线有标准，甚至放到国际评测榜单上，也是类似的结论。这是个专业判断。甚至在OCR开源模型这个领域，PaddleOCR-VL-1.5就是做到了SOTA。但涉及到个人，感受就千......

关于中美AI 竞争的差距，我可能真的说错了

本文来自微信公众号： MacTalk ，作者：池建强，原文标题：《关于中美 AI 竞争的差距，我可能真的说错了》

比如我和一些做基模的专业同学沟通，他们的判断——编程模型差5%-10%，整体上可能是3-6个月的差距——这些就是基于他们自己的专业判断，有基线有标准，甚至放到国际评测榜单上，也是类似的结论。这是个专业判断。甚至在OCR开源模型这个领域，PaddleOCR-VL-1.5就是做到了SOTA。

但涉及到个人，感受就千差万别了。有用户说，中国差在了硬件上，有的说算力不够，模型也不可能好到哪儿去。有的普通用户日常让AI助手解决生活里的一些问题，中文的豆包、千问、DeepSeek等模型，就是比ChatGPT和Gemini回答的好啊。

即便是同一个领域——比如编程——体感也不一样。

有的用户用来做补全和完成一些简单的模版任务，MiniMac M2.1就是很好啊，干得漂亮还便宜。有的用户呢，开多个Agent做多任务并行，完成复杂的编程实践，这时候Claude的优势就发挥出来了，所以他们会认为CC比国内模型强大很多。

现在看起来，这是个很难定义的衡量标准。就目前的大趋势来说，基模能力整体上中国落后美国，这是没问题的。落后几个月，不好说，但不会超过一年，甚至中国有些领域是领先的，比如开源模型。2026如果中国解决了一部分算力问题，我预测这个差距会进一步缩小，因为Scaling Law的效果已经越来越不明显了，预训练和强化训练也开始呈现疲态，AI厂商已经开始追逐第三范式Online Learning了。这对追赶者来说，是好事。

还有一点无法忽视，目前的模型越来越强，99%的用户根本没办法压榨大模型的能力极限。也就是说，模型能力花了100倍的功夫，增加了5%的能力，大部分用户都感知不到。

比如周五发布的Opus 4.6确实很强，但是有多强？目前我试了几个项目，感觉前一代也能解决啊。想榨干模型的能力，几乎是不可能的。甚至想找一些前一代模型搞不定、但新模型却能轻松搞定的案例都很难了。

目前关于新模型（Opus 4.6）能力最有说服力的故事，是Anthropic的Nicholas Carlini谈Opus 4.6的那篇：用一支并行协作的Claude团队来构建一个C编译器——这可以看作是Anthropic团队在自动化软件开发方向的一次系统性实践:Building a C compiler with a team of parallel Claudes

https://www.anthropic.com/engineering/building-c-compiler

这是一次用多实例Claude自动协作、从零构建可编译Linux内核的C编译器的实验，我觉得99%的工程师别说完成实验了，设计实验都困难。

这个事有多复杂呢？构建一个agent teams，让多个Claude实例在几乎没有人类干预下，在同一个代码仓库长期并行地协作开发。作者用16个Claude，在将近2000次Claude Code会话和约2万美元API花费下，从零写出了一个基于Rust的C编译器，可以在x86、ARM、RISC‑V上编译Linux 6.9，还能编译QEMU、FFmpeg、SQLite、Postgres、Redis，并在大多数编译器测试套件上达到99%通过率。

首先，用一个“无限循环”脚本让单个Claude永不停机地反复拉起自己，每次读同一套agent prompt，持续拆解任务、写代码、再选下一步要做什么。然后扩展成并行架构：多个Docker容器各自克隆同一上游仓库，用简单的“写锁文件+git同步”避免多个agent抢同一任务，通过频繁pull/merge解决冲突，没有额外的调度/编排agent，每个Claude自主决定下一步要做啥。随着项目扩展，作者逐渐引入了更完备的测试与CI，让Claude依靠高质量测试和日志来自我定位问题。

我的理解也就能到这里了。

这个实验充分展示了Opus 4.6能力。之前的版本勉强能做出能跑小demo的编译器，但不能编译大型项目；Opus 4.6在这个scaffold下第一次跨过了“能编译真实世界大型项目”的门槛。

不过编译器依然有硬伤：缺少16位x86代码生成器，只能在引导阶段依赖GCC；汇编器和链接器还不稳定；对某些项目仍编译失败；生成的代码性能显著差于GCC即便后者不开优化；Rust代码质量远逊于顶级人类工程师，而且一旦尝试继续修bug或加特性，很容易破坏已有功能。

这是下一代Opus要解决的问题。

事实上每一代模型都在拓展与开发者协作的方式：从IDE补全，到根据注释写函数，再到Claude Code这种结对编程型agent，如今agent teams展示了“全自动完成复杂项目”的可能。

这让人们看到了规模性使用Agent的可能性，但目前这种可能性也只有顶级的AI工程师能够触碰，大部分工程师都在做智能代码补全，根据注释模板生成代码，处理文件，做单一Agent任务等等。所以体感也是完全不同的。

那么类似LMArena的评测榜单有没有价值呢？肯定有啊，比如最近中国模型在编程领域的成绩就很不错。前五名是美国模型，后五是中国模型。有人说，那不是可以刷榜吗，针对性训练等等。这个其实越来越难了，因为LMArena也在进行，不仅仅有机器评测，有升级的训练场，有案例测试，还有人工投票，等等。

你看文本大模型的能力，目前前十就剩下一家中国模型，还是百度的ERNIE-5.0，其他家怎么不刷上去呢？

另外中美的商业模式也不一样，美国AI公司对C端卖订阅费用，对B端卖API赚钱，非常明确和简单，现在OpenAI已经开始探索第三种方式——广告业务了。

国内呢，就复杂得多，豆包是国内最大用户量的AI产品吧，普惠，一分钱不收。千问和元宝为了追赶豆包，还得补贴用户红包和奶茶，抢占市场。类似火山引擎和百度AI云这样的toB服务，倒是一样的，企业想用AI，还是买API和服务比较稳妥。

另外，为什么国外顶级模型都是闭源的，中国都是开源的？

ChatGPT、Gemini、Claude等在模型研发上投入了数十亿美元，通过闭源（API授权制），它们可以建立极高的商业壁垒，确保每一笔算力投入都能通过订阅费或API调用费获得回报。

国内AI公司本来就是后发，需要通过开源来快速吸引开发者，降低全球用户的试用门槛，从而在短时间内建立起足以抗衡美国的开发者生态。另外，面对算力和芯片限制，中国企业也倾向于分布式创新。开源能汇聚全球开发者的反馈，在算法优化和推理效率上寻找突破。第三，开源对中小企业也更友好，中国厂商通过提供“好用且免费/低价”的开源权重，能迅速渗透到制造业、政务等垂直细分市场，以普及率换取未来的商业地位。

这里面还涉及地缘政治的问题，咱就不细讲了。总之中国的环境其实要复杂的多，美国就更直接、简单。未来两边肯定是螺旋式交织上升，具体AI能发展到什么程度，如何改变世界的格局和商业模式，改变人们的生活……

我想，五年之内见分晓吧。

。

THE END

免责声明：本文版权归原作者所有；旨在传递信息，不代表鲸媒智集的观点和立场。

相关阅读

350位CEO：有关AI的三重真相和投资逻辑

分钟咨询公司Teneo调查了350位年营收超过十亿美元的上市公司CEO，针对有关于AI的支出（CapEx）等关键问题做了调研，得出了一份非常具备参考性，同时也在某些方面与大众认知出现反差的信息报告。核心信息及数据如下：68%的CEO计划在2026年…

2025年12月19日 14:43
MIT仅录取2人，斯坦福、密歇根狂撒20枚录取...今年的美国早申, 中国学生卷到新高度

早申放榜只是美本申请的开端，数据显示，ED录取率通常只有20%左右，有超过70%的申请者最终都是在RD阶段竞争。所以即使在早申里没有获得理想的结果，也不意味着申请就结束了。

2025年12月19日 14:37
防治骚扰电话要感谢美国？

2025年12月8日，美国联邦通信委员会执法局向中国移动、中国联通和中国电信在香港的运营实体公司发出“合规令”，认定其在反自动拨号骚扰电话数据库中的认证存在“重大缺陷”，并要求在14天内完成整改或作出说明，否则将面临被移出RMD、直…

2025年12月17日 16:41
AI时代最重要的技能

如果说这辈子最需要掌握的技能是啥，我觉得有俩：1、搜索能力；2、输出能力。这里说的“搜索”当然跟之前搜索引擎时代不太一样了，不过逻辑是相同的，都是从浩如烟海的网络信息里查找自己需要的。大家应该注意到了，自从大模型出现后，信…

2025年12月17日 16:37

栏目精选

深度

350位CEO：有关AI的三重真相和投资逻辑

分钟咨询公司Teneo调查了350位年营收超过十亿美元的上市公司CEO，针对有关于AI的支出（CapEx）等关键问题做了调研，得出了一份非常具备参考性，同时也在某些方面与大众认知出现反差的信息报告。核心信息及数据如下：68%的CEO计划在2026年…

2025年12月19日 14:43 独特视角创新科技资讯商业评论

关于中美AI 竞争的差距，我可能真的说错了

关于中美AI 竞争的差距，我可能真的说错了

350位CEO：有关AI的三重真相和投资逻辑

MIT仅录取2人，斯坦福、密歇根狂撒20枚录取...今年的美国早申, 中国学生卷到新高度

防治骚扰电话要感谢美国？

AI时代最重要的技能

栏目精选

350位CEO：有关AI的三重真相和投资逻辑