
柴郡🔔|Crypto+AI Plus
@0xCheshire
OpenAI 刚刚发布了一篇论文,公布了怎么打造全球最强 AI 程序员的详细方案。 但最关键的是:这个方法不仅适用于编程,它还是通往通用人工智能(AGI)以及更高级 AI 最清晰的路径。 让我们来看看其中的细节: 🧵👇
在开始之前,希望您能评论、点赞、转发或收藏🔖支持柴郡。 中文翻译版本,原文来自 MatthewBerman Copyright to original author. Will remove if any offensive.
1/ OpenAI 的最新研究表明,强化学习+ 测试时计算是打造超级智能 AI 的关键。 山姆·奥特曼本人表示,OpenAI 的模型在编程竞赛中的排名从 175 名跃升至 50 名,并预计在年底前登顶第一。
2/ 这篇论文《使用大型推理模型进行竞赛编程》对不同的 AI 编程策略进行了比较。 最初,模型依赖于人类设计的推理策略,但真正的突破发生在完全去除人工干预之后。
3/ 这就导致了 DeepSeek-R1 的出现——一个训练成本仅需约 500 万美元的模型。 它的突破点在哪儿? 强化学习 + 可验证奖励。 这种方法也曾被应用于 AlphaGo,让 AI 通过试错学习,无限扩展智能。
4/ 你可以想象一下: AlphaGo 在没有人类指导的情况下,成为了世界上最强的围棋选手。 它依靠不断和自己对战,直到完全掌握围棋。 现在,OpenAI 正在把同样的原理应用到编程,并很快扩展到所有 STEM 领域(科学、技术、工程、数学)。
5/ 这意味着什么? 任何具有可验证奖励的领域(比如数学、编程、科学等),AI 都可以通过自我对抗训练,并且最终彻底掌握。 AI 正在突破人类的局限——而这就是我们迈向通用人工智能(AGI)的方式。
6/ 这是 AI 在编程竞赛中的数据表现: • GPT-4:ELO 评分 808(还不错) • OpenAI-01:ELO 评分 1,673(更强) • OpenAI-03:ELO 评分 2,724(超越人类)🏆 AI 在编程竞赛中达到前 0.2% 的水平,并且完全不依赖人类设计的策略。
7/ 特斯拉在自动驾驶上的也是如此做法。 他们最初使用的是混合模式(人类规则 + AI)。 但当他们改用端到端 AI 后,性能大幅飙升。 AI 需要的不是更多的人类干预,而是更强的计算能力。
8/ 关键结论是? 奥特曼之前说过:AGI 只是规模化的问题。 强化学习 + 测试时计算 = AI 增长公式,而 OpenAI 已经在验证这一点。
9/ 我们正在亲眼见证 AI 超级智能的诞生。 它不仅仅会停留在编程。同样的技术将让 AI 成为历史上最强的数学家、科学家和工程师。 通往 AGI 的竞赛,已经正式开始。