陶Zhexuan回应了Openai新模特IMO赢得金牌GPT

Openai的最新模型被表达,在2025年国际数学奥林匹克(IMO)上达到了金牌水平! IMO被认为是世界领先的数学比赛,每年只有不到8%的参与者赢得金牌。而现在,AI模型已经完成了。新模型的最终结果:新模型在总共6个问题中成功解决了5个,获得了35分(从42分),超过了今年的金牌线。 Openai员工Alexander Wei还宣布,GPT-5即将发布,但IMO Gold Model是一项实验研究,并且没有计划在几个月内发布。他进一步强调,这种成功并不依赖于特定活动的狭窄技术,而是在尝试时的总体增强和计算视觉时创造了新的突破。同时,在第三方机构的开源法规中发现了GPT-5-Reounding-Alpha-2025-07-13单词。此代码是qu被抛弃后,iCkly被删除或隐藏。 OpenAI的培训结合在一起,以寻找第三方机构在发布新模型之前进行安全测试 - 各种迹象表明,GPT-5离我们不远。金牌获得了35分,解决问题的过程完全模仿了人类考试。具体而言,新的OpenAI实验并不像提出一个随机问题那样简单。 OpenAI团队允许该模型在人类参赛者等确切条件下进行测试:每个4.5小时的测试,没有工具或网络,仅阅读官方问题,然后以自然语言编写证明过程。最终结果发布了:该模型成功解决了6个问题中的5个,得分为35分(从42分),继续超过今年的金牌线。今年的金牌线正好是35分,这标记是人类球员的金牌。今年大约有600场比赛,只有5场完整的标记。更美妙的是严格的标记过程。每个问题的答案都统一以在IMO奖牌中获得三名前冠军,最终得分才在三个之后确定。这一突破的意义远远超过结果。正如研究团队所说,IMO问题需要一个新的持续创造性思维。从推理开始,AI的开发速度仅仅是下颌的倒台:从GSM8K(最高人员约0.1分钟)到数学基准(大约1分钟),在AIME(约10分钟),现在我们终于克服了IMO(大约100分钟)的问题,需要进行漫长而深思熟虑。更重要的是,IMO的答案是一个多页的证据,表明很难验证,这与以前清晰可正确答案的数学问题完全不同。 Openai团队说,他们打破了在传统的加强研究中依靠明确证明的奖励的范式评估能够开发一个富有想象力论证的模型,例如人类数学。唯一未能克服的是六个问题 - 数学难题的组合称为“最终老板”竞赛:Mayof的平方网格为2025×2025。Matilda希望将矩形块放在网格上,每个块的每个块都在每个块上都在每个单元和一个单位平方的块上都可以变化,因为每个块的每个块都在每个块上都覆盖了一个块。找到最小需要放置在Matilda中的块数量,以便每行和网格列都有一个单位正方形,该单位正方形不覆盖任何块。在去年IMO的问题中,Google使用字母隔板和字母度计完成了四个问题,而两个未完成的问题也是组合数学。但是这次,DeepMind研究员Archite Sharma在Openai宣布的消息后回答:“恭喜!它在我们面前宣布了 - 问题6是一个新的基准?”但是推文很快被删除了。这个小节E触发了来自网民的各种Ibang烘焙-Makawa:Google模型也可以达到类似的水平吗?如果您有兴趣,甚至可以检查解决OpenAI发布的AI问题的过程。该链接是在文章末尾获得的。这引起了圆圈的激烈讨论。陶兹恩(Tao Zhexuan)很长时间评论说,Openai模型赢得了IMO金牌,而AI Circle已满。但是,在钦佩之中,也出现了一些不同的声音。最受欢迎的是Man Zhexuan的陈述,这是一位领先的数学学者,他对社交媒体对象发表了长时间的评论。陶兹(Tao Zhexuan)教导说,尽管许多AI公司都说在IMO问题中取得了良好的成果,但由于缺乏单个测试环境和标准,很难进行公平的比较。很容易将当前AI的功能视为数量的解决指标 - 无论是应对某些东西还是无法正常工作。但是实际上,情况并非如此。 AI有多强?它取决于多少资源,提供了多少辅助方法以及显示结果的不同方法。在各种因素的影响下,AI的功能可能是许多数量级。 He was especially emphasized: "Without a pre -published procedure, no self -reported performance in AI competitions. Tao Zhexuan used a vivid metaphor to list a number of possible steps that AI could take: Give students a few days to complete each question, rather than answer three questions in four and a half hours. Calculator, compute softwareR algebra, formal tool auxiliary evidence, book -study, or have the authority to search online. The团队的团队允许团队共同解决相同的问题,并处理他们的发展和瓶颈。会干预。所有6个团队的学生都提交了答案,但团队负责人只选择了“最佳”答案,并将其提交给比赛,其余的则被抛弃了。如果没有人以一个很好的答案对团队进行研究,则团队负责人不会提交答案,并悄悄地退出比赛,没有人知道他们正在参加。 Onesthis步骤改变了竞争格式,并影响了问题的困难。同时,数学竞争考试平台Matharena发布了独立的审查结果。在他们的试验中,即使表现最佳的双子座2.5 Pro也只能得13分(31%),少于19分。该测试使用该方法选择最佳32,也就是说,对于每种型号的答案,首先生成了32个响应,然后在“大语言模型审查系统”的帮助下审查了这些答案,以成对选择更好的答案。开发每个最终模型答案的成本至少为3美元,其中Grok-4 m奥德尔的每个答案的成本超过20美元,但即使,也没有任何模型能达到获奖奖牌的水平。 Matharena的团队同时更新了《通讯》宣布的实验模型赢得了IMO金牌:不可能验证如何实现这些结果,我们希望使用Matharena基准进行模型发布和独立审查。尽管OpenAI模型的金牌的手术尚未公开,但许多网民说,如果他们不考虑这一过程,则结果将是重要的。 Openai团队对自己的成就充满信心。 “在2021年,我的博士主管要求我猜测2025年7月的AI数学开发项目,我预测了30%的数学基准测试(我也认为一切都太乐观了)。现在我们拥有IMO金牌。” OpenAI新模型问题问题问题:参考链接:[1] https://twitter.com/alexwei_/status/1946477777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777太体i .net/@yes@mathodon.xyz/114881418791593328 [4] https://www.reddit.com/r/singularity/comments/1m43gar/looks_like_deepmind_has_also_won_imo_gold_but/] https://matharena.ai/imothis The article起源于微信公共帐户:Qubit(ID:QBITAI),作者:Meng Chen,Xifeng,原始标题“ Tao Zhexuan响应Openai New Model IMO赢得Gold!GPT-5 Beta版本也暴露了