设为首页加入收藏
  • 首页
  • 周治平
  • 小迪
  • 孙培恩
  • 玩乐团
  • 田欣
  • 潘迪华
  • 当前位置:首页 >叶熙祺 >通用 LLM 挑戰數學奧林匹亞試題,OpenAI 推理模型達金牌水準

    通用 LLM 挑戰數學奧林匹亞試題,OpenAI 推理模型達金牌水準

    发布时间:2025-09-14 05:23:17 来源:胡天胡帝网 作者:宁德市

    歷史悠久、規模盛大的國際數學奧林匹亞競賽(International Mathematical Olympiad,IMO),今年不只有天資聰穎的各國學生參賽,還有 OpenAI 以尚未公開的實驗性推理模型加入挑戰,為自家 AI 發展增添重要里程碑。

    從事大型語言模型和推理研究的 OpenAI 科學家 Alexander Wei 在 X 發文表示,OpenAI 最新推理模型解出今年 IMO 競賽 6 道題目中的 5 題。模型對每道數學題目提交作答證明,並由 3 名前 IMO 獎牌得主獨立評分,取得一致共識確認最終分數。滿分 42 分的前提下,OpenAI 總共得到 35 分,足以獲得金牌。

    面對 IMO 需要提交難以驗證、長達多頁的作答證明,OpenAI 以強化學習,打造出能夠撰寫複雜且能嚴謹論證、媲美數學家的模型。

    OpenAI 與學生選手遵照相同規則,在 2 場各 4.5 小時的考試,由模型讀取數學題目說明,以自然語言方式產生作答證明,而且不得使用網路或其他工具。

    IMO 題目要求持續的創造性思考,遠遠超越過往的基準測試。在推理所需時間上,OpenAI 的模型從基準測試 GSM8K(頂尖人才需約 0.1 分鐘)、MATH(約 1 分鐘)、AIME(約 10 分鐘)再到這次 IMO(約 100 分鐘),持續有所突破。

    實際上,IMO 競賽讓各國派出最多 6 名學生參賽,挑戰極具難度的數學題目。今年有 630 名參賽者,僅 67 人獲頒金牌。

    值得一提的是,Alexander Wei 談到 OpenAI 很快將會推出 GPT-5,期待大家試用。他也補充,IMO 金牌級模型屬於實驗性研究模型,暫不打算在未來數個月釋出具有強大數學能力的產品。

    we achieved gold medal level performance on the 2025 IMO competition with a general-purpose reasoning system! to emphasize, this is an LLM doing math and not a specific formal math system; it is part of our main push towards general intelligence.

    when we first started openai,… https://t.co/X46rspI4l6

    — Sam Altman (@sama) July 19, 2025

    ▲ 挑戰 IMO 取得佳績,OpenAI 執行長強調這是以大型語言模型作答數學題目,並非採用特定數學系統,這也是 OpenAI 推動通用智慧成就之一。

    (首圖來源:pixabay)

    文章看完覺得有幫助,何不給我們一個鼓勵

    請我們喝杯咖啡 icon-coffee

    想請我們喝幾杯咖啡?

    icon-tag

    每杯咖啡 65 元

    icon-coffeex 1 icon-coffeex 3 icon-coffeex 5 icon-coffeex

    您的咖啡贊助將是讓我們持續走下去的動力

    總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認
    [1][2][3][4][5][6][7][8][9][10]
  • 上一篇:新疆和田地区发生3.4级地震 震源深度10千米
  • 下一篇:重庆市发布68项地方标准

    相关文章

    • 前10月规上轻工企业实现利润同比增长9.8%
    • DXC 與新創公司合作,推動汽車和製造業 AI 創新
    • 世界最大跨度斜拉桥常泰长江大桥正式通车运营
    • 國防部採購大案與非紅商機奏效,無人機台廠注入動能
    • 男子地铁上猥亵女子被抓 见对方报警跪地求饶“你别毁了我”
    • 韓三大電池廠市占率遭中國蠶食 前七月跌破兩成
    • 中国海油向港澳供天然气累计超700亿方
    • 安徽“个转企”办理时限压缩至一日
    • 男子地铁上猥亵女子被抓 见对方报警跪地求饶“你别毁了我”
    • 上海市市场监管局发布优化检验检测行业营商环境8条举措

      随便看看

    • 上海市1396家企业“晒”承诺,严格落实食品安全主体责任
    • 特斯拉發表「大師宏圖四」,暗藏 Cyber SUV 彩蛋
    • 促进专利转化 河北在行动
    • 四川省出台首份食品安全检查事项清单
    • 挪威史上最大軍事投資,砸 4,137 億向英採購新巡防艦
    • 商事登记“渝港通”开通
    • 山西出台行动计划推进消费品市场体系建设
    • 黄金内湾涉外商业秘密保护基地正式揭牌运行
    • 日本比特幣公司 Metaplanet 召開股東會,川普次子出席
    • 北京“餐饮开店掌中宝”新版上线
    • Copyright © 2025 Powered by 通用 LLM 挑戰數學奧林匹亞試題,OpenAI 推理模型達金牌水準,胡天胡帝网   sitemap