
2025年夏、AI研究コミュニティに衝撃が走った。OpenAIの研究チームが開発中の汎用推論モデルが国際数学オリンピック(IMO)本選問題に挑み、35/42点という金メダル相当のスコアを叩き出したのだ。これまでGPT‑4系列が言語理解やプログラミングで高い評価を得てきたとはいえ、証明問題という創造的思考の最難関で人間トップ層と肩を並べたのは初めてである。
数学オリンピックを突破した意味――長編推論の壁を越えて
IMOは6問、各日4時間半という過酷な試験時間の中で、美しく完結した証明を組み立てることを要求する。小手先の公式暗記や計算速度では通用しない領域だ。OpenAIのモデルは専用の定理証明器ではなく、自然言語の対話をベースにした汎用LLMが、人間と同条件で取り組み5題を完答した。「IMOの問題はページにわたる証明を要し、専門家でも採点に数時間かかるほど難解です。今回のモデルはそれらを長い思考プロセスで解き切りました」とOpenAI研究者ノーム・ブラウン氏は語っている。
大規模言語モデルにとって数学は「最後の砦」の一つ
実は、大規模言語モデルにとって高度な数学は、チェスや囲碁よりもはるかに難しい課題だ。大規模言語モデルは、膨大なテキストデータから単語のつながり(パターン)を学習するのが得意。しかし、数学で求められるのは、記号を正確に扱い、厳密なルールに従って多段階の推論を進める能力であり、これは根本的に異なるスキルなのだ。
また数学オリンピックの問題を解くには、例えば「ここに補助線を引いてみよう」とか「この問題を別の角度から捉え直してみよう」といった、非連続的な発想のジャンプが必要。この「ひらめき」をAIでどう実現するかは、長年の大きな課題だった。
今回の成果が特に驚異的なのは、数学の問題を解くためだけに作られた「特化型AI」ではなく、文章の作成や翻訳など、さまざまなタスクをこなせる「汎用モデル」で達成されたことだ。これは、AIがより人間に近い、柔軟で汎用的な思考能力を獲得しつつあることを示唆している。
知識人たちの反応――賛嘆と警戒の入り交じり
成果が公表されるや否や、SNSと専門フォーラムでは専門家たちの驚嘆の声が連続している。
— 「十年越しの夢が実現した」(OpenAI CEO サム・アルトマン)
— 「AIの進歩、特に数学の進歩がいかに速かったかを考えてみて。2024年当時、AI研究者たちはAIモデルの評価に小学校の数学(GSM8K)を使用していた。その後、高校数学ベンチマークをクリアし、次にアメリカ招待数学試験(AIME)も通過、そして今や国際数学オリンピック(IMO)金メダルレベルに達した」(OpenAIのノーム・ブラウン氏)
— 「1か月前のインタビューで『今年のIMOでAIが高得点を取るのは無理。時間制限内で解くにはまだ性能不足』と語ったばかりだった」(フィールズ賞数学者 テレンス・タオ氏)
— 「これまでのモデルからの段階的な進化ではなく、まったく別のものになったように感じる。性能が上がったというより、根本的に異なる論理的思考の形を目にしているのだと思う」(CTOLのインタビューに答えた数学者)
— 「これは単なるパターンマッチングではなく、数時間にわたる一貫した論理的推論の産物。AIが本物の数学的思考を見せたと言えるだろう」(CTOLのインタビューに答えた別の数学者)
ー 規模だけではこの勝利は得られませんでした。重要な成果は、明示的な自己検証、よりスマートな時間配分、そして記号からプレーンテキストへの規律ある変換によってもたらされました。このレシピは、論理チェーンが表面パターンマッチングよりも優先されるあらゆる分野に適用できます。今回の結果は、機械による記号操作と人間による創造的な証明記述の間に長年存在していたギャップを埋め、AI推論における真の転換点となりました。(Rohan Paul氏 AIエンジニア)
一方で批判的な意見もある。
— 「思考過程のデータが公開されていないので科学的検証ができない。外部再現と多分野テストが不可欠だ」(NYU名誉教授 ゲイリー・マーカス氏)
称賛派は「汎用性の証明」と位置づける一方、懐疑派は評価過程の透明性や他ドメインへの外挿可能性を問題視する。いずれにせよ、「AIが創造的推論で人間頂点に並んだかもしれない」という事実は、多くの研究者の思考をリセットさせたと言えるだろう。
汎用推論が切り開く応用シナリオ
長時間・長文の整合的推論が可能になると応用範囲は一気に広がる。例えば科学研究では複雑な理論モデルの整合性チェックや実験データとのギャップ解析を自動で行い仮説生成をサポートできる。ソフトウェア検証では大規模コードベースに潜む論理バグを仕様記述と突き合わせて形式的に証明し、法律・契約レビューでは数百ページの契約書間の矛盾や抜け穴を論証的に指摘して修正案まで提示する。さらに教育分野では、学習者がつまずく論理ステップを同定し、証明の「なぜ」を対話的に解説できるようになる。新しい物理法則の発見、創薬や材料開発など、さまざまな分野で研究を劇的に加速させる可能性がある。
GPT‑6以降の社会はどう変わるのか
AIがIMO金メダルを取った――数字だけ見れば痛快だが、その裏側にあるのは「創造的推論」という人類最後の牙城が崩れ始めた兆しだ。サム・アルトマン氏はX上で、今回の汎用推論モデルは近くリリースされるGPT‑5とはまったく別の実験モデルであり、一般公開は数カ月先になる見込みだと述べている。今回のモデルはおそらくGPT‑6という名称で数カ月後にリリースされるのだろう。人間にしかできないと言われていた仕事が、AIにもどんどんできるようになってきている。人間にはどのような仕事が残されるのだろうか。将来に備えて子どもたちに何を学べと言えばいいのだろう。技術的な興奮の一方で、教育・研究・倫理、社会・仕事のあり方を考え直す課題が待っている。金メダルの栄光は、次の課題へのスタートラインでもある。
【追記】Google DeepMindもDeep Thinkを搭載したGemini上級バージョンが国際数学オリンピックで金メダル級の成績を達成した、と発表。OpenAIと同時に発表しなかったのは、結果が独立した専門家に検証されるのを待ったのと、学生が当然受けるに値する賞賛を受けた後にのみ結果を公表すべきというIMO理事会の要請を尊重したからだと説明している。確かにIMO理事会からは、OpenAIに対し結果公表が早すぎるという苦情が寄せられていたもよう。

湯川鶴章
AI新聞編集長
AI新聞編集長。米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』(2015年)、『次世代マーケティングプラットフォーム』(2007年)、『ネットは新聞を殺すのか』(2003年)などがある。趣味はヨガと瞑想。妻が美人なのが自慢。