【AIエージェント戦争②】GPT-5.5は「賢いモデル」ではなく「働くモデル」だ

2026.04.28

本記事は「AIエージェント戦争」連載の第２回です。

・第1回：5社の戦い（市場構造）
・第2回：GPT-5.5分析（OpenAI戦略）
・第3回：コントロールプレーン解説

OpenAIが発表したGPT-5.5は、単なる高性能モデルの更新ではない。

もちろん、ベンチマークの数字は重要だ。GPT-5.5はTerminal-Bench 2.0で82.7%、GDPvalで84.9%、OSWorld-Verifiedで78.7%、BrowseCompで84.4%を記録している。だが今回の発表で本当に見るべきなのは、モデル単体の知能スコアではない。OpenAIがGPT-5.5を、明らかに自律型エージェント基盤の中核として位置づけている点だ。

OpenAIは発表文の冒頭で、GPT-5.5を「実際の仕事のための新しい種類の知能」と表現している。同社は、GPT-5.5がコードの作成・デバッグ、オンライン調査、データ分析、文書やスプレッドシート作成、ソフトウェア操作、複数ツールをまたいだ作業に優れると説明する。さらに、ユーザーが細かく一つひとつ指示しなくても、複雑で雑然としたタスクを与えれば、計画し、ツールを使い、作業を確認し、曖昧さを処理しながら進められるとしている。

ここに、今回の本質がある。

GPT-5.5は、単に「質問に答えるAI」ではない。OpenAIが狙っているのは、「仕事を受け取り、道具を使い、途中で確認し、成果物まで持っていくAI」だ。つまり、チャットボットの延長線上というより、エージェント基盤で動くことを前提にしたモデルである。

この視点で見ると、GPT-5.5の発表文はかなり一貫している。

まず強調されているのは、エージェント型コーディングだ。OpenAIはGPT-5.5を「これまでで最も強いagentic coding model」と説明し、Terminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%に達したとしている。Terminal-Bench 2.0は、複雑なコマンドライン作業を通じて、計画、反復、ツール連携を測る評価だ。つまり、単にコード断片を書けるかではなく、実際の開発環境で作業を進められるかを問う。

OpenAIは、GPT-5.5がCodexの中で、実装、リファクタリング、デバッグ、テスト、検証まで担えると説明している。重要なのは「大規模なシステムの文脈を保持する」「曖昧な障害の原因を推論する」「ツールで仮説を確認する」「周辺コードまで変更を通す」といった能力だ。これは、コードを書く能力というより、開発作業を遂行する能力である。

この点では、GPT-5.5は基盤モデルというより、OpenAI版のエージェント基盤を動かすエンジンに近い。

ただし、OpenAIがあらゆるコーディング評価で圧勝しているわけではない。OpenAI自身の表でも、SWE-Bench ProではClaude Opus 4.7が64.3%、GPT-5.5が58.6%となっている。つまり、個別のコーディング実務評価ではClaudeが強い領域も残っている。だからGPT-5.5の意味は、「すべてのモデル比較でトップになった」ことではない。むしろ、コード、調査、文書、表計算、コンピュータ操作、業務ワークフローをまたぐ総合的な実行能力を押し出している点にある。

そのことは、知識労働の項目を見るとさらに明確になる。

OpenAIは、GPT-5.5がCodex上で文書、スプレッドシート、スライドを生成する能力でもGPT-5.4を上回ると説明している。さらに、Codexのcomputer use能力と組み合わせることで、画面を見て、クリックし、入力し、インターフェースを移動し、ツールをまたいで作業する感覚に近づいているという。

これは、かなり重要な表現だ。

従来のAIは、ユーザーが文章やコードをコピペして使うものだった。GPT-5.5でOpenAIが見せようとしているのは、AIがコンピュータ上の作業環境に入り込み、人間と同じように複数の画面やツールを扱う姿だ。これは、前回の記事で見た自律型エージェント基盤の方向とそのまま重なる。

実例も、もはや単なるデモではない。

OpenAIによれば、同社では現在、85%以上の社員が毎週Codexを使っている。コミュニケーション部門では、6カ月分の登壇依頼データを分析し、スコアリングとリスク評価の枠組みを作り、自動Slackエージェントを検証した。低リスクの依頼は自動処理し、高リスクの依頼は人間の確認に回す仕組みだ。財務部門では、2万4771件、合計7万1637ページのK-1税務書類をレビューし、前年より2週間早く作業を進めた。営業・市場開拓部門では、週次ビジネスレポートの自動生成により、週5〜10時間を削減したという。

ここで見えてくるのは、GPT-5.5が「便利な文章生成モデル」ではなく、業務プロセスの中に組み込まれ始めているという事実だ。

特に象徴的なのは、登壇依頼の処理だ。これは、単に文章を要約する仕事ではない。過去データを分析し、評価基準を作り、リスクを判断し、自動処理と人間レビューを分ける。つまり、AIが業務フローの一部を担う形になっている。GPT-5.5は、こうした「業務の途中」に入り込むモデルとして設計されている。

この流れは、OpenAIが同時期に発表したWorkspace agentsともつながる。

OpenAIはWorkspace agentsを、カスタムGPTsの進化形として説明している。Workspace agentsは、Codexを基盤とするチーム向け共有エージェントで、クラウド上で動き続け、ChatGPTやSlackから利用できる。組織は、エージェントがアクセスできるファイル、実行できるアクション、人間の承認が必要な条件を設定できる。

つまり、Workspace agentsは「仕事を置く場所」であり、GPT-5.5はその中で仕事を進める「頭脳」だ。

この2つを分けて見ると、OpenAIの戦略がはっきりする。同社は、ChatGPTを単なる対話画面ではなく、職場のエージェント実行環境に変えようとしている。GPT-5.5は、そのために必要なモデル側の能力、つまり長時間タスクへの粘り、ツール利用、自己確認、文脈保持、業務理解を強化したモデルだ。

もう一つ重要なのは、GPT-5.5が計算効率を向上させている点である。

OpenAIは、GPT-5.5がGPT-5.4と同等のトークン当たりレイテンシを維持しながら、より高い知能を実現したと説明している。さらに、Codexタスクでは同じ作業をより少ないトークンで完了できるとしている。これは、エージェント基盤では極めて重要だ。

なぜなら、自律型エージェントは高コストになりやすいからだ。チャットのように1回質問して1回答を返すだけなら、多少コストが高くても許容される場面はある。しかしエージェントは、計画を立て、検索し、コードを実行し、ファイルを読み、画面を操作し、失敗すればやり直す。長時間走るほど、トークン消費と遅延が問題になる。

だから「賢いが重いモデル」では、エージェント基盤の中核にはなりにくい。重要なのは、複雑な仕事を長く続けられ、かつ実用コストで回せることだ。GPT-5.5がレイテンシとトークン効率を強調しているのは、まさにエージェント時代の要件を意識しているからだ。

さらに興味深いのは、OpenAIが推論インフラの改善にもGPT-5.5を使ったと説明している点だ。

発表文によれば、GPT-5.5はNVIDIA GB200およびGB300 NVL72システム向けに共同設計・訓練・提供されている。OpenAIは、CodexとGPT-5.5が性能目標の達成に重要な役割を果たし、GPT-5.5自身が推論スタックの改善を見つけ、実装する助けになったと説明している。生産トラフィックのパターンをCodexが分析し、負荷分散と分割のヒューリスティックを改善した結果、トークン生成速度が20%以上向上したという。

これは非常に象徴的だ。

AIがアプリを作るだけでなく、AIを動かすインフラそのものを改善している。エージェントがソフトウェア開発を支援し、その支援によってエージェントを動かす基盤がさらに良くなる。この循環が回り始めると、競争力はモデル単体ではなく、モデル、Codex、実行環境、推論インフラ、社内ワークフローの総合力から生まれる。

GPT-5.5の発表で、もう一つ見逃せないのが科学研究への広がりだ。

OpenAIは、GPT-5.5がGeneBenchやBixBenchのような科学・技術系ワークフローでも性能を伸ばしたと説明している。GeneBenchは遺伝学・定量生物学の多段階データ分析を対象にした評価で、曖昧さやデータ品質の問題を含む現実的な分析課題を扱う。さらに、GPT-5.5の内部版が、カスタムハーネスと組み合わさり、ラムゼー数に関する新しい証明を発見した例も紹介されている。

ここでも重要なのは、答えを一発で返す能力ではない。研究者の仕事は、問いを立て、データを集め、仮説を検証し、結果を解釈し、次に何を試すか決める連続的なプロセスだ。OpenAIは、GPT-5.5がそのループを継続する能力を強めたと見せようとしている。

つまり、GPT-5.5は「回答モデル」から「作業モデル」への転換を示している。

この転換は、生成AI市場全体の変化とも重なる。Microsoft、Google、OpenAI、Anthropic、NVIDIAはいずれも、AIエージェントを企業内で動かすための基盤を狙っている。自律型エージェント基盤が次の主戦場になるなら、OpenAIに必要なのは、単に賢いモデルではない。複雑な仕事を受け取り、ツールを使い、長く走り、ミスを検出し、成果物まで持っていくモデルだ。

GPT-5.5は、その方向に合わせて作られたモデルに見える。

もちろん、現時点でGPT-5.5がエージェント時代の勝者になると決まったわけではない。Claudeはコーディングで強く、Googleはクラウドと業務アプリの統合に強い。Microsoftは企業IDと管理基盤を押さえている。NVIDIAはハードウェアとオープン基盤を握る。OpenAIの強みは、ChatGPTという巨大な入口と、Codexを通じた実行環境、そしてGPT-5.5のような作業遂行型モデルを組み合わせられる点にある。

だから、GPT-5.5を見るときに重要なのは、「GPT-5.4より何点上がったか」だけではない。

見るべき問いはこうだ。

このモデルは、AIエージェント基盤の中で、どれだけ長く、正確に、低コストで働けるのか。
どれだけツールを使いこなし、曖昧な業務を処理できるのか。
人間が細かく管理しなくても、どこまで仕事を前に進められるのか。

GPT-5.5の発表は、この問いへのOpenAIの答えである。OpenAIは、モデル単体の知能競争から、自律型エージェント基盤の実行能力競争へと軸足を移し始めている。GPT-5.5は、その中心に置かれた「働くモデル」だ。

主な参照先：
OpenAI「Introducing GPT-5.5」
https://openai.com/index/introducing-gpt-5-5/

OpenAI「Introducing workspace agents in ChatGPT」
https://openai.com/index/introducing-workspace-agents-in-chatgpt/

→ なぜMicrosoft、Google、OpenAIは同時にこの領域に動いたのか。第1回で市場構造を解説している。
→ では、その基盤の中で勝敗を分ける「コントロールプレーン」とは何か。第3回で詳しく解説する。

湯川鶴章

AI新聞編集長

AI新聞編集長。米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算２０年間の米国生活を終え２０００年５月に帰国。時事通信編集委員を経て２０１０年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』（2015年）、『次世代マーケティングプラットフォーム』（2007年）、『ネットは新聞を殺すのか』（2003年）などがある。趣味はヨガと瞑想。妻が美人なのが自慢。

AI新聞
【AIエージェント戦争②】GPT-5.5は「賢いモデル」ではなく「働くモデル」だ

記事一覧を見る

【AIエージェント戦争②】GPT-5.5は「賢いモデル」ではなく「働くモデル」だ

湯川鶴章

AI新聞編集長

関連記事