GPT-5、絶賛と酷評の嵐

AI新聞

 

 

OpenAIが8月8日にリリースした新AIモデル、GPT-5に対する評価がポジティブとネガティブに大きく分かれている。新しいAIモデルに関して、ここまで絶賛と酷評が入り混じるのは珍しい。なぜここまで評価が分かれるのだろうか。

 

まずはポジティブな評価やデータを見てみよう。AI開発者コミュニティLatent Spaceの公式ブログは「GPT-5が間違いなく世界最高のコーディングモデルだ」と絶賛している。これまでのモデルはソフトウェア開発の6割程度しか自動化できなかったが、GPT-5で約7割の自動化が可能になったとしている。

 

米誌『WIRED』は、画像とテキストが混在するプロンプトに対する回答の精度が向上したことに加え、カレンダーやメールとの自動連携を高く評価している。また、長文を扱えるようになったことで「文庫本数十冊まるごと理解させても迷子にならない」と絶賛する研究者の声を紹介している。

 

米ペンシルベニア大学のEthan Mollick教授は、同教授のブログで「プロンプト一行で3Dビルダーが完成。GPT-5は自分で動くAIだ」と高く評価している。

 

またAIモデルの性能を計測する各種ベンチマークでも、GPT-5は高得点を獲得している。米調査会社Artificial Analysis社のロングコンテキスト推論ベンチマーク「AA-LCR」で、GPT-5の2つのモデルが1位と2位を獲得している。AA-LCRは、複数の長い文書(10万トークン程度)を横断した推論能力をテストするベンチマークで、GPT-5が「考える力(リーズニング、推論、論理的思考)」で大きく進化したことが分かる。

また同社のAI総合ベンチマークで、OpenAIがイーロン・マスク氏率いるxAIから首位の座を29日ぶりに奪回したという。

 

 

ユーザーが複数のモデルに同じ質問を投げかけ、その回答のどちらがいいかを投票するLMSYS Chatbot Arena(通称:Chatbot Arena)の人気投票でも、テキスト、Web開発、ビジョン、コーディング、数学、クリエイティビティ、長文の各部門でGPT-5が1位を獲得している。

 

 

GPT-5はコストパフォーマンスも優れている。AnthropicのClaude Opus 4.1の利用料は、100万入力トークン当たり15ドル、100万出力トークン当たり75ドルであるのに対し、GPT-5は100万入力トークン当たり1.25ドル、100万出力トークン当たり10ドルと、かなり安くなっている。

(出典:Simon Willison’s Weblog

 

一方でネガティブな評価もSNS上に数多く投稿されている。米半導体調査会社SemiAnalysisのDylan Patel氏は「GPT-5にはがっかりした。コーディングもClaudeの方がいい」とXに投稿している。米AIスタートアップReplitのCEO、Amjad Masad氏は「進化の減速を感じずにはいられない。新しい進化が必要だ」とX上で語っている。

 

イーロン・マスク氏は「(同氏率いるxAI社のAIモデル)Grokが一番」と、リーズニングのベンチマークARC-AGI 2で、Grokが最高得点を獲得したグラフをX上で共有している。

 

 

AI研究者のGary Marcus氏は、「GPT-5を3つの言葉で表すと、遅い、過大評価されている、期待外れ」とXに投稿している。「私は長年、GPT-5が期待外れの結果に終わった場合、OpenAIは深刻な打撃を受ける可能性があると警告してきました。そして、私が正しかったかどうかが、ついに間もなく明らかになります。合理的な世界であれば、OpenAIの評価額は打撃を受けるでしょう。彼らはもはや明確な技術的優位性を持っていません。GPT-5が他社をリードし続けるのは、2、3ヶ月以上は難しいでしょう」と語っている

 

作家で未来研究者のEwan Morrison氏は「GPT-5への失望により、AIの誇大宣伝バブルは崩壊した。状況は一夜にして一変し、ユーザーは失望している。AI推進者やインフルエンサーでさえ、LLMは停滞していると述べている」とX上に投稿している。

 

イーロン・マスク氏率いるxAIの共同創業者のYuhuai (Tony) Wu氏は「GPT-5を見て、我々のチームを誇りに思う。我々の方が小さい組織なのに、多くのベンチマークでGPT-5を圧倒している。Grok 4は世界初の統合モデルで、ARC-AGIなどのベンチマークでGPT-5に大きく上回っている。OpenAIは尊敬すべき競争相手だが、我々は動きが早く、容赦しない。次の2、3週間で多くの新しいモデルをリリースするつもりだ」とX上に投稿している。

 

また予測市場Polymarketの世論調査で「8月末に最高のAIモデルを持つのはどの企業か」という質問を投げかけたところ、GPT-5のリリース前はOpenAIという回答が全体の75%を占めていたが、リリース後わずか1時間でOpenAIと予測する回答が14%にまで激減した。一方でGoogleが最高のAIモデルを持つようになるという答えが急浮上している。

 

 

果たしてX上では、絶賛と酷評のどちらが多いのだろう。X上のAIツール、GrokにX上でのGPT-5の評判を分析してもらったところ「日本語、英語ともにネガティブな意見が目立ち、ポジティブな声は少数派」という回答になった。「日本語の投稿は感情的な変化(例:応答のドライさ)を強調し、英語圏は技術的な問題(例:コード生成の失敗)を強調する傾向が見られた」という。

 

ではなぜここまで評価が大きく分かれるのだろうか。Reddit上でのSam Altman氏の投稿によると「一時期オートスイッチャーが機能しなくなり、GPT-5は遥かにバカに見えた」という。GPT-5は実は複数のモデルで構成されており、ユーザーからの質問を受けると、簡単な質問は低コスト・低インテリジェンスのモデルに、高度で難解な質問は高コスト・高インテリジェンスのモデルに、それぞれ振り分けられる仕組みになっている。この振り分けを自動で行うオートスイッチャーが、リリース後ほぼ24時間にわたって不具合を起こしていたという。このため、多くのユーザーが低コスト・低インテリジェンスのモデルに振り分けられ、性能が悪化したという評価が多くなったのだという。

 

また旧モデルのGPT-4oはユーザーに寄り添うタイプのモデルだったが、GPT-5は正確さを追求するタイプになった。ユーザーと議論する中でGPT-5はユーザーに対して厳しめの回答をする傾向にあり、これが共感型の相談相手を求めていたユーザーの不評を買う結果になった。GPT-5のリリース後はGPT-4oの提供を停止していたOpenAIだが、ユーザーからの要望を受けてGPT-4oを段階的に復活させることを検討中という。

 

こうした一時的な問題はあるにせよ、やはりユーザーの新モデルへの期待は高く、GPT-5はそれに応えられていないというのが現状のようだ。これはOpenAIだけの問題ではなく、モデルを大きくすれば性能が上がるというスケール則がいよいよ機能しなくなってきたためだと見られている。Allen Instituteの研究者のNathan Lambert氏は同氏の6月29日付のブログで「計算クラスターを大きくすれば性能が向上するという神話は2024年に崩壊した。2025年の主要モデルは規模の拡大をほぼ停止し、GPT-5も単一巨大モデルではなく推論時スケーリング(論理的思考、リーズニング)で性能を稼ぐ見通し」と語っている。

 

GPT-5のベンチマークの結果が、競合のGrok 4より少し良くなる程度だということはリリース前からOpenAI社内では明らかになっており、6月19日付のBleeping Computerの記事は、新しいモデルの名称をGPT-4シリーズにすべきか、GPT-5にすべきか社内での議論が続いているというSam Altman氏の発言を紹介している。

 

結局Sam Altman氏は、新モデルの名称をGPT-5に決定した。そのことで期待値が膨れ上がり、一部ユーザーが落胆する結果になることはある程度想定していたはずだ。しかしここまで酷評されるとは思ってもいなかったのだろう。Sam Altman氏はReddit上で行われたユーザーとの質疑応答の機会で、「多少の困難は覚悟していたが、予想以上に大変なことになった」と語っている。

 

OpenAI、Anthropic、Google、xAIといったトップAI企業は、抜きつ抜かれつの激しい開発競争を繰り返している。しかしここまで絶賛と酷評が交差する反応が起こるのはOpenAIだけだ。それだけGPTという名称のブランド力が抜きん出ているということなのだろう。確かにChatGPTという名称は、生成AIの代名詞的存在になっている。

 

Altman氏は3月20日に公開されたインタビュー記事の中で、「今後5年間で、10億人のユーザーを獲得することと、最高峰のモデルを作ることのどちらがより大事ですか」という質問に対して「10億人のユーザーを獲得することだと思います」と答えている。性能が向上したのは「o1」「o3」といったリーズニングモデルの系統だが、それをGPT-5の名称の下に統合してリリースしたのは、何よりもGPTという名称のブランド力で、ユーザー層を広く拡大しようという考えだったのだろう。

 

ユーザー層が拡大すればするほど、ビジネスでの補佐役や、議論相手、雑談相手、擬似恋愛対象など、ユーザーがAIに求める役割も多様になってくる。「AIなら何でもできるはず」という過度の期待も膨らむことだろう。ほとんどの人に利用されるAIを作るということは、こうしたニーズや期待に応えていく必要があるということだ。OpenAIは、これからも絶賛と酷評という嵐の中を一心不乱に進んでいくしかなさそうだ。

 

湯川鶴章

AI新聞編集長

AI新聞編集長。米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』(2015年)、『次世代マーケティングプラットフォーム』(2007年)、『ネットは新聞を殺すのか』(2003年)などがある。趣味はヨガと瞑想。妻が美人なのが自慢。

この機能は有料会員限定です。
ご契約見直しについては事務局にお問い合わせください。

関連記事

記事一覧を見る