AIが勝手に働くエージェント時代、GPU競争の次に来る主戦場とは

2026.05.24

AIインフラ競争の焦点が、また一段階変わり始めている。

これまでのAIインフラ論は、ほとんどの場合、NVIDIAのGPUを中心に語られてきた。なぜなら大規模言語モデルの学習には、膨大な並列計算能力、高速メモリ、GPU同士を密に接続するネットワークが必要だったからだ。AIブームの中心にあったのは、モデルを賢くするための「学習」であり、その学習を支える計算基盤だった。

しかし、米テクノロジー分析メディアStratecheryを運営するBen Thompson氏は、2026年5月11日付のエッセイ「The Inference Shift」で、AIインフラの主戦場が「学習」から「推論」へ、さらに「人間に答えを返す推論」から「AIエージェントが仕事を進める推論」へ移っていくと論じている。

ソースURL：

[https://stratechery.com/2026/the-inference-shift/](https://stratechery.com/2026/the-inference-shift/)

同氏の議論で重要なのは、推論を一括りにしない点だ。一般に「推論」といえば、ChatGPTやClaudeのようなAIがユーザーの質問に答える処理を思い浮かべる。ここで重要なのは、どれだけ速く返答できるかだ。人間が画面の前で待っている以上、トークン生成速度はユーザー体験に直結する。

Thompson氏はこれを「answer inference」と呼ぶ。人間に答えを返すための推論である。

これに対し、同氏が今後より大きな市場になると見るのが「agentic inference」だ。これはAIエージェントがタスクを遂行するための推論である。人間にすぐ返答するのではなく、AIが文脈を保持し、状態を管理し、ツールを使い、ログやデータベースを参照しながら、作業を進めていく。ここでは、単純な応答速度よりも、どれだけ大きな文脈や履歴を扱えるかが重要になる。

この違いは、AIインフラの設計思想を大きく変える。

人間向けの推論では、速さが価値になる。たとえば音声AI、AIウェアラブル、コーディング支援のような用途では、AIの応答が遅いだけで体験価値が落ちる。だから、高速なチップや高速メモリが重要になる。

一方で、エージェント向けの推論では事情が違う。AIが夜間に大量の仕事を処理する。別のAIから渡されたタスクをこなす。人間が画面の前で待っていない状態で、複数の処理を継続的に走らせる。こうした用途では、1秒でも速く返すことよりも、長い文脈、作業履歴、外部データ、ツール実行の状態を安価に保持し続けることの方が重要になる。

Thompson氏は、エージェントには「context, state, and history」が必要だと書いている。つまり、文脈、状態、履歴である。その一部はKVキャッシュとして高速メモリ上に置かれるが、それだけでは足りない。ホストメモリ、SSD、データベース、ログ、RAGのための検索インデックス、オブジェクトストアなど、より広いメモリ階層全体が重要になる。

ここに、NVIDIA中心のAIインフラ論では見落とされがちな変化がある。

NVIDIAのGPUは、学習に強い。大量の計算を高速に回し、HBMと呼ばれる高帯域メモリを使い、GPU同士を高速ネットワークで接続する。その強みは、今後も学習では大きな意味を持つ。さらに、人間にすばやく答える推論でも重要であり続ける。

だが、エージェントが人間を待たずに仕事を進める世界では、最速のGPUや最速のメモリに常に高いプレミアムを払う必要があるのか、という疑問が出てくる。多少遅くてもよいなら、より安価で容量の大きいDRAMやSSDを組み合わせた構成の方が合理的になる可能性がある。計算能力そのものよりも、メモリ階層の設計が競争力を左右するからだ。

この議論の対比として、Thompson氏は米AI半導体企業Cerebrasを取り上げる。同社は、通常の半導体チップとは異なり、シリコンウェハー全体を一つの巨大なチップとして使う「ウェハースケール」型のAIチップを開発している。最新チップWSE-3は44GBのオンチップSRAMを持ち、メモリ帯域は21PB/sに達する。NVIDIA H100の80GB HBM、3.35TB/sと比べると、容量は小さいが帯域は桁違いに大きい。

これは、人間向けの高速推論には非常に魅力的だ。高速にトークンを生成できれば、コーディング支援や音声AIでは体験が大きく変わる。AIが「考えている」時間が短くなれば、人間はより自然にAIとやり取りできる。

ただし、Thompson氏は、Cerebras型の高速推論が向いているのは主にanswer inferenceだと見る。大きなモデルや長いKVキャッシュがオンチップメモリに収まらなくなれば、その強みは薄れる。高速だが容量に制約がある構成は、人間に短時間で答える用途では強いが、長時間にわたり大量の状態や履歴を扱うエージェント用途では、必ずしも最適ではない。

この見立てが正しければ、AIインフラ市場は三つに分かれていく。

一つ目は、モデルを賢くするための学習インフラだ。ここではNVIDIAのGPU、HBM、高速ネットワークが引き続き中核になる。

二つ目は、人間向けに高速応答するanswer inferenceだ。ここではGPUに加え、CerebrasやGroqのような高速推論チップが存在感を持つ。

三つ目が、AIエージェントが大量の仕事をこなすagentic inferenceだ。ここでは、GPU単体の速さよりも、DRAM、SSD、データベース、ログ、検索インデックス、オブジェクトストレージを含むメモリ階層全体の設計が重要になる。AIがAIのために仕事を発注し、その仕事を別のAIが処理するようになれば、この市場は人間の待ち時間に制約されない。Thompson氏は、これこそが最大市場になると見ている。

この視点は、AI業界の勝ち筋を考える上でも重要だ。

これまで「AIの計算需要が増える」と言えば、それはほぼ自動的にNVIDIAへの追い風として解釈されてきた。実際、学習需要と高速推論需要が伸びる限り、NVIDIAの優位は簡単には崩れない。しかし、AIエージェントの用途が広がり、推論処理の主役が「人間を待たせない応答」から「人間を待たずに進む作業」へ移るなら、計算基盤に求められる条件は変わる。

NVIDIAもこの変化を認識している。Thompson氏は、同社が推論処理を分解して最適化するフレームワーク「Dynamo」や、CPU・メモリラックのような製品を投入していることに触れている。高価なGPUを常に有効活用するには、周辺のメモリやCPU、推論処理の分担設計がますます重要になるからだ。

この議論は、中国にとっても示唆が大きい。最先端GPUへのアクセスが制限されている中国は、学習では不利になりやすい。しかし、agentic inferenceでは、最先端ではないが十分に速いGPU、CPU、DRAM、ストレージを組み合わせることで、一定の競争力を持つ可能性がある。速度の絶対値よりも、安価な容量とシステム設計が重要になるからだ。

さらにThompson氏は、宇宙データセンターにも言及する。最先端チップではなく、より古いプロセスで作られた半導体は、消費電力や発熱、放射線耐性、信頼性の面で宇宙用途に向いている可能性がある。エージェント推論が多少遅くても構わないのであれば、宇宙空間でのデータセンター構想も、以前より現実味を帯びるという見方だ。

もちろん、この議論は「NVIDIAの時代が終わる」という単純な話ではない。むしろ学習と高速推論では、NVIDIAの強みは今後も大きい。ただし、AIの利用形態がエージェントへ広がるにつれ、AIインフラの価値の中心が「最高速の計算」から「大量の文脈を安く保持し、長時間の作業を回すシステム」へ広がっていく、という話である。

AIの主戦場は、モデルの性能だけではない。モデルをどこで動かし、どのメモリ階層に状態を置き、どの実行基盤でタスクを継続させるのか。そこに競争軸が移っている。

人間を待たせないAIには、速さが必要だった。だが、人間を待たないAIには、記憶と状態管理が必要になる。エージェント時代の推論インフラは、GPUの枚数を競うだけの世界では終わらない。次の競争は、AIにどれだけ大きな作業空間を与えられるかをめぐる競争になる。

湯川鶴章

AI新聞編集長

AI新聞編集長。米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算２０年間の米国生活を終え２０００年５月に帰国。時事通信編集委員を経て２０１０年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』（2015年）、『次世代マーケティングプラットフォーム』（2007年）、『ネットは新聞を殺すのか』（2003年）などがある。趣味はヨガと瞑想。妻が美人なのが自慢。

Home
AI新聞
AIが勝手に働くエージェント時代、GPU競争の次に来る主戦場とは

記事一覧を見る

AIが勝手に働くエージェント時代、GPU競争の次に来る主戦場とは

湯川鶴章

AI新聞編集長

関連記事