米有力VCが解説——なぜフィジカルAIが今まさに離陸しようとしているのか

2026.04.20

ある閾値を超えると、系は相転移する。水が氷になる瞬間のように、連続的な変化が突然、質的な跳躍に転じる。フィジカルAIは今、その直前にある。言語AIが積み上げた技術資産、データ不足を補うシミュレーション、消費者デバイスが生み出すセンサー網——複数の条件が今まさに同時に満たされようとしている。米有力VC・a16zのOliver Hsu氏の論考は、その跳躍の瞬間を解説してくれている。

AIの主戦場が「言語」から「物理」へ移る

これまでのAIは、言語の世界に閉じた存在だった。ChatGPTに代表される生成AIは、文章を書き、画像を作り、コードを出力する。しかし物理世界には触れられなかった。ロボットを動かし、実験を行い、人間の身体と連携する——そうした能力は、ずっと「次の課題」として先送りされてきた。

Hsu氏はその状況が変わりつつあると指摘する。①AIが人間のデモを見たり試行錯誤を繰り返したりしながら動作を習得する「ロボット学習」、②AIが自律的に科学実験を行う「自律科学」、③ARグラスや脳とコンピューターを直接つなぐBCI（ブレインコンピューターインターフェイス）を含む新しいインターフェイス——この3つの領域が、今まさに本格的な成熟期に入ろうとしていると同氏は言う。同氏はこの3つを、フィジカルAIの最重要フロンティアと位置づける。

重要なのは、これらの領域がゼロから立ち上がるのではないという点だと同氏は強調する。ChatGPTなどの言語AIが積み上げた技術——物事を見て理解する能力、文脈を読む能力——をそのまま受け継ぎながら、物理世界へと拡張しようとしている。言語AIの巨人の肩の上に乗る形で、フィジカルAIは跳躍しようとしているというわけだ。

なぜ「今」なのか——5つの条件が同時に整った

この3つの領域が今このタイミングで加速している理由は、5つの技術的な条件がほぼ同時に整ったからだとHsu氏は主張する。

1. ロボットが「物理世界の常識」を学び始めた

Hsu氏が挙げる最も根本的な変化は、ロボットに搭載されたAIが物体の振る舞いを自分で学べるようになったことだ。物が落ちる、形が変わる、力を加えると押し返される——そうした物理世界の「常識」を、人間がいちいちプログラムしなくても、AIが大量のデータから自分で習得できるようになってきた。

アプローチは複数あると同氏は説明する。一つは、ChatGPTのような言語AIがすでに持っている「物を見て理解する能力」を転用する方法だ。米ロボティクス企業Physical Intelligenceのπシリーズ、Google DeepMindのGemini Robotics、米NVIDIAのGR00T N1がこの路線を代表する。インターネット上の膨大な画像や動画で「世界を理解する能力」を獲得するコストはすでに支払われており、それをロボット制御にそのまま流用できる点がこのアプローチの核心だ。

別のアプローチは、YouTubeのような動画の山から「物体がどう動くか」を学ばせる方法だ。NVIDIAのDreamZeroはこの手法で、一度も見たことのない環境や作業にも対応できることを実証している。

さらに米Generalist社は、人間が日常作業をする様子をウェアラブルカメラで50万時間以上記録し、そこから直接学習させるという独自路線を歩んでいる。言語AIの資産にも動画にも頼らず、人間の手の動きそのものをデータにする発想だ。

2. ロボットが「失敗から学ぶ」ようになった

Hsu氏によれば、ロボットの学習にはこれまで大きな限界があった。人間の動作を見て真似る「模倣学習」だけでは、作業を半分くらい成功させることはできても、毎回確実に成功させることは極めて難しかった。

問題の本質はこうだ。例えばロボットがペットボトルのキャップを少し斜めに掴んだとしても、それが問題だと判明するのは数秒後、回して締めようとして失敗した瞬間だ。模倣学習は人間のお手本を真似るだけで、「自分の行動がその後の結果にどう影響したか」を考える仕組みを持っていない。お手本の中に失敗パターンは存在しないため、どの行動が原因で失敗したかを遡って特定することができないのだ。強化学習はこれと対照的で、「この行動をとった結果、最終的に成功したか失敗したか」をスコアとして評価し、失敗につながった行動を減らすように学習する。だから「斜めに掴んだことが後の失敗の原因だった」と遡って理解できる。

米Physical Intelligenceが開発したRECAPという手法は、この問題を強化学習で解決しようとするものだ。同社の発表文によれば、RECAPで訓練されたロボットは成功率が大幅に上がり、実際の家庭で一度も扱ったことのない50種類の衣類を何時間も折り畳み続け、業務用エスプレッソマシンを朝5時半から夜11時半まで止まることなく動かせるほどになった。論文によれば、最も難しい作業ではスループットが2倍以上に向上し、失敗率が半分以下に減った。同社共同創業者のKarol Hausman氏は「強化学習が戻ってきた」と宣言した。言語AIの世界ではすでに強化学習が活用されているが、ロボット学習の分野では模倣学習が主流となっており、強化学習の実用的な適用は難しいとされてきた。RECAPはその壁を破ったという宣言だ。

言語AIは文章を生成するだけの存在から、自分で考え、計画を立て、失敗から学ぶエージェントへと進化した。その同じ進化が今、物理世界のロボットにも転移されようとしている——ただし、まだその曲線の初期にある、というのがHsu氏を含むa16zの見立てだ。

3. 仮想空間がデータ不足を補う

言語AIの学習を支えたのは、インターネット上に存在する膨大なテキストだった。何兆もの文章が、ほぼ無料で手に入った。しかし物理世界では事情が違う。ロボットに「箱を組み立てる」作業を覚えさせようとしても、現実の工場で何百万回もの試行データを集めることは、コストも時間も現実的でない——これがフィジカルAIが長年抱えてきた根本的な課題だとHsu氏は指摘する。

この問題を解決しつつあるのが、コンピューター上の仮想空間（シミュレーション）だ。物理法則を再現した仮想空間の中でロボットを何百万回も動かし、そこで得たデータを現実のロボットの学習に使う。5年前には仮想と現実の間のギャップが大きすぎて実用にならなかったが、映像技術と物理シミュレーションの精度が急速に上がり、そのギャップはかなり縮まってきた。

その結果、ロボット学習のコスト構造が根本から変わりつつあると同氏は言う。人手や物理的な設備ではなく、コンピューターの処理能力さえあればデータを増やせる時代が来た。言語AIがインターネット上の膨大なテキストで劇的に賢くなったように、フィジカルAIもシミュレーションで同じことが起きようとしている。

4. AIの「感覚器官」が増えている

これまでのAIは主にテキスト、「目」（カメラ映像）、「耳」（音声）で世界を認識してきた。しかし物理世界は、それだけでは理解できない情報に満ちているとHsu氏は言う。物を掴むときの微妙な力加減、人間の脳が発する電気信号、声に出す前の口の動き——そうした情報が、新しいデバイスによってAIに届くようになってきた。

ARグラスは装着者の視界を常時記録し、人間が物理空間でどう行動するかの膨大なデータを生む。手首に巻くEMGデバイス（筋電センサー）は筋肉の微弱な電気信号を読み取り、手の動きの意図を把握する。サイレントスピーチデバイスは、顎や喉に貼り付けた小型センサーで、声に出さずに頭の中で言葉を発したときの筋肉のわずかな動きを読み取り、AIがそれを言葉に変換する。いわば「声を出さずに話せる」インターフェイスだ。

BCIも着実に前進していると同氏は指摘する。米NeuraLinkは小型チップの複数の患者への移植を実施し、英Synchronは血管を通じて脳内に電極を届けるデバイスを使うことで、麻痺した患者がデジタル機器を操作することを可能にしている。

これらのデバイスが重要なのは、単に人間と機械を繋ぐ新しいインターフェイス（接続点）というだけでなく、人間の物理的な行動を記録する「センサー網」としても機能するからだと同氏は強調する。ARグラスを装着した何百万人もの人々が、気づかないうちにロボットの教師データを生み出す——そういう世界が近づいているということだ。

5. AIが「長時間、自律的に」動けるようになった

5つ目の条件として、AIシステムが人間の監視なしに長い時間にわたって自律的に動き続けられるようになってきたことをHsu氏は挙げる。

言語AIの世界でも、一問一答型から、複数のステップを自分で判断して進める「AIエージェント」への移行が起きている。物理世界でも同じ移行が始まっているが、難しさは段違いだと同氏は言う。言語AIがミスをしても「やり直せばいい」で済む。しかし実験室でビーカーを落としたり、工場で製品を壊したりすれば、取り返しがつかない。

そのため物理世界のAIシステムには、状況を継続的に把握し、異常を検知し、問題が起きたときに安全に停止・回復する能力が不可欠だと同氏は論じる。この能力の成熟が、次に述べる3つの応用領域を「研究デモ」から「実用システム」へと押し上げる鍵になるという。

3つの応用領域——そして互いを強め合う構造

Hsu氏によれば、これら5つの条件が揃ったとき、最も大きな変化が起きるのがロボット・自律科学・新インターフェイスの3領域だ。

ロボット：「たまに動く」から「ずっと動く」へ

ロボットは最もわかりやすいフィジカルAIの舞台だが、現時点での最大の課題は「信頼性」だとHsu氏は言う。同氏が示した数字が問題の本質を突いている——1つの作業を10のステップに分けたとき、各ステップの成功率が95%あっても、0.95を10回かけ合わせると約0.6になるため、10ステップ全部を完了できる確率は約60%に落ちる。工場や物流の現場が求める水準には、まだ遠い。

前述のRECAPはこの壁を突破するための最前線の試みだ。「ほぼ毎回うまくいく」レベルへの到達が、フィジカルAIがロボットの分野で本格的な産業応用に入るための関門だと同氏は見る。

自律科学：AIが実験を回す

「AIが科学実験を自律的に行う」と聞くと遠い未来のように聞こえるが、材料科学や創薬の分野ではすでに現実になりつつあるとHsu氏は言う。仮説を立て、実験を設計し、装置を操作してデータを取り、結果を分析して次の仮説に進む——この一連のサイクルをAIが人間の介入なしに回す。それは「自走型ラボ（SDL）」と呼ばれる。

その自走型ラボに不可欠なのが、フィジカルAIである。AIモデルの改良のような純粋にデジタルの世界で完結する実験であれば、AIだけで実施できる。しかし材料科学や創薬の分野では、試験管やビーカーを使った現実の実験が必要になる。液体を正確に量って混ぜ、温度を管理し、サンプルを分析装置にセットする——そうした作業をこなすには、ロボットアームや全自動実験ラボといった物理的な装置を操作する能力が不可欠だ。フィジカルAIの進化が、その壁を取り除こうとしている。

またこの自走型ラボは、フィジカルAIの「データエンジン」にもなると、同氏は指摘する。自走型ラボが行う実験は、科学的な発見をもたらすだけでなく、「現実の物理世界で何が起きたか」という質の高いデータをAI学習に供給する。インターネットからかき集めたテキストや仮想空間のシミュレーションとは異なる、実験で検証された確かなデータになるわけだ。

新インターフェイス：人間とAIの境界が変わる

ARグラスやBCIといった新しいインターフェイスは、単なる便利なガジェットというだけではないとHsu氏は言う。これらのデバイスが大量に普及することで、人間の物理的な行動データが大規模に収集され、ロボットや自律科学の学習を底上げする。スマートフォンの普及がGPSや画像データを大規模に生み出し、UberやInstagramといった新しいサービスを可能にしたように、AIウェアラブルの普及も、これまで存在しなかった種類のデータを生み出し、フィジカルAIの可能性を広げるというのが同氏の見立てだ。

3領域は互いを強め合う

Hsu氏の論考で最も重要な洞察は、この3つの領域が「別々のトレンド」ではなく、互いを強め合う一つのシステムだという点だ。

ロボットの進歩が自律科学を前進させる。自走型ラボは本質的にロボットシステムであり、ロボット学習で開発された「物を掴む」「液体を扱う」「精密に位置を合わせる」能力が、そのまま実験室の自動化に転用できると同氏は言う。

自律科学がロボットを前進させる。実験で得られた材料データが、より良いアクチュエーター（モーターや人工筋肉など、ロボットを動かす駆動部品）やセンサーの開発につながり、それが次世代ロボットのハードウェアを改善する。

新インターフェイスがロボットを前進させる。ARグラスや筋電センサーが集める人間の行動データは、ロボットが人間の動作を学ぶための教師データになる。何百万人ものユーザーが日常生活の中でロボット学習に貢献する、そういう構造だ。

AIが新しい「感覚」を獲得するたびに——カメラで「見る」ことができるようになったとき、音声を「聞く」ことができるようになったとき、言語を「理解する」ことができるようになったとき——そのたびに、AIの能力は単純な足し算を超えた飛躍を遂げてきた。物理世界への拡張は、その次の、そしておそらく最大の跳躍だとHsu氏は論じている。

ソース一覧：