生成AIからフィジカルAIへ=加速する世界モデル競争

AI新聞

 

「生成AIブームの真っ只中でありながら、トップAI企業は次のA Iのフェーズの覇権争いを始めている。生成AIの覇権争いの行方がだいたい見えてきたからだが、生成AIとは異なるプレーヤーが参加し、異なる強みが勝負の鍵となりそうだ。

 

 financial Timesなどの報道を総合すると、テクノロジー業界の風雲児Elon Musk氏率いるAI企業のx.ai社が、世界モデルの開発に乗り出しているという。 世界モデルとは、物理法則や因果関係を理解できて、三次元空間内でのオブジェクトの動きや光の挙動など、現実的な物理現象をシミュレーションできるAIのこと。言語モデルが、テキスト情報が中心のAIモデルであるのに対し、世界モデルは映像や音声、位置情報など現実世界の情報を扱うAIモデルだ。言語モデルを頭脳のAIモデルとすれば、世界モデルは身体性のAIモデルということになる。例えれば、言語モデルが部屋の中で本を読んで世界を理解するモデルだとすれば、世界モデルは部屋から抜け出して世の中を体験するモデル、ということになる。言語モデルは、デスクワークに役立つモデルとすれば、世界モデルは工場や都市開発、物理学などで役に立つモデルになる。言語モデルは文章などを生成できることから生成AIと呼ばれ、世界モデルは物理世界で役に立つのでフィジカルAIと呼ばれている。

 

 Elon Musk氏が世界モデルの開発に注力するのは、自動運転車のTeslaや人型ロボットOptimus(オプティマス)の性能向上には精度の高い世界モデルが非常に役立つからだ。 Musk氏は、世界モデルを搭載したゲームを2026年末までにリリースするとX上で発言している。ゲームに搭載することで物理理解能力がさらに高まるからだ。 OpenAIが先ほどリリースしてSNSなどで大きな話題になっているSora2も、実は最も大きな目的は、して世界モデルの構築にある。Sora2の発表文の中に「物理世界を深く理解する AI モデルを訓練するために不可欠」と書かれている。

 

 なぜここにきてトップAI企業は世界モデルに軸足を移し始めたのか。1つには、言語モデルに関する技術的ブレークスルーがしばらく起こっていないからだ。言語モデルは、学習時に半導体を多く使えば使うほど性能が向上する「スケール則」が発見されてから、実際に半導体を大量に投入することが性能を大きく伸ばしてきた。またスケール則の発見からしばらくすると、今後はじっくり考えてから答えるリーズニング(論理的思考)というブレークスルーが起こり、またしても言語モデルの性能が大きく向上した。しかしリーズニングモデルのブレークスルーから2年近く経つのに、次のブレークスルーがまだ起こっていない。OpenAIはライバル社より早く、この2つのブレークスルーの恩恵を受けることで技術開発競争の先頭に躍り出たわけだが、次のブレークスルーが起こっていないので、ライバル社がモデルの性能面で追いついてしまった。 一方で、OpenAIは言語モデルの性能で競う一方で、ユーザー数の獲得に注力し、週間アクティブユーザー数を8億人にまで伸ばした。消費者向けAI市場での覇権に大手をかけている状態だ。企業向けはAnthropicが検討しているし、Googleの激しい追い込みが予想されているほか、MicrosoftやAmazonもそれぞれの強さを活かして健闘している。技術開発競争から、ビジネス面での競争に移行しているわけだ。

 

 世界モデルは物理世界で役立つモデルである。具体的には 例えばロボティクスでは、ロボットが自律的に判断・行動できるようになる。指示なしで環境適応になるわけだ。また自動運転・モビリティの領域では、現実の街・交通を完全に理解し、事故ゼロ社会へ近づくかもしれない。 都市・インフラの領域では、デジタルツインによる都市最適化、防災、エネルギー制御に大きく貢献しそう。科学・研究の領域では、現実の実験や自然現象をAIが仮想的に再現・予測することが可能になると見られている。医療・生命科学の領域では、人体・細胞・疾患のモデル化、創薬・手術支援が大きく進化しそうだ。シミュレーション経済の領域では、仮想環境で政策や市場変化をテストできる社会の基本ソフトのような存在になるかもしれない。 

 

こうして見れば分かるように、言語モデルよりもはるかに大きな領域で世界モデルが力を発揮しそうなわけだ。当然、世界モデルの覇権を握った社は、大きな経済的メリットも享受できるようになる。 この大きな市場は、まだ誰も圧倒的優位性を手にしていない。なのでテック大手が大きく動き始めているわけだ。 

 

この市場で覇権を握るためにはもちろん技術力が必要だ。世界モデルで大きく動いているのがまずはGoogle。Googleは「世界モデル」戦略を打ち立てており、CEOのSundar Pichai氏によると 「月間480兆トークンを処理し、700万人以上の開発者を束ねる巨大エコシステムを構築しているという。 「GoogleのGeminiモデルは物理法則を理解し、汎用知能への道を目指す中核技術」とも語っている。特に、GoogleのGenie 3は テキストプロンプトから動的な、ナビゲーション可能な世界をリアルタイムで生成できる汎用的インタラクティブ世界モデルで、インタラクティブな環境構築のプラットフォーム基盤になる可能性を秘めている。

 

 MetaはV-JEPA 2(Video Joint Embedding Predictive Architecture 2) という世界モデルを公開している。物体運動・相互作用を予測可能で、ロボット・エージェントに未知環境でも動作計画する能力を与えることが目標だという。

 

 技術力だけでは不十分で、実際の製品開発力や開発者を含むエコシステムの構築も重要だ。NVIDIAは半導体と基盤技術の強みで市場をリードしており、他社への出資でエコシステムを構築。ロボティクス、シミュレーション、視覚 AI、エッジ AI、仮想環境Omniverseなど、必要なソフトウエア群も開発している。

 

 そして計算資源と電力などのAIインフラも不可欠。これは大手各社がAIデータセンター建設を急いでいるところだ。

 

 生成AIからフィジカルAIへと主戦場が移行しつつあるAI業界。まだまだ競争が激しくなることが予想される。

湯川鶴章

AI新聞編集長

AI新聞編集長。米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』(2015年)、『次世代マーケティングプラットフォーム』(2007年)、『ネットは新聞を殺すのか』(2003年)などがある。趣味はヨガと瞑想。妻が美人なのが自慢。

  • Home
  • AI新聞
  • 生成AIからフィジカルAIへ=加速する世界モデル競争

この機能は有料会員限定です。
ご契約見直しについては事務局にお問い合わせください。

関連記事

記事一覧を見る