【編注:画像はGemini Advancedで生成】
OpenAIが発表した動画生成AI「Sora」が話題だ。動画なので分かりやすいということもあるのだろうが、テレビの情報番組でも取り上げられ一般消費者の間でも話題になっている。しかしOpenAIがSoraで何を目指しているのかが語られることがほんどない。Soraのリサーチペーパーを読めば、OpenAIがSoraで人間を超えた超知能の開発を目指していることが分かる。分かりやすく解説したい。
まずSoraの何がすごいのだろう。画像生成AIに「こんな画像を作って」と命令すれば、画像を生成してくれる。同様に「こんな動画を作って」と命令すれば、動画を作ってくれる。同じようなことではないのだろうか。動画は静止画のコマ送りである。静止画をたくさん生成すればいいだけなのではないか。
「数年は無理」(東大の松尾豊教授)
昨年5月に公開された動画 の中で東京大学の松尾豊教授は、AIは根本的に動画を生成するのは苦手で、静止画を生成する完成度レベルで動画を生成するようになるまで数年以上かかると語っている。
「多分これはしばらくそうだと思いますが、画像は作れるけど(同様のレベルで)映像は作れないんです。結構根本的なディープラーニングのアーキテクチャーの限界と関係していて、時間の扱い方とかがかなり苦手なんです」
「静止画だと綺麗な絵になるんですが、これを動画にして時間方向が出てくると、いろんな依存関係があるので、いきなり扱い 方が難しくなるんです」。
静止画だと一枚の絵を生成するだけで済む。その中には、人物やら風景やら、いろいろなものが写っている。これを動画にして、人物が歩き出すと、それにともなって風景も変化しなければならない。遠近法的な見え方も変化するだろうし、光の方向や風の向きも移動とともに少しずつ変化させなければならない。これら無数の変化を物理法則に則って矛盾なく計算して表現するのは、静止画とは比較にならないほど大変な作業なのだろう。
「そのうちできるようになると思いますが、ただ結構時間かかるんじゃないかと僕は予想してます。何十年単位みたいなそんなで もないですけど、数年から10年ぐらいはかかるかと」。
ところが今回、「Sora」が非常に完成度の高い動画生成に成功した。日本を代表するAIの専門家が数年以上かかるとみなしていたことが、数ヶ月で実現されたわけだ。これは相当画期的なことなのだろうと思う。
なぜそこまで大変なことが、わずか数ヶ月で実現できたのだろうか。もちろんOpenAIの技術力がすごいのだろうが、とはいってもAIが進化するには大量のデータが不可欠。そのデータを集めるのに生成AIが関与したのではないか、という見方が広がっている。
動画生成AIの急速な進化の背景に合成データ!?
NVIDIAのシニア・リサーチ・サイエンティストのJim Fan氏 は、ゲーム開発ツールのUnreal Engine5によって生成された映像とテキストのデータが、OpenAIの動画生成AI「Sora」の学習用の合成データになったのではないかとX(旧twitter)上で指摘している。
Unreal Engineは、3Dゲームや動画コンテンツなどの製作に利用されるツールで、物体の落下の軌跡や光や風の影響など、物理法則に則った動きをする動画を簡単に製作できるようになっている。
OpenAIが実際にUnreal Engineを利用したという発表はないが、Fan氏ら一部専門家は、動画の品質の高さから見て、Unreal Engineの最新バージョンであるUnreal Engine5が使われた可能性が高いとしている。
例えば「テニスプレーヤーが返したボールがネットを超えて相手プレーヤーのコート内に着地した」というようなテキストをUnreal Engineに打ち込めば、Unreal Engineが物理法則に従ったボールの動きをする動画を作ってくれるようにしておくと。これでテキストと呼応する動画のデータのペアが完成するわけだ。こんな感じでChatGPTのような言語生成AIを使ってテキストを無数に生成すれば、それに呼応する動画も無数にできるわけだ。
そのテキストと動画のペアデータを大量に作って、Soraに学習させたのではないかというのがFan氏らの指摘だ。
こうして人工的に作られた学習データのことを合成データと呼ぶ。データ生成した学習データが合成データ、ということで表記がややこしいが、元の英語は、合成はsynthesizeで、生成はgenerateになっている。
合成データを学習データにする有効性に関しては、ここ2、3年、専門家の間でも意見が分かれていた。生成AIが作った、実際には存在しないデータを学習させれば、AIモデルが余計にハルシネーション(嘘をつく)する懸念があったわけだ。しかし最近では、合成データの有効性が徐々に認められてきているようだ。Microsoftが開発した大規模言語モデルOrca2も、インターネット上の現実のデータではなく、生成AIが作った合成データで学習したことで有名だ。
今回Soraが短期間で大きく進化したのも、無数の合成データを用意できたことが要因の一つかもしれない。
Soraの価値は物理法則に則ったシミュレーター
Soraをショートムービーを簡単に作れるおもちゃのようなツールのように思っている人が多いかもしれない。事実Soraが一般公開されれば、ちょうど今多くの人が画像生成AIを使っていろいろな静止画を作って遊んでいるように、ショートムービーを作って遊ぶということが流行るかもしれない。
しかしSoraの本当の価値は、Soraが自ら物理法則を身につけたシミュレーターになったということにある。
これまでも物理法則に則ったシミュレーターはあった。自動運転車のAIの学習には物理法則に則ったコンピューターシミュレーターが使われたし、ロボットのAIの学習にはNVIDIAのシミュレーターが有名だ。
ただこれまでのシミュレーターは物理法則があらかじめプログラミングされていた。プログラマーに教え込まれていたわけだ。
ところがSoraは、大量のデータを学習することで物理法則を自ら学んで行った。教え込まなくても自ら学習するので、物体の細部の動きまで自然な形で表現できるのだ。
例えばOpenAIが紹介している例に、コーヒーカップの中で動き回り2隻の海賊船の動画がある。海賊船が動き回ることで起こるコーヒーカップの中での波の立ち方や茶色の泡などが自然な形で表現されている。事前に計算式を教え込むことができないようなこうした架空の物体の動きでさえも、自然な形で表現できるようになっているのだ。
OpenAIの
リサーチペーパー によると、AIモデルを大きくして大量のデータで学習させたからこそ、物理法則を自然に学習できたのだという。
とはいうもののSoraの描写はまだ完璧ではない。例えば、コップがひっくり返って中の飲み物がこぼれ出る動画があるが、コップが割れたわけではないのに、割れたときのようなこぼれ方になっている。
こうした不自然な描写は、今後モデルを大規模にすることで、かなり軽減されていくのだと思う。
では完璧な物理シミュレーターが完成すれば、何がいいのだろう。
例えば自動運転車やロボットの学習に利用できる。悪天候で視界が限定された状況で崖っぷちのカーブを自動運転車が回る際に、時速何キロで走ればいいのか。実際の自動車を何台も大破させなくても、シミレーターの中で答えが出るだろう。
ガードマンロボットに空手を教えるのにも、シミュレーターの時間経過を数倍の速さにして何百体ものロボットで学びを共有するようにすれば、10年かかって身につけることができるような黒帯の技が、わずか3週間で身につけられるかもしれない。
Soraは生成AIによって生成された大量の合成データを学習データにしたので、急速に進化したという説が有力だ。Sora自体が合成データを大量に生成できるシミュレーターになるのであれば、さらにいろいろなAIの進化に貢献できるようになるだろう。
今のAIは、インターネット上や書籍の中にある人間が書いた文章をベースに世界のあり方を学習している。つまりAIはどこまでいっても人間が学んだ世界のあり方を超えることができないわけだ。しかしシミュレーターであればAI自らがいろいろな体験をすることで世界のあり方を直接学習することができる。人間に頼ることなく知恵を増やすことができる。つまり知能で人間を超えることができるわけだ。
人間の知っていることは何でも知っている汎用人工知能(AGI)は今後数年以内に実現するという意見が増えているが、完璧なシミュレーターができれば人間を超える超知能(ASI)さえ可能になる。
そうしたAIを開発するためのシミュレーターを作ることができる道筋が見えた。それが今回のSoraの最大の価値なのだと思う。
その証拠にSoraを紹介するOpenAIの
リサーチレポート のタイトルは「世界シミュレーターとしての動画生成モデル(Video generation models as world simulators)」。そしてレポートの最後は次の一文で締めくくられている。「AIモデルの規模を大きくしていくことで、その能力がさらに拡充され、現実世界とデジタル世界、そしてその中で生きる人間や動物、物体をシミュレーションできる高度な技術の開発へ繋がっていくだろう。我々は、Soraがそうした技術への明るい道筋を示してくれたと信じている(We believe the capabilities Sora has today demonstrate that continued scaling of video models is a promising path towards the development of capable simulators of the physical and digital world, and the objects, animals and people that live within them)」。
湯川鶴章
AI新聞編集長
AI新聞編集長。米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。2017年12月から現職。主な著書に『人工知能、ロボット、人の心。』(2015年)、『次世代マーケティングプラットフォーム』(2007年)、『ネットは新聞を殺すのか』(2003年)などがある。趣味はヨガと瞑想。妻が美人なのが自慢。