2、3週間前のインタビューなんですが、その後シリコンバレーの複数のポッドキャストで話題になっていたので、詳しくメモをとることにしました。
Llama3が大きな話題になったことでMark Zukerberg氏の言動は、Sam Altman氏の言動と同じくらい注目を集めるようになってきたようです。
おもしろかった最大のポイントは、オープンソースでソフトウエアを公開する理由です。過去にもZukerberg氏がその理由に言及したことはありますが、改めて詳しく説明しています。
理由は2つ。1つは、そのほうが結局コスト削減につながるから。基幹ソフトをオープンソースで無料公開すれば、そのソフトが事実上の業界標準となり、サードパーティが関連する周辺ハードやソフトを開発するようになって、結局10%ほどのコスト削減につながったという過去の経験があったようです。
2つ目は、広告収入があるので基盤モデルを収入源にする必要がないこと。
Facebook、Instagramなど、広告をビジネスモデルとするビジネスが存在するため、AIの基盤モデルから収益を確保する必要性がないということです。基盤モデルの使用料から生計を立てなければならないOpenAIと、その点が大きく異なります。
OpenAIが、まもなくリリースされると噂されている次期モデルGPT-5で、Llama3をどれだけ引き離せることができるか。大きく引き離せないようなら、AI業界のトップランナーの地位をMetaに奪われるようになるかもしれません。
メモは妙訳であり、直訳ではありません。分かりやすさを重視して、表現をかなり変えています。より正確な表現を知りたい方は、秒数を記載していますので、YouTube動画にアクセスしていただき、該当の秒数のところの発言をご確認ください。
https://www.youtube.com/watch?v=bc6uFV9CJGg&t=317s
【2020年にNVIDIAの最新半導体H100を買い集めた理由】
(07:18)
レコメンデーション機能でTikTokに追いつきたかったから。(AIの基盤モデル開発競争の激化でNVIDIAの半導体が品薄になり、数多く買い集めた企業が有利になるという)未来が見えていたからではない。
【AGIを目指すようになった理由】
(11:37)最初はプログラミング機能含むいろいろな機能を持つAGIを作ろうとは思っていなかった。FacebookやInstagramのユーザーが、プログラミングに関する質問をするとは思えなかったから。
でも1年半ほど前からAIがプログラミング能力を持つことの重要性に気づいた。プログラミングの考え方をAIが持てば、AIは論理的思考ができるようになり、いろいろな領域の質問に上手に答えることができるようになった。
ビジネスパーソンがクライアントさんと対話するときも、単にクライアントの質問に答えるだけではだめで、幾つもの会話のステップを先読みして対話を進めていく必要がある。お客さんの求めているものは何なのか、お客さん自身も分かっていない場合がある。そんな場合は、目の前の質問だけではなく対話の全行程を俯瞰する能力が必要。それは論理的思考能力ということになる。ということで結局AGIを作らなければならないということに気がついたんだ。
【AI進化の方向性】
(14:29)
AIにいろんな機能を搭載していくことを考えている。マルチモーダリティ(複数のデータの種類のこと)はわれわれが注力している重要な機能の1つ。
最初はテキスト、写真、イメージ。そして動画。3Dデータも重要。
それとわれわれが注力するモダリティ(データの種類)で、ほかの人があまり取り組んでいないものに、感情理解がある。人間の脳の大部分は、感情表現を理解するために存在する。写真や動画の内容理解で十分だと思うかもしれないけど、感情理解は写真、動画理解の中でも特別な領域。1つの独立したモダリティだと思う。
それに加えて論理的思考、メモリーなども進化させる必要がある。複雑な質問をすべてコンテキストウィンドー(短期記憶の機能)に投げ込めば問題解決するわけではないと思うから。ユーザーごとにカスタマイズされたメモリーを持つカスタムモデルも必要になると思う。
モデルの大きさに関しては、大きなものも小さなものも作っていく。サーバー上で動く大きなモデルも、スマートグラス上で動く小さなモデルも必要。
【AIのユースケース】
(質問)データセンターは最終的に1000億ドル相当の推論ができる規模。それだけの規模のデータセンターを何に使うつもりか?
(16:19)
われわれのすべてのプロダクトにAIを使えると思う。Meta AI汎用アシスタントは、チャットボットよりも複雑なタスクを実行できるものになっていく。なのでかなりのコンピュートと推論が必要になると思う。
(16:58)
1つのAIがすべてのことをするようになるとは思っていない。すべてのビジネス、すべてのクリエーター、インフルエンサーは、自分たち専用のAIを求めるようになるというのが僕の予測だ。自社AIに競合他社の製品を褒めてもらいたくないからだ。
約2億人のクリエーターがMetaのサービスを使ってくれている。彼らの多くはファンとより密接に交流したいと思っているが、物理的に無理。ファンもクリエーターとより密接に交流したいと思っている。クリエーターが自分好みにAIを訓練してファンと交流できるようになれば、すばらしいことだと思う。
(18:05)
そうした消費者向けユースケースの他にも、妻とやっている財団で、科学の進歩のためにAIを利用できる。なのでデータセンターの用途はいくらでもあると思う。
【巨大モデルvs特化モデル】
(18:46)
巨大モデルがいいのか、小規模モデルで特定の用途に特化させるほうがいいのか。正直言って分からない。
ただ基盤モデルの外側にツールをいろいろ作っていくことで、次の基盤モデルの内側にどんな機能を追加すべきか見えてくる。
例えばLlama2は最新情報を持っていなかったので、検索エンジンにアクセスできるツールを開発した。それが便利だったのでLlama3には検索エンジンにアクセスできるツールが内蔵された。今、Llama3の外側にエージェント的なツールを開発している。そしてそれはLlama4に内蔵されるようになると思う。
つまり、いろいろな追加機能を基盤モデルの外側に実験的に取り付けて試行錯誤することで、次の基盤モデルにどんな機能をつければいいのか明らかになってくるのだと思う。(湯川解説:サードパーティーがLlamaの周辺に追加機能を取り付けた特化型モデルを開発することは奨励するが、その追加機能が多くのユーザーにとって価値のあるものならMeta自身が次期モデルに内蔵していくことになり、次期モデルがリリースされるとサードパーティの特化型モデルが陳腐化する可能性がある、という意味)。
【GPUの使い道】
(24:00)年末までに35万個のGPU(NVIDIA製のAI向け半導体)を購入する計画だが、今は22万個から24万個のクラスター(半導体の集合)で学習と推論の両方を行なっている。Metaは、SNSコミュニティーの運営に推論を行わないといけないので、AIの競合他社に比べると推論に割り当てるGPUの割合が多いように思う。(湯川解説:半導体は大別すると、2つの用途で使われる。1つはAIモデルにいろいろなことを学ばせるために使う。その用途は、「学習」向けと呼ばれる。もう1つは、学習済みのAIモデルが、ユーザーの質問に答えるという用途。これは「推論」向けと呼ばれる)
(24:57)興味深いのは、70Bのモデルを15兆トークンで学習させたところ、精度が上がり続けたということ(湯川解説:トークンとはデータ量を示す単位で、英語の場合1つの単語が約1トークン)。それだけ学習させれば、さすがにそれ以上学習させても性能の向上は見込めないと思っていたのだが、それでも学習させればさせるほど性能は向上した。性能向上が鈍化する兆しがなかった。もっと70Bの学習を続けたかったんだけど、さすがにLlama4の学習にも取り組みたかったので、仕方なく70Bの学習はいったん打ち切った。(湯川解説:中小規模のモデルでも学習データを増やすことで性能が向上し続ける可能性があるということ。Llama3の中規模モデルはLlama2の大規模モデルと同等の性能が出ると言われるが、今後学習データを増やすことで、より高性能な中小モデルが登場する可能性がある)
【AIの指数関数的な進化はいつまで続くのか】
(26:20)誰にも分からない。多分今100億ドル、1000億ドルを投資してもスケール則(AIモデルの規模を大きくすればするほど、性能が向上するというのではないかという仮説)が十分続くのではないかと思っている。でもその先は分からない。この先もこのペースで指数関数的にAIが進化するのかどうか、誰にも分からないと思う。
ただ歴史的に見ても技術はいつか何らかの壁にぶつかる。今はすごいペースで技術が進化しているので、少々の壁なら超えることができているけれど、それがいつまで続くのか誰にも分からない。
過去1、2年はGPU不足が壁になった。その壁もかなり解消されたので、さらに多くの資本が投入されようとしている。それがどこまでいくのか。でも投資対効果が行き着くところまで行くまでに、エネルギー不足の壁にぶつかると思う。電力供給は政府によって規制されている。発電所や送電施設の建設など、政府によって多くが規制されているので、実現するまでに長い時間が必要になる。
今のデータセンターは50メガワットから150メガワット規模。まだだれも1ギガワットのデータセンターを構築していない。いずれだれかが建設するだろうけど、何年も先になるだろう。
【なぜオープンソースにするのか】
(1:06:01)すべてのソフトをオープンソースで公開しているわけではない。Instagramのコードはオープンにしていない。オープンソースにしているのは、もっと基本的なインフラ部分のコード。サーバーや、ネットワークスイッチ、データセンターなどのデザインをオープンソースにしている。そのおかげでわれわれのサーバーデザインが業界標準になった。そのデザインをベースに周辺パーツも安価で大量生産されるようになり、多くの人がその恩恵を受けたし、われわれにとっても何十億ドルものコスト削減につながった。
もしシステムに何百、何千億ドルも使うのであれば、コストが10%削減されただけでも大変大きなメリットになる。
AIモデルをオープンソースにすることで、AIの学習にかかるコストも削減されるようになるだろうし、性能もよくなる。
モバイルの領域ではAppleとGoogleがクローズドモデルでエコシステムを牛耳っている。スマホ上で新しい機能のアプリをリリースしようとしても、AppleやGoogleがクビを縦にふらなければリリースできない。AIのプラットフォームをそんな風にはしたくない。
AIプラットフォームがオープンであったとしても、InstagramやFacebookといったわれわれのプロダクトは、だれもがすぐに真似できるものでもない。もしAIをわれわれのプロダクトの1つだと考えれば、オープンにすべきかどうかをより慎重に考えないといけないかもしれないが、今のところAIをわれわれのプロダクトの1つだとみなさなければならないというような状況ではない。
基本的にLlamaの使用料は一定限度まで無料で、一部大企業がLlamaを一定限度以上使って大きな収益を上げるようになれば、その収益に対して使用料をもらうようなライセンスになっている。でもこのライセンス料収入を主要収益源にするつもりは今のところない。Llama2はほとんどのクラウドサービスで利用できるようになっている。今後も同様にクラウドサービスに提供しようと思っているが、それをわれわれにとって大きな収入源にしようとは考えていない。
【自社半導体】
自社開発の半導体で大規模言語モデルを学習させたいと思っているが、Llama4ではまだできない。まずはランキングやレコメンデーションに使える推論用チップを開発しようとしている。そうすることでNVIDIAのGPUを学習用に充てることができる。