ChatGPTだけが言語AIじゃない。米大学が有力34モデルの性能を比較

2023.02.20

チャット型 AIモデルのChatGPTが、世間の話題を集めている。Googleもまた、ChatGPTに対抗するために BARDというチャット型AIを発表してきた。しかし実は世界には負けじ劣らず優秀な言語AIモデルが多数存在する。どの言語モデルが最も優秀なのだろうか。

実はChatGPTにしろBARDにしろ、特定のサービスに特化したAIモデルで、その性能は基盤となる超大型モデルの性能に左右される。ChatGPTはGPT-3.5と呼ばれる基盤モデルをチャット用に微調整したものだし、BARDは LaMDAと呼ばれる基盤モデルを軽量化したものだ。比較すべきは基盤モデルということになる。

今後多くの一般企業が最新の言語AIを自社サービスに導入しようとする中で、それぞれの基盤モデルの性能を把握することが重要になってくるはず。そうしたニーズを見込んで、米スタンフォード大学の基盤モデル研究所では、世界の有力言語モデルの中で公開されている基盤モデル34個を、質疑応答、情報検索、要約などの42の用途での性能を57の評価基準で比較し、用途ごとにランク付けし発表している。

基盤モデルとは学習済みの巨大モデルで、微調整することで比較的早く簡単に特化型モデルを量産できるAIモデルのこと。同研究所では47の言語モデルを基盤モデルと認定しているが、性能を確認するため完全にアクセスできるのは14個、限定的なアクセスが認められているのが27個、まったくアクセスできないのが6個だという。AI研究の雄、Google系列のDeepMindは言語の基盤モデルを2つ開発しているが、残念ながらどちらも非公開。なので、その実力を計測できないのだという。

言語AIの基盤モデルが47個も存在するわけだが、その多くはテック大手や資金力のあるAIベンチャーによって開発されたものだ。例えばOpen AIは１社で14個の基盤モデルを開発しているし、Googleは DeepMindを含めると6個。Googleは、このほどAIベンチャーのAnthropicへの3億ドルの出資を発表、これをGoogle傘下に数えると Google所有の基盤モデルは７個ということになる。Facebookの親会社のMeta Platformsは3個、Microsoftは2個だ。ただMicrosoftはOpenAIに数十億ドルの追加出資を決定。MicrosoftがOpenAIの株式の49％を持つ筆頭株主になると言われているので、OpenAIの14個を含めるとMicrosoft所有の基盤モデルは16個になる。

AIベンチャーでは、Cohereが6個、AI21 Labsが4個、Aleph Alphaが3個を開発。テック大手はこうしたAIベンチャーに出資もしくは買収の話を持ちかけていると言われている。つまり世界の言語AIの基盤モデルは、テック大手に独占されようとしているわけだ。

こうした動きに対抗しようとしているのが、世界中の研究者が開発に協力しているBigScienceと呼ばれるオープンプロジェクト。BigScienceは、BLOOMなど3個の基盤モデルを開発している。BLOOMは、フランス政府がスーパーコンピューターを提供するなどして開発に協力しており、AIが問題発言しないようにする技術の正確さで３位にランクインするなど、高い性能を誇っている。

同様に中国の清華大学を中心とするオープンプロジェクトは、中国語と英語のバイリンガル基盤モデルGLMを開発。GLMは、要約の正確さで５位にランクインしている。

この記事では、質疑応答、情報検索、要約、問題発言検知といった用途でのランキングのトップ5だけを紹介するが、スタンフォード大学基盤モデル研究所は詳細に渡って評価している。ただ同研究所は、純粋な言語モデルだけを比較している。Facebook（Meta）のCICEROは、対話エンジンと計画エンジンを合体させたモデルだし、GoogleのLaMDAは言語モデルを対話型に改良したモデル。なのでこのプロジェクトでは比較対象になっていない。今後こうした特定の用途に特化させた基盤モデルも次々と登場してくることだろう。今後開発したいサービスには、どの基盤モデルが合っているのか。しっかりと検討していただきたい。

ChatGPTはハイプサイクルを一気に駆け上がった。ここまで急速に期待値が高まったのだから、これから一気に幻滅期に向かう可能性が高い。AIは万能ではない。用途を狭く限定すれば人間以上の能力を発揮するが、用途を広く構えてしまえば問題を引き起こす可能性がある。虚偽の情報を拡散したり、差別発言をしたりして、社会問題や訴訟にまで発展するかもしれない。AIの基盤モデルを少数のテック大手が独占することに対する批判も、これから浮上してくることだろう。

言語AIはまだ黎明期。これかも技術革新が必要とされている。ブームに踊らされることなく、しっかりと腰を据えて社会に価値を提供し続けられるようなサービスを開発していただきたいと思う。

質疑応答の正確さ

GPT-3（OpenAI）

GPT-2（OpenAI）

Anthropic-LM v4-s3（Anthropic）

Turing-NLG（Microsoft）

J1-Grande v2 beta（ai21）

情報検索の正確さ

GPT-2（OpenAI）

Turing-NLG（Microsoft）

GPT-3（OpenAI）

Cohere xlarge （Cohere）