今のAIブームを牽引してきたのは画像認識技術だが、その急速な進化もひと段落。最近では画像認識よりも自然言語処理系のAI技術の方が進展が著しいようだ。特に2021年前半は言語モデルの巨大化の動きが目立ったが、ここにきて英語以外の言語の巨大AIモデルが次々と登場し始めた。日本語の巨大AIモデルに関する動きも出ており、より賢い日本語AIを使った製品やサービスの登場に期待できそうだ。
言語モデルの現状を把握する1つの方法は、AIスピーカーやAIアシスタントに話しかけることだろう。AmazonアレクサやGoogle NestなどのAIスピーカーに「アレクサ!」「オーケー、グーグル」と呼びかけて質問してもいいし、iPhoneに対して「ヘイ、シリ」と話しかけてもいい。どの程度、賢い受け答えができるだろうか。数年前に比べれば、かなり賢くなったようにも思うが、やはりその精度はまだまだと感じる人の方が多いのではないだろうか。
自然言語処理技術の精度が向上すれば、これらのAIアシスタントが賢くなるだろうし、さらには今までにないような製品やサービスがいろいろと登場する可能性がある。
人間が描いた文書と見分けがつかないGPT-3
どのようなことが可能になるだろうか。2020年に最も大きな話題となった自然言語処理モデルGPT-3を例にとって見てみよう。
GPT-3は文書生成機能を持っており、キーワードを2、3個入力すれば、そのキーワードをベースにした「それっぽい」文章を生成してくれる。その機能をつかってLian Porr氏というエンジニアがGPT-3にキーワードを入力したところ、GPT-3は「Feeling unproductive? Maybe you should stop overthinking. (生産性が低いと感じてますか?多分あなたの考え過ぎですよ)」というタイトルのブログ記事を出力。同氏がこの記事をHaker Newsというニュースサイトに投稿したところ、読者からの「いいね」が次々とついて、あっという間に同サイトの人気トップ記事になった。のちにこの記事はAIが作成した記事だというタネあかしをしたが、当初はAIが書いた記事だと見破れる人はほとんどいなかったという。それほどまでにGPT-3は、完璧に言語を操ることができるというわけだ。
GPT-3は、OpenAIという非営利団体が開発したAIで、APIと呼ばれるソフトウェアの窓口を通じて利用が可能。その窓口を通じて、これまでにいろいろなデモプログラムが開発されている。
昨年中に開発されたデモプログラムには以下のようなものがある。
・Learn from Anyone 特定の人物の過去の発言や文章を学習させることで、その人物が言いそうなことを答えてくれるボット。自動運転車のTesla社やロケット開発のSpaceX社を経営するイーロン・マスク氏のボットが試しに作られており、「SpaceXではどんなロケットを開発していますか」という問いに対し「弊社ではFalcon9とFalcon Heavyという2つのタイプのロケットを作っていて、BFRというロケットの開発も計画しています」と答えたという。
・Kalendar AI ミーティング自動設定プログラム。相手に合った内容のビジネスメールを自動で生成し、ミーティングを設定してくれる。
・Revtheo これまでの辞書は、可能性のある意味の候補を幾つも表示するが、開発者のTushar Khattar氏によると、このRevtheoというブラウザのエクステンションは、前後の文脈を考慮して最も適切な意味を表示してくれる。デモプログラムだけで、実際に製品化されていないもよう。
・Micael Tefula氏が開発したデモプログラムは、法律の文書の難解な表現を平易な表現に変換してくれる。
・簡単な数学の計算や、プログラミングが、話し言葉のコマンドで可能。
・デザイン ソフトFigmaの使い方が分からなくても、話し言葉で指示するだけで、デザインを作成。
こうしたブログラムは、実は時間と労力をかければ、開発することはこれまでも可能だった。GPT-3のすごいのは、こうしたプログラムの開発が、短時間で可能なことだ。ビジネスメール支援アプリを開発したRelia Software社は「今までなら開発に数年かかったようなブログラムが、わずか10日ほどで開発できた」と語っている。法律文書の変換プログラムを開発したTefula氏は「大量の文書を学習させなくても、開発できた」と語っている。
開発競争は規模の競争に
どうしてこのようなことが可能なのだろう。答えは簡単。GPT-3が巨大モデルだからだ。Open AIは、イーロン・マスク氏などの有力事業家や投資家が「テック大手にAIを独占させるべきではない」という考えで立ち上げた団体。非営利団体といっても潤沢な資金を持っており、その潤沢な資金を用いて作った言語モデルなのでその規模が半端ないわけだ。
ちょっと専門的な表現になるが、GPT-3は約45テラバイトという膨大なテキストデータを約1750億個のパラメータを使って学習している。膨大なデータで学習しているので、1つの単語の次にくる単語を高い精度で予測できる。次に来る確率が高い単語を次々と並べていくことで、あたかも人間が書いたかのような自然な文章を自動で生成できるわけだ。
言語モデルの規模で攻められたら、規模で攻め返すしかない。2020年から2021年にかけてのAIの研究開発の1つのトレンドは、言語モデルの規模の巨大化の勝負になっている。
パラメータが1750億個のGPT-3が公開されたのは2020年6月。これに対しGoogleは2021年4月に、パラメータが1兆6000億個のSwith Transformerを発表、一気に巻き返してきた。そして6月に中国の北京智源人工知能研究院が発表したWu Daoは、パラメータが、さらにその上を行く1兆7500億個だった。
言語モデルの巨大化に加えて、今年のもう1つのトレンドが多言語化だ。GPT-3を真似て、英語以外の言語で巨大AIモデルを作る動きが活発化している。
中国のWu Daoはもちろん中国語。このほかにもドイツのAleph Aophaは、英語、ドイツ語、フランス語、イタリア語ができる言語モデルだ。イスラエルのHebrew大学の教授が作ったJurassic-1は、英語とヘブライ語のモデル。4月には中国Huawaiが、GPT−3を真似た中国語のモデルPangu-alphaを開発している。韓国のNAVERは5月に、韓国語のモデルHyperCLOVAを開発してきた。
気になるのは日本語の巨大言語モデル。韓国NAVERはソフトバンクと合弁会社Zホールディングを作っており、その傘下にLINE株式会社が位置している。LINE株式会社はもともとNAVER傘下時代にメッセージングアプリのLINEを立ち上げていることもあり、NAVERが5月に韓国語版HyperCLOVAを発表したときに、日本語版もいずれ開発するのではないかと思っていたが、LINE株式会社が7月15日に開催したイベントLINE AI DAYで、予想通り日本語版HyperCLOVA開発を発表してきた。
同イベントでは、幾つかの単語を入力することで文脈に合った文書の生成や、AIと人間のより自然な対話のデモが実演された。またECサイトの商品説明や広告コピー文を自動生成したり、LINEアプリ上でAIと人間の自然な対話の様子も披露されている。
一方マイクロソフトからスピンアウトしたrinna株式会社は8月25日に、OpenAI系の日本語モデルと、Google系の日本語モデルを公開した。モデルの規模が大きくなればコストが大きくなるため、同社は規模の異なるモデルをいくつか用意し、目的に応じた規模のモデルを選択できるようにしているという。。
自然言語処理技術の最新の進化が、いよいよ実用化のフェーズに入ってきたわけだ。今後どのような製品やサービスが出てくるのか、非常に楽しみだ。