ChatGPTは、どんな質問にも答えてくれる。なので、AIが万能のように見えるかも知れないが、実は今の言語AIには重大な問題点が幾つか存在する。
例えば、最新の情報を持っていないことや、適当な回答を生成することなどだ(関連記事ChatGPT先輩とGoogle先生)。言語AIは大別すると、大量のデータで学習した大規模の基盤モデルと、基盤モデルを微調整しただけの目的特化型モデルの2種類がある。今日の言語モデルが持つ課題は、目的特化型モデルの微調整で済むものもあれば、基盤モデルの進化を待たなければならないものもある。言語AIの課題とその解決の目処を理解することで、言語AIが今後どのように社会や産業に影響を与えるのかが見えてくる。
課題の1つは、言語AIが最新の情報を持っていないことだ。ChatGPTに最新のニュースについて質問すると「2021年までのデータで学習しましたので、最新の情報はもっていません」と答えることがある。個人的には、質問したいことが最新の事情に関することが多いので、非常に残念だ。
最新の情報をAIに学習させる1つの方法として、人間同士のチャット上のやり取りを学習データにする方法が提案されている。協力者はクラウドソーシングで集め、一方の人間が指定された領域の中で疑問に思ったことをもう一方の人間にチャットで質問する。質問を受けた人間は、インターネットで情報を検索。その結果を質問者にチャットで返答する。こうした質問者と回答者のやり取りのデータを集めて、AIに学習させるのだという。
こうすることでAIは、特定のタイプの質問はインターネットで検索するのがいいことを学ぶ。学習済みのAIはやがてインターネットで情報を検索し、その結果を人間の質問者に回答するようになる。この方法だと、AIは最新の情報に関する質問にも答えられるようになるという。(参考論文Internet-Augmented Dialogue Generation)
この手法を採用しているのかどうかは分からないが、最新の情報にまで言及できるというチャット型AIは既に登場している。You.comがそれで、今進行中のスポーツに試合に関しての質問などにも回答できるという。
このサービスの精度がどれくらいなのかは、実際に試していないので分からないが、基盤モデル側もいずれ最新情報を取り扱えるようになると、ChatGPTを開発したOpen AIのSam Altman氏は語っている。
2つ目は、言語モデルは情報を捏造する傾向があるということだ。前回の記事では、ChatGPTに「湯川鶴章ってだれですか」と聞いたら、「物理学者 1981年に死亡」という答えが返ってきた。これは笑い話で済むが、医療の現場で診断AIが間違った治療法を提案してくれば大変なことになってしまう。捏造の問題を解決するには、まず捏造の現状を理解しなければならない。どのような用途のときにAIは情報を捏造するのかを広範囲に渡って調査した論文が発表されたばかり。(関連論文Survey of Hallucination in Natural Language Generation)。
言語モデルの基盤モデル上での捏造の問題はしばらくは解決されそうにないので、当面は基盤モデルを微調整しただけの目的特化型モデル上で何らかの対処方法を編み出すしかないだろう。特化型モデルの中には、複数の基盤モデルの答えを照合して答えの正確さを推測するモデルや、根拠となったウェブページのリンクを併記するモデルなどが登場してきている。
3つ目の問題は、AIが英語以外の言語には強くないということだ。ChatGPTの基盤モデルであるGPT-3の学習データの93%は英語。英語以外の言語の学習データは7%でしかない。この結果、英語以外の言語での利用では英語ほどの精度が出ないし、翻訳精度もあまり高くないという。(参考論文Few-shot Learning with Multilingual Generative Language Models)
一方でXGMLと呼ばれるAIモデルは、英語と中国語のデータで学習させたため、英中翻訳ではGPT-3より高い精度を出したという。
4つ目の問題は、数学の記述問題に弱いというところだ。例えば「Aさんは鉛筆を8本持っていました。Bさんに3本あげました。Aさんは今、鉛筆を何本持っていますか」という記述問題なら、「5本」と答えることができる。ただこうした数学の記述問題を無数に学習しているので、統計的に最も多いパターンを意味も分からずに答えているに過ぎない。
しかし現実社会は、ここまで単純ではない。「Aさんは鉛筆を8本持っていました。Bさんは6本持っていました。Aさんは3本の鉛筆をBさんにあげました。Aさんは今、鉛筆を持っていますか」という問題になると、人間は「8」「6」「3」という数字のうち「6」という数字が答えを導き出すのに無関係の数字であることが分かる。現実社会は複雑で、答えに関係のない情報が無数に存在する。数学の記述問題を学習してきたAIは、記述問題の複雑性が増してくると正解率が大きく低下する傾向にあるという。(参考論文Are NLP Models really able to Solve Simple Math Word Problems?)
5つ目は、AIの時間の概念があやふやだということ。AIは、その文章がいつ書かれたものかを判断できず、異なる時期に書かれた文章からの情報を統合してしまうことがある。例えば大リーグでも活躍した野球選手の場合、日本国内での記事と大リーグ時代の記事の両方を統合し、「〇〇選手は、巨人軍の選手であると同時にヤンキースの選手でもあります」などという文章を生成してしまう。
また逆にウィキペディアのように常にアップデートされる情報を中心に学習した場合は、過去の情報量が少なくなり、間違った情報を生成してしまうこともある。
さらAIは情報の有効期間の違いを理解できない。例えば「日本の首都は東京である」という情報と「日本の総理大臣は岸田文雄である」という情報の、どちらが賞味期限が長いのかを理解できない。
こうした時間の問題を解決する方法として、文章が作成された日時データも合わせて学習する方法の開発が進んでいる。(参考論文Time-Aware Language Models as Temporal Knowledge Bases)
ChatGPTが大きく話題になったことで、言語AIの研究領域に人材や資金が流入しやすくなった。これらの課題も、そう遠くない将来に解決し、言語AIがわれわれの生活に浸透していくことになるだろう。