AIのニュースがあまりにも多岐に渡るので、半年に一度は総括し、全体像をつかみたいと思う。昨年に続き、今年も巨大言語モデルに関連したニュースが多かった。専門家でさえも「AIが意識を持った」と感じるほど巨大言語モデルの完成度が高まっており、1、2年以内に人間の話し相手として十分機能する対話ロボットの製品化が始まりそうだ。中にはAIに依存する人も出てきて、社会問題化するかもしれない。
あとやはり今年上期はWeb3に注目が集まった。Web3はデータの民主化が1つの定義でもあり、Web3で生まれる豊富なデータがAIをさらに進化させる可能性もありそうだ。
それでは2022年上期の注目すべき出来事をリストアップしていきたい。まずはビジネス視点、そして研究者視点。最後に個人的な視点になるが、Web3がAIに与える影響をまとめたい。
まずはビジネス視点。既に製品化されているか、半年以内に製品化しそうな事例をいくつか紹介したい。といっても新しい動きはやはり米テクノロジー大手が中心。中でもGoogleとNVIDIAの事例を、それぞれの年次カンファレンスの内容から抜粋して紹介する。
▼マルチモーダルでAIがさらに進化
Googleの年次カンファレンスGoogle I/Oでの基調講演を見ていると、マルチモーダルという言葉が頻繁に出てくる。モーダルとは「モードの」という意味。モードとはこの場合、データの種類のことを指す。文字情報というモード、画像データというモード、音声データというモードなどが存在し、そうしたモードを複数種類組み合わせて1つのアルゴリズムで処理するAIなので、マルチモーダルAIと呼ばれる。
例えば人の言っていることが聞こえづらいとき、われわれは相手の口元を見る。音声情報だけではなく口元の動きを見ることで、相手の言っていることをより正確に認識できる。マルチモーダルのほうが認識の精度が上がるわけだ。
同様に、最近のAIは複数のモードを同時に処理することで、精度を格段に上げている。
例えば最近YouTube上で、翻訳された字幕が表示される動画が増えていたり、その翻訳の精度が向上していることに気づかれただろうか。動画のクリエイターが内容を翻訳したものを動画に貼り付けているのではなく、AIによって自動生成された字幕だ。その証拠に「設定」で言語を別言語に切り替えると、字幕が瞬時にその言語に切り替わる。
Googleの基調講演によると、音声はもちろんのこと、動画、概要欄のテキストデータも合わせて、マルチモーダルAIで学習し、AIで翻訳。年間800万本しか翻訳字幕をつけられなかったのを、年間8000万本の動画に翻訳を自動でつけられるようになったという。
このほかシーン探索、マルチサーチnear me、Look and Talkなどの新サービスや機能もマルチモーダルAIだ。
シーン探索は、目の前の風景をカメラで映し出すと、情報がオーバーレイ表示されるもの。例えばチョコレート好きの友人にチョコを買ってあげたくてスーパーマーケットに来たとしよう。チョコレート売り場にはたくさんのチョコレートが並んでいて、どれを買えばいいのか分からない。友人は「ナッツが入っていないダークチョコ」が好きなのだという。「ナッツがはいっていないダークチョコ」とスマホカメラの検索窓に入力すると、たくさんあるチョコの中から「ナッツが入っていないダークチョコ」だけがスマホ画面上で明るく表示される。
技術的にはコンピュータビジョン技術でシーンを構成する複数のフレームを瞬時につなげ、その中のすべての物体を識別する。同時にウェブ上の膨大な情報とGoogleのナレッジグラフを活用して、最も役立つ結果を表示する。この例の場合、ナッツなしのダークチョコで評価の高いものだけを表示する。
この技術をARメガネに搭載すれば、ARメガネを装着することで、ユーザーは身の回りの人物や物体に対して膨大な情報を瞬時に獲得できるようになる。そしてもちろんGoogleはARメガネへの搭載を考えて、こうした技術を開発しているわけだ。
ARメガネがいつ実用化されるのかは不明だが、シーン探索がARグラスのキラーアプリの1つになることは間違いないだろう。
興味のある方は、このリンクをクリックして、基調講演の動画を見ていただきたい。リンクは、シーン探索の箇所から動画が始まるように設定している。また字幕も前述の自動翻訳字幕がついているので、日本語字幕を選択していただければ内容を理解できると思う。
マルチサーチnear meは、検索したい物の写真を撮るか、ネット上の写真の場合はその写真を長押しするとnear meと表示され、それをタップすれば、現在地近くの店舗が販売している関連商品を検索できるというサービス。今年後半にサービスインするという。検索できるのは、アパレルから家庭用品、食材や地元レストランなどさまざま。
例えばおいしそうな料理の写真を見つけた場合、その料理の名前を知らなくてもマルチサーチnear meで、その料理を提供している近くのレストランを見つけることができる。
技術的には、GoogleのマルチモーダルAIが、料理の視覚的な複雑さを認識し、同時にその料理を提供しているレストランを探しているというユーザーの意図を理解。その料理を提供する近くのレストランを検索し、ユーザーのレビューなどを参考に、評価の高いレストランを中心にレコメンドする。
Look and Talkは、ディスプレイのついた音声アシスタントデバイスのGoogle Nest Maxに搭載されるマルチモーダルAI機能だ。音声アシスタントは会話を始める前にホットワードやウェイクワードと呼ばれる呼びかけの言葉が必要だ。Amazonアレクサの場合は「アレクサ」と呼びかけないと質問できないし、Appleのsiriの場合は「ヘイsiri」、Google Nestの場合は「OK、Google」と呼びかけないといけない。「OK、Google、なにか静かな曲をかけて」というように一度目の呼びかけはいいとしても、「音量を上げて」「次の曲をかけて」「ストップ」と2度目以降の呼びかけの際にも「OK Google」から始めないといけない。これは結構面倒だ。
Look and Talk機能の搭載されたGoogle Nest Maxでは、画面を見るだけで音声アシスタントが起動するので、「OK Google」という呼びかけは不要。技術的には、100以上の信号を処理する6つの機械学習モデルで、近接度や、頭の向き、視線方向、唇の動き、コンテクスト理解などのデータからユーザーの意図をリアルタイムで理解するという。
また音声アシスタントにJust speak naturallyという機能も搭載される。音声対話をテキストに変換する技術は自動筆記技術などと呼ばれ、他社からもいくつかの自動筆記技術が発表されている。ただ自動筆記された文章は非常に読みづらいものが多い。ニュース番組のアナウンサーのような正確な音声なら自動筆記で完璧な文章にテキスト化してくれるだろう。しかし一般人の講演やインタビュー、対談などの音声データには、「えー」などの意味不明の音や、言い間違い、言い直しが多数混ざっている。それをそのままテキスト化するので、内容が分かりづらいわけだ。母国語なら、意味のない発声や言い間違いがあっても、だいたいの文脈を理解できるが、外国語であればそうした言い間違いは致命的で、理解を妨げる大きな原因になる。
人間がこうした意味のない音や言い間違いを聞いても相手の意図を理解できるのは、人間は相手を理解しようという前のめりの状態で注意を払っており、その結果200ミリ秒未満のレスポンスタイムで情報を処理できるからだという。
ただこれは人間にとっては簡単にできることでも、AIにとっては非常に困難なタスク。Googleは音声解析モデルをクラウドではなく手元のデバイス上で走らせることで反応の高速化を進めてきたが、それでも十分ではなかった。そこでより包括的なニューラルネットワークを構築し、それを実行できる超高速ICチップをデバイスに搭載することで、高速化のブレークスルーを達成したという。
この結果、楽曲をリクエストする音声コマンドの途中で言葉に詰まったり、不完全な情報を与えたとしても、ユーザーの意図を理解し、正しい楽曲を再生してくれるようになったという。
つづく