Facebookを運営する米Meta社はこのほど、マルチモーダルAIのData2Vecを発表した。マルチモーダルAIはGoogleも開発に力を入れており、マルチモーダルAIが、テクノロジー大手の開発競争の主戦場になってきた。
マルチモーダルAIとは、複数のモード(データの種類)を取り扱うタイプのAI。これまでのAIは、画像なら画像だけ、テキストならテキストだけで学習し予測するという、1つのモードに特化したものが主流だった。マルチモーダルAIは、画像、テキスト、音声、映像など、複数のモードを1つのAIアルゴリズムで処理するもので、複数のモードを取り扱うことで、より正確な学習と予測が可能になると考えられている。
人間は、例えばフライドポテトの場合だと、目で見て、臭いを嗅いで、味わってみて、それがフライドポテトだと判断する。五感を使って学習、判断しているわけで、マルチモーダルAIはより人間の脳に近いAIということになる。
今回Meta社が開発したData2Vecは、マルチモーダル自己教師あり学習のAI。自己教師あり学習とは、AIが自分で練習問題を作って自分で解いて学習するという学習方法のこと。人間のエンジニアが練習問題をたくさん用意しなくてもいいという利点がある。
Googleも昨年初夏に開催した開発者向け年次総会で、マルチモーダルAI技術「Multitask Unified Model(MUM)」を発表している。講演の中で開発担当者が「YouTubeで、ライオンが夕日に向かって吠えている映像を検索して」とコマンドを出すと、ライオンが写っている動画の中から、夕日に向かって吠えているライオンのシーンを頭出しした。また「アダムズ山に登ったことはあるのですが、秋に富士山に登るために何を準備すればいいですか」という問いに対してAIは、富士山に関する日本語を含む多言語のブログや動画を検索し、関連する情報をリストアップしてくれた。また「この登山ブーツでだいじょうぶですか」という問いに対しては、画像データを認識し、富士山関連の画像データと比較して「だいじょうぶです」と回答している。
実はエクサウィザーズもロボット向けにマルチモーダルAIを早くから研究し、粉や液体を正確に計測できるロボットの開発に成功している。(関連記事:マルチモーダルAIロボットは巧みの技を再現できるか)
粉や液体を計量する際に、視覚(カメラ)と触覚(ロボットアームの手の部分につけられた圧力センサー)の2つのモードを使って、AIが学習する仕組みになっている。AI搭載をうたう他社のロボットの多くが、視覚(カメラ)のデータだけで画像を認識するのに対し、エクサのロボットは2種類のデータを合わせてディープラーニングで学習するので、精度が格段に向上するわけだ。
米調査会社ABIリサーチによると、マルチモーダルAIを搭載したデバイスの出荷台数は2017年の約394万台から2023年には約5億1412万台に膨れ上がる見通しと推計している。マルチモーダルAIが活躍しそうな領域としてABIリサーチは、ロボティクスに加え、自動車、消費者向けデバイス、医療、メディアなどの分野を挙げている。