米調査会社ABIリサーチ社は、マルチモーダル学習がAIビジネスの未来だとする記事を発表した。マルチモーダル学習とは、複数の種類のデータを使ってAIが学習する仕組みのこと。同社の推計によると、マルチモーダル学習機能を搭載したデバイスの出荷台数が、2017年の約394万台から2023年には約5億1412万台に膨れ上がるという。
世界的に注目を集めている株式会社エクサウィザーズの計量ロボットも、マルチモーダル(関連記事 マルチモーダルAIロボットは匠の技を再現できるか インターフェックス大阪で見た世界最先端)。粉や液体を計量する際に、視覚(カメラ)と触覚(ロボットアームの手の部分につけられた圧力センサー)の2つのモードを使って、AIが学習する仕組みになっている。AI搭載をうたう他社のロボットの多くが、視覚(カメラ)のデータだけで画像を認識するディープラーニングの仕組みを使っているのに対し、エクサのロボットは2種類のデータを合わせてディープラーニングで学習するので、精度が格段に向上するのだという。
ABIリサーチによると、マルチモーダルに対する需要が高まっているにもかかわらず、IBM、Microsoft、Amazon、GoogleなどのAIプラットフォームはいまだにシングル・モードの学習方法しか提供していない。このため今後は、マルチモーダルなAIサービスにビジネスチャンスがあると指摘。またマルチモーダル学習が可能なエッジコンピューティング向けの半導体のニーズが高まりそうだとしている。
またマルチモーダルAIが活躍しそうな領域としてABIリサーチは、ロボティクスに加え、自動車、消費者向けデバイス、医療、メディアなどの分野を挙げている。
自動車の領域では、Advanced Driver Assistance Systems (ADAS)、In-Vehicle Human Machine Interface (HMI) assistants、Driver Monitoring Systems (DMS)などがマルチモーダル化していくだろうと予測。確かに今の自動車に搭載されている音声認識システムは精度が悪い。自動車という非常にノイズの多い環境の中で、ドライバーの発声をマイクで拾い正確に認識するのは、簡単なことではないのかもしれない。しかし超小型カメラでドライバーの唇の動きを動画データとして取得し、音声データと合わせて解析すれば、音声認識の精度が格段に上昇するはず。自動車内の音声認識が今後マルチモーダルになっていくは間違いないだろう。
消費者向けデバイスでは、AIスピーカーなどのデバイスが音声以外のデータも合わせて解析するようになり、本人認証やペイメント、レコメンデーション、パーソナライゼーションなどで、使い勝手や精度を向上させていくことになるだろうとしている。
医療の分野でのマルチモーダル化は始まったばかりだが、複数の生体データを元に医療画像を生成するような領域に期待が持てそうだという。
メディア、娯楽の領域では、複数の種類のデータを使ってコンテンツにメタデータを付けることで、レコメンデーションの精度を向上させるような取り組みが既に始まっているとしている。