世界的に人気のAIスピーカー、Amazon Echoに搭載されているAI、「Alexa」。果たしてAI的にはどんな仕組みで動いているのだろう。Amazonアメリカ本社のAlexa機械学習プラットフォームのバイス・プレジデントRavi Jain氏が来日したので、話を聞いてきた。今回と次回、2回のコラムで取り上げてみたい。
僕が講演などでAmazon Echoの話をすると、「Amazonが家の中の会話を全部聞いてるのではないか」という質問をよく受ける。アメリカのニュースサイトでもこの問題はよく取り上げられていて、Amazonの回答は「ノー」というものだが、せっかくなので一応聞いてみることにした。
ーーAmazon Echoは家の中の声を聞いているんじゃないでしょうか?多分ノーというのが答えだとは思うのですが、一応聞いてみます。
はい、もちろんノーです(笑)。仕組み的にはこんな感じです。Echoのマイクが音を拾っている状態ではあるのですが、録音しているわけでも、話の内容を解析しているわけでもありません。ウエイクワードディテクション技術というものをつかって、周りの音の中から「アレクサ」というウエイクワード、つまりスリープ状態から起こすためのキーワードを検出しようとしています。
この技術で「アレクサ」という音が検出されて初めて、Echoが立ち上がりり、ピンという音がなって青いリングが点灯します。
ーーAlexaがウエイクした、つまり起きたわけですね。
そうです。この段階からEchoは「アレクサ」という発声があった方角にマイクを向けて、声の主の音声を取得しようとし始めます。
取得された音声はインターネットを通じてAmazonのサーバーに送られ、そこで解析され、意味を理解し、適切な受け答えをするようになります。
青いリングが点灯しているとき以外、部屋の中の会話がAmazonのコンピューターに送られることはありません。
では、Amazonのコンピューターに送られてからどのような処理が行われるのか。Amazonの公式ブログに詳しい説明があると教えてもらったので、そちらを見てみた。
おもしろかった点を幾つかピックアップ
(1)ブレークスルーはfar-field speech recognition
音声認識技術は日本にも以前からあった。友人に音声認識技術の元エンジニアがいるので彼に話を聞いてみると、静かな環境の中で発話者にマイクの前に立ってもらいノイズのない音を取れば、日本の音声認識でも100%近い精度を出せるのだとか。問題はノイズのない状況をどう作るか。またマイクから離れた発話者の声をどう正確にひろうか。
公式ブログによると、Amazonのfar-field音声認識技術は、そこをAIでクリアしたようだ。Amazonがクラウド上に持つ膨大なコンピューティングパワー、新たな機械学習のアルゴリズム、それを賢くするための大量のデータ。この3つが揃った状態だからこそ、マイクから離れた場所の音声でも正確に拾えるようになったのだという。
(2)使われているAI
ウエイクワード検出にはディープラーニングが使われていて、いろいろなアクセントやイントネーションの「アレクサ」という言葉にも反応できるようになっている。
ウエイクワードを検出すれば、AmazonのクラウドコンピューティングAWSにつながり、far-field自動音声認識技術が作動し、音声をテキストに変換する。
テキストに変換されれば、自然言語処理という技術で、意図を構造的に理解し、3万を超えるアプリの中から、どれでどういうように対応すべきかを決める。この際に、発話者が誰で、どのタイプのデバイスが使われいるかなども考慮に入れて判断する。
どう対応するかが決まれば、text-to-speachという音声生成技術で、自然な発声に変換される。
このすべてのプロセスにおいて機械学習が使われ、その場でできるだけ早く、瞬時に対応するよう工夫されている。
(3)3つの学習方法
Alexaは、教師あり学習、半教師あり学習、教師なし学習の3つの方法で学習を続けている。
一番多く使われているのが、教師あり学習。ただ人間がラベル付けするのでは、追いつかないのが現状。そこで人手によるラベル付けが不要な新しい方法を、常に探し、研究、開発しているのだとか。特に、大量のデータの中からどのデータを人間の専門家に見てもらう必要があるのかを決めるアクティブ・ラーニングと呼ばれる半教師あり学習の手法が、あらゆる領域に使われているという。
また音声認識の領域では特に、教師なし学習の手法が使われている。
このほか1つの言語やアプリで学習したことを、別の言語やアプリに応用する転移学習なども多く利用しているのだとか。
(4)今後5年で対話型AIはさらに賢くなる
機械学習の今後の進化を受けて対話型AIもさらに賢くなる。教師なし学習が主流になれば、Alexaはもっともっと賢くなっていく。
Ravi Jain氏にさらにいろいろ聞いてみた。
ーー日本語のほうが精度が悪いように思うのですが。
英語のAlexaは2014年11月にスタート。多くの人が使えば使うほど、どんどん賢くなっていってます。日本語もこれからどんどん賢くなっていくことでしょう。
ここで同席していた日本の広報担当者に、この辺りの話を聞いてみた。広報担当者によると、アメリカのユーザーは、ストップ、スタートとか、命令口調の人が多いんだが、日本のユーザーからは、「ごめん、もういいや」などといった、相手を気遣った様々な表現が出てくるらしい。そうした文化的な表現の違いも今、Alexa日本語版は学んでいる最中なのだとか。また最近では、「ドリカム」が「ドリーム・カム・ツルー」のことであることをAlexaが認識できるようになったらしい。「ドリカムの曲をかけて」と命令することができるようになるわけだ。
アホみたいな話で恐縮だが、うちの妻は松田聖子のことを「聖子ちゃん」と呼ぶ。先日も、台所仕事をしながら「アレクサ、聖子ちゃんの曲かけて」とコマンドしていたが、Alexaは「わかりません」と答えていた。そりゃそうだろ(笑)。うちの妻のアホみたいなコマンドにも対応できるように、Alexaが賢くなることを希望しています。
ーーますます進化しているんですね。これからどう進化していくんですか?
ソーシャルボットの研究を続けています。単にユーザーの命令に応えるだけではなく、ユーザーの話し相手になるような機能を搭載しようとしています。
ユーザーの命令に応えるAIを「秘書型AI」とすると、話し相手になるAIは「親友型AI」ということになるのだろうか。Ravi Jain氏の言うソーシャルボットとは、親友型のことを指している。
秘書型と親友型では、実は全然異なる技術が必要になる。秘書型は対話のやりとりの回数が少なければ少ないほどいい。AIがユーザーの意図を正確に理解し、的確に対応できている証拠だからだ。一方で親友型は、やりとりが長く続けば続くほどいい。話が弾んでいる証拠だからだ。
次のコラムでは、Amazonの「親友型」への取り組みについて聞いた話を書いてみたい。