過去1年間で最も進化したAIの領域といえば、自然言語処理の領域かもしれない。Google BERTやOpen AI GPT-2など、自然言語処理に関する画期的な技術がいくつか発表された。こうした自然言語処理の領域の進化を受けて、AmazonエコーのようなAIスピーカーに搭載されたAIが、さらなる進化を遂げるのは間違いない。AIスピーカーは今後どのような方向に進化していくのだろうか。MIT Technology Reviewが主催したAI専門カンファレンスEM Tech DigitalにAmazonエコー搭載AIの開発者が登壇。AmazonのAI開発の裏話を語ってくれた。
Amazonエコーに搭載されているAI「アレクサ」の開発責任者、Rohit Prasad氏は、AIの進化に合わせてアレクサを改良するわけではない、と語る。アマゾンでは、「こんな技術があるからこの製品を作りたい」という順番ではなく、「こんな製品を作りたい。ではどんな技術があるのだろう」という順番で製品を開発するのだという。「まずは架空の発表文やよくある質問(FAQ)を書くんです。そうして製品のイメージができてから、リサーチを始めるんです」。「6年前にアレクサの開発を始めた頃には、ディープラーニングがどの程度の技術か、よく分かりませんでした。ただ家庭にはノイズが多く、このノイズ排除にディープラーニングが効果を発揮するかもしれないと思い、ディープラーニングに関するリサーチを加速させたんです」。
ノイズの問題は、ある程度ディープラーニングで解決できた。次に、大量のデータを学習する時間をどう短縮させるのか、という課題が急浮上した。出荷台数が急増すれば、入手できるデータの数も急激に増える。急増するデータをどう処理すればいいのだろうか。GPUと呼ばれるデバイスを追加すればいい、というような単純な話ではない。AIを賢くさせるためには、何万台ものデバイスをまるで一台のデバイスのように動かさなければならないからだ。そこでマルチGPU学習モデルというのを自分たちで開発したという。技術があるので製品を作るのではなく、作りたい製品があるので技術を開発する、というわけだ。
なので直近の自然言語処理の進化が、直接アレクサの開発計画に大きな影響を与えることはないと言う。
一方でPrasad氏にとって最近の研究の重点課題は、自然言語解析を超えたところにあるという。「このようなカンファレンスで登壇すると名刺交換の際にいろいろな機能拡充の要望をいただく。そうした声に耳を傾け、重要なものから順に機能追加を検討しています」と言う。
最近では、ホームセキュリティが重要課題の1つだという。火災報知器が鳴った音。窓ガラスが割れるような音。そうした音をアレクサは認識すべきなのか。認識したあとどう対処すべきなのか。「自然言語解析よりももっと困難な問題です」。
今の設定では「アレクサ」というキーワードが発声されない限り、周辺の音声をクラウド上に転送することはない。ホームセキュリティのために、「アレクサ」というキーワード発声がなくても、室内の音を解析すべきなのかという問題だ。プライバシーが関与するだけに、判断が非常に難しいという。
また別の課題として、ユーザーのコマンドの意図を正確に理解する、というものがある。ユーザーが、シンプルなセンテンスの裏にどのような意図を持っているのかを推測するのは簡単ではない。ユーザーが「アレクサ、車をゲットして」と言った時、ユーザーは何を意図しているのだろう。「タクシーを呼んで」と言っているのか、アマゾンのECサイトからおもちゃのミニカーを購入しようという意味なのか。「これも自然言語処理を超えた文脈理解の問題なんです」と同氏は言う。
ユーザーがこう言えば、それはこういうことを意味している、というような「正解データ」が無数にあるのなら、アレクサは賢くなる。いわゆる教師あり学習と呼ばれるような、AIを賢くさせる手法だ。今日、ビジネスで利用されているAIのほとんどは、この教師あり学習を使ってAIを賢くさせている。しかし一般消費者は、AIスピーカーに対しいろいろな話し方で話しかける。すべての話しかけに対して「正解データ」を用意することは、不可能だ。一部のAI研究者が、どんなことでも対話できるAIスピーカーの開発は、まだまだ困難だと主張する根拠はここにある。
「確かに教師あり学習では無理です。でもAmazonエコーは1億個以上出荷しています。1億個のエコーを通じて大量のデータを集めることができるわれわれだからこそ、可能な学習方法がるはずです」と同氏は指摘する。「例を1つ挙げましょう。『ABCの歌をかけて』とアレクサに言っても、それが歌の正式名称でなければ、アレクサは『ABCの歌はありません』と答える。続いて同じユーザーが『アルファベットの歌をかけて』と言ったとしましょう。ABCの歌が見つからなかったあとに、アルファベットの歌をリクエストするユーザーが圧倒的に多い。こういう状況だと、アレクサはABCの歌とアルファベットの歌が同じことを意味するということを理解します。大量のデバイスから大量のデータが取れるという状況だからこそ、可能な学習方法なんです」。1つの行動を取るユーザーが大量に存在すれば、その行動の意味が分かるようになるわけだ。
一方、一人のユーザーに関するデータが大量に存在しても、その行動の意味が分かるようになる。例えば、一人のユーザーが「車をゲットして」と言ったとき、そのユーザーが毎朝同じ時間にタクシーを呼んでいるのであれば、その「車をゲットして」は「タクシーを呼んで」という意味だということが分かる。別のユーザーが子供向けのプレゼントをAmazonのECサイトで探していた直近の閲覧履歴があれば、「車をゲットして」は、ECサイトのカートに入れてあるミニカーのことを指していることが分かる。
より多くのユーザーのより多くのデータを入手するためにも、Amazonは「スキル」と呼ぶサードパーティ開発のアプリを増やすことを重視している。そこでAmazonでは、サードパーティ向けにアプリ開発用のソフトウエアツールの改良にも力を入れているという。「スキルの数が増えてくれば、1つのスキルで使ったAIモデルの一部を別のスキルに応用できるケースが増えてきます。転移学習と呼ばれる手法です」。1つのレストラン向けに開発されたテイクアウト注文を取るアプリに使われている音声応答システムのうち、「ご一緒に飲み物はいかがですか」「合計金額はこのようになります」などといった部分は、別のレストランでも応用できるはず。レストランに共通するようなAIの部分を共有することで、自分のレストランに特化した部分だけを開発すればいいわけだ。こうした転移学習が可能なことも、AIスピーカーの首位を独走しているという立場からのメリットの一つになる。
やはりAIはデータがすべて。AIスピーカーを通じて大量のデータを入手できる立場にいるAmazonだからこそ、さらに機能や技術を進化させることができる。Prasad氏の話を聞いて、AIビジネスって完全な先手必勝、Winner Take All(勝者独り勝ち)ではないにしろ、先行する少数の勝者が圧倒的に有利なビジネスなのだということが再確認できた。