米シリコンバレー関係者が大注目するMeekerリポートが今年も発表された。Meekerリポートとは、シリコンバレーの著名ベンチャーキャピタルKleiner Perkins Caufield Byersに所属するベンチャーキャピタリストMary Meeker氏が毎年発表している「インターネット・トレンド」と呼ばれる調査報告書のこと。詳細なデータをベースに行う未来予測として、最近では米国の産業界全体で注目されるほど評価が高くなってきている報告書だ。
今年の報告書の中で同氏は、特に機械と人間の接点部分である「インターフェース」領域で2つの技術分野に注目し、詳細なデータで近未来を予測をしている。その2つとは音声と自動走行車だ。
音声技術に関しては、2ヶ月前にこの連載コラムで取り上げ、少々フライング気味ではあるものの、その覇権争いの行方まで大胆予測した。(次のキーテクノロジーは音声、次の覇者はAmazon)
今回音声技術がMeekerリポートに取り上げられたことで、音声技術に対する産業界の注目はさらに高まることになりそうだ。
そこで今回のコラムでは、1)Meekerリポートが音声技術をどのように取り上げているのか、2)4月のコラム執筆の時点から今までの2カ月間でどのような動きがあったのか、について報告したい。
iPhoneは山を超えた。次はAmazonの時代
今回のMeekerリポートは、音声認識に関しては「人間とコンピューターのインタラクションの新たなパラダイムとして音声を考える」と題し約20枚のスライドで詳細に解説している。
それによると、音声認識技術はここ数年で性能が格段に向上しており、Googleの音声認識技術の認識率を見ても2010年には70%だったのが2016年には90%にまでなっているという。
性能の向上に伴い利用する人も増えているようで、米国で音声アシスタントを利用するユーザーの割合が2013年には30%だったのが、2015年には65%に伸びている。
確かに私自身の感覚としても、iPhoneのsiriやGoogleNowの音声認識率はここ数年でかなり性能がアップしている。なのでLINEのやりとりも、最近はキーボードで入力するよりも音声で入力することのほうが増えてきている。
同リポートによると米国での音声認識技術の利用シーンとしては、「家庭内」と答えた人が最も多く43%で、次いで「自動車の中」が36%だった。以前のコラムでも取り上げたAmazonのスピーカー型バーチャルアシスタントのEchoは、その家庭内のニーズにうまく応えたことで大ヒットしているわけだ。
同リポートによると、Amazonの音声認識技術に準拠しているサードパーティの製品やサービスが急増しており、2015年にはAmazon Ecoで操作できるデバイスやサービスの数がわずか14個だったのに対し、2016年5月には950個にも増えている。Amazonの音声認識技術を核にしたスマートホームのエコシステムが完成しつつあるようだ。
Meekerリポートでは、iPhoneの出荷台数が今年初めて前年比割れする見通しを挙げ、「Amazon Echoが飛び立とうとする中で、iPhoneはもう山を超えたのかも」と評している。
今回のリポートの中で私自身が最も気になったのは、人工知能研究の権威、スタンフォード大AI研究所の元所長で、現在中国百度(バイドゥ)のチーフサイエンティストAndrew Ng氏が語ったとされる次の引用文だ。
「ほとんどの人は音声認識率95%と99%の違いの重要性を理解していない。99%に達すれば、すべての人が音声認識技術を常に使うようになるだろう。99%に達したときに、潮目が変わるんだ」。
このままのペースで技術革新が進めば、あと2、3年で99%に達するだろう。パソコンからスマホにパラダイムが移行したときに業界勢力図が大きく塗り替えられたように、スマホからボイスにパラダイムが移行すれば、業界勢力図はさらに大きく変化することだろう。その変化が、2,3年後に迫っているかも知れないわけだ。
技術革新を牽引しているのはやはり人工知能
音声認識技術が順調に認識率を高めているのは、Deep Learningのおかげだ。Deep Learningとは、人工知能研究の50年来のブレークスルーと呼ばれる技術で、画像認識の領域では既に大きな成果を上げている。Facebook上に写真を投稿すると、写っている人物の顔を認識して名前を自動的に表示するが、これもDeep Learningのおかげだ。
このDeep Learningが音声の領域にも利用され始めた。音声認識技術がここ2,3年で精度を上げているのはこのためだ。
人工知能はデータさえ与え続ければ自分で学習していく。音声認識率が99%に達するのも時間の問題だというわけだ。
しかしスマホから音声のパラダイムに移行するには、音声認識技術だけでは不十分。人間の音声を聞いて認識し、それを理解して、的確な受け答えをしなければならない。人間と対話できなければならないわけだ。
対話エンジン技術のベンチャー、VocalIQ社によると、対話エンジンは主に4つの技術で成り立っているという。まずは音声を認識してテキストに変換する「音声認識」技術。テキストを「理解」する技術。理解に基いて、どのような応答をするのか決める「判断」技術。応答テキストを音声に転換する「音声転換」技術、の4つだ。
同社のCEO、Blaise Thomson氏によると、音声認識の部分はDeep Learningの応用で急速に進化している。しかしそれ以外の技術は、想定シナリオをベースにした受け答えにとどまっているのが現状。想定される質問がくれば、それなりに受け答えができるが、想定外の質問にはまったく答えられない。
iPhoneのsiriでも「今日の東京の天気は?」というような、ありがちの質問をすると的確に答えてくれる。しかし何にでも答えられるわけではなく、siriが想定しない質問をすると「すみません。理解できません」という答えが返ってくる。現状では、答えられない問いの方が多いくらいだと思う。
同社は、その「理解」「判断」の技術の部分にもDeep Leaningを応用しようとしている。大量のデータを読み込ませれることで、「理解」「判断」の領域でも人工知能が成果を上げるはずだという。
Amazonに「待った」をかけることができるか
4月にコラムを書いてから、この領域でのテック大手各社の動きが活発になってきている。
Facebookはこのほど、Deep Learnignをテキスト解析に応用するための人工知能エンジン「DeepText」を開発したと発表した。対話エンジンの「音声認識」「理解」「判断」「音声変換」のうち、Facebookに投稿されたテキストを使って「理解」の領域の人工知能を賢くさせようというわけだ。
Googleは5月に、Google Homeと呼ばれるスマートホームのプロジェクトを発表。核になるのは対話エンジンを搭載した卓上スピーカーで、Amazon Echoに対抗する製品を年内に発売する見通しだ。スマートホームの覇権争いではAmazonに遅れを取った形だが、音声認識ではAndroidケータイを持つGoogleに一日の長がある。音声認識の精度のよさでAmazonに追いつき追い越すことができるのだろうか。要注目だ。
一方でAppleはMeekerリポートで「iPhoneは山を超えた」と評されているし、音声技術に関して関しても最近は目立った発表がない。米国のテック系メディアやブログの中には「Appleは過去の企業になりつつある」という論評がちらりほらり出始めている。
しかし実は、スマホの次のスマートホームの時代には音声が基幹技術になることを、故スティーブ・ジョブズは生前に既に見抜いていた。Appleのスティーブ・ジョブズの伝記に、ジョブズがあるとき「AppleTVの未来が見えた!こうすればいいんだ!」と叫んだというくだりがある。伝記の中では、それがどのような技術なのかは明らかになっていないが、後にジョブズの後継者となったTim Cook氏が、ボイスコマンド機能をAppleTVに搭載する構想を明らかにしている。
ジョブズは、なんとしても音声技術を取り込みたかったようだ。ジョブズが手がけた最後の大型買収はsiriだった。ジョブズは病院からsiriのCEOに直接電話をかけて、Apple傘下に入るよう口説き落としたのだという。
そのジョブズの方針は現在もAppleの中で健在のようだ。Cook氏率いるAppleは、siri以降にもAIや音声のベンチャーを次々と買収している。前出のVocalIQ社もAppleが買収している。このほか、iPhoneのカメラで顔の43の筋肉の変化を読み取り、感情を認識する技術を持つEmotient社など、表面に出てこないような買収を繰り返しているようだ。これらの技術のほとんどすべてがiPhoneの対話エンジン技術やスマートホーム機器に取り込まれていくことになるだろう。
Appleは、どこよりも先に製品を出すのではなく、二番煎じと揶揄されながらもその完成度の高さで最終的にシェアを奪うという戦略をこれまで取ってきた。音声技術やスマートホームの領域で表立って目立った動きをまだしていなくても、無視できるプレーヤーではない。
さてスマホの次のパラダイムの覇権争いでは、私の予想通りにAmazonが逃げ切るのか。それともGoogle、Facebook、Appleが逆転するのだろうか。
Newsweek日本版より転載
http://www.newsweekjapan.jp/