AIの進化で音声認識の精度が急速に向上している。機械が人間の音声をほぼ正確に認識できるようになれば、社会は一変すると言われている。テック業界は、PCからスマートフォンに時代が移行したころの「モバイルファースト」の教訓を思い出し、「ボイスファースト」の事業構想を練るべきときがきた。
【参考記事】次のAIフロンティアは自然言語処理?
AIの音声認識が間もなく人間を超える
音声認識の領域で、ディープラーニングと呼ばれるAIの注目技術を使って実績を上げているのが、米Microsoftの研究所。音声認識の精度は、人間の音声をどれだけ正確に書き起こせるかのテストで計る。英語の場合は同じ発音でもスペルが異なる単語が存在するので、人間でも単語数で数%の間違いが生じるのだとか。
そのテストでMicrosoftのAIは今年9月にエラー率6.3%を記録。そのときも業界内で衝撃が走ったが、そのわずか1カ月の10月には、エラー率が5.9%にまで低下した。5.9%はプロの速記者と同程度だという。Microsoftの研究者は「5年前に、われわれの技術が5年間でここまで伸びるとは想像できなかった」と語っている。研究者でさえ驚くようなスピードで技術が進化しているわけだ。
【参考記事】女子高生AI「りんな」が世界を変えると思う理由
米スタンフォード大学のAI研究所の元所長で、現在中国バイドゥ(百度)のチーフサイエンティストであるAndrew Ng(アンドリュー・ン)氏は、音声認識の精度が向上すれば社会は一変すると指摘する。「音声認識率が95%から99%に向上すれば、すべての人が音声コマンドを常時使うようになるだろう。この95%から99%までの進化が大事。多くの人はこのことを過小評価し過ぎ。99%に達した時点で、すべてが変わる」という。
同氏によると、2020年までに検索の少なくとも50%は、画像検索か音声検索になると予測している。文字で検索することのほうが少なくなる時代が、もうすぐそこまで来ているというわけだ。
モバイルファーストが業界勢力図を塗り替えた
そうした時代に向けてビジネスはどう変化すべきなのだろうか。
実は、われわれは同様のビジネス界のパラダイムシフトを数年前に体験している。
【参考記事】人工知能が加速させるボイス革命
LINEのユーザーが勢いよく伸び始めた2011年ごろの話だ。IT業界のあるイベントに、LINEの産みの親である、当時のNHNの舛田淳氏が登壇した。パネルセッションで、LINEの成功の秘訣を聞かれた桝田氏は「モバイルファーストですかね」と答えた。
それを聞いた他のパネラーの人たちがキョトンとしていたのが印象的だった。
他のパネラーは、大手ネット企業の幹部たち。多分、他のパネラーたちは「え?うちのサービスはモバイルページもあるし、モバイル端末からも利用しやすくなっているんだけど、それとどう違うんだろう」って考えていたのだと思う。
でも「モバイルからでもアクセスできます」と「モバイルを第一に考えてサービスを設計しています」とでは、全然使い勝手が違う。
ボイスファーストで勢力図を塗り替えろ
まるでPCユーザーを無視するぐらいの勢いで、LINEはモバイルファーストを徹底していた。それが勝因だった。
PCユーザーはビジネスマン中心の約2000万人。モバイルユーザーは消費者中心の数千万人、しかもさらに増えることが期待できる。PCユーザーを無視してもサービスは成立する。そう考えてLINEは、モバイルに一気に舵を切ったのかもしれない。
LINEの成功は、モバイルファーストの重要性を業界に先駆けて明らかにした。その後、ニュースサイトをモバイルファーストの考えで作ったグノシーやスマートニュースがユーザーを増やし、ネットオークションをモバイルファーストで作ったメルカリが大成功を収め、だれもがモバイルファーストの重要性を認識するまでになった。
モバイルファーストがネット業界の勢力図を塗り替えたわけだ。
そして今、音声認識技術の急速な進化を受け、ボイスファーストの時代が来ようとしている。
スマホはどれだけ普及しても一人一台にしか普及しないが、音声技術搭載のIoTデバイスは今後、身の回りにあふれることになる。
スマホを無視してもサービスが成立するようになる。ボイスに一気に舵を切ってもいいのかもしれない。
米国を席巻している音声デバイスAmazon Eco。そのEchoを開発したAmazonの研究開発チームの一員であるMike George氏が、このほど米国で開催されたイベントのパネルセッションで、「あえて画面を持たせなかったことがAmazon Echoの成功の大きな要因」と答えている。
【参考記事】次のキーテクノロジーは音声、次の覇者はAmazon
Echoに簡単なディスプレイを搭載することは簡単。でもディスプレイを搭載すれば、そのことに甘えてしまう。ディスプレイに甘えることができないようにしたことで、音声応答技術の完成度が増したということなのだろう。
これこそがボイスファーストの考え方だ。
モバイルファーストのサービスが「モバイルとPCのどちらでも使えます」という中途半端なサービスから市場シェアを奪ったように、今後ボイスファーストのサービスが「文字と音声のどちらでも使えます」という中途半端なサービスを駆逐していくことだろう。
もちろんすべてのサービスがボイスファーストに向いているわけではない。
すべてのアプリやサービスがモバイルファーストに置き換えられたのではないのと同じことだ。PCの比較的大きな画面を使ったほうがいい作業やサービスは、やはり今でもPCのサービスとして生き残っている。特に仕事に関連する作業やサービスは、画面が大きく、入力が簡単なキーボードを搭載したPCを使うほうが使い勝手がいいのは当たり前の話だ。
人前で音声入力は恥ずかしい?
「人前で音声入力するのは恥ずかしい」という意見がある。それはその通りだ。しかし家や車の中など、音声入力しても恥ずかしくないシチュエーションは多数存在するはず。
また音声の認識率がほぼ完璧になれば、文字入力が断然早くなる。プロのキーパンチャーよりも、フリック入力名人の女子高生よりも、だれもが早く入力できるようになる。多くの人が音声入力を使うようになるのは間違いないだろう。
どの作業やサービスが、ボイスファーストに向いているのだろうか。ボイスファーストに向いているサービスの準備を始める、それが今、すべきことなのだと思う。
検索の主流が、画像と音声になる時代。その時代に向けてAmazonが、ボイスファーストのスマホOSや新しいモバイルデバイスを開発していたとしても、驚きはない。そのデバイスは、スマートグラスなどのウエアラブルデバイスのハブのような存在になるかもしれない。そうなれば今のスマホそのものが、ボイス時代にはそぐわない陳腐化したデバイスになり下がることだろう。
成功体験に溺れ、立ち止まるものは、駆逐される。20世紀には何十年かに一度の頻度で起こっていたような業界勢力図の変化が、21世紀には数年単位で繰り広げられるようになる。すごい時代になったものだ。
Newsweek日本版より転載
http://www.newsweekjapan.jp/