AIエージェントという言葉がビジネスパーソンの間でも語られるようになってきた。業界内でもその定義はまだ確立されていないようだが、現状では「高機能チャットボット」と理解しておくと分かりやすいだろう。多くのビジネスシーンで、AIエージェントが新たなソリューションとして注目を集めつつある。
スタンフォード大学のAndrew Ng教授によれば、AIエージェントの基礎技術には「Reflection(見直し)」、「Tool Use(ツール使用)」、「Planning(計画)」、「Multiagent(マルチエージェント)」の4つがあるという。これらの技術は過去1年間で大きく進化し、「1年前にはこうした技術は存在しなかったが、今ではこれら4つを活用してさまざまなことが可能になっている」と教授は語っている。
従来のAIは「ゼロ・ショット」と呼ばれる手法を用い、質問に対して反射的に回答するのが主流だった。例えば「エッセイを書いて」と命令すると、そのまま文章を書き始め、すぐに終了するというスタイルだ。しかし、AIエージェントはこれとは異なる。まずゼロ・ショットで答えを生成するものの、それをすぐにユーザーに見せるのではなく、自分で見直し、修正を加える。そして、改良した答えをさらに読み直して修正を繰り返す。この反復的なプロセスを通じて、回答の精度をどんどん向上させていく。最終的に精度がこれ以上向上しないと判断した時点で、ユーザーに答えを表示する。このプロセスが「Reflection(見直し)」と呼ばれる技術であり、このReflectionのループを加えることで、AIエージェントは従来のAIを超える精度を実現することが可能となる。\
\
Tool Use(ツール使用)は、検索エンジンなどの各種ツールや、各種データベース、各種ウェブサービスを利用する技術のこと。ツールやデータベース、ウェブサービスの中には、APIと呼ばれるプログラムの窓口を設定しているものが多く、そうした窓口を使ってツールやデータベース、データベース、サービスを操作する技術だ。例えば公の情報はネット上の検索エンジンを使って検索できるし、社内データベースがAPIを設定していれば社内のデータも検索できる。消費者からの返品の要請にもAPIを通じて社内システムに入ることで、返品手続きが可能になる。メールのAPIを通じてメールの内容を要約し、返事を書き、打ち合わせの日時が決まればカレンダーのAPIを通じてカレンダーに打ち合わせの予定を書き込める。こうしたタスクをAIエージェントが自動でこなしてくれるようになるわけだ。\
\
Planning(計画)は、複雑な命令に対して、どういうツールを使ってどういう順番でタスクをこなしていくのかをAIが自分で考える技術。例えば「この写真に写っている男の子と同じようなポーズで本を読んでいる女の子の写真を生成して。生成できたら、その写真に何が写っているのか音声で説明して」というプロンプトをAIエージェントに投げてみよう。AIエージェントはまず、OpenPoseというAIモデルを使って、アップされた参考写真の男の子のポーズを理解する。次にGoogle/VITモデルで、男の子のポーズと同じようなポーズで本を読んでいる女の子の写真を生成する。次にViT-GPT2モデルを使って、写真に何が写っているのかを説明するテキスト文章を生成する。最後にfastspeechモデルを使って、そのテキストを音声に変換する。このようにどういう手順でタスクを実行するのかを考える技術がPlanning(計画)になる。\
\
Multiagent(マルチエージェント)は、上に挙げたようなすべてのプロセスがまさにそうで、何をするのか計画するAIモデルが、複数のAIモデルに命令することで、ユーザーの要望に応える技術のことだ。上の例では、異なるAIモデルを呼び出してコラボしているが、一つのAIモデルが自分の中にエージェントをいくつも作って共同作業をさせることもできる。まるでAIモデルが多重人格になるようなものだ。AIモデルが単純に自分ですべての行程を実行するのではなく、別人格をいくつも作ってコラボさせるほうが、精度が大幅に向上するようだ。\
\
Ng教授によると、こうした技術の進化で新しくできることが次々と生まれているようで、同教授は「AIエージェントこそがAIの最大のビジネスチャンスだ」と語っている。\
\
\