AI時代の業界勢力図を理解する方法として、大規模言語モデル(LLM)を基本ソフト(OS)としてとらえる考え方が一部で広まっている。米シリコンバレーの著名ベンチャー・キャピタルのSequoia Capitalのイベントに登壇したOpenAI共同創業者Andrej Karpathyがその考え方をベースにAI業界の現状を解説している。
パソコン時代のOSと言えば、MicrosoftのWindowsが圧倒的勝者。AppleのMacOS、オープンソースのLinuxは及ばずも健闘している。モバイル時代のOSは、AppleのiOSとGoogleのAndroidの2強。
一方AI時代はというと、Karpathy氏の言うようにAI時代のOSがLLMだとすれば、2024年3月現在ではAnthropicのClaude3を頂点として、OpenAIのGPT-4、GoogleのGeminiが先頭グループ。その後ろをInflection AIのLLM、MetaのLlama2、MstralのLLMなどが追いかけている感じだろうか。InflectionのCEOを含む主要経営陣がMicrosoftへ移籍するなど合従連衡が続いているが、AmazonがAnthropicへ追加投資したことで、OpenAI + Microsoft連合 vs Anthropic + Amazon連合 vs Googleという三つ巴の戦いになりそうな雲行きだ。それに加えてMetaやMistralなどのオープンソースの動きも気になるところだ。
一方でKarpathy氏によると、モバイル時代のアプリに相当するものがAI時代にはエージェントになるという。エージェントとは、プロンプト(命令)を与えられると、何をすべきかを自分で考えて計画し実行するAIツールのこと。ChatGPTに代表される今のAIツールは、言われた1つのタスクをこなすことしかできず、複雑なタスクを実行させるには、人間側でタスクを分解しなければならない。例えば「LLMに関する最新の論文を日本語に要約して」と命令したいのであれば、まずは「LLMに関する最新の論文を見つけてきて」とチャット型AIに命令し、次に見つけてきた論文を「要約して」と命令。次に要約されたものを「日本語に翻訳して」と命令しなければならない。こうしたステップを踏まなければ、求める答えが出てこない。
これがエージェントになれば、こうしたステップをAI自身が考えて順番に実行してくれるようになる。
単純な質疑応答にしても、今のチャット型AIだと、ある程度のクオリティの回答をすぐに返してくるのはすばらしいものの、内容が間違っていることもある。ところがエージェントになると、まずどんな答えを出すのか推敲し、次に関連するファクトを検索するようになる。集めたファクトをベースに回答文を執筆したあと、それを読み返して間違いをチェック。間違いがあれば修正して、最終回答を出す。こうしたプロセスを踏むことで、回答内容がより完璧なものになる。
こうしたエージェントの機能は、GPT-5などの次世代LLMの中には組み込まれるとみられているが、スタンフォード大学のAndrew Ng教授によると、今のLLMにもエージェントのプロセスを持たせることでかなりの精度の向上が見られるという。Ng教授はその手法についてX(旧twitter)などで詳しく解説し初めており、同教授の影響力を考えれば、今後エージェント機能の研究が急速に進歩ものとみられている。
モバイル時代のアプリは当初、スマホを傾ければ画面に映ったビールジョッキが傾いてビールが減っていく、というようなお遊びのようなものが多かった。
出典 https://play.google.com/store/apps/details?id=com.usefultools.beersimulator.ibeer&hl=ja&pli=1
しかしその後、UberやInstagramなど社会に大きな影響を与えるようなアプリが数多く登場した。
これからいろいろなエージェントが登場し、中には社会を激変させるようなものも出てくることだろう。まだ日本では頭角を表すようなエージェントは出ていないが、英語圏ではHarvey(法務)、Abridge(ヘルスケア領域の文書作成)、TaxGPT(税務関連)、Sierra(カスタマーサービス)、Devin(プログラミング)などといったエージェントが頭角を現し始めた。
今後はこうしたエージェントを活用し、社長だけが人間で従業員は全員AIといったような会社も登場するのかもしれない。