OpenAIの新モデル『o1』がリリースされたことで、AIは『チャットボットの時代』から『論理的思考の時代』に進化したと言われる。AIが『論理的に思考する』とは、どういうことなのだろう。それは、どのような仕組みのことなのだろうか。専門家向け解説は存在するのかもしれないが、一般的なビジネスマンにも分かりやすい解説を見たことがない。どれだけ分かりやすく解説できるのか、挑戦してみることにした。
o1の論理的思考の専門的な解説によると、思考の連鎖(Chain of Thought)と強化学習の組み合わせだという。思考の連鎖とは、AIが問題を解く過程で一連の論理的なステップを踏むことを指す。この仕組みを使うことで、AIは複雑な問題を一度に全て解こうとするのではなく、少しずつ分けて考えることができる。まるで人間が大きな課題に直面したとき、まずそれをいくつかの小さな部分に分割し、それぞれの部分に取り組むようなものだ。こうしたステップバイステップのプロセスによって、AIはより精度の高い回答を導き出すことができる。例えば、人間でも数学の問題を解く際に、最初にどういった手順で解くのかを決め、その手順に従って順番に計算していき、最終的な回答に辿り着く。o1も同様にまず問題を小さな部分に分けて考え、各ステップで適切な計算を行い、最終的に正しい答えに到達することができる。数学以外の問いについても、複雑な課題を一度に解決しようとするのではなく、段階的に取り組むことで、精度と効率を向上させている。
また、o1では強化学習も重要な役割を果たしている。強化学習とは、AIが「試行錯誤」を通じて学ぶ方法だ。具体的には、AIがさまざまな行動をとり、その結果に応じて報酬を得ることで、最適な行動を見つけていくプロセスだ。例えば、ゲームをプレイするAIが、勝つための最善の動きを学ぶために何度もプレイし、勝利につながる行動に報酬を与えられることで、どのようにプレイすれば良いかを学んでいくようなものだ。勝つ方法を誰かに教えてもらうのではなく、自分で何回も試行錯誤しながらながら学んでいくというやり方だ。AIも勝つ方法を人間に教えてもらったほうが効果的に学習できるのだが、AIが自分で試行錯誤することで人間に思い付かなかった方法を編み出すことがある。Google DeepMindのAlphaGOが韓国の碁の名人イ・セドル氏に勝てたのは、強化学習の結果、名人でさえ思い付かない打ち手を思いついたからだ。
この強化学習で重要なのが「Q関数」と呼ばれる概念だ。Q関数は、特定の状況においてどの行動がどれだけの報酬を得られるかを評価するもので、AIが意思決定を行う際の指針となる。Q関数は、強化学習の過程で徐々に更新され、最適な行動を選べるように学習されていく。具体的には、AIがある行動を取った後、その行動がどれだけの報酬をもたらしたかを観測し、その結果をもとにQ関数の値を更新していく。このプロセスを何度も繰り返すことで、AIは最適な行動を学習し、効率的に問題を解決できるようになるのだ。
これをもう少し具体的に説明すると、例えば迷路を解くAIを考えてみよう。AIがある場所にいて、どの方向に進むべきかを決めるとする。このとき、Q関数は各方向に進んだときに得られる「報酬」、つまりゴールに近づく度合いを数値化して評価する。AIはこのQ関数を使って、どの方向に進むのが最も良い選択かを判断するのだ。o1では、このQ関数を使ってAIがどのような行動を取るべきかを効率的に学ぶことができるようにしている。
そして、o1のもう一つの特徴の1つは、推論時にもステップバイステップで問題を解決しようとするところだ。ちなみにAIの計算処理には「学習」と「推論」の二種類がある。
「学習」とは、AIがデータを使って知識を獲得するプロセスだ。例えば、たくさんの例題を使ってパターンやルールを見つけ出し、問題を解決する方法を学ぶことを指す。これは、人間が何度も練習問題を解いて数学の解き方を身につけることと似ている。AIはこの学習プロセスを通して、自分が取るべき最適な行動を見つけ出す。
一方で、「推論」とは、学習で得た知識をもとに新しい問題に対して答えを導き出すプロセスだ。つまり、学習で得たルールやパターンを使って、実際に問題に対する答えを出すことだ。学期末テストに向けて1、2週間ほど前から勉強するのが「学習」だとすれば、実際に学校で学期末てテストを受けるのが「推論」になる。
これまでのAIは、「学習」に大量の計算資源(半導体の質と量)と時間をかけ、「推論」の計算は一瞬だった。質問すれば、すぐに答えてくれた。直感的というか、知ってることをそのまま教えてくれるという感じ。その場で考えている感じではない。
o1では、推論に数秒から十数秒の時間をかける。そこでもステップバイステップの思考の連鎖が行われているわけだ。チェスや将棋に例えると、o1はじっくり考えてからコマを動かす。そんな感じだ。推論時に時間をかけることで、より論理的で深い答えを導き出しているわけだ。
o1の登場により、AIは情報提供の枠を超え、実際に考え、意思決定を支援するパートナーとしての可能性を持つようになった。また推論時に計算資源と時間をかけることでAIのさらなる進化が期待されるようになった。o1がAI進化の新しいパラダイムを拓いた可能性がありそうだ。