もう一つの大きな前進！ OpenAI o1 が登場しました。複雑な問題をどのように解決するのでしょうか?

制作：中国科学普及協会

著者: 王陳 (中国科学院コンピューティング技術研究所博士課程候補者)

プロデューサー: 中国科学博覧会

編集者注：中国科学普及の最先端技術プロジェクトは、インテリジェント技術の最新動向を紹介するために、「人工知能」に関する一連の記事を立ち上げ、人工知能の最先端の進歩を垣間見ることができ、さまざまな懸念や好奇心に応えています。一緒に探究し、インテリジェントな時代を受け入れていきましょう。

過去 2 年間で、OpenAI の ChatGPT は世界中で爆発的に普及しました。誰もが GPT-5 のリリースを待ち望んでいたちょうどその頃、9 月 13 日の早朝、OpenAI は複雑な問題の解決に特化した新しい推論モデルである OpenAI o1 をリリースしました。

（画像出典：OpenAI公式サイト）

競争ランキングから見たOpenAI o1の強さ

今月初め、OpenAIのCEOサム・アルトマン氏は、自宅の庭で育っているイチゴの写真を投稿した。その後、事情に詳しい関係者によると、OpenAIはコード名「ストロベリー」の新しいAIモデルをリリースする予定だという。

ストロベリーモデルの前身は Q* であり、これは Q 学習と A* 検索という 2 つのよく知られた人工知能手法を組み合わせたものであることを意味します。 Q* の能力があまりにも強力であるため、研究者たちはそれが人類に潜在的な脅威をもたらすのではないかと懸念しており、これが OpenAI における以前の内部混乱の主な原因の 1 つであったと言われています。

サム・アルトマンが投稿したイチゴの写真

（画像出典：サム・アルトマンのX（twitter）アカウント）

OpenAI がリリースした OpenAI o1 モデルは、Strawberry モデルです。複雑な推論問題における重要な進歩により、OpenAI は再び 1 からカウントを開始し、新しいモデルを OpenAI o1 と名付けました。 OpenAIが公開した情報によると、OpenAI o1は人間と同じように質問に答える前により多くの時間をかけて考えることができるという。したがって、o1 モデルは、科学、プログラミング、数学におけるより難しい問題を、これまでよりも推論を通じて解決できるようになります。

OpenAI o1は、OpenAIの以前の最新モデルGPT-4oと比較して、数学コンテスト、プログラミングコンテスト、PhDベンチマークの科学的問題で大幅な改善を達成し、複雑な推論タスクにおける強力な能力を実証しました。プログラミングコンテスト (Codeforces) では 89 パーセンタイルにランクされ、アメリカ数学オリンピック (AIME) では米国のトップ 500 にランクインし、物理学、生物学、化学のベンチマーク問題 (GPQA) の解答では人間の博士号取得者を超えています。

数学、プログラミング、科学問題における OpenAI o1 と GPT-4o の比較

（画像出典：OpenAI公式サイト）

OpenAI o1 の秘密兵器: 思考連鎖に基づく強化学習

OpenAI o1がGPT-4oをはるかに上回る推論能力を実現できる理由は、Chain of Thoughtに基づく強化学習を採用しているからです。人間が難しい質問に答える前に長い間考えるのと同じように、OpenAI o1 も問題を解決しようとするときに思考の連鎖を使用します。思考連鎖を通じて、モデルはタスクをより単純なステップに分解し、それらを 1 つずつ解決します。これは通常、モデルに問題の答えを直接出力するように要求するよりも正確です。

実際のところ、思考連鎖は新しい概念ではありません。 GPT-3 がリリースされるずっと前から、研究者たちは思考連鎖によって大規模な言語モデルを推論に導くことができることを発見していました。

大規模言語モデルにおける思考連鎖の使用例

（画像出典：参考文献2より翻訳）

上の図の例には、大規模な言語モデルの入力と出力の 2 セットがあります。入力では、最初にテニスボールの数を数えることに関する質問と回答がモデルに与えられ、次にリンゴの数を数えるための同様の質問がモデルに行われます。

下の左側は、モデルが誤った回答をした直接の質問と回答です。下の右側は思考連鎖を使った質疑応答です。研究者らは、モデルに入力されたテニスボールの数に関する質問と回答を補足し、テニスボールの数を取得する推論プロセスをモデルに示し、次にモデルにリンゴの数を答えるように求めました。

今回、モデルは推論を通じてリンゴの数を正しく計算しました。問題を生成する際に一連の中間推論ステップを通じてモデルを導くこの方法は、思考連鎖と呼ばれます。大規模言語モデルは、思考チェーンを通じて、問題を解決する際の推論手順を詳細かつ直感的に表示できます。これにより、大規模言語モデルの推論問題の解決精度が向上するだけでなく、大規模言語モデルの回答が説明可能になり、完全なブラックボックスではなくなります。

GPT-3 のリリース後、人々はこのプロンプトの重要性をさらに発見しました。より強力な機能を備えた大規模な言語モデルの場合、質問するときに、上記のようなテニスボールを数える例を挙げる必要さえありません。複雑な推論問題を処理するモデルの能力を向上させるには、モデルに「ステップごとに考えてみましょう」と指示するだけで済みます。

上記の試みはすべて、モデルに質問するときにガイダンスを追加します。思考の連鎖がそれほど有用であるならば、モデルの構築とトレーニング中にモデル内で思考の連鎖を固めることは可能でしょうか?これが OpenAI o1 が試みたことです。

OpenAI o1 の強化学習と新しいスケーリング法則

質問に答えるとき、GPT モデルは基本的に「テキストチェーン」を実行します。トレーニング中に大量の統計的確率データを基にモデルの入力に対してどのような回答が最も適切であるかを推定します。

大規模言語モデルが、確率に基づいて継続するのではなく、思考連鎖の使い方を学習できるようにするために、OpenAI o1 は強化学習と呼ばれる機械学習手法を使用しました。

強化学習とは、モデルが「試行錯誤」方式で学習することを意味します。トレーニングプロセス中、モデルには標準的な結果が伝えられるのではなく、結果がどの程度良いか悪いかが伝えられます。モデルの結果が正しい場合、モデルは将来の出力にその結果を採用する傾向があります。モデルの結果が間違っている場合、将来の出力ではその結果を回避する傾向があります。何度も試行錯誤を繰り返した後、モデルは自身の経験に基づいて一連の判断基準を学習します。

強化学習は標準的な答えを出さない学習方法であり、ロボット制御、金融取引、チェスゲームなどの複雑な環境における意思決定問題に適しています。これらの分野では、標準的な意味での正しい答えを出すことはできず、行動の結果しか知ることができないことがよくあります。たとえば、ロボットが倒れるかどうか、金融取引が利益を生むかどうか、ゲームに勝つかどうかなどです。

強化学習の有名な例としては、2016年にDeepmind社が開発した囲碁AI「AlphaGo」が挙げられます。囲碁の分野では、起こり得る状況の総数は、観測可能な宇宙に存在する原子の総数を超えています。トップクラスの囲碁プレイヤーでさえ、どんな状況でも最善の手を判断できるわけではありません。囲碁は非常に複雑なため、網羅的な列挙を通じて最適なプレイ方法を見つけることは不可能です。 AlphaGo が登場する前は、人工知能が囲碁で人間に勝つことは不可能だと人々は信じていました。

AlphaGo は強化学習を使用してトレーニングされており、自分自身とチェスをプレイし、勝ったゲームと負けたゲームから学習します。どの動きが正しいかを人間に教える必要はなく、過去の人間のチェスの記録を学ぶ必要もありません。わずか数日間のトレーニングで、人間のチェスプレイヤーが夢にも思わないレベルに到達しました。

AlphaGo の意思決定プロセスでは、まず状況を大まかに評価し、どこで手を打てば勝つ可能性が高いかを決定します。この感覚や直感は、人間によってチェスセンスと呼ばれることが多いです。 AlphaGo は、どの手が有利になる可能性が高いかを大まかに判断した後、これらのさまざまな手の後続の可能性をさらに計算し、最適な手を選択します。

したがって、AlphaGo の強さに影響を与える主な要因は、状況を判断する能力と、可能な動きを計算するために必要な計算量の 2 つです。その中で、モデルの強化学習プロセスは、モデルの状況判断能力を高めることができます。

AlphaGoの自己対戦

（画像出典：参考1）

OpenAI o1 のトレーニング中、強化学習を通じて、OpenAI o1 は思考チェーンを磨き、使用する戦略を改善することを学びました。難しい問題をより単純なステップに分解し、分析プロセス中にエラーを認識して修正することを学習しました。このプロセスにより、モデルの推論機能が大幅に向上します。

思考チェーンの使い方を学習した後、OpenAI o1 の入力では、思考チェーンを使用するために人間の指示は不要になりました。代わりに、OpenAI は、OpenAI o1 を使用するときはプロンプトをシンプルかつ直接的に保ち、思考連鎖プロンプトを避けることを推奨しています。

研究者らは、OpenAI o1のテストで、強化学習のトレーニング時間を増やし、推論中に思考時間を長くすると、モデルのパフォーマンスが向上することを発見した。これは、前述のAlphaGoの強さに影響を与える要因と一致している。

OpenAI o1 のスケーリング法則

(画像出典: OpenAI)

2020年、OpenAIの研究者は大規模言語モデルのスケーリング法則を発見しました。大規模言語モデルのパフォーマンスは、モデルサイズ、トレーニングセットサイズ、およびトレーニング中の計算量の増加とともに向上します。

OpenAI o1 は新しいスケーリング法則を実証します。モデルのパフォーマンス向上の点では、推論時間を増やしてモデルのパフォーマンスを向上させることも可能であり、これは将来の大規模言語モデルのさらなる開発に新たな可能性をもたらします。

OpenAI o1 シリーズには現在、o1、o1-preview、o1-mini の 3 つのモデルが含まれています。モデルにはさまざまなサイズがあり、o1 は最も大きく推論能力が最も強力で、o1-mini は最も小さいですが、使用時のコストは少なくなります。彼らの数学コンテストでの成績は下の図に示されています。 o1-mini は数学のコンテストでは o1-preview よりも優れたパフォーマンスを発揮しますが、STEM (科学、技術、工学、数学) 以外の知識を必要とする他のタスクではパフォーマンスが低下します。同時に、推論時間が長くなるにつれて、3 つのモデルのパフォーマンスが向上します。

数学コンテストにおける OpenAI o1 モデルのさまざまなバージョンのパフォーマンス

(画像出典: OpenAI)

OpenAI o1 はさらなる安全性の問題をもたらすでしょうか?

OpenAI の o1 モデルの画期的な進歩により、大規模言語モデルの機能がさらに強化されたことは間違いありません。 OpenAI はかつて、汎用人工知能 (AGI) を構築するための 5 つの段階を提案しました。第一段階は人間とコミュニケーションできる人工知能を実現することであり、第二段階は推論能力を備えた人工知能を実現することです。 ChatGPT は第 1 段階の目標を達成し、OpenAI o1 の出現により、第 2 段階に一歩近づきました。

OpenAI o1 は強力な推論能力を発揮しますが、研究者が Q* を懸念しているのと同じように、OpenAI o1 がさらなるセキュリティ問題をもたらすのではないかと疑問に思わざるを得ません。

OpenAIのレポートでは、MindChainがモデルのセキュリティを向上させる新たな機会を提供していると指摘されている。トレーニングプロセス中に、人間の価値観をモデルの思考チェーンに統合して、モデルが有害な行動を拒否できるようにします。同時に、思考チェーンによりモデルの思考を明確に観察できるため、モデルのセキュリティが強化されます。

未来は想像を超えるかもしれない

現在、OpenAI o1のプレビュー版とミニ版がユーザーに提供されており、閲覧、ファイルや画像のアップロードなどの実用的な機能は今後追加される予定です。実際のシナリオでそれがどの程度効果的であるかは、さらに経験してテストする必要があります。全体として、OpenAI o1 の推論能力における重要な進歩は、私たちが汎用人工知能に一歩近づいたことを意味するのかもしれません。人工知能は将来どこへ向かうのか、そして人類社会の利益にさらに貢献できるのか？引き続き楽しみにしていましょう。

参考文献:

1.Silver、D.、Schrittwieser、J.、Simonyan、K. 他。人間の知識なしに囲碁のゲームをマスターする。ネイチャー550、354–359（2017）。 https://doi.org/10.1038/nature24270

2.https://proceedings.neurips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html

<<: この手袋をはめて触ると亜硝酸塩の含有量が基準を超えているかどうか肉眼でわかるんですか？

>>: 唐辛子を食べると寿命が延びるのでしょうか？辛いもの好きの方はご注意を→