9.11と9.9ではどちらが大きいでしょうか？幼稚園児が答えられる質問にAIが答えます...

9.11と9.9ではどちらが大きいでしょうか？

人間の幼稚園児でも答えられるこの質問は、かつては（そして今でも）多くの大規模言語モデル（LLM）を困惑させてきました。

しかし、汎用人工知能（AGI）のレベルに到達するためには、LLMは「大きさの比較」などの単純な論理的推論だけでなく、「複雑なルールの理解と実行、多段階の計画」などのより難しい推論も完了させる必要があり、これがLLMエージェントと意思決定システムの中核機能です。

したがって、ルールベースの実装者および計画者としての LLM の役割を効果的に評価することが重要です。しかし、学界や産業界においてこの分野の研究はほとんど行われていません。

清華大学とZhipuの研究チームは、ルールの理解、実行、計画におけるLLMの能力を総合的に評価することを目的とした新しいベンチマークテスト「 LogicGame」を立ち上げました。まず評価結果を見てみましょう:

図｜LogicGameの評価結果とサンプル表示。上の図は、実行および計画のカテゴリにおけるさまざまなモデルのパフォーマンスを示しています。下の図（左と右）は、それぞれ実行と計画のカテゴリーにおける 2 つのケーススタディです。

o1-preview と o-mini がはるかにリードしていることに加えて、上の図の赤い領域に示されているように、モデルの半分以上が 10% 未満のスコアを獲得していることもわかります。

この評価結果は、無視できない事実を明らかにしています。つまり、ほとんどの LLM にはルールベースの論理的推論に明らかな欠陥があるということです。

「LogicGame: 大規模言語モデルのルールベース推論能力のベンチマーク」と題された関連研究論文が、プレプリントウェブサイト arXiv で公開されました。

従来のベンチマークとは異なり、LogicGame には、それぞれ初期状態ルールのセットを持つ多様なゲームのセットが含まれており、モデルはこれらの事前定義されたルールを理解するだけでなく、それらを適用して問題を解決することも必要です。さらに、LogicGame は最終結果と中間ステップの両方を考慮して、モデルのパフォーマンスを総合的に評価します。

研究結果によると、LogicGame は、さまざまな難易度のゲームシナリオを設定することで、ルールの理解と複数ステップの実行および計画タスクにおけるモデルのパフォーマンスを正確に測定できることがわかりました。

LogicGame: 難易度「レベル4」のゲームシナリオ

ルールの遵守と推論の組み合わせは、現実世界の多くのタスクを達成するための鍵となります。しかし、既存のベンチマークではこれを十分に捉えられないことがよくあります。

このギャップを埋めるために、研究チームは広範な調査とクラウドソーシングを通じて新しい一連の質問を開発しました。研究者たちは、現実世界のタスクは、特定のルールに従ったり、決定を下したりする必要があるなど、ゲームと共通する特徴を持つことが多いため、これらのタスクは特定のゲームメカニクスに似ていることを発見しました。そのため、彼らはゲーミフィケーションのアプローチを採用し、ルールについて推論するモデルの能力を詳細に評価することができました。

その中で、 LogicGame のデータ構築は次の 4 つの部分で構成されます。

現実世界のシナリオからヒントを得た設計ルール推論問題。現実世界のタスクには、特定のルールに従って決定を下す必要があるなど、ゲームの特性が備わっていることが多いため、LogicGame はゲーミフィケーションアプローチを採用して、モデルのルール遵守能力と推論能力を評価します。

モデル出力が標準形式に準拠していることを確認するために、出力制約を開発します。正確な評価を容易にし、マッチング手順を簡素化するために、モデル応答は構造化された JSON 出力形式に従う必要があります。シングルステップの問題 (レベル 0) の場合、モデルは最終的な答えを出力するだけでよく、評価は答えの正確さのみに基づいて行われます。複数のステップまたはより複雑な推論を伴う質問 (レベル 1、2、3、および一部のレベル 0 の質問) の場合、回答とステップの両方が評価されます。

さまざまな難易度レベルを実装し、サンプル問題も含まれています。難易度は 4 レベルあり、単純なルールの適用から複雑な推論チェーンまで、モデルの推論能力の範囲を評価します。難易度の勾配は、関連するルールの複雑さと、解決策に到達するために必要な推論ステップの数によって決まります。

公平性と幅広い適用性を保証するために、LogicGame には中国語版と英語版の両方のベンチマークが含まれています。

下の図に示すように、各モデルは、入力プロンプトとして特定の問題に固有のルールセットを受け取り、対応する質問と、回答と手順を含む JSON 形式の出力制約も受け取ります。

図｜LogicGameにおける分類・評価方法の説明。分類の図では、数学に関連するカテゴリが紫色で強調表示されています。

LogicGame の評価方法では、自動化されたアプローチを使用して、回答の正確さだけでなく、回答に至る手順の正確さも評価します。具体的には、モデルの回答精度 (A-Acc)、ステップ精度 (P-Acc)、回答ステップ精度 (AP-Acc) を評価します。

各質問の回答のスコアは、モデルの応答と参照回答を比較することによって決定されます。同様に、各問題ステップのスコアリングは、JSON 形式の制約で定義されているように、モデルステップが参照ステップとどの程度一致しているかを評価することによって行われます。

A-Acc : このメトリックは、特定の質問に対するすべての回答の正確さを評価するために使用され、各回答に対してバイナリ評価 (0/1) を提供し、正しいかどうかを示します。

P-Acc : このメトリックは、提供されたステップと予想されるステップ間の文字レベルの類似性に基づいて一致の割合を測定し、ステップの正確性を評価します。レベル 0 の質問が、評価のための手順が提供されていない単一ステップの推論であるというまれなケースでは、採点時に手順の正確さが回答の正確さと同様に扱われます。

AP-Acc : この複合メトリックは、回答と手順の全体的な精度を評価します。回答精度とステップ精度を論理 AND 演算で組み合わせて合計スコアを算出します。

この評価方法は、モデルが推論のルールに従っていることを確認し、モデルの推論能力を総合的に評価します。

パフォーマンスはどうですか？ OpenAI o1ははるかに先を行く

下図に示すように、中国語版、英語版を問わず、実行部門の最高難易度3では、 o1-previewとo1-miniが評価対象となった14機種のスコアを大きく引き離しており、国産機種のスコアは10を突破できず、0点も複数回出現した。計画部門の最高難易度レベル3でも、OpenAI o1の優位性は同じです。

図 | LogicGame の中国語版における 14 モデルの AP-Acc% パフォーマンス。

図 | LogicGame の英語版における 14 モデルの AP-Acc% パフォーマンス。

実行カテゴリでは、ショット数が増えるにつれてモデルの精度が大幅に向上します。具体的には、GPT-4o などのより強力なモデルでは、0 ショットから 1 ショット、2 ショットに切り替えるときに AP-Acc スコアが大幅に向上し、追加のコンテキスト情報をより有効に活用して実行精度を向上できることがわかります。

図｜実行と計画のカテゴリーにおけるLogicGameの中国語版の少数サンプルの違い。

また、実行タスクでは、例を追加すると、実行タスク、特に単純なタスク (レベル 0) におけるモデルのパフォーマンスが一般的に向上することがわかります。

図｜LogicGameの中国版の難易度別のショット差設定は上図のようになります。

ただし、1 ショット設定と 2 ショット設定は、難易度によってモデルに異なる影響を与えます。モデルはレベル 0 の例から最大の恩恵を受けますが、難易度が上がるにつれて例の影響は減少します。

計画タスクでは、例を追加すると、計画タスクにおけるモデルのパフォーマンスにさらに複雑な影響が及びます。一部のモデルでは、0 ショット設定から 1 ショット設定または 2 ショット設定に切り替えるとパフォーマンスが低下します。これは、追加のコンテキスト情報によってノイズが発生し、モデルによる重要な情報の理解が妨げられる可能性があることを示唆しています。一般的に、1 ショットはモデルに最も顕著な影響を与えますが、難易度が上がるにつれてその影響は徐々に弱まります。一方、2 ショットはより不安定で、明らかなパターンはありません。

あるケーススタディでは、 LLM のリバーシゲームでのパフォーマンスはほぼ「ひどい」ものでした。 OpenAI o1を除いて、他のモデルのスコアはほぼ0（に近い）であり、これはLLMが複雑なルールを処理し、多段階の推論を実行するのが依然として難しいことも示しています。

図 |パフォーマンスが最も低い 5 つのカテゴリの平均 AP-Acc% スコア。ヒートマップには、各カテゴリの平均 AP-ACC% スコアが表示されます。モデルは実行シナリオと計画シナリオの両方でパフォーマンスが低く、特に「リバーシ」では多くのモデルのスコアがゼロに近くなります。

図 |答えと手順を含むモデル出力付きのリバーシゲームの例。

研究チームはこの失敗を分析し、次の3つの理由を発見しました。

詳細の処理が不十分: たとえば、Claud 3.5 Sonnet モデルでは、ピースを配置したり、ピースを裏返したりするなどの詳細を正しく処理できなかったため、ルールを十分に理解していないことが示されました。

実行/計画ルールの理解不足: モデルはゲーム内のアクションを正しく実行または計画することができず、ゲームの仕組み (フリッピングなど) の理解に欠陥があることを示しています。

過度の変更: llama-3-8b-chat モデルはボードの状態に過度の変更を加えており、ゲームのルールの理解に明らかな偏りがあることを示しています。

LLMの推論能力はまだ改善の余地がある

本論文では、研究チームは、LLM のルールベース推論能力を評価するための新しいベンチマーク「LogicGame」を提案しました。このベンチマークには複数の難易度レベルが含まれており、モデルのルールの理解、これらのルールに基づく実行、および計画機能の評価に重点を置いています。

同時に、彼らは、モデルが単に答えを推測するのではなく、与えられたルールに忠実に従うことを保証するために、結果と推論プロセスを評価する方法も開発しました。

広範囲にわたる実験により、現在の大規模モデルはルールベースの推論タスクにおいて依然として重大な欠陥を示すことが示されています。

この点に関して、研究チームは、特に複雑なルールの理解、多段階の推論の実行、新しいルールの学習と適用において、LLM の推論能力はまだ改善する必要があると考えています。

LLM がルールをよりよく理解して実行するには、より効果的なトレーニング方法や新しい推論メカニズムの導入などを通じて、推論能力をさらに向上させる必要があります。

さらに、LLMの推論能力をより包括的に評価するためには、より効果的な評価方法を開発する必要がある。たとえば、より複雑なルールやより難しい推論タスクを導入するなどです。

一緒に戦いましょう！

あなたのビッグモデル論理的推論能力がどれだけ強いかを証明したいですか? LogicGameのレビューに参加して、国内外の多くの大型モデルと対戦してみてはいかがでしょうか。

研究チームは、LogicGame の英語版と中国語版におけるモデルのパフォーマンスを示すリーダーボードを GitHub で管理しています。ランキングは AP-Acc% に基づいています。主な評価指標は次のとおりです。

AP-Acc%（回答とステップの正確さ）

A-Acc%（正解率）

P-Acc%（ステップの正確さ）

IFError% (命令フォローエラー率)

JSError% (Json 形式出力エラー率)

図｜LogicGame中国版における14の大型モデルのパフォーマンス

図｜LogicGame英語版における14の大型モデルのパフォーマンス

では、LogicGame の英語版と中国語版でモデルを実行するにはどうすればよいでしょうか?

研究チームは、GitHub に表示するための開発データを保存し、Codabench (効率的で公平かつ統一された評価環境を提供するモデル評価専用のプラットフォーム) への送信に必要な入力データを提供しました。 zh_all ファイルと en_all ファイル (それぞれ中国語と英語のデータの完全なセットを表す) をダウンロードし、モデルに入力してモデル応答を取得し、この応答を Codabench を送信する際の入力データとして使用して評価結果のフィードバックを取得できます。

<<: ホテル：2014年中国人観光客海外旅行調査

>>: Moxie: モバイルで買い物をする際に、ユーザーの 62% がオンラインチャットサービスを使用する必要がある