9.11と9.9ではどちらが大きいでしょうか?幼稚園児が答えられる質問にAIが答えます...

9.11と9.9ではどちらが大きいでしょうか?幼稚園児が答えられる質問にAIが答えます...

9.11と9.9ではどちらが大きいでしょうか?

人間の幼稚園児でも答えられるこの質問は、かつては(そして今でも)多くの大規模言語モデル(LLM)を困惑させてきました。

しかし、汎用人工知能(AGI)のレベルに到達するためには、LLMは「大きさの比較」などの単純な論理的推論だけでなく、「複雑なルールの理解と実行、多段階の計画」などのより難しい推論も完了させる必要があり、これがLLMエージェントと意思決定システムの中核機能です。

したがって、ルールベースの実装者および計画者としての LLM の役割を効果的に評価することが重要です。しかし、学界や産業界においてこの分野の研究はほとんど行われていません。

清華大学とZhipuの研究チームは、ルールの理解、実行、計画におけるLLMの能力を総合的に評価することを目的とした新しいベンチマークテスト「 LogicGame」を立ち上げました。まず評価結果を見てみましょう:

図|LogicGameの評価結果とサンプル表示。上の図は、実行および計画のカテゴリにおけるさまざまなモデルのパフォーマンスを示しています。下の図(左と右)は、それぞれ実行と計画のカテゴリーにおける 2 つのケース スタディです。

o1-preview と o-mini がはるかにリードしていることに加えて、上の図の赤い領域に示されているように、モデルの半分以上が 10% 未満のスコアを獲得していることもわかります。

この評価結果は、無視できない事実を明らかにしています。つまり、ほとんどの LLM にはルールベースの論理的推論に明らかな欠陥があるということです

「LogicGame: 大規模言語モデルのルールベース推論能力のベンチマーク」と題された関連研究論文が、プレプリントウェブサイト arXiv で公開されました。

従来のベンチマークとは異なり、LogicGame には、それぞれ初期状態ルールのセットを持つ多様なゲームのセットが含まれており、モデルはこれらの事前定義されたルールを理解するだけでなく、それらを適用して問題を解決することも必要です。さらに、LogicGame は最終結果と中間ステップの両方を考慮して、モデルのパフォーマンスを総合的に評価します。

研究結果によると、LogicGame は、さまざまな難易度のゲーム シナリオを設定することで、ルールの理解と複数ステップの実行および計画タスクにおけるモデルのパフォーマンスを正確に測定できることがわかりました。

LogicGame: 難易度「レベル4」のゲームシナリオ

ルールの遵守と推論の組み合わせは、現実世界の多くのタスクを達成するための鍵となります。しかし、既存のベンチマークではこれを十分に捉えられないことがよくあります。

このギャップを埋めるために、研究チームは広範な調査とクラウドソーシングを通じて新しい一連の質問を開発しました。研究者たちは、現実世界のタスクは、特定のルールに従ったり、決定を下したりする必要があるなど、ゲームと共通する特徴を持つことが多いため、これらのタスクは特定のゲームメカニクスに似ていることを発見しました。そのため、彼らはゲーミフィケーションのアプローチを採用し、ルールについて推論するモデルの能力を詳細に評価することができました

その中で、 LogicGame のデータ構築は次の 4 つの部分で構成されます

現実世界のシナリオからヒントを得た設計ルール推論問題。現実世界のタスクには、特定のルールに従って決定を下す必要があるなど、ゲームの特性が備わっていることが多いため、LogicGame はゲーミフィケーション アプローチを採用して、モデルのルール遵守能力と推論能力を評価します。

モデル出力が標準形式に準拠していることを確認するために、出力制約を開発します。正確な評価を容易にし、マッチング手順を簡素化するために、モデル応答は構造化された JSON 出力形式に従う必要があります。シングルステップの問題 (レベル 0) の場合、モデルは最終的な答えを出力するだけでよく、評価は答えの正確さのみに基づいて行われます。複数のステップまたはより複雑な推論を伴う質問 (レベル 1、2、3、および一部のレベル 0 の質問) の場合、回答とステップの両方が評価されます。

さまざまな難易度レベルを実装し、サンプル問題も含まれています。難易度は 4 レベルあり、単純なルールの適用から複雑な推論チェーンまで、モデルの推論能力の範囲を評価します。難易度の勾配は、関連するルールの複雑さと、解決策に到達するために必要な推論ステップの数によって決まります。

公平性と幅広い適用性を保証するために、LogicGame には中国語版と英語版の両方のベンチマークが含まれています。

下の図に示すように、各モデルは、入力プロンプトとして特定の問題に固有のルール セットを受け取り、対応する質問と、回答と手順を含む JSON 形式の出力制約も受け取ります。

図|LogicGameにおける分類・評価方法の説明。分類の図では、数学に関連するカテゴリが紫色で強調表示されています。

LogicGame の評価方法では、自動化されたアプローチを使用して、回答の正確さだけでなく、回答に至る手順の正確さも評価します。具体的には、モデルの回答精度 (A-Acc)、ステップ精度 (P-Acc)、回答ステップ精度 (AP-Acc) を評価します。

各質問の回答のスコアは、モデルの応答と参照回答を比較することによって決定されます。同様に、各問題ステップのスコアリングは、JSON 形式の制約で定義されているように、モデル ステップが参照ステップとどの程度一致しているかを評価することによって行われます。

A-Acc : このメトリックは、特定の質問に対するすべての回答の正確さを評価するために使用され、各回答に対してバイナリ評価 (0/1) を提供し、正しいかどうかを示します。

P-Acc : このメトリックは、提供されたステップと予想されるステップ間の文字レベルの類似性に基づいて一致の割合を測定し、ステップの正確性を評価します。レベル 0 の質問が、評価のための手順が提供されていない単一ステップの推論であるというまれなケースでは、採点時に手順の正確さが回答の正確さと同様に扱われます。

AP-Acc : この複合メトリックは、回答と手順の全体的な精度を評価します。回答精度とステップ精度を論理 AND 演算で組み合わせて合計スコアを算出します。

この評価方法は、モデルが推論のルールに従っていることを確認し、モデルの推論能力を総合的に評価します。

パフォーマンスはどうですか? OpenAI o1ははるかに先を行く

下図に示すように、中国語版、英語版を問わず、実行部門の最高難易度3では、 o1-previewとo1-miniが評価対象となった14機種のスコアを大きく引き離しており、国産機種のスコアは10を突破できず、0点も複数回出現した。計画部門の最高難易度レベル3でも、OpenAI o1の優位性は同じです。

図 | LogicGame の中国語版における 14 モデルの AP-Acc% パフォーマンス。

図 | LogicGame の英語版における 14 モデルの AP-Acc% パフォーマンス。

実行カテゴリでは、ショット数が増えるにつれてモデルの精度が大幅に向上します。具体的には、GPT-4o などのより強力なモデルでは、0 ショットから 1 ショット、2 ショットに切り替えるときに AP-Acc スコアが大幅に向上し、追加のコンテキスト情報をより有効に活用して実行精度を向上できることがわかります。

図|実行と計画のカテゴリーにおけるLogicGameの中国語版の少数サンプルの違い。

また、実行タスクでは、例を追加すると、実行タスク、特に単純なタスク (レベル 0) におけるモデルのパフォーマンスが一般的に向上することがわかります。

図|LogicGameの中国版の難易度別のショット差設定は上図のようになります。

ただし、1 ショット設定と 2 ショット設定は、難易度によってモデルに異なる影響を与えます。モデルはレベル 0 の例から最大の恩恵を受けますが、難易度が上がるにつれて例の影響は減少します。

計画タスクでは、例を追加すると、計画タスクにおけるモデルのパフォーマンスにさらに複雑な影響が及びます。一部のモデルでは、0 ショット設定から 1 ショット設定または 2 ショット設定に切り替えるとパフォーマンスが低下します。これは、追加のコンテキスト情報によってノイズが発生し、モデルによる重要な情報の理解が妨げられる可能性があることを示唆しています。一般的に、1 ショットはモデルに最も顕著な影響を与えますが、難易度が上がるにつれてその影響は徐々に弱まります。一方、2 ショットはより不安定で、明らかなパターンはありません。

あるケーススタディでは、 LLM のリバーシ ゲームでのパフォーマンスはほぼ「ひどい」ものでした。 OpenAI o1を除いて、他のモデルのスコアはほぼ0(に近い)であり、これはLLMが複雑なルールを処理し、多段階の推論を実行するのが依然として難しいことも示しています。

図 |パフォーマンスが最も低い 5 つのカテゴリの平均 AP-Acc% スコア。ヒートマップには、各カテゴリの平均 AP-ACC% スコアが表示されます。モデルは実行シナリオと計画シナリオの両方でパフォーマンスが低く、特に「リバーシ」では多くのモデルのスコアがゼロに近くなります。

図 |答えと手順を含むモデル出力付きのリバーシ ゲームの例。

研究チームはこの失敗を分析し、次の3つの理由を発見しました。

詳細の処理が不十分: たとえば、Claud 3.5 Sonnet モデルでは、ピースを配置したり、ピースを裏返したりするなどの詳細を正しく処理できなかったため、ルールを十分に理解していないことが示されました。

実行/計画ルールの理解不足: モデルはゲーム内のアクションを正しく実行または計画することができず、ゲームの仕組み (フリッピングなど) の理解に欠陥があることを示しています。

過度の変更: llama-3-8b-chat モデルはボードの状態に過度の変更を加えており、ゲームのルールの理解に明らかな偏りがあることを示しています。

LLMの推論能力はまだ改善の余地がある

本論文では、研究チームは、LLM のルールベース推論能力を評価するための新しいベンチマーク「LogicGame」を提案しました。このベンチマークには複数の難易度レベルが含まれており、モデルのルールの理解、これらのルールに基づく実行、および計画機能の評価に重点を置いています。

同時に、彼らは、モデルが単に答えを推測するのではなく、与えられたルールに忠実に従うことを保証するために、結果と推論プロセスを評価する方法も開発しました。

広範囲にわたる実験により、現在の大規模モデルはルールベースの推論タスクにおいて依然として重大な欠陥を示すことが示されています。

この点に関して、研究チームは、特に複雑なルールの理解、多段階の推論の実行、新しいルールの学習と適用において、LLM の推論能力はまだ改善する必要があると考えています。

LLM がルールをよりよく理解して実行するには、より効果的なトレーニング方法や新しい推論メカニズムの導入などを通じて、推論能力をさらに向上させる必要があります。

さらに、LLMの推論能力をより包括的に評価するためには、より効果的な評価方法を開発する必要がある。たとえば、より複雑なルールやより難しい推論タスクを導入するなどです。

一緒に戦いましょう!

あなたのビッグモデル論理的推論能力がどれだけ強いかを証明したいですか? LogicGameのレビューに参加して、国内外の多くの大型モデルと対戦してみてはいかがでしょうか。

研究チームは、LogicGame の英語版と中国語版におけるモデルのパフォーマンスを示すリーダーボードを GitHub で管理しています。ランキングは AP-Acc% に基づいています。主な評価指標は次のとおりです。

AP-Acc%(回答とステップの正確さ)

A-Acc%(正解率)

P-Acc%(ステップの正確さ)

IFError% (命令フォローエラー率)

JSError% (Json 形式出力エラー率)

図|LogicGame中国版における14の大型モデルのパフォーマンス

図|LogicGame英語版における14の大型モデルのパフォーマンス

では、LogicGame の英語版と中国語版でモデルを実行するにはどうすればよいでしょうか?

研究チームは、GitHub に表示するための開発データを保存し、Codabench (効率的で公平かつ統一された評価環境を提供するモデル評価専用のプラットフォーム) への送信に必要な入力データを提供しました。 zh_all ファイルと en_all ファイル (それぞれ中国語と英語のデータの完全なセットを表す) をダウンロードしモデルに入力してモデル応答を取得し、この応答を Codabench を送信する際の入力データとして使用して評価結果のフィードバックを取得できます。

<<:  ホテル:2014年中国人観光客海外旅行調査

>>:  Moxie: モバイルで買い物をする際に、ユーザーの 62% がオンライン チャット サービスを使用する必要がある

推薦する

抜け毛に効く食べ物

もともと髪は綺麗で太いのですが、なぜか束になって抜け落ちるようになりました。抜け毛を完全に治すにはど...

心臓は冬に最も弱くなります。冬を快適に過ごすにはどうすればいいでしょうか?

《綿棒の科学》中国医学科学院扶外病院心臓科 楊 静剛冬、心臓病、心臓を守る、突然死を防ぐ、暖かく保...

iOS 8/9 が Android からコピーした 11 の機能...

Apple はイノベーションに長けた企業ですが、他社のアイデアを模倣することにも躊躇しません。実際...

周期表の元素はどこから来たのでしょうか?

元素の旅は、ビッグバンの最初の瞬間、つまり宇宙が誕生してわずか数秒から数分のときに始まりました。ビッ...

フォルクスワーゲンとモービルアイが自動運転の実現に向け提携、来年には無人タクシーサービスを開始

10月30日、海外メディアは、フォルクスワーゲンとモービルアイがイスラエルでニューモビリティと呼ばれ...

関節炎は凍結によって引き起こされるわけではありませんが、それでもロングジョンを着用することをお勧めします

ゴシップ昔は、「お母さんはあなたが寒いと思っている」という種類の風邪や、「お母さんは、関節炎になるか...

オートミールの作り方

オートミールは健康維持に優れた食品であり、減量効果もあります。オートミールと米を一緒に調理すると、味...

豚バラ肉の調理方法

豚バラ肉は脂っこくてそのまま食べるのは難しいことは誰もが知っていますが、いくつかの方法で豚バラ肉の脂...

ニンニクの芽の栄養価

ニンニクの芽は、ニンニクの芽入り肉の炒め物、ニンニクの芽入りベーコンの炒め物、ニンニクの芽入り牛肉粥...

BMW、燃料入口パイプの問題により輸入M760Liの一部をリコール

中国国家品質監督検査検疫総局不良製品管理センターによると、BMWはリコール計画を中国国家品質監督検査...

今日、もう一度 81192 に電話してください!

「81192に電話してくださいデッキはクリア、空域もクリア着陸可能すぐに戻ってきてください! ”毎...

本格まぜそばの作り方

誰もが有名なミックス麺について聞いたことがあるはずです。ミックス麺は最も一般的なタイプのパスタです。...

ピーイエローとは何ですか?

ピーイエローは特別なおやつで、栄養価が非常に豊富です。大豆製品から作られた食品には非常に高いタンパク...

宇宙飛行士にとって、宇宙で野菜を育てることの利点は何ですか?新鮮なものを食べられるだけではありません!

地球外環境で人類が生存するために必要な食料、酸素、純水を確保するために植物をどのように利用するかは、...