大規模言語モデルは便利ですが、推論を含む AI の基本的な問題を解決することはできません。 著者: Wang Pei (米国テンプル大学コンピューターサイエンス学部) ChatGPTが2年前に登場して以来、さまざまな大規模言語モデルが人々の認識を何度も刷新し、「汎用人工知能がやってくる」という言葉さえも狂人の戯言から決まり文句に変わり、「衝撃的な」タイトルとして使うにはもはや不十分になった。絶えず変化するこの世界に慣れている人でも、まるで別の世界にいるかのような気分にならざるを得ません。今年のノーベル賞は、その背景にある「烈火の炎と花錦」とも言える人工ニューラルネットワーク技術に二重の授与が決定した。 しかし同時に、学界には常に存在していた疑問の声も大きくなり始めています。世界最大の人工知能学術団体AAAIの会員誌であるArtificial Intelligence Magazineの最新号の表紙記事では、「説明可能な人工知能」の研究が泥沼に陥っていると率直に述べられており**[1] 、「説明の難しさ」はまさにディープニューラルネットワークに対する批判の一つです。 Appleの研究者による最近の研究報告では、大規模な言語モデルは論理的推論ができないとさえ主張され[2]**、騒動を巻き起こした。 双方の主張 ディープニューラルネットワークが推論できるかどうかについては、数年にわたって議論されてきました。 Apple Research**[2]の記事では、数学の分野における大規模言語モデルの推論能力を評価しました。この資料は、「微調整」されており、すでに大規模な言語モデルによって十分に解決できる「数学的な文章題」の集合でした。小学校でよく聞くような質問を例に挙げると、修正には、(1)固有名詞の置き換え(「シャオ・ホン」に関する質問を「シャオ・ミン」に関する質問に変更するなど)、(2)数値の変更(質問の「3.5時間」を「2.8時間」に変更するなど)、(3)無関係な情報の追加(「シャオ・ホンが山に登る」という質問に「シャオ・ミンが釣りをする」という説明を追加するなど)が含まれます。この修正はこれらの数学の問題の論理構造には影響しませんでしたが、回答の精度が大幅に低下しました。この記事の結論は、大規模な言語モデルはこれらの問題の数学的概念を理解できず、論理的推論も実行できないということです。代わりに、直面している問題をトレーニングデータの問題と比較するだけです。したがって、それらの正しい答えでさえ、システムの記憶とマッチング能力を反映しているだけで、論理的推論能力を反映していません。昨年ChatGPTをレビューしたとき[3]**、結論の質は学習データに依存するため、ChatGPTは論理的推論を実行しないと述べました。関連するトレーニングデータの量が少ないため、これは人々の膨大な推論プロセスの要約としか見なすことができません。つまり、「特別なことは何もなく、練習すれば完璧になる」ということです。これは、[2]の評価結果によっても裏付けられています。 しかし、この評価結果だけでは議論を解決するには不十分です。大規模言語モデルはこの問題について推論できると考える人たちの推論は、次のようなものです。「特定の問題は人間が推論によって解決するため、その解決には推論能力が必要です。大規模言語モデルはこれらの問題を解決できるため、推論することができます。」この見解によれば、大規模言語モデルは多くの問題において普通の人間よりもはるかに優れた推論能力を発揮している。このとき、依然として、何らかの誤った結論があるために推論できないと言えば、それは必然的に「一般化」や「細かいことにこだわりすぎ」と疑われることになる。関連技術が急速に発展している中で、次のバージョンではこれらの抜け穴を塞ぐことができないとどうしてわかるのでしょうか? OpenAI はすでに「推論」を現在の主な焦点として挙げているのではないでしょうか? これまでの議論では、双方にとっての証拠の主な手段は、推論における大規模言語モデルの成功または失敗のさまざまな事例を見つけることでした。このアプローチの利点は、証拠が具体的かつ検証可能であることですが、全体像についての理解は常に限定的になります。これらの成功と失敗は、システムの一般的な推論能力をどの程度明らかにするのでしょうか。また、現在の欠陥のうち、その後の研究開発によって克服できるものはどれくらいあるのでしょうか。 「推論」とは何ですか? かつて誰かが、多くの議論は実際には基本概念の異なる理解から生じていると言ったことがあります。そして、これがまさに、私の以前の記事の多くが概念分析から始まった理由です。それは、細かいことを言い争うのが好きだからではなく、そうせずに議論の核心に到達することは不可能だからです。 「推論」は通常、「既知の判断(前提)から新しい判断(結論)を導き出すプロセス」と説明されますが、「導き出す」がさらに限定されていない場合、明らかに範囲が広すぎます。前提を逆に読むことは、確かに推論とはみなされません。ここでの「打ち上げ」は、もちろん「正しく打ち上げる」ことを意味しますが、問題はまさにここにあります。つまり、「正しい」かどうかを判断する基準は何でしょうか。 推論の研究には 2 つの異なる学問的伝統があります。 論理学と数学は、推論の正確さ(「妥当性」とも呼ばれる)を合理性の普遍的な基準に基づいて決定することを目的として、規範的な理論と推論モデルを研究します。推論の妥当性の従来の基準は「忠実性」、つまり、真の結論が真の前提から導き出されることを保証することであり、論理システムはこの基準を満たす推論規則で構成されます。これらの規則は抽象的であり、前提と結論の形式のみに関係し、内容には関係しません。例えば、[3]で述べたように、「AはBである」と「BはCである」という前提から導き出された「AはCである」という結論の正しさは、文字が何を表しているかには依存しません。 心理学は、人間の推論活動において実際に従う法則を要約することを目的として、推論の記述理論とモデルを研究します。このように、ここでの「正しさ」は他の経験科学の「正しさ」と同様であり、「理論的な予測が実際の観察と一致している」ことを意味します。 これら 2 種類の理論には類似した結論がいくつかありますが (完全に異なる場合は問題になります)、それらの違いは長い間よく知られています。典型的な例は[4]で紹介した「ワトソン選択課題」であるが、ここでは繰り返さない。 両方の伝統は人工知能の研究に反映されています。人工知能における推論研究は、当初から数理論理学に代表される規範理論に基づいて行われてきましたが、実際の人間の思考に近づくためにさまざまな「修正」が試みられ、一定の成果が得られています。一般的に言えば、それはまだ理想主義的すぎて、さまざまな複雑な実際的な問題に対処するには不十分です。 これに対し、ディープラーニング(大規模言語モデルを含む)における推論は、抽象的で合理的な原理ではなく、人間の推論実践に基づいてモデルの振る舞いを決定するという、ある程度は記述理論の精神を借用していると言えます。それでも、具体的な実践は心理学とはまったく異なります。心理学では、論理学と同様に、推論プロセスは一連の推論ステップから成り、それぞれのステップには識別可能で研究可能な独自の法則があると考えられています。ただ、この規則性は人々の実際の行動に反映されており、特定の抽象的な原則(「忠実さ」など)によって一様に説明できるとは限りません。ニューラル ネットワーク モデルにおける推論動作は、実際の問題を解決するときに人が使用する前提と結論 (多くの場合、大規模な言語モデルでは文の順序として反映されます) を使用して「エンドツーエンド」方式でトレーニングおよび生成されるため、中間ステップはスキップされ、その正確性の基準は「与えられた前提から人が同じ結論を導き出すかどうか」となり、これらの結論が段階的にどのように生成されるかについてはあまり考慮されません。コンピュータの強力な情報処理能力と膨大なトレーニング データに支えられたこの推論モデルは、目覚ましい成功を収めましたが、いくつかの欠点もあります。 エンドツーエンドのトレーニングでは中間ステップの制御が放棄されるため、プロセスと結果が理解しにくくなります。 トレーニング データに依存すると、結論を一般化する際に「バイアス」や「過剰適合」などの問題が発生します。 トレーニングデータが不十分な場合、サンプルとの統計的な類似性に基づいて答えを推測することによって答えの正確性を保証することは困難です。 これらの問題はニューラル ネットワーク モデルの「性質」によって決まるため、技術的な手段では完全に解決することはできません。例えば、最近人気の「思考チェーン」は中間ステップを埋める努力を反映していますが、この「チェーン」の「リンク」のほとんどは、基本的な推論ステップではなく、さらに分解できる推論プロセスであり、その正確さの基準は依然としてトレーニングデータによって確立されているため、普遍的(ドメインに依存しない)ではありません。今回、Apple Research の評価では、この記述モデルを使用して規範理論 (数学) の推論問題を解決することが求められたため、パフォーマンスが低かったのは当然のことです。 生まれと育ち 規範的推論モデルと記述的推論モデルの間のさまざまな表面的な違いの背後には、知能(または「認知」、「思考」など)の生得的要素と獲得的要素に関する異なる見解が存在します。どちらも不可欠であることに誰もが同意しますが、それぞれの役割については依然として異なる見解があります。規範モデルの推論ルールは基本的に事前に決定されます (ただし、使用される推論の前提は事後的に取得できます)。一方、記述モデルの推論ルールは、獲得されたトレーニングから得られます (ただし、トレーニングに従うアルゴリズムは事前に与えられます)。ニューラル ネットワーク モデルの場合、「推論」は、既知から結論への生成プロセスに限定されるのではなく、問題の「既知」と「結論」の関係として捉えられます。このアプローチにより、このモデルの構築と適用のプロセスが大幅に簡素化されます (問題の解決策を説明することなく、トレーニング データのみを提供する必要があります)。これがこのモデルの成功の重要な理由ですが、上記の問題の根本的な原因でもあります。 推論モデルに加えて、生得的要因と獲得的要因のこの異なる扱いは言語モデルにも現れます。自然言語理解の研究において、当初支配的だった「規則学派」(チョムスキー学派)は、言語能力(特に文法構造)は基本的に生得的なものであり、獲得学習は「潜在能力を刺激する」役割しか果たさないと信じていました。現在主流となっている「統計学派」(ニューラル ネットワーク モデルを主な実装方法とする)は、「すべてを学習できる」と信じており、必要な唯一の本質的な要素は、トレーニング データを一般化する能力(学習アルゴリズムに反映される)です。 さらにそのルーツを辿ると、さまざまな分野(上記の推論や言語に限らず)における生得的要素と後天的要素の重視は、それぞれ哲学における合理主義と経験主義を反映していると言えます。両者の関係は、誰が正しくて誰が間違っているかというほど単純ではなく、「有機的な統一」によって騙されるものでもありません。 AI システム設計者にとって最も重要な決定は、どのメカニズムとコンテンツを事前に設計する必要があり、どれをトレーニングと教育に任せるべきかを区別することです。純粋に合理主義に従うシステムは往々にして硬直しすぎて環境の複雑さに対処できず、一方、純粋に経験主義に従うシステムは往々にして過去の経験の断片に限定され、判断の普遍性を保証できません。推論の規則を例えとして使うと、前者は演繹的推論に完全に頼って問題を解決するようなもので、演繹的推論は正確性と信頼性(「忠実性」)の利点がありますが、事前に設定された前提の範囲を超えると無力になります。後者は、類推的推論に完全に頼って問題を解決するようなもので、柔軟性(無理強いすることに抵抗がなければすべて比較可能)という利点がありますが、自己矛盾に陥ることがよくあります。 人間の知能と比較すると、人工知能システムの(生来の)設計は人間のものに近い合理的な原則に従うべきであるが、その特定の動作は人間の動作を完全に再現しようとするのではなく、独自の(獲得した)経験に基づくべきであると私は信じています。私が設計した推論モデル「Nass」(前回のコラムを参照)に関しては、システム自体が推論ルールを学習することを期待するのではなく、人間の推論行動から抽象化された推論ルールを反映した設計になっています。一方、システムの信念、欲求、概念は、事前に埋め込まれた「真実」や「事実」に依存するのではなく、システム自身の経験(感覚運動経験や言語コミュニケーション経験を含む)から完全に生まれます。簡単に言えば、Nass の設計は、人間の生来の論理に似た一連の推論ルールをメタロジックとして使用して知能を実現しようとする試みです。私が言いたいのは、人間の脳には一連の記号推論規則があるということではなく、人間の自然な推論プロセスは特定の規則に従っており、これらの規則は基本的な特性を失うことなく記号推論規則にまとめることができるということです。ここでは、一般的な意味での「論理」と特定の「論理システム」を区別する必要があります。論理学は、その始まり以来、普遍的に有効な推論と議論の規範を研究する学問であり、これはまた、ある文が「論理的」であるかどうかを判断するときに意味するものでもあります。 「推論の妥当性」を「忠実性」と定義し、記号言語を使用してルールシステムとして具体的に記述することは、推論の規範の具体的な理解です。たとえ既存の論理体系がすべて不十分であったとしても、「人間の推論にはルールがない」というのは必然的な結論ではありません。もしこれが真実であるならば、なぜ私たちは他者(古代人や外国人を含む)の推論プロセスや結果をある程度理解し、さらには受け入れることさえ可能なのでしょうか? 「知的システムの推論は普遍的なルールに従う」という信念に基づいて、ナッシュの推論メカニズムは規範モデルとして設計されており、その結論の正しさは、善悪の基準として一般的な人間の意見に基づくのではなく、ナッシュが依拠する合理的原則に従って決定されます。しかし、従来の規範モデルとは異なり、ナスの設計前提は、知識とリソースが比較的不十分な状況下でシステムが環境に適応する必要があるというものです。したがって、特定の結論の正しさを判断する基準は、客観的な事実や将来の経験ではなく、システムの過去の経験になります。このように、ナッシュのモデルも知識内容の点では記述モデルですが、人間の経験ではなくナッシュ自身の経験を要約したものです。その結果、ナッシュはさまざまな従来の推論モデルと類似点を持っていますが、根本的な違いもあります。 大規模な言語モデルと比較すると、Nass の推論ルールは設計プロセス中に決定され、システムの経験やアプリケーション領域とは関係ありません。これらのルールは「知識とリソースが相対的に不足している状況で環境に適応する」必要性から生まれたものであり、人間の推論メカニズムはこの必要性を満たすために進化してきたため、ナッシュの推論プロセスと結果は人間と多くの類似点があり、原理的には説明可能です(ただし、複雑な問題の場合は簡単ではありません)。ナッシュの推論の結論は体系的な経験から来ているため、彼の経験上の限界は確かに偏見や誤った判断につながるが、知識内容のこの欠陥は体系的な推論能力の欠陥を意味するものではない。 ナッシュが従う「生得的論理」(「非公理的論理」と呼ばれる、[5]を参照)は数学的論理とは異なり、数学を含まないため、システムは依然として学習を通じてこれらの理論を習得する必要があります。この学習は、人工ニューラル ネットワークのトレーニングとはまったく異なる、固有のロジックを使用して実行されます。ナスが対応するコースを学習した後に数学の文章題を解くように指示された場合、ナスもさまざまな間違いをする可能性がありますが、これらの間違いは大規模な言語モデルが犯す間違いというよりも、小学生が犯す間違いに近いものになります。ナスの研究開発はまだこれをテストできるレベルに達していないため、これはまだテストされていない予言とみなすことができます。 推論能力の源 上記の分析に基づくと、大規模言語モデルは、対応する人間の行動を要約することによって特定の推論タスクを完了する特別な記述的推論モデルと見なすことができます。この能力を「推論」と呼ぶことは全く間違いではありませんが、「推論はできないが、パターンマッチングのみはできる」と言った方が正確です。なぜなら、人間が段階的な推論を通じて完了する必要があるタスクをエンドツーエンドのマッピング(入力から出力への関数)と見なし、それを既知のマッピング関係と一致させることでタスクを完了するからです。解決する問題の範囲という点では、これら 2 つのプロセスの間には多くの重複がありますが、それらの違いを無視してはなりません。 「推論」という言葉の適用範囲を拡大することを主張するならば、大規模言語モデルは「推論することはできるが、いかなる論理にも従わない」とも言うべきである。人工知能は人間とは異なる論理を持っていると考える人もいますが、これを証明するには、その推論ルールをより基本的な合理的原理(「忠実性」や「適応性」など)に置く必要があり、私はこれまでそのような議論を見たことがありません。 すべての問題解決プロセスが「推論」と呼べるわけではありません。直感的に言えば、一歩ずつ「プッシュ」する必要があり、各ステップには「理由」がなければなりません。もちろん、この「文字通りの意味」は定義ではありませんが、答えを暗唱したり調べたりするだけで問題を解決することは、たとえそれらの答えが前の世代によって推論によって得られたものであったとしても、推論とは見なされません。大規模言語モデルは、朗読やクエリほど単純ではありませんが、「合理的なルールやパターンに従って既知の情報から徐々に答えを生成する」という従来の「推論」の理解からさらに遠く離れています。これが、説明が難しい、または「推論できず、パターン マッチングのみ」である理由です。実際のアプリケーションでは、それらの「推論機能」は、いくつかのニーズには十分ですが、他のニーズにはまったく不十分です。特に、これによって知能システムの「推論」機能が実現されているとは考えられません。心理学における推論の研究でさえ、論理や数学は言うまでもなく、大規模言語モデルに完全に従うことはできません。大規模言語モデルはこれらの分野では依然として有用ですが、他の目的(既存の研究結果を要約するなど)に使用されます。 これは、大規模な言語モデルが論理や数学を学習できないということではありません。情報システムにおける「知識」は通常、「オブジェクトレベルの知識」と「メタレベルの知識」と呼ばれる 2 つのレベルで存在します。具体的には、従来の推論システムでは、推論の前提と結論となる知識は前者に属し、通常はステートメントの形で存在し、システムの動作中に追加、削除、変更することができます。一方、推論ルールに具体化された知識は後者に属し、通常はプログラムの形で存在し、システムの動作中に変更されません。大規模言語モデルでは、トレーニング中に調整できるパラメータがオブジェクト知識に相当し、この調整を実行するアルゴリズムがメタ知識に相当します。これまでの議論と関連して、メタ知識は基本的に生得的であるのに対し、オブジェクト知識は獲得されるものであると言えます。 これら 2 種類の知識は、ある程度まで相互に影響を及ぼし、置き換えたり変換したりすることができます。私たちは論理を学び、それに従って推論することができますが、この習得した論理は、人間が推論活動において自然に従う法則である生来の「メタロジック」に完全に取って代わることはできません。論理に関する教育を一度も受けたことがない人でも、その思考活動は一般的にこの論理に沿っています。一方、論理学者や数学者であっても、理論的知識(一階述語論理や確率論など)を使って日常生活における推論活動を完全に規制することは不可能です。確かに、Nath が従うものも含め、あらゆるロジックのセットを大規模言語モデルに教えることはできますが、これは大規模言語モデルの「オブジェクト知識」にすぎません。 AI はこれに基づいて質問に答えることはできますが、それに基づいて推論活動を完全に制御することはできません。これは、人間が理論を暗唱することはできても、必ずしもそれを行動の指針として使用できるわけではないのと同じです。 私たちの経験は思考活動に影響を与えることはできますが、関連するすべてのプロセスを決定することはできません。その主な理由は、「メタ知識」の制御が「オブジェクト知識」と同じレベルに到達できないことです。同様に、トレーニングを通じて大規模な言語モデルに異なる学習アルゴリズムのセットを教えることはできますが、その固有の学習アルゴリズムを置き換えることはできません。 たとえ自分自身の思考の法則を操作できないとしても、私たちが設計するコンピュータ システムにおける「オブジェクト知識」と「メタ知識」の区別をなぜ排除できないのでしょうか?ある種の人工ニューラル ネットワークが独自の学習アルゴリズムを調整できるようにしたり、Nass が経験に基づいて独自の推論ルールを調整できるようにしたりすることは可能ですか?これは確かにある程度は可能ですが、良いアイデアではないかもしれません (たとえば、システム自体の一貫性が損なわれます)。また、完全に実現することもできません (たとえば、「メタ知識」を変更するには「メタメタ知識」が必要です)。このトピックはこの記事の焦点を超えているため、これ以上詳しく説明しません。 インテリジェントシステムの「固有の論理」がそれ自身の経験から要約できない場合、人間のこのメタ知識はどこから来るのでしょうか?私はインテリジェントなシステムを設計できると信じていますが、これは人間の知能も何らかの設計の結果であると考えているという意味ではありません。逆に、ナッシュに具体化された「推論観」(推論は概念の置き換えであり、概念は経験の断片の抽象化であるため、適応システムは過去の経験を適用して推論を通じて現在の状況の問題を解決できる)は、動物の知性の原型に見出すことができます。したがって、知能システムのメタ知識は設計からでも進化からでも得られるが、人工知能を設計するよりも進化を通じて獲得する方が実現可能であるとは思わない(ただし、補助的な手段として検討する価値はある)。この問題は[6]で議論されており、ここでは詳しく述べません。 要約すると、大規模言語モデルに対する私の基本的な評価は[3]と同じです。大規模言語モデルは有用ですが、推論を含む人工知能の基本的な問題を解決することはできません。 参考文献 [1] XAIは苦境に立たされている、ロジーナ・O・ウェーバー他、AIマガジン、45:300-316、2024年秋 [2] GSM-Symbolic: 大規模言語モデルにおける数学的推論の限界を理解する、Iman Mirzadeh 他、arXiv:2410.05229v1、2024年10月 [3] 徹底分析:ChatGPTとその後継者は汎用人工知能になるのか?王培「シンプルさへの回帰」2023年3月15日 [4] AIは合理的で人間は非合理的というのは本当でしょうか?王培、シンプルさへの回帰、2021年7月14日 [5] これはどういう論理ですか?王培、科学技術評論、2016年8月10日 [6] 知能理論の概要、王培、上海科学技術教育出版社、2022年9月 特別なヒント 1. 「Fanpu」WeChatパブリックアカウントのメニューの下部にある「特集コラム」に移動して、さまざまなトピックに関する人気の科学記事シリーズを読んでください。 2. 「Fanpu」では月別に記事を検索する機能を提供しています。公式アカウントをフォローし、「1903」などの4桁の年+月を返信すると、2019年3月の記事インデックスなどが表示されます。 著作権に関する声明: 個人がこの記事を転送することは歓迎しますが、いかなる形式のメディアや組織も許可なくこの記事を転載または抜粋することは許可されていません。転載許可については、「Fanpu」WeChatパブリックアカウントの舞台裏までお問い合わせください。 |
<<: eLong 財務レポート: 2012 年第 1 四半期に eLong を通じて予約されたホテル宿泊数は約 280 万泊でした。
>>: 家畜のヤギはどこから来るのでしょうか?答えは天山の「兄弟」にあります!
白菜、ハクサイ、ベビーキャベツの見分け方は?ベビーキャベツはキャベツの赤ちゃんですか?では、ベビーキ...
あなたが購入する車はあなたの車ではありません。言い換えれば、あなたはその車を完全に制御することはでき...
医者と1分も話さないうちに、姿勢はどんどん変わっていく - この号の終わり -...
航空機事故でよく捜索される「ブラックボックス」は、実は黒くなかった! 「コーマル」は、イギリスのデ・...
天気は暖かくなり、日も長くなってきました。 3月は世界にとって素晴らしい時期です。この良い時期を利用...
MADE 業界調査価格指数は Anluqin によって発行されます。乗用車市場における端末価格と割引...
お使いのブラウザはビデオタグをサポートしていません編集者注:2024年度大学入試結果発表後、出願手続...
なぜなら、今では私たちの生活の質や物質的な面が向上し、お金を使って欲しいものを何でも買うことができる...
インテルはプロセッサの革新技術のリーダーですが、7月9日、 IBMは、現在最も強力なチップの約4倍の...
誰もが人生で魚の頭スープを食べたことがあると思いますが、人生では主に豆腐の魚の頭スープにして、Gas...
この記事の専門家:中国農業大学、食品バイオテクノロジー博士、劉静静ウォーターチェスナット見た目が良く...
冬は肌が乾燥するので、毎日フェイスマスクを塗ったほうがいいでしょうか?ゴシップ多くの広告では、セレブ...
WeChatは、推奨エンジンの閲覧数で上位を占める「Momentsのホットな記事」から、タイムマシン...
1. 上半期の観光統計レポート2016年上半期、わが国の観光市場の規模は着実に拡大し、引き続きマクロ...