ChatGPTは人間の9歳の子供に相当します。本当に自分を人間だと思っているのだろうか？

最近インターネット上で最も人気のある技術用語は何かと聞かれたら、それは「ChatGPT」と「人工知能」に違いありません。 OpenAI が開発したインテリジェントチャットボットである ChatGPT は、人々から寄せられるさまざまな質問に答えたり、人々の要件に応じて記事を生成したり、外国語を翻訳したり、コードを書いたりすることができます。

実際、ChatGPT はこれらの機能を備えた最初の人工知能ではありませんが、その機能は以前の人工知能と比較して質的に飛躍的です。人間と一緒に質問したり答えたりできるだけでなく、かなり見栄えの良い記事を書くこともできます。 ChatGPT は人工知能分野における新たな大きな進歩となるだろうと多くの人が推測しています。

かつては多くの研究者がChatGPTに注目し、そのさまざまな機能を注意深く研究し始めました。

2月11日、スタンフォード大学のコンピューター科学者、ミハル・コシンスキー氏が「心の理論は大規模言語モデルで自然発生的に出現した可能性がある」と題する論文のプレプリントを提出し、ChatGPTの人気がさらに高まりました。

いわゆる「ビッグ言語モデル」とは、ChatGPT に代表される人工知能の一種を指します。研究者たちは心理テストを使用して、人工知能のGPT-3.5バージョン（現在人気のあるChatGPTはGPT-3バージョンから派生したもの）が、ある種の「心の理論」（心理学理論とも訳される）を開発していることを発見しました。数日のうちに、中国のインターネット上にはさまざまな解釈が登場した。この AI はすでに 9 歳児の共感力を備えていると言う人もいます。この AI にはすでに心があると言う人もいます。 GPT-3.5 の知能はすでに 9 歳児と同等であると主張する人もいます…

ちょっと待ってください、「心の理論」「共感」「心」「知性」、これらの言葉は聞き覚えがあるようですが、意味が少し違うようです。 GPT-3.5 と 9 歳の子供のどちらが良いでしょうか?この質問に答えるには、単語の意味分析を行い、この論文が実際に何を言っているかを確認する必要があります。

心の理論とは何ですか?

「心の理論」という言葉を初めて聞いたという人も多いかもしれません。文字通りの意味に惑わされないでください。心の理論は理論ではなく、能力です。簡単に言えば、他人の精神状態を理解し、推測する能力です。たとえば、友達が留守の間に贈り物を慎重に隠しておいたとしたら、友達が帰ってきて贈り物を見つけたとき、どんな気持ちになるでしょうか。ほとんどの人は本能的に驚き、喜ぶだろうと思うでしょう。このように考えられるのは、相手が贈り物を隠していることを知らないことを知っており、相手が贈り物を受け取って喜ぶだろうと信じているからです。これは、他人の心理状態を推測する能力があることを意味します。

これを見て、これが普通の人の普通の考え方ではないのかと疑問に思う人もいるかもしれません。それは能力だと考えられるのでしょうか?実際、心理学者がこの問題を初めて研究したとき、彼らの研究対象者は人間ではありませんでした。 1978 年、心理学者のプレマークとウッドラフは「チンパンジーは心の理論を持っているか?」という有名な論文を発表しました。》。著者は、人間は同種の者の行動しか観察できず、他人の心の中を見ることはできないが、他人の意図、知識、信念、考え、疑惑、さらには変装まで推測することはできると指摘している。これは人間の本能です。では、チンパンジーはこれができるのでしょうか?もしそうだとすれば、チンパンジーも人間と同様に他人の内面を推測する能力を持っているということになる。心理学者は、チンパンジーが他人の考えを認識しており、ある種の心の理論を持っていることを発見しました。

キャプション: 心理学者が使用するテストでは、チンパンジーは実験者の苦境を観察し、どうすれば助けられるかを推測する必要があります。

この論文が発表されるやいなや、多くの学者にインスピレーションを与えました。彼らは、心の理論は本当に人間の本能なのかと問うている。人間はどのようにして心の理論を獲得したのでしょうか?そこで、心理学者たちは一連の研究を行い、人間は心の理論を持って生まれるわけではないことを発見しました。乳児や幼児は、まず他の人の注意の切り替えを追うことができ、徐々に他の人にも独自の考えがあることに気づきます。そして、幼い子どもたちは他人の精神状態を理解し、推測し始めます。次に、この推論能力はどんどん正確になり、考えなくても他人を理解できる大人のレベルに達します。

心理学者はこれをどのようにテストするのでしょうか? 2つの古典的な実験を見てみましょう。最初のものは、誤った信念テストと呼ばれます。心理学者は子供たちに一連の絵を見せた。一人の子供の目の前にはチョコレートのラベルが貼られたポケットがありましたが、中にはポップコーンが入っていました。このとき、心理学者はこう尋ねました。「もし子供がやって来てこのバッグを見たら、中に何が入っていると思うだろうか？」大人は、子供が袋の中にポップコーンが入っているのを見ず、ラベルを見てチョコレートだと思ったと考えるでしょう。しかし、心の理論がまだ完全には発達していない子どもの場合は違います。親は自分が知っていることと他の人が知っていることを区別できないため、子どもは中にポップコーンが入っていると思っていると推測します。子どもが成長するにつれて、心理学者は難易度を上げて、絵の中の子どもが他の子どもの考えをどう思っているかを推測するように子どもに求めます。これには、子どもたちがさまざまな人の心理状態を推測する能力を高めることが求められます。

もう一つの実験は「サリー・アン・テスト」と呼ばれ、心理学者がサリーとアンが一緒に部屋にいる様子を描いたビデオや写真を子供たちに見せるというものです。この時、サリーはバスケットにボールを入れて部屋を出て行きました。彼女が去った後、アニーはボールを箱の中に隠しました。しばらくして、サリーが戻ってきました。彼女はどこでボールを見つけるのでしょうか？大人は、サリーはアニーがボールを隠したことを知らず、とにかくバスケットの中を探しに行くだろうと推測できます。しかし、子供は違います。彼らの心の理論はまだ成熟していないので、サリーが箱の中を見るだろうと考えるかもしれません。

どちらのタイプのテストでも、子どもは4歳になるまで質問に正しく答えてテストに合格できない可能性があり、最初はパフォーマンスが非常に不安定であることがわかりました。他人の精神状態を柔軟に推測できるようになるには9年かかります。

注: サリー・アン検定図はWikipediaから引用したものです

実際、私たち一人ひとりは、他人のことを「推測できない」あるいは「理解できない」という段階を経験したことがあるのです。しかし、年齢を重ねるにつれて、ほとんどの人は心の理論を身につけ、子供時代の記憶は徐々に曖昧になっていきます。心理学者が実験を行っていなかったら、子どもの心理がこのようなものであることは人々にはまったく知られなかったでしょう。

ChatGPTには心があるのでしょうか?

これら 2 つの実験を見ると、この物議を醸している論文のどこを見るべきかがよくわかるでしょう。大規模言語モデルは自然言語を処理するため、科学者たちは先ほどの 2 つのテストをストーリー形式で記述し、GPT-3.5 に入力して質問しました。その結果、誤った信念の実験では、GPT-3.5 は 20 の質問のうち 17 に正しく答えることができました。サリー・アン・テストでは、GPT-3.5 は 20 の質問すべてに正しく答えることができました。 GPT-3.5がキーワードに基づいて推測するのを防ぐために、科学者たちは表現方法を変えて質問を繰り返し、さらには意図的に論理的に混乱する「嘘発見器の質問」も追加しました。その結果、GPT-3.5 もテストに合格し、正しい質問に答えることができましたが、混乱したロジックの質問に直面すると混乱してしまいました。

図1: GPT-3.5に基づくChatGPTによる誤った信念に入力されたストーリーとテストスコア

この成果を過小評価しないでください。これまでの人工知能は心の理論のテストに合格できませんでした。それだけでなく、科学者たちは、同様のモデルの以前のバージョンを含む、最近登場した他の 8 つの AI もテストしました。この結果を達成できるのは GPT-3.5 バージョンのみであることが判明しました。 GPT-3 バージョンのパフォーマンスは大幅に低下しました。いくつかの AI は、1 つのテストの質問に正しく答えることができませんでした。 GPT-3.5 の最新バージョンは、この心の理論テストに合格し、以前のバージョンをはるかに上回っていると言えます。さらに、その正確率は人間の9歳の子供の正確率に近いため、ネット上にはこのような奇跡的な解釈が存在するのです。

図1: さまざまな人工知能の精度の比較、GPT-3.5がはるかに優れている

心の理論の概念を理解し、論文の方法論を読んだところで、オンライン解釈について話しましょう。 9 歳児の「心の理論」、「共感」、「心」、または「知性」に関する次の記述のうち、どれがより信頼できるでしょうか。

「心の理論」は明らかに最も正確な解釈であり、心の理論の能力が論文でテストされています。

「共感」というのは少し違います。心理学者は、心の理論と共感は似たような能力であると考えていますが、共感は感情や感覚の経験に重点を置いています。 ChatGPT によって表される大規模言語モデルには感情的な能力はなく、一般に共感として知られているものもありません。

「心」のずれはさらに大きい。心理学の分野では、心とは人の思考、想像力、記憶、動機、感情などを指す「大きな言葉」です。科学者たちは、人間の心が正確には何であるかについてまだ議論を続けています。「心の理論」と「心」は同じ言葉ですが、意味はまったく異なります。明らかに、現在の大規模言語モデルは心を持つ必要はありませんが、心の理論テストに合格することができます。

最後に、 「知性」の解釈も不正確です。科学者は知能テストを実施しません。知能と心の理論は全く異なる概念です。

ChatGPT には心がないのに、強力ではないでしょうか?

GPT-3.5 は一連の画期的な進歩を遂げていますが、過度に解釈すべきではないようです。特定の能力の向上と 9 歳の子供の心の間には大きな違いがあります。さらに、ChatGPT などのモデルについては多くの論争があります。著名な人工知能の専門家であるヤン・ルカン氏は、ChatGPT は過去の人工知能と比べて根本的な進歩を示すものではないと考えています。もう一人の有名な人工知能の専門家、ダグラス・ホフスタッターはさらに過激な考えを持っています。彼は何年も前にChatGPTのような一連の人工知能研究ルートを否定した。彼は、このタイプの人工知能は数学モデルを使用して優れたテスト結果を達成しているが、どのように進化しても人間のような心を獲得することは決してないだろうと考えている。

同様の議論は数多くあります。さまざまな分野の学者や多くの投資家は、GPT-3.5 の後続バージョンがどれだけ進歩できるか、そして心のような能力を生み出すことができるかどうかについて非常に懸念しています。少なくとも現時点ではまだ不明です。しかし、この論文のタイトルには、詳細に研究する価値のあるもう 1 つのキーワード、「自発的出現」があることを皆さんに思い出していただきたいと思います。この言葉は、多くの要素がシステムを形成した後に、もともと存在しなかった特性が自然に現れることを意味します。チェスをプレイする AI、車を運転する AI など、特定のタスク向けに AI が作成されることがよくあります。 ChatGPT に代表される大規模言語モデルは自然言語を処理し、心の理論テストに対応するようには設計されていません。しかし、彼らは言語を通じてテストに合格する能力を持っています。

この結果は、ChatGPT が何歳の子供に相当するかよりも重要かもしれません。これまで、多くの人工知能の専門家は、まず人間の脳と心を理解し、次にそれを機械でシミュレートすることを望んでいました。しかし、人間の脳は非常に複雑なので、現在の人間の頭脳では理解することは不可能です。しかし、大規模な言語モデルは、人間がどのように話すかを理解できなくても、コンピューターに話す方法を教えることができることを示しています。コンピュータは話すことを学ぶと同時に、他のスキルも学びます。

多くの科学者の目には、今日の人工知能は9歳の子供のようだ。将来は本当に有望です。いいえ、本当にワクワクします。

参考文献:

[1]コシンスキー、M.（2023）。心の理論は大規模言語モデルで自然発生的に出現した可能性がある (arXiv:2302.02083)。 arXiv

[2]プレマック、D.、ウッドラフ、G.（1978）。チンパンジーには心の理論があるか？行動と脳科学、4(4)、515-629。

[3]ゴプニック、A.、アスティントン、JW（1988）。子どもたちの精神状態の変化に対する理解。子どもの発達、62、98-110。

[4]バロン・コーエン，S.、レスリー，AM、フリス，U.（1985）。自閉症の子供は「心の理論」を持っているのでしょうか。認知、21(1)、37-46。

著者: 陳超、北京師範大学認知神経科学修士

レビュー |北京中科民衆精神衛生促進センター副所長唐一成

制作：中国科学普及-創造と栽培（星空プロジェクト）

この記事の表紙画像と画像は著作権ライブラリから取得しています

画像コンテンツの複製は許可されていません

<<: この動物は身体に障害があるが非常に凶暴で、寿命は最長 4 世紀にも及びます。それはグリーンランドサメです