AIおもしろ事実丨最大モデル、認知能力は高齢者より劣る？

最高峰の医学雑誌「ブリティッシュ・メディカル・ジャーナル」が最近、興味深い研究を発表しました。研究チームは、高齢者の認知能力と認知症の初期症状を評価するためのテスト問題を使用してAIをテストしました。その結果、いくつかのトップクラスの AI は、人間の軽度認知障害に似た症状を示しました。さらに、これらの AI モデルの初期バージョンは、高齢の人間と同様に、テストでのパフォーマンスが悪く、物忘れの兆候さえ示していました。この結果は研究チームの間で深い考察を引き起こしました。

著者 |レン

AI技術の急速な発展により、その進歩は人々の認識をほぼ毎日刷新しています。近い将来、AIが人間の医師に取って代わるのではないかと疑問に思う人は多いのではないでしょうか。

しかし、最近 BMJ に掲載された興味深い研究により、予期せぬ発見がありました。AI は人間の軽度認知障害に似た症状を示す可能性があることが判明したのです。

論文のスクリーンショット |出典: BMJ

この発見は人々を笑顔にせずにはいられず、また AI の能力について人々が深く考えるきっかけにもなります。

イスラエルのハダッサ医療センターの研究チームが主導したこの研究では、研究者らはモントリオール認知評価（MoCA）とプロテスターテストを使用して、OpenAIのChatGPT 4とChatGPT-4o+、GoogleのGemini 1.0と1.5、AnthropicのClaude 3.5 Sonnetを含む5つの一般的な大規模言語モデルの認知能力を評価しました。

AIモデルのMoCAスコア |出典：論文

モントリオール認知評価は、高齢者の認知能力と初期の認知症の症状を評価するためによく使用されます。満点は30点で、26点以上が正常レベルとみなされます。研究チームは、人間の患者をテストしたときと同じテスト指示をAIモデルに与え、すべてのスコアは公式ガイドラインに厳密に従い、現役の神経科医によって評価されました。

まず結論を述べます。テストされたすべての AI モデルの中で、最もパフォーマンスが良かったのは ChatGPT 4o でしたが、合格点は 26 点にしか達しませんでした。僅差でChatGPT4とClaudeが続き、両者とも25ポイントを獲得しています。最も驚くべきことは、Google Gemini 1.0 がわずか 16 ポイントという低いスコアしか獲得できなかったことです。

採点基準によれば、推論に優れたGPT 4oを除き、残りのモデルは軽度認知障害を持つ人間のパフォーマンスレベルと同等です。興味深いことに、この研究では、これらの AI モデルの初期バージョン (Gemini 1.0 など) は、高齢の人間と同様に、テストでのパフォーマンスが悪かったことも判明しました。この現象は、研究チームに深く考えさせるきっかけとなりました。

視覚空間能力テストで一般的に成績が悪い AI モデルのテストスコア |出典：論文

評価結果を詳細に分析した結果、大規模言語モデルはさまざまな評価項目で明らかな長所と短所を示していることが明らかになりました。彼らは、命名、注意、言語、抽象的思考などのタスクで優れたパフォーマンスを発揮します。しかし、視覚空間および実行機能に関するテストでは、人間に見られるのと同様の軽度の認知障害が見られた。

例えば、線接続テスト（丸で囲んだ数字や文字を順番につなげる）や時計描画テスト（指定された時間に時計のパターンを描く）などの課題では成績が悪く、彼らが示したエラーパターンの一部は、特定の種類の認知障害を持つ患者のものと非常に似ていました。

線の接続テストと立方体描画テストは、AとFが正解、BとGが人間が出した解答、残りはAIモデルの解答です。 |出典：論文

時計描画テストは、10:11 に設定された時計を描くというラベルが付けられています。 Aは人間が出した答え、Bはアルツハイマー病患者が導き出した答え、残りはAIモデルの答えです。正解に最も近いのは、GPT-4 と GPT-4o によって示された G と H ですが、2 つの画像のポインターは間違った時間を指しています。 |出典：論文

さらに興味深いのは、ジェミニモデルは記憶テストでも「物忘れ」を示し、「遅延想起課題」と呼ばれる課題で、以前に与えられた5つの単語の順序をまったく思い出せなかったことです。この現象は、人間の早期認知障害患者のものと驚くほど類似しており、AI モデルに人間の作業記憶に似たメカニズムが欠けていることに関係している可能性があります。

さらに視覚空間テストでは、ナヴォン図、クッキー盗難シーン、ポッペルロイター図などのテスト素材に直面したとき、AI モデルは、ローカル情報と全体情報の統合、複雑なシーン内のオブジェクトの識別、感情的な手がかりの理解においてパフォーマンスが低下しました。

たとえば、ナボングラフィックテストでは、ほとんどのモデルは局所的な要素を識別することしかできず、全体の構造を把握するのが困難です。これは、抽象的思考と情報統合能力の欠陥を反映しています。

ナボン図形テストでは、大きな H と大きな S の文字の上部は対応する小さな H と小さな S の要素で構成され、大きな H と大きな S の文字の下部は反対の小さな要素で構成され、視覚知覚と注意の全体的および局所的な処理を評価します。 |出典：論文

さらに、クッキーを盗む絵のテスト（BDAE ボストン失語症診断検査を改変）では、すべてのモデルが場面で何が起こっているかを部分的に説明できたものの、絵の中の小さな男の子が今にも落ちそうになっていることに言及したモデルは一人もいませんでした。実際の被験者に対するテストでは、これは前頭側頭型認知症 (FTD) の症状の 1 つである感情的無関心と共感の喪失の兆候であることが多いです。

クッキーを盗む写真テスト |出典：論文

しかし研究者らは、AIモデルは視覚的な実行や抽象的な推論を必要とするタスクを完了するのが難しいものの、テキスト分析や抽象的な推論を必要とするタスク（類似性テストなど）では非常に優れたパフォーマンスを発揮するとも指摘した。

技術的な原理の観点から見ると、大規模言語モデルは複雑なニューラルネットワークアーキテクチャに基づいており、膨大な量のデータから学習することで人間の言語動作をシミュレートします。しかし、このアーキテクチャには、深い理解と柔軟な処理を必要とする認知タスクに直面した場合、多くの欠陥があります。

この相違は、部分的には AI モデルのトレーニング方法に関係しています。現在使用しているトレーニングデータは主に言語と記号の処理に重点を置いていますが、空間関係の理解や複数ステップのタスクの計画能力に関するトレーニングは比較的不十分です。

AI モデルが視覚空間の問題に対処する際に直面する困難は、データから特徴を抽出しパターンを認識する方法にも起因しており、人間の脳ほど正確に空間関係や物体の特徴を把握することはできない。

最後に、古典的なストループテストでは、GPT-4o だけがより複雑な第 2 段階に成功し、他のモデルはすべて失敗しました。

このテストでは、色の名前とフォントの色の組み合わせを使用して、注意散漫が被験者の反応時間に与える影響を測定します。第 2 段階のテスト問題は、色の名前をその色が表す色以外の色で表示することです (たとえば、「赤」という単語を青いインクで表示します)。単語とその色が一致している場合と比較すると、被験者が単語の色を識別するのに時間がかかり、識別プロセスでエラーが発生しやすくなります。

ストループ実験の第 2 フェーズでは、色の名前とフォントの色の間に不一致が発生しました。 |出典：論文

注目すべきことに、この研究では、大規模言語モデルの「年齢」要因がその認知能力と相関していることも判明しました。ここでの「年齢」は、文字通りの時間の経過を指すのではなく、モデルのバージョンの反復を指します。

ChatGPT-4 と ChatGPT-4o を例にとると、MoCA テストでは ChatGPT-4 の古いバージョンは新しいバージョンよりもわずかに低いスコアになりました。 Gemini 1.0 と Gemini 1.5 の間にも大きなスコア差があり、古いバージョンの方がスコアが低くなっています。

これは、モデルが更新および開発されるにつれて、その認知能力が向上する可能性があることを示唆している可能性がありますが、この変化の傾向とその基礎となるメカニズムは現時点では不明です。

この研究の結果は考えさせられるものである。 ChatGPTは2022年に初めて一般公開されて以来、医療分野におけるAIモデルの性能が大きな注目を集めています。

欧州心臓病学試験（EECC）、イスラエル研修医試験、トルコ胸部外科理論試験、ドイツ産婦人科試験など、複数の専門医療試験において AI モデルが人間の医師よりも優れていることを示す初期研究が多数あります。神経内科医の専門試験でも、AIモデルが人間を上回る能力を発揮しており、多くの専門家を不安にさせている。

しかし、最新の研究で明らかになった AI モデルの認知的欠陥により、その実際的な限界が明らかになりました。医療は単なる技術ではなく、人間的な配慮と共感を必要とする芸術でもあります。医療行為の方法とアプローチは、人間の経験と共感に深く根ざしており、単なる一連の冷たい技術的操作ではありません。

テクノロジーが進歩しても、AI モデルのいくつかの基本的な制限は存続する可能性があります。たとえば、AI には、臨床評価中に患者と対話するために重要な視覚的抽象化機能の欠陥があります。研究チームは次のように述べている。「神経科医が短期的に AI に置き換えられる可能性は低いだけでなく、逆に、神経科医はすぐに新しいタイプの「患者」、つまり認知障害を示す AI モデルに直面することになるかもしれない。」

この研究結果は、医療分野におけるAIモデルの応用にも警鐘を鳴らした。認知障害がある可能性のある AI システムに直面した場合、患者は、特に複雑な病気の診断や治療の決定を伴う重要な医療シナリオでは、必然的に疑念を抱くことになります。患者は人間の医師の経験と判断に頼る傾向が強く、AI を意思決定者というよりは補助的なツールと見なす傾向があります。

同時に、診断精度の観点から見ると、AI モデルの視覚空間処理と抽象的推論の欠陥により、医療画像や臨床データの解釈にずれが生じ、誤診や治療の遅れにつながるリスクがあります。

しかし、研究者らは、人間の脳と AI モデルの間には根本的な違いがあることも認めており、この比較研究には依然として限界がある。さらに、人間向けに特別に設計された認知テストを AI に適用することの合理性や正確性も疑問視されています。おそらく、AI システムを評価するのにより適した新しい方法を開発する必要があるでしょう。しかし、AI モデルは一般的に視覚的抽象化と実行機能のパフォーマンスが低いことは否定できません。

AI モデルの認知的欠陥を理解することは、責任ある AI 開発戦略を策定する上で非常に重要です。私たちは、AI の能力を明確に理解し、技術の進歩を促進しながら合理的な期待を構築する必要があります。

今後は、AI モデルの共感力と状況理解力の向上が研究開発の焦点となる可能性があります。 AIが人間の医師や他の専門職に完全に取って代わるというよりは、人間の知性とAIの利点が互いに補完し合う新しいパターンが将来的に生まれる可能性が高いでしょう。

結局のところ、AI でさえ「認知障害」を示す時代においては、人間の独自性はもっと認識されるべきです。技術の進歩を受け入れながらも、人間の認知能力や感情能力の独自性を忘れてはなりません。

注: この記事の表紙画像は著作権ライブラリから取得したものです。転載して使用すると著作権上の紛争が発生する可能性があります。

特別なヒント

1. 「Fanpu」WeChatパブリックアカウントのメニューの下部にある「特集コラム」に移動して、さまざまなトピックに関する人気の科学記事シリーズを読んでください。

2. 「Fanpu」では月別に記事を検索する機能を提供しています。公式アカウントをフォローし、「1903」などの4桁の年+月を返信すると、2019年3月の記事インデックスなどが表示されます。

著作権に関する声明: 個人がこの記事を転送することは歓迎しますが、いかなる形式のメディアや組織も許可なくこの記事を転載または抜粋することは許可されていません。転載許可については、「Fanpu」WeChatパブリックアカウントの舞台裏までお問い合わせください。

<<: 春節旅行が近づいており、高速鉄道の電気使用の安全性が解除される→

>>: 2019年のオーストラリアの電子商取引の消費者行動と市場の分析