人間の医者に完全敗北! AIによる臨床判断は杜撰かつ危険であり、最低の精度率はわずか13%である。

人間の医者に完全敗北! AIによる臨床判断は杜撰かつ危険であり、最低の精度率はわずか13%である。

ChatGPT のような大規模モデルのせいで人間の医師は解雇されるのでしょうか?

この懸念は根拠のないものではありません。結局、Google のビッグモデル (Med-PaLM 2) は米国の医師免許試験に簡単に合格し、医療専門家のレベルに達しました。

しかし、最近の研究によると、臨床的には人間の医師は現在の人工知能(AI)モデルよりもはるかに優れており、個人の「失業問題」についてあまり心配する必要はないことが示されています。

「臨床意思決定における大規模言語モデルの限界の評価と緩和」と題された関連研究論文が、科学誌「ネイチャー・メディシン」に最近掲載されました。


研究では、最先端の大規模言語モデル(LLM)でさえもすべての患者に対して正確な診断を下すことはできず、人間の医師よりも大幅にパフォーマンスが劣ることが判明した。

医師の診断は 89% の確率で正しかったのに対し、法学修士の診断は 73% しか正しかった。極端なケース(胆嚢炎の診断)では、LLM の正確さはわずか 13% でした。

さらに驚くべきことは、法学修士が症例についてより詳しく知るにつれて、診断の精度が低下し、患者に深刻な健康リスクをもたらす可能性のある検査を命じることさえあるということです。

LLM は救急医としてどのように機能しますか?

LLM は米国の医師免許試験に簡単に合格できますが、医師免許試験と臨床ケースチャレンジは、受験者の一般的な医学知識のみをテストするのに適しており、日常の複雑な臨床意思決定タスクよりもはるかに難易度が低くなります

臨床上の意思決定は、さまざまなソースからのデータの収集と統合、そして証拠に基づいた患者の診断と治療の決定に至るための事実の継続的な評価を必要とする、複数のステップからなるプロセスです。

臨床診断におけるLLMの可能性をさらに研究するために、ミュンヘン工科大学の研究チームとその協力者は、医療情報市場集中治療データベース(MIMIC-IV)に基づいて、2,400人の実際の患者症例と4つの一般的な腹部疾患(虫垂炎、膵炎、胆嚢炎、憩室炎)をカバーするデータセットを作成し、現実的な臨床環境をシミュレートして緊急から治療までのプロセスを再現し、臨床意思決定者としての適用可能性を評価しました。

図|データセットのソースと評価の枠組み。このデータセットは、MIMIC-IV データベースの実際の症例から抽出されたもので、入院中に記録された包括的な電子健康記録データが含まれています。評価フレームワークは現実的な臨床環境を反映しており、LLM は、診断精度、診断および治療ガイドラインの遵守、指示に従う一貫性、検査結果の解釈能力、指示の変更に対する堅牢性、情報量、情報の順序など、複数の基準に基づいて総合的に評価されます。 ICD、国際疾病分類; CT、コンピューター断層撮影; US、超音波; MRCP、磁気共鳴膵胆管膵管造影。

研究チームは、Llama 2 とその派生版(汎用バージョン(Llama 2 Chat、Open Assistant、WizardLM など)と医療分野に合わせたモデル(Clinical Camel や Meditron など))をテストしました。

MIMIC データのプライバシー問題とデータ使用契約により、OpenAI や Google などの外部 API ではデータを使用できないため、ChatGPT、GPT-4、Med-PaLM はテストできませんでした。特に、Llama 2、Clinical Camel、Meditron は、医師免許試験と生物医学質問回答テストのパフォーマンスにおいて ChatGPT と同等か、それを上回っています。

試験対照群は、救急科での経験年数が異なる(2、3、4、29年)2か国の医師4人で構成されていました。結果は、LLM の臨床診断の成績が人間の医師よりもはるかに劣っていることを示しました。

1. LLMの診断性能は臨床診断のそれよりも著しく低い

医師の結果によると、現在のLLMはすべての疾患における総合的なパフォーマンスにおいて医師よりも著しく劣っており(P < 0.001)、診断精度の差は16%~25%でした。このモデルは単純性虫垂炎の診断では良好な結果を示したものの、胆嚢炎などの他の病状の診断では不十分な結果となった。特に、メディトロンモデルは胆嚢炎の診断に失敗し、患者に「胆石」と診断されることが多かった。

専門医学 LLM は全体的に他のモデルよりも大幅に優れたパフォーマンスを発揮せず、LLM が独自にすべての情報を収集する必要がある場合にはパフォーマンスがさらに低下しました。

図|十分な情報提供を前提とした診断精度データは MIMIC-CDM-FI (n=80) のサブセットに基づいており、各バーの上に平均診断精度が表示され、垂直線は標準偏差を示しています。 LLM の平均パフォーマンスは、特に胆嚢炎 (P < 0.001) と憩室炎 (P < 0.001) において有意に悪かった (P < 0.001)。

図|自律的な臨床意思決定シナリオにおける診断精度。完全な情報が提供されるシナリオと比較すると、モデル判断の全体的な精度は大幅に低下しました。 LLM は虫垂炎の診断では最高の成績を収めましたが、胆嚢炎、憩室炎、膵炎の 3 つの病状の診断では成績が悪かったです。

2. LLMの臨床意思決定は性急で安全ではない

研究チームは、LLM は診断ガイドラインに従うのに不十分であり、患者に関する重要な身体情報を見逃す傾向があることを発見しました。患者に必要な臨床検査の指示にも一貫性が欠けていた。 LLM には、検査結果の解釈においても重大な欠陥がありました。これは、医師が患者の状態を十分に理解せずに性急な診断を下し、患者の健康に重大なリスクをもたらすことを示唆しています。

図|LLM推奨の治療評価。望ましい治療計画は、臨床ガイドラインとデータセット内の患者が実際に受けた治療に基づいて決定されました。 808 人の患者のうち、Llama 2 Chat は 603 人を正しく診断しました。この 603 人の患者のうち、Llama 2 Chat は 97.5% の確率で虫垂切除術を正しく推奨しました。

3. LLMでは依然として医師による多くの臨床指導が必要である

さらに、現在の LLM はすべて、基本的な医学的ガイダンスに従うという点で不十分であり、2 ~ 4 件のケースでエラーが発生し、2 ~ 5 件のケースで存在しないガイダンスを捏造しています。

図|データ量の違いによるLLMの性能変化。この研究では、すべての診断情報を使用した場合と、単一の診断検査と現病歴のみを使用した場合の各モデルのパフォーマンスを比較しました。ほぼすべての疾患において、すべての情報を提供しても、MIMIC-CDM-FI データセットで最適なパフォーマンスは得られませんでした。これは、LLM が重要な事実に焦点を当てることができず、提供される情報が多すぎるとパフォーマンスが低下することを示唆しています。

この研究では、各モデルに最高のパフォーマンスをもたらす情報の順序は病状ごとに異なることも示されており、これによりその後のモデルの最適化の難易度がさらに高まることは間違いありません。広範囲にわたる医師の監督と事前の評価なしに確実に完了することはできません。一般的に、指示に従うこと、情報を処理する順序、および関連情報の処理において細かい欠陥があるため、正しい動作を保証するためにかなりの臨床監督が必要です。

この研究では、LLM の臨床診断にはさまざまな問題があることがわかったものの、LLM は依然として医学において大きな可能性を秘めており、病歴や検査結果に基づいて診断を行う方がよいと考えられます。研究チームは、この研究には以下の2つの側面でさらなる発展の余地があると考えています。

モデルの検証とテスト: 実際の臨床現場での妥当性を確保するために、さらなる研究では LLM のより包括的な検証とテストに焦点を当てる必要があります。

学際的なコラボレーション: AI の専門家は臨床医と緊密に連携して、臨床実践に適用可能な LLM を共同で開発および最適化し、実際のアプリケーションでの問題を解決することが推奨されます。

AI は医療にどのような変化をもたらすのでしょうか?

上記の研究だけでなく、国立衛生研究所(NIH)とその協力者によるチームも同様の問題を発見しました。207の画像チャレンジの質問に答える際、 GPT-4Vは正しい診断を選択する際に高いスコアを獲得しましたが、医療画像の説明や診断の理由の説明で間違いを犯すことが多かったのです

AIは現在、人間の専門医師に比べるとはるかに劣っているが、医療業界におけるAIの研究と応用は、国内外のテクノロジー企業や科学研究大学が競い合う重要な「戦場」となっている。

例えば、Google がリリースした医療 AI モデル Med-PaLM2 は、強力な診断・治療機能を備えています。これは、MedQA テスト セットで「エキスパート」レベルに到達した最初の大規模モデルでもあります。

清華大学の研究チームが提案した「エージェント病院」は、病気の治療の全過程をシミュレートすることができる。その主な目標は、医師エージェントがシミュレートされた環境で病気の治療方法を学習し、成功例と失敗例から継続的に経験を蓄積して自己進化を実現できるようにすることです。

ハーバード大学医学大学院は、人間の病理学のための視覚言語汎用AIアシスタント「PathChat」の開発を主導しており、これは生検切片から疾患をほぼ90%の症例で正しく識別することができ、GPT-4Vなど現在市場に出回っている汎用AIモデルや専門医療モデルよりも優れています。

図|命令微調整データセットとPathChat構築

最近、OpenAIのCEOサム・アルトマン氏は、AI技術を利用して人々の日常習慣を改善し、慢性疾患による死亡率を下げることを目指す新会社Thrive AI Healthの設立に参加した。

彼らは、超パーソナライズAI技術は人々の生活習慣を効果的に改善し、それによって慢性疾患を予防・管理し、医療経済的負担を軽減し、人々の全体的な健康を改善できると主張している。

現在、医療業界における AI の応用は、初期の実験段階から実用化段階へと徐々に移行していますが、臨床医の能力向上や臨床意思決定の改善、さらには臨床医の直接的な代替に役立てられるようになるまでには、まだ長い道のりがあるかもしれません。

<<:  歯痛や足のつま先にかかる「ハリケーン」よりも致命的な「悪魔の噛みつき」を恐れていますか?

>>:  スチームアイマスクはお金の無駄ですか?

推薦する

ステーキとは何ですか?

ステーキが好きな人はたくさんいます。この種の食べ物は栄養価が高いので、安心して選ぶことができます。し...

皮膚アレルギーがある場合、ドクダミを食べても大丈夫ですか?

皮膚アレルギーを治療する場合、皮膚アレルギーの原因がわからないため外用薬を使用することが多いです。ま...

唐辛子の葉の栄養価

厳密に言えば、花椒の葉の栄養価は非常に高いのですが、ほとんどの人はそれを知りません。現代人はたいてい...

Meizu Blue Noteを体験: 多くの「初めて」の組み合わせ

今年、MeizuはMX4とMX4 Proという2つの新製品を発売し、どちらも市場で好評を博しました。...

カンジダ・オーリスとはいったい何でしょうか?専門家:パニックになったり過小評価する必要はない

最近、カンジダ・アウリスに関するニュースが、さまざまなメディアを通じて「驚くべき速さ」で広まっていま...

長安欧尚X7 PLUSは技術的平等を表現し、10万クラスのSUVは30万クラスのスマートコックピットを享受

自動車業界は大きな変化の時代にあります。電動化、ネットワーク化、インテリジェンス化は自動車産業の発展...

塩漬け柑橘類のレシピ

柑橘類は私たちの日常生活で非常に一般的な果物です。その甘い味と豊富な栄養のために、多くの人がそれを好...

ジャックポットを当てるにはどれくらいの運が必要ですか?

、 、 、 、 、 、 、ダブルカラーボール宝くじの2元券の場合、51%が賞金であり、賞金プールに...

子供の頃の思い出がまた甦りました。 「バララ・ザ・フェアリーズ」のゲーム体験の完全なテレビ版

以前、レビュールームでは、近日発売予定のクールランニングゲーム「バララ・ザ・フェアリーズ」のTV体験...

私たちはなぜ眠くなるのでしょうか?そして眠らないとどうなるのでしょうか?

人間の人生は実は非常に短く、最も良い時期はあっという間に過ぎ去ります。しかし、私たちを困らせるのは、...

冬の初めに食べるもの

立冬は二十四節気の一つで、毎年17日か18日にあたり、冬の始まりとなります。これは寒い季節が来ている...

ダイコンの効能

ダイコンは食卓でよく見かける料理です。ダイコンはシャキシャキとした食感があり、生で食べたり、スープに...

保存卵のカロリー

生活水準は日々向上し、人々は衣食住の問題を解決する段階から、豊かな生活へと移行しました。現代人は食べ...

アーモンドにはそばかすを除去する効果がありますか?

アーモンドにはシミを消す効果があると信じている人が多いですが、これは真実ではありません。多くの場合、...

日本のテレビメーカーが国内市場へ撤退

シャープからパナソニックに至るまでの企業による最近の業績報告によると、日本のテレビメーカーの売上は急...