ChatGPT のような大規模モデルのせいで人間の医師は解雇されるのでしょうか? この懸念は根拠のないものではありません。結局、Google のビッグモデル (Med-PaLM 2) は米国の医師免許試験に簡単に合格し、医療専門家のレベルに達しました。 しかし、最近の研究によると、臨床的には人間の医師は現在の人工知能(AI)モデルよりもはるかに優れており、個人の「失業問題」についてあまり心配する必要はないことが示されています。 「臨床意思決定における大規模言語モデルの限界の評価と緩和」と題された関連研究論文が、科学誌「ネイチャー・メディシン」に最近掲載されました。
医師の診断は 89% の確率で正しかったのに対し、法学修士の診断は 73% しか正しかった。極端なケース(胆嚢炎の診断)では、LLM の正確さはわずか 13% でした。 さらに驚くべきことは、法学修士が症例についてより詳しく知るにつれて、診断の精度が低下し、患者に深刻な健康リスクをもたらす可能性のある検査を命じることさえあるということです。 LLM は救急医としてどのように機能しますか? LLM は米国の医師免許試験に簡単に合格できますが、医師免許試験と臨床ケースチャレンジは、受験者の一般的な医学知識のみをテストするのに適しており、日常の複雑な臨床意思決定タスクよりもはるかに難易度が低くなります。 臨床上の意思決定は、さまざまなソースからのデータの収集と統合、そして証拠に基づいた患者の診断と治療の決定に至るための事実の継続的な評価を必要とする、複数のステップからなるプロセスです。 臨床診断におけるLLMの可能性をさらに研究するために、ミュンヘン工科大学の研究チームとその協力者は、医療情報市場集中治療データベース(MIMIC-IV)に基づいて、2,400人の実際の患者症例と4つの一般的な腹部疾患(虫垂炎、膵炎、胆嚢炎、憩室炎)をカバーするデータセットを作成し、現実的な臨床環境をシミュレートして緊急から治療までのプロセスを再現し、臨床意思決定者としての適用可能性を評価しました。 図|データセットのソースと評価の枠組み。このデータセットは、MIMIC-IV データベースの実際の症例から抽出されたもので、入院中に記録された包括的な電子健康記録データが含まれています。評価フレームワークは現実的な臨床環境を反映しており、LLM は、診断精度、診断および治療ガイドラインの遵守、指示に従う一貫性、検査結果の解釈能力、指示の変更に対する堅牢性、情報量、情報の順序など、複数の基準に基づいて総合的に評価されます。 ICD、国際疾病分類; CT、コンピューター断層撮影; US、超音波; MRCP、磁気共鳴膵胆管膵管造影。 研究チームは、Llama 2 とその派生版(汎用バージョン(Llama 2 Chat、Open Assistant、WizardLM など)と医療分野に合わせたモデル(Clinical Camel や Meditron など))をテストしました。 MIMIC データのプライバシー問題とデータ使用契約により、OpenAI や Google などの外部 API ではデータを使用できないため、ChatGPT、GPT-4、Med-PaLM はテストできませんでした。特に、Llama 2、Clinical Camel、Meditron は、医師免許試験と生物医学質問回答テストのパフォーマンスにおいて ChatGPT と同等か、それを上回っています。 試験対照群は、救急科での経験年数が異なる(2、3、4、29年)2か国の医師4人で構成されていました。結果は、LLM の臨床診断の成績が人間の医師よりもはるかに劣っていることを示しました。 1. LLMの診断性能は臨床診断のそれよりも著しく低い 医師の結果によると、現在のLLMはすべての疾患における総合的なパフォーマンスにおいて医師よりも著しく劣っており(P < 0.001)、診断精度の差は16%~25%でした。このモデルは単純性虫垂炎の診断では良好な結果を示したものの、胆嚢炎などの他の病状の診断では不十分な結果となった。特に、メディトロンモデルは胆嚢炎の診断に失敗し、患者に「胆石」と診断されることが多かった。 専門医学 LLM は全体的に他のモデルよりも大幅に優れたパフォーマンスを発揮せず、LLM が独自にすべての情報を収集する必要がある場合にはパフォーマンスがさらに低下しました。 図|十分な情報提供を前提とした診断精度データは MIMIC-CDM-FI (n=80) のサブセットに基づいており、各バーの上に平均診断精度が表示され、垂直線は標準偏差を示しています。 LLM の平均パフォーマンスは、特に胆嚢炎 (P < 0.001) と憩室炎 (P < 0.001) において有意に悪かった (P < 0.001)。 図|自律的な臨床意思決定シナリオにおける診断精度。完全な情報が提供されるシナリオと比較すると、モデル判断の全体的な精度は大幅に低下しました。 LLM は虫垂炎の診断では最高の成績を収めましたが、胆嚢炎、憩室炎、膵炎の 3 つの病状の診断では成績が悪かったです。 2. LLMの臨床意思決定は性急で安全ではない 研究チームは、LLM は診断ガイドラインに従うのに不十分であり、患者に関する重要な身体情報を見逃す傾向があることを発見しました。患者に必要な臨床検査の指示にも一貫性が欠けていた。 LLM には、検査結果の解釈においても重大な欠陥がありました。これは、医師が患者の状態を十分に理解せずに性急な診断を下し、患者の健康に重大なリスクをもたらすことを示唆しています。 図|LLM推奨の治療評価。望ましい治療計画は、臨床ガイドラインとデータセット内の患者が実際に受けた治療に基づいて決定されました。 808 人の患者のうち、Llama 2 Chat は 603 人を正しく診断しました。この 603 人の患者のうち、Llama 2 Chat は 97.5% の確率で虫垂切除術を正しく推奨しました。 3. LLMでは依然として医師による多くの臨床指導が必要である さらに、現在の LLM はすべて、基本的な医学的ガイダンスに従うという点で不十分であり、2 ~ 4 件のケースでエラーが発生し、2 ~ 5 件のケースで存在しないガイダンスを捏造しています。 図|データ量の違いによるLLMの性能変化。この研究では、すべての診断情報を使用した場合と、単一の診断検査と現病歴のみを使用した場合の各モデルのパフォーマンスを比較しました。ほぼすべての疾患において、すべての情報を提供しても、MIMIC-CDM-FI データセットで最適なパフォーマンスは得られませんでした。これは、LLM が重要な事実に焦点を当てることができず、提供される情報が多すぎるとパフォーマンスが低下することを示唆しています。 この研究では、各モデルに最高のパフォーマンスをもたらす情報の順序は病状ごとに異なることも示されており、これによりその後のモデルの最適化の難易度がさらに高まることは間違いありません。広範囲にわたる医師の監督と事前の評価なしに確実に完了することはできません。一般的に、指示に従うこと、情報を処理する順序、および関連情報の処理において細かい欠陥があるため、正しい動作を保証するためにかなりの臨床監督が必要です。 この研究では、LLM の臨床診断にはさまざまな問題があることがわかったものの、LLM は依然として医学において大きな可能性を秘めており、病歴や検査結果に基づいて診断を行う方がよいと考えられます。研究チームは、この研究には以下の2つの側面でさらなる発展の余地があると考えています。 モデルの検証とテスト: 実際の臨床現場での妥当性を確保するために、さらなる研究では LLM のより包括的な検証とテストに焦点を当てる必要があります。 学際的なコラボレーション: AI の専門家は臨床医と緊密に連携して、臨床実践に適用可能な LLM を共同で開発および最適化し、実際のアプリケーションでの問題を解決することが推奨されます。 AI は医療にどのような変化をもたらすのでしょうか? 上記の研究だけでなく、国立衛生研究所(NIH)とその協力者によるチームも同様の問題を発見しました。207の画像チャレンジの質問に答える際、 GPT-4Vは正しい診断を選択する際に高いスコアを獲得しましたが、医療画像の説明や診断の理由の説明で間違いを犯すことが多かったのです。 AIは現在、人間の専門医師に比べるとはるかに劣っているが、医療業界におけるAIの研究と応用は、国内外のテクノロジー企業や科学研究大学が競い合う重要な「戦場」となっている。 例えば、Google がリリースした医療 AI モデル Med-PaLM2 は、強力な診断・治療機能を備えています。これは、MedQA テスト セットで「エキスパート」レベルに到達した最初の大規模モデルでもあります。 清華大学の研究チームが提案した「エージェント病院」は、病気の治療の全過程をシミュレートすることができる。その主な目標は、医師エージェントがシミュレートされた環境で病気の治療方法を学習し、成功例と失敗例から継続的に経験を蓄積して自己進化を実現できるようにすることです。 ハーバード大学医学大学院は、人間の病理学のための視覚言語汎用AIアシスタント「PathChat」の開発を主導しており、これは生検切片から疾患をほぼ90%の症例で正しく識別することができ、GPT-4Vなど現在市場に出回っている汎用AIモデルや専門医療モデルよりも優れています。 図|命令微調整データセットとPathChat構築 最近、OpenAIのCEOサム・アルトマン氏は、AI技術を利用して人々の日常習慣を改善し、慢性疾患による死亡率を下げることを目指す新会社Thrive AI Healthの設立に参加した。 彼らは、超パーソナライズAI技術は人々の生活習慣を効果的に改善し、それによって慢性疾患を予防・管理し、医療経済的負担を軽減し、人々の全体的な健康を改善できると主張している。 現在、医療業界における AI の応用は、初期の実験段階から実用化段階へと徐々に移行していますが、臨床医の能力向上や臨床意思決定の改善、さらには臨床医の直接的な代替に役立てられるようになるまでには、まだ長い道のりがあるかもしれません。 |
<<: 歯痛や足のつま先にかかる「ハリケーン」よりも致命的な「悪魔の噛みつき」を恐れていますか?
龍里魚は実は海の深海に生息する食用魚の一種です。食生活の健康に関心を持つ人が増えるにつれ、龍里魚の栄...
ビスケットは私たちが日常生活でよく食べる食べ物ですが、ビスケットを食べることのデメリットは何でしょう...
コラーゲンが美容に効果があることは知られており、多くの女性が日々の生活の中で肌のケアにコラーゲンを利...
長城汽車傘下の高級ブランドWEYにとって、彼は契約するのに適した人物だ。 6月16日早朝の「スペイン...
皆さんはどう思うか分かりませんが、私は個人的に魚風味の細切り豚肉はとても美味しい料理だと思います。だ...
魚を殺して鱗を削ぎ落とすのは慣習的な行為のようです。タチウオを調理するときに、表面の銀色の鱗も削ぎ落...
豆腐スティックは、多くの人がとても好んで食べる一種の食べ物です。豆腐スティックは柔らかい食感だけでな...
滴滴出行の創業者兼CEOの程偉氏は最近、米国の雑誌「ビジネスウィーク」の独占インタビューに応じた。イ...
ソラマメアレルギーの症状について言えば、多くの人は理解できないかもしれません。なぜなら、ほとんどの人...
煮込み肉は、日常生活で作るのが比較的難しい食べ物です。煮込み肉をうまく作るには、塩水に鍵があるため、...
WeChatビジネスに関する議論はますます激しくなっており、批判する人もいれば支持する人もいる。マイ...
牛のブリスケットは非常に一般的な食材です。このタイプの食材を作るには多くの良い選択肢があります。牛の...
電動歯ブラシは今ではとても一般的です。歯ブラシといえば、電動歯ブラシを思い浮かべる人も多いでしょう。...
レビュー専門家:中国人民解放軍総合病院第四医療センター副主任医師、彭国秋感情や気持ちを表現するとき、...
便秘に苦しむ患者は非常に苦痛です。長期にわたる便秘は直腸の感覚を失わせ、便秘がますます深刻になる原因...