認識率は90％に迫ります！ AIロボット：腫瘍よ、どこに隠れられる？

執筆者: ティエン・シャオティン

現在、がんは世界人口の主な死亡原因の一つとなっており、毎年何百万人もの人々ががんで亡くなっています。世界保健機関は、早期発見と早期治療によってがんの3分の1は治癒できると述べています。

しかし、がんの検出は医療分野、特に病理学的分析において常に大きな課題となってきました。腫瘍の正確な特定と診断は患者の治療にとって非常に重要ですが、従来の病理学的検査は専門家の経験と専門知識に大きく依存しています。

GPT-4などの大規模モデルの開発により、人工知能(AI)を病理診断の補助に利用する研究が徐々に登場してきましたが、多くのAIシステムは、実用化においてパフォーマンスが不十分であったり、インタラクティブ性が低いなどの問題を抱えています。

最近、ハーバード大学医学大学院の研究チームとその協力者は、人間の病理学のための視覚言語汎用 AI アシスタント「PathChat」を開発しました。このシステムは、生検スライドから疾患をほぼ 90% のケースで正確に識別することができ、GPT-4V など現在市場に出回っている一般的な AI モデルや専門的な医療モデルよりも優れています。

「人間の病理学のためのマルチモーダル生成AIコパイロット」と題された関連研究論文が科学誌「ネイチャー」に掲載されました。

この画期的な技術は腫瘍を特定できるだけでなく、ユーザーと対話して、病理の診断と研究のための新しいツールと視点を提供できることも注目に値します。

PathChat: マルチモーダル病理検出AI アシスタント

計算病理学は長年にわたり、病理形態データ解析、分子検出データ解析などの分野で大きな進歩を遂げてきました。病理学とAIやコンピュータービジョンなどの技術が交差して形成されたこのサブ研究分野は、徐々に医療画像解析分野の研究ホットスポットになりつつあります。

計算病理学は、画像処理とAI技術を使用してAI計算病理学モデルを構築し、組織病理学的画像を取得し、組織病理学的画像の形態学的外観の予備評価を実施して、自動画像解析技術による補助診断、定量評価、意思決定を実現します。

現在、ChatGPT に代表される生成 AI 技術の爆発的な成長により、マルチモーダル大規模言語モデル (MLLM) が計算病理学研究や病理学臨床実践でますます使用されるようになっています。しかし、解剖病理学というより専門的な分野では、病理学のための汎用的でマルチモーダルな AI アシスタントの構築に関する研究はまだ初期段階にあります。

この研究で、研究チームは、人間の病理学研究に特化したマルチモーダル生成 AI アシスタントである PathChat を設計しました。彼らは、自己教師学習を通じて 100 万枚以上のスライスから 1 億枚以上の細胞組織画像断片を事前トレーニングし、それを SOTA ピュアビジョンエンコーダー UNI と組み合わせて、視覚および自然言語入力について推論できる MLLM を生成しました。 450,000 を超える命令のデータセットを微調整した後、彼らは PathChat を構築しました。

図｜命令微調整データセットとPathChat構築。（出典：本論文）

調査の結果、PathChat はマルチモーダル入力を処理できるだけでなく、複雑な病理学関連のクエリに対して正確な応答を提供し、生検スライドから疾患をほぼ 90% のケースで正しく識別できることがわかりました。

GPT-4Vを上回り、精度はほぼ90%

PathChatの検出性能をテストするために、研究チームはPathChatをオープンソースモデルLLaVA、バイオメディカル分野向けにカスタマイズされたLLaVA-Med、GPT-4Vと比較しました。

彼らは PathQABench 比較実験を設計し、さまざまな臓器部位や診療からの病理学的症例を分析することで、PathChat の検出パフォーマンスを LLaVA、LLaVA-Med、GPT4V と比較しました。

図 | PathChat の複数選択式評価。（出典：本論文）

結果は、臨床コンテキストを提供しなくても、PathChat の診断精度が LLaVA 1.5 および LLaVA-Med よりも大幅に優れていることを示しました。画像のみを評価する場合、すべての複合ベンチマークにおける PathChat の精度は 78.1% で、LLaVA 1.5 よりも 52.4%、LLaVA-Med よりも 63.8% 高くなりました。

臨床コンテキストを提供した後、PathChat の精度はさらに 89.5% に向上し、これは LLaVA 1.5 よりも 39.0%、LLaVA-Med よりも 60.9% 高くなりました。

比較実験を通じて、PathChat は臨床背景だけに頼るのではなく、画像の視覚的特徴から多くの予測機能を獲得できることがわかりました。マルチモーダル情報を効果的かつ柔軟に使用して組織学的画像を正確に診断するには、通常の自然言語によって提供される非視覚情報のみが必要です。

自由形式の質問に対する各モデルの回答の正確さを客観的に評価するために、研究チームは 7 人の病理学者を募集して評価チームを結成しました。 260の自由形式の質問に対する4つのモデルの回答を比較することで、モデル検出の精度を分析しました。

図 | 7 人の病理学者のパネルによる PathChat と Reader Research の一般の反応評価。（出典：本論文）

最後に、7 人の専門家が合意に達することができた自由回答形式の質問では、PathChat の全体的な精度は 78.7% で、GPT-4V、LLaVA 1.5、LLaVA-Med と比較してそれぞれ 26.4%、48.9%、48.1% 高くなりました。一般的に、PathChat は他の 3 つのモデルと比較して優れたパフォーマンスを示します。

研究者らは、PathChatは病理組織画像における微妙な形態の詳細を分析・記述することができ、画像入力に加え、病理学や一般的な生物医学の背景知識を必要とする質問にも答えることができ、病理学者や研究者にとって重要な補助ツールとなることが期待されていると述べた。

PathChat は実験では良好なパフォーマンスを発揮しますが、実際のアプリケーションではまだいくつかの課題に直面しています。たとえば、モデルが無効なクエリを識別して誤った出力を回避できるようにする方法、最新の医学知識でモデルを最新の状態に保つ方法などです。さらに、PathChat のトレーニングデータは主に履歴データから取得されるため、最新の情報ではなく「過去の科学的コンセンサス」を反映している可能性があります。

研究者らは、今後の研究により、ギガピクセル WSI 全体または複数の WSI 入力のサポートや、物体の正確な数え上げや位置特定などのより具体的なタスクのサポートの統合など、PathChat の機能をさらに強化できる可能性があると述べています。さらに、PathChat をデジタルスライドビューアーや電子医療記録などのツールと統合すると、臨床現場での有用性が向上する可能性もあります。

最近、マルチモーダル生成人工知能モデル PathChat 2 がリリースされました。病理画像とテキストを推論し、インタラクティブなスライドビューアーで複数の高解像度画像とテキストの交互入力を受け入れることで、各診察ケースのより包括的な評価を提供します。

PathChat 1 と比較すると、鑑別診断や形態学的説明のパフォーマンスが大幅に向上し、指示の追跡や自由形式の質問への回答、レポートの要約などのさまざまなタスクの実行も向上しています。

参考文献:

https://www.nature.com/articles/s41586-024-07618-3

https://www.modella.ai/intro.html

<<: 水中の「小悪魔」が再び大捜索中！外来種のゴールデンアップルスネイルが在来種よりも危険なのはなぜですか?

>>: 緊急リマインダー！雷雨時に宅配ロッカーを開けると感電の危険があります！