AI モデルに精度が欠ける可能性があるというのは議論の余地のない事実です。幻覚を起こしたり、虚偽の情報を繰り返したりすることは、開発者にとって常に厄介な問題でした。使用事例は非常に多岐にわたるため、AI の精度に関連する定量化可能なパーセンテージを特定することは困難です。研究者チームは、その数字が判明したと主張している。 Tow Center for Digital Journalism は最近、ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search、Copilot を含む 8 つの AI 検索エンジンを調査しました。彼らは各ツールの精度をテストし、ツールが回答を拒否する頻度を記録しました。 研究者らは、20 社のニュース出版社から 200 件のニュース記事 (各社 10 件) をランダムに選択しました。彼らは、記事の抜粋を使用すると、各記事が Google 検索で上位 3 つの結果を返すようにしました。次に、各 AI 検索ツールで同じクエリを実行し、検索が A) 記事、B) ニュース組織、C) URL を正しく引用しているかどうかに基づいて精度を評価しました。 研究者たちはその後、それぞれの検索をその正確さに基づいて「完全に真実」から「完全に偽」までの範囲で分類した。下の図からわかるように、Perplexity の 2 つのバージョンを除いて、他の AI のパフォーマンスは理想的ではありません。全体的に、AI 検索エンジンは 60% の確率で不正確でした。さらに、AI のこれらの誤った結果に対する「自信」も、誤った結果を強化します。 この研究が興味深いのは、私たちが何年も前から知っていたことを定量的に確認している点です。つまり、法学修士は「史上最も洗練された嘘つき」だということです。彼らは、たとえ事実でなくても、自分の言っていることは真実であると完全な権威を持って報告し、時には質問されると反論したり、他の誤った主張をでっち上げたりすることさえあります。 2023 年の逸話的な記事で、テッド・ジョイア (The Honest Broker) は、多数の問い合わせに対してボットが自信を持って「嘘をついている」ことを示す ChatGPT の応答が数十件あることを指摘しました。いくつかの例は敵対的な質問ですが、多くは単なる一般的な質問です。 ChatGPT は間違いを認めた後も、さらに誤った情報を提供し続けました。 LLM は、ユーザーからのすべての入力にどんな犠牲を払ってでも応答するようにプログラムされているようです。研究者のデータはこの仮説を裏付け、ChatGPT Search が 200 件の記事クエリすべてに回答できる唯一の AI ツールであることがわかりました。しかし、完全に正確だったのはわずか 28% で、完全に不正確だったのは 57% でした。 ChatGPTは最悪ではありません。 X の Grok AI の両方のバージョンのパフォーマンスは低かったが、Grok-3 Search は 94% の精度を達成した。 Microsoft の Copilot もあまり良い結果は出ず、200 件のクエリのうち 104 件に回答しませんでした。残りの 96 件のクエリのうち、「完全に正しい」のは 16 件、「部分的に正しい」のは 14 件、「完全に間違っている」のは 66 件で、精度は約 70% でした。 おそらく、このすべての中で最もクレイジーなのは、これらのツールを製造している企業が、一般の人々に月額 20 ドルから 200 ドルを請求しながら、この精度の欠如について透明性を保っていないことです。さらに、Perplexity Pro (月額 20 ドル) と Grok-3 Search (月額 40 ドル) は、無料バージョン (Perplexity および Grok-2 Search) よりもわずかに多くのクエリに正しく応答しますが、エラー率も大幅に高くなります (上記)。 しかし、誰もが同意するわけではありません。 TechRadar の Lance Ulanoff 氏は、ChatGPT Search を試した後、二度と Google を使うことはないかもしれないと述べています。彼はこのツールは高速、明確、正確で、インターフェースがシンプルで広告がないと説明しました。 |
<<: 何千人もの研究開発チームを抱える NIO のインテリジェント運転の進歩はなぜ業界より 2 歩遅れているのでしょうか?
混合知識混乱を治すために特別に設計されています!...
今後数日のうちに、「iPhone 6」という名前が、主要なテクノロジーおよび非テクノロジーニュースの...
この記事の専門家:胡侯祥、四川北医学院付属病院心臓科主任医師、教授、医学博士、マスター指導者鄭在勇、...
北京時間12月30日のニュースでは、AppleがインドでiPhoneなどの製品を生産する準備をしてい...
監査専門家:張宇紅鄭州大学付属鄭州中央病院皮膚科主治医数日前、ハイキングに行ったとき、靴が足に合わな...
【2.13 世界ラジオデー】一枚の写真でわかる!中国のラジオの発展...
中国台湾省の電子機器ブランド、ギガバイトは、公式ウェブサイトに不適切なコンテンツを掲載したことで告発...
「確認しました。Xiaodu の電話が来ます。」 5月9日、小度科技のCEOであるJing Kun氏...
カニは非常に一般的な魚介類です。この種の魚介類は栄養価が高く、タンパク質が豊富で、カニの肉は美味しい...
果物の中には、皮の近くの部分に最も栄養価の高いものがあります。皮を直接剥くと、栄養分が失われてしまい...
150年以上前、一人の女性がイギリスから出発し、世界一周の一人旅を始めました。過去14年間にわたり...
1960 年 5 月 22 日、南米チリの海岸で、人類史上最も激しい地震、マグニチュード 9.5 ...
ロイター通信は、OLED(有機発光ダイオード)が一般市場で普及するまでには何年もかかることから、サム...
少し前に、ネットユーザーが撮影したオウムの面白い動画が話題になった。動画に映っているオウムは「紙をち...
千切りジャガイモは多くの人に好まれています。この種の食品には、特にタンパク質やその他の微量元素など、...