原題:「真実の瞬間:Wikipedia は AI の継続的な改善を支援する過程で自らを破壊するのか?」 © テッククランチ リヴァイアサンプレス: 現在、ChatGPT バージョン 3.5 を使用しています。この記事の冒頭の Wiki エディターと同様に、ChatGPT は多くの場合ナンセンスでいっぱいであることがわかりました... 多くの場合、いくつかの誤った事実を真剣に捏造するだけでなく、間違いを指摘すると、2 番目の回答がまだ間違っている場合でも、すぐに回答が変更されます。 これは間違いなく編集者にとって非常に不快な経験です。これは Wikipedia が人工知能と異なる点を示すときです。一部のエントリは繰り返し編集されるうちに当然ながら議論を呼ぶものになりますが、「NPVO」の原則によれば、事実に基づく記述は ChatGPT よりもはるかに信頼性が高いです。 2021年初頭にウィキペディアの編集者が初めてChatGPT 3を試したとき、言語モデルにはエラーがたくさんあることがわかった。事実を勝手に作り上げ、記事をランダムに引用していたのだ。しかし同時に、彼はこのツールの大きな可能性にも気付き、近い将来に彼の愛するウィキペディアに取って代わるだろうと固く信じていました。編集者はこの件について「Wikipedia の死」というタイトルの記事を書きました。 © マッシュブル 今、2年が経過し、ChatGPTはバージョン4にアップデートされました。 Wikipediaも今年1月に22周年を迎えました。では、現在両者の間にはどのような関係があるのでしょうか? ジャーナリストで作家のジョン・ガーンター氏は、ニューヨーク・タイムズ紙の記事「真実の瞬間:ウィキペディアはインテリジェントチャットボットのパフォーマンス向上を支援することで自滅するのか?」で、この疑問を深く探究しました。 》(真実の瞬間: Wikipedia は、その過程で自らを破壊することなく、テクノロジー AI チャットボットが事実を正しく理解するのを支援できるか?) Wikipedia の歴史を振り返ると、私たちはインターネットの黄金時代に戻ったようです。当時は、インターネットに接続できる限り、誰もが無料で人類のあらゆる知識を学び、共有することができました。 現在、Wikipedia には 334 の言語で書かれた 6,100 万件以上の記事があります。 Wikipedia は長い間、最も訪問されているウェブサイトのリストに載っており、同じくリストに載っている Google、Youtube、Facebook とは異なり、常に広告を拒否し、寄付によってのみ資金を得ています。 さらに、すべての寄稿者は報酬を受け取りません。このグループは 1 分あたり 345 回の編集を保証します。 © ウィキペディア 今日、Wikipedia は単なる電子百科事典ではなく、デジタル世界全体を結び付け、人々に信頼できる情報源を提供する知識ネットワークとなっています。私たちが Google/Bing/Alexa/Siri で検索して学ぶ知識のほとんどは Wikipedia から得たものであり、YouTube も噂に対抗するために Wikipedia を利用しています。 もちろん、インテリジェント チャットボットも例外ではありません。 Wikipedia は彼らのトレーニング プロセスにおいて極めて重要な役割を果たし、おそらく最も重要な役割を果たします。 サイモンフレーザー大学の研究者ニコラス・ヴィンセント氏は、Wikipediaなしでは強力な人工知能は生まれないと考えているが、ChatGPTのような大規模な言語モデルの人気がWikipediaの終焉につながる可能性もあると考えている。 今年3月に開催された会議では、人工知能がWikipediaに及ぼす脅威について議論されました。編集者たちは複雑な思いを抱いている。彼らは人工知能がWikipediaの急速な発展に貢献できると信じているが、同時に、人々が質問への回答としてWikipediaよりもChatGPTを好むようになることを懸念している。Wikipediaのやや古風で堅苦しいエントリーに比べると、ChatGPTの回答は明らかにより理解しやすく自然だからだ。 会議での議論の結果、次のような合意が得られました。「私たちは、すべての知識が人間によって生み出され、構築される世界に住みたい。」しかし、今となっては、ちょっと遅すぎたでしょうか? 実際、ウィキメディア財団のコミュニティとそのボランティアは、2017年の早い段階で、2030年までに世界の知識をさらに発展させ、永続的に保存し共有する方法について話し合っていました。当時、彼らは人工知能の出現によって知識の収集、組み合わせ、統合の方法がどのように変化したかに気づきました。 Wikipediaが開発中に遭遇した課題 今日の大規模言語モデルは、Wikipedia に加えて、Google 特許データベース、政府文書、Reddit の質問と回答、オンライン ライブラリ、膨大な量のオンライン ニュースからの情報も幅広く吸収しています。しかし、シアトルのアレン人工知能研究所のコンピューター科学者ジェシー・ドッジ氏は、Wikipedia の貢献は比類のないものだと考えている。それは、Wikipedia が大規模言語モデルのトレーニングに使用されるデータ全体の 3% ~ 5% を占めているだけでなく、最大規模かつ最も慎重に選別されたデータベースの 1 つだからでもある。 © エリック・カーター 現在、Wikipedia 編集者は AI と Wikipedia の関係について白熱した議論を交わしていますが、これは 10 年前の Google と Wikipedia の関係についての議論と多少似ています。当時の結論は、Google と Wikipedia は相互に利益があり、調和して共存しているというものでした。つまり、Wikipedia によって Google はより優れた検索エンジンとなり、Wikipedia も Google から多くのトラフィックを獲得しているということです。 もちろん、Google や他の検索エンジンと密接な関係を維持することで、Wikipedia にいくつかの存在的危機ももたらされました。Google に「ロシア・ウクライナ戦争とは何ですか?」と尋ねたらどうなるでしょうか? Wikipedia の記事の内容を引用して簡潔に要約しており、読者は 10,000 語以上と 400 本の脚注がある Wikipedia の記事を読むよりも、Google の回答を好むことが多いです。 さらに、これは平均的な人が世界に対する理解を過度に単純化することにつながり、また、Wikipedia が若い世代のコンテンツ寄稿者を採用する能力にも影響を与えるでしょう。 2017年の調査[1]では、Wikipediaへの訪問数が実際に減少していることが示されました。さらに、インテリジェントなチャットボットの出現により、このプロセスは加速しました。 ウィキメディア財団の機械学習研究グループの責任者であるアーロン・ハルフェイカー氏は、検索エンジンは簡潔な回答を提供するものの、少なくとも人々がウィキペディアのページに戻れるようにソースリンクを掲載するだろうと述べた。一方、大規模言語モデルは、引用や証拠なしに情報を流暢な言語に統合するだけであり、人々は答えのソースを知る方法がありません。これにより、AI は Wikipedia にとってより強力な敵となり、潜在的にさらに有害で、競争するのが困難になります。 Wikipedia 自身の欠点と解決策 もちろん、Wikipedia は完璧からは程遠い。まず、40,000 人の英語編集者のうち 80% が男性で、75% が白人アメリカ人男性であるため、Wikipedia のコンテンツには性別や人種の面で偏りが生じている。 第二に、Wikipedia の記事の信頼性は安定していません。ジョージア工科大学のエイミー・ブルックマン教授は、Wikipedia では何千人もの人が編集した長い記事の品質はかなり保証されているものの、短い記事の中には間違っているものやまったくのゴミであるものもあると考えています。 © ウィキペディア これには、編集者が誤謬との長期にわたる戦いに従事することが必要になります。経験豊富な編集者は、事実の根拠が欠けている、または検証できない内容を含むように記事を編集します。さらに、編集規定では、コンテンツ編集者が「NPVO」(中立的な視点)を維持することを義務付けています。 AIツールの問題点と解決策 対照的に、インテリジェントなチャットボットにとって、真実への道はさらに困難で危険です[2]:ChatGPTは事実を勝手に捏造し、存在しない文献をランダムに引用します(この用語は「幻覚」と呼ばれる偽情報です)。ロシア・ウクライナ戦争の分析など、複雑な事実を単純化しすぎることになる。ランダムな医学的アドバイスも提供します... 今年4月、スタンフォード大学の科学者たちは、AIツールを組み込んだ4つの検索エンジン(Bing Chat、NeevaAI、perplexity AI、YouAI)をテストし、生成された回答のうち事実の検証に耐えられるのは半分程度しかないことを発見しました[3]。 © モバイルシロップ これはなぜでしょうか?理由は簡単です。チャットボットの目的は絶対的な真実や正確さを求めることではなく、与えられた文脈と確率に基づいて合理的な応答を生み出すことです[4]。この選択は統計データと言語モデルに基づいている可能性があるため、100% 正確ではない可能性があります。 回答の正確さは、インテリジェントなチャットボットを開発し、トレーニングする企業が追求する第一の目標ではないでしょうか?一般の人々にとって、これはほとんど疑問の余地のない質問です。しかし、コンピューター科学者で元Google研究者のマーガレット・ミッチェル氏によると、現在の激しい商業競争の段階では、企業は本物であることや信頼性があることよりも、AI製品をできるだけ早く一般に公開することに重点を置いているという。 (ちなみに、ミッチェル氏はこの分野におけるグーグルの方向性を批判したために解雇された。) それでも、ミッチェル氏は見通しは明るいと考えており、高品質の情報を使用してモデルをトレーニングすると精度が大幅に向上することを確認している。しかし、現在の AI 製品のデータトレーニング方法は「自由放任主義」であり、良い情報か悪い情報かに関係なく、可能な限り多くの情報がモデルに入力されます。入力される情報が多いほど、出力される情報の品質が高くなるという前提です。むしろその逆です。高品質な情報を得るためには、高品質な情報をすべて入力してください。 さらに、市場競争はインテリジェントチャットボットの自己改善にも役立ちます。たとえば、OpenAI は回答の正確さに細心の注意を払う多くの商業企業と提携しています。さらに、Google が開発した人工知能システムは、医療分野の専門家と緊密に協力し、病気の診断や治療を模索してきました。 © ザ・サイムズ 以前のバージョンと比較すると、ChatGPT 4 は「事実の内容」を含む回答の提供において大きな進歩を遂げていますが、複雑で多面的な歴史的な質問に正確に答えられるようになるまでには、まだ長い道のりがあります。このようなインテリジェントなチャットボットでは、正確性、創造性、流暢さの間で常に緊張関係が存在します。開発の目標は、単に知識を「暗記」して受け取れるようにすることではなく、知識のパターンを見抜いて、わかりやすい言葉でユーザーに伝えることです。 両者の協力の現状 記者は6月末、ウィキメディア財団がChatGPT用に開発したプラグインを試してみた。 ChatGPT4 は現在、トレーニングが終了した時点(2021 年 9 月)までのすべての知識を保持しています。このプラグインにより、これまでのすべての情報にアクセスできるようになります。これにより、ユーザーは両方のツールの利便性を同時に享受できます。Wikipedia の知識は正確かつタイムリーであり、インテリジェントなチャットボットはそれを流暢で自然な言語で出力できます。同時に、ChatGPT は情報源である Wikipedia ページもリストします。 Wikipedia では、新規ユーザーをより良くサポートしたり、編集作業を支援したりするために、いくつかの AI モデルを内部化しています。しかし現時点では、Wikipedia コミュニティは、完全に人工知能によって編集された記事に対して依然としてかなり抵抗感を持っています。また、編集者たちは、強力で眠らない敵、つまり大量のコンテンツを瞬時に生成できる人工知能を前に、人間の編集者がコンテンツのレビューに費やした努力は無駄になり、最終的には失敗するのではないかと非常に心配しています。 現状から判断すると、人工知能に反対するいかなる動きも非合理的である。非常にありそうなシナリオは、Wikipedia のような組織が生き残るためには、人工知能に影響を与えたり阻止したりするのではなく、人工知能によって作り出された未来に適応するよう努めなければならない、というものです。 © アナリティクスインサイト もちろん、インタビューを受けた多くの学者やWikipedia編集者も、AI優位への道は容易ではなく、多くの障害に直面するだろうと考えています。 1 つ目は社会的なものです。欧州議会は現在、人工知能製品の使用を規制するための一連の法律や規制の制定に取り組んでいます。たとえば、テクノロジー企業に人工知能によって生成されたコンテンツを表示することを義務付けるなどです。人工知能の訓練に使用されるデータを開示すること。情報源を明記し、許可なく他のウェブサイトやデータベースリソースを使用しないこと。 2つ目は技術的なものです。実際、この記事の冒頭では、Wikipedia や Reddit コミュニティが提供する膨大なデータがなければ、大規模な言語モデルをトレーニングすることはまったく不可能であると強調されています。人工知能の研究開発企業は、これらのデータベースの重要性を十分に認識しており、Wikipedia などの Web サイトに交渉の切り札を与えています。 さらに、今年5月末には、AI研究者のグループが共同で論文[5]を発表し、人間が作成したデータベースをトレーニングに使用せずに、AIモデルによって生成された知識のみに基づいて新しいAIシステムが自ら開発できるかどうかを調査しました。その結果、研究者らは、これが体系的な崩壊、いわゆる「モデル崩壊」につながる可能性があることを発見した。AIを使用して合成されたデータは不正確または非現実的な場合があり、混乱を招く可能性があり、それが次世代モデルのトレーニングデータセットに悪影響を及ぼし、現実世界に対する理解に偏りをもたらす可能性がある。 Wikipedia プラグインはこれを防ぐことができますが、将来的に Wikipedia が人工知能によって生成された記事でいっぱいになると、同じ問題が発生します。つまり、新世代の言語モデルが自己矛盾した循環論法の状態に陥ることになります。 結局のところ、この研究は、実際の人とのやりとりによって生成されたデータが、将来の大規模言語モデルの開発にとって非常に貴重であることを証明しており、これは Wikipedia 編集者にとって喜ばしいニュースです。少なくともしばらくの間は、人工知能が信頼でき、役に立つものになるためには、私たち人間の協力が必要になるでしょう。 しかし、これには「アライメント」と呼ばれる理論的概念が関係しており、人工知能は人類にとって最善の利益であると仮定しています。 AI と人間が同じ立場にあることを保証することは、AI 開発における大きな課題であると同時に主要なタスクでもあります。 現実の人間の利点は、人間の本性により、同盟を形成するためのいくつかの条件が自然に備わっていることです。たとえば、ある人々が高品質の教育リソースを共有しようとする動機は、たまたま他の人々のニーズを満たすことになります。著者はついにウィキペディアの英語版編集者であるジェイドにインタビューしました。ジェイドは知識の共有が人生のモットーだと言っており、週に10~20時間をウィキペディアの編集に費やしています。 現在、彼女はアメリカ南北戦争に関する記事の編集に取り組んでおり、その記事は年間484万回以上読まれています。彼女の目標は、Wikipedia の「注目」認定を受けるまで記事を改善し続けることです。これは非常に稀な認定です。英語版ウィキペディアのコンテンツのうち、この認定の対象となるのはわずか 0.1% です。 最後に、記者はジェイドに、人工知能が彼女の仕事に完全に取って代わると思うかどうか尋ねた。ジェイドは、自分は楽観主義者であり、少なくとも今世紀においては、ロボットがウィキペディアの編集において人間に完全に取って代わることはないだろうと答えた。 しかし、記者自身はそう確信していない。結局のところ、ChatGPTとのチャット経験に基づくと、人工知能は情報交換の正確さや詳細さの点ではまだ完璧ではないものの、人間とコンピューターの相互作用の経験は彼を魅了するのに十分でした。すべてがとても簡単です。 (原文は編集されています) 参考文献: [1]ojs.aaai.org/index.php/ICWSM/article/view/14883/14733 [2]www.nytimes.com/2023/05/01/business/ai-chatbots-hallucination.html [3]arxiv.org/pdf/2304.09848.pdf [4]www.nytimes.com/2022/04/15/magazine/ai-language.html [5]arxiv.org/pdf/2305.17493.pdf ジョン・ガートナー パンプキンキング編集 校正/時間 オリジナル記事/www.nytimes.com/2023/07/18/magazine/wikipedia-ai-chatgpt.html この記事はクリエイティブ・コモンズ・ライセンス(BY-NC)に基づいており、ジョン・ガートナーがLeviathanで公開しています。 この記事は著者の見解を反映したものであり、必ずしもリヴァイアサンの立場を代表するものではありません。 |
<<: 週刊サイエンストーク丨小さな触媒が空気の質の改善に役立つか?
>>: 運動後、他の人の顔は赤くなるのに、私の顔は青白くなるのはなぜでしょうか?注意を払う必要がある状況があります。それは致命的になる可能性があります。
2013.02.25@マーケティングチャートCPC Strategy の最近の調査データによると、G...
このほど、中国最大のイノベーターコミュニティであるGeek Parkが2023年の「中国イノベーショ...
業界で「価格破壊者」として知られるWMモーターは、サプライヤーの「バッテリー自然発火」事件により、製...
ライスヌードルは私たちの生活の中で一般的な食べ物であり、多くの消費者にとってお気に入りの食べ物でもあ...
地球を「物理的に検査」し、その「内部の秘密」を発見する方法がある。あなたはそれを信じる勇気があります...
生活環境がますます改善される時代となり、食前食後には多くの人が多くの社交行事に直面するようになりまし...
インターネットでは、時間は存在せず、人間の幻想であり、いわゆる 4 次元時空時間軸は誤った命題である...
「原爆の父」オッペンハイマーは物議を醸す有名人だ。映画「オッペンハイマー」は、死後56年を経て、再び...
我が国がこれまで発表してきた5G開発スケジュールでは、2020年は常に5G商用化の開始点とみなされて...
少し前に、私たちの同僚の一人が新しい家を購入したのですが、住宅検査官の助けを借りて、何十もの問題点が...
Windows Phone フォンは以前は主に Nokia によって販売されていました。あまり人気...
多くの人はかまぼこが何であるか知らないかもしれませんし、かまぼこは私たちの生活の中であまり一般的な食...
COVID-19パンデミックの発生から2年が経過したが、空港が乗客を呼び戻すための継続的な取り組み...
透明なものといえば何を思い浮かべますか?それはガラス、プラスチック、ダイヤモンド、それとも水でしょう...
バラは観賞用の花であるだけでなく、健康価値も高いため、誰もがよく知っています。バラは気と血の循環を促...