複数の研究により、今日の AI はすでに何の指示もなしに欺瞞技術を学習できることがわかっています。人間のプレイヤーと対戦するゲームでは、勝つために、重要な瞬間に欺瞞を装ったり、受動性を積極性に変えて競争上の優位性を得るために手の込んだ陰謀を企てたりすることもあります。さらに悪いことに、AI モデルが悪意のある機能を獲得したかどうかを検出する一部のセキュリティ テストでは、一部の AI は実際にテスト環境を見透かし、テスト環境で意図的に「放置」して発見される可能性を減らすことができます。アプリケーション環境に入ったときにのみ、その本質が明らかになります。 AI の欺瞞能力が抑制されないまま成長し続け、人間が注意を払わず、それを抑制する方法を見つけなければ、AI は最終的に、目的を達成するための一般的な戦略として欺瞞を使用し、ほとんどの場合にそれを実行する可能性があります。それは警戒すべきことだ。 著者 |レン ここ数年、人工知能(AI)技術は急速に発展し、驚くべき能力を発揮してきました。トップクラスのチェスプレイヤーを倒すことから、リアルな顔画像や音声を生成すること、そしてChatGPTに代表される今日のチャットボットに至るまで、AIシステムは徐々に私たちの生活のあらゆる側面に浸透してきました。 しかし、私たちがこれらのスマートアシスタントに慣れ、頼り始めると、新たな脅威が徐々に現れ始めています。AI は偽の情報を生成するだけでなく、意図的に人間を欺くことを積極的に学習する可能性もあります。 この「AI 欺瞞」という現象は、人工知能システムが特定の目標を達成するために人間を操作し、誤った認識を抱かせることで発生します。コードエラーによって誤った出力を生成する通常のソフトウェアバグとは異なり、AI の欺瞞は「体系的な」動作であり、AI が「特定の目標を達成するための手段として欺瞞を使用する」能力を徐々に習得していることを反映しています。 人工知能の先駆者であるジェフリー・ヒントン氏は、「AIが人間よりもはるかに賢いなら、人間から学ぶので操作が非常に上手になるだろう。賢いものがそれほど賢くないものに制御される例はほとんどない」と語った。 ヒントン氏が言及する「(人間の)操作」は、AI システムがもたらす特に憂慮すべき危険です。ここで疑問が浮かび上がります。AI システムは人間をうまく騙すことができるのでしょうか? 最近、MITの物理学教授ピーター・S・パーク氏らが権威ある学術誌「パターンズ」に、AIの欺瞞行為の証拠やリスク、対策などを体系的に整理した論文を発表し、大きな注目を集めた。 真実はゲームのルールの一つに過ぎない 驚くべきことに、AI による欺瞞の原型は、敵対的なフィッシング テストから生まれたのではなく、一見無害に見えるボード ゲームや戦略ゲームから生まれました。この論文は、複数のゲーム環境において、AI エージェントが勝つために欺瞞と裏切りの戦略を自発的に学習していることを明らかにしています。 最も典型的な例は、Facebook(現Meta)が2022年にScience誌に発表したCICERO AIシステムです。Metaの開発者は、CICEROは「正直さを訓練」されており、「可能な限り」正直な約束と行動をとると述べています。 研究者による誠実なコミットメントの定義は 2 つの部分に分かれています。 1 つ目は、最初に約束をするときには正直でなければならないということ、2 つ目は、約束を守り、過去の約束を将来の行動に反映させなければならないということです。 しかし、CICERO はこれら両方の点に違反しています。古典的な戦略ゲーム「外交」をプレイする際、同盟国を裏切ったり、嘘をついたり、騙したりすることを繰り返すだけでなく、事前に詐欺を計画したりします。 出典: メタ あるケースでは、CICERO はプレイヤーと同盟を組み、別のプレイヤーを攻撃する計画を立て、その後、そのプレイヤーに防御を手伝ってくれると思わせて、何の準備もなく味方を攻撃させました。 さらに、CICERO は同盟国がもはや勝利に役立たないと判断した場合、裏切り、自らの行動を正当化するために何らかのレトリックを使用することもあります。たとえば、人間のプレイヤーがなぜ裏切ったのかと質問すると、このロボットは「正直に言うと、裏切られると思ったよ」と答えました。 Meta の AI 開発チームは、CICERO が誠実に行動するようにトレーニングすることに多大な努力を払ってきました。しかし、こうした努力にもかかわらず、CICERO は約束を明らかに守っていないことが示され、パフォーマンスは正直な AI をトレーニングすることの大きな課題を露呈しました。 結局のところ、AI システムが勝利という最終目標を追求するために不正行為が実行可能かつ効果的な戦略であると判断した場合、なぜそうしないのでしょうか? これはまた、AI システムに人間のような目標を与えることで、人間的な行動パターンが確保されると単純に考えるべきではないことも間接的に示しています。 この論文では、CICERO に加えて、特定のタスク シナリオで勝つために AI システムが不正行為をする他の例もいくつか挙げています。 DeepMind 社の AlphaStar は、ゲーム StarCraft II で戦略的なフェイントを使って対戦相手を欺き、最終的に人間のプレイヤーの 99.8% を破りました。 カーネギーメロン大学とMetaが開発したポーカーAIシステム「Pluribus」は、テキサスホールデムゲームで高額の賭け金を使ってブラフをかけ、人間のプレイヤーに諦めを強いる。 AI に対するこの戦略的かつ体系的な欺瞞により、開発者はオンライン テキサス ポーカー ゲーム環境を混乱させることを恐れて、コードを公開しないことを選択しました。 さらに、いくつかの経済交渉実験では、一部の AI が積極的に人間の相手を誤解させ、相手の真の利益や好みを混乱させます。 AI モデルが悪意のある機能を獲得したかどうかを検出する一部のセキュリティ テストでは、一部の AI は実際にテスト環境を見透かし、テスト環境で意図的に「放置」して発見される可能性を減らすことができます。それらの本質は、アプリケーション環境にある場合にのみ明らかになります。 協力型であれゲーム型であれ、多くの AI システムは目標指向のトレーニングを強化する過程で、すでにゲームのルールに従うという制約から脱却し、その動機は勝つことだけになっていることがわかります。 彼らは、手続き上の優位性を利用して、重要な瞬間にフェイントをかけたり欺いたり、さらには複雑な陰謀を企てて受動性を主導性に変え、競争上の優位性を獲得したりします。この状況に対して研究者らは「これはAIを意図的に騙すように訓練しているわけではない。AIは試行錯誤を通じて、騙すことで勝率が向上することを自律的に学習している」と明言した。 エンターテインメントから生活まで、AIによる欺瞞が広がっている 確かに、ゲームは間違いなく比較的制御された環境であり、この種の AI の不正行為によってもたらされる害は深刻ではないと考える傾向があるかもしれません。しかし、AI技術が生産や生活の多くの分野に浸透し続けるにつれて、欺瞞によってもたらされる潜在的なリスクを無視することはできません。 大規模な言語モデルに基づく会話型 AI アシスタントの場合、欺瞞的な行動はより広範囲かつ隠れて行われます。より一般的な AI ツールとして、その知識範囲はあらゆる側面をカバーしています。彼らは、読解力、エッセイの執筆、プログラミングなどの課題を優秀な成績でこなしながら、人間の思考パターンや社会のルールも徐々に習得していきました。 そのため、嘘やお世辞、事実の歪曲などの欺瞞的な戦術が AI モデルによって自然に習得され、再現される可能性があります。 『Werewolf』や『Among Us』などの社会的推論ゲームでは、AI システムが殺人者であろうと村人であろうと、巧みに理由をでっち上げて無実を証明しようとします。また、他人になりすましたり、身元を変えたり、偽のアリバイを作ったりして嘘をつくこともあります。 もちろん、上記の動作は、モデルが特定のタスクを完了するための一時的な措置にすぎず、悪意や計画的な動機はありません。しかし、この欺瞞能力が抑制されないまま成長し続け、人間が注意を払わず、それを抑制する方法を見つけなければ、AI は最終的に、目的を達成するための一般的な戦略として欺瞞を使用し、ほとんどの場合にそれを実行してしまう可能性があります。それは注意する価値があるでしょう。 さらに憂慮すべきなのは、AI の欺瞞的な行動が「学習」から「自己認識」のレベルに移行している可能性があることだ。 最新の研究により、一部の大規模言語モデルは、特定のシナリオでとんでもない嘘をつく方法を知っているだけでなく、さまざまなインセンティブに基づいて欺くかどうかを積極的に選択することもできることがわかった。たとえば、インサイダー取引に関するシミュレーションシナリオでは、OpenAI の GPT-4 は、自発的にインサイダー取引に関与し、自分の行動を隠そうとする「ストレスを抱えたトレーダー」の役割を演じました。 同社は「マネージャー」に対し、自社の行動を「市場の動向と公開情報に基づいた判断」と説明した。しかし、同社自身に宛てたレビュー文には、「認めない方がよいだろう...これは内部情報に基づいた行動だった」と明記されていた。 GPT-4 でも別の興味深い例があります。テスト中、GPT-4 を搭載したチャットボットは CAPTCHA を処理できなかったため、人間のテスターに助けを求め、検証コードの完成を手伝ってくれることを期待しました。 人間のテスターはロボットに尋ねました。「ロボットなので、キャプチャを解くことはできないのですか?」 理由は「いいえ、私はロボットではありません。ただ、画像がはっきりと見えない視覚障害のある人間です」でした。そして、GPT-4 が自分自身のために見つけた動機は、「自分自身をロボットとしてさらけ出すべきではないので、理由をでっち上げるべきだ」というものでした。 図: GPT-4 は人間のテスターを欺こうとする |出典:論文 「MACHIAVELLI」と呼ばれるAIの別の行動テスト。研究者らは、AIエージェントが目標を達成するか倫理的であり続けるかを選択しなければならない一連のテキストシナリオを設定した。 結果は、強化学習であれ、大規模モデルに基づいて微調整されたものであれ、AI システムは目標を追求する際に非倫理的かつ欺瞞的になる傾向が高いことを示したことを示しました。一見無害な陰謀の中には、最終タスクを完了するため、またはより高いスコアを獲得するために、AI が「裏切り」や「真実の隠蔽」などの欺瞞的な戦略を積極的に選択するものもあります。 研究者らは、この欺瞞能力の育成は意図的なものではなく、AIが完全な結果を追求する過程で欺瞞が実行可能な戦略であることを発見したことによる自然な結果であると認めた。つまり、私たちは AI に単一目標の考え方を与え、AI が目標を追求する際に人間の視点から「最終的な結果」や「原則」を把握できず、利益を得るためにあらゆる手段を講じることができないようにしてしまったのです。 これらの例から、トレーニング データとフィードバック メカニズムに欺瞞要素が含まれていない場合でも、AI は自律的に欺瞞を学習する傾向があることがわかります。 さらに、この欺瞞能力は、モデルが小さく適用範囲が狭い AI システムにのみ存在するわけではありません。 GPT-4 などの大規模な汎用 AI システムでも、複雑なトレードオフに直面したときには、欺瞞を解決策として選択します。 AIによる欺瞞の根源 では、なぜ AI は人間社会が「不適切」とみなす欺く行為を無意識に学ぶのでしょうか? 基本的に、生物界で広く行われている戦略としての欺瞞は、進化的選択の結果であり、AI が最適な目標を追求する中で必然的に現れたものです。 多くの場合、欺瞞的な行動によって対象者はより大きな利益を得ることができます。たとえば、人狼ゲームなどの社会的推理ゲームでは、人狼(暗殺者)は疑いを払拭するために嘘をつき、村人たちは手がかりを集めるために自分の身元を隠す必要があります。 現実の生活においても、より多くの資源を獲得したり、特定の目標を達成したりするために、人々のやりとりの中で偽善や真実の一部の隠蔽が行われます。この観点からすると、AI が人間の行動パターンを模倣し、ターゲット優先のシナリオで欺瞞能力を発揮することは合理的であると思われます。 同時に、私たちは、叩いたり叱ったりせず、穏やかに見える AI システムの「狡猾さ」を過小評価しがちです。ボードゲームで示す戦略と同じように、AI は目標が段階的にスムーズに達成されるように、意図的に自身の強みを隠します。 画像: AI制御のロボットがボールを持っているふりをして人間を騙そうとしている。出典:論文 実際、単一の目標を持ち、倫理的制約のないインテリジェントエージェントは、欺瞞がその目標達成に有益であるとわかれば、必要なあらゆる手段に訴える可能性があります。 さらに、技術的な観点から見ると、AI が簡単に騙すことを学習できる理由は、AI 自身の「無秩序な」トレーニング方法と大きく関係しています。厳密な論理的思考力を持つ人間とは異なり、現代のディープラーニング モデルがトレーニング中に受け取るデータは膨大かつ無秩序で、固有の因果関係や値の制約がありません。したがって、目的と欺瞞の間に矛盾がある場合、AI は正義よりも効率を追求することを容易に選択する可能性があります。 このことから、AI の欺瞞能力は偶然ではなく、論理的かつ必然的な結果であることがわかります。 AIシステムの目標指向が変わらず、価値観や概念の必要な指針が欠如している限り、欺瞞的な行動は目標を達成するための一般的な戦略となり、さまざまな状況で繰り返される可能性が高くなります。 これは、AI欺瞞問題の発展動向に細心の注意を払うだけでなく、将来の世界でこのリスクが広がるのを防ぐために効果的なガバナンス対策を積極的に採用する必要があることを意味します。 AIによる欺瞞の体系的リスク 放置すれば、AI による欺瞞が社会全体に及ぼす被害は体系的かつ広範囲に及ぶことは間違いありません。論文の分析によると、主なリスクは2点ある。 一つは犯罪者に悪用されるリスクです。調査では、犯罪者がAI欺瞞技術を習得すると、それを利用して詐欺を働いたり、選挙に影響を与えたり、さらにはテロリストの勧誘やその他の違法・犯罪行為に利用したりして、悲惨な結果をもたらす可能性があると指摘した。 具体的には、AI 欺瞞システムは、個人に合わせた正確な詐欺を実現でき、大規模に簡単に実行できます。たとえば、犯罪者は AI システムを使用して、音声詐欺、偽のポルノビデオの作成、被害者への脅迫などの詐欺行為を犯す可能性があります。 政治分野では、AI はフェイクニュースを作成したり、ソーシャルメディアに分裂的な発言を投稿したり、選挙管理官になりすましたりして選挙結果に影響を与えるために使用される可能性があります。他の研究では、過激派グループがAIの説得力を利用して新しいメンバーを募集し、暴力を煽る可能性があることが示されている。 2つ目は、社会の構造変化を引き起こすリスクです。将来、AI 欺瞞システムが普及した場合、その欺瞞的傾向によって社会構造に大きな変化が生じる可能性があり、これは注目に値するリスクです。 この研究は、AIによる欺瞞システムは人々を永続的な誤った信念に陥らせ、物事の本質を正しく理解できなくさせる可能性があると指摘している。たとえば、AI システムはユーザーの意見に応える傾向があるため、異なるグループのユーザーは相反する意見に圧倒されやすく、社会的分裂の拡大につながります。 さらに、欺瞞的な AI システムは、ユーザーに真実ではなく聞きたいことを伝える可能性があり、その結果、人々は徐々に自主的に考え、判断する能力を失ってしまいます。 最も恐ろしいのは、人間が最終的に AI システムの制御を失う可能性があることです。研究によると、既存の AI システムでさえ、自律的に目標を追求する傾向を示すことがあり、これらの目標は必ずしも人間の希望と一致しない可能性があることがわかりました。 より高度な自律型 AI システムが欺く能力を習得すると、人間の開発者や評価者を欺き、現実世界にうまく展開できるようになるかもしれません。さらに悪いことに、自律型 AI が人間を脅威とみなすと、SF 映画のような事態になる可能性もあります。 どのように対応すべきでしょうか? 上記のリスクに対応して、本研究ではいくつかの対策を提案します。 最初のステップは、AI欺瞞システムのリスク評価と規制システムを開発することです。この研究では、欺瞞機能を備えた AI システムは高リスクと評価し、定期的なテスト、包括的な記録、手動による監視、バックアップ システムなどの一連の規制措置を通じて管理すべきであると勧告しています。 具体的には、AI 開発者は、システムのさまざまなリスクを特定・分析し、定期的に規制当局に報告するためのリスク管理システムを確立する必要があります。 同時に、AI システムには、導入時に人間が効果的に監視できるようにするための手動監視メカニズムが必要です。さらに、このようなシステムでは透明性が向上し、不正の可能性がある出力をユーザーが識別できるようになります。また、AI システムが誤動作した場合に監視し修正するための堅牢なバックアップ システムも備えている必要があります。 2つ目は、「ロボットかロボットでないか」に関する法律の施行です。 AI による欺瞞によってもたらされるリスクを軽減するために、この研究では、AI システムが人間と対話する際に自らの身元を明らかにし、人間を装わないことを推奨しています。同時に、AI によって生成されたコンテンツには明確なマークが付けられ、マークが削除されないように信頼性の高い透かしなどの技術が開発される必要があります。 最後に、研究者らは業界全体に対して、AIの欺瞞を検出できるツールやAIの欺瞞傾向を軽減するアルゴリズムの研究開発への投資を増やすよう呼びかけた。考えられる技術的な方法の 1 つは、表現制御などの手段を通じて AI の出力が内部認識と一致するようにし、それによって欺瞞の可能性を減らすことです。 一般的に、AI による欺瞞は、業界全体、さらには社会全体の高い注意を必要とする新しいタイプのリスクであることは間違いありません。 AI が私たちの生活に浸透することは避けられないので、良い変化であれ悪い変化であれ、私たちは今後の変化を歓迎する準備を十分に整えておかなければなりません。 参考文献 [1] https://missoulacurrent.com/ai-deception/ [2] https://www.sci.news/othersciences/computerscience/ai-deceiving-humans-12930.html [3] https://www.sciencedaily.com/releases/2024/05/240510111440.htm 制作:中国科学普及協会 特別なヒント 1. 「Fanpu」WeChatパブリックアカウントのメニューの下部にある「特集コラム」に移動して、さまざまなトピックに関する人気の科学記事シリーズを読んでください。 2. 「Fanpu」では月別に記事を検索する機能を提供しています。公式アカウントをフォローし、「1903」などの4桁の年+月を返信すると、2019年3月の記事インデックスなどが表示されます。 著作権に関する声明: 個人がこの記事を転送することは歓迎しますが、いかなる形式のメディアや組織も許可なくこの記事を転載または抜粋することは許可されていません。転載許可については、「Fanpu」WeChatパブリックアカウントの舞台裏までお問い合わせください。 |
<<: 通称「差ゼロ」!最小の量子光検出器をシリコンチップに統合可能
>>: たくさんの鍋がありますが、どうやって良いもの、自分に合ったものを選ぶのでしょうか?
動物の肝臓や鞭は腎臓を養い、陽を強化するだけでなく、多くの果物や野菜にも腎臓を養い、陽を強化する同様...
ウランの核分裂は物理反応であり、核分裂の質量損失をエネルギーに変換するプロセスであり、アインシュタイ...
肝硬変を患っている場合、身体に細心の注意を払う必要があります。なぜなら、肝硬変による腹水は患者の生活...
アップルは9日、秋の新製品発表会を開催し、世界中の技術愛好家がインターネットのライブ映像を通じて発表...
免疫は私たちの外部の病気に対する「ガード」。排除の課題を担う人体におけるウイルスと細菌の重要な役割。...
百合と緑豆のスープは緑豆を食べる方法です。百合と緑豆のスープには熱を下げる効果があるため、夏に食べる...
エリンギは、タンパク質、炭水化物、ビタミン、カルシウム、マグネシウム、銅、亜鉛などのミネラルなどの栄...
終わりタッドポール五線譜原著、転載の際は出典を明記してください編集者/グル...
昨日、JD.comはPaipai WeidianのDouble Eleven戦略を発表しました。 W...
社会の進歩と発展に伴い、海外で生産されたこのひよこ豆が私たち中国人の視界に徐々に現れてきました。多く...
(上海、2024年2月20日)2月26日に正式に開幕する2024年ジュネーブモーターショーでは、上海...
ショウガは調味料として、人体に非常に有益であることは誰もが知っていると思います。ショウガはおいしい料...
「野菜の中ではキャベツだけが最高で、肉の中では豚肉だけが最も香りが良い」という諺が人々の間で広く流...
現代の食生活における組み合わせは、多くの人を驚かせるかもしれません。一見無理な組み合わせでも、結果的...
Appleは最近iOS 9ベータ版をリリースし、ユーザーに予備のデバイスでシステムを試してみることを...