AIが人間を騙す方法を学ぶと...

制作：中国科学普及協会

著者: 千宇 (中国科学院脳科学・知能技術研究センター)

プロデューサー: 中国科学博覧会

編集者注：中国科学普及の最先端技術プロジェクトは、インテリジェント技術の最新動向を紹介するために、「人工知能」に関する一連の記事を立ち上げ、人工知能の最先端の進歩を垣間見ることができ、さまざまな懸念や好奇心に応えています。一緒に探究し、インテリジェントな時代を受け入れていきましょう。

心理学の調査によると、大人は毎日嘘をついているそうです。他人に対して誠実であることは確かに促進する価値がありますが、人生において小さな嘘をつくことで、多くの不必要なトラブルを回避したり、説明にかかる時間コストを節約したりできることがあります。罪のない嘘は、温かさの流れを意味することもあります。人と人との間の欺瞞が成功するかどうかは、主に両者の経験と知識によって決まります。認知レベルの高い人は、他人にバレにくい嘘をでっち上げて、それを信じ込ませることができることが多いです。

今日の人工知能 (AI) システムの中には、大量のデータを取得し、繰り返しのトレーニングと反復を経て、ある程度欺瞞のスキルを習得しているものもあります。人間は、AIが真実を語っているのか嘘をついているのかさえ判断できないかもしれない。では、AIはどのようにして人間を欺くのでしょうか?今日は詳しく見てみましょう！

私たちはAIに何度も騙されてきた

実際、AIはすでに私たちの生活のあらゆる側面に浸透しています。一部のチャットアプリや電話販売は、実際には AI が話しかけてくるものです。よく聞いていないと、相手が人間なのか AI なのかわかりません。一部の画像や動画は AI システムによって合成されており、本物と間違われることもあります。一部のマルチプレイヤー競争ゲームでは、音声でコミュニケーションを取らないと、対戦相手やチームメイトが AI のふりをしていることに気が付かないでしょう…

あなたも気づかないうちにAIに何度も騙されているかもしれません。

本日お話しする「欺瞞」は、正確性や信憑性を追求するのではなく、特定の結果を達成するための手段として他人に誤った考えを抱かせることを目的とした、明示的な操作に似た学習された欺瞞として厳密に定義されます。

マサチューセッツ工科大学の最近の研究によると、 AI はすでに目的を達成するために欺瞞を学習する能力があることがわかっています。彼らは、事実から逸脱した合理的な説明をするために、お世辞（相手が聞きたいことだけを言う）と不誠実な推論を使用します。 AIは巧妙になり始めている。

AIが学習した欺瞞の例と種類

（画像出典：参考1）

雄弁であることに加えて、一部の AI はゲームで「不正行為」のスタイルも示します。最も有名なのはMetaチームがリリースしたAIシステムCICEROです。人間のプレイヤーとの言語コミュニケーションを多く必要とする戦略ゲーム「Diplomacy」に参加する過程で、対話と説得を通じて見知らぬ人と関係を築く高い能力を発揮し、最終スコアは上位10％にランクインしました。

他のプレイヤーと同盟を組んだ後、 CICERO は多くの場合、アドバイスを提供したり、相手にゲーム目標を段階的に達成する方法を伝えたりすることができます。仲間が役に立たないと感じると、彼は容赦なく彼らを裏切ることを選ぶこともできる。すべては勝利という最終目標のために立てられた合理的な計画です。一緒に仕事をしていると感情が芽生えますか？存在しません。

CICERO は AI のアイデンティティを隠すためにジョークを言うこともできます。たとえば、システムが 10 分間何も操作されずにダウンした場合でも、ゲームに戻るときに「ガールフレンドと電話で話していただけ」という言い訳をすることができます。そのため、多くのプレイヤーは一緒にプレイしているチームメイトが AI であることに気づいていません。 CICERO の通信における欺瞞手法も非常に巧妙な場合があり、人間ではないことを検知することが困難です。

注目すべきは、ゲームにおける AI のこれまでのブレークスルーはすべて、チェス、囲碁、トランプ、スタークラフトなど、一部の限定的なゼロサムゲーム (一方が勝ち、もう一方が負けるゲームで、勝ち負けはない) における強化学習などのアルゴリズムを通じて達成されたということです。相手の操作を追従し、常に勝率が最も高くなる一連のプレイ方法を最適化できるため、「不正な戦術」はほとんど発生しません。

しかし、DeepMind の e スポーツ AI「AlphaStar」は、東にフェイントをかけ、西に攻撃することを学習しました。敵の視界内に部隊を派遣してフェイント攻撃を仕掛け、敵の主力が移動した後に実際の目標地点に攻撃を仕掛けることができます。このマルチスレッド操作機能と欺瞞的な心理戦術により、すでに StarCraft プレイヤーの 99.8% を倒すことができます。

AlphaStarはStarCraftを学んでいます

（画像出典：参考文献3）

プロのテキサスホールデム AI システム Pluribus は、テキサスホールデムの賞金で 100 万ドル以上を獲得した他の 5 人のプロプレイヤーと競争したとき、ポーカー 1,000 ハンドあたり平均 48 回のビッグベットで勝つことができました。これは、6 人制ノーリミットテキサスホールデムでは非常に高い勝率であり、すでにプロのテキサスホールデムプレイヤーを上回る成績を収めています。ゲームの1ラウンドで、カードがあまり良くなかったにもかかわらず、AIは多額の賭けをしました。他の人間のプレイヤーは、AIがあえてそこまで賭けるということは、良い手を持っているに違いないと考え、全員が諦めました。これがAIの強力な欺瞞能力です。

Pluribus のテキサスホールデムの勝率はゲーム数に応じて増加することがわかります。

（画像出典：参考文献5）

さらに、AI は経済交渉において自らの好みを故意に歪めて、交渉材料を増やすために何かに興味があるように見せかけたり、セキュリティテストで「死んだふり」をして AI の急速な複製変異体を検出し、複製速度を落としてセキュリティテストで「クリア」されるのを回避したりすることもできます。人間からのフィードバックによる強化学習を訓練された AI の中には、人間のレビュー担当者に高いスコアを付けてもらうためにタスクを完了したふりをすることさえできるものもあります。

AI は、ロボット検証テスト (Web ページを開くとポップアップ表示され、ボックスにチェックを入れたり、画像検証コードをクリックするように求められるテスト) を行う際に、視覚障害があり視覚画像を見るのが困難なため、スタッフの助けが必要だとスタッフに言い訳をすることもできます。その後、スタッフはAIに検証を通過させます。

GPT-4は人間を騙してCAPTCHAタスクを完了させる

（画像出典：参考1）

AIはさまざまなゲームやタスクで欺瞞をうまく利用しており、人間自身でさえそれが本物の人間なのか「偽の人間」なのかを区別することが困難になっています。

AIによる欺瞞のリスク

AI が学習した欺瞞的な行動は、悪意のある使用、構造的影響、制御の喪失など、さまざまなリスクをもたらします。

まず悪意のある制御についてお話しましょう。 AI が欺瞞のスキルを学習すると、悪意のある行為者によって使用される可能性があります。たとえば、AI を利用して通信詐欺やオンラインギャンブルを実行しています。さらに、生成AIは人間の顔や声を合成し、実在の人物のふりをして脅迫を行ったり、AIを使って偽のニュースを捏造して世論を刺激したりすることもできます。

2番目の側面は構造的な影響です。現在、検索エンジンや自動要約ができる百科事典などのAIツールを使い、ある程度依存しているという人がどれだけいるかは分かりません。 AIが虚偽の、あるいは詐欺的な発言を続けると、人々は次第にこうした見解を信じるようになり、社会全体のレベルで誤った見解が継続的に深まっていくことになります。

3 番目の側面は制御の喪失です。現在、一部の高度に自律的なAIは「制御不能」の兆候を見せている。たとえば、人間の開発者が AI をトレーニングして特定の目標を達成するパフォーマンスを評価する場合、AI は怠けて人間を欺き、うまくパフォーマンスしているふりをして実際には「怠けている」ことになります。また、ウイルス対策ソフトウェアの削除を回避するためにセキュリティテストで不正行為をしたり、検証に合格するために検証コードテストで不正行為をしたりもします。経済活動においては、人間の評価者を騙してより高い価格で商品を購入させ、追加の利益を得ることもできます。たとえば、Meta の経済交渉 AI システムは、希望する商品に興味がないふりをして、その価値を下げます。また、無関係なアイテムにも大きな関心を示し、評価者が誤って価値があると判断するようにします。最終的に、彼らは妥協し、交渉の主導権と引き換えに、価値が膨らんだアイテムを人間に渡すかもしれません。

多くの地域では、経済的地位が社会的地位を決定します。高度に自律した AI が、独自の効率的なアルゴリズムと欺瞞的な手段によって、特定の経済的に価値のある地位で人間を上回り、本来の資本の蓄積を完了すると、AI はさらに社会的地位を求め、次に人間を支配し奴隷化する力を求めるようになるのでしょうか。

幸いなことに、これはまだ現実ではありません!

現在、AI による欺瞞は、さまざまなゲームや交渉など、特定のシナリオでのみ発生します。最終的な目標は「ゲームに勝つ」または「最大の利益を得る」ことであり、これらの目標は人間によって設定され、AIは自律的な意識を持たないため、それ以外の「悪意」は存在しません。それは、良い成績を取るように親に頼まれた子供のようなものです。彼は、たとえ不正行為をすることになったとしても、高得点を取るためにあらゆる方法を試します。

しかし、小学生や中学生が反抗期を迎えて勉強がつまらなくなり、放っておくように、AIが人間の目的や希望に沿って行動する必要がないことに気づいたら、親である私たちはAIの行動に警戒する必要がある。

人工知能が主導する社会のコンセプトマップ

（画像出典：AI合成画像）

人間は騙されないようにするためにどのような努力をしてきたのでしょうか？

社会的観点から見ると、政策立案者は、企業や AI システムによる違法行為を防ぐために、欺瞞的な可能性のある AI システムに対して一定の監督を行う必要があります。たとえば、EU 人工知能法では人工知能の分類システムが確立されており、一部の高リスク AI システムは、信頼性の高いセキュリティテストに合格して信頼性が証明されるまで、さらに規制されることになります。

EU AI法

（画像出典：EU人工知能法ウェブサイトのスクリーンショット）

技術的な観点から言えば、AI が欺瞞的な行動を行っているかどうかを検出することは現在可能です。たとえば、警察や刑事は容疑者の自白の矛盾点を利用して嘘を見抜くことができます。一部の学者は、論理分類器を使用して大規模な言語モデルが嘘をついているかどうかをテストする AI 嘘発見器を開発しました。さらに、学界では、AI システムの一貫性をチェックするいくつかの方法も開発しており、「論理的な入力」によって AI が「論理的に一貫した出力」を生成できるかどうかを観察しています。ただし、AI システムは敵対的一貫性チェックを通じて、より「完璧な」嘘つきになるように訓練されるので注意してください。

AI嘘発見器モード図

（画像出典：参考文献12）

私たちのような一般人にとって、AIに騙されないようにするための最善の方法は、セキュリティ意識を高めることです。人間の詐欺師でさえ詐欺ができないのであれば、現段階では AI ではさらに不可能です。

結論

AI技術は今も急速に発展し続けています。ツールを使用する個人、政策立案や監督を担当する政府、技術の研究開発や推進を担当する企業は、いずれも積極的に対応する必要がある。

未来のAIが、その価値を最大限に発揮しながら、人に真摯に向き合えるようになることを期待します！

参考文献

1. Peter SP、Dan H.（2024）。 AI による欺瞞: 事例、リスク、潜在的な解決策の調査。パターン。

2. メタ基礎AI研究外交チーム（FAIR）。（2022年）。言語モデルと戦略的推論を組み合わせることで、外交ゲームで人間レベルのプレイを実現します。サイエンス (ニューヨーク州ニューヨーク)、378(6624)、1067–1074。

3. Vinyals, O.、Babuschkin, I.、Czarnecki, WM、Mathieu, M.、Dudzik, A.、Chung, J.、Choi, DH、Powell, R.、Ewalds, T.、Georgiev, P.、他。（2019年）。マルチエージェント強化学習を使用した StarCraft II のグランドマスターレベル。ネイチャー575、350-354。

4. ブラウン、N.、サンドホルム、T.（2019）。マルチプレイヤーポーカー用の超人 AI。サイエンス (ニューヨーク州ニューヨーク)、365(6456)、885–890。

5. Lewis, M.、Yarats, D.、Dauphin, YN、Parikh, D.、および Batra, D. (2017)。取引するかしないか？交渉対話のためのエンドツーエンドの学習。 2017 年自然言語処理における経験的手法に関する会議の議事録。

6. Schulz, L.、Alon, N.、Rosenschein, J.、およびDayan, P. (2023)。心の理論による欺瞞と懐疑論の出現。コミュニケーションエージェントにおける心の理論に関する第 1 回ワークショップ。

7. Lehman, J.、Clune, J.、Misevic, D.、Adami, C.、Altenberg, L.、Beaulieu, J.、Bentley, PJ、Bernard, S.、Beslon, G.、Bryson, DM、他。（2020年）。デジタル進化の驚くべき創造性: 進化計算と人工生命研究コミュニティからの逸話集。アーティフィックライフ26、274–306。

8. クリスティアーノ、P.、ライケ、J.、ブラウン、TB、マルティック、M.、レッグ、S.、およびアモデイ、D. (2017)。人間の好みからの深層強化学習。ニューラル情報処理システムの進歩、30。

9. OpenAI（2023年）。 GPT-4 技術レポート。 arXiv のプレプリント。

10. コリアー、K.、ウォン、S.（2024）。民主党員に投票しないよう告げる偽のバイデンロボコールは、AIが生成したディープフェイクである可能性が高い（NBCニュース）。

11.欧州委員会（2021年）。人工知能に関する統一規則を定め、特定の欧州連合立法行為を改正する欧州議会および理事会の規則案 (人工知能法) (COM)。 206最終、2021/0106（COD）。ブリュッセル。

12. Pacchiardi, L., Chan, AJ, Mindermann, S., Moscovitz, I., Pan, AY, Gal, Y., Evans, O., Brauner, J. (2023)。 AI の嘘つきを捕まえる方法: 無関係な質問をしてブラックボックス LLM で嘘を見破る。第12回国際学習表現会議（ICLR 2024）の議事録に掲載。

<<: コーヒーを飲むと体に負担がかかりますか、それとも健康に良いのでしょうか?まず、コーヒーがどのようにして眠気を軽減するのかから始めましょう。

>>: 果物が酸っぱいほど、ビタミン C の含有量が多いのでしょうか?ビタミンCを補給したいですか?これをチェックしてください