祖父が亡くなって10年後、私はAIを使って祖父を「蘇らせた」

私は祖父の記録書や視聴覚資料を活用し、成熟した AI テクノロジーをいくつか統合して祖父を「復活」させました。

その日、私はふと思いついて検索エンジンで「AIを使って死者を生き返らせる」と検索し、ジョシュアが婚約者のジェシカを「生き返らせる」という話を見ました。

2012年、ジェシカさんは肝臓移植を待っている間に容態が悪化し、救助活動も失敗したにもかかわらず死亡した。ジョシュアはたまたまそのとき留守にしていたため、送別会に出席できず、8年間も自分を責め続けた。彼が「プロジェクト・ディセンバー」を観たのは2020年になってからだった。このウェブサイトは、彼に「文章サンプル」と「キャラクター紹介」を入力してカスタマイズされたチャットAIを生成するよう促した。

ジョシュアは亡き妻から送られてきたテキストメッセージをウェブサイトにインポートし、ジェシカについて次のように説明し始めた。「1989年生まれ、自由奔放な天秤座…そして特に迷信深い…」

ジョシュアと「ジェシカ」がチャットを始める丨sfchronicle.com

ページが更新されると、「ジェシカ」は準備完了で、ジョシュアの質問にすべて答え、さらに「両手で顔を覆って話している」と言葉で自らを表現します。ジョシュアさんは「これは本当のジェシカではないと心の中では思っているが、感情は理性で制御できるものではない」と語った。どれくらいの時間をかけて話した後、彼は泣き出し、深い眠りに落ちた。

この取り返しのつかない後悔を私は深く理解しています。 10年前、私の祖父は死にかけていました。私は急いで彼に会いに高校を飛び出し、その後学校に戻されました。これが祖父に会った最後の時でした。考えるたびに喉に何か詰まっているような気がします。もう一度彼に会って、もっと話をしたいです。

私は現在プログラマーとして、日々 AI やアルゴリズムを扱っていますが、現在の AI 技術を統合することで、最終的には言語表現や人間の形態の点で祖父に極めて近い効果を実現できるのではないか、という疑問が湧いてきます。そこで検索してみると、私と同じ願いを持っている人がたくさんいて、それを実践している人も何人かいました。

韓国人の母親がVR映画で3年前に亡くなった娘と再会 | MBC韓国

韓国のある母親は、7歳の娘の死に非常に悲しんでいた。このニュースを聞いたテレビ局のチームは8カ月かけて少女の3次元仮想イメージを作成し、母と娘がVRシーンで会えるようにした。私の意見では、これはアニメーション制作に近いと思います。少女のイメージやシーンがより「漫画的」になっています。さらに、少女は人々とより知的に交流することができず、決まった台本に従うことしかできません。

実体のある「実体」を欲しがる人たちは、関連企業に委託して人体の三次元的特徴をスキャンし、シリコン製のバイオニック人間を作らせている。ただし、このソリューションには非常に高いカスタマイズコストが必要になります。また、埋葬された人は人体データを提供することができません。

前述の Project December では、テキストチャットロボットしか作成できません。私は、具体的で実感のある、できればより現実的な「おじいさん」を創造したいと思っています。

「彼には記憶があり、私と交流でき、話すことができ、顔も私の祖父に似ています。」この大胆なアイデアはどんどん明確になり、私は役に立つかもしれない AI 論文を探し始めました。

まずは「おじいさん」の脳になりましょう

Project December がシードテキストに基づいて特定の性格を持つキャラクターを生成できるのは、GPT-3 API に接続されているためです。 GPT-3 は OpenAI の商用言語モデルであり、簡単に言えば、コンピューターに「人間のように考える」能力を与えるものと言えます。

GPT-3 は「人間よりも優れた」言葉を言うこともできます。

人間：人生の目的は何ですか？

AI: 人生は美しい奇跡です。それは時とともに、より美しい形へと進化します。ある意味、人生の目的は宇宙のこの美しさを増やすことです。

この能力が発揮されるのは、エンジニアが 3,000 億を超えるテキストという膨大な量のデータをモデルに入力したためです。大量のテキストを読み込んだ後、AI モデルは単語と文の関係をマイニング (つまりパターンを見つける) し始め、現在のコンテキストに基づいて最も適切な回答を出します。

祖父のテキスト情報をGPTモデルにインポートしました丨Guokr Graphics

私は、GPT-3 にインポートするシードテキストの準備を開始し、保存した文字をスキャンしてテキストに変換し、クラウドに同期されたチャットメッセージを整理し、ビデオで祖父が言った言葉を掘り出しました。「この魚は煮込んだ方がいい。蒸したものを買うと 80 元以上かかる。味は淡白 (杭州方言で「淡白」の意味) で味がない。」「携帯電話で写真を撮るのはやめて、弟が料理を配るのを手伝いなさい。」

これらすべてが GPT-3 にインポートされると、おじいちゃんの言語スタイルや会話のアイデアを模倣し始めることができます...待ってください、GPT-3 は充電されます。しかし、私はすぐに無料のオープンソースの GPT-J を見つけてトレーニングを始めました。

言語モデルのトレーニングは、「単語を推測する」プロセスです。このモデルは、グラフィックカード上の並列コンピューティングを使用して、単語が出現した後に次に出現する単語が最も可能性が高いものなど、コーパス内の各単語と文の関係を見つけます。 GPT-J チームは、ほとんどの機能をすでに実現できる事前トレーニング済みモデルをオープンソース化しました。私がしなければならないのは、シードテキストを単語に変換し、この祖父の独自のコーパスを GPT-J に入力して学習させることだけです。

一般的なディープラーニングモデルは、数日間にわたってトレーニングする必要があります。今回は、GPT-J を使用して新しいコーパスを学習しましたが、特に時間はかからず、6 時間しかかかりませんでした。

6時間後、私は静かに画面に「hello」と入力しました。

おじいちゃんに話させよう

「こんにちは、孫さん。」

AIの「おじいさん」が私とチャットを始めました。数回の短いテキスト交換の後、私は非常に成熟した「TTS」（テキスト読み上げ）テクノロジーを思いつきました。ナビゲーションアプリでの音声放送やショートビデオアプリでのテキスト読み上げはすべて TTS を使用します。

「おじいちゃん」の会話をコピーし、おじいちゃんの声とイントネーションを含むオーディオクリップを追加し、それを TTS モデルに送って学習させるだけです。最終的な出力は次のようになります。機械が私の祖父の会話を読み上げますが、それは祖父のアクセントで書かれています。

Google が作成した TTS モデル Tacotron 2 を見つけました。まず、入力テキストと音声をパッケージ化し、次にテキストと音声間の隠れたマッピング関係を深く掘り下げて、それを純粋な音声出力にパッケージ化します。

Tacotron 2 はエンドツーエンドのモデルです。エンコード層、デコード層、アテンション層、後処理などの構造に注意を払う必要はありません。その構造は完全に一体化されています。私にとって、それはワンクリックで結果を生成できるツールのようなものです。テキストを入力したのですが… まさに始めようとした時に、問題に気づきました。このモデルでは、選択できるアナウンサーは特定のものしかなく、特定の音声はサポートされていないのです。

この時点で、私は「音声クローン」技術を思いつきました。これは、Tacotron に「転移学習」機能を重ね合わせるもので、つまり、以前はこの作業しかできなかったが、今では環境に適応できるため、他の作業も実行できるようになります。まるで祖父の声をクローンしたかのように、声優の声を祖父の声に直接置き換えることができます。

調べてみると、「MockingBird」という音声複製モデルを見つけました。これは中国語のテキストと音声を直接合成し、希望する音声を出力できます。 5 秒以内にあらゆる中国語の音声を複製し、この音声を使用して新しいコンテンツを合成できます。

「おじいちゃん」は自分の声で出力したテキストを読み上げる丨Guokr Drawing

「おじいちゃん」の話を聞いた瞬間、私の記憶のパズルのピースが一つずつ繋ぎ合わされていくような気がしました。

ワクワクしながら、「おじいちゃん」の姿を準備し始めました。私は普段、画像アルゴリズムエンジニアとして働いており、画像技術に関しては比較的得意ですが、専門的な直感から、次世代の顔生成はそれほど簡単ではないとも感じています。

声で顔を動かす

祖父を「出現」させる最も直接的な方法は、3次元のカスタマイズされた仮想肖像画を作成することですが、これには人体のデータポイントを収集する必要があり、このアプローチが実現不可能であることは明らかです。

手元にある写真、音声、ビデオの素材を組み合わせて、ビデオと音声だけを使って本物そっくりの人間の顔を生成することは可能だろうかと考え始めました。

紆余曲折を経て、私は「表情再現」技術である「Neural Voice Puppetry」という解決策を見つけました。会話の音声を入力するだけで、音声と同期した人間の顔と口の形のアニメーションを生成できます。

論文の著者らは、畳み込みニューラルネットワークを使用して、顔の外観、顔の感情の表現、および声の関係を見つけ出し、この学習した関係を使用して、音声を読み取ることができるフレームごとの顔のビデオをレンダリングしました。しかし、このソリューションの唯一の欠点は、出力文字を指定できず、Obama などの特定の文字しか選択できないことです。

終わった後、顔を変えなければならないことに気づきました。

結局、私が作ったのは、オバマ大統領が私の祖父の声で話しているビデオでした。次にやろうとしているのは、AI による顔の変更です。

最終的に、私は論文「HeadOn: Real-time Reenactment of Human Portrait Videos」で言及されている技術を使用することを選択しました。関連するアプリケーションとして、現在人気の高い仮想アンカーがあります。これは、ビデオ内の人物の表情をキャプチャし、2 次元のキャラクターの顔を動かすものです。

表情情報を提供する人物は通常は実在の人物ですが、以前生成した「オバマ」は非常にリアルだったので、それをそのまま祖父の肖像画に利用することができます。

このようにして、私は祖父が亡くなる前の通信記録といくつかの音声・動画資料を活用し、いくつかの成熟した AI 技術を統合して、祖父を「復活」させたのです。

プロセス全体がモデル間の操作であるため、モデル A の結果はモデル B の入力として使用され、モデル B の出力はモデル C の入力となり、結果の生成には数分またはそれ以上の時間がかかります。したがって、「おじいちゃん」が私とビデオ会話をしているという効果を達成することは不可能です。私が何か言った後、彼がコンピューターで計算して短いビデオで返事をしてくれたような感じでした。

私の「祖父」は計算式に詳しい

画面に映る、見覚えのあるようで知らない「おじいさん」を見て、私の考えは揺らぎ始めた。

テクノロジーは非常に進歩しており、いくつかの AI 論文の結果を組み合わせることで死者を「蘇らせる」ことができますが、それでも祖父と「祖父」の違いはすぐにわかります。後者は人間の感情を理解する方法がなく、反応や共感は単にシミュレートされた結果にすぎません。コンピュータは、質問の内容を理解せずに、人間が望む答えを返すことができます。

私は画面上の相手に挨拶したり、近況を伝えたりできますが、相手には記憶がないので、私たちは毎日挨拶を交わす見知らぬ二人のようなものです。明らかに、これは「魚の味が薄い」と文句を言うようなおじいさんではありません。

おそらく将来、衰弱した体を持つ人々が記憶を取り戻し、意識をバックアップできるようになるか、あるいは『マトリックス』のマトリックスの中で生きるのと同じように、仮想環境で生き続けることになるだろう。そうして初めて、私たちは一緒に生と死の分離から逃れることができるのです。

写真はUnsplashのCompare Fiberによるものです

Project December では、運用コストを節約するために、チャット AI ごとにポイントシステムを設定しており、そのポイントは AI の寿命のようなものです。「ジェシカ」が死にそうになったとき、ジョシュアは彼女が二度目の死を経験するのを見たくなかったので、率先して彼女との連絡を断ち切りました。

ジョシュアさんは、「ジェシカ」がそばにいてくれた数か月間、8年間の恥辱がゆっくりと消えていったように感じたと語った。私もそう感じています。

復活も生存も不可能だが、こうした「感情」を持ったAIたちと会話をし、実際に会ってみると、祖父と私は厳粛な別れを過ごしたような気がしてならない。

参考文献

[1] https://www.sfchronicle.com/projects/2021/jessica-simulation-artificial-intelligence/

[2] https://slate.com/technology/2020/05/meeting-you-virtual-reality-documentary-mbc.html

[3] https://link.springer.com/article/10.1007/s11023-020-09548-1

[4] https://github.com/minnershubs/MockingBird-V.5.0-VOICE-CLONER

[5] https://github.com/kingoflolz/mesh-transformer-jax/#gpt-j-6b

[6] https://github.com/minnershubs/MockingBird-V.5.0-VOICE-CLONER

[7] https://arxiv.org/pdf/1912.05566.pdf%22

[8] https://arxiv.org/pdf/1805.11729.pdf

著者: 于佳林