ChatGPT が「100,000 Whys」の留守番電話のようなのはなぜですか?

ChatGPT が「100,000 Whys」の留守番電話のようなのはなぜですか?

最近、人工知能ChatGPTが世界中で人気になっています。あらゆる分野の人々が、このアプリとの会話を投稿しています。答えの中には驚くべきものもあれば、まったくナンセンスなものもあります。他の人は、コピーライティングやコードの変更を支援するためにこれを使用しており、人間の作業の優れたヘルパーにしようとしています。 ChatGPT が多機能なチャット コンパニオンであり、すべての質問に答えられるのはなぜでしょうか?

著者 |陳青陽

OpenAIが立ち上げたチャットボット「chatGPT」が世界中で話題となっている。強力な GPT モデル上に構築された chatGPT 言語生成システムは、並外れた自然言語テキスト生成機能を備えています。大量のコーパスで事前トレーニングされているため、さまざまな自然言語処理タスクを実行できます。論文、プレスリリース、詩、コードなど、ユーザーの要件に応じて非常にリアルなテキストを生成できるだけでなく、天文学から地理学まで、ほぼすべての質問に答えることができます。なぜそんなに強力なのでしょうか?この記事では、chatGPT の背後にある言語モデルの原則と開発の歴史について簡単に紹介します。

言語モデル化:基本的なタスク

chatGPT の背後には強力な言語モデルがあります。言語モデルとは何ですか?例えば、私たちはみな音声入力によるテキスト変換を使用していますが、言語には同音異義語がたくさんあります。

このレストランのイカフライは本当に美味しいです!

そして

このレストランの炒め物は本当に美味しいです!

機械はどのようにして音声から人が「squid」と言っているのか「due」と言っているのかを判別できるのでしょうか?ここで言語モデルの出番となります。言語モデルの役割は、与えられた文に対して、その文が実際に現れる確率を決定することです。優れた言語モデルは、最初の文 (squid) に高い確率を与え、2 番目の文 (because) に低い確率を与えます。

この「優れた翻訳」は明らかに、優れた言語モデルが欠如していることの結果です。

では、言語モデルはどのようにして特定の文が実際に出現する確率を正確に判断するのでしょうか?機械が人間の言語に精通し、単語の選択や文の構造の習慣を理解するためには、何千冊もの本を読む必要があります。ここでの技術的な問題は、言語パターンを学習し、機械が人間の言語を「理解」できるようにするアルゴリズムまたはプログラムをどのように設計するかということです。

「バイグラム」と呼ばれる簡単な方法があります。アイデアは、すべての文書をスキャンし、各単語を数えて、その後に続く最も一般的な単語を見つけることです。たとえば、「I」という単語の場合、機械が多数の文書をスキャンすると、「I」の後に現れる「is」の頻度は 30%、「call」の頻度は 20%、「think」の確率は 30% などであることがわかります。この頻度は、マシンがこれら 2 つの単語が一緒に出現する確率 (結合確率) を決定するために使用されます。言語の語彙サイズがNであると仮定すると、機械が学習を完了すると、N行N列の表が構築されます。各行は単語行[i]を表し、各列行[i][j]は単語行[i]の後に単語が出現する確率を表します。このテーブルを使用すると、マシンは言語モデルの決定作業を完了できます。

私たちはそれに「あなたがいなくて寂しい」という一文を付け加えます。表では、「I」の後に「think」が現れる確率が30%、「think」の後に「you」が現れる確率が50%、「you」の後に「le」が現れる確率が10%であると仮定すると、「I miss you」という文が現れる全体的な確率は30%*50%*10%=0.015となります。この方法を使用すると、機械は、前の例で「squid」が出現する確率が「because」よりも高いことを簡単に判断できます。

しかし、この単純なアプローチにも多くの問題があります。多くの場合、ある単語の後に別の単語が続く確率はその単語だけに依存するのではなく、前の k 個の単語と合わせて、次の単語が出現する確率を決定します (前の k 個の単語の一部は重要でない場合があります)。テーブルの保管も問題です。 k=2 の場合、テーブルのサイズはすでに N*N になります。 k が増加すると、テーブルは指数関数的に増加します。さらに、この方法では、モデルを一般化するために同義語を自動的に学習することはできません。

言語モデルを構築する他の方法としては、名詞間の関係を記録する知識ベースを手動で作成することや、文法的に誤った文を排除できる言語の文法規則のセットを設計することなどがあります。実際、自然言語処理方法の初期の流派の 1 つは言語学を使用していましたが、これは大量の手動注釈を必要とし、柔軟性に欠けていました (新しいテキストなどから学習できませんでした)。そのため、データが増え、機械学習の方法、計算能力などの技術がさらに発展するにつれて、特に2010年代以降は、ディープラーニングによる人工ニューラルネットワークに基づく方法が主流になりました。人々はもはや手動の文法規則や単純な統計モデルを使用しません。代わりに、ディープ ニューラル ネットワーク (注: 今後は、生物学的ニューラル ネットワークではなく、人工ニューラル ネットワークを指すために「ニューラル ネットワーク」という用語を使用します。多くの層のディープ ニューラル ネットワークを使用する機械学習は「ディープ ラーニング」と呼ばれます) を使用して、機械が大量のデータ (自然言語の例) から言語のコンテキストと単語間の固有の関係を自動的に学習できるようにします。

フィードフォワードニューラルネットワーク
ヨシュア・ベンジオ(ディープラーニングの三大巨頭の一人)は2003年に論文「ニューラル確率言語モデル」[1]を発表しました。これは後に言語モデル化におけるニューラルネットワークの初期の使用に関する古典的な研究として広く認められるようになりました。この論文の冒頭で、ビグラムなどのモデルの 2 つの大きな問題が指摘されています。1 つ目は、テーブルの指数関数的な増加により、ビグラムなどのモデルは長いコンテキストを考慮することができません (これまでで最も長いのは、前の 5 つの単語を使用して次の単語を予測することです)。第二に、言語理解能力を一般化するための同義語を学習することができません。

これらの重要な問題を解決するために、本論文では 2 層の順方向伝播ニューラル ネットワークを提案します。これは比較的単純なニューラル ネットワークであり、後のネットワークよりもはるかに複雑ではありませんが、言語モデリングにニューラル ネットワークを使用することの有効性を示しています。モデルの考え方は次のように要約できます。

各単語には学習可能な単語特徴ベクトルがある
;
文の結合確率は、文中の単語の特徴ベクトルとニューラル ネットワークの層のパラメータによって表されます。
上記の単語特徴ベクトルとネットワークパラメータは、最適化手法を通じてデータから学習されます。
この論文ではそのような例が紹介されています。トレーニング後、モデルは文 1 から新しい未知の文 2 まで簡単に一般化できるようになります。

文1: 猫は寝室を歩いています。

文2: 犬が部屋の中を走り回っていました。

なぜなら、多くの学習を経ると、「猫」と「犬」、「寝室」と「部屋」、「歩く」と「走る」は比較的近い特徴ベクトルを持つようになるからです。したがって、マシンがトレーニング セットで文 2 を見たことがない場合でも、文 1 と同様の結合確率が割り当てられ、特徴ベクトルの小さな変動が最終的な結合確率に与える影響は小さくなります。

興味深いことに、この論文では、このような「大規模モデル」(今日の観点からは非常に小さい)をトレーニングするために、研究者らが並列トレーニング アルゴリズムを設計し、40 個の CPU で 3 週間トレーニングしたことも具体的に述べられています。

トランスフォーマー:大型モデルの起源

ディープラーニングとコンピュータの計算能力の発達により、より新しいニューラル ネットワーク アーキテクチャとより大規模なモデルが提案されています。その中でも画期的な研究は、2017年にGoogle Brainの科学者らが提案したトランスフォーマーモデル[2](有名な映画「トランスフォーマー」と同じ名前)であり、chatGPTの「T」にあたる。 「自己注意メカニズム」と「位置エンコーディング」を導入することで、Transformer はコンテキスト内でどの単語にもっと「注意」を払うべきかを学習できます。前述したように、単語を予測する場合、文脈によって単語の重みや役割は異なります。次の文を例に挙げてみましょう。

犬はお腹が空いたので部屋の中を走り回っていました。

ここでの「それ」は犬のことでしょうか、それとも部屋のことでしょうか?注意メカニズムを通じて、Transformer モデルは、このコンテキストでは犬との関連性は高いが、部屋との関連性は低いことを判断できます。具体的な計算方法は、文脈における各単語の埋め込み(単語ベクトル)を他の単語の単語ベクトルと内積し、内積が小さいほど距離が小さい(相関が大きい)ということになります。大まかに言えば、Transformer モデルはコンテキストに基づいて単語をより適切にエンコードできます。つまり、同じ単語でも、コンテキストによって異なるエンコード (意味) を与えることができます。

自己注意メカニズムの核となる計算は内積、つまりバッチでの行列乗算です。行列乗算は高度に並列化された演算であり、長距離の依存関係 (非常に長いコンテキスト) を効率的に計算できます。高度な並列処理により、モデルのスケーラビリティも向上します。たとえば、GPT-3 などの大規模なモデルでは、モデルは最大 2048 語のコンテキストを考慮できます。

上記の優れた翻訳図では、Transformer モデルを使用すると、機械は「be careful」を翻訳するときに、前の文脈「be careful」を考慮することができます。このとき、「be careful」は「be careful」ではなく「be careful not to」と翻訳されます。

このような強力で柔軟性があり効率的な言語モデリング手法により、AI は大規模モデルの時代に入りました。

大規模モデル + 事前トレーニング: より一般的な知能

Transformer モデルは人工知能に革命をもたらし、Google の BERT や OpenAI の GPT など、Transformer ベースの新しいモデルが次々とリリースされています。実際、Google 検索に慣れている人は、Transformer テクノロジーの恩恵を数え切れないほど受けています (Google 検索は BERT ベースの Transformer モデルを使用しています)。 2018 年に OpenAI がリリースした GPT (Generative Pre-trained Transformer) は、chatGPT の前身です。

Transformer などの新しいテクノロジーの登場にもかかわらず、自然言語処理では、さまざまな言語タスク (質問応答や翻訳など) ごとに異なるモデルをトレーニングするという慣行が依然として残っています。簡単に言えば、プロのモデルはプロの仕事をします。

2018年、GPTの論文「生成的事前トレーニングによる言語理解の向上」[3]は、機械知能の一般化を新たなレベルに押し上げました。研究者らは、異なる言語タスクごとに異なるモデルをトレーニングするよりも、一般的な言語モデルを「事前トレーニング」する方がよいと結論付けた。このモデルは特別なことは何も行いません。それは、上で述べた言語モデルである人間の言語の一般的な理解を構築すること、つまり、与えられた文が正常に聞こえるか異常に聞こえるかを判断することだけを担っています。研究者らは、モデルが大規模に事前トレーニングされると、事前トレーニング済みモデルが新しいタスクに迅速に適応するために必要なのは、少量の「微調整」(小規模な特別トレーニング)のみであり、その効果は特定のタスク専用にトレーニングされたモデルよりも優れていることを発見した。

その後のGPT 2[4]と3[5](chatGPTは「対話タスク」用に微調整されたGPT-3のバージョン)のリリースでは、研究者らはモデルのサイズをさらに拡大し(GPT-3には1750億のパラメータがあり、570億のデータセットでトレーニングされました)、ほぼ奇跡的なことが起こりました。GPT-3は人間よりも雄弁な、非常にリアルな文章を生成できたのです。この大規模なTransformerモデルは「ビッグ言語モデル」と呼ばれます。

GPT-3では、研究者らは「インコンテキスト学習」と呼ばれるトレーニング方法をさらに改良しました。つまり、大規模な一般知識の事前トレーニングのみが必要で、特別なタスクを実行するときにオンサイト学習が直接実行されるということです。つまり、いくつかの例(コンテキスト)が与えられれば、マシンはあなたが何を意味しているかを理解し、非常にうまく機能することができます。この時点で、人工知能はより汎用的な知能に向けてさらに一歩前進しました。

結論と今後の展望

chatGPT と大規模言語モデルは万能ではありません。彼らにはまださまざまな問題があり、時々確実に間違った答えを出すことがあります。これは確率分布に基づいた生成モデルだからです。生成されるテキストは、回答を生成する確率を最大化するためにトレーニング セットとコンテキストに基づいているため、当然ながら、回答が常に正しいことを保証することは不可能です。それにもかかわらず、GPT-3 と chatGPT は汎用知能に向けて大きな一歩を踏み出しました。

未来を想像してみましょう。現在、chatGPT の世界の理解は主に人間の言語とテキストから得られますが、人間が世界を理解する方法は多次元的です。言語とテキストは単なる 1 つの形式です。多くの情報は画像、ビデオ、さらには味や匂いからも得られます。将来、chatGPT は家に留まるだけでなく、ロボットの形で登場するようになるのでしょうか。つまり、目としてカメラ、口としてスピーカー、機械の手足を持ち、家の外へ出て世界を見て、物理的な世界で人々や自然と交流し、フィードバックを得て、認知を修正するようになるのでしょうか。ロボットは花や木、山や川、海、日の出や日の入り、そして人間の喜びや悲しみなどを見て、「感動」や「愛」も何らかの形で表現できるのでしょうか? AIは人間のアシスタントとなるだけでなく、感情的な友情も提供できるのでしょうか?

待って見てみましょう。

注: chatGPT のコアテクノロジーには強化学習 (人間からのフィードバックによる強化学習) も含まれており、これにより回答がより正確でわかりやすくなります。これらは強化学習の結果です。この記事では、言語モデルの基本的な背景について簡単に紹介します。さらなる学習教材については、拡張読書資料と参考文献を参照してください。

さらに読む

1. 人間のフィードバックによる指示に従うように言語モデルをトレーニングする

2. 人間のフィードバックからの強化学習の図解 (RLHF)

3. AGIへの道: 大規模言語モデル (LLM) の技術的基礎:
https://zhuanlan.zhihu.com/p/597586623

参考文献

[1] ニューラル確率言語モデル、https://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf

[2] 必要なのは注目だけ、https://arxiv.org/abs/1706.03762

[3] 生成的事前トレーニングによる言語理解の向上、https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

[4] 言語モデルは教師なしマルチタスク学習者である、https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

[5] 言語モデルは少数ショット学習者である、https://arxiv.org/abs/2005.14165

この記事は科学普及中国星空プロジェクトの支援を受けています

制作:中国科学技術協会科学普及部

制作:中国科学技術出版有限公司、北京中科星河文化メディア有限公司

特別なヒント

1. 「Fanpu」WeChatパブリックアカウントのメニューの下部にある「特集コラム」に移動して、さまざまなトピックに関する人気の科学記事シリーズを読んでください。

2. 「Fanpu」では月別に記事を検索する機能を提供しています。公式アカウントをフォローし、「1903」などの4桁の年+月を返信すると、2019年3月の記事インデックスなどが表示されます。

著作権に関する声明: 個人がこの記事を転送することは歓迎しますが、いかなる形式のメディアや組織も許可なくこの記事を転載または抜粋することは許可されていません。転載許可については、「Fanpu」WeChatパブリックアカウントの舞台裏までお問い合わせください。

<<:  高毒性生物の天敵は、高毒性生物を食べると中毒になるのでしょうか?

>>:  最新ニュース!神舟15号の乗組員は6月に帰国する予定

推薦する

続編が春節興行収入を独占したと聞きました!映画はなぜ続編を好むのでしょうか?

春節映画を振り返ってみると、どの作品もそれぞれに素晴らしい作品ばかりです。興味深いのは、ほとんどすべ...

彼は自らを被験者として脊髄麻酔を発明した

自分の体を使って麻酔の実験をしたり、助手と物理的に刺激し合って効果を確認したり、麻酔の実験によって残...

「ジャンク」なインスタントラーメンを栄養のある食べ物に変える4つのルール

インスタントラーメンが誕生したその日から批判されてきたというのは、まったく無礼なことだ。もちろん、私...

余分なお金をかけずに十分な食物繊維を摂取する5つの方法

精製された食品を前にすると、食物繊維の摂取が不十分だと不満を言う人は多い。実際、健康的な食物繊維を十...

ピザソースの作り方

ピザは私たちの生活の中で多くの人が好む食べ物の一種と言えます。特にマクドナルドやKFCに行くと、ピザ...

エビペースト添え揚げナス

エビペーストは、日常生活でよく使われるソース製品です。主に新鮮な小エビから作られ、非常にまろやかな味...

蛇の胆汁の食べ方

蛇の胆嚢を食べる人がいることは誰もが知っていますが、蛇の胆嚢を扱うことになるとは誰も思っていませんで...

葉っぱで骨が折れた?南の葉っぱは本当に扱いにくいですね…

最近広東省掲陽市出身の劉さん落ち葉のそばで骨折と腎臓挫傷落ち葉どうしてそんなに致死率が高いのでしょう...

13か月連続で最高気温記録を更新、2024年に私たちは何を経験することになるのか

2024年はすでに過去です。昨年は記録的な高温や超大型台風に見舞われ、気候変動が私たち一人ひとりに与...

スパイシーチキンウィングの作り方

皆さんはチキンウィングが大好きだと思います。私たちは普段チキンウィングをよく食べますが、特にKFCに...

ゴレンシはどのようにして「世界で最もまずい」果物になったのでしょうか?

ある果物が味で人気を博すとすれば、ゴレンシは見た目で人気を博すに違いありません。画像ソース:pxhe...

うつ病患者のための最も完全な自己啓発マニュアル - 認知神経科学によるうつ病の最先端の研究

社会認知と単極性うつ病の神経生物学——世界が私に課す不幸はすべて抑えることができますが、心の中の悲し...

有名な女優が100ポンド痩せました。私たちも彼女の減量の旅を真似してもいいでしょうか?

レビュー専門家:河北燕達病院栄養科長 沈英建有名コメディアンの賈玲の新作映画「熱」が春節期間中に公開...

とても疲れているのに、なぜそんなに太っているのですか?本当に努力によってつく脂肪があるんです!

オフィスワーカーは仕事のために早く出勤し、遅く帰ってきます。すでにとても疲れているのに、もっと痩せる...

妊婦がクリームケーキを食べても大丈夫ですか?

クリームケーキは私たちの生活の中でよく食べられる食べ物です。クリームケーキは主に小麦粉、砂糖、油、ク...