山に登ったことがあるのに、機械学習を理解できないなんてあり得ますか?

今日の人工知能の急速な発展により、その原理を理解するのは容易ではないようです。実際、その中核となる問題は依然として数学であり、複雑ではありません。それはあなたが思っているよりもずっと簡単です。山に登ったことがある人（あるいは山で迷ったことがある人）なら、その根底にある戦略を理解しているはずです。

ジョーダン・エレンバーグ

翻訳 |胡暁瑞、鍾怡

私の友人メレディス・ブラサードはニューヨーク大学の教授で、機械学習とその社会的影響について専門としています。つい最近、彼女は、人工知能の定義とその仕組みをアメリカの視聴者にテレビで約2分で説明するという課題を引き受けました。

彼女は、インタビューした司会者に、人工知能は殺人ロボットではなく、また知能が人間をはるかに上回っているが感情を持たないヒューマノイドロボットでもないと説明した。彼女は司会者にこう言いました。「基本原理は数学だということを覚えておけばいいんです。何も恐れることはありません！」

司会者たちの苦しそうな表情からは、彼らは殺人ロボットについて話したいと思っていることがうかがえた。

しかし、メレディスの答えはまさに的を射ていました。 2 分間の時間制限にこだわる必要はないので、私が代わりに機械学習の数学について説明しましょう。この「大きなアイデア」は皆さんが思っているよりも単純なものだからです。

機械学習は山登りのようなもの

自分が機械ではなく、山頂まで登るために一生懸命努力している登山家だと想像してください。しかし、地図はなく、周囲には木や茂みがあり、広い景色を眺められる見晴らしの良い場所はありません。それで、どうやってトップに立つのでしょうか?

一つの戦略は、足元の地面の傾斜を評価することです。北に行くと地面がわずかに上り、南に行くと地面がわずかに下りになることがあります。北東に曲がると、より急な上り坂があることに気づきます。小さな円を描いて歩きながら、行けそうな方向をすべて調査し、そのうちの一つの方向の上り坂が最も急であることに気づいたら、その方向に数歩進みます。次に、別の円を描き、進むことができるすべての方向の中で最も急な上り坂を選びます。

これで機械学習の仕組みがわかりました。

まあ、それより少しだけ詳しいかもしれませんが、勾配降下法と呼ばれるこの概念は機械学習の核心です。それは本質的には試行錯誤のプロセスです。つまり、考えられる行動をいくつか試して、窮地から抜け出すのに最も役立つ行動を選択します。方向に関連付けられた「勾配」は、「その方向に小さな一歩を踏み出したときに高度がどれだけ変化するか」、つまり歩いている地面の傾斜を指す数学的な概念です。勾配降下法は、数学的な言語を使用して「遭遇する可能性のあるあらゆる状況で何をすべきかについての明確なルール」を作成するアルゴリズムです。

ルールは、進むことができるすべての方向を検討し、最も勾配が大きい方向を見つけ、その方向に数歩進むことです。繰り返す。

山頂までのルートを地形図に書きます。図 1 のようになります。

図 1 これはもう一つの素晴らしい幾何学図形です。勾配降下法を使用して経路を検索する場合、地形図上の経路は等高線に対して垂直でなければなりません。

しかし、これは機械学習とどのような関係があるのでしょうか?

私が登山家ではなく、AlphaGo や GPT-3 (もっともらしくて不穏な英語のテキストの長い文字列を生成する AI 言語モデル) のように何かを学習しようとしているコンピューターだと仮定します。しかし、まずは私が猫とは何かを学ぼうとしているコンピューターだと仮定しましょう。

どうすればこれができるのでしょうか?答えは、赤ちゃんと同じような学習アプローチを採用することです。乳児は、大人が視界にある何かを指して「猫」と言うような世界に住んでいます。さまざまなポーズ、明るさ、感情の猫の写真 1,000 枚をコンピューターに与えてトレーニングすることもできます。コンピュータに「これらはすべて猫です」と伝えます。実際、これを本当に機能させたいのであれば、猫以外の写真をさらに 1,000 枚入力し、どれが猫でどれがそうでないかをコンピューターに教える必要があります。

機械の任務は、どれが猫でどれがそうでないかを自ら識別できる戦略を開発することです。あらゆる可能な戦略を試しながら、猫の識別において最高の精度を達成する最善の戦略を見つけようとします。これは準クライマーなので、勾配降下法を使用して経路を決定できます。戦略を選択し、対応する環境に身を置き、勾配降下法のルールに従って前進します。現在の戦略にどのような小さな変更を加えることができるかを考え、最も大きな変化をもたらすものを見つけて、それを実行してください。繰り返す。

貪欲というのはなかなか良いものだ

この発言はもっともらしく聞こえますが、その意味を理解していないことに気づきます。たとえば、戦略とは何でしょうか?それはコンピュータが実行できるものでなければならず、つまり数学の言語で表現されなければならなかったのです。コンピュータにとって、画像は単なる長い数字の列です。この画像が 600×600 ピクセルのグリッドである場合、各ピクセルには 0 (純粋な黒) から 1 (純粋な白) までの明るさがあります。この36万（600×600）の数字がわかれば、絵が何であるかがわかります。（または、少なくとも白黒でどのように見えるかを知ってください。）

この戦略は、コンピューターに入力された 360,000 個の数字を「猫」または「猫でない」(コンピューター言語では「1」または「0」) に変換する方法です。数学的に表現すると、戦略は関数です。実際、心理的な現実に近づくために、ポリシーの出力は 0 から 1 の間の数値になる可能性があり、入力がオオヤマネコやガーフィールドの枕のぼやけた写真である場合にマシンが表現したい不確実性を表します。出力が 0.8 の場合、「これは猫であることはほぼ確実だが、まだ疑問が残る」と解釈する必要があります。

たとえば、ポリシーは「入力した 360,000 個の数値の平均を出力する」という関数である可能性があります。画像が完全に白の場合、関数は値 1 を返します。画像が完全に黒の場合、関数は値 0 を返します。一般に、この関数はコンピューター画面上の画像の全体的な平均明るさを測定します。これは、写真が猫であるかどうかとどのような関係があるのでしょうか?それは問題ではありません。私はそれが良い戦略だとは言っていません。

戦略の成功をどのように測定するのでしょうか?これを行う最も簡単な方法は、猫と猫以外の動物の画像 2,000 枚でトレーニングしたコンピューターが次にどのように動作するかを確認することです。各画像に対して、ポリシーに「エラースコア」（実際のコンピューターサイエンティストはこれを「エラーまたは損失」と呼ぶことが多い）を割り当てることができます。画像が猫で、ポリシー出力が 1 の場合、エラースコアは 0 となり、答えが正しいことを意味します。写真が猫で、ポリシー出力が 0 の場合、エラースコアは 1 となり、これは最悪の結果となります。写真が猫で、ポリシー出力が 0.8 の場合、答えはほぼ正しいですが、わずかに不確実で、エラースコアは 0.2 になります。 (エラーを測定する方法は多数あり、これは実際に使用される最も一般的な方法ではありませんが、説明するのは簡単です。)

トレーニングに使用した 2000 枚の画像すべてのエラースコアを合計すると、戦略の成功の尺度となる合計エラースコアが得られます。あなたの目標は、可能な限り最も低い合計エラースコアを持つ戦略を見つけることです。戦略が間違いを起こさないようにするにはどうすればよいでしょうか?ここで勾配降下法が登場します。調整を加えるとポリシーが良くなったり悪くなったりすることが何を意味するのかがわかるからです。勾配は、ポリシーに小さな変更を加えたときにエラースコアがどの程度変化するかを測定します。ポリシーに加えることができるすべての小さな変更のうち、エラースコアが最も低下するものを選択します。勾配降下法は猫だけのものではありません。これは、機械に経験からポリシーを学習させたいあらゆるものに適用できます。

ここでの計算上の課題を過小評価したくありません。猫を認識することを学習するコンピューターは、2,000 枚ではなく、数百万枚の写真でトレーニングした可能性が高いです。つまり、合計エラースコアを計算するには、100 万個のエラースコアを合計する必要がある可能性があります。強力なプロセッサを使用している場合でも、これにはしばらく時間がかかることがあります。したがって、実際には、勾配降下法のバリエーションの 1 つである確率的勾配降下法がよく使用されます。このアプローチには、無数の小さな変更とエラースコアが関係しますが、基本的な考え方は次のとおりです。最初のステップとして、トレーニングイメージの大規模なセット (アンゴラ猫や水槽の写真など) から 1 つのイメージをランダムに選択し、すべてのエラースコアを合計するのではなく、その 1 つのイメージのエラースコアを最小化する手順を実行します。 2 番目のステップでは、別の画像をランダムに選択し、上記の手順を繰り返します。時間が経つにつれて（このプロセスには多くのステップが必要なため）、最終的にはすべての画像が考慮される可能性があります。

確率的勾配降下法の好きなところは、それがクレイジーに聞こえることです。たとえば、米国大統領が世界戦略を策定しているときに、部下たちが大統領を取り囲み、自分たちの特別利益にかなうように政策を調整するよう叫んでいると想像してください。大統領は毎日ランダムに人を選び、その人のアドバイスを聞き、それに応じて政策を変更します。これは大国を統治するには不合理な方法ですが、機械学習には非常に有効です。

これまでの説明には重要な要素が欠けています。それは、いつ止めるべきかをどのように知るかということです。それは簡単だ、と言う人もいるかもしれません。そして、小さな変更を加えてもエラースコアが下がらなくなったら、そこで止めてもいいのです。しかし、大きな問題があります。それは、実際にはトップに到達していない可能性があるということです。

もしあなたが図 2 の幸せな登山者で、左または右に 1 歩進んだとしたら、どちらの方向も上り坂ではないことがわかるでしょう。だからあなたは幸せなのです。頂点に到達したと思っているのですから！

図2

しかし、そうではありません。本当の頂上はまだ遠く、勾配降下法ではそこに到達することはできません。あなたは数学者が局所最適と呼ぶ状態に陥っています。これは、少しの変更では改善が生まれない状態ですが、真に最良の状態からは程遠い状態です。

私は局所最適を先延ばしの数学的モデルとして考えるのが好きです。何年もかけて達成しようとしてきた目標に関連する大量の書類を整理するなど、退屈な作業に直面しているとします。それらを捨てるということは、最終的に屈服し、それ以上頑張り続けるつもりがないことを意味します。勾配降下法は毎日、その日の幸福を最大化するために実行できる小さな行動を提案します。紙の山を整理すると幸せになれますか?いいえ、逆に気分が悪くなります。タスクを 1 日延期することが勾配降下法で要求されることであり、アルゴリズムは毎日、翌日、3 日目、4 日目、というように同じアドバイスを提供します。まさにそのように、局所最適値、つまり谷の罠に陥ります。もっと高い山に登りたいなら、歯を食いしばって谷を越えなければなりません。道のりは長いかもしれないので、まず下りてから登らなければなりません。勾配降下法は、常に短期的な利益を最大化するステップを選択するため、「貪欲アルゴリズム」とも呼ばれます。貪欲は悪の木の主要な果実の一つですが、資本主義については「貪欲は善である」という有名な格言があります。機械学習の分野では、「貪欲というのはかなり良いことだ」と言った方が正確です。勾配降下法は局所最適解に導くことができますが、これは理論上よりも実際にはあまり起こりません。

局所最適を回避するには、欲を一時的に脇に置くだけでよいのです。すべての良いルールには例外があります。たとえば、頂上に到達した後、別のランダムな場所を選択し、代わりに勾配降下法を再開することができます。毎回同じ場所にたどり着くことができれば、そこが最高の場所だという自信が持てるでしょう。図 2 では、登山者がランダムな場所から出発して最急降下法を使用すると、小さな山で行き詰まるよりも、大きな山の頂上に到達する可能性が高くなります。

現実の生活では、自分自身を完全にランダムな位置にリセットすることは困難です。貪欲に小さなステップを選択するよりも、現在の位置からランダムに大きなステップを踏む方が現実的です。このアプローチは、多くの場合、あなたをまったく新しい立場に導き、人生の頂点へと導くのに十分なものです。

私は正しいのか、それとも間違っているのか？

まだ大きな問題が残っています。私たちは、考えられるすべての小さな変更を検討し、どれが最良の勾配につながるかを調べることにしました。あなたが登山家であれば、明確な問題があります。2 次元空間で次の動きを選択するという問題です。これはコンパスの円の 1 つを選択するのと同じで、目標は最適な勾配を持つ地点を見つけることです。

しかし実際には、猫の写真を評価するためのあらゆる可能な戦略は、極めて大きな無限次元空間を構成します。すべての選択肢を考慮する単一の方法は存在しません。これは、機械の視点ではなく人間の視点から見れば明らかです。私が勾配降下法に関する自己啓発本を書いていて、「人生を変えたいなら、それは簡単です。人生を変える方法をすべて考えて、最も効果がありそうな方法を選んでください。」と言ったとします。これを読んであなたは驚愕するでしょう。なぜなら、人生を変えることができるあらゆる方法の空間は非常に広く、それを徹底的に調べることは不可能だからです。

もし、何らかの特別な内省の方法を通じて、この無限次元空間を探索できたとしたらどうなるでしょうか?その場合、次の戦略により過去の人生経験のエラースコアが確実に最小化されるため、別の問題が発生します。

戦略: これから下す決定が、以前に下した決定とまったく同じである場合は、現在検討している決定を正しい決定として扱います。それ以外の場合は、コインを投げます。

代わりにコンピューター学習を使用して猫を認識する場合、上記の戦略は次のようになります。

戦略: トレーニング中に猫として識別された画像については、「cat」を出力します。猫ではないと識別された画像の場合は、「non-cat」を出力します。他の画像については、コインを投げてください。

この戦略のエラースコアは 0 です。コンピュータはトレーニングで使用されたすべての画像に対して正しい答えを出しました。しかし、今まで見たことのない猫の写真を見せると、コインを投げるでしょう。写真を見せて、これは猫だと伝えたとしても、その写真を 0.01 度回転させると、コインを投げて決めることになります。冷蔵庫の写真を見せても、やはりコインを投げます。このアプリができるのは、私が見せた限られた数の猫の写真と猫以外の写真を正確に識別することだけです。これは学習ではなく、暗記です。

これまで、戦略が失敗する 2 つの方法を見てきましたが、ある意味では、これらは両極端です。

1. この戦略は、遭遇する多くの状況では間違っています。

2. この戦略は、以前に遭遇した状況にのみ有効ですが、新しい状況には役に立ちません。

前者の問題は「アンダーフィッティング」と呼ばれ、戦略を策定する際に経験を十分に活用していないことを意味します。後者の問題は「過剰適合」と呼ばれ、自分の経験に頼りすぎていることを意味します。これら 2 つの役に立たない両極端の間の妥協点をどうやって見つければよいのでしょうか?答えは、問題を登山のようにすることです。登山家は非常に限られた選択肢を探します。私たちも、自分の選択肢を制限すれば、同じことができます。

私たちは本能的にこれを知っています。私たち自身の人生戦略を評価する方法を考えるときによく使われる比喩は、無限次元の空間をランダムに歩くのではなく、地球の表面上で方向を選択するというものです。アメリカの詩人ロバート・フロストはそれを「二つの分かれ道」に例えた。トーキング・ヘッズの曲「Once in a Lifetime」はフロストの詩「The Road Not Taken」の続編のようなもので、よく読むとこの曲が勾配降下法について書かれていることがわかります。

あなたは自分自身に尋ねるかもしれない

その道はどこに通じているのでしょうか？

あなたは自分自身に尋ねるかもしれない

私は正しいのか、それとも間違っているのか？

あなたはこう思うかもしれない

何てことだ！私は何をしたのでしょうか?

選択肢を 1 つのノブだけに限定する必要はありません。

線形回帰は、ノブを選択するための最も一般的な方法の 1 つです。線形回帰は、統計学者が、ある変数を別の既知の変数の値から予測する戦略を探すときにも選択されるツールです。たとえば、節約志向の野球チームのオーナーは、チームの勝率が試合のチケットの売上にどの程度影響するかを知りたいと思うかもしれません。彼は、スタジアムが観客動員数に効果的に変換されない限り、スタジアムに人的資源や物的資源をあまり投入したくないと考えている。

図3: 2019年MLBシーズンのホーム観客動員数とチーム勝率

図 3 の各点はチームを表します。縦軸はこれらのチームの 2019 年シーズンの勝率を表し、横軸はこれらのチームのホーム観客動員数を表します。あなたの目標は、チームの勝率に基づいてホーム観客動員数を予測する戦略を見つけることであり、考慮できる選択肢の範囲は狭く、その中の戦略はすべて線形です。

ホーム観客数＝謎の数字１×チーム勝率＋謎の数字２

同様の戦略はすべてグラフ内の直線に対応しており、この線がデータポイントに可能な限り一致することを期待します。 2 つの謎の数字は、微調整によってポリシーの全体的なエラースコアを下げることができなくなるまで、勾配降下を実行するために回すノブです。（ここで最も効果的なエラースコアは、線形戦略の予測とすべてのチームの真の値の差の二乗の合計であるため、この方法は「最小二乗法」と呼ばれることがよくあります。最小二乗法は非常に古く、よく開発された方法であり、勾配降下法よりもはるかに速く最適なラインを見つけることができますが、勾配降下法もまだ機能します。）

最終的に、図 4 のような直線が得られます。

図4

エラースコアが最も低い行でも、重大なエラーがあることに気付く場合があります。これは、現実世界のほとんどの関係が厳密に直線的ではないためです。より多くの変数を入力として含めることでこれを説明することができます（たとえば、チームのスタジアムのサイズは相関変数である必要があります）が、線形戦略の最終的な有効性は依然として限られています。たとえば、この戦略ではどの写真が猫の写真であるかを判別することはできません。この場合、非線形性のワイルドな世界に踏み込まなければなりません。

ディープラーニングとニューラルネットワーク

機械学習の分野で、開発されている最も重要な技術の一つは「ディープラーニング」と呼ばれています。それは時々人類に預言者として現れ、自動的に、そして大規模に並外れた洞察を提供します。この技術には「ニューラルネットワーク」という名前が付けられており、あたかもこの方法が人間の脳の働きを独自に捉えることができるかのように思われます。

しかし、そうではありません。メレディス・ブルサードが言うように、それは単なる数学であり、最新の数学でもありません。この基本概念は 1950 年代後半に存在し、1985 年のバルミツバーで私が受け取った贈り物の山の中に、ニューラルネットワークアーキテクチャとの類似点を見ることができます。小切手、いくつかの聖杯、20 本以上のクロスビーペンに加えて、両親が最も欲しがっていた贈り物であるヤマハ DX21 シンセサイザーも受け取りました。これは今でも私の自宅のオフィスにあります。 1985 年当時、キーボードではなくシンセサイザーを持っていたことを私はとても誇りに思っていました。 DX21 シンセサイザーでは、ピアノ、トランペット、バイオリンの音を演奏できるだけでなく、図 5 に示すような多くの画像を含む 70 ページのマニュアルの難解な内容をマスターすれば、任意の音を作成することもできます。

図5

各「OP」ボックスはシンセ波形を表し、ボックスのノブを回すことで、サウンドを大きくしたり小さくしたり、時間の経過とともにフェードアウトまたはフェードインしたりできます。これらはすべてありふれたことですが、DX21 の本当の魔法はオペレーターとのつながりにあります。図 5 は、OP1 から出力されるシンセ波形が、ボックスで回せるノブだけでなく、OP2 の出力にも依存する、ルーブ・ゴールドバーグのようなプロセスを示しています。シンセ波形は、OP4 に付属する「フィードバック」矢印で表された機能により、自己調整することもできます。各ボックスのいくつかのノブを回すことで、非常に幅広い範囲の出力を得ることができます。これにより、自分で新しいサウンドを試して作成する機会が得られました。

ニューラルネットワークは私のシンセサイザーと非常によく似ています。図 6 に示すように、これはいくつかの小さなボックスで構成されたネットワークです。

図6

すべてのボックスは同じように機能します。0.5 以上の数値を入力すると、1 を出力します。それ以外の場合は 0 を出力します。このボックスを機械学習の基本要素として使用するというアイデアは、1957 ～ 1958 年に心理学者フランク・ローゼンブラットによって提案されました。ローゼンブラットは、このボックスをニューロンの仕組みを示す単純なモデルと見なしていました。箱は静かにそこに置かれており、一定の閾値を超える刺激を受け取ると信号を発します。ローゼンブラットはこれらのマシンを「パーセプトロン」と呼びました。この歴史に敬意を表して、ほとんどの人がもはや人間の脳のハードウェアをシミュレートするものとは考えていないにもかかわらず、私たちは今でもこれらの偽のニューロンのネットワークを「ニューラルネットワーク」と呼んでいます。

数字がボックスの外に出ると、ボックスの右側にある矢印に沿って移動します。各矢印には「重み」と呼ばれる数字が付いており、出力が矢印に沿って進むと、対応する重みが掛け合わされます。各ボックスには、左側から入ってくるすべての数字の合計が入力として取り込まれます。

各列はレイヤーと呼ばれ、図 6 のネットワークには 2 つのレイヤーがあります。最初の層には 2 つのボックスがあり、2 番目の層には 1 つのボックスがあります。まず、最初のレイヤーの 2 つのボックスに対応する 2 つの数字をニューラルネットワークに入力します。考えられるシナリオをいくつか挙げます。

1. 両方の入力が 0.5 以上です。最初のレイヤーの両方のボックスは 1 を出力し、これらの 2 つの数字が矢印に沿って移動すると、両方とも 1/3 になるため、2 番目のレイヤーのボックスは 2/3 を入力として受け取り、1 を出力します。

2. 一方の入力が 0.5 以上であり、もう一方の入力が 0.5 未満である。すると、2 つの出力は 1 と 0 となり、2 番目のレイヤーのボックスは 1/3 を入力として受け取り、0 を出力します。

3. 両方の入力が 0.5 未満です。すると、最初のレイヤーの両方のボックスが 0 を出力し、2 番目のレイヤーのボックスも 0 を出力します。

言い換えると、このニューラルネットワークは、2 つの数値を入力として受け取り、その数値が両方とも 0.5 より大きいかどうかを通知するマシンです。

図 7 は、もう少し複雑なニューラルネットワークです。

図7

このニューラルネットワークの最初の層には 51 個のボックスがあり、それらはすべて 2 番目の層のボックスに数字を入力します。しかし、矢の重さは異なり、最小の重さは 3/538 で、最大の重さは 55/538 です。この機械は何をしていますか? 51 個の異なる数値を入力として受け取り、入力が 0.5 より大きいすべてのボックスをアクティブにします。次に、これらのボックスに対して加重計算を実行し、その合計が 0.5 より大きいかどうかを確認します。はいの場合は 1 を出力します。いいえの場合は 0 を出力します。

これを「2 層ローゼンブラットパーセプトロン」と呼ぶこともできますが、より一般的な名前は「選挙人団システム」です。 51 個のボックスは、米国の 50 州とワシントン D.C. を表しています。共和党の候補者がいずれかの州で勝利した場合、その州を表すボックスがアクティブになります。これらすべての州の選挙人の票を合計し、それを 538 で割ります。結果が 0.5 より大きい場合、共和党候補が勝者となります。

図 8 は、選挙人団のように言葉で説明するのは簡単ではない、より現代的な例ですが、機械学習の進歩を推進しているニューラルネットワークに非常に近いものです。

図8

図 8 のボックスは、ローゼンブラットパーセプトロンのボックスよりも洗練されています。ボックスは数値を入力として受け取り、その数値と 0 のうち大きい方の数値を出力します。つまり、入力が正の数値の場合、ボックスはその数値をそのまま出力します。ただし、入力が負の数の場合、ボックスは 0 を出力します。

このデバイスを試してみましょう（図9を参照）。まず、左端のレイヤーの 2 つのボックスにそれぞれ 1 と 1 を入力するとします。両方の数値は正なので、最初のレイヤーの両方のボックスは 1 を出力します。2 番目のレイヤーを見てみましょう。最初のボックスが受け取る数字は 1×1 = 1 で、2 番目のボックスが受け取る数字は -1×1 = -1 です。同様に、第 2 層の 3 番目のボックスと 4 番目のボックスが受け取る数値はそれぞれ 1 と -1 です。 1 は正の数なので、最初のボックスは 1 を出力します。しかし、2 番目のボックスは負の入力を受け取り、トリガーに失敗するため、0 を出力します。同様に、3 番目のボックスは 1 を出力し、4 番目のボックスは 0 を出力します。

図9

次に、3番目の層を見てみましょう。上の箱に届く数字は1×1+3×0+2×1+1×0=3、下の箱に届く数字は3×1−1×0−5×1−1×0=−2です。したがって、上のボックスは 3 を出力し、下のボックスはトリガーされずに 0 を出力します。最終的に、4 番目のレイヤーのボックスが受信した 2 つの入力の合計は 1×3+1×0=3 になります。

これらの詳細に注意を払わなくても問題ありません。重要なのは、ニューラルネットワークは 2 つの数値を入力として受け取り、数値を出力として返すポリシーであるということです。矢印の重みを変えると、つまり 14 個のノブを回すと、戦略が変わります。図 9 は 14 次元の空間を提供しており、既存のデータに基づいて最適な戦略を見つけることができます。 14 次元がどのようなものか想像するのが難しい場合は、現代のニューラルネットワーク理論の創始者の 1 人である Geoffrey Hinton のアドバイスに従うことをお勧めします。「3 次元空間を想像して、自分自身に声に出してこう言いましょう。『これは 14 次元だ』」誰もがこれを実行できるはずです。」ヒントン氏は高次元宇宙愛好家の家族の出身です。彼の曽祖父チャールズは、1904年に四次元立方体を想像する方法に関する本を書き、それを表現するために「テッセラクト」という言葉を作り出した。スペインの画家サルバドール・ダリの絵画「磔刑」にヒントンのハイパーキューブが描かれているのを見たことがあるかどうかはわかりません。

図 10 のニューラルネットワークの重みは既知であり、平面上の点 (x, y) が灰色の図形の内側にある場合、3 以下の値が割り当てられます。点 (1, 1) が灰色の図形の境界上にある場合、ポリシーによって 3 の値が割り当てられることに注意してください。

図10

異なる重みによって異なる形状が生成されますが、任意の形状にはなりません。パーセプトロンの性質上、この形状は常に多角形、つまり境界が複数の線分で構成される形状になります。 (前の記事では、これは非線形であるべきだと言っていませんでしたか? そうです。しかし、パーセプトロンは区分的に線形です。つまり、空間のさまざまな領域でさまざまな線形関係を満たします。より一般的なニューラルネットワークでは、より曲線的な結果が生成される可能性があります。)

図 11 に示すように、平面上のいくつかの点を X でマークし、他の点を O でマークするとします。マシンの目標は、ラベルを付けた点に基づいて、平面上の他のラベルのない点に X または O を割り当てるという戦略を学習させることでした。おそらく (うまくいけば)、14 個のノブを正しく設定して、X でマークされたすべてのポイントに大きな値を割り当て、O でマークされたすべてのポイントに小さな値を割り当てることで、平面上のマークされていないポイントについて推測できる戦略が得られるかもしれません。そのようなポリシーが存在する場合、私はそれを勾配降下法で学習したいと考えています。つまり、各ノブを少しずつ回して、特定の例に対するポリシーのエラースコアがどれだけ減少するかを確認し、最も効果的なアクションを見つけて実装します。繰り返す。ディープラーニングの「ディープ」とは、ニューラルネットワークに多くの層があることを意味します。レイヤーあたりのボックスの数は「幅」と呼ばれ、実際にはこの数はかなり大きくなることがあります。しかし、「ディープラーニング」と比較すると、「幅学習」には専門用語がいくつか欠けています。

図11

確かに、今日のディープラーニングネットワークは上の図よりもはるかに複雑であり、ボックス内の関数はこれまで説明した単純な関数よりもはるかに複雑です。 RNN には、DX21 シンセの「OP4」のようなフィードバックボックスも含まれており、独自の出力を入力として受け取ります。また、速度も大幅に向上しています。ご覧のとおり、ニューラルネットワークの概念は長い間存在しており、つい最近までこの方法は実現不可能だと思われていたことを覚えています。しかし、それは素晴らしいアイデアであることがわかりました。ただ、ハードウェアがコンセプトに追いつく必要があるだけです。ゲームグラフィックスの高速レンダリング用に設計された GPU チップは、後に大規模なニューラルネットワークを迅速にトレーニングするための理想的なツールであることが証明され、実験者がニューラルネットワークの深さと幅を増やすのに役立ちました。最新のプロセッサでは、14 個のノブに制限されず、数千、数百万、あるいはそれ以上の数のノブを操作できます。 GPT-3 は、1,750 億個のノブを備えたニューラルネットワークを使用して説得力のある英語のテキストを生成します。

1750億次元の空間は巨大に聞こえますが、無限と比べると見劣りします。同様に、すべての可能な戦略の空間と比較すると、私たちが探索しているのはそのほんの一部にすぎません。しかし実際には、DX21 の小さなネットワークがトランペット、チェロ、宇宙の雷の音色をシミュレートするのに十分であるのと同じように、人間が書いたように見えるテキストを生成するには十分なようです。

これだけでも十分驚きですが、さらに深い謎があります。覚えておいてください、勾配降下法の考え方は、ニューラルネットワークがトレーニングされたデータポイントで可能な限り最高のパフォーマンスを発揮するまでノブを回し続けることです。今日のニューラルネットワークにはノブが多数搭載されているため、トレーニングセットで完璧に動作し、1,000 枚の猫の写真をすべて「猫」として分類し、他の 1,000 枚はすべて「猫ではない」として分類できる場合がよくあります。

実際、回すべきノブが非常に多いため、トレーニングデータを 100% 正確に取得するための可能な戦略の範囲は膨大です。これらの戦略のほとんどは、ニューラルネットワークがこれまで見たことのない画像に直面したときにはパフォーマンスが低下することが判明しました。ただし、愚かな勾配降下法と貪欲な勾配降下法は、他の戦略よりも一部の戦略で頻繁に発生することが多く、実際には、勾配降下法で好まれる戦略の方が新しい例に簡単に一般化されるようです。

なぜ？この特定の形式のニューラルネットワークが、さまざまな学習問題を解決するのに優れているのはなぜでしょうか?私たちが検索したこの小さなポリシー空間領域に、なぜ優れたポリシーが含まれているのでしょうか?

私の知る限り、それは謎です。率直に言って、それが謎であるかどうかについては多くの論争があります。私は多くの有名な人工知能研究者にこの質問をしましたが、彼らは皆雄弁に答えてくれました。彼らの中には、非常に自信を持って理由を説明する人もいましたが、それぞれの話は異なっていました。

著者について

ジョーダン・スチュアート・エレンバーグ（1971年 - ）は、アメリカの数学者で、1971年に博士号を取得しました。 1998年にハーバード大学で博士号を取得し、現在はウィスコンシン大学マディソン校のジョン・D・マッカーサー教授を務めています。彼の主な研究分野は代数幾何学と数論です。彼は多くのScience Communication Awardsを獲得し、How Not To Being、Shape、The Novel The Grasshopper Kingなどの本を出版しました。彼の作品は、ウォールストリートジャーナル、ニューヨークタイムズ、スレート、有線などでよく見られます。

この記事は、第7章「機械学習は、幾何学の力」（Citic Press・Nautilus、2023.3）の山を登るようなものです。

<<: 座っていると死ぬことがありますか？注意：長時間座っている人は血栓に注意してください

>>: メーデーに一緒にバーベキューしませんか？まずはバーベキューに関するあまり知られていない事実を見てみましょう