シャノンとボルツマンの肩の上に立って、ディープラーニングの芸術と哲学を見つめる 記事「魅力的なデータとシャノンの視点」では、物事はさまざまなレベルのランダム変数によって表示される情報によって表現されるという、私自身の「ひらめき」を紹介しました。異なるレベルのランダム変数は異なる情報を持ち、それらが一緒になって上位レベルのランダム変数の情報表現に影響を与えます。ランダム変数によって外部に表現される情報は、ランダム変数の条件付き確率分布に依存します。多くの友人もこれに同意しており、同僚もディープラーニングに似ていると考えています。 この文章の意味を本当に理解すれば、ディープラーニングの本質を理解したことになります。たとえば、人物を識別する場合、体の形、肌の色、顔の形、目、鼻筋、口角などはすべて、その人物を特徴付けるランダム変数です。機械学習の用語では、これらは特徴と呼ばれ、明示的または暗黙的になります。異なる輪郭、異なる血液型、異なる気質、異なる性格、異なるIQ、EQ...、異なるレベルの情報が総合的にこの人物を表現します。この階層的な表現は、大規模な宇宙システムや小規模な雨滴や微生物を説明するために使用できます。 シャノンが確率分布に基づいて定義した情報エントロピーは、観測されるもののランダム変数の不確実性を記述したものです。エントロピーが増加すると、不確実性も増加します。エントロピーが減少すると、不確実性も減少します。たとえば、人間の顔の場合、顔の形にはさまざまな値があり、目の大きさ、位置、まつげの長さ、相対的な位置はすべて異なる値の範囲と可能性を持ちます。これらのさまざまな特徴の可能な値を1つずつ観察すると、徐々に顔が認識されます。つまり、何かがアヒルのように歩き、アヒルのように鳴き、アヒルのように見えるのを観察した場合、それはアヒルであると考えます。 ここで言及されているのは観察ですが、これは物事に関する情報を得て物事を理解する唯一の方法です。人々は、この事物の特性について、さまざまなレベルで可能な限り徹底的に、できるだけ多く理解し、彼/彼女/それを彼/彼女/それに非常によく似たものと区別できるほど徹底的に理解する必要があります。つまり、これらのランダム変数の可能性をすべて試した後でも、彼/彼女/それは依然として他の人と異なります。説明するのは難しいように思えますが、この情報はデータとして記録されており、それがビッグデータが人気がある理由をある程度説明しています。大きいというのは、実際には、オブジェクトを識別するのに十分、詳細、深さ、タイミングが十分であることを意味します。ビッグデータ企業がよく使う戦術は、人々を騙して 360 度の顧客ポートレートを作成させることです。 360 度が何を意味するのか考える必要があります。あなたの友人や家族はあなたをどれくらい知っていますか?あなたは自分自身を360度知っていますか? 3.6度を描くことはできますか? 観察は誤差を伴い、多くの場合直接実行できません。たとえば、湖にいる魚の平均的な長さを計算したいが、湖の中でさまざまな長さの魚がどの程度分布しているかが不明な場合、どうすればそれらの魚を捕まえて測定できるでしょうか?マルコフ氏はこれは簡単だと言いました。確率分布の移行の連鎖を構築します。初期分布 P0 から、確率 P で n 回の遷移を経て、定常分布 Pn に確実に収束します。分かりませんか?ギブスはそれを理解し、ギブスサンプリング法を発明しました。ただし、ここでの転送マトリックスは、詳細な安定性条件を満たす必要があります。つまり、相互転送の確率が等しく、そうでない場合は不安定になります(注意してください)、「安定性」の前提を覚えておいてください。 「なぜディープラーニングと低コストラーニングはこれほどうまく機能するのか?」と題された最近の論文で、ハーバード大学の物理学者数名が、上記の階層的ランダム表現法について理論的レビューを行っています。私の意見では、これはハーバード大学の物理学者の優れた能力に感心せざるを得ない完璧な要約です。多くのコンピューター科学者は、複数の層を持つ派手なニューラル ネットワーク アーキテクチャ、確率的勾配最適化ソリューション、説明のつかない無意味な正規化など、すべて「技術」であると自慢しています。ここに、彼らの理論的基礎となる「道」が見つかります。論文の著者は、以下の図を使用して、ディープラーニングの分野における最も典型的な 3 つの問題、つまり教師なし学習、教師あり学習の分類と予測を要約しています。論文には誤字があるようですが、AI では認識できない可能性があります。これら 3 種類の問題はすべて、最終的にニューラル ネットワークを使用して確率分布を近似します。つまり、(x, y) の結合確率分布、または y が発生する条件下での x の条件付き確率分布、あるいはその両方を想像します。トレーニング プロセスは、この近似確率分布関数を見つけるプロセスです。 一般的なディープラーニングアルゴリズムはこれらの確率分布をどのように解決するのでしょうか?まず、これらのランダム変数の観測データ(トレーニングデータ)に含まれるシャノン情報エントロピーを計算し、これがシステムの可能な最大の情報表現(最大尤度)であると判断し、残りの部分を最小化、つまり最大値と最小値を見つけるために、数値的手法を使用します。ここには、凸関数、リプシッツ連続性(ある意味では定常仮定としても理解できる)、ラグランジュ乗数、確率的勾配降下法などの多くの数学的「算術」など、すべて「見た目に美しい」計算など、多くの仮定があります。このシャノンエントロピーアプローチに適切な制約を適用することで、大学の物理学実験で直線を当てはめるために使用したことがあるであろう、おなじみの最小二乗法を得ることができます。 トレーニングを通じてこれらの確率分布関数を見つけることは、システムが比較的安定した状態にあるという基本的な仮定を意味します。急速に進化するオープンシステムの場合、確率的方法は適さないはずです。例えば、機械翻訳は比較的安定したものの言語記述を処理できるはずです。しかし、ネットワーク上の新しい多様言語や、例えば数年前の「真・環伝説」のようなニッチな新しいものの場合、統計に基づく AI 翻訳はそれほど便利ではないかもしれません。周紅一氏は360マーケティングフェスティバルで生放送におけるAIのパフォーマンスを総括し、「コンピューターは円錐形の顔をすべて美人と定義している」と述べた。 もう一つの例はボルツマンマシンです。ハミルトン自由エネルギーの分布には、実際にはシステムの相対的な安定性という暗黙の仮定があります (ボルツマン分布は、「平衡状態」における気体分子のエネルギー分布法則です)。不安定なシステムの場合は、Prigogine に頼る必要があります。したがって、AI の「知能」がますます向上することを歓迎する一方で、それが適用できない状況もあることを冷静に認識する必要があります。この文章自体を除いて、普遍的な真実は存在しないことを信じてください。この件を疑っている私を除いて、他のすべては疑うに値する。 私にもアドバイスがあります。 AI がいかに強力であっても、統計に基づく予測を信頼する際には慎重になるようにしてください。この農民の諺を見れば分かるでしょう。私はただ、将来どこで死ぬのかを知りたいだけなのです。そうすれば、そこへは行かなくて済むのです。 著者: 王清発、データ専門家、Chief Data Officer Alliance 専門家グループのメンバー |
<<: 中国の作家が再びヒューゴー賞を受賞した。 「時空の画家」の画家は誰ですか?
>>: 「食品の栄養についてどれだけ知っていますか」丨冬虫夏草は冬虫夏草の「親戚」ですか?
皮膚アレルギーは多くの人に発症しています。人によっては、皮膚アレルギーがそれほど重くないため、数...
今は冬なので、多くの人が鍋を食べるのが好きです。しかし、火鍋を食べすぎると体内の熱が高まり、便秘や口...
フェイスメンが人気になってきました。賞賛であれ批判であれ、激励であれ悲観であれ、6月中はメディアや起...
オクラは羊の角に似ていることからオクラとも呼ばれます。多くの子供たちが大好きな野菜です。なめらかな味...
牛肉は私たちの生活に欠かせない食材であり、とても美味しいです。では、このおいしい食材をおいしく食べる...
ソーセージは、特別な肉の風味を持つ伝統的な調理食品です。ソーセージの主な原料は一般的に肉、デンプン、...
ネイチャートランペットコラム第50号へようこそ。過去半月の間に、私たちは次のような読む価値のある自然...
市場における TV ボックスの急増に直面して、さまざまな TV ボックスが人々の目に現れるようになり...
国慶節ゴールデンウィーク中に最も混雑する場所はどこですか?一番人気の景勝地はどこですか?海外旅行にお...
大根には多くの種類がありますが、栄養価はほぼ同じです。一般的に「冬は大根、夏は生姜」と言われますが、...
多くの友人が、街中で薄くてカリカリのパンケーキを作っている人を見たことがあると思います。この種類の食...
カリフラワーは私たちにとって非常に馴染み深く、よく食べられる食品です。この食品は味が良く、栄養価が高...
「人は鉄、米は鋼。食事を取らないと空腹になる」ということわざがあります。私たちの体に必要なエネルギー...
良い風はしばしば私に力を与え、私を空へと運んでくれます。攻撃側のサンダーバーズは、自らの「暖かい空気...