Facebook AI ディレクター: ディープラーニング技術トレンドレポート

Facebook AI ディレクター: ディープラーニング技術トレンドレポート
ニューウィズダムオリジナル1

出典: ヤン・ルカン

編集者: MiLi

ヤン・ルカンは畳み込みニューラルネットワークの発明者であり、Facebook 人工知能研究所の所長です。以下の 150 個の PPT は、ディープラーニングの分野に関する LeCun 氏の包括的かつ詳細な考えです。 LeCun 氏は教師なし学習を強く信じており、それが数十億のニューラル ネットワークをトレーニングするのに十分な情報を提供できる唯一の学習形式であると考えています。

しかし、ルカン氏は、結局のところ世界は理解不能であるため、これをうまく行うことは非常に難しいとも考えています。 LeCun がこれらの 150 個の PPT でどのような驚きをもたらしてくれるのか見てみましょう。

ヤン・ルカン: 150 PPT 全文

全文をダウンロードしたい場合は、Xinzhiyuan購読アカウントで0326に返信してダウンロードしてください。

ディープラーニング

ヤン・ル・クン

ニューヨーク大学クーラント数学研究所、

Facebook AI 研究


知能機械を開発するには脳のクローンを作成する必要があるのでしょうか?

脳は知能機械の存在の基盤である

- 鳥やコウモリは空気より重い飛行の証拠である

今日の高速プロセッサ

脳を複製することで人工知能システムを開発できるでしょうか?

コンピュータの計算能力は脳の 10,000 倍しかないのでしょうか?おそらく百万乗:シナプスは複雑です。 100万はムーアの法則の30年分

生物学からインスピレーションを得るのが最善です。しかし、根本的な原理を理解せずに生物学から単にコピーして貼り付けるだけでは、失敗する運命にあります。飛行機は鳥からインスピレーションを得て作られました。これらは同じ飛行の基本原理を使用します。しかし、飛行機は羽ばたかず、羽根もありません。

自然からインスピレーションを得ましょう。ただし、それをコピーする必要はありません。

自然を模倣するのは良いことですが、自然を理解することも必要です。飛行機に関しては、空気力学と圧縮性流体力学を開発し、羽根や翼の羽ばたきが鍵ではないことを知りました。

1957年: パーセプトロン (最初の学習マシン)

適応型の「シナプス重み」を持つ単純なシミュレートされたニューロンは、入力と出力の加重合計を計算し、加重合計がしきい値を超える場合は +1 を、そうでない場合は -1 を出力します。

パーセプトロン学習アルゴリズム

通常の機械学習(教師あり学習)

調整可能なノブ(パーセプトロンの重みに類似)を備えたマシンを設計します。トレーニング例を選択し、それをマシンで実行してエラーを測定します。誤差を減らすためにノブをどの方向に調整する必要があるかを把握します。ノブが安定するまで、すべてのトレーニング例を使用してこの操作を繰り返します。

通常の機械学習(教師あり学習)

調整可能なノブを備えた機械を設計します。トレーニングサンプルを選択し、それをマシンで実行してエラーを測定します。ノブを調整してエラーを減らします。ノブが安定するまで繰り返します。

機械学習 = 関数の最適化

これは霧の深い山の中を歩き、最も急な下り坂の方向に歩いて谷間の村に着くようなものです。しかし、各サンプルは方向のノイズの多い推定値を提供するため、パスは非常にランダムになります。

一般化: トレーニング中に見られなかった状況を認識する

トレーニング後: これまで認識したことのないサンプルを使用してマシンをテストします。


教師あり学習

テーブル、椅子、犬、猫、人など、さまざまな例を使って機械をトレーニングできます。しかし、機械はこれまで見たことのないテーブル、椅子、犬、猫、人々を認識できるのでしょうか?

大規模な機械学習の現実

数十億の「ノブ」(または「重み」)、数千のカテゴリ。数百万の例;それぞれの例を識別するには数十億の操作が必要になる場合があります。しかし、これらの演算は単なる単純な乗算と加算です。

パターン認識の従来のモデル

パターン認識に対する従来のアプローチ(1950 年代後半以降)、固定/設計された特徴(または固定マトリックス)+ トレーニング可能な分類器、パーセプトロン(コーネル大学、1957 年)

ディープラーニング = 機械全体が学習可能

従来のパターン認識: 固定された手作りの特徴抽出器。主流の現代パターン認識:教師なしの中レベルの特徴。ディープラーニング: 表現は階層化されており、トレーニングされています。

ディープラーニング = 階層的表現の学習

非線形特徴変換の複数の段階がディープラーニングです。 ImageNet 上の特徴可視化のための畳み込み符号のトレーニング [Zeiler & Fergus 2013]

トレーニング可能な機能レベル

抽象化のレベルが上がると、表現のレベルも上がります。各ステージはトレーニング可能な機能の変換です。画像認識:

ピクセル → エッジ → テクスチャプリミティブ → 被写体 →

パーツ → オブジェクト

文字 → 単語 → 単語群 → 節 → 文 → 物語

スピーチ

例 → スペクトル帯 → 音 → ... → 音 → 音素 → 単語

浅さ vs. 深さ == ルックアップ テーブル vs. マルチステップ アルゴリズム

「浅く広い」対「深く狭い」 == 「より多くのメモリ」対「より多くの時間」、ルックアップ テーブル対アルゴリズム。指数関数的に大きなルックアップ テーブルを使用せずに 2 つのステップで実行できる機能はほとんどありません。指数関数的に、「ストレージ」を 2 段階以上削減できます。

脳は画像をどのように解釈するのでしょうか?

視覚皮質の腹側(識別)経路には複数の段階が含まれます。網膜 - LGN – V1 – V2 – V4 – PIT – AIT…など。

多層ニューラルネットワーク

多層ニューラルネットワーク

シンプルなユニットの複数のレイヤー。各ユニットは入力の加重合計を計算します。加重合計は非線形関数を通過します。学習アルゴリズムは重みを変更します。

典型的な多層ニューラルネットワークアーキテクチャ

  • モジュールをネットワークで組み立てることで、複雑な学習マシンを発明することができます。
  • リニアモジュール
  • 出力 = W. 入力 + B
  • ReLU モジュール (正規化線形ユニット)
  • 入力i<0の場合、出力i=0。
  • 出力 i = 入力、それ以外の場合;
  • コストモジュール: 二乗距離
  • コスト = ||In1-In2||2
  • 目的関数
  • L(Θ)=1/pΣk C(Xk,Yk,Θ)
  • Θ=(W1,B1,W2,B2,W3,B3)

モジュールを組み立ててネットワークを構築する

すべての主要なディープラーニング フレームワークは、モジュール (SN/Lush、1991 に触発された)、Torch7、Theano、TensorFlow などを使用します。

逆伝播法で傾きを計算する

チェーンルールの実践的応用

代数的に斜面を引き下げる:

● dC/dXi-1 = dC/dXi . dXi/dXi-1

● dC/dXi-1 = dC/dXi . dFi(Xi-1,Wi)/dXi-1

重量スロープを押し下げます:

● dC/dWi = dC/dXi . dXi/dWi

● dC/dWi = dC/dXi . dFi(Xi-1,Wi)/dWi

どのアーキテクチャでも機能しますか?

任意の接続図が許可されます。

非巡回有向グラフ

再帰ネットワークは「時間とともに展開」される必要がある

任意のモジュールを許可する

対応する引数とその他の非終端入力が連続している限り、ほぼすべての位置で反転を実行できます。

ほぼすべてのアーキテクチャは自動微分化機能を提供します。

Theano、Torch7+autograd、…

このプログラムは、非巡回有向グラフ (DAG) を計算し、パスを自動的に見つける方法になります。

多層ネットワークの目的関数は非凸です。

1-1-1 ネットワーク

– Y = W1*W2*X

目的関数: 二次損失の恒等関数

例: X=1,Y=1 L(W) = (1-W1*W2)^2

畳み込みネットワーク

(略してConvNetまたはCNN)

畳み込みネットワークアーキテクチャ

多重畳み込み

アニメーション: Andrej Karpathy URL: //cs231n.github.io/convolutional-networks/

畳み込みネットワーク(1990年に作成)

フィルター-tanh → 集計 → フィルター-tanh → 集計 → フィルター-tanh

ヒューベルとヴィーゼルの視覚皮質モデル

単純細胞は局所的な特徴を検出するために使用され、複雑細胞は視覚皮質の近くにある単純細胞の出力産物を「集約」するために使用されます ([Fukushima 1982][LeCun 1989, 1998]、[Riesenhuber 1999] など)。

全体的なアーキテクチャ: 多段階正規化 → フィルタセット → 非線形性 → 集約

標準化: 白さのバリエーション(自由選択)

減算: 平均除去、ハイパスフィルタ

区分: ローカル標準化、標準偏差

フィルタバンク: 次元拡張、超完全基数へのマッピング

非線形性: スパース化、飽和、側方抑制メカニズムなど。

補正(ReLU)、有効成分の削減、tanh、

集約: 空間的または機能的なカテゴリの集合

1993年のLeNet1のデモンストレーション

複数文字認識 [Matan et al.、1992]

各層は畳み込みである

ConvNetスライディング ウィンドウ + 重み付き有限状態マシン

ConvNet スライディング ウィンドウ + 重み付け FSM

チェックリーダー (ベル研究所、1995)

Image Transformer ネットワークは、完全なトレーニングに負の対数尤度損失を使用して、小切手の金額を読み取るようにトレーニングされます。 50% 正解、49% 拒否、1% エラー (プロセスの後半で検出可能) という方式は、1996 年から米国とヨーロッパの多くの銀行で採用され、2000 年代初頭には米国で手書き小切手の約 10% から 20% が処理されました。

顔検出 [Vaillant et al. [1993年、1994年]

ConvNetは、大規模な画像処理、マルチサイズのヒートマップ、候補の非最大値抑制に使用され、SPARCstationで256×256の画像を処理するのに6秒かかります。



同期した顔検出と姿勢推定


畳み込みネットワーク歩行者検出

シーン分析と注釈

シーン解析と注釈: マルチスケール ConvNet アーキテクチャ

各出力は多くの入力背景を確認し、完全に注釈が付けられた画像で監督を訓練することができる。

方法1: スーパーピクセル領域での多数決


RGBおよび深度画像のシーン解析と注釈

シーン分析と注釈

後処理なしでフレームごとに、ConvNet は Virtex-6 FPGA ハードウェア上でフレームあたり 50 ミリ秒で実行され、イーサネット経由で通信する機能によって制限されます。


長距離適応型ロボットビジョン用 ConvNet (DARPA LAGR プロジェクト 2005-2008)


ワインダーネットの遠距離視認性

前処理(125 ms)、地表平面の推定、地平線の位置合わせ、YUV への変換 + 局所コントラストの正規化、不変ピラミッドを使用した正規化画像の測定

畳み込みネットワークアーキテクチャ

3x12x25 入力ウィンドウあたり 100 個の機能。 YUV 画像バンド 高さ 20~36 ピクセル、幅 36~500 ピクセル

視覚的物体認識のための畳み込みネットワーク

2000 年代半ば、ConvNet はデータセット「Caltech101」(カテゴリ 101、カテゴリあたりトレーニング例 30 個) を使用してオブジェクト分類で非常に優れた結果を達成しましたが、次の理由により、結果はより「伝統的な」コンピューター ビジョン メソッドよりもわずかに劣っていました。

1. データセットが小さすぎる。

2. コンピュータが遅すぎる。

それから、2つのことが起こりました。 。 。

ImageNetデータセット [Fei-Fei et al., 2012]

120万のトレーニングサンプル

1000 カテゴリー

高速かつプログラム可能な汎用GPU

1秒あたり1兆回の演算が可能

極めて深いConvNetオブジェクト認識

1億から10億の接続、1000万から10億のパラメータ、8から20のレイヤー

GPU 上で非常に深い ConvNet をトレーニングする

ImageNet の上位 5 つのエラー確率は次のとおりです。

15%;

[Sermanet et al. [2013]

13.8% VGGNet [シモニアン、ジッサーマン 2014]

7.3%

GoogLeNet [Szegedy et al. [2014]

6.6%

ResNet [He et al. [2015]

5.7%

非常に深いConvNetアーキテクチャ

マトリックスが小さく、サブサンプリング処理があまり行われない(断片化されたサブサンプリング)

マトリックス: 第1層 (11×11)

最初のレイヤー: 3×9 マトリックス、RGB->96 特徴マップ、11×11 マトリックス、4 ステップ

実践的な学習

最初のレイヤーのフィルターはどのように学習されますか?

ディープラーニング = 階層的表現の学習

複数のステージを持つ非線形特徴変換は、ImageNetにおける深層特徴可視化畳み込みネットワーク学習と呼ばれます[Zeiler & Fergus 2013]

ImageNet: 分類

画像内の主なオブジェクトの名前を記入してください。上位 5 つのエラー率: エラーが上位 5 つに含まれない場合は、エラーと見なされます。赤: ConvNet、青: ConvNet 以外

ConvNets による物体認識と位置特定

分類 + ローカリゼーション: マルチスケール スライディング ウィンドウ

画像に convnet スライディング ウィンドウを適用して、マルチスケールの重要な準備を実行します。画像上で convnet をスライドさせるのは非常に簡単です。各ウィンドウについて、分類と境界ボックスのパラメータを予測します。オブジェクトがビュー ウィンドウ内に完全に収まっていない場合でも、convnet はオブジェクトが何であるかを予測できます。

結果: ImageNet1Kトレーニング前のImageNet検出の微調整


検出例:

検出例:

検出例:

ディープフェイス

[Taigman et al. [CVPR、2014]

ConvNet マトリックス学習の調整

Facebookで自動注釈を使用する

1日あたり800万枚の写真

マトリックス学習とシャム建築

対照的な目的関数では、類似したオブジェクトは互いに近い出力製品を生成し、類似しないオブジェクトは遠く離れた出力製品を生成する必要があり、学習と一定の配置を通じて次元が削減されます。[Chopra et al.、CVPR 2005] [Hadsell et al.、CVPR 2006]

人物認識と姿勢予測

画像キャプション: 説明文の生成

C3D: 3D ConvNet ビデオ分類

オブジェクトのセグメント化と位置特定 (DeepMask)

[ピニェイロ、コロベール、ドル ICCV 2015]

ConvNetはオブジェクトの顔モデルを生成する

DeepMask++ の推奨事項

ルートを特定する

電車

EASGD を搭載した 8×4 Kepler GPU で 2.5 日間実行した後 [Zhang、Choromanska、LeCun、NIPS 2015]


::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::86

結果

教師ありConvNetsマッピング

ConvNets を使用した画像の生成

教師ありConvNetsマッピング

椅子を描く、特徴空間における椅子アルゴリズム

音声認識のためのConvNet

音声認識と畳み込みネットワーク(ニューヨーク大学/IBM)

音響モデル: 7 層 ConvNet。 5440万個のパラメータ。

音声信号を3,000の相互に関連するサブ音素カテゴリに変換します

ReLUユニット+前の層から切り離される

4日間のGPUトレーニング後

音声認識と畳み込みネットワーク(ニューヨーク大学/IBM)

トレーニングサンプル。

40 メル周波数ケプストラム係数ウィンドウ: 10 マイクロ秒あたり 40 フレーム

音声認識と畳み込みネットワーク(ニューヨーク大学/IBM)

第1層の畳み込み行列、9×9サイズ64行列


音声認識と畳み込みネットワーク(ニューヨーク大学/IBM)

多言語認識、マルチスケール入力、大型表示ウィンドウ

ConvNet はどこにでもある (またはすぐにそうなる)

ConvNetチップ

現在、NVIDIA、Intel、Teradeep、Mobileye、Qualcomm、Samsung が ConvNet チップを開発しています。

多くのスタートアップ:Movidius、Nervanaなど。

近い将来、ConvNetが自動車を運転するようになる

NVIDIA: ConvNet テクノロジーに基づく運転支援システム

Drive-PX2: 運転支援システム用のオープンソース プラットフォーム (=150 台の Macbook Pro)

組み込みスーパーコンピュータ: 42TOPS (=150 台の MacBook Pro)

MobilEye: ConvNet テクノロジーに基づく運転支援システム

テスラ モデルSとモデルXに搭載

ConvNet コネクトミクス [Jain、Turaga、Seung、2007]

3DConvNetボリューム画像は、7x7x7の隣接するボクセルを使用して各ボクセルを「膜」または「非膜」としてラベル付けし、コネクトミクスの標準的な方法となっています。

脳腫瘍の検出

カスケード入力 CNN アーキテクチャ、802,368 個のパラメータ、30 人の患者でトレーニング、結果は BRAT2013 で発表

ConvNets による DNA/RNA タンパク質結合の予測

「ディープラーニングによる DNA および RNA 結合タンパク質の配列特異性の予測」 - Nature Biotechnology、2015 年 7 月、B Alipanahi、A Delong、M Weirauch、B Frey 著

ディープラーニングはどこにでもある (ConvNet はどこにでもある)

Facebook、Google、Microsoft、Baidu、Twitter、IBM などの多くのアプリケーション。

写真コレクション検索のための画像認識

画像/動画コンテンツのフィルタリング: スパム、ヌード、暴力。

検索とニュースソースのランキング

人々は毎日8億枚の写真をFacebookにアップロードしている

(Instagram、Messenger、WhatsAppを含めると、1日あたり20億枚の画像になります)

Facebook 上のすべての写真は 2 秒ごとに 2 つの ConvNet を通過します。

1つは画像認識と注釈です。

もう1つは顔認識(ヨーロッパではまだ有効化されていない)

近い将来、ConvNet はあらゆる場所に存在するようになります。

自動運転車、医療用画像、拡張現実、モバイルデバイス、スマートカメラ、ロボット、おもちゃなど。

埋め込みワールド

思考ベクトル

「近所のサモエド犬はシベリアンハスキーに似ている」

埋め込みワールド

iNSTAGRAM 動画を埋め込む


「思考ベクトル」で世界を表現する

あらゆるオブジェクト、概念、または「アイデア」はベクトルで表現できる

[-0.2、0.3、-4.2、5.1、…..]は「猫」の概念を表す

[-0.2、0.4、-4.0、5.1、…..]は「犬」の概念を表す

猫と犬は多くの共通の属性を持っているため、これら 2 つのベクトルは非常に似ています。

思考ベクトルを操作するための推論の追加

質問、回答、情報抽出、コンテンツフィルタリングのベクトルの比較

ベクトルの組み合わせと変換による推論、計画、言語翻訳

記憶記憶思考ベクトル

MemNN(メモリニューラルネットワーク)は良い例です

FAIR では、思考のベクトルに「世界を埋め込む」ことを目指しています。

自然言語理解

テキストを埋め込むことはできますか?

[ベンジオ 2003] [コロバートとウェストン 2010]

前後のテキストに基づいてテキストを予測する

意味属性の統合

東京-日本=ベルリン-ドイツ

東京-日本+ドイツ=ベルリン

質問応答システム


質問応答システム

質問応答システム

LSTM ネットワークによる言語翻訳

マルチレベル LSTM 再帰モジュール

英語の文章の読み取りとエンコード

英語の文章の最後にフランス語の文章を生成します

現在の最先端技術とほぼ同等の精度

ニューラルネットワークはどのようにして物事を記憶するのでしょうか?

再帰ネットワークは長期間にわたって物事を記憶することができない

大脳皮質は20秒間しか記憶できない

海馬(独立した記憶モジュール)が必要です

LSTM [Hochreiter 1997]、登録

記憶ネットワーク [Weston et al., 2014] (FAIR)、連想記憶

スタック型拡張リカレントニューラルネットワーク [Joulin and Mikolov, 2014] (FAIR)

NTM [DeepMind、2014]、「テープ」。

拡張再帰ネットワークの保存/積み重ね

スタック拡張RNN

弱教師付きMemNN:

利用可能な保管場所を探します。

記憶ネットワーク [ウェストン、チョプラ、ボルデス、2014]

ネットワークに短期記憶を追加する

::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::116

人工知能への障害

AIに欠けている4つの要素(計算能力以外)

理論の深い認知学習

ディープネットワークにおける目的関数の幾何学とは何ですか?

ConvNet アーキテクチャが優れているのはなぜですか? [マラット、ブルーナ、タイガート…]

深層学習と推論、注意、計画、記憶の表現/統合

多くの研究は推論/計画、注意、記憶、学習「アルゴリズム」に焦点を当ててきました。

メモリ強化ニューラルネットワーク「微分可能」アルゴリズム

教師あり学習、教師なし学習、強化学習を1つの「アルゴリズム」に統合する

もしそれが機能するなら、ボルツマンマシンは非常に役に立つでしょう。

何をスタックするか - オートエンコーダー、ラダーネットワークなどをどこにスタックするか。

動物や人間のように観察し、生活することで、世界の構造とパターンを発見します。

目的関数の神秘的な幾何学

ReLU と Max Pooling を使用したディープ ネットワーク

線形変換スタック最大離散演算子

ReLUsポイント法

最大要約

あるレイヤーから別のレイヤーに切り替える

ディープネットワークとReLU: 目的関数は区分多項式関数である

損失関数を使用する場合、増分は Yk に依存します。

w上のランダム係数の区分多項式

たくさん:球面上の多項式臨界点のランダム(ガウス)係数の分布 [Ben Arous et al.]

高次球状スピングラスのランダム行列理論

ランダム行列理論

ディープネットワークとReLU: 目的関数は区分多項式関数である

複数の初期条件から、縮小された (10×10) MNIST 2 層ネットワークをトレーニングします。テスト セットで損失を測定します。

強化学習、教師あり学習、教師なし学習:3つの学習タイプ

3つの学習タイプ

強化学習

機械は時々スカラー効果について予測する

サンプルバイトの一部

学習を監視する

機械は各入力の種類や量を予測する

サンプルあたり100,000~10,000ビット

教師なし学習

機械はあらゆる入力とあらゆる観測可能なものに対して予測を行う

動画内の将来のショットを予測する

各サンプルには数百万バイトの

機械が予測するにはどれくらいの情報が必要ですか?

強化学習(チェリー)

機械は時々スカラー効果について予測する

サンプルバイトの一部

教師あり学習(砂糖コーティング)

機械は各入力の種類や量を予測する

サンプルあたり10〜10,000バイト

教師なし学習(Cake)

機械はあらゆる入力とあらゆる観測可能なものに対して予測を行う

動画内の将来のショットを予測する

各サンプルには数百万バイトの

教師なし学習は人工知能の「ブラックボックス」である

動物や人間が行う学習のほぼすべては教師なし学習です。

私たちは観察を通して世界の仕組みについて学びます。

私たちが研究する世界は3次元です

物体は互いに独立して動くことができることはわかっています。

私たちは物体が永続的であることを知っています。

私たちは今から1秒後、あるいは1時間後の世界を予測する方法を学びます。

予測的教師なし学習を通じて世界モデルを構築します

このような予測モデルは私たちに「常識的な」理解を与えてくれる

教師なし学習により、世界の法則について学ぶことができます。

教師なし学習によって獲得された常識

世界の予測モデルについて学ぶと常識が得られます。

「ジェラールはバッグを拾い上げて部屋を出て行く」と言うと、次のように推測できます。

ジェラールは立ち上がり、腕を伸ばし、ドアまで歩いてドアを開け、出て行きました。

彼と彼のバッグはもう部屋にいません。

彼は姿を消したり、飛び去ったりすることはできなかったはずだ。

教師なし学習

エネルギーベースの教師なし学習

エネルギー関数: データストリーム内の最低値と他の場所での最高値を取得します

希望するエネルギー出力であれば、押し下げます。

それ以外の場合は上方向に押します。

生成的敵対ネットワーク


ラプラシアン GAN: レーガン (別名 EYESCREAM)

画像生成の学習 [Denton et al., NIPS 2015]

ジェネレータはラプラシアンピラミッド係数で表される画像を出力する。

識別器は、本物のラプラシアン画像と偽物のラプラシアン画像を区別する方法を学習します。

「アイスクリーム」

「アイスクリーム」/「ラガン」

パターンの発見

DCGAN: 敵対的トレーニングによる画像生成

[ラドフォード、メッツ、チンタラ、2015]

入力: 乱数;

出力: 寝室



ナビゲーションフロー

DCGAN: 敵対的トレーニングによる画像生成

漫画キャラクターを使ったトレーニング

文字間の挿入

顔面代数(DCGAN 空間内)

DCGAN: 敵対的トレーニングによる画像生成

[ラドフォード、メッツ、チンタラ、2015]

教師なし学習: ビデオ予測

教師なし学習は人工知能のブラックボックスである

教師なし学習は、数十億のニューラル ネットワークをトレーニングするのに十分な情報を提供する唯一の学習形式です。

教師あり学習ではラベル付けの作業が多すぎる

強化学習には試行回数が多すぎる

しかし、監視されていない操作を実行する方法(またはそれを形式化する方法さえ)はわかりません。

私たちにはたくさんのアイデアと方法があります

しかし、あまりうまく機能しない

なぜそんなに難しいのでしょうか?なぜなら、世界は本質的に予測不可能だからです。

予測器は、すべての可能性のある未来の平均、つまり曖昧な画像を生成します。

ConvNet マルチスケールビデオ予測

4〜8フレーム入力 → 集約なしのConvNet → 1〜8フレーム出力

平方根エラーを使用できません: あいまいな予測

世界は本質的に予測不可能であり、MSEトレーニングは起こり得る将来の状況の平均を予測します。ぼやけた画像

ConvNet マルチスケールビデオ予測


ConvNet マルチスケールビデオ予測



ConvNet マルチスケールビデオ予測

LSTMを使用したものと比較する[Srivastava et al., 2015]

教師なし学習予測

「敵対的訓練」ではいくつかの成果が達成された

しかし、完全な解決にはまだ程遠い状況です。

予測学習


機械知能と人工知能は大きく異なる

人工知能はどのようなものになるのでしょうか?

人間と動物の行動には進化の過程で生まれた衝動がある

闘争/逃走反応、空腹、自己保存、痛みの回避、社会的交流の欲求など。

人間が互いに行う間違った行為の多くは、こうした衝動によって引き起こされます。

脅されたときの暴力的な行動、物質的な資源や社会的権力への欲求など。

ただし、AI システムには、システムに構成しない限り、これらの駆動力はありません。

私たちにとって、推進力のない知的存在を想像することは困難です。

動物の世界には多くの例があります。


AI の「倫理的価値」を人間の価値観とどのように一致させるのでしょうか?

私たちは、いくつかの基本的かつ不変の固有の推進要因を確立します。

人間のトレーナーは、周囲の人間を幸せにし、快適にする行動と報酬を関連付けます。

これが、子供たち(そして社会的な動物)が社会の中で行動することを学ぶ方法です。

安全でない AI を防ぐことはできますか?

はい、潜在的に危険な飛行機や車から身を守るのと同じです。

人間と同じレベルの人工知能を生み出すには?

人間レベルの AI の出現は、孤立した「出来事」ではありません。

それは徐々に

それは孤立して起こるものでもありません。

優れたアイデアを独占できる組織はありません。

高度な人工知能は、今や技術的な課題ではなく、科学的な問題です。

教師なし学習の構築が最大の課題

個々のブレークスルーはすぐに再現される

人工知能の研究は世界的なコミュニティです。

良いアイデアのほとんどは学術界から生まれる

最も印象的なアプリケーションは産業界からのものだが

知性と自律性を区別することが重要である

最も賢いシステムは自律的ではありません。

結論は

ディープラーニングがアプリケーションの波を先導

今日: 画像認識、ビデオ認識: 実践的な洞察

今日: より優れた言語認識: 言語認識の実践

近い将来、より優れた言語理解、会話、翻訳が可能になります

ディープラーニングと畳み込みネットワークが広く利用されている

現在: 画像理解機能はすでにFacebook、Google、Twitter、Microsoftで広く利用されている

近い将来、自動運転、医療画像解析、ロボット認識が可能になる

組み込みアプリケーション用のハードウェア(およびソフトウェア)を見つける必要がある

デジタルカメラ、モバイル機器、自動車、ロボット、おもちゃなどに。 。

真に知的な機械を発明するには、まだ長い道のりがあります。

推論とディープラーニングを統合する必要があります。

優れた「エピソード」(短期)記憶が必要です。

教師なし学習をサポートするために、優れた理論的原理を見つける必要があります。

出典:ニューインテリジェンス

<<:  人工知能学会会長:中国の人工知能研究には問題がある

>>:  アリババミュージックと世界クラスの音楽組織の間に立ちはだかるのは、高小松だけだろうか?

推薦する

北京ソースを使った豚肉の細切りの作り方

多くの北部の人は、北京の有名な料理である北京ソースの豚肉細切りを知っています。北京ソースをかけた豚肉...

脳梗塞はなぜ若年化しているのか?リマインダー: 体がこれらの8つの警告を発したときは注意してください

25歳のアロン(仮名)はベテランのゲームプレイヤーだ。彼は昼夜を問わずよくゲームをします。彼は疲れて...

ヨーグルトとケフィアの違い

多くの人にとって、ヨーグルトとヨーグルトは本質的に同じ食品であるため、違いは存在しません。この考えは...

Xbox One は、シリアル番号規制によってチーズが移動される唯一の準拠セットトップ ボックスになりますか?

インターネットテレビのセットトップボックスを残すべきか廃止すべきかという問題に関して、国家ラジオ映画...

内臓熱があるときに食べるもの

喉が痛いときは何を食べたらいいでしょうか? 喉が痛くなるのは誰でもよく経験することですよね? 一年中...

オーブン焼きチキンウィング

韓国ドラマ「星から来たあなた」の人気により、フライドチキンとビールの組み合わせも人気を博しました。し...

レタスは毛深い食べ物ですか?

レタスはアレ​​ルゲンですか?この質問に答えるには、この問題を深く分析するために、2つの側面から始め...

メーデーの旅行のヒント!各地の最新の感染症予防政策の概要

メーデーの連休が近づいており、多くの人がリラックスするために旅行を計画していますが、国内の多くの地域...

青、黄、オレンジ、赤の暴風雨警報信号は何を意味しますか?

おそらくあなたの携帯電話には「緊急通知!」のようなテキストメッセージが届いているはずです。 XXX ...

アジア冬季科学普及号8丨「ハードコア」テクノロジー装備の恩恵、氷雪スポーツの楽しさ倍増

全国の氷雪消費市場が引き続き熱を帯びる中、多くの場所ではより多くの人々が氷雪スポーツに参加するよう奨...

粉乳のセグメンテーションとはどういう意味ですか?

粉ミルクは非常に一般的ですが、粉ミルクの種類によって人体への影響は異なります。そのため、粉ミルクを選...

なぜ旗はそんなに簡単に倒れるのでしょうか?全力で目標に向かって突き進むためのヒントを教えます

古いものに別れを告げ、新しいものを迎えるこの時期、また新年の抱負を立てる時期がやって来ました。昨年立...

もやしの酢炒めの作り方

緑豆のもやしは昔から人々にとても人気のある食べ物です。この食べ物の栄養価は他のもやしよりもはるかに高...

グレープフルーツジュースの栄養価

暑い夏、喉の渇きを癒すにはどんな飲み物を選べばいいでしょうか?ビールやコーラを選ぶこともできますが、...

寒い、寒い、寒い!ロングジョンとダウンジャケットをお持ちですが、植物はどうしたらいいでしょうか?

冬がやってきましたが、幸いなことに著者(Yimu Foodie Team)は、1年間のおいしい食べ物...