Oxylabs の専門家が強化学習 (機械学習) が誇張されているかどうかについて議論します。

Oxylabs の専門家が強化学習 (機械学習) が誇張されているかどうかについて議論します。

友人とチェスをするために座ったとします。しかし、その友人は普通の人ではありません。むしろ、それはゲームのルールを知らないコンピュータ プログラムです。しかし、勝つという目標が一つあることは確かです。

友人はルールを知らないため、最初はランダムに駒を動かします。これらの動きのいくつかはまったく意味をなさないので、勝つのは簡単でしょう。しかし、この友人とチェスをするのがとても楽しくて、残りの人生(あるいは、信じるなら来世まで)チェスをする以外何もしないことに決めたと仮定しましょう。

このデジタルの友人は、あなたを倒すために必要な勝利方法を徐々に学習するため、最終的には勝利するでしょう。このシナリオは非現実的に思えるかもしれませんが、機械学習 (ML) の分野として強化学習 (RL) がどのように機能するかについての基本的な理解が得られるはずです。

強化学習はどれくらい賢いのでしょうか?

人工知能には、知識の獲得、知能の拡大への欲求、直感的な思考など、多くの特徴があります。しかし、チェスチャンピオンのガルリ・カスパロフがIBMのコンピューター「ディープ・ブルー」に敗れたとき、私たち人間の知能は広く疑問視されました。ロボットが人類を支配する未来を描いた終末シナリオは、世間の注目を集めただけでなく、主流の意識をも支配している。

しかし、ディープ・ブルーは普通の相手ではありませんでした。このプログラムとチェスをするのは、生涯ずっとチェスをし続けてきた千歳の男と対戦するようなものです。したがって、ディープ ブルーはチェスという特定のゲームをプレイすることには長けていますが、楽器の演奏、本の執筆、科学実験の実施、子育て、車の修理など、他の知的活動は理解していません。

Oxylabs は、Deep Blue の傑作の偉大な功績を軽視するつもりはまったくありません。私たちが言いたいのは、コンピューターが人間の知能を超えることができるかどうかを検討する際には、RL メカニズムの詳細な理解から始めて、慎重に検討する必要があるということです。

強化学習の仕組み

前述したように、RL は ML のサブセットであり、累積報酬を最大化するためにインテリジェント エージェントが環境内でどのように行動すべきかという概念に重点を置いています。

簡単に言えば、RL ロボット エージェントは、正しいアクションに対して報酬が与えられ、間違ったアクションに対しては罰が与えられる報酬-罰則メカニズムを使用してトレーニングされます。 RL ロボットは、最善の行動について「考える」のではなく、成功の可能性を最大化するために可能なすべての動きを実行するだけです。

強化学習の欠点

強化学習の主な欠点は、目標を達成するために多くのリソースが必要になることです。 Go における RL の成功は、この良い例です。囲碁は、自分の領土を失わないようにしながら、丸い駒を使って盤上のできるだけ多くの領土を占領することを目的とした、人気の高い 2 人用ゲームです。

AlphaGo Master は、囲碁で人間のプレイヤーに勝ったコンピュータ プログラムです。その成功は、多くのエンジニア、数千年にわたるチェスの経験、そして驚異的な数である 256 個の GPU と 128,000 個の CPU コアを含む巨額の投資と切り離すことはできません。

ゲームに勝つ方法を学ぶには多くの努力が必要です。これによって、直感的に考えることができない AI を設計することが合理的であるかどうかという疑問が生じます。 AI研究は人間の知能を模倣すべきではないでしょうか?

RL を支持する見解の 1 つは、AI エージェントが人間のように動作することを期待すべきではないが、複雑な問題を解決する上での AI エージェントの有用性は、さらに開発する価値があるというものです。一方、RL に反対する議論の 1 つは、AI 研究は、現在は人間と動物だけができることを機械が実行できるようにすることに焦点を当てるべきだということです。この観点から見ると、AI と人間の知能を比較することは適切です。

量子強化学習

上記の問題のいくつかに対処できると主張する強化学習という新たな分野があります。コンピューティングを高速化する方法として、量子強化学習 (QRL) の研究が行われてきました。

QRL は主に、探索 (戦略の発見) フェーズと活用 (最適な戦略の選択) フェーズを最適化することで学習を高速化します。量子コンピューティングの現在の応用と支持者には、データベース検索の改善、大きな数の素因数分解などがあります。

QRL はまだ画期的な成果ではありませんが、従来の強化学習が直面している主要な課題のいくつかに対処できると期待されています。

RL のビジネスケース

前にも言ったように、私は RL 研究開発の重要性を軽視するつもりはまったくありません。実際、Oxylabs は、Web スクレイピングのリソース割り当てを最適化するための RL モデルの開発に取り組んでいます。

以下は、さまざまな業界における現在の使用事例を紹介する McKinsey レポートから抜粋した、RL の実際の使用事例です。

• シリコンとチップの設計を最適化し、製造プロセスを最適化し、半導体業界の歩留まりを向上します。

• 収穫量を増やし、物流を最適化して廃棄物とコストを削減し、農業の収益性を向上させます。

• 航空宇宙および防衛産業における新システムの市場投入までの時間を短縮します。

• 自動車業界の設計プロセスを最適化し、製造歩留まりを向上させます。

• リアルタイムの取引と価格設定戦略を通じて、金融サービス分野の顧客に対して収益の増加、顧客エクスペリエンスの向上、高度なパーソナライゼーションを提供します。

• 鉱山設計を最適化し、発電を管理し、全体的な物流スケジュールを適用して、運用を最適化し、コストを削減し、鉱山の生産量を増加させます。

• リアルタイム監視と精密掘削により生産量を増やし、タンカーのルートを最適化し、予測メンテナンスをサポートして石油・ガス業界の機器の故障やダウンタイムを防止します。

• 製薬業界における新薬開発の加速、研究プロセスの最適化、生産の自動化、生物学的手法の最適化を実現します。

• サプライ チェーンを最適化し、高度な在庫モデリングを可能にし、小売顧客に高度なパーソナライゼーションを提供します。

• 通信業界におけるネットワークの最適化と管理、顧客のパーソナライゼーションの適用。

• 輸送および物流におけるルート、ネットワーク計画、倉庫業務の最適化。

• 新世代エージェントを使用して Web サイトからデータを抽出します。

強化学習の再考

強化学習は十分に強力ではないかもしれませんが、決して過大評価されているわけではありません。さらに、RL の研究開発が増加するにつれて、ほぼすべての経済セクターで潜在的な使用事例も増加します。

大規模な導入は、最適なアルゴリズム設計、学習環境の構成、コンピューティング能力の可用性など、多くの要因に依存します。

Oxylabs は、AI と ML を使用して、Web スクレイピング (Web サイトからデータを抽出して専門的な洞察を得るプロセス) を最適化することに専念しています。

著者: Aleksandras Sulzenko、Oxylabs.io プロダクト マネージャー

今日頭条の青雲計画と百家曼の百+計画の受賞者、2019年百度デジタル著者オブザイヤー、百家曼テクノロジー分野最人気著者、2019年捜狗テクノロジー文化著者、2021年百家曼季刊影響力のあるクリエイターとして、2013年捜狐最優秀業界メディア人、2015年中国ニューメディア起業家コンテスト北京3位、2015年光芒体験賞、2015年中国ニューメディア起業家コンテスト決勝3位、2018年百度ダイナミック年間有力セレブなど、多数の賞を受賞しています。

<<:  千元市場でより大きな可能性を秘めているのは誰でしょうか? R9 370X 対 GTX 950

>>:  アリックスパートナーズ:中国の自動車の世界シェアは2030年までに3分の1に達すると予想

推薦する

ハチミツ大根は咳を治す

日々の食生活や健康に気を配らないと、気管に多少なりとも影響が出る可能性があります。これは成長期の子供...

クレイポット魚頭豆腐スープ

土鍋で作る魚頭豆腐スープは、多くの人に愛されています。このスープは、人間の栄養補給に非常に役立ちます...

豚足と大根の煮込み

大根を食べるのが好きな人はたくさんいます。大根は栄養が豊富で、大根を食べても人体に害はありません。し...

東アフリカの大地溝帯に本当に「落ちた」ら、何が見えるでしょうか?

東アフリカの大地溝帯は、世界大陸最大の断層帯です。衛星写真から見ると巨大な傷跡のように見えるため、「...

環境を汚染していますか?生態系を破壊している?肥料は不満を感じている

1843年に英国で最初の化学肥料である過リン酸石灰が誕生して以来、「食物の中の食物」として知られる人...

フグを食べることの利点

フグを食べることによる効能は、脾臓と胃を強化し、腫れを抑えて利尿を促進し、肌を美しくするなどです。フ...

コーン胚芽油の役割

コーン胚芽油の効果は非常に強力です。コーン胚芽油とは何かを知りたいと思います。コーン胚芽から油を抽出...

ピーマンと赤ピーマンの違い

生活の中には、よく使われる調味料がたくさんあります。調味料を選ぶときは、まずその調味料を知っておく必...

今夜は「スーパームーン」が出現します!

お使いのブラウザはビデオタグをサポートしていません新華網、北京、6月14日:今夜、夜空に「スーパーム...

豚肉の煮込みと豆腐

日常的に肉を食べるのが好きな友人は、「豚の角煮」という言葉を聞くと、おそらく唾を飲み込むでしょう。煮...

直径3センチの鉄の棒が彼の頭を突き刺した。

周りに友達がいるのに、なぜか落ち込んでしまうような時を経験したことがありますか?人生は平和で静かなの...

不思議ですね。冷蔵庫の中の果物や野菜が「汗をかいている」のはなぜでしょうか?

私たちは日常生活において、新鮮な果物や野菜を新鮮さと味を保つために冷蔵庫に入れることに慣れています。...

ファラデー・フューチャーがナスダックに上場、マイバッハの転覆を目指す、賈月亭:中国に帰国すべき

海外で何年も休眠状態にあった賈月婷は、ついに才能を発揮するチャンスを得た。 7月22日、同氏が設立し...

塩粒よりも小さいバッテリーはどれくらいの時間電力を供給できるのでしょうか?

電池は私たちの生活に欠かせないものです。電池には、電気自動車に電力を供給できる大型電池から時計に収ま...