Oxylabs の専門家が強化学習 (機械学習) が誇張されているかどうかについて議論します。

友人とチェスをするために座ったとします。しかし、その友人は普通の人ではありません。むしろ、それはゲームのルールを知らないコンピュータプログラムです。しかし、勝つという目標が一つあることは確かです。

友人はルールを知らないため、最初はランダムに駒を動かします。これらの動きのいくつかはまったく意味をなさないので、勝つのは簡単でしょう。しかし、この友人とチェスをするのがとても楽しくて、残りの人生（あるいは、信じるなら来世まで）チェスをする以外何もしないことに決めたと仮定しましょう。

このデジタルの友人は、あなたを倒すために必要な勝利方法を徐々に学習するため、最終的には勝利するでしょう。このシナリオは非現実的に思えるかもしれませんが、機械学習 (ML) の分野として強化学習 (RL) がどのように機能するかについての基本的な理解が得られるはずです。

強化学習はどれくらい賢いのでしょうか?

人工知能には、知識の獲得、知能の拡大への欲求、直感的な思考など、多くの特徴があります。しかし、チェスチャンピオンのガルリ・カスパロフがIBMのコンピューター「ディープ・ブルー」に敗れたとき、私たち人間の知能は広く疑問視されました。ロボットが人類を支配する未来を描いた終末シナリオは、世間の注目を集めただけでなく、主流の意識をも支配している。

しかし、ディープ・ブルーは普通の相手ではありませんでした。このプログラムとチェスをするのは、生涯ずっとチェスをし続けてきた千歳の男と対戦するようなものです。したがって、ディープブルーはチェスという特定のゲームをプレイすることには長けていますが、楽器の演奏、本の執筆、科学実験の実施、子育て、車の修理など、他の知的活動は理解していません。

Oxylabs は、Deep Blue の傑作の偉大な功績を軽視するつもりはまったくありません。私たちが言いたいのは、コンピューターが人間の知能を超えることができるかどうかを検討する際には、RL メカニズムの詳細な理解から始めて、慎重に検討する必要があるということです。

強化学習の仕組み

前述したように、RL は ML のサブセットであり、累積報酬を最大化するためにインテリジェントエージェントが環境内でどのように行動すべきかという概念に重点を置いています。

簡単に言えば、RL ロボットエージェントは、正しいアクションに対して報酬が与えられ、間違ったアクションに対しては罰が与えられる報酬-罰則メカニズムを使用してトレーニングされます。 RL ロボットは、最善の行動について「考える」のではなく、成功の可能性を最大化するために可能なすべての動きを実行するだけです。

強化学習の欠点

強化学習の主な欠点は、目標を達成するために多くのリソースが必要になることです。 Go における RL の成功は、この良い例です。囲碁は、自分の領土を失わないようにしながら、丸い駒を使って盤上のできるだけ多くの領土を占領することを目的とした、人気の高い 2 人用ゲームです。

AlphaGo Master は、囲碁で人間のプレイヤーに勝ったコンピュータプログラムです。その成功は、多くのエンジニア、数千年にわたるチェスの経験、そして驚異的な数である 256 個の GPU と 128,000 個の CPU コアを含む巨額の投資と切り離すことはできません。

ゲームに勝つ方法を学ぶには多くの努力が必要です。これによって、直感的に考えることができない AI を設計することが合理的であるかどうかという疑問が生じます。 AI研究は人間の知能を模倣すべきではないでしょうか?

RL を支持する見解の 1 つは、AI エージェントが人間のように動作することを期待すべきではないが、複雑な問題を解決する上での AI エージェントの有用性は、さらに開発する価値があるというものです。一方、RL に反対する議論の 1 つは、AI 研究は、現在は人間と動物だけができることを機械が実行できるようにすることに焦点を当てるべきだということです。この観点から見ると、AI と人間の知能を比較することは適切です。

量子強化学習

上記の問題のいくつかに対処できると主張する強化学習という新たな分野があります。コンピューティングを高速化する方法として、量子強化学習 (QRL) の研究が行われてきました。

QRL は主に、探索 (戦略の発見) フェーズと活用 (最適な戦略の選択) フェーズを最適化することで学習を高速化します。量子コンピューティングの現在の応用と支持者には、データベース検索の改善、大きな数の素因数分解などがあります。

QRL はまだ画期的な成果ではありませんが、従来の強化学習が直面している主要な課題のいくつかに対処できると期待されています。

RL のビジネスケース

前にも言ったように、私は RL 研究開発の重要性を軽視するつもりはまったくありません。実際、Oxylabs は、Web スクレイピングのリソース割り当てを最適化するための RL モデルの開発に取り組んでいます。

以下は、さまざまな業界における現在の使用事例を紹介する McKinsey レポートから抜粋した、RL の実際の使用事例です。

• シリコンとチップの設計を最適化し、製造プロセスを最適化し、半導体業界の歩留まりを向上します。

• 収穫量を増やし、物流を最適化して廃棄物とコストを削減し、農業の収益性を向上させます。

• 航空宇宙および防衛産業における新システムの市場投入までの時間を短縮します。

• 自動車業界の設計プロセスを最適化し、製造歩留まりを向上させます。

• リアルタイムの取引と価格設定戦略を通じて、金融サービス分野の顧客に対して収益の増加、顧客エクスペリエンスの向上、高度なパーソナライゼーションを提供します。

• 鉱山設計を最適化し、発電を管理し、全体的な物流スケジュールを適用して、運用を最適化し、コストを削減し、鉱山の生産量を増加させます。

• リアルタイム監視と精密掘削により生産量を増やし、タンカーのルートを最適化し、予測メンテナンスをサポートして石油・ガス業界の機器の故障やダウンタイムを防止します。

• 製薬業界における新薬開発の加速、研究プロセスの最適化、生産の自動化、生物学的手法の最適化を実現します。

• サプライチェーンを最適化し、高度な在庫モデリングを可能にし、小売顧客に高度なパーソナライゼーションを提供します。

• 通信業界におけるネットワークの最適化と管理、顧客のパーソナライゼーションの適用。

• 輸送および物流におけるルート、ネットワーク計画、倉庫業務の最適化。

• 新世代エージェントを使用して Web サイトからデータを抽出します。

強化学習の再考

強化学習は十分に強力ではないかもしれませんが、決して過大評価されているわけではありません。さらに、RL の研究開発が増加するにつれて、ほぼすべての経済セクターで潜在的な使用事例も増加します。

大規模な導入は、最適なアルゴリズム設計、学習環境の構成、コンピューティング能力の可用性など、多くの要因に依存します。

Oxylabs は、AI と ML を使用して、Web スクレイピング (Web サイトからデータを抽出して専門的な洞察を得るプロセス) を最適化することに専念しています。

著者: Aleksandras Sulzenko、Oxylabs.io プロダクトマネージャー

今日頭条の青雲計画と百家曼の百+計画の受賞者、2019年百度デジタル著者オブザイヤー、百家曼テクノロジー分野最人気著者、2019年捜狗テクノロジー文化著者、2021年百家曼季刊影響力のあるクリエイターとして、2013年捜狐最優秀業界メディア人、2015年中国ニューメディア起業家コンテスト北京3位、2015年光芒体験賞、2015年中国ニューメディア起業家コンテスト決勝3位、2018年百度ダイナミック年間有力セレブなど、多数の賞を受賞しています。

<<: 千元市場でより大きな可能性を秘めているのは誰でしょうか? R9 370X 対 GTX 950

>>: アリックスパートナーズ：中国の自動車の世界シェアは2030年までに3分の1に達すると予想