友人とチェスをするために座ったとします。しかし、その友人は普通の人ではありません。むしろ、それはゲームのルールを知らないコンピュータ プログラムです。しかし、勝つという目標が一つあることは確かです。 友人はルールを知らないため、最初はランダムに駒を動かします。これらの動きのいくつかはまったく意味をなさないので、勝つのは簡単でしょう。しかし、この友人とチェスをするのがとても楽しくて、残りの人生(あるいは、信じるなら来世まで)チェスをする以外何もしないことに決めたと仮定しましょう。 このデジタルの友人は、あなたを倒すために必要な勝利方法を徐々に学習するため、最終的には勝利するでしょう。このシナリオは非現実的に思えるかもしれませんが、機械学習 (ML) の分野として強化学習 (RL) がどのように機能するかについての基本的な理解が得られるはずです。 強化学習はどれくらい賢いのでしょうか? 人工知能には、知識の獲得、知能の拡大への欲求、直感的な思考など、多くの特徴があります。しかし、チェスチャンピオンのガルリ・カスパロフがIBMのコンピューター「ディープ・ブルー」に敗れたとき、私たち人間の知能は広く疑問視されました。ロボットが人類を支配する未来を描いた終末シナリオは、世間の注目を集めただけでなく、主流の意識をも支配している。 しかし、ディープ・ブルーは普通の相手ではありませんでした。このプログラムとチェスをするのは、生涯ずっとチェスをし続けてきた千歳の男と対戦するようなものです。したがって、ディープ ブルーはチェスという特定のゲームをプレイすることには長けていますが、楽器の演奏、本の執筆、科学実験の実施、子育て、車の修理など、他の知的活動は理解していません。 Oxylabs は、Deep Blue の傑作の偉大な功績を軽視するつもりはまったくありません。私たちが言いたいのは、コンピューターが人間の知能を超えることができるかどうかを検討する際には、RL メカニズムの詳細な理解から始めて、慎重に検討する必要があるということです。 強化学習の仕組み 前述したように、RL は ML のサブセットであり、累積報酬を最大化するためにインテリジェント エージェントが環境内でどのように行動すべきかという概念に重点を置いています。 簡単に言えば、RL ロボット エージェントは、正しいアクションに対して報酬が与えられ、間違ったアクションに対しては罰が与えられる報酬-罰則メカニズムを使用してトレーニングされます。 RL ロボットは、最善の行動について「考える」のではなく、成功の可能性を最大化するために可能なすべての動きを実行するだけです。 強化学習の欠点 強化学習の主な欠点は、目標を達成するために多くのリソースが必要になることです。 Go における RL の成功は、この良い例です。囲碁は、自分の領土を失わないようにしながら、丸い駒を使って盤上のできるだけ多くの領土を占領することを目的とした、人気の高い 2 人用ゲームです。 AlphaGo Master は、囲碁で人間のプレイヤーに勝ったコンピュータ プログラムです。その成功は、多くのエンジニア、数千年にわたるチェスの経験、そして驚異的な数である 256 個の GPU と 128,000 個の CPU コアを含む巨額の投資と切り離すことはできません。 ゲームに勝つ方法を学ぶには多くの努力が必要です。これによって、直感的に考えることができない AI を設計することが合理的であるかどうかという疑問が生じます。 AI研究は人間の知能を模倣すべきではないでしょうか? RL を支持する見解の 1 つは、AI エージェントが人間のように動作することを期待すべきではないが、複雑な問題を解決する上での AI エージェントの有用性は、さらに開発する価値があるというものです。一方、RL に反対する議論の 1 つは、AI 研究は、現在は人間と動物だけができることを機械が実行できるようにすることに焦点を当てるべきだということです。この観点から見ると、AI と人間の知能を比較することは適切です。 量子強化学習 上記の問題のいくつかに対処できると主張する強化学習という新たな分野があります。コンピューティングを高速化する方法として、量子強化学習 (QRL) の研究が行われてきました。 QRL は主に、探索 (戦略の発見) フェーズと活用 (最適な戦略の選択) フェーズを最適化することで学習を高速化します。量子コンピューティングの現在の応用と支持者には、データベース検索の改善、大きな数の素因数分解などがあります。 QRL はまだ画期的な成果ではありませんが、従来の強化学習が直面している主要な課題のいくつかに対処できると期待されています。 RL のビジネスケース 前にも言ったように、私は RL 研究開発の重要性を軽視するつもりはまったくありません。実際、Oxylabs は、Web スクレイピングのリソース割り当てを最適化するための RL モデルの開発に取り組んでいます。 以下は、さまざまな業界における現在の使用事例を紹介する McKinsey レポートから抜粋した、RL の実際の使用事例です。 • シリコンとチップの設計を最適化し、製造プロセスを最適化し、半導体業界の歩留まりを向上します。 • 収穫量を増やし、物流を最適化して廃棄物とコストを削減し、農業の収益性を向上させます。 • 航空宇宙および防衛産業における新システムの市場投入までの時間を短縮します。 • 自動車業界の設計プロセスを最適化し、製造歩留まりを向上させます。 • リアルタイムの取引と価格設定戦略を通じて、金融サービス分野の顧客に対して収益の増加、顧客エクスペリエンスの向上、高度なパーソナライゼーションを提供します。 • 鉱山設計を最適化し、発電を管理し、全体的な物流スケジュールを適用して、運用を最適化し、コストを削減し、鉱山の生産量を増加させます。 • リアルタイム監視と精密掘削により生産量を増やし、タンカーのルートを最適化し、予測メンテナンスをサポートして石油・ガス業界の機器の故障やダウンタイムを防止します。 • 製薬業界における新薬開発の加速、研究プロセスの最適化、生産の自動化、生物学的手法の最適化を実現します。 • サプライ チェーンを最適化し、高度な在庫モデリングを可能にし、小売顧客に高度なパーソナライゼーションを提供します。 • 通信業界におけるネットワークの最適化と管理、顧客のパーソナライゼーションの適用。 • 輸送および物流におけるルート、ネットワーク計画、倉庫業務の最適化。 • 新世代エージェントを使用して Web サイトからデータを抽出します。 強化学習の再考 強化学習は十分に強力ではないかもしれませんが、決して過大評価されているわけではありません。さらに、RL の研究開発が増加するにつれて、ほぼすべての経済セクターで潜在的な使用事例も増加します。 大規模な導入は、最適なアルゴリズム設計、学習環境の構成、コンピューティング能力の可用性など、多くの要因に依存します。 Oxylabs は、AI と ML を使用して、Web スクレイピング (Web サイトからデータを抽出して専門的な洞察を得るプロセス) を最適化することに専念しています。 著者: Aleksandras Sulzenko、Oxylabs.io プロダクト マネージャー 今日頭条の青雲計画と百家曼の百+計画の受賞者、2019年百度デジタル著者オブザイヤー、百家曼テクノロジー分野最人気著者、2019年捜狗テクノロジー文化著者、2021年百家曼季刊影響力のあるクリエイターとして、2013年捜狐最優秀業界メディア人、2015年中国ニューメディア起業家コンテスト北京3位、2015年光芒体験賞、2015年中国ニューメディア起業家コンテスト決勝3位、2018年百度ダイナミック年間有力セレブなど、多数の賞を受賞しています。 |
<<: 千元市場でより大きな可能性を秘めているのは誰でしょうか? R9 370X 対 GTX 950
>>: アリックスパートナーズ:中国の自動車の世界シェアは2030年までに3分の1に達すると予想
データによると、BYDの自動車販売台数は11月に再び30万台を超え、301,903台に達したが、前月...
最近、千島湖の支流である武強渓の上流にある中州鎮のパパイヤ貯水池で、高密度のミズクラゲが発見された。...
ミートボール、別名餃子。中国人の目には、それらは完璧さを表しています。春節が近づくにつれ、多くの家庭...
「金平深部地下実験室に行けば、天体の進化のコードに最も近いこの素晴らしい旅を体験できます。地下2,4...
最近、国内のほとんどの地域で気温が急上昇しており、多くの地域で高温警報が発令されています。高温は本当...
著者: 首都医科大学宣武病院脳神経外科部長 呉浩査読者: 董建、復旦大学中山病院整形外科教授、整形外...
火鍋を食べるときは、必ず脂身の多い牛肉を注文します。脂身の多い牛肉の味は本当においしく、牛肉は今や誰...
多くの人が、生活のペースが速すぎて社会のペースについていけず、仕事のプレッシャーが大きすぎると不満を...
肉料理は中国の台所でずっと不変のテーマであり、肉に合う食材はますます豊富になっていますが、決して置き...
広州市は最近、最新の改訂版「広州市中小型乗用車総量規制管理弁法」を公布し、7月1日以降は省エネ車両の...
日常生活において、保存卵の最も一般的な使い方は、お粥を作ったり、冷たい料理を作ったりすることです。さ...
ヨモギは一般的な中国の薬用原料であり、天然野菜でもあります。この食品は日常の食事で熱と湿気を取り除く...
私たちの友人の多くは、日常生活で豚レバー粥を食べているかもしれません。その作り方は比較的簡単です。調...
新エネルギー車市場では、家族人口の増加と移動品質の需要の向上に伴い、MPV(多目的乗用車)が徐々に多...