テクノロジー業界では、永遠に存続する「100 年の歴史を持つ店舗」はこれまで存在したことがない。例えば、インターネット時代において、かつて携帯電話市場で強大な力を持っていたノキアが、やがて衰退し、市場から撤退するとは誰も考えなかったでしょう。 AI時代の到来とともに、テクノロジー大手は時代に淘汰されるのを避けるために、自社の開発ボトルネックを打破しようと、内部でイノベーションを起こし始めました。 AI分野で成功したいなら、データは欠かせない基本要素です。データを所有すれば未来を所有できる、という格言があります。それは本当ですか? 今週初め、Google は人工知能の研究レポートを発表しましたが、その結果は現在の AI ブームにおける重要なビジネス動向を思い起こさせてくれました。消費者と経済は、テクノロジー企業のエコシステムにますます依存するようになっている。テクノロジー企業のエコシステムは、長い間、内部の混乱を通じて革新的で非独占的であり続け、その過程で中小企業が大企業を混乱させることを可能にしてきたと考えられてきた。しかし、テクノロジー競争が大量のデータに基づく機械学習システムに依存するようになると、テクノロジー大手を上回るのはこれまで以上に難しくなるかもしれない。 グーグルは月曜日、カーネギーメロン大学(CMU)との「高額な」共同研究について説明した新たなプレプリント論文を発表した。彼らの画像認識実験では、50 個の強力なグラフィック プロセッサを統合するのに 2 か月かかり、前例のない 3 億枚のラベル付き画像セットが使用されました (画像認識の多くの取り組みでは、わずか 100 万枚の画像の標準セットが使用されています)。このプロジェクトの目的は、既存のアルゴリズムを微調整するのではなく、より多くのデータを提供することで、より正確な画像認識を実現できるかどうかをテストすることです。 答えはイエスです。 Google と CMU の研究者が新しいデータセットを使用して標準的な画像処理システムをトレーニングしたところ、写真内の物体の検出など、ソフトウェアが画像を解釈する方法を判定するいくつかの標準的なテストで、最先端の結果が得られたことがわかりました。抽出されたデータの量と画像認識アルゴリズムによって実証された精度の間には明確な相関関係がありました。この発見は、人工知能研究で広まっている疑問「既存のアルゴリズムにさらにデータを入力することで、より多くのデータを引き出せるかどうか」を解明するのに役立つ。 この実験は、膨大な量のデータを持つことはより大きな力を持つこととほぼ等しいことを示し、それはまた、Google、Facebook、Microsoftなどの膨大な量のデータを持つテクノロジー大手が、以前よりも大きな利益を得る可能性があることを意味している。しかし、Google の膨大な 3 億枚の画像データセットでは大きなメリットは得られません。画像を 100 万枚から 3 億枚に増やしても、物体検出スコアは 3 パーセントポイントしか上がりません。しかし、論文の著者らは、ソフトウェアを微調整して非常に大規模なデータセットに適したものにすることで、その利点を拡大できると考えている。たとえそうではないことが判明したとしても、テクノロジー業界では、どんなに小さな利点でも重要です。たとえば、自動運転車の視覚精度を少しでも向上させるのは極めて重要であり、数十億ドルの収益を生み出す可能性のある製品の場合、効率性の向上は極めて大きなものになります。 AI中心の企業にとって、データの収集は防御戦略となっています。 Google、Microsoft、その他の企業は、多くのソフトウェア、さらにはハードウェアの設計をオープンソース化していますが、それらのツールを動作させるデータはほとんどオープンソース化されていません。 Leifeng.comによると、GoogleはオープンソースのTensorFlow AIエンジンを発表した際、AIの真の価値はソフトウェアやアルゴリズムではなく、AIをよりインテリジェントにするために必要なデータにあると述べた。 Google は他のコンテンツを放棄するかもしれないが、少なくとも今のところはデータは確実に保持するだろう。 しかし、テクノロジー大手は一部のデータを公開しています。昨年、Google は 700 万本を超える YouTube 動画の膨大なデータセットを公開し、Salesforce はアルゴリズムによる言語分析を支援するために Wikipedia を公開しました。しかし、AI開発研究所マニフォールドのパートナーであり、ローレンス・バークレー国立研究所の客員研究員でもあるルーク・デ・オリベイラ氏は、こうしたオープン性は潜在的な競争相手にとってあまり価値をもたらさないことが多いと語る。 「こうしたデータセットは、製品が市場での地位を維持する上で決して重要ではなかった」と彼は語った。 クラウド コンピューティングの普及により、Amazon や Microsoft などの企業はインターネットの膨大な処理能力を利用できるようになりました。しかし、最も豊富なデータは依然としてGoogleやFacebookなどの大企業の手に握られており、テキストから画像、動画から音声までの豊富なコミュニケーション情報を含むこれらのサービスの利用者は数十億人近くに上ります。彼らは皆、強力な AI ソフトウェアの構築に取り組んでいますが、彼らの真の競争上の優位性は、ソフトウェアに人間のように考えるように教えるために使用できる、大量の高品質データにあります。 Google と CMU の研究者は、処理した貴重なデータを使って、最新の研究をより「Google 規模」のオープン画像データセットの作成に役立てたいと述べた。 「ビジョンコミュニティがデータの価値を過小評価せず、共同の努力を通じてより大きなデータセットを構築できることを心から願っています」と彼らは書いている。この研究を率いたアビナフ・グプタ氏は、選択肢の一つは、FacebookとMicrosoftが設立し、画像データセットを公開している非営利団体、Common Visual Data Foundationと協力することだと考えている。 同時に、データの乏しい企業は、自社のアルゴリズムをより賢くしたいと考える、データが豊富な大企業に圧迫されている世界で生き残りたいのであれば、創造性を発揮する必要があるだろう。 DataRobot の CEO である Jeremy Achin 氏は、保険業界など多くの企業や業界で機械学習の重要性が増すにつれ、小規模企業が収集したデータによってリスク予測で大企業と競争できるようになるため、このモデルが広く普及する可能性があると推測しています。 この進歩により、機械学習がデータ不足から解放され、AI のデータ経済に革命が起こる可能性があります。昨年、Uber はこの目的で AI 企業を買収したが、今度は AI 実践者のデータ優位性を回避しようとする可能性もある。機械学習の利用可能性を高めることに専念する企業 Fast.ai の共同設立者、レイチェル・トーマス氏は、スタートアップ企業はインターネット大手が手を付けることすらできない分野 (農業など) に機械学習を適用できることが多いと考えています。 「これらの大企業があらゆる分野で大きな優位性を持っているとは思えないが、現時点では誰もデータを収集していない特定の分野はたくさんある」と彼女は語った。人工知能分野の巨人にも盲点はあります。 出典: Leifeng.com、Wierdより編集 |
<<: 米国の専門家:真の自動運転車は2075年まで利用できない
中国の地図を開く中国東部の大きな川を見つけるほとんどすべてが西から東へ流れています。それらを一つずつ...
フィリップスブランドはかつて中国の消費者のほとんどによく知られており、メディアはそれを中国の家電市場...
画質:操作:効果音:プロット:経験:ロールプレイングゲームがプレイヤーにとって非常に魅力的な理由は、...
高速電波バースト (FRB)これは宇宙で最も明るい電波バーストです。 2022年1月5日中国科学院「...
「健康になりたいなら、魚、エビ、貝、カニ、藻類をもっと食べなさい」ということわざがあります。近年、健...
ニンニクの芽は食べられますか?ジャガイモの芽は有毒なので決して食べてはいけないことは多くの人が知って...
ピタヤは熱帯の果物ですが、食べても喉が痛くなることはありません。さらに、ピタヤを食べると多くのメリッ...
著者: 林向紅スピルバーグ監督の有名な作品「ジョーズ」のおかげで、サメといえば、水中を行き来する機敏...
最近では、多くの人がスープと一緒にご飯を食べる習慣があり、親の中には子供にこの習慣を教える人もいます...
昨今、人々の生活水準は徐々に向上しており、食生活にもますます気を配るようになってきています。人々はも...
中国乗用車協会のデータによると、中国の乗用車小売販売台数は7月に172万台に達し、前年比2.8%減、...
フルーツジュースは、今日最も人気のある飲み物です。フルーツジュースは、お茶ほど刺激的ではなく、コーラ...
8日のメディア報道によると、ドイツのフォルクスワーゲンと米司法省は、同社の排ガス不正スキャンダルに関...
オリンピックのメダルが錆びている!パリオリンピックは終わりましたが、オリンピックに関するさまざまな話...
科学の鳥瞰図泉州科学技術協会泉州バードウォッチング協会編集者注生態系は壮大で美しい交響曲のようなもの...