人工知能は実際のデータセットを「放棄」するのか?

人工知能は実際のデータセットを「放棄」するのか?

現在、人工知能技術は、顔認識、音声認識、仮想デジタルヒューマンなど、私たちの日常生活のあらゆる側面に応用されています。

しかし、よくある問題として、研究者が機械学習モデルをトレーニングして特定のタスク(画像分類など)を実行したい場合、大量のトレーニング データを使用する必要があることが多いのですが、このデータ(セット)を入手するのは必ずしも簡単ではないということがあります。

たとえば、研究者が自動運転車用のコンピューター ビジョン モデルをトレーニングしている場合、実際のデータには高速道路を走っている人と犬のサンプルが含まれていない可能性があります。一度遭遇すると、モデルは何をすべきか分からなくなり、不必要な結果につながる可能性があります。

さらに、既存のデータを使用してデータセットを生成するには、数百万ドルの費用がかかる可能性があります。

さらに、最良のデータセットであっても、モデルのパフォーマンスに悪影響を与えるバイアスが含まれていることがよくあります。

では、データセットを入手して使用するには非常にコストがかかるため、モデルのパフォーマンスを確保しながら、人工的に合成されたデータをトレーニングに使用することは可能でしょうか?

最近、マサチューセッツ工科大学 (MIT) の研究チームによる調査で、合成データでトレーニングされた画像分類機械学習モデルは、実際のデータでトレーニングされたモデルと同等か、それ以上の性能を発揮できることが示されました。

関連の研究論文は「マルチビュー表現学習のためのデータソースとしての生成モデル」と題され、ICLR 2022 の会議論文として発表されました。

実際のデータに失われない

この特定の機械学習モデルは生成モデルと呼ばれます。データセットと比較すると、保存や共有に必要なメモリがはるかに少なく、プライバシーや使用権に関する問題を回避できるだけでなく、従来のデータセットに存在する偏見や人種や性別の問題も発生しません。

論文によると、トレーニングプロセス中、生成モデルはまず特定のオブジェクト(車や猫など)を含む数百万枚の画像を取得し、次に車や猫の外観を学習し、最後に類似のオブジェクトを生成します。

簡単に言えば、研究者たちは事前にトレーニングされた生成モデルを使用して、モデルトレーニングデータセット内の画像に基づいて、ユニークでリアルな画像の大規模なストリームを出力しました。

(出典: Pixabay)

研究者らは、生成モデルを実際のデータでトレーニングすると、実際のデータとほとんど区別がつかない合成データを生成できると述べている。

さらに、生成モデルはトレーニング データに基づいてさらに拡張できます。

生成モデルを車の画像でトレーニングすると、さまざまな状況で車がどのように見えるかを「想像」し、さまざまな色、サイズ、状態の車の画像を出力できます。

生成モデルの多くの利点の 1 つは、理論的には無限の数のサンプルを作成できることです。

これを基に、研究者たちはサンプル数がモデルのパフォーマンスにどのように影響するかを解明しようとした。結果は、場合によっては、固有のサンプルの数を増やすと、さらなる改善につながることを示しています。

そして、彼らの意見では、生成モデルの最も素晴らしい点は、オンライン リポジトリでそれらを見つけて使用することができ、モデルに介入することなく優れたパフォーマンスを得られることです。

しかし、生成モデルにはいくつかの欠点もあります。たとえば、場合によっては、生成モデルによってソースデータが明らかになり、プライバシーのリスクが生じる可能性があり、適切に監査されていない場合は、トレーニングに使用されたデータセットのバイアスが増幅される可能性があります。

生成AIはトレンドか?

有効なデータの不足とサンプリングの偏りは、機械学習の開発における主要なボトルネックとなっています。

近年、この問題を解決するために、Generative AI が人工知能分野で注目のトピックの 1 つとなり、業界からも大きな期待が寄せられています。

ガートナーは昨年末、2022年の重要な戦略的テクノロジートレンドを発表し、生成AIを「最も魅力的で強力な人工知能テクノロジーの1つ」と呼んだ。

ガートナーによれば、生成 AI は、現在の 1% 未満から 2025 年までに生成されるデータ全体の 10% を占めるようになると予想されています。

図|ガートナーの2022年の重要な戦略的テクノロジートレンド(出典:ガートナー公式サイト)

2020年、ガートナーが発表した「人工知能のハイプ・サイクル2020」において、生成AIが新たな技術のホットスポットとして初めて提案されました。

最新の「人工知能のハイプ・サイクル 2021」レポートでは、生成 AI は 2 ~ 5 年で成熟するテクノロジーとして登場しています。

(出典:ガートナーの人工知能ハイプサイクル、2021年)

生成 AI の画期的な点は、既存のデータ (画像、テキストなど) から学習し、新しい類似のオリジナル データを生成できることです。つまり、判断だけでなく創造も可能であり、自動プログラミング、医薬品開発、視覚芸術、社会的交流、商業サービスなどに活用することができます。

しかし、生成 AI は、さまざまな否定的なニュースを生み出すことが多いディープフェイクなどの詐欺、不正行為、政治的噂、個人情報の詐称などに悪用される可能性もあります。

そこで疑問になるのが、十分に優れた生成モデルがある場合でも、実際のデータセットは必要なのか、ということです。

オリジナルリンク:

https://openreview.net/pdf?id=qhAeZjs7dCL

https://news.mit.edu/2022/synthetic-datasets-ai-image-classification-0315

https://www.gartner.com/en/documents/4004183

学術的見出し

<<:  研究を完了するために、彼は娘が浜辺で拾ってきた貝を持っていった。

>>:  謎の生物「ウォーターモンキー」とは一体何なのか?

推薦する

ミツバチはどうやって「工学部の学生」になるために自分自身を訓練するのか?丨科学博物館

気温が上昇し続けるにつれて、春の雰囲気がどんどん強くなってきました。最初の「春の使者」は誰でしょうか...

かまぼこの効能と機能

経済の発展に伴い、外国の製品がますます多く手に入るようになりました。例えば、日本の寿司などの製品は、...

アクセンチュア: 中国デジタルトランスフォーメーション指数 2023

アクセンチュアは「2023年中国デジタル変革指数」を発表し、長期的かつ持続可能な成長を推進するために...

ジンジャーティーを愛する8つの理由 日常生活でジンジャーティーを作る方法

生姜は私たちの日常生活で最もよく使われる食材の一つです。栄養が豊富で、お茶にして飲むと体に多くの健康...

8日間で5,000袋以上を捕獲!発電所がクラゲに「大規模に侵略」された。理由は何ですか?

「全部捕まえることはできない、全部捕まえることなんてできない」!最近、浙江省嘉興市平湖市の浙江エネ...

報道によると、維来工場第2期工事の入札が開始され、投資額は3億5000万元、工期は1年とのこと。

最近、一部のメディアは国家公共資源取引プラットフォーム上で江淮汽車が「新エネルギー乗用車車体部品建設...

中高年用粉ミルク

人はさまざまな段階で粉ミルクを飲むことができます。赤ちゃんが粉ミルクを飲むことは誰もが知っているはず...

オンラインで何かをダウンロードするとき、進行状況バーが常に 99% で止まってしまうのはなぜですか?

付録:出典: 学生の暴君 (ID: bajie203)この記事は承認されました。転載については原著者...

カリフラワー入りスクランブルエッグ

カリフラワーは私たちの生活の中で非常に一般的な料理です。その豊富な栄養とさっぱりとした味わいで人々に...

電気を消して携帯電話を見るのは非常に有害です。この習慣はすぐにやめましょう...

この記事の専門家:浙江省中西医薬総合病院眼科副主任医師、徐其斌氏忙しい一日を過ごした後、休んでいると...

春のタケノコの保存

中国では、食卓に出す食べ物は多種多様ですが、春タケノコもその一つです。タケノコが好きな人は多いです。...

Windows 10 が突然無料になったのはなぜですか?

北京時間1月22日の早朝、マイクロソフトは新しいオペレーティングシステムWindows 10のプレビ...

ヘルプ!旅行中に排便できないのはなぜですか?

企画・制作出典: 簡単な歴史著者: Qiuqu編集者:ヤン・ヤピン...

たたきホタテとリンゴのサラダ

日常生活でサラダが好きな人は多いと思います。サラダは食欲を増進させるだけでなく、消化を助けるからです...

ビッグニュース!新型コロナウイルス感染症診断・治療計画第10版の調整ポイント

最近、国家衛生健康委員会は国家中医薬管理局と共同で『新型コロナウイルス肺炎の診断と治療方案(試行第9...