東坡豚肉、キノコと野菜の炒め物、蒸しフナ、エビと豆腐...テーブルいっぱいの料理を作り、写真を撮って AI に投げ、次のように尋ねます。「写真の中で最もタンパク質含有量が多いのはどの食べ物ですか?」尿酸値が高い人は、どの料理を食べ過ぎてはいけないでしょうか? AIは数秒間深く考え、推論プロセス全体を入力し、最終的に写真上の答えを丸で囲みました。 これは推論を学習した大規模なマルチモーダルモデルであり、将来的には日常生活における小さな応用シナリオとなるでしょう。これまでは、このような「目」を持ち、推論能力に優れたAIはまだ想像の段階にありました。しかし最近、杭州オムAIラボの95年以降のグループが、DeepSeek-R1のトレーニング方法を純粋なテキスト分野から視覚言語分野に移行することに成功し、マルチモーダルな大規模モデルにさらなる想像の余地を開きました。 彼らはまた、このプロジェクトをオープンソース化し、VLM-R1 と名付け、世界最大のコードホスティングプラットフォームである GitHub で公開しました。オンラインになってからわずか 1 週間で、さまざまな国の開発者から 2.7k のスターを獲得し、2 月 21 日にはホット トレンド リストに掲載されました。この成果は、このオープン ソース コミュニティでは傑出したものです。 VLM-R1 が GitHub で公開されてから 1 週間後の星のデータ曲線 2月21日、GitHubのホットトレンドリストに掲載されました この研究開発チームのリーダーは、90年代以降の世代であり、Om AI Labの創設者である趙天成博士です。彼はまた、浙江大学濱江研究所のOm人工知能センターの所長および博士課程の指導者でもあります。 DeepSeek-R1推論を教える方法 マシンビジョンに導入 DeepSeek-R1 モデルの独自性は、DeepSeek が一般的なモデル推論手順を調整した点にあります。これまで、モデルは推論能力を向上させるために通常「教師あり微調整」(SFT、教師あり微調整)に依存していました。簡単に言えば、すでに多くのことを学習した大規模なモデルを採用し、特定のラベル付きデータを使用して、タスクをより適切に完了する方法をモデルに教えることです。すでに料理の仕方を知っているようですが、四川料理や安徽料理となると、特別な練習を通して調理技術を習得する必要があります。 DeepSeek-R1 は、トレーニング プロセス中にこのステップを直接スキップし、「強化学習」段階に入り、教師ありデータなしで純粋な強化学習を通じて大規模なモデルがどのように進化できるかを探ります。この革新的な強化学習方法には、Group Relative Policy Optimization (GRPO) と呼ばれる専門用語があります。 GRPO は DeepSeek-R1 の推論学習に役立っていますが、一般的なコンピューター ビジョン タスクで AI モデルのパフォーマンスを向上させることにも役立つのでしょうか? 繰り返し実験を行った結果、Om AI Lab R&D チームからの答えは「はい」です。 彼らは、視覚的位置特定タスクで Tongyi オープンソース視覚理解モデル Qwen2.5-VL をトレーニングしました。これに基づいて、R1法とSFT法を比較に使用しました。現時点での結論としては、R1 メソッドはさまざまな複雑なシナリオで安定した高いパフォーマンスを維持できるということです。これは実際のアプリケーションでは非常に重要です。 下のストリートビュー写真に示されているように、AI に与えられたタスクは、写真内で視覚障害者にとって危険となる可能性のある物体を見つけることです。 道路脇の歩道のシーンでは、人間が視覚障害者の歩行の障害物として思いつくのは、通常、石柱、バス停、歩行者などです。これらは、事前にマークできる「データ」です。しかし、この写真では、階段というかなり特殊な状況があります。 趙天成氏のチームが行った実験によると、R1方式でトレーニングされたAIモデルは、このシナリオのステップが視覚障害者にとって危険をもたらすことをうまく推測できるという。 「人間にとって、これは常識的な推論であり、非常に簡単です。しかし、従来のコンピュータービジョンモデルでは、これは実際には非常に困難です」と趙天成氏は説明した。 下の写真のように、テーブルの上には山芋、オムレツ、枝豆、緑の野菜、コーヒー、オレンジが置いてあります。 AI に写真の中で最もビタミン C を多く含む食品を見つけさせます。 R1方式を使用してトレーニングされたAIモデルは、すぐにオレンジにロックオンし、その思考プロセスを添付しました。 「以前は、問題の解き方を教えずに答えを直接教えてくれたため、エラー率が高かった。例えば、10問中4、5問しか正解できなかったのに対し、R1方式で訓練された人は7、8問正解できた。」 さらに、機械学習の分野では非常に一般的な状況があります。タスク A を使用してモデルをトレーニングする場合、トレーニング ステップの数 (トレーニング モデルによって実行される反復回数) が増えるにつれて、A とそれほど類似していないタスク B でのパフォーマンスが低下します (図の赤い曲線)。 「それは、あるボタンを押すと別のボタンがポップアップ表示されるようなものです。」そのため、以前は複数のタスクを実行する場合、タスク間の比率を慎重に制御する必要がありました。」ただし、R1 メソッドを使用してトレーニングされた AI モデル (図の緑の曲線) ではこの傾向は見られません。これは、R1 メソッドによって、モデルが視覚コンテンツを単に記憶するのではなく、真に「学習」して理解できるようになることを意味します。 緑の曲線は R1 メソッドを使用してトレーニングされ、赤の曲線は従来の SFT メソッドを使用してトレーニングされます。 視覚言語モデルのトレーニング 新しいアイデア 「実験は春節休暇中に始まりました。幸いなことに、初期段階で多くの経験を積んでおり、多くの『インフラ』がすでに整っています。アイデアが浮かんだら、すぐに実験を行い、結果を検証することができます。」 10人からなるチームには、研究所の研究開発担当者と、趙天成氏が率いる博士課程の学生が含まれています。 2月15日、趙天成氏はVLM-R1の実験結果を海外のソーシャルプラットフォームで公開し、オープンソース化してGitHubにアップロードした。 2月22日現在、世界中の開発者から2.7kのスターを獲得しています。 さまざまな規模の質問が殺到しました。トレーニングにはどのくらいの時間がかかるのか、最小のビデオ メモリはどれくらいなのか、モデルの思考プロセスをもっと詳しく教えていただけますか... 「基礎となるロジックは同じですが、視覚、数学、コードはまったく異なる様式です。視覚領域でどのように設計し、それを機能させるか?チームは実際に多くの試行錯誤を経て、現在の比較的効果的な組み合わせを見つけました。」趙天成氏は、現在のバージョンはバージョン0.1としかみなせず、成熟には程遠いことを認めた。 「さらなる実験で答えを出す必要がある問題がいくつかあります。」 彼の意見では、この期間の実験の最大の重要性の 1 つは、マルチモーダル モデルのトレーニングと業界にいくつかの新しいアイデアを提供したことです。これは、R1 メソッドの汎用性を証明しており、「テキスト分野で優れたパフォーマンスを発揮するだけでなく、視覚言語モデルのトレーニングにおける新しいトレンドにつながる可能性もあります。」 「挑戦する勇気のあるリーダーになりましょう それはトレンドの中で他人を追随することよりも重要なのです。」 Om AI Labの親会社であるLianhui Technologyは、かつてAlibabaとNetEaseの台頭の発祥地であり、インターネットとIoTの技術が私たちの日常生活に浸透した杭州濱江インターネット工業団地にあります。現在、人工知能が主役となり、当社は人工知能インテリジェントエージェントプラットフォームの応用と実装に取り組んでいます。 2月21日、趙天成氏が率いるOm AI Labは、上海で開催された2025 Global Developer Conference(GDC)で、R1強化学習に基づく視覚理解マルチモーダルモデルVLM-R1とオープンソースの大規模言語モデルインテリジェントエージェント評価プラットフォームOpen Agent Leaderboardを初公開しました。 趙天城(写真提供:陳忠秋) 趙天成氏は昨年8月、インタビューで、米国のカーネギーメロン大学(CMU)在学中に指導者から言われた「追随者ではなくリーダーになれ」という言葉を常に覚えていると語った。トレンドの最前線にいる他の人に従うことよりも、敢えて挑戦するリーダーになることの方がはるかに重要です。 (出典:チャオニュース) |
<<: 国家郵政局:2023年1月から2月までの郵便業界の配達業務量は合計210億個で、前年比3.0%増加した。
>>: 神話の中の「非神話」を払拭せよ! 『哪吒2』のサメ将軍のフカヒレは本当に美味しいのか?
寝る前にお腹が空いたらどうしたらいいでしょうか?夜食を食べるべきでしょうか、それとも空腹と戦うべきで...
監査専門家:石俊植物学博士、有名な科学ライター時間が経つのは早いもので、また秋になりました。 「昔か...
牛乳と卵のプリンは牛乳、卵、そしていくつかの食品添加物で作られていますが、どんな牛乳を使うかは個人の...
現在、人々の生活はますます豊かになり、豊かな生活を楽しみながら健康維持にも気を配る人が増えています。...
外でも家でも、誰もがチキンウィングを食べたいはずです。一般的に、チキンウィングを食べるにはKFCやマ...
名前の通り、黄耆粉末は黄耆から作られた粉末です。黄耆粉末の効果と機能は何ですか?また、黄耆粉末をどの...
帯状疱疹以外で最も痛い皮膚疾患といえば、おそらくおできでしょう。おできは、非常に急速に進行する一般的...
ホンダ中国はこのほど、8月の中国における最終自動車販売台数が10万2,257台で、前年同月比25.1...
「ハニーレモンティー」という飲み物は、誰もがよく知っています。ハチミツは肺を潤し、咳を和らげ、腸を浄...
2,000年以上も前に、私たちの祖先が完全な「三次元空間」の世界観を構築していたことを想像できます...
制作:中国科学普及協会著者: 昆虫インターン(中国科学院生物学博士)プロデューサー: 中国科学博覧会...
過去数十年で医学は大きく進歩しましたが、風邪は依然として世界中の人々の健康に影響を与える大きな問題で...
最近、日本経済新聞は台湾メディアの報道を引用し、鴻海精密工業の郭台銘会長が1月に鴻海株4億株以上を銀...
199it News 2017年7月5日、これは百度の上場以来、百度の歴史の中で最も重要な日になるか...
カニは栄養価が高く、美味しいです。多くの人がカニを食べるのが好きですが、新鮮なカニだけが本物の味です...