新しいDeepSeekアプリ！杭州の90年代以降の人々の行動が話題になった

東坡豚肉、キノコと野菜の炒め物、蒸しフナ、エビと豆腐...テーブルいっぱいの料理を作り、写真を撮って AI に投げ、次のように尋ねます。「写真の中で最もタンパク質含有量が多いのはどの食べ物ですか?」尿酸値が高い人は、どの料理を食べ過ぎてはいけないでしょうか？

AIは数秒間深く考え、推論プロセス全体を入力し、最終的に写真上の答えを丸で囲みました。

これは推論を学習した大規模なマルチモーダルモデルであり、将来的には日常生活における小さな応用シナリオとなるでしょう。これまでは、このような「目」を持ち、推論能力に優れたAIはまだ想像の段階にありました。しかし最近、杭州オムAIラボの95年以降のグループが、DeepSeek-R1のトレーニング方法を純粋なテキスト分野から視覚言語分野に移行することに成功し、マルチモーダルな大規模モデルにさらなる想像の余地を開きました。

彼らはまた、このプロジェクトをオープンソース化し、VLM-R1 と名付け、世界最大のコードホスティングプラットフォームである GitHub で公開しました。オンラインになってからわずか 1 週間で、さまざまな国の開発者から 2.7k のスターを獲得し、2 月 21 日にはホットトレンドリストに掲載されました。この成果は、このオープンソースコミュニティでは傑出したものです。

VLM-R1 が GitHub で公開されてから 1 週間後の星のデータ曲線

2月21日、GitHubのホットトレンドリストに掲載されました

この研究開発チームのリーダーは、90年代以降の世代であり、Om AI Labの創設者である趙天成博士です。彼はまた、浙江大学濱江研究所のOm人工知能センターの所長および博士課程の指導者でもあります。

DeepSeek-R1推論を教える方法

マシンビジョンに導入

DeepSeek-R1 モデルの独自性は、DeepSeek が一般的なモデル推論手順を調整した点にあります。これまで、モデルは推論能力を向上させるために通常「教師あり微調整」（SFT、教師あり微調整）に依存していました。簡単に言えば、すでに多くのことを学習した大規模なモデルを採用し、特定のラベル付きデータを使用して、タスクをより適切に完了する方法をモデルに教えることです。すでに料理の仕方を知っているようですが、四川料理や安徽料理となると、特別な練習を通して調理技術を習得する必要があります。

DeepSeek-R1 は、トレーニングプロセス中にこのステップを直接スキップし、「強化学習」段階に入り、教師ありデータなしで純粋な強化学習を通じて大規模なモデルがどのように進化できるかを探ります。この革新的な強化学習方法には、Group Relative Policy Optimization (GRPO) と呼ばれる専門用語があります。

GRPO は DeepSeek-R1 の推論学習に役立っていますが、一般的なコンピュータービジョンタスクで AI モデルのパフォーマンスを向上させることにも役立つのでしょうか?

繰り返し実験を行った結果、Om AI Lab R&D チームからの答えは「はい」です。

彼らは、視覚的位置特定タスクで Tongyi オープンソース視覚理解モデル Qwen2.5-VL をトレーニングしました。これに基づいて、R1法とSFT法を比較に使用しました。現時点での結論としては、R1 メソッドはさまざまな複雑なシナリオで安定した高いパフォーマンスを維持できるということです。これは実際のアプリケーションでは非常に重要です。

下のストリートビュー写真に示されているように、AI に与えられたタスクは、写真内で視覚障害者にとって危険となる可能性のある物体を見つけることです。

道路脇の歩道のシーンでは、人間が視覚障害者の歩行の障害物として思いつくのは、通常、石柱、バス停、歩行者などです。これらは、事前にマークできる「データ」です。しかし、この写真では、階段というかなり特殊な状況があります。

趙天成氏のチームが行った実験によると、R1方式でトレーニングされたAIモデルは、このシナリオのステップが視覚障害者にとって危険をもたらすことをうまく推測できるという。

「人間にとって、これは常識的な推論であり、非常に簡単です。しかし、従来のコンピュータービジョンモデルでは、これは実際には非常に困難です」と趙天成氏は説明した。

下の写真のように、テーブルの上には山芋、オムレツ、枝豆、緑の野菜、コーヒー、オレンジが置いてあります。 AI に写真の中で最もビタミン C を多く含む食品を見つけさせます。

R1方式を使用してトレーニングされたAIモデルは、すぐにオレンジにロックオンし、その思考プロセスを添付しました。「以前は、問題の解き方を教えずに答えを直接教えてくれたため、エラー率が高かった。例えば、10問中4、5問しか正解できなかったのに対し、R1方式で訓練された人は7、8問正解できた。」

さらに、機械学習の分野では非常に一般的な状況があります。タスク A を使用してモデルをトレーニングする場合、トレーニングステップの数 (トレーニングモデルによって実行される反復回数) が増えるにつれて、A とそれほど類似していないタスク B でのパフォーマンスが低下します (図の赤い曲線)。「それは、あるボタンを押すと別のボタンがポップアップ表示されるようなものです。」そのため、以前は複数のタスクを実行する場合、タスク間の比率を慎重に制御する必要がありました。」ただし、R1 メソッドを使用してトレーニングされた AI モデル (図の緑の曲線) ではこの傾向は見られません。これは、R1 メソッドによって、モデルが視覚コンテンツを単に記憶するのではなく、真に「学習」して理解できるようになることを意味します。

緑の曲線は R1 メソッドを使用してトレーニングされ、赤の曲線は従来の SFT メソッドを使用してトレーニングされます。

視覚言語モデルのトレーニング

新しいアイデア

「実験は春節休暇中に始まりました。幸いなことに、初期段階で多くの経験を積んでおり、多くの『インフラ』がすでに整っています。アイデアが浮かんだら、すぐに実験を行い、結果を検証することができます。」 10人からなるチームには、研究所の研究開発担当者と、趙天成氏が率いる博士課程の学生が含まれています。

2月15日、趙天成氏はVLM-R1の実験結果を海外のソーシャルプラットフォームで公開し、オープンソース化してGitHubにアップロードした。 2月22日現在、世界中の開発者から2.7kのスターを獲得しています。

さまざまな規模の質問が殺到しました。トレーニングにはどのくらいの時間がかかるのか、最小のビデオメモリはどれくらいなのか、モデルの思考プロセスをもっと詳しく教えていただけますか...

「基礎となるロジックは同じですが、視覚、数学、コードはまったく異なる様式です。視覚領域でどのように設計し、それを機能させるか？チームは実際に多くの試行錯誤を経て、現在の比較的効果的な組み合わせを見つけました。」趙天成氏は、現在のバージョンはバージョン0.1としかみなせず、成熟には程遠いことを認めた。「さらなる実験で答えを出す必要がある問題がいくつかあります。」

彼の意見では、この期間の実験の最大の重要性の 1 つは、マルチモーダルモデルのトレーニングと業界にいくつかの新しいアイデアを提供したことです。これは、R1 メソッドの汎用性を証明しており、「テキスト分野で優れたパフォーマンスを発揮するだけでなく、視覚言語モデルのトレーニングにおける新しいトレンドにつながる可能性もあります。」

「挑戦する勇気のあるリーダーになりましょう

それはトレンドの中で他人を追随することよりも重要なのです。」

Om AI Labの親会社であるLianhui Technologyは、かつてAlibabaとNetEaseの台頭の発祥地であり、インターネットとIoTの技術が私たちの日常生活に浸透した杭州濱江インターネット工業団地にあります。現在、人工知能が主役となり、当社は人工知能インテリジェントエージェントプラットフォームの応用と実装に取り組んでいます。

2月21日、趙天成氏が率いるOm AI Labは、上海で開催された2025 Global Developer Conference（GDC）で、R1強化学習に基づく視覚理解マルチモーダルモデルVLM-R1とオープンソースの大規模言語モデルインテリジェントエージェント評価プラットフォームOpen Agent Leaderboardを初公開しました。

趙天城（写真提供：陳忠秋）

趙天成氏は昨年8月、インタビューで、米国のカーネギーメロン大学（CMU）在学中に指導者から言われた「追随者ではなくリーダーになれ」という言葉を常に覚えていると語った。トレンドの最前線にいる他の人に従うことよりも、敢えて挑戦するリーダーになることの方がはるかに重要です。

（出典：チャオニュース）

<<: 国家郵政局：2023年1月から2月までの郵便業界の配達業務量は合計210億個で、前年比3.0％増加した。

>>: 神話の中の「非神話」を払拭せよ！『哪吒2』のサメ将軍のフカヒレは本当に美味しいのか？