どの写真でも、歩き回れる 3D の世界を生成できます。まるでSF作家の空想のように聞こえますが、AI技術の発達により、手の届く現実となりました。 12月3日、スタンフォード大学のフェイフェイ・リー教授は、彼女のワールドラボチームが一枚の画像から3Dの世界を生成できるAIシステムを立ち上げたと発表した。彼らはこのシステムを「Large World Model (LWM)」と名付け、自らを空間知能AI企業と称した。このモデルは発売されるとすぐに、世界中のネットユーザーの注目を集めました。本物のインセプションが来たという声も! World Labs公式サイトのスクリーンショット 公開されたライブデモでは、ユーザーはブラウザ上でWorld Labsが作成した世界を直接制御して体験することができます。例えば、美術館の風景の写真を入力すると、AI が入口と出口、隣接する展示ホール、展示物を想像するのに役立ちます。世界的に有名な絵画「夜の屋外カフェ」を入力すれば、絵画の中に入り込み、その地域の環境を完全に感じることができます... では、ラージワールドモデルはどのように違うのでしょうか?具体的な応用シナリオは何ですか? AIの発展にどのような影響を与えるのでしょうか? 一枚の写真から3Dの世界が生まれる 「それでも驚きです。SORA自体は以前からシミュレーション世界の『雰囲気』を少し持っていましたが、『大規模世界モデル』は別の技術的なルートであり、業界全体としては期待を上回ったと感じています」と、中国AIGC産業連盟研究所所長でUnbounded AIの共同設立者である馬千里氏は語った。 「大世界モデル」は、簡単に言えば、人工知能が仮想世界を形成するためのツールです。ユーザーは写真をアップロードするだけで、システムは写真内の環境情報に基づいて、対応する範囲内で 3D 仮想世界を自動的に生成できます。 さらに、ユーザーはマウスやキーボードを使用して、Web ページ上で直接この 3D 世界を簡単に閲覧できます。さらに、生成された 3D 世界はインタラクティブです。ユーザーはカメラを自由に動かして、ゲームをプレイするかのようにこの 3D の世界を探索できます。被写界深度やズームなどの操作もすべて可能です。 「インタラクティブ性とは、実際にはキーボード入力やマウスの動きを通じてAIにコマンドを入力することを意味し、AIはそのコマンドに基づいて対応するシーンをリアルタイムでレンダリングして生成します。これまで、誰もが目にする3Dシーンはすべて人間が事前に構築したものでした」と浙江大学の博士課程の指導者である朱林超氏は説明した。 この「大きな世界モデル」の素晴らしい点は、3D 幾何物理学の基本ルールに従っており、奥行きと空間の感覚がリアルに表現されていることです。 馬千里氏の見解では、3D幾何物理学の基本ルールに準拠しているということは、AIモデルが大量の3Dデータでトレーニングされた後、画像の内容を完全に理解できるようになったことを意味し、AIが現実世界をさらに理解したことを反映している。 しかし、現実世界の物理法則に従うという点では、「大世界モデル」は実用化にはまだ程遠いと朱林超氏は述べた。 「いくつかの物理的なメカニズムを導入していると主張していますが、より基本的な物理原理をどのように生成するかという技術的な詳細は明らかにされていません。シーンによっては、異なるオブジェクトが不自然に融合して色のブロックの塊になるなど、レンダリングエラーも発生します。」 しかし、World Labs は、これらは単なる「初期のプレビュー」であり、生成される世界の規模とリアリティを高め、新しいインタラクション方法を模索するために懸命に取り組んでいると述べたと理解されています。 世界生成モデルには幅広い応用シナリオがある 3D 生成トラックにおいて、World Labs が「思い切って」参入した最初の企業というわけではありません。これまでも、NVIDIAやMetaなど多くの企業が物理AIや3D世界の関連技術を積極的に展開しており、市場競争は熾烈を極めている。 国内では多くの企業も参入している。Unbounded AIを例に挙げると、同社の製品「Magic Mirror」もAIを活用して3D製品を生成している。ユーザーがブラウザ上で写真を入力するだけで、「マジックミラー」は写真に写っている人物に基づいて対応する3Dモデルを生成し、最終的にはフィギュアにすることができます。 ツールの革新とアプリケーション シナリオの実装は、ほとんどの人が懸念している問題です。 World Labsは公式ブログで、アーティスト、デザイナー、開発者、映画製作者、エンジニアなどの専門家に役立つツールを構築する予定であると述べた。誰もが独自の世界を想像し、創造できるようにすることで、生成 AI の可能性を 2D 画像やビデオから 3D 世界まで拡大します。 「『ラージワールドモデル』のようなAIモデルの出現により、将来的にはVR世界のデジタル空間を満たすことができるようになるかもしれない。」馬千里氏は、VRにおけるデジタル空間の構築コストは非常に高く、開発サイクルは比較的遅いと説明した。このようなツールの登場により、デジタル空間のモデリングコストが削減され、ニーズに応じて仮想世界のシーンを迅速に構築できるようになるため、メタバースは人々にとってますます身近なものになるでしょう。 リー・フェイフェイの博士課程の学生であり、ワールド・ラボの共同設立者であるジャスティン・ジョンソンは、ソーシャルメディア上で、この技術が成熟するにつれて、将来的には携帯電話やタブレットなど、異なるサイズの画面を使用する必要がなくなるかもしれないと指摘した。仮想コンテンツを現実世界とシームレスに融合できれば、スクリーンの必要性は少なくなるだろうと彼は言う。 空間知能の時代が到来 2年前、ChatGPTが華々しくリリースされて以来、生成AIは2次元画像やテキストの処理から3次元世界の理解まで、幅広く活用されてきました。文化的知性から空間的知性まで、生成 AI は人間の物理的な世界を極めて速い速度で認識しています。 「大規模世界モデル」の出現は、空間知能の実践的な実証でもあります。 Fei-Fei Li は空間知能を次のように定義しています: 空間知能とは、機械が 3D 空間と時間で認識、推論、行動する能力です。彼女の意見では、空間知能は AI 分野における次の最先端の技術の方向性です。 今年9月、メディアのインタビューで、李飛飛氏は空間知能が彼女の次の目標であり、その技術がAIの開発プロセスを変えるだろうと語った。彼女は、空間知能は言語知能と同じくらい重要であり、ある意味ではより古く、より根本的なものかもしれないと考えています。 AI の発展は、平面的な画像やテキストの処理に限定されるものではなく、知能の発展の自然な延長である 3 次元世界の理解へと進んでいきます。 それでは、ワールドラボが開発した空間知能AIは、今後のAIの発展にどのような影響を与えるのでしょうか? 朱林超氏は、人々が情報を処理するとき、主に視覚情報に頼っていると述べた。このような大規模なモデルの出現により、より優れた 3D 環境を構築し、物理的に一貫した動きを実現する方法など、視覚モデルにさらに注目する人が増える可能性があります。これらにより、この分野にさらに多くの人々が惹きつけられるかもしれません。 「現在のAIへの投資は膨大であり、方向性は非常に重要です。このようなAI技術が検証されれば、企業はその道に敢えて賭け、それによって業界の発展を促進するでしょう。」馬千里は言った。 今日では、単一の画像から 3D 世界モデルを生成することで、空間知能についての予備的な理解が得られます。将来的には、もっと大きなモデルが登場するかもしれません。 AIアルゴリズムの継続的な最適化とハードウェア機器のアップグレードにより、空間インテリジェンスは既存の技術限界をさらに突破し、人間のライフスタイルの変革の重要な原動力になる可能性があります。 大胆に想像してみてください。時間の次元が追加され、トレーニングが成功すれば、AI は本当に過去と現在を知り、未来を予測できるようになるのではないでしょうか。 |
<<: 「グッバイ・ラブ4」のゲストは不安を抱えている、この研究は脳の働きを物語っている
>>: 数千元もする「日本製水素カップ」はただの無駄遣いか?
実際、人生で朝食を抜いた経験のある人はたくさんいますが、これは自分の健康に対する無責任な行動です。 ...
この記事の査読者:人民解放軍総合病院第二医療センター副院長兼マスタースーパーバイザー、陳海旭アルツハ...
歯痛の患者さんは、鋭くズキズキする痛みを感じ、ひどい場合には耳やこめかみに痛みを感じることもあるため...
赤身肉とは、一般的に豚、牛、羊などの家畜の肉を指し、脂肪が少なくタンパク質が豊富です。赤身肉は私たち...
魚は多くの人に好まれています。魚にはタンパク質、脂肪、アミノ酸が豊富に含まれています。魚を長期間食べ...
最近の天気は気温が40度を超える日も時々あり、外に出ると暑さで火傷しそうになります。こんな時、一杯の...
希少疾患である筋萎縮性側索硬化症(ALS)への認知度を高めることを目的とした「アイス・バケツ・チャレ...
比較的珍しい食材であるホタテですが、その栄養価や効能について知らない人も多いのではないでしょうか。皆...
Dangdang.com はついに、今度は公開書簡のおかげで再び世間の注目を集めるようになった。公...
人々に好きな料理は何かと尋ねれば、魚風味の細切り豚肉は間違いなくその一つになるでしょう。魚風味の細切...
一般消費者の間では、スマートフォンを中心とする音楽再生機器の高音質伝送能力が向上し続けているため、ヘ...
山西省の雲達エクスプレスに関連する伝染病は依然として拡大している。記者の調べによると、現在、山西省で...
1. 色を見る品質良好:淡い黄色で光沢があります。劣悪品質: 暗いまたは白っぽい白、純白、光沢なし...
美容、痩身、美容、豊胸のための多くのレシピには2つの側面があります。美しさを得るために健康を犠牲にす...
家の掃除に関しては、人それぞれ習慣が異なります。しかし、毎日家の掃除をし、隅々まで丁寧に掃除したとし...