深夜の大ヒット作！ Google が最強の AI モデル Gemini をリリース、30 のベンチマークテストで GPT-4 を「上回る」

長い間待ち望まれていた Google の大型モデル、Gemini がついに登場しました。

GoogleのCEOサンダー・ピチャイ氏とGoogle DeepMindのCEOデミス・ハサビス氏は、これを「AIモデルにとって大きな飛躍」と評し、「最終的にはGoogleのほぼすべての製品に影響を与えるだろう」と語った。サンダー・ピチャイ氏は声明で「これらはジェミニ時代に入った最初のモデルであり、今年初めにグーグル・ディープマインドを設立した際に抱いていたビジョンを初めて実現したものです。この新しい時代のモデルは、当社が企業として取り組んできた最大の科学的、工学的取り組みの1つを表しています」と述べた。報道によると、Google はGemini Nano、Gemini Pro、Gemini Ultra の3 つのモデルをリリースしたとのことです。で、

Gemini Nano は、Pixel 8 Pro などの Android デバイスでネイティブにオフラインで実行される軽量バージョンです。

Gemini Pro はより強力なバージョンであり、まもなく多数の Google AI サービスに搭載され、本日より Bard に組み込まれる予定です。

Gemini Ultra はより強力なバージョンであり、Google がこれまでに作成した中で最も強力な大型モデルであり、主にデータセンターとエンタープライズアプリケーション向けに設計されており、来年発売される予定です。

パフォーマンスの面では、 Gemini は、マルチタスク言語理解ベンチマークなどの幅広い総合テストや、Python コード生成能力のテストを含む 32 のベンチマークのうち 30 で GPT-4 を上回っています。

図 | Gemini は、テキストやエンコーディングを含むさまざまなベンチマークにおいて最先端のパフォーマンスを上回ります。

図 | Gemini は、さまざまなマルチモーダルベンチマークにおいて最先端の性能を上回ります。

さらに、ジェミニウルトラは90.0%のスコアを獲得し、数学、物理学、歴史、法律、医学、倫理など57の科目を組み合わせて世界知識と問題解決能力をテストするMMLU（大規模マルチタスク言語理解）で人間の専門家を上回った初のモデルとなった。

これらのベンチマークでは、Gemini の最も明らかな利点は、ビデオとオーディオを理解して操作する能力にあります。これは主に設計によるもので、マルチモーダル性は当初からジェミニ計画の一部でした。 Google は、OpenAI が DALL-E と Whisper を作成したときのように、画像と音声の別々のモデルをトレーニングしませんでした。代わりに、最初から「多感覚」モデルを構築しました。デミス・ハサビス氏は、グーグルは常に非常に一般的なシステムに興味を持っており、特にこれらすべてのモードをどのように組み合わせるか、つまり、あらゆる入力や感覚からできるだけ多くのデータを収集し、同じように多様な応答を返すかということに興味を持っていると述べた。

現在、Gemini の最も基本的なモードはテキスト入力とテキスト出力ですが、Gemini Ultra などのより強力なモデルでは画像、ビデオ、オーディオを処理できます。デミス・ハサビス氏は、ジェミニには動きや触覚といったロボットのような機能も備わっており、時間の経過とともに感覚が増し、知覚力が増し、その過程でより正確で安定したものになり、「これらのモデルは周囲の世界をよりよく理解できるようになる」と語った。もちろん、ジェミニモデルは依然として幻想を生み出します。ただし、ベンチマークがすべてではありません。 Gemini の能力の真のテストは、最終的には、アイデアのブレインストーミング、情報の検索、コードの記述などに Gemini を使用したいと考えている一般ユーザーによって行われることになります。 Google は、コーディングを Gemini のキラーアプリとして特に注目しているようで、AlphaCode 2 と呼ばれる新しいコード生成システムを使用している。同社によると、このシステムはコーディングコンテストの参加者の 85% を上回り、オリジナルの AlphaCode よりも 50% 優れているという。しかし、Google にとって同様に重要なのは、Gemini が明らかにより効率的なモデルであるということです。これは Google 独自の Tensor Processing Units でトレーニングされており、PaLM などの Google の以前のモデルよりも高速かつ安価に実行されます。新しいモデルの発表に合わせて、Google は TPU システムの新バージョンである TPU v5p も発表しました。これは、大規模モデルのトレーニングと実行のためにデータセンター向けに特別に設計されたコンピューティングシステムです。

なお、Gemini は現在英語版のみで提供されており、将来的には他の言語バージョンもリリースされる予定です。しかしサンダー・ピチャイ氏は、このモデルは最終的にはGoogleの検索エンジン、広告製品、Chromeブラウザなどに統合されるだろうと述べた。

さて、ChatGPTによってもたらされた人工知能の時代は1年続きました。 Google による Gemini のリリースは、Google が追いついたことを意味するのでしょうか?言い換えれば、今日の Google は人工知能業界のトップの地位を取り戻すことができるのでしょうか?

添付：GoogleおよびAlphabetのCEO、サンダー・ピチャイ氏の声明：

あらゆる技術の変化は、科学的発見、人類の進歩、生活の向上にとって重要な機会です。私たちが経験している人工知能 (AI) の変革は、私たちの世代が経験した中で最も重大な変化であり、これまでのモバイルインターネットや Web 革命よりもはるかに大きな影響を与えると私は固く信じています。 AI は、世界中の人々にとって日常的なものから特別なものまで、さまざまな機会を生み出すだけでなく、これまでにない規模で知識、学習、創造性、生産性の新たな波を生み出すでしょう。

AI を世界中のすべての人にとって役立つものにすることが、私にとっての喜びです。

当社は、AI を第一に考える企業として、約 8 年間の歩みを続けてきました。進歩のペースは鈍るどころか加速しています。現在、何百万人もの人々が当社製品の生成 AI を使用して、より複雑な質問に答えたり、新しいツールを使用してコラボレーションやイノベーションを起こしたりするなど、昨年には不可能だったことを行っています。同時に、世界中の開発者が当社のモデルとインフラストラクチャを使用して新しい生成 AI アプリケーションを構築しており、あらゆる規模のスタートアップ企業や企業が当社の AI ツールを使用して成長しています。

これは驚くべきダイナミクスですが、私たちはその可能性を探り始めたばかりです。

私たちはこれを大胆かつ責任を持って行っています。これは、私たちの研究において野心的な目標を追求し、人々と社会に多大な利益をもたらす技術を開発すると同時に、安全策を講じ、政府や専門家と協力して AI の能力向上に伴って生じるリスクに対処することを意味します。当社は、AI の原則に沿って、製品とサービスを最適化するために、最良のツール、基礎モデル、インフラストラクチャへの投資を継続しています。

現在、当社は、複数の主要ベンチマークで優れたパフォーマンスを発揮する、これまでで最も先進的で多用途なモデルである Gemini の発売により、この旅の次のステップに進んでいます。最初のバージョンである Gemini 1.0 は、Ultra、Pro、Nano などのさまざまなスケールに最適化されています。これらは、ジェミニ時代の最初のモデルであり、今年初めに Google DeepMind を設立したときに私たちが抱いていたビジョンを初めて実現したものです。この新しい時代のモデルは、当社がこれまで取り組んできた科学およびエンジニアリングの取り組みの中で最大規模のものの一つです。私は、今後の展開と、Gemini が世界中の人々にもたらす機会に非常に興奮しています。

–サンダー

参考リンク:

https://blog.google/technology/ai/google-gemini-ai/#capabilitieshttps://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

<<: 外は雪が降っているのに、体は元気ですか？ |科学博物館

>>: トラックで最速で走るにはどうすればいいでしょうか?あなたの知らない「最速カーブ」！