あらゆる面でGPT-4を「上回り」、人間の理解能力に迫る！世界最強のモデルは本当にここにあるのか？

最近、「OpenAIの最強のライバル」として知られる大手モデル会社Anthropicが、第3世代の人工知能（AI）モデルであるClaude 3シリーズのモデル（ Claude 3 Opus、Claude 3 Sonnet、Claude 3 Haiku ）を発表しました。

その中でも、 Claude 3 OpuはClaude 3シリーズの最強バージョンモデルです。人間に近い理解力を備えており、オープンプロンプトや複雑なタスクを巧みに処理できます。公式情報によると、そのパフォーマンスはあらゆる面で GPT-4 を上回っています。

Claude 3 シリーズモデルは、他の主要モデルと同じ高度なビジュアル機能を備えており、写真、チャート、グラフ、技術図など、さまざまなビジュアル形式を処理できることは特筆に値します。

Anthropic は公式 X で、Claude 3 シリーズのモデルは「推論、数学、コーディング、多言語理解、視覚の分野で新たな業界基準を確立した」と述べています。

Claude 3 Opus と Claude 3 Sonnet に API 経由で直接アクセスできるようになったと報告されています。 API は完全にオープンになり、開発者はすぐにこれらのモデルを使い始めることができます。

さらに、Claude 3 Sonnet は、一部の地域のユーザー向けに Web サイト (http://claude.ai) で無料試用できますが、Claude 3 Opus の使用は Claude Pro ユーザーのみに開放されています。

さらに、Anthropic チームによれば、Claude 3 シリーズモデルは、以前のモデルでよく見られた問題であった「不要な拒否」に対処しているとのこと。

知性の新たな基準

評価結果によると、Claude 3 Opus は、学部レベルの専門知識 (MMLU)、大学院レベルの専門的推論 (GPQA)、基礎数学 (GSM8K) など、AI システムで最も一般的に使用される評価ベンチマークにおいて、類似製品よりも優れていることが示されています。複雑なタスクにおいて人間に近いレベルの理解力と流暢さを示し、「汎用知能の最先端をリード」しています。

すべての Claude 3 モデルでは、分析と予測、ニュアンスのあるコンテンツの作成、コード生成、スペイン語、日本語、フランス語などの英語以外の言語での会話の機能が向上しています。

ほぼ瞬時に結果が得られる

Claude 3 シリーズモデルは、ライブ顧客チャット、自動補完、およびデータ抽出タスクをサポートし、応答が即時かつリアルタイムで行われます。

その中でも、Claude 3 Haiku は、市場にある同じスマートカテゴリの中で最も高速かつ最もコスト効率に優れたモデルです。 arXiv 上の情報量とデータ量の多い研究論文 (約 10,000 トークン) を、チャートやグラフも含めて 3 秒で読み取ることができます。

ほとんどのワークロードにおいて、Claude 3 Sonnet は Claude 2 および Claude 2.1 よりも 2 倍スマートです。知識の検索や販売の自動化など、迅速な対応が必要なタスクに優れています。 Claude 3 Opus は Claude 2 や Claude 2.1 と似ており、速度は遅いですが、インテリジェンスのレベルは高くなっています。

精度の向上

Claude 2.1 と比較すると、Claude 3 Opus は、難しい自由回答形式の質問で 2 倍の精度 (または正解) を達成し、誤答も削減します。

回答の信頼性を高めることに加えて、Claude 3 シリーズモデルでは引用が可能になり、参考文献内の正確な文を指し示すことで回答を検証できるようになります。

200Kのコンテキストウィンドウとほぼ完璧なメモリ

Claude 3 シリーズモデルでは、200K コンテキストウィンドウが提供されるようになりました。ただし、3 つのモデルはすべて 100 万トークンを超える入力を受け入れることができるため、将来的には、より高い処理能力を必要とする特定の顧客に提供される可能性があります。さらに、Claude 3 Opus はほぼ完璧な再現率と 99% を超える精度を実現します。

Anthropicチームは、モデルのセキュリティと透明性を向上させるために、憲法AIなどの手法の開発を継続し、新しいモデルから生じる可能性のあるプライバシーの問題を軽減するためにモデルを微調整していくと述べた。

Claude 3 シリーズのモデルは、以前のモデルと比較して、生物学的知識、ネットワーク関連の知識、自律性などの重要な指標において進歩を遂げていますが、Responsible Scaling Policy によると、依然として AI 安全レベル 2 (ASL-2) にとどまっています。レッドチームの評価結果によると、Claude 3 シリーズモデルが壊滅的なリスクをもたらす可能性は現在非常に低いことが示されています。

使いやすい

Claude 3 シリーズモデルは、複雑な複数ステップの指示に従うのに優れています。彼らは、ブランドの声と対応のガイドラインに従い、ユーザーが信頼できる顧客向けエクスペリエンスを開発することに特に優れています。さらに、Claude 3 シリーズのモデルは、JSON などの形式で一般的な構造化出力を生成するのに優れているため、自然言語分類や感情分析などのユースケースをより簡単にガイドできます。

公式ブログの最後に、Anthropic チームは次のように書いています。

「AI 機能の限界を押し広げると同時に、当社はセキュリティ保護がパフォーマンスの飛躍的向上に追いつくよう全力で取り組んでいます。AI 開発の最前線に立つことが、AI を社会に良い結果をもたらす最も効果的な方法であるというのが当社の前提です。」

参考リンク:

https://www.anthropic.com/news/claude-3-family

<<: この致命的な喉の痛みは、100年前の彼の「毒をもって毒を制す」術のおかげで治りました！

>>: 世界緑内障デー丨寝る前に電気を消して携帯電話を見ることがよくありますか?この視覚泥棒に注意してください!