最近人気の DeepSeek を使用して、物理学研究所が発行した競争問題に挑戦したところ、結果は...

最近、我が国のDeepSeek社が発表した深い思考と推論能力を備えたオープンソースの大規模モデル「DeepSeek-R1」が世界的な注目を集めています。

DeepSeek-R1 以前には、OpenAI の GPT-o1、Athropic の Claude、Google の Gemini がいずれも、深い思考と推論能力を備えていると主張していました。これらのモデルは、専門家やネットユーザーによるさまざまなテストで実に驚くべきパフォーマンスを発揮しました。

特に興味深いのは、Google の専用モデル AlphaGeometry が、難しい競技として知られている国際数学オリンピックで 28/42 のスコアを達成し、銀メダルを獲得したことです。私たちも学生時代に数学オリンピックに触れたことがあり、そのような国際オリンピックで銀メダルを獲得できる出場者は皆、子供の頃からかなりの数学的才能を示し、ずっと懸命に訓練してきた達人だということをよく知っています。このレベルに到達できるAIは強力な思考能力を持っていると言っても過言ではありません。それ以来、私たちはこれらの強力な AI の物理レベルに興味を抱いてきました。

1月17日、中国科学院物理学研究所は江蘇省溧陽市で「天目杯」理論物理学コンテストを開催した。 DeepSeek-R1 のリリースは 2 日以内に AI コミュニティで大きな話題となり、当然ながら私たちのテストに最適なモデルとなりました。さらに、テストしたモデルには、OpenAI がリリースした GPT-o1 と Anthropic がリリースした Claude-sonnet が含まれます。

テスト方法は次のとおりです:

1. テスト全体は 8 つのダイアログで構成されています。

2. 会話の最初の段落の質問は「冒頭の発言」です。完了するタスク、質問の形式、回答の提出形式などを説明します。AI の応答を通じて人間が理解を確認します。

3. 7つの質問すべてを順番に送信し、返信を受け取った後に次の質問を送信します。間に手動のフィードバックはありません。

4. 各質問は、テキストによる説明と画像による説明の 2 つの部分で構成されます (質問 3、5、7 には画像はありません)。

5. 画像の説明はプレーンテキスト形式です。すべての説明テキストは GPT-4o によって生成され、手動で校正されます。

6. 各大型モデルについて取得されたテキスト資料はまったく同じです（添付ファイルを参照）。

上記のプロセスの後、7 つの質問に対する回答に対応する、各大規模モデルについて 7 段落の tex テキストを取得しました。マーキング方法は以下の通りです。

1. Overleaf ツールでコンパイルできるように tex テキストを手動で調整し、コンパイルされた PDF ファイルを解答用紙として収集します。

2. 4 つのモデルの 7 つの質問に対する回答を 7 人の試験官で構成される採点グループに送信します。

3. 採点グループは「天母杯」大会と全く同じであり、各採点者は同じ問題を担当します。たとえば、試験官 A は、すべての人間と AI の回答の最初の質問を担当します。試験官 B は、人間と AI によるすべての回答のうち 2 番目の質問を担当します。

4. 採点チームはすべての質問のスコアをまとめます。

結果はどうなりましたか？下の表をご覧ください。

結果コメント:

1. DeepSeek-R1 のパフォーマンスが最も優れています。基本的な質問（最初の3つの質問は満点）では、6番目の質問でも満点を獲得しました。これは人間の出場者の中では前例のないことです。 7 番目の質問で彼が低得点を取ったのは、質問の根幹にある「証明」の意味を理解していなかったためと思われます。彼は証明すべき結論を単に言い直しただけで、点数はもらえなかった。彼の思考プロセスを見ると、いくつかのステップに分けられるのですが、これらのステップは最終的な答えには反映されていません。

2. GPT-o1の総合スコアはDeepSeekとほぼ同じです。基本問題（問2、問3）の計算ミスにより失点。 DeepSeekと比較すると、o1の回答は人間のスタイルに近いため、主に証明問題に基づいた最後の質問のスコアがわずかに高くなります。

3.クロード・ソネは「初めにつまずいた」と言える。彼は最初の 2 つの質問で愚かな動きをして 0 ポイントを獲得しましたが、その後のパフォーマンスは o1 に非常に近く、減点されたポイントも同様でした。

4. AIのスコアを人間のスコアと比較すると、DeepSeek-R1はトップ3に入る（特別賞を受賞）が、人間の最高スコアである125点とはまだ大きな差がある。 GPT-o1がトップ5入り（特別賞受賞）、Claude-sonnetがトップ10入り（優秀賞受賞）。

最後に、答案の採点に関する私の主観的な考えについていくつかお話ししたいと思います。まず第一に、AIのアイデアは本当に優れています。基本的に解決できない問題はなく、多くの場合、すぐに適切なアイデアが見つかります。しかし、人間とは異なり、正しい考えを持った後でも、非常に単純な間違いを犯してしまいます。例えば、質問7のR1の思考プロセスを見ると、彼は最初から通常の座標を使用する必要があることを知っていたことがわかります。このステップを思いついた受験者のほぼ100％が正しい正規座標（単純な行列の対角化だけ）を解きましたが、R1は推測と試行錯誤を繰り返していたようで、結局正規座標の表現には至りませんでした。

もう 1 つは、すべての AI が「厳密な」証明が実際に何を意味するかを理解しているわけではなく、形式的に答えを出すことができることが証明であると考えているように見えることです。 AI は人間と同様に、多くの「偶発的な」ミスを犯します。例えば、正式な統一テストの前に、私たちは非公開で何度も試しました。クロード・ソネットは最初の質問には何度も正しく答えることができましたが、正式なテストでは間違えました。厳密さを期すために、同じ質問を複数回テストして平均を取るべきなのでしょうが、ちょっと面倒です...

企画・制作

出典: 中国科学院物理研究所 (id: cas-iop)

編集者：ヤン・ヤピン

校正：Xu Lai、Lin Lin

この記事の表紙画像は著作権ライブラリから取得したものです。転載や使用は著作権侵害となる可能性があります

<<: この木は「幽霊の顔」をしていますが、人々に愛されています...

>>: 普通だと思っているレストランのデザインが、実はあなたの財布を消耗させているものは何ですか？