数学に失敗した！ AIも部分的な学生であることが判明しました...

今年も大学入試の結果が発表される時期になりました。何千万人もの受験生と保護者が喜びや不安を抱えながら願書に記入しているとき、前例のない大学入試の旅を終えたばかりの特別な「受験生」のグループがいます。

2024年、この「特別大学入試」にトップクラスのAIモデル9名が参加しました。彼らは、OpenAI、Baidu、Alibaba、Tencent、ByteDanceなどの有名企業のほか、Baichuan Intelligence、Zhipu AI、Dark Side of the Moon Technology、MiniMaxなどの新興企業からも来ています。

人工知能が大学入試に挑戦

では、人間の知能の試金石である大学入試において、大規模な AI モデルはどのように機能するのでしょうか?北京大学や清華大学に入るのは簡単ですか、それとも短大に入るのは難しいですか？

テスト結果によると、このビッグモデルは特に文系の分野で優れた成績を収め、中には一流ラインをはるかに超えるものもありました。しかし、理科の分野での成績は満足できるものではなく、数学と総合理科の科目の点数は全体的に低く、複雑な数学の問題を解いたり、物理的および化学的概念を理解したりする大きなモデルの課題を反映しています。

大学入試を受けて、AI モデルが何点取れるか確認します。

この試験の興味深い詳細をいくつか見てみましょう。

この試験では、大学受験生の多い河南省で使用されている試験問題一式でもある、非常に難しい「2024年新学習指導要領第一巻」が使用されています。適用範囲は浙江省、江蘇省、山東省、広東省、河北省、福建省など多くの省に及びます。

試験は人間の受験者と同じ方法で採点されます。多肢選択問題、空欄補充問題、多肢選択問題、記述問題など、すべて大学入試基準に従って厳格に審査されます。複数選択問題と空欄補充問題の場合、モデルの問題解決プロセスが正確かどうかは考慮されず、最終結果のみが考慮されます。多肢選択式問題の場合、不正解が提出された場合には0点が与えられ、部分的正解が提出された場合には、対応する割合に応じて点数が与えられます。エッセイ問題の場合、テストチームは標準回答を参照し、問題解決の手順に従ってポイントを計算します。

ビッグモデルの応答はランダムであるため、各ビッグモデルは 2 回回答し、その結果が平均化されました。満点がデフォルトで採点される英語のリスニング部分を除き、残りの試験問題は人間の受験者の基準に従って採点され、作文は中国の大学入試問題の採点に長年の経験を持つ主要な教師によって採点されます。長年中国語を教えてきた彼にとって、アルが書いた記事を採点したのは今回が初めてだった。興味深いことに、この試験問題のエッセイのテーマも AI に関連しています。

AI 大学入学試験の成績証明書

激しい競争の末、OpenAIのChatGPT（GPT-4o）が際立ち、文系で562点、理系で469.5点という優秀な成績で、このAI大学入試の「トップスコアラー」となった。河南省の大学入試スコアラインによれば、GPT-4oの教養スコアは、一級ラインを41ポイントも簡単に上回ることができる。大学受験生の多い河南省では8811位となり、これは人間の受験者の上位2.45％に相当する。豆宝の文系得点は542.5点で、これも一線ラインをしっかりと上回り、続いて文鑫4.0が537.5点、白暁英が521点で一線文系入学得点ラインにぎりぎり達した。

文鑫さんは理科で最高得点4.0点を獲得したが、合計得点はわずか478.5点で、順位は202264位、上位35.27％に相当した。基本的に、すべての大規模モデルの理科のスコアは、文系の総合スコアよりも 70 ～ 80 ポイント低くなります。しかし、テスト結果から判断すると、このビッグモデルの現在の知能レベルは、理系の第2級の学生を見つけるには十分すぎるほどです。

「学問の達人」も悩みを抱えているのでしょうか？ AIも部分的な学生である

このユニークな AI 大学入試では、各モデルが独自の方法で優れた成績を収めました。教養分野では、幅広い知識と強力な記憶力の才能を発揮し、特にGPT-4o、Byte Bean Bag、Wenxin 4.0、Baichuan 4.0では歴史と政治の科目で目覚ましい成績を達成しました。 GPT-4oの教養スコア237点は、すでに受験者の中では上位中レベルにあります。

英語は、大手モデルが最も優れたパフォーマンスを発揮する科目です。 9つの主要モデルの平均スコアは132ポイント（150点満点）にも達します。大手モデルのほとんどは、客観問題で満点に近い点数を獲得でき、作文ではわずかな点数しか失いません。これは、大きなモデルが最もよく機能する主題でもあります。

中国語のテストでは、大規模モデルは客観的な質問への回答で依然として高得点を獲得し、外国人受験者のGPT-4oもほぼ満点を獲得しました。そのギャップは主に文章に反映されました。 18 の記事のうち 11 の記事が 48 点以上を獲得し、平均スコアは約 46.8 点でした。 Wenxin 4.0は48ポイントを獲得し、Doubaoは最高52ポイントを獲得しました。

大型模型が書いた作文に対する試験官の総合評価は、文章力が生徒の平均レベルを超えているというものであった。各モデルには異なるスタイルがあります。Wenxin 4.0 は、たくさん本を読む学生のように、有名な引用を自由に引用できます。豆宝のこのテーマに関する議論は奥深く、より優れた論理的能力を反映している...しかし欠点もある。奥深さや豊かさ、文学性、創造性に欠け、特に結末の表現は十分に昇華されておらず、明らかに定型的である。

今回、ビッグモデルが数学のテストで示したパフォーマンスは、「数学は昔からコンピューターの得意分野だった」という印象を覆すものとなった。なぜなら、テストに参加した9つの大規模モデルの平均スコアはわずか47点だったのに対し、GPT-4oは大学入試数学試験で70点を獲得したからです。つまり、この試験で最も成績が良かった大規模モデルでも、数学のテストでは不合格となり、得点は半分にも満たなかったのです。 GPT-4o に加えて、平均スコアが 60 を超えたのは Wenxin 4.0 と Doubao の 2 つのモデルのみで、それぞれ 62.5 と 61.5 でした。他の 6 つのモデルのパフォーマンスは満足できるものではありませんでした。

この結果から、大規模モデルは数学において本当に不十分なのかどうか疑問に思う。分析の結果、数学の問題を解く場合、大規模モデルは比較的単純な推論手順の問題しか処理できないことが判明しました。例えば、豆宝は微分や三角関数の問題を解くのが得意で、関連する公式や定理を巧みに適用することができます。しかし、問題が複雑になり、より深い導出と証明が必要になると、大規模なモデルのパフォーマンスは大幅に低下します。さらに驚くべきことは、いくつかの大規模モデルでは、問題を解決する過程で単純な問題さえも複雑化してしまうことです。特に、PC 製品にコードインタープリターを追加したモデルでは、問題を解くときに無限ループに陥ることが多く、数学のテストの成績に間違いなく影響を及ぼしました。

この特別なAI大学入試は、大規模モデルの能力をテストするだけでなく、教育分野における人工知能の応用可能性を探るものでもあると言わざるを得ません。最も直感的な結論は、人間は惨めに失敗していないということであり、AI が小学生の問題さえ解けなかった数年前と比較すると、今日の大規模なモデルは書籍として出版することさえできるということです。この進歩は、間違いなく科学技術の急速な発展の縮図です。

<<: 「フルーツループ」で大流行中の糖酸比とは何ですか？たとえ美味しくても、適度に食べるべきです。

>>: インフルエンザA型の2歳児が浣腸のためにヨガスタジオに連れて行かれたが、症状が悪化した！背後にある真実...