数学に失敗した! AIも部分的な学生であることが判明しました...

数学に失敗した! AIも部分的な学生であることが判明しました...

今年も大学入試の結果が発表される時期になりました。何千万人もの受験生と保護者が喜びや不安を抱えながら願書に記入しているとき、前例のない大学入試の旅を終えたばかりの特別な「受験生」のグループがいます。

2024年、この「特別大学入試」にトップクラスのAIモデル9名が参加しました。彼らは、OpenAI、Baidu、Alibaba、Tencent、ByteDanceなどの有名企業のほか、Baichuan Intelligence、Zhipu AI、Dark Side of the Moon Technology、MiniMaxなどの新興企業からも来ています。

人工知能が大学入試に挑戦

では、人間の知能の試金石である大学入試において、大規模な AI モデルはどのように機能するのでしょうか?北京大学や清華大学に入るのは簡単ですか、それとも短大に入るのは難しいですか?

テスト結果によると、このビッグモデルは特に文系の分野で優れた成績を収め、中には一流ラインをはるかに超えるものもありました。しかし、理科の分野での成績は満足できるものではなく、数学と総合理科の科目の点数は全体的に低く、複雑な数学の問題を解いたり、物理的および化学的概念を理解したりする大きなモデルの課題を反映しています。

大学入試を受けて、AI モデルが何点取れるか確認します。

この試験の興味深い詳細をいくつか見てみましょう。

この試験では、大学受験生の多い河南省で使用されている試験問題一式でもある、非常に難しい「2024年新学習指導要領第一巻」が使用されています。適用範囲は浙江省、江蘇省、山東省、広東省、河北省、福建省など多くの省に及びます。

試験は人間の受験者と同じ方法で採点されます。多肢選択問題、空欄補充問題、多肢選択問題、記述問題など、すべて大学入試基準に従って厳格に審査されます。複数選択問題と空欄補充問題の場合、モデルの問題解決プロセスが正確かどうかは考慮されず、最終結果のみが考慮されます。多肢選択式問題の場合、不正解が提出された場合には0点が与えられ、部分的正解が提出された場合には、対応する割合に応じて点数が与えられます。エッセイ問題の場合、テストチームは標準回答を参照し、問題解決の手順に従ってポイントを計算します。

ビッグモデルの応答はランダムであるため、各ビッグモデルは 2 回回答し、その結果が平均化されました。満点がデフォルトで採点される英語のリスニング部分を除き、残りの試験問題は人間の受験者の基準に従って採点され、作文は中国の大学入試問題の採点に長年の経験を持つ主要な教師によって採点されます。長年中国語を教えてきた彼にとって、アルが書いた記事を採点したのは今回が初めてだった。興味深いことに、この試験問題のエッセイのテーマも AI に関連しています。

AI 大学入学試験の成績証明書

激しい競争の末、OpenAIのChatGPT(GPT-4o)が際立ち、文系で562点、理系で469.5点という優秀な成績で、このAI大学入試の「トップスコアラー」となった。河南省の大学入試スコアラインによれば、GPT-4oの教養スコアは、一級ラインを41ポイントも簡単に上回ることができる。大学受験生の多い河南省では8811位となり、これは人間の受験者の上位2.45%に相当する。豆宝の文系得点は542.5点で、これも一線ラインをしっかりと上回り、続いて文鑫4.0が537.5点、白暁英が521点で一線文系入学得点ラインにぎりぎり達した。

文鑫さんは理科で最高得点4.0点を獲得したが、合計得点はわずか478.5点で、順位は202264位、上位35.27%に相当した。基本的に、すべての大規模モデルの理科のスコアは、文系の総合スコアよりも 70 ~ 80 ポイント低くなります。しかし、テスト結果から判断すると、このビッグモデルの現在の知能レベルは、理系の第2級の学生を見つけるには十分すぎるほどです。

「学問の達人」も悩みを抱えているのでしょうか? AIも部分的な学生である

このユニークな AI 大学入試では、各モデルが独自の方法で優れた成績を収めました。教養分野では、幅広い知識と強力な記憶力の才能を発揮し、特にGPT-4o、Byte Bean Bag、Wenxin 4.0、Baichuan 4.0では歴史と政治の科目で目覚ましい成績を達成しました。 GPT-4oの教養スコア237点は、すでに受験者の中では上位中レベルにあります。

英語は、大手モデルが最も優れたパフォーマンスを発揮する科目です。 9つの主要モデルの平均スコアは132ポイント(150点満点)にも達します。大手モデルのほとんどは、客観問題で満点に近い点数を獲得でき、作文ではわずかな点数しか失いません。これは、大きなモデルが最もよく機能する主題でもあります。

中国語のテストでは、大規模モデルは客観的な質問への回答で依然として高得点を獲得し、外国人受験者のGPT-4oもほぼ満点を獲得しました。そのギャップは主に文章に反映されました。 18 の記事のうち 11 の記事が 48 点以上を獲得し、平均スコアは約 46.8 点でした。 Wenxin 4.0は48ポイントを獲得し、Doubaoは最高52ポイントを獲得しました。

大型模型が書いた作文に対する試験官の総合評価は、文章力が生徒の平均レベルを超えているというものであった。各モデルには異なるスタイルがあります。Wenxin 4.0 は、たくさん本を読む学生のように、有名な引用を自由に引用できます。豆宝のこのテーマに関する議論は奥深く、より優れた論理的能力を反映している...しかし欠点もある。奥深さや豊かさ、文学性、創造性に欠け、特に結末の表現は十分に昇華されておらず、明らかに定型的である。

今回、ビッグモデルが数学のテストで示したパフォーマンスは、「数学は昔からコンピューターの得意分野だった」という印象を覆すものとなった。なぜなら、テストに参加した9つの大規模モデルの平均スコアはわずか47点だったのに対し、GPT-4oは大学入試数学試験で70点を獲得したからです。つまり、この試験で最も成績が良かった大規模モデルでも、数学のテストでは不合格となり、得点は半分にも満たなかったのです。 GPT-4o に加えて、平均スコアが 60 を超えたのは Wenxin 4.0 と Doubao の 2 つのモデルのみで、それぞれ 62.5 と 61.5 でした。他の 6 つのモデルのパフォーマンスは満足できるものではありませんでした。

この結果から、大規模モデルは数学において本当に不十分なのかどうか疑問に思う。分析の結果、数学の問題を解く場合、大規模モデルは比較的単純な推論手順の問題しか処理できないことが判明しました。例えば、豆宝は微分や三角関数の問題を解くのが得意で、関連する公式や定理を巧みに適用することができます。しかし、問題が複雑になり、より深い導出と証明が必要になると、大規模なモデルのパフォーマンスは大幅に低下します。さらに驚くべきことは、いくつかの大規模モデルでは、問題を解決する過程で単純な問題さえも複雑化してしまうことです。特に、PC 製品にコード インタープリターを追加したモデルでは、問題を解くときに無限ループに陥ることが多く、数学のテストの成績に間違いなく影響を及ぼしました。

この特別なAI大学入試は、大規模モデルの能力をテストするだけでなく、教育分野における人工知能の応用可能性を探るものでもあると言わざるを得ません。最も直感的な結論は、人間は惨めに失敗していないということであり、AI が小学生の問題さえ解けなかった数年前と比較すると、今日の大規模なモデルは書籍として出版することさえできるということです。この進歩は、間違いなく科学技術の急速な発展の縮図です。

<<:  「フルーツループ」で大流行中の糖酸比とは何ですか?たとえ美味しくても、適度に食べるべきです。

>>:  インフルエンザA型の2歳児が浣腸のためにヨガスタジオに連れて行かれたが、症状が悪化した!背後にある真実...

推薦する

チーズケーキの作り方

ケーキやペストリーといえば、女性のことを考えなければなりません。ほとんどの女性はケーキ、特に味が優れ...

ワカメとは何ですか?

昆布という名前を聞くと、多くの友人は、なびく長いスカートを思い浮かべるでしょう。そうです、昆布はワカ...

有名人が異業種に進出して電子商取引ビジネスを始めるのは信頼できることでしょうか?

米国の女優ジェシカ・アルバがインターネット業界のニュースのトップを独占した直後、今日は「ファッション...

不毛なアフリカの砂漠になぜこれほど多くの石油が存在するのでしょうか?

著者: ドゥアン・ユエチュ広大なアフリカ大陸の果てしない砂漠の下に、極めて豊富な石油資源があるという...

グレープフルーツの選び方

グレープフルーツは中秋節以来、多くの人が知っていますが、実は、グレープフルーツは美味しくてジューシー...

オリーブサラダの作り方

オリーブサラダは、実は私たちがよく食べる野菜の一種です。食卓にも頻繁に登場します。さわやかな味わいで...

食べ物はなぜ人を幸せにしたり悲しくしたりするのでしょうか?

著者: 長春第六病院副主任技師 傅佳評者: 長春第六病院主任医師、サン・ホン日常生活の中で、私たちの...

卵を食べるのも注意が必要です。不適切な組み合わせは体に悪影響を及ぼします

私たちは皆、それぞれの食品に独自の特徴があることを知っています。一緒に食べると、お互いの栄養を補うこ...

長寿果実の栄養価

長寿果実は、実は私たちが日常生活で根菜類と呼んでいるものです。人間の健康に良い栄養素を多く含む果物で...

生命の設計図:遺伝子?遺伝子だけじゃない!

2023年「中国科学普及青年スター創出コンテスト」の受賞作品著者: Yin Tao、Zheng L...

感染者数が1,000人を超えました!最新ニュースはこちら

安徽省衛生健康委員会が発表した最新データによると、2022年7月4日0時から24時までに、安徽省では...

海のカニの食べ方

秋はカニが一番脂がのって、どんな調理法でもおいしくいただけます。しかし、カニは専門的に加工するとさら...

鯛の栄養価

魚は一般的な水生動物です。私たちがよく食べる肉の中にも魚は含まれています。今日お話しするのは鯛です。...

起きたらすぐに布団を畳んだほうが衛生的でしょうか?健康そうに見えて実は不健康なライフスタイル10選。いくつ持っていますか?

起きたらすぐに布団を畳んだほうが衛生的でしょうか?スープを飲むのと、温かいうちに食べるのとではどちら...

神13号クルーの2021年を記録した、13の笑顔の瞬間!

2021年を振り返る現在、宇宙ステーションでミッションを遂行中神舟13号の宇宙飛行士忘れられない瞬...