大学入試の中国語テストをAIにやらせたら何点取れるでしょうか？

編集者注:

この記事では、主にテスト回答を通じて、大規模言語モデルが質問、特に中国語の質問に答える際の現在のパフォーマンスを分析します。決して試験の規律に異議を唱えようとしないでください。人生のあらゆる一歩を自分自身に頼って踏み出すことによってのみ、あなたは堅固で力強い人間になれるのです。記事で述べられているように、「皆さん、学習をあきらめず、将来あらゆることに AI を活用することを期待してください。学習を続ければ、あなたの賢い脳が最大の驚きと報酬をもたらしてくれるでしょう。」

（画像出典：著者とAIの会話のスクリーンショット）

以上が、2023年に大学受験をする受験生へのAIからの祝福です。あなたはAIの愛と期待を感じていますか？

大学入試でテストされる分野や能力は非常に広範囲にわたるため、ほとんどの人は比較的に不足している部分を抱えています。筆者は、大学入試の現代中国語読解セクションの試験作成者との「共鳴」が足りなかったため、過去に高得点を取ることができなかった。

最近、脳科学の研究に携わっている私は、あるアイデアを思いつきました。GPT -4のような強力な人工知能（AI）大規模言語モデル（LLM）に中国の大学入試問題の解答を依頼したら、どのようなパフォーマンスを発揮するだろうか？

繁栄する夢の大学

（画像出典：画像生成人工知能モデルMidjourney）

パート1

大規模言語モデルに圧力がかかるのはなぜですか?

大規模言語モデルの方が問題解決能力が強いのはなぜでしょうか?これまでに自然言語処理 (NLP) 用に開発された他の言語モデルにはなぜこの機能がないのでしょうか?

言い方のひとつに、大規模なモデルには創発能力がある、ということがあります。つまり、トレーニングプロセス中に、モデルは直接エンコードまたは指定されていない高度で複雑な機能や動作を自動的に学習します。創発は、AI における最近のブレークスルーにとって最も重要な中核技術です。これにより、モデルを再トレーニングしたり変更したりすることなく、新しい機能や動作を適応的に学習できるため、大規模なモデルは新しい未知のタスクを処理するときにパフォーマンスが向上します。

パート2

人間はなぜこんなにも賢く、順応性があるのでしょうか?

脳内のニューロンの数が一定数を超えると、論理的思考能力をはじめとする脳のさまざまな機能がより高いレベルにまで上昇できるという「創発仮説」があります。これは量的変化が質的変化につながる最良の例です。

そのため、大規模言語モデルをトレーニングするためのパラメータ数と、それに入力されるテキストデータが増え続けると、AIはある日「悟り」を開き、それ以降その言語能力は爆発的に向上するでしょう。今では、注意深く区別しなければ、AIが書いた作文は普通の高校生が書いた作文と区別がつかないほどです。

大型モデルの出現

（画像出典：参考文献[1]）

大規模言語モデルは、出現後、マルチモーダル思考チェーンを持ち、言語と意味の高次元の固有表現を構築することができ、それによって中間ステップでの自然言語推論を通じて最終出力を完成させます。

簡単に言えば、単純な推論を行うことができます。

冒頭のGPT-4からの祝福だけを見ても、それがAIによって書かれたものか人間によって書かれたものかを見分けるのは実は難しいです。まだ真の意識や思考能力はありませんが、文脈を結びつけるために人間の思考や推論のプロセスに似た言語を使用します。

GPT-4 は、以前人気があった ChatGPT と同様に、Generative Pre-trained Transformer (GPT) アーキテクチャに基づく大規模な言語モデルです。複数ステップの問題を、個別に解決できる中間ステップに分解できれば、大規模言語モデルの表現推論能力がさらに向上します。

大規模モデル思考連鎖機能の出現

（画像出典：参考文献[2]）

さて、私たちは数多くの大規模言語モデルの優れた特徴を説明しました。さあ、散歩に連れ出す時間です。

次に、GPT-4を使用して大規模言語モデルを置き換え、大学入試の中国語テストで著者を救済できるかどうかを確認します。

さあ、GPT-4 さん、AI 受験者になるための旅を始めましょう!

（画像出典：『仮面ライダービルド』）

パート3

質問に答え始めましょう!

本記事では、AIに全国各省市の2022年度大学入試中国語問題、すなわち全国A問題、全国B問題、新大学入試I問題、新大学入試II問題、北京問題、天津問題、浙江問題、上海問題の合計8セットを解かせ、最終スコアを算出させます。（OpenAIが大規模言語モデルのトレーニングに使用したテキスト資料はすべて2021年9月以前のものであるため、2022年のテストペーパーは新品で未開封です。）

（画像出典：著者とAIの会話のスクリーンショット）

著者は浙江省出身なので、浙江省の論文を例に挙げます。

最初の質問は言語の応用に関するものです（20点）。下の紫色のボックスが質問で、灰色のボックスが答えです。

正解：C

正解: 2.B 3.B

正解: D

正解：①。それは命よりも高いから ②実は哲学に満ちているのです ③。そして人生哲学は適切に誇張され、ドラマチックである

残念ながら、最初の 4 つの質問は複数選択問題であり、正解は 1 つだけでした。

たった 4 つの質問を完了しただけで、高得点を獲得する可能性は失われたと宣言する必要があります。

AIはタイプミス、ピンイン判定、単語や句読点の使い方、誤った文章の識別などの質問があまり得意ではないようで、これは中国語の基礎スキルがあまりしっかりしていないことを示しています。しかし、質問 5 では、回答の意味と基本的に一致する適切な文を完成させるという点では非常にうまく機能しました。さらに、必要な写真がなくても、定義と簡単な説明の質問に答えることができました。これは、文脈を結び付けて全体的な中心的なアイデアを要約するのは得意だが、細かい点にはあまり注意を払っていないことを示しています。

言い換えれば、AI はある程度の言語リテラシーを持っていますが、それほど多くはありません。

浙江省の試験採点規則によると、最初の質問で12点が減点され、スコアは8/20となります。

**次の大きな問題は現代中国語の読解（30点）です。 **元のテキストと質問を入力すると、AI の回答は次のようになります。

正解: 7.A 8.A 9. ①学者：彼らの関心は公職から食品に移り、食品の開発を推進しました。 ② 技術：中国料理は長い歴史があり、その料理技術は明・清時代に大きく発展しました。 ③理論：長期にわたる実践経験が体系的な理論に発展します。

参考解答採点点数：10点。① 強調とイントネーション。 ②出発します。 11. ① 正直で、忠誠心があり、親孝行である。 ② 屈辱と重荷を負う。 ③積極的かつ意欲的であること。 ④誠実に職務を遂行する。 12. ① 小さな愛を捨てて、大きな愛を受け取りましょう。 ② 私利を捨て、より大きな正義を追求する。 13. ① より良い生活を求める母親の熱意について書きます。 ②正直で、荒廃に耐え、献身的な人物を創造する。

残念なことに、現代中国語の読解セクションの多肢選択式の問題はすべて間違っており、短答式の問題は原文から要約されていませんでした。標準的な回答に従って採点すると、短い読解力テストでは 10 点満点中 1 点しか得られません。

また、読解力の多さからも、AIには全く回答能力がないことがわかります。例えば、芸術的な技法について尋ねられた場合、正しい答えは「強調」と「引き立てる」です。 AIは一生懸命にたくさんの質問に答えましたが、要点を押さえられなかったため、0点しか取れませんでした。

性格の部分では、責任感と無私無欲が答えでした。 AIは原文の最も表面的な内容についてはある程度理解していたものの、深い理解には欠けていたとしか言えません。したがって、評価と芸術的効果は完全に間違っていました。 AI は、現代の長いテキストを理解するのにやや無力であると言えるでしょう。

AIは文章自体に反映されている内容を分析することしかできず、作者が表現したい意味合いを深く理解することはできないようです。

標準的な回答を参照すると、この質問の総合スコアは 4/30 です。

次の3番目の質問は、古代の詩と散文を読むことです（40点）。

答えは何だと思いますか？

（画像出典：2022年浙江省大学入学試験漢文セクション）

正解: 14.C 15.B 16.D

正解：17. AIの判断は完全に正しいです。 18. （１）そのとき、人々は私が残酷な人間であり、称号や報酬を惜しんでいると思うだろう。（２）上記のような状況において、人民を（忠誠心や誠実さのために）罰する理由があることを知りながら、それを行わない場合、これも人民に対する故意の危害である。

どう思いますか？ AIの古典中国語が実はかなり上手いとは思いませんでしたか？ 3 つの選択問題のうち、間違えたのは 1 つだけで、句読点はすべて正しかったです。

しかし、最後の質問の漢文の翻訳には多くの問題がありました。たとえば、テキスト内の「忍」と「爱」はそれぞれ「残酷」と「けち」を意味するはずですが、AI はこれを「耐える」と「愛する」と翻訳しており、明らかに少し文字通りの解釈になっています。最終的に、古典中国語のスコアは 13/20 でした。

正解：19. ①.秦正ビル②。千秋節 20. 感情的には、王の詩は繁栄した過去への郷愁を表現し、杜の詩は過去の繁栄と現在の衰退の悲しみを表現している。文体的には、王の詩は詳細な描写を用いているのに対し、杜の詩は擬人法を用いている。

空欄補充問題は AI の得意分野であり、古代の詩でも基本的にすべて正しく答えました。しかし、古代詩の感情や文体の理解、および応答スキルはまだ少し不足しています。スコア: 5/8。

正解: 省略

古典中国語の理解に関する3番目の質問に対する回答も、標準的な回答とわずかに異なるだけで、良好でした。スコア: 4/6。

古詩のディクテーションでは、5つのうち3つを選択するだけです。GPT（1）、（2）、（4）の古詩の文章は完全に正しいので、正解とみなすことができます。スコア: 6/6。

しかし、「潮は平らで両岸は広く、風もないのに状況は変わらない」というのは「創造的」すぎる。彼は古代の詩を自ら作っただけでなく、中国語と英語を混ぜ合わせました...

古代詩朗読セクションの最終スコア：28/40。

**最後の部分は作文で、合計得点は60点です。** トピックは次のとおりです。

（画像出典：2022年浙江省大学入学試験中国語作文セクション）

2022 年のエッセイの資料は非常に現実的で、非常に具体的な内容と例が含まれています。 AIは目の前の問題について議論するのが得意です。 AI の 800 語のエッセイを見てみましょう。

（画像出典：著者とAIの会話のスクリーンショット）

記事全体を読んだ後、重複した単語や文章が多すぎると感じ、引用された資料の内容の頻度が非常に高いと感じました。しかし、論理と文章は依然として滑らかです。全体的には、36 点という合格点を辛うじて得ることができます。

こうして、 AIの最終得点は8+4+28+36=76点となり、浙江省の中国語論文では満点の150点となった。

**失敗した！ **GPT は笑って「GG」と入力することしかできません…

それで、浙江省の試験に不合格になった場合、他の大学入試の中国語試験ではどのような成績になるのでしょうか?著者の厳格な採点基準に従い、最終エッセイのみ合格点として、他の大学入試中国語論文の最終スコアを次の図にまとめます。

（画像出典：著者）

合計8回の試験が行われ、不合格率は87.5%にも上りました。

皆さん、学習をあきらめず、将来あらゆることに AI を活用することを期待してください。実際、現在の大規模言語モデルの人工知能は、テキストの「理解」にははるかに劣っています。得意なのは「記憶」と「内容要約」だけです。

学び続ければ、あなたの賢い脳はあなたに最高の驚きと報酬をもたらすでしょう!

パート4

AI が中国語のテストで成績が悪かったのはなぜですか?他の科目についてはどうですか?

論文を採点する過程で、著者は、古典中国語の文の分割や文脈に基づいた空欄補充など、GPT が基本的にすべての単語を正しく理解していることを発見しました。しかし、現代中国語の読み物や物語における細部の感情や表現、文章力に関しては、AIが良いスコアを出すのは難しかった。また、現代語が多くなるほど、この大問の得点は低くなり、要点を掴むのが難しかったことがわかります。

なぜこのようなことが起こるのでしょうか?

GPTシリーズの基本アーキテクチャであるTransformer自体は長いシーケンスの問題の処理に適していないため、OpenAIの専門家はスパースTransformerを使用して長いテキストの処理を改善し、計算の複雑さを軽減しましたが、現代のテキストは長すぎて、依然として重要なポイントに焦点を当てることができません。特に散文の場合、スパース処理とは、1 つの段落を読んで 2 つまたは 3 つの段落を飛ばし、何も考えずに記事全体を鵜呑みにすると、著者がテキストで暗示するより深い意味を理解するどころか、メインのストーリーラインが何であるかを要約することさえできない可能性があることを意味します。

古典中国語が現代中国語よりも適切に応答する理由は、古典中国語の方が短いため、長いシーケンスの処理が苦手という Transformer の欠点を効果的に回避できるからです。さらに、古典中国語の 1 つの単語は通常、中国語の 2 つまたは 3 つの単語に相当するため、情報量が多くなります。これにより、AI は記事全体の重要なポイントに注意を向け続けることができるため、全体的なコンテンツをより深く理解できるようになります。

つまり、AIは体系的な中国語学習を受けておらず、テストの解答スキルを理解しておらず、中国語のピンインや文法を詳細に把握しておらず、現代のテキストや古代の詩の中で作者が表現したい感情や精神的な意味合いを深く理解していません。

GTP-4 が大学入試の他の科目に挑戦することを許可された場合、何が起こるのか、興味がある人もいるかもしれません。著者のテスト結果は次のとおりです。英語が最も高いスコアです（結局のところ、英語が母国語です）。数学や物理に関しては、簡単な問題であれば問題ありませんが、問題が長くなると物語を作り始め、点数がかなり低くなります。化学、生物学、教養科目の結果は平均的で、中国語とあまり変わりません。

パート5

リラックスして試験頑張ってください

今年の大学入試中国語試験が終了しました。受験生の皆さんが自分の能力を存分に発揮し、理想の大学に入学できることを心から願っています！

大学入試を経験した「先輩」として、皆さんに心から言いたいことがあります。大学入試は人生の段階的な総括に過ぎず、その点数が将来の成功や失敗につながるわけではありません。人生は長距離レースだ。最も重要なのは、認知力を高め、視野を広げ、時代の方向性をつかみ、正しい選択をし、努力を続けることです。

最後に、皆さんの試験の成功を祈っています！

大学入試に合格しよう！

（画像出典：画像生成人工知能モデルMidjourney）

参考文献:

[1] Jason Wei、Yi Tay、他大規模言語モデルの創発的能力。 arXiv:2206.07682.(2022)

[2] Jason Wei Xuezhi Wang、他。思考連鎖の促しが大規模言語モデルにおける推論を引き出す。 arXiv:2201.11903v6.(2023)

[3]セバスチャン・ビュベック、ヴァルン・チャンドラセカランほか。汎用人工知能の火花: GPT-4 の初期実験。 arXiv:2303.12712. （2023）

制作：中国科学普及協会