現在、大規模言語モデル (LLM) は、NLP の分野におけるさまざまな下流タスクの処理において優れた能力を発揮しています。特に、GPT-4 や ChatGPT などの先駆的なモデルは、大量のテキスト データでトレーニングされているため、強力なテキスト理解および生成機能を備えており、一貫性があり文脈に適した応答を生成でき、さまざまな NLP タスクで非常に汎用性があります。 しかし、数学的推論における LLM のパフォーマンスは満足できるものではありません。 LLM では、複雑な算術演算、特に 8 桁を超える数値の乗算や小数と分数を含む演算を正確に実行することが困難です。 これを基に、清華大学、TAL AI Lab、Zhipu AIの研究者らが共同で、複雑な算術演算を完璧に実行できる新しいモデル「MathGLM」を提案した。 この研究では、十分なトレーニングデータがあれば、20億パラメータの言語モデルが、データ漏洩なしに、ほぼ100%の精度で多桁の算術演算を正確に実行できることが示されています。この結果は、GPT-4(多桁の乗算精度はわずか4.3%)をはるかに上回ります。 方法の紹介 この論文では、数学的推論における LLM の効率性を調査するために、MathGLM というモデルを提案します。 MathGLM モデルで完了する必要がある算術タスクは、基本的な算術演算と複雑な混合演算の 2 つのカテゴリに大まかに分けられます。基本的な算術演算には、2 つの数値間の単純な計算を中心とした基本的な数学タスクが含まれます。複雑な混合演算には、さまざまな算術演算と数値形式 (整数、小数、分数など) の組み合わせが含まれます。表1はMathGLMタスクの分類を示しています。 MathGLM の算術機能を強化するために、Transformer ベースのデコーダーのみのアーキテクチャを採用し、自己回帰目的を使用して生成された算術データセットでゼロからトレーニングします。 算数の学習課題 算術トレーニング データセットは、加算、減算、乗算、除算、累乗などのさまざまな演算が含まれるように慎重に設計されています。さらに、整数、小数、パーセンテージ、分数、負の数など、複数の数値形式が含まれています。データセットのサイズは、100 万件から 5,000 万件のレコードまでさまざまです。 各データ セットでは、1 つの演算式が 2 ~ 10 の演算ステップで構成され、加算 (+)、減算 (-)、乗算 (×)、除算 (/)、累乗 (^) などのさまざまな数学演算をカバーします。図 3 は算術データセットから抽出されたいくつかのトレーニング例を示しています。 表 2 は、それぞれ異なるパラメータ サイズを持つ 4 つの異なるタイプのモデルを含む、MathGLM モデルのさまざまなサイズをまとめたものです。最大のモデルは 2B のパラメータを持ち、最も強力な容量を備えています。残りのモデルには 500M のパラメータ、100M のパラメータがあり、最小のモデルには 10M のパラメータがあります。 応用数学の問題の研究 この論文では、算術タスクに加えて、数学の応用問題を解決するために、一般言語モデル (GLM) とそのチャットバージョンと呼ばれる一連の Transformer ベースの言語モデルをトレーニング (微調整) しました。トレーニングプロセスでは、公開されている Chinese Ape210K データセットが使用されました。このデータセットには、中国の小学校の算数問題 210,000 問が含まれており、各問題の答えが直接計算されます。 数学の文章題における MathGLM のパフォーマンスを向上させるために、この論文では、Ape210K データセットを再構築し、各数学の問題の答えを段階的に計算するバージョンに変換する段階的な戦略を採用しています。図 4 は、オリジナルの Ape210K データセットとこの論文で再構築されたバージョンの比較を示しています。 MathGLM をトレーニングするためのバックボーンとして、335M パラメータを持つ GLM-large、GLM-6B、GLM2-6B、GLM-10B など、さまざまな GLM バリアントを使用します。さらに、この論文では、ChatGLM-6B および ChatGLM2-6B バックボーン ネットワークを使用して MathGLM をトレーニングします。これらのバックボーン モデルにより、MathGLM は基本的な言語理解機能を備え、数学の文章問題に含まれる言語情報を効果的に理解できるようになります。 実験 この論文では、算数課題と数学の文章題を含む 2 つの異なるタイプの実験が設計されました。 算術タスクについては、5億のパラメータを持つTransformerベースのMathGLMモデルを事前トレーニングし、そのパフォーマンスをGPT-4やChatGPTなどの主要な大規模言語モデル(LLM)と比較します。結果は表 3 に示されています。MathGLM は他のすべてのモデルよりも優れており、算術タスクの処理において優れたパフォーマンスを発揮することを示しています。 パラメータが 1,000 万個しかない MathGLM-10M でも、結果は驚くべきものです。 MathGLM-10M は、さまざまな包括的な算術タスクにおいて GPT-4 および ChatGPT よりも優れたパフォーマンスを発揮します。 さらに、異なるパラメータ サイズの MathGLM を比較すると、MathGLM の演算パフォーマンスはパラメータ数の増加に直接関係していることがわかります。この結果は、モデルのサイズが大きくなるにつれて、パフォーマンスもそれに応じて向上することを示唆しています。 要約すると、複雑な算術タスクに関する研究者の評価結果は、MathGLM が優れたパフォーマンスを発揮することを示しています。算術タスクを分解することで、これらのモデルは GPT-4 や ChatGPT よりも大幅に優れたパフォーマンスを発揮します。 さらに、この論文では、GPT-4、ChatGPT、text-davinci-003、code-davinci-002、Galacica、LLaMA、OPT、BLOOM、GLMも比較しています。この論文では、前述の大規模なデータセットから 100 個のテスト ケースを含むコンパクトな算術データセットをランダムに抽出します。結果を表4に示す。 上記の分析結果から、MathGLM は 20 億のパラメータで 93.03% の精度を達成し、他のすべての LLM を上回っていることがわかります。 数学の応用問題については、この論文では Ape210K データセットで実験を行いました。表 8 には、MathGLM のバリエーション、GPT-4、ChatGPT などを含む結果が報告されています。 結果は、GLM-10B と併用した場合、MathGLM は回答の精度に関して最先端の GPT-4 モデルと同等のパフォーマンス レベルを達成することを示しています。 さらに、MathGLM のパフォーマンスを GLM-Large、GLM-6B、GLM-10B と比較すると、明らかな傾向が浮かび上がりました。MathGLM は、算術精度と回答精度の両方で大幅な向上を示しました。 異なる学年の数学の問題を解くモデルの能力を評価するために、この研究では、GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B、ChatGLM-6B、ChatGLM2-6B、MathGLM-GLM-10B など、K6 データセットでいくつかのモデルのパフォーマンスをテストし、評価しました。結果は下の図8に示されています。 論文アドレス: https://arxiv.org/pdf/2309.03241v2.pdf プロジェクトアドレス: https://github.com/THUDM/MathGLM#arithmetic-tasks |
<<: 夜に電気を消さないとどうなるでしょうか?小動物を殺す可能性もあります...
>>: 宇宙とはどのようなものでしょうか?あなたが望む答えはここにあります
9月1日、小米グループは、雷軍氏を法人とし、登録資本金100億人民元で小米汽車有限公司が正式に登記・...
食べ物は、お腹を満たすためだけではなく、ある程度、身体に必要な栄養素を補給するためにも使われます。そ...
混合知識混乱を治すために特別に設計されています!...
水は生命の源です。水を飲むことは、すべての人の健康に非常に有益です。健康の専門家は、より多くの水を飲...
ゲーム市場は常に、切望される大きな市場でした。 1960年代から1970年代にかけてゲーム機が登場し...
海外メディアの報道によると、オートパイロット自動運転機能を搭載したテスラのモデル(モデルSかモデルX...
魚の骨、メロンの種、ピーナッツ、電池、おもちゃ、ガラスビーズ...人体に誤って入る異物をすべてリスト...
海産物キノコの栄養価は他の菌類食品に比べて非常に高いため、それを主な材料として料理に使うことを学ぶこ...
(写真提供:TUCHONG Creative)静かな夜に軋む音はどこから聞こえるのでしょうか?朝起...
健康を維持する方法はたくさんあります。運動したり、足のマッサージをしたり、食べ物を食べたり、トニック...
昆布は非常に栄養価の高い食品であることは誰もが知っていますが、昆布スープの栄養価はどれくらいでしょう...
お酒はとても身近なものです。お酒にはたくさんの種類があります。お酒の種類も1つで、たくさんの種類があ...
食べ物はすべて貴重であることは誰もが知っています。食べ物の効能と機能を理解し、体力や体調に合わせて選...
Niu Electricは本日、9月30日までの2022年第3四半期の財務報告書を発表しました。財務...
最近、大規模な空気消毒に関する噂がネット上に出回っています。この誤った消毒方法は効果がないだけでなく...