1回のトレーニングセッションで2,400万kWhの電力が消費されます。 AIはなぜこれほど多くの電力を消費するのでしょうか?

1回のトレーニングセッションで2,400万kWhの電力が消費されます。 AIはなぜこれほど多くの電力を消費するのでしょうか?

GPT-4 の GPU だけでも、1 回のトレーニングで 2,400 万 kWh の電力を消費します。 AIはなぜこれほど多くの電力を消費するのでしょうか?彼らが使用する電気はどこに行くのでしょうか?この電気から変換されたエネルギーを回収することは可能ですか?

著者 |マンモス

今日、人工知能 (AI) について話すとき、私たちは主に生成型人工知能について言及します。その大部分は、大規模な言語モデルに基づく生成型人工知能です。

トレーニングと推論には大規模なデータセンターが必要です。これらのデータセンターは多数のサーバーで構成されています。サーバーで消費される電力のほとんどは熱エネルギーに変換され、最終的に水冷システムを通じて放出されます。つまり、AIの物理的なハードウェアは巨大な「電気温水器」であるとも言えるのです。

この発言は少し奇妙に聞こえるかもしれません。サーバーは電子コンピュータであり、コンピュータ内で処理されるのは情報であることは誰もが知っています。情報とエネルギーの関係は何でしょうか?

それは本当に存在するのです。

情報処理にはエネルギーが消費される

1961 年、IBM に勤務していた物理学者ロルフ・ランダウアーは、後にランダウアーの原理として知られる原理を提案する論文を発表しました。この理論によれば、コンピューターに保存された情報が不可逆的な変化を受けると、周囲の環境に少量の熱が放出されます。放散される熱量はその時のコンピューターの温度に関係しており、温度が高いほど放散される熱量も多くなります。

ランダウアーの原理は情報とエネルギーを結び付けます。より具体的には、熱力学の第二法則です。論理的に不可逆な情報処理操作は情報の消滅を意味するため、物理世界のエントロピーの増加につながり、エネルギーを消費します。

この原則は提案されて以来、多くの疑問が投げかけられてきました。しかし、過去10年ほどの間に、ランダウアーの原理は実験的に証明されました。 2012年、ネイチャー誌は、研究チームが初めて、データの一部が削除されたときに放出される微量の熱を測定したという記事を掲載した。その後、いくつかの独立した実験でもランダウアーの原理が証明されました。

したがって、情報の処理にはエネルギーコストがかかります。

今日の電子コンピュータが計算時に実際に消費するエネルギーは、この理論値の数億倍です。科学者たちは、コストを削減するために、より効率的な計算方法を見つけるために絶えず取り組んでいます。しかし、現在の研究の進歩から判断すると、真の室温超伝導材料がコンピューティング デバイスで広く使用されるようになった場合にのみ、このエネルギー消費量はランダウアー原理で説明される理論値に近づく可能性があります。

大規模な AI モデルには大量のコンピューティングが必要です。その動作プロセスは、トレーニングと推論の 2 つの段階に大別できます。トレーニング段階では、入力データとして使用するために、まず大量のテキスト データを収集して前処理する必要があります。次に、適切なモデル アーキテクチャでモデル パラメータを初期化し、入力データを処理して、出力を生成してみます。次に、出力と予想値の差に基づいて、モデルのパフォーマンスが大幅に向上しなくなるまでパラメータを繰り返し調整します。推論段階では、まずトレーニング済みのモデル パラメータが読み込まれ、推論するテキスト データが前処理され、次にモデルは学習した言語ルールに基づいて出力を生成します。

トレーニング段階であれ推論段階であれ、それは一連の情報再編成プロセスであり、これもランダウアーの原理に従います。モデル内のパラメータの数が多くなるほど、処理する必要のあるデータが増え、必要な計算量が増え、消費されるエネルギーが増え、放出される熱が増えることは容易に推測できます。

しかし、これは AI の電力消費のほんの一部にすぎません。消費量の増加は、私たちがよく知っている別の物理法則、ジュールの法則から生じます。これは集積回路から始まります。

最も大きなエネルギー消費は電流から

今日の電子コンピュータは集積回路に基づいています。集積回路はチップと呼ばれることが多いです。すべてのチップ内には多数のトランジスタが存在します。

大まかに言えば、トランジスタは小さなスイッチと考えることができます。これらのスイッチは、論理操作を実現するために直列または並列に接続できます。 「オン」と「オフ」は 1 と 0 という 2 つの状態を表し、これがコンピューティングの基本単位である「ビット」です。これはコンピュータバイナリの基礎です。コンピューターは電圧を急速に変化させることでこれらのスイッチを切り替えます。

電圧を変更するには、電子の流入または流出が必要です。電子の出入りの流れが電流を構成します。そして、回路には常に抵抗があるため、熱エネルギーが発生します。ジュールの法則によれば、発生する熱は電流の二乗に比例し、導体の抵抗に比例し、電流が流れている時間に比例します。

集積回路技術の発展により、チップ内のトランジスタは極めて小型になりました。したがって、単一のトランジスタによって発生する熱はそれほど高くありません。しかし問題は、チップ上のトランジスタの数が一般の人には想像できないレベルに達していることです。たとえば、数年前に IBM がリリースした同等の 2 ナノメートル プロセス チップでは、1 平方ミリメートルあたり平均 3 億 3000 万個のトランジスタがあります。たとえごくわずかな熱量であっても、このスケールで掛け合わせると、大きな結果が生まれます。

一部の人々を驚かせるかもしれない興味深い事実は、今日のチップの単位体積あたりの電力が太陽の中心核の電力よりも数桁も大きいということです。一般的な CPU チップの電力は、1 立方センチメートルあたり約 100 ワット、つまり 1 立方メートルあたり 1 億ワットです。太陽の中心部のエネルギーは1立方メートルあたり300ワット未満です。

OpenAI が大規模言語モデル GPT-4 をトレーニングしたとき、約 25,000 個の NVIDIA A100 GPU を使用して、トレーニング セッションを完了するのに約 3 か月かかりました。各 A100 GPU には 540 億個のトランジスタがあり、400 ワットの電力を消費し、1 秒あたり 19.5 兆回の単精度浮動小数点演算を実行できます。各演算では多数のトランジスタの切り替えが行われます。

これらの GPU だけで、1 回のトレーニング セッションで 2 億 4,000 万 kWh の電力を消費することは簡単に計算できます。この電気のほぼすべてが熱に変換され、約 200 万立方メートルの氷水(オリンピック規格のプール 1,000 個分の水量にほぼ相当)を沸騰させるのに十分な量になります。

AI のトレーニングにはなぜこれほど多くの強力な GPU が必要なのでしょうか?大規模言語モデルの規模が大きすぎるためです。 GPT-3 モデルには 1,750 億個のパラメーターがありますが、GPT-4 には GPT-3 の 10 倍の 1.8 兆個のパラメーターがあると推定されています。この規模のモデルをトレーニングするには、大規模なデータセットを繰り返し反復処理する必要があります。各反復では、数十億、数百億、さらには数千億のパラメータの値を計算して調整する必要があります。これらの計算は、最終的にはトランジスタのスイッチング、集積回路内の電流の細い流れ、そして熱として現れます。

エネルギーは生成も破壊もできず、ある形から別の形に変換されることしかできません。電子コンピュータにとって、最も重要なエネルギー変換方法は、電気エネルギーから熱エネルギーへの変換です。

大規模言語モデルでも同様です。電力と冷却水の需要がますます深刻な環境問題を引き起こしています。

「電気温水器」から熱を回収?

ほんの数日前、マイクロソフトのエンジニアは、GPT-6をトレーニングするために、マイクロソフトとOpenAIが巨大なデータセンターを構築し、10万個のNvidia H100 GPUを使用する予定であると述べました。これはA100よりもパフォーマンスが高く、当然ながらより多くの電力を消費しますが、これらのGPUを同じ状態に配置することはできません。そうしないと、電力網が過負荷になり、崩壊することになります。

AIの発展によるエネルギー不足問題が顕在化し始めています。今年のダボス世界経済フォーラムで、OpenAIのCEOサム・アルトマン氏は、核融合がエネルギーの未来への道となるかもしれないと主張した。しかし、実際に使える核融合技術を開発するには、しばらく時間がかかるかもしれない。

水についても同様です。ここ数年、AIビッグモデルの分野で先行してきた大企業は、水消費量の大幅な増加に直面しています。 2023年6月、マイクロソフトは2022年環境持続可能性レポートを発表し、水使用量が20%以上大幅に増加したことを示しました。 Googleでも同様です。

一部の研究者は、AI の発展がこれらのテクノロジー大手の水消費量の急増の主な原因であると考えています。非常に高温になるチップを冷却するために、水冷システムが最も一般的な選択肢となっているのです。 AIのハードウェア基盤を提供するデータセンターは、巨大な「電気温水器」のようなものです。

この失われた熱エネルギーが無駄になるのを防ぐにはどうすればよいのでしょうか?最も簡単に考えられ、実装できるのは熱回収技術です。たとえば、データセンターから回収された熱は、冬季に民生用の温水や暖房を供給するために使用できます。現在、チャイナモバイルハルビンデータセンター、アリババ千島湖データセンターなど、いくつかの企業が廃熱をリサイクルして再利用し始めています。

これはおそらく解決策と考えられるが、問題を根本的に解決することはできない。 AI業界は人類史上どの業界も比較できないほどのスピードで発展しています。 AI 技術の発展と環境の持続可能性のバランスをとることは、今後数年間の重要な課題の 1 つとなる可能性があります。技術の進歩とエネルギー消費の複雑な関係は、人類にとってかつてないほど緊急の課題となっている。

この記事は科学普及中国星空プロジェクトの支援を受けています

制作:中国科学技術協会科学普及部

制作:中国科学技術出版有限公司、北京中科星河文化メディア有限公司

特別なヒント

1. 「Fanpu」WeChatパブリックアカウントのメニューの下部にある「特集コラム」に移動して、さまざまなトピックに関する人気の科学記事シリーズを読んでください。

2. 「Fanpu」では月別に記事を検索する機能を提供しています。公式アカウントをフォローし、「1903」などの4桁の年+月を返信すると、2019年3月の記事インデックスなどが表示されます。

著作権に関する声明: 個人がこの記事を転送することは歓迎しますが、いかなる形式のメディアや組織も許可なくこの記事を転載または抜粋することは許可されていません。転載許可については、「Fanpu」WeChatパブリックアカウントの舞台裏までお問い合わせください。

<<:  全員に試してみたところ、「20分公園効果」は本当に効果があることがわかりました。

>>:  世界量子デー|その通りです!レーザーは本当に粒子を冷却できるのです!

推薦する

早熟の梨を食べると太りますか?

ザオス梨は果物の新品種です。リンゴ梨を母植物として、交配技術で栽培しています。ザオス梨は日常生活で多...

ゼリー用ゼラチンシート

食品がぎっしり詰まった棚の中で、食通にとって最も抗えない誘惑は何でしょうか? そう、それはスイーツ​...

フライドポテトの揚げ方

フライドポテトといえば、ほとんどの人はまずKFCとマクドナルドを思い浮かべるでしょう。甘いケチャップ...

ストロベリーアイスクリーム

夏にいちごアイスクリームは私たちのお気に入りです。夏には大人も子供もためらわずにアイスクリームを食べ...

そば茶を飲んでもいいですか?

そば茶は肥満の解消に役立つお茶です。効果があるお茶であれば、適度に飲んでも大丈夫です。ただし、前提条...

700ドルお得! iPad mini 2 が数秒で mini 3 に変身

iPad mini 3は、Appleの歴史の中で最もアップグレードが少ない製品の一つと言えるでしょう...

スパイシービーフソースのレシピ

スパイシービーフソースは、その香り、辛さ、痺れで有名です。四川料理にはこれらの特徴があります。スパイ...

肉骨茶漬け

バクテーは、実はマレーシアの伝統的な料理です。バクテーの作り方は、豚肉、豚骨、漢方薬を使ってスープを...

便秘の場合でも黒クコの実を食べてもいいですか?

黒クコの実は黒果クコの実とも呼ばれ、クコの実の一種です。私たちが普段食べているクコの実は、一般的には...

どんな種類の草エビが美味しいですか?

エビは私たちの日常生活でよく見かける重要な魚介類です。エビの中でも、草エビは大変有名です。エビは栄養...

シナモンの効果と効能

シナモンの機能と効果は何ですか?まずはシナモンとは何かを理解しましょう。シナモンは伝統的な漢方薬です...

スネークフルーツの食べ方

サラックは輸入果物であり、どこでも売られているわけではないため、私たちの生活の中では珍しい果物です。...

ティーシードオイルの摂取方法

茶種子油はどのように摂取すべきでしょうか?この質問を理解する前に、茶種子油とは何かを知る必要がありま...

スパイスを効かせたロバ肉の煮込み方

人々はロバを「小ロバ」と呼んでいました。機械化がまだ十分に発達していなかった1940年代から1950...

799元のMeizu Note 3レビュー:iPhoneとほぼ同じというのは錯覚か?

雷軍がスティーブ・ジョブズのようなスピーチの仕方を学び始めた頃、私たちは国産ブランドの価格設定が比較...