5月30日、2023年中関村フォーラム成果発表会議において、「世界に影響力を持つ人工知能イノベーション源の構築を加速するための北京実施計画(2023~2025年)」が正式に発表されました。 「実施計画」では、分散型で効率的なディープラーニングフレームワークや大規模モデル向けの新たなインフラなどの技術革新に注力する革新的な主体を支援し、大規模モデルに関連する技術の革新を促進するよう努めることを求めています。 これは、中国が大型モデルの開発を強力に推進するもう一つの強力な証拠であると業界では見られている。実際、中央省庁から地方の省や市に至るまで、AI技術の開発とビッグモデルの機会の獲得に向けた政策志向は最近高まっており、政策発布の密度と全体的な戦略の高さはともに驚異的なレベルに達している。 中国は、大規模モデルを突破口として AI の急速な進歩を達成するだろうと信じる理由がある。中国は2017年に新世代人工知能開発戦略を打ち出して以来、現在の好機を活かしてさらなる発展を図り、AI産業の本格的な発展を促進していく。 AI の発展の機会を捉えるには、技術革新とインフラ構築が必要であることは誰もが知っています。 AI 業界のインフラストラクチャに関して言えば、一般的には AI チップ、ディープラーニング フレームワーク、事前トレーニング済みの大規模モデルが挙げられますが、もう 1 つの重要な問題、つまり大規模モデルは膨大なデータ負荷をもたらすという問題が見落とされがちです。データストレージも AI 開発の柱です。 ChatGPT は今回の AI 爆発のきっかけであり、その後の大規模モデルの大規模な適用によってもたらされるデータの問題は、実際に ChatGPT に書き込まれています。 この差し迫った圧力に直面して、中国は準備ができているだろうか? AIの台頭がもたらすデータの課題(ChatGPTより) Google が 2018 年に BERT をリリースして以来、業界は大規模モデルの事前トレーニングの道を歩み始めました。大規模モデルの特徴は、トレーニング データとモデル パラメーターの規模が巨大であることであり、これによりストレージに深刻な課題が生じますが、これは ChaGPT でも明確に実証されています。 事前トレーニング済みの大規模モデルのいわゆる「ビッグ」は、多くのレイヤー、多くのリンク、複雑なパラメーター、トレーニングに使用されるより複雑なタイプのデータ セット、およびより豊富なデータ量を備えたモデルのディープ ラーニング ネットワークに反映されます。ディープラーニング アルゴリズムが初めて導入されたとき、主流のモデルには数百万個のパラメーターしかありませんでした。しかし、BERTがリリースされると、モデルのパラメータが1億を超え、ディープラーニングは大規模モデルの段階に進みました。 ChatGPT の時点では、主流のモデルにはすでに数千億のパラメータがあり、業界では数兆ドル規模のモデルの計画も始まっています。わずか数年で、AI モデルのパラメータは数千倍に増加しました。このような膨大な量のデータとモデルを保存する必要があり、これは AI の爆発的な増加がストレージにもたらした最初の大きな試練となりました。 さらに、AIビッグモデルはまったく新しいモデル構造を採用しているため、非構造化データに対する吸収力と堅牢性が向上すると広く言われています。これは AI の最終的な効果にとって非常に重要ですが、派生的な問題も生じます。つまり、大量の非構造化データの保存と呼び出しを適切に処理する必要があるのです。たとえば、アップグレード後、ChatGPT には画像認識などのマルチモーダル機能が追加されたため、そのトレーニング データにはテキストに基づいた大量の画像も含める必要があります。別の例として、自動運転車では、モデルのトレーニングの基礎として、毎日大量のフィールドテストビデオを保存する必要があります。これらの非構造化データは AI 関連データの大幅な増加をもたらしましたが、同時にこのデータの保存と処理の困難ももたらしました。 統計によると、世界の新規データの 80% は非構造化データであり、年間複合成長率は 38% です。多様化するデータの急増への対応は、ビッグモデルの時代において克服しなければならない困難となっている。 もう 1 つの問題は、大規模なモデルではデータの頻繁な読み取りと呼び出しが必要になることが多いことです。 ChatGPT のデータアクセス使用量は 1 か月で 17 億 6000 万回に達し、平均応答速度は 10 秒未満でした。 AI モデルのワークフローには、収集、準備、トレーニング、推論の 4 つの部分が含まれます。各ステージでは、異なるタイプのデータの読み取りと書き込みが必要です。したがって、大規模モデルではストレージ パフォーマンスに対する要件も高まります。 さらに、ChatGPTをめぐる一連のデータ主権とデータ保護の紛争は、大規模なAIモデルがデータセキュリティに新たなリスクをもたらすことも思い起こさせます。犯罪者がデータベースを攻撃し、大規模な言語モデルがユーザーを欺くために偽の情報を生成するとしたらどうなるか想像してみてください。その結果は深刻かつ隠されたものとなるだろう。 全体的に、ChatGPT は優れていますが、データ ストレージの規模、パフォーマンス、セキュリティに課題があります。大規模なモデルや ChatGPT のようなアプリケーションの開発に取り組む場合、ストレージの問題を克服する必要があります。 中国は力を温存している。準備はできましたか? 近年、コンピューティングパワーは生産性であると言われています。しかし、コンピューティングがあればストレージも必要であり、ストレージ容量の限界によってデジタル生産性の向上の上限も決まります。 では、中国は中国型ビッグモデルの必然的な急速な発展に備えているのだろうか?残念ながら、さまざまな観点から見ると、中国の現在の備えは依然として不十分であり、さらなる向上と発展が必要です。中国のストレージ容量に関する問題のいくつかを見て、それが大規模モデルによってもたらされるデータ圧力に対応しているかどうかを見てみましょう。 1. ストレージ容量不足がAI産業の発展の限界を制限 大規模なモデルでは膨大な量のデータが生成されますので、まずこのデータを適切に保存することが最優先事項となります。しかし現段階では、中国は依然としてストレージ容量不足の問題を抱えており、大量のデータはストレージ段階に入ることすらできない。 2022年のデータによると、中国のデータ生産量は驚異的な8.1ZBに達し、世界第2位となった。しかし、中国のストレージ容量はわずか1,000EB程度であり、データ保存率はわずか12%であり、ほとんどのデータを有効に保存できていません。中国はデータの位置づけを第5の生産要素と明確に定義しているが、インテリジェント化にはデータに依存し、それを十分に活用する必要があるが、保存が難しいデータが膨大に存在する。この問題は過小評価されるべきではない。中国は、大型モデルがもたらすAI技術開発の機会を捉えるために、ストレージ容量の高速かつ大規模な成長を依然として維持する必要がある。 2. 膨大なデータの影響による管理とアクセスの効率性の低下 上で説明したように、大規模な AI モデルによってもたらされる主なデータ課題は、膨大なデータの管理効率と処理およびアクセス効率が低いことです。アクセス効率を向上させるには、データを高効率かつ低エネルギーで保存および書き込む必要がありますが、現在、中国ではデータの 75% が依然として機械式ハード ドライブを使用しています。フラッシュ ドライブと比較すると、機械式ハード ドライブは容量密度が低く、データの読み取り速度が遅く、エネルギー消費量が多く、信頼性が低いという欠点があります。相対的に言えば、オールフラッシュメモリには、高密度、低消費電力、高性能、高信頼性など、一連の利点があります。しかし、オールフラッシュメモリの置き換えに関しては、中国はまだ長い道のりを歩んでいる。 3. 複数のデータに関する懸念が深刻なストレージセキュリティ状況につながる データセキュリティの問題は、AI 企業、さらには AI 業界にとって差し迫った懸念事項となっています。 2020年、米国のClearview AIでデータセキュリティインシデントが発生し、2,000人以上の顧客データ30億件が漏洩しました。この事例は、AI業界のデータセキュリティ状況が非常に深刻であり、データ保存段階からセキュリティに注意を払う必要があることを示しています。特に、大規模な AI モデルが国民経済や国民生活においてますます重要な役割を果たすようになるにつれて、さまざまなリスクに対処するために、セキュリティ機能を向上させるストレージの必要性がさらに高まっています。 客観的に見ると、中国のストレージ容量は比較的高い成長率を維持しているが、全体的な規模、オールフラッシュメモリの割合、技術革新能力には依然として一定の欠陥がある。産業インテリジェンスのニーズと AI の大規模実装を満たすためのストレージのアップグレードが急務となっています。 インテリジェント時代のストレージ業界の機会と方向性 ChatGPTに代表されるAIビッグモデルがストレージにもたらす圧力と、中国のストレージ容量自体の開発状況を組み合わせると、中国のストレージはAIの台頭をサポートし、大規模なアップグレードを完了する必要があるという結論を明確に導き出すことができます。 ストレージ業界の発展の方向性が明確にわかります。これらの方向性の緊急性と幅広い余地は、ストレージ業界にとって大きなチャンスとなります。 まず、ストレージ容量を拡大し、オールフラッシュストレージの構築を加速する必要があります。 機械式ハードドライブをオールフラッシュメモリに置き換える「シリコンイン、マグネットアウト」アプローチは、長年にわたりストレージ業界の全体的な開発トレンドでした。 AIの台頭によってもたらされる産業チャンスに直面して、中国のストレージ業界は、オールフラッシュの置き換えの実装と実施を加速し、高性能、高信頼性などのオールフラッシュの利点を最大限に活用し、大規模なAIモデルによってもたらされるデータストレージと利用のニーズを満たす必要があります。 さらに、オールフラッシュ分散ストレージの機会が増えていることにも注目すべきです。大規模な AI モデルの台頭と非構造化データの爆発的な増加により、データの重要性は大幅に高まっています。同時に、AIは大規模な政府や企業の生産中核にまで浸透しています。より多くの企業ユーザーが、パブリック クラウド プラットフォームにデータを保存する代わりに、ローカライズされた AI トレーニングを実施し、ファイル プロトコル ベースのデータ ストレージを採用する傾向があります。これにより、分散ストレージの需要が増加し、強化されました。 ストレージ業界のフルフラッシュ実装を急速に推進し続ける両者の組み合わせは、中国のストレージ業界の発展の中核的な軌道となっている。 第二に、AIモデルの開発ニーズに適応するために、ストレージ技術の革新を強化する必要があります。 前述のように、AI がもたらすデータの課題は、データの大規模化だけでなく、データの複雑性やアプリケーション プロセスの多様性といった課題もあります。そのため、ストレージの高度化をさらに進めていく必要があります。たとえば、AI の頻繁なデータアクセスのニーズに対応するには、ストレージの読み取りおよび書き込み帯域幅とアクセス効率をアップグレードする必要があります。大規模な AI モデルのデータ要件を満たすには、ストレージ業界が包括的な技術アップグレードを実施する必要があります。 データの保存形式に関して言えば、「ファイル」や「オブジェクト」などの従来のデータ形式は、もともと AI モデルのトレーニング要件に合わせて設計されておらず、非構造化データのデータ形式は統一されていないため、AI モデルがデータを呼び出すプロセスで、ファイル形式を再理解して調整するために多くの作業が必要となり、その結果、モデルの動作効率が低下し、トレーニングの計算電力消費が増加します。 そのためには、ストレージ側で新たな「データパラダイム」を形成する必要があります。自動運転のトレーニングを例にとると、データ トレーニング プロセスにはさまざまな種類のデータが関与します。ストレージ側で新しいデータパラダイムを採用すれば、さまざまなデータを統合し、AIモデルのトレーニングに適応しやすくなり、自動運転車のトレーニングを加速することができます。たとえば、AI を新しい種類の動物として想像すると、新しい種類の飼料を食べる必要があります。従来の形式でデータを入力すると、消化不良の問題が発生します。新しいデータパラダイムは、ストレージ側で AI に完全に適したデータを構築し、「AI へのデータ供給」のプロセスをスムーズかつシームレスにすることです。 AI開発作業では、データ管理が作業負荷の大部分を占め、異なるデータセット間でデータアイランド問題が発生します。データウィービング技術はこれらの問題に効果的に対処できます。データウィービングにより、ストレージにデータ分析機能を組み込むことで、物理的および論理的に散在するデータを統合し、データスケジューリングとフロー機能のグローバルな視覚化を形成し、AI によってもたらされる膨大なデータを効果的に管理し、データ利用効率の向上を実現します。 ストレージ側におけるこれらの技術革新により、データ ストレージと AI 開発の適合性がさらに高まります。 さらに、プロアクティブなセキュリティ機能を強化するには、ストレージ自体にセキュリティ機能を組み込む必要があります。 AIの価値が高まるにつれ、データセキュリティの問題が企業ユーザーに大きな損失をもたらしています。したがって、企業はデータセキュリティ機能を向上させる必要があります。最も重要な点は、データの復元力を向上させ、ストレージ自体を安全にし、ソースからデータのセキュリティを保護することです。次に、ランサムウェア検出、データ暗号化、安全なスナップショット、AirGap 隔離回復機能など、より多くのデータ復元機能がデータ ストレージ製品に組み込まれます。 注目すべきは、業界ではすでに、大規模な AI モデルの台頭に対応して、ストレージを包括的にアップグレードする研究と試みが行われていることです。 Huawei Storage は、高品質のオールフラッシュ製品、統合された高度なストレージ技術、組み込みのセキュリティ機能を通じて、ストレージのイノベーションと AI 開発の緊密な融合を実現しました。 全体として、ストレージ産業の発展と中国のストレージ能力の向上は、大規模な AI モデルの実装、さらには数千の産業のインテリジェントなアップグレードにとって極めて重要です。ストレージの開発がなければ、AI によってもたらされるデータ洪水を適切に解決することは困難になります。 AI テクノロジーは、データのサポートが不足しているため、根のないソースや根のない木になる可能性もあります。 ストレージ業界には、インテリジェント時代の機会と責任が同時に課せられています。 Huaweiなどの優れたブランドによるストレージパワーの探求により、中国のストレージは前例のない機会を迎え、時代が与えた責任も担っています。 多くの業界専門家は、大規模言語モデルは AI の歴史における「iPhone の瞬間」であると考えています。 AI技術によってもたらされるストレージ容量の向上は、中国のストレージ業界にとって画期的な瞬間となり、黄金時代への前兆となるかもしれない。 |
<<: 窓を開けるのが嫌いな人は脳萎縮になりやすいのでしょうか?これらの5つの一般的な習慣はあなたの脳に非常に有害であり、あなたは毎日それをしています
>>: 子どもの近視率はますます高くなっています。予防と制御のラインをどう維持すればよいのでしょうか?
Android TV ゲーム、この用語は長い間、ほとんどの国内ゲーマーの目には短命の否定的な例とな...
春は、すべてのものが生き返り、生命力に満ちています。緑が一面に広がり、最も新鮮で優雅な色彩を放ちます...
Haval H8は月間128台を販売し、WEY P8は月間503台を販売し、WEYは5か月間でわずか...
ピザはイタリア発祥の食べ物です。現在、ピザは世界中の国々でとても人気があります。毎日食べる人もいます...
パールライス粥はとても良い選択です。パールライス自体は比較的粘り気があり、この種の米で調理したお粥も...
中国地震ネットワークセンターは、1月8日午前1時45分、青海省海北州門源県(北緯37.77度、東経1...
モバイルインターネットの急速な発展により、ほとんどすべての人のオンラインチャットやソーシャルメディア...
世界がん研究基金は、悪い食習慣が30種類以上のがんを引き起こす可能性があり、毎年のがんによる死亡の3...
実際、私たちの日常の食事では、キノコ類がとても好きな人が多くいます。キノコ類は香りがよく、人体に必要...
私たちが体験したすべての TV ボックス製品の中で、外観デザインの点で最も目を引くのは間違いなく Z...
ナッツは、栄養価が非常に高いドライフルーツ食品の一種です。定期的に摂取すると、人体に多くのメリットが...
豚足をピーナッツと一緒に煮込んだ料理となると、興奮せずにはいられない人が多いでしょう。ご存知の通り、...
最近の外国メディアの報道によると、フォード・モーターの2007~2009年型フュージョン(モンデオの...
飛ぶことを学ぶには、まず歩くことを学ばなければなりません。小米、楽視、有侠自動車などが相次いで情報を...
コールラビのピクルスは多くの高齢者にとって非常に馴染み深いはずですが、コールラビのピクルスの完全なレ...