「私の意見では、ネイチャーはグーグルのこの論文をまったく掲載すべきではなかった。なぜなら、それはFAIR(見つけられる、アクセスできる、相互運用できる、再利用できる)データ原則に違反しているからだ。…グーグルは、モデルを生成するために使われたデータ、さらにはモデルの結果自体も共有しないことを決めた。共有された唯一のデータは、モデルが最終的に特定した安定した結晶であり、これがモデルの再現を困難にしていた。…グーグルのような企業が科学的プロセスに参加することは重要だと思うが、彼らは同じ厳格な基準にも従わなければならない。どの基準を見ても、検証できない研究は科学とはみなされない。」 ——シュエ・ピン・オン(UCSD教授、Materials Project創設者) 著者:劉 妙、孟 勝(中国科学院物理研究所/松山湖材料研究所) 大手企業は「AI + 材料科学」に注力 2023年11月末、GoogleのDeepMindはNature誌に重要な論文を発表し、材料科学向けの人工知能強化学習モデルGraph Networks for Materials Exploration(GNoME)を開発し、このモデルとハイスループット第一原理計算により、38万以上の熱力学的に安定した結晶材料を発見したと発表した。これは「人類に800年の知的蓄積を加える」ことに相当し、新材料発見の研究速度を大幅に加速する(図1)。 [1] 図 1. Google の DeepMind が GNoME データセットとモデルを Nature 誌に公開しました。 2023年12月、GoogleのGNoMEモデルが公開された数日後、Microsoftは、必要な材料特性に基づいてオンデマンドで新しい材料構造を予測できる材料科学分野の人工知能生成モデルであるMatterGenをリリースしました。マイクロソフトの社長はソーシャルメディアで自社のビッグモデルを支持し、「私たちが開発した MatterGen モデルは、オンデマンドの新素材研究開発の効率を大幅に向上させることができます」とコメントしました (図 2)。 [2] 図2. マイクロソフト社長が自社のAIマテリアル生成モデルについてコメント 2024 年 1 月、マイクロソフトは米国エネルギー省傘下のパシフィック・ノースウェスト国立研究所 (PNNL) と連携し、人工知能と高性能コンピューティングを活用して 3,200 万種の無機材料から全固体電解質材料を選び出し、予測から実験までのクローズドループを完成させました。この技術は次世代のリチウムイオン電池材料の開発に役立ちます(図3)。 [3] 図 3. Microsoft の科学者は、3,200 万種類の無機材料から全固体電解質材料を選び出し、実験的に検証しました。 材料科学は、間違いなく重要な科学であり、現代産業の急速な発展を支える柱となる学問です。石器時代から青銅器時代、そして鉄器時代まで、人類文明の進化の各段階は物質と密接に関係しています。陶磁器は中国文明の繁栄に大きく貢献しました。ガラスは光学機器の発明につながり、細胞生物学と天文学の進歩の基礎を築きました。人類文明の発展の歴史は、物質科学の進化の歴史であると言えます。 最近、人工知能技術の進歩は急速です。人工知能の手法を科学研究に導入することは、重要な学際的な方向性となっています。 GoogleとMicrosoftに加えて、MetaとByteDanceも最近同様の研究開発の方向性を打ち出している。 Meta AI はアメリカの大学と協力して、業界トップクラスの触媒材料データセットである Open Catalyst Project と、有機金属フレームワーク吸着データセットである OpenDAC を開発しました。一時期、テクノロジー大手は自社の技術を使って材料科学の分野を活性化させていました。無機材料科学が彼らの新しい分野になりました。 GNoME材料科学データセットの詳細な解釈 人工知能は材料の研究開発をどのように変革しているのでしょうか?テクノロジー大手は、同じ技術的ルートを特定しました:(1)理論計算を通じて材料科学データを取得する。 (2)高スループットコンピューティングを通じて大量のそのようなデータを生成すること(3)データを人工知能モデルに入力する(4)モデルを用いて未知の物質の特性を推測するこれは、これが幅広い可能性を秘めた効果的な技術的ソリューションであることを意味します。 人工知能は将来、材料科学の開発方法を変えるでしょうか?答えはイエスです。データ、アルゴリズム、計算能力も、この変化を促進する中核的な要素となるでしょう。圧倒的なニュースと宣伝の真っ只中、Google が公開したデータセットを出発点として、その詳細な内容とロジックを探ってみましょう。 1. バイオメディカル産業に続いて、材料科学は人工知能が本格的に参入する次のホットスポットです。数年前、AIは生物学と製薬の分野に衝撃を与えました。米国のシュレディンガーやアトムワイズなど多くの企業のソフトウェアとモデルにより、製薬業界は新たな機会を見出しました。原子レベルで標的薬物分子をスクリーニングすることは、大手製薬会社の研究開発パイプラインの重要な部分となっています。 しかし、医薬品の開発サイクルは長く、研究開発コストが高く、承認プロセスも厳しいため、一部のAI製薬企業は材料科学に目を向けています。たとえば、シュレーディンガーは材料科学部門を設立しました。本質的には、バイオメディカルであれ材料科学であれ、AI エンパワーメントの背後にあるロジックは同じです。つまり、人工知能の方法を通じて、原子間の相互作用のソルバーとシミュレーターを見つけるのです。 テクノロジーの巨人たちは、材料科学と医薬品が同じ基本的な論理を共有していることを認識しています。データ以外はすべて準備ができています。データは人工知能の飛躍の原動力です。データ セットのサイズと品質が、人工知能の予測能力を直接的に決定します。最近、材料遺伝子工学といくつかの材料科学データベースの発展により、この分野では高品質のデータリソースが獲得され、人工知能の台頭の前提条件が整いました。 2. データセットは人工知能構築の基盤です。人工知能の分野はデータに大きく依存しており、データセットの範囲と品質が人工知能モデルのレベルを直接決定します。データ セットの範囲によってモデルの一般化能力が決まり、データ セットの一貫性と比較可能性によってモデルの予測精度が決まります。人工知能の 3 つの主要要素であるデータ、アルゴリズム、計算能力のうち、データは最も技術的な障壁と結びついています。たとえば、GPT 3.5 や Llama 2 などの大規模な言語モデルでは、モデルのソース コードをオープンソース化しても、データ セットを公開しないことを選択しています。優れたデータセットのサポートがなければ、業界の競合他社が優れた AI モデルをトレーニングすることは困難です。 アルゴリズムは徐々に技術的な障壁としての役割を失いつつあり、アルゴリズムに頼って業界をリードできる可能性は非常に低い。 3. 理論計算は材料科学データベースの確立に大きく貢献しました。数十年にわたる開発を経て、密度汎関数理論は成熟した技術的蓄積を蓄積し、短期間で高度に標準化されたデータセットを生成できるようになりました。密度汎関数理論は、システム内の電子の運動方程式を解くことによって化合物の特性を効率的に解き、化合物内の原子の空間分布と化合物の物理的特性との間の関係を確立します。数百または数千のコンピューティング ジョブを同時に実行することで、膨大なデータ セットを生成できます。現在、Materials Project[4]やOQMD[5]など、材料科学の分野で最も広く使用されているデータセットはすべて、ハイスループット密度汎関数理論計算に基づいて得られています。 GNoME データセットは、Google が材料科学のデータ生成能力を習得したことを意味します。 現在の材料科学研究開発技術では、数年以内に実験データの蓄積のみで同様のデータ範囲と一貫性を達成することは不可能でしょう。 4. Google の論文は、GNoME モデル コードとデータセットの 2 つの部分で構成されています。データセットの範囲と精度は非常に高いです。 GNoME データセットは Materials Project から派生したもので、Materials Project と同じ計算標準とプロセスを使用します。そのため、Materials Project[4]と組み合わせて使用することができます。 Googleは、ハイスループットコンピューティングと密度汎関数理論を通じて220万個の無機材料に関する計算データを生成したと発表した。計算しながら、能動学習を通じて熱力学的に安定した新しい物質を継続的に予測し、最終的に38万個の安定した無機化合物を発見しました。これは間違いなく材料科学分野にとって大きな後押しとなるでしょう。 5. Google が保有する GNoME データセットは 220 万の無機物質を網羅する大規模なものですが、論文で公開された情報には、380,000 の無機化合物の構造、熱力学的安定性、モデル コードという、データのごく一部しか含まれていません。 Google はまだモデルのパラメータを公開していないため、サードパーティはそのままではモデル上で推論を実行することはできません。 Google は十分なデータを公開していないため、外部の世界がこのデータセットを使用して効果的なモデルトレーニングを実施することは困難です。したがって、Google は GNoME モデルを独占的に保有することになります。 将来の AI ビッグモデルを構築するプロセスにおいて、データは堀となります。 Google は完全なデータをオープンソース化していないため、業界で比類のないリーダーとしての地位を確立しています。 Google は 38 万種の化合物の構造と熱力学的安定性を公開しているものの、化合物の生成エネルギーなど、重要な情報の多くは公開されていません。公開されている材料データはわずか 380,000 件であるため、競合他社は効果的なモデルをトレーニングすることができません。 データ生成段階は最も時間と労力がかかる段階ですが、現在、この課題に果敢に挑戦し、さまざまな手段で標準化されたデータを生成する機関、組織、研究者は業界内で非常に限られています。ほとんどの人は「乗り物に乗る」ことを楽しみにしており、誰もがデータ共有を楽しみにしていますが、「データ生成問題」を避けようとしています。 この問題を解決するために、業界ではデータを収束し、さまざまな孤立したデータを「つなぎ合わせて」、「統合された」データセットを形成するというアイデアが一般的です。これは、他の人のデータを統合することを望む方法であることは間違いありません。数年前から提唱されているが、これまで成功した例は見当たらない。たとえば、科学技術省のいくつかのプロジェクトには、同様のデータ送信メカニズムがあります。 テクノロジーの巨人たちは冷静であり、この課題に立ち向かい、独自のデータを生み出す必要があることを認識していることに疑いの余地はない。また、これらの貴重なデータセットを完全かつ寛大に開示する意思もほとんどないと思われます。これらのデータには大きな商業的価値がある可能性があるため、これは合理的です。言い換えれば、オープンソースとデータ提出の長期的な社会的利益は必ずしもプラスにはならないかもしれません。 6. 無機物質の相空間は広大であり、人類はそのほんの一部しか発見していない。論文の著者らは、論文中の38万の化合物の構造情報を詳細に分析し、3万345の材料の元素の組み合わせ(例:「Zr-Ti-Se」、「Ni-Te」)がMaterials Projectで見つかり、7.8%を占めていることを発見した。これは、人類が知る化学空間において、Google が 30,345 個の熱力学的に安定した物質を発見したことを意味します。安定した物質のほとんど(92.2%)は、人類がまだ触れたことのない元素の組み合わせ(例:「Rh-Ac」、「Zn-Cs」)から生成されます。これは、未知の化学空間にはまだ多くの未発見の安定した化合物が存在し、人類に知られている物質は氷山の一角に過ぎない可能性があることを意味します。しかし、人類が探索したことのない化学空間では、化合物のほとんどに低存在比の元素が含まれており、そのような材料の応用価値も疑問視されています。 (図4) 図 4. Google の GNoME データセットの詳細な分析。 GNoME データセットは、熱力学的に安定した無機材料を 384,781 個発見したと主張しています。これらの化合物の中では、三環式化合物、四環式化合物、五環式化合物が主なものであることがわかります。化合物のほとんどは、人間がめったに遭遇しない元素の組み合わせから生成され、そのほとんどは金属化合物です。 7. GNoME モデルは、より広範囲の化学空間をサンプリングします。このデータセットは、より広範囲の構造空間と化学空間をカバーしているため、より「広範囲」のデータセットとなり、開発された AI モデルにとって非常に有益です。 AIモデリングプロセスの本質は、一種の「平均化」です。業界用語で言えば、AI はデータを外挿するよりも補間する方が得意です。 AI モデルの品質を測定する場合、通常は予測精度が指標として使われますが、モデルの一般化能力については語られないことがよくあります。もちろん、一般化能力の質を定量化することは困難です。一般化スキルを向上させるには、より大規模で広範囲にサンプリングされたデータセットが必要です。 通常、業界のMaterials Projectデータ(CHGNET[6]やm3gnet[7]など)に基づいて開発されるAIモデルと比較して、GNoMEモデルは「より高レベル」のデータセット基盤を持ち、独自の一般化機能を備えているはずです。 8. GNoME データセットは「深刻な偏り」があり、金属材料が 60% 以上を占めています。合金材料には多くの未知の安定構造が存在するのは当然の結果です。これは、金属原子が容易に結合して金属結合を形成し、それによってシステムのエネルギーが減少するため、よく見られる現象です。これらの金属元素は、GNoME データセット内の金属間化合物 (intermetallic) ではなく、実際の材料内でランダムに分布した原子を持つ合金相を形成する可能性が高いため、合成される可能性は低くなります。 (図4と図5) 実際には、いくつかの金属元素をランダムに混ぜると、熱力学的に安定した合金が形成される可能性が高くなりますが、これは新しい材料の発見とみなされるのでしょうか?数えてみると、合金の研究に携わる人々は毎日何千もの新しい材料を発見しています。 しかし、人工知能モデルのトレーニングにとって、これらのデータは依然として非常に重要です。 (a) GNoME (b)材料プロジェクト 図 5. GNoME データセットと Materials Project における要素出現確率の統計。 GNoME データは主に、人類がほとんど探索したことのない化学空間である低存在量の元素を探索します。材料プロジェクトによって研究される材料システムは、比較的一般的な化学空間です。 9. GNoME データセット内の要素出現統計は、Materials Project 内のものとは大きく異なります。 GNoME データセット内のイオン化合物の数は少ないですが、金属元素、特に低存在比元素の方が可能性が高いようです。たとえば、Ho、Tb、Rh、Er などは多く出現しますが、O、P、S などの一般的な元素はそれほど頻繁に出現しません。これは、GNoME のサンプリング空間が偏っていることをさらに証明しています。 (図5)
10. GNoMEデータセットでは、多金属化合物の割合が大きいことに加えて、ドープ構造の割合も大きく、そのような構造を正確に合成することも比較的困難です。図 6 では、化合物内の最小の元素の割合を確認できます。いくつかの熱力学
11. 視覚および言語モデルにおける高度なアルゴリズムはすべて、材料科学の分野で活用されるでしょう。強化学習、注意メカニズム、拡散モデル、事前トレーニング済みモデル、マルチモーダル技術、生成アルゴリズム、モデルアライメントメカニズム、ベクトルデータベースなどは、遅かれ早かれ材料科学に継続的に導入され、対応するツールを生み出すでしょう。 未来は長いが、希望に満ちている Google の GNoME データセットは、「AI + 材料科学」変革の時代の火付け役です。データセットの具体的な詳細はまだ多くが公表されていないものの、化学分野には人類がまだ探究していない未知の新素材が数多く存在し、人類の探究を待っていることは間違いないことを示しています。データセットのリリースにより、この分野で多くの可能性が開かれます。世界中の研究者は、これらの材料をさらに調査し、このデータを適用してさらに多くの人工知能アプリケーションを作成し、より多くの新しい材料を発見する機会を得ることになります。それは単なるデータセットではありません。それは、世界を作り変える可能性のある無数のイノベーションへのロードマップです。 「AI+材料科学」の潮流の中で、データは最も重要です。データセット、特に業界を支えるデータセットの作成は、報われない仕事かもしれませんが、避けられない厳しい戦いです。 注:この記事の要約英語版は、2024年2月28日にMaterials Futuresに掲載されました。 掲載日:10.1088/2752-5724/ad2e0c URL: https://iopscience.iop.org/article/10.1088/2752-5724/ad2e0c 参考文献 [1] A. Merchant、S. Batzner、SS Schoenholz、M. Aykol、G. Cheon、およびED Cubuk、「材料発見のためのディープラーニングのスケーリング」、Nature、vol. 624、いいえ。 7990、80–85 ページ、2023 年 12 月、土井: 10.1038/s41586-023-06735-9。 [2] C. Zeni他「MatterGen:無機材料設計のための生成モデル」、2023年12月、doi:10.48550/arXiv.2312.03687。 [3] C. Chen他「人工知能とクラウド高性能コンピューティングによる計算材料発見の加速:大規模スクリーニングから実験検証まで」2024年1月、[オンライン]入手可能: http://arxiv.org/abs/2401.04070 [4] A. Jain他「解説:材料プロジェクト:材料イノベーションを加速する材料ゲノムアプローチ」APL Materials、vol. 1、いいえ。 1. アメリカ物理学会、2013年。doi: 10.1063/1.4812323。 [5] JE Saal、S. Kirklin、M. Aykol、B. Meredig、C. Wolverton、「高スループット密度汎関数理論による材料設計と発見:オープン量子材料データベース(OQMD)」、JOM、vol. 65、いいえ。 11、pp.1501–1509、2013年11月、doi:10.1007/s11837-013-0755-4。 [6] B. Deng 他「電荷情報に基づく原子論的モデリングのための事前学習済み汎用ニューラルネットワークポテンシャルとしての CHGNet」Nat Mach Intell、vol. 5、いいえ。 9、pp.1031–1041、2023年9月、doi:10.1038/s42256-023-00716-3。 [7] C. Chen と SP Ong、「周期表のための普遍的なグラフ深層学習原子間ポテンシャル」、Nat Comput Sci、vol. 2、いいえ。 11、pp.718–728、2022年11月、doi:10.1038/s43588-022-00349-3。 この記事は科学普及中国星空プロジェクトの支援を受けています 制作:中国科学技術協会科学普及部 制作:中国科学技術出版有限公司、北京中科星河文化メディア有限公司
1. 「Fanpu」WeChatパブリックアカウントのメニューの下部にある「特集コラム」に移動して、さまざまなトピックに関する人気の科学記事シリーズを読んでください。 2. 「Fanpu」では月別に記事を検索する機能を提供しています。公式アカウントをフォローし、「1903」などの4桁の年+月を返信すると、2019年3月の記事インデックスなどが表示されます。 著作権に関する声明: 個人がこの記事を転送することは歓迎しますが、いかなる形式のメディアや組織も許可なくこの記事を転載または抜粋することは許可されていません。転載許可については、「Fanpu」WeChatパブリックアカウントの舞台裏までお問い合わせください。 |
<<: なぜ私の携帯電話はいつも「紛失」するのでしょうか? ?おそらく、これらの詳細を見落としたのでしょう。
>>: 宇宙では天候も変化しますが、宇宙飛行士は「天気予報」を確認する必要があるのでしょうか?
私たちのほとんどはスナック菓子を食べるのが大好きで、時にはスナック菓子の裏にある原材料名も気にします...
参考文献[1] Keendjele TPT、Eelu HH、Nashhanga TE、他 トウモロコ...
宇宙は広大で無限であり、宇宙にある星の数は無数です。宇宙の星の数は地球上の砂粒の数よりも多いと信じて...
最近、アメリカ気象データ社は、気象予報・予測機能を強化するため、世界中の天気予報にリアルタイムの気象...
インスタントラーメンといえば、その名の通り、たった3分でおいしい麺が作れます。しかし、インスタントラ...
中国の動力電池サポート企業の数は、2015年の約150社から2017年に約100社に減少し、3分の1...
昨日、LG初の2Kスクリーン携帯電話「isai FL」が日本で発表され、本日日本で発売されました。こ...
2011 年 11 月、Google はランキング アルゴリズムにコンテンツの鮮度を追加すると発表...
夏の始まり、4月の祭り。 「里」という言葉の意味は春です。夏は休暇を意味します。この時点で、すべてが...
暑い夏には、喉の渇きを癒し、涼むためにデザートを利用する人が多いですが、自分でデザートを作ることはで...
「舌の先端は甘味を感じ、舌の奥は苦味を感じ、舌の側面は酸味と塩味を感じます。」誰かが「味覚」マップを...
1月1日、BYD Autoは新しいブランドロゴを正式に発表しました。 BYD Auto の新しいロゴ...
中国の農民収穫祭は、農民のために特別に国家レベルで制定された最初の祭りです。 2018年に創設され、...
◎科技日報記者 金鋒宇宙に他の生命が存在するかどうか、そして人類が居住するのに適した第二の故郷が存在...
ニュース放送では、よく「我が国は、某年某月某日に、某衛星の打ち上げに成功した」といった報道を耳にしま...