Resource Library

LightPFP について

1. はじめに#

1.1 LightPFP とは#

LightPFPとはMatlantisのユーザーが目的の材料についての、軽量の機械学習ポテンシャルを作成するための機能です。
ほとんどの場合、このポテンシャルはPFPよりもパラメータ数が少ないので、シミュレーションを高速化でき、扱えるスケールも大きくなります。

Matlantisのプラットフォーム上でLightPFPを使用することで、データセットの収集・モデルの訓練・推論（原子シミュレーション）を実行することができます。
また量子化学計算よりも高速なPFPの性能を活かし、対象材料の大規模な訓練データセットを容易に生成することができます。
データセットの収集とモデルの訓練は、通常数時間以内に完了することができます。
LightPFPモデルはPFPよりも15〜40倍高速であり、数十万個程度の原子をシミュレーションすることができます。

1.2 サポートする手法#

現在、モーメントテンソルポテンシャル(MTP)のみを提供しております。今後も軽量の機械学習モデルを追加する予定です。

モーメントテンソルポテンシャル (MTP)#

MTPは構造記述子の線形結合によってポテンシャルエネルギーを表現します。
MTPは約100〜1000個の少ないパラメータのみを必要とします。
ペア・角度・高次の相互作用は、テンソル積によって簡便に表現されます。
そのためこのモデルは高い計算効率を持っています。

MTPについては[1]で詳細に説明されています。
ここではMTPモデルからエネルギーを計算する方法と、基底関数の導出方法について要約します。
文中の方程式や図は、元の論文[1]から抽出されたものです。
MTPのエネルギー E は原子ごとのエネルギー (V(n_i)) の総和で表されます。ここで、 (n_i) は構造中の原子iの近傍情報を示します。

[E^{MTP} = sum_{i=1}^{n} V(n_i)]

[V(n_i) = f( B(n_i) )]

(f) は readout 関数と呼ばれ、元の論文では線形関数を用いており、以下のように表されます：

[V(n_i) = sum_{ alpha } xi_{alpha} B(n_i)]

LightPFPでは線形関数に加えて、readout 関数としてニューラルネットワークを使用するオプションも提供しています。詳細は以下のセクションで説明します。

基底関数 (B) の表現方法がMTPの肝で、モーメント関数 (M_{μ,ν}) のテンソル積で表されます。

[M_{mu, nu}(n_i) = sum_j f_{mu} (|r_{ij}|, z_i, z_j) vec{r_{ij}}otimes … otimes vec{r_{ij}}]

ここで (z_i)、(z_j) はそれぞれ原子 (i) と (j) の種類を表し、(f_μ) は多項式関数を指します。
また (|r_{ij}|) は原子 (i) と (j) のユークリッド距離であり、⊗はテンソルのクロネッカー積を示します。
上記の式はベクトル (vec{r_{ij}}) のクロネッカー積を (nu) 回とることを意味します。

MTPの複雑さを指定するために、パラメータ levmax, moment_init_cost, moment_mu_cost, moment_nu_cost, n_q が使用されます。
各基底関数のレベルは levmax より小さくなければなりません。
基底のレベルは以下の式で計算することができます。

[level = moment_init_cost + moment_mu_cost times mu + moment_nu_cost times nu]

(n_q) は多項式関数 (f_μ) 内の動径方向の基底関数の数を表します。

基底関数のレベルの計算方法の説明のために、以下の例を[1]から引用しました。
この例では、levmax=8、moment_init_cost=2、moment_mu_cost=4、moment_nu_cost=1と設定した場合、以下の9つの基底関数が妥当であることを示しています。

[B_1 = M_{0,0} quad levB_1 = 2;]

[B_2 = M_{1,0} quad levB_2 = 6;]

[B_3 = M_{0,0} otimes M_{0,0} quad levB_3 = 4;]

[B_4 = M_{0,1} otimes M_{0,1} quad levB_4 = 6;]

[B_5 = M_{0,2} otimes M_{0,2} quad levB_5 = 8;]

[B_6 = M_{0,0} otimes M_{1,0} quad levB_6 = 8;]

[B_7 = M_{0,0} otimes M_{0,0} otimes M_{0,0} quad levB_7 = 6;]

[B_8 = M_{0,0} otimes M_{0,1} otimes M_{0,1} quad levB_8 = 8;]

[B_9 = M_{0,0} otimes M_{0,0} otimes M_{0,0} otimes M_{0,0} quad levB_9 = 8;]

ここで”·”はベクトルの内積、”:”は2つの行列のフロベニウス積を表します。

基底関数 (B_1) は、μ=0 および v=0 の1つのモーメント関数のみから構成されています。
(B_1) のレベルは、 moment_init_cost + moment_mu_cost * μ + moment_nu_cost * ν = 2 + 4 * 0 + 1 * 0 = 2 と計算されます。

同様に、他の基底関数のレベルは以下のように計算されます。

(B_2) は (M_{1,0}) から構成されています。そのため、レベルは ((2 + 4 times 1 + 1 times 0) = 6) となります。

(B_3) は2つの (M_{0,0}) から構成されています。そのため、レベルは (2 times (2 + 4 times 0 + 1 times 0) = 4) となります。

(B_4) は2つの (M_{0,1}) から構成されています。そのため、レベルは (2 times (2 + 4 times 0 + 1 times 1) = 6) となります。

(B_5) は2つの (M_{0,2}) から構成されています。そのため、レベルは (2 times (2 + 4 times 0 + 1 times 2) = 8) となります。

(B_6) は (M_{0,0}) と (M_{1,0}) から構成されています。そのため、レベルは ((2 + 4 times 0 + 1 times 0) + (2 + 4 times 1 + 1 times 0) = 8) となります。

(B_7) は3つの (M_{0,0}) から構成されています。そのため、レベルは (3 times (2 + 4 times 0 + 1 times 0) = 6) となります。

(B_8) は (M_{0,0}) と2つの (M_{0,1}) から構成されています。そのため、レベルは ((2 + 4 times 0 + 1 times 0) + 2 times (2 + 4 times 0 + 1 times 2) = 8) となります。

(B_9) は4つの (M_{0,0}) から構成されています。そのため、レベルは (4 times (2 + 4 times 0 + 1 times 0) = 8) となります。

一方でこの例では (M_{2,0}) は妥当ではありません。なぜならそのレベルは (2 + 4 times 2 + 1 times 0 = 10) であり、levmax（=8）よりも大きいからです。

また基底関数 (B) はスカラー値である必要がありますが、モーメント関数 (M) は必ずしもそのような制約はありません。

LightPFPパッケージでは、MTPの複雑性のハイパーパラメータとして、levmax、moment_init_cost、moment_mu_cost、moment_nu_costを定義することができます。
直感的には、levmaxが大きく、moment_init_cost・moment_mu_cost・moment_nu_costが小さいほど、MTPは複雑になります。
ただしMTPが複雑になるほど、必要なメモリや計算時間が増加します。
LightPFPで一般的に使用されるハイパーパラメータは、levmax={8, 16}、moment_init_cost={2}、moment_mu_cost={4, 1}、moment_nu_cost={1}です。

前述の通り、MTPに関する過去の研究ではreadout 関数 (f) としては線形結合を用いることが一般的でした。
しかし、私たちはここをニューラルネットワークで置き換えることを試み、ベンチマーク比較を行った結果、
一定の優位性が示されたためニューラルネットワーク readout 関数を用いるオプションを提供することとしました。

ニューラルネットワーク readout 関数は、基底関数の出力を入力として受け取り、ポテンシャルエネル
ギーを出力するニューラルネットワークです。このニューラルネットワークは多層パーセプトロン（MLP）
です。入力ニューロンの数は基底関数の数と同じで、出力ニューロンの数は1です。隠れ層の数と各
隠れ層のニューロン数はユーザーが指定できます。活性化関数には shifted softplus 関数が
使用されます。また、ニューラルネットワークには残差接続が使用されています。

一般的に、ニューラルネットワーク（NN）は複雑なパターンや非線形関係を捉える能力に優れているため、
ほとんどの場合で線形結合よりも精度は高くなります。しかし、線形結合にはより単純で解釈しやすいという
利点もあります。入力特徴量と目標変数の関係が線形であると予想される場合や、訓練データの量が限られている
場合には、線形結合を選ぶべきでしょう。

1.3 コンポーネント#

(a) light-pfp-data パッケージ#

Matlantis上で以下のコマンドを実行することでインストールできます。

pip install light-pfp-data

このパッケージを用いることで、目的の材料についての訓練データセットを収集することができます。

注意：このパッケージは収束性のバグ修正が含まれたscipyバージョンに依存しているため、Python 3.9のみと互換性があり、Python 3.8以前のバージョンはサポートしていません。

(b) 訓練#

訓練のための追加パッケージはありません。
ユーザーは submit-light-pfp-training というCLIツールを用いて、Light PFPの教師データを登録することができます。
このツールはMatlantis ノートブック上に提供されています。
訓練ジョブは、ノートブックとは別のコンピューティングリソース上で実行されます。
訓練後、Light PFPが作成したモデルは「モデルライブラリ」というクラウド環境に保存されます。
詳細については 3. LightPFPモデルの訓練の章を参照してください

(c) light-pfp-client パッケージ#

Matlantis上で以下のコマンドを実行することでインストールできます。

pip install light-pfp-client

このパッケージを用いることで、作成済みのLight PFPモデルをcalculatorクラスを通して呼び出し、原子シミュレーションを実行できます。

注意：現在、light-pfp-clientではPython 3.9のみをサポートしています。Python 3.8でも動作する可能性はありますが、私たちのすべての例とテストはPython 3.9で実行されています。

(d) light-pfp-evaluate パッケージ#

Matlantis上で以下のコマンドを実行することでインストールできます。

pip install light-pfp-evaluate

このパッケージを用いることで、LightPFPモデルの性能を評価することができます。
具体的には、与えられた構造に対して状態方程式やフォノン分散などの基本的な物性値を計算し、PFPの結果と比較することでモデルを評価することができます。
また、このパッケージではモデルを評価するためのCLIも提供されています。
より詳細な説明については、 5. LightPFPモデルの評価の章を参照してください。

2. 訓練用データの生成#

2.1 CLI ツール#

dataset-generation CLIツールはlight-pfp-dataパッケージに含まれています。
パッケージのインストール後、このツールを使用してさまざまな訓練構造の収集を自動化することができます。
ツールを利用するために、いくつかの初期構造と、JSON形式の制御ファイルを準備する必要があります。
制御ファイルにはデータ生成プロセスを制御する引数が指定されています。
これらの引数について以下で説明します。

以下の方法でCLIツールを使用できます。

PFP_DEFAULT_PRIORITY=1 dataset-generation -c your_control_file.json -l info -p true -j 2

PFPトークン消費を抑えるために、データ生成では上記のように PFP_DEFAULT_PRIORITY を最低値に設定することを推奨します。
dataset-generation コマンドの引数は以下の通りです。

-c, --config (Required): JSON形式の制御ファイルのパス。
-l, --log-level (Optional): ログレベル。デフォルトは info です。
-p, --progress-bar (Optional): true か false を設定します。 true が設定された場合、全てのタスクに対してプログレスバーを表示します。デフォルトは true です。
-j, --num-threads (Optional): 並列実行のためのスレッド数（利用可能なCPUコア数を大きく上回る値を指定した場合、パフォーマンスが低下する可能性があります）。デフォルトは8です。

PFPで計算された訓練構造（格子・元素・原子位置を含む）とそれらのポテンシャルエネルギー・力・応力を含むHDF5ファイルが出力されます。

注意：このツールを用いたデータ生成は同期的で、かつPFPによる並列計算を行うために多くのCPUリソースを使用します。
処理が予期せず停止することを防ぐため、バックグラウンドでの実行を推奨します。
例としてバックグラウンドモードのノートブックやtmux、バックグラウンドでのbashスクリプトなどの方法があります。
またMatlantisノートブック環境内のCPUリソースへの負荷を下げるため、この処理の実行中は同環境で他の処理を実行しないことを推奨します。

2.2 データ生成の制御ファイル#

(a) 簡単なJSONファイルの例#

dataset-generation CLIツールの使用の際、訓練データの生成に関するパラメータを指定するために、JSON形式の制御ファイルが必要です。
以下に、簡単な制御ファイルの例を示します：

{
    "version": 2,
    "initial_structure": ["test1.cif", "test2.cif"],
    "dataset_path": "test.h5",
    "pfp_model_version": "v5.0.0",
    "pfp_calc_mode": "crystal_u0",
    "initial_opt": true,
    "md": [
        {
            "sampling_temp": [500.0],
            "sampling_steps": [10000],
            "sampling_interval": [100],
            "supercell": [3, 3, 3],
            "ensemble": "npt"
        },
        {
            "sampling_temp": [1500.0],
            "sampling_steps": [5000],
            "sampling_interval": [100],
            "supercell": [4, 4, 4],
            "ensemble": "nvt"
        }
    ]
}

設定ミス防止のため、制御ファイル内の値には型チェックが適用されます。想定とは異なる型が設定されている場合、ジョブの開始時にエラーが表示されます。

(b) 引数#

version (int, Optional, default=1):

制御ファイルのスキーマのバージョンです。互換性を保つ必要がある場合以外は2を指定してください。
αリリース時と互換性のあるバージョン1のスキーマを利用することも可能ですが、非推奨です。
バージョン1は将来のリリースで削除される予定です。
initial_structure (List[str], Required):

初期構造のファイルパス（複数可）。ASE.ioのサポートするファイル形式を使用可能です。
dataset_path (str, Required, Required):

H5形式のデータセットファイルパス
pfp_model_version (str, Required):

PFPのバージョン。デフォルトは”v6.0.0”です。
pfp_calc_mode (str, Required):

PFPの計算モード。デフォルトは”crystal_u0”です。
initial_opt (bool, Required):

訓練データの構造を生成する前に、初期構造をPFPで最適化します。デフォルトはtrueです。

ユーザーは”initial_structure” と “dataset_path” を指定する必要があります。

(c) セクション#

共通の引数の後で、”initial_structure” から訓練構造を生成する方法を指定することができます。
上記の例では、”md” リストで指定されているように、2つの分子動力学（MD）タスクが実行されます。
最初のタスクは、3x3x3のスーパーセルを使用して、500Kで10,000ステップのNPT MDを実行します。
2番目のタスクは、4x4x4のスーパーセルを使用して、1500Kで5,000ステップのNVT MDを実行します。

以下のように、訓練構造を生成するためのいくつかの方法が提供されています。

MD
圧縮
変形
変位
空孔
表面
置換

また、制御ファイル内で複数の訓練構造の生成手法（例えばMDと圧縮など）を指定することができます。
複数の手法が指定された場合、それらは initial_structure で指定された初期構造（ initial_opt が指定された場合はそれが最適化された構造）から独立して生成されます。

なお、LightPFPのExampleの「Tutorial」ノートブックでは複数の生成手法を指定して訓練データを生成しています。
そちらも併せて参照してください。

以下のセクションでは各手法について説明します。

2.3 手法#

訓練データセットは、初期構造にさまざまな変更を加えることで生成されます。
MDシミュレーションは訓練構造を収集するための最も基本的で強力な方法ですが、単純なMDシミュレーションでは得られない構造もあります。
訓練データセットの多様性を確保するために、MD以外の方法も提供しております。
訓練構造の生成方法について以下で説明します。

(a) MDシミュレーションによる構造のサンプリング#

MDシミュレーションは、訓練構造をサンプリングするための強力なツールです。
温度を変化させることで、異なる乱雑さを持つ訓練構造を得ることができます。
高い温度ではより無秩序な構造を得ることができ、これらはLightPFPモデルの訓練をよりロバストにするために役立ちます。
データセット生成ツールでは、指定された条件（温度、圧力など）で指定されたステップ数のMDシミュレーションを行うことができます。
ユーザーはNPT（粒子数、圧力、温度が一定）またはNVT（粒子数、体積、温度が一定）アンサンブルのどちらかを選択できます。
類似した構造が過剰に収集されるのを避けるため、Nステップごと（100ステップなど）にスナップショットが取られます。

ユーザーは、”md”をtrueに設定することでMDサンプリングを有効にすることができます。
制御ファイルの”md”引数は、個々のMDシミュレーションを指定するパラメータの辞書のリストです。
以下は、全ての引数とそれらのデフォルト値が示された制御ファイルの例です。