PFVM について

グローバルナビゲーション

Product
Product

Matlantisは、これまでの研究プロセスを変革し、専門性を最大限に活かす次世代の開発スタイルを実現します
Productトップへ
主な機能・特長

コア技術

AIモデル (PFP)とは

PFPの最新バージョンとこれまでの歩み

PFPの予測性能検証

オープンソースMLIPとの比較
PFPを基盤とする応用技術

新機能 LightPFP

ReactionString・RestScan

ご提供環境・導入フロー
Cases
Cases

導入企業の声、具体的な計算事例、論文の中から、特に注目の事例をピックアップしました。興味のあるカテゴリーから、詳細をご確認ください
Casesトップへ
事例一覧

お客様事例

計算事例

公開論文事例

引用方法（Citation）
おすすめリンク

Matlantisポータブルガイド

計算事例：ALD前駆体とSi基板との表面反応機構解析
Resources
Resources

Matlantisを最大限にご活用いただくための情報を集約しました。製品資料から最新技術、イベント情報、学習コンテンツまで、お客様の材料開発を加速するリソースを網羅しています
Resourcesトップへ
イベント・セミナー

Resources Library

製品資料・動画

お役立ちコンテンツ

教育・学習
おすすめリンク

Matlantisポータブルガイド

Atomistic Simulation Tutorial
Company
Company

Matlantis株式会社は、AIと計算科学の力で、材料開発の未来を切り拓く企業です。私たちの理念、強み、そして活動についてご紹介します
Companyトップへ
トップメッセージ

会社概要

Matlantisのお客様・コミュニティ

採用情報

技術職 - Research/Customer Success
おすすめリンク

イベント・セミナー

Resources Library
- ニュース
- 採用情報
- ドメインを入力して下さい
  
  https:// .matlantis.com/
資料DL・お問合せ

まずは、Matlantisについて詳しく知るところから始めませんか？ぜひ、お気軽にダウンロード・お問い合わせください

Matlantisポータブルガイド

汎用原子レベルシミュレーションMatlantisの全貌をわかりやすくまとめた資料を、無料でダウンロードいただけます。

お問い合わせ・ご相談

プラン情報などの詳細や、実際のデモシーンなど、より詳しくMatlantisを知りたい方はお気軽にお問い合わせください。

よくあるご質問（FAQ）

PFVM は、Preferred Networks が開発した高性能・マルチプラットフォーム対応の深層学習アクセラレータライブラリです。
ONNX 形式の深層学習モデル (計算グラフ) に対し独自のアルゴリズムに基づく最適化を適用することで、通常よりも省メモリかつ高速な推論を実現します。

このページでは、PFVM で採用されている最適化技術の一部をご紹介します。

自動カーネル融合#

自動カーネル融合による高速化#

PFVM では、複数の命令を自動的にひとつの命令にまとめることで、GPU カーネル呼び出し回数を減らす最適化を行っています。
例えば、以下のような計算列をまとめる場合について考えてみましょう。

左側の図は、Gather, Mul, Sqrt の 3 つの命令を順に実行する計算列を示しています。
それぞれの命令は独立した GPU カーネルを用いて計算しており、命令のたびに計算結果を GPU のグローバルメモリ領域に書き込んでいます。

右側の図は PFVM が左側の計算列をひとつの命令にまとめて得られる計算列の図です。
このとき、Gather, Mul, Sqrt の 3 つの命令において、計算途中の変数 tmp1, tmp2 の読み書きを同一スレッドで行うような CUDA カーネルを実装することができます。
したがって、計算の実行中にスレッド間で同期を行う必要がないため、 tmp1 と tmp2 をグローバルメモリ領域に読み書きする必要がなくなり、カーネル実行にかかる実行時間を短縮することができます。
以上のような、複数の CUDA カーネルを用いて実行していた命令をひとつの CUDA カーネルにまとめる高速化を 「カーネル融合」 と呼びます。[1]

PFVM では、中間変数をスレッド間で同期する必要がないような命令の組み合わせを適切に探索することで、高性能なプログラムへと自動的に変換されます。
最適な命令の組み合わせの探索が完了した後、PFVM はカーネル融合後の CUDA プログラムを文字列で生成してコンパイルしています。
以下は、PFVM が実際に 6 つの命令をカーネル融合して生成した CUDA プログラムに対して、読みやすく若干の修正を加えたものです。

extern "C" __global__ void kernel(size_t n, float* x1, float* x2, float* x3, float* x4, float* x5, double* y1) {
    size_t tid = blockIdx.x * blockDim.x + threadIdx.x;
    const float v1 = x1[tid];  // input
    const float v2 = x2[tid];  // input
    const float v3 = x3[tid];  // input
    const float v4 = x4[tid];  // input
    const float v5 = x5[tid];  // input
    const float v6 = v4 * v3;  // Mul
    const float v7 = v6 + v6;  // Add
    const float v8 = v5 + v7;  // Add
    const float v9 = v8 + v1;  // Add
    const float v10 = v9 + v2;  // Add
    const double v11 = static_cast<double>(v10);  // Cast
    y1[tid] = v11;  // output
}

カーネル融合がメモリ消費量に与える影響#

カーネル融合が可能な条件を満たすような全ての命令に対して闇雲にカーネル融合を処理すると、消費メモリ量が極端に増えてしまう場合があります。
PFVM では、独自で開発した高速なメモリシミュレータを用いることで、カーネル融合を行っても消費メモリ量が増えないような命令の組み合わせを適切に探索しています。
メモリシミュレーターが高速に消費メモリ量のシミュレーションを行うメカニズムについては特許出願中であるためここでは説明できませんが、従来のシミュレーターと比べて数百倍程度の命令の組み合わせについて探索を行うことが可能です。

Reference#

[1] https://arxiv.org/abs/1305.1183

PFVM について

自動カーネル融合#

自動カーネル融合による高速化#

カーネル融合がメモリ消費量に与える影響#

Reference#

このページを見た人は、こちらもチェックしています

Product

Matlantisのお客様・コミュニティ

お客様事例一覧

Resource Library