NVIDIA、高精度の科学計算と単精度の機械学習を両立するデータセンター向けGPUユニット「HGX-2 cloud server platform」発表

2018年5月31日

一般に、気象予想などの科学計算では高い精度の演算を行うため64ビットや32ビットの浮動小数点が用いられる一方、機械学習のトレーニングなどでは演算精度を落としても結果に大きな変化がないとされているため16ビット浮動小数点や8ビット整数などを用いた演算が行われています。

NVIDIAはこの要件の異なる科学計算と機械学習のニーズを1つのアーキテクチャで両立させた新しいデータセンター向けのサーバを構築可能なユニット「NVIDIA HGX-2 cloud-server platform」を発表しました。

これによって急成長するHPC用途とAI用途の組み合わせにも対応できるとしています。

HGX-2はデータセンター向けGPUであるTesla V100を16基搭載。これを同社独自の高速なインターコネクトであるNVLinkで接続し、GPU相互に300GB/sの帯域幅で通信可能。

テンソル計算で2ペタFLOPS、単精度で250テラFLOPS、倍精度で125テラFLOPSの性能を備え、機械学習処理のResNet50で比較すると、デュアルソケットCPUを持つサーバの300倍の処理が可能。データセンターの電力や床面積の大幅な削減を実現するとしています。

また、データセンターなどにおける利用に最適化された機能として、HGX-2を搭載したサーバを複数の仮想サーバに分割する場合、NVSwitchが仮想マシンごとにHGX-2内部の帯域幅には影響を与えずパーティショニングを行えるようになっています。