HPE ProLiantサーバーでは、NVIDIA® Tesla™、NVIDIA® GRID™、およびNVIDIA® Quadro™グラフィックスプロセッシングユニット (GPU) テクノロジーをベースとするアクセラレーターモジュールをサポートしています。HPE ApolloシリーズProLiant DLシリーズMLシリーズのサーバー向けにHPEが提供するNVIDIAアクセラレーターをご紹介します。
※ Graphics Server Blade ソリューション用NVIDIAグラフィックス オプションについては弊社担当営業、もしくは、弊社製品取り扱いパートナーまでお問い合わせください。

NVIDIAのCUDA™アーキテクチャーをベースとするNVIDIAアクセラレーターは、GPUコンピューティングとHPE ProLiantサーバーをシームレスに統合し、高性能なコンピューティング、大規模なデータセンターグラフィックス、および仮想デスクトップ配備を可能にします。GPUコンピューティングの標準的なメリットをすべて実現しながら、優れた信頼性を発揮し、HPE Insight Cluster Management UtilityなどのHPE製システム監視および管理ツールと緊密に統合できます。

 

GPUコンピューティング / ディープラーニング


NVIDIA Tesla GPUシリーズは多目的な演算アクセラレーターで、構造化された数値アルゴリズムの性能を向上させるのに最適です。これらのGPUはCUDA®をベースとし、ダイナミック並列処理やHyper-Qなどのテクノロジーも搭載しており、性能に加え効率の向上も実現します。アクセラレーターによる効果が期待できる アプリケーションとしては、地震データ処理、生化学シミュレーション、天候および気候モデリング、画像 / ビデオ / シグナル処理、金融工学、計算物理学、 CAE、CFD、データ分析などがあります。NVIDIA Tesla M40 24GBモジュールは、 ディープラーニング向けに最適化された単精度カードです。
NVIDIA Tesla K40(C)/K80モジュールはいずれも多目的な用途において、単精度と倍精度の両方のアルゴリズムが最適化されています。 オンボードメモリの容量はそれぞれ12GB、24GBです。


NVIDIA P4, M4, P40

NVIDIA P4, M4, P40

NVIDIA Tesla K80, P100

モデルラインアップ



Tesla P100 PCIe 16GBモジュールの性能

  • HPCやディープラーニングに最適化された演算アクセラレーター
  • 3584 CUDAコア
  • NVIDIA GPU Boost機能により、温度・電力消費の余裕に応じてクロック周波数をブースト
  • 9.3 Tflops (ブースト時) 単精度演算
  • 4.7 Tflops (ブースト時) 倍精度演算
  • 16GB CoWoS HBM2 (720 GB/s)
  • 合計4 GBのGDDR5メモリーは、ローカルメモリ内での大きなデータセットの維持によりデータ転送を減少させ、性能を最適化します。
  • NVIDIA Parallel DataCache™ は事前にデータアドレスがわからないアルゴリズムを加速させます。この機能には、ストリーミングマルチブロックあたり構成可能なL1キャッシュ、すべてのプロセッサーコア向けのL2キャッシュを含みます。
  • 非同期の転送ターボは、PCIeバスを超えるデータ転送によりシステムパフォーマンスを変えます。コンピューティングコアが他のデータを掴んでいる状況でもです。地震処理のような重いデータ転送を伴うアプリケーションでさえも、データが必要になる前にローカルメモリーへのデータ転送によりコンピューティングの効率性を最大化が出来ます。


Tesla P40の性能

  • ディープラーニングに最適な、単精度性能に優れたアクセラレーター
  • 3840個のCUDAコア
  • NVIDIA GPU Boost機能により、温度・電力消費の余裕に応じてクロック周波数をブースト
  • 12TFLOPSの単精度のピーク性能
  • GDDR5メモリが大容量のデータセットをGPUに接続された24GBのローカルメモリに保存することで、パフォーマンスを最適化し、データ転送を減少します。
  • NVIDIA Parallel DataCache™により、物理ソルバー、レイトレーシング、疎行列乗算などの、事前にデータアドレスが不明なアルゴリズムを高速化します。このキャッシュには、ストリーミングマルチプロセッサーブロックごとに構成可能なL1キャッシュ1つと、すべてのプロセッサーコアに対して統合L2キャッシュ1つが 含まれます。
  • 非同期転送により、コンピューティングコアが他のデータを処理している間にPCIeバス経由でデータを転送することで、システム性能が大幅に向上します。地震データ処理のような大容量のデータ転送が必要なアプリケーションでも、必要になる前にデータをローカルメモリに転送しておくことで、コンピューティング効率を最大化できます。
  • ダイナミック並列処理機能により、GPUスレッドで新しいスレッドを自動的に作成できます。
  • Hyper-Q機能により、複数のCPUで同時に1つのGPU上のCUDAコアを使用できます。
  • 高速PCIe Gen 3.0データ転送により、HPE ProLiantサーバーとTeslaプロセッサーの間の帯域幅を最大化します。


Tesla P4の性能

  • ディープラーニングに最適な、単精度性能に優れたアクセラレーター
  • 2560個のCUDAコア
  • NVIDIA GPU Boost機能により、温度・電力消費の余裕に応じてクロック周波数をブースト
  • 5.5TFLOPSの単精度のピーク性能
  • GDDR5メモリが大容量のデータセットをGPUに接続された 8GBのローカルメモリに保存することで、パフォーマンスを最適化し、データ転送を減少します。
  • NVIDIA Parallel DataCache™により、物理ソルバー、レイトレーシング、疎行列乗算などの、事前にデータアドレスが不明なアルゴリズムを高速化します。このキャッシュには、ストリーミングマルチプロセッサーブロックごとに構成可能なL1キャッシュ1つと、すべてのプロセッサーコアに対して統合L2キャッシュ1つが含まれます。
  • 非同期転送により、コンピューティングコアが他のデータを処理している間にPCIeバス経由でデータを転送することで、システム性能が大幅に向上します。地震データ処理のような大容量のデータ転送が必要なアプリケーションでも、必要になる前にデータをローカルメモリに転送しておくことで、コンピューティング効率を最大化できます。
  • ダイナミック並列処理機能により、GPUスレッドで新しいスレッドを自動的に作成できます。
  • Hyper-Q機能により、複数のCPUで同時に1つのGPU上のCUDAコアを使用できます。
  • 高速PCIe Gen 3.0データ転送により、HPE ProLiantサーバーとTeslaプロセッサーの間の帯域幅を最大化します。


Tesla M40 24GBモジュールの性能

  • Tesla M40は特にディープラーニングなどの単精度アプリケーション向け
  • 3,072個のCUDAコア
  • GPUブーストにより、熱上昇を引き起こしたり電力制限に達したりすることなく、クロック周波数を一時的に増加させることができます。
  • 7TFLOPS (単精度のピークパフォーマンス)
  • GDDR5メモリが大容量のデータセットを24GBのローカルメモリに保存することで、パフォーマンスを最適化し、データ転送量を削減します。
  • NVIDIA Parallel DataCache™により、事前にデータアドレスが不明なアルゴリズムを高速化します。
  • 非同期転送により、コンピューティングコアが他のデータを処理している間に、PCleバス経由でデータを転送することで、システム性能が大幅に向上します。
  • ダイナミック並列処理機能により、GPUスレッドで新しいスレッドを自動的に作成できます。
  • Hyper-Q機能により、複数のCPUコアで同時に1つのGPU上のCUDAコアを使用できます。
  • 高速PCIe Gen 3.0データ転送により、HPE ProLiantサーバーとTeslaプロセッサーの間の帯域幅を最大化します。


Tesla M4 4GBモジュールの性能

  • Tesla M4は、ディープラーニングや 推論向けの単精度演算向け
  • 1024 CUDAコア
  • NVIDIA GPU Boostは、温度条件や電力条件に影響されないクロック周波数バーストを可能にします。
  • 2.2 Tflops (ブースト時) 単精度演算
  • 合計4GBのGDDR5メモリーは、ローカルメモリ内の大きなデータセットを維持によりデータ転送を減少させ、性能を最適化します。
  • NVIDIA Parallel DataCache™ は事前にデータアドレスがわからないアルゴリズムを加速させます。この機能には、ストリーミングマルチブロックあたり構成可能なL1キャッシュ、すべてのプロセッサーコア向けのL2キャッシュを含みます。
  • 非同期の転送ターボは、PCIeバスを超えるデータ転送によりシステムパフォーマンスを変えます。コンピューティングコアが他のデータを掴んでいる状況でもです。地震処理のような重いデータ転送を伴うアプリケーションでさえも、データが必要になる前にローカルメモリーへのデータ転送によりコンピューティングの効率性を最大化が出来ます。
  • Hyper-Q の特徴は、複数のCPUコアの一つのGPU上のCUDAコアの同時活用を可能にします。
  • 高速なPCIe Gen 3.0データ転送はHPE ProLiant サーバーとTesla プロセッサー間のバンド幅を最大化します。


Tesla K80の性能

  • 4992個のCUDAコア (GPUあたり2496コア)
  • 1.87 Tflops / ブースト時2.7 Tflops (倍精度のピークパフォーマンス)
  • 5.6 Tflops / ブースト時8.1Tflops (単精度のピークパフォーマンス)
  • GDDR5メモリが大容量のデータセットをGPUに接続された24GBのローカルメモリに保存することで、パフォーマンスを最適化し、データ転送を減少します。
  • NVIDIA Parallel DataCache™により、物理ソルバー、レイトレーシング、疎行列乗算などの、事前にデータアドレスが不明なアルゴリズムを高速化します。このキャッシュには、ストリーミングマルチプロセッサーブロックごとに構成可能なL1キャッシュ1つと、すべてのプロセッサーコアに対して統合L2キャッシュ1つが 含まれます。
  • 非同期転送により、コンピューティングコアが他のデータを処理している間にPCIeバス経由でデータを転送することで、システム性能が大幅に向上します。地震データ処理のような大容量のデータ転送が必要なアプリケーションでも、必要になる前にデータをローカルメモリに転送しておくことで、コン ピューティング効率を最大化できます。
  • ダイナミック並列処理機能により、GPUスレッドで新しいスレッドを自動的に作成できます。
  • Hyper-Q機能により、複数のCPUで同時に1つのGPU上のCUDAコアを使用できます。
  • Hyper-Q の特徴は、複数のCPUコアの一つのGPU上のCUDAコアの同時活用を可能にします。
  • 高速なPCIe Gen 3.0 データ転送はHPE ProLiant サーバーとTesla プロセッサー間のバンド幅を最大化します。
 

プロフェッショナル グラフィックカード


NVIDIA Quadro GPUは、さまざまなプロフェッショナル仕様のアプリケーションにおいて、優れたグラフィックパフォーマンスを発揮します。
Quadro M2000、M4000アダプターのオンボードメモリの容量はそれぞれ2GB、4GB、4GB、8GBで、マルチモニター機能を備えたリモート仮想化に最適です。M6000およびM6000 24GBアダプターのオンボードメモリは それぞれ8GB、8GB、12GB、12GBおよび24GBで、大規模な高解像度の3Dリモート仮想化に最適なアダプターです。


NVIDIA Quadro M5000,
M6000, M6000 24GB

NVIDIA Quadro M4000

NVIDIA Quadro M2000

モデルラインアップ

  • NVIDIA Quadro P6000
  • NVIDIA Quadro M6000 24GB
  • NVIDIA Quadro M6000
  • NVIDIA Quadro M5000
  • NVIDIA Quadro M4000
  • NVIDIA Quadro M2000


性能

  • M5000が2,048個、M6000が3,072個、P6000が3,840個のCUDAコア
  • M6000が12GB、M6000 24GBとP6000が24GBのGDDR5メモリ
  • OpenGL 4.3、Shader Model 5.0、DirectX 11のサポート
  • 3D/計算パイプラインから独立した専用H.264エンコードエンジン搭載で、トランスコーディング、ビデオ編集などのエンコードアプリケーションでリアルタイム性能を発揮します。
  • 16K x 16Kのサーフェスのテクスチャー処理およびレンダリング処理が可能です。これは、最高解像度や高品質の画像処理が必要なアプリケーションに役立ちます。
  • NVIDIA SMXにより、処理性能および効率が向上します。新たな革新的ストリーミングマルチプロセッサー設計を採用しているため、制御ロジックよりも高い割合の領域が処理コアに割り当てられ、より複雑なモデルに対応できます。
  • Hyper-Q機能により、複数のCPUで同時に1つのGPU上のCUDAコアを使用できます。
  • M4000、M5000、M6000、P6000では、高速PCIe Gen 3.0データ転送により、HPE ProLiantサーバーとTeslaプロセッサーの間の帯域幅を最大化します。
 

仮想デスクトップ / GPU仮想化ソリューション


NVIDIA GRIDは、VDI (Virtual Desktop Infrastructure) 向けに最適化されています。
NVIDIA Tesla M60は、ハイエンドな仮想デスクトップアプリケーション向けで、データセンター内にある仮想デスクトップアプリケーションケーションを使用できます。
また、NVIDIA Tesla M10は、マルチユーザ向けの仮想デスクトップソリューション向けです。4つのNVIDIA Maxwell GPU、2560 CUDAコア、32GB GDDR5メモリーを活用し、ボード当たり64ユーザ、サーバーあたり128デスクトップをサポートします。
このTesla M60およびTesla M10の利用にはNVIDIA GRIDソフトウェアの別途購入が必要になります。


NVIDIA Tesla M60, M10

NVIDIA Tesla M60, M10

モデルラインアップ



NVIDIA Tesla M10の性能

  • ビーク時単精度浮動小数点性能1.3TFlops
  • NVIDIA Tesla M10は2540基 のCUDAコア
  • GDDR5メモリがデータセットを32GB(8GB / GPU)のローカルメモリに保存することで、性能を最適化し、データ転送を減少します。
  • GRIDボードにより、GPU対応仮想化ソリューションを実現します。
  • 別途NVIDIA GRID ソフトウェアの購入が必要になります。


NVIDIA Tesla M60の性能

  • ピーク時倍精度浮動小数点性能 440GFlops
  • ビーク時単精度浮動小数点性能 9.6TFlops (boost)
  • NVIDIA Tesla M60は4096基のCUDAコア
  • GDDR5メモリが大容量のデータセットを16GB(8GB/GPU)のローカルメモリに保存することで、性能を最適化し、データ転送を減少します。
  • GRIDボードにより、Citrix、Microsoft、およびVMwareのGPU対応仮想化ソリューションが実現するため、実績のある幅広いソリューションからニーズに合ったものを柔軟に選択できます。
  • 別途NVIDIA GRIDソフトウェアの購入が必要になります。