NVIDIAアクセラレータ
オプション

HPE ProLiantサーバーでは、NVIDIA® Tesla™、NVIDIA® GRID™、およびNVIDIA® Quadro™グラフィックスプロセッシングユニット (GPU) テクノロジーをベースとするアクセラレータモジュールをサポートしています。HPE Apolloシリーズ、ProLiant DLシリーズ、MLシリーズのサーバー向けにHPEが提供するNVIDIAアクセラレータをご紹介します。
※ Graphics Server Blade ソリューション用NVIDIAグラフィックス オプションについては弊社担当営業、もしくは、弊社製品取り扱いパートナーまでお問い合わせください。

NVIDIAのCUDA™アーキテクチャーをベースとするNVIDIAアクセラレータは、GPUコンピューティングとHPE ProLiantサーバーをシームレスに統合し、高性能なコンピューティング、大規模なデータセンターグラフィックス、および仮想デスクトップ配備を可能 にします。GPUコンピューティングの標準的なメリットをすべて実現しながら、優れた信頼性を発揮し、HPE Insight Cluster Management UtilityなどのHPE製システム監視および管理ツールと緊密に統合できます。

製品別リンク


GPUコンピューティング/ディープラーニング

  • NVIDIA Tesla P100 PCIe 16GB
  • NVIDIA Tesla P40 24GB
  • NVIDIA Tesla P4 8GB
  • NVIDIA Tesla M40 24GB
  • NVIDIA Tesla M4 4GB
  • NVIDIA Tesla K80

グラフィクス

プロフェッショナル グラフィックカード

  • NVIDIA Quadro P6000
  • NVIDIA Quadro M6000 24GB
  • NVIDIA Quadro M6000
  • NVIDIA Quadro M5000
  • NVIDIA Quadro M4000
  • NVIDIA Quadro M2000
  • NVIDIA Quadro K6000
  • NVIDIA Quadro K2200

仮想デスクトップ/GPU仮想化ソリューション

  • NVIDIA Tesla M60
  • NVIDIA Tesla M10
 

GPUコンピューティング/ディープラーニング


NVIDIA Tesla GPUシリーズは多目的な演算アクセラレータで、構造化された数値アルゴリズムの性能を向上させるのに最適です。
これらのGPUはCUDA®をベースとし、ダイナミック並列処理やHyper-Qなどのテクノロジーも搭載しており、性能に加え効率の向上も実現します。アクセラレータによる効果が期待できる アプリケーションとしては、地震データ処理、生化学シミュレーション、天候および気候モデリング、画像/ビデオ/シグナル処理、金融工学、計算物理学、 CAE、CFD、データ分析などがあります。
NVIDIA Tesla M40 24GBモジュールは、 ディープラーニング向けに最適化された単精度カードです。
NVIDIA Tesla K40(C)/K80モジュールはいずれも多目的な用途において、単精度と倍精度の両方のアルゴリズムが最適化されています。 オンボードメモリの容量はそれぞれ12GB、24GBです。


NVIDIA Quadro K2200, M2000 NVIDIA Tesla K80, M60, P100
 
NVIDIA P4, M4, P40  


Tesla P100 PCIe 16GBモジュールの性能

  • HPCやディープラーニングに最適化された演算アクセラレータ
  • 3584 CUDAコア
  • NVIDIA GPU Boost機能により、温度・電力消費の余裕に応じてクロック周波数をブースト
  • 9.3 Tflops (ブースト時) 単精度演算
  • 4.7 Tflops (ブースト時) 倍精度演算
  • 16GB CoWoS HBM2 (720 GB/s)
  • 合計4 GBのGDDR5メモリーは、ローカルメモリ内での大きなデータセットの維持によりデータ転送を減少させ、性能を最適化します。
  • NVIDIA Parallel DataCache™ は事前にデータアドレスがわからないアルゴリズムを加速させます。この機能には、ストリーミングマルチブロックあたり構成可能なL1キャッシュ、すべてのプロセッサーコア向けのL2キャッシュを含みます。
  • 非同期の転送ターボは、PCIeバスを超えるデータ転送によりシステムパフォーマンスを変えます。コンピューティングコアが他のデータを掴んでいる状況でもです。地震処理のような重いデータ転送を伴うアプリケーションでさえも、データが必要になる前にローカルメモリーへのデータ転送によりコンピューティングの効率性を最大化が出来ます。

Tesla P40の性能

  • ディープラーニングに最適な、単精度性能に優れたアクセラレータ
  • 3840個のCUDAコア
  • NVIDIA GPU Boost機能により、温度・電力消費の余裕に応じてクロック周波数をブースト
  • 12TFLOPSの単精度のピーク性能
  • GDDR5メモリが大容量のデータセットをGPUに接続された24 GBのローカルメモリに保存することで、パフォーマンスを最適化し、データ転送を減少します。
  • NVIDIA Parallel DataCache™により、物理ソルバー、レイトレーシング、疎行列乗算などの、事前にデータアドレスが不明なアルゴリズムを高速化します。このキャッ シュには、ストリーミングマルチプロセッサーブロックごとに構成可能なL1キャッシュ1つと、すべてのプロセッサーコアに対して統合L2キャッシュ1つが 含まれます。
  • 非同期転送により、コンピューティングコアが他のデータを処理している間にPCIeバス経由でデータを 転送することで、システム性能が大幅に向上します。地震データ処理のような大容量のデータ転送が必要なアプリケーションでも、必要になる前にデータをロー カルメモリに転送しておくことで、コンピューティング効率を最大化できます。
  • ダイナミック並列処理機能により、GPUスレッドで新しいスレッドを自動的に作成できます。
  • Hyper-Q機能により、複数のCPUで同時に1つのGPU上のCUDAコアを使用できます。
  • 高速PCIe Gen 3.0データ転送により、HPE ProLiantサーバーとTeslaプロセッサーの間の帯域幅を最大化します。

Tesla P4の性能

  • ディープラーニングに最適な、単精度性能に優れたアクセラレータ
  • 2560個のCUDAコア
  • NVIDIA GPU Boost機能により、温度・電力消費の余裕に応じてクロック周波数をブースト
  • 5.5TFLOPSの単精度のピーク性能
  • GDDR5メモリが大容量のデータセットをGPUに接続された 8 GBのローカルメモリに保存することで、パフォーマンスを最適化し、データ転送を減少します。
  • NVIDIA Parallel DataCache™により、物理ソルバー、レイトレーシング、疎行列乗算などの、事前にデータアドレスが不明なアルゴリズムを高速化します。このキャッ シュには、ストリーミングマルチプロセッサーブロックごとに構成可能なL1キャッシュ1つと、すべてのプロセッサーコアに対して統合L2キャッシュ1つが 含まれます。
  • 非同期転送により、コンピューティングコアが他のデータを処理している間にPCIeバス経由でデータを 転送することで、システム性能が大幅に向上します。地震データ処理のような大容量のデータ転送が必要なアプリケーションでも、必要になる前にデータをロー カルメモリに転送しておくことで、コンピューティング効率を最大化できます。
  • ダイナミック並列処理機能により、GPUスレッドで新しいスレッドを自動的に作成できます。
  • Hyper-Q機能により、複数のCPUで同時に1つのGPU上のCUDAコアを使用できます。
  • 高速PCIe Gen 3.0データ転送により、HPE ProLiantサーバーとTeslaプロセッサーの間の帯域幅を最大化します。

Tesla M40 24GBモジュールの性能

  • Tesla M40は特にディープラーニングなどの単精度アプリケーション向け
  • 3,072個のCUDAコア
  • GPUブーストにより、熱上昇を引き起こしたり電力制限に達したりすることなく、クロック周波数を一時的に増加させることができます。
  • 7TFLOPS (単精度のピークパフォーマンス)
  • GDDR5メモリが大容量のデータセットを24GBのローカルメモリに保存することで、パフォーマンスを最適化し、データ転送量を削減します。
  • NVIDIA Parallel DataCache™により、事前にデータアドレスが不明なアルゴリズムを高速化します。
  • 非同期転送により、コンピューティングコアが他のデータを処理している間に、PCleバス経由でデータを転送することで、システム性能が大幅に向上します。
  • ダイナミック並列処理機能により、GPUスレッドで新しいスレッドを自動的に作成できます。
  • Hyper-Q機能により、複数のCPUコアで同時に1つのGPU上のCUDAコアを使用できます。
  • 高速PCIe Gen 3.0データ転送により、HPE ProLiantサーバーとTeslaプロセッサーの間の帯域幅を最大化します。

Tesla M4 4GBモジュールの性能

  • Tesla M4は、ディープラーニングや 推論向けの単精度演算向け
  • 1024 CUDAコア
  • NVIDIA GPU Boostは、温度条件や電力条件に影響されないクロック周波数バーストを可能にします。
  • 2.2 Tflops (ブースト時) 単精度演算
  • 合計4 GBのGDDR5メモリーは、ローカルメモリ内の大きなデータセットを維持によりデータ転送を減少させ、性能を最適化します。
  • NVIDIA Parallel DataCache™ は事前にデータアドレスがわからないアルゴリズムを加速させます。この機能には、ストリーミングマルチブロックあたり構成可能なL1キャッシュ、すべてのプロセッサーコア向けのL2キャッシュを含みます。
  • 非同期の転送ターボは、PCIeバスを超えるデータ転送によりシステムパフォーマンスを変えます。コンピューティングコアが他のデータを掴んでいる状況でもです。地震処理のような重いデータ転送を伴うアプリケーションでさえも、データが必要になる前にローカルメモリーへのデータ転送によりコンピューティングの効率性を最大化が出来ます。
  • Hyper-Q の特徴は、複数のCPUコアの一つのGPU上のCUDAコアの同時活用を可能にします。
  • 高速なPCIe Gen 3.0 データ転送はHPE ProLiant サーバーとTesla プロセッサー間のバンド幅を最大化します。

Tesla K80の性能

  • 4992個のCUDAコア (GPUあたり2496コア)
  • 1.87 Tflops / ブースト時2.7 Tflops (倍精度のピークパフォーマンス)
  • 5.6 Tflops / ブースト時8.1Tflops (単精度のピークパフォーマンス)
  • GDDR5メモリが大容量のデータセットをGPUに接続された24GBのローカルメモリに保存することで、パフォーマンスを最適化し、データ転送を減少します。
  • NVIDIA Parallel DataCache™により、物理ソルバー、レイトレーシング、疎行列乗算などの、事前にデータアドレスが不明なアルゴリズムを高速化します。このキャッ シュには、ストリーミングマルチプロセッサーブロックごとに構成可能なL1キャッシュ1つと、すべてのプロセッサーコアに対して統合L2キャッシュ1つが 含まれます。
  • 非同期転送により、コンピューティングコアが他のデータを処理している間にPCIeバス経由でデータを転送することで、システム性能が大幅に向上 します。地震データ処理のような大容量のデータ転送が必要なアプリケーションでも、必要になる前にデータをローカルメモリに転送しておくことで、コン ピューティング効率を最大化できます。
  • ダイナミック並列処理機能により、GPUスレッドで新しいスレッドを自動的に作成できます。
  • Hyper-Q機能により、複数のCPUで同時に1つのGPU上のCUDAコアを使用できます。
  • Hyper-Q の特徴は、複数のCPUコアの一つのGPU上のCUDAコアの同時活用を可能にします。
  • 高速なPCIe Gen 3.0 データ転送はHPE ProLiant サーバーとTesla プロセッサー間のバンド幅を最大化します。

 

グラフィクス

NVIDIA Quadro GPUは、さまざまなプロフェッショナル仕様のアプリケーションにおいて、優れたグラフィックパフォーマンスを発揮します。
Quadro K2200、M2000およびM4000アダプターのオンボードメモリの容量はそれぞれ2GB、4GB、4GB、8GBで、 マルチモニター機能を備えたリモート仮想化に最適です。K5200、M5000、K6000、M6000およびM6000 24GBアダプターのオンボードメモリは それぞれ8GB、8GB、12GB、12GBおよび24GBで、大規模な高解像度の3Dリモート仮想化に最適なアダプターです。


NVIDIA Quadro K4200, M4000 NVIDIA Quadro K6000,
M5000, M6000, M6000 24GB
 
NVIDIA Quadro K2200, M2000  


Quadro K2200/K4000/K4200/K5000/5200/K6000/
M5000/M6000の性能

  • K2200が640個、K4000が768個、K4200が1,344個、K5000が1,436個、K5200が2,304個、K6000が2,880個、M5000が2,048個、M6000が3,072個、P6000が3,840個のCUDAコア
  • K2200が4GB 、K4000が3GB、K4200が4GB 、K5000が4GB、K5200が8GB 、K6000が12GB、M6000が12GB、M6000 24GBとP6000が24GBのGDDR5メモリ
  • OpenGL 4.3、Shader Model 5.0、DirectX 11のサポート(K2200、K4200、K5200はOpenGL4.4もサポート)
  • 3D/計算パイプラインから独立した専用H.264エンコードエンジン搭載で、トランスコーディング、ビデオ編集などのエンコードアプリケーションでリアルタイム性能を発揮します。
  • 16K x 16Kのサーフェスのテクスチャー処理およびレンダリング処理が可能です。これは、最高解像度や高品質の画像処理が必要なアプリケーションに役立ちます。
  • NVIDIA SMXにより、処理性能および効率が向上します。新たな革新的ストリーミングマルチプロセッサー設計を採用しているため、制御ロジックよりも高い割合の領域が処理コアに割り当てられ、より複雑なモデルに対応できます。
  • Hyper-Q機能により、複数のCPUで同時に1つのGPU上のCUDAコアを使用できます。
  • K6000、M4000、M5000、M6000、P6000では、高速PCIe Gen 3.0データ転送により、HPE ProLiantサーバーとTeslaプロセッサーの間の帯域幅を最大化します。

 

仮想デスクトップ/GPU仮想化ソリューション


NVIDIA GRIDは、VDI (Virtual Desktop Infrastructure) 向けに最適化されています。
NVIDIA Tesla M60は、ハイエンドな仮想デスクトップアプリケーション向けで、データセンター内にある仮想デスクトップアプリケーションケーションを使用できます。
また、NVIDIA Tesla M10は、マルチユーザ向けの仮想デスクトップソリューション向けです。 4つのNVIDIA Maxwell GPU、2560 CUDAコア、32GB GDDR5メモリーを活用し、ボード当たり64ユーザ、サーバーあたり128デスクトップをサポートします。
このTesla M60およびTesla M10の利用にはNVIDIA GRIDソフトウェア の別途購入が必要になります。

NVIDIA Tesla M60 NVIDIA Tesla M10
NVIDIA Tesla M60 NVIDIA Tesla M10

NVIDIA Tesla M10の性能

  • ビーク時単精度浮動小数点性能1.3TFlops
  • NVIDIA Tesla M10は2540基 のCUDAコア
  • GDDR5メモリがデータセットを32GB(8GB/GPU)のローカルメモリ に保存することで、性能を最適化し、データ転送を減少します。
  • GRIDボードにより、GPU対応仮想化ソリューションを実現します。
  • 別途NVIDIA GRID ソフトウェア の購入が必要になります。

NVIDIA Tesla M60の性能

  • ピーク時倍精度浮動小数点性能 440 GFlops
  • ビーク時単精度浮動小数点性能9.6 TFlops (boost)
  • NVIDIA Tesla M60は4096基 のCUDAコア
  • GDDR5メモリが大容量のデータセットを16GB(8GB/GPU)のローカルメモリ に保存することで、性能を最適化し、データ転送を減少します。
  • GRIDボードにより、Citrix、Microsoft、およびVMwareのGPU対応仮想化ソリューションが実現するため、実績のある幅広いソリューションからニーズに合ったものを柔軟に選択できます。
  • 別途NVIDIA GRIDソフトウェア の購入が必要になります。


HPE GPUエコシステムには、HPE Cluster Platformの仕様と認定、HPEがサポートするGPU対応クラスターソフトウェア、およびNVIDIA Tesla/Quadro/GRIDモジュールを搭載したHPE ProLiantサーバー向けのサードパーティ製GPU対応クラスターソフトウェアが含まれます。特にHPE Insight Cluster Management Utility (CMU) は、温度などのGPUヘルスセンサーを監視および表示します。


 

機能


信頼性

ECCメモリは、データセンターおよびスーパーコンピューティングセンターにおけるコンピューティング の精度と信頼性というクリティカルな要件を満たします。メモリ内のデータを保護することで、アプリケーションのデータの整合性と信頼性を向上させます。 K20、K20X、およびK40(C) では、レジスタファイル、L1/L2キャッシュ、共有メモリ、およびDRAMのすべてがECCで保護されます。K2およびK10では、外部DRAMのみが ECCで保護されます。ダブルビットエラーが検出された場合、HP Cluster Management Utilityでアラートを送信できます。
パッシブヒートシンク設計により、可動部品とケーブルが不要になり、平均故障間隔が長くなりました。



プログラミングおよび管理のエコシステム

CUDAのプログラミング環境は、幅広いプログラミング言語およびAPIをサポートしています。C、 C++、OpenCL、DirectCompute、またはFortranを選択して、アプリケーションの並列処理を記述し、革新的なTeslaアーキテ クチャーを活用できます。CUDAソフトウェアとGPUドライバーは、HP Insight Cluster Management UtilityによりHPE ProLiantサーバーに自動的にインストール可能です。
排他モードでは、アプリケーションは特定のGPUに排他的にアクセスできます。CUDA環境変数を用いると、アプリケーションが使用可能なTeslaおよびGRID GPUの数をクラスター管理ソフトウェアで制限できます。
HPE ProLiantサーバーを使用すると、アプリケーションプログラマーは個々のコアで実行中のプロセスと各プロセスが通信するGPUとのマッピングを制御 できます。適切なマッピングにより、GPUの帯域幅、ひいては全体のパフォーマンスが最適化されます。この方法については、HPのWebサイト www.hp.com/go/hpc (英語) で入手可能な、お客様向けホワイトペーパーに記載されています。このアフィニティマッピングのヒューリスティック版もHPによってmpirunコマンドの オプションとして実装済みで、HP HPC Linux Value Packの一部として提供されているHP-MPIなどで利用されています。
GPUの制御はnvidia-smiツールで行い、計算モード (排他など) の制御、ECCの有効化/無効化/レポート、およびダブルビットエラーカウントのチェック/リセットが可能です。IPMIおよびiLOは、GPU温度など のデータを収集します。HP Cluster Management Utilityはこれらのセンターを監視機能に組み込んでいるため、クラスター全体のGPUデータをリアルタイムで表示したり、履歴データ分析のために保 存したりできます。また、GPUデータを使用すると、管理アラートを容易に設定できます。



サポートされるオペレーティングシステム

  • RHEL 6
  • SLES 11
  • Windows Server 2012 R2

注: NVIDIA Tesla/GRID/Quadroモジュールは、64ビット版のLinuxおよびWindowsオペレーティングシステムと、仮想マシンクライアントオ ペレーティングシステムでのみサポートされます。サポートされるベアメタルオペ レーティングシステム



保証

NVIDIA Tesla/GRID/Quadro GPUモジュールには、1年間の部品交換保証が付属しています。
詳細については、Webサイト(英語)を参照してください。


 

オプション機能


サードパーティ製GPUクラスターおよび開発ソフトウェア

汎用GPUを使用するシステムのための新しいアプリケーションソフトウェアや開発ツールが毎週のように登場しています。さまざまなベンダーから提供されているソフトウェアの一部を以下に紹介します。

PGIアクセラレータ: Fortran/Cコンパイラ (ディレクティブベースでのCUDAコード生成、追加でCUDA Fortranコンパイラ)
CAPS HMPP: C/Fortran用CUDA Cコンパイラ (ディレクティブベースでのCUDAコード生成)
TotalView: C/C++/Fortran HPCアプリケーション用ダイナミックソースコードおよびメモリデバッグツール
Allinea DDT: 分散デバッグツール
Wolfram Mathematica: 数理解析ソフトウェア
Altair PBS Professional: ワークロードスケジューラー
Platform LSF: ワークロードスケジューラー
Adaptive Computing Moab: スケジューラー
Microsoft Windows HPC Server 2008



サービスおよびサポート

ProLiantサーバーのためのHPテクノロジーサービス
ProLiantサーバーへの投資にあたっては、社内の複雑化したビジネステクノロジー環境に精通したサービスパートナーの存在が不可欠です。つまり、 HPEインフラストラクチャのハードウェアおよびソフトウェアを最も良く理解している、HPEサービスの経験豊富なプロフェッショナルと連携するのが最善の方法です。

HP Care Packサービスで保証の範囲を超えてビジネスを保護
HPオプションの購入は、必要なサービスのレベルについて検討するよい機会でもあります。HP Care Packサービスでは、ITおよびビジネスのニーズに応えるために、完全なサービスと専門的なサポートを、あらかじめ指定された内容で提供します。

HPファウンデーションケアサービスは、業界標準であるHPのサーバーとソフトウェアの、拡張性の高いリアクティブサポートパッケージを提供します。IT およびビジネスニーズに最も適したサービスのタイプとレベルを選択できます。HPプロアクティブケアは、予防的なサービス管理と高度な技術的対応を通じて 高水準のシステム可用性を実現します。