Jump to content 日本-日本語

製品  >  HP ProLiant サーバ  >  技術情報  >  White Paper

White Paper

技術資料

HP ProLiant サーバ

目次

概要
  エラーの検出と訂正
  ホットプラグRAIDメモリ
-パフォーマンス
  ホットプラグRAIDメモリ
-基本処理
  ホットプラグRAIDメモリ
-ホットプラグ機能
-使用を容易にする ための機能
  まとめ、フィードバック

PDFファイル ダウンロード

このホワイトペーパーのPDFファイルをこちらからダウンロードしてご覧下さい。
(PDFファイル、232KB)
コンテンツに進む

フォルト トレランスとスケーラビリティのためのホットプラグRAIDメモリ テクノロジー


概要

 
このテクノロジー ブリーフでは、今日の24時間365日連続稼動アプリケーションで必要とされるメモリのフォルト トレランス レベルをエンタープライズ クラス サーバで実現するため、HPが開発したホットプラグRAIDメモリ テクノロジーについて解説します。メモリ操作について説明し、メモリの信頼性に関するバックグラウンド情報を提供し、現在のエラー検出および訂正技術を概観し、さらにメモリ容量の増加とともにメモリ エラーに類する現象が増加する理由を説明します。ホットプラグRAIDメモリについて詳細に議論するとともに、堅牢性に劣る別のフォルト トレラント メモリ ソリューションの情報を提供します。
 

はじめに


1990年代に、エンタープライズ コンピューティングに基本的な変化が起こりました。Webブラウザとインターネットの広がりから、瞬時の応答、製品、サービスを要求するグローバルなマーケットプレースが出現しました。高パフォーマンス、高可用性、管理が容易なコンピューティング インフラストラクチャに対するユーザの要求が、指数的に増加しました。

1990年代の変化によって、エンタープライズ クラス サーバの最も重大なサブシステムの1つであるメモリの革新に拍車がかかりました。4GBを超えるメモリに対するオペレーティング システムのサポートと、低コスト、大容量メモリ モジュールの提供により、今日の業界標準アーキテクチャ サーバでは、過去に例のないメモリ容量のサポートに対する要求が発生しています。最近のProLiantサーバは最大16 GBのメモリをサポートしており、近い将来には、メモリ容量は32 GBを超えるレベルに到達する計画です。

メモリが急速に進化する間、メモリ エラーの検出と訂正の方法は以前のままとどまっていました。1993年にPCサーバに導入されたECC(Error Checking and Correcting)メモリが、多くのサーバに対して引き続き優れた保護を提供しています。しかし、メモリ容量の増加とともに、ECCが提供するレベルの保護は実質的に低下しています。

このテクノロジー ブリーフでは、今日の24時間365日連続稼動アプリケーションで必要とされるメモリのフォルト トレランス レベルをエンタープライズ クラスのサーバに提供するため、HPが開発したホットプラグRAIDメモリ テクノロジーについて解説します。ホットプラグRAIDメモリは、業界標準のDIMM(Dual Inline Memory Module)に対して冗長性とホットプラグ機能を提供することにより、過去に類のないレベルの可用性、スケーラビリティ、およびフォルト トレランスを実現します。

このテクノロジー ブリーフでは、メモリの信頼性と現在のエラー検出および訂正技術に関するバックグラウンド情報を提供します。ホットプラグRAIDメモリについて詳細に議論するとともに、堅牢性に劣る別のフォルト トレラント メモリ ソリューションに関する情報を提供します。

メモリの信頼性


ProLiantサーバが採用しているメモリ サブシステムのように、正しく設計されたメモリ サブシステムは非常に高い信頼性を発揮します。たとえば、ProLiantサーバ内のメモリ サブシステムは、可能な限り最高の品質を保証するよう設計され、徹底的に検査されています。ProLiant製品のメモリ モジュールは、HP World Class Suppliers Processを通して徹底的な資格検査を受け、業界標準仕様への準拠を保証しています。

メモリ システムの一貫性は、DIMMの信頼性から始まります。すべてのProLiantサーバは業界標準DIMMを使用していますが、業界標準を満足するだけでは十分ではありません。厳密なテストは、さらにProLiantサーバ内のすべてのDIMMが厳格な電気仕様も満足することを保証しています。

メモリは電子的なストレージ デバイスなので、元々格納されていたものとは異なる情報を返す可能性があります。DRAM(Dynamic Random Access Memory)は、0と1を非常に小さなコンデンサに電荷として格納していますが、このコンデンサは、データの消失を防止するために頻繁にリフレッシュが必要です。各メモリ ビットは、デジタル システムの標準で、0か1のどちらかになります。メモリ セルの近くで比較的小さな電気的な変動が発生すると、コンデンサの電荷が変化する可能性があり、メモリ セルに格納されているデータ ビットの状態が変化し、メモリ エラーを引き起こすことがあります。

メモリ システムでは、一般に2種類のエラーが発生する可能性があります。1つは反復エラーまたはハード エラーと呼ばれます。この状態では、ハードウェアの一部が破損しており、定常的に誤った結果が返されます。たとえば、ビットが固定してしまい、"1"を書き込んでも"0"が返される場合があります。ハード エラーは、メモリの欠陥や接続の損傷など、物理的な問題を意味しています。

メモリ サブシステムで発生する大部分のエラーはソフト エラーです。ソフト エラーは不定期に発生する現象であり、デバイスに格納されたデータが変化します。ソフト エラーは回路の問題で発生するものではないので、いったんデータを修正すると、再発することはありません。

調査結果によると、ソフト エラーは主に宇宙線によって発生します。宇宙線は銀河の奥深くから飛来する高エネルギー粒子であり、源は分かっていません。これらの粒子は、大気(約4mのコンクリート壁と同等)を貫くのに十分なエネルギーを持っています。このような粒子がメモリ ストレージ デバイスに衝突すると、データが変化する可能性があります。一般に、この事象の結果としてシングル ビット エラーが発生しますが、時に複数のビットに影響を及ぼすことがあります。IBMが、メモリ エラー比率に対する宇宙線の影響を詳しく調査しています。その結果として、約3,200mの高度では海面に比べて10倍のソフト エラー比率を計測したことが報告されています。さらに、約15mの岩盤の洞窟でテストしたシステムでは、宇宙線が効果的に排除され、ソフト エラーは計測されませんでした。*

*出展:Timothy J. Dell、『A White Paper on the Benefits of Chipkill-Correct ECC for PC Server Main Memory』、IBM Microelectronics Division、Rev. 11/19/97。

  次のページへ

PDFファイルをご覧いただくには、Adobe® Reader® が必要です。
アドビシステムズ社のウェブサイト より、ダウンロード(無料)の上ご覧ください。
印刷用画面へ印刷用画面へ
プライバシー ご利用条件・免責事項