Jump to content 日本-日本語
日本HPホーム 製品 & サービス サポート & ドライバー ソリューション ご購入方法
≫  お問い合わせ

製品とサービス  >  ソフトウェアとOS  >  HP- UX Developer Edge

新しいHP Integrityサーバの魅力を探る・後編

HP-UX/Integrityサーバー お問い合せ
コンテンツに進む
新しいHP Integrityサーバの魅力を探る・後編
新しいHP Integrityサーバのもうひとつの魅力は「フェイルセーフ」の能力、つまり「障害時にもシステムダウンを極力回避できる力だ。例えば新開発のエラー訂正技術「ダブルチップスペア」の投入により、合計3個のDRAMが故障しない限りシステムダウンは発生しないメモリシステムが実現された。またクロスバーやI/Oとセルボードを結ぶ高速シリアルリンクでは、エラー発生時にもデータの再送信を行う「リンクレベルリトライ」やリンク障害時の縮退動作といった自己修復機能により、システムはあくまでも継続運用を試みる。ミッションクリティカル・サーバに集約された多彩なノウハウや知恵を紹介する。
新しいHP Integrityサーバの魅力を探る・後編
HP sx2000チップセットのフェイルセーフ能力とは
スピードと可用性を両立した高速シリアルリンク
テクニカルライター  吉川和巳

HP sx2000チップセットのフェイルセーフ能力とは

ハイエンドおよびミッドレンジの新しいHP Integrityサーバに加わったもうひとつの魅力、それは「フェイルセーフ」の能力である。これはすなわち、「障害時にもシステムダウンを極力回避できる力」と表現できるだろう。

新開発のHP sx2000チップセット(以下、sx2000)を搭載するHP SuperdomeHP rx8640HP rx7640 といったIntegrityサーバの上位機種は、nPars(nPartitions)vPars(Virtual Partitions)Integrity VM などHPの仮想化技術を用いたサーバ・コンソリデーションに利用されるケースが少なくない。しかし多数のアプリケーションを集積すればするほど、その土台となるサーバのリブートは原則的に許されなくなる。つまり求められる可用性も、一般的なサーバに比べて段違いに高いものとなるのだ。そこでsx2000では、万が一のトラブル時にもシステムダウンを極力回避し、システム運用を自律的に継続できる機能が数多く盛り込まれた。

そのひとつが、sx2000のメモリシステムに導入された「ダブルチップスペア」と呼ばれる、画期的と言ってよいエラー訂正技術の導入である。

メモリエラーとエラー訂正技術

周知のとおり、メモリ上に記録されたデータは、メモリエラーの発生によって失われるリスクが常につきまとう。メモリエラーは、大きく分けて「ソフトエラー」と「ハードエラー」の2種類に分類できる。

このうちソフトエラーは、単発的に発生するエラーであり、宇宙線がDRAM内部のメモリセルに衝突することで発生する。実際、分厚い岩盤の中ではソフトエラーは発生せず、高度3,000mでは10倍に増えるという。ソフトエラーが起きると通常1ビット〜数ビットのデータが失われ、メモリ集積度とともにその発生確率も上昇する。一般的には、1GBのメモリ(非ECC)を搭載したPCの場合、ソフトエラーによるシステムダウンの発生確率は1年で7〜8割程度と言われている。

一方、ハードエラーは、DRAMそのもののハードウェア障害によって発生する。その確率はソフトエラーよりも大幅に低いものの、ゼロにすることはできない。ハードエラーが発生すると、場合によっては1個のDRAM全体のデータが失われる。

これらのメモリエラーに対処するため、これまで以下のようなエラー検出・訂正技術が利用されてきた。

  • パリティ付きメモリ
  • ECC(Error Correction Code)メモリ
  • チップスペア/チップキル
  ご存じのとおりパリティ付きメモリとは、通常のデータに加えてパリティビットをDIMM上に保持することで、1ビットエラーの検出を行う。しかしこうしたパリティチェックではエラー訂正までは行えず、ソフトエラー発生時にはシステムダウンが免れないため、最近ではあまり用いられていない。

一方、PCサーバ製品の大半が実装するECC(Error Correction Code)メモリは、64ビットのデータに対して8ビットの冗長ビットを付加することで、1ビットエラーの訂正と2ビットエラーの検出を可能にしたものである。ECCメモリを導入することでソフトエラーによるシステムダウンの確率は低くなるものの、ハードエラーの発生時には4ビットや8ビット(DRAMの1ワード)単位でデータが失われる可能性が高く、ECCによるエラーの訂正や検出が不可能になる。

そこで従来のIntegrityサーバのすべてのモデルをはじめ、ベンダー各社のハイエンド/ミッドレンジサーバでは、チップスペアもしくはチップキルとも呼ばれるエラー訂正技術が採用されている。チップスペアでは、データを1ビットずつ異なるDRAMに分散して保存することで、DRAM全体が故障しても「大量の1ビットエラー」として扱うことでECCによる訂正が可能になる。これはちょうどRAID構成によるハードディスクの冗長化に似たメカニズムと言える。

図1:チップスペアのメカニズム
図1:チップスペアのメカニズム

「ダブルチップスペア」のねばり強さ

ダブルチップスペアは、ECCのアルゴリズムにHPが独自の改良を加えることで実現した、まったく新しいエラー訂正技術である。簡単に言えば、合計3個のDRAMが故障しない限りシステムダウンしないというメカニズムだ。以下の表は、既存のエラー訂正技術とダブルチップスペアを比較した表である。

<表:エラー訂正技術によるエラー対処の違い>
エラー規模 パリティ ECC チップスペア/チップキル ダブルチップスペア
1ビット 検出(ダウン) 訂正 訂正 訂正
2ビット 検出不可 検出(ダウン) 訂正 訂正
DRAM×1個 検出不可 検出不可 訂正(即交換) 訂正(要交換)
DRAM×2個 検出不可 検出不可 検出(ダウン) 訂正(即交換)
DRAM×3個 検出不可 検出不可 検出不可 検出ダウン

従来のチップスペアでは、1個のDRAMの障害まで耐えることができる。しかしこれでも可用性の面では不十分であると白井氏は説明する。「1つのDIMM上でDRAMが1個故障しチップスペアリングの機能によって継続運用されている状況で、さらに1ビットエラーが発生しただけでシステムがダウンしてしまいます。クラスタ環境であればフェイルオーバーで復旧されますが、一時的にパフォーマンスの低下やフェイルオーバが完了するまで業務中断してしまうこともあり得ます。従いましてチップスペアリングの機能ではDRAMが1個つ故障後には、すみやかにシステムを止めてDIMMを交換しておく必要がありました。」(白井氏)

これに対しダブルチップスペアに対応したsx2000ベースのIntegrityサーバでは、こうした緊急対応は不要になるとフェルゼンタール氏は説明する。「ダブルチップスペアでは、1個のDRAMが故障してもECCメモリと同等の信頼性を確保できるため、1ビットエラーが発生してもシステムは継続運用できます。よってDIMMの交換は計画停止のタイミングで実施すれば十分です」

事前に計画されたシステム停止と、緊急メンテナンスによるシステム停止では、サービスや業務に対する影響はまったく異なってくる。このようにダブルチップスペアは、“もしも”の事態でも可能な限り継続運用できる、「ねばり強い」メモリシステムと言えるだろう。  つづく後半では、sx2000から新たに投入された高速シリアルリンク技術、「HSS」がもたらす高可用性に注目してみたい。

トップへ   次のページへ

本ページの内容は執筆時の情報に基づいており、異なる場合があります。

お問い合わせ

ご購入前のお問い合わせ


ご購入後のお問い合わせ

オンラインサポート
製品の標準保証でご利用いただける無償のサービスです。

ショールーム

ショールーム 導入をご検討のお客様へ
業務アプリケーションの継続・標準化・開発性とシステム担当者様、システム開発者様が抱える悩み・疑問に対する解決策実体験して頂けます。
印刷用画面へ
プライバシー ご利用条件・免責事項 ウェブマスターに連絡