Jump to content 日本-日本語

製品  >  ソフトウェア  >  HP- UX Developer Edge

ブレードで実現する「小規模基幹システム」

HP-UX/Integrityサーバー お問い合せ
コンテンツに進む
ブレードで実現する「小規模基幹システム」
ブレードで実現する「小規模基幹システム」
デュアルコア Itanium 2 + HP自社技術 = 「小規模基幹システム」
HP zx2チップセットの高信頼性機能

HP zx2チップセットの高信頼性機能

一方、HPが自社開発したHP zx2チップセットでは、デュアルコアItanium 2の高可用性にふさわしいシステムを構築するための、厳格な高信頼性機能を備えている。HP zx2チップセットでは、ハイエンド・サーバHP Integrity Superdomeにも用いられている信頼性向上技術(HP sx2000チップセット)が投入されており、エントリレベル向けのチップセットでありながらミッションクリティカル環境での利用に最適な高可用性を実現する。

図3:zx2チップセットの高信頼性機能
図3:zx2チップセットの高信頼性機能

表1:HP zx2チップセットの高信頼性機能

1. ハードウェア・メモリ・スクラビング
1ビットエラーの検出と修正をハードウェアで自動化
2. ダブルチップスペア
2つのDRAMチップ障害にも対応可能
3. アドレス・バスとコントロール・バスのパリティ・チェック
アドレス・バスとコントロール・バスの1ビットエラー検出
4. PCI-Express CRC
PCI-Expressのエラー修正機能
5. PCI-X 2.0 ECC
PCI-X 2.0のエラー修正機能

表2:メモリエラーの種類と対処方法

物理メモリで発生するエラー

HP Integrityサーバの機能

説明

修理

α線や中性子線による一時的1ビットの反転によるエラー ECC、メモリスクライビング ECCで検出しメモリスクライビングで訂正 一時的なエラーの為、交換の必要なし
メモリ内部の一部ハードウェア故障による1ビットエラー
(ハードウェア故障のため複数回発生する)
ECC、メモリスクライビング
ページディアロケーション
上記と同様だが、複数回検出された場合は該当するメモリページを利用しない そのページは利用しなくなっているので計画停止を待って交換
1つのメモリチップの障害 チップスペアリング ECCビットを利用して1つのメモリチップの障害を訂正する 1つ目のチップ障害発生時、計画停止を待って交換
2つのメモリチップの障害 ダブルチップスペアリング HP独自機能ECCビットを利用して2つのメモリチップの障害までを訂正する 同上
メモリエラーに関しては多重に保護機能があるため、緊急のシステム停止ではなく余裕を持った計画停止による交換が可能

ダブルチップスペアリング

これらの高信頼性機能の中でも、とりわけ目を引くのが「ダブルチップスペアリング機能」である。ダブルチップスペアリングは、ECCのアルゴリズムにHPの自社技術を加えることで実現した、まったく新しいエラー訂正技術である。簡単に言えば、合計3個のDRAMが故障しない限りシステムダウンしないというメカニズムだ。

従来のメモリ保護技術であるチップスペアでは、1個のDRAMの障害まで耐えることができる。しかしこれでも可用性の面では不十分である。なぜなら、1つのDIMM上でDRAMが1個故障しチップスペアリングの機能によって継続運用されている状況では、さらに1ビットエラーが発生しただけでシステムがダウンしてしまうからだ。そのため従来は、DRAMの障害が発生した場合、緊急メンテナンスを実施してDIMMを交換する必要があった。

これに対しダブルチップスペアリングでは、こうした緊急対応は不要になる。1個のDRAMが故障してもECCメモリと同等の信頼性を確保できるため、1ビットエラーが発生してもシステムは継続運用できる。故障確率が従来の1/17、標準のシングルビットECCの1/1200まで引き下げられているため、DIMMの交換は計画停止のタイミングで実施すれば十分となる。

図4:コンポーネントごとの故障確率
図4:コンポーネントごとの故障確率

メモリスクラビング

メモリスクラビングは、設定レートでソフトメモリエラーをスクラビングすることによって、パフォーマンスへの実質的な影響を回避する予防保全型の機能だ。これにより、一時的なエラーがより重大なシステムの問題として表面化する前に修正される。

図5:メモリスクラビング
図5:メモリスクラビング

I/Oの耐障害性を向上

統計によると、すべてのI/O エラーの原因の90%以上は、I/O ケーブルやデバイス側のI/Oカードに起因するという。そこでHP zx2チップセットでは、PCI-XおよびPCI-Expressの2種類のI/Oバスについて、独自の耐障害性機能を用意している。まず、それぞれのバスは論理的・電気的にも他のバスから分離されており、バス・エラーがシステムのほかの部分に影響する可能性を低く抑えている。またHP zx2チップセットでは「マルチパスI/O」をサポートする。この機能は、ストレージやネットワークに対して複数のリンクを経由してアクセスできる機能だ。これにより、ストレージやネットワークへのI/OがSPOF(単一障害点)となることを防ぐ。HP-UXでは、このマルチパスI/O構成でのリンク障害を検出し、自動的なリンクのフェイルオーバーを実施する。

PCIエラーによるシステムダウンを回避

一般的なシステムの場合、PCIエラー(パリティ・エラーなど)の発生はシステムダウンを意味する。一方HP IntegrityサーバとHP-UXの組み合わせでは、ユニークなPCIエラー処理機能を備えており、PCIエラーが発生した場合でもOS全体のハングアップを回避することができる。特定のPCIスロット上でPCIエラーが発生すると、そのスロットはそれ以降のI/O処理から切り離される。このとき、同スロットに対応するデバイス・ドライバは、エラーを記録した後にサスペンド状態となる。また、HP-UXのolradコマンドを用いることで、PCIスロットやPCIカード、ドライバなどを使用可能な状態にオンラインで復旧することができる。このとき、システム全体のリブートは不要だ。こうした洗練されたI/Oエラー処理のメカニズムと上述のI/Oマルチパス機能の組み合わせにより、システムダウンの原因となるI/Oエラーの90%以上を排除できるという。

以上、ここではデュアルコア Itanium 2とHP zx2チップセットが提供する高信頼性機能について紹介した。外見上はPCサーバと何ら変わりのないHP Integrity BL860cであるが、その中身はまさしくミッションクリティカル環境のための高可用性を実現するテクノロジーのかたまりであることがご理解いただけただろう。

関連リンク

 
HP zx2チップセットの詳細な技術資料 (PDF、447KB)
 

トップへ 戻る    

その他のコラム(特集)もお読み下さい

 
 

本ページの内容は執筆時の情報に基づいており、異なる場合があります。

お問い合わせ

ご購入前のお問い合わせ


ご購入後のお問い合わせ

オンラインサポート
製品の標準保証でご利用いただける無償のサービスです。

ショールーム

ショールーム 導入をご検討のお客様へ
業務アプリケーションの継続・標準化・開発性とシステム担当者様、システム開発者様が抱える悩み・疑問に対する解決策実体験して頂けます。
印刷用画面へ
プライバシー ご利用条件・免責事項