Jump to content
日本-日本語

集結せよ!日本の凄腕テクノロジストたち

 製品 
 サポート 
 ソリューション 

信頼性とは、こういうことだ!

HP Tech Power Club ミッションクリティカル分科会

Content starts here

今までのx86サーバーとはワケが違う

2014年7月、日本ヒューレット・パッカードは「次世代のIT基盤を担う技術者」の連携と育成を掲げ、テクノロジーコミュニティ「HP Tech Power Club」を発足させた。その主要テーマを掘り下げる「ミッションクリティカル分科会」が、2015年1月27日に東京ミッドタウンにて開催された。会場は満席で、ミッションクリティカルシステム分野への注目度の高さが改めて示された。デモを交えたセッション「信頼性とはこういうことだ! 今までのx86サーバーとはワケが違う」をレポートしよう。


日本ヒューレット・パッカード株式会社
プリセールス統括本部 サーバー技術二部
ミッションクリティカルエバンジェリスト
藤川智博

 

日本ヒューレット・パッカード株式会社
プリセールス統括本部 サーバー技術二部
サーバーソリューションアーキテクト
酒元佳子

ミッションクリティカルワークロードに“正しいComputeと最適なコスト”で応える

UNIXサーバーは高コスト、Linuxシステムの可用性はミッションクリティカルな要求を満たせない、x86サーバーのスケールアップ能力ではコアデータベースとして役不足――ミッションクリティカルな要求に対して、既存の様々なシステムにはそれぞれ課題がある。
日本ヒューレット・パッカードの藤川智博は、「ミッションクリティカルなワークロードに対し、“正しいComputeと最適なコスト”で応えるサーバーがHP Integrity Superdome X」と語る。藤川は、長年にわたりHP-UX開発チームおよびプリセールス部隊で活躍してきた。2014年には、テキサス州ダラスのHPサーバー開発拠点でHP Integrity Superdome Xの長期にわたるシステムテストに参画した経験を持つ。
HP Integrity Superdome Xは、高性能インテルR XeonR プロセッサーE7 v2ファミリーを搭載した新世代のミッションクリティカルサーバーとして2014年12月に発表された。最大の特長は、「16ソケット/240コア」、「最大12TBのシングルメモリプール」という巨大なリソースを活用できることにある。
「汎用的なx86システムでありながら、圧倒的なスケーラビリティと高信頼性を実現しています。投資対効果の観点からも、ミッションクリティカルなワークロードをx86システム上で処理できる意義は極めて大きなものです」(藤川)
「HP Integrity Superdome Xの能力が存分に活かされる分野は3つある」と藤川は言う。
第1はゲノム解析などの科学技術計算に用いるHPC分野。第2はミッションクリティカルな基幹業務システムにおけるサーバー統合。第3は、ビッグデータ解析などに威力を発揮するインメモリデータベースとしての活用である。



HPのトップ技術者が7年の歳月をかけた渾身のサーバーシステム

HP Integrity Superdome Xサーバーは、HP ProLiant BL920s Gen8サーバーブレードを最大8ノード搭載する。
「16ソケット/240コアというスケーラビリティと、スケールアップによるリニアなパフォーマンス向上に大きく貢献しているのが、HP独自開発のチップセット『XNC2』です。サーバーブレードを横断して16CPUを高速かつワンホップ(迂回なし)で接続するとともに、キャッシュの一貫性を保つ機能によってトラフィック量を削減しています」(藤川)
実際にHP Integrity Superdome Xは、4ソケットから8ソケットへのスケールアップで1.95倍、8ソケットから16ソケットで1.89倍という性能向上を実現している。
「また、HP Integrity Superdome Xは物理パーティション(nPars)により、8サーバーブレードすべてをつなげて1台の巨大なサーバーとして使うことも、最大8つの小さなサーバーにセキュアに分割して使うこともできます。各サーバーブレードは電気的に分離されているため、耐障害性を高める意味でも有用です」(藤川)



ハイエンドUNIXサーバーに匹敵するRAS機能を実装

「HP Integrity Superdome Xは、“x86サーバーと標準Linux”の環境でハイエンドのUNIXサーバーに匹敵する高信頼性を実現しました。本日の主題ですが、HP Integrity Superdome Xがいかにしてこの高い信頼性を実現しているかをご紹介していきます。実現方法は大きく2つあります」と藤川は話す。
第1は、ハイエンドHP-UXサーバー「HP Integrity Superdome 2」で実績を重ねてきたRAS機能を、HP Integrity Superdome Xに継承したことである。
「HP Integrity Superdome Xでは、『Double Device Data Correction(DDDC)』と呼ばれるメモリ保護機能を搭載しています。一般的なx86サーバーのメモリ保護機能(SDDC)では、DRAMが2つ壊れるとシステムがクラッシュしますが、DDDCでは2つのDRAMが同時に壊れてもシステムに影響を与えることはありません。これによりDIMMモジュールの交換頻度を1/17に削減しています」(藤川)
また、システムインターコネクトのセルフヒーリング機能として、障害を起こしたモジュールを回避して自動的に別経路で通信を維持する「End-to-Endリトライ」機能を備えている。その他にも、一般的なx86サーバーでは対応していない「クロック・ジェネレーターの冗長化」、無限リブートを回避する「故障箇所のリブート時自動切り離し」など、ハイエンドHP-UXシステムの優れたRAS機能を継承している。
「さらに“賢いファームウェア”にもご注目ください。HP Integrity Superdome Xでは、障害情報・イベント情報はOSではなくファームウェアが管理しており、様々な障害の関連性や根本原因の特定を迅速化しています。ユニークなのは、問題を即座に分析して『考えられる原因と推奨アクション』を管理者に提示できることです。後ほどデモの中でご紹介します」(藤川)

 


より高度なRAS機能を“ソフトウェアと連携”して実現

第2は、より高度なRAS機能を“ソフトウェアと連携”して実現していることだ。これを実現するには、グローバルなパートナーとの緊密な協力関係が不可欠だ。藤川は次のように話す。
「HPとグローバルパートナーの協業は広範でかつ長期間に及ぶものです。中でもインテルとの協業は重要です。今回HP Integrity Superdome Xの開発にあたり、HPからのリクエストをIvy Bridge世代のプロセッサー機能としてインテルが実装しました。また、Linuxコミュニティに積極的に協力し、RAS機能をLinuxの標準機能として採り入れています。これからご紹介するソフトウェアとハードウェアが連携した高度なRAS機能は、“標準のLinux機能”として手に入るものになりました」



ソフトウェアと連携したRAS機能のデモンストレーション

ここでサーバーソリューションアーキテクト 酒元佳子が登壇し、2つのRAS機能についてデモンストレーションを披露した。最初のデモは「HP Advanced Error Recovery(MCAリカバリ)」である。ハードウェアから訂正不可能なマルチビットエラーが発生したときに、そのデータをOSに通知してOS側でリカバリを試みる仕組みだ。

 

酒元は、テストプログラムにより物理メモリアドレスに訂正不能なエラーを発生させ、MCAリカバリ機能によって自動的に復旧する手順を見せた。
「一般的なx86サーバーでは、メモリ上に訂正不可能なエラーが発生するとシステムはクラッシュします。これに対してMCAリカバリを搭載したHP Integrity Superdome Xでは、問題のあるメモリを回避して健全なメモリ上で処理を継続させることができます」(酒元)
OS側のMCAログ上でハードウェアエラーであることが記録されるが、同時に『障害分析エンジンを搭載したファームウェア』により詳細なログが記録される。ここでは障害情報のサマリーと解説、原因、推奨アクションまでが明示される。
「エラーバンドルIDから、障害が発生した瞬間のレジスター情報を参照することも可能です。エラーダンプをHPのサポートに提示いただければ、問題の根本原因の特定がさらに容易になります」(藤川)



意図的に発生させたエラーが原因であることまでファームウェア側で検知

2つ目のデモは、「PCIe Live Error Recovery(I/Oエラーリカバリ)」である。PCI Expressなどでクリティカルなエラーが発生した場合に、ファームウェアとOSとドライバーが一体となってリカバリを実行する仕組みだ。


酒元は、NICのレジスターに不正な値をセットしてエラーを発生させるデモを行い、わずか数10秒でネットワークが復旧する様子を示した。
「実際の環境では、ネットワークカードを冗長化することで障害発生時に瞬時に切り替えることができます。このデモでお見せしたかったポイントは、ネットワークカードにエラーが発生してもサーバーが落ちないということです」(酒元)
最初のデモと同様に、システムログ上にエラーの発生とリカバリまでが記録され、ファームウェアログではより詳細な中身を知ることができることが示された。
「原因としてハードウェアの問題を指摘すると同時に、意図的に発生させたエラーが原因であることまでファームウェア側で正確に検知していることがわかります」(藤川)


今までのx86サーバーとはワケが違うHP Integrity Superdome X

HP Integrity Superdome Xと一般的なx86サーバーのRAS機能を一覧で比較するとこれだけの差がある。まさに「今までのx86サーバーとはワケが違う」のである。


HP Integrity Superdome Xには管理モジュール「HP Superdome X Onboard Administrator」が搭載されており、ハードウェアの監視・管理を一元的に行うことができる。酒元は日本ヒューレット・パッカード本社(大島)に設置されたHP Integrity Superdome X実機へアクセスし、Webベースの管理画面の使い勝手の良さを説明した。
「管理画面からVGAコンソールを起動して、リモートでサーバーノードの状態を確認できます。シリアルコンソールにも対応しているため、使い慣れた方法での運用管理が可能です」(酒元)

藤川は、「HP Integrity Superdome Xでは、ハイエンドUNIXサーバーに匹敵するRAS機能によって、x86サーバーの常識を超えた高信頼性を実現しました」と話してセッションを締めくくった。


 このページのトップへ戻る