Jump to content 日本-日本語
製品  >  HP ProLiant サーバ  >  技術情報  >  White Paper

whitepaper

技術資料

HP ProLiant サーバ

目次

概要 / 本書で使用している略語 / はじめに
  マイクロアーキテクチャの類似性
  マイクロアーキテクチャの相違点
  システムアーキテクチャの相違点
  32ビットパフォーマンスの比較
  まとめ / 付録A / 関連情報 / ご意見をお寄せください

PDFファイル ダウンロード

このホワイトペーパーのPDFファイルをこちらからダウンロードしてご覧下さい。
(PDFファイル、909KB)
コンテンツに進む

業界標準サーバ用のx86プロセッサの特性 - AMD OpteronおよびIntel Xeon
技術概要、第2版


システムアーキテクチャの相違点

既に述べたように、サーバのパフォーマンスは、プロセッサのマイクロアーキテクチャと、プロセッサとサーバのメモリおよびI/Oサブシステムとのインタフェース方法の両方に依存します。 システムレベルでは、XeonアーキテクチャとOpteronアーキテクチャには、主な相違点として次の2点があります。
  • Xeonファミリプロセッサは、パラレルの共有フロントサイドバスを使用して、メモリとI/Oサブシステムに接続された個別のチップセットにアクセスします。
  • Opteronプロセッサには、メモリに直接接続できる自身の内蔵メモリコントローラが含まれます。 このプロセッサは、共有フロントサイドバスに比べて非常に高い帯域幅と低いレイテンシを提供する、ポイントツーポイントのHyperTransportリンクを使用してI/Oサブシステムに接続します。
 
  この項では、プロセッサの選択により発生し得るシステムアーキテクチャの相違について、一般用語のみで説明します。 ProLiantプラットフォームの詳細情報については、HPのWebサイト
http://h50146.www5.hp.com/products/servers/proliant/
を参照してください。
 

Intelアーキテクチャ

システムが1つ、あるいは8つのXeonファミリプロセッサを使用しても、これらのプロセッサとメモリあるいはI/Oサブシステムとの間のすべての通信要求は、プロセッサから1つまたは2つのフロントサイドバスを通ってノースブリッジチップへ、次にメモリまたはI/Oに接続されるサウスブリッジチップへと伝送されます。 したがって、メモリとI/Oサブシステムの帯域幅、スケーラビリティ、レイテンシは、フロントサイドバスの属性と同様、チップセットの設計によって大幅に変わります。

帯域幅
Intelフロントサイドバス(FSB)は、バス上のプロセッサが帯域幅を均等に共有する、パラレルの64ビット マルチドロップテクノロジです。 2005年10月時点で発売中のProLiantプラットフォームでは、400〜800MHzの効果的なフロントサイドバス速度を持つXeonファミリプロセッサの世代が使用されています。 この結果、FSBの最大帯域幅は3.2〜6.4GB/秒となります。
図8にXeonプロセッサを使用した2Pサーバアーキテクチャの代表例を示します。すべてのメモリトラフィックはノースブリッジを通り、唯一のメモリコントローラの役割を果たします。すべてのI/Oトラフィックは引き続きハブまたはサウスブリッジを通ってI/Oデバイスに伝達されます。
 
図8. Xeonプロセッサを使用した2Pサーバアーキテクチャの例
図8. Xeonプロセッサを使用した2Pサーバアーキテクチャの例
  Xeon MPプロセッサファミリを使用する最近の4P ProLiantプラットフォームには、フロントサイドバスを1つではなく2つ使用し、1つのノースブリッジではなく複数のメモリコントローラを使用するIntelチップセットが組み込まれています(図9)。 複数のメモリコントローラを使用するとメモリアクセスが同時に実行でき、メモリのパフォーマンスが向上します。 しかしチップセットは、メモリ要求が発生するたびに、1つのバス上のプロセッサが他のバスをスヌープすることを要求するため、フロントサイドバスは未だに制限要因となっています。
 
図9. Xeon MPプロセッサとデュアル フロントサイドバスを使用する4Pアーキテクチャの例
図9. Xeon MPプロセッサとデュアル フロントサイドバスを使用する4Pアーキテクチャの例
  レイテンシ
Xeonファミリプロセッサは、すべてのプロセッサがメモリに対して同等のアクセス権を持つ、対称型マルチプロセッシング環境に合わせて設計されています。これにより、メモリレイテンシ(プロセッサがメモリからのデータを要求するのに必要な時間)はすべてのプロセッサで同じです。
しかしXeonプロセッサは、メモリコントローラの速度が原因で、Opteronプロセッサに比べてメモリレイテンシが大きい傾向があります。 XeonとXeon MPプロセッサで使用される外部チップセットは、数百メガヘルツで動作しますが、Opteronプロセッサで使用される内部メモリコントローラは、ギガヘルツの単位で動作します。

スケーラビリティ
プロセッサを追加するにつれ、特にメモリ集中型アプリケーションの場合、スケーラビリティはプロセッサが制限されたFSBの帯域幅を共有する能力によって決まります。 FSBの共有特性によりアービトレーションが頻繁に発生し、レイテンシが高くなるため、Xeonファミリプロセッサのメモリリソースの活用が制限される可能性があります。
また、Xeon MPプロセッサで使用できるFSB速度は、一般的にXeonプロセッサの速度より遅く、FSB帯域幅がさらに制約されます。 よって、パフォーマンスはプロセッサ数の増加に比例して増加しません。 マルチプロセッサ(4P)プラットフォームのパフォーマンスのスケーラビリティを向上させるため、Intelでは大きなキャッシュを持ち、多くのデータをプロセッサ内に保存できるXeon MPプロセッサを提供しています。 これによりプロセッサがFSBを使用する必要が少なくなり、パフォーマンスが改善されます。

AMDアーキテクチャ

既に述べたとおり、Opteronプロセッサはプロセッサ内にメモリコントローラを内蔵しているため、メモリは各プロセッサにローカルに接続されています。 SMPシステムでは、他のプロセッサはプロセッサ内部のクロスバースイッチと、プロセッサ間の高速ポイントツーポイント HyperTransportインターコネクトを使用してそのメモリにアクセスできます(図10)。 各Opteronプロセッサには3つのHyperTransportリンクがあり、プロセッサが100シリーズ、200シリーズ、800シリーズのいずれかによって、他のプロセッサまたはI/Oサブシステムに接続できます(「AMDプロセッサの命名規則」の項で説明しています)。
 
図10. Opteronプロセッサを使用する4Pアーキテクチャの代表例
図10. Opteronプロセッサを使用する4Pアーキテクチャの代表例
  HyperTransportは、フロントサイドバス並列テクノロジに代わる、ポイントツーポイント並列インターコネクトです。HyperTransportでは、クロック信号の立ち上がりエッジと立ち下がりエッジの両方で16ビットのデータを転送するダブルデータレートが使用されており、16ビットリンク上でクロックサイクルあたり実質32ビットのデータ転送を実現しています。Opteronプロセッサは、800 MHz〜1 GHzのHyperTransportクロック速度を使用しています。 1GHz HyperTransportリンクを使用するプロセッサは、各方向に最大4GB/秒の実効転送速度を実現しています。転送は両方向同時に発生するため、16ビットの各HyperTransport I/Oリンクで、総計8GB/秒の転送速度を実現できます。共有バスや双方向バスと比較して、ポイントツーポイント インターコネクトには、バスアービトレーションのオーバーヘッドがなく、信号の完全性を容易に維持できる利点があります。
内蔵メモリコントローラとポイントツーポイントのHyperTransportリンクにより、Opteronプロセッサを使用するシステムには、Xeonファミリプロセッサより大きな帯域幅、小さなレイテンシ、および高いスケーラビリティが実現できる傾向があります。

帯域幅
メモリコントローラがプロセッサに内蔵されているため、コントローラ内のすべてのデータパスがコアの周波数で実行できます(1.8〜2.8GHz、プロセッサに依存)。 各オンチップメモリコントローラは、関連付けられたDIMMに直接、DIMM速度(PC3200 DDRメモリ使用時は最大400MHz)でアクセスします。 PC3200メモリの場合、チャネルごとに最大3.2GB/秒、両チャネルからプロセッサへ全体で6.4GB/秒の帯域幅を実現します。 このことから、Opteronを使用するシステムは、Xeonファミリプロセッサのフロントサイドバスの速度にもよりますが、Xeonファミリプロセッサを使用するシステムの最大2倍の帯域幅が使用できます。
I/Oサブシステムの帯域幅は、プラットフォームの設計と使用するチップセットに依存します。 Opteronプロセッサで通常使用されるAMD8000チップセットには、使用するリンクが8ビットか16ビットかによって4.8〜8GB/秒までの帯域幅が使用できるHyperTransportトンネルが含まれています。 8ビットのHyperTransportリンクでも、表5の比較に示すように、将来の拡張や高I/Oスループットの実現には十分な余裕があります。

表5. HyperTransportと既存のI/Oプロトコルの帯域幅比較
プロトコル 帯域幅 各プロトコルと比較したHyperTransport (8ビット、4.8 GB/秒)の速度比 各プロトコルと比較したHyperTransport (16ビット、8 GB/秒)の速度比
レガシーPCI (32ビット、33 MHz) 133MB/秒 36X 60X
USB 2.0 480MB/秒 10X 16.6X
PCI-X (64ビット、133 MHz) 1064MB/秒 4.5X 7.5X
PCI Express (x8リンク) 4 GB/秒 1.2X 2X
Infiniband 4X リンク 10GB/秒 (1.25GB/秒) 3.8X 6.4X
10Gb Ethernet 10GB/秒 (1.25GB/秒) 3.8X 6.4X

レイテンシ
メモリを、プロセッサのローカルメモリと、プロセッサに対してリモートのメモリに分割するAMDアーキテクチャでは、リモートメモリアクセスでレイテンシが大きくなるのではと懸念する方もいらっしゃるでしょう。しかし、メモリコントローラがプロセッサに内蔵されていてプロセッサのコア速度で動作しており、プロセッサ間のインターコネクトが高速であるため、ローカルアクセスとリモートアクセスのレイテンシの相違は実際には非常に小さいものです。ローカルとリモートでのメモリアクセスの差がこのように小さいため、「ほぼ均一な」メモリと呼ばれることがあります。メモリサブシステムの設計は均一ではありませんが、インターコネクトの速度によりレイテンシが均一と見なせるのです。
しかしメモリがプロセッサにローカルに接続されていて、HyperTransportリンクは1度に1つの要求からしかデータを転送できないため、特に要求が複数のHyperTransportリンクを「飛び越える」必要がある場合、メモリ要求が増加するにつれてレイテンシが増加します。 オペレーティングシステムによっては、ローカルとリモートメモリの利点を活用することでメモリレイテンシをさらに低減させる機能があります。ProLiant DL585サーバなどのHP ProLiantプラットフォームでは、ROMベースのセットアップユーティリティ(RBSU)で、プロセッサのクロスバースイッチを経由してリモートメモリにアクセスせず、プロセッサ上のローカルメモリを検索するように設定できます。
一般に、HPの測定ではOpteronベースのシステムのメモリレイテンシは、Xeonベースのシステムに比べて10〜40パーセント小さいことを示しています。 レイテンシに関する他の見方は、プロセッサがメモリ要求を実行するのにかかるクロックサイクル数の差異を比較することです。 図11は、Opteronプロセッサがメモリトランザクションを実行するのに、Intelプロセッサに比べて非常に小さなクロックサイクル数であることを示しています。 図11は前世代のプロセッサを使用して作成されていますが、関連性はまだ有効です。クロック速度に関わらず、メモリアクセスに費やされる追加の1サイクルは、他の有益な仕事に使われない無駄なクロックサイクルなのです。
 
図11. メモリアクセス待ちに使用されるクロックサイクル数
図11. メモリアクセス待ちに使用されるクロックサイクル数
 
出典:「AMD Opteron Coverage Intro to Opteron/K8 Architecture, このリンクをクリックすると、HP社外へリンクします。 」2003年4月23日 14
 
スケーラビリティ
メモリはOpteronベースシステムの各プロセッサに増設できるので、総メモリ容量はプロセッサ数に比例して増大します。 たとえば、ProLiant DL585、4P Opteronシステムは、最大128GBのメモリを実装できます。こうした大容量メモリを使用するアプリケーションでは、Opteronベースのシステムを使用するとパフォーマンスが大幅に向上する可能性があります。
さらに、各OpteronプロセッサにそれぞれのメモリコントローラとHyperTransportリンクがあるため、利用できるメモリ帯域幅とプロセッサ間の帯域幅はプロセッサ数に比例して増大します。メモリコントローラを内蔵していることにより、複数のメモリ要求を並列化することも可能です。並行処理により、メモリへの実効帯域幅は増大し、メモリの平均レイテンシは減少します。

電力について

消費電力は、大規模なデータセンターや高密度のラックを使用するお客様にとって難問となってきています。 プロセッサが、サーバの電力予算の大きな割合を占めるのは明白です。 AMDとIntelは、どちらもこの問題を認識しており、低電力かつ高パフォーマンスのプロセッサの開発に取り組んでいます。 消費電力はプロセッサの動作周波数と直接関係しています。つまり、周波数が高まるにつれ消費電力も増加します。 本書の作成時点では、Opteronプロセッサは一般に、Xeonプロセッサより低い動作周波数で動作します。 このためOpteronプロセッサは、概してXeonファミリプロセッサより必要とする電力が小さく、より低い温度で動作します。 電力消費に影響するその他の要因には、キャッシュサイズ、トランジスタ数、シリコンプロセス テクノロジが含まれます。
Intelのロードマップによると低電力プロセッサが目標となっていますが、高パフォーマンスのXeonとXeon MPファミリプロセッサの現在の傾向では、2006年後半までは引き続き消費電力が増加する予定です。 たとえば、前世代のXeonファミリプロセッサ(コード名NoconaとGallatin)は100 W程度で動作しました。 Xeonファミリの最上位プロセッサは、現在、最大で約130 Wで動作します。 これに比べ、デュアルコアおよびシングルコアのOpteronプロセッサのどちらも、最大で約95 Wで動作します。
14 www.anandtech.com/cpuchipsets/showdoc.aspx?i=1815 このリンクをクリックすると、HP社外へリンクします。 から入手可

前のページへ 次のページへ
PDFファイルをご覧いただくには、Adobe® Reader® が必要です。
アドビシステムズ社のウェブサイト より、ダウンロード(無料)の上ご覧ください。
印刷用画面へ印刷用画面へ
プライバシー ご利用条件・免責事項