Jump to content 日本-日本語
製品  >  HP ProLiant サーバ  >  技術情報  >  White Paper

whitepaper

技術資料

HP ProLiant サーバ

目次

概要 / 本書で使用している略語 / はじめに
  マイクロアーキテクチャの類似性
  マイクロアーキテクチャの相違点
  システムアーキテクチャの相違点
  32ビットパフォーマンスの比較
  64ビットItaniumプロセッサのアーキテクチャ
  まとめ / 付録A / 付録B / 詳細情報 / ご意見をお寄せください

PDFファイル ダウンロード

このホワイトペーパーのPDFファイルをこちらからダウンロードしてご覧下さい。
(PDFファイル、880KB)
コンテンツに進む

業界標準サーバ用のx86プロセッサの特性 - AMD OpteronおよびIntel Xeon 技術概要


システムアーキテクチャの相違点

 

サーバのパフォーマンスはプロセッサそのもののパフォーマンスだけでなく、メモリサブシステム、I/Oサブシステム、および実行中のアプリケーションの種類にも影響されます。XeonファミリプロセッサとOpteronのアーキテクチャでは、メモリサブシステムとI/Oサブシステムが大幅に異なっています。

  • メモリコントローラの実装。Xeonファミリプロセッサには、メモリコントローラにリンクするノースブリッジがあります。Opteronプロセッサはメモリコントローラを内蔵しています。
  • I/Oトランスポート。Xeonファミリプロセッサは、パラレルの共有フロントサイドバスを使用します。Opteronプロセッサは、非常に高い帯域幅と低いレイテンシを提供するポイントツーポイントのHyperTransportリンクを使用します。
 

メモリコントローラ


今日のプロセッサはメモリサブシステムよりはるかに高速で動作しています。このため、メモリサブシステムを改良することで、プロセッサコアの速度やパフォーマンスを向上させるだけでは不可能なレベルに、システム全体のパフォーマンスを向上させることができます。XeonファミリプロセッサとOpteronプロセッサはどちらも標準的なDDR SDRAMを使用しています。ただし、Xeonプロセッサは別個のメモリコントローラに接続する、一般的なフロントサイドバス アーキテクチャを使用していますが、Opteronはプロセッサそのものに内蔵されたメモリコントローラを使用しています。

【Xeonのフロントサイドバス】

メモリのアーキテクチャを話題にする場合には、帯域幅、レイテンシ、およびスケーラビリティの3つの項目に注意する必要があります。

帯域幅
Xeonフロントサイドバス(FSB)は、コントローラとすべてのプロセッサが帯域幅を共有する、パラレルの64ビット マルチドロップテクノロジです。メモリコントローラはプロセッサとは別個のチップセットで、使用できるメモリの容量とタイプはチップセットの設計によって異なります(プラットフォームの設計者が決定)。通常、HPでは、Xeonファミリプロセッサを搭載したIntelまたはServerworksのチップセットを使用してきました。最大32GBのデュアルチャンネルDDR SDRAMをサポートしています。

最新のXeonファミリプロセッサは、800MHzのフロントサイドバスを使用してプロセッサとメモリやI/Oデバイスを接続します(図7)。これにより、最大帯域幅の合計は6.4 GB/sとなります。Xeonファミリの旧バージョンは400MHzまたは533MHzのフロントサイドバスを使用しており、総帯域幅は3.2 GB/sまたは4.3 GB/sに制限されていました。

レイテンシ
Xeonファミリプロセッサは、すべてのプロセッサがメモリに対して同等のアクセス権を持つ、対称型マルチプロセッシング環境に合わせて設計されています。メモリレイテンシ(プロセッサがメモリからのデータを要求するのに必要な時間)はすべてのプロセッサで同じです。HPの測定では、Xeonファミリプロセッサのメモリレイテンシは約120nsです。

Xeonファミリプロセッサを使用する典型的な2-Wayサーバのブロックダイアグラム
図 7. Xeonファミリプロセッサを使用する典型的な2-Wayサーバのブロックダイアグラム

スケーラビリティ
シングルプロセッサ アーキテクチャとしては、プロセッサを増設せずにメモリを追加できるFSBアーキテクチャの方が有利でしょう。しかし、ユーザがプロセッサを増設すると、複数(2または4)プロセッサ間での帯域幅の共有が大きな問題になります。フロントサイドバスの共有特性により調停が頻繁に発生し、レイテンシが高くなるため、メモリに高い負荷をかけるアプリケーションではXeonファミリプロセッサのパフォーマンスが制限される可能性があります。

【Opteron内蔵メモリコントローラ】

XeonのFSBアーキテクチャと異なり、Opteronプロセッサにはメモリコントローラが内蔵されています。これにより、メモリに関する3つの問題点のすべてに大きな利点がもたらされます。Xeonファミリプロセッサと比べ、帯域幅は広くなり、メモリレイテンシは少なくなり、スケーラビリティも向上します。

帯域幅
Opteronは、最大8枚のDDR DIMM(各チャネルに4枚)をサポート可能な128ビットインタフェースを備えたデュアルチャネルDDR SDRAMコントローラを内蔵しています。

このコントローラは、登録されたDIMMを使用するPC1600、PC2100、PC2700、PC3200 DDRメモリをサポートするように設計されています。実効転送速度400MHzで動作するPC3200メモリの場合、これによりチャネルあたり3.2 GB/s、両チャネル合計で6.4 GB/sの帯域幅がプロセッサに提供されます。旧バージョンのXeonプロセッサを搭載したシステムを使用するユーザにとって、これは、Opteronを使用するシステムでは最大で2倍の帯域幅を使用できることを意味します。

レイテンシ
図8は、システムアーキテクチャでのOpteronプロセッサとメモリの関係を示しています。各プロセッサにはローカルに接続されたメモリがあります。他のプロセッサは、プロセッサ内部のクロスバースイッチと、プロセッサ間の高速ポイントツーポイント インターコネクト(HyperTransportインターコネクト)を使用してそのメモリにアクセスできます。

図 8. 2-WayシステムでのOpteronとメモリの関係の例

メモリを、プロセッサのローカルメモリと、プロセッサに対してリモートのメモリに分割するこのアーキテクチャでは、レイテンシが大きくなる心配はないでしょうか。しかし、メモリコントローラが内蔵されていてプロセッサのコア速度で動作しており、プロセッサ間のインターコネクトが高速であるため、ローカルアクセスとリモートアクセスのレイテンシの相違は実際には非常に小さいものです。デュアルプロセッサシステムでは、ローカルアクセスのメモリレイテンシは約70nsで、リモートアクセスの場合は約100nsです。どちらも対応するXeonのレイテンシより小さい値です(表4)16 。ローカルとリモートでのメモリアクセスの差がこのように小さいため、AMDはこれを「ほぼ均一な」メモリと呼んでいます。メモリサブシステムの設計は均一ではありませんが、インターコネクトの速度により均一と見なせます。

16 William Wong「AMD Hammers Multiprocessor Hyperchannel」、『ED Online ID #1680』2002年4月1日
www.elecdesign.com/Articles/ArticleID/1680/1680.html
   
表4. 2-Wayサーバのメモリレイテンシ
メモリアクセスの種類 Xeon Opteron 速度差
ローカルアクセス 120ns 70ns 42 %
リモートアクセス 120ns 100ns 17 %

2-WayシステムでのOpteronとメモリの関係の例
図 9. メモリアクセス待機時に消費されるクロックサイクル数(出典: 『AMD Opteron Coverage ? Part 1: Intro to Opteron/K8 Architecture』6 2003年4月23日) 17
メモリアクセス時に消費されるクロックサイクル数を比較すると、クロックサイクルの差は実際の時間の差よりもさらに大きくなります(図9)。Xeonプロセッサではクロック速度が高いため、メモリレイテンシが大きくなることにより、CPUがメモリアクセスを待機するクロックサイクル数がさらに大きくなるわけです。

さらに、新しいバージョンのオペレーティングシステムでは、ローカルおよびリモートのメモリを活用する機能がOSに用意されています。ProLiant DL585などのHP ProLiantプラットフォームでは、ROMベースのセットアップユーティリティ(RBSU)で、プロセッサのクロスバースイッチを経由してリモートメモリにアクセスせず、サーバノード上のローカルメモリを検索するように設定できます。

 
17 www.anandtech.com/cpuchipsets/showdoc.aspx?i=1815から入手可
   

スケーラビリティ
メモリは各プロセッサに増設できるので、総メモリ容量はプロセッサ数に比例して増大します。たとえば、4-WayのOpteronシステムは最大64GBのメモリを搭載できます。対応するXeonシステムでは32GBです。こうした大量のメモリを使用できるアプリケーションでは、Opteronベースのシステムを使用するとパフォーマンスが大幅に向上する可能性があります。

さらに、各OpteronプロセッサにそれぞれのメモリコントローラとHyperTransportリンクがあるため、利用できるメモリ帯域幅はプロセッサ数に比例して増大します。メモリコントローラを内蔵していることにより、複数のメモリ要求を並列化することも可能です。並行処理により、メモリへの実効帯域幅は増大し、メモリの平均レイテンシは減少します。


I/Oインターコネクト


既に説明したとおり、Xeonプロセッサは従来のフロントサイドバス テクノロジを使用して、I/Oとメモリにリンクするノースブリッジにプロセッサを接続しています。一方Opteronは、ポイントツーポイントのHyperTransportリンクを使用しています。AMDは、システム内のバス数を減らし、スケーラビリティの高いマルチプロセッシングシステムを可能にするためのハイパフォーマンスリンクとしてHyperTransportリンクを開発しました。

【Xeonノースブリッジ/サウスブリッジ

Xeon MPプロセッサ(400MHz FSB)とServerworksチップセットを使用した2-Wayシステムのアーキテクチャ例
図 10. Xeon MPプロセッサ(400MHz FSB)とServerworksチップセットを使用した2-Wayシステムのアーキテクチャ例
I/Oサブシステムの速度と帯域幅は、プラットフォームの設計者が選択したチップセットにより異なります。図10は、Grand Champion-HEなどのServerworksチップセットの、システム構成での使用例を示しています。このチップセットはProLiantサーバで使用されており、総計3.2GB/sのI/O帯域幅をPCI-Xブリッジに提供し、ビデオ、ネットワーキング、ストレージ、およびシステム管理デバイスを制御するサウスブリッジに200MB/sの帯域幅を提供します。

 

 

【Opteron HyperTransport

HyperTransportテクノロジのOpteron内での位置付け
図 11. HyperTransportテクノロジのOpteron内での位置付け
Opteronプロセッサには、3本の16ビット幅HyperTransportリンクが用意されています(図11)。HyperTransportは、フロントサイドバス並列テクノロジに代わる、ポイントツーポイント並列インターコネクトです。2倍のデータレートを使用して、16ビットリンク上で、1クロックサイクルあたり2ビット転送しています。HyperTransportのクロックは200MHzから800MHzの間で変化し、最大1600MT/s (秒あたりメガ転送)の実効動作周波数と、各方向に最大3.2GB/sの実効転送速度を実現しています。転送は両方向同時に発生するため、16ビットのHyperTransport I/Oリンクで、総計6.4GB/sの転送速度を実現できます。共有バスや双方向バスと比較して、ポイントツーポイント インターコネクトには、バス調停のオーバーヘッドがなく、シグナルの完全性を容易に維持できる利点があります。HyperTransportテクノロジは低電圧差動伝送(LVDS: Low-Voltage Differential Signaling)テクノロジを使用して電力消費を抑え、クロストークと電磁干渉を最小限に抑制します。

 

   
  Opteronプロセッサは3本のHyperTransportリンクを使用して他のOpteronプロセッサやI/Oに接続できます(図12)。Opteronプロセッサの100、200、および800シリーズの主要な相違は、プロセッサによる3本のHyperTransportリンクの使い方です。100シリーズでは、3本のHyperTransportリンクは、非コヒーレント リンクでI/Oに接続するためだけに使用できます。つまり、100シリーズのOpteronプロセッサはシングルプロセッサ システムでの使用に限定されます。200シリーズでは、HyperTransportリン クのうち1本を、コヒーレント リンクで他のOpteronプロセッサに接続するために使用できます。それ以外のリンクはI/Oに接続するために使用される(非コヒーレント リンク)ため、200シリーズのOpteronプロセッサはデュアルプロセッサ システムで使用できます。800シリーズでは、3本のHyperTransportリンクすべてを、他のOpteronプロセッサまたはI/Oに接続するために使用できます。こ の設計ではスケーラビリティが非常に高いアーキテクチャを実現できるため、Opteronプロセッサを2-Way、4-Way、または8-Way システムで使用するように容易に構成できます。

図 12. OpteronとAMD 8000チップセットを使用した4-Wayシステム アーキテクチャ例
   
  たとえば、ProLiant DL 585サーバ16 は図12に示す構成を持ち、HyperTransportトンネルにAMD 8131チップ、I/OハブにAMD 8111チップが使用されます。これらのコンポーネントやプロセッサのHyperTransport機能は、PCI-X機能をサポートするHyperTransportトンネルに、4.8GB/sの帯域幅を提 供します。

AMD 8131のHyperTransportトンネルは、グラフィックデバイスやストレージデバイスを含むI/Oサブシステムに、3.2GB/sの帯域幅を提供します。I/Oハブへの帯域幅はそれより狭いものですが、将来の拡張や高I/Oスループットの実現には十分な余裕があります(表5)。

表5. HyperTransportと既存のI/Oプロトコルの帯域幅比較
プロトコル 帯域幅 各プロトコルと比較したHyperTransport (8ビット、3.2 GB/s)の速度比 各プロトコルと比較したHyperTransport (16ビット、6.4 GB/s)の速度比
レガシーPCI (32ビット、33 MHz) 133MB/s 24X 48X
USB 2.0 480MB/s 6.6X 13X
PCI-X (64ビット、133 MHz) 1064MB/s 3X 6X
Infiniband 4X link 10Gb/s (1.25GB/s) 2.5X 5X
10Gb Ethernet 10Gb/s (1.25GB/s) 2.5X 5X

18 ProLiant DL585の詳細は、『HP ProLiant DL585 Server Technology』を参照してください(http://h200005.www2.hp.com/bc/docs/support/SupportManual/c00180597/c00180597.pdf)。


前のページへ 次のページへ


PDFファイルをご覧いただくには、Adobe® Reader® が必要です。
アドビシステムズ社のウェブサイト より、ダウンロード(無料)の上ご覧ください。
印刷用画面へ印刷用画面へ
プライバシー ご利用条件・免責事項