【最新パーツ性能チェック Vol.41】論理8CPUマシンがすぐできる! 新CPU「Dempsey」と次世代メモリ「FB-DIMM」のパワーはいかに?
|
2006年6月19日
2つのCPUがそれぞれにメモリを持ち、両者が高速なHyperTransportバスで通信するという効率的なシステム構成で高い性能を実現し、サーバ・ワークステーション界でじわじわとシェアを広げてきたOpteron。昨年4月にはインテルに先駆けてデュアルコア版を投入したことで、その勢いには拍車がかかった。
対するインテルは昨年10月にようやくデュアルコアXeonを投入。ラインナップはボトムラインの2.8GHzのみのまま半年が経過したが、ようやく本命の新プラットフォーム“Bensley”が姿を現した。
Pentium Pro以来のバス分離と新種メモリの登場
インテルは今年前半に、「コードネーム“Bensley”プラットフォームで、デュアルCPUサーバのシステムに抜本的な改革を行なう」と表明していたが、それがいよいよ登場したわけだ。
主な特徴は、
1 2つの独立したFSBを持つチップセット
2 CPUは“Dempsey”、のちに“Woodcrest”
3 FB-DIMMメモリ
である。
インテルのデュアルCPUサーバのプラットフォームは、Pentium Pro以来ずっと1つのFSBを2つのCPUがシェアするデザインを用いてきた。これは、両CPUがフルにFSB性能を使おうとする際には競合になり、システムの性能低下を招く。そのような局面が無視できるほど小さければいいが、デュアルコアともなれば1つのFSBを4つのCPUコアが取り合うことになり、さすがに競合が無視できなくなりそうだ。“Bensley”のチップセット、コードネーム“Blackford”こと「5000」シリーズでは、2つのCPUに個別にFSBを用意することでついにこの問題をクリアした。すでに4CPU向けのチップセット、“TwinCastle”こと「E8500」ではデュアルFSBを実装しているが、これを追う形だ。しかもFSBは従来の800MHzから1066MHzに引き上げられた。
この新チップセットに合わせて、CPUには65nmプロセスのデュアルコアXeon、コードネーム“Dempsey”ことXeon 5000シリーズが登場した。このCPUは、内容的にはPentium XE(900番台)に相当するもので、2MBキャッシュの“Prescott”コアのダイが2つ、パッケージ内で接続されている(Preslerコア)。クロックは最高3.73GHz版で、シングルコア時代の最高クロックである3.8GHzにほぼ並んだ。シングルスレッド時の性能を犠牲にせずに、デュアルコアのメリットを享受できることになる。
 |
“Dempsey”こと「Xeon 5000」シリーズ。これはエンジニアリングサンプルの「Xeon 5060」(3.2GHz)。見た目はデスクトップのPentium 4シリーズとまったく同じだ |
|
 |
「Xeon 5000」の裏側。これもPentium 4そっくりだが、よく見ると切り欠きと端っこの間と、4つ端子がない。これによりLGA771となる。“Woodcrest”も同じ配置だ |
|
 |
“Dempsey”のCPUソケット。大きさや装着方法は、おなじみのLGA775タイプのPentium 4と同じ |
|
 |
「Xeon 5060」×2のシステム上でCPU情報を表示させたところ。2(デュアルCPU)×2(デュアルコア)×HT(2)=8で、計8つのCPUと認識されている |
|
FB-DIMMとは何か? その性能は?
1と2は重要ではあり、性能向上に直結はしているものの、斬新さ、画期的という点ではそれほど目を引くものではない。それよりも注目されるのは、今回から新たにサーバ用の新メモリとして採用される「FB-DIMM」である。
FB-DIMMはすでに秋葉原でも若干は流通しており実物も目にすることができるが、写真のようにDIMMモジュールの中央になにやらいかめしいチップが載っているのが特徴だ。このチップは“AMB”(Advanced Memory Buffer)といい、DIMM上に乗っているメモリ(普通のDDR2メモリ)とチップセットの間に入り、データの受け渡しを行なう役割を持つ。また、1つのチャネルに複数のFB-DIMMが装着された場合には、メモリに読み書きされるデータは、“AMB”を順番に伝わって目的地(メモリやチップセット)に渡される。
通信が1対1で行なわれるため、普通のDDR2のようなバス上に複数のスロットがあるような環境では実現できない高クロックでの通信が行なえる。
FB-DIMMにおいては、上りと下りの信号線が分離されていて、上り(チップセットからメモリ方向)が14bit、下りが10bitとなっている。一方クロックのほうは、載っているメモリそのものの周波数(DDR2-533であれば533MHz)の6倍に固定されている。したがって、DDR2-533(PC-4200)であれば、533×6=3.2GHz動作となる。であれば上りの場合、転送能力は3.2(GHz)×14(bit)÷9(ECC付きメモリ、バイト換算)=5GB/秒、PC5000相当ということになりそうだが、残念ながらそうではない。
MicronのFB-DIMMモジュールのデータシートによれば、FB-DIMMではデータを「フレーム」という単位で管理していて、上り方向の場合、転送できるデータは1フレームにつき144bit(18バイト)で、これはDDR2における1コマンドクロックにおけるデータ転送能力にちょうどつりあう、という。
DDRタイプのメモリでは1コマンドクロックで2回の転送を行なえるから、ECCつき72bitのDIMMでは確かに144bitの転送が行なえる。この能力がFB-DIMMとマッチするということは、FB-DIMMは1コマンドクロック=2転送クロック=12FB-DIMMクロックで144bitを転送できるということになる。14bitの信号線で12クロックかければ164bit送れるはずなので、うち20bitは制御用なり予約なりで使えないということだろう。いずれにしても、DDR2-533のメモリを使っていれば、DDR2だろうとFB-DIMMだろうとデータ転送能力は4.26GB/秒、つまりどちらもPC4200ということになるし、DDR2-666を使う場合にはFB-DIMMのクロックは666×6=4GHzにアップし、能力はともにPC5300相当ということになる。
一方下りについては、信号線が少ない(10bit)うえにコマンドなども乗せなければならないためか、1フレームにつき9バイトしか転送できないという。能力としては上りの半分だ。言い換えれば、書き込みについては普通のDDR2モジュールを使う場合の半分の能力になる。
ただ、FB-DIMMでは上りと下りが分離されているから、上りのデータを送りながら書き込む(下りの)データを取り込むこともできるため、この速度差は相当隠蔽されるだろう。メモリモジュールとして見た場合には、たとえばPC4200タイプのFB-DIMMの場合、上り4.26GB/秒、下り2.13GB/秒の計6.4GB/秒ということもでき、上り(読み出し)データのほうが多い環境を想定すればむしろDDR2より性能が上がる可能性もある。
 |

Supermicro社のDempseyマザー「X7DA8」のメモリスロット。よく見ると、DIMM1〜DIMM4まであり、それぞれA/Bがある。4チャンネルに対し、各2つづつDIMMを装着できるようになっていることがわかる。今回は各チャネルに1GBずつ、PC-4200のFB-DIMMを計4枚装着した |
 |

FB-DIMMモジュール。中央のヒートシンクのついたチップが、チップセット、およびDIMM間で通信を行なう「AMB」。DIMM上のDDR2メモリに対し、実際に読み書きを行なうのもこのチップだ |
FB-DIMMのメリットとデメリットは?
インテルが今回からサーバにFB-DIMMを投入する理由は、メモリの容量と速度の両方の限界を打ち破るためである。
従来サーバ用メモリにはレジスタードDIMMが用いられてきた。これは、通常全メモリチップが直接受け取るコマンド・アドレスデータを、一度DIMM上のバッファチップが受け取るようにすることで、チップセットへの電気的な負荷を軽減し、その分多くのDIMMを扱えるようにするものだ。ただ、データについては通常のアンバッファードDIMMの環境と同様、1つのバス上に複数のDIMMが乗る構造なのでノイズが乗りやすい。結果、大量のメモリを乗せられはするものの、クロックは制限される。たとえばインテルの「E7520」の場合、4スロットまでの構成が見られはするものの、クロックはDDR2-400止まりである。
FB-DIMMでは、規格上1チャネルにつき最大8つまでDIMMを搭載可能だ。というのも、通信自体はチップセットと一番手前のDIMMが通信し、次にそのDIMMがその後ろのDIMMと通信……という形で情報が伝達されるため、数が増えても信号が劣化することはないためだ。ただ、このように順繰りにデータが転送されるため、一番うしろのDIMMでは受け取るまでに時間がかかってしまうこともあってか、規格上は1チャネルに最大8つまでとなっている。この、データが届くまでの時間の遅れ(レイテンシ)はFB-DIMMの最大の弱点とされている。
もっとも、レイテンシが増えるといっても、データ転送レート自体には変化はない。一番奥のメモリであっても、PC5300であれば5.3GB/秒の能力が出せる。クロックに制約が加わるDDRより、スループット面ではすでに有利である。
FB-DIMMのもうひとつのメリットは、少数の高速な信号線を使うことによる必要配線数の削減だ。DDRであれば1チャネルにつき240本の線が必要だが、FB-DIMMは70本ほどですむという。
マルチCPUサーバの場合、多数のCPUからのメモリアクセスに応えるために、チップセットは高性能なメモリコントローラを内蔵したい。しかしメモリのクロックには規格上の限度があり、しかもそうほいほいとは高速化できない。マルチコア時代を見据えたさらなる性能向上のためには、チャネル数を増やすことで対応したいが、DDR2の場合、チップセットには1チャネルにつき130ほど端子が必要になるし、基板上は最大240の信号線を配置する必要がある。現在ではデュアルチャネルDDRがポピュラーだが、たとえばこれを4チャンネルにするというのはチップセットのピン数、基板配線の両面から困難が伴う。
その点FB-DIMMは、1チャネルあたり70本ほどの信号線ですむという。そのため、デュアルチャネルDDRの480本の信号線が許容できるなら、FB-DIMMなら6チャンネル設けてもまだ余裕だ。性能的には3倍にできる計算だ。
また、チャネル数が多いうえに1チャネルあたりの装着可能DIMM数が多いことで、システムとしての総搭載メモリ量は大きく増える。6チャネルあれば48個のDIMMをハンドリングできるわけで、2チャンネル、各4DIMMのDDRに比べ、6倍のメモリを搭載可能になる。800MHz動作を前提にするなら、レジスタードDIMMは1チャネルあたり2DIMMが限界だが、FB-DIMMなら数を減らす必要はないので12倍ということになる。CPUの64bit化が進む中、大容量メモリを搭載できることのメリットは大きい。
なお、Bensleyプラットフォームのチップセット“5000P/5000X”は4チャンネルのFB-DIMMインターフェイスを設け、PC5300 FB-DIMMまでサポート、各チャネルには最大4本までのDIMMが搭載可能(したがって計16DIMM)、メモリ最大容量は64GBとなっている。
思ったほど大きくないレイテンシ、思ったほど早くないスループット
さて、4チャンネルのFB-DIMMによって、メモリ性能はどこまで上がっただろうか。また、気になるレイテンシはどれくらい増えるのだろうか? 計測した結果がグラフ1である。
「Sandra 2005」で計測した転送能力は3.5GB/秒程度で、理論性能(約17GB/秒)にははるか遠い結果となった。「Irwindale」でも3.9GB/秒出ている。「Sandra 2007」では結果が計測するたびにばらつき、最大4.3GB/秒まで出ることがあったが、これでも理論値に比べるとかなり低い。ただ、メモリ性能の測定はアルゴリズムによって大きく変わるし、FB-DIMMの場合にはレイテンシが響いているぶんもあると考えられるので一概に低いとは言えないだろう。
レイテンシについては、「Everest」、「Sandra 2007」ともに、「Irwindale」より若干大きく(=遅く)なっている。ランダムアクセス時の数値は6%程度の差で目くじらを立てるほどではないが、リニアアクセス時では「Irwindale」(普通のDDR2)のほうが37%高速となっている。リニアアクセス時には、メモリそのもののページオープン・クローズといったウェイトがほとんどないため、14ビットの「フレーム」に分割・統合するオーバーヘッドが割合として大きく効いてくるのがわかる。また今回は1つのチャネルに1つしかFB-DIMMがない、レイテンシ的には一番理想的な状態だった。複数のDIMMが刺さった場合には、平均レイテンシはさらに延びることになる。
メモリアクセスがランダムに近ければ影響はあまりなく、リニアに近い場合にはそれなりに影響が出そうだ。これはアプリケーションによっても異なるだろうから、実際にベンチマークを取ってみないと判断できない。
|
|
グラフ1、2 FB-DIMMの性能を計測した結果。レイテンシは「Irwindale」に比べ、数nsは増えている。リニアアクセス時には割合としては無視できない。スループットに関しては残念ながら今回使ったテストでは芳しい結果が得られなかった |
論理8CPUシステムでパフォーマンスはどこまで伸びるか
システム全体の性能を計測、比較してみよう。今回は“Dempsey”コアの3.2GHzと、シングルコア時代のXeonである“Irwindale”コアの3.6GHzデュアルのシステムを、デュアルコアのデスクトッププラットフォームであるPentium XE 955、Athlon 64 FX-62&5000+と比較した。データがあるものについては、Opteron 275(2.2GHz)の値も併記した。“Dempsey”、Opteronともに最上位から見て85%ほどのクロックなので、まあ中堅同士の対決と見ていいだろう。
なお、システムの都合上、“Irwindale”および“Dempsey”はメモリ4GBで、Opteronは2GBで、そのほかは1GBで計測している。ここに掲げるテストは、1GB以上あれば性能に大きな差は出ないものがほとんどだが、“Irwindale”や“Dempsey”が若干は有利な条件になっている。
シングルスレッドでの基本演算性能を見る「Superπ」(グラフ3)では、まあクロック相当というところ。グラフにはないが、3.2GHzのPentium XE 840が40秒なので、やや振るわない。FB-DIMMのレイテンシが関係しているかもしれない。「Windows Media Video 9」(グラフ4)のエンコードは、同時に2スレッドまでを使う「ダブルスレッド」型アプリ。これだと、デュアルコア/デュアルCPUまでしか効果が出ないので、同等コアでクロックに勝る“Irwindale”でHTをOFFにした場合のほうが速くなっている。“Irwindale”でHTをオンにすると、2つのスレッドが同じ(物理)CPUに割り当てられるケースが発生するため、2スレッドが常に別の(物理)CPUに割り当てられるHTオフ時より性能が低下することはよく知られている。一方“Dempsey”においては、HTをオンにしても大きな速度低下が見られないが、これは計8つの論理CPUに対して2つのスレッドを割り当てる際、たまたま同じ物理CPUに割り当てられる可能性が“Irwindale”のときより小さい(“Irwindale”では1/2の確率だが、“Dempsey”では1/4)ためと考えられる。
グラフ5は、マルチスレッド対応のCGレンダリングテスト「Cinebench 2003」の結果。画面を8分割して同時に描画していく様は圧巻だ。パフォーマンスではOpteron 875にあと一歩届かなかったものの僅差。デスクトップのデュアルコアCPU群や、シングルコアのデュアルCPU構成である“Irwindale”は、はるか雲の下に追いやる別次元の性能を誇る。
グラフ6〜10のテスト群は、いずれもマルチスレッド対応のエンコードソフトだ。いずれもデュアルコアや“Irwindale”に大きな差をつけている。ただ、“Windows Media Video Advanced Profile”ではHTをオンにしたほうが高性能なのに対し、DivX 6.1では変わらず、「3DMark 05」(CPU)や「TMPGEnc」ではオフにしたほうが高速と挙動が分かれる。理論的には、アプリが4スレッドまでにしか対応していない場合には、HTをオンにすることで同じ物理コアに2スレッドがアサインされてしまうことで速度低下が起きる。「3DMark」や「TMPGEnc」は、4スレッドまでの対応の可能性もある。
 |
グラフ3 「Superπ」の結果(シングルスレッド)。3.2GHzとしてはもう1秒早くあってほしかったところ |
|
 |
グラフ4 「Windows Media Encoder」でのビデオ圧縮(デュアルスレッド)。4CPUあると、1CPUに2つのスレッドが重なる確率が減るためか、HTをオンにしても性能が落ちなかった |
|
。
 |
グラフ5 「Cinebench 2003」によるCG描画(マルチスレッド)。HTにより若干の性能の底上げが図られ、1000まであと一歩まで迫った |
|
 |
グラフ6 「Windows Media Encoder Advanced Profile」でのビデオ圧縮(マルチスレッド)。これもHTの効果が若干見られた。クロックで400MHz速いIrwindaleに対して36%の高速化を実現 |
|
 |
グラフ7 「3DMark 05」の結果。注目はCPUのほうのスコア(マルチスレッド)。“Irwindale”より1割高速と出た。クロックが少ないことを考えれば、実質24%の高速化 |
|
 |
グラフ8 「DivX 6.1」によるビデオ圧縮(マルチスレッド)。ここではHTの効果はニュートラル。こちらも“Irwidale”比で10%(実質24%)の高速化だ |
|
 |
グラフ9 「TMPGEnc 3」によるビデオ圧縮(マルチスレッド)。HTをオフにするとOpteron 875を上回った。デュアルコア陣営には大きな差をつけている |
|
 |
グラフ10 「TMPGEnc 4」におけるMPEG-2圧縮テスト。ここではHTをオフにする効果がとても大きい。“Irwindale”比で40%、クロック比を考えれば57%もの高速化が得られた |
|
対抗となるOpteronとの比較データが少ないので総評が難しいが、「TMPGEnc 3」や「Cinebench」ではほぼ同レベルの性能と見える。3.73GHz品ならOpteronの最上位ともいい勝負になるだろう。ようやくデュアルコアOpteronに性能面で対抗できるラインナップが揃ったと言える。
ただ、インテルは6月2日の記者説明会で、6月中に次世代コアによるサーバCPU“Woodcrest”をOEM向けに出荷開始するとしている(正式発表は後日)。“Woodcrest”の性能はデュアルコアXeon 2.8GHzの1.8倍というから、周波数にすれば5GHz相当。“Dempsey”の最速版、3.73GHzを大きく上回るのは確定的なので、今すぐシステムを導入、あるいはリプレースしなくてはならない人以外には、正直ちょっと待ちたくなる状況ではある。
今回“Dempsey”用として登場した“5000”シリーズのチップセット3種は、いずれも“Woodcrest”登場時には1333MHzのFSBに対応する。また、“Dempsey”のCPUソケット、LGA771は“Woodcrest”と共通だというから、“Dempsey”マザーに今年後半のサーバマザーの姿を見ることができる。対するAMDも、今年前半にはDDR2対応のOpteronを投入して“Woodcrest”登場に備えており、こちらもLGAソケットに変わった新マザーが出てくるはずだ。デュアルコア化が進み、マルチスレッド対応ソフトが増えてきたため、以前に比べると個人でもデュアルCPUによるメリットを感じやすくなってきている。ハイエンドマシン構築狙いの人は、今後ともデュアルのXeonやOpteronの動向には要注目だろう。
【関連記事】
(月刊アスキー編集部 野口岳郎)
|