Akiba2GO!

【最新パーツ性能チェック(Vol.13)】伝説の“3次キャッシュ”1MB搭載Xeon-3.06GHzの性能はいかに!?


2003年7月31日

 7月に入ってからインテルによるOpteron追撃がすさまじい。1日に、それまで最高1.9GHzまでだったXeon MP(最大4CPU構成までが可能。Xeonは2CPUまで)のラインアップを一気に2.8GHzまで引き上げ、4CPUのハイエンドサーバーを狙うOpteron 800シリーズを牽制したかと思えば、その2週間後の15日には、すでに3.06GHzに達しているXeonに、これまでXeon MPの専売特許だった3次キャッシュ搭載版を“3.06GHz”としてリリースしてきた。デュアル用のOpteron 200シリーズと激戦を展開中のXeon 3.06GHzに、掟破りの援軍というわけだ。では、3次キャッシュの効果とはどれほどのものなのだろうか。今回は日本コンピューティングシステム(JCS)がリリースしたデュアルXeonシステムを借用して、性能をレポートする。

Vintage VC83060-GLDP
日本コンピューティングシステム(JCS)『Vintage VC83060-GLDP』

●日本コンピューティングシステム(JCS)
●Vintage VC83060-GLDP
●価格 72万1000円
http://www.jcsn.co.jp/
●サーバーからスーパーコンピューターまで手がけるJCSのXeonワークステーション。今回借用したこのシステムはデュアルXeon-3.06GHz、GeForce FX5900、Ultra 320SCSIに1万回転、72GBのSCSI HDDという絢爛豪華なシステム。構成は同社サイトで変更できる。

Vintage VC83060-GLDP
●本体側面を開いたところ。実際にはヒートシンクを覆う形で黒いファンが装着されている。マザーボードはインテルの『Server Board SE7505VB2』。E7505チップセットベースで、AGPとPCI-Xスロットを2本備える。メモリーはレジスタードPC2100を最大8GBまで搭載可能。本体前面はホットスワップ可能なSCSIドライブベイになっている。

3次キャッシュとは何か

 3次キャッシュという言葉は魅惑に満ちている。世界最速を競うサーバ用CPUは、しばしば3次キャッシュをチップ内、CPUパッケージ内、あるいはマザーボード上に装備している。パワーユーザーなら、3次キャッシュを備えたマシンを使いたい、作りたいと思ったことが一度はあるのではないだろうか。
 3次キャッシュとは、1次キャッシュにヒットせず、2次キャッシュにもヒットしなかった場合にCPUがデータを探しに行く場所である。3次キャッシュがない普通のXeonやPentium4だと、2次キャッシュになければ低速なメインメモリを読みに行くしかないが、Xeon-3.06GHzではそこで3次キャッシュという、もう一段のバックアップがあるわけだ。速度的には1次キャッシュが一番速く、2次、3次となるにしたがって待ち時間が大きくなっていくが、Xeonの場合は3次キャッシュとはいえオンチップであり、メインメモリを読むよりははるかに高速である。

1MBキャッシュ搭載でダイは大きいはずだが、ヒートスプレッダーで覆われていて残念ながら見ることはできない。キャパシターなどの数と配置は2.8GHz版と同じだ。

 さて、3次キャッシュが1MBというと、2次キャッシュに入りきらなかったデータをさらに1MB分バックアップしてくれるように錯覚しそうだが、そうではない。これは1次キャッシュや2次キャッシュと同様、「メインメモリの中でこれまでに最もよく使われた1MB」分を保存するものだ。
 お気づきのように、最もよく使われる512KB分は2次キャッシュに入っている。それらのデータを再参照する場合には、当然高速な2次キャッシュ相手になされる。つまり、1MBの3次キャッシュの内容のうち、2次キャッシュとかぶっている512KB分は、CPUコアからアクセスされることはない。3次キャッシュがアクセスされる(=3次キャッシュによる効果が現われる)のは、2次キャッシュには入っていない、利用頻度が低い残りの512KBのデータが必要な場合である。

 3次キャッシュという言葉を使うと正体が見えにくくなる。むしろ、「Xeonの2次キャッシュが1MBになった。しかし、その増えた分の512KB分はアクセス速度が遅い」と考えるほうが、実態をイメージしやすい。
 これはどれほどの性能インパクトだろうか。Pentium 4はWillametteからNorthwoodコアに移行する際、2次キャッシュを倍増させたし、Athlon XPも3000+登場時にキャッシュを倍増させている。Pentium 4のときの例で見ると、キャッシュ倍増によってSysmark 2001の性能は5〜6%上がっている。今回は「倍増はしたが、増えた部分のスピードは遅い」ので、4%前後というのが目安になるだろう。  長くなったが、正体を見極めたところで、実際に性能測定に移ろう。

メモリ性能は確かに向上

青が3.06GHz、他はペン4など。どれも1MBで性能が最低になるのに対し、3.06GHzの粘りが際だつ。

 右の図は、Sandra 2003で計測したブロックサイズ別アクセス速度だ。Pentium 4やXeonは、2次キャッシュの効果が切れる512KBで値が落ち、1MBではメインメモリと同等になるが、3.06GHzはここで毎秒6GBと、かなり踏みとどまっている。
 キャッシュ内部にはベンチマークプログラム自体も入るため、データサイズが512KBや1MBといった、キャッシュサイズいっぱいの場合には、キャッシュに100%ヒットはしない(=性能が低めに出る)。Pentium4で、本来同じ速度になるはずの256KBと512KBで、512KBのほうが大きく値を落としているのはそのためだ。同様に、Xeonの1MB 3次キャッシュの能力は、このテストに出ている6GB/秒といわず、もう少し高く見てもいいはずである。ともあれ、メインメモリに比べればこれでも4倍の性能であり、3次キャッシュの効果が発揮されていることがわかる。





3.06GHzの2つの注目点

 さて、ここからはいよいよ実際の性能測定に入っていく。まずチェックしたいのは、3次キャッシュ搭載による、アプリケーションレベルの性能変化である。比較対象としては、本来は3次キャッシュなしのXeon-3.06GHzが望ましいが、残念ながら評価サンプルがないため、ここはPentium 4-3.06GHzで代用する。コア、クロック、FSBが同じであるし、メモリ環境はPC2100デュアルで統一したので、ほぼ同性能と見ていいはずである。

 もう一つの注目は、800MHz FSB版Pentium 4との性能の上下である。XeonはPentium 4より「高級」「高速」「高機能」な印象がある。実際、Xeon登場当時は、Xeonは「単体使用時はPentium 4と同性能、しかもデュアル構成が可能」という、Pentium 4の完全な「上位」モデルであった。ハイパースレッデュング機能がPentium 4の1年近くも前から組み込まれるなど、機能面でも最新の座にあった。
 しかし、現状ではXeonはFSB 533MHz止まりで、メモリーはPC2100デュアルまで。FSBとメモリの帯域は4.2GB/秒にとどまるのに対し、Pentium 4はXeonのお株だったハイパースレッディングのサポートに加え、FSBの800MHz化とデュアルPC3200のサポートで、FSBとメモリの帯域を6.4GB/秒にまで伸ばした。つまり、単体CPUとしてはXeonよりはるかに高性能になってしまっている。

 これが今回Xeonサイドに1MB3次キャッシュという援軍が加わったことで、FSBとメモリ性能のビハインドをどこまで縮められるか、ひょっとしたらひっくり返せるか、というのが見どころになる。Xeon-3.06GHzがPentium 4-3.06GHzを上回るのは確実だが、では、Pentium 4-3GHzは上回れるのか。3.2GHzに対してはどうかといった点が気になる。

単体ではFSB 800版P4に及ばず

3DMark2001 SEの結果
3DMark2001 SEの結果
FinalFantasy XIの結果
FinalFantasy XIの結果
Comanche 4の結果
Comanche 4の結果
Unreal Tournament MatchBotの結果
Unreal Tournament MatchBotの結果
Superπの結果
Superπの結果
GCAの結果
GCAの結果
TMPGEncの結果
TMPGEncの結果
DivXの結果
DivXの結果
Windows Media Video 9の結果
Windows Media Video 9の結果

 さて、例によってCPUパワーが求められる処理の典型として、3D描画と動画エンコードを中心にベンチマークを行なってみた。グラフ中「×2」とあるのは、のちほど論評するデュアルXeon時の性能である。それ以外はシングルCPUで計測している。また、ビデオカードやハードディスクも、過去の他のCPUのデータと合わせるため、GeForce4 Ti4200とBarracuda ATA Vに変更している。
 3次キャッシュ以外は同スペックとなるPentium 4-3.06GHzとの比較では、多くのテストではっきりとリードを示している。CPU性能の差が出にくい3DMark2001SEで3%、Comanche 4やUnreal TournamentのBotMatchでは6%ほども改善している。さらにSuperπでは8%、DivXによる動画圧縮でも3.3%の向上が得られた。キャッシュが純粋に2倍に増えたわけではない割には、良好な成績と言える。

 ただ、TMPGEncやWindows Media Video 9においては、成績向上はほとんど見られなかった。両テストはメモリ上の必要なデータを、prefetchなどの命令を駆使して十分前もって読み取って1次キャッシュに取り入れてしまっていて、2次/3次キャッシュの効果が現われにくくなっているようだ。
 注目の対Pentium 4戦においては、残念ながら3次キャッシュの力を持ってしても、FSB 800MHzのPentium 4-3GHzに届かなかった。Xeonによる「シングル時の最高速CPU」の座の奪回はならず、したがって、シングルCPUでの動作が基本となる3Dゲームなどをメインの用途とする場合は、これまでどおり、Pentium 4やAthlon XPがベストの選択肢と言える。



Windows Mediaでは無敵の強さ

 シングルではPentium 4にかなわなくてもXeonが高価なのは、デュアルCPU構成が取れること。それによって、サーバのように複数のトランザクションを同時に処理する際に、複数のスレッドを立てることでスムーズな動作が行なえることだ。
 もっとも、個人のPCにおいては、複数のスレッド(あるいはアプリケーション)の同時実行というのは、確かにDVD-Rを焼きながらWebサーフィンとか、DVDを見ながらMP3エンコードといったことが考えられなくはないが、日常的にメリットを感じるかというとやや疑問符が付くだろう。現状、最もデュアルCPUのありがたみを感じられるのは、複数CPUの存在を前提に作られたエンコーダだと思われる。
 TMPGEncやWindows Media Video 9のテスト結果を見れば明らかだが、このような、複数スレッドを立てて活用するアプリでは、Xeon-3.06GHzデュアルの性能はまさにケタ外れだ。実はデュアルXeon-2.4GHz程度でも、Pentium 4-3.2GHzを圧倒する結果は出せる。時は金なり、圧縮が速く終わることで、貴重な睡眠時間が増やせたり、他の仕事に回せることを考えれば、Xeonデュアルのシステムが高価であっても元は取れるかもしれない。
 ただ、TMPGEncとWindows Media Videoで、Xeon-3.06GHzと(3次キャッシュを持たない)Pentium 4-3.06GHzが、シングル時の性能が大きく変わらないことを考えると、この2つのテストに関しては、3次キャッシュなしのXeon-3.06GHzを使っても同じような性能が得られる可能性はかなりある。
 とはいえこの2つは極端にキャッシュに依存しないようにチューニングされた、特殊な例である。サーバのように、その場その場でやってくるリクエストに応えなくてはならないケースでは、メモリの先読みは難しい。普通のマルチスレッド対応アプリの場合でも、もう少し差は出てくるものと思われる。

燃え上がるデュアルの夏!?

 1MBもの3次キャッシュを搭載することは、CPUの製造上はたいへんなことだ。現状ではトランジスタ数、ダイサイズとも公開されていないようだが、1bit=6トランジスタとすると、1MBだと4800万トランジスタ。これは、Pentium 4本体(5500万トランジスタ)にほぼ匹敵する。キャッシュの領域は論理回路ほど場所を取らないとはいえ、ダイサイズがかなり大きくなることは確実で、当然、歩留まりも落ちるはずだ。

 現時点での価格差(3次キャッシュなしのXeon-3.06GHzが455ドルに対し、3次搭載Xeon-3.06GHzが690ドル)は、インテルCPUの最上位モデルと2番手との差としては常識的な線だが、2倍近いトランジスタを使っていることを考えれば、インテルとしてはかなりがんばって安く提供しているに違いない。
 その理由は言うまでもなく、Opteronというプレッシャーだ。SPECのページによれば、SPECint2000、SPECfp2000ともに、Opteron 1.8GHzはXeon-3.06GHzの値をわずかに上回っている。8月には2GHzのOpteronも登場するとささやかれている。これに対抗するのに、Pentium 4同様Xeonも3.2GHz版を投入する手もあったのだろうが、今回は、すでにXeon MPで実績のある3次キャッシュの力を借りたわけだ。結果、intで153、fpで51の差をつけてOpteron 1.8GHzの逆転に成功している。

 Opteronの2GHz品の性能は、1.4、1.6GHz品の性能から予測すると、fpでは再逆転が濃厚だ。そうなる前に、intもfpもトップを取れる状況でリリースするというのは正解だろう。
 ただ、最上位モデルを追加したことで、3.06GHz以下のXeonの価格は大きく引き下げられた。Opteronも昨日、価格改定が行なわれており、どちらもローエンド品は200ドル台である。エンコードのような、デュアルCPUによる高速化の応用例が登場したことから、このところデュアルCPU環境がいつになく身近で魅力的なものになっている。なんとなく一服感のあるシングル用CPUとはずいぶん対照的だ。Xeonプラットフォームでは、ATX電源でATXフォームファクタ、メモリはアンバッファードという、PCの周辺機器をそのまま使えるものも出てきた。注目に比例して製品のバリエーションが増え、低価格化が進むという好循環に、そろそろ入りつつある気配だ。

 なお、パーツ情報月刊誌『週刊アスキープラス Vol.7』では、Xeon-3.06GHz大速報レビューのほかに、『ついに登場したPC4000モジュールの効果』『待望のAGP対応OpteronマザーHDAMBレポート』など、超最新マニアックパーツの極早レビューが目白押し。特集は役に立つ『速攻・激安で組む!! 安心自作レシピ』『パーツの見かた完全指南』『いま“最強”のHDD選び』など、充実の内容で大好評発売中! お近くの書店でぜひお買い求めください。

(週刊アスキープラス編集部 野口岳郎)




[通常ページに戻る]
ASCII24 http://ascii24.com/
Copyright (C)2000-2008 ASCII Corporation. All rights reserved.