【最新パーツ性能チェック(Vol.22)】いよいよプレスコット登場(PART1)!注目の性能とSSE3効果を速攻チェック!
|
2004年2月3日
2月3日、インテルは90nmプロセスによる次世代Pentium 4、コードネーム“Prescott(プレスコット)”を発表した。製品も追って秋葉原などに登場するはずだ。動作クロックは3.4GHzにアップ、さらに、現行Pentium 4(Northwoodコア)の512KBの2倍に当たる、1MBもの大容量2次キャッシュを搭載する期待の新製品だ。PART1の今回は、その特徴とパフォーマンスを検証していくことにする。なおPART2では、SSE3の話題を中心にお届けする予定だ。
 |

アスキープラスVol.13が1月29日(木)に発売!/最新モデルを網羅した「水冷クーラー12モデル完全比較」、安価になったHDDをフル活用術「14万円でテラバイトサーバを作る」、安くなって買い頃の「4万円から買える17インチ液晶」など、アキバウォーカー必見のパーツ選び&ノウハウが満載して、みなさまを29日の木曜日に書店でお待ちしております。 |
Prescottとは何か:ハードウェア編
Prescottは、現行の0.13μmプロセスによるPentium 4(Northwoodコア)の後継となる新CPU。プロセスが微細化すると、高クロックへの対応、消費電力の低下、ダイサイズの縮小(またはより大規模なキャッシュや回路の搭載が可能)、といいことずくめなのはよく知られている。
しかし、Prescottは、以前Pentium 4がWillametteコア(0.18μm)からNorthwoodコア(0.13μm)に移行したときのような、2次キャッシュを倍増しただけの単純なプロセス移行ではなく、さまざまなファインチューニングや新機能の組み込みが行なわれている。今回は、2次キャッシュの倍増に加え、
・1次データキャッシュを8KBから16KBに拡大
・13の新命令セット「SSE3」の内蔵
・セキュリティ機構「LaGrande」に対応
・かけ算命令(imul)の高速化
・ライトコンバイニングバッファの増設
といった強化がなされているためだ。そのため、WillametteからNorthwoodではトランジスタ数はプラス1300万と、キャッシュの256KB増加分から予想される1280万にぴったり符合した数だけしか増えていないのに、今回は5500万から一挙に1億2500万と、2倍以上にアップした。キャッシュ512KB増加分は2600万くらいだから、そのほかの機能に4500万ほどもの膨大な数のトランジスタが費やされていることがわかる(もっとも、既存の回路を高クロック対応にするために、追加でトランジスタを必要とした可能性もあるのでなんとも言えないが)。
このような大きなコアの機能拡張が行なわれているため、PrescottはPentium 4ではなく新しいネーミングがなされるという観測もあったが、実際に登場したPrescottは、Pentium 4の名前を踏襲、見分けるには製品名末尾の「E」または「A」という記号を頼りにするしかないという、地味なデビューとなった。一方で、あとは消えゆくのみと思われたNorthwoodコアに新たに3.4GHz版が登場したり、Extreme EditionはNorthwoodコアのままであるなど、妙にNorthwoodの存在感が高いのも目につく。まるで、まだまだNorthwoodでも行くぞ、と言いたげである
理由のひとつに、熱設計電力の問題が考えられよう。Prescottは2.8GHz/3GHz版で89Wと、NorthwoodのPentium 4-3.2GHzの82Wを上回り、3/3.2GHz版に至っては103Wと、ついに3ケタのワット数を必要とする。従来のマザーボードは、89Wまで対応のFMB 1仕様のものが多い。Prescottで置き換えてしまうと、差し替えの選択肢が3GHzまでに抑えられてしまうし、FMB 1以前のマザーではそもそも選択肢がなくなってしまいかねない。
だがそれにしても、同クロックのNorthwoodとPrescottの価格が同じであるというのは納得しずらい。Prescottは1次、2次キャッシュの倍増という強化がなされ、周波数換算で300MHz分くらいは性能が上がっていい。当然Prescottのほうが高価であるべきではないか。確かに、FSB 400のPentium 4とFSB 533のPentium 4も、今までは周波数が同じ場合には同じ値段で売られてはいたが、今回はコアがまったく別物なのだ。
Prescottの予想外の性能
以前、Vol.16でPentium 4 Extreme Editionのレポートをしたときに、「もうじきキャッシュ倍増で大幅に性能アップするPrescottが出てくるので、ターゲットにできる市場は大きくない」とコメントしたのは、過去においてキャッシュ増量が実際に大きな性能アップをもたらしてきたからだ。たとえばAthlon XPでは、AMDは同クロックのThoroughbredコア(2次キャッシュ256MB)とBartonコア(同512KB)とで、モデルナンバーを200または300アップしているし、各種ベンチマーク結果を総合すると、そのナンバリングはおおむね妥当だったからだ。今回Prescottでは2次キャッシュを倍増させただけでなく、より性能にクリティカルに直結する、1次キャッシュのサイズまで(データキャッシュだけだが)アップしている。控えめに見積もっても、300MHz分くらい上がってしかるべき、という予想はこうして出てくるわけだ。
今回借用できたのはPentium 4-3.2EGHzなので、これをNorthwoodのPentium 4-3.2GHzと比較していくことにする。
まずは、Sandra 2004から。CPU内のキャッシュにあらかた入ってしまうような小さなベンチマークは、キャッシュ容量の増減とは無関係に、クロックに比例した値の向上を見せるものだ。ところが、計測してみた結果は想像を絶するものだった。なんと、Prescottのほうが8〜14%も遅い。
いったい何が起きているのか。これまでPrescottについては、機能強化の話はあったが、Pentium 4の基本的な構造に手が加えられるという話は出ていなかったが、この結果は、明らかに何らかのアーキテクチャ上の変更がなされたことを窺わせる。
まっさきに思いついた可能性は、キャッシュのサイズを大きくしたために、従来のレイテンシではメモリアクセスができなくなり、レイテンシを増やした、というものだ。Pentium 4は、非常に高速なコアクロックを誇るにもかかわらず、1次キャッシュにわずか2クロックという短いレイテンシでアクセスできるのが高性能の一つの秘訣だった(Athlon XPやOpteronは3クロック)。ここに1クロックでもレイテンシが増えていたなら、2クロックでアクセスが可能な同クロックのPentium 4より遅くなっても仕方がない。2クロックが3クロックになったら、インパクトは50%だ。
 |
Sandra2004の結果。CPUコアだけの性能評価といえる。Prescottの弱点が一番よく見えるが、実際のPCの利用シーンでは考えにくい |
|
 |
3DMark 03の結果 |
|
 |
Unreal Tournament 2003の結果 |
|
 |
Commanche 4の結果 |
|
 |
Windows Media Encoderでの動画・音声の圧縮結果。単位は秒、短い方が高速 |
|
 |
Final Fantasy Xi ver.2の結果 |
|
 |
DGCAβ9でのファイル圧縮の結果。単位は秒、短い方が高速 |
|
| |
もう一つの可能性は、パイプラインがさらに細分化され、分岐予測ミス時のペナルティが増えた、というものだ。これも同クロックでパイプライン段数が少ないプロセッサに対しては性能が落ちる要因になる。
そこで、CPUZによってキャッシュのレイテンシを見てみると、Prescottの1次キャッシュのレイテンシは、予想をもう一段上回る、4クロックに延長されていた。2次キャッシュについても、従来の19クロックに対しPrescottは28クロックを要している。これでは、ほとんど1次・2次キャッシュだけがアクセス対象となる小さなベンチマークでは、性能が落ちて当たり前である。
ともあれインテルはレイテンシを増やしてでもキャッシュ容量を増やしたわけだから、その効果が実際のアプリケーションで見えるのかどうか、テストした。
全体に、差は思った以上に僅差だ。一部、小さめのエンコードテストでは、1MBのキャッシュの効果が大きいのか、Prescottが圧倒的に早いものがあるが、多くのテストでは接戦での勝ち負けになっている。圧倒的に強い項目の存在を考えると、トータルではPrescottのほうが優秀であり、なんとか巨大キャッシュ搭載の面目を保ったといえる。
Prescottは何を狙っているか
90nmで1MBキャッシュのPrescottは、Intelの最終兵器としてここ2年ほど多くのPCユーザーの注目を集めてきた。キャッシュ倍増によるさらなる基本性能アップを、約束された未来のように心待ちにしていた人にとっては、ここまでのPrescottの性能は、期待に届かなかっただろう。
その原因として、1次、2次キャッシュのレイテンシが大きくなったことが挙げられる。たいして性能も上がらないのにわざわざたくさんのトランジスタを使って、投資効率が悪すぎる、とも思える。しかし、わずか8KBのキャッシュを16KBにするのに、レイテンシを2も増やさなくてはならないだろうか。2次キャッシュも、すでに十分大きな512KBのキャッシュを2倍にするにあたって、10クロックも余分に必要なものなのだろうか。あえてこうしたことの裏に、Prescottの狙いが見えてくる。
CPU内キャッシュのレイテンシとは、結局それを内部パイプラインの何ステージを使ってアクセスするかによって決まる。今までは1次キャッシュは2クロックだった。3GHzのプロセッサにおいては、1次キャッシュは0.66nsで答えを返していたことになる。
この条件は、Prescottが高速化するほどシビアになる。4GHzなら2クロックは0.5ns、5GHzなら0.4nsという短い時間になる。もしキャッシュの反応速度がこの前提に付いてこられなくなったら、1次キャッシュのレイテンシ=2として設計されているCPUコアを設計しなおす必要がある。
たぶん、1次キャッシュを16KBにしたことで、2クロックのレイテンシを維持するのはいっそうチャレンジングにはなっていたのだろう。しかし、そこで3クロックではなく4クロックにした=つまり、1次キャッシュのアクセスにパイプラインの4ステージを割り当てたということは、逆算すれば、今の反応速度0.66nsのメモリでも6GHzまで耐えられるように条件を緩和したということだ。つまり、6GHz時代までは、コアの再設計をせずとも、ラクラクと動けるようにしたということになる。
キャッシュメモリアクセス部分のパイプラインステージをここまで伸ばしたということは、命令実行部分でも同じようなパイプライン延長があったと考えるのが自然だ。これについてはいずれ、テストプログラムによって検証したいと考えているが、少なくともメモリのレイテンシ増大だけを見ても、IntelがどれほどPrescottを高クロック対応にしようとしたかがよくわかる。
この、極端なまでのパイプライン細分化と、登場直後のスピード面の印象の曖昧さは、Pentium 4を連想させる。Pentium 4は、1.5GHzというびっくりするようなクロックで登場はしたものの、性能のほうは、特に当時テストの主流だったオフィスアプリケーションの動作では、クロックにして数百MHzも低いPentium IIIの上位レベルと同程度だったり、場合によっては負けたりもしていた。それに比べれば、Prescottは、同クロックの前世代コアと対等以上の勝負なのだから、インテルとしてははるかにうまくコア変更を乗り切れたと言えるのではないだろうか。
Pentium 4登場後、時代はインテルが考えたとおり、高速CPUが必要な処理は3Dゲームとマルチメディアデータ処理が主役になり、当時としては何もそこまで、と思うほど細かい20段パイプラインを備えたPentium 4は、スムーズに2GHzオーバーを実現したことで見事に時代の寵児となった。今回Prescottはふたたび、余裕を持ったパイプライン構造に切り替えて、一気のクロックアップを狙っている。
Athlon 64-3200+ ≒ P4 3.2GHz ≒ Prescott 3.2GHz という関係からすると、最上位の3.4GHz版Prescottも、Athlon 64-3400+を大きく上回る可能性は低い。デビュー現在の今だけを見れば、Prescottはとりあえずなんとか3400+対抗になったにすぎない。しかし、たぶんそう遠くない将来、超高クロック対応に作り替えられたコアがその真価を見せつけてくるだろう。
(アスキープラス編集部 野口岳郎)
|