ブログパーツマイリスト

無料ブログはココログ

« CPU ロードマップ CPU VS GPU論文は、Intelのオウンゴールではなく、勝利宣言 | トップページ | CPU ロードマップ OpenCLのデータ構造を知る »

2010年8月12日 (木)

CPU ロードマップ BulldozerはK10より高速

16コア(8モジュール?)のBulldozerは、現行の12コアOpteronより、コア数の33%増加で、性能(performance)が50%向上するらしい
コアあたりの性能は落ちると思っていたので、ちょっと驚き。
もちろん、12コアOpteronは、6コア+6コアをHyperTransportでつなぐ、2コイチなので、ネイティブ16コアに対しハンデがある。

不明な点を整理しよう。

性能(performance)とは何か
Opteronとの比較なら、性能とはスループットで、整数演算の比較だろう。
平たく言えば、Spec_int_rateだね。
浮動小数点は、2コアの共有だから、遅いことは当然。
※もし浮動小数点でも速いなら、FPユニットは、16C/8Tと12C/12Tの比較なので、クロックが50%以上、速いか、アーキテクチャが奇跡かのどちらか。
※CPUの速度は、スループット(一定時間に処理できるタスク量)と、一つのタスクを終わらせる速さ、の2種類がある。
サーバは、多くのユーザから多くの処理を受け付けるため、スループットが重要。
コンシューマは、目の前の処理がどれくらいの時間で終わるか、が重要。

同じクロックでの比較か?
12コアOpteronの最高クロックは2.3GHz。
テープアウトしたBulldozerのクロックは高くはないだろうが、どれくらいか?

同じキャッシュサイズでの比較か?
L3キャッシュが、スループットに影響するので、POWER7の32MBのように、サーバ用のCPUはL3キャッシュが大きい。
12コアOpteronのL3キャッシュは、2コイチなので12MBになる。
32nmでは、どれくらいになるか。

同じTDPでの比較か?
TDPをそろえれば、クロックは変わるはず。32nmと45nmが同じだとちょっとつらい。
Intelは、クロック向上よりTDP低下に、32nmを振ったが、サーバ重視のAMDはクロック向上に振るはず。

8モジュールをクロスバースイッチでつなぐのか
以前のエントリー(参照)でも書いたが、クロスバースイッチで、8モジュールと4つのメモリコントローラをつなぐのは、配線が複雑になり、消費電力が増す。
8モジュール以上をつなぐなら、Radeon HD 2900で実装した、リングバスになるだろう。
それにしても、メモリコントローラがよくなった感じがする。

« CPU ロードマップ CPU VS GPU論文は、Intelのオウンゴールではなく、勝利宣言 | トップページ | CPU ロードマップ OpenCLのデータ構造を知る »

AMD」カテゴリの記事

コメント

逆にFPで性能を稼いでいるとみているが。

BulldozerのFPはmoduleあたり、128Bit乗加算器*2で、Opteronの 128Bit乗算器1、128Bit加算器1に対して倍増されている。
FPUだけで言えば、12コアOpteronより8module16コアのBulldozerのほうが33%FPUが強化されている。
しかもFPUはレイテンシーが悪いため(最低でも4サイクルのパイプライン動作)、したがって2スレッドで共有化することで、FPパイプラインを埋めやすいという利点がある。

シングルスレッドで言えば整数のIPCはパッとしないだろう。
早くなるとすれば20%以上高クロックで回しているのだろう。
今回の性能は具体的に何んだかわからないが、多くはFPで稼いでいるとみている。

コメントを書く

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/217868/49125860

この記事へのトラックバック一覧です: CPU ロードマップ BulldozerはK10より高速:

« CPU ロードマップ CPU VS GPU論文は、Intelのオウンゴールではなく、勝利宣言 | トップページ | CPU ロードマップ OpenCLのデータ構造を知る »