ブログパーツマイリスト

無料ブログはココログ

カテゴリー「AMD」の67件の記事

2011年12月24日 (土)

Radeon HD7970 Cellの願い、Larrabeeの夢

Radeon HD7970が発表され、VLIWからアーキテクチャが一新された。

ベクタ演算用に複数のSIMDユニットをまとめ、小さなスカラーユニットと組み合わせ、L1キャッシュ、スケジューラーをもつ。
そして、コアユニット単体でカーネルを動かせる。

このアーキテクチャは、Cell、そしてLarrabeeによく似ている。

Larrabeeのテクスチャ処理を強化しグラフィックスに最適化させると、Radeon HD7970に近いものになるだろう。

グラフィックスと同時に、HPCのパフォーマンスも高そうだ。
スーパーコンピュータTOP500では、nVidia製のGPUとの組み合わせが増えているが、それの巻き返しも可能だろう。

このGPUと、Bulldozerのシンプルなコアが組み合わせは凄そうだ。

しかし、3.79TFLOPSほどのプロセッシングパワーの使い道がゲームだけというのは、先細りだ。

もっとプロセッシングパワーを必要とするタスクを探す必要がある。

2011年12月14日 (水)

AMDの32nmの謎。Llanoのトランジスタ数はどうか

FX-8150は驚くほどトランジスタ数が少ないが、Llanoはどうか。

Bulldozer 1200M 315平方mm
Llano 1450M 228平方mm
SandyBridge 994M 216平方mm
SandyBridge-E 2270M 435平方mm

もともとAMDのGPUはトランジスタのつくりが小さい。
Radeon HD5800(RV870)は、TSMCの40nm、2150M 335平方mmだ。
同じ40nmプロセスを使う、nVidia GTX480の、3200M 530平方mmと比べると、わかる。
RV870のトランジスタ数を、GTX480にあわせても、500平方mmを超えない。

また、RV870の2150Mは、SandyBridge-Eの2270Mに近いが、40nmプロセスでも、32nmより、ダイサイズがずっと小さい。

しかし、RV870のトランジスタ数を1450Mにすると、226平方mmになり、Llanoの228平方mmと変わらない。

だから、GPUの比率が高いLlanoは、ダイサイズに比べてトランジスタ数がすごいことになる。
GPUを比べても仕方がないが、とにかく、GLOBALFOUNDERIESの32nmはよくできている。

問題は、歩留まりの悪さだけではなく、プロセスチューニングが不十分でクロックがあがらないことだ。
もちろんプロセスチューニングは、GLOBALFOUNDERIESだけの責任ではない。

逆に言えば、AMDとGLOBALFOUNDERIESは、向上の余地が大きい。

それにしても、よい製品を作るには、設計と製造の両方がないと、だめなのだろう。
やはり、「Real men have fabs.」だ。

2011年12月10日 (土)

AMDの謎。FX-8150のトランジスタ数を数えよう

2011年2月のこの記事によると、Bulldozerモジュールは、2億1300万トランジスタとのこと。
また、8セルキャッシュはL1のみということで、計算してみよう。

・Bulldozerモジュールは、L2キャッシュを含む(でないと収まらない)
・L3キャッシュは6セル(でないと収まらない)

213M×4モジュール=852M

L3キャッシュ8MB(SRAMのトランジスタ数のみ)
6×8×1024×1024×8=4億265万3184

852M+402M=1254M、1.25Bになる。

これに、クロスバースイッチ、HyperTransport、メモリーコントローラーといったNorthBridgeが加わる。

Denebの758M、Thubanの904Mを参考に、NorthBridgeを計算する。

L2キャッシュを含む1コアは、(904M-758M)/2=75M

よってアンコア部分は、904M-(75M×6コア) = 450M

これから、6MBのL3キャッシュを引く。

6×8×1024×1024×6=3億198万9888

450M-302M=150MがNorthBridgeになる。(FX-8150よりHyperTransportの数が少ないが)

よって、1254M+150M=1400M、1.4B以上だと思うが、1.2Bなのか。

そもそもの数え方が違うのか、計算間違ったのか。
まあ、どっちにしろ、すごい。

2011年12月 4日 (日)

FX-8150の1.2Bは嘘だろう。キャッシュを計算してみよう。

CPUのダイ写真をみると、キャッシュの面積が広いことが分かる。

AMDもIntelもキャッシュはSRAMを使用しており、SRAMは、フリップフロップ回路で高速な反面、トランジスタ数が増える。

45nmまでAMDのSRAMは、1ビットを構成するのに6個のトランジスタを使用する6セル。
32nmから、8個のトランジスタを使用する8セルになったはず。

実際に、FX-8150のキャッシュが6セルか、8セルか、あるいは両方か、確認は取れていないが、計算してみよう。
これは単純にキャッシュのセルを数えるもので、実際のトランジスタ数は、キャッシュラインを走査するトランジスタが必要になる。

計算例1:すべて8セルの場合
1ビット×8セル×8(バイト変換)×1024(キロ)×1024(メガ)×16 = 10億7374万1824
※L2キャッシュを抜いた4モジュール、HyperTransport4本、メモリコントローラー、クロスバースイッチが、いくらなんでも130Mでは無理。

計算例2;すべて6セルの場合
1ビット×6セル×8(バイト変換)×1024(キロ)×1024(メガ)×16 = 8億530万6368
※L2キャッシュを抜いた4モジュール、HyperTransport4本、メモリコントローラー、クロスバースイッチが、350Mですめば、1.2Bに収まるが、これも無理。

もし、6セルSRAMで、1.2Bなら、ありえないくらい、すばらしい設計だ。
そして、予定通り8セルになれば、キャッシュの性能向上がある。

真実が知りたいね。

32nmはAMDとGLOBALFOUNDERIESの勝利

この記事によれば、FX-8150とSandybridge-Eは、SRAMキャッシュがほぼ同じ16MBなのに、1.2Bと2.27Bのトランジスタ数の差、315平方mmと435平方mmのダイサイズの差がある。

12億なら、信じがたいほど驚異的に少ないトランジスタ数で設計した、AMDの勝利。
20億なら、驚異的に小さいトランジスタを製造したGLOBALFOUNDERIESの勝利。

ただ、1.2Bは、Llanoなら理解できるが、少なすぎる気がする。
本当なら、すばらしい設計だ。プロセスチューニングで大きく伸びるだろう。

1.2Bが本当か、大雑把に計算してみよう。
Denebが758M、Thubanが904Mを参考にすると、512KBのL2キャッシュのついた1コアが75Mになる。

アンコア部分は、904M - (75M×6コア) = 450Mになる。

トランジスタの半分が、6MBのL3キャッシュ、HyperTransport、メモリコントローラー、クロスバースイッチになり、ダイ写真をみてもそんな感じ。

仮に、モジュール1つが、K10のコア二つ分として、150M。
4モジュールで600M。
キャッシュが1MB増えたが、計算が合わなくなるので、フロント部分とFPUで相殺。

なので、2MBのキャッシュ増、HyperTransport3本増を150Mで済ませなければ、1.2Bに収まらない。

ダイ写真と比べると、L2キャッシュとL3キャッシュは同じ大きさであったり、明らかにあわない。
L2とL3のSRAMの設計が違い、トランジスタの数も違う可能性はあるが、1モジュール150Mなら、このままZacateに使ってくれ。

プロセスルールが近しいPower7でも、32MBのL3キャッシュは、SRAMで作ると27Bトランジスタになるという。
16MBなので半分にすると13.5B。
すでに、1.2BをL2&L3キャッシュだけで超えている。

1.2B、2.0Bどっちが正しくても、すごいね。

2011年12月 3日 (土)

AMDの32nmの謎。1.2Bで驚くのはIntel

FX-8150のトランジスタ数が20億ではなく、12億だというが、これは信じがたい

FX-8150のキャッシュは、L2、L3ともSRAMである。
よって、16MBのSRAMを積んで、12億トランジスタのほうが遥かに驚異だ。

SRAMはトランジスタ数が多い。ダイ写真を見ると、コアよりキャッシュが大きいのはそのため。
ましてや、32nmから6セルから8セルになったため、トランジスタ数は45nmより多くなる傾向のはず。

POWER7は12億トランジスタだが、32MBのL3キャッシュを、eDRAMではなくSRAMで作ると、27億になる。

SandyBridge-Eも16MBのキャッシュを積んでいるが、6コアで22億トランジスタだ。

Radeon HD5570が6億2000万なので、4コア、L2キャッシュ4MB、L3キャッシュ0のLlanoが12億トランジスタなら理解できる。

4モジュール8コア、L2&L3キャッシュ8MBのFX-8150が12億トランジスタなら、これは本当にすごい。

プロセスチューニングが進めば、ダイサイズがとても小さくなるか、モジュールが増えるか、いずれにしろ、大幅に進歩する。

Intelは、12億も20億も信じたくないだろう。今頃、ダイサイズを、400平方mmじゃないかって、測っているぜ。

2011年11月30日 (水)

AMDがメモリーに参入。これは欲しい

Amd_radeon_memory_hero_774w

なぜ、今の時期なのか、分からないが、AMDがメモリーに参入した
スペックでは、特にすごい点はないが、RADEON EDITIONはAMD Over Driveに対応している。
いつのまにか、消えてしまったBMPなんだろうか。

しかし、ヒートスプレッダがかっこいい。パッケージもイカス。
Amd_memory_radeonedition_pib_185w
欲しいよねえ。

2011年11月23日 (水)

Bulldozer(FX-8150)がオーバークロック世界記録再更新(8.585GHz)

また、FX-8150が、クロックを更新し、ついに8.585GHzまできた。

8.6GHzまで、あとちょっと。

Cpuz_validator_31_1322009700244

B2ステッピングのままなので、早くB3ステッピングでみたい。

ただ、販売されるCPUの消費電力が大きく改善されるのは、リビジョンCからだろう。

HyperTransportが1本に制限されれば、クロスバースイッチの負荷が下がって、消費電力も下がるだろう。

2011年11月 6日 (日)

FX-8150購入できず。AMD特製水冷クーラーがないと魅力半減

2011年11月4日。仕事を休めなかったので18時半に秋葉原に行ったが、すべて完売。
Over Clock Worksには1個あったが、11月5日のイベントで販売とのこと。

キャンペーンをやるのはいいが、AMD特製水冷クーラーがないと魅力半減。
B3ステッピングを待つ気分。

ただ、Windows7のななみキャンペーンとあわせて、自作の冬がきそうだ。

Imga0430

2011年10月30日 (日)

Bulldozer(FX-8150)が、オーバークロック世界記録更新(8.46GHz)。なんとB2ステッピング

the CPU-Z screenshotsによると、Bulldozerが、8461.51MHzのオーバークロック世界記録を更新した。

驚くべきは、B2ステッピングで更新したことだ。

B3ステッピングでの更新かと思ったが、CPUzではB2ステッピングと表示されている。

Cpuz_validator

B3ステッピングでは、更なる記録が生まれるだろう。

まあ、どんなことでも、ポジティブな内容は歓迎すべきだ。

より以前の記事一覧