ブログパーツマイリスト

無料ブログはココログ

« おススメ自作PCを見積もる〜その6 黒シア降臨 | トップページ | Phenom II X6のDDR3のクロックとレイテンシ »

2010年4月12日 (月)

Phenom II X6のベンチマークの見所

もうすぐPhenom II X6が発表されるが、ベンチマークの見所を整理したい。

以前のエントリでも指摘したが、伸びしろのあるメモリコントローラを、ちゃんと強化してきたので、メモリコントローラがトピックになる。
というか、6コアに増えたのに、L3キャッシュは変わらないので、メモリアクセスの強化は必須だ。

Dual Channelで4本ざしのパフォーマンス
Opteron 6100でメモリコントローラがQuad Channelで1チャンネルあたり3本ざしに強化された。
ただ、1チャンネルで2本ざしがベストパフォーマンスということで、Phenom IIでは4本ざしを推奨するだろう。
Dual Channelで4本ざし、ついにungangedモードが!

※特にベンチマークでも、AMDからもなかった。Opteron6100と同じメモリコントローラーではないのかも。

メモリコントローラのスピード
890GXのマザーボードのスペックを見ればわかるが、メモリのスピードが向上している。
メモリコントローラはCPU側なので、CPUが変わった証拠。

Asustekの場合、890GXのM4A89GTD PRO/USB3は2000MHzだが、790FXのCrosshairIIIは1600MHzまで。

ASRock先生も、890GX Extreme3は1800MHzだが、790GXのM3A790GXH/USB3は1600MHzまで。

BEMPとあわせてどれくらい、速くなるか、楽しみ。

※これもベンチマークには無かった。ただ、マザーボードのDDR3のクロックは軒並み2000MHzだから、向上しているはず。

コアあたりのキャッシュ減の影響
均等に割り当てると、コアあたりL3キャッシュが1MBになので、ボトルネックになる可能性が高い。
Core i7 980XはL3キャッシュを増やしたが、メモリコントローラの強化で補えたのか、それとも妥協したのか。

Black EditionとTurboCore
X6にBlack Editionが発売されるか、不明だが、TurboCoreとの関係がどうなるのか。
おそらく、倍率を上げても下げても、何らか変更すればTurboCoreは無効になるはず。

AMDのTurboCoreは、3コア以上がP2 Stateになったときに発動する。
どれくらいの負荷で、P2 Stateになるのか不明だが、OSがプロセスを適当に割り振る以上、発動の頻度は少ないと思う。
A.O.Dでコアを停止させると、強制的にTurboCoreが発動する裏技があったりするような。

それより、AMD Over Driveで、縦(クロック)と、横(コア数)を自分でコントロールするほうが楽しい。
クロックとコア数を縦横無尽にコントロールする方がAMDらしいと思う。
自分に必要なプロセッシングパワーがわからないなんて、ダメダメだよ。

Phenom II X6 1090TがBlackEditionだったら、これに決まりだ。

« おススメ自作PCを見積もる〜その6 黒シア降臨 | トップページ | Phenom II X6のDDR3のクロックとレイテンシ »

AMD」カテゴリの記事

コメント

AMD派でもINTEL派でもないけど

設計が下手というより設計思想と製造技術の違いでは?

そもそもキャッシュについてはやり方が違うため、AMDの方がレイテンシが高くなって当たり前だと思うけど?
キャッシュが多くなればコストに直結するからペナルティーを払ってでも今の方式でやってるんだと思うけど?

INTELのやり方だと性能維持するためにキャッシュ量を減らせない。多コア化して行く場合その分レイテンシも増えるからそれを補うため逆に増やす必要があった可能性の方が大きい。

AMDのやり方だと性能は大幅に上がらないけど、キャッシュの自由度が少し高い。

INTELはプロセスシュリンクが進まないとなかなか先に進めないのが実情だと思う。
これからもっと多コア化していくだろうし、コストと性能はもちろんだけど、Intelがプロセスを急ぐのにはそれがあるのでは?

例えるなら電源管理を除けばCPU自体は
INTELは ワークステーションのような贅沢なつくりとキャッシュの使い方
AMDは  サーバーのような多コアを意識したつくりとキャッシュの使い方

シリコンウエハはそんなに多くの会社が作れるわけではないから
AMDのCPUの単体性能が劣るのはスイッチング素子の影響が大きいと思うよ。電圧とスピードが同じプロセスでかなり違うのはそのせいだと思う。もちろん同じ素子でも方式的に遅いけど、同じものに変えれば全体がかなり改善されるはず。製造技術の違いが今の大きな差を生んでいるんだと思う。

申し訳ありません。
色々調べていたら、Phenomは、L3のクロックは、CPUのコアと同じではなく、メモリコントローラと同じクロックということがわかりました。

Phenom IIのクロックの種類は、以下の3種類でした。
・CPUコアのクロック
・CPU NorthBridge(メモリコントローラとL3キャッシュ)のクロック※デフォルト2GHz
・HyperTransportのクロック※デフォルト2GHz

メモリコントローラとL3キャッシュは同じクロック、955や910e等、CPUの種類に関わらず、デフォルト2GHzで動いています。
※ベンチマークの帯域が異なっているのは、コアのクロックに引っ張られ、オーバークロック状態になっていると思います。

マイコミの記事で、L3の帯域が低いことを指摘していましたが、2GHzで動いているなら、そのとおり。

ITmediaの記事で、NorthBridgeのクロックを2.4GHzに上げたベンチマークをとっており、パフォーマンスが向上しています。
http://plusd.itmedia.co.jp/pcuser/articles/1005/21/news012_2.html
※この記事を書いたライターは、NorthBridgeを890FXと思っているようで、890FXのオーバークロックと言ってますが、L3キャッシュとメモリコントローラのオーバークロックです。

申し訳ないです。

>マイコミの記事でも、1055T、1090T、965と、コアクロックの低い順番にレイテンシが低くなっていて、キャッシュの性能(読み書きできる量)は変わっていないと言っています。
4コアでの共有だったのが6コアの共有となったことでレイテンシーは少し悪化したようですね。

前々回の発言に訂正があります。

レイテンシーはサイクル表示であるため、そのCPUが動作している周波数によってL3レイテンシーがバラつきます(つまりL3がコアと等速で動いていないという証拠なわけですが)。

この実際に動いていたクロックの算出によってレイテンシーを実時間に換算した時に誤差が生じてしまった。
965BEにはターボコアなどは搭載していないため3.4GHzで変動はないわけですが、1090Tと1055Tは実際何クロックで動いていたのか判らず、とりあえず定格クロックで算出したした為。遅くなった結論を出しました。

L1のレイテンシーは本来3サイクルであるものが2.8サイクルとかなっているので、ここから実サイクルを出して再計算すると以下のようになりました。

1090T 3.42GHz 7.16ns/16.35ns (Linear/Random 1M)
1055T 2.99GHz 7.22ns/16.92ns
965BE 3.4GHz 6.82ns/17.04ns

975EE 3.44GHz 3.34ns/13.47ns
980X 3.48GHz 3.35ns/15.27ns

1M時におけるlinearとrandomのレイテンシーを実時間に換算したものですが、6コアではlinearで若干遅くなりrandomで若干早くなるという結果が出ました。
ちなみにIntel系も算出しましたが、圧倒的に速いですね。

感想。
ターボ系技術はアーキテクキャ分析には厄介だw

L3速度がコアと同じでないと認めたのは一歩前進ですね。

>ただ、2GHzというのはメモリコントローラのクロックであって、L3も同じとはわかりません。

いやメモリコントローラーとノースブリッジは同じクロックではありません。
クロックドメインは別です。
さらに言えばHT周波数も別です。

で、ノースブリッジとL3が同じ周波数と言ってるわけです。

推測として考えられるのは
1、ノースブリッジとL3が同じ周波数、HTとメモコンが別周波数。
2、ノースブリッジとL3とHTとメモコンはそれぞれ別周波数。
3、ノースブリッジとHTとメモコンが別周波数、コアとL3が同じ周波数。

3は全くの論外、2の可能性は無くはないが、L3のクロックドメインがAMDから特にアナウンスがないことから、1であると考えている。

以前も同じリンクを張ったと思いますがまた張っておきます。

http://journal.mycom.co.jp/special/2009/deneb02/005.html


>これはL3の管理をしているCPU内部のノースブリッジの動作速度に関係しているのかもしれない。

リンク先の結論では9950Beが一番良いことになっているが、クロック周波数で割った数字であり、時間当たりの転送量では955BEが一番良く、次に940、最後が9950BEとなる。

940はノースブリッジ(L3)周波数が2GHzから1.8GHzに落としたが、おそらくL3やノースブリッジ周りが改良で高速化できたためクロックを落としても問題なかったのだろう。

で、その単位時間当たりの帯域はそれぞれ

955BE 10.43GB/s
940BE 9.33GB/s
9950BE 8.89GB/s

そして、955BEと940の帯域差はノースブリッジ周波数2GHzと1.8GHzの速度差とほぼ一致する。

つまりノースブリッジとL3の速度が同じだとすれば、きれいに説明がつく。

単なる偶然と考えるのは管理人さんの自由ですけどね。


ありがとうございます。これは面白いです。
P1ステートが2.4GHzでTDP98.5Wとは、さすがhexa core。
ただ、電圧はもっと低くてもいいような気もします。

確かに、メモリコントローラ(NB)とL3のクロックは関係しているようです。
この辺が、Phenomのボトルネックで、Intelに劣る原因のように思います。古いAlphaアーキテクチャの名残でしょうか。

ただ、2GHzというのはメモリコントローラのクロックであって、L3も同じとはわかりません。

マイコミの記事でも、1055T、1090T、965と、コアクロックの低い順番にレイテンシが低くなっていて、キャッシュの性能(読み書きできる量)は変わっていないと言っています。

各々メモリには、一定時間あたりでデータを読み書きできる量が決まっており、クロックが上がればレイテンシも上がり、クロックが下がればレイテンシも下がりますので、コアクロックに応じて、キャッシュは動いています。

AMDのサイトへ行って43375 Thermal Data Sheet K10というPDFファイルをダウンロードすれば分かります。

ちなみにこの図の中のNB COFのクロック2GHzがノースブリッジおよびL3キャッシュの速度ですね。

管理人さんはいまだに懐疑的なようですが、L3キャッシュはコアと等速でないことは明らかですから。

http://journal.mycom.co.jp/articles/2010/04/27/x6preview/002.html
このページの下から1番目と2番目の図を参照。

L3がコアと等速ならL1のデータと同じように各CPU間でレイテンシーはほとんどバラつきません。
見ると、今までL3に関して、4コアでの共有だったのが6コアの共有となったことでレイテンシーは少し悪化したようですね。

また、旧式の激安マザーでよく取られてたシングルパワープレーンという電源供給では、800MHzに固定化されてしまうようで、6コアではこれらのマザーは使えないことが分かりますね。

情報ありがとうございます。
1090Tと1055TのP1ステートが2.4GHzと2.2GHzには驚きました。
お手数でなければ、参照されたURLなどご教授ください。

以前、955のP1が2.5GHz、720のP1が2.1GHzと公開されていたので、E0ステッピングはもっと高クロックと思っていました。

それとも、TurboCoreのCPUのP0は、以前のP1、というならば、955のP2ステートは2.1GHz、720のPは1.6GHzなので、ずいぶん向上しています。

TurboCoreは、AsustekのTurbo UnlockerがBlackEditionにも対応のとおり、ありもののようだから、頻繁な負荷の変動についていけないのは当然でしょう。
そうは言っても、体感できるほど影響する感じがするので、私も無効化したほうがいいと思います。やんなきゃいいのに。

ただ、AsustekのTurbo Unlockerのようにベンダー独自のものが出たのは、いい傾向です。

その後判ったことのまとめ。

P1(P2)ステートの周波数は1090Tで2.4GHz、1055Tで2.2GHz。

TC発動条件に800MHzに下がる必要性はない。

TCでは性能が下がる場合がある。

普通に考えてTCで性能が下がる要素はないが、可能性として考えるのはTCが動くと休んでいるコアを積極的にP1以下に下げようとすんじゃないだろうか?
負荷のかかるコアが変わるたびに、TCを掛けようとクロックを上げ下げするものの、追従しきれずに低クロックで動いてしまってるケースが多発するのではないか?

一定して3.2GHzで動いてるほうが、性能的にも体感的にも安定しているのではないか。

AMD Phenom II X6 1055T 6 core retails at NTD6890 (USD218)
http://en.ocworkbench.com/tech/amd-phenom-ii-x6-1055t-6-core-retails-at-ntd6890-usd218/
これによると1055Tは6890NTD,1090T10170NTDらしくこの値段まで落ち着いたらコストパフォーマンスは悪くないように思えます

1090Tが3.5万くらいというのは、本当ですね。
Hexa-coreでは安いですが、冷静に考えるとX4 965BEの倍なので、コストパフォーマンスがよいのか悪いのか、わかりません。

確かに買うのは、1090Tのみですね。
960Tの値段しだいでは、大穴になるかもしれません。Hexa-coreにできるようですし。

米アマゾンでは1055Tが222$、1090Tが324$となっています

>見る限り、Intelよりかなり雑なターボブーストだなと感じた。
おっしゃるとおりです。はっきり言って、これなら無い方がよいです。

さらに言えばAMDにはパワーゲートが無いので、稼動しないコアにも電圧が掛かってしまう。
コア単位で電圧制御はできないので、ターボコアで自動OCすれば稼動しないコアにも高い電圧が掛かる仕様。

Intelの機能を取り入れたは良いけど、支える底辺の技術で準備不足を露呈していますね。
仰るとおり、ターボコアに入る頻度や、温度&消費電力など、ちゃんと満足する出来になってるの?かは、実際出てからで判断したいですね。

>メディア対策は止めてほしいですね。

ただ、ターボコアをやらなければ、激しく微妙な製品になりますよ。
うわさではAMD Phenom2 X6 1055Tで2.7万、1090Tで3.5万なんて話もありますが、2.7万もしながら、4スレッドまではPhenom2 x4 925と同程度の性能となります。
メディア対策以前に製品の評判に関わります。

実際は1055Tはターボコアによって3スレッドまでは3.3GHzで動くことになってますが。

製品選びとしては、買うなら1090Tほぼ一択で、Phenom2 X6 1055Tは2.7万円でPhenom2 x4 925と同性能程度の状況がありうるし、シングルスレッドでも965BE以下というのでは、あまり買いではないか?

詳しいですね。

>見る限り、Intelよりかなり雑なターボブーストだなと感じた。
おっしゃるとおりです。はっきり言って、これなら無い方がよいです。
リンク先では、温度も見ていないようで、大丈夫なのか、というか本気か?という感じです。

>AMDは対抗で出しただけの為に、そこまでの準備ができなかったのだろう。
もともと、サーバ向けですからね。おっしゃるとおりでしょう。
株価維持のための、メディア対策は止めてほしいですね。

>AMDはキャッシュ&メモコン&システムブリッジ周りの設計がIntelより下手と言えるだろう。
キャッシュはExclusive victimなのでなんともいえませんが、メモコンはおっしゃるとおりです。

推測ですが、IntelのメモコンをUncoreとして明確に分けたアーキテクチャに比べ、AMDはCPU本体と結びついた古いアーキテクチャのような気がします。

Athlon64では、メモリのクロックは、CPUのクロックの整数分周でした。
Phenomでは改善されたといいますが、マザーボードの設定では「1:4」や「3:10」などが残っているようで、根本的には変わっていないような気がします。

Bulldozerから、メモリコントローラが大きく変わってくれると期待しています。

AMDの説明によると、従来のC0ステートをC1ステートに規定し(ただしOS側はP0として認識する)、ブーストステートなるターボコアを新たにP0ステートとし、通常、全コア稼動時はP1(従来のP0)で動く。

コアが少し暇になり、P2(従来のP1)に下がると、条件によってブーストステートのトリガーが働きターボコアを行うかどうかの判断を行う。
ただしP2は判断するだけで実際には発動しないだろう。
つまりP2の段階では4-600MHzのクロックアップをしない。

それは、稼動しないコアを800MHz迄下げる必要があるから。
P2(従来のP1)ステートは、中負荷程度の動作であり、2-2.5Ghz程度の稼動状態であるため、P2になったら即ターボコア状態と言うことではなさそうだ。
つまり、P2はターボコアを発動させるか否かの”判断をする段階”という話であって、実際にターボコアになるには、稼動しない残りのコアがP4の最低クロック状態になるか、あるいはC1Eまで落とした段階で、ターボコアが働くのだろう。

もうひとつは通常がP1で、ターボコアがP0と言うことは”中間”というものがない。
中間がないということは、例えばターボコアを200MHz程度でやめておこうかな。と言う判断をしないこと。
4-600MHzブーストする余裕が無ければ、ブーストしないままと言うことも考えられる。
ブースト条件が狭められる為、有効に働くケースが少ない可能性もある。

見る限り、Intelよりかなり雑なターボブーストだなと感じた。

IntelはTBの為にPCUという電源管理用のプロセッサを用意した分きめ細かいシーケンスが行えるが、たぶん、AMDは対抗で出しただけの為に、そこまでの準備ができなかったのだろう。

>それより、AMD Over Driveで、縦(クロック)と、横(コア数)を自分でコントロールするほうが楽しい。
クロックとコア数を縦横無尽にコントロールする方がAMDらしいと思う。

メディア対策ですよw
AMD Phenom2 X6 1055Tで6コア時2.8GHzだが、価格はAMD Phenom2 X4 965BEより高い価格だろう。
これじゃ動作クロックが600MHzも下がったおかげで、大半のベンチマークで性能は落ちるだろう。
6コアが使いきれる数少ないベンチマークでいい成績を残すでしょうが。

AMDの保証が無いAODの動作なんかまともに取り上げてもらいですからね。

>Core i7 980XはL3キャッシュを増やしたが、メモリコントローラの強化で補えたのか、それとも妥協したのか。

妥協でしょうw
補えたなんて余裕はAMDには無い。
45nmプロセスで6コアを出す自体かなりの無理をしているのに、キャッシュを増やす余裕など無いだろう。
メモコンにしても元々同じスペックのメモリを使うとIntelのほうがだいぶ早い(Phenom2とi7の比較)ので、AMDは
キャッシュ&メモコン&システムブリッジ周りの設計がIntelより下手と言えるだろう。

逆にIntelは32nmプロセスで出しているのだからキャッシュを1.5倍するくらい、わけないことでしょう。

コメントを書く

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/217868/48070673

この記事へのトラックバック一覧です: Phenom II X6のベンチマークの見所:

« おススメ自作PCを見積もる〜その6 黒シア降臨 | トップページ | Phenom II X6のDDR3のクロックとレイテンシ »