ブログパーツマイリスト

無料ブログはココログ

カテゴリー「Intel」の21件の記事

2011年11月16日 (水)

SandyBridge-Eは旧時代の恐竜~CPUの進化の袋小路

SandyBridge-Eが発売された。
2.27B、22億7千万トランジスタ、435平方mmの巨大なCPUだ。
Bulldozer FX-8150の2Bトランジスタ、315平方mmとくらべると、ダイサイズが異様に大きい。

それより大事なことは、今までのやり方では、少なくともデスクトップでは速くならない、CPUは進化の袋小路に入ったことが分かった。

SandyBridgeの995Mトランジスタ、216平方mmと比べると、トランジスタは2倍になったが、デスクトップのアプリケーションでは10%も速くなっておらず、トランジスタ数、ダイサイズの増大に見合った、パフォーマンス向上になっていない。

クロックをあげても、メモリアクセスが追いつかない
コアを増やしても、ソフトウェアが追いつかない
キャッシュを増やしても、フェッチできない

L3キャッシュが15MBあっても、デスクトップのアプリケーションでは、オペランドを載せられないだろう。
デスクトップアプリケーションは、メモリアクセスがボトルネックになるほど、オペランドを供給することはない。

CPUの進化には、パラダイムシフトが必要だ。
そう考えると、デスクトップではGPUを統合、サーバではスレッドを共有できるクラスターなコアを増やす、というAMDのアーキテクチャはエレガントだ。

単純にシンプルコアを増やすのではなく、二つのスレッドがスケジューラなどを共有できることがポイントだ。

AMDがダイレクトコネクトを採用したときのような、革新を感じる。

唯、あのころと違うのは、どのように進化したのか分かりにくい。

2010年9月19日 (日)

CPU ロードマップ SandyBridgeは、あさってに架ける橋

IDF San Franciscoで、SandyBridgeのアーキテクチャが公開された。
あまりに、あさっての方向に驚いた。大きなポイントは3点。

  • リングバスでコアをつなぐ
  • System Agentでビデオを処理する
  • マルチソケットに弱い
リングバス
AMDがRadeon HD2X00で実装済みだが、CPUでは先手を打たれた。
  • メリット
  • クロスバースイッチと比べて、コアを増やしても、トランジスタや消費電力が増えにくい。

  • デメリット
  • 特定のデータが大量に流れると、全体のスループットが落ちる。
    つまり、Radeonで、リングバスを流れるのは、テクスチャデータばがりだったように、リングバスがテクスチャに占拠されるとCPUに影響が出る。
    だから、Intelも、ゲームではなく、動画や3Dの再生支援に向くとしている。
    AMDはGPUとCPUをリングバスではつながない。

    しかし、DirectX10どまりで、DirectComputeに未対応だから、アプリケーションがGPUを直接たたくことはできない。

System Agent



ビデオカードはPCI-Expressにつなげないと、ドライバモデルが変わるため、アプリケーションの互換がとれない。

特にXPでは、DDIを引きずっているから深刻だ。

WDDMであれば、全てカーネルに集約するため、まだ対応できる。

AMDが猛烈な勢いで、ドライバを更新しているのは、そのため。



それをIntelは、System Agentでハードウェア的に解決した。
System Agentは、PCI-Expressを持っていて、ビデオカードと内蔵GPUのディスパッチを行うだけではない。
内蔵GPUが、PCI-Expressにつながっているように見せる、まさにAgentである。


これには、AMDもビックリかつ大笑いだろう。

Intel、驚異のテクノロジー(笑)

確かに内蔵GPUを使う場合は、PCI-Expressの帯域やデータコピー2回の制限が無いため、スループットが向上する。

しかし、ローエンドのGPUでは帯域を使い切ることはできないが、IntelのGPUはそんなに高性能なのか?



マルチソケットに弱い


System Agent、リングバス、マルチGPUの経験が無い、そしてハイファチームが作ったがゆえに、マルチソケットに弱い。

  • CPUが他とつながる道はPCI-ExpressとDMIしかない。
  • Xeonでは、System AgentからQPIを引き出すだろうが、そうなるとSystem Agentが大きくなり消費電力が増す。
    AMDのFusionでは、明確にシステムインターフェースが示されている。

  • リングバスでGPUもつなぐ
  • シングルソケットでは効率がよいが、マルチソケットには不向き。
    例えば、2つのCPUで、片方のCPUが、もう片方のGPUも使う場合、リングバスにデータが流れるため、CPUのスループットを落としてしまう。
    AMDのFusionで、CPUとGPUがメモリコントローラを挟んでいるのは、マルチソケットで、1個のCPUが複数のGPUを使っても、他のCPUのスループットを落とさないためだ。
    GPUは並列処理が基本なのに、CrossFireやSLIといったマルチGPUの経験が無いことが、はっきり出ている。

DirectX10どまりで遅いGPU、CPUとGPUのリングバス、という、凄いけどアタマ悪いのが、SandyBridge。
まさに、明日に架ける橋ではなく、あさってに架ける橋だ。
向こう側にいけるといいね。
CPUだけ使えばいいよ。

2010年8月 7日 (土)

CPU ロードマップ CPU VS GPU論文は、Intelのオウンゴールではなく、勝利宣言

2010年6月21日から23日にかけて開催された、ISCA 2010において、Intelは「GPUはCPUの100倍速い」というのは誤りで平均2.5倍速いという論文を発表した。
これをIntelのオウンゴールと考えるのは、GPUとCPUの違いを理解していないからで、IntelのCPUの勝利宣言だ。

比較対象
Core i7-960(4C/8T:3.2GHz) VS NVIDIA GTX 280
※論文の締め切りはFermiの発売前

比較内容
物理演算だけでなく、DB処理や画像処理も含む、14種類の演算処理。
CPU、GPUはCUDAを使い、ともに最適化。

結果
GTX280が、最大15倍、平均2.5倍高速
※ただし、GTX280は933GFLOPS、Radeon HD5870は2.72TFLOPSと、約3倍速い。
Tesla C2050は1.03TFLOPSしかないが、CUDAの最適化でパフォーマンスが異なるだろう。

考察
10倍以上の演算力を持つGPUを、最適化したプログラムで動かしても、たった平均2.5倍しか速くならない。
つまり、GPUは演算力は高いが、性能を引き出すことは難しい。
それに対し、CPUのパフォーマンスはあげやすく、Core i7とGTX280の2.5倍の差は簡単に埋められる。

  • CPU
  • 8ソケットまでQPIやHypreTransportなど高速なバスでつなげられ、メモリの帯域も増やせること。
    プログラムの最適化も容易で、SSEなどの最適化のノウハウは豊富。
    また、AVXになればスループットが2倍になるので、差がチャラ。

  • GPU
  • PCI-Eのレーン数に依存するので、PCI-Eの処理と、帯域の制約がついて回る。
    プログラムの最適化が、CELLと同じように、CPUより難しい。
    これに真正面から挑戦しているのが、AMD Fusionである。
    GPUの性能を引き出せない大きな要因は次回

  • スーパーコンピュータの事例
  • スーパーコンピュータのTop500でも、第2位にXeon X5650+Tesla C2050のヘテロジニアスな、Nebulaeがランクインした。
    ここで、重要なポイントは、理論値とLinpack実行時のパフォーマンス差が大きく、スーパーコンピュータでも性能を引き出しきれていないことだ。
    ただし、Cellを使ったRoadrunnerは、理論値と実行値が近い。
    PowerXCell 8iの180GFLOPSの演算力が、バスの帯域とマッチしている可能性がある。

    順位 名称 構成 実行時(Rmax) 理論値(Rpeak)
    1位 Jaguar Opteron 6core 2.6GHz 1759TFLOPS 2331TFLOPS
    2位 Nebulae Xeon X5650+Tesla C2050 1271TFLOPS 2984TFLOPS
    3位 Roadrunner Opteron 2core 1.8GHz+PowerXCell 8i 1042TFLOPS 1375TFLOPS
    4位 Kraken Cray XT5 Opteron 6core 2.6GHz 831TFLOPS 1028TFLOPS
    5位 JUGENE Blue Gene/P(PowerPC450 850MHz) 825TFLOPS 1002TFLOPS

2010年6月22日 (火)

Intel in Akiba 2010 Summurレポート

2010年6月20日に、ベルサール秋葉原で行われた、Intel in Akiba 2010 Summurに行ってきたので、そのレポート。
その日は、新しいPCを購入していたので、セッションは聞けなかった。

全体の所感
とにかく、規模が大きい。
カフェソラーレのイベントとは違う、お金がかかっていることがよくわかる。
今の自作市場の規模を考えると、Intelすげーな。
Intel01
AR(拡張現実)の展示
私は、3Dより拡張現実の方が、トレンドになると思っていた。
これだけの、ARの演算はかなり凄い。わたしのAthlon 64 3200+から見ると時代の流れを感じる。
Intel02
エクストリームマザーボード
  • EVGAの、Xeon2発のマザーボード。フォームファクターがEATX(SSI-EEBとはネジ穴が3箇所違うだけ)ではない特殊なもの。
    ただ、Opteronもそうだが、サーバ向けのCPUをコンシューマで使うのは、ちょっと難しいと思う。
    クロックよりスレッド数を重視するアプリケーションを使うのでなければ、クロックやメモリアクセスの面で、不利な面が目立つと思う。Intel03
  • チップセットの冷却装置が、ゴツい。
    ビデオカードがかぶさるので、その熱をノースブリッジに送ると、これくらいになるようだ。
    Intelのチップセットって、そんなに熱いのか?Intel04
小ネタ
  • 3年前と現在のPCを比べるデモのアンチョコ。確かに3年前よりグッと速くなっている。 Intel05
  • シールを3枚集めると、プレゼントがもらえる。抽選にも拡張現実を使っていたが、よくわからなかったのが残念。扇風機がもらえた。

2010年5月28日 (金)

CPU ロードマップ Larrabeeは二度死ぬ

Intelが、また、当面、Larrabeeをローンチしないと発表した。

その理由は、以下の3点だろう

1.ATIやnVidiaのディスクリートGPUに、処理能力で対抗できない。

2.内蔵GPUの性能が大きく向上し、ディスクリートGPUの市場が縮小する

3.GPGPUよりもAVXを選んだ。

1.は言わずもがな。
DirectX10.1に、SandyBridgeで、ようやっと対応できる程度だから、チップの処理能力だけでなく、ドライバも含めると、ディスクリートGPUで対抗できるとは思えない。

2.は、SandyBridgeとFusionでは、内蔵GPUの性能が大幅に向上する可能性がある。
GPUが、汎用ロジック(ASIC)か、カスタムロジックか、で大きく変わる。

今までと同じ汎用ロジックなら、パフォーマンスは変わらない。

カスタムロジックになるなら、設計からローンチまで4年程度かかるが、クロックを高くできる。
nVidiaは、シェーダ部分をカスタムロジックにしており、55nmのG92bでも1GHzを超えている。
Intelなら1GHzどころか、2GHzを超えるだろう。
※メモリとPCI-Expressの帯域がボトルネックになるから、2GHzにする意味は無い。

ClarkdaleのGPUは500MHzなので、1GHzとしても、2倍以上になるので、ディスクリートGPUの市場は急速に縮小する。
さらに、Intelは2チーム体制なので、4年かかるカスタムロジックでも、2年おきにアーキテクチャを更新できる。

3.は、GPUとCPUのデータをPCI-Expressで転送すること、GPUが直接メインメモリにアクセスできないこと、これらのオーバーヘッドが大きすぎるのだろう。
GPUに、演算性能は劣っても、x86で直接演算できた方が、パフォーマンスを上げられるということだろう。Intelらしいね。
Larrabeeの命令セット(LNI)もx86だし。

AMDは、DirectX Graphics Interface(DXGI)により、アプリケーションが直接GPUとやり取りする、まったく逆の対応をとると思われる。
OpenGLのICDと同じで、FireGLやQuadroを提供しているATIやnVidiaにはノウハウがある。

あとはPCI-Expressをどうするかだ。

2010年4月 5日 (月)

Intelの32nmは歩留まりに苦戦

以前のエントリでも指摘したが、L3キャッシュ24MBもあるXeon X7560、L7555で45nmを使っているように、32nmの歩留まりに苦戦している。
X5600番台は32nmだが、このダイサイズが歩留まりを許容できる限界なのだろう。

コンシューマでは、ダイサイズが小さいモバイルが最優先なので、奇妙にバランスが取れている。
一覧表にすると、LGA1366とLGA1156という異なる仕様をCore i7としたから、紛らわしい。
その上、SandyBridgeからLGA1155に変わる。
やはり、DX4のころから、CPUを変えることはシステムを変えることなんだね。(参照エントリ)

Intelプロセス
カテゴリ シリーズ プロセス ダイサイズ
ハイエンドサーバ 7500番台 45nm 特大
メインストリームサーバ 5600番台 32nm
ハイエンドデスクトップ LGA1366 45nm
メインストリームデスクトップ LGA1156 32nm
メインストリームモバイル Core i3/5 32nm

2010年2月 6日 (土)

CPUロードマップ Core iシリーズは危機的状況【ココロ版】

S01 人気記事ランキング1位の「Core iシリーズは危機的状況」をアップデートするよ。 アシスタントは、当ブログの萌キャラ、ココロさん。

 

がんばります。でも、なぜ、古いエントリなんですか? しかも萌じゃないし。 S00

S01_2 よく読まれているのに、古いから。それに、萌はPVが少ないし。

・・・・へえ、何で危機的なんですか? S00_2

S01_3 エントリのとおり、動作クロックに対してTDPが高い、大量のL3キャッシュが必要、の2つだよ。
TDPはかなり改善されたけど、L3キャッシュはCore iシリーズの個性だからいかんともしがたい。

じゃあ、今は危機的状況って感じじゃないんですね。 S00_3

S01_4 うん、危機的状況とは言えないね。
Core iシリーズの個性が生んだ不幸はあるけど、32nmになってTDPはかなり低下した。

個性が生んだ不幸って何ですか? 不幸なCPUなの? S00_4

S01_5 昔と違って、1種類のアーキテクチャで、サーバ、デスクトップ、ノート、全にマッチさせることは難しい。
Core iシリーズは、サーバやハイエンドデスクトップでやる重い処理をこなすための設計だから、ノ ートPCには不向きなのに、ノートPCにも使うことが不幸だね。
32bitのための設計なのに16bitが遅いと言われた、Pentium Proに似ている。


Core iシリーズの個性

  • 得意な処理は、同クロックのCore 2より遥かに速いが、不得意な処理は遅い
  • コアあたり2MBのL3キャッシュが必要
ゼロヨンマシンみたいに、直線ならとっても速いって感じですね!
S00_7

S01_6 まあ、そんな感じか。
シングルスレッドにはTurboBoost、マルチスレッドにはHyperThreading、でカバーできている。
特に、TurboBoostは重要。
ただ、L3キャッシュ必須なのは、省電力にはきつい。

じゃあ、コアを減らせば、クロック上がって、TDP下がって、いいんですね! S00_8

S01_7 ・・・まあ、TurboBoostで速いって、マルチコアと矛盾する感じだけど、シングルスレッド性能とマルチスレッド性能を両立させたってことで。
しかし、これ、手間かかるな。

2010年1月25日 (月)

AtomとCore iの過ちが生んだ誤算と不幸

Intelが、Atom、Core2 CULV、Core iと3種類のアーキテクチャの整理がつかず、苦しんでいる。
Intelの過ちが生んだ、誤算と不幸をまとめよう。

  1. Atomの過ち
  2. Atomの過ちは、Windowsを載せたことに尽きる。
    Windowosを載せなければ、誤算も不幸もなかったが、出荷量は激減する。
    既に、Fabのキャパシティから、代替なく、Atomの生産を減らすことはできない。


    1. Atomの誤算
      • Atom Nシリーズを使ったネットブックの大ヒット
      • Atomが本来狙うMID市場の不振
    2. Atomの不幸
      • 低消費電力が高価値として認識されず、遅いことだけが注目され、「低消費電力=遅い=低価値」となってしまった。
      • Windowsを載せなければ、「低消費電力=小型&軽量&長時間駆動=高価値」となるはずだった。

  3. Core iの過ち
  4. サーバとモバイルでは、CPUのニーズが異なり、1種類のアーキテクチャでは、各カテゴリのニーズを満たせなくなった。
    それにもかかわらず、サーバのニーズを満たすオレゴンチームと、モバイルのニーズを満たすハイファチームの2チームで、1種類のアーキテクチャを扱ったことが、Intelの過ちだ。
    (※参照エントリ)

    1. Core iの誤算
    2. 以下の2点をみても、Core2 CULVをリプレースできない。
      (※参照エントリ)

      • TDPを下げるには、思い切りクロックを下げる必要がある
      • 1GHzでも低電圧版と同じTDPであり、まだCULVに届かない。しかし、Core iはベンチマークの得意不得意がはっきり出るため、これ以上クロックを下げると、Core2に劣る状態になる。

      • ある程度のL3キャッシュがないと、性能維持できない
      • Arrandaleでさえも、L3キャッシュをコアあたり1.5MBから2MB積んでいることから、L3キャッシュなしでは使えないCPUといえる。

    3. Core iの不幸
      • サーバのニーズにあわせて設計されたのに、CULVのリプレースまでやらされること
      • 例えば、サーバ向けCPUのベンチマークであるSpecは、L3キャッシュが大きいと上がりやすい。だから大容量のL3キャッシュありきで設計することは間違ってはいない。そうしたCPUがノートに使われることが不幸だ(Power6&7のL3キャッシュは32MB)。

      • サーバなどプロフェッショナル用のCPUは、コンシューマを転用するビジネスモデルが2000年代後半に出来上がったこと(※参照エントリ)
      • Itaniumの例のとおり、サーバとモバイルで異なるアーキテクチャを同時に持つことはできない。開発体制の限界が垣間見える。(※参照エントリ)

2010年1月15日 (金)

Intel 32nmの出来はどうか

32nmのClarkdaleが発売され、ベンチマークも出てきたので、Intelの32nmの出来具合を見てみよう。

・TDPはかなり低下
以前のエントリのとおり、TDPの低下が重要な点だが、これは達成だね。
Core iシリーズのウィークポイントがなくなり、AMDとは、さらに差がついた。
AMDは苦戦するだろう。

・オーバークロック耐性はやや低下
Turbo Boostのクロック向上幅を見ると、Lynfield系のCore i5-750などの約600MHzの向上に対し、デュアルコアでも約300MHzの向上にとどまる。
※GPU部分が足を引っ張っている可能性はある。

・まだ歩留まりが安定していない
ダイサイズが小さい、デュアルコアでL3キャッシュ4MBのバリエーションのみのローンチでわかるように、まだ歩留まりが安定していない。クアッドコアのダイサイズではコストパフォーマンスが悪いのだろう。

今後の動向の注目としては、以下の2点。

・GPUなし、GPUも32nmになった際に、TurboBoostの向上幅が上がるか
 下(TDP低下)に強く上(クロック向上)に弱いのが、32nmの特徴だ。SandyBridgeで、Core2シリーズを置き換えることが目的だから、TurboBoostは重要でないかもしれない。

・10Q2までに、クアッドコア、L3キャッシュ8MBの製品がでてくるか
 優先順位はi3だろうが、10Q2までに大きなダイサイズが出てこないと、歩留まりに苦しんでいると見ていいだろう。

この32nmで、Core 2 Duoを作れば、CULVもなくなり、みんなハッピーになるような気がする。

モバイルは消費電力、サーバは処理能力と、重視する点が違うので、プロセスルールでも上(クロック向上)に強くするか、下(TDP低下)に強くするか、2チーム体制の限界が見え隠れしている。

2009年12月16日 (水)

Intelの32nmの特徴は?

45nmと比べた32nmの特徴は、SandyBridge用にTDP低下を重視だ。

Core iシリーズにとってPhenomIIは敵ではないが、XeonはOpteronと真剣勝負中なので、Xeonのラインナップは手加減なしの本気だ。
Xeonをみれば、Intelの32nmがわかる。

Intelの45nmと32nmの比較
プロセス 型番 コア/スレッド クロック L3キャッシュ TDP プロセス 型番 コア/スレッド クロック L3キャッシュ TDP
45nm W5590 4C/8T 3.33GHz 8MB 130W 32nm X5677 4C/8T 3.46GHz 12MB 130W
45nm X5570 4C/8T 2.93GHz 8MB 95W 32nm X5667 4C/8T 3.06GHz 12MB 95W
45nm X5550 4C/8T 2.66GHz 8MB 95W 32nm E5640 4C/8T 2.66GHz 12MB 80W
45nm E5530 4C/8T 2.40GHz 8MB 80W 32nm E5630 4C/8T 2.53GHz 12MB 80W
45nm L5520 4C/8T 2.26GHz 8MB 60W 32nm L5630 4C/8T 2.13GHz 12MB 40W

・クロックの上限
3.46GHz(X5677)でTDP130Wというのは、やや意外だ。
Xeonはオーバークロックしないし、CPU単体でみれば、現状でAMDに勝っているので、よいだろう。

・同一クロックで45nmと32nmの比較
ちょうど、32nmのX5550と、45nmのE5640が、同じ2.66GHzのクロックで比較できる。
L3キャッシュが4MB増えながら、TDPが15W低下という状態なので、出来は悪くないと思う。
AMDは苦戦するだろう。

・TDPの下限
TDP40Wを出せることが、32nmの目玉だ。
SandyBridgeへの下地ができたのか。
L5630、L5620を見ると、2.0GHzあたりに、閾値があるように思う。

しかし、TDP40WのXeonはいらない。
CPUを二つにすれば、倍のクロックと同じスループットになるわけではない。
この辺が、2チーム体制の限界を示している。