カテゴリー「パソコン・インターネット」の記事

2009年12月29日 (火)

CPUロードマップ CESでわかること

年が明ければCES開催なので、IntelやAMDの発表を予想。

AMDは、Intelにビハインドを負っているから、いろいろアピールする必要がある。

1.GlobalFoundariesとAMDの差異

11月のAnalyst dayで、AMDはBulldozerコアを2011年から、GlobalFoundariesは32nmを2010年のQ3から、と差異があった。
単にBulldozerのサンプル出荷が10年Q3なのか、32nmのK10やRV8x0がローンチされるのか、興味があるね。
プライオリティは、BulldozerとRV8x0の32nmだろうが、32nmのベンチマークとしてK10は意味がある。

2.Bulldozerのアーキテクチャ
 あんまりアーキテクチャを宣伝しても意味はない。ベンチマークなしではアーキテクチャの優劣の話は絵に描いた餅だ。
 アーキテクチャより、eDRAMを採用するとか、メタルゲートで電力効率が何パーセントアップするとか、性能向上を期待させる話の方が重要なんだが、もう少し明らかになるだろう。

 予想としては、よりPOWERアーキテクチャになっているだろう。
伝統のAlphaっぽい、ALU(整数と論理演算をするユニット。I-pipeのこと)とAGU(アドレス生成ユニット)のペアの構造ではなく、POWERのブランチプロセッサのように、スケジューラーがアドレスを作って、ALUに流し込むだろう。
 BobcatではI-pipeとLd/St-pipeに分かれているので同じ。Bobcatのシンセサイザブルがどうなるのか、そっちの方が重要だ。
 スケジューラから発行された2命令を同時にI-pipeで処理させるだけだから、2スレッドの実行にはならない。

3.C3ステッピングの展開とC4ステッピング
 C3ステッピングの全面展開の時期と、Q2のC4ステッピングが説明されるといいのだが。

4.Intelは余裕なのか
Clarkdaleと新Atomを発表したばかりなので、製品がたくさん並ぶけど、32nmのレポートで、Intelの32nmの評価がわかる。

AMDとIntelでは、CESの意味が違うね。

| | コメント (0) | トラックバック (0)

2009年12月27日 (日)

AMD 兄貴が退職~ダイショックだよ

冗談と思ったので、オヤジギャグを入れた。

非常に残念。この業界の名物がまた一人去っていく。

年末にさびしいね。

去り行くものたちの記憶

2008年6月13日 ぷらっとふぉーむ本田会長逝去
2008年4月12日 User's Side閉店
2007年9月27日 Laox閉店
2007年9月17日 キーボード専門店 ネオテック閉店

| | コメント (0) | トラックバック (0)

2009年12月17日 (木)

行く石 来る石

2009年も終わり。ではCPU、GPUの2009年と2010年を。

・2009年の行く石
来ていないのに行ってしまった、Larrabeeに決まり。

(次点)
Atom Zシリーズ。

(番外)2009年に行かなかった石
2010年まで残る、頑張りやな石はCore 2シリーズに決まり。
CULVでまだまだ主役。引導を渡すのはSandyBridgeか?

・2010年に来る石
nVidiaのFermiに決まり。
2009年に来なかった石なのだが。

(次点)
32nmでGPUが統合されたCore i3/i5と、IntelとAMDの6コアのCPU。
※AMDは売るほど赤字になるような。

| | コメント (0) | トラックバック (0)

2009年12月16日 (水)

Intelの32nmの特徴は?

45nmと比べた32nmの特徴は、SandyBridge用にTDP低下を重視だ。

Core iシリーズにとってPhenomIIは敵ではないが、XeonはOpteronと真剣勝負中なので、Xeonのラインナップは手加減なしの本気だ。
Xeonをみれば、Intelの32nmがわかる。

Intelの45nmと32nmの比較
プロセス 型番 コア/スレッド クロック L3キャッシュ TDP プロセス 型番 コア/スレッド クロック L3キャッシュ TDP
45nm W5590 4C/8T 3.33GHz 8MB 130W 32nm X5677 4C/8T 3.46GHz 12MB 130W
45nm X5570 4C/8T 2.93GHz 8MB 95W 32nm X5667 4C/8T 3.06GHz 12MB 95W
45nm X5550 4C/8T 2.66GHz 8MB 95W 32nm E5640 4C/8T 2.66GHz 12MB 80W
45nm E5530 4C/8T 2.40GHz 8MB 80W 32nm E5630 4C/8T 2.53GHz 12MB 80W
45nm L5520 4C/8T 2.26GHz 8MB 60W 32nm L5630 4C/8T 2.13GHz 12MB 40W

・クロックの上限
3.46GHz(X5677)でTDP130Wというのは、やや意外だ。
Xeonはオーバークロックしないし、CPU単体でみれば、現状でAMDに勝っているので、よいだろう。

・同一クロックで45nmと32nmの比較
ちょうど、32nmのX5550と、45nmのE5640が、同じ2.66GHzのクロックで比較できる。
L3キャッシュが4MB増えながら、TDPが15W低下という状態なので、出来は悪くないと思う。
AMDは苦戦するだろう。

・TDPの下限
TDP40Wを出せることが、32nmの目玉だ。
SandyBridgeへの下地ができたのか。
L5630、L5620を見ると、2.0GHzあたりに、閾値があるように思う。

しかし、TDP40WのXeonはいらない。
CPUを二つにすれば、倍のクロックと同じスループットになるわけではない。
この辺が、2チーム体制の限界を示している。

| | コメント (0) | トラックバック (0)

2009年12月14日 (月)

Intelの2チーム開発体制の限界

IntelのCPUは、アメリカのオレゴンとイスラエルのハイファの二つの部門が、交互に開発している。
その体制が、時代に合わなくなってきた。

・各チームの特徴
オレゴンチームはサーバ寄り、ハイファチームはモバイル寄りだ。
例えば、処理能力があがるがTDPも高くなる、という設計に、オレゴンチームはYes、ハイファチームはNo、という感じ。
TDPを下げる対応も、オレゴンチームはプロセスルールの微細化に任せ、ハイファチームはトランジスタをいじる。
次のSandyBridgeは、ハイファチームなので、処理能力より、TDPを優先する。

・SandyBridgeの目標
ハイファチームのSandyBridgeの目標は、Core2のCULVのリプレースだ。
Nehalem系の高いTDPを下げることに、プライドをかけていると言ってもよい。
GPU統合なんてオマケだ。
なぜなら、ハイファチームは今のGPUに不満を持っていない上、彼らの敵は、AMDでもnVidiaでもなく、NehalemのTDPだからだ。

・サーバやHPCの需要とSandyBridgeの乖離
サーバやHPCの需要を満たすには、DirectX11やOpenCLに対応したGPUを統合すれば済むものではない。
しかし、SandyBridgeは間違っていない。ハイファチームの開発の前提とサーバ需要が異なるだけだ。
ハイファチームの主戦場は、コンシューマの大半を占めるノートPC市場であり、そこにフォーカスすることは、何も問題はない。
だから、AMDのBulldozerに、SandyBridgeでサーバ市場のシェアを奪われたとしても、ハイファチームは負けたとは思わないだろう。

・2チームの合成の誤謬
今後、サーバ、HPC、デスクトップ、ノートの各カテゴリにあった最適化(ヘテロジニアス)が必要だが、今の2チームの各々の最適化が、Intelの全体最適にならない。
こうした合成の誤謬は、そう簡単には解決しない。
各チームの目標とやり方は最適化され、実績を上げているため、Intel全体を見ると誤謬があっても、各チームのレベルでは間違っていないからだ。

それにしても、Itanium(IA-64)がうまく行けば、市場別に分けて開発できた。
新しい命令セットの体系を持つLarrabeeで、解決するつもりだったかもしれない。

| | コメント (0) | トラックバック (0)

2009年12月11日 (金)

CPUに詰まっているのはシリコンだけか?

Cellには、クタラギ社長の夢が詰まっていた。
AMDのメモリコントローラ統合やドンドンつながっていくHyperTransportは、未来をみせた。
だから、ワクワクした。

Macintoshは、思いを、絵にも音楽にも変えようとした。
楽器が弾けなくても、筆を使えなくても、コンピューターがあれば、その思いを絵にも、音楽にもできる、表現しようとする人は誰もがPerfomerだ。
だからMacintoshには、Perfomerという製品があった。

シリコングラフィックスのOnyxのビデオカードの名前は、「Reality Engine」、「現実機関」なんだぜ。
PlayStation2は、シリコングラフィックスが見せた世界を家庭に届けたかった。
だからPS2には「Emotional Engine」が載っていた。

あの小さなチップには、夢や未来が詰まっていて欲しい。
コストばかりのCPUはごめんだ。Atomなんて大嫌いだ。

CPUは何を計算するんだろう。

| | コメント (0) | トラックバック (0)

Mr.Gelsinger,please tell me to the future which you thought.

Larrabeeは、CPUもGPUも同じところへ行き着く、と説明したとおり、多重度の高い整数演算と浮動小数点のベクタ演算(SIMD)、この二つを満たそうとした。

1.多重どの高い整数演算(サーバの需要)の対応方法:
SIMD機能のないシンプルなP54Cを多数つなげる。これは業界で同じだ。

・Sun
 最も早い時点で、UltraSparc T1(Niagara)で、シンプルなプロセッサを多数つなげる設計にした。
・IBM
 スーパーコンピュータのBlueGene/Lで組込用のPowerPC440を多数つなげる設計にした。
・AMD
 Bulldozerを整数演算を重視した「割り切った」設計にした。
・Intel
 P54Cを多数つなげる(はずだった)

2.浮動小数点のベクタ演算(SIMD)(HPCの需要)の対応方法:
Intelは、プログラミングモデルとハードウェアの両面で、CPUの領域に引き込もうとして失敗した。

(1)プログラミングモデル
Cellで、PowerPCのプログラミングモデルに、SIMDのプログラミングモデルを加えたことと逆だ。
Intelは、SIMDのプログラミングモデルに、x86のプログラミングモデルを加えようとした。

プログラミングモデルの変革は、MicroSoftでも、DirectX11まで積み重ねなければいけなかった。
当時のクタラギ社長も「10倍性能が上がるなら受け入れられると思った」と言うほど、メリットが必要だ。

過去に、Intelは、IA-64で効率のよいコンパイラを提供できず、プログラミングモデルを変えられなかった。
リベンジならず。

(2)ハードウェア
Larrabeeのターゲットをグラフィックにせざるを得なかったことが不幸だった。
Larrabeeは、リングバスを使っているように、ゲームには向いておらず、HPCに向く。

だから、GPUではなく、PowerXCell8iのようなSIMDコプロセッサなら、ローンチできたはず。
IBMがPowerXCellをやめるほど、投資パフォーマンスが悪い(市場が小さい)のだが、Intelの体力なら持続できる。
しかし、ゲルジンガー氏が去り、赤字でも続ける経営判断がされない。
CPUとしてローンチできない以上、需要の大きさ(市場の大きさ)を示すために、GPUとしてローンチせざるを得なかった。

過去、AMDはR600でリングバスを使ったが、膨大なテクスチャデータをさばけず、ボトルネックになった。
よってテクスチャの流れを分けたら、リングバスを流れるデータはほとんどなくなり、リングバスそのものが不要になった。
それくらい、HPCとゲームでは、プログラムの構造が違う。

だから、一歩ずつ、DirectXやOpenCLのAPIを広め、プログラミングモデルを変え、GPUのアーキテクチャを変えていく必要がある。

一足飛びに進歩すると、周りがついてこれず、生産ボリュームが稼げない。
PowerXCellのように、スーパーコンピュータやHPCの市場だけではやっていけない。

AMDが、ハイエンドからローエンドまで、同じアーキテクチャを提供し、一歩ずつだが着実に進歩できる体制が、どれほどすごいか、PowerXCellやLarrabeeの開発者は実感したはずだ。
Fermiも、ゲーム用GPUとしての出来次第で、同じ道を歩むことになる。

ただね、未来へ飛躍するものを見ると胸が躍るよ。
Cellも、Larrabeeも、Fermiも、Fushionも、Itaniumも大好きだ。

ミスターゲルジンガー、あなたが思った未来を聞かせて。

| | コメント (0) | トラックバック (0)

CPUロードマップ CPUの需要と課題

今後、ますます、サーバ、HPC、デスクトップ、ノートでは、需要(必要なパフォーマンス)と課題が異なっていく。

そのため、サーバ用コアをつくり、そのチューニングによる供給では、全ての需要を満たすことができない。
GPU(ベクタプロセッサ)の活用がキーになる。

CPUの需要と課題
カテゴリ 需要 対応方法 課題 AMDの供給 Intelの供給 方向性
サーバ 多重度の高い整数のスカラ演算 CPU(スカラプロセッサ)を多数接続 メモリアクセスとI/O Bulldozer Nehalem 整数演算とメモリアクセス強化
HPC ベクタ演算(SIMD) GPU(ベクタプロセッサ)を多数接続 VLIW等コンパイラやソフトウェアの効率化 Bulldozer+RV8x0 Nehalem VLIWのコンパイラとソフトの強化
ゲームデスクトップ ベクタ演算(SIMD) ローカルメモリを持つGPU(ビデオカード)を接続 テクスチャのためのローカルメモリアクセス Bulldozer+RV8x0 Nehalem+他社GPU ローカルメモリのアクセス強化
エンコード等ハイエンドデスクトップ ベクタ演算(SIMD) CPUとGPU(ディスクリート)を接続 メインメモリへのアクセス Bulldozer+RV8x0 Nehalem+他社GPU CPUとGPUのメモリアクセス強化
メインストリームデスクトップ パフォーマンス向上ではなく省電力 GPU統合 GPU(ベクタプロセッサ)を活用するタスクが必要 Fushion Nehalem+自社GPU ダイサイズ縮小によるコストダウン
ローエンドデスクトップ パフォーマンス向上ではなく省電力 GPU統合 GPU(ベクタプロセッサ)によりCPUの負荷分散 Fushion Nehalem+自社GPU ダイサイズ縮小によるコストダウン
ノート(デスクトップリプレース) パフォーマンス向上ではなく省電力 GPU統合 GPU(ベクタプロセッサ)によりCPUの負荷分散 Fushion Nehalem+自社GPU ダイサイズ縮小によるコストダウン
ノート(モバイル) パフォーマンス向上ではなく省電力 GPU統合 GPU(ベクタプロセッサ)によりCPUの負荷分散 Fushion Nehalem+自社GPU 割り切った省電力強化

1.サーバ
サーバに求められるのは、Bulldozerでのワークロードの分析のとおり、多重度の高い整数演算なため、整数演算を強化したCPU(スカラプロセッサ)を多数接続する。
なので、Bulldozerには、必ずしもFushionは必要ない。

2.HPC
ベクタ演算が求められているため、GPUを多数接続する。
スーパーコンピュータTop500において、2位のIBMのRoadrunnerはOpteron+CELL、5位の天河1号はNehalem+Radeon HD4870のヘテロジニアスである。
1位のJagguarと3位のKrakenはOpteronのみ、第4位のJUGENEはPowerPC440のみの構成。

3.ゲームデスクトップ
 ディスクリートGPUがキーだが、膨大なテクスチャを処理できるローカルメモリのアクセスが重要になる。
 テクスチャをメインメモリにおいて、CPUもアクセスできる状態にする必要性はないので、ローカルへのメモリアクセスの帯域を広くとれるビデオカード形式が合理的だ。

4.エンコード用デスクトップ
 エンコードなど映像の編集には、GPU(ベクタプロセッサ)が必要なのだが、ゲームと逆でローカルに512MBもメモリを持つ必要はまったくない。
CPUと同じようにメインメモリにアクセスさせるほうが重要だ。
DGIやOpenGL ICDのように、DDIをバイパスして、直接GPUに命令を送る環境はあるので、GPU統合が効果的。

5.メインストリームデスクトップ
メインストリームデスクトップの一番の問題は、パフォーマンスを必要とするタスクが存在しないことだ。
GPUやCPUのパフォーマンスを必要とするタスクがないと性能が求められず、価格競争になる。

6.ローエンドデスクトップ
パフォーマンスを求めていないので、価格競争だけになる。
AV機能を強化してリビングに置いたり、デザインを充実させたり、付加価値が必要だ。

7.ノート(デスクトップリプレース)
ここもメインストリームデスクトップと同じ、パフォーマンスが必要なタスクがないとドンドン価格競争になる。

8.ノート(モバイル)
パフォーマンスより、省電力が重要になる。TDPが低いと廃熱機能も小さくなり、軽く小さくなる付加価値が生まれる。

| | コメント (0) | トラックバック (0)

2009年12月 9日 (水)

2010年のAMD その2

前回よりちょっと現実的に。

というか、これくらいやらないと、32nmのCore iと勝負にならないよ。
なにしろ、3.4GHzの965が、2.66GHzのCore i7-920といい勝負だから、このままでは、32nmのCore iのミドルクラスに届かない。

しかし、AMDの打つ手は、クロックアップ、キャッシュ増加、メモリコントローラの改善くらい。

いま以上のクロックアップは内部倍率が高くなりすぎ、キャッシュ増とセットでないと、パフォーマンスがあがらない気がする。
キャッシュ増加によるダイサイズ増加は経営判断なので、技術的には、メモリコントローラは伸びしろがある。

1.メモリの4枚挿しで、Quad Channel&Quad Access
C3ステッピングで、メモリの4枚挿しのエラッタ改善がアピールされた。
他にもエラッタはあるのに、なぜこれだけ?
それは、4枚挿しのQuad Channel、64bitの4分割でアクセスするQuad Accessの布石だ。

最初のFushionは、GPUとCPUをHyperTransportでつなぎ、CPUのメモリコントローラを使うから、帯域とレイテンシの改善が必要だ。
ついに、4枚挿しのUngangedモードが!!

2.L3キャッシュをeDRAM
 32nmでは、可能なら45nmでも次のリビジョンで、L3をeDRAM化。
 POWER7のL3は、eDRAMで32MBをつんでいる。
 もちろんPOWER7は、45nmで500平方mmを超えるビッグチップだが、32nmになれば16MBが250平方mmに収まる。
 eDRAMでL3の速度があがれば、Phenomの弱点をカバーできるので、一番効果的。

3.L3キャッシュを8MBに増加
 eDRAMがムリなら、4コア以下は、L3キャッシュを8MBに増加。

4.L2キャッシュを1MB化
 L3増加と、どっちが効果的かわからないが、もう両方やるしか。

4.ヒートスプレッダをアルミから銅製に変えて、威圧する

5.赤く塗って3倍速く見せる

もう、何がなんだか。
クロック4GHz、L2キャッシュ1MB、L3キャッシュ8MBで、32nmのCore iのミドルクラスと互角のはず。
もちろん、Intelが32nmで失敗する可能性はあるが、順当に行けば差が開くだろう。

| | コメント (0) | トラックバック (0)

2009年12月 6日 (日)

Larrabeeがキャンセル

あ…ありのまま、前のエントリーを紹介するぜ!

Larrabeeの敵はNehalemだった

何を言ってるのか、わからないと思うが、私も何をされたのかわからなかった。
頭がどうにかなりそうだった。
GPUなんてちゃちなもんじゃあねえ、もっと恐ろしいものを味わったぜ…

とまあ、Larrabeeがキャンセルされたそうです。

過去のエントリーは直さないよ・・・GPUどうするつもりだろう?

| | コメント (0) | トラックバック (0)

より以前の記事一覧