吉田/日誌/2009-05-29
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
[[吉田>吉田]]/[[日誌>吉田/日誌]]
&size(18){ふと手を挙げれば虫に当たる。};
流し場のスメルに触発され、ニコ動観る時間削ってちょっとやってみた。>[[生活環境改善計画>吉田/覚書/ラボ生活環境改善計画]]
>現状課題(2009/05/29 5:13)
-RPR2009。1.1、2.10-11-12。ズレ込みそう。~
-並列バケットソートプログラム。やっつけの予感。~
-2DCDPの引き継ぎCELLプログラムを解して並べて揃えて晒す。~
--エミュ:CELL BE SDK 3.0。ダウンロードが何故か出来なかった&出来ても動くのはfedora上なので保留中。~
>今日と昨日の何か。~
-必要カロリーが1日2000kcalちょい、ってことは熱量的には日にヤマザキコッペパン4個で生きていけるのか。
-肉体年齢が実年齢より8歳若かった。鍛えれば応えてくれそう。
-朝SRLUにシャワー浴びに行ったら仮眠者が犇めいていた。結構涼しかったし、夏はあっちで寝てもいいかも。
-PP発表のスライド読み合わせ。疑問点の解消と新たな問題点。
''2.11 - 注意点と落とし穴''
注意点
-二つあり、一つは単純なルールの誤認。一つはベンチマーク選択の重要性。
--「プロセッサはCPIが低いほど早いモンなんだろ?」とか、~
「プロセッサはクロックレートが高いほどイイんだろ?」とか。
-まぁ、CPIは低いに越したことはないんですがね。洗練されたマルチ命令パイプラインはノーマルのよりクロックレートは普通低いし。
-ILP不可アプリやハードウェアリソース的に並列処理効率が上げられないときにはクロックレートが高い方が勝つですよ。
-でもILP可なら出来るだけILPった方がいいですの。
-IBM Power5 プロセッサは高いINT,FP処理効率を持つ。
--プロセッサコアを2つ持ち、それぞれ毎クロックFP2命令、ロードストア2命令を含む4命令を実行可能。
--2005年における最大クロックレートは1.9GHz
--比較として、Pen4はマルチスレッディング仕様のシングルコア(マルチスレッディングについては次章で)~
毎クロック3命令の深々パイプラインで、2005年における最大クロックレートは3.8GHz
-つまり、Power5は命令数とCPIがPen4の半分以下ならPen4より早くなる。
-図2.34:Pen4とPower5の各種ベンチにおける 命令数xCPI を示す。
--FPプログラムではPen4に倍差をつけることもあるほどにPower5が有利だが、INTプログラムではPower5はPen4のクロックレートによるアドバンテージに及ばない。
--Pen4と比較すると、Power5の命令数xCPIでのアドバンテージはFPで3.1倍なのに対しINTではわずか1.5倍となっている。
-これは2005年におけるPen4の最大クロックレートがPower5のガチ2倍(?)だからで、結果としてSPECfp2000ではPower5がPen4に1.5倍差を付け、SPECint2000ではPen4がPower5に1.3倍差を付けることになった。
落とし穴
-Sometimes bigger and dumber is better.(訳せないないですの
-次代パイプラインはCPI改善に主眼をおいて開発されている。
-21264は洗練された 29k bits 分岐予測を使用(以前のバージョンの21164では 2bits x 2k entries = 4k bits 分岐予測)(p88, Ch2.3 参照)
-SPEC95ベンチにおいて、21264の持つ洗練された分岐予測はシンプルな 2-bit 分岐予測と比べて1つを除いてすべて上回っていた。
--割合的にはSPECint95において1000命令中、21264の予測ミスが11.4命令(1.14%)だったのに対し21164は16.5命令(1.65%)だった。
-少々驚くべきことに、シンプルな 2-bit 構造(21164)の性能がトランザクション処理において21264に勝ったのだ。(21164の17/1000ミスに対し21264は19/1000だった)
-7分の1の分岐予測ビット量で、どうやってそんな性能を出したのか。
-答えは処理の構造にある。
-トランザクション処理のコード量は、SPEC95ベンチのどれより桁違いにデカく、山ほど分岐命令が出てくる。
-21164の局地分岐予測ビット量が2kなのに対して21264のビット量が1kだったことで僅かに上回った訳だ。
-加えて覚えておきたいのは、異なるアプリは異なる挙動をするということ。
-プロセッサはある特定の挙動のプログラムに狙いを絞ったマイクロアーキを持つ方向に洗練されて来ているので、想定しないアプリではさらに突飛な挙動をするかもしれない。
''2.12 - 総括''
#comment
__________________________________________________________________________________
#comment
終了行:
[[吉田>吉田]]/[[日誌>吉田/日誌]]
&size(18){ふと手を挙げれば虫に当たる。};
流し場のスメルに触発され、ニコ動観る時間削ってちょっとやってみた。>[[生活環境改善計画>吉田/覚書/ラボ生活環境改善計画]]
>現状課題(2009/05/29 5:13)
-RPR2009。1.1、2.10-11-12。ズレ込みそう。~
-並列バケットソートプログラム。やっつけの予感。~
-2DCDPの引き継ぎCELLプログラムを解して並べて揃えて晒す。~
--エミュ:CELL BE SDK 3.0。ダウンロードが何故か出来なかった&出来ても動くのはfedora上なので保留中。~
>今日と昨日の何か。~
-必要カロリーが1日2000kcalちょい、ってことは熱量的には日にヤマザキコッペパン4個で生きていけるのか。
-肉体年齢が実年齢より8歳若かった。鍛えれば応えてくれそう。
-朝SRLUにシャワー浴びに行ったら仮眠者が犇めいていた。結構涼しかったし、夏はあっちで寝てもいいかも。
-PP発表のスライド読み合わせ。疑問点の解消と新たな問題点。
''2.11 - 注意点と落とし穴''
注意点
-二つあり、一つは単純なルールの誤認。一つはベンチマーク選択の重要性。
--「プロセッサはCPIが低いほど早いモンなんだろ?」とか、~
「プロセッサはクロックレートが高いほどイイんだろ?」とか。
-まぁ、CPIは低いに越したことはないんですがね。洗練されたマルチ命令パイプラインはノーマルのよりクロックレートは普通低いし。
-ILP不可アプリやハードウェアリソース的に並列処理効率が上げられないときにはクロックレートが高い方が勝つですよ。
-でもILP可なら出来るだけILPった方がいいですの。
-IBM Power5 プロセッサは高いINT,FP処理効率を持つ。
--プロセッサコアを2つ持ち、それぞれ毎クロックFP2命令、ロードストア2命令を含む4命令を実行可能。
--2005年における最大クロックレートは1.9GHz
--比較として、Pen4はマルチスレッディング仕様のシングルコア(マルチスレッディングについては次章で)~
毎クロック3命令の深々パイプラインで、2005年における最大クロックレートは3.8GHz
-つまり、Power5は命令数とCPIがPen4の半分以下ならPen4より早くなる。
-図2.34:Pen4とPower5の各種ベンチにおける 命令数xCPI を示す。
--FPプログラムではPen4に倍差をつけることもあるほどにPower5が有利だが、INTプログラムではPower5はPen4のクロックレートによるアドバンテージに及ばない。
--Pen4と比較すると、Power5の命令数xCPIでのアドバンテージはFPで3.1倍なのに対しINTではわずか1.5倍となっている。
-これは2005年におけるPen4の最大クロックレートがPower5のガチ2倍(?)だからで、結果としてSPECfp2000ではPower5がPen4に1.5倍差を付け、SPECint2000ではPen4がPower5に1.3倍差を付けることになった。
落とし穴
-Sometimes bigger and dumber is better.(訳せないないですの
-次代パイプラインはCPI改善に主眼をおいて開発されている。
-21264は洗練された 29k bits 分岐予測を使用(以前のバージョンの21164では 2bits x 2k entries = 4k bits 分岐予測)(p88, Ch2.3 参照)
-SPEC95ベンチにおいて、21264の持つ洗練された分岐予測はシンプルな 2-bit 分岐予測と比べて1つを除いてすべて上回っていた。
--割合的にはSPECint95において1000命令中、21264の予測ミスが11.4命令(1.14%)だったのに対し21164は16.5命令(1.65%)だった。
-少々驚くべきことに、シンプルな 2-bit 構造(21164)の性能がトランザクション処理において21264に勝ったのだ。(21164の17/1000ミスに対し21264は19/1000だった)
-7分の1の分岐予測ビット量で、どうやってそんな性能を出したのか。
-答えは処理の構造にある。
-トランザクション処理のコード量は、SPEC95ベンチのどれより桁違いにデカく、山ほど分岐命令が出てくる。
-21164の局地分岐予測ビット量が2kなのに対して21264のビット量が1kだったことで僅かに上回った訳だ。
-加えて覚えておきたいのは、異なるアプリは異なる挙動をするということ。
-プロセッサはある特定の挙動のプログラムに狙いを絞ったマイクロアーキを持つ方向に洗練されて来ているので、想定しないアプリではさらに突飛な挙動をするかもしれない。
''2.12 - 総括''
#comment
__________________________________________________________________________________
#comment
ページ名: