吉田/日誌/2009-05-25
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
[[吉田>吉田]]/[[日誌>吉田/日誌]]
&size(18){ぬ。};
>現状課題(2009/05/25 21:34)
-RPR2009。1.1、2.10-11-12。ズレ込みそう。~
-プログラムサンプル。さりとて見てもいない。見れれ。~
>今日と昨日の何か。~
RPR資料。2章は「命令レベルでの並列化とその効果について」~
-2.1-2.9~
・1.命令レベル並列化ってのは何がしたいのか。~
・2.並列化の基本コンパイルテクについて。~
・3.分岐予測コストを減らそう。~
・4.動的スケジューリングによるデータハザード突破。~
・5.動的スケジューリングの例。~
・6.ハード側による予測。~
・7.複数命令発行と静的スケ使用時のILPの効果。~
・8.複数命令発行&動スケ&分岐予測使用時のILPの効果。~
・9.命令転送、予測の上級テク。~
''2.10 - ここまでのまとめ:Pen4について''
-性能評価に SPEC CPU benchmarks を使用。~
-同機はマルチスレッディングもサポートするがこれについては後述。~
-Pen4: Netburstという「積極的なミス検知マイクロアーキ」を使用。~
--高クロックレートと命令複数同時発行を組み合わせることによる高命令スループットを目的としたディープパイプライン(長ぇ
--似たようなのはPen3にもあった()
-命令実行追跡キャッシュ(ETC): これまでのIA-32のキャッシュに対抗するものとして実装。IA-32をデコードしたものに相当するuop(micro-operation)をトレース(?~
--追跡キャッシュ(TC): 命令キャッシュの一種。分岐を挟む命令シ−クエンスを保持。通常キャッシュよりも局所的に効果。~
-TCによりパイプラインをFULLにすることによりTCにヒットする限りIA-32命令の再読が不要。~
--例外はTCのL2キャッシュからのデコードミス時のみ(TCへの再読込。
-毎クロック3命令、6uopsが生成される。~
--1命令(IA-32)で3つ以上のuopsが必要なときは microcode ROM から生成する(にゅ?
-ETCはuopの分岐予測用の固有の分岐バッファを持つ。ETCが高ヒットするということは命令のフェッチ、デコードがほぼ不要だということ。~
--例として SPEC CPUINT2000 ベンチでのミスヒット率は0.15%以下。~
-ETCからの命令フェッチ後uops実行。追加にバッファをとるよりレジスタリネームを使う。~
-毎クロック3つのuopsをキューに保持し、送り出す(きゅむ~
--送出には4ポートあり、トータルで毎クロック6個のuopsを流し込める。~
-ロードストアには専用ポートが使われ、他ポートが基本ALU処理を担当する。4つ目をFPやINT型演算用に使う。~
-Pen4が動的スケジューリングを採用して以来、単純な静的パイプラインは使われていない。~
-代わりにパイプラインステージの動的配置により可変クロックサイクルになった。~
--Pen3では、命令が時間のかかる実行ステージにマルチクロックサイクルを求める中、命令のフェッチから終了までの最短クロックは11だった。~
-動的パイプラインでは命令はオペランドを待ってより長くなっていい(Pen4はCISC採用)~
-初期のPen4は、高クロックレートのためにPen3のパイプラインを細分割した、今よりも深パイプラインだった。~
-Pen4の出現は1990年、パイプラインあたりの最短クロックは増加して21、クロックレートは1.5GHz。~
-2004年にはインテルは3.2GHzのPen4を発表。これによりパイプラインは更に伸び、クロックサイクルは31に。(PLステージ追加により転送スピードは上がりクロックレートが初めのPen4の倍以上に)~
-で、PLステージ増やしてクロックレートに拘った結果、大量のキャッシュミス&分岐予測ミスが付いてきましたよ、と。~
-2レベルのキャッシュがDRAMアクセスの頻度を最小に。~
-分岐予測は2段階の分岐予測バッファにより過去の分岐履歴を用いて行う。~
-最新のPen4の分岐予測バッファのサイズは増加していて、更に分岐バッファがミスったら静的予測を使う。~
=Pen4の機能解析=
-
-
-
-
''2.11 - 問題点・注意点''
''2.12 - 総括''
#comment
__________________________________________________________________________________
#comment
終了行:
[[吉田>吉田]]/[[日誌>吉田/日誌]]
&size(18){ぬ。};
>現状課題(2009/05/25 21:34)
-RPR2009。1.1、2.10-11-12。ズレ込みそう。~
-プログラムサンプル。さりとて見てもいない。見れれ。~
>今日と昨日の何か。~
RPR資料。2章は「命令レベルでの並列化とその効果について」~
-2.1-2.9~
・1.命令レベル並列化ってのは何がしたいのか。~
・2.並列化の基本コンパイルテクについて。~
・3.分岐予測コストを減らそう。~
・4.動的スケジューリングによるデータハザード突破。~
・5.動的スケジューリングの例。~
・6.ハード側による予測。~
・7.複数命令発行と静的スケ使用時のILPの効果。~
・8.複数命令発行&動スケ&分岐予測使用時のILPの効果。~
・9.命令転送、予測の上級テク。~
''2.10 - ここまでのまとめ:Pen4について''
-性能評価に SPEC CPU benchmarks を使用。~
-同機はマルチスレッディングもサポートするがこれについては後述。~
-Pen4: Netburstという「積極的なミス検知マイクロアーキ」を使用。~
--高クロックレートと命令複数同時発行を組み合わせることによる高命令スループットを目的としたディープパイプライン(長ぇ
--似たようなのはPen3にもあった()
-命令実行追跡キャッシュ(ETC): これまでのIA-32のキャッシュに対抗するものとして実装。IA-32をデコードしたものに相当するuop(micro-operation)をトレース(?~
--追跡キャッシュ(TC): 命令キャッシュの一種。分岐を挟む命令シ−クエンスを保持。通常キャッシュよりも局所的に効果。~
-TCによりパイプラインをFULLにすることによりTCにヒットする限りIA-32命令の再読が不要。~
--例外はTCのL2キャッシュからのデコードミス時のみ(TCへの再読込。
-毎クロック3命令、6uopsが生成される。~
--1命令(IA-32)で3つ以上のuopsが必要なときは microcode ROM から生成する(にゅ?
-ETCはuopの分岐予測用の固有の分岐バッファを持つ。ETCが高ヒットするということは命令のフェッチ、デコードがほぼ不要だということ。~
--例として SPEC CPUINT2000 ベンチでのミスヒット率は0.15%以下。~
-ETCからの命令フェッチ後uops実行。追加にバッファをとるよりレジスタリネームを使う。~
-毎クロック3つのuopsをキューに保持し、送り出す(きゅむ~
--送出には4ポートあり、トータルで毎クロック6個のuopsを流し込める。~
-ロードストアには専用ポートが使われ、他ポートが基本ALU処理を担当する。4つ目をFPやINT型演算用に使う。~
-Pen4が動的スケジューリングを採用して以来、単純な静的パイプラインは使われていない。~
-代わりにパイプラインステージの動的配置により可変クロックサイクルになった。~
--Pen3では、命令が時間のかかる実行ステージにマルチクロックサイクルを求める中、命令のフェッチから終了までの最短クロックは11だった。~
-動的パイプラインでは命令はオペランドを待ってより長くなっていい(Pen4はCISC採用)~
-初期のPen4は、高クロックレートのためにPen3のパイプラインを細分割した、今よりも深パイプラインだった。~
-Pen4の出現は1990年、パイプラインあたりの最短クロックは増加して21、クロックレートは1.5GHz。~
-2004年にはインテルは3.2GHzのPen4を発表。これによりパイプラインは更に伸び、クロックサイクルは31に。(PLステージ追加により転送スピードは上がりクロックレートが初めのPen4の倍以上に)~
-で、PLステージ増やしてクロックレートに拘った結果、大量のキャッシュミス&分岐予測ミスが付いてきましたよ、と。~
-2レベルのキャッシュがDRAMアクセスの頻度を最小に。~
-分岐予測は2段階の分岐予測バッファにより過去の分岐履歴を用いて行う。~
-最新のPen4の分岐予測バッファのサイズは増加していて、更に分岐バッファがミスったら静的予測を使う。~
=Pen4の機能解析=
-
-
-
-
''2.11 - 問題点・注意点''
''2.12 - 総括''
#comment
__________________________________________________________________________________
#comment
ページ名: