吉田/日誌/2011-11-29
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
[[吉田>吉田]]/[[日誌>吉田/日誌]]
&size(24){ぬ};
| |-0|1|2|L|3|4|5|6|D|r1|r2|r3|
|11/22|「醒」| |「全MTG」| |「CDP.MTG」|「コー|ド」|「輪|講」| | |「眠」|
|11/23|「醒」| | | | | | | | | |「眠」| |
|11/24|「醒」| |「デモ見学」| |「メモリの転送|試験」| | | | | | |
|11/25|「醒」| | | | | | | | | | |「眠」|
|11/26|「醒」| | | | | | | | | |「眠」| |
|11/27|「醒」| | | | |「メモリ|検証|と|計算|試験」|「眠」| |
|11/28|「醒」| |「MTG中止」| |「輪講資料作|成」| |「輪|講」| | |「眠」|
|11/29|「醒」| |「全MTG」| | | | | | | | | |
~
>To do
- Reserch
-- メモリ転送検証
-- 処理適用検証
- Thesis
-- 。
>Done
-- メモリ転送検証
+++ 2DCDPのinitBufferを使って初期化
+++ accumulationのループ構造を使用
+++ accmCalcと同様の引数でメモリ転送と処理のオーバーヘッドを見る
+++ 与えた処理は適当に重めに
--- 画像docomo(vs2010)での結果、&br;
1, 全体のrank間データ転送: 約 0.093921 sec &br;
2, 累積バッファのホスト書き戻し: 約 0.499964 sec &br;
計、約 0.6 sec + (2DCDP実計算時間 X )
-- 処理適用検証
+++ docomoのGPUx1実行時間採ろうとしたら動かなかったとかナニソレ
+++ 確か1.7secくらいだったはずだから1/2で0.85secとして、
+++ 0.6+0.85 = 1.45 < 1.7 となりtenjinの時よりも効果は上がってるっぽい
+++ しかし何故今になって動かない、singleGPU・・・
~
>NOTE
- cudaMallocHost、データ乗り切らないから無理と思ってたけど、半分ならギリギリ乗ったみたいで. -- &new{2011-11-29 (火) 12:28:22};
-- 試したら結果、ドコモでaccmbufA,BのHostへの書き戻しが0.5secから0.38secくらいに短縮 -- &new{2011-11-29 (火) 12:29:45};
-- tenjinでも0.07から0.05にはなってた.んー・・・ -- &new{2011-11-29 (火) 12:30:20};
#comment
__________________________________________________________________________________
>BGM:
#comment
__________________________________________________________________________________
終了行:
[[吉田>吉田]]/[[日誌>吉田/日誌]]
&size(24){ぬ};
| |-0|1|2|L|3|4|5|6|D|r1|r2|r3|
|11/22|「醒」| |「全MTG」| |「CDP.MTG」|「コー|ド」|「輪|講」| | |「眠」|
|11/23|「醒」| | | | | | | | | |「眠」| |
|11/24|「醒」| |「デモ見学」| |「メモリの転送|試験」| | | | | | |
|11/25|「醒」| | | | | | | | | | |「眠」|
|11/26|「醒」| | | | | | | | | |「眠」| |
|11/27|「醒」| | | | |「メモリ|検証|と|計算|試験」|「眠」| |
|11/28|「醒」| |「MTG中止」| |「輪講資料作|成」| |「輪|講」| | |「眠」|
|11/29|「醒」| |「全MTG」| | | | | | | | | |
~
>To do
- Reserch
-- メモリ転送検証
-- 処理適用検証
- Thesis
-- 。
>Done
-- メモリ転送検証
+++ 2DCDPのinitBufferを使って初期化
+++ accumulationのループ構造を使用
+++ accmCalcと同様の引数でメモリ転送と処理のオーバーヘッドを見る
+++ 与えた処理は適当に重めに
--- 画像docomo(vs2010)での結果、&br;
1, 全体のrank間データ転送: 約 0.093921 sec &br;
2, 累積バッファのホスト書き戻し: 約 0.499964 sec &br;
計、約 0.6 sec + (2DCDP実計算時間 X )
-- 処理適用検証
+++ docomoのGPUx1実行時間採ろうとしたら動かなかったとかナニソレ
+++ 確か1.7secくらいだったはずだから1/2で0.85secとして、
+++ 0.6+0.85 = 1.45 < 1.7 となりtenjinの時よりも効果は上がってるっぽい
+++ しかし何故今になって動かない、singleGPU・・・
~
>NOTE
- cudaMallocHost、データ乗り切らないから無理と思ってたけど、半分ならギリギリ乗ったみたいで. -- &new{2011-11-29 (火) 12:28:22};
-- 試したら結果、ドコモでaccmbufA,BのHostへの書き戻しが0.5secから0.38secくらいに短縮 -- &new{2011-11-29 (火) 12:29:45};
-- tenjinでも0.07から0.05にはなってた.んー・・・ -- &new{2011-11-29 (火) 12:30:20};
#comment
__________________________________________________________________________________
>BGM:
#comment
__________________________________________________________________________________
ページ名: