吉田/日誌/2011-11-24
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
[[吉田>吉田]]/[[日誌>吉田/日誌]]
&size(24){もょもと};
| |-0|1|2|L|3|4|5|6|D|r1|r2|r3|
|11/21| |「|死亡|説|」 | | |「輪|講」| | |「眠」|
|11/22|「醒」| |「全MTG」| |「CDP.MTG」|「コー|ド」|「輪|講」| | |「眠」|
|11/23|「醒」| | | | | | | | | |「眠」| |
|11/24|「醒」| |「デモ見学」| |「メモリの転送|試験」| | | | | | |
~
>To do
- Reserch
-- メモリ転送検証
--- 実際の処理でのメモリ転送のオーバーヘッドを見る
--- 見つつ完全実装
- Thesis
-- 。
>Done
-- メモリ転送検証
-- cudaMemcopyとcudaMemcpyPeerで転送時間に差がないっぽい
+++ 記述的にコンパクトになっただけでホスト経由なのかなー・・・
-- デ−タ採ってみた
+++ 実際の2DCDP計算と同じだけの配列確保
+++ 2DCDPのループから計算部を抜き転送部のみで計測(転送するアドレスは適当)
+++ 他に、Host <--> Device や、Device <--> Device での大規模配列の転送時間を見た
--- 画像tenjinでの結果、&br;
1,配列の初期化と解放: 約 0.47 sec &br;
2,全体のrank間データ転送: 約 0.025 sec &br;
3,累積バッファのホスト書き戻し: 約 0.07 sec &br;
計、約 0.565 sec + (2DCDP実計算時間 X )
--- ここで tenjin の GPUx1 での処理時間は、0.833573 (実処理0.677986) sec
--- もしも実計算時間 X が GPUx1 のものの半分ならば、&br;
X = 0.677986 / 2 = 約 0.34 sec
--- GPUx2での総処理時間は、0.565 + 0.34 = 約 0.805 sec となる
--- 一応 GPUx1 よりは速いが誤差範囲(3回分の平均しか取ってないし)
--- 理論上、大画像ほど効果があるはずなので次は docomo で試す
~
>NOTE
- しかしこの分だと効率の交差点は結構大画像になるんじゃないか・・・? -- &new{2011-11-24 (木) 17:25:50};
- まぁ、まずドコモ試してそれを指標にしようかな -- &new{2011-11-24 (木) 17:26:18};
- それはそうと、結局 GPUDirect v2.0 は出来てないっぽいけどどうなんだろうか -- &new{2011-11-24 (木) 17:33:33};
-- http://gpgpu.unitcom.co.jp/cuda4.html -- &new{2011-11-24 (木) 17:33:43};
- cudaMemcpyPeer(送り先, 送り先のdev#, 送り元, 送り元のdev#, サイズ) -- &new{2011-11-24 (木) 17:44:02};
- でも NVIDIA GPUDirect 2.0 で Unified Virtual Addressing (UVA) 使えるようになって、&br;cudaMemcpy(送り先, 送り元, サイズ, 転送種類) において&br;アドレス指定でデバイス識別まで出来るようになってて cudaMemcpyPeer が要らない子疑惑 -- &new{2011-11-24 (木) 17:48:06};
- えっと、 -- &new{2011-11-24 (木) 22:09:56};
- cudaMemcpyDefault使用不可 -- &new{2011-11-25 (金) 10:29:11};
-- cudaDeviceCanAccessPeerの結果が両方× -- &new{2011-11-25 (金) 10:29:59};
-- 転送は H<->D がcudaMemcpyHostToDeviceとcudaMemcpyDeviceToHost&br;D<->D は cudaMemcpyPeer() でやるしかないっぽい -- &new{2011-11-25 (金) 10:32:27};
#comment
__________________________________________________________________________________
>BGM:
- 交通事故・渋滞シミュレータ (http://www.nicovideo.jp/watch/sm16238908 -- &new{2011-11-24 (木) 18:11:47};
- ネコ将棋 (http://www.nicovideo.jp/watch/sm16166299 -- &new{2011-11-24 (木) 18:22:48};
- タイのCM (http://www.nicovideo.jp/watch/sm16237445 -- &new{2011-11-24 (木) 18:33:25};
#comment
__________________________________________________________________________________
終了行:
[[吉田>吉田]]/[[日誌>吉田/日誌]]
&size(24){もょもと};
| |-0|1|2|L|3|4|5|6|D|r1|r2|r3|
|11/21| |「|死亡|説|」 | | |「輪|講」| | |「眠」|
|11/22|「醒」| |「全MTG」| |「CDP.MTG」|「コー|ド」|「輪|講」| | |「眠」|
|11/23|「醒」| | | | | | | | | |「眠」| |
|11/24|「醒」| |「デモ見学」| |「メモリの転送|試験」| | | | | | |
~
>To do
- Reserch
-- メモリ転送検証
--- 実際の処理でのメモリ転送のオーバーヘッドを見る
--- 見つつ完全実装
- Thesis
-- 。
>Done
-- メモリ転送検証
-- cudaMemcopyとcudaMemcpyPeerで転送時間に差がないっぽい
+++ 記述的にコンパクトになっただけでホスト経由なのかなー・・・
-- デ−タ採ってみた
+++ 実際の2DCDP計算と同じだけの配列確保
+++ 2DCDPのループから計算部を抜き転送部のみで計測(転送するアドレスは適当)
+++ 他に、Host <--> Device や、Device <--> Device での大規模配列の転送時間を見た
--- 画像tenjinでの結果、&br;
1,配列の初期化と解放: 約 0.47 sec &br;
2,全体のrank間データ転送: 約 0.025 sec &br;
3,累積バッファのホスト書き戻し: 約 0.07 sec &br;
計、約 0.565 sec + (2DCDP実計算時間 X )
--- ここで tenjin の GPUx1 での処理時間は、0.833573 (実処理0.677986) sec
--- もしも実計算時間 X が GPUx1 のものの半分ならば、&br;
X = 0.677986 / 2 = 約 0.34 sec
--- GPUx2での総処理時間は、0.565 + 0.34 = 約 0.805 sec となる
--- 一応 GPUx1 よりは速いが誤差範囲(3回分の平均しか取ってないし)
--- 理論上、大画像ほど効果があるはずなので次は docomo で試す
~
>NOTE
- しかしこの分だと効率の交差点は結構大画像になるんじゃないか・・・? -- &new{2011-11-24 (木) 17:25:50};
- まぁ、まずドコモ試してそれを指標にしようかな -- &new{2011-11-24 (木) 17:26:18};
- それはそうと、結局 GPUDirect v2.0 は出来てないっぽいけどどうなんだろうか -- &new{2011-11-24 (木) 17:33:33};
-- http://gpgpu.unitcom.co.jp/cuda4.html -- &new{2011-11-24 (木) 17:33:43};
- cudaMemcpyPeer(送り先, 送り先のdev#, 送り元, 送り元のdev#, サイズ) -- &new{2011-11-24 (木) 17:44:02};
- でも NVIDIA GPUDirect 2.0 で Unified Virtual Addressing (UVA) 使えるようになって、&br;cudaMemcpy(送り先, 送り元, サイズ, 転送種類) において&br;アドレス指定でデバイス識別まで出来るようになってて cudaMemcpyPeer が要らない子疑惑 -- &new{2011-11-24 (木) 17:48:06};
- えっと、 -- &new{2011-11-24 (木) 22:09:56};
- cudaMemcpyDefault使用不可 -- &new{2011-11-25 (金) 10:29:11};
-- cudaDeviceCanAccessPeerの結果が両方× -- &new{2011-11-25 (金) 10:29:59};
-- 転送は H<->D がcudaMemcpyHostToDeviceとcudaMemcpyDeviceToHost&br;D<->D は cudaMemcpyPeer() でやるしかないっぽい -- &new{2011-11-25 (金) 10:32:27};
#comment
__________________________________________________________________________________
>BGM:
- 交通事故・渋滞シミュレータ (http://www.nicovideo.jp/watch/sm16238908 -- &new{2011-11-24 (木) 18:11:47};
- ネコ将棋 (http://www.nicovideo.jp/watch/sm16166299 -- &new{2011-11-24 (木) 18:22:48};
- タイのCM (http://www.nicovideo.jp/watch/sm16237445 -- &new{2011-11-24 (木) 18:33:25};
#comment
__________________________________________________________________________________
ページ名: