松本/日記/2008-11-24
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
[[松本/日記]]
**PCI-Xインターフェース回路 [#m080c3c1]
***改良点 [#cced83ab]
-一回のDMA Readの発行によって、4-chipの計算結果を回収可能にした
-ダブルバッファの実装
-バッファの連続読み出し
-133MHz化(タイミング制約が厳しいので以下を削除)
--PIO R/Wを削除
--転送テスト用回路を削除
***評価 [#j4e0e057]
-8000体問題の性能
--105 GFLOPS(66MHz/64bit PCI: 117GFLOPS)
--pg4.top.bit.np11.100MHzを使用(パイプライン数=11、動作周波数=100MHz)
--j粒子、i粒子、粒子数、計算開始コマンドは、全てDMA Writeで送信
--計算結果は、DMA Readで回収
-転送速度
--DMA Write(133MHz/64bit): 572 MB/sec(理論値の54%)
--DMA Read (133MHz/64bit): 540 MB/sec(理論値の51%)
--PIO Write(133MHz/64bit): 441 MB/sec(理論値の41%)
-環境
--zxp020
***考察 [#h5d164d2]
-i粒子、粒子数、計算開始コマンドは、データ数が少ないのでPIO Writeで送信した方が良いかもしれない
--一括して送る方法があればDMA Writeでも良いかもしれない
-理想的には、j粒子はDMA Writeで送信し、それ以外はPIO Writeで送信することが望ましい
--しかし、タイミング制約が厳しいためDMA WriteとPIO Writeを両方とも実装することが難しい
-ローカルバスは66MHz以上は無理らしいので、DMA Writeに関してはこれ以上の速度向上は必要ない
-DMA Readの速度を向上させる必要がある
***今後の課題 [#tc35dfb0]
-PIO WriteとDMA Writeを両方とも実装する(もしくは、「i粒子、粒子数、計算開始コマンド」を一括して送信する方法を考える)
-DMA Readの速度向上
-機能追加(必要かもしれない?)
--100MHzと133MHzを切り替える機能
--133(100)MHzと66MHzの異なる周波数領域を繋ぐ回路(特にPFPGAのコンフィグレーション回路)
--メタステーブル対策
--32-bit Split Completion(64-bitと併用可能?)
--32-bit Target Read/Write(64-bitと併用可能?)
***備考 [#z0703967]
-pg4.top.bit.np16.100MHz(パイプライン数=16、動作周波数=100MHz)は、おそらくタイミング制約を満たしていないので、インターフェース回路のテスト用としては使っていない
-MDGRAPE-3では、DMA R/Wで理論値の80%以上(http://sc06.supercomputing.org/schedule/pdf/gb106.pdfより)
-非同期FIFOにおいて、同時R/Wは難しい?
終了行:
[[松本/日記]]
**PCI-Xインターフェース回路 [#m080c3c1]
***改良点 [#cced83ab]
-一回のDMA Readの発行によって、4-chipの計算結果を回収可能にした
-ダブルバッファの実装
-バッファの連続読み出し
-133MHz化(タイミング制約が厳しいので以下を削除)
--PIO R/Wを削除
--転送テスト用回路を削除
***評価 [#j4e0e057]
-8000体問題の性能
--105 GFLOPS(66MHz/64bit PCI: 117GFLOPS)
--pg4.top.bit.np11.100MHzを使用(パイプライン数=11、動作周波数=100MHz)
--j粒子、i粒子、粒子数、計算開始コマンドは、全てDMA Writeで送信
--計算結果は、DMA Readで回収
-転送速度
--DMA Write(133MHz/64bit): 572 MB/sec(理論値の54%)
--DMA Read (133MHz/64bit): 540 MB/sec(理論値の51%)
--PIO Write(133MHz/64bit): 441 MB/sec(理論値の41%)
-環境
--zxp020
***考察 [#h5d164d2]
-i粒子、粒子数、計算開始コマンドは、データ数が少ないのでPIO Writeで送信した方が良いかもしれない
--一括して送る方法があればDMA Writeでも良いかもしれない
-理想的には、j粒子はDMA Writeで送信し、それ以外はPIO Writeで送信することが望ましい
--しかし、タイミング制約が厳しいためDMA WriteとPIO Writeを両方とも実装することが難しい
-ローカルバスは66MHz以上は無理らしいので、DMA Writeに関してはこれ以上の速度向上は必要ない
-DMA Readの速度を向上させる必要がある
***今後の課題 [#tc35dfb0]
-PIO WriteとDMA Writeを両方とも実装する(もしくは、「i粒子、粒子数、計算開始コマンド」を一括して送信する方法を考える)
-DMA Readの速度向上
-機能追加(必要かもしれない?)
--100MHzと133MHzを切り替える機能
--133(100)MHzと66MHzの異なる周波数領域を繋ぐ回路(特にPFPGAのコンフィグレーション回路)
--メタステーブル対策
--32-bit Split Completion(64-bitと併用可能?)
--32-bit Target Read/Write(64-bitと併用可能?)
***備考 [#z0703967]
-pg4.top.bit.np16.100MHz(パイプライン数=16、動作周波数=100MHz)は、おそらくタイミング制約を満たしていないので、インターフェース回路のテスト用としては使っていない
-MDGRAPE-3では、DMA R/Wで理論値の80%以上(http://sc06.supercomputing.org/schedule/pdf/gb106.pdfより)
-非同期FIFOにおいて、同時R/Wは難しい?
ページ名: