プログラムのCUDA 化で格闘中.
ようやく得手不得手がおぼろげながら分かってきた.
確かに並列化の威力はすごい.
一方で,ホスト側からデバイス側へのメモリ転送速度がボトルネックになる.
また,多くのデータに対して同じ計算を行うときには威力を発揮し,
ある程度プログラムもしやすいのだが,総和をとったり,
平均をとったり,全てのデータを必要とする計算まで高速化するには
ちょっとテクニックが必要そう..
うーん,そういったことを考えながら自分のプログラムの改造を
考えていると頭がこんがらがってくる.
これができれば,一段の高速化ができるんだけどなぁ.
お腹も減ってきて.もう考えられない...
帰るか..
0 件のコメント:
コメントを投稿