GPU を利用した研究事例・成果

平成221019日にGPUコンピューティング研究会主催により東京工業大学 蔵前会館 ロイヤルブルーホールで開催された第1GPUシンポジウムでの講演発表の内容を掲載しています。

 

 
【基調講演】
GPU Computing will Fundamentally Change Science [講演資料]
David Kirk  (NVIDIA)
 
In the past, graphics processors were special purpose hardwired application accelerators, suitable only for conventional rasterization-style graphics applications. Modern GPUs are now fully programmable, massively parallel floating point processors. This talk will describe how NVIDIA’s massively multithreaded computing architecture and CUDA software for GPU computing have changed both graphics and computing. It's no longer news that GPUs can accelerate many applications and compute kernels 100x or more. The true importance of this change lies in what new science and applications will be enabled.
 
 
GPGPUによる量子化学計算の高速化 [講演資料]
古賀良太*, 古川祐貴*, 安田耕二** ((株)クロスアビリティ*, 名大**)
 
汎用CPUより1桁価格性能比に優れるGraphics Processing Unit (GPU)を使って、量子化学 計算を高速化した。名大・安田(2008)の成果をもとに、各種量子化学計算ソフトに結合可能なGPU計算エンジンであるXA-CUDA-QMを開発した。この汎 用モジュールをGaussian03 B.01, GAMESS-US 2010 R3に組み込み、通常のab-initio計算やフラグメント分子軌道法計算を高速化した。
 
 
GPUによる3D-RISMプログラムの高速化 [講演資料]
丸山豊、平田文男(分子科学研)
 
3D-RISM理論は分子性溶媒を取り扱う統計力学理論で、蛋白質などの生体分子の周りの溶媒和構造を正しく取り扱う事ができる。この理論は単体でも強力であるが、分子動力学法や電子状態理論と組み合わせる事でさらに応用範囲が広がる。このような複合的な手法では3D-RISMの計算を繰り返し行う必要があり、さらなる高速化が望まれている。我々はNVIDIA Tesla C1060上で動作する3D-RISMプログラムを実装し、約19倍の高速化を達成した。3D-RISMプログラムの構造やGPU上での実装における問題点とその解決方法、計算例などについて発表する。
 
 
3次元画像計測分野でのGPUを用いた高速化事例 [講演資料]
関口尚大(東杜シーテック(株)), 三浦 衛(東北大),高橋 徹(東北大),青木 孝文(東北大)
 
近年注目を浴びている画像を用いた3D計測へのGPUの適用事例として、多視点3D復元と3D顔復元のリアルタイム化について紹介する。多視点3D復元では、ワシントン大学の建造物3D復元プロジェクトで使用されている復元アルゴリズムを題材とし、ハンドコーディングによるCPU、GPUコードおよびGPUコード自動生成ツール「HMPP」が生成するコードについて処理速度と開発工数の比較を行う。また3D顔復元では、東北大学青木孝文教授が取り組まれている位相限定相関法による3D画像計測をGPUを活用してリアルタイムに行う試みについて紹介する。
 
 
GPGPU for Microsoft Excel ~金融・デリバティブ計算 への適用事例 [講演資料]
鳥居秀行, 松尾拓真 (ニューメリカルテクノロジーズ)
 
GPGPUはHPCの分野では広く使われ始めているが、まだ一般ユーザーが手軽に使えるという状況ではない。本発表では、誰もが使えるMicrosoft ExcelからGPGPUを使用可能にするツールと、それを使用した簡単な金融・デリバティブの計算事例を紹介する。
 
 
ステンシル計算を対象とした大規模GPUクラスタ向け自動並列化フレームワーク [講演資料]
野村達雄, 丸山直也, 松岡聡 (東工大)
 
近年GPUを組み込んだクラスタが増えている。GPUはメモリが高スループットであり、演算のピーク性能が極めて高い。アプリケーションによってはGPUを活用する事によって大幅な性能向上が可能である。その一方で、GPUの性能を活かすためにはGPUに対する専門知識が不可欠である。そのため、GPUを活用できるのは一部の人にとどまっている。本研究ではステンシル計算に着目し、C言語によるアーキテクチャからは独立した記述方法を開発者に提供し、GPUクラスタ向けに自動で並列化するフレームワークを提案する。これによって開発者は特別な知識を持たずにGPUクラスタの性能を享受できるようになることを目指す。
 
 
Expression Templateを使ったベクトル演算のCUDAによる実装と評価 [講演資料]
二田 晴彦(みずほ情報総研)
 
CUDAによるプログラミングの困難さの一つにホストとデバイスのコードが分離しており、理解しにくいと言う点が考えられる。NVIDIAはこれを解決するために、ベクトル演算に関してはCUBLASをリリースしているが、CUBLASは複数項の式を計算する際、無駄なメモリ転送が生じる問題がある。本発表では、ホスト上でプログラミング可能でメモリ転送の効率が良い、Expression Templateを用いたベクトル演算フレームワークの実装を行う。Expression Templateを用いることで、式構造をテンプレートで保存し必要になった際に式を展開し計算が可能になり、効率の良いデバイスコードが作成可能になる。
 
 
大規模有限要素解析システムADVENTUREのGPUへの移植 [講演資料]
河合浩志*, 荻野正雄**, 塩谷隆二***, 吉村忍* (東大*, 九大**, 東洋大***)
 
ADVENTUREはオープンソースCAEシステムであり、PCクラスタやES、IBM BlueGeneなどさまざまなHPC環境で動作し、数億自由度規模の有限要素解析を行うことができる。大規模解析向けプレポスト処理環境を備え、熱、構造、流体、電磁場およびそれらの連成問題が扱える。近年次第に普及しつつあるGPUおよび将来のHPC環境の主流とみなされるGPUクラスタ上に本システムを移植すべく、その主要な並列有限要素解析アルゴリズムである領域分割法について、現在その実装面からさまざまな検討を行っている。
 
CUDA+OpenGLを用いたGPU-FDTDによる3次元音響シミュレー ションと高速可視化 [講演資料]
大久保寛(首都大)
 
最近ではGPU(Graphics Processing Unit)を用いて汎用的な計算を行おうとするGPGPU(General Purpose computation on GPUs) が,様々な分野で注目され始めている.本報告ではCUDAとOpenGLを用いて,GPUを用いた音響数値解析及び時間領域における高速可視化を実装・検討している.結果として,3次元計算に対して,ほぼリアルタイムの計算可視化を実現した.
 
 
マルチGPUによる電磁界解析の高速化 [講演資料]
村山敏夫(ソニー(株))
 
電子機器の設計では電磁界解析が重要な役割を担っている。その中でも、FDTD法は実装がシンプルで効率的な並列化が可能であるため、GPUを用いた並列計算に広く応用されている。今回、大規模な解析を実現するために複数のGPUを用いて3次元FDTD法を実装した。その際、並列化効率を向上させるために定式化の修正や計算順序の改善を行い、性能を評価した。プログラム構造や実行結果に関してその内容を報告する。
 
 
数値流体解析の並列効率とそのGPUによる高速化の試み [講演資料]
PHAM VAN PHUC (清水建設(株))
 
数値流体解析においては圧力方程式を解く部分が計算時間の大部分を占め,その解析時間を短縮するために性能の良い解析ソルバを選べる必要がある.本開発では,OpenFOAM等の流体解析コードを用い,実流体問題においてTSUBAME1.2の1000規模CPUコアの利用により流体解析の並列効率を調べ,計算機の規模により利用している解析ソルバの選定の重要性を明らかにする.また,GPU化によるそれぞれの解析ソルバの性能を調べるとともに,GPU用解析ソルバを流体解析コードに組込むことによりその計算の高速化を試みる.
 
 
GPUへのコンパクト差分の実装と圧縮性流体計算への適用 [講演資料]
出川智啓(電通大)
 
コンパクト差分法は,3重または5重対角の非対称帯行列を構成し,行列式を解くことで空間差分を求める陰的スキームであり,陽的な中心差分スキームよりも高い空間解像度を持つ.コンパクト差分を用いて多次元空間の差分を計算する場合,同一の係数行列を持った行列式を多数解く必要がある.本発表では,CUDA Fortranを用いてコンパクト差分をGPUへ実装し,圧縮性流体の2次元計算へ適用した結果について報告する.また,行列式の解法を検討した結果についても発表する.
 
 
複数 GPU による大規模 LES 乱流計算 [講演資料]
小野寺直幸*,青木尊之*,小林宏充**(東工大*,慶大**)
 
工学で用いられるような高いレイノルズ数の流れの直接計算(DNS)は、非常に多 くの計算資源と計算時間が必要となるため、乱流モデルを適用する必要がある。ラージエディ・シミュレーション(LES)は、流れの格子解像度以下の成分を モデル化する事で、DNSに比べ、より少ない計算資源で乱流現象を捉えることが可能となる。本発表では、高速演算が可能であるGPUを用いてLESを行うとともに、GPUに対して有効な乱流モデルについての議論を行う。また、複数GPUを用 いることで、より大規模で高速なLESを行う。
 
 
粒子法のFermiへの実装とその性能評価 [講演資料]
藤澤智光 (プロメテック(株))
 
有限要素法・有限体積法・粒子法などランダムメモリアクセスを多く含むアプリケーションは、従来のGPUアーキテクチャには不向きであり、十分なパフォーマンスを達成することが困難であった。しかし、FermiではL1/L2キャッシュの装備など汎用計算向けの改良が行われ、応用可能なアプリケーションの範囲が広がった。本講演では化学工学の分野で利用されている粒子法による高粘性攪拌解析をターゲットとして、ホットスポットとなる反復解法ソルバのFermiへの実装と高速化性能について報告する。さらに粒子法プログラムのすべての処理をFermi上に実装する取り組みと今後の展望について報告する。