GTC Japan 2016 テクニカルセッション プログラム(招待講演)

GTC Japan 2016

テクニカルセッション プログラム

 

13:10 - 13:35

東工大TSUBAMEの活用事例:マルチメディア認識のための深層学習

篠田 浩一(東京工業大学)

音声・音楽・画像・映像などのマルチメディア認識の分野では、近年、深層学習が大幅な性能向上をもたらしている。一方で、その研究のために必要な計算機資源の確保が課題となっている。ここでは、東京工業大学のスーパーコンピュータTSUBAMEを活用した、我々の研究事例について紹介する。

13:45 - 14:10

大規模進化計算による音声認識システム開発の自動化

篠崎 隆宏(東京工業大学)

今日の音声認識システムはディープニューラルネットワークやその他大規模な統計モデルが複雑に組み合わせられて構成されている。高い認識性能を得るためには専門家による複雑で手間のかかる調整が必要で、幅広いタスクへ音声認識を応用する上でのボトルネックとなっている。そこで本研究では大規模な進化計算を行うことで音声認識システムを自動最適化する手法を提案し、TSUBAME2.5を用いた実験により有効性を示す。

14:20 - 14:45

MPIを用いたDeep Learning処理高速化の提案

山崎 雅文(富士通研究所)

Deep Neural Network(DNN)の研究・開発は、DNN構成の検討や数多くのハイパーパラメタの調整に試行錯誤を重ねる必要があり、またその評価には大規模なデータを用いた膨大な演算が必要である。そのため、DNNの学習処理を多数のGPUを用いて高速に実行するニーズが高まっている。本講演では、多ノードで学習処理を実行する場合の並列処理に対する課題を検討し、MPIを用いた大規模GPUクラスタ向けのデータ並列による学習処理を提案する。勾配情報のノード間集約処理には取り扱うデータサイズに応じてアルゴリズムを選択するハイブリッド方式を採用し、さらにノード間集約処理を学習処理と重複させることで高いスケーラビリティを実現した。

14:55 - 15:20

Daino: A High-level AMR Framework on GPUs

Mohamed Wahib (AICS, RIKEN)

Adaptive Mesh Refinement methods reduce computational requirements of problems by increasing resolution for only areas of interest. However, in practice, efficient AMR implementations are difficult considering that the mesh hierarchy management must be optimized for the underlying hardware. Architecture complexity of GPUs can render efficient AMR to be particularity challenging in GPU-accelerated supercomputers. This talk presents a compiler-based high-level framework that can automatically transform serial uniform mesh code annotated by the user into parallel adaptive mesh code optimized for GPU-accelerated supercomputers. We show experimental results on three production applications. The speedups of code generated by our framework are comparable to hand-written AMR code while achieving good and weak scaling up to 1000 GPUs.

15:20 - 16:20(休 憩)
16:20 - 16:45

格子ボルツマン法を用いた大規模数値解析による多孔体界面乱流構造の解明

須賀 一彦(大阪府立大)、桑田 祐丞(東京理科大)

独自の3次元多緩和時間27速度モデルの格子ボルツマン法を開発し、複雑で微細な固相境界を持つ多孔体周り乱流の大規模数値解析をTSUBAMEにて行った。その結果、多孔質界面でのケルビン-ヘルムホルツ不安定に起因する、進行方向と直交する大規模なロール状の横渦構造の特性が明らかになり、また乱れ構造と乱れエネルギーの生成や乱流特性との関係も明らかになった。

16:55 - 17:20

OpenACC向け最適化戦略の提案

宮島 敬明(宇宙航空研究開発機構)

JAXAでは、数多くの数値シミュレーションコードを内製している。その多くは計算科学者によってC/Fortranで書かれており、並列性の抽出などはなされていないものも多い。これらのコードをCUDAC/FortranでGPU向けに書き直すことは現実的ではないため、OpenACCの様なディレクティブによるGPU化が代替案として挙げられる。しかし、現実としてOpenACCを利用したGPUの利用はあまり促進されていない。我々はこの問題の原因を最適化戦略が提示されていないためだと考えた。本発表では、OpenACC向けの最適化戦略を提案するとともに、ケーススタディを用いて提案戦略の有効性を示す。

17:30 - 17:55

RI-MP2法のマルチGPU超並列実装とTSUBAME2.5を用いた大規模電子状態計算

河東田 道夫(理化学研究所 計算科学研究機構)

マルチノード・マルチGPUシステムを活用してナノサイズ分子の大規模 Møller-Plesset2次摂動(MP2)計算を実現するために、Resolution-of-Identity MP2 (RI-MP2)エネルギー計算のマルチGPU超並列実装を電子状態計算プログラム NTChemに行った。本講演では、RI-MP2法のマルチGPU超並列実装の概要、ならびにTSUBAME2.5全システム規模を用いたナノ炭素分子集合体の大規模電子状態計算の実行性能とナノ炭素分子集合体間に働く分子間相互作用解析への応用を紹介する。

18:05 - 18:30

第一原理電子動力学コードの最適化と性能評価: GPU と Xeon Phi

廣川 祐太(筑波大学大学院)

筑波大学計算科学研究センターでは NVIDIA Fermi / Kepler GPU クラスタ HA-PACS および Intel Xeon Phi クラスタ COMA を設置・運用し、アクセラレータの積極的利用を推進している。本発表では、同センターにて開発している大規模並列計算機向け第一原理電子動力学シミュレーションコ ード ARTED を取り上げ、NVIDIA 社の協力の元実装した GPU (Tesla K40 / Tesla P100) 版と、本年に 筑波大・東大で共同設置・運用を行うメニーコアクラスタ Oakforest-PACS のため準備・最適化を進めている Xeon Phi (Knights Corner / Knights Landing) 版の両性能について比較する。同コードでは支配的な計算として、小規模3次元 ドメイン (e.g. 16x16x16) の25点ステンシル計算を非常に大量に (e.g. 24^3 × 16 並列) 計算している。本発表では特にこのステンシル計算の最適化とその性能について詳しく論じる。