IDCF テックブログ

IDCF テックブログ

クラウド・データセンターを提供するIDCフロンティアの公式テックブログ

「京」スパコンの裏側:京見学レポート

こんにちは、藤城(@tafujish)です。
前回SC18のエントリーを書きましたが、そのSC18にてお会いしたR-CCSの松岡センター長からのお誘いで、スーパーコンピュータ「京」の見学と情報交換の機会をいただきました。IDCFからはデータセンターのファシリティ担当やクラウドの担当など大勢で参加させていただきました。
京の見学レポートは既に多くの方が公開されていますので、ここでは我々が運営するデータセンターと京についての違いを紹介したいと思います。

f:id:tafujish:20190328125006j:plain

「京」とは

神戸の理化学研究所計算科学研究機構(R-CCS)に設置されたスーパーコンピュータです。2011年6月と11月のTOP500で世界1位になった大規模かつ超高速なシステムで、研究用途だけでなく産業利用にもその計算リソースを提供しています。2018年11月現在のTOP500でも18位と未だにその処理性能の高さは重宝されていますが、今年8月に停止するとの発表がありました。今後は京のシステムを次世代のスーパーコンピュータにリプレイスするとのことで、これはポスト京と呼ばれています。現状の京を撤去しそこに新たにポスト京を構築するため、京のシステムが停止されます。実際に我々が見学にいったときも、ポスト京の準備がはじまっており、もうまもなく見学もできなくなるというタイミングで伺うことができました。

ポスト京は、「京」と比べてアプリケーション実効性能が最⼤で100倍に向上するのに対して電力消費は約2〜3倍に抑えるとのことで、その高集積・省エネルギー技術の進歩が凄まじいです。
また、ポスト京の特徴の1つにArmプロセッサーの採用があります。汎用性や消費電力の低さといった特徴のほか、実際のHPCワークロードでの処理性能も相当高速とのことでした。

www.r-ccs.riken.jp

京の見学



今回は計算機室の中に入ることができ、稼働中のマシンを間近でみることができました。計算機室の中は思っていた以上に寒くなく、うるさくもなかったです。水冷の効果ですね。

「京」と書かれた赤いパネルのラックはよく見ますが、京の裏側はどうなっているかスパコン好きとしては気になりますよね?京の裏はこんな感じでした。

f:id:tafujish:20190328130351j:plain

ラックの周囲は結構余裕があるスペースになっており、柱が1本もない広大な空間に驚きでした。データセンターだとフロア内に柱が何本も立っていますからね。
IDCFのクラウド担当のメンバーは興味深々で見学しました。

一方でIDCFのファシリティ担当は、空調機械室や熱源機械棟に興味津々で、R-CCSメンバーとの会話も盛り上がっていました。

f:id:tafujish:20190328133142j:plain
15℃で入った水が17℃で戻ってくる

f:id:tafujish:20190328133428j:plain
ガスタービン発電装置(GTG)

京とデータセンターとの違い

それでは、京の施設と我々のデータセンターの違いを紹介します。

発電

IDCFのメンバー皆が驚いたのが、京ではGTGを用いたコージェネにより自前で発電し、定常的に利用していることでした。自前で発電するということは、相当の規模がないとコストの割に合わないですし、そのための人員と設備も必要です。
我々のデータセンターの規模でも、その規模には到達しないです。

一方で、我々のデータセンターではGTGを非常用電源設備として使っており、R-CCSメンバーは驚いていました。
つまり、止めていたGTGを急に動かして本当に動くのかという疑問です。これには、定期的な試運転や切り替え試験をすることで安定動作を確認しているという話をさせていただきました。

また、京ではUPSがないことも意外でした。落雷等で停電することもあるとのことでしたが、我々のデータセンターではお客様のデータやサービスを預かりますので、短時間であっても停電は許されないためUPSを導入しております。
京では停電時はストレージのみに通電し、計算ノードは止めるという割り切りをしており、サービスの違いを感じました。

水冷

京ではCPUを水冷却していました。CPU等を高速で稼働させるには相応の電力が必要で、それに伴って熱も発生するため、サーバーで一般的な空冷より水冷の方が効率が良いです。一方でサーバー等の機械は水に弱いので、万が一にも水漏れがあってはいけません。そのため、様々なお客様にデーターセンターを提供する環境では水冷サーバーの導入は困難です。我々のデータセンターにおいても、漏水防止や検知の仕組みを導入しないと水冷サーバーは設置できず、水冷サーバーのメリットが出にくくなってしまいます。
一方で、京ではこれまで一度も水漏れが起きたことはないとのことで、考えを改めるきっかけになるのではと思っています。
また、水冷に使う水の温度によっても、様々なメリットデメリットがあることをはじめて知りました。

同じだと感じた点

京においてもデータセンターにおいても、そのコストの多くを電気代が占めており、少しでも安くするための検討や工夫を常々行なっているということは同じでした。
「熱源機械棟の外壁を外したら室外機の効率が大幅に改善された」というお話は一番興味深かったです。

京とクラウドとの違い

計算リソースを共用サービスとして提供する京と、我々のIDCFクラウドのようなクラウドコンピューティングも計算リソースを共用サービスとして提供する点では同じように見えますが、この中で違いを紹介します。

ジョブの充填率

京はスパコンのため、計算させたいジョブをジョブスケジューラーへ投入し実行します。そのときにジョブの優先度や利用するノード数などを考慮しつつ、空きの計算リソースが少なくなるよう実行する必要があり、ジョブの充填率としてウォッチし充填率が上がるよう工夫していました。リソース量が決まった中で、そのリソースを効率良く活用することが重要となります。
一方で、クラウドでは、ユーザーのリクエストに応じてサーバー等のリソースもどんどん増やしていく必要があります。しかし使わないのにリソースを増やすのは無駄なコストがかかり、またリソースの増設よりもユーザーからのリクエストの方が多いとユーザーへ必要なリソースを提供できず機会損失となります。この残リソースがキャパシティであり、キャパシティ管理がクラウドをコスト良く提供するために重要となります。

RAS技術

信頼性、可用性、保守性、様々なお客様にサービスを提供するクラウドでは最も重要なことの一つですが、これらは京にとっても重要でした。計算結果への信頼性は大事で、一般的なサーバーではECCによるメモリの誤り検出と訂正までですが、京の場合CPUにおいてもメインフレーム由来の技術で命令レベルで異常を検知するそうです。よくよく考えると、シミュレートした結果に誤りあると意味がないですから当たり前ですが、メインフレーム級の信頼性をこれほど大規模なシステムで実現していることには驚きでした。

同じだなと思ったこと

システム運用の悩みが「ストレージ」というのはお互い同じで、性能問題や不具合への対応の苦慮はとても共感しました。小さく大量のI/Oへの対応は難しいし、大事なデータを保存するので不具合が起きたときの影響は大きいですよね。
また、京においてもログの収集や解析などはOSSを活用し工夫しており、我々が使っていないツールもあったので参考にしたいと思います。

終わりに

京がクローズする前にこのような機会をいただき幸せでした!データセンター・クラウドサービスを提供する立場として、共感できる部分や参考になる部分などが多くあり、勉強させていただきました。
お忙しいなか対応いただきましたR-CCSの皆さまに感謝申し上げます。

Copyright © IDC Frontier Inc.