2020/10/4 東証システム障害完全解説

ITエンジニア

こんにちは、ダイエット夫です。

10/1に発生した東京証券取引所(東証)のシステム障害について、

先日速報ベースでダイエット夫なりの原因分析と、非機能設計の重要性

お伝えしました。

2020/10/1 東証 全取引停止 システム障害から学ぶ非機能設計の重要性

事象から約3日経過し、新たな情報も公開されましたので、

10/1に実施された東証経営層の記者会見の感想も踏まえ、深堀して行きます。

ちなみにアイキャッチ画像は記事とは無関係ですが、

THE GRAND GINZAで提供されている苺のミルフィーユです。

ダイエットの天敵ですが、太っても構わないと思わせる程美味です。


さて、今回の記者会見について、ダイエット夫は大きく二つの感想を持ちました。

①経営層の判断および記者会見における説明が素晴らしい

まず第一に、ダイエット夫は東証とも富士通とも関係の無い人間であることを

お伝えしておきます。

その上で、東証の記者会見の第一印象は、

  1. 判断が困難な局面での究極の選択
  2. ベンダーである富士通を一切攻め立てなかった
  3. 東証CIOのITスキルの高さ

この3つでした。


【判断が困難な局面での究極の選択】

10/1 7:04に障害を検知し、

投資家に対して市場を閉鎖する周知を行ったのが10/1 8:50頃。

この二時間、マジで地獄でしょう。。

大抵システム監視というものは

機器からの自動通報監視オペレーターが検知

→運用エンジニアへ通達され、障害一次切り分け

運用会社のマネージャ・ユーザ企業の窓口へ障害通達

→規模によっては、ユーザ企業の経営層へエスカレーション

このような段取りでシステム障害対応は進められます。

この手続きには、どんなに迅速に行っても30分所要します。

また、経営判断が下ってから投資家への周知まで30分だとすると、

恐らく、東証の経営層はわずか30分~40分の間

東証を閉鎖するという重要な経営判断を下したのです。

痺れますね~

実際に機会損失を被っている企業や投資家が存在するので

再発防止を徹底すべきではあるものの、

現場のオペレータやエンジニア、中間管理職そして

経営者の心中を想像すると、

気が小さいダイエット夫は胃が痛みます。。


【終日取引停止した理由】

会見でもCIOの横山隆介氏が言っていましたが、

共有ディスクの2号機は稼働可能な状態であったため、

周辺のサーバー機器含めシステム全体を再起動することも可能でした。

うまくシステム再起動が完了すれば、1~2時間程度で復旧する可能性もありました。

にもかかわらず、何故終日取引を停止する判断としたのか?

恐らく、最悪の事態が発生するリスクを回避するためでしょう。

今回のシステム障害原因は、共有ディスクの障害ということですが

共有ディスクの障害で、最も恐れるべきは取引データの消失です。

もし、強引にシステムを全て再起動し取引を継続していたら、

一部の取引データに不整合が発生し、取り返しのつかないことに

なっていかもしれないのです。

1号機から2号機へ自動的に切り替わらなかった根本的な原因が判らないことから、取り返しがつかない事態が発生するリスクだけは回避しようと判断したのでしょう。

ダイエット夫としては、この経営判断を称賛します。


【東証CIOのITスキルの高さ】

CIOの横山隆介氏の説明を聞き、ダイエット夫はピンと来ました。

この人はITエンジニア経験のある人だなと。

ITエンジニアは、システム障害が発生した場合ユーザやお客様に障害の顛末を報告する義務があります。

その中で、

  • 事象を時系列で整理する
  • 原因と対策を論理的に展開する
  • システム特有の単語は必要最低限に留める

このようなこと常に意識しています。

横山氏の説明の中では、「フェイルオーバー」「両現用」等という

システム特有の単語が散りばめられていましたが、

完全に自分の言葉として語っていました。

一般の方からすると理解が困難かもしれませんが、

IT経験者からすると、とても理路整然としており

極力素人にも伝わる表現を使って語っているように見えました。

これが大企業のCIOのあるべき姿だと思います。


②会見における各社記者の質問

ここ最近では、記者の質問が騒動の本質とは無関係であったり、

稚拙だったりすると、記者が叩かれる世の中です。

今回はどうであったのか?

いくつか例を挙げて分析してみましょう。

◇日経新聞の質問要約
  • この故障の原因は何か
  • サイバー攻撃ではない根拠は何か
  • 何故バックアップが働かず、終日取引停止に至ったのか
  • 今回の事象を踏まえ経営者にどのような責任があると考えるか

こんなところですかね。特に違和感はありません。

経営責任までは言及されないにしても、一般的なシステム障害でも同様の質問は想定されます。

◇テレビ東京の質問要約
  • 取引停止による海外投資家への影響や投資家からの反応について
  • 今後どのような影響が発生しうるか

テレビ東京さんはかなり投資家目線で、投資家が気になっていることを重点的に質問しているように感じました。

これも、「誰に向けて伝えたいのか」明確ですね。

◇NHK
  • 共有ディスク装置とは、アローヘッドの中にあるのか
  • アローヘッドのシステムに障害は発生したという理解で正しいか

質問の意図が判りませんでした。

本質的な回答を引き出し、視聴者に伝えることが記者・メディアに求められることとダイエット夫は考えています。

システム障害は専門家でないと理解が困難ではありますが、そんな中でも

ちょっと本質からズレていると感じますね。。

◇NewsPicksの質問要約
  • 共有ディスクのメモリにはどのような情報が保存されるのか

せめてググるか、IT専門家を会見の場に連れてくるべきでしたね。

限られた会見の時間を費やす質問ではないと思いました。


③ITエンジニアへお勧め書籍

今回、共有ディスク装置の障害が原因でシステム停止に至ったわけですが

共有ディスク装置(ストレージ)は、システムの中枢と言っても過言ではないでしょう。

あなたがこれからエンジニアを目指す、あるいは既にエンジニアであるがインフラストラクチャーの基礎を改めて習得したい

という方でしたら、下記の書籍はメチャメチャお勧めです。

世界三大ストレージメーカーの一つであるEMC(現Dell EMC)社のシニアディレクター著の書籍です。

ストレージアーキテクチャの解説ストレージへのデータ保管のあるべき姿

データセンター全体の環境を構築するために必要なノウハウが詰まっています。

恐らくバイブルとなるレベルですので、ご一読ください。

コメント




タイトルとURLをコピーしました