PAGE TOP

関連情報

印刷する

自治体クラウド大規模障害

さぼ郎
12月4日に発生した日本電子計算の自治体向けクラウドが大規模障害を起こし、だいぶ処置が進んだものの、まだ一部は復旧していないとのこと。

img01

仮想環境で1318の仮想OSが稼働していたとのこと。これらの仮想環境は、おそらくオン・メモリーでの動作と思います。仮想環境事態が停止すれば仮想OSで動いていたアプリも飛んでしまうでしょう。

バックアップから復旧するとのことですが、単純に復旧できるわけでもなく15%は消失するとのこと。

こんな情報が2019年12月中旬のこと。

同じく2019年8月23日にアマゾンのAWSで大規模障害が発生しました。これ、実はワードクラフトが提供している文書管理システムが引っかかりました。

img02

金曜の午後から接続ができなくなり、夜まで使用ができませんでした。開通してからデータベースに接続しようとしても接続ができず、結局、判断としてデイリーとっているバックアップデータから復旧することにしました。

となると、早朝にバックアップしているので午前中の作業が消失することとなります。ユーザーの操作ログをとっているので、操作した人には、お詫びとやり直しの依頼を事務局を通じてお願いしました。

データベースはダウンのタイミングで破壊された可能性を否定できません。

AWSは拠点を「リージョン」と呼び、そのリージョンを更にいくつかに分散して稼働しているようです。それを「AZ」と呼ぶのだそうですが、そのいくつかのAZが加熱で停止したのだそうです。

アマゾンに言わせれば複数の「AZ」もしくは「リージョン」に二重化すれば被害は食い止められたという言い分のようです。

ワードクラフトがホームページで使用しているのは月額500円のさくらインターネットのサーバーであるが、いままで1回も大規模障害が起きたことがないし、活では自社内にサーバーを5台も立てていたときも1台も故障したことがないけれど、だからといってアマゾンAWSよりも安全だとは言えない。

自治体向けクラウドサービスが停止したのは、これは企業のサービスとしては致命的であると言える。まぜなら、対象とする顧客が自治体であるという性質上、どれだけの安全策を取るかに盲点があったから、このような事態を招いている事は間違いがない。
すべての領域で常に障害が起きない、ということはありえない。ならば、自動復旧システムを用意し、わざとエンジニアがいる時間帯に障害を細かく「起こし続け」て、対処を継続していくことで、自動復旧システムの稼働状態を確認・維持し、エンジニアがいない時間帯にトラブルが起きた時にも、自動復旧が可能にしておくのだ。
こうしたエンジニアリングがあるとのこと。「カオスエンジニアリング」というのだそうだが、何が起きても自動復旧する仕組みを想定しておくことが必要ということ。

img03

アマゾンAWSでいうなら複数のリージョンと複数のAZに分散し、データは二重化し、バックアップも二重化しログも詳細なログを取り、ログから復元できるような仕組みも組み込んでおくような必要性があった。

自治体情報を扱う以上は、セキュリティ対策も重要で、想定しうる攻撃への対処も常に自動防御できる対策が不可欠である。

今回のハード障害で、それでもこのようなドタバタをやっているようでは、セキュリティも甘いのに決まっている気がする。60もの自治体や団体が1社のクラウドで扱われているということは、当然、攻撃の的にされるのは必定である。

昔の話であるが、社内にサーバーを立ててハードディスクを2重化しておいた。が、ある時、サーバーがシャットダウンしてしまった。その理由は「2つのハードディスクに矛盾が起きた」というもの。

有り得る話だかけれど、では、どっちのサーバーのデータが異常なのかがわからなければ仕方がないこと。その時以来、デュプレックスは無駄と思った。

せめて3重化して矛盾が起きたら2対1を見つけて「1」を排除するようなロジックを組み込むべきと思う。

そんな中、政府主導で自治体情報システムの標準化を推進しようという動きが出てきたとのこと。

img04

こんなことにお金をかけるなら、エストニアでもやっているブロックチェーンでの自治体情報システムを模索するべきと思うが、これだと利権も生まれないし、お金もかけられないから喜ぶ人は少なさそう。

キーワード