2023 年、特に今年は Azure および Microsoft 365 の厄年なのかもしれません。
今度は 2 月 8 日に発生した障害をチェックしていきたいと思います。
今回の障害は Teams などにサインインできなくなるというものでした。 1 月に発生した問題はネットワークのルーティングテーブル書き換えで多数の機能が停止する事態に陥っていましたが、今回も同様に大規模障害だったようなので、何が起きたのかチェックしてみました。
( 2 日もすると Microsoft 365 管理センターのサービス正常性に問題の概要が上がってくるスピード感が素晴らしいですね。)
それを見ると、電源サージが発生して Azure のデータセンタートラフィックをさばけなくなったというように見えます。
今回この発覚まで、発生から 10 時間程度たっていました。
おそらくサージ発生ということなので、動いてはいるのだけどエラーを多発するといったケースの問題だったのではないかと推測できます。
その後の投稿では、クーリングシステムを再起動した。要はクーラーが停止していたといったことが発生しているように見受けられます。(もしかしたらもっと細かいヒートシンクと一体化されたファンなどの冷却装置なのかもしれません。)
その後順調に電源投入後のフローが正常に動いていき、翌日には復旧完了という流れだったようです。
しかしながら、電源を入れなおした後は 12 時間程度かけ徐々に復旧するという形だったとか。やっぱりデータセンターの火入れは時間がかかるんですね。
データセンターに問題が起きてしまうと、影響範囲が広くなるのは仕方ないのですが、その規模の問題でもこうして半日から 1 日程度で復旧で切るとなると、やっぱりクラウドの利用は積極的に行っていくくべきと感じますね。
停止がきつい場合はマルチクラウドというのも最近は出てきていますが、費用対効果の面では代替策としては弱いところですよね。
この辺りはオンプレとのハイブリッドをうたうマイクロソフトならではの対応策を示してほしいですね!
音楽:遊園地