2023 年 10 月 11 日は久々に大きめな問題が Microsoft 365 内で発生していました。
実は同日、全銀ネットで大規模障害が発生していたためか、あまり大きな話題になっていない感があります。
しかしながらかなり影響が大きい問題で、なんと外部メールの受信が行えなくなるという内容だったんですよね。
というわけで、今回の問題は Microsoft 365 管理センターの正常性ダッシュボード上に日本語で案内が行われていました。今までのマイクロソフトは障害などでもまずは英語で情報提供を心掛けていたように思えたのですが、このスピード感はすごいですね。
というわけでメール受信の遅延となっています。内容を見てみると、、、
最初の発生は 10 月 11 日 13:00 過ぎですね。メールが受信できていなさそうという一報です。
その次の更新は 30 分後でトラブルであるということを明確化しています。
続く更新では、 SQL に問題がある。そのためパフォーマンス異常が発生した。というところまで確認されています。ここまで 2 時間という感じです。
次は一気に時が進み 2 時間半後の 18 時に更新されています。
スパムメールの IP チェックが異常になったというところまで解析が進みました。
やっぱり早いですね。この速度での問題解決は利用者視点でサービスを回す情シス部門などでは太刀打ちできない感が強いです。
そして 21 時の更新はさらに白熱しており、 IP アドレスでスパム判定する個所の問題と断定できたので、スパム判定されていた IP を手動でバイパスルーチンに入れるという荒業で対処しています。
この判断は一刻も早く暫定でも対処していこうという気概で素晴らしいですね。
さらにパッチの手配もすんでいるという周到さです。
そしてその 2 時間後にはパッチがテスト段階まで来ています。
Dev Ops という概念があるのでこの素早さにつながるのでしょう。やっぱり単体テストを自動化しているのかと思いますが、こういった考え方が重要であることが身に染みてきます。
とはいえ開発には失敗がつきものです。
最初に作成したパッチはテストを通らなかったようで、リリースに至りませんでした。
ただ、パッチを再改修して解決を試みる模様。
あとはテストプログラムが通るモジュールにするだけなので、比較的早い段階で解決しそうな予感がしますね。
こういった途中の状況でも、更新間隔を決めてアップデートしてくれるのはうれしいですね。状況が分かれば安心感も増してきます。
そして、問題発生から 12 時間半がたったところで修正が完了ということで案内が入りました。メールの受信不可から判明したスパム判定ツールの問題でしたが、すべてを自社開発している Microsoft ならではの早業だったのかと思います。
運用保守を行うときはこのスピード感を見習いたいですね。
最近は年数回という程度しか大きな問題は発生しなくなっていますが、だれが運営してもこういった問題は発生しうるので、早期の解決を目指すという姿勢を買いたいところです。
SaaS を活用する利点としてもこのスピード感は捨てがたいサービスですね!
音楽:洪水物語