Microsoft 365 大規模障害のレポートが更新されたようです

Microsoft 365 管理センターに上がっていた 2023 年 1 月 25 日に発生した問題のレポートが最新化されていました。今回はこの内容を見ておきたいと思います。

前に見た時は途中更新ということで Microsoft 内で利用しているネットワークルーターの IP 情報更新が連鎖して障害になった。というような内容でした。

今回の更新では、 Microsoft 365 の機能の状態がどのように遷移したかわかるようになっています。

上記のレポートからダウンロードした Post Incident Report For Microsoft 365 を見ていくと、まず SharePoint に関するアクセス状況が。 7:08 AM UTC に問題が発生したことが見て取れますね。他の週に比べて著しくアクセス数が少なくなったという見え方をしています。

続いて Exchange Online のトラフィックです。こちらも同じ時間帯から落ち込んだことが分かります。

更に接続方法によって復帰までの時間が異なっているというようなこともチェックしているようです。

MAPI 接続の Outlook (アプリからのアクセス)が早期に戻っていることが分かります。

Teams は面白い動きをしており、認証は早い段階で動くようになり、 8 時過ぎにまたアクセスできなくなるという感じになっていたようです。

残念ながらこの動きになった理由までは解説されていませんでした。

こういった情報がまとめられるのはテレメトリー情報を常時取得するという運用が回っているからこそできることですね。

こういった情報はスクラッチ開発していると忘れがちになっちゃうんですよね。クラウドを活用する理由としてこういう面も見ておくと良いのかもしれません。

というわけでレポートの内容を見ていきましたが、最近 Microsoft 365 の障害が増えている感じがしますね。

新しい機能を追加する前兆だと思うので、うまく対応してもらいたいところですが、こういった経験を繰り返すことで大規模な問題の発生を抑えていってくれればと思います!

音楽:MACHINE SOLDIER