2020 年 9 月 29 日頃に Microsoft 365 上で大規模な障害が発生しました。
ユーザー影響は、 Azure AD にログオンできなくなるというものでしたが、発生時にログオンしていなかった場合、どの機能も利用できなくなるという状況でした。
結局 5時間 程度で解消されたのですが、そのレポートが管理センターのサービス正常性に上がってきていました。
以下のようにサービスの正常性の履歴から確認することができます。
状態が「インシデントの事後レポートを発行済み」となっている MO222965 が対象ですね。
インシデントの事後レポートをダウンロードリンクが押せるようになっています。
これを押下すると Word の文書がダウンロードでき、その内容を見ることができます。
今回の原因は Azure AD の更新リリースに失敗したのが原因となっていますね。
通常は 5重 の段階リリースのところ、段階を経ることなくすべての段で同時リリースとなった。とのこと。さらに自動ロールバックが動作したところ、ロールバックの仕組みにも問題があり、うまく戻らずに時間が掛かってしまった。という流れのようです。
絵にかいたような、、、笑
というか IT 系ではよく聞く話なので他人事には思えないのですが、マイクロソフトでも「戻す」というものをうまく動かせない。という教訓を得たのは大きいかもしれません。
今後はこの 4半期 中にロールバックシステム(デプロイシステム)のバグフィックスと Azure AD のバックアップシステムの構築がなされるようです。
この迅速な対応は中々かと。
このレポートは英語での提供なのですが Word 形式なので翻訳ツールで日本語化できます。日本語で確認したい場合は、以下のページを参考に、翻訳機能を利用してみてください。
音楽:Car 24