Microsoft 365 大規模障害の詳細が徐々に明らかになってきました

2020 年 9 月 29 日頃に Microsoft 365 上で大規模な障害が発生しました。
ユーザー影響は、 Azure AD にログオンできなくなるというものでしたが、発生時にログオンしていなかった場合、どの機能も利用できなくなるという状況でした。

結局 5時間 程度で解消されたのですが、そのレポートが管理センターのサービス正常性に上がってきていました。

以下のようにサービスの正常性の履歴から確認することができます。

f:id:mohessu:20201002021038p:plain

状態が「インシデントの事後レポートを発行済み」となっている MO222965 が対象ですね。
インシデントの事後レポートをダウンロードリンクが押せるようになっています。
f:id:mohessu:20201002015828p:plain

これを押下すると Word の文書がダウンロードでき、その内容を見ることができます。

今回の原因は Azure AD の更新リリースに失敗したのが原因となっていますね。
通常は 5重 の段階リリースのところ、段階を経ることなくすべての段で同時リリースとなった。とのこと。さらに自動ロールバックが動作したところ、ロールバックの仕組みにも問題があり、うまく戻らずに時間が掛かってしまった。という流れのようです。

f:id:mohessu:20201002020449p:plain

絵にかいたような、、、笑
というか IT 系ではよく聞く話なので他人事には思えないのですが、マイクロソフトでも「戻す」というものをうまく動かせない。という教訓を得たのは大きいかもしれません。

今後はこの 4半期 中にロールバックシステム(デプロイシステム)のバグフィックスと Azure AD のバックアップシステムの構築がなされるようです。
この迅速な対応は中々かと。

f:id:mohessu:20201002020519p:plain

このレポートは英語での提供なのですが Word 形式なので翻訳ツールで日本語化できます。日本語で確認したい場合は、以下のページを参考に、翻訳機能を利用してみてください。

https://support.microsoft.com/ja-jp/office/287380e4-a56c-48a1-9977-f2dca89ce93f?WT.mc_id=M365-MVP-5002496

f:id:mohessu:20201002022158p:plain

音楽:Car 24