4/6 RCA – Azure Active Directory – 認証エラー (日本語抄訳)

Published: / Last update: / Contributors:
feedback 共有

Note

本記事は Technet Blog の更新停止に伴い https://blogs.technet.microsoft.com/jpazureid/2018/04/17/20180406-rca-azure-ad/ の内容を移行したものです。

元の記事の最新の更新情報については、本内容をご参照ください。

いつも Azure Identity サポート チームのブログを参照いただきましてありがとうございます。

今回は 4/6 に発生しました Azure Active Directory の障害についての RCA (Root Cause Analysis) レポートの日本語版の抄訳をご紹介します。

この障害では Azure / Office 365 ポータルへのサインインができないことをはじめ、障害の対象となりましたテナントで多大な影響が生じました。

改めてですが、今回の障害により多くのお客様にご迷惑をお掛けしましたことを深くお詫び申し上げます。

4/6 RCA - Azure Active Directory - 認証エラー

影響の概要:

2018 年 4 月 6 日の 8:18 から 11:25 (UTC) (日本時間同日の 17:18 から 20:25) の間で、アジア、オセアニア、ヨーロッパの各地域を主として Azure Active Directory (AAD) を認証基盤として利用しているリソースへのアクセスに問題が生じました。

これは AAD 内の 2 つのスケール ユニットで生じた誤ったデータ マッピングが原因です。

結果として AAD による認証に問題が生じ、全世界のテナントのうち約 2.5 % のテナントで影響が生じました。

障害が生じた期間では、 AAD を利用する Azure のサービスに影響が生じましたが、具体的には次のようなサービスで問題が発生した可能性があります。

  1. バックアップ: 新しいコンテナーの登録およびバックアップ/リストア操作の失敗
  2. StorSimple: 新しいデバイス登録の失敗と StorSimple の管理/通信の失敗
  3. Azure Bot サービス: ボットが応答しない
  4. Visual Studio Team Services: 実行時間の長期化と複数の地域における AAD トークン取得の失敗
  5. メディアサービス: 認証の失敗
  6. Azure Site Recovery: 新規登録と VM 複製の失敗

Azure 以外でも Azure AD を利用する他の Microsoft サービスについても影響が生じました。

影響が生じたサービスについては、それぞれ各サービスの観点から障害レポート等の形で情報を公開します。

根本的な原因と緩和策:

AAD のデータ ストレージ サービスへの最新の更新に不具合が存在しており、その更新が適用されたスケール ユニットでは、AAD が格納しているオブジェクトを誤った場所に移動してしまうという問題が生じました。

このオブジェクト移動という変更処理が、スケール ユニット内の各レプリカにも反映され、結果として Azure AD のフロントエンドのサービスが、移動されたオブジェクトにアクセスすることができず、認証やプロビジョニングの要求に失敗しました。

データ ストレージ サービスへの最新の更新適用は段階的に展開されていたため、問題の影響は 2 つのスケール ユニットのみで生じました。

影響が生じていた期間中、影響を受けたスケール ユニットでは認証とプロビジョニングの失敗が生じ、これは全体の約 2.5 % のテナントで認証失敗が生じていたことになります。

タイムライン:

  1. 08:18 UTC (17:18 日本時間) - アジア太平洋およびオセアニアのテナントで Azure Active Directory の認証にエラーが生じました。
  2. 08:38 UTC (17:38 日本時間) - 自動アラートにより、APAC およびオセアニア地域のインシデントについてエンジニアに通知されました。
  3. 09:11 UTC (18:11 日本時間) - ヨーロッパのテナントで Azure Active Directory の認証にエラーが生じました。
  4. 09:22 UTC (18:22 日本時間) - 自動アラートによりヨーロッパのインシデントについてエンジニアに通知がされました。その前のアラートを受け、この時点でエンジニアは既に調査を開始していました。
  5. 10:45 UTC (19:45 日本時間) - 問題が特定され、エンジニアが問題を緩和 (回避) するため手順の検証を開始しました。
  6. 11:21 UTC (20:21 日本時間) - 影響を受けたスケールユニットに対して回避策を実施しました。
  7. 11:25 UTC (20:25 日本時間) - 回避とサービス復旧が確認されました。

次のステップ:

今回の障害がお客様に及ぼした影響を認識しております。

ご迷惑をお掛けしましたことをお詫びさせていただくことに加え、将来的にこのようなインシデントが発生しないように、Microsoft Azure Platform と私たちのプロセスを改善することをお約束します。

今回の場合には、次のことが含まれます(ただしこれに限定されません)

  1. 問題を引き起こした更新版を含むデータ ストレージ サービスを実行するレプリカを分離し、利用されないようにします [完了済み]
  2. 不具合を修正した更新を開発し、導入する予定です [進行中]
  3. 検出システムを改善し、誤った場所へのデータ オブジェクトの予期しない移動を検出します [進行中]
  4. データ オブジェクトが格納される場所の変更が生じた場合に、影響を排除するためにデータ ストレージ サービスによる回復性を向上させる更新を実施します [進行中]

※本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。