微軟Azure云服務故障超過24小時,原因竟是——被雷劈了

為促進社區發展,運維派尋求戰略合作、贊助、投資,請聯系微信:helloywp

9 月 4 日,微軟在美國中南部地區的圣安東尼奧數據中心由于雷電天氣影響導致電壓激增,數據中心的冷卻系統發生故障。為保證數據和硬件完整性,數據中心的自動化措施強制關閉了系統電源以防止機器因過熱造成損壞。這一事故引發了 Azure 中斷,Office 365 以及 Azure Active Directory 服務都受到影響,并且恢復相關存儲服務經歷了很長時間。

故障從 9 月 4 日上午 9 點(北京時間 9 月 4 日 17:00)左右開始出現問題,到 9 月 5 日 13 點左右(北京時間 9 月 5 日 21:00 左右),微軟大多數受影響服務的存儲可用性已經恢復,整個故障中斷時間超過 24 小時。

跟蹤服務中斷的 DownDetector.com 網站顯示 Azure 服務中斷主要位于德克薩斯州:

Azure 官方推特 Azure Support 讓用戶查看 Azure 狀態頁面,但是 Azure 服務中斷甚至影響到該頁面也一度無法訪問。Azure Support 將事故稱為“網絡問題”,并表示中斷只會影響美國中南部的客戶,但是很多用戶表示中斷已經影響了包括西歐、亞洲在內的其他地區。

Azure Support 在對用戶的回復中澄清了為什么其他地區會受到影響:“在某種程度上,我們所有的數據中心都是相互聯系的。因此,如果一個數據中心出現故障,它將轉移到其他數據中心。此外,在歐洲的客戶可能會在受影響的數據中心托管一些資源。“

包括 Office 365 和 VSTS (Visual Studio Team Services)在內的近 40 個 Azure 服務受到影響。根據 Office 365 的公告,Office 365 用戶遇到的問題類型如下:

  • Exchange – 某些用戶可能無法訪問網頁上的 Outlook。 通過其他協議進行的電子郵件訪問則有可能不受影響。
  • Power BI – 用戶可能收到“服務器不可用”錯誤或可能無法登錄。
  • SharePoint – 大多數影響已得到緩解,但一部分用戶可能無法進行更改或更改無法保存。
  • Microsoft Teams – 用戶可能無法訪問 Teams 的 Office 文檔。
  • Intune – 受影響的用戶可能無法訪問 Intune 門戶或其他功能。

根據 VSTS 的公告,這次中斷影響了使用微軟 Visual Studio Team Services 的開發人員,導致他們無法訪問帳戶,報告儀表板也無法加載。

根據 Microsoft Dynamics 公告,這次中斷還影響了 Azure Active Directory,Microsoft Dynamics Finance 以及 Operations 和 Lifecycle Services 的用戶。

9 月 5 日,Azure 狀態更新中表示,工程師正在優先恢復存儲資源,以便恢復依賴于這些受影響資源的所有服務,但是恢復過程需要一段時間。到北京時間 9 月 5 日晚 9 點左右,大多數受影響的服務已經恢復。

到底應該怎么上云?

此次 Azure 服務中斷時間長,影響較大,又引發了大家對上云風險的討論。

VSTS 一整天都用不了,這是個很嚴重的問題。有用戶說:

我無法相信 Azure 仍在癱瘓。昨天整天我都無法訪問美國中南部地區的資源。整個區域的服務中斷可能會持續 24 小時的事實將使我的團隊認真考慮轉向 AWS。如果我們的服務中斷 5 分鐘,我們的客戶會很生氣。我甚至不想去想如果因為一些完全不受我們控制的事情而宕機一整天會發生什么。

討論中也有這樣的疑惑:

區域性中斷應該不會拖垮那么多服務,地理冗余在哪里?

雖然很多細節都圍繞在具體是哪里的冷卻系統發生了故障,Azure 這次的服務中斷可以讓大家認識到可用區(AZ,availability zones) 的重要性。AZ 能讓使用云服務的用戶在給定云計算區域內的幾個獨立建筑周圍分散工作量,以期避免單個數據中心會帶來的問題。

AZ 的設置直到去年才成為微軟基礎設施戰略的一部分,并且目前微軟只向全球 54 個區域中的三個地區推出了 AZ(美國東部 2 區和東南亞地區可作為預覽)。

上云本來是要防止這些基礎設施問題的,但是不要忘了,即使 99%的 SLA 也意味著一年 365 天大約可以有 4 天不在線。所以很多公司會提到 99.9% 和 99.99%,當以年為單位來看,小數點后面的位數也不可小覷。公有云提供的高度冗余意味著公司需要在全國各地擁有為站點提供服務并充當備份的私有數據中心。很多公司連建立這么多數據中心的預算足都不足,更不用說額外的維護成本了。

Mimecast 的網絡彈性專家 Pete Banham 說:“今天在 Azure 發生的事件再次提醒企業需要建立自己的冗余,而不是依靠單一的供應商。所有公司(包括 Microsoft)都需要考慮由于技術故障或人為錯誤而導致關鍵服務故障可能產生的下游影響。服務總是會有失敗的時候,IT 領導者們需要確保自己沒有將責任外包給單一的云服務。”

網友評論comments

發表評論

電子郵件地址不會被公開。 必填項已用*標注

暫無評論

Copyright ? 2012-2019 YUNWEIPAI.COM - 運維派 - 粵ICP備14090526號-3
掃二維碼
掃二維碼
返回頂部
街机电玩捕鱼抢红包 时时彩0369玩法解析 江西老时时 快乐时时彩是哪里开的 澳门21點赢钱 天津快乐十分前三组开奖结果 体彩20选5中3个号多少钱 时时彩开庄机器人出租 极速时时是正规的吗 白小姐心水42858 虎途app官网下载