首頁 > AI資訊 > 最新資訊 > 阿里云時隔一年再現(xiàn)大規(guī)模故障云廠商宕機事故頻發(fā)

阿里云時隔一年再現(xiàn)大規(guī)模故障云廠商宕機事故頻發(fā)

新火種    2023-11-14

  2023年雙十一剛剛落幕,阿里云故障導(dǎo)致阿里系A(chǔ)pp(小寫)全線“崩”上熱搜,涉及到阿里云盤、淘寶、咸魚、釘釘、語雀等等產(chǎn)品。

  阿里云官網(wǎng)通告顯示,故障開始于11月12日傍晚,持續(xù)時長約3個半小時。

  17:44分,阿里云監(jiān)控發(fā)現(xiàn)云產(chǎn)品控制臺訪問及API調(diào)用出現(xiàn)異常,阿里云工程師正在緊急介入調(diào)排查。

  17:50分,阿里云已確認(rèn)故障原因與某個底層服務(wù)組件有關(guān),工程師正在緊急處理。

  18:54分,杭州、北京等地域控制臺已經(jīng)恢復(fù),其他地域控制臺服務(wù)逐步恢復(fù)中。

  19:20分,工程師通過分批重啟組件服務(wù),絕大部分地域控制臺及API服務(wù)已恢復(fù)。“19:20左右,經(jīng)工程師緊急處理,阿里旗下淘寶、釘釘、阿里云盤等App(小寫)已全面恢復(fù)。”隨后阿里集團(tuán)方面回復(fù)南都記者稱。

  19:43分,異常管控服務(wù)組件均已完成重啟,除個別云產(chǎn)品(如消息隊列MQ、消息服務(wù)MNS)仍需處理,其余云產(chǎn)品控制臺及API服務(wù)已恢復(fù)。

  20:12分,北京、杭州等地域消息隊列MQ已完成重啟,其余地域逐步恢復(fù)中。

  21:11分,受影響云產(chǎn)品均已恢復(fù),因故障影響部分云產(chǎn)品的數(shù)據(jù)(如監(jiān)控、賬單等)可能存在延遲推送情況,不影響業(yè)務(wù)運行。

  11月13日上午,南都記者查詢阿里云官網(wǎng)顯示,阿里云11月12日故障受影響地域包括:華北2 (北京)、華北6 (烏蘭察布)、 華北1 (青島)、華東2(上海)、華南2(河源)、華北3(張家口)、中國香港、印度(孟買)、美國(硅谷)、華南1(深圳)、英國(倫敦)、韓國(首爾)、日本(東京)、阿聯(lián)酉(迪拜)、西南1 (成都)、華南3 (廣州)、新加坡、澳大利亞 (悉尼)、馬來西亞(吉隆坡)、 華北5 (呼和浩特)、 印度尼西亞(雅加達(dá))、美國 (弗吉尼亞)、菲律賓 (馬尼拉)、泰國(曼谷)、華東1(杭州)、華南1金融云。

  此次故障影響了計算、容器、存儲、網(wǎng)絡(luò)與CDN、安全、中間件、數(shù)據(jù)庫、大數(shù)據(jù)計算、人工智能與機器學(xué)習(xí)、媒體服務(wù)、企業(yè)服務(wù)與云通信、物聯(lián)網(wǎng)、開發(fā)工具、遷移與運維管理等產(chǎn)品線內(nèi)的上百個產(chǎn)品及服務(wù)。

  故障涉及到的產(chǎn)品及服務(wù)。

  這不是阿里云首次出現(xiàn)大規(guī)模故障。2022年12月18日,阿里云香港機房制冷設(shè)備故障,導(dǎo)致多個香港及澳門的站點受到影響,宕機時間超過10個小時。

  據(jù)澳門司法警察局發(fā)布消息,“由于阿里云的香港機房節(jié)點發(fā)生故障,導(dǎo)致澳門金融管理局、澳門銀河、蓮花衛(wèi)視、澳門水泥廠等關(guān)鍵基礎(chǔ)設(shè)施營運者的網(wǎng)站、澳覓和MFood等外賣平臺以及澳門日報等本地傳媒應(yīng)用程式,自今天(18日)中午開始暫時無法訪問使用。 ”

  2022年12月25日,阿里云發(fā)布《關(guān)于阿里云香港Region可用區(qū)C服務(wù)中斷事件的說明》,復(fù)盤了該事件的處理過程、服務(wù)影響、問題分析以及改進(jìn)措施等。涉及到的問題包括:冷機系統(tǒng)故障恢復(fù)時間過長、現(xiàn)場處置不及時導(dǎo)致觸發(fā)消防噴淋、客戶在香港地域新購ECS等管控操作失敗、故障信息發(fā)布不夠及時透明。

  “最后,我們要向所有受到故障影響的客戶公開致歉,并盡快處理賠償事宜。此次香港Region可用區(qū)C服務(wù)中斷事件,對很多客戶的業(yè)務(wù)產(chǎn)生重大影響,也是阿里云運營十多年來持續(xù)時間最長的一次大規(guī)模故障。”阿里云在公告中表示。

  值得關(guān)注的是,這一事故10天后,阿里云發(fā)生組織變動,張建鋒不再主管阿里云智能,外界猜測與阿里云香港區(qū)域部分服務(wù)故障事件相關(guān)。

  除了阿里云機房故障引發(fā)大面積宕機之外,2023年3月底,微信、QQ等業(yè)務(wù)也曾出現(xiàn)大面積功能異常,涉及到微信的異常包括語音呼叫、賬號登錄、朋友圈以及支付在內(nèi)的多個功能無法正常使用,QQ文件傳輸、QQ空間、QQ郵箱等也同樣出現(xiàn)問題。

  騰訊客服官方微博于3月29日凌晨3點30分發(fā)布消息稱,由于系統(tǒng)故障,部分用戶使用微信支付相關(guān)功能出現(xiàn)異常,當(dāng)天上午10點50分,騰訊微信團(tuán)隊宣布,微信、微信支付相關(guān)功能已恢復(fù)。

  據(jù)媒體報道,此次事故由廣州電信機房冷卻系統(tǒng)故障導(dǎo)致,騰訊將其定義為公司一級事故,多個管理層因此受到通報批評和處罰。

  4月12日,工業(yè)和信息化部信息通信管理局聽取騰訊公司關(guān)于“3·29”微信業(yè)務(wù)異常情況匯報,要求騰訊公司進(jìn)一步健全安全生產(chǎn)管理制度、落實網(wǎng)絡(luò)運行保障措施,堅決避免發(fā)生重大安全生產(chǎn)事故,切實提升公眾業(yè)務(wù)安全穩(wěn)定運行水平。

  下一步,工信部將統(tǒng)籌發(fā)展和安全,持續(xù)加大信息通信行業(yè)安全生產(chǎn)監(jiān)管力度,指導(dǎo)電信業(yè)務(wù)經(jīng)營者嚴(yán)格落實主體責(zé)任、完善保障措施、強化事故應(yīng)急處置能力,以高水平網(wǎng)絡(luò)運行安全保障信息通信行業(yè)高質(zhì)量發(fā)展。

(文章來源:南方都市報)

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章