IT之家 11 月 1 日消息,科技媒體 BornCity 昨日(10 月 31 日)發佈博文,報道稱微軟近期為 Azure Local 發佈解決方案更新 2510(版本號 11.2510.1002.87),導致集羣系統頻繁出現錯誤代碼為 0x139 的藍屏死機,大約每 20 小時崩潰一次。
IT之家注:Azure Local 是微軟提供的一種混合雲解決方案。它允許企業在自己的數據中心或本地服務器上運行一部分 Azure 雲服務,就像在本地擁有一個迷你的 Azure 站點一樣,特別適用於需要低延遲或數據本地化處理的場景。
微軟於 10 月下旬為 Azure Local 發佈的解決方案更新 2510,在部分生產環境中引發了嚴重的系統穩定性問題。
一名為醫療保健行業提供服務的 IT 技術人員報告稱,在為一個客戶的 Azure Local 集羣系統安裝該更新(版本 11.2510.1002.87)後,所有主機節點開始頻繁遭遇藍屏崩潰,系統顯示的錯誤檢查代碼為 0x139。
這次事故對該醫療客戶造成了巨大沖擊。據報告,系統藍屏大約每 20 小時發生一次,導致承載着約 100 臺虛擬機的多個主機節點相繼宕機。
對於分秒必爭的醫療系統而言,這種「超級災難(Super-GAU)」級別的故障無疑是致命的。技術團隊在事故發生後立即嘗試更新所有驅動程序和 BIOS,但未能解決問題,系統崩潰依舊持續,根本原因一度不明。
在本地排查無果後,技術團隊攜帶小型轉儲文件(Minidump)聯繫了微軟官方支持。支持部門確認,錯誤代碼 0x139 是一個已知問題,其根源在於 2510 更新本身包含的一項錯誤變更。
為解決此問題,微軟提供了一個註冊表修復命令,用於禁用該錯誤功能。在收到多個問題報告後,微軟最終正式撤回了版本號為 11.2510.1002.87 和 12.2510.1002.88 的 Azure Local 更新。
regaddHKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Policies\Microsoft\FeatureManagement\Overrides/v556278415/tREG_DWORD/d0/f
官方發佈說明指出,正在對兩個問題進行調查:一是更新後節點平臺版本不匹配的錯誤;二是 Hyper-V 套接字存在一個可能導致節點崩潰的問題。