VMware 無法完成設定HA Cannot complete the HA configuration error

VMware 無法完成設定HA Cannot complete the HA configuration error

最近VMware VCenter發生有一台虛擬機當機導致整個VMware VCenter動作緩慢,檢查下來發現其中一台Host OS連結後端Storage都是有問題的,不過在那一台Host OS或Guest OS要關機,皆是出現In program無法繼續進行,所以索性在Host OS強制重新開機,那所有Guest OS就跑到其他的Host OS主機上囉,那接下來就是等重新開機再將Guest OS移轉回去,結果重新開機完後,發現該Host OS沒有加入HA,那就將他再次加入,那VMware VCenter就會開始HA,結果5分鐘過後馬上就錯誤了,如下圖所示,不過初步判斷應該問題出現該Host OS的HA Agent無法啟動或無法安裝之類的問題,不過重複做HA兩三次都無法成功,不過就想想說剛剛是不正當關機,所以就再次重新開機,重新開機後,再次將該Host OS加入HA,結果HA Agent就真的有再重新安裝,不過還是無法啟動,所以就針對這兩個錯誤逐步排解

2011-5-11 上午 10-02-19

第一個錯誤:

【HA agent on 192.168.15.60 in cluster 4.1 Cluster in v4.1 has an error:  Cannot complete the HA configuration error】

這一個錯誤是說無法HA的意思,那查詢一下相關說明後,發現在做HA的時候,Host OS每一台都需要超過2GB的記憶體才可以正常加入,那我的環境就真的每一台使用到快不夠用了,幾乎都低於2GB,所以先將每一台Host OS上不重要的Guest OS關閉,讓Host OS記憶體都可以達3GB以上,之後再重新做HA,發現有些改善不過還是無法加入成功,所以接下來處理第二個錯誤。

第二個錯誤:

【HA agent has an error : cmd addnode failed for primary node: Internal AAM Error - agent could not start. : Unknown HA error】

第一個錯誤處理完後,那這個錯誤在VMware的KB:Troubleshooting VMware High Availability (HA)有寫到,意思就是說HA加入中,會解析FQDN名稱,若是無法查詢就無法加入,那這點就跟MS SQL Server Cluster有點類似,那我檢查了一下Host OS所設定的DNS,該DNS Server主機是沒有任何資料,所以就加入資料,再次重新做HA結果還是失敗,不過有試過可以解析的,那就疑惑為什麼還是有問題,所以索性類似修改Windows的hosts檔案,那ESX也是Linux一種,所以也會有hosts,那位置就在/etc/hosts,那hosts裏面會有幾筆資料,只要留下127.0.0.1及localhost,其他的先刪除,再加入所有HA內的Host OS,結果OK了。

大致上這次故障就是這樣解決

參考資料:

http://www.weithenn.org/cgi-bin/wiki.pl?VMware_HA_FT

http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1001596

 

Jerry_IT 周伯恆 2010 ~2016 Microsoft® MVP Award
部落格:http://www.dotblogs.com.tw/jerry710822