VMware虛擬化遷移常見(jiàn)問(wèn)題診斷與修復(fù)
遷移是虛擬化技術(shù)的基本福利,允許服務(wù)器之間無(wú)縫遷移虛擬機(jī),而不會(huì)出現(xiàn)任何性能影響。遷移已經(jīng)是數(shù)據(jù)中心中必不可少的工具,從服務(wù)器工作負(fù)載平衡和故障排除,到日常的繁瑣工作如服務(wù)器維護(hù),都需要用到遷移技術(shù)。但是遷移并不總是無(wú)縫的。常見(jiàn)問(wèn)題包括服務(wù)器配置監(jiān)督、服務(wù)器間硬件不兼容、不必要的專(zhuān)用硬件、缺少網(wǎng)絡(luò)訪(fǎng)問(wèn)和計(jì)算資源。本文幫助用戶(hù)檢查工作負(fù)載遷移過(guò)程中最重要的問(wèn)題以及如何避免和改正。
檢查遷移設(shè)置或者重新連接主機(jī)服務(wù)器
在服務(wù)器之間進(jìn)行vm遷移首先要求兩個(gè)服務(wù)器啟用遷移功能。例如,使用vmware esx或者esxi的兩個(gè)服務(wù)器必須啟用vmotion。如果是hyper-v服務(wù)器進(jìn)行vm遷移,一定要確定兩臺(tái)服務(wù)器的動(dòng)態(tài)遷移功能可用。vmware esx或esxi服務(wù)器上,在配置選項(xiàng)卡為特定的vsphere客戶(hù)端啟用vmotion,所以it管理員必須使用與每個(gè)hypervisor匹配的文檔并在每個(gè)服務(wù)器上啟用遷移功能。
在某些情況下,hypervisor的軟件問(wèn)題會(huì)導(dǎo)致遷移失敗,這時(shí)需要在其中(或者兩個(gè))受影響的服務(wù)器上不斷地切換遷移設(shè)置。例如,這個(gè)問(wèn)題在vmware esx/esxi 4.0升級(jí)到update 2過(guò)程中會(huì)發(fā)生,技術(shù)人員不得不不斷切換遷移設(shè)置。啟用設(shè)置在每個(gè)主機(jī)的vsphere配置選項(xiàng)卡上。在esx/esxi 4.0 update 2或之后版本上就可以解決這個(gè)問(wèn)題了。
檢查服務(wù)器硬件的兼容性和設(shè)備相關(guān)性
虛擬化的服務(wù)器專(zhuān)門(mén)用來(lái)將底層的硬件從上層的工作負(fù)載抽離——抽離讓工作負(fù)載遷移變得可能——但是有小部分情況可能會(huì)導(dǎo)致源、目的服務(wù)器的硬件不兼容,導(dǎo)致遷移失敗。
排錯(cuò)的第一步是評(píng)估服務(wù)器硬件和配置。舉個(gè)簡(jiǎn)單的例子,源/目的服務(wù)器需要使用完全相同處理器來(lái)進(jìn)行工作負(fù)載遷移。每個(gè)系統(tǒng)bios的處理或者i/o虛擬化設(shè)置稍微有所不同也會(huì)引起硬件問(wèn)題。
當(dāng)vm依賴(lài)目的服務(wù)器上不可用的硬件時(shí),也會(huì)導(dǎo)致遷移失敗。比如,像vmware esx/esxi等hypervisor允許vm連接到物理磁盤(pán)。如果vm依賴(lài)與源服務(wù)器連接的物理磁盤(pán)——而目的服務(wù)器上沒(méi)有——遷移就出問(wèn)題了。安全斷開(kāi)任何本地物理磁盤(pán)或者源服務(wù)器vm上的客戶(hù)端設(shè)備,然后再重新進(jìn)行遷移。
檢查服務(wù)器間的網(wǎng)絡(luò)連接
遷移依賴(lài)網(wǎng)絡(luò)連接,因此源/目的服務(wù)器之間的任何連接問(wèn)題都能輕易影響遷移活動(dòng)。最直接的方法是ping源/目的服務(wù)器之間的網(wǎng)絡(luò)連接。例如,vmware的vmkping可以在源服務(wù)器上使用命令shell ping 目的服務(wù)器。進(jìn)入到主機(jī)名稱(chēng)或者目的服務(wù)器的ip地址,查看成功的ping反饋,如:vmkping 192.168.1.1
還可以通過(guò)windows命令提示或者linux命令行使用標(biāo)準(zhǔn)的ping命令執(zhí)行該過(guò)程。如果ping成功了,證明源、目的服務(wù)器之間的lan通訊正常。如果不成功,源、目的服務(wù)器上的網(wǎng)卡(nic)可能存在不兼容性。
一個(gè)常見(jiàn)的兼容性問(wèn)題是使用超長(zhǎng)幀。例如,如果一個(gè)服務(wù)器的nic配置了支持超長(zhǎng)幀,另外一個(gè)沒(méi)有,那么這兩個(gè)服務(wù)器不會(huì)正常通信,工作負(fù)載遷移不會(huì)成功,除非兩個(gè)nic的配置完全相同。使用目標(biāo)服務(wù)器的主機(jī)名ping時(shí),會(huì)發(fā)生另一個(gè)常見(jiàn)的問(wèn)題。如果主機(jī)名ping失敗了,但是ip地址ping正常,說(shuō)明主機(jī)名解析出問(wèn)題了,解決這個(gè)問(wèn)題會(huì)對(duì)解決連接問(wèn)題有幫助。
檢查目的服務(wù)器上的計(jì)算資源
如果目的服務(wù)器上沒(méi)有足夠的計(jì)算資源,工作負(fù)載遷移也會(huì)失敗。當(dāng)目的服務(wù)器缺少足夠的處理核心、內(nèi)存空間、nic端口或者存儲(chǔ)時(shí),就不能儲(chǔ)備新的工作負(fù)載。隨著物理服務(wù)器數(shù)量下降和工作負(fù)載整合水平的提升,這已經(jīng)變成越來(lái)越普遍的問(wèn)題。
例如,如果目標(biāo)服務(wù)器已經(jīng)從從其他系統(tǒng)接受額外的工作負(fù)載失敗,這時(shí)就會(huì)發(fā)生資源短缺。另外,如果目的服務(wù)器上已有的工作負(fù)載已經(jīng)獲得了額外的計(jì)算資源,以滿(mǎn)足用戶(hù)活動(dòng)增加所引起的更的的資源需求,這種情況下,資源短缺也會(huì)發(fā)生。試著將工作負(fù)載遷移到其他有足夠計(jì)算資源的系統(tǒng)(比如閑置或備用的服務(wù)器),或者在有需求的服務(wù)器上執(zhí)行工作負(fù)載平衡。
一個(gè)常見(jiàn)的問(wèn)題是,目的服務(wù)器上缺少磁盤(pán)空間,所以要檢查可用的磁盤(pán)空間。例如,vmware esx/esxi用戶(hù)可面向目的服務(wù)器打開(kāi)一個(gè)控制臺(tái),使用df -h命令監(jiān)測(cè)易用的空間(或者使用vdf –h命令檢查vmfs卷上的空間)。如果沒(méi)有足夠的空間來(lái)存儲(chǔ)遷移過(guò)來(lái)的工作負(fù)載,管理員需要騰出空間或者將工作負(fù)載遷移到其他系統(tǒng)里。如果存儲(chǔ)通過(guò)存儲(chǔ)區(qū)域網(wǎng)(san)提供,確認(rèn)源、目的服務(wù)器配置相同的分區(qū)。
在物理服務(wù)器之間遷移工作負(fù)載是虛擬化環(huán)境中最基本的功能,但充滿(mǎn)了各種潛在問(wèn)題。hypervisor漏洞、遷移設(shè)置、意料之外的硬件相關(guān)性、網(wǎng)絡(luò)連接問(wèn)題和配置問(wèn)題、存儲(chǔ)資源和san設(shè)置都有可能導(dǎo)致工作負(fù)載遷移失敗。幸運(yùn)地是,一旦it專(zhuān)業(yè)人員了解了最常見(jiàn)的遷移問(wèn)題,一般可以隔離和糾正許多問(wèn)題。