面試官:說一下 Nacos 的健康檢測機制?
Spring Cloud Alibaba Nacos 作為注冊中心不止提供了服務(wù)注冊和服務(wù)發(fā)現(xiàn)功能,它還提供了服務(wù)可用性監(jiān)測的機制。有了此機制之后,Nacos 才能感知服務(wù)的健康狀態(tài),從而為服務(wù)調(diào)用者提供健康的服務(wù)實例,最終保證了業(yè)務(wù)系統(tǒng)能夠正常的執(zhí)行。
兩種健康檢查機制
Nacos 中提供了兩種健康檢查機制:
- 客戶端主動上報機制。
- 服務(wù)器端反向探測機制。
如何理解這兩種機制呢?想象?下這么?個場景,你所在的地區(qū)突然發(fā)生地質(zhì)災(zāi)害,你被掩蓋在廢墟下面,搜救隊必須要知道你在廢墟里面,那么才能對你進行施救。那有什么方法可以讓救援隊知道你在廢墟下面?
- 第?種,你在廢墟里面大喊 help! help! I am here! ,讓搜救隊知道你的位置和健康狀態(tài)。
- 第二種,搜救隊使用了他們的專業(yè)檢查設(shè)備,探測到你正埋在廢墟下面。
以上這兩種方法和 Nacos 的兩種健康檢查機制類似,也就是客戶端主動上報機制,是客戶端每隔一段時間,主動向 Nacos 服務(wù)器端上報自己的健康狀況,而服務(wù)器端反向探測機制是 Nacos 服務(wù)器端來檢測客戶端是否健康。
如何設(shè)置健康檢查機制?
?Nacos 中的健康檢查機制不能主動設(shè)置,但健康檢查機制是和 Nacos 的服務(wù)實例類型強相關(guān)的。也就是說 Nacos 中的兩種服務(wù)實例分別對應(yīng)了兩種健康檢查機制:
- 臨時實例(也可以叫做非持久化實例):對應(yīng)的是客戶端主動上報機制。
- 永久實例(也可以叫做持久化實例):服務(wù)端反向探測機制。
為什么需要兩種服務(wù)實例呢?以淘寶為例,雙十一大促期間,流量會比平常高出很多,此時服務(wù)肯定需要增加更多實例來應(yīng)對高并發(fā),而這些實例在雙十一之后就無需繼續(xù)使用了,采用臨時實例比較合適。而對于服務(wù)的一些常備實例,則使用永久實例更合適。
客戶端主動上報機制
臨時實例每隔 5 秒會主動上報一次自己的健康狀況,發(fā)送的數(shù)據(jù)包叫做心跳包,發(fā)送心跳包的機制叫做心跳機制。如果心跳包的間隔時間超過了 15 秒,那么 Nacos 服務(wù)器端就會將此服務(wù)實例標記為非健康實例,如果心跳包超過了 30s 秒,那么 Nacos 服務(wù)器端將會把此服務(wù)實例從服務(wù)列表中刪除掉。運行 Nacos 項目時,可以看到客戶端主動上報心跳包的日志,如下圖所示:
從上述圖片可以看出,Nacos 客戶端會以每 5s 一次的頻率來上報自己的健康情況,請求信息如下:
/nacos/v1/ns/instance/beat?app=unknown&namespaceId=public&port=8081&clusterName=DEFAULT&ip=192.168.3.72&serviceName=DEFAULT_GROUP@@spring-cloud-nacos-producer2?
服務(wù)端反向探測機制
永久實例使用的服務(wù)器端反向探測的方式實現(xiàn)健康檢查的,它的探測周期是 2000 毫秒 + 隨機數(shù)(5000 毫秒以內(nèi)),如果檢測異常會將此服務(wù)實例,標記為非健康實例,但不會把服務(wù)實例向臨時實例那樣進行刪除。Nacos 服務(wù)器反向探測目前內(nèi)置了 3 種探測協(xié)議:HTTP 探測、TCP 探測和 MySQL 探測。?般而言 HTTP 和 TCP 探測已經(jīng)可以涵蓋絕大多數(shù)的健康檢查場景,MySQL 主要用于特殊的業(yè)務(wù)場景,例如數(shù)據(jù)庫的主備需要通過服務(wù)名對外提供訪問,需要確定當前訪問數(shù)據(jù)庫是否為主庫時,那么我們此時的健康檢查接口,是?個檢查數(shù)據(jù)庫是否為主庫的 MySQL 命令。
TCP 探測
默認情況下,永久實例使用的是 TCP 探測,這點可以在 Nacos 控制臺觀察到,如下圖所示:
默認會使用 IP端口來檢查,如下圖所示:
TCP 探測的大體邏輯是通過與注冊實例建立 channel,不斷 ping 注冊實例的端口,來判斷實例是否健康。
HTTP 探測
HTTP 探測需要在 Nacos 控制臺手動配置,如下圖所示:
我們在服務(wù)實例中添加探測接口的實現(xiàn)代碼:
此時我們重新啟動服務(wù)實例,在服務(wù)詳情中可以看到我們配置的 HTTP 探測已經(jīng)生效了,可以檢查出實例是健康的,如下圖所示:
Nacos 服務(wù)器端通過檢查 HTTP 的接口是否返回 200 狀態(tài)碼,來判斷實例是否為健康狀態(tài)。
集群下的健康檢查機制
集群下的健康檢查機制可以用一句話來概括,那就是“各司其職”。每個服務(wù)對應(yīng)了一個主注冊中心,當注冊中心接收到臨時實例的心跳包之后,將健康狀態(tài)同步給其他注冊中心。而永久實例也是類似的,每個服務(wù)對應(yīng)了一個主注冊中心,當負責的注冊中心探測到服務(wù)實例的健康狀態(tài)發(fā)生改變時,再會將實例的健康狀況同步到其他注冊中心,從而實現(xiàn)了集群下的健康檢查機制。
總結(jié)
Nacos 中提供了兩種健康檢查機制:臨時實例的客戶端主動上報機制和永久實例的服務(wù)端反向探測機制。臨時實例每隔 5s 發(fā)送一個心跳包給 Nacos 服務(wù)器端,服務(wù)器端接收到心跳包之后再將健康狀況同步給其他注冊中心。永久實例支持 3 種探測協(xié)議,TCP、HTTP 和 MySQL,默認探測協(xié)議為 TCP,也就是通過不斷 ping 的方式來判斷實例是否健康。