?Kubernetes的演變：從etcd到分布式SQL的過渡

作者：李睿 2023-08-18 09:00:00

本文探討了如何使用Kine將Kubernetes中的etcd替換為分布式SQL數(shù)據(jù)庫。

譯者 | 李睿

審校 | 重樓

DevRel領(lǐng)域?qū)＜?/span>Denis Magda表示，他偶然發(fā)現(xiàn)了一篇解釋如何用PostgreSQL無縫替換etcd的文章。該文章指出，Kine項目作為外部etcd端點(diǎn)，可以將Kubernetes etcd請求轉(zhuǎn)換為底層關(guān)系數(shù)據(jù)庫的SQL查詢。

受到這種方法的啟發(fā)，Magda決定進(jìn)一步探索Kine的潛力，從etcd切換到Y(jié)ugabyteDB。YugabyteDB是一個基于PostgreSQL構(gòu)建的分布式SQL數(shù)據(jù)庫。

etcd有什么問題?

etcd是Kubernetes用來存放所有集群數(shù)據(jù)的鍵值庫。

在Kubernetes集群遇到可擴(kuò)展性或高可用性（HA）問題之前，它通常不會引起人們的注意。以可擴(kuò)展和高可用性（HA）的方式管理etcd對于大型Kubernetes部署來說尤其具有挑戰(zhàn)性。

此外，Kubernetes社區(qū)對etcd項目的未來開發(fā)也有越來越多的擔(dān)憂。它的社區(qū)規(guī)模正在縮小，只有少數(shù)維護(hù)人員有興趣和能力支持和推進(jìn)這個項目。

這些問題催生了Kine，這是一個etcd API到SQL的轉(zhuǎn)換層。Kine正式支持SQLite、PostgreSQL和MySQL，這些系統(tǒng)的使用量正在不斷增長，并且擁有強(qiáng)大的社區(qū)。

為什么選擇分布式SQL數(shù)據(jù)庫?

雖然PostgreSQL、SQLite和MySQL是Kubernetes的理想選擇，但它們是為單一服務(wù)器部署而設(shè)計和優(yōu)化的。這意味著它們可能會帶來一些挑戰(zhàn)，特別是對于具有更嚴(yán)格的可擴(kuò)展性和可用性要求的大型Kubernetes部署。

如果開發(fā)人員的Kubernetes集群要求RPO(恢復(fù)點(diǎn)目標(biāo))為零，RTO(恢復(fù)時間目標(biāo))以秒為單位測量，那么MySQL或PostgreSQL部署的架構(gòu)和維護(hù)將是一個挑戰(zhàn)。如果人們有興趣深入研究這個話題，可以探索PostgreSQL的高可用性選項。

分布式SQL數(shù)據(jù)庫作為一個相互連接的節(jié)點(diǎn)集群，可以跨多個機(jī)架、可用區(qū)或區(qū)域部署。通過設(shè)計，它們具有高可用性和可擴(kuò)展性，因此可以為Kubernetes改進(jìn)相同的特性。

在YugabyteDB上啟動Kine

而決定使用YugabyteDB作為Kubernetes的分布式SQL數(shù)據(jù)庫是受到PostgreSQL的影響。YugabyteDB建立在PostgreSQL源代碼的基礎(chǔ)上，在提供自己的分布式存儲實(shí)現(xiàn)的同時，重用了PostgreSQL的上半部分(查詢引擎)。

YugabyteDB和PostgreSQL之間的緊密聯(lián)系允許開發(fā)人員為YugabyteDB重新設(shè)計PostgreSQL的Kine實(shí)現(xiàn)。然而需要繼續(xù)關(guān)注，這不會是一個簡單的提升和轉(zhuǎn)移的故事。

現(xiàn)在，將這些想法轉(zhuǎn)化為行動，并在YugabyteDB上啟動Kine。為此，使用了一個配備了8個CPU和32GB內(nèi)存的Ubuntu22.04虛擬機(jī)。

首先，在虛擬機(jī)上啟動一個三個節(jié)點(diǎn)的YugabyteDB集群。在進(jìn)行分布式之前，可以在單個服務(wù)器上對分布式SQL數(shù)據(jù)庫進(jìn)行試驗(yàn)。有多種方法可以在本地啟動YugabyteDB，但作者更喜歡的方法是通過Docker：

Shell 
 mkdir ~/yb_docker_data

 docker network create custom-network

 docker run -d --name yugabytedb_node1 --net custom-network \
 -p 15433：15433 -p 7001：7000 -p 9000：9000 -p 5433：5433 \
  -v ~/yb_docker_data/node1：/home/yugabyte/yb_data --restart unless-stopped \
  yugabytedb/yugabyte：latest \
  bin/yugabyted start --tserver_flags="ysql_sequence_cache_minval=1" \
  --base_dir=/home/yugabyte/yb_data --daemon=false
 
 docker run -d --name yugabytedb_node2 --net custom-network \
  -p 15434：15433 -p 7002：7000 -p 9002：9000 -p 5434：5433 \
  -v ~/yb_docker_data/node2：/home/yugabyte/yb_data --restart unless-stopped \
 yugabytedb/yugabyte：latest \
  bin/yugabyted start --join=yugabytedb_node1 --tserver_flags="ysql_sequence_cache_minval=1" \
  --base_dir=/home/yugabyte/yb_data --daemon=false
     
 docker run -d --name yugabytedb_node3 --net custom-network \
  -p 15435：15433 -p 7003：7000 -p 9003：9000 -p 5435：5433 \
  -v ~/yb_docker_data/node3：/home/yugabyte/yb_data --restart unless-stopped \
  yugabytedb/yugabyte：latest \
 bin/yugabyted start --join=yugabytedb_node1 --tserver_flags="ysql_sequence_cache_minval=1" \
 --base_dir=/home/yugabyte/yb_data --daemon=false

注：在啟動YugabyteDB節(jié)點(diǎn)時設(shè)置ysql_sequence_cache_minval=1，以確保數(shù)據(jù)庫序列可以按順序遞增1。如果沒有這個選項，一個Kine連接到Y(jié)ugabyteDB將緩存序列的下一個100個ID。這可能導(dǎo)致在Kubernetes集群引導(dǎo)期間出現(xiàn)“版本不匹配”錯誤，因?yàn)橐粋€Kine連接可能插入ID范圍從1到100的記錄，而另一個Kine連接可能插入ID范圍從101到200的記錄。

接下來，使用PostgreSQL實(shí)現(xiàn)啟動一個連接到Y(jié)ugabyteDB的Kine實(shí)例：

（1）克隆Kine庫：

Shell 
1 git clone https：//github.com/k3s-io/kine.git && cd kine

（2）啟動一個連接到本地YugabyteDB集群的Kine實(shí)例：

Shell 
1 go run . --endpoint postgres：//yugabyte：yugabyte@127.0.0.1：5433/yugabyte

（3）連接YugabyteDB，確認(rèn)Kine架構(gòu)已準(zhǔn)備就緒：

SQL 
 psql -h 127.0.0.1 -p 5433 -U yugabyte

 yugabyte=# \d
       List of relations
 Schema |    Name     |   Type   |  Owner
 --------+-------------+----------+----------
  public | kine        | table    | yugabyte
  public | kine_id_seq | sequence | yugabyte
(2 rows)

很好，第一次測試成功了。Kine將YugabyteDB視為PostgreSQL，并且啟動時沒有任何問題?，F(xiàn)在進(jìn)入下一個階段：使用YugabyteDB在Kine之上啟動Kubernetes。

使用YugabyteDB在Kine上啟動Kubernetes

Kine可以被各種Kubernetes引擎使用，包括標(biāo)準(zhǔn)的Kubernetes部署、Rancher Kubernetes引擎(RKE)或K3 (一種輕量級的Kubernetes引擎)。為簡單起見，將使用后者。

K3s集群可以通過一個簡單的命令啟動：

（1）停止上一節(jié)中啟動的Kine實(shí)例。

（2）啟動連接到相同本地YugabyteDB集群的K3s（K3s可執(zhí)行文件隨Kine提供）：

Shell 
curl -sfL https：//get.k3s.io | sh -s - server --write-kubeconfig-mode=644 \
 --token=sample_secret_token \
--datastore-endpoint="postgres：//yugabyte：yugabyte@127.0.0.1：5433/yugabyte"

（3）Kubernetes啟動時應(yīng)該沒有問題，可以通過運(yùn)行以下命令來確認(rèn)：

Shell 
 k3s kubectl get nodes
 NAME STATUS ROLES AGE VERSION
 ubuntu-vm Ready control-plane,master 7m13s v1.27.3+k3s1

Kubernetes在YugabyteDB上無縫運(yùn)行。這要?dú)w功于YugabyteDB很好的特性和與PostgreSQL的運(yùn)行時兼容性。這意味著可以重用為PostgreSQL創(chuàng)建的大多數(shù)庫、驅(qū)動程序和框架。

這可能標(biāo)志著這一旅程的結(jié)束，可以回顧一下K3s日志。在Kubernetes引導(dǎo)期間，日志可能會報告緩慢的查詢，如下所示：

SQL 
 INFO[0015] Slow SQL(total time： 3s) ：
 SELECT
  *
 FROM (
  SELECT
  (
  SELECT
  MAX(rkv.id) AS id
  FROM
  kine AS rkv),
 (
  SELECT
  MAX(crkv.prev_revision) AS prev_revision
  FROM
  kine AS crkv
  WHERE
  crkv.name = 'compact_rev_key'), kv.id AS theid, kv.name, kv.created, kv.deleted, kv.create_revision, kv.prev_revision, kv.lease, kv.value, kv.old_value
  FROM
  kine AS kv
  JOIN (
  SELECT
  MAX(mkv.id) AS id
  FROM
  kine AS mkv
  WHERE
  mkv.name LIKE $1
  GROUP BY
  mkv.name) AS maxkv ON maxkv.id = kv.id
  WHERE
  kv.deleted = 0
  OR $2) AS lkv
 ORDER BY
  lkv.theid ASC
 LIMIT 10001

在一臺機(jī)器上運(yùn)行YugabyteDB時，這可能不是一個重要的問題，但是一旦切換到分布式設(shè)置，這樣的查詢就會成為熱點(diǎn)并產(chǎn)生瓶頸。

因此克隆了Kine源代碼，并開始探索PostgreSQL實(shí)現(xiàn)，尋找潛在的優(yōu)化機(jī)會。

YugabyteDB的Kine優(yōu)化

在這里，Magda與Franck Pachot合作，Pachot是一位精通SQL層優(yōu)化的數(shù)據(jù)庫專家，對應(yīng)用程序邏輯沒有或只有很少的更改。

在檢查了Kine生成的數(shù)據(jù)庫模式并將EXPLAIN ANALYZE用于某些查詢之后，F(xiàn)ranck提出了對任何分布式SQL數(shù)據(jù)庫都有利的基本優(yōu)化。

幸運(yùn)的是，優(yōu)化不需要對Kine應(yīng)用程序邏輯進(jìn)行任何更改。所要做的就是引入一些SQL級別的增強(qiáng)。因此，創(chuàng)建了一個直接支持YugabyteDB的Kine fork。

與此同時，與PostgreSQL相比，YugabyteDB的實(shí)現(xiàn)有三個優(yōu)化：

（1）kine表的主索引已從primary index（id）更改為primary INCEX（id asc）。在默認(rèn)情況下，YugabyteDB使用哈希分片在集群中均勻分布記錄。然而，Kubernetes在id列上運(yùn)行了許多范圍查詢，這使得切換到范圍分片是合理的。

（2）通過在索引定義中包括id列，kine_name_prev_revision_uindex索引已被更新為覆蓋索引：

CREATE UNIQUE INDEX IF NOT EXISTS kine_name_prev_revision_uindex ON kine (name asc, prev_revision asc) INCLUDE(id);

YugabyteDB的索引分布類似于表記錄。因此，索引條目可能引用存儲在不同YugabyteDB節(jié)點(diǎn)上的id。為了避免節(jié)點(diǎn)之間額外的網(wǎng)絡(luò)往返，可以將id包含在二級索引中。

（3）Kine在完成Kubernetes請求的同時執(zhí)行許多連接。如果查詢規(guī)劃器/優(yōu)化器決定使用嵌套循環(huán)連接，那么在默認(rèn)情況下，YugabyteDB查詢層將每次讀取和連接一條記錄。為了加快這個過程，可以啟用批處理嵌套循環(huán)連接。YugabyteDB的Kine實(shí)現(xiàn)通過在啟動時執(zhí)行以下語句來實(shí)現(xiàn)：

ALTER DATABASE " + dbName + " set yb_bnl_batch_size=1024;

嘗試一下這個優(yōu)化的YugabyteDB實(shí)現(xiàn)。

首先，停止之前的K3s服務(wù)，并從YugabyteDB集群中刪除Kine模式：

（1）停止并刪除K3s服務(wù)：

Shell 
 sudo /usr/local/bin/k3s-uninstall.sh
 sudo rm -r /etc/rancher

（2）刪除模式：

SQL 
 psql -h 127.0.0.1 -p 5433 -U yugabyte

 drop table kine cascade;

接下來，啟動一個為YugabyteDB提供優(yōu)化版本的Kine實(shí)例：

（1）克隆fork：

Shell 
 git clone https：//github.com/dmagda/kine-yugabytedb.git && cd kine-yugabytedb

（2）啟動Kine：

Shell 
 go run . --endpoint "yugabytedb：//yugabyte：yugabyte@127.0.0.1：5433/yugabyte"

Kine的啟動沒有任何問題?，F(xiàn)在唯一的區(qū)別是，不是在連接字符串中指定“postgres”，而是指示“yugabytedb”以啟用優(yōu)化的YugabyteDB實(shí)現(xiàn)。關(guān)于Kine和YugabyteDB之間的實(shí)際通信，Kine繼續(xù)使用Go的標(biāo)準(zhǔn)PostgreSQL驅(qū)動程序。

在Kine的優(yōu)化版本上構(gòu)建Kubernetes

最后，在這個優(yōu)化版本的Kine上啟動k3。

要做到這一點(diǎn)，首先需要從資源中構(gòu)建k3：

（1）停止上一節(jié)中啟動的Kine實(shí)例。

（2）克隆K3s存儲庫：

Shell 
 git clone --depth 1 https：//github.com/k3s-io/k3s.git && cd k3s

（3）打開go.mod文件，并在replace（..）部分的末尾添加以下行：

Go 
 github.com/k3s-io/kine => github.com/dmagda/kine-yugabytedb v0.2.0

這條指令告訴Go使用帶有YugabyteDB實(shí)現(xiàn)的最新版本的Kinefork。

（4）啟用對私有倉庫和模塊的支持：

Shell 
 go env -w GOPRIVATE=github.com/dmagda/kine-yugabytedb

（5）確保更改生效：

Shell 
 go mod tidy

（6）準(zhǔn)備構(gòu)建K3s的完整版本：

Shell 
 mkdir -p build/data && make download && make generate

（7）構(gòu)建完整版本：

Shell 
 SKIP_VALIDATE=true make

完成構(gòu)建大約需要五分鐘。

注意：一旦停止使用這個自定義K3s構(gòu)建，可以按照說明卸載它。

在優(yōu)化的Kubernetes版本上運(yùn)行示例工作負(fù)載

在構(gòu)建完成后，可以使用Kine的優(yōu)化版本啟動K3s。

（1）導(dǎo)航到包含構(gòu)建構(gòu)件的目錄：

Shell 
 cd dist/artifacts/

（2）通過連接到本地YugabyteDB集群啟動K3s：

Shell 
 sudo ./k3s server \
  --token=sample_secret_token \
 --datastore-endpoint="yugabytedb：//yugabyte：yugabyte@127.0.0.1：5433/yugabyte"

（3）確認(rèn)Kubernetes啟動成功：

Shell 
 sudo ./k3s kubectl get nodes

 NAME STATUS ROLES AGE VERSION
 ubuntu-vm Ready control-plane,master 4m33s v1.27.4+k3s-36645e73

現(xiàn)在，部署一個示例應(yīng)用程序，以確保Kubernetes集群不僅僅能夠自我引導(dǎo)：

（1）采用Kubernetes克隆一個庫的例子：

Shell 
 git clone https：//github.com/digitalocean/kubernetes-sample-apps.git

（2）部署Emojivoto應(yīng)用：

Shell 
 sudo ./k3s kubectl apply -k ./kubernetes-sample-apps/emojivoto-example/kustomize

（3）確保所有部署和服務(wù)成功啟動：

Shell 
 sudo ./k3s kubectl get all -n emojivoto
 
 NAME READY STATUS RESTARTS AGE
 pod/vote-bot-565bd6bcd8-rnb6x    1/1 Running 0 25s
 pod/web-75b9df87d6-wrznp  1/1 Running 0 24s
 pod/voting-f5ddc8ff6-69z6v   1/1 Running 0 25s
 pod/emoji-66658f4b4c-wl4pt  1/1 Running 0 25s

 NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
 service/emoji-svc   ClusterIP 10.43.106.87 <none> 8080/TCP,8801/TCP 27s
 service/voting-svc   ClusterIP 10.43.14.118 <none> 8080/TCP,8801/TCP 27s
 service/web-svc   ClusterIP 10.43.110.237 <none> 80/TCP 27s

 NAME READY UP-TO-DATE AVAILABLE AGE
 deployment.apps/vote-bot  1/1 1 1 26s
 deployment.apps/web   1/1 1 1 25s
 deployment.apps/voting 1/1 1 1 26s
 deployment.apps/emoji 1/1 1 1 26s

 NAME DESIRED CURRENT READY AGE
 replicaset.apps/vote-bot-565bd6bcd8  1 1 1 26s
 replicaset.apps/web-75b9df87d6 1 1 1 25s
 replicaset.apps/voting-f5ddc8ff6  1 1 1 26s
 replicaset.apps/emoji-66658f4b4c  1  1   1   26s

（4）使用CLUSTER_IP：80調(diào)用服務(wù)/web svc以觸發(fā)應(yīng)用程序邏輯：

Shell 
 curl 10.43.110.237：80

應(yīng)用程序?qū)⑹褂靡韵翲TML進(jìn)行響應(yīng)：

HTML 
 <!DOCTYPE html>
 <html>
  <head>
  <meta charset="UTF-8">
  <title>Emoji Vote</title>
  <link rel="icon" href="/img/favicon.ico">
 
  <script async src="https：//www.googletagmanager.com/gtag/js?id=UA-60040560-4"></script>
  <script>
  window.dataLayer = window.dataLayer || [];
  function gtag(){dataLayer.push(arguments);}
  gtag('js', new Date());
  gtag('config', 'UA-60040560-4');
  </script>
 </head>
 <body>
  <div id="main" class="main"></div>
  </body>
 
 <script type="text/javascript" src="/js" async></script>
 
 </html>