云原生、DevOps、ChatGPT,真能“殺死”運(yùn)維?
原創(chuàng)本文訪談部分源自快貓星云創(chuàng)始人來(lái)煒此前訪談分享。6月16日-17日·北京,由來(lái)煒出品的《可觀測(cè)性技術(shù)與實(shí)踐》專題將在WOT全球技術(shù)創(chuàng)新大會(huì)期間呈現(xiàn)。來(lái)自美團(tuán)、快貓星云、格睿時(shí)代...的眾多技術(shù)大咖們將帶來(lái):美團(tuán)可觀測(cè)性平臺(tái):Raptor建設(shè)與實(shí)踐、幫一千個(gè)微服務(wù)落地SLO、面向故障處理的可觀測(cè)性體系建設(shè)、云原生時(shí)序數(shù)據(jù)庫(kù)的挑戰(zhàn)和架構(gòu)設(shè)計(jì)等精彩分享。
點(diǎn)擊閱讀原文可了解活動(dòng)詳情,或掃描下方二維碼了解WOT更多精彩主題。WOT大會(huì)九折期即將結(jié)束,現(xiàn)在購(gòu)票優(yōu)惠多多。
一、運(yùn)維行業(yè)沒(méi)有消亡
Q:有些運(yùn)維老炮反映公司對(duì)運(yùn)維的價(jià)值所知甚少,您是怎么給公司講清楚運(yùn)維價(jià)值的?
來(lái)煒:把工作的價(jià)值,如何通俗易懂的給公司管理層講清楚,并取得理解和支持,是所有中后臺(tái)技術(shù)團(tuán)隊(duì)普遍面臨的難題,否則失業(yè)分分鐘的事情,運(yùn)維工作的價(jià)值講清楚更是難上加難。
從我的朋友圈來(lái)看,時(shí)不時(shí)就會(huì)看到勸運(yùn)維下崗/轉(zhuǎn)行的帖子:比如瑞典馬工的《是時(shí)候讓運(yùn)維集體下崗了》,振聾發(fā)聵,開(kāi)篇就提到:明人不說(shuō)暗話:在云原生和DevOps成熟的今天,運(yùn)維作為一個(gè)崗位和團(tuán)隊(duì)已經(jīng)完成了歷史任務(wù),應(yīng)該退出舞臺(tái)了。
再比如帶我入行的井老板,用心良苦的勸導(dǎo):隨著科技的發(fā)展,時(shí)代的變化,一個(gè)崗位的消亡是很正常的事情,及時(shí)做好調(diào)整和規(guī)劃才是思考的重心。
但是,運(yùn)維這個(gè)崗位以及背后的運(yùn)維人,從來(lái)都是一次次站在要被淘汰的邊緣徘徊,又一次次倔強(qiáng)的起死回生,柳暗花明。他們往往樂(lè)于自嘲、主動(dòng)擁抱危機(jī)、敢于求變?;叵胂拢陙?lái),云計(jì)算也好、云原生也罷、DevOps 也算、SRE 也行,所有這些 IT 的大變革,都是嘗試在不斷優(yōu)化和改進(jìn)“大運(yùn)維”這個(gè)領(lǐng)域。運(yùn)維這個(gè)行業(yè)沒(méi)有消亡,反而是不斷進(jìn)化,生發(fā)出了新的內(nèi)涵。
這說(shuō)明了什么?說(shuō)明運(yùn)維很重要,說(shuō)明運(yùn)維也很難!但是如何把這個(gè)價(jià)值說(shuō)清楚,我們要從站位、目標(biāo)設(shè)定、投入產(chǎn)出比上來(lái)分別著手分析。
二、運(yùn)維人:要堅(jiān)定地和業(yè)務(wù)站在一起
Q:您覺(jué)得運(yùn)維工作最重要的幾個(gè)目標(biāo)是什么?您是怎么落地這些目標(biāo)的?運(yùn)維的價(jià)值如何更好的得到體現(xiàn)?
來(lái)煒:聚焦經(jīng)典的運(yùn)維領(lǐng)域,最主要的幾個(gè)工作職責(zé)是:
(1)代碼發(fā)布和交付(delivery),做好最后一公里的價(jià)值交付;
(2)提升架構(gòu)的可伸縮性(scalability)并付諸實(shí)施;
(3)保障系統(tǒng)的穩(wěn)定性(reliability)并不斷改善;
(4)在滿足前三項(xiàng)目標(biāo)的同時(shí),不斷優(yōu)化并降低系統(tǒng)的運(yùn)行成本(finops)。
如果你發(fā)現(xiàn)自己的工作,并不是圍繞著以上范疇展開(kāi),那么有兩種可能,你不是運(yùn)維或者你的工作超綱了!
明確了工作范疇,說(shuō)大點(diǎn)就是明確了運(yùn)維的使命之后,設(shè)定目標(biāo)就相對(duì)容易些了,比如:
(1)針對(duì)代碼發(fā)布和交付,可以簡(jiǎn)單的用發(fā)布次數(shù)來(lái)度量;
(2)針對(duì)系統(tǒng)的伸縮性,可以用擴(kuò)容的時(shí)效性來(lái)度量;
(3)針對(duì)穩(wěn)定性,我們可以通過(guò)觀察核心功能的不可用時(shí)長(zhǎng)來(lái)度量;
(4)針對(duì)系統(tǒng)運(yùn)行成本,我們可以計(jì)算到每完成一筆核心交易所花費(fèi)的資源成本和人力成本來(lái)表示和追蹤。
關(guān)于如何體現(xiàn)運(yùn)維的價(jià)值,首先我們運(yùn)維人要轉(zhuǎn)變的是態(tài)度和立場(chǎng):堅(jiān)定地和業(yè)務(wù)站在一起,爭(zhēng)取共背業(yè)務(wù)目標(biāo)。我舉個(gè)例子,HR部門(mén),也是屬于公司內(nèi)部后臺(tái)的不能再后臺(tái)的部門(mén)了,但是我所接觸過(guò)的優(yōu)秀的HR中,不管是recruiter、還是hrbp,從來(lái)都是把自己當(dāng)作業(yè)務(wù)部門(mén)的一份子,把業(yè)務(wù)部門(mén)的目標(biāo)當(dāng)作自己的目標(biāo)。當(dāng)立場(chǎng)一致,大家都是自己人的時(shí)候,價(jià)值就好說(shuō)了。
其次,價(jià)值這個(gè)事情,永遠(yuǎn)都是和“成本投入”相對(duì)應(yīng)的。你如果組建了一個(gè)很大的運(yùn)維團(tuán)隊(duì),人力成本在公司很顯眼,那么你就很容易成為老板眼中的“重點(diǎn)關(guān)注對(duì)象”,也會(huì)受到業(yè)務(wù)方更苛刻的挑戰(zhàn)。正所謂,楚人無(wú)罪懷璧其罪??陀^上來(lái)講,運(yùn)維團(tuán)隊(duì)的資源投入,一定是要和業(yè)務(wù)收入相匹配的,過(guò)高過(guò)低都是不健康的,不利于團(tuán)隊(duì)發(fā)展的。所以,“運(yùn)維的價(jià)值創(chuàng)造”最后會(huì)落到運(yùn)維效率的競(jìng)爭(zhēng)上來(lái)。
最后,關(guān)于價(jià)值,定量和定性的描述都得有。譬如和行業(yè)水平的定量對(duì)比,來(lái)自公司內(nèi)業(yè)務(wù)部門(mén)滿意度調(diào)查的定量數(shù)據(jù)。也要有比如對(duì)公司戰(zhàn)略項(xiàng)目支撐中的“存在感”這些定性數(shù)據(jù)。
三、ChatGPT或?qū)⒋娉跫?jí)運(yùn)維崗位
Q:ChatGPT這樣的AI能力您覺(jué)得未來(lái)是否有可能解決運(yùn)維行業(yè)的問(wèn)題?
來(lái)煒:首先我們看看,ChatGPT的核心優(yōu)勢(shì)是什么?ChatGPT,在知識(shí)的豐富度、自然語(yǔ)言理解能力(以及上下文理解)、內(nèi)容生成能力方面,有著代際的革新。然后,我們?cè)俜治鱿逻\(yùn)維行業(yè)的核心問(wèn)題是什么,是缺少領(lǐng)域知識(shí)嗎?是交互效率低嗎?是內(nèi)容輸出難嗎?
以上都不是,運(yùn)維行業(yè)所處理的問(wèn)題,本質(zhì)上還是一個(gè)系統(tǒng)性的工程問(wèn)題,是為了解決IT系統(tǒng)價(jià)值快速交付的問(wèn)題、解決伸縮性的問(wèn)題、解決穩(wěn)定性的問(wèn)題,是不斷提高系統(tǒng)運(yùn)行維護(hù)性價(jià)比的問(wèn)題。
目前來(lái)看,云計(jì)算、微服務(wù)對(duì)于運(yùn)維行業(yè)的改變來(lái)的要更實(shí)質(zhì)性一些。ChatGPT能有效改善運(yùn)維行業(yè)知識(shí)沉淀的問(wèn)題,或許會(huì)很快代替一些初級(jí)的運(yùn)維架構(gòu)師崗位。
四、《可觀測(cè)性技術(shù)與實(shí)踐》專題精彩內(nèi)容
1.美團(tuán)可觀測(cè)性平臺(tái):Raptor建設(shè)與實(shí)踐
美團(tuán)技術(shù)專家任天:Raptor作為美團(tuán)可觀測(cè)性平臺(tái),不僅融合了前端監(jiān)控、基礎(chǔ)設(shè)施監(jiān)控、應(yīng)用層監(jiān)控,同時(shí)也給業(yè)務(wù)提供指標(biāo)、鏈路、部分日志監(jiān)控能力,讓業(yè)務(wù)能夠無(wú)死角的觀測(cè)到系統(tǒng);在耗時(shí)檢測(cè)方面,涵蓋了業(yè)務(wù)端到端耗時(shí)、后端整體耗時(shí)、中間件耗時(shí)等,滿足業(yè)務(wù)各階段的可觀測(cè)訴求。作為可觀測(cè)系統(tǒng),Raptor每日承載著PB級(jí)監(jiān)控流量,百萬(wàn)的告警策略,覆蓋前后端的觀測(cè)能力,給業(yè)務(wù)提供及時(shí)有效的觀測(cè)和預(yù)警,為業(yè)務(wù)保駕護(hù)航。
本次分享,主要從Raptor整體視角出發(fā),介紹美團(tuán)可觀測(cè)體系的建設(shè)之路以及應(yīng)用實(shí)踐、從監(jiān)控系統(tǒng)Cat到可觀測(cè)系統(tǒng)Raptor的演進(jìn)過(guò)程。以及如何支撐美團(tuán)PB級(jí)監(jiān)控?cái)?shù)據(jù),滿足業(yè)務(wù)低延遲、高可用、低成本的訴求。最后針對(duì)當(dāng)前面臨新的訴求和挑戰(zhàn),討論Raptor下一步的工作重點(diǎn)和方向。
2.面向故障處理的可觀測(cè)性體系建設(shè)
快貓星云COO秦曉輝:服務(wù)穩(wěn)定性保障是一個(gè)系統(tǒng)性的工程,建設(shè)一個(gè)完善的可觀測(cè)性體系,是穩(wěn)定性保障的基礎(chǔ),而穩(wěn)定性保障也是可觀測(cè)性體系服務(wù)的最重要的場(chǎng)景。然而目前企業(yè)內(nèi)部普遍面臨著一個(gè)痛點(diǎn),雖然各種觀測(cè)數(shù)據(jù)都有了,但在故障發(fā)現(xiàn)、故障定位上仍然存在發(fā)現(xiàn)慢,定位難,協(xié)同難等問(wèn)題,在穩(wěn)定性保障上技術(shù)團(tuán)隊(duì)經(jīng)常處于被動(dòng)。很多企業(yè)可能已經(jīng)不缺少數(shù)據(jù),但缺少的是將數(shù)據(jù)價(jià)值在穩(wěn)定性保障領(lǐng)域發(fā)揮出來(lái)的產(chǎn)品、方法和最佳實(shí)踐。
快貓星云團(tuán)隊(duì)總結(jié)了解決企業(yè)可觀測(cè)系統(tǒng)落地問(wèn)題的三大要素:數(shù)據(jù)、平臺(tái)、場(chǎng)景。假如把建設(shè)一套面向穩(wěn)定性保障的可觀測(cè)系統(tǒng)比喻為做一道好菜,那數(shù)據(jù)就是食材,平臺(tái)就是炊具,場(chǎng)景就是廚藝。
3.云原生時(shí)序數(shù)據(jù)庫(kù)的挑戰(zhàn)和架構(gòu)設(shè)計(jì)
格睿時(shí)代技術(shù)副總裁馮家純:隨著企業(yè)上云和云原生基礎(chǔ)服務(wù)的發(fā)展,作為需要存儲(chǔ)和處理海量傳感器數(shù)據(jù)的時(shí)序數(shù)據(jù)庫(kù)也需要往云原生架構(gòu)遷移。在這一過(guò)程中面臨諸多挑戰(zhàn):面向彈性設(shè)計(jì)的 ServerlessDB 架構(gòu);海量規(guī)模的時(shí)序數(shù)據(jù)在高并發(fā)讀寫(xiě)下的可用性和穩(wěn)定性挑戰(zhàn);時(shí)序數(shù)據(jù)特有的高基數(shù)問(wèn)題和數(shù)據(jù)壓縮問(wèn)題;存算分離架構(gòu)帶來(lái)的性能挑戰(zhàn);混合時(shí)序和分析負(fù)載帶來(lái)的算力隔離和調(diào)度問(wèn)題。
我們?cè)趯?shí)現(xiàn) GreptimeDB 這個(gè)分布式、云原生的時(shí)序數(shù)據(jù)庫(kù)過(guò)程中,直面這些挑戰(zhàn),并將在本次分享中給出我們的設(shè)計(jì)選擇和背后的思考。
以上精彩內(nèi)容都將在6月16日-17日·北京的WOT全球技術(shù)創(chuàng)新大會(huì)期間呈現(xiàn)。