專訪 | 微博運維專家:2億日活躍用戶的微博如何做運維?

為擴大運維派影響力,網站及其公眾號轉讓中,有意微信:helloywp

原文來自:高效運維社區

AIOps一詞我們并不陌生。

AIOps,是基于算法的 IT 運維(Algorithmic IT Operations),是由 Gartner 定義的新類別,源自業界之前所說的 ITOA(IT Operations and Analytics)。

近幾年,新技術不斷涌現,利用數據科學和機器學習來推進日益復雜的企業數字化進程,“AIOps”(Algorithmic IT Operations)因此應運而生。Gartner 的報告宣稱,到 2020 年,將近 50% 的企業將會在他們的業務和 IT 運維方面采用 AIOps,遠遠高于今天的 10%。

然而什么樣的企業需要做AIOps?想要做AIOps 需要企業具備什么樣的能力?對于運維人又需要做哪些準備?AIOps之路還有多遠?

帶著以上問題,小編采訪到了新浪技術專家彭冬老師,彭冬老師把我們共同帶入那個一心研究技術的少年時代,與我們分享忘我奮斗的創業故事,帶著成熟和經驗回歸微博后的AIOps 實踐之路。

彭冬主要負責微博廣告團隊智能運維、大數據平臺和廣告業務團隊的管理,以及技術選型、架構設計等工作,同時也是《智能運維:從0搭建大規模分布式AIOps系統》作者。

夢開始的地方

彭冬畢業于西北工業大學,一座非常低調的軍工院校。作為學校本碩連讀的學生,彭冬老師在大三的時候正式確定了計算機的學習方向,在本科時期,當他學習了C語言之后,接觸了很多計算機編程方面的知識,頓時對黑客技術產生了非常濃厚的興趣,然后開始研究一些計算機的漏洞以及很多安全攻防方面的技術,也負責了學校一個機房的安全管理工作。

就像Linux 之父Linus Torvalds 說的:Just for fun .

濃厚的興趣促使彭冬學習了很多編程的理論,接觸到微軟的Windows MFC,跟隨編程視頻課程學習系統框架,后跟隨老師一起開始接一些小型的外包,并獲得一些收益,之后不斷地接觸三星、安卓的操作系統,還參加了第二屆全球谷歌開發者比賽,接觸到很多世界級的開發者,在這個過程中,彭冬積累了大量的編程經驗,為以后進入微博工作打下基礎。

尋找自我的旅程

2009年,彭冬研究生畢業后的第一份工作就是來到微博,進入商業化廣告系統技術團隊。2012年負責了品牌廣告,隨后跟團隊一起搭建了微博第一代的效果廣告系統:粉絲通,這個系統屬于信息流廣告,在當時是國內第一家。

2014年,微博上市,同時大數據如火如荼,彭冬深感大數據技術的到來會對行業帶來翻天覆地的變化,是未來行業發展方向之一,抱著對技術的熱切追求,迎接新的挑戰,彭冬就職于百度,在百度聯盟團隊,從事大數據相關,工程架構以及用戶畫像等工作。

我們最常見的一種聯盟的廣告形式就是隨便打開一個網站,就會有百度的廣告,基本上所有的中小型網站都跟百度有合作關系,聯盟的請求量,數據規模之龐大,使彭冬的工作能力得到了充分的鍛煉和提升。

創業是每一個男人的浪漫

在2014年底,O2O的概念席卷整個IT互聯網。

這個冬季,與寒風不同的是彭冬和朋友們的創業熱情,他們做了“趣吃飯”項目。著重解決人們去店里吃飯排隊時間過長的痛點,服務對象多是CBD白領和學生。人們可以在公眾號掃碼點餐,點了之后付款,等待取餐通知,而另一邊餐廳接到訂單通知之后,備餐完成之后,把餐放在餐柜,并通知C端用戶取餐就完成了整個服務流程。當時用戶規模已經達到20萬,簽約包括吉野家、真功夫、永和大王等商家近1000家,流水可達百萬。

作為人生中第一次創業能有這樣的成績,彭冬和朋友們滿懷欣喜,但同時不可否認,在做企業時候有很多問題存在,幾位創始人的首次創業在管理方面尤其是資金流沒有很好的控制,在2016年趣吃飯項目在O2O資本寒冬中終止了。

對于這次創業經歷,彭冬有成功的欣喜,亦有項目終止的遺憾,不過經歷過就是賺到,創業是每一個男人的浪漫。借此一役,彭冬也從一個技術人員上升到可以獨當一面的技術管理人員。

重回微博 再戰江湖

在2016年底,彭冬回到微博負責運維團隊。

在當時微博的運維經常會出一些故障,比如說在訪問量巨大的時候一些信息流會無法訪問,或者服務器不可用,服務器超時等問題,小問題不斷,每個月都要開故障討論會議。

而彭冬在負責運維團隊后做的第一件事就是結合大數據技術來做運維,在數據規模達到一定量級時,要將所有的監控基于數據來做,恰好彭冬結合之前在百度的經驗,在監控運維這一塊帶來了全新的思路。

大約用了三個月的時間,首先解決掉的問題就是故障頻發,在團隊的努力下,微博的故障率極低,報警數也降低80%,由之前的一周五六千次,降低到千次以內,也就把一些同事從每天救火的情況中解救了出來。

一直到今天,微博終于是網友口中“成熟的微博”了,老板也會語重心長的對彭冬說:春晚終于可以安穩的睡覺了(不用擔心故障頻發)

為什么要做AIOps

彭冬在聊到企業為什么要做AIOps時提到,首先目前所有的商業領域,對于企業有兩個主題:互聯網化和全球化,由此引發出企業的一些變化和趨勢,比如行業的市場結構正在發生變化,大部分的互聯網市場是買方市場,企業服務或產品想要賣出去,面臨的競爭非常激烈,在搶用戶的過程中,就要提供更好的產品和服務,因此系統就會越來越復雜。

第二,數據規模的擴大。如今網民數量增長快速,微博有2億多DAU,微信有9億,字節跳動有5億左右,數據規模巨大的變化迫使我們要改變。

第三,時間效率。互聯網行業對于產品的要求要快速再快速,一個月發布的產品,最好一星期就發布出來,對于創業公司更是需要爭分奪秒,企業面臨的壓力巨大,產品不穩定就會導致流失很多用戶。例如前段時間Facebook宕機事件,使另一家企業(Telegram)獲得了300萬新注冊用戶。

企業面臨的巨大壓力滲透到每一個環節,系統是否穩定,狀態是否健康,對于突發事件的處理能力、自動化處理等都是極大的挑戰。

而AIOps 就是一個全新的突破口。

我們可以通過一些工具或平臺做到自動化運維最終轉化成智能化運維,幫助我們預判一些事情并且能智能化的處理。AIOps 可以更持續的通過技術來觀測、洞察和守護系統,保證穩定性,這是很關鍵的。

微博的運維建設方向

就微博而言,自動化運維的程度相對完善。對于彭冬所在的商業化團隊,更重視準確率,比如說微博的CTR(點擊率)預估,在微博的廣告系統里邊會存很多的廣告,是根據點擊率的高低來推薦給用戶的,點擊率需要團隊進行提前預估,之后進行CTR排序,如果有5%的波動,可能是很正常的事情,影響不大,但是如果這個方法遷移到運維的話,就是災難。比如說,判斷失誤,5%的失敗率,做了一個降級,這個系統的收入就要損失5%,所以要更講究準確率。

具體來講,團隊下一步要做的事情:

第一步是做虛擬化,結合目前虛擬化Docker技術體系,進一步提升服務的利用率,然后更好的去做動態化的控制和操縱,今年完成內部系統的發布,明年進一步完成線上全面的工作。

第二步是嘗試新的算法,使自動化和新的算法有機的結合。

彭冬認為,一家企業如果想做 AIOps ,要具備最核心的能力是大數據的處理能力。如果離開了大數據,智能化就不成立,它是能在大數據場景下,在一定量級數據規模的情況下,處理大規模的系統的運維能力。當然,運維經驗、運維開發能力主要是解決工具、平臺工程化的東西,從另一個角度講,要數據量級達到一定的時候才需要做智能。

十年技術生涯,跨越艱難險阻

畢業至今,已有十年光景,提到遇到的困難,彭冬有兩件事刻骨銘心。

在創業初期,要開辟市場和很多商家洽談合作,希望智能餐柜可以入駐商鋪,但是對于商鋪考慮的維度完全不同。彭冬回憶道,有很多商鋪不愿意被餐柜占用店內空間,對于他們來說并沒有增長顧客量或者翻桌率。團隊根據情況改變洽談策略,先洽談簽約一些連鎖店,再去簽約個體小的店家,這樣有了已經簽約的大店的案例就相對好談一些,從0到1的過程十分艱難,最終問題得到順利解決。

另外,做運維的過程中除了有很多技術上的挑戰,還要溝通業務部門配合工作,這就很有難度。比如微博要做一個全鏈路的系統,就要去說服涉及到的業務部門,按照要求去改一些東西,按照約定打一些日志,或者集成SDK等等,后期采用的辦法就是設法推動業務方有動力去參與這件事,產生“共同業績”的重度參與感,并使其感到做這件事是能幫助到他們的。最后彭冬的團隊用了不到一年時間做成這個系統,這也是一個很大的挑戰。

關于《智能運維:0搭建大規模分布式AIOps系統》

《智能運維:從0搭建大規模分布式AIOps系統》這本書是2017年開始籌備,在此之前,彭冬發表的一些文章反響比較好,之后受邀寫一本關于智能運維的書籍。恰逢AI近幾年發展良好,結合運維之后會為行業帶來新的動力,彭冬希望能對做運維的同學有一些幫助。

眾所周知,運維非常辛苦,24小時待機,經常背鍋。彭冬和朋友一起就大數據和運維,以及對AIOps 的需求共同創作完成了這本書。書中很多都是介紹數據處理、上層監控、報警算法如何落地,還有實踐的框架和架構如何落地,也列舉了微博廣告運維團隊的很多案例,結合場景呈獻給了大家。

對于管理,懂得放權

目前彭冬管理的團隊總數接近80人,交叉在很多不同方向的業務中,所以對于團隊的管理彭冬也有一套自己的方法。

首先,作為年輕團隊領導者,彭冬懂得放權。他借鑒了稻盛和夫的企業管理理論阿米巴,將團隊分為小組制,每個小組3-5人,小組leader來主導工作方向,每個小組分別負責不同的業務方向,并且可以快速調整并快速適應。彭冬會根據整個團隊的業務方向給每一個小組任務規劃建議,之后讓團隊放手去做,針對一些技術方案的設計和選型,彭冬多數是先聽取小組的討論結果,給與團隊的人充分的主導權和空間。

其次,彭冬采取一種開放的態度,對于試錯很寬容。彭冬期望團隊成員勇于嘗試新的技術,不同的技術,不畏懼接觸新的玩法。他介紹《精益創業》書中曾經講到,很多人在做一個產品的時候總是陷入“想要打造完美產品”的漩渦,首先我們要知道這世界上沒有完美的產品,特別是剛上線的產品。另外,開發團隊認為的完美可能對于用戶而言并不盡然,會產生效果偏差。所以彭冬鼓勵團隊成員首先去嘗試,不要害怕出錯,從而激發了大家的激情和創新能力。

最后對于現在國內企業十分流行的OKR工作法,彭冬認為這是非常棒的工作法則。通過對整個企業終極目標的拆分,落實到部門和個人,是合乎邏輯的工作法則。當然,每個企業實施落地的程度不盡相同,最終要看執行的效果,不然就會變成另一種形式的KPI。

以上,就是社區專訪新浪技術專家彭冬老師的全部內容。彭冬老師為我們講述了從大學接觸到編程世界開始,一直保持熱忱去學習去創新,在IT互聯網行業追尋夢想的故事。回到今天彭冬老師已經成為一個技術團隊的領導者,更多的是想為行業和運維人們盡一份自己的力量,也許這些也都是每一個IT 工作者的心境吧,也激勵著我們每一個人保持初心,一直前進!

網友評論comments

發表評論

電子郵件地址不會被公開。 必填項已用*標注

暫無評論

Copyright ? 2012-2019 YUNWEIPAI.COM - 運維派 - 粵ICP備14090526號-3
掃二維碼
掃二維碼
返回頂部
街机电玩捕鱼抢红包 体彩浙江20选5玩法 河北11选5遗漏top10 福建36选7中三个有奖吗 老奇人三肖中特 安徽时时彩 快乐8下载安装 线上棒球比分 悬赏通缉赚钱 组六神奇组合 qq欢乐升级下载