服務(wù)熱線:
13342898875
自從數(shù)據(jù)中心引入了云計(jì)算、虛擬化等大咖技術(shù),立刻變了模樣,這些技術(shù)大幅提升了數(shù)據(jù)中心的運(yùn)行效率,給數(shù)據(jù)中心帶來了諸多好處。不過,任何事情都有兩面性,我們?cè)谙硎苄录夹g(shù)帶來的益處時(shí),也給數(shù)據(jù)中心運(yùn)維的管理帶來了不便,需要管理對(duì)象的數(shù)量、規(guī)模及復(fù)雜度均呈現(xiàn)指數(shù)級(jí)增長,傳統(tǒng)人工干預(yù)、保姆式管理監(jiān)控與故障處理的方式肯定無法滿足要求了。比如對(duì)于公有云及大型私有云,服務(wù)器數(shù)量往往可以達(dá)到數(shù)萬到數(shù)十萬、百萬規(guī)模,各類系統(tǒng)云服務(wù)及租戶的機(jī)柜業(yè)務(wù)應(yīng)用負(fù)載數(shù)量,也達(dá)到了數(shù)以百萬乃至千萬級(jí)的程度,這樣全靠人工維護(hù)不現(xiàn)實(shí),必須引入自動(dòng)化、智能化運(yùn)維的管理模式,將人均維護(hù)管理效率從平均每人數(shù)十臺(tái)服務(wù)器,提升到平均每人數(shù)千臺(tái)服務(wù)器。運(yùn)維的管理不能成為數(shù)據(jù)中心上云發(fā)展的絆腳石,也要跟得上數(shù)據(jù)中心的發(fā)展。本文將著重介紹幾種現(xiàn)代運(yùn)維中運(yùn)用的新技術(shù)手段。
自動(dòng)化人工故障修復(fù)機(jī)制
數(shù)據(jù)中心難免會(huì)出現(xiàn)這樣那樣的問題,靠人工發(fā)現(xiàn)不僅速度慢,而且容易誤判。不妨將這個(gè)識(shí)別工作交由軟件來處理。首先,要建立一個(gè)故障模式庫,長期積累各種曾經(jīng)或者可能會(huì)出現(xiàn)的故障預(yù)判、識(shí)別,這個(gè)故障庫內(nèi)容要實(shí)時(shí)保持更新,不斷將一些新的故障類型和經(jīng)驗(yàn)輸入進(jìn)去。其次,將故障判斷的方法告知軟件設(shè)備,由軟件自動(dòng)完成判斷,軟件根據(jù)從數(shù)據(jù)中心各個(gè)設(shè)備收集上來的運(yùn)行參數(shù),與故障模式庫里保存的參數(shù)進(jìn)行對(duì)比,如果發(fā)現(xiàn)有相同的,認(rèn)為是數(shù)據(jù)中心出故障了。最后,數(shù)據(jù)中心可以采取告警方式通知運(yùn)維人員,也可以由軟件執(zhí)行一鍵式修復(fù)。這個(gè)取決于業(yè)務(wù)的重要性以及數(shù)據(jù)中心故障經(jīng)驗(yàn)積累的豐富性,萬一恢復(fù)動(dòng)作錯(cuò)誤,可能會(huì)引發(fā)二次故障,給數(shù)據(jù)中心帶來更大的損失,所以修復(fù)機(jī)制一定要慎重,非緊急的業(yè)務(wù)故障不建議采用自動(dòng)修復(fù),待人員確認(rèn)之后再去手工執(zhí)行修復(fù)。實(shí)際上,云計(jì)算的引入增加了數(shù)據(jù)中心故障自動(dòng)檢測(cè)和修復(fù)的難度,所有的應(yīng)用業(yè)務(wù)都已和物理硬件設(shè)備脫離,形成了一個(gè)純軟件的虛擬世界,復(fù)雜的虛擬系統(tǒng)給故障的排查和分辨都帶來了難度,這給自動(dòng)化人工故障修復(fù)帶來了極大挑戰(zhàn)。不過,數(shù)據(jù)中心運(yùn)維走自動(dòng)化的路已不可避免,過多的人力成本對(duì)于任何一個(gè)高速擴(kuò)張的數(shù)據(jù)中心都無法承受。
日志和監(jiān)控信息集中管理與控制
傳統(tǒng)數(shù)據(jù)中心中,各軟硬件系統(tǒng)的日志監(jiān)控信息往往相對(duì)零散孤立,沒有實(shí)現(xiàn)與業(yè)務(wù)和用戶的自動(dòng)關(guān)聯(lián),當(dāng)出現(xiàn)故障時(shí),甚至還需要依此登錄到每臺(tái)設(shè)備上去排查,效率低下。在有些數(shù)據(jù)中心雖然部署了網(wǎng)管系統(tǒng)、日志服務(wù)器,依然需要人工檢查。當(dāng)數(shù)十萬的設(shè)備同時(shí)輸出日志時(shí),海量的數(shù)據(jù)根本沒有辦法進(jìn)行檢查,這時(shí)就要統(tǒng)一對(duì)這些信息進(jìn)行分析和判斷。很多數(shù)據(jù)中心建設(shè)運(yùn)維管理云平臺(tái),就是要將這些海量數(shù)據(jù)進(jìn)行統(tǒng)一處理,依然是通過提前設(shè)定判斷條件,然后發(fā)現(xiàn)不符合常規(guī)的日志及時(shí)進(jìn)行告警。云平臺(tái)的判斷條件忽略了日志告警的設(shè)備差異,只關(guān)心對(duì)業(yè)務(wù)有影響的日志信息,設(shè)計(jì)一些特有的判斷故障的條件,這些條件需要和各種設(shè)備廠商溝通好,證實(shí)這些判斷是有效的,然后在云平臺(tái)中部署。云平臺(tái)的功能很強(qiáng)大,僅僅是依靠設(shè)備主動(dòng)輸出日志來診斷是遠(yuǎn)遠(yuǎn)不夠的,它還可以主動(dòng)從數(shù)據(jù)中心的任何一個(gè)環(huán)節(jié)采集監(jiān)控信息,這些監(jiān)控信息可以實(shí)時(shí)反映整個(gè)數(shù)據(jù)中心系統(tǒng)運(yùn)行的綜合狀態(tài),一旦出現(xiàn)異常的參數(shù)或者有變化的數(shù)值,就要引起警惕,輸出告警。
大數(shù)據(jù)的機(jī)器學(xué)習(xí)機(jī)制
傳統(tǒng)數(shù)據(jù)中心的故障發(fā)現(xiàn)與修復(fù)建議的處理,主要依賴云平臺(tái)收集的日志和監(jiān)控信息,通過運(yùn)維人員長期積累的歷史經(jīng)驗(yàn)進(jìn)行判斷,人的行為是最不可靠的,很多時(shí)候經(jīng)驗(yàn)都是錯(cuò)誤的,而機(jī)器則不會(huì)出錯(cuò),只要你給它足夠的學(xué)習(xí)信息,它就可以做出正確的判斷。最近Master很火,Master是一款會(huì)下圍棋的機(jī)器人,在最近的圍棋比賽中,取得了60勝1和的成績,1和還是因?yàn)榈艟€被系統(tǒng)判和,落敗者包括聶衛(wèi)平等頂尖圍棋高手,這說明只要給設(shè)備足夠的學(xué)習(xí)時(shí)間,它的智慧可以遠(yuǎn)遠(yuǎn)超過人類。運(yùn)維的管理也可以引入機(jī)器學(xué)習(xí)技術(shù),通過對(duì)數(shù)據(jù)中心運(yùn)維海量數(shù)據(jù)的分析,利用大數(shù)據(jù)建模,自動(dòng)化地、智能化地挖掘出更多高價(jià)值的、運(yùn)維人員認(rèn)知范圍外的故障模式與系統(tǒng)優(yōu)化模式,從而進(jìn)一步提升系統(tǒng)運(yùn)維的效率。通過大數(shù)據(jù)機(jī)器學(xué)習(xí),對(duì)大規(guī)模運(yùn)維場(chǎng)景下的性能與故障規(guī)律分析、趨勢(shì)預(yù)測(cè)及故障根因識(shí)別定位,提升機(jī)器自動(dòng)化運(yùn)維的能力,最終其將超過人工運(yùn)維的判斷準(zhǔn)確性,就像機(jī)器人下圍棋一樣,最終機(jī)器運(yùn)維數(shù)據(jù)中心也要大大超過人們自動(dòng)去做。人們只要去研究如何讓這些機(jī)器正確學(xué)習(xí),學(xué)習(xí)好就可以了。
顯而易見,云數(shù)據(jù)中心新的自動(dòng)化運(yùn)維技術(shù)特點(diǎn)主要是:自動(dòng)化、自學(xué)習(xí)。由機(jī)器自我學(xué)習(xí),自動(dòng)完成數(shù)據(jù)中心的運(yùn)維和故障修復(fù)。未來的數(shù)據(jù)中心雖然規(guī)模更大,系統(tǒng)更復(fù)雜,但在運(yùn)維的管理上要從簡,實(shí)現(xiàn)自動(dòng)化運(yùn)維管理。數(shù)據(jù)中心運(yùn)維將人的因素排除,讓數(shù)據(jù)中心形成一個(gè)完全的自治系統(tǒng),實(shí)現(xiàn)成為真正的無人數(shù)據(jù)中心。當(dāng)然,數(shù)據(jù)中心的自動(dòng)化運(yùn)維還有很長的路要走,沒有哪個(gè)數(shù)據(jù)中心能夠真正脫離人工參與。這就像自動(dòng)駕駛汽車技術(shù)發(fā)展一樣,技術(shù)復(fù)雜,并徹底改變了現(xiàn)有的生活方式,要人們接受需要很長時(shí)日。對(duì)于數(shù)據(jù)中心也一樣,自動(dòng)化運(yùn)維技術(shù)雖好,但仍不夠成熟,很多人持觀望的態(tài)度,但愿未來這類技術(shù)可以很快完善起來。
13342898875