本發(fā)明涉及云平臺運(yùn)維監(jiān)控,尤其涉及一種私有云監(jiān)控系統(tǒng)及方法。
背景技術(shù):
1、隨著云計(jì)算技術(shù)的發(fā)展,使用云平臺為基礎(chǔ)進(jìn)行軟件的開發(fā)、運(yùn)行和管理已成為趨勢。云平臺提供計(jì)算、存儲、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施服務(wù),以及數(shù)據(jù)庫、中間件、大數(shù)據(jù)等云組件服務(wù)。軟件運(yùn)行在云平臺中并使用云平臺提供的各種服務(wù),使用戶無需在本地維護(hù)各種硬件、軟件資源,而由云平臺統(tǒng)一管理。云平臺還可實(shí)現(xiàn)資源按需擴(kuò)展、彈性部署、負(fù)載均衡、數(shù)據(jù)備份、災(zāi)備恢復(fù)等能力,大大提高了硬件、軟件資源的使用和管理效率,以及軟件運(yùn)行的可靠性、可擴(kuò)展性。
2、云平臺運(yùn)維監(jiān)控系統(tǒng)對云平臺進(jìn)行運(yùn)維監(jiān)控,能夠?qū)υ破脚_各個組件的運(yùn)行狀態(tài)、資源使用情況進(jìn)行可視化監(jiān)控,對異常狀態(tài)進(jìn)行告警,保障云平臺的健康運(yùn)行。云平臺的組件較多,每個組件都有各自的管理界面,傳統(tǒng)云平臺運(yùn)維監(jiān)控系統(tǒng)對各組件的監(jiān)控和告警分散在組件各自的管理界面中,導(dǎo)致監(jiān)控和告警信息分散,使用戶不能從全局的視角來掌握云平臺的當(dāng)前狀態(tài),不能第一時間發(fā)現(xiàn)問題;同時傳統(tǒng)云平臺的告警存在無效告警數(shù)據(jù)多,告警誤報(bào)率高等問題,不能準(zhǔn)確反映云平臺真實(shí)狀態(tài)。針對上述問題,需要能夠?qū)υ破脚_運(yùn)維監(jiān)控系統(tǒng)進(jìn)行改進(jìn),對云平臺關(guān)鍵組件提供全局性的監(jiān)控信息和告警信息匯聚展示并提高告警的有效性。私有云(private?clouds)是一種為企業(yè)或個人單獨(dú)使用的云計(jì)算方式,提供對數(shù)據(jù)、安全性和服務(wù)質(zhì)量的最有效控制。私有云是為一個客戶單獨(dú)使用而構(gòu)建的,企業(yè)擁有基礎(chǔ)設(shè)施,并可以控制在此基礎(chǔ)設(shè)施上部署應(yīng)用程序的方式。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題在于,提供一種私有云監(jiān)控系統(tǒng)及方法,該系統(tǒng)基于prometheus和grafana,可對云平臺關(guān)鍵組件提供全局性的監(jiān)控信息,并對告警信息進(jìn)行匯聚展示,可提高告警的有效性。該系統(tǒng)克服了現(xiàn)有監(jiān)控裝置的不足,可提高云平臺系統(tǒng)穩(wěn)定性和使用效益,具有工程實(shí)踐應(yīng)用意義。
2、為了解決上述技術(shù)問題,本發(fā)明實(shí)施例第一方面公開了一種私有云監(jiān)控系統(tǒng),所述系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)存儲模塊、監(jiān)控展示模塊和告警執(zhí)行模塊;
3、所述數(shù)據(jù)采集模塊與所述數(shù)據(jù)存儲模塊、所述監(jiān)控展示模塊、所述告警執(zhí)行模塊數(shù)據(jù)連接,用于采集云平臺數(shù)據(jù);
4、所述數(shù)據(jù)存儲模塊與所述數(shù)據(jù)采集模塊數(shù)據(jù)連接,用于存儲云平臺數(shù)據(jù);
5、所述監(jiān)控展示模塊與所述數(shù)據(jù)采集模塊數(shù)據(jù)連接,用于對云平臺數(shù)據(jù)進(jìn)行監(jiān)控展示;
6、所述告警執(zhí)行模塊所述數(shù)據(jù)采集模塊數(shù)據(jù)連接,用于管理告警信息。
7、作為一種可選的實(shí)施方式,本發(fā)明實(shí)施例第一方面中,所述數(shù)據(jù)采集模塊包括開放公網(wǎng)訪問和企業(yè)局域網(wǎng)訪問;
8、所述開放公網(wǎng)訪問,用于利用云平臺數(shù)據(jù)接口獲取云平臺數(shù)據(jù),并且針對特定場景下的復(fù)雜需求進(jìn)行定制化探針數(shù)據(jù)采集;
9、所述企業(yè)局域網(wǎng)訪問,用于進(jìn)行跨網(wǎng)交互監(jiān)控?cái)?shù)據(jù)采集。
10、作為一種可選的實(shí)施方式,本發(fā)明實(shí)施例第一方面中,所述數(shù)據(jù)存儲模塊包括數(shù)據(jù)分片存儲;
11、所述數(shù)據(jù)分片存儲包括將不同的采集任務(wù)劃分到不同的監(jiān)控服務(wù)端,在上層通過一個監(jiān)控服務(wù)端對數(shù)據(jù)進(jìn)行匯總。
12、本發(fā)明實(shí)施例第二方面公開了一種私有云監(jiān)控方法,所述方法包括:
13、s1,利用數(shù)據(jù)采集模塊采集監(jiān)控源的云平臺數(shù)據(jù);
14、s2,利用數(shù)據(jù)存儲模塊對所述云平臺數(shù)據(jù)進(jìn)行存儲;
15、s3,利用監(jiān)控展示模塊,對所述云平臺數(shù)據(jù)進(jìn)行顯示;
16、s4,利用告警執(zhí)行模塊對所述云平臺數(shù)據(jù)進(jìn)行處理,得到告警信息。
17、作為一種可選的實(shí)施方式,本發(fā)明實(shí)施例第二方面中,所述利用數(shù)據(jù)采集模塊采集監(jiān)控源的云平臺數(shù)據(jù),包括:
18、s11,在開放公網(wǎng)訪問時,利用云平臺數(shù)據(jù)接口和定制化探針相結(jié)合,采集監(jiān)控源的云平臺數(shù)據(jù);
19、s12,在企業(yè)局域網(wǎng)訪問時,利用跨網(wǎng)交互監(jiān)控方式采集監(jiān)控源的云平臺數(shù)據(jù)。
20、作為一種可選的實(shí)施方式,本發(fā)明實(shí)施例第二方面中,所述在開放公網(wǎng)訪問時,利用云平臺數(shù)據(jù)接口和定制化探針相結(jié)合,采集監(jiān)控源的云平臺數(shù)據(jù),包括:
21、s111,對云平臺數(shù)據(jù)接口的接口訪問頻率進(jìn)行優(yōu)化,得到優(yōu)化上限訪問量;
22、所述優(yōu)化上限訪問量的計(jì)算方法為:
23、單用戶*每分鐘(60m)*30=1800
24、其中,單用戶為每秒鐘30次的上限訪問量,系統(tǒng)當(dāng)前需要獲取100多個指標(biāo),系統(tǒng)自動將100多個指標(biāo)分組,每組包含不超過30個指標(biāo);
25、s112,基于所述優(yōu)化上限訪問量,利用定時輪詢的方法采集監(jiān)控源的云平臺數(shù)據(jù)。
26、作為一種可選的實(shí)施方式,本發(fā)明實(shí)施例第二方面中,所述在企業(yè)局域網(wǎng)訪問時,利用跨網(wǎng)交互監(jiān)控方式采集監(jiān)控源的云平臺數(shù)據(jù),包括:
27、s121,在兩個物理隔離的網(wǎng)絡(luò)中分別部署云平臺監(jiān)控信息系統(tǒng),通過映射的方式實(shí)現(xiàn)一個地址分別訪問兩個云平臺監(jiān)控信息系統(tǒng);
28、s122,利用預(yù)設(shè)的監(jiān)控服務(wù)端采集所述兩個云平臺監(jiān)控信息系統(tǒng)的云平臺數(shù)據(jù)。
29、作為一種可選的實(shí)施方式,本發(fā)明實(shí)施例第二方面中,所述利用數(shù)據(jù)存儲模塊對所述云平臺數(shù)據(jù)進(jìn)行存儲,包括:
30、s21,利用數(shù)據(jù)存儲模塊,定義數(shù)據(jù)存儲結(jié)構(gòu);
31、s22,基于所述數(shù)據(jù)存儲結(jié)構(gòu),利用數(shù)據(jù)分片存儲方式,對所述云平臺數(shù)據(jù)進(jìn)行存儲。
32、作為一種可選的實(shí)施方式,本發(fā)明實(shí)施例第二方面中,所述利用告警執(zhí)行模塊對所述云平臺數(shù)據(jù)進(jìn)行處理,得到告警信息,包括:
33、s41,對所述云平臺數(shù)據(jù)進(jìn)行處理,得到監(jiān)控?cái)?shù)據(jù);
34、s42,預(yù)設(shè)告警規(guī)則;所述告警規(guī)則包括告警條件、告警級別和告警閾值;
35、s43,根據(jù)所述告警規(guī)則,對所述監(jiān)控?cái)?shù)據(jù)進(jìn)行分析,當(dāng)判斷不觸發(fā)告警時,取消已存在的告警;當(dāng)判斷觸發(fā)告警時,執(zhí)行s44;
36、s44,對所述監(jiān)控?cái)?shù)據(jù)進(jìn)行分析,生成新的告警信息或更新已有告警信息,并保存在數(shù)據(jù)庫中。
37、與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例具有以下有益效果:
38、本發(fā)明對云平臺各組件的監(jiān)控和告警集中在云平臺運(yùn)維監(jiān)控裝置(私有云監(jiān)控系統(tǒng))中。本發(fā)明采用云平臺數(shù)據(jù)接口及定制化探針數(shù)據(jù)采集雙重手段,自定義數(shù)據(jù)存儲結(jié)構(gòu);減少云平臺的無效告警數(shù)據(jù),減小告警誤報(bào)率。在實(shí)用性上可以推廣到云平臺管理與應(yīng)用相關(guān)領(lǐng)域中。
1.一種私有云監(jiān)控系統(tǒng),其特征在于,所述系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)存儲模塊、監(jiān)控展示模塊和告警執(zhí)行模塊;
2.根據(jù)權(quán)利要求1所述的私有云監(jiān)控系統(tǒng),其特征在于,所述數(shù)據(jù)采集模塊包括開放公網(wǎng)訪問單元和企業(yè)局域網(wǎng)訪問單元;
3.根據(jù)權(quán)利要求1所述的私有云監(jiān)控系統(tǒng),其特征在于,所述數(shù)據(jù)存儲模塊包括數(shù)據(jù)分片存儲;
4.一種私有云監(jiān)控方法,其特征在于,應(yīng)用于權(quán)利要求1~3所述私有云監(jiān)控系統(tǒng),所述方法包括:
5.根據(jù)權(quán)利要求4所述的私有云監(jiān)控方法,其特征在于,所述利用數(shù)據(jù)采集模塊采集監(jiān)控源的云平臺數(shù)據(jù),包括:
6.根據(jù)權(quán)利要求5所述的私有云監(jiān)控方法,其特征在于,所述在開放公網(wǎng)訪問時,利用云平臺數(shù)據(jù)接口和定制化探針相結(jié)合,采集監(jiān)控源的云平臺數(shù)據(jù),包括:
7.根據(jù)權(quán)利要求5所述的私有云監(jiān)控方法,其特征在于,所述在企業(yè)局域網(wǎng)訪問時,利用跨網(wǎng)交互監(jiān)控方式采集監(jiān)控源的云平臺數(shù)據(jù),包括:
8.根據(jù)權(quán)利要求4所述的私有云監(jiān)控方法,其特征在于,所述利用數(shù)據(jù)存儲模塊對所述云平臺數(shù)據(jù)進(jìn)行存儲,包括:
9.根據(jù)權(quán)利要求4所述的私有云監(jiān)控方法,其特征在于,所述利用告警執(zhí)行模塊對所述云平臺數(shù)據(jù)進(jìn)行處理,得到告警信息,包括: