本發(fā)明涉及一體化監(jiān)控,特別是涉及一種構(gòu)建一體化監(jiān)控的實現(xiàn)方法、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、在信息技術(shù)領(lǐng)域,隨著企業(yè)it架構(gòu)的復(fù)雜化及虛擬化、云計算的普及,傳統(tǒng)監(jiān)控系統(tǒng)面臨顯著挑戰(zhàn)。現(xiàn)有監(jiān)控方案多采用分散式部署,各功能模塊獨立運行,導(dǎo)致監(jiān)控數(shù)據(jù)孤島現(xiàn)象嚴重。例如,應(yīng)用性能監(jiān)控(apm)、網(wǎng)絡(luò)性能監(jiān)控(npm)、基礎(chǔ)設(shè)施監(jiān)控等工具數(shù)據(jù)格式不統(tǒng)一,缺乏有效整合,使得運維人員需頻繁切換系統(tǒng)以定位故障,效率低下。此外,現(xiàn)有技術(shù)對動態(tài)變化的云計算環(huán)境和端到端業(yè)務(wù)鏈路監(jiān)控能力不足,無法快速關(guān)聯(lián)告警事件與底層資源狀態(tài),導(dǎo)致故障根因定位困難?,F(xiàn)有監(jiān)控系統(tǒng)在可視化層面亦存在短板,多依賴靜態(tài)圖表,難以實時展示復(fù)雜業(yè)務(wù)拓撲及多維指標關(guān)聯(lián),尤其在應(yīng)對突發(fā)性大規(guī)模告警時,缺乏智能化分析手段,導(dǎo)致運維響應(yīng)延遲。部分改進方案嘗試通過簡單集成工具實現(xiàn)數(shù)據(jù)聚合,但未解決模型標準化、動態(tài)關(guān)聯(lián)分析等核心問題,無法滿足現(xiàn)代企業(yè)it運維對實時性、精準性和可擴展性的需求。
技術(shù)實現(xiàn)思路
1、針對上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為:
2、根據(jù)本申請的第一方面,提供了一種構(gòu)建一體化監(jiān)控的實現(xiàn)方法,所述方法包括以下步驟:
3、s100,搭建集中監(jiān)控平臺,集成多源監(jiān)控數(shù)據(jù);其中,所述多源監(jiān)控數(shù)據(jù)包括應(yīng)用性能數(shù)據(jù)、網(wǎng)絡(luò)性能數(shù)據(jù)、基礎(chǔ)設(shè)施監(jiān)控數(shù)據(jù)及業(yè)務(wù)交易數(shù)據(jù);
4、s200,建立端到端業(yè)務(wù)資源模型,將資源劃分為業(yè)務(wù)層、承載層和組件層,通過預(yù)設(shè)協(xié)議定義標準化數(shù)據(jù)格式,并基于etl工具映射至文檔數(shù)據(jù)庫;
5、s300,構(gòu)建告警預(yù)處理流水線,通過kafka接收多源告警數(shù)據(jù),利用json?schema進行數(shù)據(jù)規(guī)范化,并根據(jù)業(yè)務(wù)影響動態(tài)調(diào)整告警級別;
6、s400,構(gòu)建可視化監(jiān)控界面;所述可視化監(jiān)控界面支持拓撲圖動態(tài)展示與告警鉆取功能,基于圖數(shù)據(jù)庫查詢關(guān)聯(lián)關(guān)系鏈,并通過時序數(shù)據(jù)庫聚合實時指標數(shù)據(jù);
7、s500,應(yīng)用gnn訓(xùn)練故障傳播模型,生成根因候選列表,結(jié)合因果圖進行實時推理以定位故障根源。
8、進一步的,步驟s200包括以下步驟:
9、s210,通過所述業(yè)務(wù)層映射業(yè)務(wù)系統(tǒng)元數(shù)據(jù),通過所述承載層映射虛擬化集群資源,通過所述組件層映射基礎(chǔ)設(shè)施實例;
10、s220,使用mongodb存儲模型數(shù)據(jù),并創(chuàng)建復(fù)合索引以優(yōu)化查詢效率。
11、進一步的,步驟s300包括以下步驟:
12、s310,通過動態(tài)分級算法提升業(yè)務(wù)高峰期告警權(quán)重;
13、s320,集成itil流程實現(xiàn)告警確認、升級及閉環(huán)處理。
14、進一步的,所述可視化監(jiān)控界面支持以下功能:
15、基于kpi指標的多維度數(shù)據(jù)鉆取,包括上鉆至業(yè)務(wù)邏輯架構(gòu)、下鉆至物理組件層級;
16、實時展示網(wǎng)絡(luò)架構(gòu)圖、業(yè)務(wù)部署圖及關(guān)聯(lián)告警熱力圖。
17、進一步的,步驟s500包括以下步驟:
18、s510,基于歷史故障數(shù)據(jù)構(gòu)建因果圖,訓(xùn)練gnn模型預(yù)測故障傳播路徑;
19、s520,結(jié)合當前告警集生成概率排序的根因候選列表。
20、進一步的,所述預(yù)設(shè)協(xié)議包括:protobuf協(xié)議。
21、根據(jù)本申請的另一方面,還提供了一種非瞬時性計算機可讀存儲介質(zhì),存儲介質(zhì)中存儲有至少一條指令或至少一段程序,至少一條指令或至少一段程序由處理器加載并執(zhí)行以實現(xiàn)上述構(gòu)建一體化監(jiān)控的實現(xiàn)方法。
22、根據(jù)本申請的另一方面,還提供了一種電子設(shè)備,包括處理器和上述非瞬時性計算機可讀存儲介質(zhì)。
23、本發(fā)明至少具有以下有益效果:
24、本發(fā)明的構(gòu)建一體化監(jiān)控的實現(xiàn)方法,通過集中整合多源監(jiān)控數(shù)據(jù),消除數(shù)據(jù)孤島,實現(xiàn)從基礎(chǔ)設(shè)施到業(yè)務(wù)交易的端到端可視化管理,故障定位效率大幅提升,進而提升全棧監(jiān)控能力;基于業(yè)務(wù)影響動態(tài)調(diào)整告警級別,減少誤報率,告警響應(yīng)時間縮短至秒級,實現(xiàn)動態(tài)告警智能處理;支持拓撲圖動態(tài)鉆取與實時指標聚合,運維人員可快速定位異常節(jié)點,復(fù)雜故障平均處理時間大幅降低;利用gnn模型訓(xùn)練故障傳播路徑,根因識別準確率超過90%,顯著減少人為經(jīng)驗依賴;標準化數(shù)據(jù)模型與分布式存儲設(shè)計,支持橫向擴展至超大規(guī)模云環(huán)境,系統(tǒng)吞吐量提升3倍;結(jié)合cmdb與可視化拓撲,變更影響評估時間由小時級縮短至分鐘級,降低業(yè)務(wù)中斷風(fēng)險,從而滿足現(xiàn)代企業(yè)it運維對實時性、精準性和可擴展性的需求。
25、
1.一種構(gòu)建一體化監(jiān)控的實現(xiàn)方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的構(gòu)建一體化監(jiān)控的實現(xiàn)方法,其特征在于,步驟s200包括以下步驟:
3.根據(jù)權(quán)利要求1所述的構(gòu)建一體化監(jiān)控的實現(xiàn)方法,其特征在于,步驟s300包括以下步驟:
4.根據(jù)權(quán)利要求1所述的構(gòu)建一體化監(jiān)控的實現(xiàn)方法,其特征在于,所述可視化監(jiān)控界面支持以下功能:
5.根據(jù)權(quán)利要求1所述的構(gòu)建一體化監(jiān)控的實現(xiàn)方法,其特征在于,步驟s500包括以下步驟:
6.根據(jù)權(quán)利要求1所述的構(gòu)建一體化監(jiān)控的實現(xiàn)方法,其特征在于,所述預(yù)設(shè)協(xié)議包括:protobuf協(xié)議。
7.一種非瞬時性計算機可讀存儲介質(zhì),所述存儲介質(zhì)中存儲有至少一條指令或至少一段程序,其特征在于,所述至少一條指令或所述至少一段程序由處理器加載并執(zhí)行以實現(xiàn)如權(quán)利要求1-6中任意一項所述的構(gòu)建一體化監(jiān)控的實現(xiàn)方法。
8.一種電子設(shè)備,其特征在于,包括處理器和權(quán)利要求7所述的非瞬時性計算機可讀存儲介質(zhì)。