本技術(shù)涉及文本分類,尤其涉及一種日志處理方法、裝置及電子設(shè)備、存儲介質(zhì)。
背景技術(shù):
1、隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,文本信息迎來爆發(fā)式增長,如何處理海量文本資源,對文本資源進(jìn)行高效的加工處理分類,是自然語言處理領(lǐng)域研究的重點(diǎn)之一。同時,多標(biāo)簽文本分類技術(shù),是為了解決文本分類問題中,存在的單一文本被多個不同標(biāo)簽標(biāo)注的問題而出現(xiàn)的技術(shù),有著非常廣泛的應(yīng)用領(lǐng)域。
2、以數(shù)據(jù)平臺的集群日志為例,數(shù)據(jù)平臺的構(gòu)建涉及到了網(wǎng)站開發(fā)與維護(hù)、分布式集群改造與維護(hù)、大數(shù)據(jù)計(jì)算與存儲服務(wù)的維護(hù)和優(yōu)化,而這些內(nèi)容的維護(hù)工作,需要依賴開發(fā)人員、運(yùn)維人員對程序、集群、網(wǎng)站運(yùn)行過程中產(chǎn)生的日志進(jìn)行分析,從而進(jìn)行準(zhǔn)確的定位。
3、但是在這些應(yīng)用場景中,往往輸出的日志存在著數(shù)量多、重復(fù)冗余和錯誤具有關(guān)聯(lián)等問題,開發(fā)、運(yùn)維人員更多情況下是依靠日志對關(guān)鍵詞、時間戳進(jìn)行搜索后逐行分析,翻查多個不同日志來分析錯誤發(fā)生的原因,很難快速定位到真正產(chǎn)生問題的原因,浪費(fèi)了開發(fā)、運(yùn)維人員自身工作的時間和精力而且效率低下。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供了一種日志處理方法、裝置及電子設(shè)備、存儲介質(zhì),以實(shí)現(xiàn)對文本的分類和打標(biāo)。
2、本技術(shù)實(shí)施例采用下述技術(shù)方案:
3、第一方面,本技術(shù)實(shí)施例提供一種日志處理方法,其中,所述處理方法包括:
4、獲取異常日志數(shù)據(jù);
5、根據(jù)所述異常日志數(shù)據(jù),構(gòu)建圖數(shù)據(jù),所述圖數(shù)據(jù)至少包括如下之一:單詞和單詞的第一子圖、標(biāo)簽和標(biāo)簽的第二子圖、單詞和標(biāo)簽的第三子圖;
6、將所述單詞和單詞的第一子圖、所述標(biāo)簽和標(biāo)簽的第二子圖、所述單詞和標(biāo)簽的第三子圖,得到三個子圖的鄰接矩陣作為圖卷積模型的輸入,參與訓(xùn)練得到分類器,以將所述異常日志數(shù)據(jù)中具有關(guān)聯(lián)關(guān)系的異常信息分類。
7、在一些實(shí)施例中,所述將所述單詞和單詞的第一子圖、所述標(biāo)簽和標(biāo)簽的第二子圖、所述單詞和標(biāo)簽的第三子圖,得到三個子圖的鄰接矩陣作為圖卷積模型的輸入,參與訓(xùn)練得到分類器,以將所述異常日志數(shù)據(jù)中具有關(guān)聯(lián)關(guān)系的異常信息分類,包括:
8、根據(jù)所述單詞和單詞的第一子圖,進(jìn)行卷積得到單詞的嵌入矩陣;
9、根據(jù)所述標(biāo)簽和標(biāo)簽的第二子圖,進(jìn)行卷積得到標(biāo)簽的嵌入矩陣;
10、將所述單詞的嵌入矩陣以及所述標(biāo)簽的嵌入矩陣作為所述單詞和標(biāo)簽的第三子圖的輸入,再經(jīng)過圖卷積網(wǎng)絡(luò)得到單詞和標(biāo)簽的嵌入矩陣。
11、在一些實(shí)施例中,所述單詞和標(biāo)簽的嵌入矩陣,包括:
12、根據(jù)所述單詞和標(biāo)簽的第三子圖的對稱歸一化鄰接矩陣、標(biāo)簽特征矩陣,得到單層圖卷積模型輸出結(jié)果即訓(xùn)練得到的最終的單詞和標(biāo)簽的嵌入矩陣。
13、在一些實(shí)施例中,所述方法還包括:
14、將所述最終的單詞和標(biāo)簽的嵌入矩陣,拆分為兩個矩陣分別代表單詞嵌入矩陣和標(biāo)簽嵌入矩陣;
15、通過單詞嵌入矩陣與文本的0、1向量矩陣相乘,得到文本嵌入矩陣;
16、根據(jù)所述文本嵌入矩陣與所述標(biāo)簽嵌入矩陣做矩陣乘法,得到文本和標(biāo)簽的相似性,以及文本經(jīng)過一層線性網(wǎng)絡(luò)得到的概率預(yù)測;
17、將所述文本和標(biāo)簽的相似性與所述文本經(jīng)過一層線性網(wǎng)絡(luò)得到的概率預(yù)測經(jīng)過加權(quán),將每個文本中的一維特征映射成最后的分類結(jié)果。
18、在一些實(shí)施例中,所述根據(jù)所述異常日志數(shù)據(jù),構(gòu)建圖數(shù)據(jù),所述圖數(shù)據(jù)至少包括如下之一:單詞和單詞的第一子圖、標(biāo)簽和標(biāo)簽的第二子圖、單詞和標(biāo)簽的第三子圖,包括:
19、所述單詞和單詞的第一子圖包括一個僅有單詞節(jié)點(diǎn)和單詞與單詞之間的邊連接構(gòu)成的圖;
20、假設(shè)圖中任意兩個不同單詞i、j,則若i、j在同一個異常日志中出現(xiàn),則單詞i與單詞j之間存在一條邊,若i、j沒有共同在一個錯誤中出現(xiàn),則單詞之間不存在邊,得到單詞和單詞的第一子圖的鄰接矩陣aww的定義
21、
22、其中,pmi表示點(diǎn)互信息,用以衡量單詞和單詞之間的相關(guān)性;
23、當(dāng)i、j為任意兩個不同單詞時,用pmi這個指標(biāo)來衡量單詞i和j之間的相關(guān)性;i=j(luò)時,使用1來表示節(jié)點(diǎn)自身的權(quán)重;其他情況下,鄰接矩陣元素的數(shù)值用0表示,其中pmi點(diǎn)互信息的定義如下:
24、
25、在一些實(shí)施例中,所述根據(jù)所述異常日志數(shù)據(jù),構(gòu)建圖數(shù)據(jù),所述圖數(shù)據(jù)至少包括如下之一:單詞和單詞的第一子圖、標(biāo)簽和標(biāo)簽的第二子圖、單詞和標(biāo)簽的第三子圖,包括:
26、所述標(biāo)簽和標(biāo)簽的第二子圖包括一個僅有標(biāo)簽節(jié)點(diǎn)和標(biāo)簽與標(biāo)簽之間的邊連接構(gòu)成的圖;
27、假設(shè)圖中任意兩不同標(biāo)簽i、j,若i、j標(biāo)注了同一組報錯,則標(biāo)簽i與標(biāo)簽j之間存在一條邊,若i、j沒有共同屬于同一關(guān)聯(lián)報錯,則節(jié)點(diǎn)之間不存在邊,得到標(biāo)簽和標(biāo)簽的第二子圖的鄰接矩陣all的定義
28、
29、使用pmi來度量兩個標(biāo)簽之間的相似性,如果兩個標(biāo)簽共同出現(xiàn)過必有一條邊存在,當(dāng)i、j為任意兩個不同標(biāo)簽時,相關(guān)性用pmi表示;i=j(luò)時,使用1來表示節(jié)點(diǎn)自身的權(quán)重;其他情況下,鄰接矩陣元素的數(shù)值用0表示。
30、在一些實(shí)施例中,所述根據(jù)所述異常日志數(shù)據(jù),構(gòu)建圖數(shù)據(jù),所述圖數(shù)據(jù)至少包括如下之一:單詞和單詞的第一子圖、標(biāo)簽和標(biāo)簽的第二子圖、單詞和標(biāo)簽的第三子圖,包括:
31、所述單詞和標(biāo)簽的第三子圖包括一個既有單詞節(jié)點(diǎn)又有標(biāo)簽節(jié)點(diǎn)的子圖;
32、假設(shè)任意兩個節(jié)點(diǎn)i、j,若i為單詞、j為標(biāo)簽節(jié)點(diǎn)且單詞i和標(biāo)簽j出現(xiàn)在同一個日志中,則單詞i與標(biāo)簽j之間存在一條邊;若i、j是相同屬性的兩個節(jié)點(diǎn),既同為單詞節(jié)點(diǎn)或同為標(biāo)簽節(jié)點(diǎn),則節(jié)點(diǎn)之間不存在邊,得到單詞和標(biāo)簽的第三子圖的鄰接矩陣awl的定義
33、
34、其中,tf-idf為詞頻-逆文本頻率。
35、第二方面,本技術(shù)實(shí)施例還提供一種日志處理裝置,其中,所述處理裝置包括:
36、獲取模塊,用于獲取異常日志數(shù)據(jù);
37、建圖模塊,用于根據(jù)所述異常日志數(shù)據(jù),構(gòu)建圖數(shù)據(jù),所述圖數(shù)據(jù)至少包括如下之一:單詞和單詞的第一子圖、標(biāo)簽和標(biāo)簽的第二子圖、單詞和標(biāo)簽的第三子圖;
38、分類模塊,用于將所述單詞和單詞的第一子圖、所述標(biāo)簽和標(biāo)簽的第二子圖、所述單詞和標(biāo)簽的第三子圖,得到三個子圖的鄰接矩陣作為圖卷積模型的輸入,參與訓(xùn)練得到分類器,以將所述異常日志數(shù)據(jù)中具有關(guān)聯(lián)關(guān)系的異常信息分類。
39、第三方面,本技術(shù)實(shí)施例還提供一種電子設(shè)備,包括:處理器;以及被安排成存儲計(jì)算機(jī)可執(zhí)行指令的存儲器,所述可執(zhí)行指令在被執(zhí)行時使所述處理器執(zhí)行上述方法。
40、第四方面,本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲一個或多個程序,所述一個或多個程序當(dāng)被包括多個應(yīng)用程序的電子設(shè)備執(zhí)行時,使得所述電子設(shè)備執(zhí)行上述方法。
41、本技術(shù)實(shí)施例采用的上述至少一個技術(shù)方案能夠達(dá)到以下有益效果:獲取異常日志數(shù)據(jù),根據(jù)所述異常日志數(shù)據(jù),構(gòu)建圖數(shù)據(jù)。由于圖數(shù)據(jù)至少包括如下之一:單詞和單詞的第一子圖、標(biāo)簽和標(biāo)簽的第二子圖、單詞和標(biāo)簽的第三子圖,可用以之后的模型訓(xùn)練。將所述單詞和單詞的第一子圖、所述標(biāo)簽和標(biāo)簽的第二子圖、所述單詞和標(biāo)簽的第三子圖,得到三個子圖的鄰接矩陣作為圖卷積模型的輸入,參與訓(xùn)練得到分類器,以將所述異常日志數(shù)據(jù)中具有關(guān)聯(lián)關(guān)系的異常信息分類。通過上述方法,能夠?qū)崿F(xiàn)對具有關(guān)聯(lián)關(guān)系的文本的分類。