本發(fā)明涉及輻射,特別涉及一種天然氣客戶用氣非結(jié)構(gòu)化的數(shù)據(jù)抽取方法及裝置。
背景技術(shù):
1、為實(shí)現(xiàn)天然氣價(jià)值最大化,深入理解客戶用氣特性、創(chuàng)建知識圖譜變得至關(guān)重要,不僅有助于銷售公司優(yōu)化供應(yīng)鏈,還能增強(qiáng)服務(wù)質(zhì)量,提升用戶滿意度,增強(qiáng)天然氣銷售公司的競爭優(yōu)勢。信息采集及抽取是客戶特性分析及創(chuàng)建知識圖譜的第一步且是關(guān)鍵的技術(shù)基礎(chǔ),結(jié)構(gòu)化的數(shù)據(jù)采集清洗技術(shù)已非常成熟,非結(jié)構(gòu)化的數(shù)據(jù)抽取及轉(zhuǎn)換與文檔內(nèi)容及目標(biāo)數(shù)據(jù)格式高度相關(guān),抽取過程存在一定復(fù)雜性,通用性較差,如果抽取質(zhì)量較差將極大降低后續(xù)客戶特性分析及知識圖譜創(chuàng)建的效果。因此如何針對天然氣客戶的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行自動(dòng)抽取及轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù)成為亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種天然氣客戶用氣非結(jié)構(gòu)化的數(shù)據(jù)抽取方法及裝置。
2、第一方面,本發(fā)明實(shí)施例提供了一種天然氣客戶用氣非結(jié)構(gòu)化的數(shù)據(jù)抽取方法,包括:
3、獲取客戶用氣數(shù)據(jù)的文本,將所述客戶用氣數(shù)據(jù)的文本轉(zhuǎn)換成字符串;
4、從轉(zhuǎn)換后得到的字符串中提取出客戶用氣粗粒度數(shù)據(jù);
5、根據(jù)提取內(nèi)容的類型,將所述客戶用氣粗粒度數(shù)據(jù)劃分為多個(gè)類別,分別對各類別下的所述客戶用氣粗粒度數(shù)據(jù)進(jìn)行處理,得到各類別下的結(jié)構(gòu)化的數(shù)據(jù);所述多個(gè)類別包括:描述類文本、表格類文本和閱讀理解類文本。
6、在一個(gè)實(shí)施例中,所述從轉(zhuǎn)換后得到的字符串中提取出客戶用氣粗粒度數(shù)據(jù),包括:
7、對所述轉(zhuǎn)換后得到的字符串進(jìn)行分割;
8、根據(jù)預(yù)設(shè)的條件,對分割后的字符串進(jìn)行篩選,得到所述客戶用氣粗粒度數(shù)據(jù)。
9、在一個(gè)實(shí)施例中,所述類別為描述類文本,對描述類文本類別下的所述客戶用氣粗粒度數(shù)據(jù)進(jìn)行處理,得到描述類文本類別下的結(jié)構(gòu)化的數(shù)據(jù),包括:
10、對所述客戶用氣粗粒度數(shù)據(jù)進(jìn)行清洗,去除預(yù)設(shè)的特殊字符及不符合預(yù)設(shè)規(guī)則的字符,得到描述類文本類別下的結(jié)構(gòu)化的數(shù)據(jù)。
11、在一個(gè)實(shí)施例中,所述類別為表格類文本,對表格類文本類別下的所述客戶用氣粗粒度數(shù)據(jù)進(jìn)行處理,得到表格類文本類別下的結(jié)構(gòu)化的數(shù)據(jù),包括:
12、將客戶用氣粗粒度數(shù)據(jù)與預(yù)設(shè)的目標(biāo)字段進(jìn)行對應(yīng),得到所述表格類數(shù)據(jù)與預(yù)設(shè)的目標(biāo)字段之間的對應(yīng)關(guān)系;
13、獲取所述表格類數(shù)據(jù)在所述客戶用氣粗粒度數(shù)據(jù)中的位置;
14、獲取除預(yù)設(shè)的特殊行之外的所述客戶用氣粗粒度數(shù)據(jù);
15、根據(jù)所述客戶用氣粗粒度數(shù)據(jù)與預(yù)設(shè)的目標(biāo)字段之間的對應(yīng)關(guān)系,將所述客戶用氣粗粒度數(shù)據(jù)拼接成一條整表格類數(shù)據(jù),所述整表格類數(shù)據(jù)作為表格類文本類別下的結(jié)構(gòu)化的數(shù)據(jù)。
16、在一個(gè)實(shí)施例中,所述類別為閱讀理解類文本,對閱讀理解類文本下的所述客戶用氣粗粒度數(shù)據(jù)進(jìn)行處理,得到閱讀理解類文本類別下的結(jié)構(gòu)化的數(shù)據(jù),包括:
17、獲得同類的粗粒度文本數(shù)據(jù);
18、按照預(yù)設(shè)的比例,將所述粗粒度文本數(shù)據(jù)分為訓(xùn)練集數(shù)據(jù)和驗(yàn)證集數(shù)據(jù);
19、對所述訓(xùn)練集數(shù)據(jù),采用bieso的標(biāo)注方式對所述粗粒度文本數(shù)據(jù)中的各種實(shí)體進(jìn)行標(biāo)注;
20、將標(biāo)注后的數(shù)據(jù)輸入預(yù)訓(xùn)練的bert中文預(yù)訓(xùn)練模型獲得對應(yīng)的文字向量序列;
21、將獲得的文字向量序列輸入至高效全局指針模型中進(jìn)行頭實(shí)體和尾實(shí)體的關(guān)系的提?。?/p>
22、將訓(xùn)練集劃分為多個(gè)批次,對高效全局指針模型進(jìn)行訓(xùn)練,并通過降低損失函數(shù)對模型進(jìn)行優(yōu)化,并利用驗(yàn)證集數(shù)據(jù)對全局高效指針模型進(jìn)行預(yù)測,獲得對應(yīng)的頭實(shí)體、尾實(shí)體、實(shí)體的頭部關(guān)系和實(shí)體的尾部關(guān)系,通過精確率、召回率和f1值評估預(yù)測結(jié)果,直至達(dá)到預(yù)設(shè)的預(yù)測結(jié)果;
23、利用訓(xùn)練完成的高效全局指針模型,輸出所述閱讀理解類文本數(shù)據(jù)對應(yīng)的頭實(shí)體、尾實(shí)體、實(shí)體頭部和實(shí)體尾部關(guān)系的結(jié)構(gòu)數(shù)據(jù)。
24、第二方面,本發(fā)明實(shí)施例提供了一種天然氣客戶用氣非結(jié)構(gòu)化的數(shù)據(jù)抽取裝置,包括:
25、獲取模塊,用于獲取客戶用氣數(shù)據(jù)的文本,將所述客戶用氣數(shù)據(jù)的文本轉(zhuǎn)換成字符串;
26、粗提取模塊,用于從轉(zhuǎn)換后得到的字符串中提取出客戶用氣粗粒度數(shù)據(jù);
27、分類處理模塊,用于根據(jù)提取內(nèi)容的類型,將所述客戶用氣粗粒度數(shù)據(jù)劃分為多個(gè)類別,分別對各類別下的所述客戶用氣粗粒度數(shù)據(jù)進(jìn)行處理,得到各類別下的結(jié)構(gòu)化的數(shù)據(jù);所述多個(gè)類別包括:描述類文本、表格類文本和閱讀理解類文本。
28、在一個(gè)實(shí)施例中,所述裝置還包括:
29、分割模塊,用于對所述轉(zhuǎn)換后得到的字符串進(jìn)行分割;
30、篩選模塊,用于根據(jù)預(yù)設(shè)的條件,對所述分割后的字符串進(jìn)行篩選,得到所述粗粒度數(shù)據(jù)。
31、在一個(gè)實(shí)施例中,所述裝置還包括:
32、描述類文本模塊,用于對描述類文本類別下的所述粗粒度數(shù)據(jù)進(jìn)行處理,得到描述類文本類別下的結(jié)構(gòu)化的數(shù)據(jù);
33、表格類文本模塊,用于對表格類文本類別下的所述粗粒度數(shù)據(jù)進(jìn)行處理,得到表格類文本類別下的結(jié)構(gòu)化的數(shù)據(jù);
34、閱讀理解類模塊,用于對閱讀理解類文本下的所述粗粒度數(shù)據(jù)進(jìn)行處理,得到閱讀理解類文本類別下的結(jié)構(gòu)化的數(shù)據(jù)。
35、第三方面,本發(fā)明實(shí)施例提供了一種計(jì)算設(shè)備,包括:存儲器、處理器及存儲于存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行的所屬程序時(shí)實(shí)現(xiàn)所述的一種天然氣客戶用氣非結(jié)構(gòu)化的數(shù)據(jù)抽取方法。
36、第四方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的一種天然氣客戶用氣非結(jié)構(gòu)化的數(shù)據(jù)抽取方法。
37、本發(fā)明實(shí)施例提供的上述技術(shù)方案的有益效果至少包括:
38、本發(fā)明實(shí)施例提供了一種天然氣客戶用氣非結(jié)構(gòu)化的數(shù)據(jù)抽取方法,包括:獲取客戶用氣數(shù)據(jù)的文本,將客戶用氣數(shù)據(jù)的文本轉(zhuǎn)換成字符串;從轉(zhuǎn)換后得到的字符串中提取出客戶用氣粗粒度數(shù)據(jù);根據(jù)提取內(nèi)容的類型,將客戶用氣粗粒度數(shù)據(jù)劃分為多個(gè)類別,分別對各類別下的客戶用氣粗粒度數(shù)據(jù)進(jìn)行處理,得到各類別下的結(jié)構(gòu)化的數(shù)據(jù);多個(gè)類別包括:描述類文本、表格類文本和閱讀理解類文本。本發(fā)明實(shí)施例通過先獲取客戶用氣數(shù)據(jù)的文本,后根據(jù)目標(biāo)字段類型采用不同數(shù)據(jù)結(jié)構(gòu)化方式,實(shí)現(xiàn)了根據(jù)天然氣客戶數(shù)據(jù)文檔特點(diǎn)確定抽取方法,快速高效精準(zhǔn)的獲取了天然氣客戶用氣數(shù)據(jù),為后續(xù)進(jìn)行天然氣客戶特性分析及知識圖譜創(chuàng)建提供了高質(zhì)量數(shù)據(jù)。
39、本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
40、下面通過附圖和實(shí)施例,對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
1.一種天然氣客戶用氣非結(jié)構(gòu)化的數(shù)據(jù)抽取方法,其特征在于,包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述從轉(zhuǎn)換后得到的字符串中提取出客戶用氣粗粒度數(shù)據(jù),包括:
3.如權(quán)利要求1所述的方法,其特征在于,所述類別為描述類文本,對描述類文本類別下的所述客戶用氣粗粒度數(shù)據(jù)進(jìn)行處理,得到描述類文本類別下的結(jié)構(gòu)化的數(shù)據(jù),包括:
4.如權(quán)利要求1所述的方法,其特征在于,所述類別為表格類文本,對表格類文本類別下的所述客戶用氣粗粒度數(shù)據(jù)進(jìn)行處理,得到表格類文本類別下的結(jié)構(gòu)化的數(shù)據(jù),包括:
5.如權(quán)利要求1所述的方法,其特征在于,所述類別為閱讀理解類文本,對閱讀理解類文本下的所述客戶用氣粗粒度數(shù)據(jù)進(jìn)行處理,得到閱讀理解類文本類別下的結(jié)構(gòu)化的數(shù)據(jù),包括:
6.一種天然氣客戶用氣非結(jié)構(gòu)化的數(shù)據(jù)抽取裝置,其特征在于,包括:
7.如權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括:
8.如權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括:
9.一種計(jì)算設(shè)備,其特征在于,包括:存儲器、處理器及存儲于存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行的所屬程序時(shí)實(shí)現(xiàn)權(quán)利要求1-5任一項(xiàng)所述的一種天然氣客戶用氣非結(jié)構(gòu)化的數(shù)據(jù)抽取方法。
10.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-5任一項(xiàng)所述的一種天然氣客戶用氣非結(jié)構(gòu)化的數(shù)據(jù)抽取方法。