本發(fā)明涉及人工智能,尤其涉及一種表格識(shí)別方法及裝置。
背景技術(shù):
1、表格作為信息記錄與展示的重要形式,廣泛應(yīng)用于各類(lèi)文檔和數(shù)據(jù)庫(kù)中。傳統(tǒng)的表格識(shí)別技術(shù)主要依賴于預(yù)先定義的一系列規(guī)則邏輯或進(jìn)行模板匹配,存在識(shí)別效率低、適應(yīng)性差和對(duì)復(fù)雜表格識(shí)別能力有限等問(wèn)題。
2、隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,以及卷積神經(jīng)網(wǎng)絡(luò)(cnn)和循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)的廣泛應(yīng)用,顯著提高了表格識(shí)別的效率,但是仍存在著表格識(shí)別準(zhǔn)確率低的情況發(fā)生。
3、目前,傳統(tǒng)的表格識(shí)別分為兩種大類(lèi),一種是對(duì)表格中的每個(gè)單元格進(jìn)行識(shí)別,這種識(shí)別方式需要極大的樣本量,并且識(shí)別結(jié)果的準(zhǔn)確率很低。另一種是將行與列單獨(dú)的識(shí)別出來(lái)后進(jìn)行組合,但是該方式無(wú)法對(duì)跨行跨列屬性的單元格進(jìn)行識(shí)別。同時(shí)上述方法均存在因拍攝角度,而導(dǎo)致識(shí)別效果差的問(wèn)題。
4、本部分旨在為權(quán)利要求書(shū)中陳述的本發(fā)明實(shí)施例提供背景或上下文。此處的描述不因?yàn)榘ㄔ诒静糠种芯统姓J(rèn)是現(xiàn)有技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供一種表格識(shí)別方法,用以提高表格識(shí)別的準(zhǔn)確率,對(duì)跨行跨列單元格準(zhǔn)確識(shí)別,該方法包括:
2、通過(guò)預(yù)先訓(xùn)練的目標(biāo)檢測(cè)模型對(duì)待識(shí)別的表格圖像進(jìn)行預(yù)處理,得到目標(biāo)表格圖像;
3、通過(guò)預(yù)先訓(xùn)練的關(guān)鍵點(diǎn)檢測(cè)模型對(duì)所述目標(biāo)表格圖像進(jìn)行處理,得到掃描體表格;
4、對(duì)所述掃描體表格進(jìn)行行列識(shí)別轉(zhuǎn)換,得到目標(biāo)表格結(jié)構(gòu)。
5、進(jìn)一步地,所述通過(guò)預(yù)先訓(xùn)練的關(guān)鍵點(diǎn)檢測(cè)模型對(duì)所述目標(biāo)表格圖像進(jìn)行處理,得到掃描體表格,包括:
6、識(shí)別所述目標(biāo)表格圖像的外輪廓端點(diǎn)坐標(biāo),根據(jù)所述外輪廓端點(diǎn)坐標(biāo)形成所述目標(biāo)表格圖像的外輪廓邊線;其中,所述外輪廓邊線包括第一輪廓邊線、第二輪廓邊線、第三輪廓邊線和第四輪廓邊線;
7、根據(jù)所述第一輪廓邊線、第二輪廓邊線、第三輪廓邊線和第四輪廓邊線與預(yù)設(shè)基準(zhǔn)線之間的關(guān)系,對(duì)所述目標(biāo)表格圖像進(jìn)行矯正,得到掃描體表格;其中,所述預(yù)設(shè)基準(zhǔn)線包括預(yù)設(shè)水平線和預(yù)設(shè)垂直線。
8、進(jìn)一步地,所述根據(jù)所述第一輪廓邊線、第二輪廓邊線、第三輪廓邊線和第四輪廓邊線與預(yù)設(shè)基準(zhǔn)線之間的關(guān)系,對(duì)所述目標(biāo)表格圖像進(jìn)行矯正,得到掃描體表格,包括:
9、判斷所述第一輪廓邊線與預(yù)設(shè)水平線是否平行;
10、若所述第一輪廓邊線不平行于所述水平線,確定第一輪廓邊線與所述水平線的夾角;
11、按照所述夾角的角度將所述目標(biāo)表格圖像進(jìn)行旋轉(zhuǎn);
12、判斷所述第三輪廓線和第四輪廓線與預(yù)設(shè)垂直線是否平行;
13、若所述第三輪廓線和第四輪廓線不平行于所述垂直線,對(duì)旋轉(zhuǎn)后的目標(biāo)表格圖像進(jìn)行透視變換,得到掃描體表格。
14、進(jìn)一步地,所述確定第一輪廓邊線與所述水平線的夾角包括:
15、根據(jù)斜率算法確定所述第一輪廓邊線的斜率;
16、根據(jù)反正切函數(shù)和所述斜率計(jì)算所述夾角。
17、進(jìn)一步地,所述對(duì)所述掃描體表格進(jìn)行行列識(shí)別轉(zhuǎn)換,得到目標(biāo)表格結(jié)構(gòu),包括:
18、對(duì)所述掃描體表格的每行和每列進(jìn)行識(shí)別;
19、確定所述掃描體表格的每行和每列的位置及其對(duì)應(yīng)的交點(diǎn);
20、根據(jù)每行和每列的位置確定每個(gè)單元格的坐標(biāo),得到常規(guī)單元格;
21、對(duì)所述掃描體表格中的所述常規(guī)單元格進(jìn)行合并,得到目標(biāo)表格結(jié)構(gòu)。
22、進(jìn)一步地,所述對(duì)所述掃描體表格中的所述常規(guī)單元格進(jìn)行合并,得到目標(biāo)表格結(jié)構(gòu),包括:
23、對(duì)所述掃描體表格的跨越多行或多列的單元格進(jìn)行識(shí)別,得到跨行跨列單元格;
24、將所述跨行跨列單元格與所述常規(guī)單元格進(jìn)行對(duì)比;
25、若所述跨行跨列單元格包含多個(gè)所述常規(guī)單元格,將多個(gè)所述常規(guī)單元格合并為一個(gè)所述跨行跨列單元格;
26、根據(jù)所述常規(guī)單元格和所述跨行跨列單元格,得到目標(biāo)表格結(jié)構(gòu)。
27、進(jìn)一步地,所述目標(biāo)檢測(cè)模型的訓(xùn)練過(guò)程包括:
28、收集包含表格的圖像數(shù)據(jù)集;
29、對(duì)所述圖像數(shù)據(jù)集中的表格圖像進(jìn)行數(shù)據(jù)標(biāo)注;
30、對(duì)所述圖像數(shù)據(jù)集中的表格圖像進(jìn)行圖像預(yù)處理;
31、設(shè)置初始的目標(biāo)檢測(cè)模型的訓(xùn)練參數(shù);
32、根據(jù)所述圖像數(shù)據(jù)集和所述訓(xùn)練參數(shù)對(duì)初始的目標(biāo)檢測(cè)模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的目標(biāo)檢測(cè)模型。
33、本發(fā)明實(shí)施例還提供一種表格識(shí)別裝置,用以提高表格識(shí)別的準(zhǔn)確率,對(duì)跨行跨列單元格準(zhǔn)確識(shí)別,該裝置包括:
34、圖像預(yù)處理模塊,用于通過(guò)預(yù)先訓(xùn)練的目標(biāo)檢測(cè)模型對(duì)待識(shí)別的表格圖像進(jìn)行預(yù)處理,得到目標(biāo)表格圖像;
35、掃描體模塊,用于通過(guò)預(yù)先訓(xùn)練的關(guān)鍵點(diǎn)檢測(cè)模型對(duì)所述目標(biāo)表格圖像進(jìn)行處理,得到掃描體表格;
36、行列識(shí)別模塊,用于對(duì)所述掃描體表格進(jìn)行行列識(shí)別轉(zhuǎn)換,得到目標(biāo)表格結(jié)構(gòu)。
37、進(jìn)一步地,所述掃描體模塊包括:
38、輪廓處理單元,用于識(shí)別所述目標(biāo)表格圖像的外輪廓端點(diǎn)坐標(biāo),根據(jù)所述外輪廓端點(diǎn)坐標(biāo)形成所述目標(biāo)表格圖像的外輪廓邊線;其中,所述外輪廓邊線包括第一輪廓邊線、第二輪廓邊線、第三輪廓邊線和第四輪廓邊線;
39、圖像矯正單元,用于根據(jù)所述第一輪廓邊線、第二輪廓邊線、第三輪廓邊線和第四輪廓邊線與預(yù)設(shè)基準(zhǔn)線之間的關(guān)系,對(duì)所述目標(biāo)表格圖像進(jìn)行矯正,得到掃描體表格;其中,所述預(yù)設(shè)基準(zhǔn)線包括預(yù)設(shè)水平線和預(yù)設(shè)垂直線。
40、進(jìn)一步地,所述圖像矯正單元包括:
41、第一判斷子單元,用于判斷所述第一輪廓邊線與預(yù)設(shè)水平線是否平行;
42、夾角確定子單元,用于若所述第一輪廓邊線不平行于所述水平線,確定第一輪廓邊線與所述水平線的夾角;
43、圖像旋轉(zhuǎn)子單元,用于按照所述夾角的角度將所述目標(biāo)表格圖像進(jìn)行旋轉(zhuǎn);
44、第二判斷子單元,用于判斷所述第三輪廓線和第四輪廓線與預(yù)設(shè)垂直線是否平行;
45、透視變換子單元,用于若所述第三輪廓線和第四輪廓線不平行于所述垂直線,對(duì)旋轉(zhuǎn)后的目標(biāo)表格圖像進(jìn)行透視變換,得到掃描體表格。
46、進(jìn)一步地,所述夾角確定子單元包括:
47、斜率確定子單元,用于根據(jù)斜率算法確定所述第一輪廓邊線的斜率;
48、夾角計(jì)算子單元,用于根據(jù)反正切函數(shù)和所述斜率計(jì)算所述夾角。
49、進(jìn)一步地,所述行列識(shí)別模塊包括:
50、行列識(shí)別子單元,用于對(duì)所述掃描體表格的每行和每列進(jìn)行識(shí)別;
51、行列位置確定子單元,用于確定所述掃描體表格的每行和每列的位置及其對(duì)應(yīng)的交點(diǎn);
52、單元格確定子單元,用于根據(jù)每行和每列的位置確定每個(gè)單元格的坐標(biāo),得到常規(guī)單元格;
53、表格結(jié)構(gòu)確定子單元,用于對(duì)所述掃描體表格中的所述常規(guī)單元格進(jìn)行合并,得到目標(biāo)表格結(jié)構(gòu)。
54、進(jìn)一步地,所述表格結(jié)構(gòu)確定子單元包括:
55、單元格識(shí)別子單元,用于對(duì)所述掃描體表格的跨越多行或多列的單元格進(jìn)行識(shí)別,得到跨行跨列單元格;
56、單元格比對(duì)子單元,用于將所述跨行跨列單元格與所述常規(guī)單元格進(jìn)行對(duì)比;
57、單元格合并子單元,用于若所述跨行跨列單元格包含多個(gè)所述常規(guī)單元格,將多個(gè)所述常規(guī)單元格合并為一個(gè)所述跨行跨列單元格;
58、目標(biāo)表格結(jié)構(gòu)確定子單元,用于根據(jù)所述常規(guī)單元格和所述跨行跨列單元格,得到目標(biāo)表格結(jié)構(gòu)。
59、進(jìn)一步地,所述圖像預(yù)處理模塊包括:
60、圖像收集單元,用于收集包含表格的圖像數(shù)據(jù)集;
61、圖像處理單元,用于對(duì)所述圖像數(shù)據(jù)集中的表格圖像進(jìn)行圖像預(yù)處理;
62、數(shù)據(jù)標(biāo)注單元,用于對(duì)所述圖像數(shù)據(jù)集中的表格圖像進(jìn)行數(shù)據(jù)標(biāo)注;
63、訓(xùn)練參數(shù)設(shè)置單元,用于設(shè)置初始的目標(biāo)檢測(cè)模型的訓(xùn)練參數(shù);
64、模型訓(xùn)練單元,用于根據(jù)所述圖像數(shù)據(jù)集和所述訓(xùn)練參數(shù)對(duì)初始的目標(biāo)檢測(cè)模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的目標(biāo)檢測(cè)模型。
65、本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述表格識(shí)別方法。
66、本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述表格識(shí)別方法。
67、本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述表格識(shí)別方法。
68、本發(fā)明實(shí)施例提供的一種表格識(shí)別方法及裝置,通過(guò)預(yù)先訓(xùn)練的目標(biāo)檢測(cè)模型對(duì)待識(shí)別的表格圖像進(jìn)行預(yù)處理,得到目標(biāo)表格圖像。再通過(guò)預(yù)先訓(xùn)練的關(guān)鍵點(diǎn)檢測(cè)模型對(duì)目標(biāo)表格圖像進(jìn)行處理,得到掃描體表格。并對(duì)掃描體表格進(jìn)行行列識(shí)別轉(zhuǎn)換,得到目標(biāo)表格結(jié)構(gòu)。通過(guò)圖像矯正技術(shù),如旋轉(zhuǎn)和透視變換,改善了由于拍攝角度不當(dāng)導(dǎo)致的圖像質(zhì)量問(wèn)題,使得表格圖像更加規(guī)整和清晰。通過(guò)使用多種卷積神經(jīng)網(wǎng)絡(luò)模型和圖像預(yù)處理技術(shù),顯著提高了在處理復(fù)雜或不規(guī)則表格時(shí)的表格識(shí)別準(zhǔn)確率。本發(fā)明能夠適應(yīng)不同分辨率和質(zhì)量的表格圖像輸入,提高了系統(tǒng)的魯棒性。識(shí)別出的表格結(jié)構(gòu)可以直接用于ocr內(nèi)容識(shí)別或其他業(yè)務(wù)處理,具有很好的靈活性和可擴(kuò)展性。