本發(fā)明屬于檔案審核,具體涉及一種基于大模型的檔案智能開放審核方法及系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的迅猛發(fā)展,檔案數(shù)字化已成為不可逆轉(zhuǎn)的趨勢(shì)。數(shù)字化不僅提高了檔案的存儲(chǔ)、檢索和利用效率,還使得檔案信息更加易于共享和傳播。檔案開放審核是服務(wù)于檔案數(shù)據(jù)開放利用,通過檔案內(nèi)容審核,防止敏感信息開放,避免威脅國家安全和侵犯?jìng)€(gè)人隱私。同時(shí),隨著技術(shù)的不斷進(jìn)步,檔案審核的方法和手段也將不斷創(chuàng)新和完善,為檔案數(shù)據(jù)開放利用工作提供更加高效、便捷的服務(wù)。
2、現(xiàn)有的檔案審核技術(shù)存在如下缺陷:
3、1)效率低下:傳統(tǒng)的檔案審核依賴于人工操作,面對(duì)海量的檔案數(shù)據(jù),人工審核速度慢,難以滿足快速處理的需求;
4、2)準(zhǔn)確性不足:人工審核受主觀因素影響大,容易出現(xiàn)誤判或漏判,影響檔案審核的準(zhǔn)確性,并且現(xiàn)有技術(shù)缺乏有效的敏感信息檢測(cè)手段,難以準(zhǔn)確識(shí)別和掩碼敏感信息,存在信息泄露風(fēng)險(xiǎn);
5、3)信息化程度低:現(xiàn)有技術(shù)信息化程度不高,難以實(shí)現(xiàn)檔案數(shù)據(jù)的快速審核和共享,檔案數(shù)據(jù)格式多樣,缺乏統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,導(dǎo)致數(shù)據(jù)整合和交換困難。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)存在的效率低下、準(zhǔn)確性不足以及信息化程度低的問題,本發(fā)明目的在于提供一種基于大模型的檔案智能開放審核方法及系統(tǒng)。
2、本發(fā)明所采用的技術(shù)方案為:
3、一種基于大模型的檔案智能開放審核方法,包括如下步驟:
4、云數(shù)據(jù)中心,搭建檔案智能開放審核平臺(tái),使用人工智能算法,在云數(shù)據(jù)中心構(gòu)建檔案智能開放審核引擎,并將檔案智能開放審核引擎連接至檔案智能開放審核平臺(tái);
5、云數(shù)據(jù)中心,接收數(shù)據(jù)服務(wù)器發(fā)送的若干第二檔案文件,使用檔案智能開放審核引擎,生成每一第二檔案文件的第二檔案文本數(shù)據(jù)、對(duì)應(yīng)的第一敏感信息以及第二敏感信息掩碼;
6、云數(shù)據(jù)中心,根據(jù)所有第二檔案文本數(shù)據(jù)、對(duì)應(yīng)的第一敏感信息以及第二敏感信息掩碼,使用檔案智能開放審核引擎,生成開放審核第二檔案文本數(shù)據(jù)和對(duì)應(yīng)的第二自動(dòng)審核數(shù)據(jù),并在檔案智能開放審核平臺(tái)進(jìn)行可視化;
7、云數(shù)據(jù)中心,根據(jù)用戶終端返回的對(duì)于開放審核第二檔案文本數(shù)據(jù)的第二人工審核數(shù)據(jù)和對(duì)應(yīng)的第二自動(dòng)審核數(shù)據(jù),使用檔案智能開放審核引擎,生成第二審核報(bào)告,并在檔案智能開放審核平臺(tái)進(jìn)行可視化。
8、進(jìn)一步地,檔案智能開放審核平臺(tái)包括用戶登錄模組、數(shù)據(jù)上傳模組、檔案可視化模組、檔案審核模組以及報(bào)告可視化模組;
9、檔案智能開放審核引擎包括檔案文本識(shí)別模型、檔案開放權(quán)限分類模型、敏感信息檢測(cè)模型、檔案自動(dòng)審核模型以及審核報(bào)告生成模型。
10、進(jìn)一步地,云數(shù)據(jù)中心,搭建檔案智能開放審核平臺(tái),使用人工智能算法,在云數(shù)據(jù)中心構(gòu)建檔案智能開放審核引擎,并將檔案智能開放審核引擎連接至檔案智能開放審核平臺(tái),包括如下步驟:
11、云數(shù)據(jù)中心,搭建檔案智能開放審核框架,并設(shè)置用戶登錄模組、數(shù)據(jù)上傳模組、檔案可視化模組、檔案審核模組以及報(bào)告可視化模組,得到檔案智能開放審核平臺(tái);
12、采集若干第一檔案文件和若干第一人工審核數(shù)據(jù),并進(jìn)行預(yù)處理,得到若干預(yù)處理后第一檔案文件和若干預(yù)處理后第一人工審核數(shù)據(jù);
13、根據(jù)若干預(yù)處理后第一檔案文件,使用文字識(shí)別算法,構(gòu)建檔案文本識(shí)別模型,生成若干第一檔案文本數(shù)據(jù);
14、根據(jù)若干第一檔案文本數(shù)據(jù),使用深度學(xué)習(xí)算法,構(gòu)建檔案開放權(quán)限分類模型,并生成每一第一檔案文本數(shù)據(jù)的第一檔案開放權(quán)限分類結(jié)果;
15、根據(jù)外部的文本大數(shù)據(jù),以及若干第一檔案文本數(shù)據(jù)及其第一檔案開放權(quán)限分類結(jié)果,使用大模型算法,構(gòu)建敏感信息檢測(cè)模型,并生成若干第一敏感信息;
16、根據(jù)若干第一檔案文本數(shù)據(jù)、對(duì)應(yīng)的第一檔案開放權(quán)限分類結(jié)果以及第一敏感信息,使用深度學(xué)習(xí)算法,構(gòu)建檔案自動(dòng)審核模型,并生成若干第一自動(dòng)審核數(shù)據(jù);
17、根據(jù)若干預(yù)處理后第一人工審核數(shù)據(jù)和對(duì)應(yīng)的第一自動(dòng)審核數(shù)據(jù),使用深度學(xué)習(xí)算法,構(gòu)建審核報(bào)告生成模型;
18、整合檔案文本識(shí)別模型、檔案開放權(quán)限分類模型、敏感信息檢測(cè)模型、檔案自動(dòng)審核模型以及審核報(bào)告生成模型,在云數(shù)據(jù)中心構(gòu)建檔案智能開放審核引擎,并將檔案智能開放審核引擎連接至檔案智能開放審核平臺(tái)。
19、進(jìn)一步地,文本識(shí)別模型基于fpn-lstm-crf算法構(gòu)建,且文本識(shí)別模型包括依次連接的基于fpn算法構(gòu)建的圖像特征提取模塊、基于lstm算法構(gòu)建的序列特征提取模塊以及基于crf算法構(gòu)建的識(shí)別文本標(biāo)簽生成模塊;
20、檔案開放權(quán)限分類模型基于lstm-dbn算法構(gòu)建,且檔案開放權(quán)限分類模型包括依次連接的基于lstm算法構(gòu)建的語義特征提取模塊和基于dbn算法構(gòu)建的檔案開放權(quán)限分類模塊;
21、敏感信息檢測(cè)模型基于roberta-transfomer-crf算法構(gòu)建,且敏感信息檢測(cè)模型包括依次連接的基于roberta的詞嵌入模塊、基于transfomer算法構(gòu)建的深層特征提取模塊以及基于crf算法構(gòu)建的敏感信息標(biāo)簽生成模塊;
22、檔案自動(dòng)審核模型基于rf-mlp算法構(gòu)建,且檔案自動(dòng)審核模型包括依次連接的基于rf算法構(gòu)建的關(guān)鍵特征提取模塊和基于mlp算法構(gòu)建的檔案自動(dòng)審核模塊;
23、審核報(bào)告生成模型基于cgan-mlp算法構(gòu)建,且審核報(bào)告生成模型包括均基于rnn算法構(gòu)建的生成器和判別器,以及基于mlp算法構(gòu)建的條件嵌入模塊和條件處理模塊,生成器分別與判別器和條件嵌入模塊連接,條件處理模塊與判別器連接。
24、進(jìn)一步地,云數(shù)據(jù)中心,接收數(shù)據(jù)服務(wù)器發(fā)送的若干第二檔案文件,使用檔案智能開放審核引擎,生成每一第二檔案文件的第二檔案文本數(shù)據(jù)、對(duì)應(yīng)的第一敏感信息以及第二敏感信息掩碼,包括如下步驟:
25、云數(shù)據(jù)中心,接收數(shù)據(jù)服務(wù)器發(fā)送的若干第二檔案文件,并使用檔案文本識(shí)別模型,生成每一第二檔案文件的第二檔案文本數(shù)據(jù);
26、使用檔案開放權(quán)限分類模型,對(duì)每一第二檔案文本數(shù)據(jù)進(jìn)行檔案開放權(quán)限分類,得到對(duì)應(yīng)的第二檔案開放權(quán)限分類結(jié)果;
27、根據(jù)第二檔案開放權(quán)限分類結(jié)果,使用敏感信息檢測(cè)模型,對(duì)每一第二檔案文本數(shù)據(jù)進(jìn)行敏感信息檢測(cè),得到若干第二敏感信息和對(duì)應(yīng)的第二敏感信息掩碼。
28、進(jìn)一步地,第一檔案開放權(quán)限分類結(jié)果包括第一檔案文本數(shù)據(jù)的第一檔案領(lǐng)域和第一開放權(quán)限;
29、第二檔案開放權(quán)限分類結(jié)果包括第二檔案文本數(shù)據(jù)的第二檔案領(lǐng)域和第二開放權(quán)限。
30、進(jìn)一步地,云數(shù)據(jù)中心,根據(jù)所有第二檔案文本數(shù)據(jù)、對(duì)應(yīng)的第一敏感信息以及第二敏感信息掩碼,使用檔案智能開放審核引擎,生成開放審核第二檔案文本數(shù)據(jù)和對(duì)應(yīng)的第二自動(dòng)審核數(shù)據(jù),并在檔案智能開放審核平臺(tái)進(jìn)行可視化,包括如下步驟:
31、云數(shù)據(jù)中心,根據(jù)若干第二檔案文本數(shù)據(jù)、對(duì)應(yīng)的第二檔案開放權(quán)限分類結(jié)果以及第二敏感信息,使用檔案自動(dòng)審核模型,進(jìn)行檔案自動(dòng)審核,得到對(duì)應(yīng)的第二自動(dòng)審核數(shù)據(jù);
32、根據(jù)每一第二檔案文本數(shù)據(jù)和對(duì)應(yīng)的第二敏感信息掩碼,生成開放審核第二檔案文本數(shù)據(jù);
33、使用檔案智能開放審核平臺(tái),對(duì)開放審核第二檔案文本數(shù)據(jù)進(jìn)行可視化。
34、進(jìn)一步地,云數(shù)據(jù)中心,根據(jù)用戶終端返回的對(duì)于開放審核第二檔案文本數(shù)據(jù)的第二人工審核數(shù)據(jù)和對(duì)應(yīng)的第二自動(dòng)審核數(shù)據(jù),使用檔案智能開放審核引擎,生成第二審核報(bào)告,并在檔案智能開放審核平臺(tái)進(jìn)行可視化,包括如下步驟:
35、云數(shù)據(jù)中心,使用檔案智能開放審核平臺(tái)接收用戶終端返回的對(duì)于開放審核第二檔案文本數(shù)據(jù)的第二人工審核數(shù)據(jù);
36、根據(jù)第二人工審核數(shù)據(jù)和對(duì)應(yīng)的第二自動(dòng)審核數(shù)據(jù),使用檔案智能開放審核引擎,生成第二審核報(bào)告;
37、使用檔案智能開放審核平臺(tái),對(duì)第二審核報(bào)告進(jìn)行可視化。
38、一種基于大模型的檔案智能開放審核系統(tǒng),用于實(shí)現(xiàn)檔案智能開放審核方法,系統(tǒng)包括云數(shù)據(jù)中心和若干用戶終端,若干用戶終端均與云數(shù)據(jù)中心通信連接,云數(shù)據(jù)中心設(shè)置有檔案智能開放審核平臺(tái)和檔案智能開放審核引擎,且云數(shù)據(jù)中心包括依次連接的平臺(tái)初始化單元、檔案文本生成單元、自動(dòng)審核處理單元以及審核報(bào)告生成單元。
39、本發(fā)明的有益效果為:
40、本發(fā)明提供的一種基于大模型的檔案智能開放審核方法及系統(tǒng),通過人工智能算法構(gòu)建的檔案智能開放審核引擎,實(shí)現(xiàn)了自動(dòng)化的檔案文本識(shí)別、檔案開放權(quán)限分類、敏感信息檢測(cè)、檔案自動(dòng)審核以及審核報(bào)告生成的系統(tǒng)化審核流程,顯著提高檔案審核的效率,縮短審核周期,滿足快速處理大量檔案的需求;利用先進(jìn)的檔案文本識(shí)別模型、檔案開放權(quán)限分類模型、敏感信息檢測(cè)模型,減少誤判和漏判,確保檔案審核的準(zhǔn)確性;通過檔案自動(dòng)審核模型,對(duì)檔案數(shù)據(jù)進(jìn)行自動(dòng)審核,提高審核效率,并輔助人工審核;基于大模型的敏感信息檢測(cè)模型,具備強(qiáng)大的語義理解能力,可提高敏感信息識(shí)別判定的準(zhǔn)確性,實(shí)現(xiàn)了有效的敏感信息檢測(cè)手段,能夠準(zhǔn)確識(shí)別和生成敏感信息掩碼,避免了信息泄露風(fēng)險(xiǎn);通過檔案智能開放審核平臺(tái),實(shí)現(xiàn)了對(duì)檔案的在線智能開放審核,實(shí)現(xiàn)了檔案數(shù)據(jù)的快速審核和共享,并且使用云數(shù)據(jù)中心采用統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,對(duì)不同數(shù)據(jù)源的檔案文件進(jìn)行統(tǒng)一管理和分析,簡(jiǎn)化了數(shù)據(jù)整合和交換的難度,避免了信息孤島,提高了信息化程度。
41、本發(fā)明的其他有益效果將在具體實(shí)施方式中進(jìn)一步進(jìn)行說明。