国产真实乱全部视频,黄色片视频在线免费观看,密臀av一区二区三区,av黄色一级,中文字幕.com,日本a级网站,在线视频观看91

基于語義向量庫和大語言模型的文檔抄襲判斷方法及系統(tǒng)與流程

文檔序號:42325740發(fā)布日期:2025-07-01 19:43閱讀:7來源:國知局

本發(fā)明涉及人工智能領域,尤其涉及一種基于語義向量庫和大語言模型的文檔抄襲判斷方法及系統(tǒng)。


背景技術:

1、科技查新是科技研發(fā)和學術研究中的重要環(huán)節(jié),旨在判斷技術或成果的新穎性和創(chuàng)新性。

2、目前主要依賴于文本的重合度來判斷文檔間的相似性,可通過關鍵詞匹配、句式結構分析等手段進行查重。但是,文檔的寫作者可通過替換近義詞、調(diào)整句式結構等手段規(guī)避檢測,導致難以有效識別深層次的抄襲行為。因此,如何基于語義向量庫和大語言模型進行文檔語義比對以檢測寫作者是否存在抄襲行為是一個非常重要的問題。

3、基于此,本說明書提供一種基于語義向量庫和大語言模型的文檔抄襲判斷方法及系統(tǒng)。


技術實現(xiàn)思路

1、為解決傳統(tǒng)查重方法難以有效識別深層次的抄襲行為,本發(fā)明提出了一種基于語義向量庫和大語言模型的文檔抄襲判斷方法及系統(tǒng),通過語義向量庫檢索與檢索文檔相似的比對文檔,并基于語義相似度、文本重合度以及大語言模型判斷三個維度綜合判斷檢索文檔是否存在抄襲,不僅提高了語義比對的準確性,還為學術不端行為的判定提供了客觀、可解釋的依據(jù),顯著提升了科技查新和論文查重的智能化水平。

2、本說明書提供了一種基于語義向量庫和大語言模型的文檔抄襲判斷方法,包括:

3、s1:構建語義向量庫:預處理預設的比對文檔集合得到各比對文本的比對語義向量,并構建語義向量庫;

4、s2:基于檢索文檔構建檢索語義向量:獲取檢索文檔并拆分為各檢索文本;采用語義向量化模型,確定每個檢索文本的檢索語義向量;

5、s3:篩選相似文檔:從所述語義向量庫中,確定與每個檢索語義向量匹配的比對語義向量,以生成每個檢索文本的檢索結果,并根據(jù)各檢索結果,對所述比對文檔集合中的各比對文檔排序并篩選,得到相似文檔;

6、s4:基于大語言模型判斷是否抄襲并生成判斷依據(jù):將所述各檢索文本與所述相似文檔的各比對文本一一對應,組成各相似文本對;判斷每個相似文本對中檢索文本和比對文本的語義相似度是否超過第一閾值,若超過所述第一閾值,繼續(xù)判斷所述每個相似文本對中檢索文本和比對文本的文本重合度是否超過第二閾值,若不超過所述第二閾值,則對所述每個相似文本對中檢索文本和比對文本進行拼接并補充到提示詞模板中,得到完整的提示詞后輸入到大語言模型中,確定是否涉嫌抄襲并生成判斷依據(jù)。

7、可選地,所述方法還包括:

8、若不超過所述第一閾值,確定所述每個相似文本對的判斷結果為不涉嫌抄襲,以及確定所述每個相似文本對的判斷依據(jù)為語義相似度不超過所述第一閾值;

9、若超過所述第二閾值,確定所述每個相似文本對的判斷結果為涉嫌抄襲,以及確定所述每個相似文本對的判斷依據(jù)為語義相似度超過所述第一閾值以及所述文本重合度超過所述第二閾值。

10、可選地,所述方法還包括:

11、根據(jù)所述每個相似文本對是否涉嫌抄襲的判斷結果和判斷依據(jù),生成所述檢索文檔和所述相似文檔對應的檢索報告;

12、根據(jù)所述檢索報告,確定最終檢索報告,并顯示。

13、可選地,所述s2中將所述檢索文檔拆分為各檢索文本具體包括:

14、對所述檢索文檔進行文本提取,得到所述檢索文檔對應的文本數(shù)據(jù);

15、根據(jù)所述檢索文檔的章節(jié)層級結構,對所述文本數(shù)據(jù)進行拆分,得到各章節(jié)數(shù)據(jù);

16、根據(jù)預先設置的過濾規(guī)則,對所述各章節(jié)數(shù)據(jù)進行過濾,得到各目標章節(jié)數(shù)據(jù);

17、根據(jù)所述檢索文檔對應的顆粒度需求,通過自然語言處理技術,對每個目標章節(jié)數(shù)據(jù)進行拆分,得到各檢索文本。

18、可選地,所述s1具體包括:

19、獲取上傳的包括各比對文檔的比對文檔集合,并對每個比對文檔進行數(shù)據(jù)預處理,得到所述每個比對文檔對應的各比對文本;

20、采用語義向量化模型,確定所述每個比對文檔的各比對文本分別對應的比對語義向量;

21、生成各比對語義向量對應的標簽,并根據(jù)每個比對語義向量和所述每個比對語義向量對應的標簽,構建語義向量庫;其中,所述標簽包括所述比對語義向量對應的比對文檔信息、章節(jié)信息以及比對文本信息。

22、可選地,所述s4中將所述各檢索文本與所述相似文檔的各比對文本一一對應,組成各相似文本對具體包括:

23、根據(jù)所述各檢索文本的檢索語義向量和所述相似文檔的各比對文本的比對語義向量,從所述相似文檔的各比對文本中,確定與所述每個檢索文本匹配的比對文本;

24、將所述每個檢索文本與確定出的每個比對文本組成每個相似文本對。

25、可選地,所述s4中對所述每個相似文本對中檢索文本和比對文本進行拼接并補充到提示詞模板中,得到完整的提示詞具體包括:

26、通過預設的提示詞模板,將預設的比對規(guī)則、所述每個相似文本對中檢索文本和比對文本進行拼接,得到完整的提示詞。

27、可選地,所述s4中的大語言模型為通用大語言模型和微調(diào)后的通用大語言模型中的一個,所述微調(diào)后的通用大語言模型為基于訓練文本對和標簽結果對所述通用大語言模型微調(diào)訓練得到的。

28、可選地,所述s3中從所述語義向量庫中,確定與每個檢索語義向量匹配的比對語義向量具體包括:

29、根據(jù)預設關系字段,確定每個檢索語義向量對應的檢索信息,并根據(jù)所述檢索信息,對所述語義向量庫中的比對語義向量進行篩選;其中,所述關系字段為文檔標題、文檔類型和章節(jié)類型中的至少一種;

30、從篩選出的比對語義向量中,確定與每個檢索語義向量匹配的比對語義向量。

31、本說明書還提供一種基于語義向量庫和大語言模型的文檔抄襲判斷系統(tǒng),所述系統(tǒng)包括數(shù)據(jù)存儲模塊、數(shù)據(jù)預處理模塊、語義向量化模塊、向量檢索模塊和文檔比對模塊,其中:

32、所述數(shù)據(jù)預處理模塊,用于預處理比對文檔集合得到各比對文本的比對語義向量,以及將檢索文檔拆分為各檢索文本;

33、所述語義向量化模塊,用于調(diào)用語義向量化模型,確定每個檢索文本的檢索語義向量;

34、所述數(shù)據(jù)存儲模塊,用于基于所述各比對語義向量,構建語義向量庫并存儲;

35、所述向量檢索模塊,用于從所述語義向量庫中,確定與每個檢索語義向量匹配的比對語義向量,以生成各檢索結果,并根據(jù)所述各檢索結果,對所述比對文檔集合中的各比對文檔排序并篩選,得到相似文檔;

36、所述文檔比對模塊,用于將所述各檢索文本與所述相似文檔的各比對文本一一對應,組成各相似文本對;判斷每個相似文本對中文本間的語義相似度是否超過第一閾值,若超過所述第一閾值,判斷所述每個相似文本對中文本間的文本重合度是否超過第二閾值,若不超過所述第二閾值,對所述每個相似文本對中文本進行拼接并補充到提示詞模板中,得到完成的提示詞后輸入到所述大語言模型中,確定是否涉嫌抄襲并生成判斷依據(jù)。

37、可選地,所述文檔比對模塊還用于,若不超過所述第一閾值,確定所述每個相似文本對的判斷結果為不涉嫌抄襲,以及確定所述每個相似文本對的判斷依據(jù)為語義相似度不超過所述第一閾值;若超過所述第二閾值,確定所述每個相似文本對的判斷結果為涉嫌抄襲,以及確定所述每個相似文本對的判斷依據(jù)為語義相似度超過所述第一閾值以及所述文本重合度超過所述第二閾值。

38、可選地,所述系統(tǒng)還包括報告生成模塊;

39、所述報告生成模塊,用于根據(jù)所述每個相似文本對是否涉嫌抄襲的判斷結果和判斷依據(jù),生成所述檢索文檔和所述相似文檔對應的檢索報告;根據(jù)所述檢索報告,確定最終檢索報告,并顯示。

40、可選地,所述數(shù)據(jù)預處理模塊具體用于,對所述檢索文檔進行文本提取,得到所述檢索文檔對應的文本數(shù)據(jù);根據(jù)所述檢索文檔的章節(jié)層級結構,對所述文本數(shù)據(jù)進行拆分,得到各章節(jié)數(shù)據(jù);根據(jù)預先設置的過濾規(guī)則,對所述各章節(jié)數(shù)據(jù)進行過濾,得到各目標章節(jié)數(shù)據(jù);根據(jù)所述檢索文檔對應的顆粒度需求,通過自然語言處理技術,對每個目標章節(jié)數(shù)據(jù)進行拆分,得到各檢索文本。

41、可選地,所述數(shù)據(jù)預處理模塊還用于,存儲所述語義向量化模型、所述大語言模型、所述檢索文檔和所述比對文檔集合;

42、所述數(shù)據(jù)預處理模塊具體用于,獲取上傳的包括各比對文檔的比對文檔集合,并對每個比對文檔進行數(shù)據(jù)預處理,得到所述每個比對文檔對應的各比對文本;

43、所述語義向量化模塊還用于,采用所述語義向量化模型,確定所述每個比對文檔的各比對文本分別對應的比對語義向量;

44、所述數(shù)據(jù)存儲模塊具體用于,生成各比對語義向量對應的標簽,并根據(jù)每個比對語義向量和所述每個比對語義向量對應的標簽,構建語義向量庫;其中,所述標簽包括所述比對語義向量對應的比對文檔信息、章節(jié)信息以及比對文本信息。

45、可選地,所述文檔比對模塊具體用于,根據(jù)所述各檢索文本的檢索語義向量和所述相似文檔的各比對文本的比對語義向量,從所述相似文檔的各比對文本中,確定與所述每個檢索文本匹配的比對文本;將所述每個檢索文本與確定出的每個比對文本組成每個相似文本對。

46、可選地,所述文檔比對模塊具體用于,通過預設的提示詞模板,將預設的比對規(guī)則、所述每個相似文本對中檢索文本和比對文本進行拼接,得到完整的提示詞。

47、可選地,所述大語言模型為通用大語言模型和微調(diào)后的通用大語言模型中的一個,所述微調(diào)后的通用大語言模型為基于訓練文本對和標簽結果對所述通用大語言模型微調(diào)訓練得到的。

48、可選地,所述向量檢索模塊具體用于,根據(jù)預設關系字段,確定每個檢索語義向量對應的檢索信息,并根據(jù)所述檢索信息,對所述語義向量庫中的比對語義向量進行篩選;其中,所述關系字段為文檔標題、文檔類型和章節(jié)類型中的至少一種;從篩選出的比對語義向量中,確定與每個檢索語義向量匹配的比對語義向量。

49、本說明書采用的上述至少一個技術方案能夠達到以下有益效果:

50、本說明書提供的基于語義向量庫和大語言模型的文檔抄襲判斷方法,先預處理預設的比對文檔集合得到各比對文本的比對語義向量,并構建語義向量庫。獲取檢索文檔并拆分為各檢索文本。采用語義向量化模型,確定每個檢索文本的檢索語義向量。通過語義向量化模型將拆分出的各檢索文本映射為高維度的語義向量,能夠有效捕捉文本的深層語義信息,為后續(xù)向量檢索和語義層面的相似性檢測提供了數(shù)據(jù)基礎。

51、然后,從語義向量庫中,確定與每個檢索語義向量匹配的比對語義向量,以生成每個檢索文本的檢索結果,并根據(jù)各檢索結果,對比對文檔集合中的各比對文檔排序并篩選,得到相似文檔。通過從語義向量庫中檢索與檢索文本的檢索語義向量匹配的比對語義向量,并根據(jù)檢索結果,對各比對文檔排序并篩選,得到相似文檔,從而精準篩選出與檢索文檔相似的相似文本,縮小了文檔比對的范圍,提高文檔比對的速度。

52、之后,將各檢索文本與相似文檔的各比對文本一一對應,組成各相似文本對。判斷每個相似文本對中檢索文本和比對文本的語義相似度是否超過第一閾值,若語義相似度超過第一閾值,繼續(xù)判斷每個相似文本對中檢索文本和比對文本的文本重合度是否超過第二閾值,若文本重合度不超過第二閾值,則對每個相似文本對中檢索文本和比對文本進行拼接并補充到提示詞模板中,得到完整的提示詞后輸入到大語言模型中,確定是否涉嫌抄襲并生成判斷依據(jù)?;谡Z義相似度、文本重合度以及大語言模型判斷三個維度綜合判斷檢索文檔是否存在抄襲,不僅提高了語義比對的準確性,還為學術不端行為的判定提供了客觀、可解釋的依據(jù),顯著提升了科技查新和論文查重的智能化水平。

53、本發(fā)明中通過對檢索文檔和各比對文檔進行數(shù)據(jù)預處理,以進行文本提取、章節(jié)提取、章節(jié)過濾以及根據(jù)顆粒度需求拆分,對無用數(shù)據(jù)進行過濾,剔除無關內(nèi)容,提高后續(xù)文檔比對的處理效率。以及,將檢索文本拆分為各檢索文本,以分別檢索與各檢索文本的檢索語義向量匹配的比對語義向量,并且檢索文本和比對文本的顆粒度一致,避免由于顆粒度不一致進行滑窗去噪的問題。在向量檢索時,可依托于語義向量庫的向量檢索方法,結合關系字段,即文檔標題、文檔類型和章節(jié)類型,對各檢索文本進行檢索,以得到對應的檢索結果。

54、本發(fā)明中在文檔比對時,先根據(jù)每個檢索語義向量和相似文檔的各比對文本的比對語義向量,從各比對文本中,確定與每個檢索文本匹配的比對文本,將每個檢索文本與確定出的每個比對文本組成每個相似文本對。再比較相似文本對間的語義相似度,并在語義相似度不超過第一閾值時,直接確定判斷結果為不涉嫌抄襲并生成判斷依據(jù)。而在語義相似度超過第一閾值時,比較相似文本對間的文本重合度,在文本重合度超過第二閾值時,確定判斷結果為涉嫌抄襲并生成判斷依據(jù)。另外在語義相似度超過第一閾值且文本重合度不超過第二閾值時,以通過大語言模型實現(xiàn)對語義相似度較高且文本重合度較低的相似文本對進行是否涉嫌抄襲的判斷,以解決對語義相似但在字面上缺乏顯著重合的文本對難以直觀判斷是否涉嫌抄襲問題。相較于傳統(tǒng)僅基于語義相似度較高就判斷涉嫌抄襲,本發(fā)明可在語義相似度較高時繼續(xù)基于大語言模型進行判斷,從而可判斷出語義相似度較高但判斷不涉嫌抄襲的情況,從而避免僅基于語義相似度判斷而出現(xiàn)誤判的情況。

55、本發(fā)明是通過提示詞模板,將比對規(guī)則和相似文本拼接,并輸入到大語言模型,確定相似文本對的判斷結果和判斷依據(jù),基于大語言模型的語義分析和理解能力以及自身的海量知識,通過提示詞驅(qū)動大語言模型以進行是否涉嫌抄襲的判斷以及判斷依據(jù)的生成,并且將比對規(guī)則作為知識數(shù)據(jù)一起輸入到大語言模型,使得大語言模型可依據(jù)比對規(guī)則和自身的海量知識進行判斷并生成判斷依據(jù),提高輸出的結果準確性,簡化后續(xù)人工的工作。

56、本發(fā)明是依次根據(jù)語義相似度、文本重合度以及大語言模型判斷三個維度,基于決策樹判斷檢索文檔是否存在抄襲,以避免采用單一維度進行判斷導致誤判的問題,并生成判斷結果對應的判斷依據(jù),以提供判斷依據(jù)以供查新人員和寫作人員進行確定,不僅提高了文檔比對的準確性,還增加了可解釋性。另外,可根據(jù)每個相似文本對是否涉嫌抄襲的判斷結果和判斷依據(jù),生成檢索報告,并根據(jù)檢索報告,確定最終檢索報告,并顯示,以提供給查新人員和寫作人員查看。

57、本發(fā)明中的大語言模型可為通用大語言模型,還可為微調(diào)后的通用大語言模型,微調(diào)后的通用大語言模型為對通用大語言模型進行微調(diào)訓練后的大語言模型,相較于傳統(tǒng)的訓練邏輯,對通用大語言模型進行微調(diào)訓練等方式,使得微調(diào)后的大語言模型更加適配于語義比對應用場景,輸出的判斷結果和判斷依據(jù)更加準確。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1