国产真实乱全部视频,黄色片视频在线免费观看,密臀av一区二区三区,av黄色一级,中文字幕.com,日本a级网站,在线视频观看91

基于歷史上下文的大語言模型用戶查詢改寫系統(tǒng)及方法

文檔序號:42326623發(fā)布日期:2025-07-01 19:45閱讀:9來源:國知局

本發(fā)明提出一種基于歷史上下文的大語言模型用戶查詢改寫系統(tǒng)及方法,屬于人工智能。


背景技術(shù):

1、在信息檢索系統(tǒng)中,用戶查詢的準(zhǔn)確性和表達的精確性對于提升搜索結(jié)果的相關(guān)性和優(yōu)化用戶體驗至關(guān)重要。傳統(tǒng)的查詢處理方法主要依賴關(guān)鍵詞匹配和簡單的邏輯規(guī)則,但在應(yīng)對復(fù)雜語境、隱含意圖或?qū)I(yè)領(lǐng)域的查詢時常顯不足。近年來,隨著大語言模型(large?language?model,deepseek模型)的快速發(fā)展,特別是基于transformer架構(gòu)的模型的應(yīng)用,它們在理解復(fù)雜語言結(jié)構(gòu)和生成連貫文本方面展現(xiàn)出巨大的潛力,為查詢改寫技術(shù)帶來了革命性的進展。這種技術(shù)進步為更準(zhǔn)確和智能的查詢處理提供了新的解決方案。

2、在對話式搜索系統(tǒng)中,用戶能夠通過多輪交互滿足復(fù)雜的信息需求,而其中的關(guān)鍵步驟之一便是為每條與上下文相關(guān)的用戶語句生成適當(dāng)?shù)乃阉鞑樵?。deepseek模型在任務(wù)解決方面的強大能力促使研究者將其集成到現(xiàn)有的對話搜索系統(tǒng)中,以優(yōu)化每次查詢。例如,wang等人使用few-shot方法生成與查詢相關(guān)的段落(query2doc),并將生成內(nèi)容與原查詢組合形成新的查詢文本;ma等人則在檢索查詢之前利用訓(xùn)練好的重寫模型對查詢進行優(yōu)化;fengran等人將開源deepseek模型應(yīng)用于改善對話搜索中的查詢重寫,尤其是通過消解模糊查詢以處理對話歷史中的歧義。

3、盡管這些方法取得了進展,仍然存在一些問題:基于deepseek模型生成相關(guān)段落的方式可能引入不適合當(dāng)前對話場景的內(nèi)容,導(dǎo)致檢索效果下降;獨立訓(xùn)練的重寫模型不僅需要高質(zhì)量的數(shù)據(jù)源,還需解決上下文理解、多重意圖解析的難題,并對檢索系統(tǒng)有較高依賴性;直接對歷史對話進行數(shù)據(jù)增強或調(diào)用api讓deepseek模型充當(dāng)查詢評分器會導(dǎo)致系統(tǒng)復(fù)雜性增加,并消耗大量的token資源。


技術(shù)實現(xiàn)思路

1、發(fā)明目的:針對現(xiàn)有技術(shù)的不足之處,提出一種基于歷史上下文的大語言模型用戶查詢改寫系統(tǒng)及方法,該方法通過二階段的查詢改寫流程,增強了查詢內(nèi)容的豐富性,有效消除了指代歧義,識別了上下文中的主題轉(zhuǎn)換,從而確保查詢的準(zhǔn)確性、清晰性、信息充足性和簡潔性。本方法通過bm25模型和bge向量模型對候選查詢與上下文進行加權(quán)評分,避免了對每個候選查詢調(diào)用deepseek模型,并對改寫內(nèi)容弄進行評分,顯著降低了deepseek模型改寫的成本。

2、為實現(xiàn)上述技術(shù)目的,本發(fā)明采用如下技術(shù)方案:

3、一種基于歷史上下文的大語言模型用戶查詢改寫系統(tǒng),包括順序連接的數(shù)據(jù)輸入層、查詢優(yōu)化器、候選查詢池、候選查詢-上下文對齊評分機制以及查詢優(yōu)化輸出層;

4、數(shù)據(jù)輸入層,用以將接收用戶的原始查詢以及相關(guān)的歷史上下文數(shù)據(jù),并將其傳遞給查詢優(yōu)化器;

5、查詢優(yōu)化器為deepseek,用以對輸入的數(shù)據(jù)進行初步處理和優(yōu)化生成候選查詢,根據(jù)技術(shù)領(lǐng)域需要提前對deepseek進行專業(yè)知識訓(xùn)練;

6、候選查詢池,用以存儲優(yōu)化后的候選查詢,通過字典方式進行存儲;

7、候選查詢-上下文對齊評分機制,用以從候選查詢池中選取候選查詢;

8、結(jié)合歷史上下文數(shù)據(jù),用以對每個候選查詢進行評分,評估其與上下文的匹配程度和質(zhì)量,

9、查詢優(yōu)化輸出層,用以將得分最高的候選查詢輸出,即為將原始查詢?yōu)轭}優(yōu)化改寫后的查詢問題,能夠提升檢索效果、處理模糊查詢、優(yōu)化用戶體驗。

10、一種基于歷史上下文的大語言模型用戶查詢改寫系統(tǒng)的改寫方法,具體步驟如下:

11、步驟1、對自然語言數(shù)據(jù)集進行數(shù)據(jù)篩選工作,自然語言數(shù)據(jù)集包括原始查詢、由人工改寫的查詢、相關(guān)上下文信息以及對應(yīng)的相關(guān)文本鏈接;根據(jù)需要設(shè)定篩選條件,然后從數(shù)據(jù)集中提取出包含原始查詢及其相關(guān)歷史上下文內(nèi)容的有效數(shù)據(jù)集,形成所需的有效數(shù)據(jù)集;

12、步驟2、從準(zhǔn)確性、清晰性、信息充足性和簡潔性四個特點人工設(shè)計提示詞,提示詞圍繞用戶提問領(lǐng)域的專業(yè)術(shù)語、數(shù)據(jù)特征以及期望的查詢方向進行設(shè)計,以下是具體且詳細(xì)的設(shè)計要求:

13、步驟3、將有效數(shù)據(jù)集輸入deepseek進行查詢改寫,使用設(shè)計的提示詞輔助deepseek生成改寫后的候選查詢-上下文數(shù)據(jù)對,候選查詢-上下文數(shù)據(jù)對包括多個候選查詢及每個候選查詢對應(yīng)的上下文內(nèi)容;

14、步驟4、重復(fù)步驟3遍歷有效數(shù)據(jù)集中每一個數(shù)據(jù),將生成的候選查詢-上下文數(shù)據(jù)對存儲于候選查詢池;

15、步驟5、利用候選查詢-上下文對齊評分機制對候選查詢-上下文數(shù)據(jù)對評分;

16、步驟6、在查詢優(yōu)化輸出層,根據(jù)對齊評分機制計算得到的分?jǐn)?shù),選擇得分最高的候選查詢作為初步改寫后的查詢;

17、步驟7、對初步改寫后的查詢重復(fù)步驟1至步驟6的操作達到預(yù)設(shè)循環(huán)次數(shù),輸出最終改寫的查詢,從而消除查詢內(nèi)容中存在語句歧義、指代不明的問題。

18、進一步,數(shù)據(jù)集為qrecc,qrecc包括問題重寫,檢索和閱讀理解;qrecc使用字典存儲人工改寫后的完整的數(shù)據(jù),人工改寫后的完整的數(shù)據(jù)由原始查詢問題、人工改寫的查詢、相關(guān)上下文信息以及對應(yīng)的相關(guān)文本鏈接信息整合為一條完整的數(shù)據(jù),并將完整的數(shù)據(jù)作為字典的元素;將不同元素作為字典的鍵值對,其中鍵為描述性的名稱,值為相應(yīng)的數(shù)據(jù),數(shù)據(jù)記錄的來源包括qrecc中自帶的quac-conv、nq-conv和trec-conv數(shù)據(jù)集,確保了數(shù)據(jù)的多樣性和廣泛性,并確保上下文信息的充分性和對話的連貫性。

19、進一步,從準(zhǔn)確性、清晰性、信息充足性和簡潔性四個特點人工設(shè)計提示詞的具體規(guī)則如下:

20、明確目標(biāo):

21、清晰定義改寫目的:提示詞應(yīng)明確指出改寫的目標(biāo),包括簡化語言、轉(zhuǎn)換風(fēng)格、調(diào)整語氣或優(yōu)化結(jié)構(gòu);具體說明輸出要求:包括字?jǐn)?shù)限制、目標(biāo)受眾、語言風(fēng)格;

22、上下文信息:

23、提供背景信息:提示詞應(yīng)包含足夠的上下文,幫助模型理解原文的語境和意圖;明確主題和領(lǐng)域:標(biāo)注為科技、文學(xué)或商業(yè),確保改寫內(nèi)容符合特定領(lǐng)域的術(shù)語和表達習(xí)慣;

24、語言和詞匯:

25、指定語言:包括英語、中文,確保改寫后的文本語言正確;詞匯選擇:標(biāo)注為簡單詞匯、專業(yè)術(shù)語、同義詞替換,確保詞匯選擇符合目標(biāo);

26、避免歧義:

27、清晰表達:提示詞應(yīng)避免模糊或歧義,確保deepseek模型準(zhǔn)確理解需求,包括人工標(biāo)注的示例,幫助deepseek模型更好地理解預(yù)期輸出。

28、進一步,提示詞為圍繞用戶提問領(lǐng)域的專業(yè)術(shù)語、數(shù)據(jù)特征以及期望的查詢方向,確保deepseek模型能夠理解意圖,并為deepseek模型提供樣例,樣例包括從原始查詢到改寫后查詢的合理轉(zhuǎn)換方式,只提供當(dāng)前查詢和對話上下文讓deepseek模型生成重構(gòu)查詢:

29、當(dāng)需要控制消耗api額度時,選擇零樣本學(xué)習(xí)zsl的框架,deepseek模型依據(jù)當(dāng)前查詢qt及其相關(guān)的對話上下文convt來生成重構(gòu)的查詢利用deepseek模型對設(shè)計的提示詞的理解和執(zhí)行能力,以實現(xiàn)查詢的重寫:將對話上下文convt與當(dāng)前查詢qt結(jié)合起來,形成一條指令i,并將其作為提示信息輸入deepseek模型,以便采樣并生成重構(gòu)的查詢

30、

31、其中,||代表文本串聯(lián),llm為deepseek模型,t表示當(dāng)前時刻。

32、進一步,提示詞為圍繞用戶提問領(lǐng)域的專業(yè)術(shù)語、數(shù)據(jù)特征以及期望的查詢方向,確保deepseek模型能夠理解意圖,并為deepseek模型提供樣例,樣例包括從原始查詢到改寫后查詢的合理轉(zhuǎn)換方式,提供當(dāng)前查詢和對話上下文,還向deepseek模型提供人工標(biāo)注的示例,讓deepseek模型生成重構(gòu)查詢:

33、當(dāng)需要確保改寫結(jié)果的預(yù)期情況下,選擇少樣本學(xué)習(xí)fsl的框架,deepseek模型根據(jù)示例來理解指令要求,每個人工標(biāo)注的示例包括三個關(guān)鍵元素:查詢q、對話上下文conv和重寫的查詢將這些包含關(guān)鍵元素的多個示例串聯(lián)起來,示例s表示為:

34、

35、其中,n表示示例的數(shù)量,通過將s放置在指令i和測試實例(convt,qt)之間作為對deepseek模型的提示,生成重構(gòu)的查詢?nèi)缓蟊徊蓸樱?/p>

36、

37、采用fsl設(shè)置提示deepseek模型作為重寫修訂器,除了查詢q、會話上下文conv和重寫之外,還為每個示例引入初始重寫將引入初始重寫的示例的串聯(lián)表示為:

38、

39、其中,n表示示例的數(shù)量,輸入一個測試實例(convt,qt),伴隨著一個初始重寫通過以下過程獲得修訂后的重構(gòu)查詢

40、

41、其中,表示查詢修訂器的指令。

42、進一步,利用候選查詢-上下文對齊評分機制來評估候選查詢的質(zhì)量,其分?jǐn)?shù)計算方式如下:從候選查詢池中的多個候選查詢中循環(huán)給對候選查詢qi及其對應(yīng)的上下文conv進行評分,利用下式計算bm25評分:

43、

44、其中,f(qi,conv)是上下文conv中的查詢詞語的頻率,|conv|是上下文長度,avgdl是上下文平均長度,k1=1.5,b=0.75,k1和b均是調(diào)節(jié)因子。idf(qi)是逆文檔頻率項,如下所示:

45、

46、其中,idf(qi)是利用上下文的總數(shù)n計算的,并且n(qi)是包含qi的上下文的數(shù)目;

47、計算密集得分,即候選查詢和上下文之間的相關(guān)性得分,將查詢和上下文都被嵌入到高維連續(xù)向量空間中,利用下式計算dense對齊分?jǐn)?shù):

48、

49、其中和econv分別是來自稠密檢索模型(baai/bge-large-en-vl.5)的候選查詢qi和上下文conv的稠密嵌入向量。

50、最后,利用下式將bm25評分和dense評分結(jié)合起來得到混合分?jǐn)?shù):

51、hybrid=α·bm25(qi,conv)+dense(qi,conv)

52、其中參數(shù)α設(shè)置為0.5,以平衡bm25評分和dense評分的貢獻。

53、一種計算機設(shè)備,包括處理器和存儲器,所述處理器與存儲器電性連接,存儲器用于存儲指令和數(shù)據(jù),處理器用于執(zhí)行基于歷史上下文的大語言模型用戶查詢改寫方法。

54、有益效果:本方法通過二階段的查詢改寫流程,增強了查詢內(nèi)容的豐富性,有效消除了指代歧義,識別了上下文中的主題轉(zhuǎn)換,從而確保查詢的準(zhǔn)確性、清晰性、信息充足性和簡潔性。此外,本方法通過bm25模型和bge向量模型對候選查詢與上下文進行加權(quán)評分,避免了對每個候選查詢調(diào)用api以讓大語言模型(deepseek模型)進行評分的過程,顯著降低了deepseek模型改寫的成本。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1