国产真实乱全部视频,黄色片视频在线免费观看,密臀av一区二区三区,av黄色一级,中文字幕.com,日本a级网站,在线视频观看91

一種文本處理方法、模型訓練方法、裝置、設備及產(chǎn)品與流程

文檔序號:42315881發(fā)布日期:2025-07-01 19:33閱讀:6來源:國知局

本技術應用于自然語言,尤其涉及一種文本處理方法、模型訓練方法、裝置、設備及產(chǎn)品。


背景技術:

1、隨著聊天機器人的興起,大語言模型(large?language?models,llms)逐漸成為人工智能方向的研究熱點,如何讓大語言模型在各個專業(yè)領域(例如醫(yī)療領域)快速落地,是相關從業(yè)者一直在思考的問題。

2、相關技術,采集專業(yè)領域的訓練數(shù)據(jù),通過訓練數(shù)據(jù),對通用的大語言模型做進一步的預訓練,或者,對通用的大語言模型的參數(shù)進行微調(diào),使得大語言模型可以適配該專業(yè)領域。

3、然而,隨著大語言模型的性能增強,上述方式得到專業(yè)領域的大語言模型更新難度大,導致其在專業(yè)領域上文本處理的效果不佳。


技術實現(xiàn)思路

1、為了解決上述問題,本技術提出一種文本處理方法、模型訓練方法、裝置、設備及產(chǎn)品,能夠提高大語言模型在專業(yè)領域的文本處理效果。

2、本技術第一方面提供了一種文本處理方法,包括獲取目標專業(yè)領域中待處理的目標文本;通過文本處理模型,對所述目標文本進行處理,得到處理結果;其中,所述文本處理模型包含第一大語言模型、第二大語言模型和組合模型,所述第一大語言模型適用于所述目標專業(yè)領域,所述第二大語言模型適用于通用領域,所述組合模型用于所述第一大語言模型與所述第二大語言模型之間的數(shù)據(jù)融合。

3、在一些實施例中,所述組合模型用于所述第一大語言模型中n個選定網(wǎng)絡層輸出的特征表示與第二大語言模型中m個選定網(wǎng)絡層輸出的特征表示之間的特征融合,n大于或者等于1,m大于或者等于1。

4、在一些實施例中,通過所述組合模型,對所述n個選定網(wǎng)絡層中第i個選定網(wǎng)絡層輸出的特征表示與所述m個選定網(wǎng)絡層中第j個選定網(wǎng)絡層輸出的特征表示進行融合處理的過程,包括:在所述組合模型中,將所述第i個選定網(wǎng)絡層輸出的特征表示與所述第j個選定網(wǎng)絡層輸出的特征表示變換為維度相同的特征表示;在維度變換后,對所述第i個選定網(wǎng)絡層輸出的特征表示與所述第j個選定網(wǎng)絡層輸出的特征表示進行融合處理,得到融合特征;其中,i的取值范圍為1至n,j的取值范圍為1至m。

5、在一些實施例中,所述組合模型包括投影層;所述將所述第i個選定網(wǎng)絡層輸出的特征表示與所述第j個選定網(wǎng)絡層輸出的特征表示變換為維度相同的特征表示,包括:將所述第i個選定網(wǎng)絡層輸出的特征表示輸入所述投影層;在所述投影層中,對所述第i個選定網(wǎng)絡層輸出的特征表示進行線性變換,得到投影表示,所述投影表示的維度與所述第j個選定網(wǎng)絡層輸出的特征表示的維度相同。

6、在一些實施例中,所述組合模型還包括交叉注意力網(wǎng)絡;所述對所述第i個選定網(wǎng)絡層輸出的特征表示與所述第j個選定網(wǎng)絡層輸出的特征表示進行融合處理,得到融合特征,包括:將所述投影表示和所述第j個選定網(wǎng)絡層輸出的特征表示輸入所述交叉注意力網(wǎng)絡;在所述交叉注意力網(wǎng)絡中,對所述投影表示和所述第j個選定網(wǎng)絡層輸出的特征表示進行融合處理,得到所述融合特征。

7、在一些實施例中,所述交叉注意力網(wǎng)絡中包括h個交叉注意力頭,h大于或者等于1;所述在所述交叉注意力網(wǎng)絡中,對所述投影表示和所述第j個選定網(wǎng)絡層輸出的特征表示進行融合處理,得到所述融合特征,包括:根據(jù)所述投影表示,確定所述交叉注意力層中第k個交叉注意力頭的鍵向量和所述第k個交叉注意力頭的值向量,k的取值范圍為1至h;根據(jù)所述第j個選定網(wǎng)絡層輸出的特征表示,確定所述第k個交叉注意力頭的查詢向量;通過交叉注意力機制,對所述鍵向量、值向量和查詢向量進行交叉注意力運算,得到所述第k個交叉注意力頭的輸出數(shù)據(jù);根據(jù)所述輸出數(shù)據(jù),確定所述融合特征。

8、在一些實施例中,所述交叉注意力機制包括交叉注意力掩碼;所述交叉注意力掩碼是通過以下過程確定的:根據(jù)所述第一大語言模型中的分詞器,確定第一詞元序列中多個詞元分別對應的字符位置信息,所述第一詞元序列是通過所述第一大語言模型中的分詞器對所述目標文本進行分詞處理得到的;根據(jù)所述第二大語言模型中的分詞器,確定第二詞元序列中多個詞元分別對應的字符位置信息,所述第二詞元序列是通過所述第二大語言模型中的分詞器對所述目標文本進行分詞處理得到的;根據(jù)所述第一詞元序列中多個詞元分別對應的字符位置信息和所述第二詞元序列中多個詞元分別對應的字符位置信息,生成所述交叉注意力掩碼。

9、在一些實施例中,所述根據(jù)所述第一詞元序列中多個詞元分別對應的字符位置信息和所述第二詞元序列中多個詞元分別對應的字符位置信息,生成所述交叉注意力掩碼,包括:根據(jù)所述第一大語言模型的注意力掩碼,確定第一有效詞元,所述第一有效詞元是所述第一詞元序列中的有效詞元;根據(jù)所述第二大語言模型的注意力掩碼,確定第二有效詞元,所述第二有效詞元是所述第二詞元序列中的有效詞元;在所述第一詞元序列中多個詞元分別對應的字符位置信息中,查找所述第一有效詞元的字符位置信息;在所述第二詞元序列中多個詞元分別對應的字符位置信息中,查找所述第二有效詞元的字符位置信息;將所述第一有效詞元的字符位置信息與所述第二有效詞元的字符位置信息進行比較,得到比較結果;根據(jù)所述比較結果,生成所述交叉注意力掩碼。

10、在一些實施例中,所述根據(jù)所述投影表示,確定所述交叉注意力層中第k個交叉注意力頭的鍵向量和所述第k個交叉注意力頭的值向量,包括:將所述第k個交叉注意力頭對應的第一權重矩陣與所述投影表示進行相乘,得到所述鍵向量;將所述第k個交叉注意力頭對應的第二權重矩陣與所述投影表示進行相乘,得到所述值向量;所述根據(jù)所述第j個選定網(wǎng)絡層輸出的特征表示,確定所述第k個交叉注意力頭的查詢向量,包括:將所述第k個交叉注意力頭對應的第三權重矩陣與所述第j個選定網(wǎng)絡層輸出的特征表示進行相乘,得到所述查詢向量。

11、本技術第二方面提供了一種模型訓練方法,包括:獲取目標專業(yè)領域的訓練文本;通過文本處理模型,對所述訓練文本進行處理,得到處理結果,所述文本處理模型包含第一大語言模型、第二大語言模型和組合模型,所述第一大語言模型適用于所述目標專業(yè)領域,所述第二大語言模型適用于通用領域,所述組合模型用于所述第一大語言模型與所述第二大語言模型之間的數(shù)據(jù)融合;根據(jù)所述處理結果,對所述組合模型進行參數(shù)調(diào)整,得到一次訓練后的所述文本處理模型。

12、在一些實施例中,所述組合模型包括交叉注意力網(wǎng)絡,所述交叉注意力網(wǎng)絡的參數(shù)包括交叉注意力頭對應的權重矩陣,所述根據(jù)所述處理結果,對所述組合模型進行參數(shù)調(diào)整,得到一次訓練后的所述文本處理模型,包括:根據(jù)所述處理結果,對所述交叉注意力頭對應的權重矩陣進行調(diào)整,得到一次訓練后的所述文本處理模型。

13、本技術第三方面提供了一種文本處理裝置,包括:獲取單元,用于獲取目標專業(yè)領域中待處理的目標文本;處理單元,用于通過文本處理模型,對所述目標文本進行處理,得到處理結果;其中,所述文本處理模型包含第一大語言模型、第二大語言模型和組合模型,所述第一大語言模型適用于所述目標專業(yè)領域,所述第二大語言模型適用于通用領域,所述組合模型用于所述第一大語言模型與所述第二大語言模型之間的數(shù)據(jù)融合。

14、本技術第四方面提供了一種模型訓練裝置,包括:獲取單元,用于獲取目標專業(yè)領域的訓練文本;處理單元,用于通過文本處理模型,對所述訓練文本進行處理,得到處理結果,所述文本處理模型包含第一大語言模型、第二大語言模型和組合模型,所述第一大語言模型適用于所述目標專業(yè)領域,所述第二大語言模型適用于通用領域,所述組合模型用于所述第一大語言模型與所述第二大語言模型之間的數(shù)據(jù)融合;調(diào)整單元,用于根據(jù)所述處理結果,對所述組合模型進行參數(shù)調(diào)整,得到一次訓練后的所述文本處理模型。

15、本技術第五方面提供了一種電子設備,包括存儲器和處理器;所述存儲器與所述處理器連接,用于存儲程序;所述處理器用于通過運行所述存儲器中的程序,實現(xiàn)如第一方面或者第一方面任一實施例所述的文本處理方法,或者實現(xiàn)如第二方面或者第二方面任一實施例所述的模型訓練方法。

16、本技術第六方面提供了一種芯片,包括處理器和數(shù)據(jù)接口,所述處理器通過所述數(shù)據(jù)接口讀取并運行存儲器上存儲的程序,以執(zhí)行如第一方面或者第一方面任一實施例所述的文本處理方法,或者以執(zhí)行如第二方面或者第二方面任一實施例所述的模型訓練方法。

17、本技術第七方面提供了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時,實現(xiàn)如第一方面或者第一方面任一實施例所述的文本處理方法,或者實現(xiàn)如第二方面或者第二方面任一實施例所述的模型訓練方法。

18、本技術第八方面提供了一種存儲介質(zhì),所述存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器運行時,實現(xiàn)如第一方面或者第一方面任一實施例所述的文本處理方法,或者實現(xiàn)如第二方面或者第二方面任一實施例所述的模型訓練方法。

19、根據(jù)本技術提出的一種文本處理方法、模型訓練方法、裝置、設備及產(chǎn)品,在文本處理模型中,通過組合模型,對通用領域的大語言模型與專業(yè)領域的大語言模型進行數(shù)據(jù)融合,使得文本處理模型具備通用領域的大語言模型和專業(yè)領域的大語言模型的文本處理能力,提高了文本處理模型在專業(yè)領域的文本處理任務上的表現(xiàn),提高了文本處理效果。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1