国产真实乱全部视频,黄色片视频在线免费观看,密臀av一区二区三区,av黄色一级,中文字幕.com,日本a级网站,在线视频观看91

一種長序列數(shù)據(jù)的處理方法以及相關(guān)設(shè)備與流程

文檔序號:42326115發(fā)布日期:2025-07-01 19:44閱讀:6來源:國知局

本技術(shù)涉及人工智能(artificial?intelligence,ai)領(lǐng)域,尤其涉及一種長序列數(shù)據(jù)的處理方法以及相關(guān)設(shè)備。


背景技術(shù):

1、ai是利用數(shù)字計算機或者數(shù)字計算機控制的機器模擬、延伸和擴展人的智能,感知環(huán)境、獲取知識并使用知識獲得最佳結(jié)果的理論、方法、技術(shù)以及應(yīng)用系統(tǒng)。簡單來說,人工智能研究的是各種智能機器的設(shè)計原理和實現(xiàn)方法,使得機器具有感知、推理和決策的功能。隨著ai技術(shù)的發(fā)展,transformer模型發(fā)揮著重要作用。

2、transformer模型應(yīng)用自注意力機制,需要計算注意力結(jié)果,用于更好地訓(xùn)練模型和進行推理。但是在傳統(tǒng)方案中,將輸入序列作為整體進行注意力結(jié)果的計算。輸入序列的長度越長,計算的復(fù)雜度越高,導(dǎo)致算力資源的嚴重消耗,計算效率低下。


技術(shù)實現(xiàn)思路

1、本技術(shù)實施例提供了一種長序列數(shù)據(jù)的處理方法以及相關(guān)設(shè)備,將第一序列處理得到m組目標矩陣,分別計算m組目標矩陣對應(yīng)的m個第一注意力結(jié)果,再拼接得到第一序列對應(yīng)的第二注意力結(jié)果。相較于將第一序列作為整體,直接計算注意力結(jié)果,在計算每組目標矩陣的第一注意力結(jié)果時,降低了矩陣的規(guī)模,也就降低了計算的復(fù)雜度,提升了計算效率。

2、第一方面,本技術(shù)提供了一種長序列數(shù)據(jù)的處理方法,該方法應(yīng)用于transformer模型,該方法包括:

3、獲取長度為n的第一序列,n為大于或等于2的整數(shù)?;诘谝恍蛄?,獲取m組目標矩陣。其中每組目標矩陣包括查詢(query)矩陣、鍵(key)矩陣和值(value)矩陣,m為大于或等于2的整數(shù)。也就是說,通過對第一序列進行處理,得到m組目標矩陣,每組目標矩陣的規(guī)模都小于直接對第一序列進行特征映射得到的矩陣的規(guī)模。分別計算m組目標矩陣對應(yīng)的m個第一注意力結(jié)果,再拼接m個第一注意力結(jié)果,得到第一序列的第二注意力結(jié)果。

4、本技術(shù)中,將第一序列處理得到m組目標矩陣,分別計算m組目標矩陣對應(yīng)的m個第一注意力結(jié)果,再拼接得到第一序列對應(yīng)的第二注意力結(jié)果。相較于將第一序列作為整體,直接計算注意力結(jié)果,在計算每組目標矩陣的第一注意力結(jié)果時,降低了矩陣的規(guī)模,也就降低了計算的復(fù)雜度,提升了計算效率。

5、在第一方面的一些可選的實施方式中,基于第一序列,獲取m組目標矩陣包括:先通過特征映射的方式,獲取第一序列對應(yīng)的矩陣。再將第一序列對應(yīng)的矩陣劃分為m組目標矩陣。

6、在第一方面的一些可選的實施方式中,基于第一序列,獲取m組目標矩陣包括:先對第一序列進行切分,得到m組第二序列。再將m組第二序列的特征映射至特征空間,得到m組目標矩陣,m組目標矩陣與m組第二序列一一對應(yīng)。

7、在本技術(shù)中,有多種方式獲取m組目標矩陣,既可以是先對第一序列進行特征轉(zhuǎn)換再切分的方式,也可以是先切分再進行特征轉(zhuǎn)換的方式,豐富了本技術(shù)技術(shù)方案的實現(xiàn)方式。

8、在第一方面的一些可選的實施方式中,計算m組目標矩陣對應(yīng)的m個第一注意力結(jié)果,包括:

9、根據(jù)第一query矩陣、第一key矩陣和第一value矩陣,計算第一注意力結(jié)果。其中,第一query矩陣、第一key矩陣和第一value矩陣中至少兩個矩陣對應(yīng)的目標矩陣不同。另外,第一query矩陣包含于m組目標矩陣包括的m個query矩陣;第一key矩陣為m組目標矩陣包括的m個key矩陣,第一value矩陣包含于m組目標矩陣包括的m個value矩陣。

10、可以理解的是,第一query矩陣、第一key矩陣和第一value矩陣中至少兩個矩陣對應(yīng)的目標矩陣不同,也就意味著,在計算一個第一注意力結(jié)果時,考慮了不同組目標矩陣的組間交互,能夠反映不同組目標矩陣在第一序列中的組間依賴關(guān)系。不論transformer模型應(yīng)用在哪種領(lǐng)域,都有利于提升模型的訓(xùn)練精度和推理精度,從而更好地實現(xiàn)模型的訓(xùn)練效果和在下游任務(wù)的推理準確度。

11、在第一方面的一些可選的實施方式中第一query矩陣、第一key矩陣和第一value矩陣中至少兩個矩陣對應(yīng)的目標矩陣不同,包括:第一query矩陣、第一key矩陣和第一value矩陣中至少兩個矩陣對應(yīng)的目標矩陣為相鄰矩陣。

12、本技術(shù)中,在第一query矩陣、第一key矩陣和第一value矩陣中至少兩個矩陣對應(yīng)的目標矩陣在第一序列中的位置相鄰的方案中,由于相鄰位置的不同組目標矩陣的組間依賴關(guān)系更強,那么此方案能夠更準確地反映不同組目標矩陣的組間依賴關(guān)系,進一步提升transformer模型的準確度。

13、在第一方面的一些可選的實施方式中第一query矩陣、第一key矩陣和第一value矩陣中至少兩個矩陣對應(yīng)的目標矩陣不同,包括:第一query矩陣、第一key矩陣和第一value矩陣對應(yīng)的目標矩陣均不相鄰。

14、在本技術(shù)中,第一query矩陣、第一key矩陣和第一value矩陣中至少兩個矩陣對應(yīng)的目標矩陣不同,有多種可能的情況,豐富了本技術(shù)技術(shù)方案的實現(xiàn)方式和應(yīng)用場景,提升了技術(shù)方案的靈活性。

15、在第一方面的一些可選的實施方式中計算m組目標矩陣對應(yīng)的m個第一注意力結(jié)果,包括:根據(jù)第二query矩陣、第二key矩陣和第二value矩陣,計算第一注意力結(jié)果。其中,第二query矩陣、第二key矩陣和第二value矩陣對應(yīng)的目標矩陣相同,并且第二query矩陣包含于m組目標矩陣包括的m個query矩陣;第二key矩陣包含于m組目標矩陣包括的m個key矩陣,第二value矩陣包含于m組目標矩陣包括的m個value矩陣。

16、在本技術(shù)中,還可以基于對應(yīng)同一個目標矩陣的第二query矩陣和第二key矩陣,確定第二qurey矩陣計算一個第一注意力結(jié)果,在計算時能夠更加簡單,進一步簡化了操作。

17、在第一方面的一些可選的實施方式中,將第一序列對應(yīng)的矩陣劃分為m組目標矩陣,包括:將第一序列對應(yīng)的矩陣均分,得到m組目標矩陣。其中,第一序列對應(yīng)的矩陣是對第一序列進行特征映射得到的,或者,是對填充后的第一序列進行特征映射得到的。填充后的第一序列的長度能夠被均為m份。

18、本技術(shù)中,m組目標矩陣是對第一序列對應(yīng)的矩陣均分得到的,每組目標矩陣的矩陣規(guī)模是相同的,那么在計算每組目標矩陣對應(yīng)的第一注意力結(jié)果時,可以采用相同的算法邏輯,使得計算過程更加便捷。

19、在第一方面的一些可選的實施方式中,處理第一序列,得到m組第二序列,包括:在第一序列的長度n被m均分的情況下,則將第一序列均分,得到m組第二序列。也就是說,每組第二序列的長度相同?;蛘撸陂L度n不能被m均分的情況下,則填充(padding)第一序列,填充后的第一序列的長度為m的整數(shù)倍。再均分填充后的第一序列,得到m組第二序列。

20、本技術(shù)中,m組目標矩陣的矩陣規(guī)模是相同的,那么在計算每組目標矩陣對應(yīng)的第一注意力結(jié)果時,可以采用相同的算法邏輯,使得計算過程更加便捷。在第一序列無法均分的方案中,對第一序列進行填充,填充操作不僅使得填充后的第一序列可以均分,還不會影響注意力結(jié)果的準確度。

21、第二方面,本技術(shù)提供了一種長序列數(shù)據(jù)的處理裝置,該裝置應(yīng)用transformer模型,裝置包括:

22、獲取單元,用于獲取長度為n的第一序列,n為大于或等于2的整數(shù);

23、處理單元,用于基于第一序列獲取m組目標矩陣,其中每組目標矩陣包括query矩陣、key矩陣和value矩陣,m為大于或等于2的整數(shù)。

24、處理單元,還用于計算m組目標矩陣對應(yīng)的m個第一注意力結(jié)果。拼接m個第一注意力結(jié)果,得到第一序列的第二注意力結(jié)果。

25、長序列數(shù)據(jù)的處理裝置用于實現(xiàn)前述第一方面、或者第一方面任意一種可能的實現(xiàn)方式,詳見前文所示,此處不再贅述。

26、第三方面,本技術(shù)提供了一種長序列數(shù)據(jù)的處理裝置,包括處理器和存儲器,處理器存儲指令,當存儲在存儲器上的指令在處理器上運行時,實現(xiàn)前述第一方面或者第一方面的任一種可能的實現(xiàn)方式所示的方法。

27、第四方面,本技術(shù)提供了一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)中保存有指令,當指令在處理器上運行時,實現(xiàn)前述第一方面或者第一方面的任一種可能的實現(xiàn)方式所示的方法。

28、第五方面,本技術(shù)提供了一種計算機程序產(chǎn)品,當計算機程序產(chǎn)品在處理器上執(zhí)行時,實現(xiàn)前述第一方面或者第一方面的任一種可能的實現(xiàn)方式所示的方法。

29、第二方面至第五方面中任一方面所示的有益效果與第一方面或者第一方面任一種可能的實現(xiàn)方式類似,此處不再贅述。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1