本技術(shù)涉及人工智能,具體涉及一種跨模態(tài)數(shù)據(jù)對(duì)齊模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、隨著計(jì)算機(jī)技術(shù)的發(fā)展,目前在工業(yè)生產(chǎn)中需要可以通過不同模態(tài)的數(shù)據(jù)對(duì)齊的方式來實(shí)現(xiàn)一些工業(yè)場(chǎng)景應(yīng)用,比如在工業(yè)檢測(cè)場(chǎng)景中,將圖像數(shù)據(jù)和光譜頻譜數(shù)據(jù)對(duì)齊來實(shí)現(xiàn)對(duì)材料材質(zhì)的檢測(cè)。
2、但是工業(yè)場(chǎng)景下不同傳感器所采集的跨模態(tài)數(shù)據(jù)往往存在時(shí)空異步性,會(huì)導(dǎo)致不同模態(tài)下數(shù)據(jù)的數(shù)據(jù)融合和數(shù)據(jù)分析的準(zhǔn)確性下降。相關(guān)技術(shù)中,基于理想的損失值來優(yōu)化跨模態(tài)數(shù)據(jù)對(duì)齊模型,比如只考慮不同模態(tài)數(shù)據(jù)之間的損失值來優(yōu)化跨模態(tài)數(shù)據(jù)對(duì)齊模型,再利用優(yōu)化后的跨模態(tài)數(shù)據(jù)對(duì)齊模型估計(jì)跨模態(tài)數(shù)據(jù)之間的對(duì)齊匹配,但是這樣優(yōu)化出來的跨模態(tài)數(shù)據(jù)對(duì)齊模型會(huì)存在泛化性不足以及對(duì)不同模塊數(shù)據(jù)的對(duì)齊準(zhǔn)確性低的問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供一種跨模態(tài)數(shù)據(jù)對(duì)齊模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì),訓(xùn)練后的跨模態(tài)數(shù)據(jù)對(duì)齊模型可以實(shí)現(xiàn)準(zhǔn)確提取待處理圖像數(shù)據(jù)的特征和待處理頻譜數(shù)據(jù)的特征,以通過二者分別對(duì)應(yīng)的特征實(shí)現(xiàn)待處理圖像數(shù)據(jù)和待處理頻譜數(shù)據(jù)的數(shù)據(jù)對(duì)齊,提升了對(duì)跨模態(tài)數(shù)據(jù)對(duì)齊的準(zhǔn)確率。
2、為了實(shí)現(xiàn)上述目的,本技術(shù)一方面提供了一種跨模態(tài)數(shù)據(jù)對(duì)齊模型訓(xùn)練方法,包括:
3、獲取圖像數(shù)據(jù)和頻譜數(shù)據(jù),并將所述圖像數(shù)據(jù)和所述頻譜數(shù)據(jù)分別輸入到跨模態(tài)數(shù)據(jù)對(duì)齊模型中,輸出共同語義空間中用于表征所述圖像數(shù)據(jù)中每個(gè)圖像的第一特征,以及用于表征所述頻譜數(shù)據(jù)中每個(gè)頻譜的第二特征,所述圖像數(shù)據(jù)中包含了正樣本圖像和負(fù)樣本圖像,所述頻譜數(shù)據(jù)中包含了正樣本頻譜和負(fù)樣本頻譜;
4、確定所述第一特征和所述第二特征對(duì)應(yīng)的軟間隔,根據(jù)所述第一特征和所述第二特征確定所述圖像數(shù)據(jù)和所述頻譜數(shù)據(jù)之間的對(duì)應(yīng)的第一相似性特征;
5、根據(jù)所述第一相似性特征和所述軟間隔確定出所述跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的第一損失值;
6、確定所述圖像數(shù)據(jù)和所述頻譜數(shù)據(jù)之間對(duì)應(yīng)的匹配概率,并基于所述匹配概率確定出所述跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的第二損失值;
7、根據(jù)所述第一特征確定出所述圖像數(shù)據(jù)中圖像之間對(duì)應(yīng)的第二相似性特征,以及根據(jù)所述第二特征確定出所述頻譜數(shù)據(jù)中頻譜之間對(duì)應(yīng)的第三相似性特征,根據(jù)所述第二相似性特征和所述第三相似性特征確定出所述跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的第三損失值;
8、根據(jù)所述第一損失值、所述第二損失值和所述第三損失值確定出所述跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的總損失值,并根據(jù)所述總損失值對(duì)所述跨模態(tài)數(shù)據(jù)對(duì)齊模型進(jìn)行迭代更新,得到更新后的跨模態(tài)數(shù)據(jù)對(duì)齊模型,并返回執(zhí)行將所述圖像數(shù)據(jù)和所述頻譜數(shù)據(jù)分別輸入到跨模態(tài)數(shù)據(jù)對(duì)齊模型中,直至所述跨模態(tài)數(shù)據(jù)對(duì)齊模型收斂,得到訓(xùn)練后的跨模態(tài)數(shù)據(jù)對(duì)齊模型,所述訓(xùn)練后的跨模態(tài)數(shù)據(jù)對(duì)齊模型用于提取待處理圖像數(shù)據(jù)的目標(biāo)第一特征和待處理頻譜數(shù)據(jù)的目標(biāo)第二特征,所述目標(biāo)第一特征和所述目標(biāo)第二特征用于對(duì)齊所述待處理圖像數(shù)據(jù)和所述待處理頻譜數(shù)據(jù)。
9、為了實(shí)現(xiàn)上述目的,本技術(shù)一方面提供了一種跨模態(tài)數(shù)據(jù)對(duì)齊模型訓(xùn)練裝置,包括:
10、獲取模塊,用于獲取圖像數(shù)據(jù)和頻譜數(shù)據(jù),并將所述圖像數(shù)據(jù)和所述頻譜數(shù)據(jù)分別輸入到跨模態(tài)數(shù)據(jù)對(duì)齊模型中,輸出共同語義空間中用于表征所述圖像數(shù)據(jù)中每個(gè)圖像的第一特征,以及用于表征所述頻譜數(shù)據(jù)中每個(gè)頻譜的第二特征,所述圖像數(shù)據(jù)中包含了正樣本圖像和負(fù)樣本圖像,所述頻譜數(shù)據(jù)中包含了正樣本頻譜和負(fù)樣本頻譜;
11、第一確定模塊,用于確定所述第一特征和所述第二特征對(duì)應(yīng)的軟間隔,根據(jù)所述第一特征和所述第二特征確定所述圖像數(shù)據(jù)和所述頻譜數(shù)據(jù)之間的對(duì)應(yīng)的第一相似性特征;
12、第二確定模塊,用于根據(jù)所述第一相似性特征和所述軟間隔確定出所述跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的第一損失值;
13、第三確定模塊,用于確定所述圖像數(shù)據(jù)和所述頻譜數(shù)據(jù)之間對(duì)應(yīng)的匹配概率,并基于所述匹配概率確定出所述跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的第二損失值;
14、第四確定模塊,用于根據(jù)所述第一特征確定出所述圖像數(shù)據(jù)中圖像之間對(duì)應(yīng)的第二相似性特征,以及根據(jù)所述第二特征確定出所述頻譜數(shù)據(jù)中頻譜之間對(duì)應(yīng)的第三相似性特征,根據(jù)所述第二相似性特征和所述第三相似性特征確定出所述跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的第三損失值;
15、迭代模塊,用于根據(jù)所述第一損失值、所述第二損失值和所述第三損失值確定出所述跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的總損失值,并根據(jù)所述總損失值對(duì)所述跨模態(tài)數(shù)據(jù)對(duì)齊模型進(jìn)行迭代更新,得到更新后的跨模態(tài)數(shù)據(jù)對(duì)齊模型,并返回執(zhí)行將所述圖像數(shù)據(jù)和所述頻譜數(shù)據(jù)分別輸入到跨模態(tài)數(shù)據(jù)對(duì)齊模型中,直至所述跨模態(tài)數(shù)據(jù)對(duì)齊模型收斂,得到訓(xùn)練后的跨模態(tài)數(shù)據(jù)對(duì)齊模型,所述訓(xùn)練后的跨模態(tài)數(shù)據(jù)對(duì)齊模型用于提取待處理圖像數(shù)據(jù)的目標(biāo)第一特征和待處理頻譜數(shù)據(jù)的目標(biāo)第二特征,所述目標(biāo)第一特征和所述目標(biāo)第二特征用于對(duì)齊所述待處理圖像數(shù)據(jù)和所述待處理頻譜數(shù)據(jù)。
16、在一些實(shí)施方式中,第一確定模塊包括第一確定子模塊、第二確定子模塊、第三確定子模塊和第四確定子模塊;
17、第一確定子模塊,用于確定所述圖像數(shù)據(jù)中圖像之間對(duì)應(yīng)的第一概率分布,以及所述頻譜數(shù)據(jù)中頻譜之間的第二概率分布;
18、第二確定子模塊,用于確定所述第一概率分布和所述第二概率分布之間的距離;
19、第三確定子模塊,用于根據(jù)所述距離確定出所述圖像數(shù)據(jù)和所述頻譜數(shù)據(jù)之間對(duì)應(yīng)的實(shí)例一致性評(píng)分;
20、第四確定子模塊,用于根據(jù)所述實(shí)例一致性評(píng)分確定出所述第一特征和所述第二特征對(duì)應(yīng)的軟間隔。
21、在一些實(shí)施方式中,第一確定子模塊,用于:
22、根據(jù)所述第一特征確定所述圖像數(shù)據(jù)中圖像之間對(duì)應(yīng)的第一相似度,根據(jù)所述第二特征確定所述頻譜數(shù)據(jù)中頻譜之間的第二相似度;
23、將所述第一相似度輸入到歸一化指數(shù)函數(shù)中,得到所述圖像數(shù)據(jù)中圖像之間對(duì)應(yīng)的第一概率分布;
24、將所述第二相似度輸入到歸一化指數(shù)函數(shù)中,得到所述頻譜數(shù)據(jù)中頻譜之間的第二概率分布。
25、在一些實(shí)施方式中,第二確定子模塊,用于:
26、確定所述第一概率分布和所述第二概率分布之間的歐氏距離的平方值;
27、確定所述第一概率分布和所述第二概率分布之間的聯(lián)合概率分布;
28、根據(jù)所述平方值和所述聯(lián)合概率分布確定出所述第一概率分布和所述第二概率分布之間的距離。
29、在一些實(shí)施方式中,第三確定子模塊,用于:
30、將所述距離乘以預(yù)設(shè)平滑因子后輸入到雙曲正切函數(shù)中,輸出評(píng)分因子;
31、根據(jù)所述評(píng)分因子確定出所述圖像數(shù)據(jù)和所述頻譜數(shù)據(jù)之間對(duì)應(yīng)的實(shí)例一致性評(píng)分。
32、在一些實(shí)施方式中,第一確定模塊,用于:
33、在所述圖像數(shù)據(jù)中確定目標(biāo)圖像,根據(jù)所述目標(biāo)圖像的第一特征和所述正樣本頻譜對(duì)應(yīng)的第二特征確定出所述目標(biāo)圖像和所述正樣本頻譜之間對(duì)應(yīng)的第一子相似度;
34、根據(jù)所述目標(biāo)圖像的第一特征和所述負(fù)樣本頻譜對(duì)應(yīng)的第二特征確定出所述目標(biāo)圖像和所述負(fù)樣本頻譜之間對(duì)應(yīng)的第二子相似度;
35、在所述頻譜數(shù)據(jù)中確定目標(biāo)頻譜,根據(jù)所述目標(biāo)頻譜的第二特征和所述正樣本圖像對(duì)應(yīng)的第一特征確定出所述目標(biāo)頻譜和所述正樣本圖像之間對(duì)應(yīng)的第三子相似度;
36、根據(jù)所述目標(biāo)頻譜的第二特征和所述負(fù)樣本圖像對(duì)應(yīng)的第一特征確定出所述目標(biāo)頻譜和所述負(fù)樣本圖像之間對(duì)應(yīng)的第四子相似度,所述第一相似性特征包括所述第一子相似度、所述第二子相似度、所述第三子相似度和所述第四子相似度。
37、在一些實(shí)施方式中,第二確定模塊,用于:
38、將所述軟間隔減去所述第一子相似度再加上所述第二子相似度,得到第一計(jì)算值;
39、將所述軟間隔減去所述第三子相似度再加上所述第四子相似度,得到第二計(jì)算值;
40、根據(jù)所述第一計(jì)算值和所述第二計(jì)算值確定出所述跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的第一損失值。
41、在一些實(shí)施方式中,第三確定模塊,用于:
42、根據(jù)所述匹配概率確定出所述圖像數(shù)據(jù)和所述頻譜數(shù)據(jù)之間的不相似概率;
43、根據(jù)所述不相似概率確定出所述跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的第二損失值。
44、在一些實(shí)施方式中,第四確定模塊,用于:
45、在所述圖像數(shù)據(jù)中確定出目標(biāo)圖像,根據(jù)所述目標(biāo)圖像的第一特征和所述正樣本圖像對(duì)應(yīng)的第一特征確定出所述目標(biāo)圖像和所述正樣本圖像之間的目標(biāo)第一子相似度;
46、確定所述目標(biāo)圖像的第一特征和所述負(fù)樣本圖像對(duì)應(yīng)的第一特征確定出所述目標(biāo)圖像和所述負(fù)樣本圖像之間的目標(biāo)第二子相似度,所述第二相似性特征包括所述目標(biāo)第一子相似度和所述目標(biāo)第二子相似度;
47、在所述頻譜數(shù)據(jù)中確定出目標(biāo)頻譜,根據(jù)所述目標(biāo)頻譜的第二特征和所述正樣本頻譜對(duì)應(yīng)的第二特征確定出所述目標(biāo)頻譜和所述正樣本頻譜之間的目標(biāo)第三子相似度;
48、確定所述目標(biāo)頻譜的第二特征和所述負(fù)樣本頻譜對(duì)應(yīng)的第二特征確定出所述目標(biāo)頻譜和所述負(fù)樣本頻譜之間的目標(biāo)第四子相似度,所述第三相似性特征包括所述目標(biāo)第三子相似度和所述目標(biāo)第四子相似度。
49、在一些實(shí)施方式中,第四確定模塊,用于:
50、確定邊距參數(shù),并將所述邊距參數(shù)減去所述目標(biāo)第一子相似度后再加上所述目標(biāo)第二子相似度,得到目標(biāo)第一計(jì)算值;
51、將所述邊距參數(shù)減去所述目標(biāo)第三子相似度后再加上所述目標(biāo)第四子相似度,得到目標(biāo)第二計(jì)算值;
52、根據(jù)所述目標(biāo)第一計(jì)算值和所述目標(biāo)第二計(jì)算值得到所述跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的第三損失值。
53、為了實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,所述指令適于處理器進(jìn)行加載,以執(zhí)行本技術(shù)實(shí)施例提供的跨模態(tài)數(shù)據(jù)對(duì)齊模型訓(xùn)練方法。
54、為了實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可以在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)本技術(shù)實(shí)施例提供的跨模態(tài)數(shù)據(jù)對(duì)齊模型訓(xùn)練方法。
55、在本技術(shù)實(shí)施例中,通過獲取圖像數(shù)據(jù)和頻譜數(shù)據(jù),并將圖像數(shù)據(jù)和頻譜數(shù)據(jù)分別輸入到跨模態(tài)數(shù)據(jù)對(duì)齊模型中,輸出共同語義空間中用于表征圖像數(shù)據(jù)中每個(gè)圖像的第一特征,以及用于表征頻譜數(shù)據(jù)中每個(gè)頻譜的第二特征,圖像數(shù)據(jù)中包含了正樣本圖像和負(fù)樣本圖像,頻譜數(shù)據(jù)中包含了正樣本頻譜和負(fù)樣本頻譜;確定第一特征和第二特征對(duì)應(yīng)的軟間隔,根據(jù)第一特征和第二特征確定圖像數(shù)據(jù)和頻譜數(shù)據(jù)之間的對(duì)應(yīng)的第一相似性特征;根據(jù)第一相似性特征和軟間隔確定出跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的第一損失值;確定圖像數(shù)據(jù)和頻譜數(shù)據(jù)之間對(duì)應(yīng)的匹配概率,并基于匹配概率確定出跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的第二損失值;根據(jù)第一特征確定出圖像數(shù)據(jù)中圖像之間對(duì)應(yīng)的第二相似性特征,以及根據(jù)第二特征確定出頻譜數(shù)據(jù)中頻譜之間對(duì)應(yīng)的第三相似性特征,根據(jù)第二相似性特征和第三相似性特征確定出跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的第三損失值;根據(jù)第一損失值、第二損失值和第三損失值確定出跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的總損失值,并根據(jù)總損失值對(duì)跨模態(tài)數(shù)據(jù)對(duì)齊模型進(jìn)行迭代更新,得到更新后的跨模態(tài)數(shù)據(jù)對(duì)齊模型,并返回執(zhí)行將圖像數(shù)據(jù)和頻譜數(shù)據(jù)分別輸入到跨模態(tài)數(shù)據(jù)對(duì)齊模型中,直至跨模態(tài)數(shù)據(jù)對(duì)齊模型收斂,得到訓(xùn)練后的跨模態(tài)數(shù)據(jù)對(duì)齊模型,訓(xùn)練后的跨模態(tài)數(shù)據(jù)對(duì)齊模型用于提取待處理圖像數(shù)據(jù)的目標(biāo)第一特征和待處理頻譜數(shù)據(jù)的目標(biāo)第二特征,目標(biāo)第一特征和目標(biāo)第二特征用于對(duì)齊待處理圖像數(shù)據(jù)和待處理頻譜數(shù)據(jù)。
56、以此,通過在圖像數(shù)據(jù)中和頻譜數(shù)據(jù)中均設(shè)置了正樣本和負(fù)樣本,并且通過確定圖像數(shù)據(jù)和頻譜數(shù)據(jù)的跨模態(tài)下對(duì)應(yīng)的第一損失值,通過圖像數(shù)據(jù)和頻譜數(shù)據(jù)之間對(duì)應(yīng)的匹配概率確定出跨模態(tài)的負(fù)樣本之間對(duì)應(yīng)的第二損失值,通過圖像數(shù)據(jù)和頻譜數(shù)據(jù)的非跨模態(tài)下對(duì)應(yīng)的第三損失值,以從多層次來獲取跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的損失,并基于第一損失值、第二損失值和第三損失值確定出跨模態(tài)數(shù)據(jù)對(duì)齊模型對(duì)應(yīng)的總損失值,這樣得到的總損失值是更加準(zhǔn)確的,能夠更加準(zhǔn)確的指導(dǎo)跨模態(tài)數(shù)據(jù)對(duì)齊模型的訓(xùn)練,訓(xùn)練后的跨模態(tài)數(shù)據(jù)對(duì)齊模型能夠更加準(zhǔn)確的提取待處理圖像數(shù)據(jù)的目標(biāo)第一特征和待處理頻譜數(shù)據(jù)的目標(biāo)第二特征,從而根據(jù)目標(biāo)第一特征和目標(biāo)第二特征對(duì)齊待處理圖像數(shù)據(jù)和待處理頻譜數(shù)據(jù),以實(shí)現(xiàn)對(duì)跨模態(tài)數(shù)據(jù)的準(zhǔn)確對(duì)齊。
57、本技術(shù)的其他特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本技術(shù)而了解。本技術(shù)的目的和其他優(yōu)點(diǎn)可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。