本發(fā)明屬于零樣本深度偽造歸因方法,具體涉及一種基于雙模態(tài)引導(dǎo)的零樣本深度偽造歸因方法。
背景技術(shù):
1、隨著生成對抗網(wǎng)絡(luò)和擴散模型等先進生成框架的普及,社交平臺上惡意偽造的深度偽造內(nèi)容引發(fā)了對面部圖像可信賴性和個人隱私的重大擔(dān)憂。因此,追蹤深度偽造的來源已成為一個關(guān)鍵且緊迫的問題。深度偽造歸因技術(shù)應(yīng)運而生,旨在通過基于深度學(xué)習(xí)的方法識別和追溯偽造人臉。
2、現(xiàn)有的深度偽造歸因研究主要集中在視覺模態(tài)中各個領(lǐng)域的交互上,其他模態(tài)如文本和人臉解析尚未得到充分探索,限制了模型泛化能力;此外,它們往往未能細致地評估深度偽造歸因模型在面對未見生成器時的泛化性能。因此,本發(fā)明提供了一種基于雙模態(tài)引導(dǎo)的零樣本深度偽造歸因方法來解決上述問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明為了解決上述問題,提供了一種基于雙模態(tài)引導(dǎo)的零樣本深度偽造歸因方法。
2、本發(fā)明為實現(xiàn)上述目的,通過以下技術(shù)方案實現(xiàn):
3、本發(fā)明提供一種基于雙模態(tài)引導(dǎo)的零樣本深度偽造歸因方法,包括以下步驟:
4、s1.構(gòu)建零樣本深度偽造歸因數(shù)據(jù)集,并劃分為訓(xùn)練集和測試集;對訓(xùn)練集進行預(yù)處理,得到預(yù)處理后的人臉圖像張量和偽造歸因標簽張量;
5、s2.構(gòu)建零樣本深度偽造歸因模型,所述模型包括細粒度文本生成器、人臉解析器、多視角視覺編碼器模塊、語言編碼器、解析編碼器、預(yù)測器以及多層感知機;
6、s3.將預(yù)處理后的偽造歸因標簽張量輸入至細粒度文本生成器,得到細粒度歸因文本;將預(yù)處理后的人臉圖像張量輸入人臉解析器得到人臉解析圖像;所述細粒度歸因文本、人臉解析圖像以及預(yù)處理后的人臉圖像張量構(gòu)成人臉圖像文本解析對;
7、s4.將預(yù)處理后的人臉圖像張量輸入至多視角視覺編碼器模塊中得到多視角視覺特征;
8、s5.將細粒度歸因文本輸入至語言編碼器中得到語言歸因全局特征;
9、s6.將人臉解析圖像輸入至解析編碼器中得到人臉解析特征;
10、s7.將多視角視覺特征分別輸入到預(yù)測器與多層感知機中,分別得到預(yù)測語言特征和預(yù)測圖像偽造歸因類別特征;
11、s8.通過總損失函數(shù)和adam優(yōu)化器對各模塊中參數(shù)進行優(yōu)化和訓(xùn)練,得到優(yōu)化訓(xùn)練好的零樣本深度偽造歸因模型;
12、s9.將測試集中待檢測的圖像輸入至訓(xùn)練優(yōu)化好的零樣本深度偽造歸因模型的多視角視覺編碼器模塊中,然后經(jīng)過多層感知機和softmax函數(shù),得到最終深度偽造歸因判別結(jié)果。
13、進一步地,步驟s1具體包括:
14、所述數(shù)據(jù)集包含若干張人臉圖像,每張人臉圖像有對應(yīng)的偽造歸因標簽;
15、將深度偽造歸因人臉數(shù)據(jù)集里的每張人臉圖像的寬×高統(tǒng)一調(diào)整為,并將每張人臉圖像像素值除以255來對人臉圖像進行歸一化,將歸一化后的人臉圖像封裝為張量表示,表示向量空間,表示每批次圖像的個數(shù),表示一張人臉圖像張量的通道數(shù)為3;
16、每張人臉圖像對應(yīng)的偽造歸因標簽經(jīng)過pytorch中的torch.tensor函數(shù)進行處理,得到預(yù)處理后的偽造歸因標簽張量。
17、進一步地,步驟s4具體包括:
18、構(gòu)建多視野視覺編碼模塊,該模塊包括圖像編碼器、邊緣編碼器以及噪聲編碼器;圖像編碼器為卷積視覺transformer模型cvit;邊緣編碼器包括邊緣主干模塊和邊緣transformer塊,所述邊緣主干模塊包括堆疊的若干卷積層,其中第一個卷積層輸入通道數(shù)為1的輸出通道為32,所述邊緣transformer塊與cvit的transformer塊相同;噪聲編碼器包括圖像塊選擇器、隱寫分析豐富模型srm和卷積視覺transformer模型cvit;
19、s41.人臉圖像文本解析對中預(yù)處理后的人臉圖像張量輸入至多視野視覺編碼模塊中,經(jīng)過圖像編碼器,輸出維度為的人臉外觀圖像全局操縱圖像,,公式表示如下:
20、,
21、其中,表示圖像的特征維度,表示每批次圖像的個數(shù),與人臉圖像張量的數(shù)量一致,表示卷積視覺transformer模型cvit的操作;
22、s42.預(yù)處理后的人臉圖像張量輸入至邊緣編碼器,經(jīng)過邊緣主干模塊,輸出維度為的人臉圖像邊緣局部特征圖,公式表示如下:
23、,
24、其中,表示卷積神經(jīng)網(wǎng)絡(luò)骨干操作,表示卷積神經(jīng)網(wǎng)絡(luò)骨干的參數(shù),表示人臉圖像邊緣特征圖的通道數(shù),表示人臉圖像邊緣特征圖的高度,表示人臉圖像邊緣特征圖的寬度;將人臉圖像邊緣局部特征圖輸入邊緣transformer塊,輸出維度為的人臉邊緣全局操縱圖像,;
25、s43.預(yù)處理后的人臉圖像張量輸入至噪聲編碼器,經(jīng)過圖像塊選擇器,得到最豐富的圖像塊,,表示每批次圖像的個數(shù),表示最豐富的圖像塊的通道數(shù)為3,表示最豐富的圖像塊的寬×高;將最豐富的圖像塊輸入至隱寫分析豐富模型srm進行處理得到噪聲,公式表示如下:
26、,
27、其中,表示隱寫分析豐富模型的操作;將噪聲輸入至卷積視覺transformer模型cvit,輸出維度為的人臉噪聲圖像全局操縱圖像,,公式表示如下:
28、,
29、s44.將人臉外觀圖像全局操縱圖像、人臉邊緣全局操縱圖像以及人臉噪聲圖像全局操縱圖像進行融合得到全局圖像視覺融合的多視角視覺特征,公式表示如下:
30、,
31、其中,表示逐元素相加操作。
32、進一步地,步驟s5具體包括:
33、s51.細粒度歸因文本經(jīng)過分詞器得到詞標記序列,詞標記序列中的詞標記通過詞嵌入層映射為詞嵌入張量,根據(jù)詞嵌入張量和自動生成的詞嵌入張量的位置得到帶有位置信息的細粒度歸因文本序列向量,公式表示如下:
34、;
35、s52.構(gòu)建語言編碼器,語言編碼器包括個連續(xù)的transformer塊,每個transformer塊包括多頭注意力模塊和前饋神經(jīng)網(wǎng)絡(luò)模塊,所述多頭注意力模塊和前饋神經(jīng)網(wǎng)絡(luò)模塊的上一層均為歸一化層,下一層均為殘差層;
36、將帶有位置信息的細粒度歸因文本序列向量輸入至語言編碼器中,經(jīng)過歸一化層進行歸一化操作后被輸入至第一個連續(xù)的transformer塊的多頭注意力模塊進行全局多頭注意力計算,再經(jīng)過殘差層得到文本全局語義特征,公式表示如下:
37、,
38、其中,表示歸一化操作,表示多頭注意力模塊的操作;文本全局語義特征經(jīng)過歸一化層進行歸一化后輸入至前饋神經(jīng)網(wǎng)絡(luò)模塊中,再經(jīng)過殘差層得到精煉的全局語言特征,公式表示如下:
39、,
40、其中,表示前饋神經(jīng)網(wǎng)絡(luò)模塊的操作;將語言編碼器第一個transformer塊的輸出作為第二個transformer塊的輸入,第二個transformer塊輸出作為第三個transformer塊的輸入,多次迭代直至完成第個transformer塊的操作,得到細粒度語言特征;從細粒度語言特征中取最后一個詞得到語言歸因全局特征。
41、進一步地,步驟s6具體包括:
42、構(gòu)建解析編碼器模塊,該模塊包括解析主干模塊和解析transformer編碼器;所述解析主干模塊包括堆疊的若干卷積層,解析主干模塊的結(jié)構(gòu)與邊緣主干模塊相同;所述解析transformer編碼器包括q個transformer塊;
43、s61.將人臉解析圖像輸入至解析編碼器模塊中,經(jīng)過解析主干模塊,輸出維度為的人臉圖像解析局部特征圖,公式表示如下:
44、,
45、其中,表示解析編碼器模塊操作;人臉解析局部特征圖的維度為,表示人臉圖像解析特征圖的通道數(shù),表示人臉圖像解析特征圖的高,表示人臉圖像解析特征圖的寬;
46、s62.將人臉圖像解析局部特征圖沿著通道利用庫里的重塑函數(shù)拉平為二維噪聲塊序列,,表示補丁的數(shù)量,表示第個二維人臉解析圖像塊;計算帶有位置信息的二維人臉解析圖像塊序列,公式表示如下:
47、,
48、其中,表示自動生成的可學(xué)習(xí)的類張量,表示映射隱向量,,表示第個二維人臉解析圖像塊的映射隱向量,表示自動生成的二維人臉解析圖像塊序列的位置;
49、s63.將二維人臉解析圖像塊序列輸入至q個人臉解析transformer塊中,經(jīng)過第一個transformer塊,在第一個transformer塊中依次經(jīng)過多頭自注意力模塊和多層感知機模塊,輸出第一個二維人臉解析全局特征圖,公式表示如下:
50、,
51、,
52、其中,表示二維人臉解析圖像塊序列經(jīng)過多頭自注意力模塊的輸出,表示歸一化層的操作,表示多頭自注意力模塊的操作,表示多層感知機模塊的操作;將第一個transformer塊的輸出作為第二個transformer塊的輸入,再將第二個transformer塊的輸出作為第三個transformer塊的輸入,多次迭代,直至完成第q個transformer塊的操作,得到第q個二維人臉解析全局特征圖;將第q個二維人臉解析全局特征圖中的可學(xué)習(xí)類張量取出得到人臉解析特征。
53、進一步地,步驟s7具體包括:
54、將多視角視覺特征分別輸入至一個由全連接層組成的預(yù)測器和一個由全連接層組成的多層感知機,得到預(yù)測語言特征和預(yù)測圖像偽造歸因類別特征,公式表示如下:
55、,
56、,
57、其中,表示預(yù)測器參數(shù),表示多層感知機參數(shù),表示softmax函數(shù)。
58、進一步地,步驟s8具體包括:
59、通過散度損失函數(shù)對語言歸因全局特征與預(yù)測語言特征進行優(yōu)化,公式表示如下:
60、,
61、其中,表示的索引,表示轉(zhuǎn)置,表示第張圖像的語言歸因全局特征,表示第張圖像的預(yù)測語言歸因全局特征;
62、通過跨模態(tài)對比損失函數(shù)對語言歸因全局特征與多視角視覺特征進行優(yōu)化,公式表示如下:
63、,
64、,
65、,
66、,
67、,
68、其中,表示視覺到語言的對比損失,表示語言到視頻的對比損失,表示第個輸入的人臉圖像的樣本對的標簽,表示第個語言到視覺的相似矩陣,表示余弦相似函數(shù),表示可訓(xùn)練的溫度參數(shù),表示第個視覺到語言的相似矩陣,表示第個多視角視覺特征,表示第個語言歸因全局特征,表示第個多視角視覺特征,表示第個語言歸因全局特征;
69、通過跨視野對比損失函數(shù)對人臉解析特征與多視角視覺特征進行優(yōu)化,具體計算如下:
70、,
71、,
72、,
73、,
74、,
75、其中,表示視覺到解析的對比損失,表示解析到視覺的對比損失,表示第個解析到視覺的相似矩陣,表示第個視覺到解析的相似矩陣,表示第個多視角視覺特征,表示第個人臉解析特征,表示第個多視角視覺特征,表示第個人臉解析特征;
76、通過深度偽造歸因損失函數(shù)對預(yù)測圖像偽造歸因類別特征與圖像生成器級標簽進行優(yōu)化,公式表示如下:
77、,
78、其中,表示第個圖像生成器級標簽,表示第個預(yù)測圖像偽造歸因類別特征;
79、根據(jù)所述散度損失函數(shù)、跨視野對比損失、跨模態(tài)對比損失和深度歸因損失函數(shù)得到總損失,。
80、進一步地,步驟s9具體包括
81、將測試集中待檢測人臉圖像輸入至優(yōu)化訓(xùn)練好的多視角視覺編碼器模塊中得到圖像全局視覺特征,再將圖像全局視覺特征通過多層感知機和softmax函數(shù)計算得到最終真假判別結(jié)果,公式表示如下:
82、,
83、其中,表示多視角視覺編碼器。
84、本發(fā)明的優(yōu)點在于:
85、本發(fā)明通過引入多視角學(xué)習(xí)和雙模態(tài)引導(dǎo)的策略,提升在零樣本情境下深度偽造歸因模型的準確性與魯棒性。通過結(jié)合圖像、噪聲和邊緣等多個視覺視角的深度偽造特征,本發(fā)明能夠更有效地對未見生成器進行追溯,同時在人臉解析和語言模態(tài)的支持下,進一步提高歸因過程的精度和可擴展性,從而顯著提升深度偽造歸因技術(shù)的應(yīng)用價值和實際效果。