国产真实乱全部视频,黄色片视频在线免费观看,密臀av一区二区三区,av黄色一级,中文字幕.com,日本a级网站,在线视频观看91

視頻生成方法、視頻生成模型的訓(xùn)練方法和相關(guān)裝置與流程

文檔序號:42326721發(fā)布日期:2025-07-01 19:45閱讀:10來源:國知局

本申請涉及視覺,特別是涉及一種視頻生成方法、視頻生成模型的訓(xùn)練方法和相關(guān)裝置。


背景技術(shù):

1、隨著人工智能技術(shù)的快速發(fā)展,視頻生成模型在多個領(lǐng)域得到了廣泛應(yīng)用,如虛擬助手、智能客服、影視制作等。然而,現(xiàn)有的視頻生成模型在生成高質(zhì)量、個性化視頻方面仍面臨諸多挑戰(zhàn)。特別是在生成包含人臉的視頻時,如何保持人臉的身份特征、生成高保真度且自然流暢的視頻,是一個亟待解決的問題。


技術(shù)實現(xiàn)思路

1、本申請?zhí)峁┝艘环N視頻生成方法、視頻生成模型的訓(xùn)練方法和相關(guān)裝置。

2、本申請?zhí)峁┝巳缦路桨福?/p>

3、根據(jù)第一方面,提供了一種視頻生成方法,所述方法包括:

4、獲取人臉圖像和視頻描述文本;所述人臉圖像包括目標(biāo)人臉;

5、從所述人臉圖像中提取所述目標(biāo)人臉的二維特征和三維特征;

6、將所述目標(biāo)人臉的二維特征和三維特征進行融合,得到所述目標(biāo)人臉的身份特征表示;

7、基于所述身份特征表示和所述視頻描述文本,預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻。

8、根據(jù)第二方面,提供了一種視頻生成模型的訓(xùn)練方法,所述方法包括:

9、獲取包括多個訓(xùn)練樣本的訓(xùn)練數(shù)據(jù),所述訓(xùn)練樣本至少包括:人臉圖像樣本、視頻真值以及與所述視頻真值對應(yīng)的視頻文本描述,所述人臉圖像樣本和所述視頻真值中均包含目標(biāo)人臉;

10、基于所述訓(xùn)練數(shù)據(jù)訓(xùn)練視頻生成模型,其中所述訓(xùn)練包括:將所述人臉圖像樣本和所述視頻文本描述輸入所述視頻生成模型;由所述視頻生成模型從所述人臉圖像樣本中提取所述目標(biāo)人臉的二維特征和三維特征,將所述目標(biāo)人臉的二維特征和三維特征進行融合,得到所述目標(biāo)人臉的身份特征表示,基于所述身份特征表示和所述視頻描述文本,預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻;利用訓(xùn)練目標(biāo)對應(yīng)的損失函數(shù)取值更新所述視頻生成模型的模型參數(shù),所述訓(xùn)練目標(biāo)包括:最小化所述視頻生成模型輸出的目標(biāo)視頻與對應(yīng)的視頻真值之間的差異。

11、根據(jù)第三方面,提供了一種視頻生成模型,所述視頻生成模型包括:

12、二維特征生成網(wǎng)絡(luò),用以從人臉圖像樣本中提取目標(biāo)人臉的二維特征表示;

13、三維特征生成網(wǎng)絡(luò),用以從所述人臉圖像樣本中提取所述目標(biāo)人臉的三維特征表示;

14、融合網(wǎng)絡(luò),用以對所述二維特征表示和所述三維特征表示進行融合,得到所述目標(biāo)人臉的身份特征表示;

15、層感知網(wǎng)絡(luò),用以對所述身份特征表示進行優(yōu)化,得到優(yōu)化后的身份特征表示;

16、擴散網(wǎng)絡(luò),用以基于所述優(yōu)化后的身份特征表示和視頻描述文本,對噪聲圖像序列進行去噪處理后預(yù)測得到目標(biāo)視頻。

17、根據(jù)第四方面,提供了一種視頻生成裝置,所述裝置包括:

18、獲取單元,被配置為獲取人臉圖像和視頻描述文本;所述人臉圖像包括目標(biāo)人臉;

19、特征提取單元,被配置為從所述人臉圖像中提取所述目標(biāo)人臉的二維特征和三維特征;

20、特征融合單元,被配置為將所述目標(biāo)人臉的二維特征和三維特征進行融合,得到所述目標(biāo)人臉的身份特征表示;

21、視頻預(yù)測單元,被配置為基于所述身份特征表示和所述視頻描述文本,預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻。

22、根據(jù)第五方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面或第二方面中任一項所述方法的步驟。

23、根據(jù)本申請?zhí)峁┑木唧w實施例,本申請公開了以下技術(shù)效果:

24、本申請實施例通過獲取包含目標(biāo)人臉的人臉圖像和視頻描述文本,從人臉圖像中提取目標(biāo)人臉的二維特征和三維特征,并將這些特征進行融合,得到目標(biāo)人臉的身份特征表示。最終,基于身份特征表示和視頻描述文本,預(yù)測生成包含目標(biāo)人臉的目標(biāo)視頻。該方法通過融合二維和三維特征,能更全面準確地描述目標(biāo)人臉的身份特征,從而在生成視頻時更好地保持面部結(jié)構(gòu)的穩(wěn)定性和一致性,從而生成更加真實和自然的目標(biāo)視頻,提升用戶體驗。

25、當(dāng)然,實施本申請的任一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。



技術(shù)特征:

1.一種視頻生成方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述身份特征表示和所述視頻描述文本,預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述層感知網(wǎng)絡(luò)包括多個輕量級模塊,每個輕量級模塊對應(yīng)擴散網(wǎng)絡(luò)中的一個視頻擴散變換器模塊,每個輕量級模塊包括卷積塊和歸一化層;

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述身份特征表示和所述視頻描述文本,預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻,包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,從所述人臉圖像中提取三維特征,包括:

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述目標(biāo)人臉的二維特征和三維特征進行融合,包括:

7.一種視頻生成模型的訓(xùn)練方法,其特征在于,所述方法包括:

8.一種視頻生成模型,其特征在于,所述視頻生成模型包括:

9.一種視頻生成裝置,其特征在于,所述裝置包括:

10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述方法的步驟。


技術(shù)總結(jié)
本申請實施例公開了一種視頻生成方法、視頻生成模型的訓(xùn)練方法和相關(guān)裝置。主要技術(shù)方案包括:獲取人臉圖像和視頻描述文本;所述人臉圖像包括目標(biāo)人臉;從所述人臉圖像中提取所述目標(biāo)人臉的二維特征和三維特征;將所述目標(biāo)人臉的二維特征和三維特征進行融合,得到所述目標(biāo)人臉的身份特征表示;基于所述身份特征表示和所述視頻描述文本,預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻。本申請能夠有效捕捉目標(biāo)人臉的多維度特征,從而生成更加真實和自然的目標(biāo)視頻。

技術(shù)研發(fā)人員:汪強
受保護的技術(shù)使用者:高德軟件有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/6/30
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1