視頻生成方法、視頻生成模型的訓(xùn)練方法和相關(guān)裝置與流程

文檔序號：42326721發(fā)布日期：2025-07-01 19:45閱讀：10來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本申請涉及視覺，特別是涉及一種視頻生成方法、視頻生成模型的訓(xùn)練方法和相關(guān)裝置。

背景技術(shù)：

1、隨著人工智能技術(shù)的快速發(fā)展，視頻生成模型在多個領(lǐng)域得到了廣泛應(yīng)用，如虛擬助手、智能客服、影視制作等。然而，現(xiàn)有的視頻生成模型在生成高質(zhì)量、個性化視頻方面仍面臨諸多挑戰(zhàn)。特別是在生成包含人臉的視頻時，如何保持人臉的身份特征、生成高保真度且自然流暢的視頻，是一個亟待解決的問題。

技術(shù)實現(xiàn)思路

1、本申請?zhí)峁┝艘环N視頻生成方法、視頻生成模型的訓(xùn)練方法和相關(guān)裝置。

2、本申請?zhí)峁┝巳缦路桨福?/p>

3、根據(jù)第一方面，提供了一種視頻生成方法，所述方法包括：

4、獲取人臉圖像和視頻描述文本；所述人臉圖像包括目標(biāo)人臉；

5、從所述人臉圖像中提取所述目標(biāo)人臉的二維特征和三維特征；

6、將所述目標(biāo)人臉的二維特征和三維特征進行融合，得到所述目標(biāo)人臉的身份特征表示；

7、基于所述身份特征表示和所述視頻描述文本，預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻。

8、根據(jù)第二方面，提供了一種視頻生成模型的訓(xùn)練方法，所述方法包括：

9、獲取包括多個訓(xùn)練樣本的訓(xùn)練數(shù)據(jù)，所述訓(xùn)練樣本至少包括：人臉圖像樣本、視頻真值以及與所述視頻真值對應(yīng)的視頻文本描述，所述人臉圖像樣本和所述視頻真值中均包含目標(biāo)人臉；

10、基于所述訓(xùn)練數(shù)據(jù)訓(xùn)練視頻生成模型，其中所述訓(xùn)練包括：將所述人臉圖像樣本和所述視頻文本描述輸入所述視頻生成模型；由所述視頻生成模型從所述人臉圖像樣本中提取所述目標(biāo)人臉的二維特征和三維特征，將所述目標(biāo)人臉的二維特征和三維特征進行融合，得到所述目標(biāo)人臉的身份特征表示，基于所述身份特征表示和所述視頻描述文本，預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻；利用訓(xùn)練目標(biāo)對應(yīng)的損失函數(shù)取值更新所述視頻生成模型的模型參數(shù)，所述訓(xùn)練目標(biāo)包括：最小化所述視頻生成模型輸出的目標(biāo)視頻與對應(yīng)的視頻真值之間的差異。

11、根據(jù)第三方面，提供了一種視頻生成模型，所述視頻生成模型包括：

12、二維特征生成網(wǎng)絡(luò)，用以從人臉圖像樣本中提取目標(biāo)人臉的二維特征表示；

13、三維特征生成網(wǎng)絡(luò)，用以從所述人臉圖像樣本中提取所述目標(biāo)人臉的三維特征表示；

14、融合網(wǎng)絡(luò)，用以對所述二維特征表示和所述三維特征表示進行融合，得到所述目標(biāo)人臉的身份特征表示；

15、層感知網(wǎng)絡(luò)，用以對所述身份特征表示進行優(yōu)化，得到優(yōu)化后的身份特征表示；

16、擴散網(wǎng)絡(luò)，用以基于所述優(yōu)化后的身份特征表示和視頻描述文本，對噪聲圖像序列進行去噪處理后預(yù)測得到目標(biāo)視頻。

17、根據(jù)第四方面，提供了一種視頻生成裝置，所述裝置包括：

18、獲取單元，被配置為獲取人臉圖像和視頻描述文本；所述人臉圖像包括目標(biāo)人臉；

19、特征提取單元，被配置為從所述人臉圖像中提取所述目標(biāo)人臉的二維特征和三維特征；

20、特征融合單元，被配置為將所述目標(biāo)人臉的二維特征和三維特征進行融合，得到所述目標(biāo)人臉的身份特征表示；

21、視頻預(yù)測單元，被配置為基于所述身份特征表示和所述視頻描述文本，預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻。

22、根據(jù)第五方面，提供了一種計算機程序產(chǎn)品，包括計算機程序，該計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面或第二方面中任一項所述方法的步驟。

23、根據(jù)本申請?zhí)峁┑木唧w實施例，本申請公開了以下技術(shù)效果：

24、本申請實施例通過獲取包含目標(biāo)人臉的人臉圖像和視頻描述文本，從人臉圖像中提取目標(biāo)人臉的二維特征和三維特征，并將這些特征進行融合，得到目標(biāo)人臉的身份特征表示。最終，基于身份特征表示和視頻描述文本，預(yù)測生成包含目標(biāo)人臉的目標(biāo)視頻。該方法通過融合二維和三維特征，能更全面準確地描述目標(biāo)人臉的身份特征，從而在生成視頻時更好地保持面部結(jié)構(gòu)的穩(wěn)定性和一致性，從而生成更加真實和自然的目標(biāo)視頻，提升用戶體驗。

25、當(dāng)然，實施本申請的任一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。

技術(shù)特征：

1.一種視頻生成方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述身份特征表示和所述視頻描述文本，預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述層感知網(wǎng)絡(luò)包括多個輕量級模塊，每個輕量級模塊對應(yīng)擴散網(wǎng)絡(luò)中的一個視頻擴散變換器模塊，每個輕量級模塊包括卷積塊和歸一化層；

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，基于所述身份特征表示和所述視頻描述文本，預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，從所述人臉圖像中提取三維特征，包括：

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，將所述目標(biāo)人臉的二維特征和三維特征進行融合，包括：

7.一種視頻生成模型的訓(xùn)練方法，其特征在于，所述方法包括：

8.一種視頻生成模型，其特征在于，所述視頻生成模型包括：

9.一種視頻生成裝置，其特征在于，所述裝置包括：

10.一種計算機程序產(chǎn)品，包括計算機程序，其特征在于，該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述方法的步驟。

技術(shù)總結(jié)
本申請實施例公開了一種視頻生成方法、視頻生成模型的訓(xùn)練方法和相關(guān)裝置。主要技術(shù)方案包括：獲取人臉圖像和視頻描述文本；所述人臉圖像包括目標(biāo)人臉；從所述人臉圖像中提取所述目標(biāo)人臉的二維特征和三維特征；將所述目標(biāo)人臉的二維特征和三維特征進行融合，得到所述目標(biāo)人臉的身份特征表示；基于所述身份特征表示和所述視頻描述文本，預(yù)測得到包含所述目標(biāo)人臉的目標(biāo)視頻。本申請能夠有效捕捉目標(biāo)人臉的多維度特征，從而生成更加真實和自然的目標(biāo)視頻。

技術(shù)研發(fā)人員：汪強
受保護的技術(shù)使用者：高德軟件有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/30

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：汪強
技術(shù)所有人：高德軟件有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产真实乱全部视频,黄色片视频在线免费观看,密臀av一区二区三区,av黄色一级,中文字幕.com,日本a级网站,在线视频观看91

視頻生成方法、視頻生成模型的訓(xùn)練方法和相關(guān)裝置與流程

視頻生成方法、視頻生成模型的訓(xùn)練方法和相關(guān)裝置與流程