本申請涉及視頻編碼,尤其涉及一種基于深度學習的mvps視頻編碼方法、設(shè)備及介質(zhì)。
背景技術(shù):
1、隨著視頻應(yīng)用場景的多樣化,越來越多的超高清直播、智能安防、vr/ar等,傳統(tǒng)視頻編碼技術(shù)面臨顯著瓶頸。
2、傳統(tǒng)視頻編碼技術(shù)依賴固定量化表和預定義編碼塊劃分規(guī)則,無法根據(jù)視頻內(nèi)容動態(tài)調(diào)整編碼策略,導致低復雜度場景碼率浪費,而高動態(tài)場景質(zhì)量下降?;谏疃葘W習的編碼方案多聚焦于軟件算法優(yōu)化,缺乏與專用硬件的協(xié)同設(shè)計,導致計算延遲高、能效比低,難以滿足實時性要求;此外,傳統(tǒng)碼率分配模型獨立處理單幀數(shù)據(jù),忽略視頻時序相關(guān)性,導致相鄰幀間質(zhì)量波動,影響主觀視覺體驗;對網(wǎng)絡(luò)帶寬波動的實時響應(yīng)能力,在弱網(wǎng)環(huán)境下易出現(xiàn)卡頓或畫質(zhì)劣化。
3、通過上述的分析,現(xiàn)有技術(shù)存在的問題及缺陷為:
4、現(xiàn)有技術(shù)中的視頻編碼技術(shù)效率低下、硬件協(xié)同不足、跨幀質(zhì)量波動及網(wǎng)絡(luò)適應(yīng)性差。
技術(shù)實現(xiàn)思路
1、本申請實施例提供了一種基于深度學習的mvps視頻編碼方法、設(shè)備及介質(zhì),能夠解決現(xiàn)有技術(shù)中視頻編碼技術(shù)效率低下、硬件協(xié)同不足、跨幀質(zhì)量波動及網(wǎng)絡(luò)適應(yīng)性差的問題。
2、第一方面,本申請實施例提供了一種基于深度學習的mvps視頻編碼方法,方法包括:獲取視頻流,通過特征提取單元對視頻流進行時域、空域的特征提取,并通過自適應(yīng)權(quán)重融合層生成聯(lián)合特征圖;對聯(lián)合特征圖進行層級間的雙向特征交互,得到多尺度特征集合;根據(jù)多尺度特征集合,結(jié)合當前網(wǎng)絡(luò)帶寬反饋,生成幀級量化參數(shù)初始值;對量化參數(shù)初始值進行時序一致性修正,生成目標量化參數(shù);根據(jù)目標量化參數(shù)對當前幀進行分塊編碼,生成編碼后的數(shù)據(jù)流。
3、在本申請的一種實現(xiàn)方式中,獲取視頻流,通過特征提取單元對視頻流進行時域、空域的特征提取,并通過自適應(yīng)權(quán)重融合層生成聯(lián)合特征圖,具體包括:在fpga芯片上并行部署特征提取單元;將視頻流解析為以幀為單位的mvps視頻流數(shù)據(jù),得到視頻幀;通過特征提取單元,采用三維卷積神經(jīng)網(wǎng)絡(luò)提取視頻幀的時域運動特征,其中,以光流計算結(jié)果作為卷積權(quán)重初始值;采用可變形卷積核提取視頻幀的空域紋理特征,并根據(jù)視頻幀的邊緣梯度調(diào)整采樣位置;將時域運動特征和空域紋理特征進行通道拼接,計算時域運動特征和空域紋理特征的融合權(quán)重,生成聯(lián)合特征圖。
4、在本申請的一種實現(xiàn)方式中,將時域運動特征和空域紋理特征進行通道拼接,計算時域運動特征和空域紋理特征的融合權(quán)重,生成聯(lián)合特征圖,具體包括:通過麥克風陣列獲取空間音頻,通過tof傳感器獲取深度圖,并解析得到音頻頻譜特征與深度圖邊緣特征;將音頻頻譜特征與時域運動特征對齊,得到跨模態(tài)相似度矩陣;將深度圖邊緣特征與空域紋理特征融合,生成幾何感知的空域特征場;將跨模態(tài)相似度矩陣和特征場輸入可微分神經(jīng)架構(gòu),生成動態(tài)稀疏連接的時空注意力網(wǎng)絡(luò);?通過時空注意力網(wǎng)絡(luò)進行多模態(tài)協(xié)同壓縮,生成聯(lián)合特征圖。
5、在本申請的一種實現(xiàn)方式中,對聯(lián)合特征圖進行層級間雙向特征交互,得到多尺度特征集合,具體包括:在特征金字塔的相鄰層級間部署因果transformer編碼器與非因果transformer解碼器;通過因果transformer編碼器約束預設(shè)的低層級特征;通過transformer解碼器,將預設(shè)的高層語義特征與低層級特征進行逐元素相乘,得到交互后的特征圖;對特征圖施加通道注意力權(quán)重,抑制冗余特征通道,得到多尺度特征集合。
6、在本申請的一種實現(xiàn)方式中,根據(jù)多尺度特征集合,結(jié)合當前網(wǎng)絡(luò)帶寬反饋,生成幀級量化參數(shù)初始值,具體包括:建立網(wǎng)絡(luò)帶寬監(jiān)測線程,實時獲取網(wǎng)絡(luò)帶寬數(shù)據(jù),網(wǎng)絡(luò)帶寬數(shù)據(jù)包括tcp擁塞窗口大小與丟包率;將網(wǎng)絡(luò)帶寬數(shù)據(jù)編碼為向量,與多尺度特征集合進行拼接,并輸入門控注意力網(wǎng)絡(luò);根據(jù)注意力權(quán)重分布生成量化參數(shù)初始值,以使碼率分配符合網(wǎng)絡(luò)傳輸約束。
7、在本申請的一種實現(xiàn)方式中,在對量化參數(shù)初始值進行時序一致性修正,生成目標量化參數(shù)之后,方法還包括:將視頻幀初始劃分為最大尺寸的編碼塊;提取前一幀編碼塊的運動矢量場,構(gòu)建運動一致性矩陣;計算當前幀的編碼塊與運動一致性矩陣的相關(guān)系數(shù),生成時域平滑約束因子。
8、在本申請的一種實現(xiàn)方式中,在生成時域平滑約束因子之后,方法還包括:根據(jù)時域平滑約束因子對量化參數(shù)初始值進行非線性映射;遞歸計算編碼塊的率失真代價,若率失真代價代價高于預設(shè)閾值,根據(jù)目標量化參數(shù)繼續(xù)分割編碼塊。
9、在本申請的一種實現(xiàn)方式中,在根據(jù)目標量化參數(shù)對當前幀進行編碼塊劃分,生成編碼后數(shù)據(jù)流之后,方法還包括:將編碼塊輸入率失真優(yōu)化模塊,通過率失真代價函數(shù)迭代優(yōu)化編碼塊劃分模式;對優(yōu)化后的編碼塊進行熵編碼,生成最終壓縮碼流;在編碼過程中,實時監(jiān)測視頻內(nèi)容復雜度,以更新碼率分配的權(quán)重參數(shù)。
10、第二方面,本申請實施例還提供了一種基于深度學習的mvps視頻編碼設(shè)備,設(shè)備包括至少一個處理器;以及,與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執(zhí)行的指令,指令被至少一個處理器執(zhí)行,以使至少一個處理器能夠:獲取視頻流,通過特征提取單元對視頻流進行時域、空域的特征提取,并通過自適應(yīng)權(quán)重融合層生成聯(lián)合特征圖;對聯(lián)合特征圖進行層級間的雙向特征交互,得到多尺度特征集合;根據(jù)多尺度特征集合,結(jié)合當前網(wǎng)絡(luò)帶寬反饋,生成幀級量化參數(shù)初始值;對量化參數(shù)初始值進行時序一致性修正,生成目標量化參數(shù);根據(jù)目標量化參數(shù)對當前幀進行分塊編碼,生成編碼后的數(shù)據(jù)流。
11、第三方面,本申請實施例還提供了一種基于深度學習的mvps視頻編碼非易失性計算機存儲介質(zhì),存儲有計算機可執(zhí)行指令,計算機可執(zhí)行指令設(shè)置為:獲取視頻流,通過特征提取單元對視頻流進行時域、空域的特征提取,并通過自適應(yīng)權(quán)重融合層生成聯(lián)合特征圖;對聯(lián)合特征圖進行層級間的雙向特征交互,得到多尺度特征集合;根據(jù)多尺度特征集合,結(jié)合當前網(wǎng)絡(luò)帶寬反饋,生成幀級量化參數(shù)初始值;對量化參數(shù)初始值進行時序一致性修正,生成目標量化參數(shù);根據(jù)目標量化參數(shù)對當前幀進行分塊編碼,生成編碼后的數(shù)據(jù)流。
12、本申請實施例提供的一種基于深度學習的mvps視頻編碼方法、設(shè)備及介質(zhì),自適應(yīng)權(quán)重融合層與層級間雙向特征交互,實現(xiàn)視頻內(nèi)容感知的動態(tài)參數(shù)調(diào)整;fpga并行特征提取單元與可變形卷積核硬件加速設(shè)計,使視頻處理延遲降和功耗降低;運動一致性矩陣與時域平滑約束因子,減小幀間波動范圍,顯著減少塊效應(yīng)與閃爍現(xiàn)象;帶寬反饋機制與率失真優(yōu)化模塊,在帶寬波動時實現(xiàn)平滑質(zhì)量過渡,跨模態(tài)相似度矩陣與幾何感知空域特征場,支持音頻、深度圖與視頻的協(xié)同編碼。通過動態(tài)參數(shù)調(diào)整、硬件-算法協(xié)同優(yōu)化、跨幀一致性增強及網(wǎng)絡(luò)感知技術(shù),解決了傳統(tǒng)方案效率低下、實時性不足、質(zhì)量不穩(wěn)定及適應(yīng)性差的問題。
1.一種基于深度學習的mvps視頻編碼方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種基于深度學習的mvps視頻編碼方法,其特征在于,獲取視頻流,通過特征提取單元對所述視頻流進行時域、空域的特征提取,并通過自適應(yīng)權(quán)重融合層生成聯(lián)合特征圖,具體包括:
3.根據(jù)權(quán)利要求2所述的一種基于深度學習的mvps視頻編碼方法,其特征在于,將所述時域運動特征和空域紋理特征進行通道拼接,計算所述時域運動特征和空域紋理特征的融合權(quán)重,生成所述聯(lián)合特征圖,具體包括:
4.根據(jù)權(quán)利要求1所述的一種基于深度學習的mvps視頻編碼方法,其特征在于,對所述聯(lián)合特征圖進行層級間雙向特征交互,得到多尺度特征集合,具體包括:
5.根據(jù)權(quán)利要求1所述的一種基于深度學習的mvps視頻編碼方法,其特征在于,根據(jù)所述多尺度特征集合,結(jié)合當前網(wǎng)絡(luò)帶寬反饋,生成幀級量化參數(shù)初始值,具體包括:
6.根據(jù)權(quán)利要求1所述的一種基于深度學習的mvps視頻編碼方法,其特征在于,在對所述量化參數(shù)初始值進行時序一致性修正,生成目標量化參數(shù)之后,所述方法還包括:
7.根據(jù)權(quán)利要求6所述的一種基于深度學習的mvps視頻編碼方法,其特征在于,在生成時域平滑約束因子之后,所述方法還包括:
8.根據(jù)權(quán)利要求5所述的一種基于深度學習的mvps視頻編碼方法,其特征在于,在根據(jù)所述目標量化參數(shù)對當前幀進行編碼塊劃分,生成編碼后數(shù)據(jù)流之后,所述方法還包括:
9.一種基于深度學習的mvps視頻編碼設(shè)備,其特征在于,所述設(shè)備包括:
10.一種基于深度學習的mvps視頻編碼的非易失性計算機存儲介質(zhì),存儲有計算機可執(zhí)行指令,其特征在于,所述計算機可執(zhí)行指令設(shè)置為: