本發(fā)明屬于視頻單目標(biāo)跟蹤,具體涉及基于提示學(xué)習(xí)的單目標(biāo)跟蹤方法。
背景技術(shù):
1、單目標(biāo)跟蹤的核心任務(wù)是:在給定視頻序列的初始幀中獲取目標(biāo)信息,并在后續(xù)幀中精確預(yù)測目標(biāo)的位置和尺寸等關(guān)鍵信息。該技術(shù)在視頻監(jiān)控、人機(jī)交互以及醫(yī)學(xué)診斷等多個(gè)領(lǐng)域具有廣泛的應(yīng)用,并在理論研究和工程應(yīng)用中都具有重要價(jià)值。與目標(biāo)檢測任務(wù)不同,目標(biāo)跟蹤要求對視頻序列中的每一幀進(jìn)行準(zhǔn)確的目標(biāo)定位。當(dāng)前主流的單目標(biāo)跟蹤方法主要可以分為兩類:一種是基于孿生網(wǎng)絡(luò)的跟蹤方法,另一種是基于transformer算法的跟蹤方法。孿生網(wǎng)絡(luò)的基本思想是構(gòu)建兩個(gè)共享權(quán)重的子網(wǎng)絡(luò),通過處理目標(biāo)的初始幀和后續(xù)幀,提取它們的特征表示。通過度量學(xué)習(xí)方法,網(wǎng)絡(luò)計(jì)算這兩幀特征之間的相似度,進(jìn)而確定目標(biāo)在后續(xù)幀中的位置。孿生網(wǎng)絡(luò)最初用于圖像、語音和文本等信息的相似性計(jì)算,目標(biāo)跟蹤中的孿生網(wǎng)絡(luò)方法本質(zhì)上是一個(gè)相似性學(xué)習(xí)的過程。
2、現(xiàn)有技術(shù)中基于transformer算法的單目標(biāo)跟蹤方法借鑒了自然語言處理中的成功經(jīng)驗(yàn),將目標(biāo)跟蹤任務(wù)轉(zhuǎn)化為序列建模問題。具體來說,目標(biāo)的初始幀和后續(xù)幀被作為輸入序列,經(jīng)過transformer編碼器進(jìn)行處理,并通過解碼器部分預(yù)測目標(biāo)在后續(xù)幀的位置。transformer模型的自注意力機(jī)制能夠捕捉序列中的長程依賴,從而有效建模目標(biāo)的運(yùn)動(dòng)和變化。然而,目前的目標(biāo)跟蹤算法仍然主要依賴于數(shù)據(jù)集中標(biāo)注的真實(shí)標(biāo)簽框和檢測框。這種方法雖然能夠提取目標(biāo)信息,但提取的特征較為有限,導(dǎo)致跟蹤精度難以達(dá)到理想水平。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供基于提示學(xué)習(xí)的單目標(biāo)跟蹤方法,解決現(xiàn)有技術(shù)中存在的提取目標(biāo)信息時(shí)特征表示有限,導(dǎo)致跟蹤精度不足的問題。
2、本發(fā)明所采用的技術(shù)方案是,基于提示學(xué)習(xí)的單目標(biāo)跟蹤方法,具體包括以下步驟:
3、步驟1,獲取跟蹤視頻,選取目標(biāo)區(qū)域,將每一幀的目標(biāo)區(qū)域輸入到特征提取網(wǎng)絡(luò)中,得到深度特征;
4、步驟2,獲取搜索區(qū)域,將搜索區(qū)域輸入到特征提取網(wǎng)絡(luò)中,得到深度特征;
5、步驟3,將步驟1得到的目標(biāo)區(qū)域送入圖片生成文本網(wǎng)絡(luò),采用clip的圖像特征提取網(wǎng)絡(luò),利用zero-shot得到提示文本;
6、步驟4,獲取文本特征,為每一幀圖像配置一段文字,利用特征提取網(wǎng)絡(luò)對文字進(jìn)行編碼,得到編碼文本特征,,;
7、步驟5,將所有的圖像和所有的編碼文本特征進(jìn)行特征的處理與融合;
8、步驟6,融合后利用損失函數(shù)計(jì)算檢測損失,并約束文本提示,完成目標(biāo)跟蹤。
9、本發(fā)明的特點(diǎn)還在于,
10、步驟1具體為:
11、獲取跟蹤視頻,在跟蹤視頻的每一幀圖像上手動(dòng)選取目標(biāo)區(qū)域,令為每一幀圖像的目標(biāo)區(qū)域的中心點(diǎn)坐標(biāo),和分別為每一幀圖像的目標(biāo)區(qū)域的寬和高,以每一幀圖像的中心點(diǎn)為中心,截取邊長為的正方形區(qū)域,如公式(1)所示:
12、(1);
13、式中,,表示填充量;
14、當(dāng)該正方形區(qū)域大小超出該圖像尺寸大小時(shí),則超出部分用圖像均值填充;之后將邊長的正方形區(qū)域縮放到大小,得到每一幀目標(biāo)區(qū)域;最后將每一幀的目標(biāo)區(qū)域劃分為16*16的patching后按順序輸入到特征提取網(wǎng)絡(luò)中,得到深度特征。
15、步驟2具體為:
16、對于每一幀圖像截取目標(biāo)區(qū)域前的圖片,先以搜索圖像為中心將其裁剪為256*256的初始搜索區(qū)域,之后將處理后的背景特征劃分為16*16的patching后按順序輸入到特征提取網(wǎng)絡(luò)中,得到深度特征。
17、步驟3具體為:
18、獲取文本,為每一幀圖像配置三種文字描述,標(biāo)注種類和顏色和材質(zhì)特征,將各類文字以空格為分隔符,使用clip的圖片編碼器部分作為特征提取網(wǎng)絡(luò)以及zero-shot的特性生成。
19、步驟4具體為:
20、設(shè)圖像、文本集合所對應(yīng)特征集合分別為,,,,其中表示目標(biāo)圖像的編碼集合,得到該編碼的公式可由公式(3)表示;
21、(3);
22、式中,表示文本圖像的編碼集合,表示需要跟蹤的目標(biāo)的種類的文本描述,表示需要跟蹤的目標(biāo)的顏色的文本描述,表示需要跟蹤的目標(biāo)的種類的紋理描述,最大種類數(shù)表示需要跟蹤的最大種類數(shù);利用clip的文本編碼網(wǎng)絡(luò)進(jìn)行編碼,提取文本特征,得到編碼文本特征,不夠長度的文本使用0對編碼進(jìn)行補(bǔ)齊。
23、步驟5具體為:
24、將圖像和三種文本按構(gòu)成一組輸入,使用公式(4)進(jìn)行特征融合,公式(4)具體表示如下:
25、(4);
26、式中,表示融合后的特征,表示創(chuàng)建的一個(gè)線性層,使文本特征進(jìn)行自學(xué)習(xí),在transform的12層自注意力機(jī)制中有規(guī)律的插入該模塊,并替換為中的任意一個(gè)。
27、步驟6中損失函數(shù)采用giou損失函數(shù)。
28、步驟6中利用giou損失函數(shù)計(jì)算檢測損失具體為:
29、設(shè)判別時(shí)的預(yù)測框?yàn)椋鎸?shí)邊界框?yàn)?,二者面積分別為,則iou計(jì)算公式如式(5)所示:
30、(5);
31、表示預(yù)測框和真實(shí)框相交的面積;、為預(yù)測框的左上角角點(diǎn)的x坐標(biāo)和y坐標(biāo),、為預(yù)測框的右下角角點(diǎn)的x坐標(biāo)和y坐標(biāo);
32、依靠iou求得giou損失,如式(6)所示:
33、(6);
34、其中,是兩個(gè)矩形的最小外接矩形的面積。
35、使用l1損失函數(shù)來計(jì)算定位損失,如式(7)所示:
36、(7);
37、其中,j表示的第幾個(gè)元素,表示訓(xùn)練過程中所有的預(yù)測框與真實(shí)框的個(gè)數(shù)。
38、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
39、(1)本發(fā)明提供的基于提示學(xué)習(xí)的單目標(biāo)跟蹤方法,通過使用提示學(xué)習(xí)的方式,使得網(wǎng)絡(luò)能夠?qū)lp領(lǐng)域中的思想在圖像領(lǐng)域進(jìn)一步應(yīng)用,網(wǎng)絡(luò)能夠更好地應(yīng)對模板圖像不可靠的情況,有效解決了因模板不可靠而引起的跟蹤失敗問題,同時(shí)強(qiáng)調(diào)了跟蹤模板,進(jìn)一步解決了由于圖像相似帶來的跟蹤精度不足的缺點(diǎn)。
40、(2)本發(fā)明提供的基于提示學(xué)習(xí)的單目標(biāo)跟蹤方法,充分利用了多模態(tài)模型的優(yōu)點(diǎn),在推理過程中,文本還可以起到提示作用,使得網(wǎng)絡(luò)對目標(biāo)變化更魯棒,有效解決了因目標(biāo)變化或運(yùn)動(dòng)而引起的跟蹤漂移問題。
1.基于提示學(xué)習(xí)的單目標(biāo)跟蹤方法,其特征在于,具體包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于提示學(xué)習(xí)的單目標(biāo)跟蹤方法,其特征在于,所述步驟1具體為:
3.根據(jù)權(quán)利要求1所述的基于提示學(xué)習(xí)的單目標(biāo)跟蹤方法,其特征在于,所述步驟2具體為:
4.根據(jù)權(quán)利要求1所述的基于提示學(xué)習(xí)的單目標(biāo)跟蹤方法,其特征在于,所述步驟3具體為:
5.根據(jù)權(quán)利要求1所述的基于提示學(xué)習(xí)的單目標(biāo)跟蹤方法,其特征在于,所述步驟4具體為:
6.根據(jù)權(quán)利要求1所述的基于提示學(xué)習(xí)的單目標(biāo)跟蹤方法,其特征在于,所述步驟5具體為:
7.根據(jù)權(quán)利要求1所述的基于提示學(xué)習(xí)的單目標(biāo)跟蹤方法,其特征在于,步驟6中所述損失函數(shù)采用giou損失函數(shù)。
8.根據(jù)權(quán)利要求7所述的基于提示學(xué)習(xí)的單目標(biāo)跟蹤方法,其特征在于,步驟6中所述利用giou損失函數(shù)計(jì)算檢測損失具體為: