本申請涉及計算機視覺,尤其涉及一種3d和ai視覺傳感可見光機芯的場景識別方法。
背景技術(shù):
1、目前,在現(xiàn)代ai視覺傳感技術(shù)中,基于可見光機芯的3d場景識別面臨諸多挑戰(zhàn)。傳統(tǒng)的場景識別方法主要依賴于封閉集識別模式,僅能識別預先訓練的有限類別對象,而現(xiàn)實世界的場景往往包含大量未見過的對象和復雜環(huán)境。這種局限性嚴重制約了ai視覺系統(tǒng)在實際應用中的性能和適應性。當前的3d場景識別技術(shù)普遍存在以下問題:首先,多模態(tài)特征融合不充分,無法有效整合多視角、點云和體素等不同表征;其次,特征編碼過程缺乏語義一致性,難以捕捉跨模態(tài)的深層語義關(guān)聯(lián);再者,現(xiàn)有方法對未知類別對象的處理能力極其有限,遇到陌生場景時常常出現(xiàn)識別失效或錯誤分類的情況。。
技術(shù)實現(xiàn)思路
1、本申請?zhí)峁┝艘环N3d和ai視覺傳感可見光機芯的場景識別方法,用于提高場景識別的準確性。
2、第一方面,本申請實施例提供一種3d和ai視覺傳感可見光機芯的場景識別方法,該方法包括:
3、對3d對象的多模態(tài)特征進行特征提取,得到包含多視圖特征矩陣、點云特征矩陣和體素特征矩陣的基本特征集合;
4、對所述基本特征集合進行自動編碼壓縮,得到潛在空間特征編碼;
5、對所述潛在空間特征編碼進行同源損失和雙重重構(gòu)損失計算,得到優(yōu)化后的3d對象嵌入表示;
6、根據(jù)所述優(yōu)化后的3d對象嵌入表示對多個模態(tài)特征進行聚合,得到統(tǒng)一的3d對象嵌入矩陣;
7、對所述統(tǒng)一的3d對象嵌入矩陣進行超圖構(gòu)建和超圖卷積,得到結(jié)構(gòu)感知嵌入表示;
8、對所述結(jié)構(gòu)感知嵌入表示進行內(nèi)存庫對齊,得到對齊嵌入表示,根據(jù)所述對齊嵌入表示進行場景分類識別。
9、第二方面,本申請實施例提供一種3d和ai視覺傳感可見光機芯的場景識別裝置,該裝置包括:
10、特征提取模塊,用于對3d對象的多模態(tài)特征進行特征提取,得到包含多視圖特征矩陣、點云特征矩陣和體素特征矩陣的基本特征集合;
11、編碼壓縮模塊,用于對所述基本特征集合進行自動編碼壓縮,得到潛在空間特征編碼;
12、損失計算模塊,用于對所述潛在空間特征編碼進行同源損失和雙重重構(gòu)損失計算,得到優(yōu)化后的3d對象嵌入表示;
13、特征聚合模塊,用于根據(jù)所述優(yōu)化后的3d對象嵌入表示對多個模態(tài)特征進行聚合,得到統(tǒng)一的3d對象嵌入矩陣;
14、超圖計算模塊,用于對所述統(tǒng)一的3d對象嵌入矩陣進行超圖構(gòu)建和超圖卷積,得到結(jié)構(gòu)感知嵌入表示;
15、結(jié)果輸出模塊,用于對所述結(jié)構(gòu)感知嵌入表示進行內(nèi)存庫對齊,得到對齊嵌入表示,根據(jù)所述對齊嵌入表示進行場景分類識別。
16、第三方面,本申請實施例提供一種電子設(shè)備,所述電子設(shè)備包括存儲器和器;
17、所述存儲器用于存儲計算機程序;
18、所述器,用于執(zhí)行所述計算機程序并在執(zhí)行所述計算機程序時實現(xiàn)如本申請實施例中任一種所述的3d和ai視覺傳感可見光機芯的場景識別方法。
19、第四方面,本申請實施例提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被器執(zhí)行時使所述器實現(xiàn)如本申請實施例中任一種所述的3d和ai視覺傳感可見光機芯的場景識別方法。
20、本申請實施例提供一種3d和ai視覺傳感可見光機芯的場景識別方法,方法包括:對3d對象的多模態(tài)特征進行特征提取,得到包含多視圖特征矩陣、點云特征矩陣和體素特征矩陣的基本特征集合;對基本特征集合進行自動編碼壓縮,得到潛在空間特征編碼;對潛在空間特征編碼進行同源損失和雙重重構(gòu)損失計算,得到優(yōu)化后的3d對象嵌入表示;根據(jù)優(yōu)化后的3d對象嵌入表示對多個模態(tài)特征進行聚合,得到統(tǒng)一的3d對象嵌入矩陣;對統(tǒng)一的3d對象嵌入矩陣進行超圖構(gòu)建和超圖卷積,得到結(jié)構(gòu)感知嵌入表示;對結(jié)構(gòu)感知嵌入表示進行內(nèi)存庫對齊,得到對齊嵌入表示,根據(jù)對齊嵌入表示進行場景分類識別。通過上述方法,結(jié)合多視圖、點云和體素特征,采用自動編碼壓縮和雙重重構(gòu)損失,有效提取和優(yōu)化特征表示,通過超圖卷積和內(nèi)存庫對齊,能夠深入挖掘?qū)ο箝g的復雜結(jié)構(gòu)關(guān)系,并實現(xiàn)語義顯著性錨點的精準篩選,同時,通過動態(tài)邊界自適應和多階段置信度評估,具備開放集場景識別能力,可以處理未見類別,增強了模型的泛化能力,提高了場景的識別精度。
1.一種3d和ai視覺傳感可見光機芯的場景識別方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的3d和ai視覺傳感可見光機芯的場景識別方法,其特征在于,所述對所述基本特征集合進行自動編碼壓縮,得到潛在空間特征編碼,包括:
3.如權(quán)利要求1所述的3d和ai視覺傳感可見光機芯的場景識別方法,其特征在于,所述對所述潛在空間特征編碼進行同源損失和雙重重構(gòu)損失計算,得到優(yōu)化后的3d對象嵌入表示,包括:
4.如權(quán)利要求1所述的3d和ai視覺傳感可見光機芯的場景識別方法,其特征在于,所述根據(jù)所述優(yōu)化后的3d對象嵌入表示對多個模態(tài)特征進行聚合,得到統(tǒng)一的3d對象嵌入矩陣,包括:
5.如權(quán)利要求4所述的3d和ai視覺傳感可見光機芯的場景識別方法,其特征在于,所述對所述統(tǒng)一的3d對象嵌入矩陣進行超圖構(gòu)建和超圖卷積,得到結(jié)構(gòu)感知嵌入表示,包括:
6.如權(quán)利要求5所述的3d和ai視覺傳感可見光機芯的場景識別方法,其特征在于,所述對所述結(jié)構(gòu)感知嵌入表示進行內(nèi)存庫對齊,得到對齊嵌入表示,根據(jù)所述對齊嵌入表示進行場景分類識別,包括: