本發(fā)明涉及智能售貨,尤其涉及一種基于多模態(tài)數(shù)據(jù)處理的多目標商品識別方法、裝置及系統(tǒng)。
背景技術:
1、智能售貨柜作為一種常見的無人售貨設備,廣泛應用于多個領域,如購物、食品、飲料和日常用品等。傳統(tǒng)的智能售貨柜主要依靠條形碼或二維碼掃描來識別商品,這種方式通常依賴人工輸入商品信息并進行標簽匹配。然而,這種方法存在局限性,例如對商品的遮擋、重疊或者位置變化等情況無法有效識別。此外,手動標注的標簽信息容易出現(xiàn)錯誤,尤其在商品更新頻繁的情況下,造成售貨柜無法及時適應新商品的展示和識別。因此,如何高效、精準地在動態(tài)環(huán)境下進行商品識別,尤其是處理多個商品目標同時出現(xiàn)、遮擋和重疊等復雜場景,成為智能售貨柜智能化升級的核心問題。
2、現(xiàn)有技術在多商品目標的識別中通常依賴于單一的視覺信息或者文本信息,難以應對動態(tài)交易場景下的復雜情況。例如,基于傳統(tǒng)的圖像識別方法,模型在處理遮擋和重疊商品時,容易出現(xiàn)錯誤識別或漏識別現(xiàn)象。同時,文本信息提取也面臨著標簽不清晰、模糊或位置變化的挑戰(zhàn),且現(xiàn)有方法多為單一模態(tài)的處理,缺乏對視覺信息、空間信息及語義信息的綜合分析。因此,現(xiàn)有技術無法滿足智能售貨柜在復雜場景下的實時、準確商品識別需求。
3、現(xiàn)有中國專利cn114445201a公開了一種基于多模態(tài)預訓練模型的組合商品檢索方法及系統(tǒng),包括:將商品圖像劃分為單品圖像和組合品圖像;訓練一個組合商品圖像檢測器;獲取并結合組合商品圖像中文本模態(tài)和圖片模塊的特征編碼、位置編碼和分段編碼,學習嵌入表示,并輸入構建好的多模態(tài)預訓練模型;采用多模態(tài)預訓練模型提取單品圖像的圖片模態(tài)和文本模態(tài)的檢索特征;多模態(tài)預訓練模型根據(jù)組合品圖像中每個目標商品的邊界框及邊界框特征,提取組合品圖像圖文融合的檢索特征,計算組合品特征與檢索庫中單品特征的預先距離作為商品相似度,選取最相似的單品作為結果返回。上述專利方案無法準確地處理商品之間的遮擋、重疊等情況,以及無法應對不同商品特征和文本描述之間的差異性,因此,難以保證在實際場景中準確地進行商品識別。
4、為此,如何在多目標場景下準確地進行商品識別是亟待解決的問題。
技術實現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種基于多模態(tài)數(shù)據(jù)處理的多目標商品識別方法、裝置及系統(tǒng),用以解決現(xiàn)有技術中無法在多目標場景下準確地進行商品識別的問題。
2、本發(fā)明采用的技術方案是:
3、第一方面,本發(fā)明提供了一種基于多模態(tài)數(shù)據(jù)處理的多目標商品識別方法,所述方法包括:
4、獲取商品交易場景下的實時視頻數(shù)據(jù),將所述實時視頻數(shù)據(jù)分解為多幀實時圖像;
5、對所述實時圖像進行預處理和標簽信息提取,確定預處理后的目標圖像和商品標簽對應的文字信息;
6、對所述目標圖像進行實例分割,確定商品位置信息;
7、根據(jù)所述商品位置信息,對所述目標圖像進行特征提取,確定商品圖像特征信息;
8、根據(jù)預收集的智能售貨場景下的多源私有化數(shù)據(jù),對開源多模態(tài)視覺語言模型進行微調(diào)與優(yōu)化處理,得到用于商品識別的多模態(tài)大模型;
9、將所述商品圖像特征信息和所述文字信息輸入所述多模態(tài)大模型中進行信息融合,根據(jù)融合特征信息,確定商品目標識別結果。
10、優(yōu)選地,所述對所述實時圖像進行預處理和標簽信息提取,確定預處理后的目標圖像和商品標簽對應的文字信息包括:
11、對所述實時圖像進行尺寸調(diào)整和降噪處理,確定所述目標圖像;
12、對所述目標圖像進行目標檢測,確定商品區(qū)域位置信息;
13、根據(jù)所述商品區(qū)域位置信息,通過光學字符識別技術對商品區(qū)域中的商品標簽進行處理,確定所述文字信息。
14、優(yōu)選地,所述對所述目標圖像進行實例分割,確定商品位置信息包括:
15、根據(jù)所述商品區(qū)域位置信息,通過卷積神經(jīng)網(wǎng)絡提取商品區(qū)域的特征信息,并根據(jù)提取出的特征信息確定候選區(qū)域;
16、通過實例分割網(wǎng)絡對所述候選區(qū)域進行處理,確定各商品目標對應的二值圖像;
17、利用后處理技術,對所述二值圖像進行處理,確定所述商品位置信息。
18、優(yōu)選地,所述根據(jù)預收集的智能售貨場景下的多源私有化數(shù)據(jù),對開源多模態(tài)視覺語言模型進行微調(diào)與優(yōu)化處理,得到用于商品識別的多模態(tài)大模型包括:
19、根據(jù)預收集的智能售貨場景下的多源原始數(shù)據(jù),對多源原始數(shù)據(jù)進行清洗和結構化處理,得到標注數(shù)據(jù)集;
20、根據(jù)標注數(shù)據(jù)集中的圖像信息與文本標簽,對圖文數(shù)據(jù)進行配對構建,并對其進行格式轉換與統(tǒng)一預處理,得到用于訓練的多模態(tài)輸入樣本集;
21、根據(jù)多模態(tài)輸入樣本集,對開源視覺語言預訓練模型加載權重參數(shù),并構建支持聯(lián)合優(yōu)化的視覺編碼與語言編碼網(wǎng)絡結構,得到用于微調(diào)的多模態(tài)模型初始結構;
22、根據(jù)售貨場景特性與識別精度要求,對所述多模態(tài)模型初始結構執(zhí)行微調(diào)訓練,并通過交叉驗證策略優(yōu)化超參數(shù)配置,得到多個候選多模態(tài)模型;
23、根據(jù)預設的準確率、召回率和響應時間,對各所述候選多模態(tài)模型進行評估與比選,得到所述多模態(tài)大模型。
24、優(yōu)選地,所述將所述商品圖像特征信息和所述文字信息輸入所述多模態(tài)大模型中進行信息融合,根據(jù)融合特征信息,確定商品目標識別結果包括:
25、將所述商品圖像特征信息和所述文字信息輸入所述多模態(tài)大模型中,得到融合圖像特征和文字語義的融合特征信息;
26、將所述融合特征信息輸入預訓練的商品分類模型中,得到初始商品類別;
27、根據(jù)所述初始商品類別,判斷當前初始商品類別中是否存在相似商品;
28、當存在相似商品時,根據(jù)所述初始商品類別,獲取待提取特征的局部區(qū)域和待提取的目標特征;
29、根據(jù)所述局部區(qū)域和所述目標特征,對所述目標圖像進行特征提取,得到局部區(qū)域特征信息;
30、根據(jù)所述局部區(qū)域特征信息,對所述初始商品類別進行分類,得到目標商品類別作為所述商品目標識別結果。
31、優(yōu)選地,所述當存在相似商品時,根據(jù)所述初始商品類別,獲取待提取特征的局部區(qū)域和待提取的目標特征包括:
32、根據(jù)所述初始商品類別,從預設的商品圖像數(shù)據(jù)庫中選取該類別下的多個子類別分別對應的樣本圖像;
33、將各所述樣本圖像輸入預訓練的顯著性檢測模型中,得到顯著性熱圖,其中,所述顯著性熱圖用于表征樣本圖像中對視覺特征注意力最集中的區(qū)域;
34、對所述顯著性熱圖進行閾值分割,得到多個候選區(qū)域;
35、對各所述候選區(qū)域進行綜合評分,根據(jù)評分結果,從各所述候選區(qū)域中篩選得到所述局部區(qū)域;
36、對所述局部區(qū)域進行候選特征提取和特征評估,根據(jù)特征評估結果,從提取的候選特征中篩選得到所述目標特征。
37、優(yōu)選地,所述對各所述候選區(qū)域進行綜合評分,根據(jù)評分結果,得到所述局部區(qū)域包括:
38、獲取各候選區(qū)域對應的顯著性熱圖中的顯著值;
39、根據(jù)各所述顯著值,計算各候選區(qū)域的平均顯著值作為顯著性評分值;
40、根據(jù)所述初始商品類別,將各所述樣本圖像輸入預訓練的圖像分類模型中,得到類別激活圖;
41、根據(jù)所述類別激活圖,獲取各樣本圖像在當前初始商品類別下的響應熱圖;
42、對各所述候選區(qū)域在所述響應熱圖中對應位置的像素進行統(tǒng)計,計算各候選區(qū)域的平均激活強度作為類別相關評分值;
43、對各候選區(qū)域的所述顯著性評分值與所述類別相關評分值進行加權融合,得到各候選區(qū)域的所述評分結果;
44、將各所述評分結果和預設的評分閾值進行比較,根據(jù)比較結果,從各候選區(qū)域中選取至少一個區(qū)域作為所述局部區(qū)域。
45、優(yōu)選地,所述對所述局部區(qū)域進行候選特征提取和特征評估,根據(jù)特征評估結果,從提取的候選特征中篩選得到所述目標特征包括:
46、根據(jù)所述初始商品類別,獲取該類別對應的各候選特征對應的特征提取策略;
47、根據(jù)各所述特征提取策略,對所述局部區(qū)域進行多路徑特征提取,得到多個候選特征信息;
48、對各所述候選特征信息在各所述樣本圖像中進行分布一致性分析,獲取各候選特征信息在不同樣本圖像中出現(xiàn)的頻率與位置偏差作為分布一致性指標;
49、將各所述候選特征信息分別輸入預訓練的商品識別模型中,得到識別結果,并獲取所述識別結果對應的分類置信度作為各候選特征信息的分類響應強度;
50、根據(jù)所述的分布一致性指標與分類響應強度,對各所述候選特征信息進行評估,得到特征評估結果;
51、根據(jù)特征評估結果,從各所述候選特征信息中篩選出所述目標特征。
52、第二方面,本發(fā)明提供了一種基于多模態(tài)數(shù)據(jù)處理的多目標商品識別裝置,所述裝置包括:
53、實時圖像獲取模塊,用于獲取商品交易場景下的實時視頻數(shù)據(jù),將所述實時視頻數(shù)據(jù)分解為多幀實時圖像;
54、預處理和標簽信息提取模塊,用于對所述實時圖像進行預處理和標簽信息提取,確定預處理后的目標圖像和商品標簽對應的文字信息;
55、實例分割模塊,用于對所述目標圖像進行實例分割,確定商品位置信息;
56、特征提取模塊,用于根據(jù)所述商品位置信息,對所述目標圖像進行特征提取,確定商品圖像特征信息;
57、多模態(tài)大模型訓練模塊,用于根據(jù)預收集的智能售貨場景下的多源私有化數(shù)據(jù),對開源多模態(tài)視覺語言模型進行微調(diào)與優(yōu)化處理,得到用于商品識別的多模態(tài)大模型;
58、商品識別模塊,用于將所述商品圖像特征信息和所述文字信息輸入所述多模態(tài)大模型中進行信息融合,根據(jù)融合特征信息,確定商品目標識別結果。
59、第三方面,本發(fā)明實施例還提供了一種基于多模態(tài)數(shù)據(jù)處理的多目標商品識別系統(tǒng),包括:圖像采集設備、至少一個處理器、至少一個存儲器以及存儲在所述存儲器中的計算機程序指令,當所述計算機程序指令被所述處理器執(zhí)行時實現(xiàn)如上述的方法。
60、綜上所述,本發(fā)明的有益效果如下:
61、本發(fā)明提供的基于多模態(tài)數(shù)據(jù)處理的多目標商品識別方法、裝置及系統(tǒng),包括:獲取商品交易場景下的實時視頻數(shù)據(jù),將所述實時視頻數(shù)據(jù)分解為多幀實時圖像;對所述實時圖像進行預處理和標簽信息提取,確定預處理后的目標圖像和商品標簽對應的文字信息;對所述目標圖像進行實例分割,確定商品位置信息;根據(jù)所述商品位置信息,對所述目標圖像進行特征提取,確定商品圖像特征信息;根據(jù)預收集的智能售貨場景下的多源私有化數(shù)據(jù),對開源多模態(tài)視覺語言模型進行微調(diào)與優(yōu)化處理,得到用于商品識別的多模態(tài)大模型;將所述商品圖像特征信息和所述文字信息輸入所述多模態(tài)大模型中進行信息融合,根據(jù)融合特征信息,確定商品目標識別結果。本發(fā)明從實時視頻數(shù)據(jù)中提取多幀圖像,并通過預處理與標簽信息提取,對每一幀圖像中的商品進行初步識別,提取商品標簽和對應文字信息,接著,通過實例分割技術對目標圖像進行處理,精準定位每個商品的邊界框并解決商品之間的遮擋問題,利用商品位置信息進一步提取圖像特征,包括視覺特征、空間特征和語義特征,通過多模態(tài)大模型進行信息融合,將商品圖像特征與提取的文本信息進行結合,提升對復雜商品目標的辨識能力,最后,基于圖像和文本信息的融合,模型能夠準確區(qū)分并識別出多個商品目標,即使在多個商品同時存在且存在部分重疊或遮擋的復雜環(huán)境中,仍能保持高效的識別性能,不僅提高了識別精度,還能夠在動態(tài)場景中穩(wěn)定運行,滿足多目標識別需求。