本發(fā)明屬于人工智能交叉,涉及到一種基于大模型的多模態(tài)數(shù)據(jù)知識抽取方法。
背景技術(shù):
1、多模態(tài)數(shù)據(jù)詐騙知識抽取在金融反欺詐領(lǐng)域具有重要性和必要性,主要體現(xiàn)在以下幾個方面:首先,詐騙行為往往具有隱蔽性和復(fù)雜性,單一模態(tài)數(shù)據(jù)(如交易記錄或文本聊天)難以全面捕捉詐騙特征,而多模態(tài)數(shù)據(jù)(包括結(jié)構(gòu)化數(shù)據(jù)如資金流水、ip地址,非結(jié)構(gòu)化數(shù)據(jù)如語音通話、文字聊天,以及時序特征數(shù)據(jù)如設(shè)備操作序列、登錄時間分布)能夠提供更豐富的行為刻畫,顯著提升詐騙檢測的覆蓋率和精準(zhǔn)度。
2、然而,當(dāng)前技術(shù)在多模態(tài)數(shù)據(jù)詐騙知識抽取方面仍存在諸多缺陷和弊端。首先,多模態(tài)數(shù)據(jù)的異構(gòu)性導(dǎo)致特征對齊與融合難度較大,例如語音信號與文本數(shù)據(jù)的語義對齊需要高精度的預(yù)訓(xùn)練模型,而現(xiàn)有模型在噪聲環(huán)境下的表現(xiàn)仍不理想,容易出現(xiàn)誤匹配或漏匹配問題。其次,時序特征數(shù)據(jù)的動態(tài)建模能力有限,現(xiàn)有方法(如rnn、lstm)在處理長序列數(shù)據(jù)時容易出現(xiàn)梯度消失或爆炸問題,難以捕捉詐騙行為的長期依賴關(guān)系。此外,多模態(tài)數(shù)據(jù)的實時處理與計算復(fù)雜度較高,現(xiàn)有分布式系統(tǒng)在應(yīng)對大規(guī)模并發(fā)請求時,往往面臨數(shù)據(jù)同步延遲與計算資源瓶頸,影響風(fēng)險檢測的實時性。另一個重要缺陷是模型的可解釋性不足,盡管多模態(tài)融合能夠提升檢測準(zhǔn)確率,但其決策過程往往被視為“黑箱”,難以滿足金融監(jiān)管對風(fēng)控透明度的要求。最后,現(xiàn)有技術(shù)對零日攻擊(即新型詐騙模式)的泛化能力較弱,主要依賴于歷史數(shù)據(jù)的統(tǒng)計規(guī)律,而詐騙手段的快速演進使得模型需要頻繁更新,增加了維護成本與誤報風(fēng)險。
技術(shù)實現(xiàn)思路
1、鑒于以上現(xiàn)有技術(shù)存在的問題,本發(fā)明提供一種基于大模型的多模態(tài)數(shù)據(jù)知識抽取方法,用于解決據(jù)上述技術(shù)問題。
2、為了實現(xiàn)上述目的及其他目的,本發(fā)明采用的技術(shù)方案如下:
3、本發(fā)明一方面提供了一種基于大模型的多模態(tài)數(shù)據(jù)知識抽取方法,該方法包括如下步驟:
4、步驟s1:通過分布式接口實時獲取用戶的多維度交互數(shù)據(jù);其中多維度交互數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)以及時序特征數(shù)據(jù);
5、步驟s2:將用戶的多維度交互數(shù)據(jù)輸入多模態(tài)嵌入層進行聯(lián)合表征學(xué)習(xí);
6、步驟s3:計算用戶的賬戶實時風(fēng)險概率,基于賬戶實時風(fēng)險概率進行預(yù)警操作。
7、結(jié)構(gòu)化數(shù)據(jù)包括用戶賬戶交易對象、交易金額以及各交易對象的交易次數(shù);
8、時序特征數(shù)據(jù)包括用戶設(shè)備操作行為序列、密碼驗證失敗次數(shù)。
9、所述步驟s2中具體分為如下操作邏輯:
10、步驟s21、計算各節(jié)點間的資金轉(zhuǎn)移熵值;
11、步驟s22、使用時序因果發(fā)現(xiàn)算法分析設(shè)備操作序列中的異常模式,檢測密碼連續(xù)錯誤輸入與資金操作的時間相關(guān)性。
12、步驟s21的操作邏輯包括:
13、基于用戶-交易方資金流向圖譜,從中提取設(shè)定時間窗口t之內(nèi),節(jié)點i到節(jié)點j的交易概率以及交易金額權(quán)重;
14、其中設(shè)定時間窗口t之內(nèi),節(jié)點i到節(jié)點j的交易概率的計算公式為,其中λ表示拉普拉斯平滑因子,用于避免零概率問題;表示在時間窗口t內(nèi)從節(jié)點i到節(jié)點j的交易次數(shù),k表示節(jié)點i的各鄰居節(jié)點的編號,為節(jié)點i的鄰居節(jié)點集合,為在時間窗口t內(nèi)從節(jié)點i到節(jié)點k的交易次數(shù),為節(jié)點i的鄰居節(jié)點數(shù)量;t為時間窗口索引;t∈[1,t],t是總時間窗口數(shù);
15、設(shè)定時間窗口t之內(nèi),節(jié)點i到節(jié)點j的交易金額權(quán)重的計算公式為,其中為在時間窗口t內(nèi)從節(jié)點i到節(jié)點j的交易金額,表示節(jié)點i在時間窗口t內(nèi)的總轉(zhuǎn)出金額,表示節(jié)點j在時間窗口t內(nèi)的總轉(zhuǎn)入金額;
16、由此計算各節(jié)點間的資金轉(zhuǎn)移熵值;
17、上述式中為節(jié)點i到節(jié)點j的歷史交易概率,,τ為歷史時間窗口索引,τ∈[t-30,t],表示在歷史時間窗口τ內(nèi)從節(jié)點i到節(jié)點j的交易次數(shù),為在歷史時間窗口τ內(nèi)從節(jié)點i到節(jié)點k的交易次數(shù);
18、,為節(jié)點i在時間窗口t的總交易金額,為節(jié)點i在總時間窗口單位平均交易金額,為節(jié)點i的交易金額標(biāo)準(zhǔn)差。
19、步驟s22的操作邏輯包括:
20、從用戶設(shè)備操作行為序列中定義事件類型:
21、:表示在時間窗口t內(nèi)是否發(fā)生密碼連續(xù)錯誤輸入,1為發(fā)生,0為未發(fā)生;
22、:表示在時間窗口t內(nèi)是否發(fā)生資金操作,1為發(fā)生,0為未發(fā)生;
23、定義密碼錯誤事件x與后續(xù)資金操作y的時間間隔ε:
24、,分別為資金操作事件的發(fā)生時間以及密碼連續(xù)錯誤輸入事件的發(fā)生時間;
25、由此評估密碼連續(xù)錯誤輸入與資金操作的時間相關(guān)性,為密碼錯誤后設(shè)定閾值秒數(shù)內(nèi)發(fā)生資金操作的次數(shù),為設(shè)定的時間閾值,表示密碼錯誤事件總次數(shù);為預(yù)定義的動態(tài)因果強度。
26、計算用戶的賬戶實時風(fēng)險概率的邏輯如下:
27、通過計算公式,其中η1、η2以及η3分別表示設(shè)定的權(quán)重系數(shù),且η1+η2+η3=1;為sigmoid函數(shù),所述sigmoid函數(shù)的表達式為,e為自然常數(shù),φ為設(shè)定的斜率參數(shù),控制概率變化速率;x0為設(shè)定的偏移參數(shù),調(diào)整概率分布中心位置,x為未知數(shù);
28、△ge為用戶對應(yīng)交易的地理位置異常偏移量,,其中為基于用戶當(dāng)前實時位置和歷史基準(zhǔn)位置的地理距離,,,,分別表示用戶當(dāng)前實時位置的經(jīng)緯度坐標(biāo),分別表示用戶歷史基準(zhǔn)位置的經(jīng)緯度坐標(biāo),,,分別表示經(jīng)度差和緯度差,bj為地球的平均半徑,具體取值為6371km;
29、為設(shè)定的用戶地理位置波動的歸一化因子,反映其歷史活動范圍的標(biāo)準(zhǔn)差;,其中n為過去30天之內(nèi)第n天的編號,分別表示過去30天之內(nèi)第n天用戶的實時位置記憶對應(yīng)第n天日期的歷史基準(zhǔn)位置;
30、為時間異常指示函數(shù),,sj為用戶對應(yīng)當(dāng)前交易的時間戳,sj’為用戶歷史正常交易時間段。
31、基于實時風(fēng)險概率進行預(yù)警操作,包括:
32、基于用戶賬戶風(fēng)險概率后,首先與預(yù)設(shè)的動態(tài)閾值進行比對:
33、若風(fēng)險概率低于50%,標(biāo)記為低風(fēng)險,僅記錄日志并持續(xù)監(jiān)控;
34、若處于50%-70%區(qū)間,觸發(fā)中級預(yù)警,通過短信、app推送及語音電話向用戶發(fā)送風(fēng)險提示,要求其通過生物識別(如人臉識別)或短信驗證碼進行二次認證,并限制單筆交易金額;
35、若超過70%,則激活高級預(yù)警,立即凍結(jié)賬戶資金流動,向預(yù)設(shè)緊急聯(lián)系人發(fā)送包含地理位置信息的警報,同步生成可視化風(fēng)險報告提交至人工審核隊列,由風(fēng)控專員結(jié)合通話記錄、ip軌跡等輔助信息進行深度核查。
36、本發(fā)明另一方面提供了一種基于大模型的多模態(tài)數(shù)據(jù)知識抽取裝置,包括處理器、存儲器及通信總線;
37、所述存儲器上存儲有可被所述處理器執(zhí)行的計算機可讀程序;
38、所述通信總線實現(xiàn)處理器和存儲器之間的連接通信;
39、所述處理器執(zhí)行所述計算機可讀程序時執(zhí)行以實施如本發(fā)明所述的一種基于大模型的多模態(tài)數(shù)據(jù)知識抽取方法。
40、如上所述,本發(fā)明提供的一種基于大模型的多模態(tài)數(shù)據(jù)知識抽取方法,至少具有以下有益效果:
41、本發(fā)明提供的一種基于大模型的多模態(tài)數(shù)據(jù)知識抽取方法,通過分布式接口實時獲取用戶的多維度交互數(shù)據(jù),并將結(jié)構(gòu)化數(shù)據(jù)與時序特征數(shù)據(jù)輸入多模態(tài)嵌入層進行聯(lián)合表征學(xué)習(xí),最終計算用戶賬戶的實時風(fēng)險概率并觸發(fā)預(yù)警操作,存在以下必要性:
42、多維度交互數(shù)據(jù)的整合能夠全面刻畫用戶行為模式,避免單一數(shù)據(jù)源的局限性。多模態(tài)嵌入層的聯(lián)合表征學(xué)習(xí)通過跨模態(tài)注意力機制和特征融合技術(shù),將不同類型的數(shù)據(jù)映射到統(tǒng)一的低維空間,捕捉數(shù)據(jù)間的隱含關(guān)聯(lián),從而提升模型的表征能力與泛化性能;
43、實時風(fēng)險概率的計算結(jié)合了動態(tài)因果強度、時間相關(guān)性評分和地理位置偏移量等多維度特征,能夠精準(zhǔn)量化用戶行為的異常程度,并通過滑動窗口機制動態(tài)更新基線,適應(yīng)行為模式的短期波動與長期變化?;陲L(fēng)險概率的分級預(yù)警操作通過多級閾值判斷與自動化響應(yīng)機制,實現(xiàn)從低風(fēng)險監(jiān)控到高風(fēng)險攔截的精細化風(fēng)控策略,同時支持實時反饋與模型優(yōu)化,形成閉環(huán)管理。這種技術(shù)方案不僅顯著提升了風(fēng)險檢測的準(zhǔn)確率與響應(yīng)速度,還通過模塊化設(shè)計與分布式架構(gòu)增強了系統(tǒng)的可維護性與擴展性,為金融反欺詐提供了高效、可靠的技術(shù)支撐。