本發(fā)明涉及對話交互系統(tǒng),具體的說是一種基于大語言模型的交互式問數(shù)智能體系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的快速發(fā)展和大數(shù)據(jù)時代的到來,企業(yè)和組織積累了大量的數(shù)據(jù)。這些數(shù)據(jù)包含了豐富的信息,對于決策支持、業(yè)務(wù)優(yōu)化、趨勢分析等方面具有不可估量的價值。傳統(tǒng)商業(yè)智能(bi)工具在企業(yè)數(shù)據(jù)洞察場景中長期占據(jù)主導(dǎo)地位,但其架構(gòu)與交互模式已難以滿足現(xiàn)代敏捷分析需求,如何有效地從海量的數(shù)據(jù)中提取出有用的信息,并將其以直觀易懂的方式呈現(xiàn)出來,成為了一個重要的挑戰(zhàn)。
2、傳統(tǒng)bi工具存在以下問題:
3、1、技術(shù)門檻過高,用戶依賴嚴(yán)重。傳統(tǒng)的數(shù)據(jù)查詢方法通常需要用戶具備一定的技術(shù)背景需熟練掌握sql語法、數(shù)據(jù)建模(如星型/雪花模型)及etl流程,非技術(shù)人員使用困難,平均每個業(yè)務(wù)部門需配備1.2名專職數(shù)據(jù)分析師處理取數(shù)需求(來源:forrester企業(yè)數(shù)字化人力成本白皮書)。
4、2、查詢結(jié)果固定,無法快速相應(yīng)需求變化。傳統(tǒng)bi工具通常依賴于預(yù)定義的數(shù)據(jù)模型和固定的報表模板。這意味著,在進(jìn)行數(shù)據(jù)分析之前,用戶需要先確定好分析的維度、度量以及數(shù)據(jù)集等信息,并基于這些預(yù)先設(shè)定好的參數(shù)生成報表或儀表板。一旦報表或儀表板生成后,其展示的結(jié)果數(shù)據(jù)相對固定,難以實(shí)時反映數(shù)據(jù)源中的最新變化。如果需要調(diào)整分析的角度或者添加新的數(shù)據(jù)維度,則往往需要重新配置整個數(shù)據(jù)模型,這不僅耗時,而且對用戶的技能要求較高。
5、3、交互方式單一。傳統(tǒng)的bi工具大多采用拖放式界面讓用戶選擇數(shù)據(jù)字段并設(shè)置過濾條件,雖然這種方式對于熟悉工具操作的用戶來說比較直觀,但它缺乏靈活性,無法支持更加人性化的交互模式(如:自然語言查詢)。此外,這類工具通常只提供基本的點(diǎn)擊、篩選、排序等功能,對于想要深入探索數(shù)據(jù)背后的故事或者希望以更靈活的方式與數(shù)據(jù)互動的用戶來說,這種交互方式顯得力不從心。
6、4、數(shù)據(jù)可視化與查詢流程割裂。用戶需手動將sql結(jié)果導(dǎo)出為csv/xlsx,再導(dǎo)入可視化工具二次加工,平均耗時超15分鐘。自動化圖表推薦與數(shù)據(jù)特征匹配率不足20%,嚴(yán)重拖累分析效率。
7、5、實(shí)時與非結(jié)構(gòu)化數(shù)據(jù)處理缺失。依賴t+1數(shù)據(jù)更新模式,無法處理流數(shù)據(jù)(如iot傳感器實(shí)時日志)。同時,僅支持結(jié)構(gòu)化數(shù)據(jù),對文本、圖像等非結(jié)構(gòu)化數(shù)據(jù)的分析覆蓋率不足5%。
8、因此,一個能夠理解自然語言查詢請求、自動轉(zhuǎn)換為合適的查詢語句并執(zhí)行查詢操作的系統(tǒng)顯得尤為重要。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對傳統(tǒng)bi工具技術(shù)門檻高、無法快速相應(yīng)需求變化、交互方式單一、數(shù)據(jù)可視化與查詢流程割裂等問題,提供一種基于大語言模型的交互式問數(shù)智能體系統(tǒng),該系統(tǒng)能夠通過多輪對話實(shí)現(xiàn)自然語言到結(jié)構(gòu)化查詢語言(sql)及數(shù)據(jù)服務(wù)接口的智能轉(zhuǎn)換,并自動生成交互式數(shù)據(jù)可視化結(jié)果。
2、本發(fā)明的一種基于大語言模型的交互式問數(shù)智能體系統(tǒng),解決上述技術(shù)問題采用的技術(shù)方案如下:
3、一種基于大語言模型的交互式問數(shù)智能體系統(tǒng),其包括:
4、異構(gòu)數(shù)據(jù)管理引擎,負(fù)責(zé)實(shí)現(xiàn)跨數(shù)據(jù)庫、文件系統(tǒng)、api接口及實(shí)時流數(shù)據(jù)源的統(tǒng)一接入、整合與安全高效訪問,為后續(xù)模塊提供標(biāo)準(zhǔn)化數(shù)據(jù)源與元數(shù)據(jù)支撐;
5、nlp語義識別引擎,支持意圖識別、實(shí)體抽取、上下文理解和領(lǐng)域適配功能,經(jīng)過維度指標(biāo)識別、數(shù)據(jù)表匹配、上下文跟蹤、實(shí)體消歧及安全校驗(yàn)步驟,將用戶自然語言輸入轉(zhuǎn)化為結(jié)構(gòu)化語義表示,驅(qū)動混合式sql生成引擎的查詢邏輯,并為可視化決策提供語義參數(shù);
6、混合式sql生成引擎,采用融合深度學(xué)習(xí)模型與規(guī)則引擎的雙階段架構(gòu),通過構(gòu)建訓(xùn)練數(shù)據(jù)集、設(shè)計上下文感知機(jī)制、進(jìn)行列級血緣分析與糾錯、優(yōu)化性能和強(qiáng)化安全校驗(yàn)步驟,基于異構(gòu)數(shù)據(jù)管理引擎的元數(shù)據(jù)與權(quán)限規(guī)則,實(shí)現(xiàn)從nlp語義識別引擎解析的語義表示到sql語句的精準(zhǔn)生成;
7、可視化管理控制臺,負(fù)責(zé)通過固化問數(shù)調(diào)用流程,將大模型配置、訓(xùn)練數(shù)據(jù)集、異構(gòu)數(shù)據(jù)管理引擎的數(shù)據(jù)源信息進(jìn)行參數(shù)化設(shè)置,結(jié)合nlp語義識別結(jié)果與sql生成參數(shù),實(shí)現(xiàn)問數(shù)智能體的可視化快速搭建。
8、可選的,所涉及異構(gòu)數(shù)據(jù)管理引擎包括異構(gòu)協(xié)議適配連接器、元數(shù)據(jù)管理模塊、區(qū)塊鏈數(shù)據(jù)安全控制模塊和虛擬化聯(lián)邦查詢引擎,其中:
9、異構(gòu)協(xié)議適配連接器通過數(shù)據(jù)操作控制器、數(shù)據(jù)類型轉(zhuǎn)換器和元數(shù)據(jù)控制器三大組件協(xié)同工作,封裝底層數(shù)據(jù)源的協(xié)議差異,提供統(tǒng)一的上層數(shù)據(jù)訪問接口,實(shí)現(xiàn)關(guān)系型數(shù)據(jù)庫、nosql、文件系統(tǒng)、api及實(shí)時流數(shù)據(jù)的標(biāo)準(zhǔn)化接入與高效操作;
10、元數(shù)據(jù)管理模塊基于元數(shù)據(jù)管理技術(shù),運(yùn)用自動化采集、本體模型補(bǔ)充和圖數(shù)據(jù)庫存儲和語義消歧技術(shù),構(gòu)建跨數(shù)據(jù)源的統(tǒng)一元數(shù)據(jù)知識圖譜,實(shí)現(xiàn)元數(shù)據(jù)信息整合、血緣追溯與語義消歧;
11、區(qū)塊鏈數(shù)據(jù)安全控制模塊基于區(qū)塊鏈技術(shù)構(gòu)建,結(jié)合元數(shù)據(jù)的分級分類信息,實(shí)現(xiàn)對數(shù)據(jù)庫、表和字段的細(xì)粒度權(quán)限控制,保障數(shù)據(jù)使用過程的安全性;
12、虛擬化聯(lián)邦查詢引擎基于數(shù)據(jù)虛擬化技術(shù)構(gòu)建統(tǒng)一數(shù)據(jù)視圖,通過對接區(qū)塊鏈數(shù)據(jù)安全控制模塊,屏蔽異構(gòu)數(shù)據(jù)源的物理差異,為不同用戶提供統(tǒng)一的sql/接口訪問方式,實(shí)現(xiàn)跨源數(shù)據(jù)的安全、高效查詢。
13、進(jìn)一步可選的,所涉及數(shù)據(jù)操作控制器負(fù)責(zé)處理統(tǒng)一接口接收的操作指令,并將其轉(zhuǎn)換為適配各數(shù)據(jù)源的底層協(xié)議請求;
14、數(shù)據(jù)類型轉(zhuǎn)換器負(fù)責(zé)解決不同數(shù)據(jù)源間的數(shù)據(jù)類型不兼容問題,實(shí)現(xiàn)雙向轉(zhuǎn)換;
15、元數(shù)據(jù)控制器負(fù)責(zé)管理數(shù)據(jù)源的結(jié)構(gòu)信息,支持自動發(fā)現(xiàn)與同步元數(shù)據(jù)。
16、進(jìn)一步可選的,所涉及元數(shù)據(jù)管理模塊具體執(zhí)行如下操作實(shí)現(xiàn)元數(shù)據(jù)信息整合、血緣追溯與語義消歧:
17、利用自動化掃描工具對各數(shù)據(jù)源進(jìn)行掃描,采集其中的表結(jié)構(gòu)、字段類型和主外鍵關(guān)系各項(xiàng)基礎(chǔ)元數(shù)據(jù)信息;
18、基于本體模型,對采集到的元數(shù)據(jù)進(jìn)行深度補(bǔ)充;
19、將補(bǔ)充完善后的元數(shù)據(jù)構(gòu)建成統(tǒng)一的知識圖譜,使用圖數(shù)據(jù)庫進(jìn)行存儲;在圖數(shù)據(jù)庫中,以節(jié)點(diǎn)表示數(shù)據(jù)表和字段的元數(shù)據(jù)對象,以邊表示數(shù)據(jù)表與數(shù)據(jù)表之間、數(shù)據(jù)表與字段之間、字段與字段之間的關(guān)系,從而清晰展現(xiàn)數(shù)據(jù)血緣關(guān)系;
20、使用語義消歧模塊自動識別同名異義字段,結(jié)合上下文提示用戶確認(rèn)。
21、可選的,所涉及nlp語義識別引擎支持意圖識別、實(shí)體抽取、上下文理解和領(lǐng)域適配功能,其中:通過意圖識別功能判斷用戶查詢類型,通過實(shí)體抽取功能提取指標(biāo)、維度和過濾條件,通過上下文理解解決多輪對話中的歷史條件集成和修正,通過領(lǐng)域適配功能適配不同行業(yè)數(shù)據(jù)進(jìn)行行業(yè)專用術(shù)語解析。
22、進(jìn)一步可選的,所涉及nlp語義識別引擎支持意圖識別、實(shí)體抽取、上下文理解和領(lǐng)域適配功能,經(jīng)過維度指標(biāo)識別、數(shù)據(jù)表匹配、上下文跟蹤、實(shí)體消歧及安全校驗(yàn)步驟,將用戶自然語言輸入轉(zhuǎn)化為結(jié)構(gòu)化語義表示,驅(qū)動混合式sql生成引擎的查詢邏輯,并為可視化決策提供語義參數(shù),這一過程具體包括:
23、調(diào)用大模型接口對用戶自然語言輸入進(jìn)行意圖識別,精準(zhǔn)提取其中包含的維度、指標(biāo)以及查詢條件,為后續(xù)數(shù)據(jù)查詢提供核心依據(jù);
24、將識別出的維度、指標(biāo)和查詢條件,與向量庫中的訓(xùn)練數(shù)據(jù)集進(jìn)行匹配,篩選出匹配度最高的前n個數(shù)據(jù)表返回,確定數(shù)據(jù)查詢的來源表范圍,為構(gòu)建查詢語句做準(zhǔn)備;
25、采用動態(tài)注意力機(jī)制跟蹤跨輪次對話狀態(tài),通過上下文向量存儲歷史查詢條件、已確認(rèn)實(shí)體及用戶可視化偏好;利用門控機(jī)制實(shí)現(xiàn)上下文動態(tài)更新,當(dāng)用戶新增查詢條件時自動合并,遇到顯式修正指令則刪除對應(yīng)字段,確保在多輪對話中準(zhǔn)確繼承和調(diào)整查詢需求;
26、依托構(gòu)建的業(yè)務(wù)術(shù)語知識圖譜,將用戶表述的指標(biāo)術(shù)語映射到數(shù)據(jù)庫中的具體計算公式,并識別同義詞以擴(kuò)大語義理解范圍;針對存在歧義的實(shí)體,結(jié)合用戶角色或歷史查詢記錄的上下文信息進(jìn)行消解,并通過對話與用戶確認(rèn),確保語義理解的準(zhǔn)確性;
27、在語義解析完成后,進(jìn)行多級校驗(yàn)與安全控制,包括:通過列級血緣分析避免事實(shí)表與維度表的錯誤關(guān)聯(lián),利用業(yè)務(wù)規(guī)則引擎自動補(bǔ)全必要的查詢過濾條件;在安全層面,依據(jù)用戶權(quán)限對敏感字段進(jìn)行動態(tài)脫敏處理,并完整記錄操作日志,便于后續(xù)審計與追溯,最終輸出準(zhǔn)確、安全的結(jié)構(gòu)化語義表示,用于驅(qū)動混合式sql生成引擎的查詢邏輯,并為可視化決策提供語義參數(shù)。
28、進(jìn)一步可選的,所涉及混合式sql生成引擎采用融合深度學(xué)習(xí)模型與規(guī)則引擎的雙階段架構(gòu),通過構(gòu)建訓(xùn)練數(shù)據(jù)集、設(shè)計上下文感知機(jī)制、進(jìn)行列級血緣分析與糾錯、優(yōu)化性能和強(qiáng)化安全校驗(yàn)步驟,基于異構(gòu)數(shù)據(jù)管理引擎的元數(shù)據(jù)與權(quán)限規(guī)則,實(shí)現(xiàn)從nlp語義識別引擎解析的語義表示到sql語句的精準(zhǔn)生成,這一過程具體包括:
29、通過人工標(biāo)注和自動化生成相結(jié)合的方式,構(gòu)建覆蓋多種查詢場景的訓(xùn)練數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集包含自然語言描述、標(biāo)準(zhǔn)sql語句及數(shù)據(jù)庫元數(shù)據(jù);
30、采用“生成-優(yōu)化”兩階段混合架構(gòu):①在生成階段,基于大模型將nlp語義識別引擎輸出的數(shù)據(jù)表、維度和指標(biāo)信息,結(jié)合數(shù)據(jù)表建表語句和表關(guān)聯(lián)關(guān)系,解析自然語言生成候選sql;②在優(yōu)化階段,利用規(guī)則引擎對候選sql進(jìn)行結(jié)構(gòu)優(yōu)化,通過語法樹解析器檢測性能問題并自動重寫,同時集成業(yè)務(wù)規(guī)則安全校驗(yàn),避免不合理操作;
31、在多輪對話中,通過上下文管理器跟蹤歷史過濾條件,自動合并新增查詢條件,處理?xiàng)l件沖突時采用顯式覆蓋策略,同時支持模糊條件補(bǔ)全,根據(jù)業(yè)務(wù)規(guī)則自動完善用戶的模糊查詢意圖,確保查詢條件準(zhǔn)確且完整;
32、構(gòu)建列級血緣知識圖譜,記錄字段來源、關(guān)聯(lián)關(guān)系及業(yè)務(wù)含義;在sql生成過程中實(shí)時校驗(yàn),禁止無關(guān)聯(lián)表直接join、檢測聚合函數(shù)誤用,自動補(bǔ)全預(yù)設(shè)的關(guān)聯(lián)條件,避免多表關(guān)聯(lián)錯誤,保障sql語句的邏輯正確性;
33、將數(shù)據(jù)庫執(zhí)行計劃反饋融入生成階段,通過代價模型預(yù)測執(zhí)行耗時,推薦索引使用,對滿足預(yù)設(shè)條件的查詢進(jìn)行結(jié)果緩存,針對大表查詢自動添加分片策略,實(shí)現(xiàn)性能感知的sql優(yōu)化,提升查詢執(zhí)行效率;
34、在sql生成全流程嵌入安全機(jī)制,檢測并攔截涉及敏感表的非法查詢,根據(jù)用戶角色動態(tài)脫敏,防御sql注入攻擊,記錄完整審計日志,確保數(shù)據(jù)查詢的安全性與合規(guī)性;
35、建立閉環(huán)優(yōu)化機(jī)制,回收執(zhí)行失敗的sql及用戶修正反饋更新訓(xùn)練集,針對不同領(lǐng)域發(fā)布專用規(guī)則包,通過a/b測試評估版本優(yōu)劣,利用知識蒸餾技術(shù)輕量化模型,適配邊緣設(shè)備部署,持續(xù)提升混合式sql生成引擎的適應(yīng)性和性能。
36、進(jìn)一步可選的,所涉及可視化管理控制臺通過固化問數(shù)調(diào)用流程,將大模型配置、訓(xùn)練數(shù)據(jù)集、異構(gòu)數(shù)據(jù)管理引擎的數(shù)據(jù)源信息進(jìn)行參數(shù)化設(shè)置,結(jié)合nlp語義識別結(jié)果與sql生成參數(shù),實(shí)現(xiàn)問數(shù)智能體的可視化快速搭建,這一過程具體包括:
37、固化問數(shù)調(diào)用流程:對問數(shù)智能體調(diào)用的核心流程進(jìn)行標(biāo)準(zhǔn)化和固定化處理,明確從接收用戶自然語言查詢請求到調(diào)用nlp語義識別引擎解析意圖、觸發(fā)混合式sql生成引擎生成查詢語句、通過異構(gòu)數(shù)據(jù)管理引擎對接數(shù)據(jù)源獲取結(jié)果、最終反饋可視化分析結(jié)果的全鏈路操作步驟,形成可復(fù)用的流程框架;
38、參數(shù)化大模型配置:通過可視化界面將大模型相關(guān)配置參數(shù)化,支持選擇模型類型及對應(yīng)版本,配置接口地址、最大生成長度和溫度系數(shù)各項(xiàng)調(diào)用參數(shù);用戶直接修改參數(shù),動態(tài)適配自然語言處理需求,參數(shù)配置結(jié)果同步至nlp語義識別引擎;
39、參數(shù)化訓(xùn)練數(shù)據(jù)集配置:在可視化界面中指定訓(xùn)練數(shù)據(jù)集的來源、格式及范圍,設(shè)置數(shù)據(jù)篩選條件和字段映射關(guān)系,支持從異構(gòu)數(shù)據(jù)管理引擎獲取元數(shù)據(jù)進(jìn)行字段匹配,實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)的靈活管理與調(diào)整;
40、參數(shù)化數(shù)據(jù)源信息配置:在可視化界面中配置數(shù)據(jù)源類型、連接地址、端口、用戶名和密碼各項(xiàng)基礎(chǔ)連接信息,以及數(shù)據(jù)庫模式、表名和字段映射各項(xiàng)定位參數(shù),直接關(guān)聯(lián)異構(gòu)數(shù)據(jù)管理引擎的協(xié)議適配能力,完成數(shù)據(jù)源快速對接與權(quán)限校驗(yàn);
41、可視化構(gòu)建與部署:基于參數(shù)化配置結(jié)果,在可視化界面通過拖拽或勾選的交互方式,將大模型、訓(xùn)練數(shù)據(jù)集、數(shù)據(jù)源要素與nlp語義識別引擎將用戶自然語言輸入轉(zhuǎn)化為結(jié)構(gòu)化語義表示的邏輯規(guī)則、混合式sql生成引擎將nlp語義識別引擎解析的語義表示轉(zhuǎn)換為sql語句的生成策略進(jìn)行組合,一鍵生成問數(shù)智能體,支持自動同步混合式sql生成引擎對生成的候選sql進(jìn)行結(jié)構(gòu)優(yōu)化與安全校驗(yàn)的規(guī)則,完成問數(shù)智能體部署與上線。
42、本發(fā)明的一種基于大語言模型的交互式問數(shù)智能體系統(tǒng),與現(xiàn)有技術(shù)相比具有的有益效果是:
43、本發(fā)明通過多輪對話實(shí)現(xiàn)自然語言到結(jié)構(gòu)化查詢語言sql及數(shù)據(jù)服務(wù)接口的智能轉(zhuǎn)換,并自動生成交互式數(shù)據(jù)可視化結(jié)果,解決了傳統(tǒng)bi工具技術(shù)門檻高、無法快速相應(yīng)需求變化、交互方式單一、數(shù)據(jù)可視化與查詢流程割裂等問題。