国产真实乱全部视频,黄色片视频在线免费观看,密臀av一区二区三区,av黄色一级,中文字幕.com,日本a级网站,在线视频观看91

大模型訓練數(shù)據增強方法與流程

文檔序號:42327292發(fā)布日期:2025-07-01 19:47閱讀:29來源:國知局

本申請涉及數(shù)據增強領域,且更為具體地,涉及一種大模型訓練數(shù)據增強方法。


背景技術:

1、隨著人工智能技術的快速發(fā)展,大模型(如大規(guī)模預訓練語言模型、視覺模型等)在各類任務中展現(xiàn)出卓越的性能。然而,這些大模型的訓練通常依賴于海量且高質量的訓練數(shù)據。由于真實世界中高質量標注數(shù)據獲取成本高昂,且樣本分布可能存在偏差,如何通過數(shù)據增強手段擴充和豐富訓練集,提升模型泛化能力和魯棒性,成為當前大模型訓練領域亟需解決的重要問題。因此,構建有效的大模型訓練數(shù)據增強方案,對于緩解數(shù)據稀缺、提升大模型性能具有重要意義。

2、目前,在大模型領域已有部分針對數(shù)據增強的探索。例如,通過回譯、同義替換、混合樣本等傳統(tǒng)方法進行文本或圖像的數(shù)據擴展;或者利用生成式ai對原始樣本進行改寫與擴充。這些方法雖然能夠一定程度上增加樣本多樣性,但往往存在如下不足:一方面,傳統(tǒng)的數(shù)據增強方式較為簡單,難以充分挖掘和保持原始語義結構;另一方面,即便采用生成式ai輔助生成新樣本,也容易出現(xiàn)語義漂移——即新生成的數(shù)據與原始任務需求之間產生了不可控的語義偏離,從而影響后續(xù)大模型的學習效果。此外,目前缺乏對增強后樣本與原始語料之間關系進行顯性建模和量化評估的方法,使得難以自動篩選出真正有助于提升模型能力的新樣本。

3、因此,期待一種優(yōu)化的大模型訓練數(shù)據增強方法。


技術實現(xiàn)思路

1、為了解決上述技術問題,提出了本申請。本申請的實施例提供了一種大模型訓練數(shù)據增強方法,其首先以原始訓練樣本為基礎,通過隨機挑選樣本并利用大模型生成新的訓練樣本,在此基礎上,引入結構化編碼機制,將原始與生成樣本轉化為結構化編碼向量,并對生成樣本與原始樣本之間的語義關系進行建模和量化,以獲得反映兩者語義差異程度的查詢響應表征;進而,通過特征解碼得到語義漂移度估值,并基于該估值與預設閾值之間的比較,實現(xiàn)對生成數(shù)據是否合格的自動判別。通過這樣的方式,實現(xiàn)了對新舊訓練數(shù)據之間的語義一致性的精準評估,有效避免了因語義漂移導致的新數(shù)據偏離任務目標的問題,從而篩選出真正有助于提升模型泛化能力和魯棒性的高質量增強樣本。

2、根據本申請的一個方面,提供了一種大模型訓練數(shù)據增強方法,其包括:

3、獲取原始訓練樣本數(shù)據的集合;

4、從原始訓練樣本數(shù)據的集合隨機挑選一個原始訓練樣本數(shù)據作為增強樣本素材數(shù)據;

5、將增強樣本素材數(shù)據輸入基于大模型的數(shù)據增強引擎以得到生成訓練樣本數(shù)據;

6、對原始訓練樣本數(shù)據的集合和生成訓練樣本數(shù)據進行訓練樣本語義漂移查詢響應分析以得到生成訓練樣本語義漂移查詢響應編碼向量作為生成訓練樣本語義偏移度量表征;

7、基于生成訓練樣本語義偏移度量表征,確定是否將生成訓練樣本數(shù)據視為合格訓練樣本數(shù)據。

8、與現(xiàn)有技術相比,本申請?zhí)峁┑囊环N大模型訓練數(shù)據增強方法,其首先以原始訓練樣本為基礎,通過隨機挑選樣本并利用大模型生成新的訓練樣本,在此基礎上,引入結構化編碼機制,將原始與生成樣本轉化為結構化編碼向量,并對生成樣本與原始樣本之間的語義關系進行建模和量化,以獲得反映兩者語義差異程度的查詢響應表征;進而,通過特征解碼得到語義漂移度估值,并基于該估值與預設閾值之間的比較,實現(xiàn)對生成數(shù)據是否合格的自動判別。通過這樣的方式,實現(xiàn)了對新舊訓練數(shù)據之間的語義一致性的精準評估,有效避免了因語義漂移導致的新數(shù)據偏離任務目標的問題,從而篩選出真正有助于提升模型泛化能力和魯棒性的高質量增強樣本。



技術特征:

1.一種大模型訓練數(shù)據增強方法,其特征在于,包括:

2.根據權利要求1所述的大模型訓練數(shù)據增強方法,其特征在于,對原始訓練樣本數(shù)據的集合和生成訓練樣本數(shù)據進行訓練樣本語義漂移查詢響應分析以得到生成訓練樣本語義漂移查詢響應編碼向量作為生成訓練樣本語義偏移度量表征,包括:

3.根據權利要求2所述的大模型訓練數(shù)據增強方法,其特征在于,對原始訓練樣本數(shù)據的集合和生成訓練樣本數(shù)據進行結構化編碼以得到原始訓練樣本結構化編碼向量的集合和生成訓練樣本結構化編碼向量,包括:

4.根據權利要求3所述的大模型訓練數(shù)據增強方法,其特征在于,將查詢向量和原始訓練樣本結構化編碼向量的集合輸入語義漂移顯性建模網絡以得到生成訓練樣本語義漂移查詢響應編碼向量,包括:

5.根據權利要求4所述的大模型訓練數(shù)據增強方法,其特征在于,對原始訓練樣本特征濃縮編碼向量的集合進行基于門控機制的圖結構編碼以得到原始訓練樣本特征仿圖譜編碼矩陣,包括:

6.根據權利要求5所述的大模型訓練數(shù)據增強方法,其特征在于,將查詢向量和原始訓練樣本特征仿圖譜編碼矩陣輸入特征查詢響應引擎以得到生成訓練樣本語義漂移查詢響應編碼向量,包括:

7.根據權利要求1所述的大模型訓練數(shù)據增強方法,其特征在于,基于生成訓練樣本語義偏移度量表征,確定是否將生成訓練樣本數(shù)據視為合格訓練樣本數(shù)據,包括:

8.根據權利要求7所述的大模型訓練數(shù)據增強方法,其特征在于,對生成訓練樣本語義漂移查詢響應編碼向量進行特征解碼以得到語義漂移度的估計值,包括:


技術總結
本申請公開了一種大模型訓練數(shù)據增強方法,其首先以原始訓練樣本為基礎,通過隨機挑選樣本并利用大模型生成新的訓練樣本,在此基礎上,引入結構化編碼機制,將原始與生成樣本轉化為結構化編碼向量,并對生成樣本與原始樣本之間的語義關系進行建模和量化,以獲得反映兩者語義差異程度的查詢響應表征;進而,通過特征解碼得到語義漂移度估值,并基于該估值與預設閾值之間的比較,實現(xiàn)對生成數(shù)據是否合格的自動判別。通過這樣的方式,實現(xiàn)了對新舊訓練數(shù)據之間的語義一致性的精準評估,有效避免了因語義漂移導致的新數(shù)據偏離任務目標的問題,從而篩選出真正有助于提升模型泛化能力和魯棒性的高質量增強樣本。

技術研發(fā)人員:齊紅威,何鴻凌,豐強澤,王大亮,高禹,鄭繼龍
受保護的技術使用者:數(shù)據堂(北京)科技股份有限公司
技術研發(fā)日:
技術公布日:2025/6/30
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1