本發(fā)明屬于強(qiáng)化學(xué)習(xí)訓(xùn)練方法,具體為一種基于“規(guī)則-智能”雙策略庫和模糊邏輯的智能對手選擇訓(xùn)練框架。
背景技術(shù):
1、在空中博弈游戲等高動(dòng)態(tài)、不確定性強(qiáng)的對抗環(huán)境中,強(qiáng)化學(xué)習(xí)的核心挑戰(zhàn)之一是如何設(shè)計(jì)合理的訓(xùn)練機(jī)制,使智能體既能穩(wěn)定收斂,又具備在復(fù)雜環(huán)境中對抗未知對手的能力。在訓(xùn)練過程中,對手的選擇是影響智能體學(xué)習(xí)效果的關(guān)鍵因素之一。合適的對手不僅能夠提供有效的訓(xùn)練信號,促進(jìn)智能體策略的優(yōu)化,還能影響其探索效率和泛化能力。
2、現(xiàn)有研究主要采用三類強(qiáng)化學(xué)習(xí)訓(xùn)練方法。第一類方法使用基于規(guī)則的對手策略,如固定規(guī)則或?qū)<以O(shè)計(jì)的對手策略,以提供穩(wěn)定的訓(xùn)練環(huán)境,但這類方法的泛化能力較差,難以應(yīng)對動(dòng)態(tài)變化的對手。第二類方法基于自博弈及其改進(jìn)形式,通過與歷史智能策略對抗提升智能體的對抗能力,然而,該方法通常存在探索效率低、訓(xùn)練不穩(wěn)定的問題,影響最終的決策能力。第三類方法采用課程學(xué)習(xí),通過逐步提升對手的難度引導(dǎo)智能體學(xué)習(xí),雖然能提高訓(xùn)練效率,但缺乏動(dòng)態(tài)適應(yīng)能力,難以根據(jù)智能體的實(shí)際訓(xùn)練狀態(tài)進(jìn)行調(diào)整。這些方法各有優(yōu)劣,但都面臨一定的局限性。
3、綜上所述,對于智能體在復(fù)雜博弈游戲中的泛化能力的研究越來越受重視,強(qiáng)化學(xué)習(xí)智能體在博弈場景下進(jìn)行訓(xùn)練時(shí),通常面臨著對手策略不合適導(dǎo)致泛化能力不足、訓(xùn)練過程不穩(wěn)定等問題。因此,提出一種能夠進(jìn)行智能對手選擇的強(qiáng)化學(xué)習(xí)訓(xùn)練框架,從而在不同的訓(xùn)練階段提供不同水平和風(fēng)格的對手,以提升智能體的泛化能力和對抗性能,是十分必要的。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于“規(guī)則-智能”雙策略庫和模糊邏輯的智能對手選擇訓(xùn)練框架,該訓(xùn)練框架是一種強(qiáng)化學(xué)習(xí)訓(xùn)練方法,特別是針對復(fù)雜博弈場景的訓(xùn)練方法。本發(fā)明引入了一種智能對手選擇訓(xùn)練框架,并引入“規(guī)則-智能”雙策略庫和基于模糊邏輯的策略庫切換方法,可以提升訓(xùn)練穩(wěn)定性和策略泛化能力。
2、為了解決上述問題,本發(fā)明采用的技術(shù)方案是:一種基于“規(guī)則-智能”雙策略庫和模糊邏輯的智能對手選擇訓(xùn)練框架,所述訓(xùn)練框架包括:
3、s1、基于規(guī)則的策略將專家經(jīng)驗(yàn)與行為樹相結(jié)合,建立基于規(guī)則的對手策略庫,即規(guī)則對手策略庫,為博弈場景下強(qiáng)化學(xué)習(xí)的訓(xùn)練提供穩(wěn)定可靠的對手;
4、s2、建立通過與規(guī)則策略交互生成的智能對手策略庫,智能對手策略庫通過對歷史訓(xùn)練過程中的智能體模型進(jìn)行篩選與排序得到,最終提供更多新穎且不可預(yù)測的對手,有效提升了對手策略的多樣性和靈活性;
5、s3、在固定次數(shù)的訓(xùn)練迭代中,根據(jù)決策結(jié)果從對手策略庫中選擇對手;
6、s4、進(jìn)行一次評估,即令最新的智能體模型與固定的高水平規(guī)則策略進(jìn)行博弈;
7、s5、對于當(dāng)前評估的模型性能和實(shí)時(shí)訓(xùn)練結(jié)果,選取能夠代表二者的指標(biāo)作為模糊綜合評價(jià)模型的因素集;
8、s6、首先構(gòu)建模糊綜合評價(jià)模型,使用模糊綜合評價(jià)模型來決定是否切換對手策略庫,并根據(jù)該次結(jié)果選擇接下來固定次數(shù)的訓(xùn)練迭代中使用的對手策略庫。
9、本發(fā)明所述步驟s1,基于專家經(jīng)驗(yàn)構(gòu)建純規(guī)則的攻擊策略與防御策略;通過將行為樹與純規(guī)則結(jié)合,構(gòu)建更加靈活復(fù)雜的行為樹策略。
10、本發(fā)明所述步驟s2,從規(guī)則對手策略庫中隨機(jī)選擇對手進(jìn)行訓(xùn)練,定期保存智能體模型;測試智能體模型的對抗表現(xiàn),剔除不穩(wěn)定或偏離人類認(rèn)知的模型;根據(jù)勝負(fù)結(jié)果將智能策略模型分為低、中、高三個(gè)等級,并從每個(gè)等級中均衡選取模型加入。
11、本發(fā)明所述步驟s3,在接下來固定次數(shù)的訓(xùn)練中,從對手策略庫中選取對手;若選擇了規(guī)則對手策略庫,則采用均勻分布隨機(jī)選擇機(jī)制;若選擇了智能對手策略庫,則采用優(yōu)先虛擬自博弈機(jī)制進(jìn)行對手匹配。
12、本發(fā)明所述步驟s4,令最新的智能體模型與固定的高水平規(guī)則策略博弈,并進(jìn)行一次評估。
13、本發(fā)明所述步驟s5,選取最新智能策略模型的評估獎(jiǎng)勵(lì),衡量其對抗高水平規(guī)則策略的勝負(fù)情況;計(jì)算當(dāng)前評估獎(jiǎng)勵(lì)與上一輪評估獎(jiǎng)勵(lì)的差值,衡量訓(xùn)練狀態(tài)。
14、本發(fā)明所述步驟s6,構(gòu)建模糊綜合評價(jià)模型具體方法為:引入各個(gè)評估因子的隸屬度函數(shù);依據(jù)隸屬度函數(shù)構(gòu)造模糊評價(jià)矩陣;計(jì)算模糊向量,得到選擇規(guī)則對手策略庫和智能對手策略庫的概率,從而做出最終的對手策略庫切換決策。
15、采用上述技術(shù)方案產(chǎn)生的有益效果在于:本發(fā)明引入了一種智能對手選擇訓(xùn)練框架,以系統(tǒng)性提升智能體策略的泛化能力和博弈水平。首先,通過構(gòu)建“規(guī)則-智能”雙策略庫,使智能體在訓(xùn)練初期能夠依托規(guī)則對手學(xué)習(xí)基礎(chǔ)策略和技能,在訓(xùn)練后期逐步適應(yīng)多樣化智能對手,從而增強(qiáng)其泛化能力與適應(yīng)性。此外,本發(fā)明采用基于模糊邏輯的對手策略庫切換方法,使智能體在不同訓(xùn)練階段能夠動(dòng)態(tài)匹配不同水平和風(fēng)格的對手,以促進(jìn)策略的持續(xù)優(yōu)化與進(jìn)化。實(shí)驗(yàn)結(jié)果驗(yàn)證了本方法在提升智能體泛化能力和博弈表現(xiàn)方面的顯著優(yōu)勢,表明其在復(fù)雜博弈環(huán)境中的廣泛適用性和實(shí)際價(jià)值。
1.一種基于“規(guī)則-智能”雙策略庫和模糊邏輯的智能對手選擇訓(xùn)練框架,其特征在于,所述訓(xùn)練框架包括:
2.根據(jù)權(quán)利要求1所述的一種基于“規(guī)則-智能”雙策略庫和模糊邏輯的智能對手選擇訓(xùn)練框架,其特征在于,所述步驟s1,基于專家經(jīng)驗(yàn)構(gòu)建純規(guī)則的攻擊策略與防御策略;通過將行為樹與純規(guī)則結(jié)合,構(gòu)建更加靈活復(fù)雜的行為樹策略。
3.權(quán)利要求1所述的一種基于“規(guī)則-智能”雙策略庫和模糊邏輯的智能對手選擇訓(xùn)練框架,其特征在于,所述步驟s2,從規(guī)則對手策略庫中隨機(jī)選擇對手進(jìn)行訓(xùn)練,定期保存智能體模型;測試智能體模型的對抗表現(xiàn),剔除不穩(wěn)定或偏離人類認(rèn)知的模型;根據(jù)勝負(fù)結(jié)果將智能策略模型分為低、中、高三個(gè)等級,并從每個(gè)等級中均衡選取模型加入。
4.根據(jù)權(quán)利要求1所述的一種基于“規(guī)則-智能”雙策略庫和模糊邏輯的智能對手選擇訓(xùn)練框架,其特征在于,所述步驟s3,在接下來固定次數(shù)的訓(xùn)練中,從對手策略庫中選取對手;若選擇了規(guī)則對手策略庫,則采用均勻分布隨機(jī)選擇機(jī)制;若選擇了智能對手策略庫,則采用優(yōu)先虛擬自博弈機(jī)制進(jìn)行對手匹配。
5.根據(jù)權(quán)利要求1-4任意一項(xiàng)所述的一種基于“規(guī)則-智能”雙策略庫和模糊邏輯的智能對手選擇訓(xùn)練框架,其特征在于,所述步驟s4,令最新的智能體模型與固定的高水平規(guī)則策略博弈,并進(jìn)行一次評估。
6.根據(jù)權(quán)利要求1-4任意一項(xiàng)所述的一種基于“規(guī)則-智能”雙策略庫和模糊邏輯的智能對手選擇訓(xùn)練框架,其特征在于,所述步驟s5,選取最新智能策略模型的評估獎(jiǎng)勵(lì),衡量其對抗高水平規(guī)則策略的勝負(fù)情況;計(jì)算當(dāng)前評估獎(jiǎng)勵(lì)與上一輪評估獎(jiǎng)勵(lì)的差值,衡量訓(xùn)練狀態(tài)。
7.根據(jù)權(quán)利要求1-4任意一項(xiàng)所述的一種基于“規(guī)則-智能”雙策略庫和模糊邏輯的智能對手選擇訓(xùn)練框架,其特征在于,所述步驟s6,構(gòu)建模糊綜合評價(jià)模型具體方法為:引入各個(gè)評估因子的隸屬度函數(shù);依據(jù)隸屬度函數(shù)構(gòu)造模糊評價(jià)矩陣;計(jì)算模糊向量,得到選擇規(guī)則對手策略庫和智能對手策略庫的概率,從而做出最終的對手策略庫切換決策。