本申請(qǐng)涉及機(jī)器人路徑規(guī)劃,具體而言,涉及一種基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法及裝置。
背景技術(shù):
1、路徑規(guī)劃技術(shù)是指移動(dòng)機(jī)器人依據(jù)某個(gè)或某些優(yōu)化準(zhǔn)則,在其工作環(huán)境中找到一條從起始狀態(tài)到目標(biāo)狀態(tài)、能避開(kāi)障礙物的最優(yōu)路徑。
2、目前,多數(shù)路徑規(guī)劃算法可在簡(jiǎn)單且己知的環(huán)境下較快地規(guī)劃出路徑軌跡,但在復(fù)雜和未知的環(huán)境工作時(shí),探索能力較差、算法收斂時(shí)間較慢、環(huán)境適應(yīng)性較低,導(dǎo)致移動(dòng)機(jī)器人無(wú)法有效規(guī)劃出較優(yōu)路徑。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有的路徑規(guī)劃算法在復(fù)雜動(dòng)態(tài)環(huán)境中算法收斂時(shí)間較慢,路徑規(guī)劃策略性能較差等問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法及裝置。
2、本申請(qǐng)的實(shí)施例是這樣實(shí)現(xiàn)的:
3、第一方面,本申請(qǐng)?zhí)峁┮环N基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,包括:
4、通過(guò)多傳感器融合感知環(huán)境,獲取環(huán)境信息及移動(dòng)機(jī)器人狀態(tài)信息;
5、根據(jù)所述環(huán)境信息和狀態(tài)信息,根據(jù)改進(jìn)的dqn算法獲得的最優(yōu)策略得到當(dāng)前移動(dòng)機(jī)器人的期望動(dòng)作,所述改進(jìn)的dqn算法中引入了sigmoid函數(shù)及transformer模型;
6、按照當(dāng)前期望動(dòng)作,控制移動(dòng)機(jī)器人的運(yùn)動(dòng)。
7、在一種可能的實(shí)現(xiàn)方式中,所述通過(guò)多傳感器融合感知環(huán)境,獲取環(huán)境信息及移動(dòng)機(jī)器人狀態(tài)信息,進(jìn)一步包括:
8、在動(dòng)態(tài)環(huán)境中通過(guò)相機(jī)傳感器和單線激光雷達(dá)傳感器,獲取環(huán)境信息和當(dāng)前移動(dòng)機(jī)器人的狀態(tài)信息。
9、在一種可能的實(shí)現(xiàn)方式中,所述環(huán)境信息包括障礙物信息以及目標(biāo)點(diǎn)位置信息,所述移動(dòng)機(jī)器人的狀態(tài)信息包括移動(dòng)機(jī)器人在t時(shí)刻的線速度和角速度,以及移動(dòng)機(jī)器人相對(duì)于目標(biāo)點(diǎn)的距離和角度。
10、在一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述環(huán)境信息和狀態(tài)信息,根據(jù)dqn算法獲得的最優(yōu)策略得到當(dāng)前移動(dòng)機(jī)器人的期望動(dòng)作,進(jìn)一步包括:
11、將當(dāng)前狀態(tài)信息輸入至dqn模型,獲取動(dòng)作集中所有動(dòng)作對(duì)應(yīng)的q值;
12、選取最大的q值所對(duì)應(yīng)的動(dòng)作作為移動(dòng)機(jī)器人的當(dāng)前期望動(dòng)作。
13、6.在一種可能的實(shí)現(xiàn)方式中,所述dqn模型的訓(xùn)練過(guò)程包括:
14、a.初始化估計(jì)q網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù),初始化學(xué)習(xí)率、折扣因子及貪婪因子超參數(shù),經(jīng)驗(yàn)回放池;
15、b.根據(jù)移動(dòng)機(jī)器人歷史數(shù)據(jù)中t時(shí)刻的狀態(tài),根據(jù)貪婪因子以一定的概率選擇并執(zhí)行動(dòng)作,得到移動(dòng)后的狀態(tài),即t+1時(shí)刻的狀態(tài),同時(shí)計(jì)算執(zhí)行該動(dòng)作所獲取的即時(shí)獎(jiǎng)勵(lì)值,所述即時(shí)獎(jiǎng)勵(lì)值通過(guò)獎(jiǎng)勵(lì)函數(shù)進(jìn)行評(píng)估,所述獎(jiǎng)勵(lì)函數(shù)為:
16、r=w1rgoal+w2robstacle+w3rsmooth,
17、其中,rgoal為目標(biāo)獎(jiǎng)勵(lì),鼓勵(lì)移動(dòng)機(jī)器人接近目標(biāo);robstacle為碰撞懲罰,懲罰接近或碰撞障礙物的行為;rsmooth為路徑平滑性獎(jiǎng)勵(lì),鼓勵(lì)移動(dòng)機(jī)器人平穩(wěn)移動(dòng),減少急轉(zhuǎn)彎或抖動(dòng);w1,w2,w3為各個(gè)獎(jiǎng)勵(lì)的權(quán)重系數(shù),以平衡安全性、效率和平滑性;
18、c.將運(yùn)動(dòng)數(shù)據(jù)存儲(chǔ)到經(jīng)驗(yàn)回放池中,再?gòu)慕?jīng)驗(yàn)回放池中抽取批量樣本;
19、d.根據(jù)從經(jīng)驗(yàn)池中抽取的樣本,使用目標(biāo)網(wǎng)絡(luò)計(jì)算目標(biāo)q值,使用估計(jì)網(wǎng)絡(luò)計(jì)算估計(jì)q值,計(jì)算損失函數(shù);
20、e.重復(fù)b-d的過(guò)程,直至dqn模型收斂。
21、在一種可能的實(shí)現(xiàn)方式中,所述按照當(dāng)前期望動(dòng)作,控制移動(dòng)機(jī)器人的運(yùn)動(dòng),進(jìn)一步包括:
22、使用訓(xùn)練好的dqn模型,獲取移動(dòng)機(jī)器人當(dāng)前期望動(dòng)作,將其轉(zhuǎn)換為控制指令;
23、通過(guò)線速度和角速度控制移動(dòng)機(jī)器人運(yùn)動(dòng)。
24、在一種可能的實(shí)現(xiàn)方式中,在所述步驟b中,引入sigmoid函數(shù)對(duì)epsilon衰減方式進(jìn)行改進(jìn),可以通過(guò)調(diào)整參數(shù)靈活控制epsilon的衰減速度。
25、在一種可能的實(shí)現(xiàn)方式中,在所述步驟c中,在經(jīng)驗(yàn)回放機(jī)制中引入transformer模型,可以更好地建模經(jīng)驗(yàn)之間的關(guān)系,提高學(xué)習(xí)效率和模型穩(wěn)定性。
26、在一種可能的實(shí)現(xiàn)方式中,對(duì)訓(xùn)練的前一百回合的限制條件進(jìn)行更改,在訓(xùn)練初期,只有當(dāng)智能體探索達(dá)到最大步數(shù)時(shí),才結(jié)束當(dāng)前回合進(jìn)入下一回合,在訓(xùn)練后期,則以較小的貪婪因子穩(wěn)定地學(xué)習(xí)經(jīng)驗(yàn)樣本。
27、第二方面,本申請(qǐng)?zhí)峁┮环N基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航裝置,包括:
28、信息獲取模塊,用于通過(guò)多傳感器融合感知環(huán)境,獲取環(huán)境信息及移動(dòng)機(jī)器人狀態(tài)信息;
29、避障決策模塊,用于根據(jù)所述環(huán)境信息和狀態(tài)信息,根據(jù)改進(jìn)的dqn算法獲得的最優(yōu)策略得到當(dāng)前移動(dòng)機(jī)器人的期望動(dòng)作,所述改進(jìn)的dqn算法中引入了sigmoid函數(shù)及transformer模型;
30、規(guī)劃實(shí)現(xiàn)模塊,用于按照當(dāng)前期望動(dòng)作,控制移動(dòng)機(jī)器人的運(yùn)動(dòng)。
31、本申請(qǐng)?zhí)峁┑募夹g(shù)方案至少可以達(dá)到以下有益效果:
32、本申請(qǐng)?zhí)峁┑囊环N基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法及裝置,通過(guò)采用多傳感器融合感知環(huán)境,得到環(huán)境信息和障礙物信息;然后,采用改進(jìn)的dqn算法來(lái)得到最優(yōu)策略,尋找到最優(yōu)路徑;最后,根據(jù)得到策略轉(zhuǎn)換為控制指令,以實(shí)現(xiàn)移動(dòng)機(jī)器人在動(dòng)態(tài)環(huán)境中自主導(dǎo)航的目的。
33、針對(duì)單傳感器對(duì)環(huán)境感知的存在限制導(dǎo)致感知精確度低和識(shí)別不穩(wěn)定的問(wèn)題,提出多傳感器融合感知環(huán)境,將單線激光雷達(dá)傳感器和相機(jī)得到的環(huán)境信息融合,增強(qiáng)移動(dòng)機(jī)器人對(duì)環(huán)境的感知精度和穩(wěn)定性,針對(duì)dqn算法中對(duì)經(jīng)驗(yàn)回放池均勻采樣學(xué)習(xí),導(dǎo)致樣本利用率低學(xué)習(xí)效率低的問(wèn)題,引入transformer模型,考慮經(jīng)驗(yàn)序列之間的時(shí)間和空間關(guān)聯(lián)性,使得高質(zhì)量經(jīng)驗(yàn)樣本能夠得到更好的利用,提高dqn的學(xué)習(xí)效率。
1.一種基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,所述通過(guò)多傳感器融合感知環(huán)境,獲取環(huán)境信息及移動(dòng)機(jī)器人狀態(tài)信息,進(jìn)一步包括:
3.如權(quán)利要求2所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,所述環(huán)境信息包括障礙物信息以及目標(biāo)點(diǎn)位置信息,所述移動(dòng)機(jī)器人的狀態(tài)信息包括移動(dòng)機(jī)器人在t時(shí)刻的線速度和角速度,以及移動(dòng)機(jī)器人相對(duì)于目標(biāo)點(diǎn)的距離和角度。
4.如權(quán)利要求1所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,所述根據(jù)所述環(huán)境信息和狀態(tài)信息,根據(jù)dqn算法獲得的最優(yōu)策略得到當(dāng)前移動(dòng)機(jī)器人的期望動(dòng)作,進(jìn)一步包括:
5.如權(quán)利要求4所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,所述dqn模型的訓(xùn)練過(guò)程包括:
6.如權(quán)利要求1所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,所述按照當(dāng)前期望動(dòng)作,控制移動(dòng)機(jī)器人的運(yùn)動(dòng),進(jìn)一步包括:
7.如權(quán)利要求5所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,在所述步驟b中,引入sigmoid函數(shù)對(duì)epsilon衰減方式進(jìn)行改進(jìn),可以通過(guò)調(diào)整參數(shù)靈活控制epsilon的衰減速度。
8.如權(quán)利要求5所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,在所述步驟c中,在經(jīng)驗(yàn)回放機(jī)制中引入transformer模型,可以更好地建模經(jīng)驗(yàn)之間的關(guān)系,提高學(xué)習(xí)效率和模型穩(wěn)定性。
9.如權(quán)利要求5所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,對(duì)訓(xùn)練的前一百回合的限制條件進(jìn)行更改,在訓(xùn)練初期,只有當(dāng)智能體探索達(dá)到最大步數(shù)時(shí),才結(jié)束當(dāng)前回合進(jìn)入下一回合,在訓(xùn)練后期,則以較小的貪婪因子穩(wěn)定地學(xué)習(xí)經(jīng)驗(yàn)樣本。
10.一種基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航裝置,應(yīng)用于權(quán)利要求1-9任一所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,包括: