国产真实乱全部视频,黄色片视频在线免费观看,密臀av一区二区三区,av黄色一级,中文字幕.com,日本a级网站,在线视频观看91

一種基于Transformer-DQN的移動(dòng)機(jī)器人的導(dǎo)航方法及裝置

文檔序號(hào):42267229發(fā)布日期:2025-06-27 18:01閱讀:4來(lái)源:國(guó)知局

本申請(qǐng)涉及機(jī)器人路徑規(guī)劃,具體而言,涉及一種基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法及裝置。


背景技術(shù):

1、路徑規(guī)劃技術(shù)是指移動(dòng)機(jī)器人依據(jù)某個(gè)或某些優(yōu)化準(zhǔn)則,在其工作環(huán)境中找到一條從起始狀態(tài)到目標(biāo)狀態(tài)、能避開(kāi)障礙物的最優(yōu)路徑。

2、目前,多數(shù)路徑規(guī)劃算法可在簡(jiǎn)單且己知的環(huán)境下較快地規(guī)劃出路徑軌跡,但在復(fù)雜和未知的環(huán)境工作時(shí),探索能力較差、算法收斂時(shí)間較慢、環(huán)境適應(yīng)性較低,導(dǎo)致移動(dòng)機(jī)器人無(wú)法有效規(guī)劃出較優(yōu)路徑。


技術(shù)實(shí)現(xiàn)思路

1、為了解決現(xiàn)有的路徑規(guī)劃算法在復(fù)雜動(dòng)態(tài)環(huán)境中算法收斂時(shí)間較慢,路徑規(guī)劃策略性能較差等問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法及裝置。

2、本申請(qǐng)的實(shí)施例是這樣實(shí)現(xiàn)的:

3、第一方面,本申請(qǐng)?zhí)峁┮环N基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,包括:

4、通過(guò)多傳感器融合感知環(huán)境,獲取環(huán)境信息及移動(dòng)機(jī)器人狀態(tài)信息;

5、根據(jù)所述環(huán)境信息和狀態(tài)信息,根據(jù)改進(jìn)的dqn算法獲得的最優(yōu)策略得到當(dāng)前移動(dòng)機(jī)器人的期望動(dòng)作,所述改進(jìn)的dqn算法中引入了sigmoid函數(shù)及transformer模型;

6、按照當(dāng)前期望動(dòng)作,控制移動(dòng)機(jī)器人的運(yùn)動(dòng)。

7、在一種可能的實(shí)現(xiàn)方式中,所述通過(guò)多傳感器融合感知環(huán)境,獲取環(huán)境信息及移動(dòng)機(jī)器人狀態(tài)信息,進(jìn)一步包括:

8、在動(dòng)態(tài)環(huán)境中通過(guò)相機(jī)傳感器和單線激光雷達(dá)傳感器,獲取環(huán)境信息和當(dāng)前移動(dòng)機(jī)器人的狀態(tài)信息。

9、在一種可能的實(shí)現(xiàn)方式中,所述環(huán)境信息包括障礙物信息以及目標(biāo)點(diǎn)位置信息,所述移動(dòng)機(jī)器人的狀態(tài)信息包括移動(dòng)機(jī)器人在t時(shí)刻的線速度和角速度,以及移動(dòng)機(jī)器人相對(duì)于目標(biāo)點(diǎn)的距離和角度。

10、在一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述環(huán)境信息和狀態(tài)信息,根據(jù)dqn算法獲得的最優(yōu)策略得到當(dāng)前移動(dòng)機(jī)器人的期望動(dòng)作,進(jìn)一步包括:

11、將當(dāng)前狀態(tài)信息輸入至dqn模型,獲取動(dòng)作集中所有動(dòng)作對(duì)應(yīng)的q值;

12、選取最大的q值所對(duì)應(yīng)的動(dòng)作作為移動(dòng)機(jī)器人的當(dāng)前期望動(dòng)作。

13、6.在一種可能的實(shí)現(xiàn)方式中,所述dqn模型的訓(xùn)練過(guò)程包括:

14、a.初始化估計(jì)q網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù),初始化學(xué)習(xí)率、折扣因子及貪婪因子超參數(shù),經(jīng)驗(yàn)回放池;

15、b.根據(jù)移動(dòng)機(jī)器人歷史數(shù)據(jù)中t時(shí)刻的狀態(tài),根據(jù)貪婪因子以一定的概率選擇并執(zhí)行動(dòng)作,得到移動(dòng)后的狀態(tài),即t+1時(shí)刻的狀態(tài),同時(shí)計(jì)算執(zhí)行該動(dòng)作所獲取的即時(shí)獎(jiǎng)勵(lì)值,所述即時(shí)獎(jiǎng)勵(lì)值通過(guò)獎(jiǎng)勵(lì)函數(shù)進(jìn)行評(píng)估,所述獎(jiǎng)勵(lì)函數(shù)為:

16、r=w1rgoal+w2robstacle+w3rsmooth,

17、其中,rgoal為目標(biāo)獎(jiǎng)勵(lì),鼓勵(lì)移動(dòng)機(jī)器人接近目標(biāo);robstacle為碰撞懲罰,懲罰接近或碰撞障礙物的行為;rsmooth為路徑平滑性獎(jiǎng)勵(lì),鼓勵(lì)移動(dòng)機(jī)器人平穩(wěn)移動(dòng),減少急轉(zhuǎn)彎或抖動(dòng);w1,w2,w3為各個(gè)獎(jiǎng)勵(lì)的權(quán)重系數(shù),以平衡安全性、效率和平滑性;

18、c.將運(yùn)動(dòng)數(shù)據(jù)存儲(chǔ)到經(jīng)驗(yàn)回放池中,再?gòu)慕?jīng)驗(yàn)回放池中抽取批量樣本;

19、d.根據(jù)從經(jīng)驗(yàn)池中抽取的樣本,使用目標(biāo)網(wǎng)絡(luò)計(jì)算目標(biāo)q值,使用估計(jì)網(wǎng)絡(luò)計(jì)算估計(jì)q值,計(jì)算損失函數(shù);

20、e.重復(fù)b-d的過(guò)程,直至dqn模型收斂。

21、在一種可能的實(shí)現(xiàn)方式中,所述按照當(dāng)前期望動(dòng)作,控制移動(dòng)機(jī)器人的運(yùn)動(dòng),進(jìn)一步包括:

22、使用訓(xùn)練好的dqn模型,獲取移動(dòng)機(jī)器人當(dāng)前期望動(dòng)作,將其轉(zhuǎn)換為控制指令;

23、通過(guò)線速度和角速度控制移動(dòng)機(jī)器人運(yùn)動(dòng)。

24、在一種可能的實(shí)現(xiàn)方式中,在所述步驟b中,引入sigmoid函數(shù)對(duì)epsilon衰減方式進(jìn)行改進(jìn),可以通過(guò)調(diào)整參數(shù)靈活控制epsilon的衰減速度。

25、在一種可能的實(shí)現(xiàn)方式中,在所述步驟c中,在經(jīng)驗(yàn)回放機(jī)制中引入transformer模型,可以更好地建模經(jīng)驗(yàn)之間的關(guān)系,提高學(xué)習(xí)效率和模型穩(wěn)定性。

26、在一種可能的實(shí)現(xiàn)方式中,對(duì)訓(xùn)練的前一百回合的限制條件進(jìn)行更改,在訓(xùn)練初期,只有當(dāng)智能體探索達(dá)到最大步數(shù)時(shí),才結(jié)束當(dāng)前回合進(jìn)入下一回合,在訓(xùn)練后期,則以較小的貪婪因子穩(wěn)定地學(xué)習(xí)經(jīng)驗(yàn)樣本。

27、第二方面,本申請(qǐng)?zhí)峁┮环N基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航裝置,包括:

28、信息獲取模塊,用于通過(guò)多傳感器融合感知環(huán)境,獲取環(huán)境信息及移動(dòng)機(jī)器人狀態(tài)信息;

29、避障決策模塊,用于根據(jù)所述環(huán)境信息和狀態(tài)信息,根據(jù)改進(jìn)的dqn算法獲得的最優(yōu)策略得到當(dāng)前移動(dòng)機(jī)器人的期望動(dòng)作,所述改進(jìn)的dqn算法中引入了sigmoid函數(shù)及transformer模型;

30、規(guī)劃實(shí)現(xiàn)模塊,用于按照當(dāng)前期望動(dòng)作,控制移動(dòng)機(jī)器人的運(yùn)動(dòng)。

31、本申請(qǐng)?zhí)峁┑募夹g(shù)方案至少可以達(dá)到以下有益效果:

32、本申請(qǐng)?zhí)峁┑囊环N基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法及裝置,通過(guò)采用多傳感器融合感知環(huán)境,得到環(huán)境信息和障礙物信息;然后,采用改進(jìn)的dqn算法來(lái)得到最優(yōu)策略,尋找到最優(yōu)路徑;最后,根據(jù)得到策略轉(zhuǎn)換為控制指令,以實(shí)現(xiàn)移動(dòng)機(jī)器人在動(dòng)態(tài)環(huán)境中自主導(dǎo)航的目的。

33、針對(duì)單傳感器對(duì)環(huán)境感知的存在限制導(dǎo)致感知精確度低和識(shí)別不穩(wěn)定的問(wèn)題,提出多傳感器融合感知環(huán)境,將單線激光雷達(dá)傳感器和相機(jī)得到的環(huán)境信息融合,增強(qiáng)移動(dòng)機(jī)器人對(duì)環(huán)境的感知精度和穩(wěn)定性,針對(duì)dqn算法中對(duì)經(jīng)驗(yàn)回放池均勻采樣學(xué)習(xí),導(dǎo)致樣本利用率低學(xué)習(xí)效率低的問(wèn)題,引入transformer模型,考慮經(jīng)驗(yàn)序列之間的時(shí)間和空間關(guān)聯(lián)性,使得高質(zhì)量經(jīng)驗(yàn)樣本能夠得到更好的利用,提高dqn的學(xué)習(xí)效率。



技術(shù)特征:

1.一種基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,包括:

2.如權(quán)利要求1所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,所述通過(guò)多傳感器融合感知環(huán)境,獲取環(huán)境信息及移動(dòng)機(jī)器人狀態(tài)信息,進(jìn)一步包括:

3.如權(quán)利要求2所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,所述環(huán)境信息包括障礙物信息以及目標(biāo)點(diǎn)位置信息,所述移動(dòng)機(jī)器人的狀態(tài)信息包括移動(dòng)機(jī)器人在t時(shí)刻的線速度和角速度,以及移動(dòng)機(jī)器人相對(duì)于目標(biāo)點(diǎn)的距離和角度。

4.如權(quán)利要求1所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,所述根據(jù)所述環(huán)境信息和狀態(tài)信息,根據(jù)dqn算法獲得的最優(yōu)策略得到當(dāng)前移動(dòng)機(jī)器人的期望動(dòng)作,進(jìn)一步包括:

5.如權(quán)利要求4所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,所述dqn模型的訓(xùn)練過(guò)程包括:

6.如權(quán)利要求1所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,所述按照當(dāng)前期望動(dòng)作,控制移動(dòng)機(jī)器人的運(yùn)動(dòng),進(jìn)一步包括:

7.如權(quán)利要求5所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,在所述步驟b中,引入sigmoid函數(shù)對(duì)epsilon衰減方式進(jìn)行改進(jìn),可以通過(guò)調(diào)整參數(shù)靈活控制epsilon的衰減速度。

8.如權(quán)利要求5所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,在所述步驟c中,在經(jīng)驗(yàn)回放機(jī)制中引入transformer模型,可以更好地建模經(jīng)驗(yàn)之間的關(guān)系,提高學(xué)習(xí)效率和模型穩(wěn)定性。

9.如權(quán)利要求5所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,對(duì)訓(xùn)練的前一百回合的限制條件進(jìn)行更改,在訓(xùn)練初期,只有當(dāng)智能體探索達(dá)到最大步數(shù)時(shí),才結(jié)束當(dāng)前回合進(jìn)入下一回合,在訓(xùn)練后期,則以較小的貪婪因子穩(wěn)定地學(xué)習(xí)經(jīng)驗(yàn)樣本。

10.一種基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航裝置,應(yīng)用于權(quán)利要求1-9任一所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法,其特征在于,包括:


技術(shù)總結(jié)
本申請(qǐng)涉及機(jī)器人路徑規(guī)劃技術(shù)領(lǐng)域,具體而言,涉及一種基于Transformer?DQN的移動(dòng)機(jī)器人的導(dǎo)航方法及裝置,一定程度上可以解決現(xiàn)有的算法在復(fù)雜動(dòng)態(tài)環(huán)境中算法收斂時(shí)間較慢,路徑規(guī)劃策略性能較差等問(wèn)題。該方法通過(guò)多傳感器融合感知環(huán)境,獲取環(huán)境信息及狀態(tài)信息;再利用DQN算法獲得的最優(yōu)策略得到當(dāng)前移動(dòng)機(jī)器人的期望動(dòng)作;按照當(dāng)前期望動(dòng)作,控制移動(dòng)機(jī)器人的運(yùn)動(dòng)。該技術(shù)方案通過(guò)設(shè)置考慮多種因素的獎(jiǎng)勵(lì)函數(shù)來(lái)與移動(dòng)機(jī)器人交互,提升了算法的精確性;在訓(xùn)練過(guò)程中,設(shè)置可調(diào)整的貪婪因子的衰減方式,平衡移動(dòng)機(jī)器人在不同復(fù)雜程度的環(huán)境中的探索與學(xué)習(xí),將Transformer模型引入經(jīng)驗(yàn)回放機(jī)制中,捕捉經(jīng)驗(yàn)之間的長(zhǎng)期依賴關(guān)系,加強(qiáng)機(jī)器人學(xué)習(xí)效果,提高了訓(xùn)練效率。

技術(shù)研發(fā)人員:高書苑,徐洋,張敏慧,王曉白,嚴(yán)均琦
受保護(hù)的技術(shù)使用者:常州大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/6/26
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1