一種基于Transformer-DQN的移動(dòng)機(jī)器人的導(dǎo)航方法及裝置

文檔序號(hào)：42267229發(fā)布日期：2025-06-27 18:01閱讀：4來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

本申請(qǐng)涉及機(jī)器人路徑規(guī)劃，具體而言，涉及一種基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法及裝置。

背景技術(shù)：

1、路徑規(guī)劃技術(shù)是指移動(dòng)機(jī)器人依據(jù)某個(gè)或某些優(yōu)化準(zhǔn)則，在其工作環(huán)境中找到一條從起始狀態(tài)到目標(biāo)狀態(tài)、能避開(kāi)障礙物的最優(yōu)路徑。

2、目前，多數(shù)路徑規(guī)劃算法可在簡(jiǎn)單且己知的環(huán)境下較快地規(guī)劃出路徑軌跡，但在復(fù)雜和未知的環(huán)境工作時(shí)，探索能力較差、算法收斂時(shí)間較慢、環(huán)境適應(yīng)性較低，導(dǎo)致移動(dòng)機(jī)器人無(wú)法有效規(guī)劃出較優(yōu)路徑。

技術(shù)實(shí)現(xiàn)思路

1、為了解決現(xiàn)有的路徑規(guī)劃算法在復(fù)雜動(dòng)態(tài)環(huán)境中算法收斂時(shí)間較慢，路徑規(guī)劃策略性能較差等問(wèn)題，本申請(qǐng)?zhí)峁┝艘环N基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法及裝置。

2、本申請(qǐng)的實(shí)施例是這樣實(shí)現(xiàn)的：

3、第一方面，本申請(qǐng)?zhí)峁┮环N基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法，包括：

4、通過(guò)多傳感器融合感知環(huán)境，獲取環(huán)境信息及移動(dòng)機(jī)器人狀態(tài)信息；

5、根據(jù)所述環(huán)境信息和狀態(tài)信息，根據(jù)改進(jìn)的dqn算法獲得的最優(yōu)策略得到當(dāng)前移動(dòng)機(jī)器人的期望動(dòng)作，所述改進(jìn)的dqn算法中引入了sigmoid函數(shù)及transformer模型；

6、按照當(dāng)前期望動(dòng)作，控制移動(dòng)機(jī)器人的運(yùn)動(dòng)。

7、在一種可能的實(shí)現(xiàn)方式中，所述通過(guò)多傳感器融合感知環(huán)境，獲取環(huán)境信息及移動(dòng)機(jī)器人狀態(tài)信息，進(jìn)一步包括：

8、在動(dòng)態(tài)環(huán)境中通過(guò)相機(jī)傳感器和單線激光雷達(dá)傳感器，獲取環(huán)境信息和當(dāng)前移動(dòng)機(jī)器人的狀態(tài)信息。

9、在一種可能的實(shí)現(xiàn)方式中，所述環(huán)境信息包括障礙物信息以及目標(biāo)點(diǎn)位置信息，所述移動(dòng)機(jī)器人的狀態(tài)信息包括移動(dòng)機(jī)器人在t時(shí)刻的線速度和角速度，以及移動(dòng)機(jī)器人相對(duì)于目標(biāo)點(diǎn)的距離和角度。

10、在一種可能的實(shí)現(xiàn)方式中，所述根據(jù)所述環(huán)境信息和狀態(tài)信息，根據(jù)dqn算法獲得的最優(yōu)策略得到當(dāng)前移動(dòng)機(jī)器人的期望動(dòng)作，進(jìn)一步包括：

11、將當(dāng)前狀態(tài)信息輸入至dqn模型，獲取動(dòng)作集中所有動(dòng)作對(duì)應(yīng)的q值；

12、選取最大的q值所對(duì)應(yīng)的動(dòng)作作為移動(dòng)機(jī)器人的當(dāng)前期望動(dòng)作。

13、6.在一種可能的實(shí)現(xiàn)方式中，所述dqn模型的訓(xùn)練過(guò)程包括：

14、a.初始化估計(jì)q網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù)，初始化學(xué)習(xí)率、折扣因子及貪婪因子超參數(shù)，經(jīng)驗(yàn)回放池；

15、b.根據(jù)移動(dòng)機(jī)器人歷史數(shù)據(jù)中t時(shí)刻的狀態(tài)，根據(jù)貪婪因子以一定的概率選擇并執(zhí)行動(dòng)作，得到移動(dòng)后的狀態(tài)，即t+1時(shí)刻的狀態(tài)，同時(shí)計(jì)算執(zhí)行該動(dòng)作所獲取的即時(shí)獎(jiǎng)勵(lì)值，所述即時(shí)獎(jiǎng)勵(lì)值通過(guò)獎(jiǎng)勵(lì)函數(shù)進(jìn)行評(píng)估，所述獎(jiǎng)勵(lì)函數(shù)為：

16、r＝w1rgoal+w2robstacle+w3rsmooth，

17、其中，rgoal為目標(biāo)獎(jiǎng)勵(lì)，鼓勵(lì)移動(dòng)機(jī)器人接近目標(biāo)；robstacle為碰撞懲罰，懲罰接近或碰撞障礙物的行為；rsmooth為路徑平滑性獎(jiǎng)勵(lì)，鼓勵(lì)移動(dòng)機(jī)器人平穩(wěn)移動(dòng)，減少急轉(zhuǎn)彎或抖動(dòng)；w1,w2,w3為各個(gè)獎(jiǎng)勵(lì)的權(quán)重系數(shù)，以平衡安全性、效率和平滑性；

18、c.將運(yùn)動(dòng)數(shù)據(jù)存儲(chǔ)到經(jīng)驗(yàn)回放池中，再?gòu)慕?jīng)驗(yàn)回放池中抽取批量樣本；

19、d.根據(jù)從經(jīng)驗(yàn)池中抽取的樣本，使用目標(biāo)網(wǎng)絡(luò)計(jì)算目標(biāo)q值，使用估計(jì)網(wǎng)絡(luò)計(jì)算估計(jì)q值，計(jì)算損失函數(shù)；

20、e.重復(fù)b-d的過(guò)程，直至dqn模型收斂。

21、在一種可能的實(shí)現(xiàn)方式中，所述按照當(dāng)前期望動(dòng)作，控制移動(dòng)機(jī)器人的運(yùn)動(dòng)，進(jìn)一步包括：

22、使用訓(xùn)練好的dqn模型，獲取移動(dòng)機(jī)器人當(dāng)前期望動(dòng)作，將其轉(zhuǎn)換為控制指令；

23、通過(guò)線速度和角速度控制移動(dòng)機(jī)器人運(yùn)動(dòng)。

24、在一種可能的實(shí)現(xiàn)方式中，在所述步驟b中，引入sigmoid函數(shù)對(duì)epsilon衰減方式進(jìn)行改進(jìn)，可以通過(guò)調(diào)整參數(shù)靈活控制epsilon的衰減速度。

25、在一種可能的實(shí)現(xiàn)方式中，在所述步驟c中，在經(jīng)驗(yàn)回放機(jī)制中引入transformer模型，可以更好地建模經(jīng)驗(yàn)之間的關(guān)系，提高學(xué)習(xí)效率和模型穩(wěn)定性。

26、在一種可能的實(shí)現(xiàn)方式中，對(duì)訓(xùn)練的前一百回合的限制條件進(jìn)行更改，在訓(xùn)練初期，只有當(dāng)智能體探索達(dá)到最大步數(shù)時(shí)，才結(jié)束當(dāng)前回合進(jìn)入下一回合，在訓(xùn)練后期，則以較小的貪婪因子穩(wěn)定地學(xué)習(xí)經(jīng)驗(yàn)樣本。

27、第二方面，本申請(qǐng)?zhí)峁┮环N基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航裝置，包括：

28、信息獲取模塊，用于通過(guò)多傳感器融合感知環(huán)境，獲取環(huán)境信息及移動(dòng)機(jī)器人狀態(tài)信息；

29、避障決策模塊，用于根據(jù)所述環(huán)境信息和狀態(tài)信息，根據(jù)改進(jìn)的dqn算法獲得的最優(yōu)策略得到當(dāng)前移動(dòng)機(jī)器人的期望動(dòng)作，所述改進(jìn)的dqn算法中引入了sigmoid函數(shù)及transformer模型；

30、規(guī)劃實(shí)現(xiàn)模塊，用于按照當(dāng)前期望動(dòng)作，控制移動(dòng)機(jī)器人的運(yùn)動(dòng)。

31、本申請(qǐng)?zhí)峁┑募夹g(shù)方案至少可以達(dá)到以下有益效果：

32、本申請(qǐng)?zhí)峁┑囊环N基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法及裝置，通過(guò)采用多傳感器融合感知環(huán)境，得到環(huán)境信息和障礙物信息；然后，采用改進(jìn)的dqn算法來(lái)得到最優(yōu)策略，尋找到最優(yōu)路徑；最后，根據(jù)得到策略轉(zhuǎn)換為控制指令，以實(shí)現(xiàn)移動(dòng)機(jī)器人在動(dòng)態(tài)環(huán)境中自主導(dǎo)航的目的。

33、針對(duì)單傳感器對(duì)環(huán)境感知的存在限制導(dǎo)致感知精確度低和識(shí)別不穩(wěn)定的問(wèn)題，提出多傳感器融合感知環(huán)境，將單線激光雷達(dá)傳感器和相機(jī)得到的環(huán)境信息融合，增強(qiáng)移動(dòng)機(jī)器人對(duì)環(huán)境的感知精度和穩(wěn)定性，針對(duì)dqn算法中對(duì)經(jīng)驗(yàn)回放池均勻采樣學(xué)習(xí)，導(dǎo)致樣本利用率低學(xué)習(xí)效率低的問(wèn)題，引入transformer模型，考慮經(jīng)驗(yàn)序列之間的時(shí)間和空間關(guān)聯(lián)性，使得高質(zhì)量經(jīng)驗(yàn)樣本能夠得到更好的利用，提高dqn的學(xué)習(xí)效率。

技術(shù)特征：

1.一種基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法，其特征在于，包括：

2.如權(quán)利要求1所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法，其特征在于，所述通過(guò)多傳感器融合感知環(huán)境，獲取環(huán)境信息及移動(dòng)機(jī)器人狀態(tài)信息，進(jìn)一步包括：

3.如權(quán)利要求2所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法，其特征在于，所述環(huán)境信息包括障礙物信息以及目標(biāo)點(diǎn)位置信息，所述移動(dòng)機(jī)器人的狀態(tài)信息包括移動(dòng)機(jī)器人在t時(shí)刻的線速度和角速度，以及移動(dòng)機(jī)器人相對(duì)于目標(biāo)點(diǎn)的距離和角度。

4.如權(quán)利要求1所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法，其特征在于，所述根據(jù)所述環(huán)境信息和狀態(tài)信息，根據(jù)dqn算法獲得的最優(yōu)策略得到當(dāng)前移動(dòng)機(jī)器人的期望動(dòng)作，進(jìn)一步包括：

5.如權(quán)利要求4所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法，其特征在于，所述dqn模型的訓(xùn)練過(guò)程包括：

6.如權(quán)利要求1所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法，其特征在于，所述按照當(dāng)前期望動(dòng)作，控制移動(dòng)機(jī)器人的運(yùn)動(dòng)，進(jìn)一步包括：

7.如權(quán)利要求5所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法，其特征在于，在所述步驟b中，引入sigmoid函數(shù)對(duì)epsilon衰減方式進(jìn)行改進(jìn)，可以通過(guò)調(diào)整參數(shù)靈活控制epsilon的衰減速度。

8.如權(quán)利要求5所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法，其特征在于，在所述步驟c中，在經(jīng)驗(yàn)回放機(jī)制中引入transformer模型，可以更好地建模經(jīng)驗(yàn)之間的關(guān)系，提高學(xué)習(xí)效率和模型穩(wěn)定性。

9.如權(quán)利要求5所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法，其特征在于，對(duì)訓(xùn)練的前一百回合的限制條件進(jìn)行更改，在訓(xùn)練初期，只有當(dāng)智能體探索達(dá)到最大步數(shù)時(shí)，才結(jié)束當(dāng)前回合進(jìn)入下一回合，在訓(xùn)練后期，則以較小的貪婪因子穩(wěn)定地學(xué)習(xí)經(jīng)驗(yàn)樣本。

10.一種基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航裝置，應(yīng)用于權(quán)利要求1-9任一所述的基于transformer-dqn的移動(dòng)機(jī)器人的導(dǎo)航方法，其特征在于，包括：

技術(shù)總結(jié)
本申請(qǐng)涉及機(jī)器人路徑規(guī)劃技術(shù)領(lǐng)域，具體而言，涉及一種基于Transformer?DQN的移動(dòng)機(jī)器人的導(dǎo)航方法及裝置，一定程度上可以解決現(xiàn)有的算法在復(fù)雜動(dòng)態(tài)環(huán)境中算法收斂時(shí)間較慢，路徑規(guī)劃策略性能較差等問(wèn)題。該方法通過(guò)多傳感器融合感知環(huán)境，獲取環(huán)境信息及狀態(tài)信息；再利用DQN算法獲得的最優(yōu)策略得到當(dāng)前移動(dòng)機(jī)器人的期望動(dòng)作；按照當(dāng)前期望動(dòng)作，控制移動(dòng)機(jī)器人的運(yùn)動(dòng)。該技術(shù)方案通過(guò)設(shè)置考慮多種因素的獎(jiǎng)勵(lì)函數(shù)來(lái)與移動(dòng)機(jī)器人交互，提升了算法的精確性；在訓(xùn)練過(guò)程中，設(shè)置可調(diào)整的貪婪因子的衰減方式，平衡移動(dòng)機(jī)器人在不同復(fù)雜程度的環(huán)境中的探索與學(xué)習(xí)，將Transformer模型引入經(jīng)驗(yàn)回放機(jī)制中，捕捉經(jīng)驗(yàn)之間的長(zhǎng)期依賴關(guān)系，加強(qiáng)機(jī)器人學(xué)習(xí)效果，提高了訓(xùn)練效率。

技術(shù)研發(fā)人員：高書苑,徐洋,張敏慧,王曉白,嚴(yán)均琦
受保護(hù)的技術(shù)使用者：常州大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/26

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：高書苑,徐洋,張敏慧,王曉白,嚴(yán)均琦
技術(shù)所有人：常州大學(xué)
我是此專利的發(fā)明人

上一篇：一種公路建設(shè)用灑水裝置的制作方法
下一篇：塑料粒子均化烘烤罐的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動(dòng)穩(wěn)定性 3.汽車流場(chǎng)分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
3、王老師：電子信息處理、先進(jìn)檢測(cè)方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产真实乱全部视频,黄色片视频在线免费观看,密臀av一区二区三区,av黄色一级,中文字幕.com,日本a级网站,在线视频观看91

一種基于Transformer-DQN的移動(dòng)機(jī)器人的導(dǎo)航方法及裝置