TY -的A2 -侯赛因,Shahid盟——张,音译)非盟- Wang Guoyong PY - 2022 DA - 2022/10/15 TI -基于强化学习连续行动空间移动机器人路径规划方法SP - 9069283六世- 2022 AB -基于强化学习连续行动空间移动机器人路径规划方法在本文提出。首先,分析了移动机器人的运动学模型,并在此基础上,根据最小构造最优状态空间深度字段值的深度图像描述机器人和障碍物之间的距离。然后,通过设置的奖励功能移动机器人基于人工势场法,机器人的距离障碍的信息是连续的,并提出了一种新的强化学习训练过程。最后,通过引入一个DDPG算法,移动机器人在未知环境下的路径规划是称为马尔可夫决策过程,和最优规划移动机器人的连续行动空间路径实现高的成功率。结果表明,与其他三种比较方法相比,该方法的最后的成功率是最高的,97.2%,99.1%,98.4%,和98.6%,分别。SN - 1687 - 9600你2022/9069283 / 10.1155——https://doi.org/10.1155/2022/9069283——摩根富林明——《机器人PB - Hindawi KW - ER