在该项目中,你将使用强化学习算法,实现一个自动走迷宫机器人。
- 如上图所示,智能机器人显示在右上角。在我们的迷宫中,有陷阱(红色炸弹)及终点(蓝色的目标点)两种情景。机器人要尽量避开陷阱、尽快到达目的地。
- 机器人可执行的动作包括:向上走
u
、向右走r
、向下走d
、向左走l
。 - 执行不同的动作后,根据不同的情况会获得不同的奖励,具体而言,有以下几种情况。
- 撞到墙壁:-10
- 走到终点:50
- 走到陷阱:-30
- 其余情况:-0.1
- 我们需要通过修改
robot.py
中的代码,来实现一个 Q Learning 机器人,实现上述的目标。
- 配置环境,使用
environment.yml
文件配置名为robot-env
的 conda 环境,具体而言,你只需转到当前的目录,在命令行/终端中运行如下代码,稍作等待即可。
conda env create -f environment.yml
安装完毕后,在命令行/终端中运行 source activate robot-env
(Mac/Linux 系统)或 activate robot-env
(Windows 系统)激活该环境。
- 阅读
robot_maze.ipynb
中的指导完成项目,并根据指导修改对应的代码,生成、观察结果。 - 导出代码与报告,上传文件,提交审阅并优化。
This repository is deprecated; therefore, we are going to archive it. However, learners will be able to fork it to their personal Github account but cannot submit PRs to this repository. If you have any issues or suggestions to make, feel free to:
- Utilize the https://knowledge.udacity.com/ forum to seek help on content-specific issues.
- Submit a support ticket along with the link to your forked repository if (learners are) blocked for other reasons. Here are the links for the retail consumers and enterprise learners.