Skip to content

Commit

Permalink
rm: 4.迁移学习和强化学习在无人驾驶中的应用 目录
Browse files Browse the repository at this point in the history
  • Loading branch information
chai-mi committed Dec 28, 2024
1 parent 316e6b6 commit 2094b74
Showing 1 changed file with 0 additions and 53 deletions.
Original file line number Diff line number Diff line change
@@ -1,58 +1,5 @@
# 速记模块 (顺口溜总结)

## 总复习 PPT 模块

- [速记模块 (顺口溜总结)](#速记模块-顺口溜总结)
- [总复习 PPT 模块](#总复习-ppt-模块)
- [迁移学习学习和端到端无人驾驶](#迁移学习学习和端到端无人驾驶)
- [迁移学习](#迁移学习)
- [目的](#目的)
- [什么是迁移学习](#什么是迁移学习)
- [核心思想 (关键)](#核心思想-关键)
- [意义](#意义)
- [迁移学习与传统机器学习的对比](#迁移学习与传统机器学习的对比)
- [迁移学习方法研究领域](#迁移学习方法研究领域)
- [迁移学习研究领域与方法分类](#迁移学习研究领域与方法分类)
- [迁移学习方法分类](#迁移学习方法分类)
- [迁移学习应用场景](#迁移学习应用场景)
- [端到端无人驾驶](#端到端无人驾驶)
- [基本思路](#基本思路)
- [模型框架](#模型框架)
- [端到端无人驾驶模拟](#端到端无人驾驶模拟)
- [强化学习和端到端无人驾驶](#强化学习和端到端无人驾驶)
- [强化学习概述](#强化学习概述)
- [强化学习原理及过程](#强化学习原理及过程)
- [马尔可夫决策过程](#马尔可夫决策过程)
- [马尔可夫性](#马尔可夫性)
- [马尔可夫过程](#马尔可夫过程)
- [非确定性策略与确定性策略](#非确定性策略与确定性策略)
- [非确定性策略](#非确定性策略)
- [确定性策略](#确定性策略)
- [及时奖励与累计期望奖励](#及时奖励与累计期望奖励)
- [及时奖励](#及时奖励)
- [累积期望奖励](#累积期望奖励)
- [值函数](#值函数)
- [状态 - 值函数和状态 - 行为值函数之间的关系图及其解释](#状态---值函数和状态---行为值函数之间的关系图及其解释)
- [要点回顾](#要点回顾)
- [请解释贝尔曼方程,并说明其在强化学习中的作用](#请解释贝尔曼方程并说明其在强化学习中的作用)
- [Q-learning](#q-learning)
- [Q-Learing 伪代码](#q-learing-伪代码)
- [近似价值函数](#近似价值函数)
- [深度 Q 值网络算法](#深度-q-值网络算法)
- [DQN 和 Q-Learing 算法的区别](#dqn-和-q-learing-算法的区别)
- [推导过程](#推导过程)
- [奖励函数](#奖励函数)
- [目标函数](#目标函数)
- [经验回放和目标网络](#经验回放和目标网络)
- [DQN 的目标网络和评估网络有何区别及联系](#dqn-的目标网络和评估网络有何区别及联系)
- [策略梯度](#策略梯度)
- [如果换成 t 时刻的奖励会发生什么后果](#如果换成-t-时刻的奖励会发生什么后果)
- [深度确定性策略梯度算法](#深度确定性策略梯度算法)
- [DDPG 算法结构](#ddpg-算法结构)
- [解释 Critic 目标网络和训练网络、Actor 目标网络和训练网络分别的作用](#解释-critic-目标网络和训练网络actor-目标网络和训练网络分别的作用)
- [伪代码](#伪代码)
- [深度强化学习在自动驾驶中的应用](#深度强化学习在自动驾驶中的应用)

# 迁移学习学习和端到端无人驾驶

## 迁移学习
Expand Down

0 comments on commit 2094b74

Please sign in to comment.