Skip to content

Latest commit

 

History

History

Aprendizado por Reforço Profundo

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 

🧠 Aprendizado por Reforço Profundo

O Aprendizado por Reforço Profundo é a combinação do Aprendizado por Reforço com o Aprendizado Profundo (Deep Learning). Nesta área, são utilizadas redes neurais, potentes modelos de reconhecimento de padrões, para aprender e estimar importantes funções, como a política ótima de um agente ou a função de valor de um problema.

Como todos os algoritmos serão construídos a partir de redes neurais, é recomendado utilizar algum framework de Deep Learning, como o PyTorch ou o Tensorflow. Neste repositório, todas as redes serão criadas usando o PyTorch. Caso não esteja muito familiarizado com esta biblioteca, recomendamos os seguintes materiais:

Um dos algoritmos mais comuns em aprendizado por reforço, quando se trata de aprendizado profundo, é o Deep Q-Learning, ou DQN na forma abreviada. DQN é a versão profunda do algoritmo clássico de Q-Learning, em que agora utilizamos uma rede neural que recebe nosso estado e devolve os Q-Valores para cada possível ação do nosso agente.

DQN's são alternativas muito boas ao Q-Learning quando precisamos lidar com problemas que contêm diversos estados, tornando a computação mais leve e o aprendizado mais eficaz.

Quase todos os métodos vistos anteriormente (métodos tabulares e DQN) estimam a função de valor ótima Q*(s,a) e, a partir de de Q*, obtém uma política (ε-)gulosa. Os métodos de policy gradient tem uma proposta alternativa: eles estimam diretamente a política ótima.

Os Actor Critics são algoritmos de estado da arte que combinam estimadores de função de valor, como a DQN, com estimadores de política ótima, como o Policy Gradient. Dessa forma, esses algoritmos tendem a ser bem mais robustos do que modelos individuais.