Name		Name	Last commit message	Last commit date
parent directory ..
Bandits		Bandits
Monte Carlo		Monte Carlo
Temporal-Difference		Temporal-Difference
README.md		README.md

🎰 Aprendizado por Reforço Clássico

Um dos problemas mais clássicos e simples em aprendizado por reforço é o problema do k-armed Bandit (em português, Roleta de k-alavancas). Nele uma inteligência artificial iria para um cassino e encontraria uma roleta com k alavancas, lá ela teria que aprender - por meio de aprendizado por reforço - a escolher a alavanca que lhe da mais dinheiro.

🏔 Métodos de Monte Carlo

Os métodos de Monte Carlo são algoritmos de Aprendizado por Reforço que estimam as funções de valor com base em suas experiências, obtidas através da interação com o ambiente. Nesses métodos, os valores são obtidos a partir do cálculo da média dos retornos de cada episódio.

📅 Temporal-Difference Learning

Métodos de Temporal-Difference são algoritmos de Aprendizado por Reforço que aprendem utilizando principalmente técnicas de bootstrapping (uma estimativa a base de amostragem) da sua função de valor. Esses métodos amostram do ambiente, assim como métodos de Monte Carlo, mas fazem atualizações com base em estimativas intermediárias. Ou seja, enquanto métodos de Monte Carlo atualizam as suas predições apenas no fim do episódio (quando todos os retornos já são conhecidos), métodos de Temporal-Difference atualizam as suas predições a cada instante de tempo, utilizando bootstrapping para estimar o retorno do episódio.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Aprendizado por Reforço Clássico

Aprendizado por Reforço Clássico

README.md

🎰 Aprendizado por Reforço Clássico

🎰 Multi-armed Bandits

🏔 Métodos de Monte Carlo

📅 Temporal-Difference Learning

Files

Aprendizado por Reforço Clássico

Directory actions

More options

Directory actions

More options

Latest commit

History

Aprendizado por Reforço Clássico

Folders and files

parent directory

README.md

🎰 Aprendizado por Reforço Clássico

🎰 Multi-armed Bandits

🏔 Métodos de Monte Carlo

📅 Temporal-Difference Learning