๐ค ๊ฐํํ์ต ์ด์ง๋ค์ด ๋ง๋ ์ ๋ฆฌํ ์คํฐ๋ ๊ธฐ๋ก
๊ฐํํ์ต์ 'ใฑ' ์๋ ๋ชจ๋ฅด๋ 4๋ช
์ด ๋ง๋ ๋ฐฉํ๋์ ๊ณต๋ถํ ๋ด์ฉ์ ๊ธฐ๋กํฉ๋๋ค. ์ฒ์ ๊ฐํํ์ต์ ๊ณต๋ถํ๋ ์ฌ๋๋ค๋ ์ดํดํ๊ธฐ ์ฝ๊ฒ ๋ด์ฉ์ ์ ๋ฆฌํ๊ณ ์ ํฉ๋๋ค. ํ๋ก๊ทธ๋๋จธ๋ฅผ ์ํ ๊ฐํํ์ต
๊ต์ฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ๋ค๋ฅธ ์ฌ๋ฌ ํ์ต์๋ฃ๋ฅผ ํ์ฉํ์ฌ ๋ด์ฉ์ ๊ตฌ์ฑํ์์ต๋๋ค.
- Period : 2024/01/09 - 2024/02/26 (๋ ๋ฌ)
1. ๊ฐํํ์ต ๊ธฐ๋ณธ ๊ฐ๋
- ๋ง์ฝํ ์์ฑ๊ณผ ๋ง์ฝํ ์ฐ์
- ๋ง์ฝํ ๋ณด์๊ณผ์ (MRP)์ ๋ฒจ๋ง ๋ฐฉ์ ์(Bellman Equation)
2. ๊ฐํํ์ต ๊ธฐ๋ณธ ์๊ณ ๋ฆฌ์ฆ
- ๋ง์ฝํ ๊ฒฐ์ ๊ณผ์ (MDP, Markov Decisioin Process)
- MDP ํ๋ ๊ฐ์น ํจ์(Qํจ์)์ MDP ์ต์ ๊ฐ์น ํจ์
- ์ ์ฑ ํ๊ฐ์ ์ ์ฑ ์ ์ด / ๋ชจ๋ธ ๊ธฐ๋ฐ๊ณผ ๋ชจ๋ธ ํ๋ฆฌ
- ๋ค์ด๋ด๋ฏน ํ๋ก๊ทธ๋๋ฐ
- ๋ชฌํ ์นด๋ฅผ๋ก ๋ฐฉ๋ฒ
- TD์ SARSA
- Q-Learning
์์์ | ์ด๊ฐํ | ์กฐ์ํ | ํ์ฃผ์ |
---|---|---|---|