From 2c477a513bb14379c645501cac3d5e6f50433a3e Mon Sep 17 00:00:00 2001 From: Emmanuel ADAM Date: Thu, 29 Feb 2024 02:30:19 +0100 Subject: [PATCH] Update readme.md --- JeuxLudii/readme.md | 20 ++++++++++---------- 1 file changed, 10 insertions(+), 10 deletions(-) diff --git a/JeuxLudii/readme.md b/JeuxLudii/readme.md index 9713d3f..15f50c3 100644 --- a/JeuxLudii/readme.md +++ b/JeuxLudii/readme.md @@ -18,17 +18,17 @@ De là, plusieurs implémentations sont possibles : - **UCB (Upper Confidence Bound)** : - Explorer l'arbre en sélectionnant les mouvements qui ont la confiance la plus élevée. - La confiance pour un coup $a$ à partir d'un état $s$ est calculée à l'aide de la formule suivante : - - $UCB(s, a) = Q(s, a) + E(s, a)$ où : - - $Q(s, a)$ est la qualité, la récompense moyenne pour le coup $a$ dans l'état $s$ (nb gains/ nb visites). - - $E(s, a)$ est un coefficient d'exploration, en général basé sur le nombre de fois que le coup $a$ a été joué à partir de $s$ + - $UCB(s, a) = Q(s, a) + E(s, a)$ où : + - $Q(s, a)$ est la qualité, la récompense moyenne pour le coup $a$ dans l'état $s$ (nb gains/ nb visites). + - $E(s, a)$ est un coefficient d'exploration, en général basé sur le nombre de fois que le coup $a$ a été joué à partir de $s$ - **UCT (Upper Confidence bounds applied to Trees)**: - - Explorer l'arbre en sélectionnant les mouvements qui ont la confiance (valeur bornée par une limite supérieure) la plus élevée. - - La limite supérieure de confiance pour un coup $a$ à partir d'un état $s$ est calculée à l'aide de la formule suivante : - - $UCT(s,a) = Q(s, a) + C \times \sqrt{\frac{log(max(1, N(s)))}{N(s,a)}}$ où : - - $Q(s, a)$ est la qualité, la récompense moyenne pour le coup $a$ dans l'état $s$ (nb gains/ nb visites). - - $N(s)$ est le nombre de passages par l'état $s$. - - $N(s, a)$ est le nombre de fois que le coup $a$ a été joué dans l'état $s$. - - $C$ est une constante qui contrôle l'équilibre entre l'exploration et l'exploitation. + - Explorer l'arbre en sélectionnant les mouvements qui ont la confiance (valeur bornée par une limite supérieure) la plus élevée. + - La limite supérieure de confiance pour un coup $a$ à partir d'un état $s$ est calculée à l'aide de la formule suivante : + - $UCT(s,a) = Q(s, a) + C \times \sqrt{\frac{log(max(1, N(s)))}{N(s,a)}}$ où : + - $Q(s, a)$ est la qualité, la récompense moyenne pour le coup $a$ dans l'état $s$ (nb gains/ nb visites). + - $N(s)$ est le nombre de passages par l'état $s$. + - $N(s, a)$ est le nombre de fois que le coup $a$ a été joué dans l'état $s$. + - $C$ est une constante qui contrôle l'équilibre entre l'exploration et l'exploitation. UCT est en quelque sorte une implémentation particulière de UCB.