Skip to content

Commit

Permalink
Update readme.md
Browse files Browse the repository at this point in the history
  • Loading branch information
EmmanuelADAM committed Feb 29, 2024
1 parent 5e390ec commit 2c477a5
Showing 1 changed file with 10 additions and 10 deletions.
20 changes: 10 additions & 10 deletions JeuxLudii/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -18,17 +18,17 @@ De là, plusieurs implémentations sont possibles :
- **UCB (Upper Confidence Bound)** :
- Explorer l'arbre en sélectionnant les mouvements qui ont la confiance la plus élevée.
- La confiance pour un coup $a$ à partir d'un état $s$ est calculée à l'aide de la formule suivante :
- $UCB(s, a) = Q(s, a) + E(s, a)$ où :
- $Q(s, a)$ est la qualité, la récompense moyenne pour le coup $a$ dans l'état $s$ (nb gains/ nb visites).
- $E(s, a)$ est un coefficient d'exploration, en général basé sur le nombre de fois que le coup $a$ a été joué à partir de $s$
- $UCB(s, a) = Q(s, a) + E(s, a)$ où :
- $Q(s, a)$ est la qualité, la récompense moyenne pour le coup $a$ dans l'état $s$ (nb gains/ nb visites).
- $E(s, a)$ est un coefficient d'exploration, en général basé sur le nombre de fois que le coup $a$ a été joué à partir de $s$
- **UCT (Upper Confidence bounds applied to Trees)**:
- Explorer l'arbre en sélectionnant les mouvements qui ont la confiance (valeur bornée par une limite supérieure) la plus élevée.
- La limite supérieure de confiance pour un coup $a$ à partir d'un état $s$ est calculée à l'aide de la formule suivante :
- $UCT(s,a) = Q(s, a) + C \times \sqrt{\frac{log(max(1, N(s)))}{N(s,a)}}$ où :
- $Q(s, a)$ est la qualité, la récompense moyenne pour le coup $a$ dans l'état $s$ (nb gains/ nb visites).
- $N(s)$ est le nombre de passages par l'état $s$.
- $N(s, a)$ est le nombre de fois que le coup $a$ a été joué dans l'état $s$.
- $C$ est une constante qui contrôle l'équilibre entre l'exploration et l'exploitation.
- Explorer l'arbre en sélectionnant les mouvements qui ont la confiance (valeur bornée par une limite supérieure) la plus élevée.
- La limite supérieure de confiance pour un coup $a$ à partir d'un état $s$ est calculée à l'aide de la formule suivante :
- $UCT(s,a) = Q(s, a) + C \times \sqrt{\frac{log(max(1, N(s)))}{N(s,a)}}$ où :
- $Q(s, a)$ est la qualité, la récompense moyenne pour le coup $a$ dans l'état $s$ (nb gains/ nb visites).
- $N(s)$ est le nombre de passages par l'état $s$.
- $N(s, a)$ est le nombre de fois que le coup $a$ a été joué dans l'état $s$.
- $C$ est une constante qui contrôle l'équilibre entre l'exploration et l'exploitation.

UCT est en quelque sorte une implémentation particulière de UCB.

Expand Down

0 comments on commit 2c477a5

Please sign in to comment.