Apprentissage par renforcement 1: processus de décision markovien

Рет қаралды 10,441

L42Project

Жүктеу

Пікірлер: 29

@philippe-da6081
3 жыл бұрын
Bravo pour cette excellente vidéo! Les choses sont présentés clairement et avec une application pratique qui rend les choses très accessibles.
@l42project47
3 жыл бұрын
merci pour ce message sympa :) Laurent
@manoo7730
4 жыл бұрын
Juste merci Monsieur pour ça.
@davidBi94
4 жыл бұрын
Merci pour votre pédagogie et votre partage de votre connaissance.
@l42project47
4 жыл бұрын
Merci pour ce message sympa :)
@greggs2444
4 жыл бұрын
Merci beaucoup pour vos videos, vous méritez bien plus de visibilité
@l42project47
4 жыл бұрын
Merci pour ce message sympa ;)
@jeremymeissner7603
2 жыл бұрын
Merci pour cette vidéo ! Je suis en train de faire un cours de RL sur Coursera et votre vidéo m'aide beaucoup à consolider !
@theomarechal5113
3 жыл бұрын
C'est super intéressant et très pédagogique (pour moi en tout cas) merci beaucoup !
@l42project47
3 жыл бұрын
merci pour ce message sympa :)
@technoflyclgfl8575
4 жыл бұрын
Merci pour la qualité du travail...
@l42project47
4 жыл бұрын
Merci pour ce message sympa :)
@smartlearn2.0
4 жыл бұрын
Merci beaucoup pour le contenu, c'est très intéressant comme d'habitude
@l42project47
4 жыл бұрын
Merci pour ce commentaire sympa ;)
@ervinanoh3791
4 жыл бұрын
Merci beaucoup, c'est très bien expliqué
@l42project47
4 жыл бұрын
Merci pour ce commentaire sympathique ;)
@AgentRex42
4 жыл бұрын
Yes, j'attendais ça !
@ibrahimabarry8839
4 жыл бұрын
merci beaucoup
@drm8164
10 ай бұрын
Merci Chef
@salaheddine-m2f
Жыл бұрын
Merci pour cette très utile présentation, j'ai une question, est-ce que l'algoritme converge toujours vers les memes valeur de Q
@WahranRai
3 жыл бұрын
Une chaine de Markov = une suite de coups d'état
@koenvanduin7141
4 жыл бұрын
Bonjour, Tout d'abord merci pour le contenu. J'ai des questions à propos des égalités qui apparaissent autour de 18:47: Pourriez-vous me dire comment ces équations s'appellent ? J'ai du mal à les retrouver sur Wikipedia ou ailleurs. Sinon je me demande ce que fait le s' dans ces équations, et quel état s' représente. J'espère mieux comprendre tout ça quand j'ai des réponses à ces questions. Merci d'avance.
@l42project47
4 жыл бұрын
Bonjour c'est formule de Bellman version "différence temporelle". On parle souvent de différence temporelle quand on a un algo itératif qui se met à jour au fil d'expérience; on les repère facilement puisque l'on a un V(t+1)(X)=F(V(t)(X)), c'est à dire que l'on calcul une valeur, on met à jour une valeur en fonction de la valeur précédente, de cette manière, on converge vers la valeur que l'on cherche, dans ce cas, les récompense que l'on peut avoir en prenant tel ou tel chemin/action. Regardez la 2eme vidéo sur le renforcement, je montre un exemple concret. Laurent
@koenvanduin7141
4 жыл бұрын
Bonjour, désolé de vous poser deux questions de suite mais il y a une chose qui m'embrouille pas mal. Je me demande si le "V_{t+1}(s)" qu'on peut voir quand on arrête la vidéo à 16:24 ne devrait pas être remplacé par "V_{t-1}(s)". Le V_t(s) est un peu ce qu'un peut s'attendre à gagner en argent en partant de l'état s au moment t non? En plus les états s' à droite sont des états auxquels on arrive en faisant un pas à partir de s. J'espère que vous avez le temps de me répondre. Sinon, bonne continuation.
@l42project47
4 жыл бұрын
Bonjour, il s’agit ici d'un algorithme itératif, le but est de construire de façon statistique la valeur de V (ou de Q); l'idée est de donc de faire vivre à l'agent des expériences dans un environnement, de noter les valeur recherché à l'instant t pour construire une nouvelle valeur qui sera meilleur. Le V_t est bien ce que vous dites, l’espérance des gains, mais à t0, on ne le connaît pas encore, d’où la nécessité d'avoir un algo itératif. J'espère vous avoir éclairé un peu :)
@koenvanduin7141
4 жыл бұрын
@@l42project47 Je crois mieux comprendre maintenant. Merci
@l42project47
4 жыл бұрын
Ce que vous faites ici est le plus important, rester sur les formules jusqu’à avoir parfaitement compris chacun des termes, beaucoup on tendance à vite passer aux exercices sans trop comprendre la formule. Il ne faut pas hésiter à revenir régulièrement sur toutes ces formules
@khallafaissa5230
4 жыл бұрын
merci bocp mensieur,,, svp est ce que vous me pouvez aider d'ecrir un programme python pour MDP sur les réseau sans fils
@yazanelmahmoud9947
2 жыл бұрын
Vous n'expliquer les choses par étapes et vous tenter d'expliquer une grosse formule/ code directement sans le construire avec nous. Cela rend les choses compliquées. Vous n'appliquer pas des exemples d'application sur l'équation alors que c'est nécessaire pour comprendre