Clearly one of the best videos on the topic, the use of examples was really good.
@MrTommyorgryte
Жыл бұрын
😂
@mmattb
3 жыл бұрын
Unusually clear presentation; well done Alexander.
@vinodpareek2268
4 жыл бұрын
You are one of the best teacher i have ever seen..
@nosachamos
3 жыл бұрын
Fantastic, very clear and concise. Great work!
@AK47dev1_YT
2 жыл бұрын
فوق العاده بود آقای امینی
@romesh58
3 жыл бұрын
Great video. The whole series is very good
@mehwishqazi4381
4 жыл бұрын
Very well explained. How to get the slides? The link in the bio mentions coming soon!
@ycnim34
5 жыл бұрын
Thank you all for these great videos. One thing I want to mention is that the audio volume is a little bit too low
@davidsasu8251
Жыл бұрын
I love you guys!
@scottterry2606
3 жыл бұрын
Outstanding. Thank you.
@ahmarhussain8720
Жыл бұрын
very good way of explaining
@Lezmonify
5 жыл бұрын
Is there a typo at 10:01? Intuitively, it seems like the exponent of γ should (i - t) since, in current formulation, the reward terms will quickly go to 0 when t becomes large.
@brycejianchen2795
4 жыл бұрын
Yes, I think the coefficient of r[t] should be gamma^0 which is one here
@r00t67
4 жыл бұрын
Very good lecture. Just one moment, i not unrestand hot it policy createng (maby Alexander show it by laser stick, but it not showing in slides)
@hullopes
3 жыл бұрын
It was very clear and helpful.
@hanimahdi7244
3 жыл бұрын
Thank you!
@shambles7409
3 жыл бұрын
in 34:35 how do I calculate the log-likelihood of the action given the state?
@SHUBHAMKUMAR-xe4is
4 жыл бұрын
Amazing video... Kind of Reinforcement Learning in a nutshell..
@malekbaba7672
5 жыл бұрын
Thank you so much guys.
@vincentkaruri2393
4 жыл бұрын
This is really good. Thank you!
@Inviaz
5 жыл бұрын
What is max Q (s' , a' ) ? When i have a lot of future states and they are unknown , how can I destinate the max Q ( s' , a' ) ? 24:00
@tracev9381
5 жыл бұрын
sample your network again with the new state.
@sarthaksg
5 жыл бұрын
Here, s' is the next upcoming state and a' is the next action. Max Q(s',a') would be the max of all the Q values for the next action and state. In that equation, the left term is an estimated "actual" value of the future reward which is the sum of the current reward and the reward of the next best action.
@imadeddineibrahimbekkouch11
5 жыл бұрын
If your state space is uncountable or continuous, don't use Q models
@niazmorshedulhaque4519
4 жыл бұрын
Excellent tutorial indeed
@samgears3937
4 жыл бұрын
At 36.02 does anyone know what theta is? is it a policy?
@AAmini
4 жыл бұрын
Theta represents all of the weights of the neural network policy (pi), which is a network that takes as input the state (s_t) and outputs the likelihood of taking each action (a_t).
@harrypotter1155
5 жыл бұрын
What a really nice course!
@waqasaps
3 жыл бұрын
wow, thanks.
@hhumar987
4 жыл бұрын
can you also teach how to write code for it?
@chicagogirl9862
4 жыл бұрын
Good course, thankyou
@sitrakaforler8696
Жыл бұрын
Dude it's awesome T^T
@forheuristiclifeksh7836
6 ай бұрын
7:00
@muhammadnajamulislam2823
5 жыл бұрын
please increase sound level
@davidj1395
3 жыл бұрын
WHAT?!
@canelbuino7087
2 жыл бұрын
This is why terminator is so fake... The AI will learn not to miss a shot within 20mins.
Пікірлер: 38