DAMODARAN B.K

Last seen: presque 5 ans il y a | Actif depuis 2021

Followers: 0 Following: 0

Statistiques

Feeds

All (2)
MATLAB Answers (2)

Question

Why RL agent performs same actions repeatedly still it does not constitute optimal policy or better episode Q0.Can anyone explain?

plus de 5 ans il y a | 1 réponse | 0

0

réponse

Question

Episode Q0 increases exponentially
Can anyone explain why episode Q0 in RL increases exponentially after convergence of reward to a suboptimal policy?

plus de 5 ans il y a | 1 réponse | 0

1

réponse