标签:q-learning

  • Q学习,测验次数对收敛有什么影响? - python

    时间:2020-7-28

    在下面的代码中,这是通过Q学习解决FrozenLake 4x4的代码。在培训部分,为什么我们要播放20集测试环境,而不是每个循环只播放1集?我尝试了两次迭代: 在测试环境中进行20次迭代时,代理会在16000次尝试中进行收敛。 进行1次测试环境迭代时,代理程序收敛的次数少于1000次。 import gym import collections from t […]