q learning是off policy的,它每次实验选择下一个a是由behavior policy决定的。这里的behavior policy采用了选择q最大的a。如果是sarsa这种on policy的,它会按照之前学习的target policy去选a,一般是epsilon-greedy。
以上是我个人的理解。