state的感知,action枚举和选择,reward测算 在rl里state,action,reward循环图。