batch,1的话随机性太大,要走很多弯路,10000的话就体现不出不同batch的样本差异了,波动不大,容易陷入局部最优