对于不平衡数据集平衡误差是因为随机森林在损失函数里为不同的类设置了不同的权重。至于第二个我觉得是有影响的,因为随机森林单个的树一般都是不剪枝充分生长的,数据量多的话为了能够完全拟合数据决策树分裂的深度会更高,当然第二个是我个人见解,仅供参考