为什么 大规模深度CTR预估中Adam与Adagrad怎么选择,为什么对稀疏离散特征使用Adagrad, 而对连续特征(Dense)使用Adam?楼主有答案吗