首先,泰勒展开,负梯度方向是descent direction。
其次,梯度下降(其他的line search、trust region也一样)只有在原问题是凸问题的情况下,才能保证以任意精度(因为毕竟是数值方法)取得最优解。
非凸情况下,改进的GD(比如随机初始化,escape  saddle等trick等等)也只能保证以概率无限接近于1取得局部最优。