1. 以概率学来解释OLR(Ordinary Linear Regression):y = h(x) + e, 如果e是IID的同时服从高斯分布的话,则P(y|x;\theta) ~ N(h(x), \sigma^2),如下图所示:
    图片说明
    那么在样本分布独立的情况下,最终概率是各个样本概率的乘积,也就是似然估计

  2. LR采用MLE是因为如果用Euclidean distance作为损失函数得到的函数不是凸函数(non-convex),用gradient descent做优化有可能会得到局部最优而非全剧最优。

  3. 个人理解,有错误欢迎指正,图片来源于Andrew的机器学习课件。