评论详情-牛客网

以概率学来解释OLR(Ordinary Linear Regression)：y = h(x) + e, 如果e是IID的同时服从高斯分布的话，则P(y|x;\theta) ~ N(h(x), \sigma^2)，如下图所示：

那么在样本分布独立的情况下，最终概率是各个样本概率的乘积，也就是似然估计。
LR采用MLE是因为如果用Euclidean distance作为损失函数得到的函数不是凸函数(non-convex)，用gradient descent做优化有可能会得到局部最优而非全剧最优。
个人理解，有错误欢迎指正，图片来源于Andrew的机器学习课件。