1. Frequentist view
Frequentist approach views the model parameters as unknown constants(未知的常数,而不是一个变量,variable) and estimates them(参数估计) by matching the model to the training data using an appropriate metric (某个适当的准则,criterion)。
比如对于,{ (x⃗ i,yi)}Ni=1 训练数据给定,对其进行线性估计(linear regression):
∑i=1N(yi−x⃗ Tiα⃗ )2
通过最小二乘对 α 进行估计。频率学派,在统计的观点下,常用的模型是 MLE,最大似然估计。同样也可从 MLE 的角度,理解上述公式,y∼N(x⃗ Tα,σ2)=12π√σexp(−(y−x⃗ Tα)22σ2),则假定不同的 yi 是独立同分布的,则对于全部样本有:
ΠNi=1(12π−−√σ)Nexp(∑(yi−x⃗ Tiα⃗ )2)
最后取对数,再转化为最小化,和最小二乘形式是相同的。
2. Bayesian 观点
首先和频率派观点相同的是,模型是某一概率分布,也即服从,y∼N(x⃗ Tα,σ2),Bayesian 观点要再向前走一步,参数 α 为某一随机变量,
- 模型:生成数据,概率分布;(似然概率)
- 参数:random variable,先验概率(prior);
- α∼N(0,λ2):
- σ∼Γ(⋯)(必须为正值)
后验 ∝ 先验 * 似然:
p(α|X)∝p(α)⋅p(X|α)
- 点估计:MAP,最大后验估计;
- 基于后验,做采样,称为贝叶斯分析;