机器学习笔记之贝叶斯线性回归——线性回归背景介绍
- 引言
- 回顾:线性回归
- 场景构建
- 从概率密度函数认识最小二乘法
- 回顾:最小二乘估计
- 回顾:线性回归与正则化
- 关于线性回归的简单小结
- 贝叶斯线性回归
- 贝叶斯方法
- 贝叶斯方法在线性回归中的任务
- 贝叶斯线性回归推断任务介绍
引言
本节开始,介绍贝叶斯线性回归(Bayesian Linear Regression)。
回顾:线性回归
场景构建
给定数据集合,其中样本是维随机变量,对应的标签信息是一维随机变量:
从概率密度函数认识最小二乘法
给定数据集合以及相应拟合直线表示如下:
其中直线的表达式为:
这里‘偏置信息’
忽略掉,
表示样本的第
维特征信息。
从概率密度函数角度观察,标签分布可看作是的基础加上均值为0的高斯分布噪声:
是包含
维特征的随机变量集合;
是一个一维随机变量;
表示一维高斯分布(它和
的维数相同)。
回顾:最小二乘估计
关于线性回归问题求解模型参数时,使用的是最小二乘估计(Least Square Estimation,LSE):
并且通过最小二乘估计,求解模型参数的矩阵形式表达:矩阵表达的弊端
:
是一个
的对称矩阵,它至少是半正定矩阵,但不一定是正定矩阵。从而导致
可能是不可求的。
-
由于
是样本集合,如果
的样本量较大,会导致
的计算代价极高。
从概率密度函数角度观察,最小二乘估计本质是极大似然估计(Maximum Likelihood Estimate,MLE):
给定样本和对应标签之间的关联关系,可以得到的概率分布:这里先将
写在上面。
对似然函数进行构建:将高斯分布的概率密度函数带入~
使用极大似然估计对最优模型参数进行计算:其中
均是与
无关的量,视作常数。
这里令关于极大似然估计关于的求解公式与最小二乘估计相同。
回顾:线性回归与正则化
针对最小二乘估计的过拟合 问题,引入正则化(Regularized)。常见的正则化有两种方式:
- Lasso回归(正则化)
- 岭回归(Ridge回归;正则化)
从概率密度函数角度考虑基于正则化的最小二乘估计,可将其视作关于的最大后验概率估计(Maximum a Posteriori Probability,MAP):
由于样本间独立同分布,因而有:增加一个
函数,不影响最值的取值结果。
令先验分布,将一同代入上式,有:这里既包含对
分布的假设。也包含关于高斯噪声
的假设。该假设完全写法是
只不过这里
是已知量,省略掉了。
令时,上式将转化为:
上述是关于岭回归分布的假设,如果是Lasso回归,将分布假设为拉普拉斯分布(Laplace Distribution)。
关于线性回归的简单小结
无论是最小二乘估计还是包含了正则化的最小二乘估计,其本质均是频率派的求解方式,将模型参数视作未知常量,通过极大似然估计、最大后验概率估计等方式对进行优化,从而使目标函数达到最值。本质上是‘优化问题’。
并且这种估计方式是点估计(Point Estimation),由于概率模型能够源源不断的生成样本,理论上无法完美地、精确描述概率模型的分布信息,只能通过有限的样本集合来估计模型参数。也就是说,使用‘统计得到的样本集合’估计总体参数。
假设某概率模型服从高斯分布:,这里的是描述概率分布的参数,是固定的。但是该概率模型可以生成无穷无尽的样本,假设某样本集合是生成出的一部分样本,我们通过统计的方式得到该样本的均值、方差去估计真正的参数。
贝叶斯线性回归
区别于频率派的点估计方式,贝叶斯派使用的是贝叶斯估计(Bayesian Estimation)。此时的参数不再是一个未知的常量,而是一个随机变量。
对于的估计过程中,需要通过给定数据估计出的后验概率分布。
贝叶斯方法
在变分推断——基本介绍中介绍过贝叶斯学派角度认识问题。其核心是:不同于频率派将模型参数看作未知的常量,而是将看作随机变量,从而求解的后验概率分布,基于该分布,对新样本进行预测:令新样本为
,预测任务可表示为
.
贝叶斯方法在线性回归中的任务
针对上述贝叶斯方法的描述,在线性回归中的任务包含以下两个:
- 推断任务(Inference):通过贝叶斯定理,求解后验概率。
- 预测任务(Prediction):基于后验概率,对新样本的后验进行估计。
贝叶斯线性回归推断任务介绍
后验概率表示如下:数据集合
包含样本集合
和对应标签集合
.
其中是似然(Likelihood),是先验分布(Piror Distribution)。实际上是
,由于
不对
产生影响,这里省略。这个先验分布是推断之前给定的某一种分布。
由于样本之间独立同分布,因而似然可表示为如下形式:根据上面介绍的线性回归模型,样本
和对应标签
之间是‘包含均值为0高斯噪声的线性关系’
:
关于先验分布,我们同样假设它是一个 均值为0的高斯分布:其中
表示先验高斯分布的‘协方差矩阵’,由于
和
维度相同,因而
.
至此,关于的后验概率分布可表示为:贝叶斯定理的分母部分称作’证据‘(Evidence),它可看作关于数据集合
的一个常量(因为数据集合是已知的),和参数
无关。
观察,由于似然服从高斯分布,并且先验分布同样假设为高斯分布,因而后验分布同样服从高斯分布。
-
这里用到了
指数族分布的共轭性质,具体描述是:似然
存在一个共轭的先验分布
,对应效果是:后验分布
与先验分布形成相同的分布形式。
并且高斯分布是一个包含’自共轭性质‘的指数族分布。即高斯分布是高斯分布自身的’共轭分布‘。
定义后验的高斯分布为,具体表示如下:
下一节将介绍的求解过程。