统计学习引入
参考:https://blog.princehonest.com/stat-learning/
0 基本问题
什么情况下需要进⾏估计f?
Y作为预测,其精确度依赖于哪些量?
如何区分推断和预测?
推断中常⽤的基本问题有哪些?
如何利⽤均⽅误差计算可约误差和不可约误差?
估计f的⽅法有哪些?
半指导学习的适⽤的数据模型为哪些?
模型的拟合效果如何评价(针对回归类模型)?
描述曲线光滑度的量是什么?
光滑度和偏差、⽅差的关系?
分类模型最常⽤的估计精度的⽅法是什么?
⻉叶斯错误率如何计算?
KNN算法的实现步骤?
光滑度⾼的模型优缺点是什么?适⽤的情况是什么?
KNN算法中当K逐渐增⼤,边界将如何变化?
1 统计学习历史人物
托马斯·贝叶斯,18世纪英国数学家,提出贝叶斯定理。
高斯提出正态分布。
19世纪初,勒让德,高斯在发表有关最小二乘法的文章时,提出了线性回归的最早形式。
1936年费舍尔提出了线性判断分析,之后又有人提出了逻辑斯蒂回归。
70年代,内尔德和韦德伯恩提出了广义线性回归。
20 世纪 80 年代,计算技术条件具备,非线性模型不再受计算的困扰。
80 年代中期,布赖曼( Breiman) 、弗里德曼( Friedman) 、奥申 ( Olshen) 和斯通 (Stone) 提出了分类回归树,以及交叉验证法。
1986 年,哈斯帖( Hastie) 和提布施瓦尼( Tibshirani )提出广义可加模型,开发了实用软件实现模型。
卡尔·皮尔逊提出了统计假设检验,相关系数, 卡方检验,P值。
威廉·希利·戈塞提出统计学t检验。
罗纳德·费雪提出方差分析、Fisher精确检验。
C R 拉奥提出C-R不等式、Rao-Blackwell定理、微分几何和统计。
弗罗伦斯·南丁格尔,英国护士,提出南丁格尔玫瑰图。
2.1 什么是统计学习
输入变量通常用 X 表示,也称为预测变量、自变量、属性变量
输出变量通常用 Y 表示,也称为响应变量、因变量
f是X的函数,固定但未知,f表达了X提供给Y的系统信息,ε是随机误差项(与X独立,均值为0)
2.1.1 什么情况下需要估计f
预测和推断。
预测主要关心f的估计值的准确性,不关注其是如何预测的(将f当作黑箱)精确性包括可约误差与不可约误差,可约误差可以通过选择更合适的统计学习方法降低
推断主要关心$X_1$,$X_2$,...变化时如何对Y产生影响(不能将f当作黑箱)
2.1.2 如何估计f
估计f的⽅法有哪些?估计任务大多可分为参数方法和非参数方法
参数方法假设函数f具有一定的形式,用训练数据集去拟合模型(估计参数),即把估计f的问题简化到估计一组参数
非参数方法不对函数f的形式做明确的假设,追求尽可能接近数据点,例如薄板样条
过拟合:拟合了错误或噪声
2.1.3 预测精度和模型解释性的权衡
一般来说,当一种方法的光滑度增强时,其解释性减弱
2.1.4 指导学习和无指导学习
指导学习:数据集中有对应的响应变量来指导数据分析,例如逻辑斯蒂回归、支持向量机
无指导学习:数据集缺乏一个响应变量来指导数据分析,例如聚类分析
半指导学习:部分有,部分没有
2.1.5 回归与分类问题
变量常分为定量和定性两种类型。响应变量定量是回归问题,响应变量定性则是分类问题
2.2 评价模型精度
2.2.1 拟合效果检验
常用的评价准则是均方误差(mean squared error, MSE)
其中,n是观测个数。
我们的目标是使模型的测试均方误差最低。
当模型的光滑度增加时,训练均方误差降低,但是测试均方误差不一定降低
当模型有较小的训练均方误差,但是有较大的测试均方误差时,称为过拟合
降低模型的光滑度可以减小测试均方误差
自由度是描述曲线光滑程度的正式术语
2.2.2 偏差-方差权衡
期望平方误差值能分解为:预测值$\hat{f}(x_0)$的方差、预测值$\hat{f}(x_0)$的偏差的平方、误差项ε的方差
因此我们需要得到一个偏差和方差综合起来最小的模型
偏差(bias)指的是为了选择一个简单的模型逼近真实函数而被带入的误差
方差(variance)代表的是用一个不同的训练数据集估计f时,估计函数的改变量
如果一个统计学习模型被称为测试性能好,则要求该模型有较小的方差和较小的偏差
线性回归
系数个数增多
系数个数减少
K最近邻(KNN)
K减小
K增大
岭回归/Lasso
λ减小
λ增大
多项式回归
最高项次数增大
最高项次数减小
阶梯函数
分割点个数增多
分割点个数减少
回归样条
自由度增大
自由度减小
光滑样条
λ减小
λ增大
局部回归
比例s减小
比例s增大
广义可加模型
--
--
决策树
α减小
α增大
支持向量分类器
C减小/cost值增大
C增大/cost值减小
2.2.3 分类模型
常用的评价准则是错误率,定义为:
其中,n是观测个数。
是一个示性变量,当,值为1,否则为0
常用的方法是贝叶斯分类器、K最近邻方法。
贝叶斯分类器中,观测$x_0$会被分配到使下面式子值最大的 j 类:
在图上,使用贝叶斯分类器画出的分割线称为贝叶斯决策边界。
贝叶斯分类器将产生的最低的测试错误率被称为贝叶斯错误率,类似于不可约误差。一般来说,贝叶斯错误率是:
在K最近邻方法中,贝叶斯规则为:
其中,表示最接近 的 K 个点的集合。
说人话,就是看 $x_0$ 旁边的点的类别,近朱者赤。
当 K 增加时,模型的线性程度增强。
最后更新于