打破机器学习中的小数据集诅咒

发布时间：2019-06-20 04:20:19 所属栏目：教程来源：大数据文摘

导读：副标题#e# 大数据文摘出品编译：栾红叶、stats熊、蒋宝尚最近深度学习技术实现方面取得的突破表明，顶级算法和复杂的结构可以将类人的能力传授给执行特定任务的机器。但我们也会发现，大量的训练数据对深度学习模型的成功起着至关重要的作用。就拿Resnet

上述公式给出了斜率和截距的估测点，但这些估值总是存在一些不确定性，这些不确定性可由方差方程量化：

打破机器学习中的小数据集诅咒

因此，随着数据数量的增加，分母会变大，就是我们估测点的方差变小。因此，我们的模型对潜在关系会更加自信，并能给出稳定的系数估计。通过以下代码，我们可以看到上述现象的实际作用：

打破机器学习中的小数据集诅咒

图6：在线性回归中增加数据量对估测点位置估测的提升

我们模拟了一个线性回归模型，其斜率(b)=5，截距(a)=10。从图6(a)(数据量小)到图6(b)(数据量大)，我们建立了一个衰退模型，此时我们可以清楚地看到斜率和截距之间的区别。在图6(a)中，模型的斜率为4.65，截距为8.2，而图6(b)中模型的斜率为5.1，截距为10.2相比，可以明显看出，图6(b)更接近真实值。

k近邻(k-NN)：k-NN是一种用于回归和分类里最简单但功能强大的算法。k-NN不需要任何特定的训练阶段，顾名思义，预测是基于k-最近邻到测试点。由于k-NN是非参数模型，模型性能取决于数据的分布。在下面的例子中，我们正在研究iris数据集，以了解数据点的数量如何影响k-NN表现。为了更好表现结果，我们只考虑了这组数据的四个特性中的两个：萼片长度和萼片宽度。

KNN中预测类随数据大小的变化

图7：KNN中预测类随数据大小的变化

后面的实验中我们随机从分类1中选取一个点作为试验数据(用红色星星表示)，同时假设k=3并用多数投票方式来预测试验数据的分类。图7(a)是用了少量数据做的试验，我们发现这个模型把试验点错误分在分类2中。当数据点越来越多，模型会把数据点正确预测到分类1中。从上面图中我们可以知道，KNN与数据质量成正相关，数据越多可以让模型更一致、更精确。

决策树算法：与线性回归和KNN类似，也受数据数量的影响。

根据数据的大小形成不同的树状结构

图8：根据数据的大小形成不同的树状结构

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/5

首页

尾页