打破机器学习中的小数据集诅咒

发布时间：2019-06-20 04:20:19 所属栏目：教程来源：大数据文摘

导读：副标题#e# 大数据文摘出品编译：栾红叶、stats熊、蒋宝尚最近深度学习技术实现方面取得的突破表明，顶级算法和复杂的结构可以将类人的能力传授给执行特定任务的机器。但我们也会发现，大量的训练数据对深度学习模型的成功起着至关重要的作用。就拿Resnet

决策树也是一种非参数模型，它试图最好地拟合数据的底层分布。拆分是对特性值执行的，目的是在子级创建不同的类。由于模型试图最好地拟合可用的训练数据，因此数据的数量直接决定了分割级别和最终类。从上面的图中我们可以清楚的看到，数据集的大小对分割点和最终的类预测有很大的影响。更多的数据有助于找到最佳分割点，避免过度拟合。

如何解决数据量少的问题?

打破机器学习中的小数据集诅咒

图9：数据量少的基本含义和解决它的可能方法和技术

上图试图捕捉处理小数据集时所面临的核心问题，以及解决这些问题的可能方法和技术。在本部分中，我们将只关注传统机器学习中使用的技术。

改变损失函数：对于分类问题，我们经常使用交叉熵损失，很少使用平均绝对误差或平均平方误差来训练和优化我们的模型。在数据不平衡的情况下，由于模型对最终损失值的影响较大，使得模型更加偏向于多数类，使得我们的模型变得不那么有用。

在这种情况下，我们可以对不同类对应的损失增加权重，以平衡这种数据偏差。例如，如果我们有两个按比例4:1计算数据的类，我们可以将比例1:4的权重应用到损失函数计算中，使数据平衡。这种技术可以帮助我们轻松地缓解不平衡数据的问题，并改进跨不同类的模型泛化。我们可以很容易地找到R和Python中的库，它们可以帮助在损失计算和优化过程中为类分配权重。Scikit-learn有一个方便的实用函数来计算基于类频率的权重:

我们可以用class_weight=‘balanced’来代替上面的计算量，并且与class_weights计算结果一样。我们同样可以依据我们的需求来定义分类权重。

异常/变更检测：在欺诈或机器故障等高度不平衡的数据集的情况下，是否可以将这些例子视为异常值得思考。如果给定的问题满足异常判据，我们可以使用OneClassSVM、聚类方法或高斯异常检测方法等模型。这些技术要求我们改变思维方式，将次要类视为异常类，这可能帮助我们找到分离和分类的新方法。变化检测类似于异常检测，只是我们寻找的是变化或差异，而不是异常。这些可能是根据使用模式或银行事务观察到的用户行为的变化。

打破机器学习中的小数据集诅咒

图10：过采和欠采样的情况

上采样还是下采样：由于不平衡的数据本质上是以不同的权重惩罚多数类，所以解决这个问题的一个方法是使数据平衡。这可以通过增加少数类的频率或通过随机或集群抽样技术减少多数类的频率来实现。过度抽样与欠抽样以及随机抽样与集群抽样的选择取决于业务上下文和数据大小。一般来说，当总体数据大小较小时，上采样是首选的，而当我们有大量数据时，下采样是有用的。类似地，随机抽样和聚集抽样是由数据分布的好坏决定的。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/5

首页

尾页