那些你不可不知的机器学习“民间智慧”

发布时间：2018-04-28 02:43:36 所属栏目：业界来源：李佳惠

导读：副标题#e# 【资讯】机器学习算法可以通过从例子中推广来弄清楚如何执行重要的任务。在手动编程的情况下，这通常是可行且成本有效。随着更多的数据变得可用，可以解决更多雄心勃勃的问题。因此，机器学习被广泛应用于计算机等领域。然而，开发成功的机器学习

　　初学者常常惊讶于机器学习项目中实际上机器学习的时间太少。但是，如果考虑收集数据、整合、清理和预处理以及在功能设计中可以进行多少尝试和错误，这是非常有意义的。另外，机器学习不是建立数据集和运行学习者的一次性过程，而是运行学习者、分析结果、修改数据和/或学习者并重复的迭代过程。学习通常是最快速的部分，但那是因为我们已经掌握了很好的技巧！特征工程更加困难，因为它是特定领域的，而学习者可以在很大程度上是通用的。但是，两者之间没有尖明确的边界，这也是最有用的学习者是促进知识整合的另一个原因。　　那些你不可不知的机器学习“民间智慧”！

　　8 - 更多数据能击败更聪明的算法

　　在大多数计算机科学中，这两种主要的有限资源是时间和记忆。在机器学习中，还有第三个：训练数据。哪一个瓶颈已经从十年变为十年了，在八十年代，这往往是数据，在今天往往是时间。大量的数据是可用的，但没有足够的时间来处理它，所以它没有被使用。这导致了一个矛盾：即使原则上有更多的数据意味着可以学习更复杂的分类器，但实际上更简单的分类器被使用，因为复杂的分类器需要很长的时间学习。部分答案是想出快速学习复杂分类器的方法，而且在这方面的确有了显显著的进展。

　　使用更聪明的算法的部分原因是有一个比你所期望的更小的回报，第一个近似，他们是一样的，当你认为表述与规则集和神经网络不同时，这是令人惊讶的。但事实上，命题规则很容易被编码为神经网络，其他表征之间也存在类似的关系。所有学习者本质上都是通过将附近的例子分组到同一个类来工作的，关键的区别在于“附近”的含义。在非均匀分布的数据下，学习者可以产生广泛不同的边界，同时在重要的区域（即具有大量训练示例的那些区域）中也做出相同的预测，大多数文本示例可能会出现）。这也有助于解释为什么强大的学习可能是不稳定的，但仍然准确。

　　通常，首先尝试最简单的学习者（例如，逻辑回归之前的朴素贝叶斯，支持向量机之前的k-最近邻居）是值得的。更复杂的学习者是诱人的，但他们通常也更难使用，因为他们有更多的旋钮，你需要转向获得好的结果，因为他们的内部是更不透明的）。

　　那些你不可不知的机器学习“民间智慧”！

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/5

首页

尾页

PTC要在工业SaaS领域拔	Analog Devices完成对
诺辉健康发布2021年中	顺丰控股半年报：上半