那些你不可不知的机器学习“民间智慧”
初学者常常惊讶于机器学习项目中实际上机器学习的时间太少。但是,如果考虑收集数据、整合、清理和预处理以及在功能设计中可以进行多少尝试和错误,这是非常有意义的。另外,机器学习不是建立数据集和运行学习者的一次性过程,而是运行学习者、分析结果、修改数据和/或学习者并重复的迭代过程。学习通常是最快速的部分,但那是因为我们已经掌握了很好的技巧!特征工程更加困难,因为它是特定领域的,而学习者可以在很大程度上是通用的。但是,两者之间没有尖明确的边界,这也是最有用的学习者是促进知识整合的另一个原因。 8 - 更多数据能击败更聪明的算法 在大多数计算机科学中,这两种主要的有限资源是时间和记忆。在机器学习中,还有第三个:训练数据。哪一个瓶颈已经从十年变为十年了,在八十年代,这往往是数据,在今天往往是时间。大量的数据是可用的,但没有足够的时间来处理它,所以它没有被使用。这导致了一个矛盾:即使原则上有更多的数据意味着可以学习更复杂的分类器,但实际上更简单的分类器被使用,因为复杂的分类器需要很长的时间学习。部分答案是想出快速学习复杂分类器的方法,而且在这方面的确有了显显著的进展。 使用更聪明的算法的部分原因是有一个比你所期望的更小的回报,第一个近似,他们是一样的,当你认为表述与规则集和神经网络不同时,这是令人惊讶的。但事实上,命题规则很容易被编码为神经网络,其他表征之间也存在类似的关系。所有学习者本质上都是通过将附近的例子分组到同一个类来工作的,关键的区别在于“附近”的含义。在非均匀分布的数据下,学习者可以产生广泛不同的边界,同时在重要的区域(即具有大量训练示例的那些区域)中也做出相同的预测,大多数文本示例可能会出现)。这也有助于解释为什么强大的学习可能是不稳定的,但仍然准确。 通常,首先尝试最简单的学习者(例如,逻辑回归之前的朴素贝叶斯,支持向量机之前的k-最近邻居)是值得的。更复杂的学习者是诱人的,但他们通常也更难使用,因为他们有更多的旋钮,你需要转向获得好的结果,因为他们的内部是更不透明的)。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |