加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 业界 > 正文

那些你不可不知的机器学习“民间智慧”

发布时间:2018-04-28 02:43:36 所属栏目:业界 来源:李佳惠
导读:副标题#e# 【资讯】机器学习算法可以通过从例子中推广来弄清楚如何执行重要的任务。在手动编程的情况下,这通常是可行且成本有效。随着更多的数据变得可用,可以解决更多雄心勃勃的问题。因此,机器学习被广泛应用于计算机等领域。然而,开发成功的机器学习

  初学者常常惊讶于机器学习项目中实际上机器学习的时间太少。但是,如果考虑收集数据、整合、清理和预处理以及在功能设计中可以进行多少尝试和错误,这是非常有意义的。另外,机器学习不是建立数据集和运行学习者的一次性过程,而是运行学习者、分析结果、修改数据和/或学习者并重复的迭代过程。学习通常是最快速的部分,但那是因为我们已经掌握了很好的技巧!特征工程更加困难,因为它是特定领域的,而学习者可以在很大程度上是通用的。但是,两者之间没有尖明确的边界,这也是最有用的学习者是促进知识整合的另一个原因。  那些你不可不知的机器学习“民间智慧”!

  8 - 更多数据能击败更聪明的算法

  在大多数计算机科学中,这两种主要的有限资源是时间和记忆。在机器学习中,还有第三个:训练数据。哪一个瓶颈已经从十年变为十年了,在八十年代,这往往是数据,在今天往往是时间。大量的数据是可用的,但没有足够的时间来处理它,所以它没有被使用。这导致了一个矛盾:即使原则上有更多的数据意味着可以学习更复杂的分类器,但实际上更简单的分类器被使用,因为复杂的分类器需要很长的时间学习。部分答案是想出快速学习复杂分类器的方法,而且在这方面的确有了显显著的进展。

  使用更聪明的算法的部分原因是有一个比你所期望的更小的回报,第一个近似,他们是一样的,当你认为表述与规则集和神经网络不同时,这是令人惊讶的。但事实上,命题规则很容易被编码为神经网络,其他表征之间也存在类似的关系。所有学习者本质上都是通过将附近的例子分组到同一个类来工作的,关键的区别在于“附近”的含义。在非均匀分布的数据下,学习者可以产生广泛不同的边界,同时在重要的区域(即具有大量训练示例的那些区域)中也做出相同的预测,大多数文本示例可能会出现)。这也有助于解释为什么强大的学习可能是不稳定的,但仍然准确。

  通常,首先尝试最简单的学习者(例如,逻辑回归之前的朴素贝叶斯,支持向量机之前的k-最近邻居)是值得的。更复杂的学习者是诱人的,但他们通常也更难使用,因为他们有更多的旋钮,你需要转向获得好的结果,因为他们的内部是更不透明的)。

  那些你不可不知的机器学习“民间智慧”!

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读