加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

统计学和机器学习到底有什么区别?

发布时间:2019-04-24 09:36:10 所属栏目:建站 来源:medium 编译:周家乐、狗小白、蒋宝尚 统计学和机器学习
导读:副标题#e# 大数据文摘出品 来源:medium 编译:周家乐、狗小白、蒋宝尚 统计学和机器学习之间的界定一直很模糊。 无论是业界还是学界一直认为机器学习只是统计学批了一层光鲜的外衣。 而机器学习支撑的人工智能也被称为统计学的外延 例如,诺奖得主托马斯萨

用一个包含20个不同变量的模型来表征传感器的输出显然是一种预测,而且我也没期待模型是可解释的。要知道,由于化学动力学产生的非线性以及物理变量与气体浓度之间的关系等等因素,可能会使这个模型非常深奥,就像神经网络那样难以解释。尽管我希望这个模型能让人看懂, 但其实只要它能做出准确的预测,我就相当高兴了。

如果我试图证明数据变量之间的关系在某种程度上具有统计显著性,以便我可以在科学论文中发表,我将使用统计模型而不是机器学习。这是因为我更关心变量之间的关系,而不是做出预测。做出预测可能仍然很重要,但是大多数机器学习算法缺乏可解释性,这使得很难证明数据中存在的关系。

很明显,这两种方法在目标上是不同的,尽管使用了相似的方法来达到目标。机器学习算法的评估使用测试集来验证其准确性。然而,对于统计模型,通过置信区间、显著性检验和其他检验对回归参数进行分析,可以用来评估模型的合法性。因为这些方法产生相同的结果,所以很容易理解为什么人们会假设它们是相同的。

统计与机器学习在线性回归上的差异

有一个误解存在了10年:仅基于它们都利用相同的基本概率概念这一事实,来混淆这两个术语是不合理的。

然而,仅仅基于这两个术语都利用了概率里相同的基本概念这一事实而将他们混为一谈是不合理的。就好比,如果我们仅仅把机器学习当作皮了一层光鲜外衣的统计,我们也可以这样说:

  • 物理只是数学的一种更好听的说法。
  • 动物学只是邮票收藏的一种更好听的说法。
  • 建筑学只是沙堡建筑的一种更好听的说法。

这些说法(尤其是最后一个)非常荒谬,完全混淆了两个类似想法的术语。

实际上,物理是建立在数学基础上的,理解现实中的物理现象是数学的应用。物理学还包括统计学的各个方面,而现代统计学通常是建立在Zermelo-Frankel集合论与测量理论相结合的框架中,以产生概率空间。它们有很多共同点,因为它们来自相似的起源,并运用相似的思想得出一个逻辑结论。同样,建筑学和沙堡建筑可能有很多共同点,但即使我不是一个建筑师,也不能给出一个清晰的解释,但也看得出它们显然不一样。

在我们进一步讨论之前,需要简要澄清另外两个与机器学习和统计有关的常见误解。这就是人工智能不同于机器学习,数据科学不同于统计学。这些都是没有争议的问题,所以很快就能说清楚。

数据科学本质上是应用于数据的计算和统计方法,包括小数据集或大数据集。它也包括诸如探索性数据分析之类的东西,例如对数据进行检查和可视化,以帮助科学家更好地理解数据,并从中做出推论。数据科学还包括诸如数据包装和预处理之类的东西,因此涉及到一定程度的计算机科学,因为它涉及编码和建立数据库、Web服务器之间的连接和流水线等等。

要进行统计,你并不一定得依靠电脑,但如果是数据科学缺了电脑就没法操作了。这就再次说明了虽然数据科学借助统计学,这两者不是一个概念。

同理,机器学习也并非人工智能;事实上,机器学习是人工智能的一个分支。这一点挺明显的,因为我们基于以往的数据“教”(训练)机器对特定类型的数据进行概括性的预测。

机器学习是基于统计学

在我们讨论统计学和机器学习之间的区别前,我们先来说说其相似性,其实文章的前半段已经对此有过一些探讨了。

机器学习基于统计的框架,因为机器学习涉及数据,而数据必须基于统计学框架来进行描述,所以这点十分明显。然而,扩展至针对大量粒子的热力学的统计机制,同样也建立在统计学框架之下。

压力的概念其实是数据,温度也是一种数据。你可能觉得这听起来不合理,但这是真的。这就是为什么你不能描述一个分子的温度或压力,这不合理。温度是分子相撞产生的平均能量的显示。而例如房屋或室外这种拥有大量分子的,我们能用温度来描述也就合理了。

你会认为热力学和统计学是一个东西吗?当然不会,热力学借助统计学来帮助我们理解运动的相互作用以及转移现象中产生的热。

事实上,热力学基于多种学科而非仅仅统计学。类似地,机器学习基于许多其他领域的内容,比如数学和计算机科学。举例来说:

  • 机器学习的理论来源于数学和统计学
  • 机器学习算法基于优化理论、矩阵代数和微积分
  • 机器学习的实现来源于计算机科学和工程学概念,比如核映射、特征散列等。

当一个人开始用Python开始编程,突然从Sklearn程序库里找出并使用这些算法,许多上述的概念都比较抽象,因此很难看出其中的区别。这样的情况下,这种抽象定义也就致使了对机器学习真正包含的内容一定程度上的无知。

统计学习理论——机器学习的统计学基础

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读