Google科学家最新整理，给新手推荐的十篇优秀数据科学文章

发布时间：2019-08-20 21:46:53 所属栏目：教程来源：skura

导读：副标题#e# 作为数据科学的初学者，一些好的文章能够快速带我们入门这一充满了未知和挑战的领域。近日，google 决策智库的主管 Cassie Kozyrkov 整理了十篇给学生们推荐的优秀文章。下面这些文章几乎都来自于相同的博客。让我们来看看是哪些文章吧~ #1 理

在实况课堂上，谷歌用户会大声回答「坐着还是站着」、「能看到木地板还是不能看到」、「猫自拍还是不猫自拍」等等，让我们检查一下第一个答案。

将图像分成两组的一种方法是：坐着和站着。好吧，「坐」对「站」。

如果你认为「坐着还是站着」是标签，那就再想想吧!这就是您用来创建集群的方法(模型)。在无监督的学习中，标签更为乏味：比如「第 1 组和第 2 组」或「A 或 B」或「0 或 1」。它们只是表示群体成员，没有额外的人类可解释(或诗意)的含义。

无监督学习的标签只表示集群成员。他们没有更高的人类可解释的意义，可能会感到令人失望的无聊。

这里所发生的一切就是算法通过相似性对事物进行分组。相似性度量是由算法的选择来指定的，但是为什么不尽可能多地尝试呢?毕竟，你不知道自己在找什么。

经验教训：

总结：无监督学习通过将相似的东西分组在一起，帮助你从数据中找到灵感。定义相似度有很多不同的方法，所以继续尝试算法和设置，直到一个很酷的模式吸引你的眼球。

#4 数据科学简史

文章地址：https://www.forbes.com/sites/insights-intelai/2019/05/22/automated-inspiration/#78a3aeb1c44f

在 19 世纪，医生可能给情绪波动开含有汞的处方，给哮喘开含有砷的处方。他们可能不会在你手术前洗手。他们不是想杀害你，只是不知道这样做更好。

这些早期的医生在他们的笔记本上记录着有价值的数据，但就像一个巨大的拼图游戏，每个人都只拿了一小块。如果没有共享和分析信息的现代工具以及理解这些数据的科学，那么就没有多少东西可以阻止迷信通过可观察到的表面事实来进行判断的方法。

从那时起，人类在技术上取得了长足的进步，但今天机器学习(ML)和人工智能(AI)的蓬勃发展并没有真正打破过去的局面。

后来，人们发明了第一个数据存储和共享技术。存储数据集的能力代表了通往更高智能道路上突破性的第一步。

不幸的是，获取信息是一件痛苦的事情。你必须把每一个单词上传到你的大脑来处理它。这使得早期的数据分析非常耗时，因此最初的研究一直止步不前。

幸运的是，有一些令人难以置信的先驱。例如，JohnSnow 在 1858 年伦敦霍乱爆发期间绘制的死亡地图，激发了医学界重新考虑了这种疾病是由毒气引起的迷信，并开始仔细观察饮用水。「拿着灯的女士」，弗洛伦斯南丁格尔在克里米亚战争期间创造性的用信息图表分析出医院死亡的主要原因，挽救了许多人的生命。

数据的美妙之处在于它能让你从中形成一种观点。通过查看信息，你会受到启发提出新的问题，。这就是分析学科所要做的：通过探索来激励模型和假设。

在 20 世纪初，在不确定的情况下做出更好决定的愿望导致了一个平行的职业的诞生：统计学。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!