加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动 > 正文

这就是您在数据科学中获得数据的方式

发布时间:2019-12-26 14:34:45 所属栏目:移动 来源:站长网
导读:副标题#e# 数据科学已经发展。 这2000万个数据集就是证明。 (Er, wrong Data search tool.) 我最近最喜欢的Google搜索系列产品之一是数据集搜索。 是的,你听到的是对的。 您可以像搜索图像一样搜索数据集! 您现在可以像搜索图像一样搜索数据集! You can pl

schema.org的构想由一个财团于2011年提出:Google,Bing,Yandex,Microsoft和Yahoo。 他们厌倦了猜测已爬取网页的内容,因此他们决定创建一个通用词汇表,供提供者用来告诉他们什么。 该词汇表已嵌入HTML中,以指示哪些位描述了事件,地址,配方等。 它是一个描述不同类型信息的小模式(因此得名!)。 当您选择将schema.org添加到页面并告诉它页面包含数据集时,该数据集将有资格显示在"数据集搜索"结果中。

数据提供商使用schema.org告诉我们他们的页面上有一个数据集,并描述了一些有关它的元数据。

这不是Google特有的魔法; 这是任何人都可以贡献的开放社区标准。 许多公司已经在后台使用了多年。 Google专有的功能是您可以使用"数据集搜索"搜索这些数据集的新功能。 我们让数据提供商使用schema.org告诉我们他们的页面上有一个数据集,并描述一些有关它的元数据。 数据集搜索与常规搜索非常相似,但是结果仅限于声称拥有数据集的页面。 简单实用。

如何参与共享数据

当数据仅来自负责精心策划每个人的少数大型提供商(例如政府和大学)时,较小的参与者就没有共享它们的途径。

想象一下这种情况:一群高中女生正在从事课外机器人项目。 他们正在收集大量数据,这些数据可能对具有相似爱好的人非常有用。 他们甚至愿意分享它(他们多么友好)。 他们已经在高中网站上添加了指向该网站的链接。 恰好它们的数据恰好是帮助您进行原型制作所需的。 现在怎么办?

这就是您在数据科学中获得数据的方式


All-girls Afghan robotics team. Image: SOURCE.

如果他们的数据集不可搜索,那么您将永远找不到。 如果必须由策展人(如政府)托管他们的数据以便访问,则会被告知要排队……而且他们可能永远也不会出现在前列。 那些花费大量资源进行大量策展的提供者只有有限的时间和注意力集中在优先资源上。 结果如何? 您永远不会知道错过了什么。

这就是为什么我觉得整个数据集搜索范式非常漂亮的原因。 共享数据(无需中间人告诉您迷路)意味着即使人们有小众口味,也可以找到并提供丰富的资源……或者使高中网站晦涩难懂。

参与共享可搜索数据:

您需要数据。

您需要通过schema.org指示您有数据。 (您可以自己执行此操作,也可以将其放入Zenodo这样的存储库中,为您执行此操作。)

其他

希望同时满足这两个条件的意愿因地而异,这并不使您感到惊讶。 政府是率先索引其数据集的政府之一,因此,他们倾向于收集的数据集(天气数据,有人吗?)是您疯狂进食的最佳人选,而稀疏收集的专有数据将很少出现。 也就是说,每天都在添加更多数据,搜索为免费和付费数据提供了方便。 (有点像Google图片中带有水印的专有图片。)您可以根据自己的意愿选择要经过的门,以及收费是否值得。

人类的大局

诸如数据集搜索之类的庞大用户群,是人类在数据科学和数据素养方面的发展的象征。 我们正在成长为一个物种,并且正在扩展我们部署感官的方式,以及与信息进行交流的方式。

数据分析正在成为每个人的游戏。

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读