加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

深度:英特尔中国研究院吴甘沙谈大数据

发布时间:2017-01-08 21:37:15 所属栏目:教程 来源:吴甘沙
导读:副标题#e# 【 资讯】大家晚上好,我是吴甘沙,来自英特尔中国研究院。其实今年在大数据的技术研发上花的时间不多,华平硬要我来分享一下,所以认识上有过时或不确切之处,还请原谅。因为工作繁忙,就偷了个懒,我今天分享的内容主要是我昨天在大数据国际峰
副标题[/!--empirenews.page--]

  【 资讯】大家晚上好,我是吴甘沙,来自英特尔中国研究院。其实今年在大数据的技术研发上花的时间不多,华平硬要我来分享一下,所以认识上有过时或不确切之处,还请原谅。因为工作繁忙,就偷了个懒,我今天分享的内容主要是我昨天在大数据国际峰会上的讲话(基本上是从速记中拷过来的),关于大数据的开放式创新,其它大家感兴趣的内容可以在交互中讨论。

深度:英特尔中国研究院吴甘沙谈大数据
▲吴甘沙

  我做了4-5年的移动架构和Java虚拟机,4-5年的众核架构和并行编程系统,最近4-5年在追时髦,先是搞物联网,最近几年一直在做大数据。我们大数据的研究轨迹如下图所示:前面2-3年主要是关注数据和机器的关系,水平扩展、容错、一致性、软硬件协同设计,还有就是厘清各种计算模式,从批处理(MapReduce)到流处理、Big SQL/ad hoc query、图计算和机器学习。事实上我的团队只是英特尔大数据研发力量的一部分,上海的团队是英特尔Hadoop发行版的主力军,因为英特尔成了Cloudera的最大股东,自己不做发行版了,但是平台优化、开源支持和垂直领域的解决方案仍然是英特尔大数据研发的重心。

  2013年开始看数据与人的关系,对于数据科学家怎么做好分布式机器学习、特征工程与非监督学习,对于领域专家来说怎么做好交互式分析工具,对于终端用户怎么做好交互式可视化工具。英特尔研究院在美国CMU支持的科研中心做了GraphLab、Stale Synchronous Parallelism,在MIT的科研中心做了交互式可视化(真正做这个工作的教授在UW)和SciDB上的大数据分析,我们中国周边主要做了Spark SQL和MLlib(机器学习库)。现在也有涉及深度学习算法和基础设施。

  2014年开始看数据和数据的关系。

深度:英特尔中国研究院吴甘沙谈大数据

  为什么要琢磨数据和数据的关系呢?我们原来的工作重心是开源,后来发现开源只是开放式创新的一个部分,做大数据的开放式创新还要做数据的开放,大数据基础设施的开放,以及价值提取能力的开放。

  这是一张非常有意思的图,黄色部分是化石级的、还没有联网、或者没有数字化的数据,而绝大多数的数据是在这么一个海里面。只有海平面的这些数据(有的把它称为Surface Web),才是真正大家能访问到的数据,爬虫能爬到、搜索引擎能检索的数据,而绝大多数的数据是在暗黑之海里面(相应地叫做Dark Web,据说占数据总量的85%以上),在一些孤岛里面,在一些企业、政府里面躺在地板上睡大觉。

深度:英特尔中国研究院吴甘沙谈大数据

  数据之于数据社会,就如同水之于城市或者血液之于身体。城市因为河流而诞生,也受其滋养,血液一旦流动停滞了,身体就有危险。所以,对于号称数据化生存的社会来说,我们一定要让数据流动起来,不然这个社会将会失去很多功能。

  所以,我们希望数据能够像“金风玉露一相逢,便产生化学作用”。马化腾先生提出了一个internet+,internet可以帮助各行各业,我们也杜撰了一个大数据X,大数据乘以各行各业。如下图所示,乘法效应之外,数据有个非常奇妙的效应叫做外部效应(externality),比如这个数据对我没用但对TA很有用,所谓我之毒药彼之蜜糖。张家的数据和赵家的数据各自都没啥活性,一碰到一起就发生化学作用。

  在这张胶片上列出了一些数据跨行业融合的案例。比如说:

  金融数据跟电商数据碰撞在一起,就产生了像小微贷款那样的互联网金融;

  电信数据跟政府数据碰在一起,可以产生人口统计学方面的价值,帮助城市规划人们居住、工作、娱乐的场所;

  金融数据跟医学数据碰在一起,麦肯锡列举了很多应用,比如说可以发现骗保;

  物流数据和电商数据凑一块,可以了解各个经济子领域的运行情况;

  物流数据跟金融数据放在一起,就产生了供应链金融;

  金融数据跟农业数据也能够发生一些化学作用,Google analytics出来的几个人,利用美国开放气象数据,能够在每一块农田上面建立微气象模型,预测灾害,帮助农民保险和理赔。

深度:英特尔中国研究院吴甘沙谈大数据

  所以,要走数据开放之路,让不同领域的数据真正流动起来、融合起来,才能释放大数据的价值。

  先来看狭义的数据开放(下一张slide)。数据开放的主体首先是政府和科研机构,把非涉密的政府数据,以及国家拿纳税人的钱做的一些科研数据开放出来。现在也有一些企业愿意开放数据,像Netflix、一些电信运营商,来帮助他们的数据价值化,建构生态系统。

  数据开放不等于信息公开。首先,数据不等于信息,信息是从数据里面提炼出来的东西。我们希望,首先要开放原始的数据(raw data)。其次,它是一种主动和免费的开放,我们现在经常听说要申请信息公开,那是被动的开放。

  Tim Berners Lee提出了数据开放的五星标准,以保证数据质量:一星是开放授权的格式,比如说PDF;其次是结构化,把数据从文件变成了像excel这样的表;三星是开放格式,如CSV;四星是能够通过URI找到每一个数据项;五星,能够跟其它数据链接,形成一个开放的数据图谱。

深度:英特尔中国研究院吴甘沙谈大数据

  下面这张slide讲数据开放的形态。现在主流的数据开放门户,像data.dov或data.gov.uk,都基于开源软件。Data.gov用WordPress做数据内容呈现,用CKAN做数据目录,甚至data.gov自身也在github开源了。

  英特尔在MIT的大数据科研中心也做了一种形态,叫Datahub,你看它的吉祥物很有趣,一半是大象,代表数据库技术,一般是章鱼,取自github的吉祥物章鱼猫。它提供更多的功能,如:

  1.   易管理性,可以容易地检索、合并和清洗数据;

  2.   像数据库那样的结构化数据服务;

  3.   安全方面,提供访问控制,对数据共享进行管理;

  4.   最后,它可以在原地(in-situ)做可视化和分析,现在一般要把数据从开放门户下载下来,然后在另外一个系统里做可视化和分析,这个能在原地做。

  5. 深度:英特尔中国研究院吴甘沙谈大数据

  数据开放当中会碰到很多问题(下图),首先是数据权属的问题,这个数据属于谁?属于采集人,还是属于生产人,还是属于被观察的客体?如果发生一些特别情况的话,它的拥有权是不是会出现一些分割或者转移?比如说离婚了,比如说人死了,这样数据资产怎么转移?

  另外就是敏感数据的界定,数据里面有很多敏感的部分,比如说欧洲GPS位置信息的数据是属于敏感数据,在日本又不属于敏感数据。所以,这需要一个法律的界定。

  针对这些敏感数据要做数据的脱敏,脱敏最初级的一种做法就是去标识化,但是去标识化一定要去的彻底。美国做过一个研究,如果把名字、地址什么都拿掉,但你只要剩下三个信息:邮政编码、性别、生日,只要根据这三个信息,你还是有60-90%的可能性,把人还原出来。

  当然,你即使是去标识去的很彻底,你还是要防止重新标识化(re-identification),比如你可以通过多数据源来重新进行标识。美国在线曾经开放了匿名的搜索信息,但是有人把这个信息跟美国的选举人登记信息一匹配,就把人找出来了。Netflix也是一样,他开放了匿名的评论以及打分的信息,但是有人把它跟国际电影数据库IMDB匹配,结果把一个有同性恋倾向的人识别了出来,被告了。另外一种重新标识的可能性是基于统计,比如根据两个打分再加上一定的时间范围,还是有接近70%的可能性能够把这个人找出来。

  防止隐私攻击的匿名化技术,比较典型的如k-anonymity和L-diversity等等,但还是有隐私攻击的可能,特别在敏感属性不够多样化,或攻击者具有背景知识时。最好的一种技术叫差分隐私(differential privacy),把噪声加入到数据集中、但仍保持它的一些统计属性,英特尔支持普林斯顿大学做了这样的研究,现在试图在运营商开放数据中应用。

深度:英特尔中国研究院吴甘沙谈大数据

  以上是狭义的数据开放,广义的数据开放还有数据的共享及交易(下图),比如点对点进行数据共享或在多边平台上做数据交易。

  马克思说生产资料所有制是经济的基础,但是现在大家可以发现,生产资料的租赁制变成了一种主流(参考《Lean Startup》),在数据的场景下,我不一定拥有数据,甚至不用整个数据集,但可以租赁。租赁的过程中要保证数据的权利。

  首先,我可以做到数据给你用,但不可以给你看见。姚期智老先生82年提了个“millionaires’ dilemma”问题,两个百万富翁比富,但谁都不愿意说出自己有多少钱。这就是典型的“可用但不可见”场景。在实际生活中的例子很多,我一直用的一个例子是:美国国土安全部有恐怖分子名单(数据1),航空公司有乘客飞行记录(数据2),国土安全部去问航空公司要乘客飞行记录,航空公司不给,因为隐私,他反过来问国土安全部要恐怖分子名单,也不行,因为是国家机密。双方都有发现恐怖分子的意愿,但都不一样给出数据,有没有办法让数据1和数据2放一起扫一下,但又保障数据安全呢?

  其次,在数据使用过程中要有审计。万一那个扫描程序偷偷把数据藏起来送回去怎么办?

  再者,需要数据定价机制,双方数据的价值一定不对等,产生的洞察对各方的用途也不一样,因此要有个定价机制,比大锅饭式的数据共享更有激励性。

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读