深度:英特尔中国研究院吴甘沙谈大数据
从点对点的共享,最后要走到多边的数据交易,从一对多的数据服务到多对多的数据市场,再到数据交易所,如果说现在的数据市场更多是对数据集进行买卖的话,而这个数据交易所是一个基于市场进行价值发现和定价的,像股票交易所那样的、小批量、高频率的数据交易。
我们支持了不少研究来实现刚才说的这些功能,比如说可用而不可见。案例一是通过加密数据库CryptDB/Monomi(下图),这也是我们支持麻省理工学院做的一个技术。在数据拥有方甲方这边的数据库是完全加密的,这事实上也防止了现在出现的很多数据泄露问题,大家已经听到,比如说某互联网服务提供商的员工偷偷把数据拿出来卖,你的数据一旦加密了他拿出来也没用。其次,这个加密数据库可以运行乙方的普通SQL程序。因为它采用了同态加密技术和洋葱加密法,SQL的一些语义在密文上也可以执行。
针对类似百万富翁窘境,我们针对此做了另一种可用但不可见的技术,叫做数据咖啡馆(下图)。大家知道咖啡馆是让人和人进行思想碰撞的地方(顺便推荐Steven Johnson的TED演讲, where good ideas come from),我们这个数据咖啡馆就是让数据和数据能够碰撞,产生新的价值。 比如两个电商一个是卖衣服的一个是卖化妆品的,他们对于客户的洞察都是相对有限的,如果说两边的数据放在一起做一次分析,那么就能够获得全面的用户画像。再如,癌症研究,癌症是一类长尾病症,有太多的基因突变,每一个研究机构的基因组样本都相对有限,这在某种程度上解释了为什么过去50年癌症的治愈率仅仅提升了8%。那么,多个研究机构的数据在咖啡馆碰一碰,也能够加速癌症的研究。 在咖啡馆的底层是一个多方安全计算的技术,基于英特尔跟伯克利的一个联合研究。在上面是安全、可信的Spark,基于“data lineage”的使用审计,还有就是根据各方数据对结果的贡献进行定价。有可能一家电商是新的,他还没有太多的数据,这就碰到一个机器学习冷启动的问题,那么我可以运用另外一家电商数据,做所谓的transfer learning,帮助他解决这个冷启动的问题。很显然,另外那家电商的数据价值就应该更高。
把数据定价拔高一点。我们数据社会的经济基础是什么?一定要有一些基本规律。大家知道,互联网经济有个基本规律叫Metcalf定律,应该是Gilder提出的,为致敬以太网发明人Metcalf而命名。它是说一个网络的价值是跟你的节点数平方成正比。它的另一种表述是网络效应或网络外部性:随着网络使用者的不断增多,每一个使用者从中获得的价值不断增加,但使用费用则不断下降。这奠定了互联网的需求方规模经济的商业模式,后面的所谓“边际成本趋向于零”、“边际效益递增”、“正向反馈”、“马太效应”和“赢家通吃”等皆由此衍生而出。而如今互联网公司的通用估值方法,股票价值折现分析法或DEVA估值法,也是90年代一些分析师基于此提出的:一个网络公司的价值是跟他的用户数平方成正比的。这种巴菲特不能理解、但又符合规律的估值方法帮助年年亏损的互联网公司融到了大笔资金,也解释了Facebook上市前能够估值千亿美元,不是因为它的营业额(40多亿)或利润(不到10亿),而是因为它的8亿用户量。Google有个首席经济学家Hal Varian,这哥们在90年代末写了一本书,名字大致是信息时代的规则,当时卖得比KK的《新经济、新规则》好很多(现在KK的这本书卖得很好了,不同时代的口味是不一样)。Varian的团队专门研究互联网和经济的交叉学科。 那么,大数据时代的Metcalf定律是什么呢? 我们也不知道,一来从实践中摸索,二来有意识地跟经济界做思想碰撞。
比如(下图),数据在公开市场交易的时候,该怎么定价?是根据市场价值发现机制来定价?还是根据数据的种类来定价?还是根据数据访问API的调用次数来定价? 在点对点的时候,各方的数据对于智慧产生的贡献不一样,也需要定价。 现在企业的资产中有一部分无形资产是数据资产。那么,这怎么来提升我们企业的估值?这部分数据资产价值几何?现在也有一些很好的研究,比如consumption based model。 个人数据也需要定价,大家知道现在个人数据几乎是免费的,我们为了获得互联网服务提供商的免费服务,把数据免费给了服务提供商。但是,现在国外对于小数据、对于个人数据有价,已经开始觉醒了。有一个初创公司愿意给消费者一部分钱,你把你的Facebook数据、推特数据、银行交易数据给这家公司,他来价值化(比如找广告商)。现在的定价很简单,女性一个月14美金(女性的消费能力强啊),男性一个月8美金,未来该怎么定价也是个很有意思的话题。 在共享交易当中也注意伪造的数据或劣质的数据,有人在共享的时候把一些假的数据、杂质数据放进去怎么办?这也是很有意思的问题,而且很现实。Snowdon的文件解释英国情报机构GCHQ就很善于在网络数据中掺假,改变网络民意或热点,创造虚假流量。
前面说的是数据的开放,下面很快说一下另外两种开放。 一是大数据基础设施的开放(下图),现在有的是有大数据思维的人,但他们很捉急,玩不起、玩不会大数据,他不懂怎么去存储、怎么处理这些大数据,这就需要云计算。如果说数据开放是Data as a Service,基础设施的开放还是传统的Platform as a Service,比如Amazon AWS里有MapReduce,Google有Big Query。这些大数据的基础处理和分析平台可以来降低数据思维者的门槛,来释放他们的创造力。 比如decide.com,每天爬几十万的数据,对价格信息(结构化的和非结构化的)进行分析,然后告诉你买什么牌子、什么时候买最好。只有四个PhD搞算法,其他的靠AWS。 另一家公司Prismatic,也利用了AWS,这是一家做个性化阅读推荐的,我专门研究过它的计算图、存储和高性能库,用LISP的一个变种Clojure写的,非常漂亮,真正做技术的只有三个学生。 所以当这些基础设施社会化以后,大数据思维者的春天很快就要到来。
最后一种开放是价值提取能力的开放(下图)。现在的模式一般是一大一小或一对多。比如Tesco和Dunnhumby,后者刚开始是很小的公司,傍上了Tesco,给它做客户忠诚度计划,一做就做了几十年,这样的长期的战略合作优于短期的数据分析服务,决策更注重长期性。当然,Dunnhumby现在已经不是小公司了,Tesco控股,也为其他大公司提供数据分析服务。沃尔玛跟另外一家小公司合作做数据分析,最后他把这家小公司买下来了,成了它的Walmart Labs。 一对多的模式,典型的是Palantir,Peter Thiel和斯坦福的几个教授搞的公司,目前还是私有的,但估值近百亿了,它很擅长给各类政府和金融机构提供数据价值提取服务。 真正把这种能力开放的是Kaggle,它的双边,一边是10万多的分析师,另一边是需求方企业,企业在Kaggle上发标,分析师竞标,获得业务。这可能是真正解决长尾公司价值提取能力的办法。这个如果跟我们的数据咖啡馆结合,那就更好了。
好,今天就讲到这,谢谢大家! (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |