2019大数据产业峰会|百度陈凯:基于异构计算的数据科学加速方案
与此同时我们通过AutoML提供更易用的接口,更有利于异构计算的推广。首先通过AutoML提供更易用的接口,用户在上面提供任务,通过建议器和评估器给用户一些路径,让用户尽量少的尝试。这样少的尝试都通过AutoML底层服务完成,最后希望给用户非常好的结果。通过异构计算又加快了整个AutoML迭代的过程。除此之外异构计算加速AutoML也有其他的点,包括特征工程的优化,像前面所描述的,加速整个数据预处理的过程。加快整个评估优化,通过CUML加速整个结果的优化。与此同时做到全流程自动化,让用户可以更好的,甚至是他自己定义的算法放进去支持AutoML。 前面我们描述了在加速机器学习上省成本和接口上的相关工作,接下来描述一下应用案例。付院长也分析过大数据场景,这里也是这样的场景,目标是位置分类,针对卫星地图给某个位置定义一个标签。大家可能会问,地图里面本身就有这些数据,比如POI或者AI,过程更精细有KOI的数据,为什么不直接用呢?有很多大型的机构往往比较大,有很多学生,比如清华大学里面会含有医院这样的实体,与此同时还有中小学这样一些实体都是放在清华大学里面的,我们希望通过这样的分类更好的把这些实体完全区分开来,这是我们的背景。 接下来把它映射到解决方案中去,跟图形截取类似,首先第一步搜索这样的数据,第二是对这些数据做一些处理的过程,接下来对数据做了一些处理,提取一些特征,接下来做特征相关的融合,最后基于特征做这样的分类,大概是这样的过程。这个过程中发现,图嵌入的会比较慢,往往数小时才能完成这样的工作,我们基于前面所描述的系统对这部分工作进行加速。大家知道图嵌入本质上讲是把高维析出的空间嵌入到低维空间里去,比如128维的空间,不是特别好的直观看到的数据进一步嵌入二维平面上去,如图对应的点就是一个实体,在这个平面上点越近表示图嵌入效果越好,大家看到这是一些大学实体,最终向量聚焦于这一块,我们对它做了相对比较好的分类。 把刚才的图映射到卫星地图上看,我们发现对于清华大学的附中做比较好的区分,清华大学附中从清华大学剥离出来,把这一块作为中小学的实体,满足这样功能的同时,整体训练过程平均加速13倍,与此同时整个成本降至12%,有非常好的加速效果。 下面是我们通过异构计算加速数据科学的方案,整个产品落地于百度云数据科学平台这样一个产品上,大家可以通过这个产品看到,是个编程的界面,与此同时在里面内置了自动机器学习以及下层加速好的算子。有类似于题词器这样的概念,大家想做哪个功能可以更方便的应用到这些功能,上面还提供一些模型,大家比较好的复用我们之前的成果。产品主要的性能除了高性能、自动化、按需托管之外,另外是数据的安全和高效联合建模,让数据有更好的价值,通过数据共享发挥整个数据的价值,在共享过程中数据是可用但是不可见的。我们数据科学平台的入口网址如图,欢迎大家去试用。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |