加入收藏 | 设为首页 | 会员中心 | 我要投稿西安站长网（https://www.029zz.com.cn/）- 科技、建站、经验、云计算、5G、大数据,站长网!

当前位置：首页 > 建站 > 正文

SQL on Hadoop在快手大数据平台的实践与优化

发布时间：2019-06-02 19:26:33 所属栏目：建站来源：佚名

导读：副标题#e# 快手大数据架构工程师钟靓近日在A2M人工智能与机器学习创新峰会分享了题为《SQL on Hadoop在快手大数据平台的实践与优化》的演讲，主要从SQL on Hadoop介绍、快手SQL on Hadoop平台概述、SQL on Hadoop在快手的使用经验和改进分析、快手SQL on Ha

JDBC方式启动的后端集群，均是基于YARN，可以实现资源的分时复用。比如AdHoc集群的资源在夜间会自动回收，作为报表系统的资源进行复用。

SQL on Hadoop在快手大数据平台的实践与优化

智能引擎：SQL路由方案设计架构

路由方案基于HS2的Hook架构，在HS2端实现对应 Hook，用于引擎切换;后端BeaconServer服务中实现路由服务，用于SQL的路由规则的匹配处理。不同集群可配置不同的路由规则。

为了保证后算路由服务的稳定性，团队还设计了Rewrite Hook，用于重写AdHoc集群中的SQL，自动添加LIMIT上限，防止大数据量的SCAN。

SQL on Hadoop在快手大数据平台的实践与优化

智能引擎：SQL路由规则一览

SQL on Hadoop在快手大数据平台的实践与优化

智能引擎：方案优势

易于集成，当前主流的SQL引擎都可以方便的实现JDBC与PROXY方式。再通过配置，能简单的集成新的查询引擎，比如impala、drill等。  
自动选择引擎，减少了用户的引擎使用成本，同时也让迁移变得更简单。并且在加速引擎过载的情况下，可以动态调整比例，防止因过载对加速性能的影响。  
自动降级，保证了运行的可靠性。SQL路由支持failback模块，可以根据配置选择是否再路由引擎执行失败后，回滚到 MR运行。  
模块复用，对于新增的引擎，都可以复用HiveServer2定制的血缘采集、权限认证、并发锁控制等方案，大大降低了使用成本。  
资源复用，对于adhoc查询占用资源可以分时动态调整，有效保证集群资源的利用率。

智能引擎DQL应用效果

SQL on Hadoop在快手大数据平台的实践与优化

HiveServer2中存在的性能问题

SQL on Hadoop在快手大数据平台的实践与优化

FetchTask加速：预排序与逻辑优化

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4

相关内容

推荐文章

怎么建设成功的网站怎么做网页来教你

怎么建设成功的网站怎

站长推荐

热点阅读