加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

SQL on Hadoop在快手大数据平台的实践与优化

发布时间:2019-06-02 19:26:33 所属栏目:建站 来源:佚名
导读:副标题#e# 快手大数据架构工程师钟靓近日在A2M人工智能与机器学习创新峰会分享了题为《SQL on Hadoop在快手大数据平台的实践与优化》的演讲,主要从SQL on Hadoop介绍、快手SQL on Hadoop平台概述、SQL on Hadoop在快手的使用经验和改进分析、快手SQL on Ha

为了保证核心任务的稳定性,将ETL集群进行了分级,分为核心集群和一般集群。在客户端连接HS2的时候,我们会对任务优先级判定,高优先级的任务会被路由到核心集群,低优先级的任务会被路由到一般集群。

SQL on Hadoop在快手大数据平台的实践与优化

HiveServer2服务内部流程图

SQL on Hadoop在快手大数据平台的实践与优化

BeaconServer服务

BeaconServer服务为后端Hook Server服务,配合HS2中的Hook,在HS2服务之外实现了所需的功能。当前支持的模块包括路由、审计、SQL重写、任务控制、错误分析、优化建议等。

• 无状态,BeaconServer服务支持水平扩展。基于请求量的大小,可弹性调整服务的规模。



• 配置动态加载,BeaconServer服务支持动态配置加载。各个模块支持开关,服务可动态加载配置实现上下线。比如路由模块,可根据后端加速引擎集群资源情况 ,进行路由比率调整甚至熔断。



• 无缝升级,BeaconServer服务的后端模块可单独进行下线升级操作,不会影响Hook端HS2服务。




SQL on Hadoop平台在使用中遇到的痛点

SQL on Hadoop在快手大数据平台的实践与优化

使用新引擎进行加速面临的问题

  • Hive支持SPARK与TEZ引擎,但不适用于生产环境。
  • SQL on Hadoop的SQL引擎各有优缺点,用户学习和使用的门槛较高。
  • 不同SQL引擎之间的语法和功能支持上存在差异,需要大量的测试和兼容工作,完全兼容的成本较高。
  • 不同SQL引擎各自提供服务会给数仓的血缘管理、权限控制、运维管理、资源利用都带来不便。




智能引擎的解决方案

  • 在Hive中,自定义实现引擎。
  • 自动路由功能,不需要设置引擎,自动选择适合的加速引擎。

  • 根绝规则匹配SQL,只将兼容的SQL推给加速引擎。

  • 复用HiveServer2集群架构。

智能引擎:主流引擎方案对比

SQL on Hadoop在快手大数据平台的实践与优化

智能引擎:HiveServer2自定义执行引擎的模块设计

基于HiveServer2,有两种实现方式。JDBC方式是通过JDBC接口,将SQL发送至后端加速引擎启动的集群上。PROXY方式是将SQL下推给本地的加速引擎启动的Client。

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读