加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

Hive 如何快速拉取大批量数据

发布时间:2020-11-07 05:49:31 所属栏目:建站 来源:网络整理
导读:副标题#e# 用hive来做数仓类操作,或者大数据的运算,是没有疑问的,至少在你没有更多选择之前。 当我们要hive来做类似于大批量数据的select时,也许问题就会发生了变化。 1. 通用解决方案之分页 首先,我们要基于一个事实,就是没有哪个数据库可以无限制的

但是,这个会有什么问题?同样,小数据量时无任何疑问,但当数据量足够大时,每一次的数据接收,都需要一次网络通信请示,且都是单线程的。我们假设接受一条数据花费1ms, 那么接收1000条数就是1s, 6k条数据就是1min。36w条数据就是1h, 额,后面就无需再算了。同样是不可估量的时间消耗。(实际情况也许会好点,因为会有buffer缓冲的存在)

为什么会这样呢?运算量已经减小了,但是这网络通信量,我们又能如何?实际上,问题不在于网络通信问题,而在于我们使用这种方式,使我们从并行计算转到了串行计算的过程了。因为只有单点的数据接收,所以只能将数据汇集处理。从而就是一个串行化的东西了。

所以,我们更多应该从并行这一层面去解决问题。

3. 基于临时表实现

要解决并行变串行的问题,最根本的办法就是避免一条条读取数据。而要避免这个问题,一个很好想到的办法就是使用临时表,绕开自己代码的限制。让大数据集群自行处理并行计算问题,这是个不错的想法。

但具体如何做呢?我们面临至少这么几个问题:

如何将数据写入临时表? 写入临时表的数据如何取回?是否存在瓶颈问题? 临时表后续如何处理?

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读