数据湖里没有“水怪”,有的是,,,
有了大数据湖,应用程序会更接近于数据的所在。从这个意义上讲,你可以看到应用程序移动到边缘,而不是存储库中心,即以更快的速度移动并减轻网络等方面的负担。这是雾计算的精髓所在,它是工业4.0和工业互联网背景下,边缘计算在数据分析领域的最新应用。 5. 数据湖的灵活性随用户的需要增长而扩展 数据湖具有高度的可伸缩性和灵活性。这不需要过多的阐述,系统和进程可以很容易地进行缩放,以处理越来越多的数据。 6. 节约企业数据仓库资源 最后一个优点是,正如上面来自PwC的说明所示,数据湖可以作为数据仓库(EDW)的中转区域。 然后,它仅用于将相关数据传递到仓库,从而节省EDW资源。 数据湖的挑战、风险和演变 大数据湖有诸多的好处,同时,也有风险和挑战需应对。 如果没有正确的战略设计,并考虑到必要的目标,数据湖可能成为数据沼泽。这也是为什么企业从非常传统的数据湖方法转向面向目标和业务导向的方法的原因。 显然,应该从业务驱动和战略方针着手来处理数据湖。然而,传统上,这些数据往往是从不断上升的数据量角度和最终所有数据都具有潜在价值的观点来看待的。 虽然这个价值确实是有潜力的,但相当多的公司表现得像数据囤积者。此外,公司是否需要一个数据湖,如果需要,是否可以从数据湖中获得价值。 Gartner2015年的一份报告中显示,一些公司的Hadoop((数据湖架构的领先者)是过犹不及的,技术上的差距是阻碍发展的主要原因。 大数据湖的规模 由于大数据量和大数据使用量不断增长,大数据规划的广度、深度和包容性都在增加,因此数据湖的大小显然也在不断增长。 一篇Dimensional Research2018年大数据趋势和挑战报告的博客文章指出,平均数据湖大小超过100太字节的组织比例从2017年的36%增长到2018年的44%( 一年内增加22%)。这种趋势只会持续下去,而且是大数据处理向云转变的众多驱动因素之一。 然而,难题依然存在:如何从所有这些数据中获取价值。决策和行动是市场如何发展的关键驱动力。 确保数据湖不会变成数据沼泽 让我们更深入地研究这些数据沼泽。如前所述,在数据湖的早期,重点是大数据的容量方面,许多企业实际上使用数据湖作为转储数据的地方。 这导致了数据沼泽的现象,需采取适当的方法保持数据湖的清洁。 直到今天,仍然听到一些组织提出常规性的问题,比如:“我应该用一个数据湖来替换我的数据中心吗?”。数据湖经常与数据中心相比较,虽然理解这些差异很重要,但问题是使用什么,什么时候使用并不是重点,正如咨询师所言,你真正需要的是什么,要视情况而定。 我们的旨在通过数据仓库、数据分析和商业智能环境来解决它们所适应的商业智能环境的问题。
(编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |