大数据分析：利用向外扩展技术深入挖掘商业价值

发布时间：2021-01-15 08:15:09 所属栏目：大数据来源：网络整理

导读：副标题#e# 导语：大数据分析技术的价值在企业领域已经非常明确。充分利用良好信息的能力一直是摆在IT部门面前的重要难题与挑战。现在我们已经拥有了足以解决这一难题的工具，接下来要做的就是想办法使其为自己服务了。方方面面的发展改进已经让从半结构化

现在最大的问题在于，专用型大数据分析工具到底能否在已经具备商务分析基础设施的企业当中确切起效。很多企业已经制定了数据仓储策略，而新型大数据解决方案则公然对其业已部署的传统机制发起挑衅。与此同时，向新型数据分析基础设施转移意味着我们将面临大量设计与实施方面的挑战，其中包括数据整合、数据安保、数据治理、数据可视化以及解决数据复杂性等等。

商务智能不断膨胀

传统商务智能的设计思路在于对结构化数据加以分析，从而提取出具备实用性的结论性信息。然而由于相关数据集往往太过陈旧或者规模有限，因此分析得出的结论也经常存在局限性。此外，结构化数据仅仅是企业掌握的业务数据中的一小部分。不少分析人士估计，结构化数据在企业整体数据总量中的占比恐怕只有5%左右。

大数据技术的兴起让商务智能迎来了一系列关键性发展趋势，相关方案包括以下几种能力：

·同时利用结构化与非结构化数据，并将数据汇聚成单一的信息逻辑集、进而加以可视化处理。
在分析时引导结构变化，因此能够通过对结构化或者非结构化物理数据的底层结构进行去耦来实现灵活性。
利用现有或者近实时数据，允许关键性应用程序、业务流程以及相关人员查看到每分钟进行更新的当前数据。
在云环境下访问来自外部的数据源，因此能够让商务智能分析工具获取到企业之外的数据、进而实现数据分析流程的强化或者改进。
甚至政府机构也着手提供按需数据，正如世界各地不断涌现的数据供应商根据需求为企业用户提供关键性商务智能服务支持一样。
将数据分析与业务流程及应用程序加以绑定，从而允许三者以无需人为干预的自动化方式实现问题处理。

大数据分析能够通过将规模庞大且在复杂程度、格式以及时间线方面有所不同的数据整合成单一的结构化输出结果，从而实现更出色的分析效果。大数据分析机制可以把文本、语音、流数据以及非结构化数据分析结合成统一结构，进而帮助企业通过动态分析模式从相关信息中获取到不同角度的审视结论。这些模式能够获取一切适用于分析机制的数据形式，其中包括多维、单维、面向对象以及实时流程等等。

请大家记住，最为通行的趋势在于最大程度汇聚结构化与非结构化数据。其中非结构化数据可能来自多种数据源类型，包括：

网络页面
视频与音频文件
文档
来自设备或者其它数据库的流数据

商务智能工具仍然在不断演变，旨在进一步提升对大数据分析任务的支持能力。它们能够提供更出色的数据可视化处理功能，从而对近实时信息以及类型更为广泛的结构化与非结构化数据加以利用。简单来说，只要数据本身拥有任何一种形式的电子格式，我们就有机会对其加以分析。

大数据分析机制可以把文本、语音、流数据以及非结构化数据分析结合成统一结构，进而帮助企业通过动态分析模式从相关信息中获取到不同角度的审视结论。

更多数据源，更多可能性

大数据分析所面临的关键性挑战在于，规模日益庞大的数据源本身可能并不具备固有结构。我们将这些数据源汇聚至一套较为模糊且专为数据查询所打造的结构周边，而后将整体结构交付至数据分析API、服务或者商务智能工具，由后者负责处理数据可视化或者其它类型的交互式分析任务（详见图一）。

能够提供趋势性数据的社交媒体API或者服务
以公共数据服务为代表的外部数据源
传统非结构化数据，例如基于文本的早期数据库

那么这一切到底是如何运作的？首先，非结构化与结构化数据会被收集到一套文件系统当中。在这里，我们考虑使用一套Hadoop分布式文件系统（简称HDFS）。

从理论层面讲，HDFS的功能与其它大数据数据库技术方案并没有什么区别，不过我们可以在数据库内部利用多种不同机制对数据加以处理。或者，大家可能会发现自己的大数据架构内部使用多种数据库技术。总而言之，我们的具体需求决定了这一结构的实际状况。

大数据分析：利用向外扩展技术深入挖掘商业价值

为数据赋予意义

当利用Hadoop进行大数据分析时，包括结构化与非结构化两类数据，这套分析引擎能够在数秒之内即向商务智能工具返回处理结果。大家可以利用商务智能工具来分析可视化数据、在企业应用程序内部使用嵌入式分析机制或者利用数据分析API或服务分析业务流程。

在Hadoop当中，数据以块的形式被保存在Hadoop集群当中的不同节点内部（见图一）。这套文件系统会为这些数据块创建多套副本，并通过可靠的方式将其发布至整个集群、旨在实现理想的检索速度。数据块的大小可谓多种多样，但一般来说HDFS的典型数据块大小为128MB，且会被复制到集群内的多个节点之上。

我们人类用户只处理文件，这就意味着在其进入文件系统之前、相关内容往往并不属于严格意义上的结构化形式。接下来数据映射机制开始起效，通过对这些非结构化内容的处理为其定义出与内容相关的核心元数据。由于分析工具或者其它数据使用方可能会对元数据提出不同类型的要求，因此这些非结构化数据往往会被不断重复映射、从而调整至最理想的分析状态。

在某些情况下，我们还需要HadoopHive的协助。Hive是一套数据仓库系统，能够对保存在Hadoop集群当中的大型数据集进行数据汇总、临时性查询以及分析。Hive提供的机制允许我们根据数据进行结构规划，并利用一款名为HiveQL的类似于SQL的语言进行数据查询。其接口取决于大家的实际需求以及所使用商务智能工具的数据整合能力。

另一套选项则是ApachePig。Pig是一款面向Hadoop的高层平台，用于创建MapReduce规划。它会对来自MapReduce引擎的规划方案进行抽象化处理。与Hive类似，Pig同样利用自己的独特语言与数据进行交互。

总体而言，当我们通过一款商务智能工具执行查询时，整个过程将分为以下步骤：

商务智能工具将与集群相对接，从而获取到对应的文件元数据信息。通常情况下，商务智能工具会直接处理已经存在于分析用例或者模型当中的数据结构（详见图二）。大家应该将这种结构视为底层结构化或者非结构化数据的一种抽象性表现形式。
从这里开始，该系统将从数据存储节点中获取到真正的数据块并将其带回至自身结构当中。实际运作当中，相关物理以及逻辑节点的具体数量是随机的，这取决于该系统的实际要求以及架构设计方式。
MapReduce并行规模模式会从Hadoop集群当中收集数据。这套系统负责处理细节操作信息、管理跨多种可用服务器资源的流程载入机制。
请求所指向的结果集会被返回至商务智能工具处，用于后续可视化处理或者其它处理方式，这通常与特定数据结构相关。
商务智能工具能够将数据分层交付至定义模型，其中包括直接从结果集中将数据加载至维度模型以实现复杂分析处理、或者将其交付至图形表现流程。
在重复上述流程时，这部分数据将迎来增量式更新。

大数据分析：利用向外扩展技术深入挖掘商业价值

运转中的结构

商务智能工具所使用的结构可以专门针对数据分析目的所创建。相关信息存在于文件系统集群当中，而元数据则根据用例所需要的支持方式被映射至对应内容。这就为用户带来了一类更具动态以及灵活特性的商务智能解决方案。

这是一类非常常见的场景，而大家所选择的商务智能工具当中可能包含多种不同类型的具体方案。很多商务智能工具使用的映射机制能够使数据拥有如存储在传统关系型数据库中的效果。此类工具还能发挥大数据技术的大量原生性功能优势，其中包括在对象利用等分析模型中以不同方式对结构化与非结构化数据加以处理的能力。

某些商务智能工具能够将经过总结或者汇聚的数据载入至一套临时性多维“立方（cube）”结构当中（详见图三）。这就允许分析人员以最具实用性的方式对来自大数据系统的信息进行可视化处理。

这种模式的差异之处在于，现在结构化与非结构化两类数据都能进行可视化处理。此外，新型与经过扩展的分析机制也能够借助这类可用性数据的交付而成为现实，例如：

报告或者描述性分析
建模或者预测性分析
集群化
关联性分组

在大数据分析领域，最重要的一点在于新型思维方式正在不断兴起。如今数据已经可以由任何有意对其加以审视的人进行探索。我们的视野已经不再局限于有限的自有业务数据范畴，惟一束缚我们实现数据整理及编辑的因素就只有想象力这一项。除此之外，我们的分析模式，例如预测性模式，在数据完整性的不断提升之下足以提供更为理想的处理结果。

大数据可视化与分析用例

对于大数据的高度关注可以说贯穿于整个垂直业界当中，但专业知识与投资额度却呈现出广泛而且差异化显著的分散态势（详见图四）。教育、医疗以及交通行业在2012年成为最为积极的大数据技术受众。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页

大数据分析 ：利用向外扩展技术深入挖掘商业价值

大数据分析：利用向外扩展技术深入挖掘商业价值