加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

数据太多、太乱、太杂?你需要这样一套数据治理流程

发布时间:2019-09-27 07:33:15 所属栏目:建站 来源:Synced
导读:副标题#e# 数据作为机器学习的基础,从 GB、TB 到 PB 已经增长了无数倍,现在大一点的业务场景,没有 TB 级数据都提供不了高效的体验。那么数据怎么治理才好,怎样与模型、算力结合才算妙?在本文中,我们将看看什么是 HAO 数据治理模型,看看公安数据到底

先来看张图,如下图 13 描述的是公安数据治理框架,平台架构主要包括数据存储、数据计算、数据管理、数据应用四部分。它将不同的数据按照应用分到了不同的主题或专题库,例如常住人口专题库或企业信息专题库等等。与此同时,不同的数据也能最终组成知识图谱,相当于构建了一种庞大的背景知识。

数据太多、太乱、太杂?你需要这样一套数据治理流程

看上去这张图非常复杂,但其实也就分为储存、计算、管理和应用四部分。

  • 数据存储:基于分布式的大数据存储平台;
  • 数据计算:这是数据治理的最主要部分,包括数据的探查、提取、清洗、转换、集成等;
  • 数据管理:对集成后的数据统一维护与管理;
  • 数据应用:这是数据价值最直接的体现,我们可以通过自然语言处理等技术,对数据进行深度分析。

从上图我们可以看到整个工作流大概从预处理到分析挖掘分为 7 个部分,其中不同的部分会调用不同的数据知识库,最后的分析挖掘则是我们希望获得的结果。

在整个流程中,我们除了对数据进行各种操作与处理外,还要创建新的知识表示方式。例如将数据按照一定主题进行关联来构造一个模型,公安数据治理分别以人、物、时空、组织、虚拟标识、 案件等作为主题来建立模型。

数据太多、太乱、太杂?你需要这样一套数据治理流程

除此之外,知识图谱按照目标数据可以分为实体、事件、关系三种类型,从而建立数据之间的关联关系。如下在公安场景中,我们能以人为中心实体构建的一个简单的知识图谱。其中我们需要建立人与电话号码所属关系、人与护照所属关系及人与人的关系等等。

数据太多、太乱、太杂?你需要这样一套数据治理流程

以上就是公安数据治理的简要结构了,吴信东教授说:「明略科技提出这样的数据治理框架,希望通过数据在线、分析洞察、闭环智能「三步走」战略,构建从感知到认知再到行动的反馈闭环,将人类、机器、组织的智能三位一体,为企业和组织提供具有分析决策能力的高阶人工智能应用。」

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读