加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

数据太多、太乱、太杂?你需要这样一套数据治理流程

发布时间:2019-09-27 07:33:15 所属栏目:建站 来源:Synced
导读:副标题#e# 数据作为机器学习的基础,从 GB、TB 到 PB 已经增长了无数倍,现在大一点的业务场景,没有 TB 级数据都提供不了高效的体验。那么数据怎么治理才好,怎样与模型、算力结合才算妙?在本文中,我们将看看什么是 HAO 数据治理模型,看看公安数据到底

接入后的数据都是比较杂乱的,它本身带了一些冗余或缺失的信息。因此,数据治理模块主要包括对汇聚库中的数据进行数据清洗和数据规范,必要时进行主题划分和数据关联,然后进行数据集成。治理完成后的数据汇聚到数据共享中心中,并用于后续的建模。

数据太多、太乱、太杂?你需要这样一套数据治理流程

其中我们比较熟悉的就是数据清洗,它会对数据进行审查和校验,从而过滤不合规数据、删除重复数据、纠正错误数据、完成格式转换。

3. 数据服务

数据治理的目标是提供一个可直接使用且方便管理的数据库,它最终还是要为各种模型提供学习基础。而模型,最终也是要提供各种智能服务,因此这一部分也应该得到规范的管理。

基于数据治理模块,数据服务模块最开始会根据数据共享中心构建知识图谱,它不仅向使用者提供模型管理、模型探索、数据探索等数据服务,同时还向专业人员提供挖掘分析、专家建模等智能数据服务。

数据太多、太乱、太杂?你需要这样一套数据治理流程

其中核心的知识图谱是由节点和边组成的巨型知识网络,节点代表实体、边代表实体之间的关系,每个实体 还通过键值对来描述实体的内在特性。领域专家们可以根据知识图谱中的实体和关系等核心数据进行建模,并进行高层次的数据挖掘分析和加工。

统一数据接入、治理和服务模块,就能构造出「HAO 治理」模型,它规定了最一般的处理流程。吴信东教授说:「只有通过多维感知,利用数据治理技术,将高质量的数据连接起来,才能进行知识的智能抽取,基于知识图谱、暴力挖掘对知识进行多维度分析推理,构建决策模型,完成从数字化、网络化到智能化的跃迁。」

公安的数据治理应该是什么样的

上面介绍了「HAO 治理」模型的主要概念,那么它应用到现实世界中又是怎么样的,它能进一步降低人工成本吗?在论文的最后一部分,研究者以公安数据治理为例,介绍了整体流程与框架到底是什么样的。

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读