加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

零基础学习大数据挖掘的33个知识点整理

发布时间:2018-09-23 21:26:42 所属栏目:教程 来源:佚名
导读:副标题#e# 9月15日技术沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维! 下面是一些关于大数据挖掘的知识点,笔者和大家一起来学习一下。 1. 数据、信息和知识是广义数据表现的不同形式。 2. 主要知识模式类型有:广义知识,关联知识,类知

27. 改善Apriori算法适应性和效率的主要的改进方法有:

  • 基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。
  • 基于散列的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。
  • 基于采样的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。
  • 其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。

28. 面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多:

a 异构数据源环境:Web网站上的信息是异构: 每个站点的信息和组织都不一样;存在大量的无结构的文本信息、复杂的多媒体信息;站点使用和安全性、私密性要求各异等等。

b 数据的是复杂性:有些是无结构的(如Web页),通常都是用长的句子或短语来表达文档类信息;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的一般性描述特征成为数据挖掘的不可推卸的责任。

c 动态变化的应用环境:

  • Web的信息是频繁变化的,像新闻、股票等信息是实时更新的。
  • 这种高变化也体现在页面的动态链接和随机存取上。
  • Web上的用户是难以预测的。
  • Web上的数据环境是高噪音的。

29. 简述知识发现项目的过程化管理I-MIN过程模型。

  • MIN过程模型把KDD过程分成IM1、IM2、…、IM6等步骤处理,在每个步骤里,集中讨论几个问题,并按一定的质量标准来控制项目的实施。
  • IM1任务与目的:它是KDD项目的计划阶段,确定企业的挖掘目标,选择知识发现模式,编译知识发现模式得到的元数据;其目的是将企业的挖掘目标嵌入到对应的知识模式中。
  • IM2任务与目的:它是KDD的预处理阶段,可以用IM2a、IM2b、IM2c等分别对应于数据清洗、数据选择和数据转换等阶段。其目的是生成高质量的目标数据。
  • IM3任务与目的:它是KDD的挖掘准备阶段,数据挖掘工程师进行挖掘实验,反复测试和验证模型的有效性。其目的是通过实验和训练得到浓缩知识(Knowledge Concentrate),为最终用户提供可使用的模型。
  • IM4任务与目的:它是KDD的数据挖掘阶段,用户通过指定数据挖掘算法得到对应的知识。
  • IM5任务与目的:它是KDD的知识表示阶段,按指定要求形成规格化的知识。
  • IM6任务与目的:它是KDD的知识解释与使用阶段,其目的是根据用户要求直观地输出知识或集成到企业的知识库中。

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读