加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

数据分析常用的18个概念,终于有人讲明白了!

发布时间:2019-10-12 19:29:20 所属栏目:教程 来源:佚名
导读:副标题#e# [ 导读 ]大多数情况下,数据分析的过程必须包括数据探索的过程。数据探索可以有两个层面的理解: 一是仅利用一些工具,对数据的特征进行查看; 二是根据数据特征,感知数据价值,以决定是否需要对别的字段进行探索,或者决定如何加工这些字段以发

依据分类型数据中类别的个数,可以对指标是否可用有一个大致的判断。例如,从业务角度来看,某指标应当有6个类别,但实际样本中只出现了5个类别,则需要重新考虑样本的质量。再如,某个分类型变量只有一个类别时,对数据分析是完全不可用的。

17. 类别中个体数量

在大多数情况下,如果某些类别中个体数量太少,如只有1%的比例,可以认为该类别是个离群值。关于分类型变量离群值的研究比较多,但是如果脱离业务来谈分类型变量的离群值,是不妥当的。

不平衡数据就是一个典型的与业务有关的例子。比如,从业务角度来看,购买黄金的客户只占银行全量客户的很小的一个部分,如果采取简单随机抽样的方式,“是否购买”列的值将只有极少的“是”的取值。

但是,不能将“是”直接判断为离群值,反而“是”有极其重要的业务含义。所以,数据分析者需要灵活地认识和对待类别中个体数量的问题。

18. 众数

和连续型数据的含义一样,众数是数据集中出现频率最高的数据。比如,针对某个分类型取值A、B、C、D中C的出现次数最多,则C就是众数。

以下是一段分类型变量数据探索示例代码,其运行结果通过表2-5来展示。

  1. bank.describe(include=[np.object]) 

数据分析常用的18个概念,终于有人讲明白了!

表2-5 分类型变量数据探索示例代码的运行结果

应用Python Pandas的相关函数能够非常容易得到分类型变量的探索结果,表2-5所示就是数据探索示例代码的运行结果。

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读