数据分析常用的18个概念，终于有人讲明白了！

发布时间：2019-10-12 19:29:20 所属栏目：教程来源：佚名

导读：副标题#e# [ 导读 ]大多数情况下，数据分析的过程必须包括数据探索的过程。数据探索可以有两个层面的理解：一是仅利用一些工具，对数据的特征进行查看；二是根据数据特征，感知数据价值，以决定是否需要对别的字段进行探索，或者决定如何加工这些字段以发

Skewness的绝对值（不论是正值还是负值）如果大于1是个很明显的信号，你的数据分布有明显的不对称性。很多数据分析的算法都是基于数据的分布是类似于正态分布的钟型分布，并且数据都是在均值的周围分布。如果Skewness的绝对值过大，则是另一个信号：你要小心地使用那些算法！

不同的偏斜度下，均值、中位数、众数的取值是有很大不同的：

图2-3 众数、均值及中位数在不同分布下的比较

由图2-3可见，在数据取值范围相同的情况下，中位数是相同的。但是均值和众数却有很大的不同。所以，除了偏斜度指标可以直接反映分布特征外，还可以通过中位数和均值的差异来判断分布的偏斜情况。

中位数＜均值：偏左分布
中位数、均值相差无几：对称分布
中位数＞均值：偏右分布

14. 峰态（Kurtosis）

标准正态分布的峰态的值是3，但是在很多数据分析工具中对峰态值减去3，使得：0代表是正态分布；正值代表数据分布有个尖尖的峰值，高于正态分布的峰值；负值代表数据有个平缓的峰值，且低于正态分布的峰值。

峰态指标的主要作用是体现数值分布的尾巴厚度，尖峰对应着厚尾，即Kurtosis大于0时，意味着有一个厚尾巴。尖峰厚尾也就是说，在峰值附近取值较集中，但在非峰值附近取值较分散。图2-4所示为一个峰态的例子。

数据分析常用的18个概念，终于有人讲明白了！

图2-4 峰态的例子

在连续型数据的探索中，需要重点关注的指标首先是缺失率，然后是均值、中位数等指标，这些指标能帮助数据分析者对数据的特征有很好的了解。偏斜度是另外一个非常重要的指标，但其绝对值接近1或大于1时，必须对其进行log转换才能使用，否则该指标的价值将大打折扣。

Python Pandas中DataFrame的describe方法默认只统计连续性字段的最大值、最小值、均值、标准差、四分位数，如果想获取其他的特征值，需要调用相应的函数来获得。下面是一段示例代码，其运行结果通过表2-4来展示。

List_of_series = [bank.var().rename('方差'),  
                  bank.median().rename('中位数'),  
                  bank.skew().rename('偏斜度'),  
                  bank.kurt().rename('峰态')]  
df = pd.DataFrame(list_of_series)  
mode = bank.mode(numeric_only＝True).rename({0: '众数'})  
pd.concat([df, mode])

数据分析常用的18个概念，终于有人讲明白了！

▲表2-4 连续型变量数据探索示例代码的运行结果

03 分类型数据的探索

分类型数据的探索主要是从分类的分布等方面进行考察。常见的统计指标有以下几个：

15. 缺失值

缺失值永远是需要关心的指标，不论是连续型数据，还是分类型数据。过多的缺失值，会使得指标失去意义。

16. 类别个数

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/4

首页

尾页