R语言数据处理方法~小结

发布时间：2021-01-15 04:36:32 所属栏目：大数据来源：网络整理

导读：副标题#e# 文章目录 1. R自带函数 2. reshape2数据重构 3. dplyr 4. tidyr 5. 字符串处理 1. R自带函数 1.1 转置使用函数t()可对一个矩阵或数据框进行转置，对于数据框，行名将变成变量（列）名。数列array进行维度转换 aperm 1.2 整合数据aggregate 在R

3.1.1 数据类型

将过长过大的数据集转换为显示更友好的 tbl_df 类型

3.1.2 筛选filter

按给定的逻辑判断筛选出符合要求的子数据集,类似于 base::subset() 函数

用R自带函数实现:

除了代码简洁外,还支持对同一对象的任意个条件组合,如:

3.1.3 排列 arrange

用R自带函数实现:

3.1.4 选择select用列名作参数来选择子数据集:

排除列名:

select的特殊函数

(1)starts_with(x,ignore.case = TRUE): names starts with x

(2)ends_with(x,ignore.case = TRUE): names ends in x

(3)contains(x,ignore.case = TRUE): selects all variables whose name contains

(4)matches(x,ignore.case = TRUE): selects all variables whose name matches the regular expression x

(5)num_range("x",1:5,width = 2): selects all variables (numerically) from x01 to x05.

(6)one_of("x","y","z"): selects variables provided in a character vector.

(7)everything(): selects all variables.

":" 选择连续列，contains来匹配列名

同样类似于R自带的subset() 函数.

3.1.5 添加新变量mutate

对已有列进行数据运算并添加为新列:

mutate_each()

对每一列运行窗体函数。

plyr::mutate() 与 base::transform() 相似,优势在于可以在同一语句中对刚增加的列进行操作。

通过data.frame有可以实现

3.1.6 汇总summarise
count()

3.1.7 tally

3.2 分组group_by

当对数据集通过 group_by() 添加了分组信息后,mutate(),arrange() 和 summarise() 函数会自动对这些 tbl 类数据执行分组操作 (R语言泛型函数的优势).

另: 一些汇总时的小函数

n(): 计算个数?n_distinct(x): 计算 x 中唯一值的个数

3.3 链式操作(管道) %>% 或 %.%

dplyr包还新引进了一个操作符，读成then，使用时把数据名作为开头,然后依次对此数据进行多步操作。比如:

按数据处理的思路写代码,一步步深入,?既易写又易读,接近于从左到右的自然语言顺序，对比一下用R自带函数实现的.

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/6

首页

尾页