加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

R语言数据处理方法~小结

发布时间:2021-01-15 04:36:32 所属栏目:大数据 来源:网络整理
导读:副标题#e# 文章目录 1. R自带函数 2. reshape2数据重构 3. dplyr 4. tidyr 5. 字符串处理 1. R自带函数 1.1 转置 使用函数t()可对一个矩阵或数据框进行转置,对于数据框,行名将变成变量(列)名。 数列array进行维度转换 aperm 1.2 整合数据aggregate 在R

3.1.1 数据类型

将过长过大的数据集转换为显示更友好的 tbl_df 类型

R语言数据处理方法~小结

3.1.2 筛选filter

按给定的逻辑判断筛选出符合要求的子数据集,类似于 base::subset() 函数

R语言数据处理方法~小结

用R自带函数实现:

R语言数据处理方法~小结

除了代码简洁外,还支持对同一对象的任意个条件组合,如:

3.1.3 排列 arrange

R语言数据处理方法~小结

用R自带函数实现:

3.1.4 选择select用列名作参数来选择子数据集:

R语言数据处理方法~小结

排除列名:

R语言数据处理方法~小结

select的特殊函数

(1)starts_with(x,ignore.case = TRUE): names starts with x

(2)ends_with(x,ignore.case = TRUE): names ends in x

(3)contains(x,ignore.case = TRUE): selects all variables whose name contains

(4)matches(x,ignore.case = TRUE): selects all variables whose name matches the regular expression x

(5)num_range("x",1:5,width = 2): selects all variables (numerically) from x01 to x05.

(6)one_of("x","y","z"): selects variables provided in a character vector.

(7)everything(): selects all variables.

R语言数据处理方法~小结

":" 选择连续列,contains来匹配列名

同样类似于R自带的subset() 函数.

R语言数据处理方法~小结

3.1.5 添加新变量mutate

对已有列进行数据运算并添加为新列:

R语言数据处理方法~小结

mutate_each()

对每一列运行窗体函数。

R语言数据处理方法~小结

plyr::mutate() 与 base::transform() 相似,优势在于可以在同一语句中对刚增加的列进行操作。

R语言数据处理方法~小结

通过data.frame有可以实现

3.1.6 汇总summarise
count()

R语言数据处理方法~小结

3.1.7 tally

R语言数据处理方法~小结

3.2 分组group_by

当对数据集通过 group_by() 添加了分组信息后,mutate(),arrange() 和 summarise() 函数会自动对这些 tbl 类数据执行分组操作 (R语言泛型函数的优势).

R语言数据处理方法~小结

另: 一些汇总时的小函数

n(): 计算个数?n_distinct(x): 计算 x 中唯一值的个数

3.3 链式操作(管道) %>% 或 %.%

dplyr包还新引进了一个操作符,读成then,使用时把数据名作为开头,然后依次对此数据进行多步操作。比如:

R语言数据处理方法~小结

按数据处理的思路写代码,一步步深入,?既易写又易读,接近于从左到右的自然语言顺序, 对比一下用R自带函数实现的.

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读