R语言数据处理方法~小结
3.1.1 数据类型 将过长过大的数据集转换为显示更友好的 tbl_df 类型 按给定的逻辑判断筛选出符合要求的子数据集,类似于 base::subset() 函数 除了代码简洁外,还支持对同一对象的任意个条件组合,如: 3.1.3 排列 arrange 3.1.4 选择select用列名作参数来选择子数据集: select的特殊函数 (1)starts_with(x,ignore.case = TRUE): names starts with x (2)ends_with(x,ignore.case = TRUE): names ends in x (3)contains(x,ignore.case = TRUE): selects all variables whose name contains (4)matches(x,ignore.case = TRUE): selects all variables whose name matches the regular expression x (5)num_range("x",1:5,width = 2): selects all variables (numerically) from x01 to x05. (6)one_of("x","y","z"): selects variables provided in a character vector. (7)everything(): selects all variables. ":" 选择连续列,contains来匹配列名 同样类似于R自带的subset() 函数. 对已有列进行数据运算并添加为新列: mutate_each() 对每一列运行窗体函数。 通过data.frame有可以实现 3.1.6 汇总summarise 当对数据集通过 group_by() 添加了分组信息后,mutate(),arrange() 和 summarise() 函数会自动对这些 tbl 类数据执行分组操作 (R语言泛型函数的优势). 另: 一些汇总时的小函数 n(): 计算个数?n_distinct(x): 计算 x 中唯一值的个数 3.3 链式操作(管道) %>% 或 %.% dplyr包还新引进了一个操作符,读成then,使用时把数据名作为开头,然后依次对此数据进行多步操作。比如: 按数据处理的思路写代码,一步步深入,?既易写又易读,接近于从左到右的自然语言顺序, 对比一下用R自带函数实现的. (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |