R包dplyr使用集锦

栏目: R语言 · 发布时间: 7年前

内容简介：2018年11月26日

1. 使用 dplyr 包的好处

大多数时间在操作 tbl_df 对象，而不是 data.frame （特别是含有 factor 的 data.frame ）。
与 magrittr 包的管道更好地结合。
更丰富的列操作，例如 mutate 、 select 。 group_by 会节省很多for循环。

2. 列操作

filter() ：过滤列，需要输入一个逻辑向量（注意 xor(x, y) ：x和y并集除去交集的部分。 between(x, left, right) ：left <= x <= right。 near(x, y) ：x和y在一定精度下相等，比 == 安全）。直接使用列名操作，例如 year == 2018 。多列操作相当于 & 。受 group 操作影响。
arrange() ：列排序（默认升序）。多列操作时，先排序第一个，再对第一个相等的排第二个。 desc() 降序排列。 .by_group = FALSE 控制是否需要按照group进行组内操作。
select() ：选择列，重新组合新的 tbl_df 。结合 tidyselect 包 的starts_with() 前缀、 end_with() 后缀、 contains() 部分字符串、 matches() 正则匹配、 num_range 类似V01和x02之类、 everything() （剩余）所有的列、 last_col(offset = n) 倒数第n+1列（默认n为0）。 select(Col1 = col1) 更改col1列名为Col1，并只返回Col1列。 rename(Col1 = col1) 返回全部列，但更改列名为Col1。不受 group 操作影响。
mutate() ：增加列，返回原始对象和增加列，增加列放置最后。 transmute() ：只返回增加的列。受 group 操作影响。

3. 行操作

sample_n() 和 sample_frac() ：随机选择行。

4. 两个表的操作

inner_join(x, y) ：按照指定的列（可以多列），只返回x和y的共同内容。
left_join(x, y) ：按照指定的列（可以多列），返回x和y相同内容和剩余x内容（y中没有的用 NA 替代）。
right_join(x, y) ：等价于 left_join(y, x) 。
full_join(x, y) ：全部x和y内容（没有的用 NA 代替）。
semi_join(x, y, by) ：按照指定的列（可以多列），返回x中与y相同的内容。制定列可以写为 by = c('col1', 'col2') 或者 by = c('colx1' = 'coly1', 'colx2' = 'coly2') 。
anti_join(x, y) ： semi_join() 后x剩余的内容。
bind_rows(x, y) 和 bind_cols(x, y) ：行和列连接。
intersect(x, y) 、 setdiff(x, y) 和 union(x, y) ：对行判断，x和y的交集、x中的余集和并集。
setequal(x, y) ：x和y的行是否相同（与行顺序无关）。

参考资料

Hadley Wickham, Garrett Grolemund: R for Data Science .
dplyr vignettes
dplyr in tidyverse
RStudio Cheat Sheets

更新记录

2018年11月26日

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

图论算法理论、实现及应用

王桂平//王衍//任嘉辰 / 北京大学 / 2011-1 / 54.00元

《图论算法理论、实现及应用》系统地介绍了图论算法理论，并选取经典的ACM／ICPC竞赛题目为例题阐述图论算法思想，侧重于图论算法的程序实现及应用。《图论算法理论、实现及应用》第1章介绍图的基本概念和图的两种存储表示方法：邻接矩阵和邻接表，第2～9章分别讨论图的遍历与活动网络问题，树与图的生成树，最短路径问题，可行遍性问题，网络流问题，支配集、覆盖集、独立集与匹配，图的连通性问题，平面图及图的着色问......一起来看看《图论算法理论、实现及应用》这本书的介绍吧!

码农工具