内容简介:2018年11月26日
1. 使用 dplyr 包的好处
-
大多数时间在操作
tbl_df对象,而不是data.frame(特别是含有factor的data.frame)。 -
与 magrittr 包的管道更好地结合。
-
更丰富的列操作,例如
mutate、select。group_by会节省很多for循环。
2. 列操作
-
filter():过滤列,需要输入一个逻辑向量(注意xor(x, y):x和y并集除去交集的部分。between(x, left, right):left <= x <= right。near(x, y):x和y在一定精度下相等,比==安全)。直接使用列名操作,例如year == 2018。多列操作相当于&。受group操作影响。 -
arrange():列排序(默认升序)。多列操作时,先 排序 第一个,再对第一个相等的排第二个。desc()降序排列。.by_group = FALSE控制是否需要按照group进行组内操作。 -
select():选择列,重新组合新的tbl_df。结合 tidyselect 包的starts_with()前缀、end_with()后缀、contains()部分字符串、matches()正则匹配、num_range类似V01和x02之类、everything()(剩余)所有的列、last_col(offset = n)倒数第n+1列(默认n为0)。select(Col1 = col1)更改col1列名为Col1,并只返回Col1列。rename(Col1 = col1)返回全部列,但更改列名为Col1。不受group操作影响。 -
mutate():增加列,返回原始对象和增加列,增加列放置最后。transmute():只返回增加的列。受group操作影响。
3. 行操作
sample_n()
和 sample_frac()
:随机选择行。
4. 两个表的操作
-
inner_join(x, y):按照指定的列(可以多列),只返回x和y的共同内容。 -
left_join(x, y):按照指定的列(可以多列),返回x和y相同内容和剩余x内容(y中没有的用NA替代)。 -
right_join(x, y):等价于left_join(y, x)。 -
full_join(x, y):全部x和y内容(没有的用NA代替)。 -
semi_join(x, y, by):按照指定的列(可以多列),返回x中与y相同的内容。制定列可以写为by = c('col1', 'col2')或者by = c('colx1' = 'coly1', 'colx2' = 'coly2')。 -
anti_join(x, y):semi_join()后x剩余的内容。 -
bind_rows(x, y)和bind_cols(x, y):行和列连接。 -
intersect(x, y)、setdiff(x, y)和union(x, y):对行判断,x和y的交集、x中的余集和并集。 -
setequal(x, y):x和y的行是否相同(与行顺序无关)。
参考资料
-
Hadley Wickham, Garrett Grolemund: R for Data Science .
更新记录
2018年11月26日
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Speed Up Your Site
Andrew B. King / New Riders Press / 2003-01-14 / USD 39.99
There's a time bomb on the web: user patience. It starts ticking each time someone opens one of your pages. You only have a few seconds to get compelling content onto the screen. Fail, and you can kis......一起来看看 《Speed Up Your Site》 这本书的介绍吧!