终于，我也出了篇R语言入门手册！

栏目: R语言 · 发布时间: 7年前

作者：周运来，男，长大了才会遇到的帅哥，稳健，潇洒，大方，靠谱。

大型测序工厂的螺丝钉，一个R者，一个随机森林中靠统计觅食的人。

终于，我也出了篇R语言入门手册！

1. 什么是R语言

R语言是一个开源的数据分析环境，起初是由数位统计学家建立起来，以更好的进行统计计算和绘图，这篇wiki中包含了一些基本情况的介绍。由于R可以通过安装扩展包（Packages）而得到增强，所以其功能已经远远不限于统计分析，如果感兴趣的话可以到官方网站了解关于其功能的更多信息。

至于R语言名称的由来则是根据两位主要作者的首字母(Robert Gentleman and Ross Ihaka)，但过于简短的关键词也造成在搜索引擎中很不容易找到相关的资料。不过这个专门的搜索网站可以帮到你。

终于，我也出了篇R语言入门手册！

2. 为什么要学习R语言

给你一千个R的理由( 地址: https://www.burns-stat.com/documents/tutorials/why-use-the-r-language/ )可能你想说，“我已经学会了spss/sas/stata...，为什么还要去学习R呢？”

如下几方面可能会吸引到你：

编程入门语言:如果你之前没有编程经验，但是学习工作中经常需要计算、统计、绘图，那R是你的首选（Python也许不太同意，不管他）。语法结构简单，上手较快，而且函数和pckages都有很好的实例文档。R是一门自学型语言，来R吧，你不会孤独。
R是免费开源软件:现在很多学术期刊都对分析软件有版权要求，而免费的分析工具可以使你在这方面不会有什么担心。另一方面，如果学术界出现一种新的数据分析方法，那么要过很长一段时间才会出现在商业软件中。但开源软件的好处就在于，很快就会有人将这种方法编写成扩展包，或者你自己就可以做这件工作。
命令行工作方式:许多人喜欢类似SPSS菜单式的操作，这对于初学者来说很方便入门，但对于数据分析来说，命令行操作会更加的灵活，更容易进行编程和自动化处理。而且命令行操作会更容易耍酷，不是嘛，一般人看到你在狂敲一推代码后得到一个分析结果，对你投来的目光是会不一样的。
小巧而精悍:R语言的安装包更小，大约不到40M，相比其它几个大家伙它算是非常小巧精悍了。目前R语言非常受到专业人士欢迎，根据对数据挖掘大赛胜出者的调查可以发现，他们用的工具基本上都是R语言。此外，从最近几次R语言大会上可以了解到，咨询业、金融业、医药业都在大量的使用R语言，包括google/facebook的大公司都在用它。因此，学习R语言对你的职业发展一定是有帮助的。

终于，我也出了篇R语言入门手册！

3. R语言的学习方法

学习R是一件非常轻松的事情，初学者需要记住的就是：

利用丰富的帮助文档

亲手键入代码并理解其意义

在笔记里记下一些重点或心得（个人推荐Evernote）

坚持练习，对手边的数据进行应用分析

理解背景知识，细节很重要。

R的获取

终于，我也出了篇R语言入门手册！

R包(package)：R函数、数据、帮助文件、预编译代码以一种定义完善的格式组成的集合。

.libPaths("E:/Rstudio/R_packages") #指定安装包的路径联网安装

install.packages(“vegan”) #安装普通包source(“https://bioconductor.org/biocLite.R”)#安装Bioconductor包biocLite("DESeq2")



安装本地zip包

Packages>install packages from local files

library(vegan) #加载包，也可用require()update.packages("vegan") #包的更新installed.packages() #查看已安装的包

终于，我也出了篇R语言入门手册！

1.基础数据结构

1.1 向量

# 创建向量a <-c(1, 2, 3, 4, 5, 6)

b<-c("one", "two", "three")

c<-c(TRUE, FALSE, TRUE, TRUE, FALSE)#向量索引a[2] #第二个元素a[-2] #删除第二个元素a[c(2:4)] #取出第二到第四个元素[1] 2[1] 2[1] 1 3 4 5 6

终于，我也出了篇R语言入门手册！

1.2 矩阵

#创建矩阵mymat <- matrix(c(1:10), nrow=2, ncol=5, byrow=TRUE)#矩阵索引mymat[2,] #取第二行mymat[,2] #取第二列mymat[1,5] #第一行第五列的元素

终于，我也出了篇R语言入门手册！

1.3 数组

#创建数组myarr <- array(c(1:12),dim=c(2,3,2))

dim(myarr) #取矩阵或数组的维度myarr[1,2,1] #取第一个矩阵的第一行第二列

1.4 数据框

终于，我也出了篇R语言入门手册！

# 创建数据框kids <- c("Wang", "Li")

age <- c("18", "16")

df <- data.frame(kids, age)#数据框索引df[1,] #第一行df[,2] #第二列df[1:2,1:2]#前两行，前两列df$kids #根据列名称#数据框常用函数str(df) #数据框的结构rownames(df) #行名称colnames(df) #列名称

1.4.1 因子变量

变量：类别变量，数值变量

类别数据对于分组数据研究非常有用。（男女，高中低）

R中的因子变量类似于类别数据。

#向量因子化status<-c("Poor", "Improved", "Excellent", "Poor") 

status<-factor(status,ordered=TRUE,

    levels= c("Poor","Improved", "Excellent"),

    labels=c("P","I","E"))

index <- sample(1:100,75)

plotdata <- data.frame(index,status)

attach(plotdata)

boxplot(index~status,col="red")

终于，我也出了篇R语言入门手册！

类别变量，有序变量称为因子，决定了数据的分析方式和视觉呈现形式

Attach()可以将数据框添加到R的搜索路径中，当R遇到一个变量名后，将检测搜索路径中的数据框，定位这个变量

1.5 列表

列表以一种简单的方式组织和调用不相干的信息，R函数的许多运行结果都是以列表的形式返回

#创建列表lis <- list(name='fred',

    wife='mary',

    no.children=3,

    child.ages=c(4,7,9))#列表索引lis$name #列表组件名lis[[1]] #列表位置访问

常用函数

终于，我也出了篇R语言入门手册！

R流程控制

终于，我也出了篇R语言入门手册！

p <- 0.1 

if(p<=0.05){  print("p<=0.05!")

}else{  print("p>0.05!")

}

终于，我也出了篇R语言入门手册！

for(i in 1:10) {  print(i)

}

i <- 1while(i<10) 

   {    print(i)

    i <- i + 1

  }

终于，我也出了篇R语言入门手册！

v <- LETTERS[1:6]for (i in v){  if(i == 'D'){

    next

  }  print(i)

}

终于，我也出了篇R语言入门手册！

v <- LETTERS[1:6]for (i in v){  if(i == 'D'){    break

  }  print(i)

}

2.5 R函数

函数是组织好的，可重复使用的，用来实现单一，或相关联功能的代码段

rcal<-function(x,y){

  z <- x^2 + y^2; 

  result<-sqrt(z) ;

  result;

}

rcal(3,4)# 调用函数

3. 读写数据

#数据读入
getwd()
setwd('C:/Users/Administrator/Desktop/file')

dir()

top<-read.table("otu_table.p10.relative.tran.xls",header=T,row.names=1,sep='\t',stringsAsFactors = F)

top10<-t(top)

head(top10, n=2)#数据写出logtop10<-log(top10+0.000001)

write.csv(logtop10,file="logtop10.csv", quote=FALSE,  row.names = TRUE)

write.table(logtop10,file="logtop10.xls",sep="\t", quote=FALSE, 

    row.names = TRUE, col.names = TRUE)

其他常用函数

终于，我也出了篇R语言入门手册！

4.数据清理

终于，我也出了篇R语言入门手册！

4.1 tidyr包

tidyr包的四个函数

宽数据转为长数据：gather()

长数据转为宽数据：spread()

多列合并为一列： unite()

将一列分离为多列：separate()

library(tidyr)

gene_exp <- read.table('geneExp.csv',header = T,sep=',',stringsAsFactors = F)

head(gene_exp) #gather 宽数据转为长数据gene_exp_tidy <- gather(data = gene_exp, key = "sample_name", value = "expression", -GeneID)

head(gene_exp_tidy)#spread 长数据转为宽数据gene_exp_tidy2<-spread(data = gene_exp_tidy, key = "sample_name", value = "expression")

head(gene_exp_tidy2)

终于，我也出了篇R语言入门手册！

4.2 dplyr包

dplyr包五个函数用法：

筛选: filter

排列: arrange()

选择: select()

变形: mutate()

汇总: summarise()

分组: group_by()

library(tidyr)

library(dplyr)

gene_exp <- read.table("geneExp.csv",header=T,sep=",",stringsAsFactors = F)

gene_exp_tidy <- gather(data = gene_exp, key = "sample_name", value = "expression", -GeneID)#arrange 数据排列gene_exp_GeneID <- arrange(gene_exp_tidy, GeneID)#降序加deschead(gene_exp_GeneID )#filter 数据按条件筛选gene_exp_fiter <- filter(gene_exp_GeneID ,expression>10)

head(gene_exp_fiter)#select 选择对应的列gene_exp_select <- select(gene_exp_fiter ,sample_name,expression)

head(gene_exp_select)

终于，我也出了篇R语言入门手册！

5. 绘图

终于，我也出了篇R语言入门手册！

5.1 长数据与宽数据

终于，我也出了篇R语言入门手册！

library(tidyr)

library(ggplot2)#基础绘图file <- read.table("geneExp.csv",header=T,sep=",",stringsAsFactors = F,row.names = 1)#宽数据file

barplot(as.matrix(file),names.arg = colnames(file), beside =T ,col=terrain.colors(6))

legend("topleft",legend = rownames(file),fill = terrain.colors(6))#ggplot2绘图gene_exp <- read.table("geneExp.csv",header=T,sep=",",stringsAsFactors = F)

gene_exp_tidy <- gather(data = gene_exp, key = "sample_name", value = "expression", -GeneID)#长数据head(gene_exp_tidy)

ggplot(gene_exp_tidy,aes(x=sample_name,y=expression,fill=GeneID)) + geom_bar(stat='identity',position='dodge')

终于，我也出了篇R语言入门手册！

5.2 图形参数位置

终于，我也出了篇R语言入门手册！

x <- rnorm(20, 2, 1)

y <- rnorm(20, 4, 2)

plot(x, y, cex=c(1:3), type="p", pch=19, col = "blue",

     cex.axis=1.5, col.axis="darkgreen", font.axis=2,

     main="这是主标题：plot初试", font.main=2, cex.main=2, col.main="green",

     sub="这是副标题：图1", font.sub=3, cex.sub=1.5, col.sub="red",

     xlab="这是x轴标签", ylab="这是y轴标签",cex.lab=1.5, font.lab=2, col.lab="grey20",

     xlim=c(0,3), ylim=c(0,7))

abline(h=2, v=3, lty=1:2, lwd=2,col="red")

legend("topright", legend="我是图例\n我在这儿",

      text.col="red", text.width=0.5)#Rnorm正态分布 个数 平均值 标准差 plot是泛型函数，根据输入类型的不同而变化#Type p 代表点 l 代表线 b 代表两者叠加

终于，我也出了篇R语言入门手册！

图形参数：

符号和线条：pch、cex、lty、lwd

颜色：col、col.axis、col.lab、col.main、col.sub、fg、bg

文本属性：cex、cex.axis、cex.lab、cex.main、cex.sub、font、font.axis、font.lab、font.main、font.sub
文本添加、坐标轴的自定义和图例

title()、main、sub、xlab、ylab、text()

axis()、abline()

legend()
多图绘制时候，可使用par()设置默认的图形参数

par(lwd=2, cex=1.5)
图形参数设置：

par(optionname=value,…)

par(pin=c(width,height)) 图形尺寸

par(mfrow=c(nr,nc)) 图形组合，一页多图

layout(mat) 图形组合，一页多图

par(mar=c(bottom,left,top,right)) 边界尺寸

par(fig=c(x1,x2,y1,y2),new=TURE) 多图叠加或排布成一幅图

#图形组合：attach(mtcars)

opar <- par(no.readonly=TRUE) #复制当前图形参数设置par(mfrow=c(2,2))#设置图形参数#layout(matrix(c(1,2,2,3),2,2,byrow=TRUE))plot(wt,mpg,main="Scatterplot of wt vs mpg")

hist(wt,main="Histogram of wt")

boxplot(wt,main="Boxplot of wt")

par(opar) #返回原始图形参数detach(mtcars)

终于，我也出了篇R语言入门手册！

5.3 柱形图

file <- read.table("barData.csv",header=T,row.names=1,sep=",",stringsAsFactors = F)

dataxx <- as.matrix(file) #转化为矩阵cols <- terrain.colors(3) #抽取颜色#误差线函数plot.error <- function(x, y, sd, len = 1, col = "black") {

  len <- len * 0.05

    arrows(x0 = x, y0 = y, x1 = x, y1 = y - sd, col = col, angle = 90, length = len)

    arrows(x0 = x, y0 = y, x1 = x, y1 = y + sd, col = col, angle = 90, length = len) 

} 

x <- barplot(dataxx, offset = 0, ylim=c(0, max(dataxx) * 1.1),axis.lty = 1, names.arg = colnames(dataxx), col = cols, beside = TRUE) 

box() 

legend("topright", legend = rownames(dataxx), fill = cols, box.col = "transparent") 

title(main = "An example of barplot", xlab = "Sample", ylab = "Value") 

sd <- dataxx * 0.1 for (i in 1:3) {

  plot.error(x[i, ], dataxx[i, ], sd = sd[i, ])

}

终于，我也出了篇R语言入门手册！

5.4 二元图

终于，我也出了篇R语言入门手册！

matdata <- read.table("plot_observed_species.xls", header=T)

tbl_df(matdata) #查看数据属性和结构y<-matdata[,2:145]

attach(matdata)

matplot(series,y, 

        ylab="Observed Species Number",xlab="Sequences Number",

        lty=1,lwd=2,type="l",col=1:145,cex.lab=1.2,cex.axis=0.8)

legend("topleft",lty=1, lwd=2, legend=names(y)[1:8], 

       cex=0.5,col=1:145)

detach(matdata)

终于，我也出了篇R语言入门手册！

5.5 饼状图

relative<-c(0.270617,0.177584,0.194911,0.054685,0.048903,0.033961, 0.031195,0.188143)

taxon<-c("Sordariales","Pleosporales","Agaricales","Hypocreales",   "Pezizales","Eurotiales","Helotiales","Others")

ratio<-round(relative*100,2)

ratio<-paste(ratio,"%",sep="")

label<-paste(taxon,ratio,sep=" ")

pie(relative,labels=label, main="ITS1-Sample S1",   radius=1,col=rainbow(length(label)),cex=1.3)

library(plotrix)

fan.plot(relative,labels=label,main="Fan plot")

pie3D(relative,labels=label, height=0.2, theta=pi/4, explode=0.1, col=rainbow(length(label)),  border="black",font=2,radius=1,labelcex=0.9)

终于，我也出了篇R语言入门手册！

5.6 直方图

seqlength<-rnorm(1000, 350, 30)hist(seqlength,breaks=100,

     col="red",freq=FALSE, 

     main="Histogram with dengsitycurve",     ylab="Density", xlab="Sequence length")lines(density(seqlength),col="blue4",lwd=2)

终于，我也出了篇R语言入门手册！

5.7 聚类图

clu <- read.table("unweighted_unifrac_dm.txt", header=T, row.names=1, sep="\t")

head(clu)

dis <- as.dist(clu)

h <- hclust(dis, method="average")

plot(h, hang = 0.1, axes = T, frame.plot = F, main="Cluster Dendrogram based on unweighted_unifrac", sub="UPGMA")

终于，我也出了篇R语言入门手册！

5.8 维恩图

library(VennDiagram)

ven<-list(sample1=20:50,  sample2=c(1:30,50:80), sample3=40:90, sample4=c(10:30,70:100))
venn.diagram(ven, filename='venn.png', cex=1.2, col="black", alpha= 0.50,lwd =1.2, cat.cex=1.4,

               fill=c("cornflowerblue", "green", "Gold1","darkorchid1"),  margin=0.15)

终于，我也出了篇R语言入门手册！

图片输出

直接导出
命令

pdf(file="file.pdf", width=7, height=10)

png(file="file.png",width=480,height=480)

jpeg(file="file.png",width=480,height=480)

tiff(file="file.png",width=480,height=480)



dev.off()

参考资料：

1. R|home https://www.r-project.org

2. 雪晴网 http://www.xueqing.tv

3. 统计之都 https://cosx.org

4. R语言基础入门之一：引言

https://www.cnblogs.com/wentingtu/archive/2012/03/03/2377969.html

5. R语言在生态学研究中的应用分析

http://blog.sciencenet.cn/blog-267448-1058416.html

6.为什么生态学家要学习 Python 或者R？

http://blog.sciencenet.cn/blog-255662-1093799.html

7. Statistical tools for high-throughput data analysis http://www.sthda.com/french/

8. why-use-the-r-language

https://www.burns-stat.com/documents/tutorials/why-use-the-r-language/

9. Why R? The pros and cons of the R language

https://www.infoworld.com/article/2940864/application-development/r-programming-language-statistical-data-analysis.html

10.Why use R? Five reasons

https://www.r-bloggers.com/why-use-r-five-reasons/

本文由R语言中文社区创作，采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。

转载、引用前需联系作者，并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台，并不用于任何商业目的，如果有任何问题，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

创新

理查德·福斯特 / 王宇锋 / 中信出版社 / 2008-10 / 32.00元

《创新:进攻者的优势》内容简介：为什么一流企业突然间将它们的市场拱手让与新的竞争者?要避免这样的命运，需要无情地抛弃那些过去使它们成功的技能和产品，那么究竟哪些企业能够做到这一点呢?企业如果总是墨守成规、因循守旧，那么长期下去，必然无法以市场的速度及规模进行革新或创造价值。这样的企业会像得州仪器、施乐等市场领先者一样，被一些资源较少、技术较差、市场支配力较弱的竞争对手超越，而这些所谓进攻者的优势，......一起来看看《创新》这本书的介绍吧!

码农工具

图片转BASE64编码

在线图片转Base64编码工具

终于，我也出了篇R语言入门手册！

1. 什么是R语言

2. 为什么要学习R语言

如下几方面可能会吸引到你：

1.基础数据结构

1.1 向量

1.2 矩阵

1.3 数组

1.4 数据框

1.4.1 因子变量

1.5 列表

R流程控制

2.5 R函数

3. 读写数据

4.数据清理

4.1 tidyr包

4.2 dplyr包

5. 绘图

5.1 长数据与宽数据

5.2 图形参数位置

5.3 柱形图

5.4 二元图

5.5 饼状图

5.6 直方图

5.7 聚类图

5.8 维恩图

图片输出

参考资料：

创新

图片转BASE64编码

UNIX 时间戳转换