内容简介:之前一直以为cBioPortal是用于可视化分析癌症基因组(TCGA, ICGC)等数据的网站,后来才发现其还收录了不少研究论文的原始上传数据最近因为有个需求希望能下载到BioPortal上某个研究的全部原始数据,尝试了不少方法,最终找到可以在Github上下载BioPortal网站上所有文章的数据,步骤略微繁琐,因此整理下cBioPortal网站做了一个R包-cgdsr使用户能通过一个基于R的API端口访问其每个癌症数据集
之前一直以为cBioPortal是用于可视化分析癌症基因组(TCGA, ICGC)等数据的网站,后来才发现其还收录了不少研究论文的原始上传数据
整合进cBioPortal的基因组数据类型包括体细胞突变,DNA copy-number alterations(CNAs),Mrna和microRNA(miRNA)表达,DNA甲基化,蛋白质富集,磷酸化蛋白富集。
cBioportal中文教程最近因为有个需求希望能下载到BioPortal上某个研究的全部原始数据,尝试了不少方法,最终找到可以在Github上下载BioPortal网站上所有文章的数据,步骤略微繁琐,因此整理下
cBioPortal网站做了一个R包-cgdsr使用户能通过一个基于R的API端口访问其每个癌症数据集 使用R语言的cgdsr包获取TCGA数据
这个R包主要提供以下几个函数进行查询数据:
-
加载cgdsr包,创建一个对象来连接cbioportal server
library(cgdsr) # Create CGDS object mycgds = CGDS("http://www.cbioportal.org/")
-
查询cbioportal包含的研究数据的study id
# Get list of cancer studies at server study_id <- getCancerStudies(mycgds)[,c(1,2)]
-
看看某个study id(如nsclc_pd1_msk_2018)的所包含的数据类型有哪些(如mutate data等)以及case类型
profiles <- getGeneticProfiles(mycgds, "nsclc_pd1_msk_2018") cases <- getCaseLists(mycgds, "nsclc_pd1_msk_2018")
-
最后看下特定一个基因的数据情况,如下是突变数据
res <- getProfileData(mycgds, c("CDK4","RARA"), "nsclc_pd1_msk_2018_mutations", "nsclc_pd1_msk_2018_all")
除了R的API端口外,BioPortal网站还提供了web的API端口,结果跟R的API大同小异
但是我最近在查看一篇文献的时候,发现其文章的全部数据是放在BioPortal上的,并且也在BioPortal上搜了其相关界面。但是BioPortal网站只提供了其数据的一些可视化分析结果,而我需要其文章上传的全部原始数据,而R和web的API端口也无法满足这需求
这时在网上搜寻方法的时候看到有人提到BioPortal的Github上可以下载到全部数据,因此在Github上发现果然有相关方法: https://github.com/cBioPortal/datahub
The datahub is a repository for store data only. It contains staging files which are pre-validated and can be loaded directly into the cBioPortal
但是其是用git-lfs来管理这些文件的
Git LFS 是 Github 开发的一个 Git 的扩展,用于实现 Git 对大文件的支持
所以我们需要先安装git lfs先(以ubuntu为例),依次输入命令就行;其主要步骤是先将安装Git,然后将git-lfs放到你的apt源里,然后在用apt来安装git-lfs,最后显示 Git LFS initialized.
即说明安装成功
sudo apt-get install git curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash sudo apt-get install git-lfs git lfs install
接着用git将datahub仓库克隆到服务器上
git clone https://github.com/cBioPortal/datahub.git cd datahub git lfs install --local --skip-smudge
最后可以是通过git-lfs将study id的相关数据都拉下来(注:这个stduy id是要在datahub/public里有的才行)
git lfs pull -I public/nsclc_pd1_msk_2018 cd public/nsclc_pd1_msk_2018/
最后可以看到数据都下载到 nsclc_pd1_msk_2018
文件夹中了,包含了完整的数据,非常好用,有需求的可以试试哈
anlan@ubuntu:~/datahub/public/nsclc_pd1_msk_2018$ ls -lh 总用量 2.3M drwxrwxr-x 2 anlan anlan 4.0K 9月 22 00:00 case_lists -rw-rw-r-- 1 anlan anlan 18K 9月 22 00:03 data_clinical_patient.txt -rw-rw-r-- 1 anlan anlan 27K 9月 22 00:03 data_clinical_sample.txt -rw-rw-r-- 1 anlan anlan 261K 9月 22 00:03 data_CNA.txt -rw-rw-r-- 1 anlan anlan 24K 9月 22 00:03 data_fusions.txt -rw-rw-r-- 1 anlan anlan 6.6K 9月 22 00:03 data_gene_matrix.txt -rw-rw-r-- 1 anlan anlan 2.2K 9月 22 00:03 data_gene_panel_impact341.txt -rw-rw-r-- 1 anlan anlan 2.6K 9月 22 00:03 data_gene_panel_impact410.txt -rw-rw-r-- 1 anlan anlan 2.9K 9月 22 00:03 data_gene_panel_impact468.txt -rw-rw-r-- 1 anlan anlan 638K 9月 22 00:03 data_mutations_extended_mskcc.txt -rw-rw-r-- 1 anlan anlan 637K 9月 22 00:03 data_mutations_extended.txt -rw-rw-r-- 1 anlan anlan 147 9月 22 00:00 meta_clinical_patient.txt -rw-rw-r-- 1 anlan anlan 145 9月 22 00:00 meta_clinical_sample.txt -rw-rw-r-- 1 anlan anlan 273 9月 22 00:00 meta_CNA.txt -rw-rw-r-- 1 anlan anlan 229 9月 22 00:00 meta_fusions.txt -rwxrwxr-x 1 anlan anlan 152 9月 22 00:00 meta_gene_matrix.txt -rw-rw-r-- 1 anlan anlan 284 9月 22 00:00 meta_mutations_extended.txt -rw-rw-r-- 1 anlan anlan 375 9月 22 00:00 meta_study.txt -rw-rw-r-- 1 anlan anlan 618K 9月 22 00:03 nsclc_pd1_msk_2018_data_cna_hg19.seg -rw-rw-r-- 1 anlan anlan 229 9月 22 00:00 nsclc_pd1_msk_2018_meta_cna_hg19_seg.txt
本文出自于 http://www.bioinfo-scrounger.com 转载请注明出处
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。