Rank-rank hypergeometric overlap (RRHO)

栏目: R语言 · 发布时间: 6年前

内容简介:最近看到一篇文献文章研究在Major depressive disorder(MMD)下,对6个brain regions(vmPFC, OFC, dlPFC, aINS, NAc, vSUB)进行转录组测序,研究不同性别下与MMD相关的6个brain regions的一些表达特征;通过RRHO来寻找brain regions的overlapping patterns,相当于找一些有共同影响作用的基因

最近看到一篇文献 Sex-specific transcriptional signatures in human depression ,其中提到了用Rank-rank hypergeometric overlap (RRHO)方法来寻找不同类型样本之间的overlap基因

文章研究在Major depressive disorder(MMD)下,对6个brain regions(vmPFC, OFC, dlPFC, aINS, NAc, vSUB)进行转录组测序,研究不同性别下与MMD相关的6个brain regions的一些表达特征;通过RRHO来寻找brain regions的overlapping patterns,相当于找一些有共同影响作用的基因

Rank-rank hypergeometric overlap (RRHO)

文章不做解读,但是这个RRHO方法的思路觉得有点意思,其出自文献 Rank–rank hypergeometric overlap: identification of statistically significant overlap between gene-expression signatures

RRHO方法是将不同class样本的基因表达谱进行排序(两个class),然后利用超几何分布迭代计算所有组合的P值,进而找到最佳overlapping基因组合;这方法不需要预先人为设定阈值(比如差异基因阈值),所以是unbiased

我是通过其R包- RRHO 的源码理解其计算思路,然后结合上述方法学文章加以理解;其R包源码很简单(500行不到的代码),大致有以下几个步骤:

  • 对每组class样本计算其gene ranking;这个类似于GSEA中的ranking,可选的方法也一样,下图中用的是tTest,也可以用signal-to-noise等等;然后可以根据ranking绘制scatter plot,如果两个class之间一致性很高,那会有一条很好的线性回归线(对角线)
  • 对上述ranking按照降序排列,设置一个step(相当于基因组合的长度),穷尽两个class的组合,用的是 expand.grid 函数
  • 循环每个组合,计算每个组合的overlapping gene数以及通过超几何分布( phyper 函数)计算每个组合的P值;下图的 H(k,s,M,N)k 代表overlapping gene数, sM 分别代表两个class中每个组合的gene数, N 代表总gene数
  • 最后则是对于P值进行校正,默认是用BY(Benjamini-Yekutieli)方法进行多重检验校正;此外还有用Permutation(置换检验)方法(如果每组class的样本足够的多,至少6个样本)来评估hypergeometric map的整体统计学意义,这里跟GSEA也比较相似,既可以选择sample permutation也可以选择gene permutation,但是文章作者建议使用前者(PS. R包则默认使用后者。。。)

Rank-rank hypergeometric overlap (RRHO)

RRHO的结果怎么看呢,文章也给出了以下几点建议:

  • Different map patterns indicate different types of overlap, such as the full profiles being correlated or only genes increasing in both experiments overlapping(看看整体表达趋势或者表达量同增的模式)
  • The highest intensity point on the map can be used to extract the most statistically significant overlapping gene set(如果看到RRHO maps上有异常明显overlaping点,可以提取该set作为显著overlapping基因)
  • To compare relative overlap pairwise within a set of profiles(就像最开始那篇文章用的,将多个brain regions的RRHO maps整合在一起比较)
  • To compare an experimental profile to a series of reference signatures(将RRHO结果与其它reference signatures做比较)

其实已有人对RRHO方法做了整理,如一篇公众号文章 超几何分布,RRHO–数据驱动寻找重叠基因 ,里面以PPT形式展示

生物信息分析方法繁多,各式各样的都有,所以有些方法不一定要用它,但是理解一下其思路也是不错的选择

本文出自于 http://www.bioinfo-scrounger.com 转载请注明出处


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

精通Web Analytics 2.0

精通Web Analytics 2.0

[美]Avinash Kaushik / 郑海平、邓天卓 / 清华大学出版社 / 2011-4-26 / 48.00元

向数据驱动型决策转变以及如何利用网站数据来获得竞争优势 在过去几年中,互联网、在线营销以及广告经历了巨大的变革,然而大家处理数据的方式跟几十年前相比还是大同小异,停滞不前。网站分析领域的领跑者Analytics kaushik通过《精通Web Analytics 2.0——用户中心科学与在线统计艺术》提出了下一代网站分析的框架,将能很大程度地帮助你提高组织的能动性和对市场的反应速度。 ......一起来看看 《精通Web Analytics 2.0》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具