红包
工具
使用cBioPortal进行复杂的癌症基因组和临床profiles整合分析
blob.png
摘要:cBioPortal提供了这样一种网络资源:探索,可视化和分析多维度癌症基因组数据。这个门户网站把癌组织和细胞系还原成分子表达谱数据,再到可以理解的遗传的(基因的),表观遗传的,gene expression和蛋白events。查询交互界面整合用户的数据可以使研究者交互探索不同samples,genes,pathways的遗传学上的改变,假如暗含的数据可行,还可以联系到临床结果。这个网站还提供gene水平的图形总结,从多平台,网络可视化分析,生存分析,病人为中心的查询,和软件编程入口。直观的网站交互界面使得复杂的癌症基因组profiles对没有生物信息学专业只是的研究者和临床工作者可行,这样就促进了生物学发现。这里,我们提供一个可操作的guide来分析和可视化cBioPortal的特征(对癌症基因集的)。

Introduction

大规模的癌症基因组计划,比如The cancer genome atlas(TCGA) and the International cancer genome consortium(ICGC),正在从多技术平台产生更多的癌症基因组数据。这使得这些数据的整合,探索和分析越来越具有挑战性,尤其是对于没有计算机背景知识的科学家来说。cBioPortal是专门设计来降低对这些复杂数据的接近门槛,因此,促进基因组数据向新的生物学视野,治疗和临床特征的转变。

这个网站,促进多维度癌症基因集数据的探索,可以允许跨gene,样本和数据类型的可视化分析。用户可以可视化一个癌症研究中多样本间基因改变的模式,并比较点多癌症研究中gene改变频率,或者在一个个体肿瘤样本中总结概括所有的相关的基因组改变。这个网站也支持生物通路探索,生存分析,基因改变间的相互独特性分析,可选择性的数据下载,编程接口和可以用于发表的可视化总结。

整合进cBioPortal的基因组数据类型包括体细胞突变,DNA copy-number alterations(CNAs),Mrna和microRNA(miRNA)表达,DNA甲基化,蛋白质富集,磷酸化蛋白富集。目前,网站包含从10个出版的癌症研究的数据集,包括癌症细胞系百科全书,多于20个研究在TCGA流程。对没有一个肿瘤样本,数据是可以从多基因组数据分析平台可获取的。网站的简化概念是在基因水平整合多种数据类型,然后询问每个sample中专门的生物学事件的呈现(例如,基因突变,基因纯和删除,基因扩增,上调或下调的mRNA或miRNA),蛋白的上下调等。这使得用户可以查询每个gene和每个样本的的遗传学改变,并检验复发(某些特殊癌症)。

需要的设备

个人计算机,可以联网,已经安装java

注意:一下浏览器已经被实验可行,google chrome,firefox,safari,ie9.0

需要安装adobe flash player http://get.adobe.com/flashplayer/

Java 可以下载http://www.java.com/getjava/

Adobe pdf 阅读器http://get.adobe.com/reader/

Vector graphic editor

这个可以可视化和编辑在cBioPortal下载的SVG file(OncoPrints)。支持这种软件的是Adobe Illustrator (http://www.adobe.com/products/illustrator.html) and Inkscape (http://inkscape.org/)

说明

cBioPortal的基因datasets可以获取或下载,通过使用交互web 界面,也可以通过程序下载。

用户可以选择查询单一癌症研究或across癌症研究。也可以查看个体癌症样本的相关的基因改变。

查询个人癌症研究

在单一癌症查询中,用户可以探索,可视化,选择的gene中的基因改变,包括所有选择的samples中的这些gene的改变之间的关系,和同一个gene 在不同数据类型之间的关系。执行单个癌症研究的查询需要四步,见下图1。总体过程和特殊的查询都在下面显示了。

用户可以从超过165个cancer studies进行选择(这里文章刚发表的时候是25个研究,可见网站发展只迅速)。


figure 1.jpg

这一项的选择和之前也有变化,上面划勾的两个是默认,一个是突变,一个是推断的gene copy数变异。当可选的时候,相关的mRNA或miRNA表达或相关的蛋白和磷酸化蛋白富集数据也可以被选择。蛋白和磷酸化蛋白数据基于的是reverse phase protein array(RPPA)实验。对于mRNA或miRNA数据和蛋白,磷酸化蛋白数据,z 分数是从表达值预先计算。用户可以自定义阈值或使用默认值(偏离均值2 SDs)。mRNA的z分数由每个sample决定,是通过比较一个gene的Mrna表达值相对参考population中的分布(可以代表这个gene的典型分布)。如果正常的临近组织中的表达数据可以获得,这些数据就会被用来作为reference population。否则,所有肿瘤的表达值二倍于这个gene的被使用。miRNA表达谱或蛋白丰度的z分数由每个sample决定,通过比较各自的所有样本的miRNA或蛋白数据。

figure 2.jpg

定义上面这个case sets分析的时候,缺省选择是match选择的基因表达谱。例如,有sequencing data 的cases会被选择,假如只查询突变的话。然而,用户可以通过下拉菜单改变这个选择,这个单是有可获得的数据定义的(例如,tumors with mutations,CAN data,gene expression,RPPA data)或由已知的肿瘤亚型决定。用户可以输入感兴趣的特殊的cases,通过选择“user-defined case list”或建立一个用户定义的case set基于临床特征,这个在“build case set”对话中。


 

作者:Y大宽
链接:https://www.jianshu.com/p/9ba58976e726
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


浏览:314