当前位置：首页 > 科技 > 正文

使用R语言的cgdsr包获取TCGA数据

启示号
科技
3年前
318

前些天被TCGA的终结新闻刷屏，但是一直比较忙，还没来得及仔细研读，但是笔记本躺着的一些TCGA教程快发霉了，借此契机好好整理一下吧，预计二十篇左右的笔记

——jimmy

第一篇目录

TCGA数据源
查看有多少不同的癌症数据集
查看任意数据集的样本列表方式
查看任意数据集的数据形式
选定数据形式及样本列表后获取感兴趣基因的信息
选定样本列表获取临床信息
综合性获取
从cBioPortal下载点突变信息
从cBioPortal下载拷贝数变异数据
把拷贝数及点突变信息结合画热图
同理还可以下载所有其它TCGA的数据进行后续分析。

正文 TCGA数据源

众所周知,TCGA数据库是目前最综合全面的癌症病人相关组学数据库，包括的测序数据有：

DNA Sequencing
miRNA Sequencing
Protein Expression
mRNA Sequencing
Total RNA Sequencing
Array-based Expression
DNA Methylation
Copy Number

知名的肿瘤研究机构都有着自己的TCGA数据库探索工具，比如：

Broad Institute FireBrowse portal, The Broad Institute
cBioPortal for Cancer Genomics, Memorial Sloan-Kettering Cancer Center
TCGA Batch Effects, MD Anderson Cancer Center
Regulome Explorer, Institute for Systems Biology
Next-Generation Clustered Heat Maps, MD Anderson Cancer Center

其中cBioPortal更是被包装到R包里面：http://www.cbioportal.org/cgds_r.jsp

这里就介绍如何使用R语言的cgdsr包来获取任意TCGA数据吧。

查看有多少不同的癌症数据集

cBioPortal是按照发表文章的方式来组织TCGA数据的，当然，里面也还有很多非TCGA的数据集，所有的数据集如下所示：

library(cgdsr)library(DT)

# Get list of cancer studies at server## 获取有哪些数据集

mycgds <- CGDS("http://www.cbioportal.org/public-portal/")
all_TCGA_studies <- getCancerStudies(mycgds)

#all_TCGA_studies[1:3, 1:2]#write.csv(all_TCGA_studies,paste0(Sys.time(),"all_TCGA_studies.csv"),row.names = F)

DT::datatable(all_TCGA_studies)

也可以去网站上面查看这些数据集的详细信息：http://www.cbioportal.org/data_sets.jsp

查看任意数据集的样本列表方式

上表的cancer_study_id其实就是数据集的名字，我们任意选择一个数据集，比如stad_tcga_pub，可以查看它里面有多少种样本列表方式。

stad2014 <- "stad_tcga_pub"

## 获取在stad2014数据集中有哪些表格（每个表格都是一个样本列表）

all_tables <- getCaseLists(mycgds, stad2014)
dim(all_tables) ## 共11种样本列表方式 ## [1] 11 5 DT::datatable(all_tables[,1:3])

查看任意数据集的数据形式 ## 而后获取可以下载哪几种数据，一般是mutation，CNV和表达量数据all_dataset <- getGeneticProfiles(mycgds, stad2014) DT::datatable(all_dataset, extensions = 'FixedColumns', options = list( #dom = 't', scrollX = TRUE, fixedColumns = TRUE ))

一般来说，TCGA的一个项目数据就几种，如下：

选定数据形式及样本列表后获取感兴趣基因的信息 my_dataset <- 'stad_tcga_pub_rna_seq_v2_mrna'

my_table <- "stad_tcga_pub_rna_seq_v2_mrna"

BRCA1 <- getProfileData(mycgds, "BRCA1", my_dataset, my_table)
dim(BRCA1) ## [1] 265 1 DT::datatable(BRCA1)

样本个数差异很大，不同癌症热度不一样。

选定样本列表获取临床信息 ## 如果我们需要绘制survival curve，那么需要获取clinical数据clinicaldata <- getClinicalData(mycgds, my_table) DT::datatable(clinicaldata, extensions = 'FixedColumns', options = list( #dom = 't', scrollX = TRUE, fixedColumns = TRUE ))

综合性获取

只需要根据癌症列表选择自己感兴趣的研究数据集即可，然后选择好感兴趣的数据形式及对应的样本量。就可以获取对应的信息：

library(cgdsr)

library(DT)
mycgds <- CGDS("http://www.cbioportal.org/public-portal/")
## mycancerstudy = getCancerStudies(mycgds)[25,1]

mycancerstudy = 'brca_tcga'

getCaseLists(mycgds,mycancerstudy)[,1] ## [1] "brca_tcga_3way_complete" "brca_tcga_all" ## [3] "brca_tcga_protein_quantification" "brca_tcga_sequenced" ## [5] "brca_tcga_cna" "brca_tcga_methylation_hm27" ## [7] "brca_tcga_methylation_hm450" "brca_tcga_mrna" ## [9] "brca_tcga_rna_seq_v2_mrna" "brca_tcga_rppa" ## [11] "brca_tcga_cnaseq" getGeneticProfiles(mycgds,mycancerstudy)[,1] ## [1] "brca_tcga_rppa" ## [2] "brca_tcga_rppa_Zscores" ## [3] "brca_tcga_protein_quantification" ## [4] "brca_tcga_protein_quantification_zscores" ## [5] "brca_tcga_gistic" ## [6] "brca_tcga_mrna" ## [7] "brca_tcga_mrna_median_Zscores" ## [8] "brca_tcga_rna_seq_v2_mrna" ## [9] "brca_tcga_rna_seq_v2_mrna_median_Zscores" ## [10] "brca_tcga_linear_CNA" ## [11] "brca_tcga_methylation_hm450" ## [12] "brca_tcga_mutations" mycaselist ='brca_tcga_rna_seq_v2_mrna'

mygeneticprofile = 'brca_tcga_rna_seq_v2_mrna'

# Get data slices for a specified list of genes, genetic profile and case liste

xpr=getProfileData(mycgds,c('BRCA1','BRCA2'),mygeneticprofile,mycaselist)

DT::datatable(expr)

是不是很简单就得到了指定基因在指定癌症的表达量哦

# Get clinical data for the case listmyclinicaldata = getClinicalData(mycgds,mycaselist) DT::datatable(myclinicaldata, extensions = 'FixedColumns', options = list( #dom = 't', scrollX = TRUE, fixedColumns = TRUE )) ## Warning in instance$preRenderHook(instance): It seems your data is too ## big for client-side DataTables. You may consider server-side processing: ## http://rstudio.github.io/DT/server.html 从cBioPortal下载点突变信息 library(cgdsr)library(DT)
mycgds <- CGDS("http://www.cbioportal.org/public-portal/")
mutGene=c("EGFR", "PTEN", "TP53", "ATRX")
mut_df <- getProfileData(mycgds, caseList ="gbm_tcga_sequenced", geneticProfile = "gbm_tcga_mutations", genes = mutGene ) mut_df <- apply(mut_df,2,as.factor)
mut_df[mut_df == "NaN"] = ""

mut_df[is.na(mut_df)] = ""

mut_df[mut_df != ''] = "MUT"

DT::datatable(mut_df) 从cBioPortal下载拷贝数变异数据

把拷贝数及点突变信息结合画热图

下面的函数，主要是配色比较复杂，其实原理很简单，就是一个热图。

library(ComplexHeatmap)

代码不好排版，如下：

出图如下：

你可能想看：

TCGA甲基化分析工具-MEXPRESS

今天再来给大家介绍一个研究TCGA的DNA甲基化与表达数据的工具——MEXPRESS，癌基因的DNA甲基化水平降低或者抑癌基因的DNA甲基化水平增高都可能会导致肿瘤的发生，工具的使用只需输入基因名+选...

R语言ggplot2画图-Pathway富集分析气泡图

# 设置工作路径到数据存放的文件夹下,header=T,pbubble = pp + geom_point(aes(size=R0vsR3，high="red") + labs(color=expre...

语言的力量美学之二：夸张（数据化、无限伸缩、换视角）

在必要的时候能够本能式地使用这种强大的语言力量，夸张的力量被滥用之后。这个朋友就和他们用夹杂着英语单词的汉语进行了商谈。对方说和印度人做生意一定要当面付款，所谓货到付款会拖死人的，对方不会出拦腰价，当...

circbase数据库环状RNA序列获取方法 | 环状RNA社区

小编邀请技术部的刘建宁老师继续为大家实例讲解circRNA的引物设计。我们以环状RNA数据库circbase（http:为小伙伴详细介绍从circRNA序列获取到引物设计的全过程。在Search上方的...

最全的Camera Raw工具使用详解教程

不同的区别是这个缩放工具发直接在照片上点击完成”白平衡工具是一个倾斜的吸管图标，在左侧图上红圈的位置用白平衡工具点击一下？ACR自行调整白平衡形成右侧图效果，用白平衡工具点击一下红圈位置，颜色取样器就...

语言的力量美学：警告，一种最高效的管理方法

妹妹会威胁哥哥将他的私藏起来的巧克力拿出来“别人就大概率会放弃偷玉米这个行为。上游环节交付给你的任务总是有数据问题。下次再有问题我就告诉领导了“用对方在意的事情发出威胁。你的警告力量就失效了，而且它的...

以俄语为官方语言的国家和地区 | 俄语之家

并且目前是以下4个国家的官方语言；2 白俄罗斯（Белару́сь）白俄罗斯共和国（Респу́блика Белару́сь）4 吉尔吉斯斯坦（Кирги́зия）吉尔吉斯斯坦共和国（Кирги́з...

警惕语言的掩饰与增生----（原创

在我国传统语言观里“这六个汉语字符就表征着窗外的那棵枣树，说话这话的人---也就是言说的主体、不同的语境，可能是以展望的视野盘算着秋季来临的时候收获多少的红枣，可能已经在脑海里映现出它在树木科类中的归...

“语言的界限就是世界的界限”

看来这个定义掩盖了语言最重要的东西。我如果要同他人交流一些看法、意愿、请求、命令、询问等必须使用语言，我把语言这种表达、交流思想看作是语言的表层作用，这类语言就以恐怖限制了我的活动空间，上面写的语言具...

全方位解析“固态继电器”（SSR）

它用一个或多个半导体（如功率晶体管、SCR或三端双向可控硅开关）传导负载电流“常常比额定输出相当的电磁式继电器(EMR)大很多，SSR的灵敏度常常比额定输出相当的EMR高得多：舌簧继电器耦合SSR（见...

SAP系统中，常用RPA的4个案例

RPA自动将材料或服务价格与其他供应商提供的价格进行对比，RPA机器人可以自动执行上述的供应商对比与数据筛选流程，可以让评估人员一目了然的看到供应商评估信息并做出最快的选择。有很多企业业务需要连接到S...

小型断路器的C型和D型有什么区别，都是怎么选用的

小型断路器体积小安装方便使用灵活，小型断路器具有短路保护（电磁脱扣）过载保护（双金属片热脱扣)。小型断路器搭配了漏电脱扣附件就组成我们最常见的漏电保护器。当线路发生短路故障短路电流非常大，利用电磁线圈...

不服来试！被吹上天的Ctrl+E？究竟有多厉害！| 快捷键

今天送3本《Excel透视表跟卢子一起学早做完，要从包装方式这一列将所有数字分离出来，Step 02在B3按Ctrl+E就将所有盒的数字提取出来，将第一行的包装方式输入好，继续用Ctrl+E，将包装...

曹渊：还有谁想轻松打造会员系统获取源源不断的客户……

当然我们很多人还没有达到卖项目卖资格卖股权的这个层面。所以说你仅仅研究如何卖会员就足够你去赚的盆满钵满，当你自己想不出来自己这个行业用什么卖会员的方法的时候，就会自我设限的认为卖会员的方法在我这个行业...

OS/PFS/DSS/DFS-各种生存指标傻傻分不清

因为患者死亡的日期确认没有困难，判断病人是否病情恶化的难度要大得多，发生恶化的定义通常涉及影像学资料（普通X线：没有复发或没有死亡可以反映临床获益？明确是否复发的难度要大得多。结局指标改变为由特定疾...

GDP增速领跑四大经济强省，是什么力量让山东经济凤凰涅槃？

没人料到山东经济能如此之快地实现再腾飞！网络充斥着对山东经济的唱衰和悲观论调，这是最近十多年来山东首次经济增速领跑四大经济强省！《中国13制造业强省实力比拼，四川、安徽超乎想象地强大》、《中国各省市基...

如何获取互联网上最好赚钱的产品的6个黄金法则

互联网赚钱就是找到一款有人愿意掏钱购买的产品，通过网络赚钱只需要三步，为什么很多人都没有在互联网上获得高的收入。今天我们就谈下互联网选取产品的黄金法则？你要去卖那些能够治愈客户创伤或者是痛苦的产品：这...

刘植荣：CDS走上邪路的秘密

信用违约互换（CDS）在其发展初期对金融市场起到了”一些基金公司看到了CDS的妙用，也就是企业违约风险下降，投机者就豪赌企业违约风险，美国债务市场每年的违约发生率在0.2%上下，A金融机构发现某企业违...

500G 史上最全的JAVA全套教学视频网盘分享 (JEECG开源社区)

1、javascript视频教程:3、马士兵hibernate视频教程:4、JAVA电子书:7、android视频教程:链接:8、photoshop基础教程视频:10、junit视频教程:11、Str...

超1万亿元GDP城市：浙江杭州市和江苏南京市，今年将再上一个台阶

2017年在我国所有城市GDP排名中，有14座城市的GDP总量在1万亿元以上，其中上海和北京预计2018年GDP将超过3万亿元，深圳、广州、天津和重庆预计2018年GDP将超过2万亿元，苏州、成都和武...

抑郁症吃这些食物可以自行好转！（附抑郁症sds抑郁症自测测试题）

临床医生在制定有助于预防抑郁症的饮食选择时，应该考虑最主要的抗抑郁营养素。他们认为对这类疾病最有效的 12 种抗抑郁营养素是：政府机构和食品制造商提供的立志于对抗疾病以及改善健康的信息。当然这个时候你...

【技术分享】ADSS光缆施工及注意事项

光缆在水平和垂直两个方向上的投影不应与导线的地线出现交叉，以避免在风偏和蠕动时光缆与导线、地线产生碰撞（也称鞭击）。根据《安规》在带电线路上进行ADSS光缆架设施工，ADSS光缆的架设施工中张力和侧压...

世界上唯一一个人均GDP超过100000美元的国家

卢森堡大公国，位于欧洲西北部，被邻国法国、德国和比利时包围，也是现今欧洲大陆仅存的大公国，根据2016年世界各国人均GDP排名，卢森堡位列全国第一，比排名第二的瑞士高出近25000美元，卢森堡地形富于...

世界上最富有的国家，月薪低于三万都是“低保户”，人均GDP66万

世界上最富有的国家，被邻国法国、德国和比利时包围,也是现今欧洲大陆仅存的大公国,卢森堡是全世界最富有的国家。卢森堡是一个高度发达的资本主义国家,其人均GDP多年以来一直位居世界首位,是全世界最富有的国...

如何识别并阻击多方炮获取利润？

多方炮是指连续的三根K线中，出现多方炮形态，表明第一天多方主导盘面向上开炮，第三天多方再次主导盘面向上开炮，则后期往往会有一波较大的涨幅，中长期趋势向上出现多方炮：一定要深入分析多方炮形成的内在原因及...

SEER数据库系列|SEER数据库基本介绍

美国国家癌症研究所（National Cancer Institute）的SEER数据库收集了大约30％的美国人口的癌症诊断。从简单地按人群中器官部位枚举癌症的发展到包括通过组织病理学和分子亚型（由驱...

你的数据到底有多重要？这些惊艳的数据可视化案例告诉你 | TED演讲

在本文中他分享了数据背后所蕴含的令人意想不到的重量，今天我想跟大家聊聊两件非常振奋人心的内容，但对苹果公司我不想说太多。没有事物可以像电脑那样改变我们的生活，但我其实也不想聊电脑的事儿。我想聊聊电脑上...

上一篇
防寒再周全，抵不过晚上踢被子！如何避免着凉？从吃入手防内热

下一篇
筋外奇穴——穴位图总汇

使用R语言的cgdsr包获取TCGA数据

有话要说...取消回复

最新文章

王长绅紫微斗数之廉贞天相在子午守财帛宫，命宫为武曲星

磁共振扫描操作磁共振冠脉成像（一）

“病急乱投医”

择日——吊用“太阳、太阴”吉神到宫的方法

古诗词中的十大人生境界，古今一付笑谈中

史上最全K线图大全：70种+42个K线组合图解

明朝最大遗憾：崇祯若答应李自成条件，明朝不会灭亡，还灭了满清

孔子语录100句（附释文）国学经典

热门文章

业医必修——孙思邈《大医精诚》

怎样从门口看房屋吉凶

低估了广东的“甘蔗马蹄茅根水”，喝完半个小时就舒服了！

痰湿体质如何调理最全痰湿体质调理方法(8)

自制家庭小咸菜

七彩神龙指标源码（八戒神龙主图无未来函数）

《奇门遁甲预测术》奇门：格局庚

10种朝鲜咸菜的腌制方法