当前位置：首页 > 科技 > 正文

使用clusterProfiler进行GO富集分析

启示号
科技
1天前
649

clusterProfiler是一个功能强大的R包，同时支持GO和KEGG的富集分析，而且可视化功能非常的优秀，本章主要介绍利用这个R包来进行Gene Ontology的富集分析。

进行GO分析时，需要考虑的一个基础因素就是基因的GO注释信息从何处获取。Bioconductor上提供了以下19个物种的Org类型的包，包含了这些物种的GO注释信息

packages	organism
org.Ag.eg.db	Anopheles
org.At.tair.db	Arabidopsis
org.Bt.eg.db	Bovine
org.Ce.eg.db	Worm
org.Cf.eg.db	Canine
org.Dm.eg.db	Fly
org.Dr.eg.db	Zebrafish
org.EcK12.eg.db	E coli strain K12
org.EcSakai.eg.db	E coli strain Sakai
org.Gg.eg.db	Chicken
org.Hs.eg.db	Human
org.Mm.eg.db	Mouse
org.Mmu.eg.db	Rhesus
org.Pf.plasmo.db	Malaria
org.Pt.eg.db	Chimp
org.Rn.eg.db	Rat
org.Sc.sgd.db	Yeast
org.Ss.eg.db	Pig
org.Xl.eg.db	Xenopus

clusterProfiler在做GO分析时，会读取这些包中的GO信息，从这里也可以看出，Bioconductor的生态体系，不同R包的数据传递和依赖组成了其生态环境。

对于以上19个物种，只需要安装对应的org包，clusterProfile就会自动从中获取GO注释信息，我们只需要差异基因的列表就可以了，使用起来非常方便。

在进行富集分析时，支持以下两种算法

1. Over-Representation Analysis

过表达分析其实就是费舍尔精确检验，对于以上19个物种，分析的代码如下

ego <- enrichGO( gene = gene, keyType = "ENTREZID", OrgDb = org.Hs.eg.db, ont = "CC", pAdjustMethod = "BH", pvalueCutoff = 0.01, qvalueCutoff = 0.05, readable = TRUE)

gene就是差异基因对应的向量，keyType指定基因ID的类型，默认为ENTREZID, 该参数的取值可以参考keytypes(org.Hs.eg.db)的结果，建议采用ENTREZID, OrgDb指定该物种对应的org包的名字，ont代表GO的3大类别，BP, CC, MF; pAdjustMethod指定多重假设检验矫正的方法，cufoff指定对应的阈值，readable=TRUE代表将基因ID转换为gene symbol。

2. Gene Set Enrichment Analysis

ego <- gseGO( geneList = geneList, OrgDb = org.Hs.eg.db, ont = "CC", nPerm = 1000, minGSSize = 100, maxGSSize = 500, pvalueCutoff = 0.05, verbose = FALSE)

GSEA分析通过置换检验来计算p值，nPerm指定置换次数。

对于这19个物种之外的其他物种，也支持读取基因的GO注释文件，然后进行分析，注释文件的格式如下

GeneId	GO	Description
1	GO:0005819	spindle
2	GO:0072686	mitotic spindle
3	GO:0000776	kinetochore

只需要3列信息即可，第一列为geneID, 第二列为基因对应的GO编号，第三列为GO的描述信息。这3列的顺序是无所谓的，只要包含这3种信息就可以了。
读取该文件，进行分析的代码如下

data <- read.table( "go_annotation.txt", header = T, sep = "\t") go2gene <- data[, c(2, 1)] go2name <- data[, c(2, 3)] # 费舍尔精确检验 x <- enricher( gene, TERM2GENE = go2gene, TERM2NAME = go2name) # GSEA富集分析 x <- GSEA( gene, TERM2GENE = go2gene, TERM2NAME = go2name)

对于GO富集分析的结果，clusterProfiler提供了以下几种可视化策略

1. barplot

用散点图展示富集到的GO terms,用法如下

barplot(ego, showCategory = 10)

生成的图片如下

横轴为该GO term下的差异基因个数，纵轴为富集到的GO Terms的描述信息， showCategory指定展示的GO Terms的个数，默认展示显著富集的top10个，即p.adjust最小的10个。注意的颜色对应p.adjust值，从小到大，对应蓝色到红色。

2. dotplot

用散点图展示富集到的GO terms,用法如下

dotplot(ego, showCategory = 10)

生成的图片如下

横轴为GeneRatio, 代表该GO term下的差异基因个数占差异基因总数的比例，纵轴为富集到的GO Terms的描述信息， showCategory指定展示的GO Terms的个数，默认展示显著富集的top10个，即p.adjust最小的10个。

图中点的颜色对应p.adjust的值，从小到大，对应蓝色到红色，大小对应该GO terms下的差异基因个数，个数越多，点越大。

3. GO有向无环图

调用topGO来实现GO有向无环图的绘制，代码如下

plotGOgraph(ego)

生成的图片如下

矩形代表富集到的top10个GO terms, 颜色从黄色过滤到红色，对应p值从大到小。

4. goplot

和plotGOgraph展示的信息一样，都是GO有向无环图，只不过采用了igraph中的布局方式，用法如下

goplot(ego)

生成的图片如下

5. emapplot

对于富集到的GO terms之间的基因重叠关系进行展示，如果两个GO terms系的差异基因存在重叠，说明这两个节点存在overlap关系，在图中用线条连接起来，用法如下

emapplot(ego, showCategory = 30)

生成的图片如下

每个节点是一个富集到的GO term, 默认画top30个富集到的GO terms, 节点大小对应该GO terms下富集到的差异基因个数，节点的颜色对应p.adjust的值，从小到大，对应蓝色到红色。

6. cnetplot

对于基因和富集的GO terms之间的对应关系进行展示，如果一个基因位于一个GO Terms下，则将该基因与GO连线，用法如下

cnetplot(ego, showCategory = 5)

生成的图片如下

图中灰色的点代表基因，黄色的点代表富集到的GO terms, 默认画top5富集到的GO terms, GO 节点的大小对应富集到的基因个数。

更多用法和细节请参考官方文档。

·end·

你可能想看：

第6讲 Vision Pro视觉工具 CogFindCircleTool

找圆工具与卡尺工具算是用得比较多的工具了。今天介绍的是康耐视的找圆工具CogFindCircleTool。CogFindCircleTool工具用来查找图像中的圆,首先用卡尺工具定位圆的边界点,然后将...

Imperial Blue威士忌是一种什么样的酒？品鉴Imperial Blue威士忌

是印度最受欢迎和标志性的威士忌品牌之一，它融合了进口苏格兰威士忌和精致的印度谷物烈酒。并在市场上取得了令人瞩目的进展。迅速成为该领域的领先威士忌品牌之一，该品牌不仅是最着名的印度威士忌品牌之一，使其成...

SpringBoot报错 Error parsing HTTP request header

Note:Note:at org.apache.coyote.http11.AbstractNioInputBuffer.parseRequestLine(AbstractNioInputBuffer...

R语言ggplot2画图-Pathway富集分析气泡图

# 设置工作路径到数据存放的文件夹下,header=T,pbubble = pp + geom_point(aes(size=R0vsR3，high="red") + labs(color=expre...

图解蒸气喷射式制冷原理（Steam Jet System）

1、蒸气喷射器原理，蒸气喷射式制冷是以喷射器代替压缩机，利用工质在低压下气化吸热实现制冷，2、蒸气喷射式制冷，蒸气喷射式制冷的工质可以是水，目前在空调工程中多采用以水为工质的蒸汽喷射式制冷装置，简称为...

VBA遍历所有文件夹的两种方法（filesearch和FileSystemObject）

另外一种是使用FileSystemObject(windows文件管理工具)和递归方法。

iPhone 7s Plus主板曝光：重磅功能确认！

在曝光了疑似iPhone 7s Plus主板以及A11处理器的谍照之后，@GeekBar创始人磊哥今天又公布了iPhone 7s Plus主板的高清解析图。相比iPhone 7 Plus来说虽然布局变...

iPhone6plus无触摸维修案例

iPhone6P无触摸通病为黑触摸M1脚断线导致，接手板子后直接拆了黑触摸，观察M1脚没有明显断线，装上黑触摸，故障依旧。测量发现L2401已经损坏，以为就此故障排除，试机故障依旧。拆下来准备重新焊接...

这篇心得，值得所有学习mastercam编程的人一看！

5、学CAM部分还要有一定的切削知识和加工经验（包普通机床加工经验），Mastercam编程的特色是快捷、方便。可用曲线融接的方法迅速搞定，只要先将加工零件的轮廓边现、台阶线、孔、槽位线等等，2、由于...

第7讲 Vision Pro视觉工具 CogCaliperTool

致力于为学习ABB机器人与机器视觉的同道中人提供个人的经验，前面一讲介绍了康耐视visionPro视觉工具中的找圆工具CogFindCircleTool,经过前面的学习咱们现在应该能轻松的找到一张图像...

无需注册，免费使用，用它来传1G文件只要1分钟｜MuseTransfer

MuseTransfer是一款无需注册、打开网页即可免费使用的大文件传输工具。上传好的文件默认保留一周，微信登录之后可以查看传输历史，MuseTransfer可以作为无需长期储存的临时大文件云端工具来...

python中使用argparse.add_argument_group() 对命令行参数进行概念性分组

parser.add_argument('name':parser.add_argument('--bar_that')，parser.add_argument('--foo_that')。parse...

google docs https打不开？？？

在hosts里添加Google Docs的解析IP直接绕过DNS查询。用记事本打开hosts文件，下面这些内容添加到hosts文件的顶部。在hosts文件里加入Gmail的IP即可我将提供有https...

工具｜聊一聊记账从「钱迹」转移至 Google sheets 的心历路程

但我印象中第一次接触记账还真的是用小本本来——这就要说起八年前广东那个风雨交加的夜晚了......当时在那边做暑假工？对于软件记账来说就完全没有以上劣势，我会比较偏爱独立开发者做出的产品，这就涉及到了...

A book review of Robinson Crusoe

I am sure you will fall in love with it.

成人still病的临床特点是什么介绍成人still氏病的主要症状

成人still氏病的发生与免疫紊乱、感染、遗传、精神因素、变态反应等有关，成人still氏病的症状主要有发热、皮疹、关节肿痛，该病是介于风湿热和类风湿性关节炎之间的一种变应性疾病，成人Still病最早...

互助问答第5期：Stata中系统GMM模型的稳健性检验和Stata命令等

Stata中系统GMM模型的稳健性检验和Stata命令答：一种是计量数据的稳健性检验。前者通常适用于所使用的计量方法比较新颖的研究，可用GMM进行稳健性检验（因为GMM不需要满足经典计量假设）。生成...

光电|获DARPA支持，以色列Tower半导体公司将研发光电集成代工工艺，实现硅上集成激光器

研发可制造硅上集成激光器的光电代工工艺。Tower公司主要提供高价值模拟半导体代工服务。在硅上集成激光器的好处包括增加激光器的密度、减少激光器和光电子器件之间的耦合损耗、减少所需器件及极大简化封装方案...

中文汉化版-红巨人特效合成抠像平面跟踪AE/PR插件Red Giant VFX Suite 1.5.0 Win/Mac 含注册码

Red Giant VFX Suite 1.5.0是一套由Red Giant公司出品的特效合成抠像平面跟踪插件，VFX Suite 1.5.0更新支持Adobe AE 2020和PR 2020.该套件...

水彩之光：美国水彩艺术家 Iain Stewart 绘画作品

来自美国水彩艺术家 Iain Stewart，是一位擅长捕捉光的水彩画家，从第一笔开始，对光感的表达就一直存在，这种表达方式并不是那种如实的表现，而是一种视觉的记忆感悟...美国水彩艺术家 Iain ...

什么是真正的STEAM教育？

STEAM是一种重实践的超学科教育概念。所以单一技能的运用已经无法支撑未来人才的发展，从而探索出STEAM教育理念。鼓励孩子在科学、技术、工程和数学领域的发展和提高，帮助孩子们学习数学、科学的教育科技...

VMware16Pro永久激活key密钥亲测可用

一般来说VMware Workstation这类软件发布的时候都会有批量授权的密钥流出，使用这种密钥激活后的版本不是评估而是永不过期。因此使用这种永不过期的永久密钥激活是最好的方式，相比网上流传的注册...

Excel函数之——SUMPRODUCT函数太强大了

先介绍下SUMPRODUCT函数的基本用法,[array3]，该函数可以有多个参数。每个参数都必须是有相同维度的数组：以下是单条件计数:在使用N()函数“将N()返回的数组中的所有元素，所以就不在需要...

SUMPRODUCT函数自称求和之王，SUMIFS不服气要来PK

=SUMIFS(E,$B$12=G2)*($C$2。只能用LEFT从左边提取字符:$B$12=G2)*(LEFT($C$2。=SUMIFS(E:=SUMPRODUCT($E$2，$B$12=G2)*I...

proe中意外拭除了所有版本的问题

每次打开关闭proe都会在工作目录下产生一个轨迹文件，根据打开关闭的次数顺序生成相应的轨迹文件（trail.txt.*）。装好proe后最好设置一个永久的工作目录，在每次打开时好像都会默认桌面为工作目...

基础1 Vision Pro视觉工具

可以检测和定位图像中某一灰度范围内的形状未知的特征,可以为我们得到图像某一特征是否存在、数量、位置、形状、方向等信息,也可以利用 Blob分析来发现图像中不同特征之间的拓扑关系,CogCaliperT...

第5讲 Vision Pro视觉工具 CogFixture

是为了在我们找到的图像特征上建立一个固定的坐标系，如果没有这个工具我们的图像识别还能找到想找到的位置吗？固定工具用来在您已经计算了一个坐标转换时创建一个固定坐标系统-在我们所举的范例中,我们已经找到了...

GO 基因信息 =差异基因

上一篇
山东野菜图鉴|春天吃野菜这个事儿，北方人很在行！

下一篇
郭熙《早春图》赏析

使用clusterProfiler进行GO富集分析

1. Over-Representation Analysis

2. Gene Set Enrichment Analysis

1. barplot

2. dotplot

3. GO有向无环图

4. goplot

5. emapplot

6. cnetplot

最新文章

新澳2025年免资料查询

宋太祖赵匡胤年谱

写给医学生，术前谈话的四个步骤

《轻松学名方》释义||第37讲 045五淋散046五痿汤（上）

2025年澳门饮料大全

ECRS工作法，让你的工作效率提高10倍

班主任工作总结范文

白蒺藜药用验方

热门文章

欣赏丨世界著名的60幅女人体油画，裸露但不低俗~

小六壬完整解释

小六壬神断口诀大全，掐指一算直断生死！

亲戚关系图（关于中国亲戚称谓）家庭称谓大全，再也不用担心叫错了称呼

珍贵舌诊：脾肾阳虚、虚寒泄泻、胃阴虚的舌苔照，看完记得存！

倪海厦经典配方全集（六）——桂枝汤、大小青龙汤、五苓散等

“四川泸州油纸伞” 的第七代传承人余万伦古法制伞一辈子

5本甜肉的古言宠文推荐，男主个个都是宠妻狂魔～