当前位置：首页 > 科技 > 正文

RNA-seq入门实战（二）：上游数据的比对计数——Hisat2+ featureCounts 与 Salmon

启示号
科技
2年前
414

生信技能树知识整理实习生招募，让我走大运结识了几位优秀小伙伴！大家开始根据我的ngs组学视频进行一系列公共数据集分析实战，其中几个小伙伴让我非常惊喜，不需要怎么沟通和指导，就默默的完成了一个实战！

他前面的分享是：

Counts FPKM RPKM TPM CPM 的转化
获取基因有效长度的N种方

下面是他对我们b站转录组视频课程的详细笔记

本节概览：

hisat2 + featureCounts:
获取hisat2索引文件，hisat2比对和samtools格式转化，featureCounts计数得到counts表达矩阵

Salmon:
salmon index 用cdna.fa建立索引，salmon quant对clean fastq文件直接进行基因定量

获取ensembl_id或transcript_id转化的对应文件

承接上节RNA-seq入门实战（一）本节介绍使用hisat2或salmon这两种方法进行转录组上游数据的比对和计数。39个转录组分析工具，120种组合评估(/articles/s41467-017-00050-4)表明基于hisat2或salmon进行转录本定量都比较优秀。

一、hisat2 + featureCounts

1. 获取hisat2比对索引文件

index官网下载地址Download | HISAT2 (daehwankimlab.github.io)，下载并解压所需的 mm10 或 grcm38 的index文件
mkdir -p ~/reference/index/hisat/cd ~/reference/index/hisat/wget /hisat/mm10_genome.tar.gztar -zxvf *tar.gz rm *tar.gz
2. hisat2比对和samtools转化格式

先用hisat2比对基因组得到sam文件，再用samtools sort将sam文件格式转化与排序为bam文件（bam相当于二进制版的sam），之后samtools index建立索引（用于后续IGV内可视化），最后samtools flag 统计文件比对情况保存在文本中。其中samtools index与samtools flag为非必须步骤，可略过。sam相当于是中间文件比较占存储空间，可在转化为bam后便删除。

代码如下：
vim 3_align2sam2bam_hisat2.sh
############################echo -e " \n \n \n 333# Align !!! hisat2 !!!\n \n \n "date########set#### ###set#### ###set#### index='/home/reference/index/hisat/mm10/genome'
mkdir -p ~/test/align/flagcd ~/test/align/pwdcat ~/test/idname | while read iddo echo "333# ${id} ${id} ${id} is on the hisat2 Working !!!"################ paired ###############################  hisat2 -t -p 12 -x $index \ -1 ~/test/clean/${id}_*1*gz \ -2 ~/test/clean/${id}_*2*gz -S ${id}.sam######################################################################Single################################# hisat2 -t -p 12 -x $index \# -U ~/test/clean/${id}_trimmed.fq.gz \# -S ./${id}.sam ######################################################## 
### sam2bam and remove sam ### echo -e " ${id} sam2bam and remove sam " samtools sort -@ 12 -o ~/test/align/${id}_sorted.bam ${id}.sam rm ${id}.samdone
#### samtools index and flagstat ####echo -e " \n \n \n samtools index and flagstat \n " cd -p ~/test/align/flagpwd#ls ~/test/align/*.bam | xargs -i samtools index -@ 12 {} ls ~/test/align/*.bam | while read id ;\do samtools flagstat -@ 12 $id > $(basename $id '.bam').flagstatdonemultiqc ./
echo -e " \n \n \n 333# ALL Work Done !!!\n \n \n "date
nohup bash 3_align2sam2bam_hisat2.sh >log_3 2>&1 &
比对结果如下：

3. featureCounts 计数得到counts表达矩阵

计数首先要获取gtf注释文件，注意要和hisat2的index文件的基因组版本相对应，如本次为mm10，则gtf文件也必须为mm10或grcm38。
研究人和鼠推荐用gencode数据库的文件GENCODE，比较常用的还有UCSC的refGene.gtf文件，下载地址在/（若想下载其他gtf文件则将网址中mm10替换即可，如hg38）。
featureCounts详细使用方法见转录组定量可以用替换featureCounts代替HTSeq-count (qq.com)，常用参数如下：
代码如下：
vim 4_counts_featurecounts.sh
###########################################echo -e "\n \n \n444# Count #featureCounts !!! \n \n \n"date#####set####set###setgtf='/home/reference/gtf/gencode/gencode.vM25.chr_patch_hapl_scaff.annotation.gtf'#gtf='/home/reference/gtf/UCSC/mm10.refGene.gtf.gz'
mkdir -p ~/test/countscd ~/test/counts/pwd######## single###########################################################################featureCounts -T 12 -a $gtf -o counts.txt ~/test/align/*.bam #######paired###########################################################################featureCounts -T 12 -p -a $gtf -o counts.txt ~/test/align/*.bam####################################################################################### ###生成网页版统计情况multiqc ./
echo -e " \n \n \n ALL WORK DONE !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! \n "date
nohup bash 4_counts_featurecounts.sh >log_4 2>&1 &
查看计数的统计情况，匹配率在71-80%左右，还可以

运行结果保存在counts文件夹下，里面的counts.txt就是我们下游分析所需要的文件啦

二、Salmon——直接对基因进行定量的工具

与hisat2不同，salmon不经过比对计数步骤而是直接对基因进行定量，如果不研究新转录本，用salmon方法可以更快更方便得到基因定量信息。

1. 建立salmon索引

先下载参考转录本序列cDNA.fa文件，在ensembl官网选择相应文件 Index of /pub/release-102/fasta/mus_musculus/cdna/ (ensembl.org)，使用salmon index 建立索引文件，salmon index常用参数：
mkdir ~/reference/index/salmon/grcm38cd ~/reference/index/salmon/grcm38salmon index -p 12 -t ~/reference/ensembl/grcm38.cdna.fa.gz -i ./
2. salmon定量基因

使用salmon quant命令对clean fastq文件直接进行基因定量，主要参数如下：
vim 3333_salmon.sh
###################################################echo -e '\n \n \n ### salmon quant is Working !!! \n \n'###set##set###set#############index="/home/reference/index/salmon/grcm38/"
mkdir ~/test/salmoncd ~/test/salmonpwdcat ~/test/idname | while read id do echo " '\n !!!!!! Processing sample $id !!!!! '\n" ########single############################################## salmon quant -i $index -l A \# -r ~/test/clean/$(basename $id)_trimmed.fq.gz \# -p 12 -o $(basename $id)_quant#######paired#############################################salmon quant -i $index -l A \ -1 ~/test/clean/${id}_*1*gz \ -2 ~/test/clean/${id}_*2*gz \ -p 12 --output ${id}_quant############################################################### done
multiqc ./
echo -e " \n \n \n !!!!ALL WORK DONE !!!!!!!!!!!!!!!!!!!!! \n"date
nohup bash 3333_salmon.sh >log_333salmon 2>&1 &
运行结果存放在salmon文件夹下，里面的quant.sf即为下游分析所需要的文件

三、获取基因ID转化的对应文件

由于本次使用的为gencode或ensembl的gtf与cdna文件，因此最后得到的为ensembl_id (gene_id)和 transcript_id，形式为：ENSMUSG00000000001.1 ，而我们下游常用gene symbol进行展示，因此还需要从gtf注释文件中获取ensembl_id 、transcript_id与gene symbol的对应关系文件。
方法如下：
vim gtf_geneid2symbol_gencode.sh
#提取gtf注释文件中gene_id等与gene_name的对应关系,便于下游id转换
#提取gtf注释文件中gene_id等与gene_name的对应关系,便于下游id转换gtf="gencode.vM25.chr_patch_hapl_scaff.annotation.gtf"
### gene_id to gene_namegrep 'gene_id' $gtf | awk -F 'gene_id \"' '{print $2}' |awk -F '\"' '{print $1}' >gene_id_tmpgrep 'gene_id' $gtf | awk -F 'gene_name \"' '{print $2}' |awk -F '\"' '{print $1}' >gene_name_tmppaste gene_id_tmp gene_name_tmp >last_tmpuniq last_tmp >g2s_vm25_gencode.txtrm *_tmp
### transcript_id to gene_namegrep 'transcript_id' $gtf | awk -F 'transcript_id \"' '{print $2}' |awk -F '\"' '{print $1}' >gene_id_tmpgrep 'transcript_id' $gtf | awk -F 'gene_name \"' '{print $2}' |awk -F '\"' '{print $1}' >gene_name_tmppaste gene_id_tmp gene_name_tmp >last_tmpuniq last_tmp >t2s_vm25_gencode.txtrm *_tmp
bash gtf_geneid2symbol_gencode.sh
所得文件如下所示:

上游流程到此就结束了，将最后得到的counts文件夹与g2s_vm25_gencode.txt 或 salmon文件夹与t2s_vm25_gencode.txt下载到本地就可以愉快地进行下游分析了

参考资料

39个转录组分析工具，120种组合评估(/articles/s41467-017-00050-4)

转录组定量可以用替换featureCounts代替HTSeq-count (qq.com)

本实战教程基于以下生信技能树分享的视频：

【生信技能树】转录组测序数据分析_哔哩哔哩_bilibili

【生信技能树】GEO数据库挖掘_哔哩哔哩_bilibili

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI，多一点数据认知，让他们的科研上一个台阶：

数据挖掘（GEO,TCGA,单细胞）2022年5~6月场，快速了解一些生物信息学应用图表

生信入门课-2022年5~6月场，你的生物信息学第一课

你可能想看：

(2条消息)cv2.findContours()返回函数详解， findContours()

但是该函数返回的三个参数具体表示的是什么呢？其实与输入参数的thresh原图没啥区别,print(np.size(cnts)) # 得到该图中总的轮廓数量,print(cnts[0]) # 打印出第一...

circbase数据库环状RNA序列获取方法 | 环状RNA社区

小编邀请技术部的刘建宁老师继续为大家实例讲解circRNA的引物设计。我们以环状RNA数据库circbase（http:为小伙伴详细介绍从circRNA序列获取到引物设计的全过程。在Search上方的...

拖后腿学徒居然也完成作业，理解RNA-seq数据分析结果

https;###一些常规的设置rm(list=ls())#清空环境变量options(stringsAsFactors=F)##字符不作为因子读入###读取数据。-read.table('GSE10...

第5讲 Vision Pro视觉工具 CogFixture

是为了在我们找到的图像特征上建立一个固定的坐标系，如果没有这个工具我们的图像识别还能找到想找到的位置吗？固定工具用来在您已经计算了一个坐标转换时创建一个固定坐标系统-在我们所举的范例中,我们已经找到了...

保留整数、小数位的函数方法，只知道INT和ROUND是不够的

一定要使用最适合的函数。一、INT函数和round函数的局限性比如我想通过计算知道某月是哪个季度，如果用INT函数，因为INT函数不会四舍五入，而round函数是一个四舍五入保留小数位函数，同样也不能...

Nature头条：中外科学家揭开中国“神秘木乃伊”血统之谜

中国塔里木盆地出土的几百具自然保存的神秘木乃伊引起了国际考古学领域的关注。来自吉林大学生命科学学院崔银秋教授联合中国科学院古脊椎动物与古人类研究所、韩国首尔国立大学、美国哈佛大学和德国马克斯普朗克研究...

如何做一篇合格的类案分析报告 | iCourt

最高人民法院发布关于统一法律适用加强类案检索的指导意见（试行）。最高院明确提出了人民法院在办理案件应当进行类案检索的情形。类案检索的初衷在于统一司法裁判的尺度。因此最高院在 2017 年 8 月发布的...

VBA遍历所有文件夹的两种方法（filesearch和FileSystemObject）

另外一种是使用FileSystemObject(windows文件管理工具)和递归方法。

SEER数据库系列|SEER数据库基本介绍

美国国家癌症研究所（National Cancer Institute）的SEER数据库收集了大约30％的美国人口的癌症诊断。从简单地按人群中器官部位枚举癌症的发展到包括通过组织病理学和分子亚型（由驱...

python中使用argparse.add_argument_group() 对命令行参数进行概念性分组

parser.add_argument('name':parser.add_argument('--bar_that')，parser.add_argument('--foo_that')。parse...

关于百度文字识别怎么找到API_Key和Secret_Key

有些识别文字的软件需要填写这两个key才能识别文字。下面是介绍如何找到这两个key的方法：使用百度文字识别，必须先有一个百度账号，然后进入百度智能云平台，登录账号后，点击立即使用按钮。点击左边的应用列...

Cell Reseach：caspase11切割gasderminD引发“细胞焦亡” - 基因编辑专区 - 生物谷

这些炎性caspase的激活能够促进细胞焦亡事件的发生，炎性caspase究竟是如何调节这些细胞事件至今仍然有待解决。该蛋白的切割能够引发细胞焦亡事件的发生。他们发现这一突变体小鼠不能够正常发生细胞焦...

电脑无法开机抢救数据的3个妙招

电脑无法开机一般是指你的系统出现故障，它是现在电脑维修、系统安装必不可少的一个工具。1、下载的软件解压后不要随便删除里面任何文件；请点点击允许安装或者关闭杀毒软件后再安装；4、安装和激活有部分软件需要...

基于碳化硅MOSFET的20KW高效LLC谐振隔离DC/DC变换器方案研究

本方案利用新一代1000V、65毫欧4脚TO247封装碳化硅(SiC)MOSFET(C3M0065100K)实现了高频LLC谐振全桥隔离变换器，所以实际等效导通损耗会比采用全桥拓扑的1000V碳化硅M...

玩转YouTube，让海外客户“不请自来”

YouTube是Google旗下一个美国的在线视频分享和社交媒体平台。而Karim无法轻易在网上找到该事件和2004年印度洋海啸的视频剪辑，产生了视频共享网站的想法。YouTube用户每天观看超过10...

无需注册，免费使用，用它来传1G文件只要1分钟｜MuseTransfer

MuseTransfer是一款无需注册、打开网页即可免费使用的大文件传输工具。上传好的文件默认保留一周，微信登录之后可以查看传输历史，MuseTransfer可以作为无需长期储存的临时大文件云端工具来...

SpringBoot报错 Error parsing HTTP request header

Note:Note:at org.apache.coyote.http11.AbstractNioInputBuffer.parseRequestLine(AbstractNioInputBuffer...

寻找刺激试驾新奥迪R8 V10 Coupé performance

新奥迪R8 V10 Coupé 不仅拥有极具冲击力的外观，其动力的强劲也让追求激情与速度的跑车爱好者神往。硬朗的线条代表车辆的肌肉感，尾灯使用 l型 LED灯为汽车增添时尚感。内饰设计配置齐全坐在车...

复制浏览器数据到excel中时较长数字串会变成科学计数法的解决办法

其他自定义单元格格式样式:mso-number-format:\#\#0\.000":"mm\/dd\/yy":01/03/1998:"d\-mmm\-yyyy"?mso-number-format...

WinToUSB，一个让你在U盘上运行Windows操作系统的工具，不用后悔

另一个方法就是将操作系统安装到U盘或移动硬盘上。那么需要什么软件来实现我们在U盘上安装操作系统的愿望呢？从这个软件的名字我们就可以知道这是一个能够将Windows操作系统安装在U盘或移动硬盘上的工具。...

第4讲 Vision Pro视觉工具 CogPMAlignTool

康耐视图形搜索工具，它能在一张图片上通过用户制作的模板。让visionPro能找到图形中我们选定的特征图形，点击上图中的康耐视的工具按钮。双击或者拖拽工具到左边流程中即可添加，将image sourc...

法国RELLECIGA联合世界著名汽车品牌赞助欧洲FS选美

图2：众佳丽选手身穿法国RELLECIGA比基尼展示婀娜多姿的性感曲线。RELLECIGA比基尼，著名Felvidek Szepa选美大赛在欧洲如期举行，众佳丽选手身穿法国RELLECIGA比基尼展示...

华为HMS Core是什么？有什么作用？

华为HMS包括华为账号、华为浏览器、华为地图、游戏服务、定位服务、云空间服务等一系列华为自产服务，目的是用来为手机提供基础服务的。HMS Core是华为终端云服务开放能力的合集。这些能力和服务会帮助应...

中文汉化版-红巨人特效合成抠像平面跟踪AE/PR插件Red Giant VFX Suite 1.5.0 Win/Mac 含注册码

Red Giant VFX Suite 1.5.0是一套由Red Giant公司出品的特效合成抠像平面跟踪插件，VFX Suite 1.5.0更新支持Adobe AE 2020和PR 2020.该套件...

LPA（Limited Partnership Agreement),私募基金设立的核心文件

是用来约束全体合伙人的核心法律文件，这个文件里约束了LP和GP的权利与义务，对于有限合伙来说LPA是最核心和最基础的文件,GP充当的是私募基金管理人的角色。一般来说GP会去寻找投资机会然后去进行服务管...

一文教会你查找基因的启动子、UTR、TSS等区域以及预测转录因子结合位点

获取正链或负链的启动子序列时要注意方向。是信使RNA（mRNA）分子编码区(CDS)两端的非编码片段，3’-UTR从编码区末端的终止密码子延伸至多聚A尾巴（Poly-A）的末端，中讲述了如何基于高通量...

中国港口VTS 报告制度一网打尽，让你一路驾驶无忧

抵达营口港区1号灯浮（40°31.883′N/122°00.933′E）。营口港区的船舶应在CH09上保持守听。◎须向VTS中心报告的船舶。◎船舶在锦州港水域航速不得超过9节：◎船舶在距秦皇岛南山头灯...

大数据

上一篇
送你一道美味素食菜，清淡美味又营养～

下一篇
陕西省各市、县地图

RNA-seq入门实战（二）：上游数据的比对计数——Hisat2+ featureCounts 与 Salmon

一、hisat2 + featureCounts

1. 获取hisat2比对索引文件

2. hisat2比对和samtools转化格式

3. featureCounts 计数得到counts表达矩阵

二、Salmon——直接对基因进行定量的工具

1. 建立salmon索引

2. salmon定量基因

三、获取基因ID转化的对应文件

有话要说...取消回复

最新文章

王长绅紫微斗数之廉贞天相在子午守财帛宫，命宫为武曲星

磁共振扫描操作磁共振冠脉成像（一）

“病急乱投医”

择日——吊用“太阳、太阴”吉神到宫的方法

古诗词中的十大人生境界，古今一付笑谈中

史上最全K线图大全：70种+42个K线组合图解

明朝最大遗憾：崇祯若答应李自成条件，明朝不会灭亡，还灭了满清

孔子语录100句（附释文）国学经典

热门文章

业医必修——孙思邈《大医精诚》

怎样从门口看房屋吉凶

低估了广东的“甘蔗马蹄茅根水”，喝完半个小时就舒服了！

痰湿体质如何调理最全痰湿体质调理方法(8)

自制家庭小咸菜

七彩神龙指标源码（八戒神龙主图无未来函数）

《奇门遁甲预测术》奇门：格局庚

10种朝鲜咸菜的腌制方法