当前位置：首页 > 科技 > 正文

RNA-seq入门实战（一）：上游数据下载、格式转化和质控清洗

启示号
科技
2年前
325

连续两次求贤令：曾经我给你带来了十万用户，但现在祝你倒闭，以及生信技能树知识整理实习生招募，让我走大运结识了几位优秀小伙伴！大家开始根据我的ngs组学视频进行一系列公共数据集分析实战，其中几个小伙伴让我非常惊喜，不需要怎么沟通和指导，就默默的完成了一个实战！

他前面的分享是：

Counts FPKM RPKM TPM CPM 的转化
获取基因有效长度的N种方

下面是他对我们b站转录组视频课程的详细笔记

本节概览：

1.在文章中找到 GEO accession number, 从NCBI获取数据SRR号

2.在linux中使用prefetch命令根据SRR号下载SRA文件

3.使用fasterq-dump/fastq-dump命令将SRA文件转为FASTQ格式，pigz软件多线程压缩（可选）

4.使用fastqc和multiqc进行测序数据的质控查看5.使用trim-galore去除低质量碱基和接头

承接上节RNA-seq入门实战（零）：RNA-seq流程前的准备——Linux与R的环境创建

一、从NCBI获取数据SRR号

数据的文章来源：
Formative pluripotent stem cells show features of epiblast cells poised for gastrulation | Cell Research (nature.com)
在文章的Data availability 下找到 GEO accession number: GSE154290

进入NCBI官网搜索GSE154290，选择相应结果进入

找到Supplementary file 下的SRA Run Select选项

Common Fields下介绍了数据的基本信息，例如表中的PAIRED表示双端测序数据。此次实战选择勾选 Found 27 Items下的RNA_mESCs和RNA_EpiSCs各两个数据，再选中Select下的Selected选项，下载Accession List后复制数据的SRR号

二、SRA数据下载

1.创建并进入test项目文件夹，将SRR号粘贴导入idname文件
mkdir test ;cd test cat > idname SRR12207279 SRR12207280 SRR12207283 SRR12207284 ^C 
2.创建SRA数据下载的脚本文件
vim 00_prefetch.sh 
主要利用了sra-tools中的 prefetch命令下载sra数据
#sh内容################################ echo -e "\n \n \n prefetch sra !!! \n \n \n " date mkdir -p ~/test/raw/sra/ cd ~/test/raw/sra/ pwd 
cat ~/test/idname | while read id ; \ do  ( prefetch -O ./ $id & ) done 
3.后台挂起运行脚本，运行情况导入log_00日志文件
nohup bash 00_prefetch.sh >log_00 2>&1 &
查看一下系统任务运行情况和test项目下的文件结构

任务运行没问题，等待数据下载完毕，暂时去relax一下吧ヽ(￣▽￣)ﾉ
当cat log_00出现以下downloaded successfully字样时表示下载完成，再检查数据下载情况，确认下载完成没问题后就可以进行下一步文件格式转化啦

prefetch.log

三、 SRA文件转为FASTQ格式

主要利用了sra-tool中的fasterq-dump命令转化格式为fastq，之后用pigz软件多线程压缩为.gz文件节省空间（可略过），再用fastqc和multiqc进行原始数据的质控和质控汇总~

fasterq-dump/fastq-dump常用参数

同上，先创建 01_sra2fq_qc1.sh 脚本文件
vim 01_sra2fq_qc1.sh 
########################################### #移动sra子文件夹下的文件并删除子文件夹 date echo -e "\n \n \n 111# move files !!! \n \n \n " cd ~/test/raw/sra/cat ~/test/idname | while read id do mv $id/* ./ rm -rf $id/ done date 

echo -e "\n \n \n 111# sra>>>fq !!! \n \n \n "mkdir -p ~/test/raw/fq/cd ~/test/raw/fq/pwdls ~/test/raw/sra/*.sra |while read id doecho " PROCESS $(basename $id) "fasterq-dump -3 -e 12 -O ./ $idpigz -p 12 ~/test/raw/fq/*qdonedate

echo -e " \n \n \n 111# qc 1 !!! \n \n \n " mkdir ~/test/raw/qc1/cd ~/test/raw/qc1/pwdls ~/test/raw/fq/* | xargs fastqc -t 12 -o ./multiqc ./
echo -e " \n 111# ALL Work Done!!! \n "date
运行01_sra2fq_qc1.sh 脚本文件
nohup bash 01_sra2fq_qc1.sh >log_01 2>&1 &
等待任务完成，查看一下raw文件夹下数据

tree raw

四、质控清洗

1. 原始数据质量查看

查看上一步qc1文件夹下的multiqc_report.html质控汇总网页文件，主要关注测序质量与测序接头这两项内容，可以发现该数据质量较好，平均质量均在30以上，接头含量也很低。
具体内容分析见：
20160410 测序分析——使用 FastQC 做质控 - 知乎 (zhihu.com)

小L生信学习日记-3丨原始数据质量如何判断？-上 (qq.com)

小L生信学习日记-4丨原始数据质量如何判断？-下 - 知乎 (zhihu.com)

2. 质控清洗数据

主要使用trim-galore去除低质量碱基和接头，详尽使用方法参见lncRNA组装流程的软件介绍之trim-galore
常用参数如下：

trim-galore常用参数
vim 2_cleanfq_qc2.sh 
##############################################echo -e " \n \n \n 222# Clean ! trim_galore !!! \n \n \n"datemkdir ~/test/clean/cd ~/test/clean/pwd
##########single############################################################################ls ~/test/raw/fq/*.f* | while read id #do # trim_galore -q 25 -j 4 --phred33 --length 35 --stringency 3 \# --gzip -o ~/test/clean/ $id #done###########paired############################################################################1）先把文件_1、_2的路径文件名分别存储，再合并成两列的格式，存为config######### ls ~/test/raw/fq/*_1* >1 ls ~/test/raw/fq/*_2* >2 paste 1 2 >config cat config | while read id do arr=($id) fq1=${arr[0]} fq2=${arr[1]} trim_galore -j 4 -q 25 --phred33 --length 35 --stringency 3 \ --paired --gzip -o ~/test/clean/ $fq1 $fq2 done########################################################################################### 

echo -e "\n \n \n 222# qc2 检查clean清洗结果!!! \n \n \n"mkdir ~/test/clean/qc2cd ~/test/clean/qc2pwdls ~/test/clean/*f*.gz | xargs fastqc -t 12 -o ~/test/clean/qc2multiqc ./
echo -e " \n 222# ALL Work Done !!! \n "date
nohup bash 2_cleanfq_qc2.sh >log_2 2>&1 &
3. 清洗后数据质量查看

查看~/test/clean/qc2下的multiqc_report.html质控汇总网页文件，碱基质量更好一些了

到此，我们完成了RNAseq原始数据的下载、格式转化和质控清洗步骤，得到了经过质控后存放于clean文件夹下的fastq文件，接下来就可以利用这些cleaned fastq文件进行下一步的比对、计数（hisat2+feature_counts 或 salmon），最终得到我们想要的counts文件

参考资料

20160410 测序分析——使用 FastQC 做质控 - 知乎 (zhihu.com)

小L生信学习日记-3丨原始数据质量如何判断？-上 (qq.com)

小L生信学习日记-4丨原始数据质量如何判断？-下 - 知乎 (zhihu.com)

lncRNA组装流程的软件介绍之trim-galore

本实战教程基于以下生信技能树分享的视频：

【生信技能树】转录组测序数据分析_哔哩哔哩_bilibili

【生信技能树】GEO数据库挖掘_哔哩哔哩_bilibili

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI，多一点数据认知，让他们的科研上一个台阶：

数据挖掘（GEO,TCGA,单细胞）2022年5~6月场，快速了解一些生物信息学应用图表

生信入门课-2022年5~6月场，你的生物信息学第一课

你可能想看：

circbase数据库环状RNA序列获取方法 | 环状RNA社区

小编邀请技术部的刘建宁老师继续为大家实例讲解circRNA的引物设计。我们以环状RNA数据库circbase（http:为小伙伴详细介绍从circRNA序列获取到引物设计的全过程。在Search上方的...

拖后腿学徒居然也完成作业，理解RNA-seq数据分析结果

https;###一些常规的设置rm(list=ls())#清空环境变量options(stringsAsFactors=F)##字符不作为因子读入###读取数据。-read.table('GSE10...

SEER数据库系列|SEER数据库基本介绍

美国国家癌症研究所（National Cancer Institute）的SEER数据库收集了大约30％的美国人口的癌症诊断。从简单地按人群中器官部位枚举癌症的发展到包括通过组织病理学和分子亚型（由驱...

音频格式转换超简单！用这个方法，10秒搞定！

其实转换成压缩格式WMA。今天就和大家分享下「迅捷音频转换器」的格式转换功能，打开软件的「音频转换」功能，把原视频拖拽进来后。右上角选择你需要的输出格式即可，当你有多个文件需要转换格式时，直接添加打包...

如何提高引流时的转化率？从3%到30%的转化率我只做了这几件事

这个问题的转化率可以说很低”比如说想要吸引一千用户。下面我就来说说如何提高引流时的转化率？我之前有关引流的文章里都会写上定位，定位在于明确自己的产品以及目标用户，并且定位决定着后续的渠道选择以及变现等...

厕所瓷砖发黄怎么清洗？厕所瓷砖太脏了用什么清洗干净？

那么像这种发黄有污渍的卫生间瓷砖应该如何清洗呢？一、厕所瓷砖为什么发黄以及有污渍？卫生间瓷砖发黄其实主要原因是由于瓷砖长时间在水蒸气的作用下，二、厕所的瓷砖应该如何清洗？其实卫生间瓷砖的清洗还是很简单...

2020-2021齐齐哈尔建华区初一上期末全科试卷及参考答案，可下载

以本地区中考题型为主积累了一些资源，同时分享本地区七八九年级的数学试卷。个别试卷我是扫描的或者手机拍的图片版，击右上角高老师数学课堂，由于很多学生、家长、教师跟我交流，以本地区中考题型为主积累了一些资...

EXCEL | 使用特殊符号自定义单元格格式，要什么格式你做主

单元格格式中常使用特殊符号来定义特殊格式。如果单元格的内容大于指定占位符；则显示实际数字，代表设置单元格格式为四位整数，A3单元格中数字，数字占位符“在小数点两边为无意义的零添加空格?自定义添加千分位...

Cell Reseach：caspase11切割gasderminD引发“细胞焦亡” - 基因编辑专区 - 生物谷

这些炎性caspase的激活能够促进细胞焦亡事件的发生，炎性caspase究竟是如何调节这些细胞事件至今仍然有待解决。该蛋白的切割能够引发细胞焦亡事件的发生。他们发现这一突变体小鼠不能够正常发生细胞焦...

《遥远的救世主》弱势文化和强势文化，哪一种是你？

去年在微信上认识了个特别低调的老总，从中领悟到高人背后的强势文化那种独特NT思维方式，说我这大叔玩不转90后的互联网这个新鲜玩意，由于我读懂了《天道》高人的NT思维。一直坚持围绕这些NT思维对互联网进...

一键下载公众号所有文章，导出文件支持PDF，HTML，Markdown，Excel，chm等格式

原理就是通过抓包抓取微信客户端的接口，用Python请求微信接口获取公众号文章链接再下载。不过charles没安装证书前获取不到https接口数据。再次抓取可以看到公众号文章接口数据了?公众号文章的接...

Excel 2016数据透视表与条件格式

Excel2016数据透视表应用大全突出显示数据透视表中的特定数据。图5-40设置条件格式前的数据透视表步骤1选中; 在【背景色】颜色库中选择;图5-43新建格式规则图...

小学六年级语文句式转换题方法总结与练习 | 含答案

小学语文句式转换题方法总结与练习，1. 我们怎能忘记老师的淳淳教导。我们不能忘记老师的淳淳教导”6.你难道没看比赛吗，1.先加上反问词（怎能、怎么、难道、哪里等等）。1.我们不能因为学习任务重而不参加...

如何下载高清卫星地图，指定区域下载、打印

生活或工作中常常需要下载一块区域的卫星地图，但是很多在线地图是不支持下载打印的，下面就和小编学一学怎么下载打印卫星地图吧，1、首先电脑上要下载全能电子地图下载器，2、在软件最上面一排菜单点击，选择需要...

9个外文文献下载网站推荐，免费下载各种外文科技论文

那么今天就给大家分享9个比较实用的科技外文文献网站，还可以下载英文书籍”已有278多万书籍以及5242多万文献可以免费下载。是科技期刊在网上的一种合作性的电子出版模式:SciELO发展为由一个主网站和...

你的数据到底有多重要？这些惊艳的数据可视化案例告诉你 | TED演讲

在本文中他分享了数据背后所蕴含的令人意想不到的重量，今天我想跟大家聊聊两件非常振奋人心的内容，但对苹果公司我不想说太多。没有事物可以像电脑那样改变我们的生活，但我其实也不想聊电脑的事儿。我想聊聊电脑上...

和俄国大力士比武，为何韩慕侠一上台，俄国大力士丢下金牌就走

这还得从俄国大力士康泰尔说起。康泰尔在北京中央公园摆下7天擂台。突然从擂台两边各走出20个壮汉，康泰尔也叽哩咕噜说了几句。康泰尔的神力大家已经见过了。决定派徒弟韩慕侠挑战康泰尔。只见康泰尔一招猛虎扑食...

人称简易X光，一上手就知道是什么病！超级简单

既然看脸面、声音、切脉、耳朵、脚掌、腹部等都能体现人体疾病盛衰，光那手掌中的三大条掌纹、以及各自纹路的走向、变化、链接等等，如果你感觉手掌整体上颜色暗、有枯槁之感，手指甲看上去整体也是偏于惨白的，尤其...

低水平均衡陷阱理论（Low Level Equilibrium Trap）

纳尔逊低水平均衡陷阱理论概述。美国经济学家（）发表了以《不发达国家的一种低水平均衡陷阱》为题的论文，纳尔逊利用数字模型考察了不发达国家人均资本与人均收入增长、人口增长与人均收入增长、产出增长与人均收入...

一上幼儿园就生病，可以这样解决

孩子上幼儿园之前生病不多。先说说我家孩子上幼儿园的经历。是在家吃早饭后送到幼儿园。孩子在幼儿园吃晚饭后回到家中：孩子突然开始严重咳嗽、呼吸不畅，必须让我当晚送孩子去医院，我与母亲一起带孩子开车去医院：...

创维LED液晶彩电168P-P65EQF-00电源板原理与维修（三）

由厚膜电路IC3(FSDH321)、开关变压器T3、取样误差放大电路IC9、光电耦合器IC6等元件组成，集成了启动电路、振荡电路、误差放大电路、驱动控制电路、MOSFET开关管等。2、启动工作过程 ...

8道滋滋有味的简单蒸菜，一上桌就被抢光

蒜蓉粉丝蒸娃娃菜：娃娃菜、绿豆粉丝、大蒜、新鲜红椒、香葱、生抽、砂糖、鸡精、高汤(清水)、沙拉油，2、锅内放沙拉油2大匙，放入蒜蓉炒出香味，3、制好的蒜蓉酱汁盛出备用；长茄子、肉陷、蚝油、料酒、姜葱、...

成功——取决于你的“情商”（EQ）

究竟什么心智或精神能力决定着人的成功？而控制情绪的能力、抓住机遇的能力等情绪智力因素具有更重要作用，纽约时报科学专栏作家丹尼尔·戈尔曼的新著《情绪智力》则使这一术语成为美国社会广为流传和讨论的话题，研...

SpringBoot报错 Error parsing HTTP request header

Note:Note:at org.apache.coyote.http11.AbstractNioInputBuffer.parseRequestLine(AbstractNioInputBuffer...

新手入门之玄空风水入门理论知识汇总

辰、戌、丑、未、巳、午月得化。辰、戌、丑、未、申、酉月得化。申、酉、亥、子、丑、辰月得化。亥、子、寅、卯、辰、未月得化。寅、卯、巳、午、未、戌月得化。子、丑、寅、卯、辰、巳、午、未、申、酉、戌、亥。　...

狼山会梅教主微信营销108招2，提升成交转化率，提升人脉关系的2大绝招

专门写小白看得懂用得上的文章，今天梅姐给大家分享提升成交转化率，其实我们特别想要提升转化率，梅姐分享了要通人性。梅姐知道你学了很多技能技巧，梅姐在中级【社群空间】粉丝变现实操训练营里，看了梅姐在中级【...

如何让Word快速转化为PPT演示文稿(2图)

如何让Word快速转化为PPT演示文稿要把一篇长的Word文档搬运到PPT演示文稿，如果你赶时间而且是要手动一段段文本的复制粘贴，其实有个简单的办法可以让你很快的完成这个工作的。步骤或方法[编辑本段...

数据文件实战质量热点板块

上一篇
最精准的择日方法，风水上择日用什么方法

下一篇
傅文录应用附子医案

RNA-seq入门实战（一）：上游数据下载、格式转化和质控清洗

一、从NCBI获取数据SRR号

二、SRA数据下载

1.创建并进入test项目文件夹，将SRR号粘贴导入idname文件

2.创建SRA数据下载的脚本文件

3.后台挂起运行脚本，运行情况导入log_00日志文件

三、 SRA文件转为FASTQ格式

四、质控清洗

1. 原始数据质量查看

2. 质控清洗数据

3. 清洗后数据质量查看

有话要说...取消回复

最新文章

王长绅紫微斗数之廉贞天相在子午守财帛宫，命宫为武曲星

磁共振扫描操作磁共振冠脉成像（一）

“病急乱投医”

择日——吊用“太阳、太阴”吉神到宫的方法

古诗词中的十大人生境界，古今一付笑谈中

史上最全K线图大全：70种+42个K线组合图解

明朝最大遗憾：崇祯若答应李自成条件，明朝不会灭亡，还灭了满清

孔子语录100句（附释文）国学经典

热门文章

业医必修——孙思邈《大医精诚》

怎样从门口看房屋吉凶

低估了广东的“甘蔗马蹄茅根水”，喝完半个小时就舒服了！

痰湿体质如何调理最全痰湿体质调理方法(8)

自制家庭小咸菜

七彩神龙指标源码（八戒神龙主图无未来函数）

《奇门遁甲预测术》奇门：格局庚

10种朝鲜咸菜的腌制方法