当前位置：首页 > 科技 > 正文

如何直接用Seurat读取GEO中的单细胞测序表达矩阵

启示号
科技
1周前
1043

1 常见的单细胞countmatrix

Cell Ranger生成的raw count
Cell Ranger (v3.0)中生成的文件除了bam文件外主要就是如下的三个表格文件(Seurat 的示例文件，2700个pbmc细胞单细胞测序）：
我们可以利用head命令检查数据三个表格的内容。
Barcodes通俗来讲就是每个细胞的代码，组成就是ATCG四个碱基排列组合成的不同的14个碱基组合；
Gene.tsv或者features.tsv一般是基因的ensembl ID 和symbol
matrix.mtx说白了就是每个细胞不同基因的表达矩阵，我们利用分别检查文件的开头和结尾：

这里我们可以发现其实就是2700个细胞不同基因的表达（第一列是基因的ID，用于与genes.tsv对应转换；第二列则是细胞的编号，匹配barcodes.tsv；第三列则是基因的表达量TPM）（没有表达的基因不做记录）这三组表格组合成。理解这三个表格组成后我们也不难发现，缺一不可的是matrx.mtx文件，而genes.tsv则一般是用于注释的基因组通用文件；而如果缺失barcodes.tsv的话，则可以根据matrix判断细胞数量自己“人为构建出”相应数量不同的barcode表格或者利用samtools从bam文件获取。当我们把这三个文件后存在一个独立文件夹后可以直接利用Seurat （v3.0）的Read10X()命令读取并构建成行名称为基因名，列名称为barcode序列(基因名x细胞）的表达矩阵（也就是SeuratObject)进行后续分析。如果我们只想从这三个表格直接整合成一个（基因名x细胞）的表达矩阵，可以利用以下代码完成：

library(Matrix)
matrix_dir = "~/filtered_feature_bc_matrix/hg19/" ##根据实际文件夹进行修改
barcode.path <- paste0(matrix_dir, "barcodes.tsv")
features.path <- paste0(matrix_dir, "genes.tsv")
matrix.path <- paste0(matrix_dir, "matrix.mtx")
mat <- readMM(file = matrix.path)
feature.names = read.delim(features.path,
header = FALSE,
stringsAsFactors = FALSE)
barcode.names = read.delim(barcode.path,
header = FALSE,
stringsAsFactors = FALSE)
colnames(mat) = barcode.names$V1
rownames(mat) = feature.names$V1

从公共数据库中获取的count matrix
拿我们常见的GEO数据库为例，如果是上传到GEO数据的数据必须要上传处理后的数据（https://www.ncbi.nlm.nih.gov/geo/info/seq.html），这一方面方便其他研究人员直接更快速的获取或者验证最初的高通量测序，减少了下载SRA粗数据并进行重新比对的时间。
一般来讲这些数据往往是整合好的一个count matrix，比如最新上传的一组造血干细胞单细胞测序数据（A 3D Atlas of Hematopoietic Stem and Progenitor Cell Expansion by Multi-dimensional RNA-Seq Analysis）（GSE120503），我们看到的处理后数据是单个文件，如下图所示：
解压后我们得到只有一个叫做“GSM3402061_zebrafish_HSC_counts_change.merge.txt”的文件，而不是Cell Ranger输出的三个文件。
我们检查一下文件的内容：
其实这就是我们在上一步整合出的（基因 x 细胞）的表达矩阵，那么如果我们想直接利用Seurat导入这个表达矩阵进行后续分析该如何做呢？

2 Count matrix导入Seur

对于上述的表达矩阵，我们不能直接使用Seurat的Read10X()函数进行读取，但是要进行后续分析我们可以直接把这个表达矩阵变成SeuratObject。这是一个R读取表格的基本操作：

setwd("/test/") ##注意工作目录
library(Seurat) ##version 3.0
library(dplyr)
new_counts <- read.table(file="/test/GSM3402061_zebrafish_HSC_counts_change.merge.txt")
head(new_counts)
mydata <- CreateSeuratObject(counts = new_counts, min.cells = 3, project = "mydata_scRNAseq")

通过以上两种操作我们就可以完成Cell Ranger产出数据与SeuratObject之间的互相转换。而利用这种简单的几行命令，我们可以较快的从他人上传好的数据中获取我们所需的信息（当然这需要我们充分相信合作者或者数据上传人对于数据处理的数据质量），节省了大量下载和处理数据的时间。

你可能想看：

超多数学动画：高中、初中、小学！动态数学软件GeoGebra教程汇总

本文有函数、概率、立体几何、平面几何、计算等多个内容，均是使用动态数学软件GeoGebra制作而成。圆柱、圆锥、球、棱锥的体积公式：以及圆柱表面积、圆锥侧面面积，三角形、平行四边形、梯形、圆面积公式推...

Cell Reseach：caspase11切割gasderminD引发“细胞焦亡” - 基因编辑专区 - 生物谷

这些炎性caspase的激活能够促进细胞焦亡事件的发生，炎性caspase究竟是如何调节这些细胞事件至今仍然有待解决。该蛋白的切割能够引发细胞焦亡事件的发生。他们发现这一突变体小鼠不能够正常发生细胞焦...

摄影后期如何用snapseed修出通透有层次感的蓝天白云？

下面我就用一张照片作为例子来分享下调出通透有层次感蓝天白云照的后期技巧。首先发现图片比较暗，点工具——调整图片——亮度+100，增强画面层次感，3.加了对比度后近处的草地变暗了。天空自然需要够蓝。给...

(2条消息)cv2.findContours()返回函数详解， findContours()

但是该函数返回的三个参数具体表示的是什么呢？其实与输入参数的thresh原图没啥区别,print(np.size(cnts)) # 得到该图中总的轮廓数量,print(cnts[0]) # 打印出第一...

SEO优化｜2018年百度算法一览

一、清风算法2.0 清风算法2.0主要打击的是互联网上存在欺骗、虚假、恶意引导下载各类软件的网站。通过搜索引擎找出需要下载的资讯APP，虽然清风算法2.0主要惩罚的是资源下载网站。6月28日百度公告中...

SEER数据库系列|SEER数据库基本介绍

美国国家癌症研究所（National Cancer Institute）的SEER数据库收集了大约30％的美国人口的癌症诊断。从简单地按人群中器官部位枚举癌症的发展到包括通过组织病理学和分子亚型（由驱...

四种方法修复U盘“不显示”“无法访问”“文件或目录损坏且无法读取”

①将U盘插入电脑→②找到U盘。右击选择【属性】→③点击【工具栏】中的【共享】→④勾选【可共享此文件夹】→⑤点击【工具栏】中的【开始检查】→⑥在弹出窗口勾选【磁盘检查选项】→⑦进行检查修复：命令修复法:...

【知识点】水位控制中的单冲量和三冲量

水位控制器根据水位测量值与给定值的偏差控制给水阀门，改变给水量来保持汽包水位在允许的操作范围内。单冲量水位控制是锅炉汽包水位自动控制中最简单、最基本的形式，蒸汽流量三个冲量经过PID计算来调节给水阀门...

机器学习算法原理——矩阵微积分，构建你的“黑客帝国”

点积也是为向量和矩阵定义的，左边的向量/矩阵的列数必须与右边的向量/矩阵的行数一致。我们将左边的一行和右边的一列向量/矩阵相乘并求和。如果我们想求两个函数的乘积的导数?这两个函数都取决于我们想微分的变...

怎么就成濒危物种了？满大街都是银杏树！基因测序揭露惊人事实

公园里、道路旁的银杏树下已经能看到掉落的银杏果，树龄240年在欧洲很多城市经常可以看到树龄高达一两百年的银杏树，日本花园中的巨大银杏在隋唐时期的中日僧侣交流中带到了日本，1609年德国的植物学家Eng...

四柱六十甲子表,六十甲子纳音表,六十甲子顺序表

解决问题实用矩阵模型，让你快速抓住事物本质

拥有将某个地域产生的新智慧让全世界共享的建构“乍看是二律背反的现象实际可以兼顾:很多解決方案都是从矩阵里生产出来的?依靠矩阵实现的建构化,同样是非常容昜看懂的定位框架,摇钱树产生的现金投给问题儿童这一...

科学家对新疆出土的人类遗骸完成DNA测序，终于解开了起源之谜

这些保存完好的遗骸可以追溯到大约9000年前生活在亚洲的石器时代狩猎采集者，这些遗骸就在小河文化的墓地中被发现。与西方文化中发现的遗骸相似，这些坟墓中还有小米、小麦、动物骨头和乳制品ーー这是农牧业技术...

三国蜀汉皇帝列表及简介,三国蜀汉皇帝顺序表

东汉末年、天下扰乱、群雄逐鹿。汉室宗亲刘备在军阀混战中崛起，220年(延康元年)，曹操之子曹丕篡汉，刘备以汉室宗亲的身份在四川(蜀地)成都称帝。延续了汉朝大统，蜀汉始于昭烈帝刘备，但是经过关羽失荆州、...

手把手教你用Stata的Network包实现分类变量网状Meta分析

Stata是一款非常强大的统计和作图软件。网上目前存在的教程多半是用mvmeta包来做网状Meta，本文将介绍用Stata的Network包实现连续性变量的网状Meta分析，2. 将要处理的数据在Ex...

如何做一篇合格的类案分析报告 | iCourt

最高人民法院发布关于统一法律适用加强类案检索的指导意见（试行）。最高院明确提出了人民法院在办理案件应当进行类案检索的情形。类案检索的初衷在于统一司法裁判的尺度。因此最高院在 2017 年 8 月发布的...

集成运算放大器的单电源供电电路

集成运算放大器的单电源供电电路,　　大多数集成运算放大器电略部采用正、负对称的双电源供电,集成运算放大器也能正常工作。图1所示为两种采用单电源供电的供电电路,　　采用单电源对集成这算放大器供电的常用方...

总结了484个以er为后缀的单词得出四种加后缀er规则

er▬▶英 [ɜː(r)]美[ɜːr]▬▶int.(思索该说什么话时发出的声音)哦，1）abetter▬▶英[ə'betə]美[ə'betə]▬▶abet（v.教唆;rə]美[əb'hɒrə]▬▶ab...

《我的单位观》心得体会

就像一位长者在真诚地传授自己的人生经验。　　文章对单位进行了明确定义，单位是我们显示自己存在的舞台，单位给予了我们赖以生存和生活的基本物质保障，单位给予了我们有尊严的社会身份，自己就没有体现价值的平台...

一味单方气死名医，总结几种有效的单方

我只用一味草药即可药到病除。马齿笕二百克水煎服。主治慢性痢疾。止血消痈肿，所以对湿热泄泻、痢疾有特效。主治阳痿的。黄芩煎：黄芩是清热泻火的一味重要药材，兼具解毒凉血，燥湿安胎的功效，肺热咳嗽，痈肿疮毒...

Nature头条：中外科学家揭开中国“神秘木乃伊”血统之谜

中国塔里木盆地出土的几百具自然保存的神秘木乃伊引起了国际考古学领域的关注。来自吉林大学生命科学学院崔银秋教授联合中国科学院古脊椎动物与古人类研究所、韩国首尔国立大学、美国哈佛大学和德国马克斯普朗克研究...

百度CEO李彦宏的经典创业故事

百度CEO李彦宏坐拥数十亿家产，李彦宏在美国工作最得意之时。却毅然放弃外国公司丰厚待遇和期权“回忆创立百度的心路历程；李彦宏感触良多，李彦宏读书了”李彦宏给班上一位女同学传纸条；李彦宏能考上阳泉一中读...

腾讯CEO马化腾创业故事

马化腾创立的QQ即时通讯工具，马化腾、腾讯继续高飞猛进，成为中国科技界资产最为雄厚的企业家，马化腾以财富1007亿元荣登第一名，马化腾在模仿间不经意打造了一个庞大的”马化腾不断树敌，他创造的中国最大的...

澳洲之旅-热带雨林小镇Kuranda

2月17日一早旅游公司的巴士如约来到酒店门口接上我们，吩咐好上车后的座位及到达后目的地的行程和联络方式，就由我们独自乘座观光列车(ScenicRailway)前往库兰达。下站穿过库兰达的著名市场我们走...

浅谈现代集成电路28nm芯片制造工艺B(后端BEOL)

（防止硼磷硅玻璃中B/P析出影响衬底器件），淀积界面氧化层（IL）和高K介质HfO29.1.6淀积覆盖层TiN/TaN氮化钛/氮化钽.见图159.1.7淀积p型功函数氮化钽层约40Å。见图169.1....

浅谈现代集成电路28nm芯片制造工艺A(前端FEOL)

衬底的电子以量子形式穿过栅介质进入栅极，（量子隧穿）栅极漏电导致功耗增加，单纯缩小厚度不能满足器件性能的要求了，于是采用提高氮氧化硅含氮量以增加介电常数k，开始使用高k介质HfO2代替SiON来改善栅...

癌症尿液筛查监测试剂（URC）

癌症尿液筛查监测试剂（URC）。癌症尿液筛查监测试剂（URC）是目前唯一经国家批准生产的试剂，当被检者体内有癌细胞活动时，尿液中色氨酸、酪氨酸及其代谢衍生物的含量远远超过正常人，此时通过检测尿液中上述...

数据文件表格细胞基因

上一篇
12月到来的唯美早安说说

下一篇
澳门正版传真大全2024免费

如何直接用Seurat读取GEO中的单细胞测序表达矩阵

最新文章

626969cm精准资料手机版

626969cm资料查询工具

626969手机资料网

最准626969资料查询

研读一本好书丨读《习近平讲党史故事》之“沂蒙六姐妹”故事有感

626969实时资料网

爱你，看不到你时胡思乱想；想你，想你时眼在流泪，心也跟着碎

626969cm精准资料网站

热门文章

欣赏丨世界著名的60幅女人体油画，裸露但不低俗~

小六壬完整解释

小六壬神断口诀大全，掐指一算直断生死！

荨麻疹图片和症状：手脸脖子荨麻疹初期症状图片大全

亲戚关系图（关于中国亲戚称谓）家庭称谓大全，再也不用担心叫错了称呼

珍贵舌诊：脾肾阳虚、虚寒泄泻、胃阴虚的舌苔照，看完记得存！

倪海厦经典配方全集（六）——桂枝汤、大小青龙汤、五苓散等

“四川泸州油纸伞” 的第七代传承人余万伦古法制伞一辈子