1. 背景介绍
做单细胞转录组的都知道,目前为止10xGenomics公司的单细胞转录组解决方案是单细胞领域中的绝对领导者,预计基本上占单细胞转录组的市场份额80%以上(或者更高),因此10xGenomics公司的任何风吹草动都会对单细胞研究的领域产生十分重要的影响。
2020年7月初,10xGenomics公司推出了靶向基因的解决方案,号称在同等测序深度的条件下,其成本降低了90%以上,或者说起通量增加10倍,这对于老师所关注的领域的研究十分重要。今天主要介绍的是cellranger4.0,为什么要所靶向基因呢?主要是这里推出了新产品靶向基因,肯定得有分析软件,而靶向基因使用的软件正好是cellranger4.0,cellranger4.0正好进行了更新,增加了新的的功能和提高了效率。
2. cellranger4.0更新介绍
cellranger4.0更新日期是7月7日,我查看了一下Release notes for Cell Ranger 4.0 (07/07/2020),一共一千多字,介绍了很多更新的内容和注意事项,大家可以自己去仔细的看看,我自己大概总结了一下,主要有以下几个方面:
- Targeted Gene Expression analysis。
- Recommended reference packages for human and mouse have been updated from version 3.0.0 to 2020A。
- Trimming for alignment。
- BAM file changes。
- count and vdj run approximately two to four times faster than in Cell Ranger 3.1, depending on the sequencing data, and reduces disk I/O by half。
- Recommended VDJ reference packages for human and mouse have been updated from。
当然还有别的一些内容,个人觉得上面的节点重要,就不介绍了。其实我们关注的重点在于,由于靶向基因解决方案还没有正式推出,这里不介绍,总结到两个方面:提高了比对效率和提高了比对率。其中比对效率提高了差不多2-4倍,比对率大概能提高1.5%左右。这两方面对于我们目前单细胞转录组分析来说,其帮助是十分巨大的,特别是公司,提高效率2-4倍,以后就可以减少机时,节约成本,缩短交付周期,而且同时其比对率还有相应的提高,这真是太实用了。上面是软件自我介绍,具体如何,下面将对其进行测试。
3. cellranger4.0 测试
这里使用了一个人的测试数据,分别进行了三组测试:cellranger-3.1.0(之前的参考基因组)和cellranger-4.0.0(新的的参考基因组和之前的参考基因组)。测试命令如下:
#A
cellranger-3.1.0/cellranger count --id= --fastqs= --sample= --transcriptome=cellranger-GRCh38-3.0.0 --localmem=40 --localcores=8
#B
cellranger-4.0.0/bin/cellranger count --id= --fastqs= --sample= --transcriptome=cellranger-GRCh38-3.0.0 --localmem=40 --localcores=8
#C
cellranger4.0/cellranger-4.0.0/bin/cellranger count --id= --fastqs= --sample= --transcriptome= refdata-gex-GRCh38-2020-A/ --localmem=40 --localcores=8
条件 | A | B | C |
---|---|---|---|
软件版本 | cellranger-3.1.0 | cellranger-4.0.0 | cellranger-4.0.0 |
参考基因组 | GRCh38-3.0.0 | GRCh38-3.0.0 | GRCh38-2020-A |
参数 | –localmem=40 –localcores=8 | –localmem=40 –localcores=8 | –localmem=40 –localcores=8 |
开始时间 | 2020-04-13 10:16:52 | 2020-07-10 17:00:50 | 2020-07-10 17:16:33 |
结束时间 | 2020-04-14 06:08:20 | 2020-07-11 04:30:57 | 2020-07-11 00:27:44 |
耗时 | 20h | 11.5h | 7h |
最大内存 | 30.499G | 35.270G | 35.281G |
IO | 14497.833 | 5555.653 | 5592.511 |
计算节点 | c0803.cloud | c0002.local | c0018.local |
预测细胞数 | 1071 | 1079 | 1086 |
基因中位数 | 351 | 354 | 361 |
比对率 | 0.926 | 0.913 | 0.913 |
转录本比对率 | 0.439 | 0.444 | 0.454 |
总基因检出数目 | 19316 | 19420 | 20989 |
这里三个比较组,cellranger-3.1.0之前已经运行过一次,因此这次不再运行,从上表格可以看出,测试结果基本上达到了cellranger4.0的Release notes的结果,如果按照相同的参考基因组,都适用GRCh38-3.0.0参考基因组的话,cellranger-3.1.0耗时为20h左右,cellranger-4.0.0为11.5h左右,差不多两倍,如果换成GRCh38-2020-A参考基因组,耗时只有7h左右,差不多是3倍左右,因此比对效率基本上达到要求。cellranger4.0的另外一项是比对率提高,上述表格表明,其细胞的基因检出中位值有一定的提高,特别是用新的参考基因组以后,提高了10左右,比对率基本上没有什么变化,但是有效转录本比对率有一定的提高,在新的参考基因组条件下,比对率差不多提高了1.5%左右,因此基本上达到要求。
另外需要注意的是,这次测试是用的qsub进行投递,因此计算节点不是一个节点,这可能会造成效率有些微波动,不过对结果影响不会太大;cellranger4.0虽然速度提高了,但是内存也增加了,差不多增加了17%左右,这可能是代价,用新的参考基因组以后,其基因检出总数增加了1400左右。
4. 总结
整体来说,这次cellranger4.0更新的作用还是挺大的,特别是对于公司来说,其速度差不多增加了2倍左右,这大大的提高了效率;另外一方面,其比对率的确有所增加,差不多1.5%左右,这是在提高效率的同时,没有牺牲准确性,相反还提高了结果的准确性;不过需要注意的是,cellranger4.0的最大内存增加了,这可能就是提高效率的代价,不过17%的内存增加换来效率的翻倍,这是值得的。
新版的cellranger4.0发布的同时,其参考基因组也有所有更新,而且对有一定的影响,因此建议更新软件的同时,也要更新参考基因组。
上面主要介绍了cellranger count的命令,也就是主要是cellranger对转录组的分析,对于VDJ分析,其测试结果基本上类似,我用了小数据量测试,基本上也是节省1倍的时间。
2020年7月12日
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论