利用动物基因组二代测序数据拼接线粒体基因组的方法

宋梦洹; 严超超; 李家堂

Home

Request a Protocol

About

A brief version of this protocol appeared in:

Protocols for Extraction and Assembly Mitochondrial Genomes from Animal Whole Genome Next-generation Sequencing (NGS) Data

宋梦洹

严超超

李家堂

DOI: 10.21769/BioProtoc.1010681

Published: August 31, 2022

PDF

Original Version
Updated Version

How to cite

Favorites

1 Q&A

Cited by

引用格式：宋梦洹, 严超超, 李家堂. (2022). 利用动物基因组二代测序数据拼接线粒体基因组的方法. Bio-101: e1010681. DOI: <a href="https://doi.org/10.21769/BioProtoc.1010681">10.21769/BioProtoc.1010681</a>. <a href="/downpdf.aspx?wzid=1010681&action=21&lang=1"> <img src='https://en-cdn.bio-protocol.org/bio101/images/RISLogo_cn.png' class='videopic margin-top margin-bottom' style='width:auto;height:auto;box-shadow:none;cursor: pointer !important;' /> </a> <div class='clear'></div>How to cite: Li, M. X., Wen, S. Y., Xu, M. B., Cui, M. Y. and Liu, L. (2022). Protocols for Extraction and Assembly Mitochondrial Genomes from Animal Whole Genome Next-generation Sequencing (NGS) Data. Bio-101: e1010681. DOI: <a href="https://doi.org/10.21769/BioProtoc.1010681">10.21769/BioProtoc.1010681</a>. <a href="/downpdf.aspx?wzid=1010681&action=21&lang=0"> <img src='https://en-cdn.bio-protocol.org/bio101/images/RISLogo.png' class='videopic margin-top margin-bottom' style='width:auto;height:auto;box-shadow:none;cursor: pointer !important;' /> </a>

摘要:线粒体DNA因具独有的母系遗传特性，使其在进化生物学等研究领域占有不可替代的一席之地。相比于单个或少数几个线粒体片段，线粒体基因组具有信息量相对较大、不易产生偏误等特点，因此，在解决相关科学问题上更具优势。先前，利用Sanger测序技术获取线粒体基因组受限于包括人工、近缘参考等诸多条件，并不便捷。近年来，伴随着高通量测序技术的不断发展，测序价格不断降低，以基因组重测序为代表的二代测序技术产生的数据可以为直接从中拼接线粒体基因组提供数据支撑。本文通过介绍以MEANGS为主的几款软件/流程，并提供对应的使用方法，旨在为广大研究人员及学生在实际科研工作中提供有效帮助。

关键词: 线粒体基因组, 组装方法, 二代测序数据, 软件

一、概述

线粒体DNA作为一种通用标记，具有母系遗传、进化速率较快等特点，因此广泛应用于系统发育研究、生物多样性研究、群体遗传学研究及其他演化生物学相关研究领域(Avise, 1995 and 1998; Avise et al., 1987; Hajibabaei et al., 2007; Du et al., 2019; Zhou et al., 2013; Gillett et al., 2014; Crampton-Platt et al., 2016)。相比于单个或少数几个线粒体片段，线粒体基因组承载了更多的遗传信息，这不但可以对物种的演化关系和种群动态历史进行更好的解析(Edwards et al., 2010; Lindqvist et al., 2010; Rogaev et al., 2006)，同时也降低了某些特定线粒体片段由于趋同演化等原因带来的偏差（比如，系统发生关系信号偏误）(Castoe et al., 2008 and 2010)。因此，相对于线粒体片段来说，线粒体基因组是一种更具优势的标记。同时，除了以上提及的科学研究领域，线粒体基因组也可以应用于诸如，刑侦工作，食品生产相关领域以及进出口贸易检疫项目等。
早些年，想要获得一个完整的线粒体基因组，一般需要使用“引物步移PCR”的方法即先利用标准Sanger测序技术获取一定长度的线粒体片段后拼接组装成一个完整的线粒体基因组（片段之间相互重叠且成环）。但是，这样的方法不但非常耗时、成本不菲且需要一个高质量的线粒体参考基因组（近缘物种）作为引物设计的模板。近些年，随着高通量测序技术的不断提升，测序成本逐渐降低，这使得越来越多的来自于不同物种、尤其是非模式物种的高质量基因组数据呈指数增长。其中，二代测序技术产生的数据为利用生物信息学方法直接从数据中提取并组装线粒体基因组提供了重要的数据支撑。二代测序，又叫做高通量测序（High-throughput sequencing），是基于PCR以及基因芯片的DNA测序技术，它具有通量高、读长短等特点。动物全基因组二代测序数据，通常同时包含线粒体及核基因序列。由于单个细胞（泛指体细胞）中，线粒体的数量通常为细胞核数量的10到100倍(Robin and Wong, 1988)，因此，即便在相对较低的测序深度（5-10x）的二代测序数据中，线粒体基因组的完整度仍有较大可能得到保证。结合先前提到的线粒体基因组本身具有的数据特性（母系遗传且相对于核DNA独立演化），在应用二代测序数据的相关研究中，通过分离线粒体基因组进行平行分析，可为研究提供多维度证据，这在群体遗传学中体现尤为明显。
截止目前，围绕从基因组二代测序数据中提取线粒体序列已经出现了非常多的流程/软件，有些只提取特定目标基因片段，有些则是预期提取完整的线粒体基因组。这些流程（软件）可根据使用算法、策略等的不同来区分。从策略上来看，如NOVOPlasty需要使用人工提供种子序列并以种子序列为起始进行延伸组装，而Norgal则基于基因组二代测序数据中线粒体DNA量从理论上高于核DNA这一特点，通过深度阈值划分来提前过滤得到线粒体DNA数据。总的来说，所有相关类型软件都可以根据是否由人工提供种子序列来区分，本文也根据流程/软件是否需要由人工提供种子序列来对相关软件进行区分并加以介绍。在本文中，作者将以基于Illumina平台产生的测序数据为例，介绍从基因组二代测序数据中提取并组装线粒体基因组的相关方法，而不介绍那些只提取目标片段的流程。最后由于方法众多，本文仅介绍了linux平台下运行的几种软件，包括一款由作者所在团队开发的软件MEANGS（参考文献）。关于运行程序所需硬件条件，以实际操作经验来看，一台含有32个2.1GH内核英特尔至强CPU以及502.38Gb内存的服务器即可满足几乎所有测试。

二、从基因组二代测序数据提取线粒体的方法（流程/软件）

不需要手动提供种子序列的软件
1.1
MEANGS
1)
软件介绍
本软件是由作者所在团队开发，从动物基因组二代测序数据中提取线粒体基因组的软件(Song, et al., 2021)。该软件的流程大致可总结为，首先，基于已发表的动物线粒体编码蛋白保守信息数据库，利用nhmmer软件对二代测序数据中的reads进行预测，找到潜在的线粒体编码序列；随后，通过C++编写的组装模块（类似于SSAKE算法）对reads进行组装，获取此物种的线粒体编码蛋白序列（完整、不完整或多条）；进而，根据获取到的线粒体编码蛋白序列，组装模块将从它的两端开始进行迭代拼接，并组装出完整的线粒体基因组。最后，MEANGS会再次利用nhmmer对完整线粒体基因组上的编码基因进行预测并注释。主要流程见图1。

图1 MEANGS组装线粒体基因组流程（引自Song, et al. (2021)）

本软件完全免费，可以直接在github上找到并下载，本软件主页链接为https://github.com/YanCCscu/meangs。主页上附详细的软件配置需求和安装说明，同时，本软件先前测试过程中产生的结果数据也可在此主页找到相关链接。MEANGS需要使用python3运行。

2)
使用方法/流程
MEANGS目前提供已进行过编译的快速安装版本，可下载后直接使用：
git clone https://github.com/YanCCscu/MEANGS.git
cd MEANGS
./meangs.py
如果运行的机器不能直接使用则需要考虑使用以下命令进行编译：
git clone https://github.com/YanCCscu/MEANGS.git
cd MEANGS/tools/assembler_v1.0/src
make
cp assembler ../../
注：如果运行机器的linux系统或ubuntu系统版本较低的话，可能需要进行必要编译工具的安装与配置，具体可见https://github.com/YanCCscu/meangs。
MEANGS的使用方法：
meangs.py -1 example_1.clean.fq.gz -2 example_2.clean.fq.gz -o example_out -t 16 -n 2000000 -i 300 –deepin
说明：-1/-2：表示输入的双端序列；-o：表示输出文件前缀名；-t：表示线程数；-n：表示运行过程中使用的reads的数目（该参数针对不同数据可能需要调整，初次运行建议设置2000000-5000000；并应该根据结果进行调试）；-i：表示插入片段长度；--deepin：表示以deepin模式运行（该模式下会组装线粒体全基因组）；更多具体的参数可通过--help指令查看。
结果：
MEANGS会产生一个结果文件夹，其中带有"_deep_detected_mito.fas"后缀的是最终产生的线粒体基因组组装结果（deepin模式下）（图2）。

图2 MEANGS组装线粒体基因组结果（示例），其中红色箭头指的是最终组装结果

3)
重要提示
a.MEANGS提供不同的运行模式，如果只需要提取线粒体编码基因片段可以通过取消"--deepin"来实现。
b.-n 选项是截取二代测序数据中的一部分（截取reads数目）来运行程序，在以往的测试中证明，二代测序数据量较大时，其中的一部分数据对于组装线粒体基因组已经足够。在实际操作中，建议在第一次组装某一组数据的时候使用-n为2000000~5000000，并根据结果进行调整。
4)
优点及缺点（部分结果可见图3，完整描述见Song, et al. (2021)）
优点：1、准确率高，2、完整度高，3、效率高，4、不需要人工提供种子，5、操作简单，6、模式可调配。
缺点：1、数据的AT含量高或载入数据过大会导致内存占用过高，2、类似于SSAKE的算法，有时会重复组装一部分相同的序列（相同序列重叠是算法停止的一种规则），这可以使用MEANGS提供的运行脚本移除或手动移除。

图3几种不同方法在内存使用、准确率以及运行时间等一些指标的百分比直方图比较。（*）代表相应标准的最优情况（引自Song, et al. (2021)）

1.2
MitoZ (https://github.com/linzhi2013/MitoZ)
使用方法/流程
下载及安装：MitoZ的安装需要依赖于conda创建虚拟环境，步骤相对复杂且提供了不同的安装策略，具体的操作请参考上述主页内信息。
使用：
python3 MitoZ.py all --genetic_code 5 --clade Arthropoda --outprefix ZZZ --fastq1 raw.1.fq.gz --fastq2 raw.2.fq.gz --fastq_read_length 150 --insert_size 250
结果：
在其运行过程结束后会产生几个文件夹，其中后缀为“.result”文件夹中包含有运行结果。
1.3
Norgal (https://bitbucket.org/kosaidtu/norgal/src/master/)
使用方法/流程
下载及安装：
git clone https://github.com/kosaidtu/norgal.git
其中运行脚本为norgal.py
使用：
python norgal.py -i example_r1.fq example_r2.fq -o norgal_output –blast
结果：
运行程序当前目录下产生的".fa"文件为最终结果。
需要手动提供种子序列的软件
以下涉及的方法，通常要对提取线粒体基因组物种有一定的了解，需要通过获取其近缘物种的线粒体基因片段或线粒体基因组来引导软件进行目标物种线粒体基因组的组装。

2.1

NOVOPlasty (https://github.com/ndierckx/novoplasty)
使用方法/流程
下载及安装：
git clone https://github.com/ndierckx/NOVOPlasty.git
使用：
首先，对配置文件（config.txt）进行配置。主要配置信息包括：1、种子序列路径，2、二代测序数据相关信息及路径，3、目标线粒体基因组大小等。
具体命令：perl NOVOPlasty4.3.pl -c config.txt
结果：
运行目录下，产生的fasta文件即为运行结果。

三、总结

目前，利用基因组二代测序数据提取并组装线粒体基因组的方法仍在不断更新，不同的方法存在其自身优势也具有局限性。不同的数据类型、数据质量、测序深度及物种差异对于不同的方法都会造成影响。MEANGS基于创新性策略实现从动物基因组二代测序数据中提取并组装线粒体基因组的目的，相比于其他同类型软件，MEANGS在综合评价上存在明显优势。面对不断累积的数据，准确且高效地获取线粒体基因组是编写相关软件的目标。本文通过介绍以MEANGS为代表的线粒体基因组组装软件/流程，希望可以为广大研究人员及学生提供有效的帮助。

致谢

本文作者感谢成都生物研究所高级工程师蒋海波博士和桂承波硕士对MEANGS组装模块编写提供的重要支持。本研究得到中国科学院"西部之光"交叉团队项目（2018XBZG_JCTD_001），中国科学院战略生物资源能力建设项目（KFJ-BRP-017-14），四川省杰出青年科技人才（2021JDJQ0002）的支持。

参考文献

Avise, J. C. (1995). Molecular Markers, Natural History and Evolution. Sinauer Associates. ISBN: 9781461523819.
Avise, J. C. (1998). The history and purview of phylogeography: a personal reflection. Molecular Ecology 7(4): 371-379.
Avise, J. C., Arnold, J., Ball, R. M., Bermingham, E., Lamb, T., Neigel, J. E., Reeb, C. A. and Saunders, N. C. (1987). INTRASPECIFIC PHYLOGEOGRAPHY: The Mitochondrial DNA Bridge Between Population Genetics and Systematics. Annu Rev Ecol Evol S 18(1): 489-522.
Castoe, T. A., Jiang, Z. J., Gu, W., Wang, Z. O. and Pollock, D. D. (2008). Adaptive evolution and functional redesign of core metabolic proteins in snakes. PLoS One 3(5): e2201.
Castoe, T. A., de Koning, A. P., Kim, H. M., Gu, W., Noonan, B. P., Naylor, G., Jiang, Z. J., Parkinson, C. L. and Pollock, D. D. (2009). Evidence for an ancient adaptive episode of convergent molecular evolution. Proc Natl Acad Sci U S A 106(22): 8986-8991.
Crampton-Platt, A., Yu, D. W., Zhou, X. and Vogler, A. P. (2016). Mitochondrial metagenomics: letting the genes out of the bottle. Gigascience 5: 15.
Du, Z., Hasegawa, H., Cooley, J. R., Simon, C., Yoshimura, J., Cai, W., Sota, T. and Li, H. (2019). Mitochondrial Genomics Reveals Shared Phylogeographic Patterns and Demographic History among Three Periodical Cicada Species Groups. Molecular Biology and Evolution 36(6): 1187-1200.
Edwards, C. J., Magee, D. A., Park, S. D., McGettigan, P. A., Lohan, A. J., Murphy, A., Finlay, E. K., Shapiro, B., Chamberlain, A. T., Richards, M. B., Bradley, D. G., Loftus, B. J. and MacHugh, D. E. (2010). A complete mitochondrial genome sequence from a mesolithic wild aurochs (Bos primigenius). PLoS One 5(2): e9255.
Gillett, C. P., Crampton-Platt, A., Timmermans, M. J., Jordal, B. H., Emerson, B. C. and Vogler, A. P. (2014). Bulk de novo mitogenome assembly from pooled total DNA elucidates the phylogeny of weevils (Coleoptera: Curculionoidea). Mol Biol Evol 31(8): 2223-2237.
Hajibabaei, M., Singer, G. A. C., Hebert, P. D. N. and Hickey, D. A. (2007). DNA barcoding: how it complements taxonomy, molecular phylogenetics and population genetics. Trends in Genetics 23(4): 167-172.
Lindqvist, C., Schuster, S. C., Sun, Y., Talbot, S. L., Qi, J., Ratan, A., Tomsho, L. P., Kasson, L., Zeyl, E., Aars, J., Miller, W., Ingolfsson, O., Bachmann, L. and Wiig, O. (2010). Complete mitochondrial genome of a Pleistocene jawbone unveils the origin of polar bear. Proc Natl Acad Sci U S A 107(11): 5053-5057.
Robin, E. D. and Wong, R. (1988). Mitochondrial DNA molecules and virtual number of mitochondria per cell in mammalian cells. J Cell Physiol 136(3): 507-513.
Rogaev, E. I., Moliaka, Y. K., Malyarchuk, B. A., Kondrashov, F. A., Derenko, M. V., Chumakov, I. and Grigorenko, A. P. (2006). Complete mitochondrial genome and phylogeny of Pleistocene mammoth Mammuthus primigenius. PLoS Biol 4(3): e73.
Song, M. H., Yan, C. and Li, J. T. (2022). MEANGS: an efficient seed-free tool for de novo assembling animal mitochondrial genome using whole genome NGS data. Brief Bioinform 23(1).
Zhou, X., Li, Y., Liu, S., Yang, Q., Su, X., Zhou, L., Tang, M., Fu, R., Li, J. and Huang, Q. (2013). Ultra-deep sequencing enables high-fidelity recovery of biodiversity for bulk arthropod samples without PCR amplification.Gigascience 2(1): 4.

Please login or register for free to view full text

引用格式：宋梦洹, 严超超, 李家堂. (2022). 利用动物基因组二代测序数据拼接线粒体基因组的方法. Bio-101: e1010681. DOI: 10.21769/BioProtoc.1010681.

How to cite: Li, M. X., Wen, S. Y., Xu, M. B., Cui, M. Y. and Liu, L. (2022). Protocols for Extraction and Assembly Mitochondrial Genomes from Animal Whole Genome Next-generation Sequencing (NGS) Data. Bio-101: e1010681. DOI: 10.21769/BioProtoc.1010681.

Q&A

If you have any questions/comments about this protocol, you are highly recommended to post here. We will invite the authors of this protocol as well as some of its users to address your questions/comments. To make it easier for them to help you, you are encouraged to post your data including images for the troubleshooting.

植森罗

广东海洋大学

老师，您好，我是一名小白，使用您的代码和例子都能出结果，但是用我的数据发现出错
>>>Starting reading reads: 2024-3-29-8:23:33
Input error at line 1: The sequence "" is not in the right format for paired-end reads -- Fatal
Make sure your input is in the form (input sequences can be of variable lengths):

>test
GCTACGACTATGACATACAGT:GTAGATTGATCGCATGCACGCT

Where : separates paired reads. Spaces, <<.>> or any characters other than A,C,G or T in your input file might have caused this error, including reads with Ns.
Make sure your input is in the form (input sequences can be of variable lengths):这个错误，我用gzip -t的命令来测试两个fq.gz文件的完整性，发现都没有问题。
用zgrep -m 1 'N' your_fastq_file.fq.gz #检查序列有没有N，发现也没有。我的两个fq.gz都是通过cutadapt修剪等步骤得到的clean data。但还是出错，不知道老师您，是否有空，看看~

3/29/2024 8:42:14 AM Reply