糖尿病康复 > 线粒体和叶绿体的基因组特点_叶绿体和线粒体基因组的组装研究

线粒体和叶绿体的基因组特点_叶绿体和线粒体基因组的组装研究

时间：2022-02-05 02:17:19

原标题：叶绿体和线粒体基因组的组装研究

小基因组的重要意义

对于基因组组装，我们再熟悉不过了，核基因组de novo已是经典，然而，线粒体和叶绿体小基因组的研究也不容小觑。由于叶绿体和线粒体基因组的高度保守性，它的遗传形式多样而以母系遗传为主,在组织培养和体细胞杂交中具有稳定性强,单亲遗传的特点。对于研究叶绿体或线粒体基因组的突变或结构变异的信息挖掘，在研究植物进化，分类，遗传多样性等方面有重要的意义，对小基因组进行基因注释，是探讨植物光合作用机理，植物能量代谢，植物抗氧化及次生代谢的基础。

前段时间，小编做了某作物的叶绿体和线粒体基因组的组装，整理了一下拼接方法，分享给需要的小伙伴儿！

拼接方法基本简介

线粒体和叶绿体基因组均属于小基因组，动物线粒体一般为10~39kb,植物中线粒体大小差别较大，一般100kb以上。我们通过比对已经发表的近缘物种的线粒体基因组来获得研究物种的测序reads，之后再利用常用的小基因组拼接软件进行组装，这里小编推荐两款组装软件。

第一款软件，效果相比处理要好一些，而且简单方便，从reads到组装结果一键式完成。软件名称：ARC (Assembly by Reduced Complexity)，网址：http://ibest.github.io/ARC/

这个软件也是通过reads与近缘物种的线粒体序列比对来提取reads并组装，但优化的地方在于，第一次组装之后，使用组装出来的序列替代了参考的线粒体序列，并迭代进行比对、提取、拼接等步骤，用以延伸每次组装得到的结果，最终得到完整的序列：

安装与运行

软件为python语言编写，下载后可以直接使用，运行命令也很简单：

./bin/ARC -c config.txt > log.txt

只需给定配置文件，在配置文件中给定相应文件路径和参数，就可以运行了。

第二款软件，Velvet用于拼接短序列组装，只需给定配置文件，在配置文件中给定相应文件路径和参数，就可以运行了。

数据准备

合并两个fastq文件，如果是fasta,则需将下面的代码中fastq改为fasta

建立哈希索引

直接对fastq格式的原始文件进行处理，首先是用velveth命令建立hash表子集

输入./velveth会出来使用帮助：

velveth Assem 31 -shortPaired -fasta interleaved.fna

说明：

# Assem为生成文件所在文件夹，31为设置的kmer，一般为奇数，默认的是31，(最大可设置127)，-shortPaired双末端模式

- Paired-end short reads (PE1和PE2是分开的)

velveth Assem 31 -shortPaired -fasta -separate left.fa right.fa

velveth Assem 31 -shortPaired -fasta -separate left.fa right.fa velvetg Assem -cov_cutoff 30 -ins_length 350 -ins_length_sd 100 -exp_cov auto -min_contig_lgth 500

说明：

#-ins_length为Insert size加上reads的长度，我前者为160，后者为91+91，所以后面的参数为350 ；默认的

#-ins_length_sd 100为什么设置这两个参数就有点不明白了，Assem注意和第一步建立的文件夹的对应

velvet拼接过程中主要的几个需要调试的参数

主要有三个：Kmer值，exp_cov和cov_cutoff三个。本文分别设置不同的参数值，进行比较。

Kmer值是基于De Bruijn算法的高通量读段拼接软件中最重要的一个参数，Kmer必须为奇数，在执行velveth时设置。在velvet的使用说明中，有一段关于Kmer设置的一般要求，如下：

Ck= C(L-K+1)/L

L表示读段长度，K表示Kmer值，C表示碱基的覆盖深度，Ck表示kmer的覆盖深度。L值已知，C值通过基因组规模和测序量来估计，当K值设定之后，可算得Ck值。根据经验，Ck值应当大于10，才能较好地完成拼接，而当Ck值大于20时，就浪费了测序深度。Kmer值越大Ck值就越小。当测序深度加大的时候，Kmer值也可以设的更大，有利于拼接。这个公式只能确定Kmer的取值范围，在此范围内选择采用哪个Kmer值，则需要进行Kmer参数值的调试。

在执行velvetg时，可设定exp_cov和cov_cutoff两个选项。选项cov_cutoff用来过滤低覆盖深度的contigs，选项exp_cov为预期的覆盖深度。这两个参数可设定具体的值，默认值为“auto”。当设为auto时，软件在拼接时自动取值，如果数据的覆盖比较均匀，设为auto，拼接结果会比较好；exp_cov设为auto时，cov_cutoff也将强制为auto，auto表示覆盖深度的阈值为exp_cov的一半。返回搜狐，查看更多

责任编辑：

如果觉得《线粒体和叶绿体的基因组特点_叶绿体和线粒体基因组的组装研究》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。