0%

用MAFFT在现有多序列比对中添加新序列

1. MAFFT简介

MAFFT是基于渐进式比对的算法,用于进行多序列比对(Multiple Sequence Alignment,MSA)。由于比对速度快,常用于组学数据的比对。

MAFFT网页版有一个功能(–add),即向现有的多序列比对中添加新的序列,这在新增数据时非常有用。

2. MAFFT的–add功能

MAFFT的–add功能的网页:https://mafft.cbrc.jp/alignment/server/add.html

2.1. –add功能的三个模块

根据新增序列和现有多序列比对(MSA)的相对长度,分别选用–add功能的三个模块:

  1. –add:align full length sequences to an MSA. 新增序列与现有MSA长度相当时,选–add模块。
  2. –addfragments:align fragment sequences to an MSA. 新增序列短于现有MSA时,选–addfragments模块。
  3. –addlong:align long sequences to a short MSA. 新增序列长于现有MSA时,选–addlong模块。

3. MAFFT网页版的–add用法

在网页https://mafft.cbrc.jp/alignment/server/add.html上选择模块,然后上传现有MSA和新增序列,选择参数,即可获得比对结果。

3.1. 基本参数

  1. Allow unusual symbols:是否允许不明确字符。
  2. UPPERCASE/lowercase:输出的比对文件的字母大小写是否与输入文件一致。
  3. Direction of nucleotide sequences:是否根据第一条序列调整剩余序列的方向。
  4. Output order:输出比对文件的序列顺序。
  5. Sequence title:输出比对文件的序列名称是否与输入文件一致。

    3.2. 高级参数

    最常用的是第一个参数,是否要保持输出MSA的长度。
  6. Keep alignment length:是否保持输出的比对的长度与输入的现有MSA长度一致,如果选择这个选项,则会把新增序列的insertions删除以保持长度不变。
  7. Strategy:默认选择Auto
  8. Progressive methods:包括FFT-NS-2,G-INS-1,L-INS-1三个选项。
  9. Iterative refinement methods:包括FFT-NS-i,G-INS-i,L-INS-i三个选项。
  10. 对核苷酸/氨基酸序列的分数矩阵和gap处理等参数。

3.3. 结果

提交之后,在网页中可以看到比对结果,并可以下载fasta/clustal格式的比对结果,也可以转化成phylip/nexus/msf/gcg等格式。

还可以点击Refine dataset进入编辑界面,对比对结果进行进一步的编辑,比如对指定序列进行反向互补操作,保留或删除指定序列。

4. MAFFT命令行版的–add用法

命令行版也可以使用–add功能,具体参数参考:https://mafft.cbrc.jp/alignment/software/addsequences.html

5. MAFFT的merge功能

MAFFT还有一个merge模块,网页版:https://mafft.cbrc.jp/alignment/server/merge.html

merge模块用于合并两个或更多已比对好的sub MSAs。当假定这些sub MSAs在系统发育关系上是各自独立为一单系时,即系统树上各自不重叠时,可使用merge模块。如果系统发育关系不独立,则推荐使用–add模块。

6. references

  1. https://mafft.cbrc.jp/alignment/server/

  • 欢迎关注微信公众号:生信技工
  • 公众号主要分享生信分析、生信软件、基因组学、转录组学、植物进化、生物学概念等相关内容,包括生物信息学工具的基本原理、操作步骤和学习心得。
真诚赞赏,手留余香