1. MAFFT简介
MAFFT是基于渐进式比对的算法,用于进行多序列比对(Multiple Sequence Alignment,MSA)。由于比对速度快,常用于组学数据的比对。
MAFFT网页版有一个功能(–add),即向现有的多序列比对中添加新的序列,这在新增数据时非常有用。
2. MAFFT的–add功能
MAFFT的–add功能的网页:https://mafft.cbrc.jp/alignment/server/add.html
2.1. –add功能的三个模块
根据新增序列和现有多序列比对(MSA)的相对长度,分别选用–add功能的三个模块:
- –add:align full length sequences to an MSA. 新增序列与现有MSA长度相当时,选–add模块。
- –addfragments:align fragment sequences to an MSA. 新增序列短于现有MSA时,选–addfragments模块。
- –addlong:align long sequences to a short MSA. 新增序列长于现有MSA时,选–addlong模块。
3. MAFFT网页版的–add用法
在网页https://mafft.cbrc.jp/alignment/server/add.html上选择模块,然后上传现有MSA和新增序列,选择参数,即可获得比对结果。
3.1. 基本参数
- Allow unusual symbols:是否允许不明确字符。
- UPPERCASE/lowercase:输出的比对文件的字母大小写是否与输入文件一致。
- Direction of nucleotide sequences:是否根据第一条序列调整剩余序列的方向。
- Output order:输出比对文件的序列顺序。
- Sequence title:输出比对文件的序列名称是否与输入文件一致。
3.2. 高级参数
最常用的是第一个参数,是否要保持输出MSA的长度。 - Keep alignment length:是否保持输出的比对的长度与输入的现有MSA长度一致,如果选择这个选项,则会把新增序列的insertions删除以保持长度不变。
- Strategy:默认选择Auto
- Progressive methods:包括FFT-NS-2,G-INS-1,L-INS-1三个选项。
- Iterative refinement methods:包括FFT-NS-i,G-INS-i,L-INS-i三个选项。
- 对核苷酸/氨基酸序列的分数矩阵和gap处理等参数。
3.3. 结果
提交之后,在网页中可以看到比对结果,并可以下载fasta/clustal格式的比对结果,也可以转化成phylip/nexus/msf/gcg等格式。
还可以点击Refine dataset进入编辑界面,对比对结果进行进一步的编辑,比如对指定序列进行反向互补操作,保留或删除指定序列。
4. MAFFT命令行版的–add用法
命令行版也可以使用–add功能,具体参数参考:https://mafft.cbrc.jp/alignment/software/addsequences.html
5. MAFFT的merge功能
MAFFT还有一个merge模块,网页版:https://mafft.cbrc.jp/alignment/server/merge.html
merge模块用于合并两个或更多已比对好的sub MSAs。当假定这些sub MSAs在系统发育关系上是各自独立为一单系时,即系统树上各自不重叠时,可使用merge模块。如果系统发育关系不独立,则推荐使用–add模块。
6. references
- 欢迎关注微信公众号:生信技工
- 公众号主要分享生信分析、生信软件、基因组学、转录组学、植物进化、生物学概念等相关内容,包括生物信息学工具的基本原理、操作步骤和学习心得。