1. Assemblytics简介
- Assemblytics在2016年发表在Bioinformatics上,用于检测检测基因组间的结构变异(Structural Variation,SV)。
- Assemblytics检测的结构变异主要包括:INDELs,tandem和repeat的expansion和contraction;不包含倒位inversion和易位translocation的检测。
- Assemblytics建议使用基因组组装的contigs而非scaffolds,避免Ns对统计结构变异产生影响(假阳性)。
Figure 1. variant class and web results interface Assemblytics
图片来源: Assemblytics paper
2. Assemblytics使用
Assemblytics的使用很简单,网站也说得清楚明了。
- 先用MUMmer把reference genome和query genome比对,得到共线性结果。
nucmer -maxmatch -l 100 -c 500 REFERENCE.fa ASSEMBLY.fa -prefix OUT
- -l 100:最小匹配长度设置成100
- -c 500:最小匹配序列簇的匹配长度为500
- -prefix OUT:输出结果文件前缀为OUT
- 把delta结果文件压缩,压缩后的结果OUT.delta.gz上传到Assemblytics网站。
gzip OUT.delta
- 填写参数,提交即可在线运行和得到结果。参数包括:
- Description:物种名或样品名
- Unique Sequence length required:需要的独特序列长度,代表一个决定用于call variants的序列是否独特的一个锚定(anchor),用于代替读取比对(read alignment)的映射质量的过滤,默认是10000。
- Maximum variant size:最大变异的大小,默认是10000。
- Minimum variant size:最小变异的大小,默认是50。
3. 结果
运行结果包括可交互的可视化图的界面和可下载的压缩包。
主要结果在文件Assemblytics_structural_variants.summary中,文件内容示例:
1 | Insertion |
4. references
- http://assemblytics.com/
- https://github.com/marianattestad/assemblytics
- paper: https://academic.oup.com/bioinformatics/article/32/19/3021/2196631
- 欢迎关注微信公众号:生信技工
- 公众号主要分享生信分析、生信软件、基因组学、转录组学、植物进化、生物学概念等相关内容,包括生物信息学工具的基本原理、操作步骤和学习心得。