0%

结构变异分析软件:Assemblytics

1. Assemblytics简介

  1. Assemblytics在2016年发表在Bioinformatics上,用于检测检测基因组间的结构变异(Structural Variation,SV)。
  2. Assemblytics检测的结构变异主要包括:INDELs,tandem和repeat的expansion和contraction;不包含倒位inversion和易位translocation的检测。
  3. Assemblytics建议使用基因组组装的contigs而非scaffolds,避免Ns对统计结构变异产生影响(假阳性)。
Assemblytics

Figure 1. variant class and web results interface Assemblytics
图片来源: Assemblytics paper

2. Assemblytics使用

Assemblytics的使用很简单,网站也说得清楚明了。

  1. 先用MUMmer把reference genome和query genome比对,得到共线性结果。

nucmer -maxmatch -l 100 -c 500 REFERENCE.fa ASSEMBLY.fa -prefix OUT

  • -l 100:最小匹配长度设置成100
  • -c 500:最小匹配序列簇的匹配长度为500
  • -prefix OUT:输出结果文件前缀为OUT
  1. 把delta结果文件压缩,压缩后的结果OUT.delta.gz上传到Assemblytics网站。

gzip OUT.delta

  1. 填写参数,提交即可在线运行和得到结果。参数包括:
  • Description:物种名或样品名
  • Unique Sequence length required:需要的独特序列长度,代表一个决定用于call variants的序列是否独特的一个锚定(anchor),用于代替读取比对(read alignment)的映射质量的过滤,默认是10000。
  • Maximum variant size:最大变异的大小,默认是10000。
  • Minimum variant size:最小变异的大小,默认是50。

3. 结果

运行结果包括可交互的可视化图的界面和可下载的压缩包。

主要结果在文件Assemblytics_structural_variants.summary中,文件内容示例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Insertion
Count Total bp
50-500 bp: 835 91429
500-10,000 bp: 158 468629
Total: 993 560058

Deletion
Count Total bp
50-500 bp: 779 85083
500-10,000 bp: 140 289652
Total: 919 374735

Tandem_expansion
Count Total bp
50-500 bp: 46 8957
500-10,000 bp: 117 444964
Total: 163 453921

Tandem_contraction
Count Total bp
50-500 bp: 2 379
500-10,000 bp: 0 0
Total: 2 379

Repeat_expansion
Count Total bp
50-500 bp: 373 80936
500-10,000 bp: 968 3666087
Total: 1341 3747023

Repeat_contraction
Count Total bp
50-500 bp: 411 92021
500-10,000 bp: 893 3378919
Total: 1304 3470940

Total number of all variants: 4,722
Total bases affected by all variants: 8.61 Mbp
Total number of structural variants: 4,722
Total bases affected by structural variants: 8.61 Mbp

4. references

  1. http://assemblytics.com/
  2. https://github.com/marianattestad/assemblytics
  3. paper: https://academic.oup.com/bioinformatics/article/32/19/3021/2196631

  • 欢迎关注微信公众号:生信技工
  • 公众号主要分享生信分析、生信软件、基因组学、转录组学、植物进化、生物学概念等相关内容,包括生物信息学工具的基本原理、操作步骤和学习心得。
真诚赞赏,手留余香