1. 下载原始测序数据

二代或三代测序的原始序列读数可以从NCBI的Sequence Read Archive(SRA)数据库下载：https://www.ncbi.nlm.nih.gov/sra。

2. 快速上手

从NCBI等公共数据库下载原始测序的raw reads数据，先下载SRA格式文件，然后转换为fastq格式文件。使用NCBI官方工具SRA Toolkit里的prefetch和fasterq-dump命令来下载和转换。

找到NCBI数据的SRR序列号，然后prefetch下载SRA格式数据，fasterq-dump转SRA格式为fastq格式。

SRA（Sequence Read Archive）格式是NCBI专用的储存高通量测序数据的格式，可以处理各种类型的测序技术生成的数据，包括Illumina、Ion Torrent、454、PacBio等。

SRA Normalized是SRA的标准化格式，大部分情况下使用这个格式。
SRA Lite是把SRA Normalized的质量分数（quality scores）进行简化，将碱基质量得分分为了pass和reject两种，pass统一给分为30，而reject统一给分为3。
下载得到的SRA Normalized文件名为SRR1234567；下载得到的SRA Lite文件名为SRR1234567.lite.1（文件更小）。
SRA转为fastq格式的操作对两种格式都有效。
3.2. SRA Toolkit
3.2.1. SRA Toolkit介绍

SRA Toolkit是由NCBI提供的一组工具，用于访问、下载和处理存储在SRA（Sequence Read Archive）中的高通量测序数据。这个工具套件允许用户从SRA数据库中检索数据、将数据格式转换为更常用的格式（如FASTQ）以及其他数据处理任务。
SRA Toolkit软件的使用manual： https://github.com/ncbi/sra-tools/wiki
3.2.2. SRA Toolkit下载和安装
conda安装：conda install bioconda::sra-tools
手动安装

官方网站：https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
在网站上找到对应版本，复制链接；然后在linux系统用命令下载和解压缩即可使用
下载：wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.2.1/sratoolkit.3.2.1-ubuntu64.tar.gz；解压缩：tar -vxzf sratoolkit.tar.gz
命令在PWD/sratoolkit.3.0.0-mac64/bin目录下

查看命令：which fastq-dump
测试命令：fastq-dump --stdout -X 2 SRR390728；如果列出序列数据，则代表命令安装正确。
3.2.3. SRA Toolkit的命令
SRA Toolkit包括下载SRA数据的命令prefetch,将SRA格式的数据转换为FASTQ格式的命令fastq-dump,fasterq-dump，检索SRA数据文件中的元数据的vdb-dump,将SRA文件直接转换为SAM格式（如果记录在数据库中有对映/SAM信息）的sam-dump。

在NCBI网站 https://www.ncbi.nlm.nih.gov/sra 搜索物种名等信息，查询需要下载的原始测序数据，获取数据的SRA编号；
可选择多个搜索结果，然后Send to-File-RunInfo下载SraRunInfo.csv表格文件，里面有非常完整的上传人填写的测序相关信息，包括SRA Lite格式的download_path；
选择多个搜索结果，然后Send to-File-Acdession List下载SraAccList.csv表格文件。
点击进入一个搜索结果，然后点击SRR号，再点击Data access栏，在SRA archive data栏就能看到两种格式的SRA数据的下载网址。

先在NCBI查询需要下载的数据的SRR编号，再使用编号信息下载SRA文件:prefetch SRR1234567 SRR7654321命令会下载SRA Normalized格式文件，支持多个SRR编号参数，依次下载。
多个SRA数据下载，也可以把SRR编号保存在文件中，一个编号一行（同SraAccList.csv表格文件）。然后用–option-file参数指定保存了编号的文件，来依次下载多个SRA数据：prefetch --option-file SraAccList.csv
为每个数据生成SRR编号命名的文件夹，里面只有一个以SRR1234567.sra命名的文件。
prefetch默认单个文件最大20Gb，如果超过20Gb会被跳过，可以用--max-size 100G参数修改允许的最大文件大小。
在同一目录下多次运行，prefetch会自动检查已下载的文件，跳过下载好的文件。所以算是支持断点续传。
其他参数：
- -X|–max-size: 设置最大下载文件大小，默认20G。
- -p|–progress: 显示下载进度。
- –eliminate-quals：下载SRA-Lite格式文件。

SRA Toolkit有两个命令可以将SRA格式转为fastq格式：fastq-dump和fasterq-dump。

区别主要是：