基因组组装 | Notion

NextDenovo

conda activate python2.7
**##获取三代数据位置
realpath ERR2173373.fastq.gz > run.fofn
##复制配置文件
cp ~/opt/biosoft/NextDenovo/doc/run.cfg .**

配置文件

[General]
job_type = local
job_prefix = nextDenovo
task = all # 'all', 'correct', 'assemble'
rewrite = yes # yes/no
deltmp = yes
rerun = 3
parallel_jobs = 5
input_type = raw
input_fofn = input.fofn
workdir = 01_rundir
# cluster_options = -l vf={vf} -q all.q -pe smp {cpu} -S {bash} -w n
 
[correct_option]
read_cutoff = 1k
seed_cutoff = 3k
blocksize = 3g
pa_correction = 20
seed_cutfiles = 20
sort_options = -m 20g -t 8 -k 40
minimap2_options_raw = -x ava-ont -t 8
correction_options = -p 8
 
[assemble_option]
random_round = 20
minimap2_options_cns = -x ava-ont -t 8 -k17 -w17
nextgraph_options = -a 1

配置文件的几个重要参数说明（v2.0-beta.1）

job_type 设置运行环境，可以使用（local， sge， pbs等）
运行线程数设置，线程数计算为parallel_jobs分别与sort_option, minimap_options_*的t数乘积，和correction_options的p的乘积，量力而行。
seed_cutfiles 如果在集群上运行，建议设置为可用的节点数，同时设置correction_options的p为各个节点可用的核数，保证每个节点只有一个correction任务，减少运行时的内存和IO。如果local上运行，建议设置为总可用的核除以correction_options的p值.
parallel_jobs建议设置至少要大于pa_correction。
blocksize 是将小于seed_cutfiles的数据拆分成的多个文件时单个文件的大小，总的比对任务数等于基于该参数切分的文件数乘以seed_cutfiles + seed_cutfiles * (seed_cutfiles - 1)/2，因此对于10g以内的数据量，建议设置小于1g，避免总的任务数小于parallel_jobs的值。
测序数据类型相关: 对于PacBio而言，要修改minimap2_options_*中的x ava-ont为x ava-pb
数据量相关参数: read_cutoff = 1k过滤原始数据中低于1k的read，seed_cutoff = 30k则是选择大于30k以上的数据来矫正。关于seed_cutoff的设置，可以通过~/opt/biosoft/NextDenovo/bin/seq_stat来获取参考值，不建议直接使用默认值，因为改值会受到测序深度和测序长度影响，而且一个不合适的值会显著降低组装质量。对于基因组大于200m以上的物种，-d建议默认。
correction_options中的-dbuf可以显著降低矫正时的内存，但会显著降低矫正速度。
random_round参数，建议设置20-100. 该参数是设置随机组装参数的数量，nextGraph会基于每一套随机参数做一次组装，避免默认参数效果不好。

seq_stat能够根据物种大小和预期用于组装的深度确定seed_cutoff

确定`seed_cutoff`

~/opt/biosoft/NextDenovo/bin/seq_stat -g 110Mb -d 30 run.fofn

-g 基因组大小

NextDenovo

确定seed_cutoff

确定`seed_cutoff`