复杂基因组指的是不能用常规测序技术和组装算法来直接解析的一类基因组,以重复序列、杂合度和GC含量占比及外源DNA污染程度来衡量物种基因组的复杂程度。一般当物种基因组杂合率大于0.8%、重复序列占比大于60%时(或GC含量小于35%、GC含量大于65%),我们就称之为复杂基因组。我们可通过Survey分析了解基因组的杂合率、重复序列占比、GC含量及污染情况来确定基因组的复杂程度。

contig/scaffold 和 N50/N90

把测序的reads拼接,如果可以完全拼接起来,中间没有gap,则是contig.如果中间有gap,但是知道gap的长度,这样的序列称为scaffold.

contig N50 和scaffold N50

把contig或scaffold按照从大到小的顺序排列,长度达到基因组大小(所有contig或scaffold的长度)的50%时,那条contig/scaffold的长度,即为contig/scaffold N50. N50越大,说明基因组组装的质量越高。同理还有N90,即达到基因组大小90%时的contig/scaffold的长度。

作者:wo_monic

链接:https://www.jianshu.com/p/9876964e3d20

来源:简书

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

格式转换

# bam --> fasta
samtools view *.bam | awk '{print ">"$1"\\n"$10}' > fasta

#补充一下其他格式的转换
## sam ---> fasta
cat *.sam | awk '{print ">"$1"\\n"$10}' > *.fasta
## fasta ---> sam
bowtie2 -1 *_1.fa -2 *_2.fa -p 16 -x prefix -S *.sam
## sam --> bam
# -@:线程 -b:输出格式为BAM -S:自动检测输入格式 -o:输出文件
samtools view -@ 16 -b -S final.sam -o final.bam
## bam --> sam
samtools view *.bam -O SAM > *.sam