1、文件准备(CDS、GFF)
需要保持CDS的id能和GFF对应上,然后进行GFF转BED
python -m jcvi.formats.gff bed --type=mRNA --key=Name --primary_only Coccomyxa_pringsheimii.gff -o Coccomyxa_pringsheimii.bed
python -m jcvi.formats.gff bed --type=mRNA --key=locus_tag --primary_only hic-green.gff3 -o Coccomyxa_subellipsoidea.bed
#--type和--key参数有时需要调整,看选择哪个能对应到CDS的ID
最后需要检查bed文件是否构建成功,以下是示例:
第一列为染色体id,第四列为cds的ID

2、同线性点图
确保cds和bed文件在同一个目录下
python -m jcvi.compara.catalog ortholog --no_strip_names --cpu=1 Coccomyxa_pringsheimii Coccomyxa_subellipsoidea --notex --align_soft diamond_blastp
会生成五个结果:
sampleA.sampleB.last: 基于LAST的比对结果
sampleA.sampleB.last.filtered: LAST的比对结果过滤串联重复和低分比对
**sampleA.sampleB.anchors: 高质量的同线性区块**
sampleA.sampleB.lifted.anchors:增加了额外的锚点,形成最终的同线性区块
**sampleA.sampleB.pdf:同线性点图**
3、同线性染色体图
seqid.txt文件
scaf001,scaf002,scaf003,scaf004,scaf005,scaf006,scaf007,scaf008,scaf009,scaf010,scaf011,scaf012,scaf013,scaf014
scaffold1,scaffold2,scaffold3,scaffold4,scaffold5,scaffold6,scaffold7
- 指定展示的染色体ID,两行对应两个物种,每行的染色体之间逗号隔开,不能有空行。
- seqids文件染色体的顺序对应同线性染色体图的顺序,可以根据前面得到的同线性点图来调整顺序使两个基因组的同线性对应,使图更清晰。
- 必须按照比对的顺序放置物种
simple文件
python -m jcvi.compara.synteny screen --minspan=30 --simple Coccomyxa_pringsheimii.Coccomyxa_subellipsoidea.anchors Coccomyxa_pringsheimii.Coccomyxa_subellipsoidea.anchors.new
得到Coccomyxa_pringsheimii.Coccomyxa_subellipsoidea.anchors.simple文件