ncbi-genome-download --genera Fusarium asiaticum --output-folder ./as/ --formats protein-fasta -s genbank
ncbi-genome-download --assembly-accessions install.txt fungi --output-folder ./as/ --formats all -s genbank
--genera 根据物种名下载
--assembly 根据GCA号下载
下载好后将pro.fa文件放在一个文件夹下,运行:
orthofinder -f ./demo -M msa
cd demo/OrthoFinder/Results_Jan03
有几个比较重要的文件需要注意:
Species_Tree/SpeciesTree_rooted.txt 物种树
Orthogroups/Orthogroups.tsv 后续分析需要用到的正交群文件
准备文件:OG0007266.phy2、treefile
#**OG0007266.phy2为单拷贝基因多序列比对文件
#获取全部蛋白序列
cat * > all.pro.fasta
for i in `cat Orthogroups_SingleCopyOrthologues.txt`; do grep $i Orthogroups.txt|sed 's/ /\\n/g' |sed '1d' > CDSfile/${i}.id ;done
for i in `cat Orthogroups_SingleCopyOrthologues.txt`;do seqkit grep -f CDSfile/${i}.id all.pro.fasta > CDSfile/${i}.pro ;done
#muscle比对**
muscle -in OG0007266.pro -physout OG0007266.phy2
treefile文件获取
根据SpeciesTree_rooted.txt改变而来,获取物种排列顺序,并查询部分分化时间。
15 1
(((Ggt,Bci),Fusox)'B(.24,.32)',(Ptr,(Uma,(Abi,((Per,((Vvo,(Tma,Lbi))'B(.03,.25)',(Lh,((Bed,Pin),Pcr)))),Led)))));
15表示15个物种,1表示一个树
'B(.24,.32)' 表示Ggt,Bci,Fusox三个物种分化时间在0.24-0.32百万年之间,选择几个分歧点进行查询