oushujun / EDTA

Extensive de-novo TE Annotator
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1905-y
GNU General Public License v3.0
315 stars 70 forks source link

如何将RepeatMasker中的内容导入到EDTA? #343

Closed maruiqi0710 closed 1 year ago

maruiqi0710 commented 1 year ago

区老师: 您好! 我在对一种非模式酵母进行重复序列的注释,我参考了https://github.com/oushujun/EDTA/issues/231 中的内容。希望将RepeatMasker4的预测结果整合进EDTA。我目前想到两种流程,不知哪一种更合适,希望区老师提出建议。 流程1: 使用RepeatMasker4中自带的脚本:

./famdb.py -i ./Libraries/RepeatMaskerLib.h5 families \ -f fasta_name --include-class-in-name -ad 4892 \ -f fasta_name -ad 4892 > Saccharomycetales_lib.fasta

该命令导出RepeatMasker4库中,Saccharomycetales目的ancestors和descendants的所有序列,并且包括RepeatMasker type/subtype。将这些序列通过EDTA的- curatedlib导入EDTA。(因为是非模式酵母,库中没有对应的科属种序列)。结果如下:

image

流程2: 使用RepeatMasker -species "Saccharomycetales"对原始fasta文件进行注释。根据RepeatMasker结果文件*.fna.out中的repeat class/family(只选取Retroelements和DNA transposons或感兴趣的类别)提取相应的position in query信息。根据对应的position提取原始fasta文件中的序列,使用CD-HIT去除冗余。

oushujun commented 1 year ago

你好,

只要提供的序列符合RepeatMasker命名规则(#231),EDTA就能识别。上图提供的几个例子,假设subtype不清楚,第一第二个应加上/unknown (eg. CALTR2#LTR/unknown). 可自己写脚本加上。

两种方法都可,提供非同种的library不会对注释产生显著影响,所以给多了也没事,但要注意是非冗余的。