如何将RepeatMasker中的内容导入到EDTA？

区老师：您好！我在对一种非模式酵母进行重复序列的注释，我参考了https://github.com/oushujun/EDTA/issues/231 中的内容。希望将RepeatMasker4的预测结果整合进EDTA。我目前想到两种流程，不知哪一种更合适，希望区老师提出建议。流程1：使用RepeatMasker4中自带的脚本：

./famdb.py -i ./Libraries/RepeatMaskerLib.h5 families \ -f fasta_name --include-class-in-name -ad 4892 \ -f fasta_name -ad 4892 > Saccharomycetales_lib.fasta

该命令导出RepeatMasker4库中，Saccharomycetales目的ancestors和descendants的所有序列，并且包括RepeatMasker type/subtype。将这些序列通过EDTA的- curatedlib导入EDTA。（因为是非模式酵母，库中没有对应的科属种序列）。结果如下：

流程2：使用RepeatMasker -species "Saccharomycetales"对原始fasta文件进行注释。根据RepeatMasker结果文件*.fna.out中的repeat class/family（只选取Retroelements和DNA transposons或感兴趣的类别）提取相应的position in query信息。根据对应的position提取原始fasta文件中的序列，使用CD-HIT去除冗余。

oushujun / EDTA

如何将RepeatMasker中的内容导入到EDTA？ #343