Closed maruiqi0710 closed 1 year ago
区老师: 您好! 我在对一种非模式酵母进行重复序列的注释,我参考了https://github.com/oushujun/EDTA/issues/231 中的内容。希望将RepeatMasker4的预测结果整合进EDTA。我目前想到两种流程,不知哪一种更合适,希望区老师提出建议。 流程1: 使用RepeatMasker4中自带的脚本:
./famdb.py -i ./Libraries/RepeatMaskerLib.h5 families \ -f fasta_name --include-class-in-name -ad 4892 \ -f fasta_name -ad 4892 > Saccharomycetales_lib.fasta
该命令导出RepeatMasker4库中,Saccharomycetales目的ancestors和descendants的所有序列,并且包括RepeatMasker type/subtype。将这些序列通过EDTA的- curatedlib导入EDTA。(因为是非模式酵母,库中没有对应的科属种序列)。结果如下:
流程2: 使用RepeatMasker -species "Saccharomycetales"对原始fasta文件进行注释。根据RepeatMasker结果文件*.fna.out中的repeat class/family(只选取Retroelements和DNA transposons或感兴趣的类别)提取相应的position in query信息。根据对应的position提取原始fasta文件中的序列,使用CD-HIT去除冗余。
你好,
只要提供的序列符合RepeatMasker命名规则(#231),EDTA就能识别。上图提供的几个例子,假设subtype不清楚,第一第二个应加上/unknown (eg. CALTR2#LTR/unknown). 可自己写脚本加上。
两种方法都可,提供非同种的library不会对注释产生显著影响,所以给多了也没事,但要注意是非冗余的。
区老师: 您好! 我在对一种非模式酵母进行重复序列的注释,我参考了https://github.com/oushujun/EDTA/issues/231 中的内容。希望将RepeatMasker4的预测结果整合进EDTA。我目前想到两种流程,不知哪一种更合适,希望区老师提出建议。 流程1: 使用RepeatMasker4中自带的脚本:
该命令导出RepeatMasker4库中,Saccharomycetales目的ancestors和descendants的所有序列,并且包括RepeatMasker type/subtype。将这些序列通过EDTA的- curatedlib导入EDTA。(因为是非模式酵母,库中没有对应的科属种序列)。结果如下:
流程2: 使用RepeatMasker -species "Saccharomycetales"对原始fasta文件进行注释。根据RepeatMasker结果文件*.fna.out中的repeat class/family(只选取Retroelements和DNA transposons或感兴趣的类别)提取相应的position in query信息。根据对应的position提取原始fasta文件中的序列,使用CD-HIT去除冗余。