aaranyue / quarTeT

A telomere-to-telomere toolkit for gap-free genome assembly and centromeric repeat identification
http://atcgn.com:8080/quarTeT/home.html
81 stars 6 forks source link

关于quarTeT telomere的结果文件 telo.label.txt #24

Closed Threeman8 closed 7 months ago

Threeman8 commented 7 months ago

hi, 请允许我用中文和您交流

您好!非常感谢您的工作,给了我们很大的帮助! 我在运行telomere程序,代码如下, quartet.py TeloExplorer -i sc.teloclip.racon.chr.fa -c other -p sc.other 然后得到的结果是: image

其中tmp文件夹下sc.other.telo.label.txt的文件结果为: image

我的问题是: sc.other.telo.label.txt文件的start和end是否指示端粒在染色体上的坐标?为什么每条端粒的长度都为整数呢?

再次谢谢!期待您的回复!

Echoring commented 7 months ago

这个文件是作图用的。为了表示方便,直接固定把端粒画在了最远端。 要调查端粒的边界,应该看{prefix}_telomeric_repeat_windows.csv这个文件。

Threeman8 commented 7 months ago

Echoring 您好! 非常感谢您的解答! 我有了另一个疑惑,quarTeT得到的monomer与单独运行tidk得到的monomer不相符,能麻烦您帮我解答一下吗?

quartet的命令如下: quartet.py TeloExplorer -i sc.teloclip.racon.chr.fa -c other prefix.telo.info文件显示 # Telomere repeat monomer: AATTC

tidk explore的命令如下: tidk explore -f genome.fa --minimum 5 --maximum 12 -o sc -t 8 --log --dir ./ --extension bedgraph prefix.txt文件显示 (base) [heweijun@login1 tidk.explore]$ cat sc.txt telomeric_repeat reverse_complement frequency AAACCCT AGGGTTT 8130 ATATATAT ATATATAT 224 ATATATATAT ATATATATAT 193 ATATAT ATATAT 145 ATATATATATAT ATATATATATAT 128 AACCCCG CGGGGTT 54 AAACCCC GGGGTTT 52 AAACCCG CGGGTTT 52 以AATTC为monomer 进行tidk search并作图: tidk search -d ./ -f genome.fa -s AATTC tidk plot -c telomeric_repeat_windows.csv -o AATTC 得到的图如下: image

以AAACCCT为monomer 进行tidk search并作图: tidk search -d ./ -f genome.fa -s AAACCCT tidk plot -c telomeric_repeat_windows.csv -o AAACCCT image

我的物种在the telomeric repeat database显示的近源种monomer是AAACCCT。请问您觉得我的物种端粒的monomer是什么序列呢?quarTeT的TeloExplorer结果与tidk explore的结果为什么不一致呢?

期待您的解答!非常感谢!

Echoring commented 7 months ago

很显然,是AAACCCT,在植物中几乎是统一稳定的。 quarTeT TeloExplore实际上就是在调用TIDK explore和search,如果你想深入调查,建议直接用TIDK。 至于你遇到的问题可能是因为-c指定为other而不是plant。 我不太确定为什么会鉴定到这个5bp,如果explore输出正确应该是会取第一个结果AAACCCT的,可能调用TIDK的版本有关。 有兴趣的话,基因组给我试试。

Threeman8 commented 7 months ago

确实!指定-c为plant后,是AAACCCT quartet.py TeloExplorer -i genome.fa -c plant 结果为 image 但是16个端粒只找到了10个。 当指定-c为other时,是显示找到所有端粒。 有兴趣,但是是未发表的工作,给您4条染色体可以吗?可以留一下您邮箱吗?

我用tidk,根据AAACCCT是找到了14个端粒。quartet的TeloExplorer是设置多少个monomer才算端粒呢?

Echoring commented 7 months ago

找到所有端粒并不意味着找到的是对的,可能是找到了一个错误的像是端粒的东西。 默认是100个重复算,-m参数可调整。 2461286672@qq.com

Echoring commented 7 months ago

我估计是TIDK的版本问题。TIDK在0.2.31这个版本重构了explore模块。 在你提供的测试数据上,我用TIDK 0.2.1(应该是你单独用的那个版本),鉴定出来是AAACCCT:

id      start_pos       end_pos repeat_number   repeat_sequence sequence_length
chr1    77      6426    822     TAAACCC 7
chr2    81272751        81283608        1543    GTTTAGG 7
chr4    56      7665    1069    AACCCTA 7
chr7    64555491        64558767        441     GGTTTAG 7

如果你用conda直接安装的quarTeT的依赖,安装到的TIDK可能是0.2.31版本,它鉴定出来就有问题:

canonical_repeat_unit   count
AAAAT   7340
AAACCCT 3558
AATTC   3336
AAAAG   2987
AAATT   2179
AATAT   1617
AAAAAT  1220

这应该是TIDK的问题,现阶段大概只能通过指定长度范围解决吧。

Threeman8 commented 7 months ago

是的,我单独使用的tidk是0.2.0版本,quartet调用的是conda安装的0.2.41版本的tidk。再次感谢! 我先关闭这个评论了