Closed Threeman8 closed 7 months ago
这个文件是作图用的。为了表示方便,直接固定把端粒画在了最远端。
要调查端粒的边界,应该看{prefix}_telomeric_repeat_windows.csv
这个文件。
Echoring 您好! 非常感谢您的解答! 我有了另一个疑惑,quarTeT得到的monomer与单独运行tidk得到的monomer不相符,能麻烦您帮我解答一下吗?
quartet的命令如下:
quartet.py TeloExplorer -i sc.teloclip.racon.chr.fa -c other
prefix.telo.info文件显示
# Telomere repeat monomer: AATTC
tidk explore的命令如下:
tidk explore -f genome.fa --minimum 5 --maximum 12 -o sc -t 8 --log --dir ./ --extension bedgraph
prefix.txt文件显示
(base) [heweijun@login1 tidk.explore]$ cat sc.txt telomeric_repeat reverse_complement frequency AAACCCT AGGGTTT 8130 ATATATAT ATATATAT 224 ATATATATAT ATATATATAT 193 ATATAT ATATAT 145 ATATATATATAT ATATATATATAT 128 AACCCCG CGGGGTT 54 AAACCCC GGGGTTT 52 AAACCCG CGGGTTT 52
以AATTC为monomer 进行tidk search并作图:
tidk search -d ./ -f genome.fa -s AATTC tidk plot -c telomeric_repeat_windows.csv -o AATTC
得到的图如下:
以AAACCCT为monomer 进行tidk search并作图:
tidk search -d ./ -f genome.fa -s AAACCCT tidk plot -c telomeric_repeat_windows.csv -o AAACCCT
我的物种在the telomeric repeat database显示的近源种monomer是AAACCCT。请问您觉得我的物种端粒的monomer是什么序列呢?quarTeT的TeloExplorer结果与tidk explore的结果为什么不一致呢?
期待您的解答!非常感谢!
很显然,是AAACCCT,在植物中几乎是统一稳定的。 quarTeT TeloExplore实际上就是在调用TIDK explore和search,如果你想深入调查,建议直接用TIDK。 至于你遇到的问题可能是因为-c指定为other而不是plant。 我不太确定为什么会鉴定到这个5bp,如果explore输出正确应该是会取第一个结果AAACCCT的,可能调用TIDK的版本有关。 有兴趣的话,基因组给我试试。
确实!指定-c为plant后,是AAACCCT
quartet.py TeloExplorer -i genome.fa -c plant
结果为
但是16个端粒只找到了10个。
当指定-c为other时,是显示找到所有端粒。
有兴趣,但是是未发表的工作,给您4条染色体可以吗?可以留一下您邮箱吗?
我用tidk,根据AAACCCT是找到了14个端粒。quartet的TeloExplorer是设置多少个monomer才算端粒呢?
找到所有端粒并不意味着找到的是对的,可能是找到了一个错误的像是端粒的东西。
默认是100个重复算,-m
参数可调整。
2461286672@qq.com
我估计是TIDK的版本问题。TIDK在0.2.31这个版本重构了explore模块。 在你提供的测试数据上,我用TIDK 0.2.1(应该是你单独用的那个版本),鉴定出来是AAACCCT:
id start_pos end_pos repeat_number repeat_sequence sequence_length
chr1 77 6426 822 TAAACCC 7
chr2 81272751 81283608 1543 GTTTAGG 7
chr4 56 7665 1069 AACCCTA 7
chr7 64555491 64558767 441 GGTTTAG 7
如果你用conda直接安装的quarTeT的依赖,安装到的TIDK可能是0.2.31版本,它鉴定出来就有问题:
canonical_repeat_unit count
AAAAT 7340
AAACCCT 3558
AATTC 3336
AAAAG 2987
AAATT 2179
AATAT 1617
AAAAAT 1220
这应该是TIDK的问题,现阶段大概只能通过指定长度范围解决吧。
是的,我单独使用的tidk是0.2.0版本,quartet调用的是conda安装的0.2.41版本的tidk。再次感谢! 我先关闭这个评论了
hi, 请允许我用中文和您交流
您好!非常感谢您的工作,给了我们很大的帮助! 我在运行telomere程序,代码如下,![image](https://github.com/aaranyue/quarTeT/assets/53179482/3f5b80ee-b471-43b0-aa00-febdd11f9f15)
quartet.py TeloExplorer -i sc.teloclip.racon.chr.fa -c other -p sc.other
然后得到的结果是:其中tmp文件夹下sc.other.telo.label.txt的文件结果为:![image](https://github.com/aaranyue/quarTeT/assets/53179482/80945702-58e9-42a8-acf6-83f1f2a9fc73)
我的问题是: sc.other.telo.label.txt文件的start和end是否指示端粒在染色体上的坐标?为什么每条端粒的长度都为整数呢?
再次谢谢!期待您的回复!