SunPengChuan / wgdi

WGDI: A user-friendly toolkit for evolutionary analyses of whole-genome duplications and ancestral karyotypes
https://wgdi.readthedocs.io/en/latest/
BSD 2-Clause "Simplified" License
123 stars 22 forks source link

关于祖先核型构建的几个疑问 #40

Open kuangzhuoran opened 1 year ago

kuangzhuoran commented 1 year ago

孙老师您好!我有几个疑问.

  1. 首先只用一个物种T. sinense(tsi)得到了第一个祖先核型即AEK, 植物存在WGD, 所以一堆WGD产生的染色体选一条即可.
  2. 但如果是不存在WGD的动物, 原始的lens.file就等于老师用到的aek_tsi13s.txt(WGD产生的多条同源染色体中选一条)吗?
  3. 再接着运行-d -icl -bi -c -km, 最后再画一个点图, 初步的流程就跑通了; 老师在github中提到"We used V. vinifera to validate this AEK result", 用第二个物种V. vinifera(vvi)验证AEK的结果;
    (dotplot/vvi161s_aek_tsi13s) 该路径下total.conf中"ancestor_left = vvi161s.ancestor.txt", 该文件是咋写出来的呢,
    我看了您给的例子, 不像1.所提到的那样, "keep the dotplot collinear blocks together as much as possible" "We separately extracted haplotypes with whole chromosomes as protochromosomes from different clusters."

如果是按照1.所写的,那这个文件依然应该是7行,一条原染色体一行, 老师写的是 1 1 69 #99CC00 1 1 70 209 red 1 1 210 1406 #99CC00 1 vvi这个物种的1号染色体被拆成了三份, 这个拆分是从何而来呢

4.这里的验证AEK是什么意思, AEK的生成只用了tsi一个物种的信息 dotplot/vvi161s_aek_tsi13s/toal.conf中并没有 [ancestral_karyotype] 这一步, 似乎默认了只用tsi一个物种的信息构建的祖先核型就是可靠的, 后面只是换物种去验证AEK

5.我的问题是: 我也只用一个物种D试了一套流程,但是我通过姐妹物种间的共线性可以确定物种D是有自己特有的染色体重排的 只用物种D试流程构建出来的祖先核型没有鉴定到这个特有的重排, 我觉得这是合理的,因为从头到尾只有一个物种的信息

但是我注意到老师您给出的例子中, tis和AEK的共线性点图就有重排了, 前面流程中的aek_tsi13s.txt并没有包含这些信息, 也没有其他物种可以用作对比, 这种重排从何而来呢? “At the same time, Chr1 of T. sinense can be formed by the insertion of AEK1 into AEK2 through the NCF model and then fused with another AEK1 again through the EEJ model”

6. 老师的研究类群已经有了一个公认的祖先核型数量, 对于动物大部分都是没有的, 这种情况下(同时动物也没有WGD), 当我拿到几个核型不同的现存的物种, 是不是也就限制了wgdi所能推断的祖先核型数量只能和现存的物种之一相同?.

7. 因为pipeline中也是直接拿一个现存物种的数据作为输入, 这个时候我们如果用的是一些亲缘关系比较远的物种,是不是就不太适用了。。从这个点出发,wgdi似乎只能适用姐妹物种(对于祖先核型未知的)??

SunPengChuan commented 1 year ago

问题1:祖先核型的一个功能就是构建祖先的染色体数目,这个要看是否共享多倍化事件了。这里构建的是未发生多倍化的祖先,选择一条就够了。 问题2:不存在多倍化就用其中一条就可以。 问题3:如果你运行了,就知道vvi161s.ancestor.txt 是-km的结果。这个结果是前面推到的祖先核型根据共线性映射得到的。 问题4:我tsi得到的是tsi的祖先核型。要验证它是不是其他真双子叶植物的祖先核型,就需要用其他物种来验证了。这个越全面越好。 问题5:您说的染色体重排是一条染色体内的结构变化吧。当前的流程主要是得到祖先染色体数量和结构。在这个基础上才能继续判定发生重排的先后顺序。先确定祖先染色体在现存物种染色体上的区域,再去研究内部重排才更容易和理解。

SunPengChuan commented 1 year ago

问题6:选择不同物种,确实有可能得不到全部的祖先染色体,但祖先核型构建的是确定一条条祖先染色体。确定几条就要保证是对的。随着更多物种的加入,就能得到最终的祖先核型了。 问题7:不是的,任意两个物种获取的祖先染色体就是它们共享祖先的核型。可能由于亲缘关系远,直接获得的祖先染色体数目很少。