while(<BED>){
chomp;
my $line=$_;
$line=~s/ +/\t/g;
my @bed_line=split("\t",$line);
push @ID,$bed_line[0];
}
$hash{$_}++ for @ID; print OUT "$_\t$hash{$_}\n" for (keys %hash);
实际上就是计算每条染色体比对上的 reads 有多少
筛选 W 染色体
首先读取计算了雌性 (F) 和雄性 (M) 的 total reads, 累加;这里作者计算了一的总 reads 数的比值,应该是考虑到测序深度不等的情况,做个简单的校准系数:
对于高等植物,23 年白麦瓶草 (Silene latifolia) 的文章鉴定出了 X 染色体,这是第一个鉴定出性染色体的维管植物。其他高等植物的性别决定十分复杂,比如柳树就是一段在基因组上反复横跳的片段,不知道会不会有一些泛用的方法解决这种性别决定鉴定的问题。
Reference
Han, M., Luo, C., Hu, H., Lin, M., Lu, K., Shen, J., Ren, J., Ye, Y., Westhof, E., Tong, X., & Dai, F. (2024). Multiple independent origins of the female W chromosome in moths and butterflies. Science Advances, 10.
Yue, J., Krasovec, M., Kazama, Y., Zhang, X., Xie, W., Zhang, S., Xu, X., Kan, B., Ming, R., & Filatov, D.A. (2023). The origin and evolution of sex chromosomes, revealed by sequencing of the Silene latifolia female genome. Current Biology, 33, 2504-2514.e3.
Wang, D., Li, Y., Li, M., Yang, W., Ma, X., Zhang, L., Wang, Y., Feng, Y., Zhang, Y., Zhou, R., Sanderson, B.J., Keefover‐Ring, K., Yin, T., Smart, L.B., DiFazio, S.P., Liu, J., Olson, M.S., & Ma, T. (2022). Repeated turnovers keep sex chromosomes young in willows. Genome Biology, 23.
文献信息
Title: Multiple independent origins of the female W chromosome in moths and butterflies Journal: Science Advances Year: 2024 Volume: 10
家蚕是 ZW 型性别决定,其中雄性是 ZZ 型,雌性是 ZW 型。目前鳞翅目昆虫没有较好的 W 染色体组装注释结果。文章组装了家蚕的基因组,鉴定出 W 染色体,并做了 W 染色体的起源进化。文章使用了一种 chromosome quotient (CQ) 算法用于鉴定 W 染色体,这里主要看一下这个 CQ 算法是怎么实现的。
W 染色体鉴定
原理
完成雌性家蚕基因组组装,在未分型全部组装结果中 (scaffold 和 contig), 应该包含了 Z 染色体和 W 染色体,需要做的就是将 W 染色体识别出来;如果使用雄性家蚕 (ZZ) 的测序数据,以及雌性家蚕 (ZW) 的测序数据,分别比对回组装基因组上,那么对于 Z 染色体,雄性家蚕 reads 覆盖数与雌性家蚕 reads 覆盖数的比值应趋近于 2; 对于 W 染色体,雄性家蚕 reads 覆盖数与雌性家蚕覆盖数的的比值应趋近于 0; 对于长染色体,二者比值应趋近于 1.
原文如下:
代码实现
整体流程是使用 perl 串的,大概可以分为比对,计算 CQ 值,筛选 W 染色体三个部分;
比对
这里有几个注意点:
-bq 1
的参数,只保留唯一比对bamToBed
方法提取了每个染色体区段 reads 的覆盖情况计算 CQ 值
核心计算代码大概是下面几行:
实际上就是计算每条染色体比对上的 reads 有多少
筛选 W 染色体
首先读取计算了雌性 (F) 和雄性 (M) 的 total reads, 累加;这里作者计算了一的总 reads 数的比值,应该是考虑到测序深度不等的情况,做个简单的校准系数:
随后计算每条染色体的 CQ 值:
通过变量名称就可以看出来,分子是每条染色体上雄性 reads 数,分母是雌性 reads 数乘校准系数;
可以看到老师实际分析中是以 1.7 和 0.3 做阈值筛选。
实验验证
实验验证,湿实验部分我解释不了- - 大概是这么几块实验:
总结
私以为对于动物来说这种方法还是比较方便的,或者说对于有完整性染色体结构的物种是一种可以泛用的方法。但是这一方法实际上要求组装结果中,至少在组装草图中已经将性染色体组装出来,否则后续筛选可能会有问题。
对于高等植物,23 年白麦瓶草 (Silene latifolia) 的文章鉴定出了 X 染色体,这是第一个鉴定出性染色体的维管植物。其他高等植物的性别决定十分复杂,比如柳树就是一段在基因组上反复横跳的片段,不知道会不会有一些泛用的方法解决这种性别决定鉴定的问题。
Reference