TullyMonster / MendelRookie

新手友好的孟德尔随机化项目
https://www.yuque.com/tully-sci/consensus/wts8foqt1c2r6cqf
GNU General Public License v3.0
99 stars 10 forks source link

关于remove_confounder,如果不剔除混杂因素 #19

Open A-Ben-Mao opened 1 month ago

A-Ben-Mao commented 1 month ago

大佬,您之前那篇网页教程写的可以不剔除混杂因素。 在您现在这个代码中我跳过了“# ----👇手动整理混杂因素列表----”这一步, 一开始查找的rs有455个, 跳过后执行“# ---比较并剔除包含在文本文件中的短语的 SNP,并保存到文件”。 最后只生成了一份277个SNP的"exposure.confounder.csv"。 我已经确保了"#confounder_SNPs.txt"这个文件为空。这是为什么呢? 8FE2BCC2-3D1C-43FE-96E3-6B0188E4A6AB B9656EB7-7769-4566-9A1C-E127558DC962

TullyMonster commented 1 month ago

我没有真实的数据。以下是我的假设,可供排查:

FastTraitR::look_trait(rsids = exposure_data$SNP, out_file = 'check_SNPs_trait.csv') 将产生重复的 SNP。虽然没有设置混杂因素,但经过去重后,SNP 的数量变少。

(一拍脑门的推测),不介意的话,建议提供数据以供测试。

A-Ben-Mao commented 1 month ago

感谢大佬,确实是在此文件'check_SNPs_trait.csv'中存在重复的SNP,但是想比于上一步“3_remove_weak_IV”根据F处理后的数据还是少了很多(上一步处理后是455个rs)。 推测是否是在查找表型的时候,由于存在部分SNP在数据库中并没有对应表型,从而导致部分SNP丢失(瞎猜)?

为您提供上一步处理后的数据,供您测试,感谢大佬。 测试用.zip