imputation的细节？

2023-03-02 15:58 问答作者：PS教程自学

用来impute的genotyped的SNP是否只能利用common SNP，大部分文献中基本是都是利用各种芯片来获得genotyped的SNP，然后进行im优艾设计网_Photoshop百科pute？

如果我仅仅利用一系列rare SNP (MAF < 0.5%）进行impute，是否能够成功

求领域内的达人一起讨论

歡熹Rainie 2021-11-06 04:48

imputation技术主要包括两个步骤：
1. 从SNP参考数据集中推断出群体的主要Haplotype型及频率。
2. 基于群体的Haplotype的频率分布和某一个体的（部分）基因型观察值去推断这一个体的haplotype，进而推断这一个体在某些位点的基因型。

我们就从这两个步骤去分析一下用rare SNP做imputation的可行性。
先说第一步，从SNP参考数据集中推断出群体的主要Haplotype型及频率。利用rare SNP做这一步的主要问题有两个：1. 获得一个群体比较完整的rare SNP集太困难了。 2. 如果把rare SNP考虑进去，那么在同样长度的block中，Haplotype的数量就太多了。
第一个问题不多说，在给定样本量下，一个ra优艾设计网_设计模板re SNP可以被检测到的概率与其频率成正比。在要求达到相同的power的前提下，检出rare SNP所需的样本量与其频率的平方成反比。简单点说，就是在同一个群体中，要获得全部（或95%）的MAF>0.5%的SNP, 所需要的样本量, 是要获得全部（或95%）的MAF>5%的SNP所需样本量的100倍。这两个数量级的差距导致的结果是，我们现在还没有某一个人群的比较完整的rare SNP参考集。

第二个问题主要跟rare SNP的特征有关。在汉族群体中，rareSNP的总数量大概是commonSNP数量的10倍（在其他几个主要的的人类群体中也接近这个值，跟有效群体大小有关）。这就是说，在一个固定长度的区段上，当考虑上rare SNP后，haplotype理论上可能的组合数目会上升到原来的10次方(指数关系）。当然，考虑到连锁因素后不会有这么夸张，但这个数量的增加依然是惊人的。
那么我们可不可以缩短每个block的长度来减少复杂度呢？答案是基本不可行。现在主流的算法在做这一步时考虑的SNP的数量都在10个以内，如果我们想在考虑rare SNP的同时把复杂度降到跟现在相当的水平，那么每个block平均就只包含一个common SNP和10个rare SNP了。虽然看起来位点的数量足以做出正确的推断，但实际情况是，在10个rare SNP位点上，大多数个体9个位点都是ref型的，可用的信息量太少了。
貌似上面一段刚好讲的就是imputation第二步中的问题。。。就不再展开一段去说了。

最后的结论是：rare SNP做imputation不太靠谱。当然这里并不是说它准确率低，而是说它的准确率比直接把所有rare SNP处的的缺失直接补成ref型（准确率为1-MAF)差不多。

继续阅读：imputation 细节

imputation的细节？

更多精彩内容

精彩评论

最新问答

品牌网站建设可以提升企业的口碑效应吗？？

怎么搭建一个美观的地产网站建设？？

网站建设行业还有搞头吗？？

怎么才能搭建出色的网站设计？？

如何搭建餐饮网站建设？？

问答排行榜

老赵孙雨菲董茹小说肆意沦陷全文在线阅读,主角人物孙雨菲老赵全部章节

印度人口超过我国了吗中国人口到了2040预计有多少人？

护墙板是什么材料

小说名字陈大海林倩仪装车工,女经理的迷失主角林清仪小说在线阅读

快乐8选9中4是多少钱（需要看彩票的实际数额来计算）[多少钱]？