imputation的细节？

2023-01-16 01:57 问答作者：运维知识库

歡熹Rainie 2021-11-06 04:48

imputation技术主要包括两个步骤：
1. 从SNP参考数据集中推断出群体的主要Haplotype型及频率。
2. 基于群体的Haplotype的频率分布和某一个体的（部分）基因型观察值去推断这一个体的haplotype，进而推断这一个体在某些位点的基因型。

我们就从这两个步骤去分析一下用rare SNP做imputation的可行性。
先说第一步，从SNP参考数据集中推断出群体的主要Haplotype型及频率。利用rare SNP做这一步的主要问题有两个：1. 获得一个群体比较完整的rare SNP集太困难了。 2. 如果把rare SNP考虑进去，那么在同样长度的block中，Haplotype的数量就太多了。
第一个问题不多说，在给定样本量下，一个rare SNP可以被检测到的概率与其频率成正比。在要求达到相同的power的前提下，检出rare SNP所需的样本量与其频率的平方成反比。简单点说，就是在同一个群体中，要获得全部（或95%）的MAF>0.5%的SNP, 所需要的样本量, 是要获得全部（或95%）的MAF>5%的SNP所需样本量的100倍。这两个数量级的差距导致的结果是，我们现在还没有某一个人群的比较完整的rare SNP参考集。

第二个问题主要跟rare SNP的特征有关。在汉族群体中，rareSNP的总数量大概是commonSNP数量的10倍（在其他几个主要的的人类群体中也接近这个值，跟有效群体大小有关）。这就是说，在一个固定长度的区段上，当考虑上rare SNP后，haplotype理开发者_JS百科论上可能的组合数目会上升到原来的10次方(指数关系）。当然，考虑到连锁因素后不会有这么夸张，但这个数量的增加依然是惊人的。
那么我们可不可以缩短每个block的长度来减少复杂度呢？答案是基本不可行。现在主流的算法在做这一步时考虑的SNP的数量都在10个以内，如果我们想在考虑rare SNP的同时把复杂度降到跟现在相当的水平，那么每个block平均就只包含一个common SNP和10个rare SNP了。虽然看起来位点的数量足以做出正确的推断，但实际情况是，在10个rare SNP位点上，大多数个体9个位点都是ref型的，可用的信息量太少了。
貌似上面一段刚好讲的就是imputation第二步中的问题。。。就不再展开一段去说了。

最后的结论是：rare SNP做imputation不太靠谱。当然这里并不是说它准确率低，而是说它的准确率比直接把所有rare SNP处的的缺失直接补成ref型（准确率为1-MAF)差不多。

继续阅读：imputation 细节

imputation的细节？

更多精彩内容

精彩评论

最新问答

央视是哪个频道？

请问买过的朋友，舒提啦旅行箱实际使用体验如何？？

检查不孕不育需要的费用？

海信ULED电视画质有什么不同的地方?？

钉子可以挂的住画框幕布吗？

问答排行榜

河神2九牛入海钓河妖是第几集河妖什么来历可活吞牛？

性激素六项检查的最佳时间是多久？多少钱？？

Easiest way to get words of one line from istream into a vector?

《梦在燃烧 (《三国演义》动画片主题曲)》MP3歌词-汤子星？

抽烟只抽炫赫门？