imputation的细节?
imputation技术主要包括两个步骤:
1. 从SNP参考数据集中推断出群体的主要Haplotype型及频率。
2. 基于群体的Haplotype的频率分布和某一个体的(部分)基因型观察值去推断这一个体的haplotype,进而推断这一个体在某些位点的基因型。
我们就从这两个步骤去分析一下用rare SNP做imputation的可行性。
先说第一步,从SNP参考数据集中推断出群体的主要Haplotype型及频率。利用rare SNP做这一步的主要问题有两个:1. 获得一个群体比较完整的rare SNP集太困难了。 2. 如果把rare SNP考虑进去,那么在同样长度的block中,Haplotype的数量就太多了。
第一个问题不多说,在给定样本量下, 一个rare SNP可以被检测到的概率与其频率成正比。在要求达到相同的power的前提下,检出rare SNP所需的样本量与其频率的平方成反比。简单点说,就是在同一个群体中, 要获得全部(或95%)的MAF>0.5%的SNP, 所需要的样本量, 是要获得全部(或95%)的MAF>5%的SNP所需样本量的100倍。这两个数量级的差距导致的结果是,我们现在还没有某一个人群的比较完整的rare SNP参考集。
第二个问题主要跟rare SNP的特征有关。在汉族群体中,rareSNP的总数量大概是commonSNP数量的10倍(在其他几个主要的的人类群体中也接近这个值,跟有效群体大小有关)。这就是说,在一个固定长度的区段上,当考虑上rare SNP后,haplotype理开发者_JS百科论上可能的组合数目会上升到原来的10次方(指数关系)。当然,考虑到连锁因素后不会有这么夸张,但这个数量的增加依然是惊人的。
那么我们可不可以缩短每个block的长度来减少复杂度呢?答案是基本不可行。现在主流的算法在做这一步时考虑的SNP的数量都在10个以内,如果我们想在考虑rare SNP的同时把复杂度降到跟现在相当的水平,那么每个block平均就只包含一个common SNP和10个rare SNP了。虽然看起来位点的数量足以做出正确的推断,但实际情况是,在10个rare SNP位点上,大多数个体9个位点都是ref型的,可用的信息量太少了。
貌似上面一段刚好讲的就是imputation第二步中的问题。。。就不再展开一段去说了。
最后的结论是:rare SNP做imputation不太靠谱。当然这里并不是说它准确率低,而是说它的准确率比直接把所有rare SNP处的的缺失直接补成ref型(准确率为1-MAF)差不多。
精彩评论