Y染色体单倍群速查

人体内有23对染色体，其中22对常染色体中，每一对染色体都有一条来自父系，一条来自母系，两条染色体在传代过程中对应的部分会发生交换，从而造成混血的效应，就是遗传学上说的重组。另一对性染色体包括X染色体和Y染色体。在女性体内，X染色体也是成对的，分别来自父母双方，所以也不能避免混血的影响。而在男性体内，却只有一条来自母亲的X染色体和一条来自父亲的Y染色体，也就是说男性的Y染色体只能来源于父亲，所以人体性染色体的遗传方式决定了Y染色体遵从严格的父系遗传。

Y染色体与X染色体之间是否会发生重组呢？要回答这个问题，必须先了解Y染色体的结构。人类Y染色体DNA大约包含六千万个碱基对，其中染色体两端的5%为拟常染色体区域(pseudoautosomal region)，在传代过程中与X染色体相应区段会发生重组，而主干部分的95％为非重组区域(NRY, non-recombinating portion of Y chromosome)，不与任何染色体发生重组。所以，Y染色体主干部分的此特性，保证了子代能完整地继承父代的Y染色体主干而不受混血影响，保证了Y染色体主干的严格父系遗传。所以，当姓氏已经无法作为追寻祖先的可靠标记的时候，以现代的分子生物学技术为基础，研究Y染色体主干的类型分布，是直接追溯群体或者家族的父系起源的最佳方法，是验证祖先与后代的父系关联的唯一手段。例如，在曹操的后人中分析Y染色体特征，我们就可以了解曹操本人的Y染色体特征。实际上，在一段有较可信历史记录的时期内，整个家族的姓氏与父系遗传的关联是可以保证的，所以家族的姓氏往往与固定的Y染色体类型共同传递，紧密关联。

在一代一代的父子相承的传递过程中，Y染色体也在慢慢地积累着变化。正是因为遗传突变的积累，使得人类父系遗传体系中，距离越远的个体的Y染色体差异也越大。Y染色体上的突变形成的个体差异主要有两大类，单核苷酸多态(SNP)和短串联重复(STR)(图3)。DNA分子由四种碱基(A、T、C、G)按照一定的顺序连接而成，SNP是仅仅一个位置上的碱基类型变化。Y染色体上的同一个SNP在人群中一般只有两种类型。STR则是在染色体的特定区段，由几个碱基组成一个单位重复出现，不同的Y染色体上的同一个STR位置往往有不同的重复拷贝数。

要确立父系遗传体系，最重要的前提是祖先的突变可以稳定的保留在后代的Y染色体上。SNP突变因为突变速率极低，可以做到在后代中永久地保留，后代只能在祖先的突变基础上积累新的突变，而不会丢失祖先的突变特征。通过比较人类与黑猩猩的Y染色体差异，以及大家系中的Y染色体的差异程度，Y染色体上的SNP突变的速率被计算了出来。每出生一个男子，一个染色体位置上发生SNP突变的概率为大约三千万分之一。实际上由于Y常染色质区的保守性，以及人类历史上大量男子都没有男性后代保留至今的事实，实际的群体中突变率应该低几个数量级。而我们通常研究的是Y染色体非重组区大约三千万个碱基对的常染色质区，按照每个碱基对三千万分之一的突变率，这个区段内每个男子平均都会有一个新的突变。这个新的突变随机地出现在Y常染区的任意一个点上，如果这个突变了的点上再发生一次突变，那么这个突变就在后代中丢失了，我们就无法通过后代确定祖先的Y染色体突变谱。但是同一个点上先后发生两次突变的概率，按照概率计算方法就是三千万分之一的平方，也就是九百万亿分之一，相对于人类自古以来的人口，这个概率就近似于零。所以我们可以说，绝大多数情况下，祖先的Y染色体上出现的SNP突变特征在后代中能够找到，而后代只能在祖先Y染色体突变谱的基础上增加新的突变。

由多个SNP突变构成的一种突变谱被称为一种单倍型。例如下图中就有5个SNP突变，陆续构成5种单倍型。其中1型是其他单倍型的祖先型，其他单倍型都是后代型。祖先型与所有后代型合称为一个单倍群。一个家族的所有Y染色体理论上都属于一个单倍群，因为其中所有的男性都应该来自同一个祖先。

当然，单倍群的概念可大可小。大而言之，全世界的Y染色体都属于一种单倍群，都来自二十多万年前的一个东非晚期智人男子。进而，全世界又可以分为20种主干单倍群，编号从A到T。最古老的A和B单倍群都没有走出非洲，C和D单倍群最早来到了澳洲和亚洲，E单倍群来到了亚洲又回到非洲，F单倍群衍生出GHIJ等单倍群在西方形成欧罗巴人种，衍生出K单倍群并形成NOPQ等单倍群在东方形成蒙古人种，其中O单倍群成为了中国人的主流，而Q单倍群成为美洲印第安人的主流。所以Y染色体的谱系构建出了全人类的一部大家谱。

单倍群O-M175, C-M130, D-M174和N-M231是东亚四个主要单倍群，约占到东亚全部男性的93%。其他单倍群，例如E-SRY4064, G-M201, H-M69, I-M170, J-P209, L-M20, Q-M242, R-M207和T-M70仅占到东亚男性的7%。O-M175是东亚最大的单倍群，约75%的中国人以及超过50%的日本人都可归到这一类型下，因此有理由认为它代表着蒙古利亚人。O-M175分出三个主要的下游单倍群O1a-M119、O2-M268以及O3-M122，这三个单倍群约占到东亚男性的60%。O1a-M119在中国东南沿海、侗傣族群、台湾原住民中集中分布。O2-M268约在汉族中占5%以上，O2a1-M95是O2下的主要支系，在华南、南方少数民族、中南半岛及印度门哒人群中分布较多。O2b-M176是O2下的另一支系，最主要集中于朝鲜半岛、朝鲜族和日本弥生人，越南人和汉族中也有少量分布。O3-M122是中国最常见的单倍群，遍及整个东亚和东南亚，占汉族50-60%左右。O3a1c-002611、O3a2c1-M134和O3a2c1a-M117是O3下的三个主要支系，各占到汉族的12-17%左右。O3a2c1a-M117在藏缅族群中也有较多分布。O3下的另一支系O3a2b-M7在苗瑶和孟高棉人群中高频出现，但在汉族中却不足5%。

单倍群C从阿拉伯半岛南部、巴基斯坦、印度、斯里兰卡、东南亚、东亚、大洋洲到美洲都有分布，尤其在远东和大洋洲高频分布，但在撒哈拉以南的非洲没有被发现。C下游的分支，例如C1-M8、C2-M38、C3-M217、C4-M347、C5-M356和C6-P55，都有着区域特异性分布。C3-M217是分布最广的支系，在蒙古和西伯利亚群体中最高频出现。单倍群C1仅在日本人和琉球人中出现，但频率很低，还不足5%。单倍群C2出现在从印度尼西亚东部到波利尼西亚的太平洋岛屿人群，尤其是在波利尼西亚的一些群体中，且由于连续的奠基者效应和遗传漂变而成为了上述地方的特征单倍群。C4几乎仅局限在大洋洲的澳大利亚原住民中。C5在印度及其周边的巴基斯坦和尼泊尔等地低频出现。C6则仅出现在新几内亚高地上。

单倍群D-M174在安达曼尼格利陀人、北部藏缅群体和日本的阿伊努人中高频分布，在其他东亚、东南亚和中亚群体也有低频分布。D下分D1-M15、D2-M55和D3-P99三个主要支系，还有许多未明确定位的小支系。D1在藏族、羌语支和彝语支人群中广泛分布，在东亚其他群体中也有低频分布。D2仅分布于日本，占日本40%以上，是上古绳文人的主要成分。D3在青藏高原东部（康区）、白马人及纳西族等群体中高频。D*多在安达曼群岛被发现，且已被隔离了至少2万年。其他一些被包含在D*中的小支系也多分布于西藏周边藏缅语人群、东南亚人群，阿尔泰人中也有少量来源不明的D*。这些D*的内部谱系需要详细调查分析。单倍群D高频人群的肤色大多较深，包括安达曼人、一些藏缅和孟高棉人等。

单倍群O的兄弟支系是单倍群N-M231，单倍群N在欧亚大陆北部，尤其是包括芬兰、乌戈尔、萨摩耶德和尤卡吉尔等分支的乌拉尔语人群、以及阿尔泰语人群和爱斯基摩人中高频分布，它还低频出现在东亚内陆。对于单倍群N 的详细分析显示，N 在东欧的高频是缘于很晚近的迁徙，这次迁徙约从1.2万到 1.4万年前开始，由内亚/南西伯利亚出发，走一条逆时针的北部路线。N的下游分支N1a-M128低频分布于中国北部一些群体，例如满族、锡伯族、鄂温克族和朝鲜族，以及中亚的一些突厥语族群中。另一分支N1b-P43在北部的萨莫耶德人中广泛分布，也在一些乌拉尔和阿尔泰人群中低频或中频分布，N1b大约在6-8千年前诞生于西伯利亚。频率最高的下游单倍群N1c-Tat，可能在1.4万年前起源于中国西部地区，然后在西伯利亚经历多次瓶颈效应，最后扩散到东欧和北欧。这些研究把单倍群N的起源追溯到中国西南或东南亚，单倍群N的人群艰苦跋涉由东南亚穿越大陆一直到北欧，谱写了壮丽的迁徙史诗。

与内容相关的链接

47 个回复