Sorano 综合讨论组

发现论坛里许多朋友对wegene祖源标杆取样地有误解

wegene给出了祖源取样地的坐标，但是这不代表样本就是在这里取的，很可能是一个混合后的平均值甚至是为了迎合客户而编造的坐标（即：wegene自己也不一定清楚具体的取样地）

事实上，祖源分析的标杆样本并不是wegene自己去取样的，而是来源于各种公共数据库，这一点陈总在3年前就已经说明了，见帖子https://www.wegene.com/question/228

@chengang
现在WeGene用到的数据一部分来自公共数据集，例如千人基因组、HGDP等等，另一部分是WeGene自己的数据。

千人基因组、HGDP等数据是用在了祖源成分分析的模型构建中。@wang 通过一些人类学的规则，筛选出了500多个有可能能代表各个族群的样本，然后@ 通过使用一些分析方法再筛掉了一些异常的样本，最终得到我们的祖源成分的训练数据集。

另外，WeGene自己的数据主要是用在诸如有多少人给你有一样的基因型，以及类似运动基因中各项内容的分数分布的计算上，做一些中国人的群体统计的分析。

各种具体的算法我们会整理之后逐步开源的，相关技术的白皮书也会发布出来，数据的使用会有官方的伦理委员会来审查，请大家指点和监督：）

2019-04-16 • IP属地日本

按热门排序按默认排序

16 个回复

yiranMOL - ybllyr

还是要亲自取样啊，并且多取样，原来用的不是自己的数据…有点晕

失落的CSMD3基因

楼主应该不是WeGene的，主帖只是引用。
然后我觉得最大的误解是，平均取样点，不是说就在这里取样。
如果在A点和B点取样，中点就是AB之间，但是不会是A，也不会是B。

具体族群按样本取样地点统计，经纬度为代表性采样区域中心。

Sorano

这样应该就可以解决https://www.wegene.com/question/15131里的疑问了

Sorano

同理，北汉并不是在河南信阳一地取样，南汉也并不是在福建一地取样，而更有可能是多个省的混合（在hgdp，1000genomes，hapmap等数据库里，汉族这样庞大的族群的样本显然是多地取样的）

元月十号

- 【杜】O-MF2636/外公【崔】T-Y13290/外婆【张】O-F723

厉害

Sorano

在不清楚实际坐标的情况下，强行写上坐标，个人认为这种行为是画蛇添足

Sorano

类似的，wegene给出的苗族坐标也有问题，那个坐标对应的地方几百年没有苗族的记录了

Sorano

这里再重复说一遍：wegene给出了祖源取样地的坐标，但是这不代表样本（源于公共数据库）就是在这里取的，很可能是一个混合后的平均值甚至是为了迎合客户而编造的坐标（即：wegene自己也不一定清楚具体的取样地）

Sorano

之前@wang也回答过相关问题，见https://www.wegene.com/question/614

【关于“祖源分析”的叫法及权重问题】
祖源分析是否改名需要和我司市场销售等人员沟通；
祖源成分比例仅是用常染色体计算的，并没有把Y和mt列入。
【关于祖源分析的原始数据库的问题】
南北汉族参考数据的选择是经过筛选的，并不是按地域，而是根据其遗传分层，北方汉族使用的并不是北京汉族，而是哈佛David Reich实验室Human Origin芯片里的“北方汉“，覆盖面比较广，我们找出其中相对纯的样本作为参考；南方汉族使用的是HGDP的汉族，剔除了其中的明显混合个体；江浙地区属于中部，南部混合，不是说现在的江浙沪就一定要有多大比例的南方汉族成分；通古斯用Ulchi，很有代表性；没有布里亚特数据；有Yakut。
【关于增加一些上级分类等问题】
苗族不属于Sino-Tibetan，而是Hmong-Mien；族群的分类有多种，可以按照语言、地域、现有民族划分等，如何分类需要市场销售人员考虑大部分用户的理解和接受程度，大部分人可能都没有听过阿尔泰语系，会让普通用户更迷茫；
官方的民族分类很重要，民族问题很棘手，但首要一条是政治正确，最好不要用遗传结果来否定官方民族划分。
【关于日韩的问题】
日韩本来就是混血的，其实现今的民族群体都是混血的，日韩有和我们相似的成分，也有自己的独特之处，在没有古DNA的情况下，想看日韩的独特成分是否在所测样本出现，那也就只能用现代的日韩样本做参考，市场人员也有这方面推广需求；
日韩在遗传上也是东北亚的，跟南方族群有显著差别，而和北方族群更近；

Sorano

https://www.wegene.com/question/464

学博士后
祖源分析释疑
WeGene飞速发展，在高端大气上档次的道路上越走越远，与此同时，客户对祖源分析的认识水平愈发深入，需求也日益膨胀：能否再细化细化细化？？？

这里开贴针对客户反复提及的问题整理作答:

1. WeGene的祖源分析参考数据取自哪里？
千人基因组、HGDP和Human Origin项目，根据需要对上述数据进行分类、clean、整合。

2. WeGene的祖源分析能否再细化？
Y染色体和线粒体，我们已涵盖了充足的位点，只要有足够样本能够明确更下游的支系拓扑关系，我们就会马上更新到您的谱系树上；对常染色体，在半年内会新增加一批东亚参考人群数据，包括古代和高度区域化的现代样本，将会给客户提供更细化更准确的祖源构成结果。对欧洲人群，也将马上采用相关古人数据进行祖源分析，解决祖源源流分歧，所用数据来自：
Lazaridis, I., et al. Ancient human genomes suggest three ancestral populations for present-day Europeans. Nature 513, 409-413, (2014).
Jones, E. R., et al. Upper Palaeolithic genomes reveal deep roots of modern Eurasians. Nat Commun. 6, 8912, (2015).
祖源的细化细化再细化在技术上是一件很难的事情，但我们在不断努力！