发现论坛里许多朋友对wegene祖源标杆取样地有误解

wegene给出了祖源取样地的坐标,但是这不代表样本就是在这里取的,很可能是一个混合后的平均值甚至是为了迎合客户而编造的坐标(即:wegene自己也不一定清楚具体的取样地)

事实上,祖源分析的标杆样本并不是wegene自己去取样的,而是来源于各种公共数据库,这一点陈总在3年前就已经说明了,见帖子https://www.wegene.com/question/228

@chengang
现在WeGene用到的数据一部分来自公共数据集,例如千人基因组、HGDP等等,另一部分是WeGene自己的数据。

千人基因组、HGDP等数据是用在了祖源成分分析的模型构建中。@wang 通过一些人类学的规则,筛选出了500多个有可能能代表各个族群的样本,然后@ 通过使用一些分析方法再筛掉了一些异常的样本,最终得到我们的祖源成分的训练数据集。

另外,WeGene自己的数据主要是用在诸如有多少人给你有一样的基因型,以及类似运动基因中各项内容的分数分布的计算上,做一些中国人的群体统计的分析。

各种具体的算法我们会整理之后逐步开源的,相关技术的白皮书也会发布出来,数据的使用会有官方的伦理委员会来审查,请大家指点和监督:)
2019-04-16 • IP属地日本
按热门排序    按默认排序

16 个回复

yiranMOL - ybllyr
还是要亲自取样啊,并且多取样,原来用的不是自己的数据…有点晕
楼主应该不是WeGene的,主帖只是引用。
然后我觉得最大的误解是,平均取样点,不是说就在这里取样。
如果在A点和B点取样,中点就是AB之间,但是不会是A,也不会是B。
具体族群按样本取样地点统计,经纬度为代表性采样区域中心。
这样应该就可以解决https://www.wegene.com/question/15131里的疑问了
同理,北汉并不是在河南信阳一地取样,南汉也并不是在福建一地取样,而更有可能是多个省的混合(在hgdp,1000genomes,hapmap等数据库里,汉族这样庞大的族群的样本显然是多地取样的)
元月十号 - 【杜】O-MF2636/外公【崔】T-Y13290/外婆【张】O-F723
 厉害
在不清楚实际坐标的情况下,强行写上坐标,个人认为这种行为是画蛇添足
类似的,wegene给出的苗族坐标也有问题,那个坐标对应的地方几百年没有苗族的记录了
这里再重复说一遍:wegene给出了祖源取样地的坐标,但是这不代表样本(源于公共数据库)就是在这里取的,很可能是一个混合后的平均值甚至是为了迎合客户而编造的坐标(即:wegene自己也不一定清楚具体的取样地)
之前@wang也回答过相关问题,见https://www.wegene.com/question/614

【关于“祖源分析”的叫法及权重问题】
祖源分析是否改名需要和我司市场销售等人员沟通;
祖源成分比例仅是用常染色体计算的,并没有把Y和mt列入。
【关于祖源分析的原始数据库的问题】
南北汉族参考数据的选择是经过筛选的,并不是按地域,而是根据其遗传分层,北方汉族使用的并不是北京汉族,而是哈佛David Reich实验室Human Origin芯片里的“北方汉“,覆盖面比较广,我们找出其中相对纯的样本作为参考;南方汉族使用的是HGDP的汉族,剔除了其中的明显混合个体;江浙地区属于中部,南部混合,不是说现在的江浙沪就一定要有多大比例的南方汉族成分;通古斯用Ulchi,很有代表性;没有布里亚特数据;有Yakut。
【关于增加一些上级分类等问题】
苗族不属于Sino-Tibetan,而是Hmong-Mien;族群的分类有多种,可以按照语言、地域、现有民族划分等,如何分类需要市场销售人员考虑大部分用户的理解和接受程度,大部分人可能都没有听过阿尔泰语系,会让普通用户更迷茫;
官方的民族分类很重要,民族问题很棘手,但首要一条是政治正确,最好不要用遗传结果来否定官方民族划分。
【关于日韩的问题】
日韩本来就是混血的,其实现今的民族群体都是混血的,日韩有和我们相似的成分,也有自己的独特之处,在没有古DNA的情况下,想看日韩的独特成分是否在所测样本出现,那也就只能用现代的日韩样本做参考,市场人员也有这方面推广需求;
日韩在遗传上也是东北亚的,跟南方族群有显著差别,而和北方族群更近;
https://www.wegene.com/question/464

学博士后
祖源分析释疑
WeGene飞速发展,在高端大气上档次的道路上越走越远,与此同时,客户对祖源分析的认识水平愈发深入,需求也日益膨胀:能否再细化细化细化???

这里开贴针对客户反复提及的问题整理作答:

1. WeGene的祖源分析参考数据取自哪里?
千人基因组、HGDP和Human Origin项目,根据需要对上述数据进行分类、clean、整合。

2. WeGene的祖源分析能否再细化?
Y染色体和线粒体,我们已涵盖了充足的位点,只要有足够样本能够明确更下游的支系拓扑关系,我们就会马上更新到您的谱系树上;对常染色体,在半年内会新增加一批东亚参考人群数据,包括古代和高度区域化的现代样本,将会给客户提供更细化更准确的祖源构成结果。对欧洲人群,也将马上采用相关古人数据进行祖源分析,解决祖源源流分歧,所用数据来自:
Lazaridis, I., et al. Ancient human genomes suggest three ancestral populations for present-day Europeans. Nature 513, 409-413, (2014).
Jones, E. R., et al. Upper Palaeolithic genomes reveal deep roots of modern Eurasians. Nat Commun. 6, 8912, (2015).
祖源的细化细化再细化在技术上是一件很难的事情,但我们在不断努力!
这一直是个谜,微基因也不给个注释。同样谜的还有祖源相似性。比如,a客户和b省祖源相似为50,但b省下任一城市相似都低于50。微基因也未肯给出解释。
开顺顺 - ヾ(✿゚▽゚)ノ❤ 大家顺顺利利开开心心
好专业哦⊙∀⊙!
祖源相似度是个问题,我比潮汕地区及周围的泉州厦门比例还高。而我在四川。
黑麦威士忌 - 宇宙和时间是这个世界上最浪漫的东西.
确实啊
相似问题突然发现

Screenshot_20210602-225224.jpg



Screenshot_20210602-224830.jpg

这两幅图广府地区都是自成一体,客家和粤西却相近。

要回复问题请先登录注册