
发现论坛里许多朋友对wegene祖源标杆取样地有误解
wegene给出了祖源取样地的坐标,但是这不代表样本就是在这里取的,很可能是一个混合后的平均值甚至是为了迎合客户而编造的坐标(即:wegene自己也不一定清楚具体的取样地)
事实上,祖源分析的标杆样本并不是wegene自己去取样的,而是来源于各种公共数据库,这一点陈总在3年前就已经说明了,见帖子https://www.wegene.com/question/228
@chengang
现在WeGene用到的数据一部分来自公共数据集,例如千人基因组、HGDP等等,另一部分是WeGene自己的数据。
千人基因组、HGDP等数据是用在了祖源成分分析的模型构建中。@wang 通过一些人类学的规则,筛选出了500多个有可能能代表各个族群的样本,然后@ 通过使用一些分析方法再筛掉了一些异常的样本,最终得到我们的祖源成分的训练数据集。
另外,WeGene自己的数据主要是用在诸如有多少人给你有一样的基因型,以及类似运动基因中各项内容的分数分布的计算上,做一些中国人的群体统计的分析。
各种具体的算法我们会整理之后逐步开源的,相关技术的白皮书也会发布出来,数据的使用会有官方的伦理委员会来审查,请大家指点和监督:)
事实上,祖源分析的标杆样本并不是wegene自己去取样的,而是来源于各种公共数据库,这一点陈总在3年前就已经说明了,见帖子https://www.wegene.com/question/228
@chengang
现在WeGene用到的数据一部分来自公共数据集,例如千人基因组、HGDP等等,另一部分是WeGene自己的数据。
千人基因组、HGDP等数据是用在了祖源成分分析的模型构建中。@wang 通过一些人类学的规则,筛选出了500多个有可能能代表各个族群的样本,然后@ 通过使用一些分析方法再筛掉了一些异常的样本,最终得到我们的祖源成分的训练数据集。
另外,WeGene自己的数据主要是用在诸如有多少人给你有一样的基因型,以及类似运动基因中各项内容的分数分布的计算上,做一些中国人的群体统计的分析。
各种具体的算法我们会整理之后逐步开源的,相关技术的白皮书也会发布出来,数据的使用会有官方的伦理委员会来审查,请大家指点和监督:)
16 个回复
赞同来自: 元月十号
然后我觉得最大的误解是,平均取样点,不是说就在这里取样。
如果在A点和B点取样,中点就是AB之间,但是不会是A,也不会是B。
赞同来自: horinee
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
【关于“祖源分析”的叫法及权重问题】
祖源分析是否改名需要和我司市场销售等人员沟通;
祖源成分比例仅是用常染色体计算的,并没有把Y和mt列入。
【关于祖源分析的原始数据库的问题】
南北汉族参考数据的选择是经过筛选的,并不是按地域,而是根据其遗传分层,北方汉族使用的并不是北京汉族,而是哈佛David Reich实验室Human Origin芯片里的“北方汉“,覆盖面比较广,我们找出其中相对纯的样本作为参考;南方汉族使用的是HGDP的汉族,剔除了其中的明显混合个体;江浙地区属于中部,南部混合,不是说现在的江浙沪就一定要有多大比例的南方汉族成分;通古斯用Ulchi,很有代表性;没有布里亚特数据;有Yakut。
【关于增加一些上级分类等问题】
苗族不属于Sino-Tibetan,而是Hmong-Mien;族群的分类有多种,可以按照语言、地域、现有民族划分等,如何分类需要市场销售人员考虑大部分用户的理解和接受程度,大部分人可能都没有听过阿尔泰语系,会让普通用户更迷茫;
官方的民族分类很重要,民族问题很棘手,但首要一条是政治正确,最好不要用遗传结果来否定官方民族划分。
【关于日韩的问题】
日韩本来就是混血的,其实现今的民族群体都是混血的,日韩有和我们相似的成分,也有自己的独特之处,在没有古DNA的情况下,想看日韩的独特成分是否在所测样本出现,那也就只能用现代的日韩样本做参考,市场人员也有这方面推广需求;
日韩在遗传上也是东北亚的,跟南方族群有显著差别,而和北方族群更近;
赞同来自:
学博士后
祖源分析释疑
WeGene飞速发展,在高端大气上档次的道路上越走越远,与此同时,客户对祖源分析的认识水平愈发深入,需求也日益膨胀:能否再细化细化细化???
这里开贴针对客户反复提及的问题整理作答:
1. WeGene的祖源分析参考数据取自哪里?
千人基因组、HGDP和Human Origin项目,根据需要对上述数据进行分类、clean、整合。
2. WeGene的祖源分析能否再细化?
Y染色体和线粒体,我们已涵盖了充足的位点,只要有足够样本能够明确更下游的支系拓扑关系,我们就会马上更新到您的谱系树上;对常染色体,在半年内会新增加一批东亚参考人群数据,包括古代和高度区域化的现代样本,将会给客户提供更细化更准确的祖源构成结果。对欧洲人群,也将马上采用相关古人数据进行祖源分析,解决祖源源流分歧,所用数据来自:
Lazaridis, I., et al. Ancient human genomes suggest three ancestral populations for present-day Europeans. Nature 513, 409-413, (2014).
Jones, E. R., et al. Upper Palaeolithic genomes reveal deep roots of modern Eurasians. Nat Commun. 6, 8912, (2015).
祖源的细化细化再细化在技术上是一件很难的事情,但我们在不断努力!
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
这两幅图广府地区都是自成一体,客家和粤西却相近。
赞同来自:
要回复问题请先登录或注册