huyu2016
-
WeGene末席关注师
开发者小组
【研发日记】基于wegene原始数据的后代数据模拟、亲子鉴定和亲缘关系(日常更新)
编写了以下两个基于多人wegene原始数据的程序:
程序1:两人数据(情侣、夫妻等)模拟后代基因数据;
程序2:三人数据(一家三口)判定亲子鉴定;
程序3:两人数据比对-亲缘关系;(2016.7.6新增)
程序4:父亲或母亲+儿子或女儿,推测母亲或父亲的基因型数据。(2016.7.7新增)
用时:1工作日;
费用:免费,仅用于学习、交流和探讨;
安全性:原始数据和结果将在出具结果后2日内删除;
免责声明:注释结果不具有任何医学或法律效力,只是基因的客观统计计算结果;
声明:本活动与wegene公司无关,仅为个人行为;本活动仅为学术交流,非商业活动;
联系方式:发送原始数据到huyu_2015@163.com并注明想进行的项目(可以同时参与https://www.wegene.com/question/493的人类疾病数据库注释);
算法原理:统计学定量。
数据说明:因为涉及个人数据隐私(使用前必须征得个人同意,使用后及时删除数据),所以能拿到的数据量相比于wegene公司自己做一次统计可以从数据库中随机抽取几千份样本甚至使用全部数据那样,我能用到的数据很少,不过从第一批这54次计算中发现,相互之间无血缘关系的三份样本的错配率稳定在18%左右。现在要等真正的一家三口原始数据跑完本流程,本实验即可完成,程序便可使用。
注1:目前支持wegene数据、23andme数据、rs位点数据,暂不接受fastq/fasta数据;
注2:本实验和wegene公司无关;
注3:结果仅供参考,不承担法律责任。
【记录】
2016.6.7 程序1V1.0,基于本人做的疾病数据注释流程(https://www.wegene.com/question/493),想到把两个人的数据模拟出一份“孩子”的“模拟原始数据”,再做疾病数据注释。
2016.6.13 基于上述这个“两个数据模拟一个‘后代’数据”的程序,开始着手编写处理三份数据(一家三口)的程序,初衷是判断wegene错误率或基因突变率,后来想到这个算法可以用作亲子鉴定(程序2V1.0)。
2016.6.14 优化了程序2的算法,处理掉一些干扰因素,生成文件为匹配、错配、child数据中未检出的模拟(V2.0)。
2016.6.20 修正了程序2算法中的两处bug(V3.0)。
2016.6.21 优化了程序2,增加了几个参数,减少了一点儿计算时间(V3.2)。
2016.6.22 关于程序2的试验。用自己的原始数据和5份朋友的(已经对方同意)共6份数据(3男3女)进行试验,按性别分开并抹去姓名后随机分配为“爸爸”、“妈妈”和“孩子”,共有3x3x6=54种排列组合,编写了自动批量计算程序和计算后结果的统计程序,结果如下:
1)三个无血缘关系的人数据计算得出的错配率稳定发生在17.4%-18.4%;
2)如果“爸爸”or“妈妈”和“孩子”是同一人(即假设孩子和父母一方的基因型完全相同,而和父母另一方无血缘关系)(夸张的假设),错配率稳定在6.17%-6.59%。
2016.6.27 程序1,原有两份原始数据模拟一份新“子代”原始数据,已修改格式从RS位点列表变为wegene原始数据格式。
2016.6.28 两人数据模拟后代程序(V2.0),添加了参数可以选择模拟后代的性别。
2016.6.29 两人数据模拟后代程序(V3.0),支持23andme数据,且可以是两份23andme也可以是一份23andme一份wegene数据。
2016.6.30 两人数据模拟后代程序(V4.0),优化了算法流程,修正了性染色体和线粒体DNA的bug。
2016.7.1 三人数据亲子鉴定程序(V4.0),进行了数据试验,7月4日得到结果:阈值控制在16.8-17.9%。
2016.7.6 两人数据模拟后代程序(V5.0),解决了模拟数据做疾病注释的bug。
2016.7.7 程序3(V1.0)诞生:两人数据的比对测定亲缘关系;程序3(V2.0),修改为仅比对常染色体。当日得到试验结果:有无亲缘关系的过度值范围在60-70%。
2016.7.7 程序4(V1.1)诞生:父亲或母亲+儿子或女儿两份数据,可推测母亲或父亲的基因型数据。
程序1:两人数据(情侣、夫妻等)模拟后代基因数据;
程序2:三人数据(一家三口)判定亲子鉴定;
程序3:两人数据比对-亲缘关系;(2016.7.6新增)
程序4:父亲或母亲+儿子或女儿,推测母亲或父亲的基因型数据。(2016.7.7新增)
用时:1工作日;
费用:免费,仅用于学习、交流和探讨;
安全性:原始数据和结果将在出具结果后2日内删除;
免责声明:注释结果不具有任何医学或法律效力,只是基因的客观统计计算结果;
声明:本活动与wegene公司无关,仅为个人行为;本活动仅为学术交流,非商业活动;
联系方式:发送原始数据到huyu_2015@163.com并注明想进行的项目(可以同时参与https://www.wegene.com/question/493的人类疾病数据库注释);
算法原理:统计学定量。
数据说明:因为涉及个人数据隐私(使用前必须征得个人同意,使用后及时删除数据),所以能拿到的数据量相比于wegene公司自己做一次统计可以从数据库中随机抽取几千份样本甚至使用全部数据那样,我能用到的数据很少,不过从第一批这54次计算中发现,相互之间无血缘关系的三份样本的错配率稳定在18%左右。现在要等真正的一家三口原始数据跑完本流程,本实验即可完成,程序便可使用。
注1:目前支持wegene数据、23andme数据、rs位点数据,暂不接受fastq/fasta数据;
注2:本实验和wegene公司无关;
注3:结果仅供参考,不承担法律责任。
【记录】
2016.6.7 程序1V1.0,基于本人做的疾病数据注释流程(https://www.wegene.com/question/493),想到把两个人的数据模拟出一份“孩子”的“模拟原始数据”,再做疾病数据注释。
2016.6.13 基于上述这个“两个数据模拟一个‘后代’数据”的程序,开始着手编写处理三份数据(一家三口)的程序,初衷是判断wegene错误率或基因突变率,后来想到这个算法可以用作亲子鉴定(程序2V1.0)。
2016.6.14 优化了程序2的算法,处理掉一些干扰因素,生成文件为匹配、错配、child数据中未检出的模拟(V2.0)。
2016.6.20 修正了程序2算法中的两处bug(V3.0)。
2016.6.21 优化了程序2,增加了几个参数,减少了一点儿计算时间(V3.2)。
2016.6.22 关于程序2的试验。用自己的原始数据和5份朋友的(已经对方同意)共6份数据(3男3女)进行试验,按性别分开并抹去姓名后随机分配为“爸爸”、“妈妈”和“孩子”,共有3x3x6=54种排列组合,编写了自动批量计算程序和计算后结果的统计程序,结果如下:
1)三个无血缘关系的人数据计算得出的错配率稳定发生在17.4%-18.4%;
2)如果“爸爸”or“妈妈”和“孩子”是同一人(即假设孩子和父母一方的基因型完全相同,而和父母另一方无血缘关系)(夸张的假设),错配率稳定在6.17%-6.59%。
2016.6.27 程序1,原有两份原始数据模拟一份新“子代”原始数据,已修改格式从RS位点列表变为wegene原始数据格式。
2016.6.28 两人数据模拟后代程序(V2.0),添加了参数可以选择模拟后代的性别。
2016.6.29 两人数据模拟后代程序(V3.0),支持23andme数据,且可以是两份23andme也可以是一份23andme一份wegene数据。
2016.6.30 两人数据模拟后代程序(V4.0),优化了算法流程,修正了性染色体和线粒体DNA的bug。
2016.7.1 三人数据亲子鉴定程序(V4.0),进行了数据试验,7月4日得到结果:阈值控制在16.8-17.9%。
2016.7.6 两人数据模拟后代程序(V5.0),解决了模拟数据做疾病注释的bug。
2016.7.7 程序3(V1.0)诞生:两人数据的比对测定亲缘关系;程序3(V2.0),修改为仅比对常染色体。当日得到试验结果:有无亲缘关系的过度值范围在60-70%。
2016.7.7 程序4(V1.1)诞生:父亲或母亲+儿子或女儿两份数据,可推测母亲或父亲的基因型数据。
17 个回复
赞同来自: kk
赞同来自: 费力科思
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
要回复问题请先登录或注册