10月10日,华大基因大股东华大集团在深圳国家基因库发布了一项中国人基因组学大数据研究成果。
该项研究取样自14余万中国人无创产前基因检测数据,揭密了中国人群基因遗传特征,是华大主导的“百万人群基因大数据研究”的一期成果。
“数据集对新的病种开发有很大帮助。举个例子,原来的经典癌症基因基于西方人数据库,中国人发现大量意义未明的突变,没办法在西方数据库得到检验,这是因为我们找错了体系。这个数据不仅对华大有用,对中国医药健康产业都有巨大价值。”华大集团生命科学研究院院长徐讯接受包括第一财经在内的媒体采访时表示。
基因推断身高成可能
华大集团研究小组构建了包含904万个多态性位点在内的中国人基因频率数据库。
通过数据分析,研究小组一次性发现并且验证了48个与身高以及13个与身体质量指数(以下统称BMI)显著相关的基因位点,包括这些位点在内的常见突变位点分别解释了48%的身高遗传率和10%的BMI遗传率。
华大集团方面表示,随着研究的进一步深入,科学家和算法工程师有可能可以利用这些信息构建一套适合于中国人的身高预测模型,通过基因数据推断出个人身高情况。
华大研究小组同时揭露了全国31个省级行政单位人群病毒携带率以及病毒在个体血浆中丰度的分布,研究发现,中国人血浆的病毒组与欧洲人存在较大差异。欧洲人群中携带率排名前两位的分别是与皮肤急疹相关的疱疹病毒7型及与鼻咽癌相关的疱疹病毒4型,而中国人群中排在首位的则是乙肝病毒,其感染发生率大约为2.5%。
从单个样本到大数据
在国家级人群基因数据研究上,中国一度并不靠前,主要是因为大型研究项目的完成需要较长周期,项目设计、样本采集及基因测序需要花费大量时间与资金。
人群基因组项目研究中,以“国际千人基因组计划”最为知名,项目三期完成对2504人进行基因测序,但仅有301名中国人参与其中,比例远低于中国占全球人口比例;世上最大的人类基因变异数据库ExAC(Exome Aggregation Consortium,外显子组整合联合数据库)项目共对60706人进行研究,但东亚仅有8642人,中国人数未知。
这也导致基因与疾病关联的研究严重偏向于欧洲人群。华大一项数据显示,该领域78%的研究针对欧洲个体,49%的研究发生在欧洲,54%的研究协会在欧洲。
华大集团生命科学研究院研究员金鑫对第一财经表示,当前疾病研究、药物研发多数基于白种人数据开展。
与此同时,基因大数据战略高地的全球竞争异常激烈。冰岛2015年发布冰岛人全基因组序列,17年间测序了2636人;澳大利亚2015年启动4年10万人基因组计划;英国今年10月3日宣布将在未来五年开展五百万人基因组计划;美国NIH ALL of US研究预计研究对象达百万人。
但无创产前基因检测技术(NIPT)为大规模人群队列研究提供了新思路,目前全球无创产前基因检测超过1200万例,中国完成约700万例,其中华大基因完成逾350万例。
华大研究团队选取了14余万无创产前基因检测数据,开发了一系列适用于此类数据的分析方法,揭示了包括31个省、36个少数民族与汉族在内的中国人群精细的遗传结构,并将研究成果发表于《细胞》。
用户隐私是否因此泄露?金鑫对第一财经表示,本次研究披露的是群体分析结果,不包含个体身份信息。华大建立了完整、严格的数据和隐私保护体系,技术上使用了加密和存储、汇集方案;流程上,将受检者个人身份信息与检测数据分离;管理上,由多个部门从多环节监督。
金鑫同时表示,受检者在进行无创产前基因检测前会签署知情同意书,医生会知会受检者,在不泄露个人隐私的前提下,受检者可以自愿授权研究者对检测数据进行与可识别个人身份信息无关的、以医学和科学为目的的研究。
徐讯表示,此次研究成果证明生命科学产业已经从单个样本的检测和诊断,进入了基因大数据时代。