关于全基因组关联研究的自动化元分析初探

冀燃,李冬果,张大保

首都医科大学 生物医学工程学院,北京 100069

[摘 要]随着自然语言分析、文本挖掘等技术高速发展,元分析中数据提取工作逐渐从人工手动提取向计算机自动提取转变。本文以基因关联研究(Genome-Wide Association Study,GWAS)研究为例,通过预先对纳入研究中感兴趣的数据元素进行定位并明确注意事项,来制定元分析的数据自动提取策略方案,使计算机通过搜索少量文献即可快速准确地提取完整的研究数据。以阿尔兹海默疾病的GWAS研究的元分析为例,将纳入的研究按照上文提出的方法进行搜索并提取数据。结果显示,本研究有效缩短了搜索、提取数据的时间,同时提取数据的成功率和准确度可以保持在90%以上。本文为GWAS研究自动提取数据提供了一种有效的策略和向导作用,对于元分析向大数据时代发展有着推进作用。

[关键词]基因关联研究;元分析;数据定位;数据提取;单核苷酸多态性

引言

元分析作为循证医学的重要研究方法,是基因关联研究(Genome-Wide Association Study,GWAS)中必不可少的一部分[1],发现并确定了成千上万个单核苷酸多态性(Single Nucleotide Polymorphism,SNP)和疾病之间的关联。GWAS元分析需要从上篇GWAS文献中筛选合适的研究,通过提取、储存、处理海量的高通量数据,得到和疾病相关联的SNP[2]

由于GWAS元分析需要收集所有的研究数据,数据提取需要花费大量时间和精力[3-4]。由于研究人员数量、精力和时间有限,手动提取数据常出现部分数据丢失或提取错误,从而导致元分析中有价值的信息减少、可信区间变宽、检验效能降低、假阳性率和假阴性率的上升等问题,这对于GWAS元分析的研究准确性影响较大[5]。因此,元分析的数据自动提取的研究就显得格外重要。数据自动提取是利用深度学习、大数据分析、自然语言分析及文本挖掘等技术手段,用计算机代替人工自动检索海量文献并提取数据,通过处理、判断文献内容,来定位、提取感兴趣数据[6]。GWAS数据分别来源于文献正文,补充材料部分(Supplementary)以及特殊数据库如基因型和表型库(the Database of Genotypes and Phenotypes,dbGap);如果没有提前制定好提取策略,计算机将无法提取到所需要的全部有用数据,这会导致提取数据的偏倚。因此在数据自动提取之前需要进行数据元素定位,确定提取策略及明确提取时的注意事项,可以有效避免“地毯式搜索”,大大缩短提取数据的时间并提高数据提取的准确率。

本文旨在帮助研究人员利用自然语言分析,快速准确地自动提取文献数据,提供数据信息在GWAS文章中的定位和提取数据时的注意事项,并提出合理的自动提取数据策略,为元分析自动采集数据的发展提供参考;并以阿尔兹海默病的GWAS元数据分析描述阿尔兹海默病的GWAS数据检索和筛选过程、提取策略及提取数据的存储方法。

1 材料与方法

1.1 文献检索和筛选

在PubMed研究平台上搜索“阿尔兹海默症全基因关联研究”。PubMed上的检索策略是“((GWAS[Title\Abstract]) OR Genome-Wide Association study[Title\Abstract]) AND Alzheimer’s disease[Title\Abstract]”。

排除标准:① 非GWAS相关文献;② 非研究阿尔兹海默症的相关文献;③ 单纯的元分析或Replication研究;④ 非large scale研究;⑤ 没有用回归分析作为结果的文献;⑥ 非case-control研究的文献。

1.2 数据提取

以往元分析中提取数据时需要利用自然语言分析、文本挖掘等方法处理文本中的每一句话并从中判断是否有感兴趣的数据元素。在GWAS元分析中,需要提取的数据主要分为3个类型,第1类是文章信息,包括study ID和发表信息;第2类是样本信息,包括疾病表型、样本量以及Dis\Rep;第3类数据是基因多态性信息,包括SNP ID、minor\major allele、case\control MAF、比值比、P值、置信区间。

1.2.1 文献信息和样本信息的自动提取策略和注意事项

(1)study ID:指的是每个研究的ID,由“第一作者的last name”+“et al.”组成。

(2)发表信息: DOI code,在文档首页搜索“DOI”并提取后面的代码。

(3)疾病表型:指的是采集疾病样本的表型,如:发病年龄、性别、严重程度等。计算机按照Abstract、Conclusion部分或者文献补充材料里面的Study samples或者Subjects部分依次进行搜索。注意重点搜索包含case\ control信息的语句。

(4)case\control样本量:指的是研究纳入的case\ control样本个数。搜索策略和疾病表型一样。

(5)Dis\Rep:用来区分样本是用于discovery研究还是replication研究,分别用Dis和Rep表示,通常情况下我们从Abstract中获得:如果语句中包含一个样本信息和关键词“discovery”,则这个样本被当做Dis;如果包含“replication”,则被标记为Rep;或最先搜索到的casecontrol样本默认为Dis,之后再搜索到的样本都是Rep;如果文章只包含一个样本的信息且没有包含任何关键词,则这个样本默认为Dis。如果Abstract中搜索不到,则在正文中的Subjects或Samples部分可以得到。

1.2.2 SNP信息中各数据元素提取

SNP信息往往统一放置在正文或补充材料的表格中,计算机自动提取数据时应该直接搜索这些表格。而对于没有表格和补充材料的文献,则应该搜索Results中包含下列数据元素的语句。

(1)SNP ID:指的是NCBI的dpSNP提供的“reference SNP ID”,即rs#;需要注意有些文献的SNP ID有上标,需要计算机能识别上标并剔除。

(2)minor\major allele:指的是在某一群体中具有最小\最大出现频率的等位基因(都超过5%)。

(3)case\control MAF:指的是case\control样本中的最小等位基因频率。

(4)比值比(Odds Ratio,OR):有些文献提供了OR,也有些文献提供了log(OR),本文中统一使用log(OR),此时需要计算机加以区分并计算log(OR)。

(5)P值:GWAS研究最基础的数据。

(6)置信区间(Conf i dence Interval,CI):用于计算标准误并分配文献权重。

2 结果

2.1 文献检索和筛选

按照文献检索策略[7-16],从PubMed上检索到了320篇文献;再经过纳入文献标准的筛选,见图1,共获得纳入文献10篇。

2.2 数据提取

对于每一个研究,按照提取策略,从原始研究的发表文献和Supplementary Material中搜索需要的数据元素。

图1 纳入文献筛选流程图

以L ambert et al研究为例,其数据提取结果见表1。在Lambert et al中,文献信息按照策略直接得到。通过搜索Abstract中的第2句可以确定文章的第1个样本的样本量和表型;再搜索第3句话可以确定文章的第2个样本的样本量和表型;搜索完Abstract之后发现只能确定这两个样本且没有关键词,按照先后顺序认定第1个样本是Dis而第2个是Rep。按照SNP信息提取策略在正文中的Table 1和Table 3 以及Supplementary Material中的Table 1和Table 2提取到SNP的各项数据元素。

其他纳入文献按照相同的数据提取策略提取数据,结果见表2。10篇文献中,Naj et al是由于正文的排版没有区分各部分,无法按照策略定位,只能全文搜索。在Coon et al中,正文里没有SNP信息的表格,只能从Results中搜索。其比值比数据既不在表格也不在Results中,通过全文搜索在Conclusion中找到了比值比的数据。从表2中可以看出,按照上述数据自动提取策略来搜索数据元素可以保证90%以上的成功率,不仅文献中出现的数据能被准确地定位并提取,同时对于文献中没有出现的数据,按照提取策略和注意事项,提取结果也为空值,这说明本研究策略不仅能大大缩短提取数据时所花费的时间,还能保证提取数据的成功率和准确度。

在3类数据信息中,文献信息是最容易提取的,因为在文章中的定位通常很固定;样本信息的定位分布相对集中在Abstract和Methods中,但仍有可能需要搜索全文的每一句话。SNP信息的定位最为复杂,因为其中包括的数据元素最多,分布的特殊情况也最多,具体分布见图3。例如比值比和P值数据,不仅在正文和Supplementary的表格中可以得到,还需要搜索Results和Conclusion中的每一句话,才能提取完整的数据。这种“藏匿数据”的情况对数据自动提取的影响最大,因为如果没有提前考虑到所有类似的特殊情况并制定相应的策略,则很有可能会丢失这些关键的数据,也就失去了数据自动提取的意义,而这也是这篇文章想解决的。对于文献根本没有提及的数据元素,比如标准误数据和allele数据,不会将错误提取其他数据。这说明上述策略不仅可以帮助计算机准确地提取既存数据,也可以对没有报道的数据元素做出正确的操作。

表1 Lambert et al研究的数据定位及数据提取结果

表2 纳入文献数据提取的成功比例和失败原因

3 讨论

本文提出GWAS研究数据自动提取的策略,可以有效地缩短搜索、提取数据所花费的时间。但仅通过提前定位各数据元素的位置,没有考虑数据被“藏匿”的情况,如Coon et al中,文章没有用表格,而是把SNP信息放在Results和Conclusion中,需要逐字逐句地搜索;再比如Tan et al中的发表信息DOI code被藏匿在这篇文章的网址中,如果按照策略将无法正确提取。因此还需要进一步发现更多信息被藏匿的情况并作出更合理的数据自动提取的策略。

图3 SNP信息在文中定位的分布

对于排版没有区分各部分的文献,需要首先作出判断并直接搜索全文。因为本文提出的策略的原理就是基于提前对数据元素在文章中各部分进行定位,再按照不同的情况提取、综合数据信息,所以对于像Naj et al这样的文献,需要直接搜索全文并不需要提前定位。

除此之外,对于分布相对分散的信息,尤其是SNP信息,搜索到关键句或关键词之后,如何将多个从文章不同位置提取出的信息综合起来得到最终的数据信息,是需要进一步考虑的重要问题。如何区分哪些数据对应着哪个样本对我们来说至关重要,这直接影响到数据提取的准确度,因此这个问题急需解决。

4 结论

本文是一篇针对计算机自动提取GWAS研究数据用于元分析的文章。本文中提出了通过提前定位各项元分析所需要的数据元素在研究文献中的位置来帮助计算机快速准确地提取数据的策略;之后通过阿尔兹海默症的GWAS元分析为例,对每一篇纳入研究按照提出的策略搜索并提取数据,总结了提取数据的结果;结果显示设计的提取策略有效缩短了搜索、提取数据的时间,同时成功率和准确度也有所提高,基本保持在90%以上。本研究为自动提取数据提供有效的提取策略和向导作用,这对于元分析向大数据时代发展有着推进作用。

[参考文献]

[1] Nakaoka H,Inoue I.Meta-analysis of genetic association studies: methodologies[J].J Hum Genet,2009,54(11):615-623.

[2] Jeck WR,Siebold AP,Sharpless NE.A meta-analysis of GWAS and age-associated diseases[J].Aging,2012,11(5):727-731.

[3] E lmar P,Diego FT,Paolo B.H igh performance solutions for bigdata GWAS[J].Parallel Comput,2014,42:75-87.

[4] Jonnalagadda SR,Goyal P,Huffman MD.Automating data extraction in systematic reviews: a systematic review[J].Syst Rev,2015,4(1):78.

[5] Zeggini E,Ioannidis JP.Meta-analysis in genome-wide association studies[J].Pharmacogenetics,2016,10(2):191-201.

[6] Nath C,Albaghdadi MS,Jonnalagadda SR.A natural language processing tool for large-scale data extraction from echocardiography reports[J].PLoS One,2016,28,11(4):e0153749.

[7] Abraham R,Moskvina V,Sims R,et al.A genome-wide association study for late-onset Alzheimer’s disease using DNA pooling[J]. BMC Med Genomics,2008,1(1):44.

[8] Beecham GW,Martin ER,Li YJ,et al.Genome-wide association study implicates a chromosome 12 Risk locus for late-onset Alzheimer disease[J].Am J Hum Genet,2009,84(1):35-43.

[9] Coon KD,Myers AJ,Craig DW,et al.A high-density whole-genome association study reveals that APOE is the major susceptibility gene for sporadic late-onset Alzheimer’s disease[J].J Clin Psychiatry, 2007,68(4):613-618.

[10] Grupe A,Abraham R,Li Y,et al.Evidence for novel susceptibility genes for late-onset Alzheimer’s disease from a genome-wide association study of putative functional variants[J].Hum Mol Genet,16(8):865-873.

[11] Hirano A,Ohara T,Takahashi A,et al.A genome-wide association study of late-onset Alzheimer’s disease in a Japanese population[J]. Psychiatr Genet,2015,25(4):139-146.

[12] Hu X,Pickering E,Liu YC,et al.Meta-analysis for genomewide association study identif i es multiple variants at the BIN1 locus associated with late-onset Alzheimer’s disease[J].PLoS One,2011,6(2):e16616.

[13] Lambert JC,Heath S,Even G,et al.Genome-wide association study identifies variants at CLU and CR1 associated with Alzheimer’s disease[J].Nat Genet,2009,41(10):1094-1099.

[14] Miyashita A,Koike A,Jun G,et al.SORL1 is genetically associated with late-onset Alzheimer’s disease in japanese, koreans and caucasians[J].PLoS One,2013,8(4):e58618.

[15] Naj AC,Jun G,Beecham GW,et al.Common variants in MS4A4/ MS4A6E, CD2uAP, CD33, and EPHA1 are associated with lateonset Alzheimer’s disease[J].Nat Genet,2011,43(5):436-441.

[16] Tan L,Yu JT,Zhang W,et al.Association of GWAS-linked loci with late-onset Alzheimer’s disease in a northern Han Chinese population[J].Alzheimers Dement,2013,9(5):546-553.

本文编辑 苏欣

Exploring Automated Meta Analyses of Genome-Wide Association Studies

JI Ran, LI Dong-guo, ZHANG Da-bao

School of Biomedical Engineering, Capital Medical University, Beijing 100069, China

Abstract:With the rapid development of natural language processing and text mining technology, the step of extracting data from literature began changing from manual extraction to automation by computer. In the past cases, researchers searched entire articles sentence by sentence to looking for key words or key sentences. But the thorough searching without focus points wasted much time. In thispaper, we took genome-wide association study (GWAS) as the example to develop the strategies of data automatics extraction for meta-analysis through clearing the positions of data elements we cared about in the included studies in advance to help computers extract the complete data quickly and accurately by searching only parts of the literature. At the same time, we used a GWAS study about Alzheimer’s disease as a case study to search and extract data from all the included studies according to the strategies that we developed. Results showed that our strategies not only shortened the time of extraction, but also kept the success rate and accuracy more than 90%. Our research provided effective strategies and a guide for the research of automatic extraction of GWAS data, which has a promoting effect on the development of meta-analysis to the big data era.

Key words:genome-wide association study; meta-analysis; data location; data automatics extraction; single nucleotide polymorphism

[中图分类号]Q789

[文献标志码]A

doi:10.3969/j.issn.1674-1633.2017.05.001

[文章编号]1674-1633(2017)05-0001-05

收稿日期:2017-03-21

基金项目:科技部“973”项目(2014CB744604);北京市教委科技计划面上项目(KM201010025004;KM201410025013);北京市脑重大疾病研究院基金项目(BIBDPXM2014_014226_000016)。

通讯作者:张大保,教授。

通讯作者邮箱:zhangdb@purdue.edu