- 全球智能网联解决方案提供商 | 车联网软件生态服务 - 全球智能网联解决方案提供商 | 车联网软件生态服务

新闻中心

“DNA谷歌”来了,海量数据搜索引擎开辟生物学研究新领域

发布时间:2025-10-11 14:00:25  /  浏览次数:226次

【导语】生物学领域迎来“DNA谷歌”MetaGraph,这款搜索引擎能快速筛选海量生物数据,设定分析原始生物数据新标准。其无需明确标注基因模式,就能找到隐藏在庞大测序数据集深处的模式,解决测序数据集可及性问题,为生物学研究开启“拍字节级基因组学”全新领域。

“DNA谷歌”来了,海量数据搜索引擎开辟生物学研究新领域

互联网有谷歌,如今生物学领域有了MetaGraph。这款搜索引擎能够快速筛选公共数据库中储存的海量生物数据。相关研究成果10月8日发表于《自然》。

“这是一项了不起的成就。”法国巴斯德研究所的Rayan Chikhi表示,“他们为分析原始生物数据设定了一个新标准。”这些数据包括DNA、RNA和蛋白质序列,来源于可能包含千万亿级DNA碱基的数据库,相当于拍字节(1拍字节=1000万亿字节)的信息,其数量甚至超过谷歌庞大索引中的所有网页。

尽管MetaGraph被视为“DNA谷歌”,但Chikhi更倾向于将其比作“YouTube搜索引擎”,因为它背后的计算任务难度更高。就像在YouTube上搜索时,能够检索到所有以“红色气球”为特征的视频,即使这一关键词并未出现在标题、标签或描述中。MetaGraph同样无需提前对基因模式进行明确标注,就能找到隐藏在庞大测序数据集深处的这些模式。

开发MetaGraph的初衷是为了解决测序数据集的可及性问题。过去几十年间,生物数据库的规模呈爆炸式增长,却给使用这些数据的科学家带来了挑战——原始测序读数碎片化、噪声多,且数量庞大,无法直接检索。加拿大(dà)多(duō)伦(lún)多大学的Artem Babaian指出:“矛盾的是,数据量反而成了我们实际使用这些数据的最大障碍。”

论文共同通讯作者、瑞士苏黎世联邦理工学院的André Kahles表示,MetaGraph能够帮助研究人员向序列读取档案库(SRA)这样的数据库提出生物学问题。SRA作为一个公共数据库,包含的DNA碱基已超过10亿亿个。

研究团队借助数学“图谱”解决了数据检索难题。这种图谱能将重叠的DNA片段连接起来,就像图书索引中排列的使用相同词汇的句子一样。

研究人员整合了7个公共资助数据库的数据,构建出涵盖病毒、细菌、真菌、植物、动物,也包括人类在内的所有生(shēng)物(wù)类(lèi)群(qún)的(de)序(xù)列(liè)集,其(qí)中(zhōng)包(bāo)含(hán)1880万(wàn)个(gè)独(dú)特(tè)的(de)DNA和(hé)RNA序(xù)列(liè)集,以(yǐ)及(jí)2100亿(yì)个(gè)氨(ān)基(jī)酸(suān)序(xù)列(liè)集。同(tóng)时(shí),他(tā)们(men)还(hái)为(wèi)这(zhè)些(xiē)序(xù)列(liè)开(kāi)发(fā)了(le)一(yī)款(kuǎn)搜索引擎,用户只需通过文本提示,就能检索这些整合后的原始数据档案。

“这是一种与这类数据交互的全新方式。”Kahles说,“数据虽然经过压缩处理,但可实现即时访问。”

为证明MetaGraph的实用价值,研究团队利用它对全球(qiú)241384个人类肠道微生(shēng)物(wù)组(zǔ)样(yàng)本(běn)进行了检索,旨在寻找全球抗生素耐药性的基因标志物。这项研究是在前期工作基础上开展的。此前研究人员曾利用旧版MetaGraph追踪过全球主要城市地铁系统中细菌菌株的耐药基因。据团队介绍,在一台高性能计算机上完成这项分析仅需约1个小时。

MetaGraph并非目前唯一的大规模序列检索工具。例如,Chikhi和Babaian共同开发了一个名为Logan的平台,能将数十亿条短测序读数拼接成更长、更有组织的DNA片(piàn)段(duàn)。这(zhè)种(zhǒng)设(shè)计(jì)架(jià)构(gòu)使(shǐ)其(qí)能(néng)在(zài)比(bǐ)MetaGraph更(gèng)大(dà)规(guī)模(mó)的(de)测(cè)序(xù)读(dú)数(shù)集合(hé)中(zhōng),识(shi)别(bié)出(chū)完(wán)整(zhěng)基(jī)因(yīn)及(jí)其(qí)变(biàn)异(yì)。Chikhi表(biǎo)示(shì):“我(wǒ)们(men)的(de)工(gōng)具(jù)功(gōng)能(néng)较(jiào)少(shǎo),但(dàn)性(xìng)能(néng)更(gèng)强(qiáng)。”

凭(píng)借(jiè)更(gèng)广(guǎng)的(de)检(jiǎn)索(suǒ)范(fàn)围(wéi),Logan帮(bāng)助(zhù)研(yán)究(jiū)人(rén)员(yuán)发(fā)现(xiàn)了2亿多个天然存在的“噬塑酶”变体,这些变体来源于多种细菌、真菌和昆虫,其中部分变体的活性甚至优于实验室设计的酶。9月,这一发现公布于预印本bioRxiv。

Babaian认为,这类发现离不开开源检索工具及其依托的公共测序数据库。目前,一些生物数据库正面临资金削减的威胁,他强调,这些检索技术的创新恰恰凸显了“开放数据共享至关重要”。“这些资源正在推动全球科学进步,并开启了一个全新的‘拍字节级基因组学’领域。”

相关论文信息:https://doi.org/10.1038/s41586-025-09603-w       https://doi.org/10.1101/2024.07.30.605881