Ciência e tecnologia

Um revolucionário mecanismo de busca de DNA acelera a descoberta de genes

Doenças genéticas raras podem agora ser diagnosticadas em pacientes e identificadas mutações específicas de tumores – um marco tornado possível pela sequenciação de ADN, que transformou a investigação biomédica há décadas. Nos últimos anos, a introdução de novas tecnologias de sequenciamento (sequenciamento de próxima geração) impulsionou uma onda de avanços. Por exemplo, em 2020 e 2021, estes métodos permitiram a descodificação rápida e o rastreio global do genoma do SARS-CoV-2.

Ao mesmo tempo, um número crescente de investigadores está a tornar os seus resultados de sequenciação acessíveis ao público. Isto levou a uma explosão de dados armazenados em grandes bases de dados, como o SRA (Sequence Read Archive) dos EUA e o ENA europeu (European Nucleotide Archive). Juntos, estes arquivos contêm agora cerca de 100 petabytes de informação – o equivalente à quantidade total de texto encontrado em toda a Internet, com um petabyte equivalendo a um milhão de gigabytes.

Até agora, os cientistas biomédicos necessitavam de enormes recursos informáticos para pesquisar estes vastos repositórios de genomas e compará-los com os seus próprios dados. Pesquisadores da ETH Zurique desenvolveram agora uma maneira de superar essa limitação.

Pesquisa de texto completo em vez de baixar conjuntos de dados inteiros

A equipe desenvolveu uma ferramenta chamada MetaGraph que agiliza e acelera drasticamente o processo. Em vez de baixar conjuntos de dados inteiros, o MetaGraph permite a pesquisa direta em dados brutos de DNA ou RNA, semelhante ao uso de um mecanismo de pesquisa na Internet. Os cientistas simplesmente inserem uma sequência genética de interesse num campo de pesquisa e, em segundos ou minutos, dependendo da consulta, podem ver onde essa sequência aparece nas bases de dados globais.

“É uma espécie de Google para DNA”, explica o Prof. Gunnar Ratch, cientista de dados do Departamento de Ciência da Computação da ETH Zurique. Anteriormente, os pesquisadores só podiam pesquisar metadados descritivos e depois tinham que baixar conjuntos de dados inteiros para acessar sequências brutas. Essa abordagem foi lenta, incompleta e cara.

De acordo com os autores do estudo, o MetaGraph é extremamente econômico. Representar todas as sequências biológicas disponíveis publicamente requer apenas alguns discos rígidos de computador, e consultas grandes não custam mais do que US$ 0,74 por megabase.

Dado que o novo motor de busca de ADN é rápido e preciso, poderá acelerar significativamente a investigação – especialmente na identificação de agentes patogénicos emergentes ou na análise de factores genéticos associados à resistência aos antibióticos. O sistema pode ajudar a identificar vírus benéficos que destroem bactérias nocivas (bacteriófagos) escondidas nesses enormes bancos de dados.

Compressão por um fator de 300

Em seu estudo publicado em 8 de outubro NaturezaA equipe da ETH demonstrou como funciona o MetaGraph. Semelhante à forma como o software de planilha organiza os valores, esta ferramenta organiza e resume os dados genéticos usando diagramas matemáticos avançados que estruturam as informações com mais eficiência. “Matematicamente falando, é uma matriz enorme com milhões de colunas e trilhões de linhas”, explica Ratch.

A criação de índices para tornar pesquisáveis ​​grandes conjuntos de dados é um conceito bem conhecido na ciência da computação, mas a abordagem ETH mostra como combinar dados brutos com metadados, alcançando ao mesmo tempo uma taxa de compressão extraordinária de 300 vezes. Esta redução funciona como condensar um livro – eliminando redundâncias enquanto preserva narrativas e relacionamentos essenciais, retendo todas as informações relevantes de uma forma compacta.

“Estamos ultrapassando os limites do que é possível para manter os conjuntos de dados o mais compactos possível, sem perder informações essenciais”, diz o Dr. Andre Kahls, que, como Rätsch, é membro do Grupo de Informática Biomédica da ETH Zurique. Em contraste com as máscaras de busca de DNA atualmente pesquisadas, a abordagem dos pesquisadores da ETH é escalável. Isso significa que quanto maior a quantidade de dados consultados, menos poder computacional adicional a ferramenta requer.

Metade dos dados já está disponível

Introduzido pela primeira vez em 2020, o Metagraph tem sido constantemente refinado. A ferramenta agora está acessível publicamente para pesquisas (https://metagraph.ethz.ch/search) e já cataloga milhões de sequências de DNA, RNA e proteínas de vírus, bactérias, fungos, plantas, animais e humanos. Atualmente, quase metade de todos os conjuntos de dados de sequências globais disponíveis foram incluídos, com o restante previsto para o final do ano. Como o MetaGraph é de código aberto, ele também atrairá o interesse de empresas farmacêuticas que gerenciam grandes quantidades de dados de pesquisas internas.

Kahlus acredita que um dia o mecanismo de busca de DNA será usado por particulares: “No início, nem mesmo o Google sabia para que servia um mecanismo de busca. Se o rápido crescimento no sequenciamento de DNA continuar, identificar as plantas da sua varanda com mais precisão se tornará comum.”

Link da fonte