Um revolucionário mecanismo de busca de DNA acelera a descoberta de genes

Doenças genéticas raras podem agora ser diagnosticadas em pacientes e identificadas mutações específicas de tumores – um marco tornado possível pela sequenciação de ADN, que transformou a investigação biomédica há décadas. Nos últimos anos, a introdução de novas tecnologias de sequenciamento (sequenciamento de próxima geração) impulsionou uma onda de avanços. Por exemplo, em 2020 e 2021, estes métodos permitiram a descodificação rápida e o rastreio global do genoma do SARS-CoV-2.

Ao mesmo tempo, um número crescente de investigadores está a tornar os seus resultados de sequenciação acessíveis ao público. Isto levou a uma explosão de dados armazenados em grandes bases de dados, como o SRA (Sequence Read Archive) dos EUA e o ENA europeu (European Nucleotide Archive). Juntos, estes arquivos contêm agora cerca de 100 petabytes de informação – o equivalente à quantidade total de texto encontrado em toda a Internet, com um petabyte equivalendo a um milhão de gigabytes.

Até agora, os cientistas biomédicos necessitavam de enormes recursos informáticos para pesquisar estes vastos repositórios de genomas e compará-los com os seus próprios dados. Pesquisadores da ETH Zurique desenvolveram agora uma maneira de superar essa limitação.

Pesquisa de texto completo em vez de baixar conjuntos de dados inteiros

A equipe desenvolveu uma ferramenta chamada MetaGraph que agiliza e acelera drasticamente o processo. Em vez de baixar conjuntos de dados inteiros, o MetaGraph permite a pesquisa direta em dados brutos de DNA ou RNA, semelhante ao uso de um mecanismo de pesquisa na Internet. Os cientistas simplesmente inserem uma sequência genética de interesse num campo de pesquisa e, em segundos ou minutos, dependendo da consulta, podem ver onde essa sequência aparece nas bases de dados globais.

“É uma espécie de Google para DNA”, explica o Prof. Gunnar Ratch, cientista de dados do Departamento de Ciência da Computação da ETH Zurique. Anteriormente, os pesquisadores só podiam pesquisar metadados descritivos e depois tinham que baixar conjuntos de dados inteiros para acessar sequências brutas. Essa abordagem foi lenta, incompleta e cara.

De acordo com os autores do estudo, o MetaGraph é extremamente econômico. Representar todas as sequências biológicas disponíveis publicamente requer apenas alguns discos rígidos de computador, e consultas grandes não custam mais do que US$ 0,74 por megabase.

Dado que o novo motor de busca de ADN é rápido e preciso, poderá acelerar significativamente a investigação – especialmente na identificação de agentes patogénicos emergentes ou na análise de factores genéticos associados à resistência aos antibióticos. O sistema pode ajudar a identificar vírus benéficos que destroem bactérias nocivas (bacteriófagos) escondidas nesses enormes bancos de dados.

Compressão por um fator de 300

Em seu estudo publicado em 8 de outubro NaturezaA equipe da ETH demonstrou como funciona o MetaGraph. Semelhante à forma como o software de planilha organiza os valores, esta ferramenta organiza e resume os dados genéticos usando diagramas matemáticos avançados que estruturam as informações com mais eficiência. “Matematicamente falando, é uma matriz enorme com milhões de colunas e trilhões de linhas”, explica Ratch.

A criação de índices para tornar pesquisáveis ​​grandes conjuntos de dados é um conceito bem conhecido na ciência da computação, mas a abordagem ETH mostra como combinar dados brutos com metadados, alcançando ao mesmo tempo uma taxa de compressão extraordinária de 300 vezes. Esta redução funciona como condensar um livro – eliminando redundâncias enquanto preserva narrativas e relacionamentos essenciais, retendo todas as informações relevantes de uma forma compacta.

“Estamos ultrapassando os limites do que é possível para manter os conjuntos de dados o mais compactos possível, sem perder informações essenciais”, diz o Dr. Andre Kahls, que, como Rätsch, é membro do Grupo de Informática Biomédica da ETH Zurique. Em contraste com as máscaras de busca de DNA atualmente pesquisadas, a abordagem dos pesquisadores da ETH é escalável. Isso significa que quanto maior a quantidade de dados consultados, menos poder computacional adicional a ferramenta requer.

Metade dos dados já está disponível

Introduzido pela primeira vez em 2020, o Metagraph tem sido constantemente refinado. A ferramenta agora está acessível publicamente para pesquisas (https://metagraph.ethz.ch/search) e já cataloga milhões de sequências de DNA, RNA e proteínas de vírus, bactérias, fungos, plantas, animais e humanos. Atualmente, quase metade de todos os conjuntos de dados de sequências globais disponíveis foram incluídos, com o restante previsto para o final do ano. Como o MetaGraph é de código aberto, ele também atrairá o interesse de empresas farmacêuticas que gerenciam grandes quantidades de dados de pesquisas internas.

Kahlus acredita que um dia o mecanismo de busca de DNA será usado por particulares: “No início, nem mesmo o Google sabia para que servia um mecanismo de busca. Se o rápido crescimento no sequenciamento de DNA continuar, identificar as plantas da sua varanda com mais precisão se tornará comum.”

Link da fonte

Releated

Apple Watch 在 Strava 用戶中排名第

Strava 剛剛發布了第 12 份年度運動趨勢報告,Apple Watch 在一個重要類別中奪得了金牌。   據 Strava 稱,Apple Watch 將成為 2025 年用戶最常用的手錶。 Apple Watch 佔據了手錶類別的榜首,COROS 也獲得了極高的人氣。 Oura 和 WHOOP 等非手錶可穿戴設備也在快速增長。 Strava 用戶還將 Apple Health(Apple Watch 上的鍛煉)排在 Strava 社區內用於記錄跑步、步行和其他鍛煉的應用程序列表中的前列。 Strava 用戶選擇 Apple Watch 作為最佳可穿戴設備尤其值得注意,因為這個以健身為中心的平台在 iPhone 和 Android 上均可用。 去年一月,Apple Fitness+ 和 Strava 聯手推出了力量訓練計劃。 9 月份,Strava 更新了 Apple Watch 應用程序,並添加了備受期待的 Live Segments 功能。 您可以閱讀完整報告 這裡。 蘋果手錶系列 11, 蘋果手錶 […]