
Os organismos microscópicos que preenchem os nossos corpos, solos, oceanos e atmosfera desempenham papéis essenciais na saúde humana e nos ecossistemas do planeta. No entanto, mesmo com a sequenciação moderna do ADN, descobrir o que são estes micróbios e como estão relacionados entre si continua a ser extremamente difícil.
Em dois novos estudos, pesquisadores da Arizona State University apresentam ferramentas poderosas que tornam esse trabalho mais fácil, mais preciso e muito mais escalável. Uma ferramenta melhora a forma como os cientistas constroem árvores genealógicas microbianas. O outro fornece uma base de software usada mundialmente para analisar dados biológicos.
Juntos, esses avanços fortalecem os fundamentos científicos da microbioma pesquisa, rastreamento de doenças, monitoramento ambiental e campos emergentes como medicina de precisão.
Nossa equipe cria ferramentas de software de código aberto porque acreditamos que quando todos podem acessar e ampliar ferramentas científicas, toda a comunidade se beneficia e a descoberta acelera.”
Qiyun Zhu, Universidade Estadual do Arizona
Zhu é pesquisador do Centro de Biodesign para Microbiômica Fundamental e Aplicada e professor assistente da Escola de Ciências da Vida da ASU. Ele é acompanhado por colegas da ASU e colaboradores internacionais.
O primeiro estudo, sobre como melhorar genes marcadores, aparece na revista Comunicações da Natureza. O segundo estudo, que descreve uma biblioteca de software de código aberto conhecida como scikit-bio, aparece em Métodos da Natureza.
Caso de família
Construir árvores evolutivas detalhadas e precisas é essencial para compreender como os micróbios evoluem e influenciam o mundo. Melhores árvores evolutivas melhoram o rastreamento de doenças e ajudam os cientistas a acompanhar como os micróbios nocivos mudam ao longo do tempo. Eles também aprimoram a pesquisa ambiental, mostrando como as comunidades microbianas respondem à poluição ou às mudanças climáticas. Uma identificação microbiana mais clara também fortalece os estudos do microbioma intestinal e do seu papel na saúde.
Descobrir como os micróbios estão relacionados começa com a escolha dos genes marcadores certos – os sinais no DNA que traçam a sua história evolutiva.
Durante muitos anos, os cientistas confiaram no mesmo pequeno conjunto de genes marcadores tradicionais. Mas no campo crescente de metagenômicaos investigadores trabalham agora com milhões de genomas, muitas vezes diretamente de amostras ambientais. A metagenômica permite aos cientistas coletar todo o DNA de um ambiente e sequenciá-lo de uma só vez, revelando comunidades ocultas inteiras de micróbios.
Esses genomas são extremamente valiosos, mas muitas vezes são incompletos ou de qualidade irregular. Isso torna difícil usar um conjunto fixo de genes marcadores e esperar resultados evolutivos precisos.
Para resolver isso, Zhu e colegas ajudaram a desenvolver o TMarSel (abreviação de Tree-based Marker Selection). Em vez de escolher genes manualmente, o TMarSel pesquisa automaticamente milhares de famílias de genes possíveis e seleciona a combinação que constrói a árvore evolutiva mais confiável. Ele avalia cada gene quanto ao quão comum ele é, quão informativo é e quanto contribui para um quadro estável e significativo das relações microbianas.
O resultado é uma forma flexível e baseada em dados de construir árvores microbianas que funcionam bem mesmo para grupos grandes e diversos de organismos – e mesmo quando muitos genomas estão apenas parcialmente completos.
Scikit-bio: Ancestry.com para micróbios
Zhu também é desenvolvedor líder do scikit-bio, uma vasta biblioteca de software de código aberto. O Scikit-bio oferece aos cientistas as ferramentas necessárias para analisar enormes conjuntos de dados biológicos. É particularmente útil para estudar microbiomas – comunidades de micróbios que vivem num ambiente específico, como o intestino humano.
Os conjuntos de dados biológicos são diferentes de qualquer outro tipo de dados: são extremamente grandes, muito esparsos e muitas vezes incluem milhares de características interligadas. Os programas padrão de análise de dados não são criados para esse nível de fragmentação e complexidade. Scikit-bio preenche essa lacuna oferecendo mais de 500 funções para tarefas como:
- Comparando comunidades microbianas.
- Calculando a diversidade.
- Transformando dados composicionais.
- Análise de sequências de DNA, RNA e proteínas.
- Construindo e modificando árvores filogenéticas.
- Preparando dados para aprendizado de máquina.
O projeto é conduzido pela comunidade, apoiado por mais de 80 colaboradores e mantido com testes e documentação rigorosos. Já foi citado em dezenas de milhares de artigos científicos em medicina, ecologia, ciências climáticas e biologia do cancro. Tornou-se uma ferramenta essencial para pesquisadores que analisam o microbioma e outras áreas grandes e ricas em dados da biologia moderna.
Uma nova era na pesquisa microbiana
À medida que os conjuntos de dados biológicos crescem, ferramentas como o scikit-bio e o TMarSel tornam a investigação em grande escala mais fiável e reprodutível.
Os estudos reforçam o papel crescente da ASU na interseção da biologia e da computação. O trabalho de Zhu mostra como a combinação de insights evolutivos com engenharia de software avançada pode produzir ferramentas usadas por cientistas de todo o mundo.
À medida que a sequenciação do ADN se torna cada vez mais rápida e barata, os cientistas descobrirão ainda mais do universo microbiano. Ferramentas como o TMarSel e o scikit-bio garantem que esta enxurrada de dados possa ser transformada em insights científicos reais.
Fonte:
Referência do diário:
Aton, M., e outros. (2025). Scikit-bio: uma biblioteca Python fundamental para análise de dados ômicos biológicos. Métodos da Natureza. DOI:10.1038/s41592-025-02981-z. https://www.nature.com/articles/s41592-025-02981-z.