O Ecossistema Computacional da Metagenomica: Fluxos de Trabalho e Reprodutibilidade
Metagenômica; Fluxos de Trabalho; Reprodutibilidade; Desenvolvimento de Software; Nextflow
Os últimos anos têm testemunhado avanços significativos no estudo de comunidades microbianas complexas, impulsionados pela evolução das tecnologias de sequenciamento e pela crescente adoção de métodos de sequenciamento total do genoma (whole genome shotgun) em detrimento dos métodos, antes mais tradicionais, baseados em amplicon. Com essa evolução, essas abordagens foram desenvolvidas com estratégias computacionais associadas para lidar com os dados que geram. No entanto, esses métodos computacionais geralmente não foram acompanhados por estratégias de design cuidadosas que priorizam o suporte a longo prazo, com baixa necessidade de manutenção, alta acessibilidade de dados e automação de ponta a ponta. Neste trabalho, nosso objetivo é, primeiramente, elaborar sobre o cenário computacional em metagenômica e como os métodos atuais podem negligenciar princípios fundamentais de desenvolvimento de software, que os orientariam para uma maior reprodutibilidade, tais como isolamento de dependências, alta parametrização, geração automática de relatórios com figuras interativas que facilitam a exploração de dados e, por fim, documentação descritiva e prática. Em seguida, abordamos as limitações atuais no processamento de dados metagenômicos ao implementar um novo pipeline de análise de dados, o EURYALE, baseado em uma metodologia anterior, o MEDUSA, que selecionou suas ferramentas por meio de rigoroso benchmarking. Esse novo pipeline, adaptável a diferentes cenários e construído com boas práticas de desenvolvimento de software como princípios norteadores, visa avançar o processamento de dados metagenômicos como um todo e, adicionalmente, tornar os dados resultantes desses pipelines de análise acessíveis a um público mais amplo.