Mitomine e Amazon AquaBio: Um Fluxo de Trabalho Computacional para Automação da Montagem, Anotação e Análise de Mitogenomas e uma Plataforma Web para Persistência e Comparação Visual de Dados Amazônicos
DNA mitocondrial, fluxos de trabalho, mineração de dados, dados genômicos públicos, visualização de dados web, automação.
A revolução do Sequenciamento de Nova Geração (NGS) resultou em uma explosão de dados genômicos em repositórios públicos nas últimas décadas, como o Sequence Read Archive (SRA). Contudo, a capacidade de transformar esse "dilúvio de dados" em conhecimento biológico não acompanhou tal ritmo, exigindo novas abordagens de estudo e análise a fim de interpretações mais eficientes. Diante deste cenário, a presente pesquisa propõe uma arquitetura computacional integrada para solucionar a dispersão de dados e a falta de reprodutibilidade na genômica de organelas. Para isto, foi desenvolvido o Mitomine, um pipeline automatizado orquestrado em Nextflow, que integra ferramentas de montagem baseada em sementes (NOVOPlasty) e circularização híbrida (Unicycler) para recuperar genomas mitocondriais completos a partir de dados públicos de sequenciamento total (WGS). Adicionalmente, implementou-se um conjunto de scripts em Python e Shell para a automação da anotação funcional e geração de análises genômicas (RSCU, viés de fita e sintenia). Por fim, para garantir a aderência aos princípios FAIR (Findable, Accessible, Interoperable, Reusable) e a longevidade dos dados, foi desenvolvida a plataforma Amazon AquaBio. Trata-se de uma aplicação web estática (Serverless) hospedada via GitHub Pages, que atua como repositório de persistência e ferramenta de visualização interativa. A arquitetura foi validada através de um estudo de caso com a família Cichlidae, processando dados brutos de 34 espécies amazônicas, resultando na montagem e disponibilização de 100 mitogenomas curados. Os resultados demonstram que a combinação de orquestração de contêineres e visualização web client-side democratiza o acesso à genômica, oferecendo uma solução de baixo custo e alta reprodutibilidade para o estudo da biodiversidade no Sul Global.