Abordagem Baseada em Embeddings e Transformers para Vigilância Genômica do SARS-CoV-2
SARS-CoV-2; Inteligência Artificial; Processamento de Linguagem Natural; Aprendizado Profundo; Transformers; Embeddings; Vigilância Genômica; Variantes Virais;
A rápida evolução do SARS-CoV-2 impulsionou o uso de técnicas avançadas de inteligência artificial para compreender e monitorar mutações virais. Este trabalho propõe uma metodologia baseada em Processamento de Linguagem Natural (PLN) e aprendizado profundo para analisar substituições de aminoácidos presentes em variantes do vírus, utilizando dados provenientes do banco GISAID. A estratégia adota embeddings gerados por modelos Transformers para representar mutações genéticas de maneira semântica, permitindo a identificação de padrões relevantes e a organização estrutural das amostras em um espaço latente. Os resultados revelam agrupamentos coerentes associados a variantes virais específicas e sugerem que tais representações são sensíveis a diferenças estruturais no genoma viral. Além disso, foi explorada a integração com variáveis epidemiológicas, como continente de origem e faixa etária dos pacientes, visando contextualizar os agrupamentos formados. A abordagem proposta demonstra potencial para auxiliar no rastreamento evolutivo do vírus e contribuir para a construção de ferramentas computacionais aplicáveis a sistemas de vigilância genômica e medicina personalizada.