Transformers e Embeddings de Substituições de Aminoácidos para Análise e Classificação de Variantes do SARS-CoV-2
SARS-CoV-2; Inteligência Artificial; Substituições de Aminoácidos; Embeddings; Transformers; Clusterização Fuzzy; Classificação Supervisionada; Vigilância Genômica
A pandemia de COVID-19, causada pelo SARS-CoV-2, evidenciou a importância de métodos escaláveis para vigilância genômica diante do surgimento contínuo de variantes de preocupação. Este trabalho propõe uma abordagem inovadora baseada em representações vetoriais de substituições de aminoácidos, obtidas por meio de modelos Transformer, para análise e classificação de variantes virais. As sequências foram processadas em embeddings de alta dimensionalidade, que serviram de base para dois experimentos complementares. No primeiro, aplicaram-se técnicas não supervisionadas, como Fuzzy C-Means e projeção t-SNE, capazes de revelar agrupamentos coerentes com as variantes e identificar zonas de transição e amostras ambíguas. No segundo, foram desenvolvidos modelos de classificação supervisionada, avaliando algoritmos como SVM, Random Forest, k-NN e XGBoost, este último alcançando acurácia e F1-macro de 99,83% em conjunto externo de teste. Os resultados demonstram que representações derivadas de substituições de aminoácidos permitem discriminar variantes de forma robusta e interpretar assinaturas mutacionais de relevância biológica, sem necessidade de alinhamento genômico. A proposta configura-se como uma alternativa escalável e adaptável para a vigilância automatizada de patógenos, com potencial aplicação em cenários de saúde pública.