Advanced Convolutional Neural Network Techniques for Classification of SARS-CoV-2 Variants and Other Viruses: A Study Using k-mers and Chaos Game Representation
SARS-CoV-2; COVID-19; aprendizagem profunda; rede neural convolucional; k-mers; Chaos Game Representation; classificação viral.
Desde Dezembro de 2019, o impacto global da pandemia da COVID-19, causada pelo vírus SARS-CoV-2, tem sido profundo. A identificação precoce da classificação taxonómica e da origem genômica do vírus é fundamental para o planejamento estratégico, contenção e tratamento. As técnicas de aprendizagem profunda provaram ser bem-sucedidas na abordagem de vários desafios de classificação viral, incluindo diagnóstico, metagenômica, filogenética e análise genômica. Motivado por esses avanços, este estudo apresenta um classificador de genoma viral eficaz para SARS-CoV-2, utilizando uma estrutura de rede neural convolucional (CNN). Esta pesquisa empregou representações de imagens de sequências completas do genoma para treinar a CNN, aproveitando dois conjuntos de dados distintos: um baseado na representação de imagens k-mers e outro na representação do jogo do caos (CGR). O conjunto de dados k-mers foi usado para experimentos de classificação taxonômica do vírus SARS-CoV-2, enquanto o conjunto de dados CGR se concentrou na classificação de variantes preocupantes (VOC) do SARS-CoV-2. A CNN obteve desempenho notável na classificação taxonômica, com taxas de acurácia variando de 92% a 100% no conjunto de validação e entre 98,9% e 100% no conjunto de testes contendo amostras de SARS-CoV-2. Estes resultados demonstram a adaptabilidade do modelo para classificar outros vírus emergentes. Para a classificação das variantes do SARS-CoV-2 usando imagens CGR, a CNN apresentou precisão ainda maior, atingindo 99.9% no conjunto de validação e 99.8% no conjunto de testes. As descobertas sublinham a aplicabilidade de técnicas de aprendizagem profunda em tarefas de classificação de genomas, fornecendo uma ferramenta robusta para a detecção precoce e classificação de ameaças virais. A integração de CNNs com representações de imagens k-mers e CGR apresenta um método novo e eficaz para análise do genoma viral, apoiando esforços contínuos em virologia e saúde pública.