Redes Neurais Convolucionais aplicadas à classificação da sequência do SARS-CoV-2
SARS-CoV-2, COVID-19, Apredizagem profunda, CNN
A COVID-19, doença causada pelo vírus SARS-CoV-2, que pertence à família Coronaviridade, o qual possuía um genoma de RNA de sentido positivo e fita simples, vem se espalhando pelo mundo, sendo declarada pandemia pela Organização Mundial da Saúde. Em 17 de janeiro de 2022, havia mais de 329 milhões de casos e 5,5 milhões de mortes. Embora o COVID-19 tenha uma baixa taxa de mortalidade, sua alta capacidade de contaminação, disseminação e mutação preocupa as autoridades, principalmente após o surgimento da variante ômícron, sendo ainda mais transmissível podendo contaminar de forma mais fácil até mesmo pessoas vacinadas. Tais surtos requerem a elucidação da classificação taxonômica e a origem do vírus (SARS-CoV-2) a partir da sequência genômica para planejamento estratégico, contenção e tratamento da doença. Assim, este trabalho propõe uma técnica de alta precisão para classificar vírus e outros organismos a partir da sequência do genoma usando uma Rede Neural Convolucional (CNN) de aprendizado profundo. Ao contrário de outros trabalhos, a abordagem proposta não limita o comprimento da sequência do genoma. Os resultados mostram que a nova proposta distingue com precisão o SARS-CoV-2 da sequência de outros vírus sendo obtidos com 1557 instâncias de SARS-CoV-2 do National Center for Biotechnology Information (NCBI) e 14684 vírus diferentes de origens diversas do Virus-Host DB. Como a CNN possui vários parâmetros mutáveis, foram realizados testes com quarenta e oito arquiteturas diferentes, sendo que a melhor delas teve uma precisão de 91,94 na classificação correta dos vírus em seus domínios, além de 100% na classificação do SARS-CoV-2 em seu respectivo reino, Riboviria. Para as classificações subsequentes (Família, gênero e subgênero), essa precisão aumentou, mostrando que a arquitetura proposta pode ser viável na classificação do vírus causador da COVID-19.