Aprendizagem Profunda Aplicada à Classificação e Avaliação do Comportamento do SARS-CoV-2
SARS-CoV-2, Classificação Viral, Aprendizagem Profunda, Variantes de Preocupação, Rede Neural Convolucional.
O novo Beta Coronavírus, oficialmente nomeado como SARS-CoV-2 (Síndrome Respiratória Aguda Grave Coronavírus - 2 - SARS-CoV-2) é o vírus causador da doença COVID-19. Pertencente à família de vírus Coronaviridae, o SARS-CoV-2, é um vírus envelopado de RNA e fita simples de sentido positivo que contém quase 30.000 pares de base base-pair - bp). Vírus de RNA tendem a sofrer mais modificações do que os vírus de DNA. Assim, quando um vírus está circulando amplamente numa população e ocasionando muitas infecções, a probabilidade de seu genoma sofrer modificações aumenta, podendo afetar negativamente algumas de suas propriedades, tornando-se mais transmissíveis e/ou ainda mais letais. Dentro desse contexto, este trabalho propõe uma ferramenta, baseada em aprendizado de máquina, na qual faz uso de uma rede neural convolucional (CNN) profunda de uma dimensão (1D), destinada à classificação e comparação de genomas virais do novo SARS-CoV-2. Como entrada, foram utilizadas amostras genômicas completas de DNAc (DNA complementar), cujo tamanho varia entre 26342 e 31029 pares de base (base-pair - bp) de comprimento. Ao contrário da maioria das abordagens apresentadas na literatura, os resultados obtidos por esta ferramenta envolvendo a classificação do vírus, da mesma família, revelam valores altos para as métricas de desempenho mostrando-se mais confiáveis se comparados com os trabalhos discutidos no estado da arte. O modelo proposto, também foi utilizado para verificar possíveis alterações nas sequências genômicas das principais variantes de preocupação (alpha, beta, gamma), ao longo de um período de tempo, por meio de seus valores de acurácia, obtidos por meio da classificação entre as variantes. Para este experimento, foram utilizadas amostras genômicas do GISAID (Global Initiative on Sharing All Influenza Data - GISAID) que hospeda, também, dados epidemiológicos e clínicos referentes a todas as variantes relacionadas ao SARS-CoV-2. Os resultados obtidos neste experimento, indicam que o modelo pode ser utilizado, não somente para a classificação do vírus da família Coronaviridae, como também para prever o comportamento das variantes do SARS-CoV-2 ao longo do tempo.