Classificação de Mutações Associadas ao Câncer Integrando Aprendizagem de Máquina e Parâmetros Estruturais e Topológicos de Redes de Interação de Resíduos
Mutações Missensse, Preditores, Redes de Interação de Resíduos, Aprendizagem de Máquina
O grande volume de dados de polimorfismos de nucleotídeo único atualmente disponíveis tem impulsionado o desenvolvimento de métodos capazes de distinguir alterações neutras daquelas associadas a doenças, como o câncer. A obtenção de evidências experimentais sobre a patogenicidade de variantes é um processo trabalhoso, demorado e de alto custo. Diversas ferramentas in silico têm sido empregadas para a predição de patogenicidade, incluindo PolyPhen-2, PROVEAN, SIFT, FATHMM, MutationTaster, MutationAssessor e LRT, além de métodos de conjunto (ensemble) que combinam múltiplos preditores independentes, como ClinPred, MetaLR e MetaSVM. Entretanto, a maioria dessas abordagens baseia-se majoritariamente em informações genômicas e de frequência alélica. Nas últimas décadas, ferramentas que integram dados topológicos de redes de interação de resíduos (RINs) às saídas de preditores tradicionais têm demonstrado desempenho superior.O objetivo deste trabalho consistiu no desenvolvimento de um modelo de classificação capaz de avaliar o impacto de características estruturais e topológicas de RINs na melhoria da acurácia de classificadores de mutações. Para isso, foram construídas bases de dados curadas, contendo previsões funcionais, informações genômicas, estruturais e funcionais associadas a 33 tipos de câncer, seguidas da aplicação e avaliação de diversos algoritmos de aprendizagem de máquina supervisionada. Os resultados demonstraram que a integração de parâmetros estruturais e topológicos derivados das RINs aprimora a capacidade preditiva de modelos de aprendizagem de máquina na classificação de mutações missense associadas ao câncer. O modelo baseado em XGBoost apresentou desempenho consistente, alcançando acurácia de 74,0%, sensibilidade de 73,9%, especificidade de 74,1% e F1-score de 74,5%. Esses resultados indicam que o modelo proposto apresenta bom equilíbrio entre sensibilidade e especificidade, evita vieses entre as classes e demonstra boa capacidade de generalização em um cenário altamente heterogêneo, composto por múltiplos genes e diferentes contextos tumorais.