3D-QSARpy: Combinando estratégias de seleção de variáveis e várias técnicas de aprendizado de máquina para construir modelos QSAR
Modelos QSAR, QSAR-3D, Quimioinformática, Bioinformática estrutural, Atividade Biológica, Predição, Regressão, seleção de características.
Quantitative Structure Activity Relationship (QSAR) é uma tecnologia da área da química medicinal que busca esclarecer as relações existentes entre estruturas moleculares e suas respectivas atividades biológicas. Para isso, são construídos modelos QSAR a partir dos dados estruturais (2D, 3D ou 4D) provenientes de uma série de moléculas já testadas para uma determinada atividade. Através de predições realizadas por esses modelos, objetiva- se identificar quais modificações na molécula podem influenciar, reforçando ou não a resposta biológica. Tal tecnologia permite acelerar o desenvolvimento de novos compostos, reduzindo os custos destinados ao planejamento de fármacos. Considerando o contexto brevemente exposto, o presente trabalho apresenta como objetivo geral propor uma metodologia e testa-la em diversos conjuntos de dados através do desenvolvimento de uma ferramenta para QSAR-3D, então denominada 3D-QSARpy. A metodologia foi validada com sucesso através da aplicação da ferramenta em dois conjuntos de dados com resultados superiores aos previamente publicados. O primeiro deles envolvendo o tratamento de diabetes, alcançando r 2 pred de 0.91. O segundo conjunto referente ao tratamento de câncer, com r 2 pred =0.98. Por fim, duas aplicações da ferramenta foram realizadas, contribuindo com a identificação de novas estruturas moleculares bioativas usando diferentes abordagens. Sendo a primeira delas destinada ao tratamento da doença de chagas, incluindo a construção de modelos QSAR híbridos para três séries, obtendo, r 2 pred =0.8, 0.68 e 0.85. A segunda aplicação para construção de modelos QSAR-4D foi destinada ao tratamento da tuberculose com r 2 pred =0.72. Todos os experimentos realizados, sejam para validação ou para identificação dessas novas moléculas demonstraram, não somente a eficiência da metodologia proposta e da ferramenta desenvolvida, como também a versatilidade de aplicações possíveis por meio dela, seja seguindo o seu pipeline geral, seja utilizando-o parcialmente de modo combinado com outras ferramentas existentes.