Análise Preditiva de Incompatibilidade Molecular em Formulações Farmacêuticas Baseada em Augmentação de Dados e Modelos Transformer
Incompatibilidade Farmacêutica, Augmentação de Dados, Grandes Modelos de Linguagem (LLMs), Modelos Transformer
A incompatibilidade entre Ingredientes Farmacêuticos Ativos (IFAs) e excipientes é um desafio no desenvolvimento de medicamentos, marcado pela escassez e desbalanceamento de dados experimentais. Esta tese de qualificação propõe um framework computacional para a análise preditiva dessa incompatibilidade, utilizando estratégias de augmentação de dados baseadas em Grandes Modelos de Linguagem (LLMs). O framework infere mecanismos causais de incompatibilidades conhecidas e gera hipóteses de interações quimicamente plausíveis. Essa abordagem expandiu a classe minoritária de incompatibilidade de 344 para 2.096 instâncias, um aumento de mais de 500%, corrigindo o desbalanceamento inicial e superando limitações de técnicas estatísticas como o SMOTE. O conjunto de dados resultante foi empregado no treinamento de modelos preditivos, com ênfase na arquitetura Transformer. A metodologia compara o desempenho de modelos clássicos (e.g., XGBoost) e de um modelo Transformer de domínio químico (ChemBERTa-2) em diferentes cenários de tratamento de dados. Os resultados indicam que a augmentação guiada por LLMs melhora o desempenho em relação às abordagens tradicionais e que a especialização do ChemBERTa-2, via ajuste fino, alcançou um F1-Score de 94,35%. A tese apresenta um pipeline que integra geração de conhecimento com LLMs e modelos Transformer para apoiar o desenvolvimento de formulações farmacêuticas.