Integração de variantes germinativas e somáticas com modelos de aprendizado de máquina para classificação de câncer gástrico em pacientes jovens
Câncer gástrico de início precoce; Aprendizado de máquina; Variantes germinativas; Variantes somáticas; Sequenciamento de exoma
O adenocarcinoma gástrico de início precoce (EOGC) constitui um subgrupo de elevada relevância clínica e genética, caracterizado por histologia predominantemente difusa, comportamento agressivo e ausência frequente de fatores de risco ambientais clássicos, indicando forte influência de predisposição hereditária. No Brasil, as regiões Norte e Nordeste concentram as maiores taxas de mortalidade por câncer gástrico em populações historicamente sub-representadas nos grandes consórcios genômicos internacionais, o que compromete a identificação de variantes predisponentes específicas dessas populações. O presente trabalho propôs a integração de variantes germinativas e somáticas, obtidas por sequenciamento de exoma completo, com modelos de aprendizado de máquina para classificação do adenocarcinoma gástrico de início precoce em populações brasileiras. A coorte foi composta por 375 indivíduos, incluindo 232 casos — 95 provenientes do Pará, 13 do Rio Grande do Norte e 124 de bases públicas coreanas — e 143 controles sem histórico de neoplasia. As variantes germinativas foram identificadas com DeepVariant e anotadas por pipeline customizado, integrando bancos de dados funcionais, clínicos e populacionais. Variantes germinativas de alto impacto funcional foram definidas com o DTreePred como preditor primário de patogenicidade, em substituição ao MetaSVM. Quinze classificadores foram avaliados em três estratégias de representação: agregação por listas gênicas funcionais, normalização por z-score e codificação binária de variantes individuais. Para a análise somática, foi construído um Painel de Normais regionalmente representativo e aplicado o GATK-Mutect2 em abordagem tumor-only; as etapas de anotação e filtragem encontram-se em andamento. Os modelos baseados em variantes individuais alcançaram acurácia de 0,97 e AUC de 1,00 para Random Forest e ExtraTrees, enquanto a abordagem por listas gênicas favoreceu o modelo Bagging com acurácia de 0,96 e AUC de 0,99. Os resultados demonstram que modelos de aprendizado de máquina treinados com variantes germinativas de impacto funcional discriminam pacientes com EOGC de controles saudáveis com alta acurácia em populações brasileiras sub-representadas, oferecendo base computacional replicável para o diagnóstico molecular da predisposição hereditária ao câncer gástrico.