DESENVOLVIMENTO DE PIPELINE PARA IDENTIFICAÇÃO DE PAINÉIS DE SNPs REDUZIDOS PARA IDENTIFICAÇÃO DE ESPÉCIES LEVANDO EM CONTA HIBRIDIZAÇÃO
Hibridização;Marcadores Genéticos;Machine Learning;Anotação;Conservação
As pressões antrópicas sofridas pelos remanescentes de Mata Atlântica no litoral nordestino brasileiro se refletem em impactos no estado de conservação dos animais que compõem sua fauna, dentre estes os primatas neotropicais. Visando a conservação dos primatas ameaçados do Nordeste, o Centro Nacinal de Pesquisa e Conservação de Primatas Brasileiros, CPB/ICMBio, coordena o Plano de Ação Nacional para Conservação dos Primatas do Nordeste (PAN-PRINE). Uma das espécies alvo é o macaco-prego-galego (Sapajus flavius), categorizada como Em Perigo de extinção. Visando contribuir para a implementação de ações do PAN PRINE, o presente trabalho objetivou analisar a estrutura genética de amostras provenientes de vida livre e cativeiro de indivíduos do gênero Sapajus e propor um painel de marcadores genéticos para diferenciação de duas espécies parentais e híbridos utilizando técnicas de aprendizado de máquina. Foram realizadas duas análises de estrutura populacional, uma exploratória com várias espécies do gênero e amostras de cativeiro (n=228) e uma análise específica com amostras de cativeiro e populações naturais de S. flavius e S. libidinosus, incluindo híbridos naturais entre as espécies. Nossa análise exploratória retirou do dataset oito amostras de cativeiro que não possuíam um padrão de ancestralidade esperado para hibridação das espécies de interesse. Das amostras remanescentes, 30 foram classificadas como híbridas, 14 como S. libidinosus e 8 como S. flavius, baseado nos coeficientes de ancestralidade estabelecidos para identificar uma espécie (Q>90%). Essas amostras, juntamente com as de vida livre, foram particionadas em 20% para o dataset de validação e 80% para o dataset de treino e teste. Foram utilizados 6 algoritmos de aprendizado supervisionado para o treinamento de modelos preditivos: k Nearest Neighborhood (kNN), Decision Tree (DT), Naive Bayes (NVB), Support Vector Machine (SVM), X Gradient Boosting (XGB) e Random Forest (RF) e posterior seleção de features, que neste caso são SNPs, todos os modelos foram treinados usando partições do dado com K-fold (K=5). Foram selecionadas 15, 30 e 45 features pelo forward feature selection. Os modelos RF, SVM e NVB foram os mais consistentemente bem colocados no ranqueamento ao longo do aumento do número de features, baseado no score de acerto no dataset de validação, com a RF rendendo os melhores resultados para maiores números de SNPs. Quando ranqueamos os conjuntos de SNPs selecionados pelos modelos de acordo com o melhor agrupamento gerado por uma metodologia não supervisionada, obtivemos XGB e KNN como modelos mais bem colocados baseados no Rand Score. Nenhuma de nossas variantes com alto impacto para a identificação dos grupos se localizam em regiões codificantes do genoma, a maioria estava presente em regiões intergênicas (n=20) e em regiões intrônicas que podem pertencer a diferentes variações de splicing de genes (n_vars=24, n_genes=119). A partir do montante inicial de 2484 SNPs, conseguimos reduzir drasticamente a dimensionalidade do nosso dado enquanto mantivemos variantes altamente informativas para diferenciação dos grupos, além do mais, conseguimos identificar que a maioria dessas variantes não possuem impacto em zonas codificantes mas estão altamente associadas com a diferenciação das espécies. Esses resultados são importantes para desenvolver um produto que possa servir como ferramenta para Planos de Ação Nacionais para Conservação de espécies ameaçadas e decisões de manejo que levem em conta o perfil genético das populações e espécies estudadas para medidas mais assertivas na conservação.