Aplicação de Aprendizado de Máquina para Encontrar Bases Genéticas Associadas à Classificação Sorológica de Bactérias do Gênero Leptospira
Leptospirose; locus rfb; Lipopolissacarídeos
A Leptospirose é considerada uma zoonose de importância mundial devido à sua vasta distribuição e virulência, afetando tanto humanos quanto animais de interesse comercial. Causada por bactérias do gênero Leptospira e filo Spirochaetes, a contaminação se dá através do contato direto ou indireto com o agente contaminante. São habitualmente classificadas com base nas suas características antigênicas em sorogrupos e sorovares, para a área de epidemiologia e análises clínicas possuem grande relevância. Porém, os métodos utilizados para realizar esta classificação são considerados laboriosos, necessitam de infraestrutura e mão de obra especializada, e requerem dias para a obtenção de resultados. Neste estudo visamos encontrar padrões genéticos associados à classificação sorológica de bactérias do gênero Leptospira analisando a composição genética do locus rfb e propor métodos que permitam a classificação das amostras de Leptospira ao nível de sorogrupo. Para isso utilizamos dados genômicos de 67 espécies classificadas em 26 sorogrupos que estão distribuídas em 722 amostras disponíveis no banco de dados públicos. Identificamos os genes que fazem parte do locus rfb através dos grupos de ortólogos nas amostras que continham o locus rfb íntegro em um único contig. Utilizamos um método de agrupamento hierárquico para agrupar amostras que possuíssem perfis semelhantes na composição gênica do locus rfb. Nesta análise preliminar, foi possível verificar um panorama da diversidade do perfil da composição genética do locus rfb no gênero Leptospira e observar correspondência entre a classificação em sorogrupos e os grupos formados pelo agrupamento hierárquico.