BioSurfMiner: um pipeline de identificação de proteínas de síntese de biossurfactantes
Biossurfactantes. Metagenômica. Aprendizado de máquina. Pipeline.
Biossurfactantes são compostos produzidos por microrganismos que diminuem os níveis de tensão superficial
e interfacial de uma mistura. Na indústria petrolífera, a recuperação de óleo do poço é uma atividade capaz de ser
otimizada por eles. Cada poço, porém, possui propriedades físico-químicas próprias tais que uma seleção genérica pode não ser adequada para qualquer poço. Assim, conhecer os genes e vias metabólicas usados para produção de biossurfactantes no poço de interesse é essencial, pois possibilitará o uso de soluções customizadas e eficientes. A aquisição deste conhecimento é possível com metagenômica, o estudo do material genético de uma amostra ambiental. Uma limitação sua é se basear fortemente na busca em bancos de sequências, estratégia que pode não funcionar para descobrir proteínas ainda não catalogadas neles. Técnicas computacionais baseadas em aprendizado de máquina ajudam a suprir esta lacuna. Este trabalho propõe um pipeline in silico de identificação de proteínas de síntese de biossurfactantes em dados metagenômicos de poços de petróleo utilizando técnicas
de alinhamento e aprendizado supervisionado, buscando ser acurado o suficiente para que proteínas descobertas possuam alta chance de sucesso em testes in vitro. Ele é formado por duas etapas. Na primeira, as proteínas de entrada são alinhadas contra proteínas de síntese do BioSurfDB, utilizando parâmetros de homologia baseados na literatura e no próprio BioSurfDB. Na segunda, simultânea à anterior, propriedades biológicas referentes às frequências de tipos diversos de aminoácidos e características físico-químicas, tais como ponto isoelétrico, peso molecular, grau de hidropatia (gravvy), dentre outras, são calculadas e analisadas por um algoritmo de aprendizado de máquina supervisionado que indicará quais das proteínas são de síntese. Quatro algoritmos (Máquinas de Vetores de Suporte, Árvore de Decisão, Floresta Aleatória, e Naive Bayes Gaussiano) foram avaliados para seleção. Inicialmente, eles foram treinados e testados com proteínas de síntese do BioSurfDB e um controle negativo montado da parte curada do UniProt, utilizando sensitividade e especificidade como métricas. Em seguida, eles classificaram todas as proteínas da parte curada do UniProt, e verificou em seguida quais das classificadas como de síntese apresentaram homologia com as proteínas de síntese do BioSurfDB ou terem nome de gene de síntese. Todos os algoritmos mostraram sensitividade abaixo dos 20% e especificidade acima de 99%. Máquinas de Vetores de Suporte e Floresta aleatória obtiveram 100% de especificidade, porém o primeiro mostrou 0% de sensitividade, sendo descartado para o segundo momento de seleção. Dos algoritmos restantes, o Naive Bayes Gaussiano foi o único cuja parcela das proteínas classificadas como de síntese tiveram homologia com proteínas de síntese do BioSurfDB ou terem nome de gene de síntese, porém muito pequena (4 proteínas apresentaram homologia e possuem nome de gene, 19 apenas possuem nome de gene, e 2 apenas apresentaram homologia) frente ao número de classificadas (3346). Verifica-se que a combinação das propriedades biológicas utilizadas juntamente com os algoritmos de aprendizados testados é capaz de, em um primeiro momento, descartar falso-positivos em toda a sua totalidade em alguns casos, sendo bastante deficiente em encontrar proteínas de síntese, inclusive aquelas que já são conhecidas. Como trabalhos futuros, pretende-se explorar o uso de outros algoritmos não contemplados neste trabalho, bem como outras propriedades biológicas relacionadas à estrutura secundária das proteínas e seus domínios funcionais.