Desenvolvimento de abordagens computacionais para proteogenômica de procariotos
Proteômica, proteogenômica, espectrometria de massas, procariotos, banco de dados
Com o desenvolvimento de sequenciadores de próxima geração, uma revolução ocorreu na pesquisa genômica, e atualmente o genoma completo de milhares de linhagens de bactérias são conhecidos. A análise de proteínas por espectrometria de massas (MS) também passou por grandes desenvolvimentos tecnológicos na última década em termos de sensibilidade e capacidade de sequenciamento. A proteômica ainda não se encontra no mesmo nível que a genômica, mas para amostras contendo proteínas de um eucarioto simples (por exemplo, levedura) ou de uma bactéria, a proteômica já é capaz de detectar e quantificar proteínas de maneira completa e exaustiva. Mas há ainda há desafios no que tange a caracterização de regiões codificadoras de um genoma, bem como na validação de modelos genéticos. Dados da literatura mostram que anotações de um mesmo genoma realizado por abordagens independentes geram resultados conflitantes tanto no número de ORFs anotados, quanto ao seus tamanhos (i.e., diferentes escolhas de início de transcrição/tradução). A caracterização de sequências peptídicas em amostras de proteômica pode ser utilizada para validar regiões do genoma como codificantes, área de pesquisa conhecida como proteogenômica. Para tal ocorrer, é necessário a construção de bancos de sequências customizados, que permitem a identificação de novas regiões que anteriormente não eram preditas como codificadoras e se encontravam ausentes em bancos de dados proteicos. Nesse trabalho, bancos customizados foram criados através do processamento e análise de dados de genoma completos de várias linhagens de uma mesma espécie, com o intuito de caracterizar amostras coletadas dessa espécie com genoma desconhecido. A abordagem compara proteínas homólogas e unicamente anotadas em todas as linhagens, e reporta tais sequências de forma não-redundante. Foram criados bancos para 10 espécies com pelo menos 65 linhagens caracterizadas, e dados originais de MS coletados de linhagens clínicas de Mycobacterium tuberculosis foram utilizados como controle de performance da abordagem. Os resultados demonstram que bancos criados pela abordagem identificaram 98.7% dos peptídeos identificados usando simplesmente todos os bancos sem processamento, a somente uma fração do tempo computacional.