DESENVOLVIMENTO DE ABORDAGENS COMPUTACIONAIS PARA ANÁLISE E IDENTIFICAÇÃO DE PEPTÍDEOS POLIMÓRFICOS
Polimorfismo. Peptídeos variantes. Banco de dados personalizado. Proteômica.
A abordagem proteômica permite estudos em larga escala da expressão proteica em diferentes tecidos e fluidos corporais, tendo como objetivo identificar e quantificar o conteúdo proteico total. No processo de análise proteômica, a identificação de proteínas ainda apresenta lacunas, apesar dos grandes avanços na área. Frequentemente, um espectrômetro de massa é utilizado para gerar valores de massa/carga das amostras. Após esse processo, geralmente utiliza-se um banco de dados de proteínas referência (por exemplo, UNIPROTI) para identificação das proteínas. Porém, utilizar uma base de referência limita as análises de identificação das proteínas, uma vez que não contém as variações que ocorrem no DNA, que podem impactar na sequência de aminoácidos, ocasionando identificação incorreta ou impossibilitando o processo. Nesse contexto, existem diversas bases de dados personalizadas que incorporam tais variações genéticas. Embora apresentem bons resultados, também se limitam por aumentar consideravelmente o espaço de busca na base de dados, tornando-se outro problema no processo de identificação. Assim, esta pesquisa propõe a criação de uma base de dados contendo peptídeos polimórficos, combinando informações contidas do dbSNP e NCBI. Então, uma sequência hipotética é gerada contendo os peptídeos que apresentam mutação na proteína, considerando sua frequência alélica. Esse processo é complementado com análise dos peptídeos identificados, após as amostras serem submetidas ao software identificador. Em paralelo é realizada uma busca na base de referência e na base de peptídeos mutados, permitindo uma redução do espaço de busca, gerando duas saídas. Em seguida, a unicidade dos peptídeos das bases é verificada e, havendo redundância, aquele que apresentar melhor score é selecionado. Os peptídeos identificados utilizando a base mutada também são classificados de acordo com o tipo de mutação, frequência alélica e patogenicidade. Para a classificação dos peptídeos, também foi desenvolvida uma abordagem baseada em Aprendizagem de Máquina (AM) distinguindo-os de acordo com as classes não mutada, SNP, INDEL e nonsense. Para realização dos testes foram utilizados três dados como entrada, HapMap e amostras de câncer de ovário e cólon. Como resultado, para o HapMap foram identificados 3,013 novos peptídeos utilizando a base polimórfica, sendo que desse total, 82% são SAPs, 13% INDEL, 5% frameshifts e menos de 1% correspondendo a lost stop e variações UTR. Dentre as mutações, foram identificadas algumas relacionadas à Surdez não sindrômica, hipomielinização com envolvimento do tronco encefálico e da medula espinhal e espasticidade da perna, Doença de Gaucher e câncer da mama. Para os dados das amostras de câncer de ovário, foram identificados 7,514 novos peptídeos, sendo 72,9% SAPs, 21,8% Frameshifts, 2,6% INDEL e menos de 1% para Lost Stop e UTR variation. Essas mutações também estão relacionadas à doença inflamatória intestinal, glomeruloesclerose segmentar e focal. Para as amostras de cólon, foram identificados 3,965 novos peptídeos, sendo 75,4% SAPs, 20,4% Frameshift, 3,3% INDEL e menos de 1% para lost stop e UTR variation. Essa mutações também estão associadas à esclerose lateral amiotrófica e fígado gorduroso agudo da gestação. Utilizando os algoritmo Random Forest para classificação obtivemos taxa de acerto >89,7%. Portanto, nossa abordagem mostra-se bastante promissora quanto ao objetivo estabelecido e aplicável a análises com novas amostras.