Dissertações/Teses

Clique aqui para acessar os arquivos diretamente da Biblioteca Digital de Teses e Dissertações da UFRN

2021
Dissertações
1
  • PITÁGORAS DE AZEVEDO ALVES SOBRINHO
  • RNA-Gatherer: uma ferramenta computacional para anotação de RNAs não-codificantes em organismos pouco conhecidos

  • Orientador : WILFREDO BLANCO FIGUEROLA
  • MEMBROS DA BANCA :
  • WILFREDO BLANCO FIGUEROLA
  • JORGE ESTEFANO SANTANA DE SOUZA
  • ÂNDREA KELY CAMPOS RIBEIRO DOS SANTOS
  • Data: 29/01/2021

  • Mostrar Resumo
  • RNAs não-codificantes são moléculas que desempenham papéis decisivos em vários tipos de regulação genética. Identificar eles é essencial para entender a genética de uma espécie. Diversos fatores, como: baixo nível de expressão, amplo espectro de subtipos, atributos diversos, funções heterogêneas e ausência de homologia entre espécies; fazem a detecção de ncRNAs um desafio. Estratégias de bioinformática recentes para detecção genes de ncRNA tentam identificar suas localizações nos genomas e suas estruturas secundárias, usando modelos de covariância e inteligência artificial. A co-expressão desses genes também vem sendo analisada computacionalmente para revelar anotações funcionais. No entanto, não há consenso sobre quais métricas e parâmetros usar no processo de prever as funções dessas moléculas. Em organismos pouco conhecidos, como Arapaima gigas, a falta de informações de referência aumenta essa dificuldade. Além disso, principalmente para RNAs longos não- codificantes, há poucas funções conhecidas, o que torna difícil explicar os papéis desses genes e avaliar a qualidade das predições. Neste trabalho, é descrito um software para descobrir os genes não-codificantes, de diversos tipos, e suas funções em espécies de eucariotos. Este foi validado com uma espécie modelo, o camundongo, e utilizado para explorar o panorama de ncRNAs numa espécie pouco estudada, o Arapaima gigas. A comparação da semelhança entre funções de genes co-expressos nos permitiu definir níveis de confiança para as métricas de calcular co- expressão, e assim, desenvolver uma pipeline de predição funções para lncRNA, a qual inclui métricas para calcular correlações não- lineares. O pacote de software descrito aqui fez 63307 anotações não-codificantes em A. gigas, incluindo 11 tipos de ncRNA e 4 de regiões cis-regulatórias. Dessas anotações, apenas 706 eram similares a ncRNAs já conhecidos em outras espécies e os restantes não haviam sido descritos anteriormente. A análise exploratória dos lncRNAs também revelou 19854 lncRNAs de tecido específico e 256 lncRNAs expressos de forma onipresente. Prever as funções dessas moléculas também revelou que elas estão envolvidas na pigmentação da pele, diferenciação sexual, crescimento e defesa contra tumores.


  • Mostrar Abstract
  • Non-coding RNAs are molecules that play decisive roles in several types of gene regulation. Identifying them is necessary for understanding the genetics of a species. Several factors, such as: low level of expression, the broad spectrum of subtypes, diverse attributes, heterogeneous functions and absence of homology between species; make the detection of ncRNAs genes a challenge. The latest bioinformatics strategies for detecting ncRNA genes have tried to identify their locations in the genomes and their secondary structures, using covariance models and artificial intelligence. The co-expression of these genes has been computationally analyzed in order to reveal their functional annotations. However, there is no consensus on which metrics and parameters to use in the process of predicting the functions of these molecules. In organisms little known, such as Arapaima gigas, the lack of reference information increases the difficulty. Additionally, even for known long non-coding RNAs, there is little functional information, which makes it difficult to explain the roles of these genes. In this work, we describe a software for discovering the non-coding genes, including their diverse types, and their functions in eukaryotic genomes. It was validated by annotating a model species (Mus musculus) and then used to explore the landscape of ncRNA in Arapaima gigas. Comparing the similarity between the functions of co- expressed genes allowed us to define confidence levels for the metrics that measure co-expression, and thus, develop a pipeline for predicting lncRNA functions, which includes metrics for non-linear correlations. The described software suite made 63307 non-coding annotations in A. gigas, including 11 types of ncRNA and 4 types of cis-regulatory regions. Of these annotations, only 706 are similar to ncRNAs already known in other species and the remaining were never described before. The exploratory analysis of lncRNA also revealed 19854 tissue specific lncRNAs and 256 lncRNAs ubiquitously expressed. Predicting the functions of these molecules revealed RNAs involved in skin pigmentation, sex differentiation, growth and defense against tumors.

2
  • TAYRONE DE SOUSA MONTEIRO
  • Engenharia reversa de redes regulatórias do meduloblastoma e inferência de reguladores mestres

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • RITA MARIA CUNHA DE ALMEIDA
  • MARIALVA SINIGAGLIA
  • Data: 31/08/2021

  • Mostrar Resumo
  • O meduloblastoma é um câncer do cerebelo que afeta majoritariamente a população pe- diátrica. Este tumor é classificado em quatro subgrupos molecularmente diferentes (WNT, SHH, grupo 3 e grupo 4), onde cada cada um também apresenta características clínicas distintas. Alguns drivers epigenéticos do meduloblastoma já foram descritos por alguns estudos, entretanto, a inferência de suas redes regulatórias e de seus reguladores mestres só é citada uma vez, na literatura. Aqui, foram inferidas as redes regulatórias dos subgrupos SHH, grupo 3 e grupo 4. Após isso, foi identificado um grupo de 10 unidades regulatórias simultaneamente identificadas como reguladores mestres e regulões diferencialmente me- tilados, posteriormente nomeado de “regulões de interesse”. Foi percebido que o padrão de atividade destes regulões varia de acordo com o subgrupos. A análise de enriquecimento de vias do KEGG também foi aplicada, levando em conta o conteúdo de todos os regulões de interesse em cada rede regulatória. Dois termos do KEGG foram identificados conco- mitantemente para os três subgrupos investigados. Este trabalho auxilia na compreensão do reguloma do meduloblastoma, identificando possíveis reguladores mestres, analisando seu metiloma e indicando potenciais alvos terapêuticos.


  • Mostrar Abstract
  • Medulloblastoma (MB) is a cancer of the cerebellum occurring most frequently in the pe- diatric population. This tumor is classified into four distinct molecular subgroups (WNT, SHH, group 3 and group 4), each one also presenting unique clinical features. Some medul- loblastoma epigenetic drivers have been reported by some studies, although the inference of regulatory networks and master regulators have been mentioned only once. Here, we inferred the transcriptional regulatory networks of SHH, group 3 and group 4 subgroups and recognized 10 regulatory units as master regulators and differentially methylated regulons, simultaneously, for all investigated subgroups, subsequently named as the “re- gulons of interest”. The activity pattern of these regulons was observed to vary across subgroups. KEGG pathway enrichment analysis was also done, considering the content of all regulons of interest in each regulatory network. Two KEGG terms were found con- comitantly for all investigated subgroups. This work contributes to the comprehension of the medulloblastoma regulome, identifying prospective master regulators, analyzing their methylome and pointing to potential therapeutic targets.

3
  • LUKAS IOHAN DA CRUZ CARVALHO
  • Analises de redes moleculares de co-expressão genica revelam vias importantes na doença de Alzheimer e Paralisia Supranuclear Progressiva

  • Orientador : MARCOS ROMUALDO COSTA
  • MEMBROS DA BANCA :
  • MARCOS ROMUALDO COSTA
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • TARCISO ANDRE FERREIRA VELHO
  • RICARDO AUGUSTO DE MELO REIS
  • Data: 28/09/2021

  • Mostrar Resumo
  • As demências, doenças neurodegenerativas onde há perda de funções cognitivas, tiveram sua incidência aumentada nos últimos anos, principalmente por causa do aumento da longevidade na população mundial como um todo. O entendimento do início e progressão dessas patologias pode ajudar na identificação de tratamentos preventivos para essas doenças. Neste trabalho, utilizando dados humanos referentes a duas doenças neurodegenerativas (Alzheimer e Paralisia Supranuclear Progressiva) de duas regiões cerebrais (córtex temporal e cerebelo) e dois modelos animais, 5XFAD de amiloidopatia e TauD35 de taupatia, fizemos uma análise integrativa a nível gene/transcrito aliada a uma análise de co-expressão para identificar similaridades e discrepâncias nos processos biológicos afetados por essas duas doenças. Para que pudéssemos comparar os diferentes dados utilizamos a única variável comum em todos os datasets: a idade da morte. Desse modo dividimos os dados humanos em 3 grupos: A (70- 80), B (81-89) e C (90+); e os animais em grupos de 4 meses, 12 meses, 17 meses e 18 meses. Os resultados da análise transcricional mostraram que alterações imunes estão presentes em AD apenas no córtex temporal, e não no cerebelo, e que alteração na transmissão sináptica ocorre tardiamente (grupos B e C), e são encontradas apenas quando utilizamos genes com isoformas alteradas no processo de enriquecimento funcional em conjunto com os genes diferencialmente expressos. Na PSP, todas as alterações encontradas imunes e de transmissão sináptica são encontradas apenas nos dados de córtex temporal; no entanto, todas as alterações são específicas para o grupo A. Nos modelos animais, as alterações em 5XFAD são semelhantes às encontradas em AD, alterações da resposta imune-inflamatória presentes em grupos precoces (4 meses) e sinápticas em um grupo mais tardio (18 meses). Em TauD35, no entanto, as alterações imunes ocorrem apenas no grupo de 17 meses, enquanto as sinápticas foram no grupo de 4 meses. Além desses resultados, observamos que as alterações em isoformas (gDTUS) estão presentes quase que exclusivamente em humanos, e principalmente em AD. Para refinar os nossos resultados, utilizamos uma abordagem de coexpressão e identificamos módulos com expressão e assinaturas gênicas específicas. Em AD os módulos envolvendo sinapses não apresentavam diferenças para o controle, no entanto, os módulos relativos à reposta imune-inflamatória, matriz extracelular e reposta a fator de crescimento estavam com maior atividade nos indivíduos com AD. Na PSP, os módulos com atividade sináptica apresentaram maior atividade em relação ao controle, enquanto aqueles relacionados com resposta imune tiveram uma atividade menor. Para confirmar a identidade genética desses módulos, utilizamos os genes encontrados nos mesmos e observamos que havia correspondência entre os módulos relacionados à resposta imune-inflamatória com células microgliais e sinápticos com neurônios glutamatérgicos. Além desses achados, também encontramos que a resposta imune-inflamatória e associada, em AD, a região analisada, dado os resultados encontrados na análise de outro dataset (MSBB). Por fim, encontramos genes identificados como fatores de risco para AD, como PTK2B, TREM1 e TREM2 nos módulos, além de MOB e SA4D nos módulos identificados na PSP. Em conjunto, esses resultados sugerem que no modelo de amiloidopatia e em AD, alterações na sinalização sináptica formam um feedback positivo com a resposta imune-inflamatória, sendo esta posterior a primeira; enquanto no modelo de taupatia e PSP, os efeitos na inflamação são secundários às alterações sinápticas.


  • Mostrar Abstract
  • The incidence of neurodegenerative diseases leading to impairment of cognitive functions and dementia have increased in recent years, mainly because of enhanced longevity in the population worldwide. Understanding the onset and progression of these pathologies can help to develop preventive and disease-modifying treatments for these diseases. In this work, using RNA-seq data obtained from two brain regions (temporal cortex and cerebellum) of human patients diagnosed with neurodegenerative diseases (Alzheimer or Progressive Supranuclear Palsy) and two animal models, 5XFAD of amyloidopathy and TauD35 of tauopathy, we performed an integrative analysis at the gene/transcript level combined with a co- expression analysis to identify similarities and discrepancies in the biological processes affected by these two diseases. So that we could compare the different data, we used the only common variable in all datasets: age of death. Thus, we divided the human data into 3 groups: A (70-80), B (81-89) and C (90+); and animals in groups of 4 months, 12 months, 17 months and 18 months. The results of the transcriptional analysis showed that gene expression alterations associated with immune-inflammatory alterations are present in AD only in the temporal cortex and not in the cerebellum, and that alteration related to synaptic transmission occurs late (groups B and C), and are found only when we use genes with isoform switches in the analysis of functional enrichment in conjunction with differentially expressed genes. In PSP, all changes associated with immune-inflammatory responses and synaptic transmission are found exclusively in temporal cortex data; however, all changes are specific for group A. In animal models, changes in 5XFAD are similar to those found in AD human brains, with gene expression alterations associated with the immune-inflammatory response present early (4 months) and synaptic terms only at late pathological stages (18 months). In TauD35 mice, this pattern is inverted, with gene expression changes associated with immune- inflammatory response identified only late (17-month group), whereas those associated with synapses could be identified early (4-month group). In addition to these results, we observed that changes in isoforms (gDTUS) are present almost exclusively in humans, and especially in AD. To refine our results, we used a co-expression approach and identified modules with specific expression and gene signatures. In AD, modules involving synapses did not differ from control, however, modules related to immune-inflammatory response, extracellular matrix and growth factor response were more active in individuals with AD. In PSP, modules with synaptic activity showed greater activity compared to control, while those related to immune response had a lower activity. To confirm the genetic identity of these modules, we also mappedmodule-specific genes to different cell types of the brain using single-cell RNA-seq data. This analysis revealed a correspondence between modules related to the immune-inflammatory response with microglial cells and, to a lesser extent in AD, astrocytes, synaptic cells with glutamatergic neurons and myelination with oligodendrocytes. Finally, we show that genes identified as risk factors for AD or PSP are present in specific co-expression. Together, these results suggest that in the amyloidopathy model and in AD, alterations in synaptic signaling form a positive feedback with the immune inflammatory response, the latter being the first; while in the model of tauopathy and PSP, the effects on inflammation are secondary to synaptic changes.

4
  • ANDRÉ LUIZ DE LUCENA MOREIRA
  • Estratégias evolutivas aplicadas a redes de regulação gênicas artificiais

  • Orientador : CESAR RENNO COSTA
  • MEMBROS DA BANCA :
  • DIOGO SANTOS PATA
  • CESAR RENNO COSTA
  • WILFREDO BLANCO FIGUEROLA
  • Data: 11/10/2021

  • Mostrar Resumo
  • Redes de regulação gênica (GRNs) influenciam a resposta comportamental dos indivíduos quando submetidos a diferentes contextos, além de participarem de processos extremamente importantes para a vida, como diferenciação celular, metabolismo e evolução. Modelos computacionais de redes de regulação gênica, associados à inteligência artificial, possibilitam-nos criar soluções adaptáveis e independentes de contexto. Neste trabalho, simulamos a evolução de GRNs com o objetivo de avaliar como eventos de variação de ambiente e crescimento de rede impactam na capacidade de aprendizado do modelo. Para isso, criamos populações de indivíduos representados por redes de regulação gênicas artificiais (AGRNs), com características físicas e comportamentos baseados em bactérias. Submetemos então essas populações às tarefas: “Orientação a Objetivo”, “Fototaxia” e “Fototaxia com Obstáculos”, avaliando como os eventos de duplicação de gene único, duplicação de genoma completo e mudança de contexto afetam a evolução da população. Os resultados indicaram que um aumento gradual de complexidade das tarefas realizadas é benéfico para a evolução do modelo. Além disso, vimos que redes de regulação gênica maiores são necessárias para tarefas mais complexas, sendo a duplicação de gene único uma boa estratégia evolutiva para o crescimento dessas redes, ao contrário da duplicação de genoma completo. Estudar como GRNs evoluíram em meio biológico nos possibilita não só melhorar os modelos computacionais produzidos, como também prover insights sobre aspectos e eventos que influenciaram o desenvolvimento da vida na terra.


  • Mostrar Abstract
  • Evolution optimizes cellular behavior throughout sequential generations by selecting the successful individual cells in a given context. As gene regulatory networks (GRNs) determine the behavior of single cells by ruling the activation of different processes - such as cell differentiation and death - how GRNs change from one generation to the other might have a relevant impact on the course of evolution. It is not clear, however, which mechanisms that affect GRNs effectively favor evolution and how. Here, we use a population of computational robotic models controlled by artificial gene regulatory networks (AGRNs) to evaluate the impact of different genetic modification strategies in the course of evolution. The virtual agent senses the ambient and acts on it as a bacteria in different phototaxis-like tasks - orientation to light, phototaxis, and phototaxis with obstacles. We studied how the strategies of gradual and abrupt changes on the AGRNs impact evolution considering multiple levels of task complexity. The results indicated that a gradual increase in the complexity of the performed tasks is beneficial for the evolution of the model. Furthermore, we have seen that larger gene regulatory networks are needed for more complex tasks, with single-gene duplication being an excellent evolutionary strategy for growing these networks, as opposed to full-genome duplication. Studying how GRNs evolved in a biological environment allows us to improve the computational models produced and provide insights into aspects and events that influenced the development of life on earth.

Teses
1
  • DIEGO MARQUES COELHO
  • DO TECIDO À CÉLULA-ÚNICA: COMO O USO DE DIFERENTES TÉCNICAS AUXILIAM NA IDENTIFICAÇÃO DE MARCADORES DE EVENTOS BIOLÓGICOS?

  • Orientador : MARCOS ROMUALDO COSTA
  • MEMBROS DA BANCA :
  • MYCHAEL VINÍCIUS DA COSTA LOURENÇO
  • MARCOS ROMUALDO COSTA
  • PATRICIA PESTANA GARCEZ
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • TARCISO ANDRE FERREIRA VELHO
  • Data: 31/05/2021

  • Mostrar Resumo
  • O sequenciamento de RNA mensageiro em larga escala (RNAseq) permite avaliar a diversidade de transcritos expressos em um determinado momento de um sistema biológico. Através da bioinformática, podemos analisar os dados de sequenciamento para obter informações quantitativas sobre a expressão gênica, tais como a expressão diferencial de genes e suas isoformas (splices alternativos). Nesta tese, apresentamos dois estudos independentes que se valeram da bioinformática para obter informações relevantes sobre diferentes fenômenos biológicos. No primeiro caso, nós utilizamos dados de sequenciamento de RNAm em cérebros de pacientes com a doença de Alzheimer para estudar a expressão diferencial de genes e transcritos associadas com a progressão desta doença. Nós demonstramos que a análise de transcritos permite a identificação de alterações gênicas ignoradas em estudos anteriores avaliando apenas a expressão global dos genes. Utilizando dados de sequenciamento de RNAm em células únicas (scRNAseq), nós também mapeamos as alterações da expressão gênica no cérebro de pacientes com a doença de Alzheimer para tipos celulares específicos. Os resultados deste primeiro trabalho contribuem para uma melhor compreensão da patofisiologia da doença de Alzheimer e indicam potenciais alterações moleculares associadas com a doença em tipos celulares individuais. No segundo trabalho desenvolvido nesta tese, nós utilizamos a técnica de scRNAseq para estudar a diversidade de células progenitoras em estágios iniciais do desenvolvimento do neocórtex. Através de análises de expressão diferencial de genes e a utilização de uma abordagem utilizando redes de regulação da expressão gênica, nós identificamos o fator de transcrição Sox9 como um regulador-mestre do comportamento de diferentes subtipos de progenitores neurais. Confirmando estes achados da bioinformática, experimentos genéticos para manipular os níveis de expressão de Sox9 em progenitores neurais demonstraram a importância deste fator de transcrição na regulação da proliferação e diferenciação celular. Em conjunto, os resultados desta tese demonstram a importância da análise transcriptômica através de métodos complementares para uma melhor identificação das alterações da expressão gênica relevantes em diferentes contextos biológicos.


  • Mostrar Abstract
  • Large-scale messenger RNA sequencing (RNAseq) allows the evaluation of the diversity of transcripts expressed at a given moment in a biological system. Through bioinformatics, we can analyze the sequencing data to obtain quantitative information about gene expression, such as the differential expression of genes and their isoforms (alternative splices). In this thesis, we present two independent studies that used bioinformatics to obtain relevant information about different biological phenomena. In the first case, we used mRNA sequencing data in the brains of patients with Alzheimer's disease to study the differential expression of genes and transcripts associated with the progression of this disease. We have shown that the analysis of transcripts allows the identification of genetic changes ignored in previous studies by evaluating only the global expression of genes. Using single cell mRNA sequencing data (scRNAseq), we also map changes in gene expression in the brain of patients with Alzheimer's disease to specific cell types. The results of this first work contribute to a better understanding of the pathophysiology of Alzheimer's disease and pinpoints possible cell-type specific molecular mechanisms of the disease. In the second work developed in this thesis, we used the scRNAseq technique to study the diversity of progenitor cells in the early stages of the development of the neocortex. Through analysis of differential gene expression and the use of an approach using gene regulatory networks, we identified the transcription factor Sox9 as a master regulator of the behavior of different subtypes of neural progenitors. Confirming these findings from bioinformatics, genetic experiments to manipulate Sox9 expression levels in neural progenitors demonstrated the importance of this transcription factor in the regulation of cell proliferation and differentiation. Together, the results of this thesis demonstrate the importance of transcriptomic analysis through complementary methods for a better identification of relevant gene expression changes in different biological contexts.

2
  • PRISCILLA SUENE DE SANTANA NOGUEIRA SILVERIO
  • 3D-QSARpy: Combinando estratégias de seleção de variáveis e várias técnicas de aprendizado de máquina para construir modelos QSAR

  • Orientador : EUZEBIO GUIMARAES BARBOSA
  • MEMBROS DA BANCA :
  • AMANDA GONDIM DE OLIVEIRA
  • ANNE MAGALY DE PAULA CANUTO
  • ARAKEN DE MEDEIROS SANTOS
  • EUZEBIO GUIMARAES BARBOSA
  • JOAO PAULO MATOS SANTOS LIMA
  • LAURA EMMANUELLA ALVES DOS SANTOS SANTANA DE OLIVEIRA
  • Data: 04/08/2021

  • Mostrar Resumo
  • Quantitative Structure Activity Relationship (QSAR) é uma tecnologia da área da química medicinal que busca esclarecer as relações existentes entre estruturas moleculares e suas respectivas atividades biológicas. Para isso, são construídos modelos QSAR a partir dos dados estruturais (2D, 3D ou 4D) provenientes de uma série de moléculas já testadas para uma determinada atividade. Através de predições realizadas por esses modelos, objetiva- se identificar quais modificações na molécula podem influenciar, reforçando ou não a resposta biológica. Tal tecnologia permite acelerar o desenvolvimento de novos compostos, reduzindo os custos destinados ao planejamento de fármacos. Considerando o contexto brevemente exposto, o presente trabalho apresenta como objetivo geral propor uma metodologia e testa-la em diversos conjuntos de dados através do desenvolvimento de uma ferramenta para QSAR-3D, então denominada 3D-QSARpy. A metodologia foi validada com sucesso através da aplicação da ferramenta em dois conjuntos de dados com resultados superiores aos previamente publicados. O primeiro deles envolvendo o tratamento de diabetes, alcançando r 2 pred de 0.91. O segundo conjunto referente ao tratamento de câncer, com r 2 pred =0.98. Por fim, duas aplicações da ferramenta foram realizadas, contribuindo com a identificação de novas estruturas moleculares bioativas usando diferentes abordagens. Sendo a primeira delas destinada ao tratamento da doença de chagas, incluindo a construção de modelos QSAR híbridos para três séries, obtendo, r 2 pred =0.8, 0.68 e 0.85. A segunda aplicação para construção de modelos QSAR-4D foi destinada ao tratamento da tuberculose com r 2 pred =0.72. Todos os experimentos realizados, sejam para validação ou para identificação dessas novas moléculas demonstraram, não somente a eficiência da metodologia proposta e da ferramenta desenvolvida, como também a versatilidade de aplicações possíveis por meio dela, seja seguindo o seu pipeline geral, seja utilizando-o parcialmente de modo combinado com outras ferramentas existentes.


  • Mostrar Abstract
  • Quantitative Structure Activity Relationship (QSAR) is a technology in the field of medicinal chemistry that seeks to clarify the relationships between molecular structures and their biological activities. For this, QSAR models are constructed from the structural data (2D, 3D or 4D) from a series of molecules already tested for a given activity. Through predictions made by these models, it is aimed to identify which modifications in the molecule can influence, reinforcing or not the biological response. Such technology allows accelerating the development of new compounds by reducing the costs for drug design. Considering the briefly exposed context, the present work aims to propose a methodology and test it in several data sets through the development of a tool for QSAR-3D, then called 3D-QSARpy. The methodology was successfully validated through the application of the tool in two sets of data, which results outperformed those previously published. The first set involving diabetes treatment, it reached r 2 pred =0.91. The second set referring to cancer treatment, with r 2 pred =0.98. Finally, two applications of the tool were performed, contributing to the identification of new bioactive molecular structures using different approaches. The first of which is intended for the treatment of chagas disease, including the construction of hybrid QSAR models for three series, obtaining r 2 pred = 0.8, 0.68 e 0.85. The second application was the construction of QSAR-4D for the tuberculosis treatment with r 2 pred = 0.72. It doesn’t matter if the experiments were for validation or for the identification of these new molecules. All of them demonstrated not only the efficiency of the proposed methodology and the developed tool, but also the versatility of possible applications with this methodology, either following its general pipeline or using it in a partially way combined with other existing tools.

3
  • RAFFAEL AZEVEDO DE CARVALHO OLIVEIRA ANDRADE
  • Engenharia reversa da rede regulatória da sepse pediátrica e identificação de reguladores mestres

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • CESAR RENNO COSTA
  • JOAO PAULO MATOS SANTOS LIMA
  • FABIO KLAMT
  • MATHEUS AUGUSTO DE BITTENCOURT PASQUALI
  • Data: 11/08/2021

  • Mostrar Resumo
  • A sepse é uma síndrome inflamatória aguda muito marcante. É responsável pela maioria dos óbitos
    em leitos de UTI por todo o mundo. Por se tratar de uma condição estritamente inflamatória e, por
    causa disso, multifatorial, existem poucos estudos relativos à regulação gênica em indivíduos
    sépticos, menos ainda em pacientes pediátricos. A compreensão dos mecanismos regulatórios pode
    auxiliar no combate à sepse por identificar pontos-chave das vias de sinalização responsáveis pela
    progressão. Uma estratégia para identificação dos alvos regulatórios de uma doença é a
    reconstrução da sua rede regulatória a partir de dados transcricionais públicos, identificando os
    principais fatores de transcrição como reguladores mestres. Devido à escassez de dados de sepse em
    pacientes pediátricos e a grande diferença de resposta entre adultos e crianças, o objetivo deste
    trabalho é o de reconstruir a rede regulatória da sepse e identificar seus posíveis reguladores
    mestres. Ao todo foram encontrados 15 fatores que são bons candidatos a regulador mestre na
    sepse. Especialmente o MEF2A, TRIM25 e RFX2 foram identificados sendo mais expressos em
    pacientes sépticos do que em indivíduos saudáveis. Cada um deles possui uma função isolada e até
    então não relacionadas à sepse diretamente, porém quando analisadoso em conjunto, podem agir
    como um tripleto, onde cada fator exerce seu papel em parceria com os outros dois. Os resultados
    encontrados aqui apontam os três fatores como possíveis reguladores mestres da sepse pediátrica,
    podendo ser estudados no futuro de forma experimental para validar os resultados feitos in silico.


  • Mostrar Abstract
  • Sepsis is a acute inflammatory syndrome. Accountable for most obits in ICUs all over the world. Due to its multifactorial nature, there are few studies related to gene expression regulation in pediatric septic patients. Understanding the regulatory mechanisms of sepsis could help against sepsis and also help identify key points of signaling pathways responsible for disease progression. A good strategy to identify regulatory targets of a given disease is by reconstructing its regulatory network, as well as identify its possible master regulators. Given the lack of pediatric sepsis data and the huge difference between adult and pediatric immune response, the objective of this work is to reconstruct sepsis regulatory network and identify its putative master regulators. In summary, we found 15 transcription factors that have good chance of acting as master regulators in pediatric sepsis. Specially MEF2A, TRIM25 and RFX2 were identified upregulated in septic patients in comparison to healthy individuals. Each one of them have a distinct role, that was not directly related to sepsis. But, taken together, we hypothesize that they might act together to influenciate the disease prognosis. Results herein found points towards this three transcription factors as putative master regulators of pediatric sepsis. In vitro validation of the results found in silico could shed light in the different aspects of regulatory understanding of pediatric sepsis.

4
  • JOSIVAN RIBEIRO JUSTINO
  • MODELO PARA IDENTIFICAÇÃO DE GENES BIMODAIS ASSOCIADOS AO PROGNÓSTICO NO CÂNCER

  • Orientador : SANDRO JOSE DE SOUZA
  • MEMBROS DA BANCA :
  • Giovana Torrezan
  • JORGE ESTEFANO SANTANA DE SOUZA
  • MARCUS ALEXANDRE NUNES
  • SANDRO JOSE DE SOUZA
  • ÂNDREA KELY CAMPOS RIBEIRO DOS SANTOS
  • Data: 16/09/2021

  • Mostrar Resumo
  • Nas últimas décadas o interesse biológico em compreender a regulação gênica, tem levado a descobertas de genes tumorais com expressões diferenciadas em subgrupos de pacientes. Estes genes possuem um perfil bimodal de distribuição dos valores de expressão, o que têm despertado a atenção para investigar os padrões de desenvolvimento e de sua funcionalidade. Uma das grandes limitações dos métodos tradicionais está em identificar subgrupos homogêneos, que representam os distintos níveis do valor de expressão gênica para o mesmo tumor. Neste trabalho, desenvolvemos um método que seleciona genes candidatos ao padrão de bimodalidade a partir da função densidade de probabilidade dos valores de expressão, permitindo minimizar a heterogeneidade interna dos picos. Analisamos 25 tipos de tumores e encontramos 96 genes com amostras consistentes quanto ao prognóstico de sobrevida, com p-valor ≤ 0,01. Como contribuição apresentamos um método com o código livre, que possibilita reduzir os níveis de variabilidade interna dos grupos e que relaciona o padrão de expressão bimodal com o prognóstico de sobrevida. Assim, acreditamos que a utilização do método poderá ser útil na avaliação do padrão bimodal de expressão gênica e na descoberta de novos biomarcadores clínicos para diferentes tipos de câncer.


  • Mostrar Abstract
  • In the last decades, the biological interest in understanding the phases of gene regulation has led to the discovery of tumor genes with differentiated expression in subgroups of patients. These genes have a bimodal profile of expression value distribution, which has raised attention to investigate the patterns of development and their functionality. A major limitation of traditional methods is to identify homogeneous subgroups representing distinct levels of gene expression value for the same tumor. We developed a method that selects candidate genes for the bimodality pattern from the probability density function of the expression values, allowing to minimize the internal heterogeneity of the peaks. We analyzed 25 tumor types, found 96 genes with consistent samples regarding survival prognosis with a p-value ≤ 0.01. As a contribution, we have a method with the free code, which makes it possible to reduce the levels of internal variability of the groups and which relates the bimodal expression pattern with survival prognosis. Thus, we believe that the use of the method may be useful in the evaluation of the bimodal pattern of gene expression and in the discovery of new clinical biomarkers for different types of cancer.

5
  • INACIO GOMES MEDEIROS
  • Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2

  • Orientador : JORGE ESTEFANO SANTANA DE SOUZA
  • MEMBROS DA BANCA :
  • ARAKEN DE MEDEIROS SANTOS
  • BEATRIZ STRANSKY FERREIRA
  • JORGE ESTEFANO SANTANA DE SOUZA
  • SIDNEY EMANUEL BATISTA DOS SANTOS
  • TIRZAH BRAZ PETTA
  • Data: 21/09/2021

  • Mostrar Resumo
  • A análise de variantes em um contexto clínico e o suporte ao desenvolvimento de terapias contra doenças virais são duas áreas em que diversas pesquisas têm utilizado processos de integração e análise de dados ômicos. Aferir se uma dada variante possui ou não impacto patogênico é um desafio presente na análise de variantes, inclusive quando diferentes ferramentas de predição de patogenicidade apontam resultados divergentes. Em relação ao desenvolvimento de terapias baseadas em RNA de interferência, observa-se que existe uma necessidade contínua de desenho e avaliação de eficiência de novos RNAs pequenos de interferência (siRNAs, do inglês short-interfing RNAs) a cada novo vírus que surge, como o SARS-CoV-2, responsável pela pandemia de COVID-19. Nessa direção, argumenta-se nesta tese, a partir da discussão de dois trabalhos, que processos de integração de dados e seleção de características podem trazer contribuições na resolução de questões ligadas à identificação de patogenicidade de variantes e, em um segundo momento, à disponibilização de informação e características de sequências que podem vir a servir para a formulação de terapias para a COVID-19. Em linhas gerais, o estudo objetivou (a) desenvolver métodos de integração de dados e seleção de características de variantes para aferição de patogenicidade e (b) desenvolver métodos de integração de dados visando a construção de um banco de dados de siRNAs para SARS-CoV-2. Para atingir o primeiro objetivo, foi proposto um modelo de classificação baseado em árvores de decisão para estimar a patogenicidade de variantes, construído por meio de um processo de integração de dados públicos de variantes já catalogadas com predições de patogenicidade trazidas por ferramentas baseadas em aprendizado de máquina. O modelo obtido foi capaz de apresentar uma acurácia superior ao estado da arte relativo à predição de patogenicidade de variantes, constituindo-se em uma importante ferramenta de apoio a profissionais de saúde, como nos diagnósticos de doenças genéticas. No segundo objetivo, combinou-se dados de propriedades estruturais, termodinâmicas, toxicidade, similaridade e de eficiência com o intuito de montar um catálogo global de siRNAs para o SARS-CoV-2. A integração de propriedades diversas relativas a siRNAs em uma única base de dados consolida-se como um referencial de informação que permite a realização de filtragens in silico simples e direcionadas, poupando a execução de muitos testes de bancadas em cima de moléculas candidatas para terapias contra a COVID-19. Esses estudos possuem pontos em comum com outros de integração de dados da literatura, entre eles, aspectos envolvendo diversidade dos dados, reprodutibilidade e descoberta de conhecimento. Por fim, verificou-se que estes trabalhos possuem potencial de aplicação clínica, seja para incrementar a compreensão de variantes relacionadas a comorbidades genéticas diversas, no caso do primeiro trabalho, como no apoio ao desenvolvimento de terapias contra a COVID-19, no caso do segundo trabalho.


  • Mostrar Abstract
  • Analysis of variants in clinical context and the support for the development of therapies against viral diseases are two areas which several research have used processes of integration and analysis of omics data. Assessing whether a given variant has a pathogenic impact is a challenge in the analysis of variants, especially when different tools for predicting pathogenicity point to divergent results. Regarding the development of RNA interference-based therapies, it is observed that there is a continuing need to design and evaluate the efficiency of new small-interfering RNAs (siRNAs) for each new virus that arises, like SARS-CoV-2, responsible for the COVID-19 pandemic. In this sense, it is argued in this thesis, based on the discussion of two works, that data integration and feature selection processes can contribute to the resolution of issues related to the identification of pathogenicity of variants and, in a second moment, to the availability of information and characteristics of sequences that may serve as the basis for therapies for COVID-19. In general terms, the study aimed (a) to develop data integration methods and selection of variant characteristics to measure pathogenicity and (b) to develop data integration methods for the construction of a database of siRNAs for SARS-CoV-2. To achieve the first objective, a decision tree-based classification model was proposed to estimate the pathogenicity of variants, built through an integration process of public data of already cataloged variants with pathogenicity predictions provided by machine learning-based tools. The model was able to present a higher accuracy than the state of the art regarding the prediction of pathogenicity of variants, constituting an important tool to support health professionals, such as in the diagnosis of genetic diseases. In the second objective, data on available properties, thermodynamics, toxicity, similarity, and efficiency were combined to assemble a global catalog of siRNAs for SARS-CoV-2. The integration of diverse properties related to siRNAs in a single consolidated database is an information reference that allows the realization of simple and targeted filtering in siRNA, saving the execution of many wet-lab tests on candidate molecules for COVID-19 antiviral therapies. These studies have common features with other data integration works in aspects involving data diversity, reproducibility, and knowledge discovery. Finally, it was found that these studies have potential for clinical application, either to increase the understanding of variants related to different genetic comorbidities, in the case of the first work, or to support the development of therapies against COVID-19, in the case of second job.

2020
Dissertações
1
  • LUCAS CAIÃ DE SOUZA TAVARES
  • Interações hipocampo-prefrontais durante a tomada de decisão espacial

  • Orientador : ADRIANO BRETANHA LOPES TORT
  • MEMBROS DA BANCA :
  • ABNER CARDOSO RODRIGUES NETO
  • ADRIANO BRETANHA LOPES TORT
  • CESAR RENNO COSTA
  • WILFREDO BLANCO FIGUEROLA
  • Data: 28/02/2020

  • Mostrar Resumo
  • O hipocampo tem sido relacionado com a codificação de memórias bem como com a navegação espacial, enquanto que o córtex pré-frontal é associado a funções cognitivas como a tomada de decisões. Supõe-se que ambas as áreas interajam entre si em tarefas que exijam tanto a navegação no espaço quanto processos de tomada de decisão. Entretanto, as assinaturas eletrofisiológicas por trás dessa comunicação carecem de uma melhor elucidação. Para investigar as dinâmicas das interações hipocampo-prefrontais, nós analisamos potenciais de campo local registrados em ratos desempenhando uma tarefa de alternação espacial num labirinto em formato de oito. Observamos que a coerência de fases nas bandas oscilatórias teta (6- 10 Hz) e beta (23-30 Hz) atingem seu pico próximo à região da tomada de decisão do labirinto. Ademais, análises de causalidade de Granger apontam para um fluxo informacional de direcionalidade hipocampo -> córtex pré-frontal na banda teta com maior intensidade em áreas iniciais do labirinto, e na direcionalidade oposta na banda delta, com um pico no início da curva. Adicionalmente, mostramos que os padrões de acoplamento fase- frequência intra e inter-regionais apresentam seletividade espacial. Análises de acoplamento de disparos mostraram que neurônios individuais do córtex pré-frontal são mais moduladas pelo ritmo teta hipocampal que pelo ritmo equivalente da sua própria região. Nossos resultados demonstram maiores níveis de interações eletrofisiológicas entre o hipocampo e o córtex pré-frontal situados próximos à área de decisão do labirinto numa tarefa de alternação espacial. Essas observações corroboram a hipótese de que uma comunicação dinâmica entre essas duas regiões acontece durante decisões espaciais.


  • Mostrar Abstract
  • The hippocampus has been linked to memory encoding and spatial navigation, while the prefrontal cortex is associated with cognitive functions such as decision-making. These regions are hypothesized to communicate in tasks that demand both spatial navigation and decision-making processes. However, the electrophysiological signatures underlying this communication remain to be better elucidated. To investigate the dynamics of the hippocampal-prefrontal interactions, we have analyzed local field potentials and spikes recorded from rats performing an odor-cued spatial alternation task in an 8-shaped maze. We found that the phase coherence of both theta (6-10 Hz) and beta (23-30 Hz) peaked around the choice point area of the maze. Moreover, Granger causality revealed a hippocampus->prefrontal cortex directionality of information flow at theta frequency, peaking at starting areas of the maze, and on the reverse direction at delta frequency, peaking near the turn onset. Additionally, the patterns of phase-amplitude cross-frequency coupling within and between the regions showed spatial selectivity. Lastly, we found that the theta rhythm dynamically modulated neurons in both regions; interestingly, prefrontal cortex neurons were more strongly modulated by the hippocampal theta rhythm than by its LFP. In all, our results reveal maximum electrophysiological interactions between the hippocampus and the prefrontal cortex near the decision-making period of the spatial alternation task. These results corroborate the hypothesis that a dynamic interplay between these regions takes place during spatial decisions.

2
  • EDEN SILVA E SOUZA
  • AVALIAÇÃO DO ALVO PREDITO DA PLUMIERIDINA EM Cryptococcus neoformans var. grubii H99

  • Orientador : MARILENE HENNING VAINSTEIN
  • MEMBROS DA BANCA :
  • MARILENE HENNING VAINSTEIN
  • EUZEBIO GUIMARAES BARBOSA
  • GUSTAVO ANTONIO DE SOUZA
  • CHARLEY CHRISTIAN STAATS
  • Data: 28/02/2020

  • Mostrar Resumo
  • Criptococose é uma infecção fúngica causada por leveduras de Cryptococcus spp. A infecção inicia-se quando células dessecadas ou esporos são inalados e chegam aos pulmões. Se a doença não for propriamente tratada, a infecção pode evoluir e atingir o sistema nervoso central e resultar em meningite meningocócica e até em óbito. O tratamento da criptococose é realizado em três estágios e faz uso de três drogas: fluconazol, anfotericina B e 5-flucitosina. Embora eficaz, o uso destas drogas pode resultar em resistência fúngica e toxicidade para os pacientes. Propõe-se investigar o modo de ação do composto antifúngico plumieridina bem como a identificação do seu alvo molecular em C. neoformans. Para isso, realizou-se uma série de experimentos in vitro e in silico. Inicialmente, uma fração cromatográfica contendo plumieridina foi obtida do extrato aquoso das sementes de Allamanda polyantha e a presença do composto observada através de ressonância magnética nuclear de carbono e hidrogênio. Atividade antifúngica, avaliada através de MIC, foi de 0.250 mg/mL. Através da triagem virtual baseada na similaridade do ligante, quitinase foi identificada como alvo molecular da plumieridina. Modelos tridimencionais das quitinases de C. neoformans foram criados e, através do atracamento molecular, observa-se a interação com resíduos do sítio ativo. Ensaios de inibição da atividade quitinolítica mostram que a atividade é significativamente reduzida na fração secretada e fração celular solúvel, porém, a atividade quitinolítica é pouco reduzida pela presença de plumieridina na fração celular insolúvel, onde são necessárias maiores concentrações do composto. Embora plumieridina seja capaz de inibir a atividade quitinolítica, o composto não parece estar relacionado aos níveis transcricionais das quitinases de C. neoformans, alterando os níveis apenas de CHI22. O tratamento com plumieridina ainda altera o padrão de distribuição dos quitooligômeros na parece celular: de um padrão polarizado para um padrão difuso pela parede. Os resultados confirmam a predição da triagem virtual e mostram que a inibição da atividade quitinolítica pela plumieridina resulta em divisão celular incompleta e, consequente, morte celular.


  • Mostrar Abstract
  • Cryptococcosis is a fungal infection caused by yeasts of Cryptococcus spp. The infection starts when desiccated cells or spores are inhaled and reach the lungs. If the disease is not properly treated, the infection can evolve and reach the central nervous system and result in meningococcal meningitis and even death. The treatment of cryptococcosis is carried out in three stages and uses three drugs: fluconazole, amphotericin B and 5-flucytosine. Although effective, the use of these drugs can result in fungal resistance and can be toxicity for patients. This work aims to investigate the mode of action of the antifungal compound plumieridine as well as the identification of its molecular target in C. neoformans. For this, a series of in vitro and in silico experiments were carried out. Initially, a chromatographic fraction containing plumieridine was obtained from the aqueous extract from seeds of Allamanda polyantha and the presence of the compound observed through carbon and hydrogen nuclear magnetic resonance. Antifungal activity, assessed through MIC, was 0.250 mg/mL. Through virtual screening based on ligand’s similarity, chitinase was identified as plumieridine’s molecular target. Three- dimensional models of C. neoformans chitinases were created and, through molecular docking, it is observed plumieridine interacts with residues in the active site. Chitinolytic inhibitory activity assays show that activity is significantly reduced in the secreted fraction and soluble cell fraction, however, the chitinolytic activity is little reduced by the presence of plumieridine in the insoluble cell fraction, where higher concentrations of the compound are needed. Although plumieridine is able to inhibit chitinolytic activity, the compound does not appear to affect the transcriptional levels of C. neoformans chitinases: only transcription of CHI22 was reduced in the presence of plumieridine. The treatment with plumieridine still alters the distribution pattern of the chitooligomers in the cellular wall: from a polarized pattern to a diffuse pattern through the wall. The results confirm the prediction of virtual screening and show that inhibition of chitinolytic activity by plumieridine results in incomplete cell division and, consequently, cell death.

3
  • RENATA LILIAN DANTAS CAVALCANTE
  • Investigação exploratória dos fatores genéticos associados ao sistema de determinação sexual em Arapaima gigas (Pirarucu)

  • Orientador : TETSU SAKAMOTO
  • MEMBROS DA BANCA :
  • TETSU SAKAMOTO
  • GUSTAVO ANTONIO DE SOUZA
  • SIDNEY EMANUEL BATISTA DOS SANTOS
  • Data: 30/03/2020

  • Mostrar Resumo
  • O Pirarucu, (Arapaima gigas) é um dos maiores peixes ósseos de água doce do mundo,podendo pesar por volta de 200 quilogramas e medir cerca de 3 metros de comprimento quando adulto. Pertence a família Arapaimidae, ordem dos Osteoglossiformes e tem como habitat natural a Bacia amazônica. Devido ao seu grande porte, à sua carne conter baixo conteúdo de gordura e pequeno número de espinhas, Arapaima gigas tornou-se uma espécie de especial interesse na pesca. Um dos problemas relacionados à sua exploração pesqueira é que não se conhecem ao certo os mecanismos genéticos ligados a sua diferenciação sexual. A maturação sexual em Arapaima gigas ocorre tardiamente, por volta do terceiro ao quinto ano de vida, e o dimorfismo sexual não é uma característica proeminente nesta espécie. Para um manejo mais sustentável, é de suma importância buscar um método eficaz e pouco invasivo para diferenciar sexualmente os indivíduos juvenis de Arapaima gigas. Para isso, o estabelecimento de um marcador genético molecular relacionado com a diferenciação sexual seria uma vantajosa ferramenta. Análises anteriores do genoma de Arapaima gigas não obtiveram resultados significativos em determinar genes ou grandes regiões genômicas associadas ao sistema de determinação sexual destes indivíduos. Neste estudo, propusemos realizar diferentes abordagens em Bioinformática, que não são tão usuais para a identificação de diferenças genômicas entre indivíduos de sexooposto, com o intuito de identificar regiões repetitivas em excesso ou em falta em um dossexos ou pequenas regiões presentes em apenas um sexo. Para isso, utilizamos dados genômicos de seis representantes adultos de Arapaima gigas, sendo três machos e três fêmeas,além do genoma referência de Pirarucu ID: 12404 depositadas no NCBI. Após realizados esses estudos exploratórios no genoma de Arapaima gigas, notou-se a existência de k-mers que estão representados de maneira distinta entre os indivíduos de sexo oposto. E não só aexistência desses k-mers como também, a identificação de 22 scaffold’s onde ocorrem existência de haploidias, que se fazem presentes em um sexo e com cenário antagônico no outro. Ademais, foi realizada a identificação do painel de microssatélites em Arapaima gigas, onde foi computado a existência de 95.485 microssatélites. O conhecimento dessas regiões de microssatélites é de suma importância para a continuação deste trabalho pois viabiliza sua utilização como marcadores moleculares de regiões genômicas, que aliado principalmente as porções de haploidia existentes em apenas um dos sexos de Arapaima gigas facilitaria técnicas experimentais de isolamento de sequências de interesse. As diferentes proporções na contagem de k-mers e sítios de heterozigose (haploidia) podem indicar a existência de fatores genéticos, que se comprovados através de experimentos na bancada, podem auxiliar na sexagem dos indivíduos de Arapaima gigas.


  • Mostrar Abstract
  • The Pirarucu, (Arapaima gigas) is one of the largest freshwater bony fish in the world,with adults that can weigh 200 kilograms and measure 3 meters in length. It belongs to the Arapaimidae family, of the Osteoglossiformes order and has the Amazon Basin as its natural habitat. Due to its large size and its low fat containing and low fishbone, Arapaima gigas has quickly become a species of special interest in fish-farming. A problem related to its fishery exploitation is that the genetic mechanisms that control the sexual differentiation in Arapaimas gigas are not known. The sexual maturation in Arapaima gigas occurs belatedly, around the third to fifth year of life, and sexual dimorphism is not a strong characteristic of the species. For more sustainable management, it is of paramount importance to seek an effective and non-invasive method to sexually differentiate juvenile individuals of Arapaima gigas. For this, the establishment of a molecular genetic markers related to sexual differentiation would be an advantageous tool. Previous analyses of the Arapaima gigas genome could not find statistically significant determining large genomic regions that are associated with the sex-determination system of these individuals. In This study, we proposed to make uncommon Bioinformatic approaches, that is not so usual, for the identification of genomic differences between individuals of the oppositesex, with the intention of identifying repetitive regions in excess or scarcity in one sex. For this purpose, we used genomic data from six adult representatives of Arapaima gigas, three males and three females, in addition to the reference genome of Pirarucu ID: 12404 deposited in NCBI. After these exploratory studies in the genome, we noticed the existence of k-mers that are represented differently among individuals of the opposite sex. We also identified 22 scaffolds containing haploidy in one sex and with the antagonistic scenario (absence of haploidy) in the other one. Additionally, we performed the identification of the microsatellite panel in Arapaima gigas was performed, where 95.485 microsatellites were found. The knowledge of these microsatellite regions is very important for the continuation of this work, as it enables their use as molecular markers of genomic regions, which would facilitate experimental techniques of isolation of sequences of interest, especially when associated with the portions of haploidy existing in only one of the sexes of rapaimagigas would facilitate experimental techniques of isolation of sequences of interest. The Different proportions in the count of k-mers and heterozygous sites (haploidy) can indicate the existence of genetic factors, which if proven through experiments on the bench, can aid in the sexing of Arapaima gigas individuals.

4
  • FELIPE VIEIRA DA FONSECA
  • COMPARAÇÃO DE REDES DE INTERAÇÃO DE RESÍDUOS (RINs) COMO UMA FORMA DE AVALIAR A VARIAÇÃO CONFORMACIONAL DE PROTEÍNAS

  • Orientador : JOAO PAULO MATOS SANTOS LIMA
  • MEMBROS DA BANCA :
  • JOAO PAULO MATOS SANTOS LIMA
  • GUSTAVO ANTONIO DE SOUZA
  • RODRIGO MARANGUAPE SILVA DA CUNHA
  • Data: 30/06/2020

  • Mostrar Resumo
  • Alterações na sequência primária de aminoácidos podem resultar em alterações na estrutura tridimensional de proteínas e perda parcial ou total da sua função. Uma forma de representar as ligações e interações entre todos os aminoácidos de uma proteína é por meio das redes de interação de resíduos (RINs). Nas RINs a estrutura 3D de proteínas são apresentadas na forma de grafos, onde os nós representam os resíduos de aminoácidos e as arestas representam as interações físico-químicas entre os aminoácidos. Nossa hipótese é que a comparação entre RINs de uma mesma proteína em diferentes conformações pode ser utilizada para avaliação dos efeitos de mutações e polimorfismos, assim como para a análise e validação de modelos teóricos. Portanto, o estudo tem por objetivo construir uma ferramenta para comparação de diferentes RINs para uma proteína e utilizar tais dados para pontuar diferenças conformacionais entre proteínas e na validação de modelos gerados por homologia. As RINs foram criadas utilizando o RING 2.0 (Residue Interaction Network Generator). A ferramenta desenvolvida para isso, chamada de CoRINs (Comparator of Residue Interaction Networks), compara todos os nós de RINs geradas a partir de diferentes arquivos de estrutura (PDBs) de uma mesma proteína, levando em consideração a posição, a cadeia e o resíduo, bem como suas interações com os outros aminoácidos. A ferramenta apresenta um gráfico que estima a variação de interações formadas por cada resíduo, que pode ser utilizado com uma estimativa para a variação conformacional daquele sítio proteico, a partir do conjunto de PDBs comparados. Como aplicação para a ferramenta, utilizamos um conjunto de dados com oncogenes e genes supressores de tumor e suas respectivas mutações reportadas. Estas foram mapeadas de acordo com a variação da conectividade de cada resíduo. Os resultados demonstram que mutações associadas aos oncogenes apresentam uma maior tendência de ocorrer em sítios com maior variação na quantidade de interações em seus resíduos. Adicionalmente, a maioria das mutações anotadas como patogênicas e associadas ao câncer nestes genes ocorreu em sítios com maior quantidade de mudanças em interações químicas e físicas. Tais resultados demonstram que a ferramenta CoRINs pode ser útil na identificação das ligações químicas secundárias e interações não-covalentes essenciais à manutenção da estrutura proteica, podendo ser utilizada em estudos evolutivos, como na manutenção da função de proteínas homólogas com alta divergência de sequência primária e também na comparação e validação de modelos estruturais teóricos.


  • Mostrar Abstract
  • Changes in the amino acid sequence may result in alterations in the three- dimensional protein structure, which may lead to partial or complete loss of function. One way to represent the chemical interactions between all amino acids in a protein is through the construction of residue interaction networks (RINs). In RINs, a graph represents the protein 3D structure, with the nodes as amino acid residues, and the edges as the physicochemical interactions between amino acids. We hypothesize that the comparison between RINs of the same protein in different conformations can be used to evaluate the effects of mutations and polymorphisms, as well as for the analysis and validation of theoretical protein models. Therefore, the present work aimed to build a tool to compare different RINs for a protein and to use such data to estimate conformational differences between proteins and also validate models generated by homology modeling. RINs were created using the RING 2.0 (Residue Interaction Network Generator) program. The tool developed for this purpose, called Comparator of Residue Interaction Networks (CoRINs), compares all RIN nodes generated from different structure files (PDBs) of the same protein, taking into account position, chain and residue, as well as their interactions with the other amino acids. The tool also presents a plot that estimates the variation of interactions formed by each residue, which we propose as an estimate for the conformational alterations of that protein site, from a set of compared PDBs. As a possible application for this tool, we used a dataset with oncogenes and tumor suppressor genes with their respective reported mutations mapped according to the connectivity deviation of each residue. Then we retrieved the different conformations for each resulting protein from a bank of structural conformers and constructed the RINs using the software RING 2.0 and compared them with CoRINs. The results show that mutations occurring in the tested oncogenes are more likely to occur in protein sites with a more significant deviation in the mean number of chemical interactions. Additionally, most of these genes’ mutations annotated as pathogenic and associated with clinical cancer cases occurred at sites with the most significant changes in chemical and physical interactions. These results demonstrate that the CoRINs tool can be useful in identifying non- covalent interactions essential for protein structure maintenance and in evolutionary studies, such as in the maintenance of homologous proteins function with high sequence divergence, as well as for the comparison and validation of theoretical structural models.

5
  • IGOR AUGUSTO BRANDÃO
  • Abordagens da biologia de sistemas na investigação dos pontos de articulação nas rotas metabólicas do KEGG

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • CESAR RENNO COSTA
  • RICARDO D''''OLIVEIRA ALBANUS
  • Data: 14/08/2020

  • Mostrar Resumo
  • O estudo da essencialidade das proteínas por meio de métodos laboratoriais é caro e não escalável para grandes quantidades de proteínas, desta forma é relevante avaliar a essencialidade das várias proteínas de uma via metabólica como um todo através de ferramentas computacionais. Em geral, uma via metabólica pode ser analisada como grafos, os quais fornecem diferentes recursos para o estudo das características topológicas de redes, como os seus pontos de articulação e disposição dos nós. Atualmente, pesquisas em bioinformática estudam a essencialidade de proteínas com base nas métricas de betweenness e degree, contudo a teoria dos grafos sugere que os pontos de articulação podem ser nós importante em uma rede resta avaliar se esses pontos de articulação são de fato essenciais para as vias metabólicas e seu impacto topológico na rede. Utilizando análises baseadas em métricas de rede, o nosso objetivo é verificar se de fato esses pontos de articulação representam gargalos na rede, sendo estes caracterizados como proteínas de frequências elevadas e localizadas no centro das redes. Para tanto, identificamos os pontos de articulação em diferentes vias metabólicas do KEGG, avaliamos o impacto de cada um deles, calculamos sua frequência e comparamos suas ocorrências com as demais proteínas. Inicialmente, fizemos o levantamento das vias metabólicas do KEGG que estavam disponíveis através dos arquivos KGML associados às redes. Após a listagem das vias disponíveis, os dados estruturais de cada uma delas foram convertidos em objetos do tipo grafo. Os parâmetros ponto de articulação, betweenness e degree foram utilizados para classificar as proteínas constantes em cada via metabólica. Aproximadamente 20% das proteínas foram classificadas como pontos de articulação, das quais 3,75% foram identificadas pela alta frequência e localização em regiões centrais da rede. Além disso, a maior concentração dos pontos de articulação ocorreu na faixa de frequência dos 80 a 90%. Um padrão de não aleatoriedade na distribuição dos pontos de articulação foi identificado nos grupos com frequências acima de 74,5%. Finalmente, a biossíntese de esteroides foi a via metabólica com o maior número de pontos de articulação com frequências superiores a 80% em sua constituição. A oxidoredutase foi a classe dos pontos de articulação presente no maior número de vias metabólicas. As descobertas sugerem que os gargalos das redes avaliadas são pontos de articulação com as frequências mais altas e localizados no centro da rede. Resta realizar análises mais aprofundadas a respeito dos papéis biológicos destes pontos de articulação encontrados.


  • Mostrar Abstract
  • The study of proteins essentiality through laboratory methods is expensive, time-consuming and not scalable for large amounts of proteins. Besides, it is relevant to evaluate the essentiality of several proteins of a metabolic pathway as a whole. The metabolic pathways can be analyzed as graphs, which provide several tools to study the topological features such as the articulation points. Nowadays, research in bioinformatics studies the essentiality of proteins based on betweenness and degree metrics, however, graph theory suggests that articulation points could be essential nodes in a network. It remains to be determined whether these articulation points are essential in metabolic pathways and their topological impact on the network. Using network analysis via metrics and biologic curation, we aim to verify if bottlenecks are proteins with the highest frequencies and located in the center of KEGG metabolic pathways. For this purpose, we identified the articulation points in different networks, evaluate the impact of each articulation point, calculate their frequency and compare them with occurrences of non-articulation points. We consulted KEGG pathways available as KGML files. After, the data was transformed into a graph object. Two centrality parameters including articulation points and degree are determined and the essential proteins based on these parameters are classified. Approximately 20% of the proteins are articulation points. The articulation points with high- frequency which are located in central regions of the network were considered the most important (3.75%). In addition, the highest concentration of articulation points occurred in the frequency range of 80-90%. A pattern of non-randomness of articulation points was identified in the protein groups that have a frequency of at least 74.5%. Finally, steroid biosynthesis is the metabolic pathway with the highest number of articulation points with frequency higher than 80%. Besides, oxidoreductase is the articulation point class present in the highest number of metabolic pathways. Overall, the findings suggest that bottlenecks are articulation points with highest frequencies and located in the center of the network. It remains to perform a deep analysis on the articulation points biological roles.

6
  • DANILO LOPES MARTINS
  • Análise exploratória do transcriptoma do Arapaima gigas

  • Orientador : JORGE ESTEFANO SANTANA DE SOUZA
  • MEMBROS DA BANCA :
  • JORGE ESTEFANO SANTANA DE SOUZA
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • SIDNEY EMANUEL BATISTA DOS SANTOS
  • Data: 29/09/2020

  • Mostrar Resumo
  • O Arapaima gigas, conhecido como pirarucu, é considerado um dos maiores peixes de água doce do mundo, com um notável interesse no mercado da aquicultura devido às suas características biológicas particulares, incluindo o seu rápido crescimento nos seus primeiros anos de vida. Nos últimos anos, apesar da disponibilização massiva de dados advindos de projetos de sequenciamento, poucos foram os que abordaram o táxon que inclui essa espécie. O presente estudo foi desenvolvido com a finalidade de caracterizar o transcriptoma dessa espécie, através de uma análise exploratória transcricional e dos padrões de expressão gênica relacionados a perfis genes tecido-específicos, além de evidenciar genes sexo-específicos. Por meio do sequenciamento do cDNA de 12 amostras de tecidos diferentes do pirarucu, montou-se um transcriptoma de referência com a estratégia de montagem guiada pelo genoma referência. Foram analisados os padrões de expressão gênica para os diferentes tecidos de macho e fêmea de espécimes adultos. Pipelines como STAR, SortMeRNA, Braker2, Diamond e mygene para a montagem e anotação gênica foram utilizados, assim como as ferramentas clusterProfiler e KEGG para análise de enriquecimento funcional dos genes e o animalTFDB para identificação de fatores de transcrição. Neste estudo evidenciamos um conjunto de produtos gênicos anotados que servem como potenciais candidatos a produtos biotecnológicos, por estarem envolvidos nos fenótipos individuais dos tecidos, processos de dimorfismo sexual, e na regulação de processos que podem explicar suas características morfológicas únicas. Esse estudo também podem auxiliar substancialmente na condução de análises posteriores.


  • Mostrar Abstract
  • Arapaima gigas, known as pirarucu, is considered one of the largest freshwater fish in the world, with a notable interest in the aquaculture due to its particular biological characteristics, including its rapid growth in its early years. In recent years, despite the massive availability of data from sequencing projects, few have addressed the taxon that includes this species. The present study was developed aiming characterize the transcriptome of this species, through an exploratory transcriptional analysis and patterns of gene expression related to specific gene profiles, in addition to highlighting sex-specific genes. By cDNA sequencing of 12 different tissue samples from Arapaima gigas, a reference transcriptome was assembled with a genome-guided assembly strategy. The gene expression profiles of different male and female tissues of adult specimens were analyzed. Pipelines such as Hisat2, Braker2, Trinity, Diamond and mygene were used for the assembly and annotation of genes, as well as clusterProfiler and KEGG tools for functional enrichment analysis and animalTFDB for identifying transcription factors. In this study we highlighted a set of annotated genes which may be potential candidates to biotechnological products, as they are involved in individual tissue phenotypes, sexual dimorphism processes, and in regulation of process that can explain their unique morphological characteristics. This study can also substantially conduct further analysis.

Teses
1
  • KATYANNA SALES BEZERRA
  • QUANTUM BIOCHEMICAL STUDY OF INTERACTIONS BETWEEN
    THE ANDROGENIC RECEPTOR, rRNA AND MCL-1 AND LIGANDS

  • Orientador : UMBERTO LAINO FULCO
  • MEMBROS DA BANCA :
  • DOUGLAS SOARES GALVAO
  • EUDENILSON LINS DE ALBUQUERQUE
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • UMBERTO LAINO FULCO
  • VALDER NOGUEIRA FREIRE
  • Data: 24/03/2020

  • Mostrar Resumo
  • Esta tese apresenta três pesquisas realizadas no campo da simulação ab initio, baseadas em princípios da Mecânica Quântica. O primeiro estudo retrata as particularidades das interações entre o receptor androgênico (RA) carregando uma mutação T877A, cuja a qual promove promiscuidade no receptor, e dois fármacos antagonistas acetato de ciproterona e hidroxiflutamida (CPA e HFT) e um composto agonista (RLL). As energias de interação foram obtidas com base em métodos da química quântica baseados na Teoria do Funcional da Densidade (DFT) utilizando o método de Fragmentação com Capas Conjugadas (MFCC). Os resultados demonstram a relevância individual entre T877A-RA e os ligantes, apontando os principais resíduos que perfazem as interações. O segundo estudo apresenta a análise da interação entre RNA ribossômico 16S e a higromicina B (hygB) é um antibiótico aminoglicosídeo que afeta a translocação ribossômica, utilizando a estratégia MFCC à luz do DFT e parametrizações de constantes dielétricas. Os resultados apontaram que os nucleotídeos C1403, C1404, G1405, A1493, G1494, U1495, C1496 e U1498 tinham as energias de ligação mais negativas, tornando-os fortes candidatos para estabilizar o hygB em uma bolsa de ligação adequada da subunidade ribossômica 30S dos procariontes. Já o terceiro trabalho apresentado aqui investiga as interações entre a proteína anti-apoptótica MCL-1, a qual sua superexpressão tem a capacidade de bloquear a via de sinalização da apoptose permitindo o crescimento celular desordenado, e sete compostos químicos com potencial para inibir a proteína. A metodologia utilizada aqui também utiliza métodos quânticos baseados no DFT, além do MFCC. Os resultados apontaram que os resíduos Arg263, Met231, Val253 Phe270, Phe228, Phe254, Leu267 e Thr266 são de crucial importância para a ligação dos inibidores ao bolso hidrofóbico de MCL-1. Os métodos computacionais utilizados nos três estudos emergem como uma alternativa elegante e eficiente para o desenvolvimento de medicamentos.


  • Mostrar Abstract
  • This thesis presents three researches carried out in the field of ab initio simulation, based on principles of Quantum Mechanics. The first study present the particularities of the interactions between the androgen receptor (AR) carrying a T877A mutation, which promotes promiscuity in the receptor, and two antagonist drugs cyproterone acetate and hydroxyflutamide (CPA and HFT) and an agonist compound (RLL). The interaction energies were obtained based on quantum chemistry methods based on Density Functional Theory (DFT) using the method Molecular Fragmentation with Conjugated Caps (MFCC). The results demonstrate the individual relevance between T877A-AR and the ligands, pointing out the main residues that make the interactions. The second study presents the analysis of the interaction between 16S ribosomal RNA and hygromycin B (hygB) is an aminoglycoside antibiotic that affects ribosomal translocation, using the MFCC strategy in light of the DFT and parameterization of dielectric constants. The results showed that nucleotides C1403, C1404, G1405, A1493, G1494, U1495, C1496 and U1498 had the most negative binding energies, making them strong candidates for stabilizing hygB in a suitable binding pouch of the 30S ribosomal subunit of prokaryotes. The third work presented here investigates the interactions between the anti-apoptotic protein MCL-1, which overexpression has the ability to block the apoptosis signaling pathway allowing for disordered cell growth, and seven chemical compounds with the potential to inhibit the protein . The methodology used here also uses quantum methods based on DFT, in addition to MFCC. The results showed that the residues Arg263, Met231, Val253 Phe270, Phe228, Phe254, Leu267 and Thr266 are of crucial importance for the binding of inhibitors to the hydrophobic pocket of MCL-1. The computational methods used in the three studies emerge as an elegant and efficient alternative for drug development.

2
  • FREDERICO LEMOS DOS SANTOS
  • PROCESSO EPIDÊMICO MEDIADO POR VETORES E PROCESSO NO MODELO SIS EM REDE COMPLEXA: UM ESTUDO DAS PROPRIEDADES CRÍTICAS

  • Orientador : UMBERTO LAINO FULCO
  • MEMBROS DA BANCA :
  • UMBERTO LAINO FULCO
  • JOAO PAULO MATOS SANTOS LIMA
  • ANTONIO DE MACEDO FILHO
  • MAURICIO LOPES DE ALMEIDA
  • PAULO HENRIQUE RIBEIRO BARBOSA
  • Data: 19/08/2020

  • Mostrar Resumo
  • Desde 1990 que as propagações epidêmicas têm sido alvo de muitos estudos base- ados nos métodos da Física Estatística. As dinâmicas desses processos epidêmicos, tipica- mente de não equilíbrio, consistem na competição pelo estado de saúde ativo (hospedeiros infectados) e inativo (hospedeiros não infectados). A transição entre estes estados ativo (epidêmico) e inativo (não epidêmico) permite a análise do ponto e dos expoentes críticos do sistema (classe de universalidade). Nesta tese investiga-se as propriedades críticas de dois sistemas epidêmicos: O primeiro composto de duas espécies de população que são a humana com hospedeiros não infectados (H) e hospedeiros infectados (Hi) e a dos vetores composta de vetores não infectados (V ) e vetores infectados (Vi), que se difundem inde- pendentemente numa rede unidimensional, com a taxa D, seguindo uma regra dinâmica de probabilidade, onde as taxas de cura dos vetores e dos indivíduos são respectivamente φ e λ. Um segundo sistema epidêmico, conhecido como suscetível infectado suscetível (SIS), em uma rede complexa com alto fator de agregação e com taxa de contaminação λ. Para ambos os modelos, utiliza-se simulações computacionais usando-se o Método de Monte Carlo para obter os dados e fazer a análise de escala de tamanho finito, para estimar as propriedades críticas. Pretende-se obter as propriedades críticas dos dois processos e enquadrá-los em suas respectivas classes de universalidade. Estas informações podem contribuir com as metodologias empregadas pela epidemiologia no combate as doenças infecciosas.


  • Mostrar Abstract
  • Since 1990, epidemic spread has been the subject of many studies based on sta- tistical physics methods. The dynamics of these epidemic processes, typically of non- equilibrium, consist of competition for active (infected hosts) and inactive (uninfected hopedeiro) health status. The transition between these active (epidemic) and inactive (non-epidemic) states allows the analysis of the critical point and exponents of the sys- tem (universality class). In this thesis, the critical properties of two epidemic systems are investigated: The first compound of two population species that are human with uninfec- ted hosts (H) and infected hosts (Hi) and that of vectors composed of non-infected vectors infected (V ) and infected vectors (Vi), which spread independently in a one-dimensional network, at D rates, following a dynamic probability rule, where the cure rates of vectors and individuals are respectively φ and λ. A second epidemic system, known as suscep- tible infected susceptible (SIS), in a complex network with high aggregation factor and contamination rate λ. For both models, computer simulations are used using the Monte Carlo Method to obtain the data and perform a finite-size scale analysis to estimate cri- tical properties. The conclusion of this work is the analysis of critical points and critical exponents. It is expected to define a new class of universality and a parallel with the methodology used by epidemiology to combat infectious diseases.

3
  • EDUARDO NOGUEIRA CUNHA
  • Um Sistema Inteligente de Baixo Custo para Detecção de Ácidos Nucleicos Baseados em Eletroforese no Espectro Visível

  • Orientador : JOAO PAULO MATOS SANTOS LIMA
  • MEMBROS DA BANCA :
  • ADRIAO DUARTE DORIA NETO
  • ALEXSANDRO SOBREIRA GALDINO
  • DANIEL CARLOS FERREIRA LANZA
  • JOAO PAULO MATOS SANTOS LIMA
  • MARCELO AUGUSTO COSTA FERNANDES
  • RODRIGO MARANGUAPE SILVA DA CUNHA
  • Data: 20/11/2020

  • Mostrar Resumo
  • A detecção de ácidos nucleicos por eletroforese ainda é uma técnica rápida e acessível para muitos métodos de diagnóstico, principalmente em laboratórios de pesquisa ou em unidades básicas de saúde. Protocolos padrão detectam moléculas de DNA/RNA através de corantes químicos específicos usando um transiluminador de UV ou sistema de fotodocumentação ultravioleta. No entanto, os custos de aquisição e a disponibilidade desses dispositivos, principalmente aqueles com capacidade de fotografia e conexão à Internet, podem ser proibitivos, principalmente nas unidades de saúde pública dos países em desenvolvimento. Além disso, a radiação ultravioleta é um fator de risco adicional comum para profissionais que usam a detecção de ácidos nucleicos baseada em eletroforese. Com isso em mente, este trabalho descreve o desenvolvimento de um sistema inteligente de detecção de DNA/RNA de baixo custo, capaz de obter dados qualitativos e semiquantitativos da análise em gel. O dispositivo proposto explora a faixa de absorção de luz visível dos corantes de DNA/RNA comumente usados, usando peças prontamente disponíveis e processos de fabricação simples, como diodos emissores de luz (LEDs) e impressão 3D. Ao aplicar técnicas de Internet Of Things, nosso sistema cobre uma ampla gama de espectros de cores para detectar bandas de vários corantes usados comercialmente, usando comunicação Bluetooth e um smartphonepara controle de hardware, captura e compartilhamento de imagens. O projeto também permite a escalabilidade do processo e possui baixos custos de fabricação e manutenção. O uso de LEDs no espectro visível pode obter imagens muito reproduzíveis, fornecendo um alto potencial para diagnósticos rápidos e no local de atendimento, além de aplicações em vários campos, como saúde, agricultura e aquicultura.


  • Mostrar Abstract
  • Nucleic acid detection by electrophoresis is still a quick and accessible technique for many diagnosis methods, primarily at research laboratories or at the point of care units. Standard protocols detect DNA/RNA molecules through specific bound chemical dyes using a UV-transilluminator or UV-photo documentation system. However, the acquisition costs and availability of these devices, mainly the ones with photography and internet connection capabilities, can be prohibitive, especially in developing countries public health units. Also, ultraviolet radiation is a common additional risk factor to professionals that use electrophoresis-based nucleic acid detection. With that in mind, this work describes the development of a low-cost DNA/RNA detection smart system capable of obtaining qualitative and semi-quantitative data from gel analysis. The proposed device explores the visible light absorption range of commonly used DNA/RNA dyes using readily available parts, and simple manufacturing processes, such as light-emitting diodes (LEDs) and 3D impression. By applying IoT techniques, our system covers a wide range of color spectrum in order to detect bands from various commercially used dyes, using Bluetooth communication and a smartphone for hardware control, image capturing, and sharing. The project also enables process scalability and has low manufacturing and maintenance costs. The use of LEDs at the visible spectrum can achieve very reproducible images, providing a high potential for rapid and point-of-care diagnostics as well as applications in several fields such as healthcare, agriculture, and aquaculture.

2019
Dissertações
1
  • PAULO EDUARDO TOSCANO SOARES
  • Metagenoma de um camarão Penaeus vannamei infectado com o vírus causador da Síndrome da Mancha Branca

  • Orientador : DANIEL CARLOS FERREIRA LANZA
  • MEMBROS DA BANCA :
  • DANIEL CARLOS FERREIRA LANZA
  • JORGE ESTEFANO SANTANA DE SOUZA
  • ANDRE MAURICIO RIBEIRO DOS SANTOS
  • Data: 11/03/2019

  • Mostrar Resumo
  • O camarão de patas brancas (Penaeus vannamei) é a espécie mais cultivada na
    aquicultura mundial. O cultivo comercial geralmente ocorre em densidades altas o que
    propicia a seleção de patógenos virulentos, causando surtos epidêmicos. Dentre os
    patógenos que acometem a carcinicultura, o vírus causador da Síndrome da Mancha
    Branca (White Spot Syndrome Virus - WSSV) é conhecido por surtos que podem
    resultar em mais de 80% de mortalidade em menos de uma semana. Em decorrência
    disso, o uso de estratégias preventivas que possibilitem a identificação e
    acompanhamento da microbiota nos cultivos tem se tornado cada vez mais necessária,
    sobretudo em sistemas intensivos. Recentemente, o uso da metagenômica foi sugerido
    para o monitoramento em aquicultura. Vários estudos usaram metagenômica 16S, para
    estudar a microbiota associada a camarões saudáveis ou infectados com patógenos
    específicos. Outros estudos abordaram a metagenômica shotgun para descobrir novos
    vírus. A metagenômica shotgun é potencialmente mais informativa que a metagenômica
    por genes marcadores, permitindo a recuperação de informação genômica do hospedeiro
    e seus simbiontes, incluindo vírus, cuja composição pode atuar como bioindicadores do
    estágio da doença. Neste estudo, a metagenômica shotgun foi utilizada para analisar o
    músculo caudal de um exemplar de P. vannamei infectado pelo WSSV. Classificações
    taxonômicas e funcionais foram feitas para se obter os respectivos perfis dos dados
    metagenômicos. P. vannamei e WSSV foram os organismos mais abundantes na
    classificação por reads. Na análise dos contigs, foi observada maior abundância de
    contigs para camarão, bactérias e WSSV respectivamente. A classificação funcional foi
    realizada por meio do software MEGAN e resultou em poucos grupos representativos
    de funções proteicas, que não foram suficientes para estabelecer um perfil funcional da
    amostra. Uma classificação taxonômica a partir do BLASTx também foi realizada com
    o MEGAN e apresentou resultados similares a classificação usando BLASTn. Os
    resultados do BLASTn possibilitaram a montagem do genoma mitocondrial completo
    do P. vannamei. Este estudo fornece suporte para o uso da metagenômica shotgun
    como uma ferramenta para o monitoramento da microbiota em cultivos de camarão,
    sendo possível recuperar simultaneamente informações úteis para a genética de
    populações (através do o genoma mitocondrial do camarão) e o monitoramento de
    simbiontes e patógenos, como as bactérias e o WSSV.

     


  • Mostrar Abstract
  • White-leg shrimp (Penaeus vannamei) is the most widely cultivated species in
    aquaculture in the world. Commercial cultivation usually occurs at high densities, which
    favors the selection of virulent pathogens, causing epidemic outbreaks. Among the
    pathogens that cause shingles, the virus that causes White Spot Syndrome Virus
    (WSSV) is known for outbreaks that can result in more than 80% of mortality in less
    than a week. As a result, the use of preventive strategies that allow the identification and
    monitoring of microbiota in crops has become increasingly necessary, especially in
    intensive systems. Recently, the use of metagenomics has been suggested for
    monitoring in aquaculture. Several studies have used 16S metagenomics to study the
    microbiota associated with healthy or infected shrimp with specific pathogens. Other
    studies have addressed the metagenomic shotgun to discover new viruses. The
    metagenomic shotgun is potentially more informative than the metagenomic by marker
    genes, allowing the retrieval of genomic information from the host and its symbionts,
    including viruses, whose composition may act as bioindicators of the disease stage. In
    this study, the shotgun metagenomic was used to analyze the caudal muscle of a P.
    vannamei specimen infected by WSSV. Taxonomic and functional classifications were
    made to obtain the respective profiles of the metagenomic data. P. vannamei and WSSV
    were the most abundant organisms in the classification by reads. In the analysis of the
    contigs, greater abundance of contigs was observed for shrimp, bacteria and WSSV,
    respectively. Functional classification was performed using the MEGAN software and
    resulted in few representative groups of protein functions, which were not sufficient to
    establish a functional profile of the sample. A taxonomic classification from the
    BLASTx was also performed with the MEGAN and presented results similar to the
    classification using BLASTn. The BLASTn results enabled the assembly of the
    complete mitochondrial genome of P. vannamei. This study provides support for the use
    of the shotgun metagenomics as a tool for the monitoring of the microbiota in shrimp
    cultures, and it is possible to simultaneously retrieve information useful for population
    genetics (through the mitochondrial shrimp genome) and the monitoring of symbionts
    and pathogens , such as bacteria and WSSV.

2
  • ANA CAROLINA MIRANDA FERNANDES COÊLHO
  • neoANT-HILL: uma ferramenta integrada para a detecção de potenciais neoantígenos

  • Orientador : SANDRO JOSE DE SOUZA
  • MEMBROS DA BANCA :
  • JORGE ESTEFANO SANTANA DE SOUZA
  • SANDRO JOSE DE SOUZA
  • ÂNDREA KELY CAMPOS RIBEIRO DOS SANTOS
  • Data: 18/04/2019

  • Mostrar Resumo
  • Nos últimos anos, os neoantígenos têm gerado grande interesse na imunoterapia devido à sua capacidade de elicitar respostas imunológicas antitumorais. Os neoantígenos surgem como consequências de mutações somáticas especificas e podem ser apresentados, pelas moléculas de HLA, na superfície das células tumorais e reconhecidos pelas células T como moléculas não-próprias. Diversos estudos indicaram resultados promissores quanto ao uso dos neoantígenos em diferentes abordagens imunoterapêuticas. No entanto, a identificação precisa dos neoantígenos ainda permanece um desafio. Portanto, o objetivo do presente trabalho foi desenvolver uma ferramenta computacional que integre análises imunogenômicas individuais, porém, fundamentais para a identificação de potenciais neoantígenos. Foram utilizados dados de RNA-seq do projeto GEUVADIS e dados de mutações somáticas provenientes de melanoma do projeto TCGA para auxiliar na validação do pipeline desenvolvido. Como resultado, obteve-se a ferramenta, denominada neoANT-HILL, desenvolvida na linguagem de programação Python e, disponível através de uma interface gráfica amigável e interativa. A ferramenta utiliza dados provenientes do sequenciamento genômico ou exômico e/ou dados de RNA-Seq para a execução das análises imunogenômicas disponíveis. A integração dos resultados auxiliam na identificação precisa de potenciais neoantígenos candidatos à imunoterapia.

     


  • Mostrar Abstract
  • In recent years, neoantigens have generated great interest in immunotherapy due to its ability to elicit antitumor immune responses. Neoantigens arise from specific somatic mutations and it can be present by HLA molecules on the surface of tumor cells and recognized by T cells as non-self molecules. Several studies have indicated promising results in the use of neoantigens in different immunotherapeutic approaches. However, the precise identification of neoantigens remains challenging. Therefore, the aim of the present work was developing a computational tool that integrates the individual immunogenetics analyses, which are fundamental for the identification of potential neoantigens. RNA-seq data from GEUVADIS project and melanoma mutation data obtained from the TCGA to validate the developed pipeline. As a result, we developed a tool, called neoANT-HILL, in Python programming language and available through a friendly and interactive graphical user interface. Data from the whole genome or exome sequencing and/or RNA-Seq data are used for performing the immunogenomic analyzes. The integration of the results allows the identification of potential neoantigens candidates for immunotherapy.

3
  • PEDRO IGOR CÂMARA DE OLIVEIRA
  • PLANEJAMENTO DE NOVOS INIBIDORES DA CYP51 DO TRYPANOSOMA CRUZI POR ESTUDOS DE QSAR

  • Orientador : EUZEBIO GUIMARAES BARBOSA
  • MEMBROS DA BANCA :
  • EUZEBIO GUIMARAES BARBOSA
  • MARCUS TULLIUS SCOTTI
  • PAULO MARCOS DA MATTA GUEDES
  • Data: 07/06/2019

  • Mostrar Resumo
  • A doença de Chagas mata cerca de 10.000 pessoas por ano e aproximadamente 8 milhões de pessoas estão infectadas pelo Trypanosoma cruzi. O principal medicamento de referência para o tratamento da doença, o benzonidazol, é utilizado desde a década de 70. Nos últimos anos, muitos inibidores da CYP51 têm sido testados contra esta enzima do parasito. Um destes inibidores, o posaconazol chegou inclusive a testes clínicos, que infelizmente não foram bem sucedidos. Porém ainda há indícios que a CYP51 é um ótimo alvo em potencial para tratar a infecção pelo T. cruzi. A pesquisa por novas moléculas eficazes que poderiam possivelmente curar a fase crônica da doença é algo essencial. Estudos de QSAR (Quantitative Structure Activity Relationship) 2D e 3D foram utilizados neste trabalho para criar três modelos para previsão de atividade biológica, baseados em estruturas químicas de 197 compostos publicados na literatura que já passaram por testes in vivo ou in vitro. Após a análise dos modelos, novos análogos que ainda não foram sintetizados foram sugeridos neste trabalho e tiveram sua atividade biológica prevista e acessibilidade sintética avaliada.


  • Mostrar Abstract
  • Chagas disease kills over 10,000 people per year and approximately 8 million people are infected by Trypanosoma cruzi. The reference drug for treatment of the disease, benznidazole, is the same since the 70s. In recent years, many CYP51 inhibitors were tested against this parasite’s target. One of them, posaconazole, was even tested in clinical trials that unfortunately were not successful. Nevertheless, there are still many evidences that CYP51 is a great potential target to treat T. cruzi infection.  The research for new effective molecules that can cure the chronic phase of the disease is essential. 2D and 3D-Quantitative Structure Activity Relationship (QSAR) studies were conducted in this work to create three QSAR models using the chemical structures of 197 published compounds that already went through either in vivo or in vitro tests. After the analysis of the models, new analogues not yet synthesized were suggested here and had their biological activity and synthetic availability assessed. 

4
  • TAYNÁ DA SILVA FIÚZA
  • Investigação in silico de epítopos oriundos de linhagens de Mycobacterium avium subsp. hominissuis como candidatos vacinais

  • Orientador : GUSTAVO ANTONIO DE SOUZA
  • MEMBROS DA BANCA :
  • GUSTAVO ANTONIO DE SOUZA
  • TETSU SAKAMOTO
  • HELENA PAULA BRENTANI
  • Data: 04/12/2019

  • Mostrar Resumo
  • Micobactérias não tuberculosas são micobactérias ambientais responsáveis por um crescente número de infecções respiratórias e sistêmicas nas últimas décadas, especialmente entre crianças, idosos e indivíduos imunodeficientes. O complexo do Mycobacterium avium, composto por M. avium e M. intracellulare é responsável pela maior parte desses casos e esta primeira espécie possui quatro subespécies de diferentes capacidades infecciosas e hospedeiros. Uma dessas subespécies, Mycobacterium avium subsp. hominissuis, foi isolada de humanos e suínos, enquanto outras variedades infectam gado, aves e animais silvestres. Até o presente momento o tratamento das infecções causadas pelo complexo se dá pelo uso de múltiplos antibióticos em um regime longo, custoso e por vezes ineficiente. A identificação de alvos efetivos para o controle desses organismos é essencial e desafiadora uma vez que proteínas de superfície, moléculas alvo chave em diversas imunoterapias bem-sucedidas, são de difícil isolamento. Além disso, o desenho de imunoterapias e formulações vacinais dependem da identificação de peptídeos de maior interesse imunológico os quais decorrem de protocolos repetitivos e custosos. Nesse trabalho buscou-se integrar ferramentas computacionais de maneira a investigar proteínas de superfície com porções imunogênicas expostas e ubíquas a linhagens de Mycobacterium avium subsp. hominissuis. Para isto, 32648 proteínas de 7 diferentes linhagens de Mycobacterium avium subsp. hominissuis, obtidas do NCBI, foram submetidas à predição de seus domínios trans-membranares pelo software TMHMM e as 3426 sequências contendo estes domínios foram agrupadas em 577 clusters com respeito a sua homologia de modo a classificar proteínas de membrana comuns a todas esses organismos utilizando ferramentas da plataforma CMG Biotools. Utilizando essas sequências, juntamente com os métodos disponíveis no IEDB foram empregados em predições de afinidade aos 27 alelos de MHC mais frequentes em diversas populações humanas e os peptídeos de maior imunogenicidade foram selecionados, restando 112 clusters. Dos peptídeos altamente imunogênicos presentes, apenas os pertencentes a 58 clusters cujas sequências os situavam mais de 50% na porção externa da membrana foram considerados possíveis candidatos a uma formulação vacinal. Foram ainda calculadas a conservação dos peptídeos (presença nas diferentes linhagens analisadas), em que 60% dos clusters são completamente formados por peptídeos ubíquos e a promiscuidade dos mesmos (número de diferentes MHCs aos quais se ligam), em que apenas um cluster possui um peptídeo com alta afinidade a quatro MHCs distintos. Com respeito aos candidatos para a formulação vacinal, um conjunto mínimo de 9 peptídeos com alta afinidade ao número maior de MHCs distintos foi selecionado com peptídeos interagindo com 15 moléculas. Nenhuma das sequências desses peptídeos candidatos mostrou potencial para geração de reatividade cruzada com proteínas humanas ou suínas. O trabalho computacional aqui desenvolvido poderá ser aplicado a outros conjuntos de organismos de maneira a identificar possíveis candidatos para aplicações vacinais.


  • Mostrar Abstract
  • Non-tuberculous mycobacteria are environmental mycobacteria responsible for a growing number of systemic and respiratory infections affecting mostly children, elders and immunocompromised individuals. The Mycobacterium avium Complex comprises Mycobacterium aviumas well as M. intracellulare and the major responsible for the reported cases to this day. M. aviumhas been recently classified as containing four subspecies with different infectivities as well as different hosts. One of those subspecies, Mycobacterium aviumsubsp. hominissuis has been isolated from humans and swines, whereas other varieties are found in cattle, birds and wild animals. To this moment, MAC infections are controlled with the use of multiple antibiotics through long, expensive and sometimes inefficient treatment regimens. The identification of effective targets for controlling such organisms is an essential and challenging task as surface proteins, which are key target molecules in several successful immunotherapies, are difficult to isolate. In addition, the design of immunotherapies and vaccine formulations depends on the identification of peptides of immunological interest which are usually found through repetitive and expensive experimental protocols. In this study applied computational tools to investigate surface proteins with exposed and ubiquitous immunogenic portions to strains of Mycobacterium avium subsp. hominissuis. To achieve that, 32648 amino acid sequences obtained from the NCBI database for Mycobacterium aviumsubsp. hominissuis were submitted to TMHMM for detection of alpha-helix transmembane domain, which were present in 3426 of those sequences. These proteins were clustered in 577 groups by CMG Biotools according to their homology as to identify membrane proteins common to all the organisms of interest. Those sequences were then submitted to available methods obtained at IEDB to classify their affinity to a list of 27 MHC alleles frequent in human populations. Peptides with the highest predicted immunogenicities were selected and 112 clusters with core proteins and high MHC affinities were selected. Crossing information between IEDB and TMHMM allowed for the selection of the 58 clusters in which at least one peptide was predicted to be placed on the outer portion of membrane. We also calculated peptide A. conservation (their presence in different strains), where 60% of clusters are formed by ubiquous peptides and B. promiscuity (the number of distinct MHCs to which they bind), where only a single cluster has a peptide that binds to four distinct MHCs with high affinities. As for vaccine epitope candidates, a minimum set with nine peptides of high binding affinity to the highest possible number of distinct MHCs were selected, interacting with 15 molecules. None of those nine sequences showed potential to cross-react with human or swine proteins. The protocol executed for this work can be applied to other organisms as means to identify possible vaccine application candidates.

5
  • RAUL MAIA FALCÃO
  • ALPORT AUTOSSÔMICA: UM ESTUDO DE DUAS FAMÍLIAS NORTE-RIO-GRANDENSE

  • Orientador : JORGE ESTEFANO SANTANA DE SOUZA
  • MEMBROS DA BANCA :
  • JORGE ESTEFANO SANTANA DE SOUZA
  • SELMA MARIA BEZERRA JERONIMO
  • VALDIR BALBINO
  • Data: 19/12/2019

  • Mostrar Resumo
  • Síndrome de Alport (SA) é uma patologia geneticamente rara, heterogênea e hereditária associada a mutações germinativas nos genes de colágeno tipo IV (COL4A3, COL4A4 e COL4A5). Caracterizada por provocar perda progressiva da função renal, auditiva e lesões oculares durante a primeira infância, o progresso da doença evolue para uma doença renal terminal frequentemente associada à falência renal. Estudos que visam diagnosticar precocemente indivíduos com essa nefropatia pode levar ao tratamento adequado e, portanto, melhorar a expectativa de vida. Atualmente tem surgido esforços, focados no genoma dos pacientes, para a criação de testes de diagnósticos de doenças/síndromes raras. Sob esse olhar, conhecer mutações, genes e vias metabólicas envolvidas com a patologia é crucial para o entendimento da complexidade dessas doenças. Pensando em corroborar com os achados e estudos a respeito de SA foi realizado o sequenciamento do exoma de duas famílias do Rio Grande do Norte (RN), ambas compostas por 4 indivíduos. Através dos softwares GATK e VARSCAN2 foi realizada a chamada de variantes seguido de uma varredura por variantes deletérias identificadas por um script in house. Os resultados apontaram duas variantes deletérias nos genes que formam as cadeias α3 e α4 do colágeno tipo IV (um stop codon no COL4A3 e frameshift em COL4A4) levando a um truncamento prematuro da proteína. Ambas variantes foram detectadas em estado de homozigose nos probandos e em heterozigose nos demais membros da família. Adicionalmente foi detectado uma ampla região de runs of homozigosity (ROH) envolvendo os genes COL4A3 e COL4A4 em ambos os probandos das duas famílias. De acordo com os achados das variantes deletérias nos genes COL4A3 e COL4A4 em regiões de ROH, essas variantes passam a estar relacionadas a SA de forma que observações semelhantes possam servir como suporte para possíveis alvos na criação de novos testes de diagnóstico e para o serviço de Aconselhamento Genético.


  • Mostrar Abstract
  • Alport syndrome (AS) is a genetically rare, heterogeneous and hereditary pathology associated with germline mutations in collagen type IV genes (COL4A3, COL4A4 and COL4A5). Characterized by progressive loss of renal function, hearing and eye damage during early childhood, the progression of the disease progresses to a terminal renal disease often associated with renal failure. Studies aimed at early diagnosing individuals with this nephropathy may lead to appropriate treatment and thus improve life expectancy. Efforts are currently underway, focused on the genome of patients, to create diagnostic tests for rare diseases/syndromes. From this perspective, mutations, genes and metabolic pathways involved with the pathology is crucial to understanding the complexity of these diseases. Thinking about corroborating the findings and studies about AS, the exome sequencing of two families from Rio Grande do Norte (RN), both composed of 4 individuals, was performed. Through the GATK and VARSCAN2 software, variants were called followed by a screening of deleterious variants identified by an in house script. The results pointed to two deleterious variants in the genes that form the type IV collagen α3 and α4 chains (a stop codon in COL4A3 and frameshift in COL4A4) leading to premature protein truncation. Both variants were detected in homozygous state in the probands and heterozygous in the other family members. Additionally, a broad region of runs of homozigosity (ROH) involving the COL4A3 and COL4A4 genes was detected in both probands of both families. According to the findings of deleterious variants in the COL4A3 and COL4A4 genes in ROH regions, these variants are now related to SA so that similar observations can serve as support for possible targets in the creation of new diagnostic tests and for the service of Genetic Counseling.

6
  • THIAGO DANTAS SOARES
  • BIO-DIA: Ferramenta web para integração de dados e algoritmos.

  • Orientador : WILFREDO BLANCO FIGUEROLA
  • MEMBROS DA BANCA :
  • ALBERTO SIGNORETTI
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • WILFREDO BLANCO FIGUEROLA
  • Data: 19/12/2019

  • Mostrar Resumo
  • A ciência de dados está se tornando um campo difícil de trabalhar, não apenas pela enorme quantidade de dados e sua variedade de formatos; também pela a necessidade de colaboração entre vários especialistas, a fim de recuperar
    informações valiosas. Nesse contexto, criamos o Bio-DIA, um software on-line para criar projetos focados na integração de dados e algoritmos. Os resultados obtidos em um projeto podem ser reutilizados em outros projetos, sem conhecimentos específicos de programação. O software foi criado com o Angular no front-end, o Django no back-end com o Spark para lidar com problemas de big data, como a variedade de extensões de arquivos, e para usar o sistema, o único requisito é usar um padrão xml específico. O aplicativo Bio-DIA facilita a colaboração entre os usuários, permitindo que grupos de pesquisadores compartilhassem dados, scripts e informações.


  • Mostrar Abstract
  • Data science is becoming a difficult field to work, not only because the huge amount of data and its variety of formats; also because the needs of collaboration of several specialists in order to retrieve valuable information. In this context, we created Bio-DIA, an online software to build projects which are focused in the integration of data and algorithms. The results obtained in a project can be reused in other projects, without specific programing knowledge. The software was created with Angular in the front-end, Django in the back-end with Spark to handle the
    big-data problems like the variety of formatas, and to use the system the only requirement is to use an specific xml pattern. Bio-DIA application facilitated the collaboration among users, allowing researcher ́s groups to share data, scripts and information.

Teses
1
  • CLOVIS FERREIRA DOS REIS
  • Análise Baseada em Biologia de Sistemas de Dados Transcricionais de Células Progenitoras Neurais Humanas Tratadas com Chumbo

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • BEATRIZ STRANSKY FERREIRA
  • DIEGO BONATTO
  • MATHEUS AUGUSTO DE BITTENCOURT PASQUALI
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • VIVIANE SOUZA DO AMARAL
  • Data: 01/11/2019

  • Mostrar Resumo
  • As consequências do envenenamento por chumbo são diversas e importantes na saúde humana. Atngindo todos os sistemas orgânicos, afeta principalmente o sistema nervoso, com implicações graves e irreversíveis do  neurodesenvolvimento, consolidação de memória e processos de aprendizagem em crianças. Sua interação com componentes celulares dá-se de muitas formas, afetando prote nas de ligação a ons, prote nas de sinalização de transdução, canais iônicos transmembrana e fatores de transcrição. Apesar da sintomatologia da intoxicação por chumbo já ser bastante conhecida, pouco ainda se sabe sobre seus efeitos sistêmicos e sobre o seu impacto global na modulação da transcrição de células neuronais. A fm de investgar tais efeitos sob uma ótca de biologia de sistemas, aplicamos o pipeline do pacote transcriptogramer R/Bioconductor com a fnalidade de avaliar o perfl transcricional de células progenitoras neurais humanas (NPCs) tratadas com acetato de chumbo 30μM por 26 dias. Dotado de um método não supervisionado, o algoritmo do transcriptogramer é projetado para identfcar, em experimentos do tpo caso-controle, grupos de genes funcionalmente associados e diferencialmente expressos. Tal pipeline foi capaz de identfcar onze clusteres diferencialmente expressos entre os dias 3 e 11 do tratamento com chumbo. Destes, sete apresentaram uma regulação negatva de diversos sistemas celulares envolvidos na diferenciação celular, como organização do citoesqueleto, RNA e biossíntese de proteínas, caracterizados por redes grandes e fortemente conectadas. Os quatro clusteres positvamente regulados apresentaram nós esparsos e pouco conectados, principalmente relacionados a transcrição, transporte transmembrana e transdução de sinal. Já no período subsequente, envolvendo os dias 12 a 26 de tratamento, foi possível observar uma alteração maciça do perfl de transcrição celular com interferência em todas as camadas da regulação da expressão gênica. Desta forma, nossos resultados sugerem que o chumbo induz modifcações transcricionais signifcatvas nas NPCs que podem ser correlacionadas a danos e/ou adaptações de diversos sistemas, todos decorrentes da intoxicação por este metal pesado, influenciando, assim, o resultado fnal da diferenciação das células ES-NP.


  • Mostrar Abstract
  • The consequences of lead poisoning are diverse and relevant to human health. Reaching all organ systems, it mainly afects the nervous system, with severe and irreversible implicatons of neurodevelopment, memory consolidaton, and learning processes in children. They interact with cellular components in many ways, afectng ion-binding proteins, transducton signaling proteins, transmembrane ion channels, and transcripton factors. If in one hand, the symptoms of lead poisoning are well known, on the other hand, we have a lack of the systemic efects and its impact on neuronal cell transcripton modulaton. In order to investgate such efects from a systems biology perspectve, we applied the transcriptogramer R/Bioconductor package pipeline to evaluate the transcriptonal profle of lead acetate- treated human neural progenitor cells (NPCs) 30μM for 26 days. The transcriptogramer algorithm is designed to identfy functonally associated and diferentally expressed gene groups in case-control experiments in an unsupervised way. It was able to identfy eleven diferentally expressed clusters between days 3 and 11 of the lead treatment. Of these, seven presented negatve regulaton of several cellular systems involved in cell diferentaton, such as cytoskeleton organizaton, RNA and protein biosynthesis, characterized by large and tghtly connected networks. The four clusters that were positvely regulated presented sparse and poorly connected nodes, mainly related to transcripton, transmembrane transport, and signal transducton. In the subsequent period, involving days 12 to 26 of treatment, it was possible to observe a massive alteraton of the cellular transcripton profle with interference in all layers of gene expression regulaton. Thus, our results suggest that lead induces signifcant transcriptonal modifcatons in NPCs which can be correlated to damage and/or adaptatons of various systems, all resultng from intoxicaton by this heavy metal, thus influencing the result of ES-NP cell diferentaton.

2
  • BRUNO MATTOS SILVA WANDERLEY
  • flowDiv: uma nova ferramenta computacional para análise da diversidade citométrica

  • Orientador : ADRIAO DUARTE DORIA NETO
  • MEMBROS DA BANCA :
  • ADRIAO DUARTE DORIA NETO
  • DANIEL SABINO AMORIM DE ARAUJO
  • JORGE ESTEFANO SANTANA DE SOUZA
  • ANDRE MEGALI AMADO
  • FERNANDO UNREIN
  • ROSEMBERG FERNANDES DE MENEZES
  • Data: 25/11/2019

  • Mostrar Resumo
  • A citometria de fluxo (CMF) é uma técnica analítica baseada na caracterização espectroscópica de partículas em suspensão. Essa técnica permite a descrição quantitativa e qualitativa de uma vasta gama de sistemas celulares em poucos segundos e a custos relativamente baixos - características que a tornam uma ferramenta bastante ubíqua em protocolos analíticos, tanto industriais quanto acadêmicos. Nesse tocante, as ciências ambientais vem lidando com obstáculos bastante notórios quanto à estruturação de protocolos de CFM: a natureza altamente heterogênea das amostras ambientais dificulta o ajuste de protocolos que equilibrem raciocínios matemáticos padronizados e os significados biológicos intrínsecos do sistema em estudo. Diversas abordagens vem sendo concebidas com vistas a corrigir essas incongruências e, dentre elas, as que exploram a ideia da diversidade citométrica - o estudo de dados de CFM com base em métodos de ecologia numérica - vem se mostrando bastante auspiciosas. Contudo, apesar da disponibilidade de soluções, muitos desafios técnicos ainda precisam ser superados. Neste trabalho, nós desenvolvemos e aplicamos uma nova ferramenta computacional, o flowDiv, especialmente projetada para a análise da diversidade citométrica de dados ambientais. Aqui, além de pormenorizamos a lógica por trás do método e o compararmos a estratégias computacionais similares, nós o aplicamos a problemas reais, revelando como alguns fatores ecológicos importantes, como o estado nutricional, afetam a diversidade citométrica de grupos microbianos de lagos naturais da Patagônia argentina e do nordeste brasileiro.


  • Mostrar Abstract
  • Flow cytometry (FCM) is an analytical technique based on the spectroscopic characterization of particulates. This technique allows the quantitative and qualitative description of a wide range of cellular systems within seconds and at relatively low costs. Such features make it a very ubiquitous tool in both industrial and academic analytical protocols. The environmental sciences have been dealing with quite obvious obstacles with regrads to the structuring of FCM protocols: the highly heterogeneous nature of environmental samples makes it difficult to adjust protocols that balance standard mathematical reasoning and the intrinsic biological meanings of the system under study. Several approaches have been devised to correct these incongruities, including those that explore the idea of cytometric diversity - the study of FCM data based on numerical ecology methods - has been quite auspicious. However, despite the availability of solutions, many technical challenges still need to be overcome. In this work, we develop and apply a new computational tool, flowDiv, specially designed for the analysis of cytometric diversity of environmental data. Here, in addition to detailing the logic behind the method and comparing it to similar computational strategies, we apply it to real problems, revealing how some important ecological factors, such as nutritional status, affect the cytometric diversity of microbial groups in natural lakes at Patagonian Argentina and northeast Brazil.

3
  • VANDECLECIO LIRA DA SILVA
  • Bioinformática aplicada para identificação de genes de câncer/testículo e sua associação com prognóstico em uma análise pan-câncer.

  • Orientador : SANDRO JOSE DE SOUZA
  • MEMBROS DA BANCA :
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • SANDRO JOSE DE SOUZA
  • SIDNEY EMANUEL BATISTA DOS SANTOS
  • TIRZAH BRAZ PETTA
  • ÂNDREA KELY CAMPOS RIBEIRO DOS SANTOS
  • Data: 04/12/2019

  • Mostrar Resumo
  • Os genes de câncer / testículo (CT) são excelentes candidatos para imunoterapias do câncer devido à sua expressão restrita em tecidos normais e à capacidade de provocar uma resposta imune quando expressa em células tumorais. Neste estudo, realizamos uma análise genome-wide para os CT genes com a identificação de 745 putativos genes de CT. Comparando com um outro conjunto de genes de CT conhecidos, mostramos que novos CT genes foram identificados. Realizamos a integração várias bases de dados de expressão gênica de tecidos normais e de tumor, para identificação dos genes de CT. A integração de dados clínicos e de infiltração de células CD8+ no tumor, nos levou a identificar dezenas de CT genes associados com bom ou mau prognóstico. Para os CT genes relacionados ao bom prognóstico, mostramos que existe uma relação direta entre a expressão gênica do CT e um sinal de infiltração de células CD8+ para alguns tipos de tumores, especialmente melanoma. Além do mais, nesta tese contextualizamos a bioinformática em um cenário de big data.


  • Mostrar Abstract
  • Cancer/testis (CT) genes are excellent candidates for cancer immunotherapies because of their restrict expression in normal tissues and the capacity to elicit an immune response when expressed in tumor cells. In this study, we provide a genome-wide screen for CT genes with the identification of 745 putative CT genes. Comparison with a set of known CT genes shows that 201 new CT genes were identified. Integration of gene expression and clinical data led us to identify dozens of CT genes associated with either good or poor prognosis. For the CT genes related to good prognosis, we show that there is a direct relationship between CT gene expression and a signal for CD8+ cells infiltration for some tumor types, especially melanoma. In addition, we contextualized bioinformatics in a big data scenario.

2018
Dissertações
1
  • ELIONAI MOURA CORDEIRO
  • Autogating em Dados de Citometria de Fluxo Utilizando Classificadores SVM para Identificação de Bacterioplâncton

  • Orientador : ADRIAO DUARTE DORIA NETO
  • MEMBROS DA BANCA :
  • ADRIAO DUARTE DORIA NETO
  • ARAKEN DE MEDEIROS SANTOS
  • DANIEL SABINO AMORIM DE ARAUJO
  • JORGE ESTEFANO SANTANA DE SOUZA
  • Data: 22/03/2018

  • Mostrar Resumo
  • Neste trabalho é apresentada a proposta de desenvolvimento de uma metodologia - juntamente com a apresentação dos resultados de sua aplicação - que utiliza uma técnica de aprendizagem de máquina, SVM, para análise automatizada de dados de citometria de fluxo em amostras de ambientes aquáticos, na identificação de bacterioplâncton. As amostras utilizadas na execução desta metodologia foram coletadas em 19 lagos de montanhas de elevada altitude que foram classificados manualmente no Laboratório de Limnologia do Departamento de Oceanografia e Limnologia da UFRN e dados de lagos da região nordeste do Brasil mais especificamente nos estados do Rio Grande do Norte e Paraíba. Previamente, iniciou-se com alguns testes de configuração da função kernel e uma análise quantitativa com base no número médio de acertos na classificação automatizada, na qual percebeu-se que a taxa de erro de predição variou entre 1,86% e 3,35%, em média. Foram realizadas duas etapas de desenvolvimento da metodologia proposta, onde foram criados modelos de predição e realizados uma série de testes com as bases de dados criadas a partir das informações disponíveis. Os resultados obtidos foram expostos a uma série de análises quantitativas e qualitativas, inclusive utilizando PCA para entender a importância de cada variável nos conjuntos de dados das mostras. Para uma avaliação qualitativa da metodologia proposta, foi aplicada uma análise estatística para comparar ambas estratégias de modelos de predição, que tem por base a classificação final apontada pelo algoritmo de SVM.

  • Mostrar Abstract
  • This master tesis shows the results of a methodology proposal for bacterioplankton identification using a machine learning approach named SVM. Samples used were taken from 19 high elevated lakes located at Pyrenees Mountains. Samples generated 74 databases after been analyzed by a specialist to serve as input to the algorithm. We observed the viability of this method with 3.35% of error in identification. Furthermore, there is no isolated direct correlation between robustness of the prediction models and high complexity of the input data but, indeed, the algorithm settings, function cost and variables choice have an important role in the performance as well.

2
  • LUCAS FELIPE DA SILVA
  • Integração de dados e desenvolvimento de métricas escalável para análise de fatores de transcrição.

  • Orientador : JORGE ESTEFANO SANTANA DE SOUZA
  • MEMBROS DA BANCA :
  • JORGE ESTEFANO SANTANA DE SOUZA
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • WILFREDO BLANCO FIGUEROLA
  • Data: 28/03/2018

  • Mostrar Resumo
  • Atualmente  há  diversas  ferramentas  propostas  para  análise  de  Fatores  de Transcrição  (TF),  tais  como  TFCheckpoint,  JASPAR,  SSTAR,  GTRD, Enrichr.  No entanto nenhuma dessas ferramentas oferece uma experiência completa, em que se possa avaliar a confiabilidade do TF, ou seja, se de fato uma proteína analisada é um TF e a sua associação com o gene alvo. Ao longo  do tempo foram construídas inúmeras  bases  de  dados,  todas  elas  com  riquíssimas informações,  porém  a complexidade  intrínseca  do  dado,  o  volume  de  informações,  problemas  de nomenclatura dos genes e diversos outros fatores fizeram com que tais ferramentas não oferecessem um espectro completo da análise. Por outro lado, para se trabalhar com  um  grande  volume  de  dados,  se  requer  conhecimentos  avançados  de computação. Entretanto, o grande público interessado em analisar esses dados são profissionais procedentes das áreas biológicas. Configurando-se como uma barreira, uma vez que a formação acadêmica desta área não oferece em seus componentes curriculares  disciplinas  de  programação.  Diante  desta  situação,  este  trabalho  tem como objetivo criar uma ferramenta web destinada exclusivamente para análise dos TFs. Contendo a integração de diferentes bases de dados e um conjunto de scripts para manipular estas informações, juntamente com osparâmetros cruciais definidos pelo  usuário  em  sua  análise,  foi  idealizado  e  desenvolvido  o  Transcription  Factor Analysis Tools (TFAT). O cerne desta ferramenta é aanálise para identificar os TFs chaves na modularização da transcrição gênica, ou seja, o enriquecimento dos TFs reguladores de uma lista de genes submetida pelo usuário, que através dos scripts que integram a mesma, consulta sua base de dados, identificam os TFs que estão associados aos genes da lista e calcula o p-valor de enriquecimento. Além disso, a ferramenta  verifica  a  confiabilidade  do  TF,  disponibiliza  as  predições  realizadas  e converte  os  itens  de  uma  lista  para  o  GeneID  ou  Symbol  do  Entrez  Gene.  Outro recurso presente neste trabalho é a utilização da confiabilidade do TF aplicado em toda a ferramenta. Esse grau de confiabilidade levaem consideração evidências de diferentes  bases  de  dados,  experimentos,  predições  e  outras  características  dos TFs. Possuindo um modo padrão e um modo com parâmetros definidos pelo próprio usuário, este recurso de confiabilidade permite toda uma personalização por meio de filtros nas consultas e controle de análise para o usuário final.


  • Mostrar Abstract
  • Currently there are several tools proposed for analysis of Transcription Factors (TF), such  as  TFCheckpoint,  JASPAR,  SSTAR,  GTRD,  Enrichr. However  none  of  these tools offers a complete experience in which the reliability of TF can be evaluated, that is,  if  in  fact  an  analyzed  protein  is  a  TF  and  its  association  with  the  target  gene. Numerous databases were built over time, all of them with very rich information, but the  intrinsic  complexity  of  the  data,  the  volume  of information,  problems  of  gene nomenclature  and  several  other  factors  meant  that  such  tools  did  not  offer  a complete spectrum of analysis . On the other hand,  to work with a large volume of data  requires  advanced  computer  skills.  However,  the  general  public  interested  in analyzing this data are professionals from the biological areas. Configuring itself as a barrier,  since  the  academic  formation  of  this  area  does  not  offer  in  its  curricular components  programming  disciplines.  Faced  with  this situation,  this  work  aims  to create  a  web  tool  exclusively  for  the  analysis  of TFs.  Containing  the  integration of different databases and a set of scripts to manipulate this information, along with the crucial parameters defined by the user in its analysis, Transcription Factor Analysis Tools (TFAT) was designed and developed. The core of this tool is the analysis to identify  the  key  TFs  in  the  modularization  of  gene  transcription,  that  is,  the enrichment of the regulatory TFs of a list of genessubmitted by the user, that through the  scripts  that  integrate  the  same,  consult  its  database,  identify  the  TFs  that  are associated  with  the  listed  genes  and  calculate  the  enrichment  p-value.  In  addition, the tool verifies TF reliability, makes available predictions, and converts items from a list to the Entrez Gene's GeneID or Symbol. Anotherfeature of this work is the use of TF reliability applied throughout the tool. This degree of reliability takes into account evidence from different databases, experiments, predictions and other characteristics of TFs. With a standard mode and a user-defined mode, this reliability feature allows for a full customization through filters in the queries and analysis control for the end user.

3
  • DANIEL GARCIA TEIXEIRA
  • Um circuito neural canônico com inibição feedback e feedforward.

  • Orientador : CESAR RENNO COSTA
  • MEMBROS DA BANCA :
  • CESAR RENNO COSTA
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • RENAN CIPRIANO MOIOLI
  • WILFREDO BLANCO FIGUEROLA
  • Data: 29/03/2018

  • Mostrar Resumo
  • A  oscilação  gama  está  presente  em  diversas  áreas  do  cérebro,  como  no  hipocampo, desempenhando um importante mecanismo para o funcionamento da memória. Encontramos diversos  modelos  capazes  de  explicar  a  geração  das  oscilações  gama  e  explicam  suas  duas funcionalidades, a de agrupar de forma sincronizada as sinapses dos neurônios e a de selecionar quais neurônios devem disparar em cada ciclo deste sincronismo. Funcionalidades estas que imprimem um caráter computacional do processamento neural a este sistema, como a separação de padrões e a formação de assembleias neurais. Porém, a análise destes modelos existentes demonstra ser muito sensível às variações das atividades cerebrais, sendo fortemente afetados por variações ne suas camadas de entrada, de modo a aparentar não possuir uma boa robustez, gerando muita variação de sua frequência de saída, assim como na competitividade entre estes neurônios.  Entretanto,  ao  se  considerar  uma  importante  parte  do  circuito  biológico  não considerada em trabalhos anteriores, uma rede de inibição alimentada a frente nos possibilitou a criação de um novo modelo. Baseando-nos no modelo de neurônio de Izhikevich, geramos um novo modelo com uma maior robustez às variações na camada de entrada, bem como um custo computacional  reduzido  e  proximidade  do  modelo  biológico.  Em  posse  deste  novo modelo, será possível  criar  redes  neurais  com  maior  capacidade  de  neurônios,  com  custo computacional reduzido, além da possibilidade de análise do comportamento individual em cada neurônio do modelo.


  • Mostrar Abstract
  • Gamma oscillation is present in several areas of the brain, such as the hippocampus, playing an important mechanism for memory functioning. We found several models capable of explaining the  generation  of  the  gamma  oscillations  and  explain  their  two  functionalities,  that  of synchronously  grouping  the  synapses  of  the  neurons  and  of  selecting  which  neurons  must trigger  in  each  cycle  of  this  synchronism.  These  functionalities  impart  a  computational character  of  neural  processing  to  this  system,  such  as  the  separation  of  patterns  and  the formation of neural assemblies. However, the analysis of these existent models shows to be very sensitive to the variations of the cerebral activities, being strongly affected by variations and their layers of entrance, in order to appear not to have a good robustness, generating much variation of their frequency of exit, as in between these neurons. However, when considering an important part of the biological circuit not considered in previous studies, a fed-in inhibition network enabled us to create a new model. Based on the Izhikevich neuron model, we generated a new model with greater robustness to the variations in the input layer, as well as a reduced computational cost and proximity of the biological model. In the possession of this new model, it will be possible to create neural networks with greater capacity of neurons, with reduced computational cost, besides the possibility of analyzing the individual behavior in each neuron of the model.

4
  • THAÍS DE ALMEIDA RATIS RAMOS
  • Desenvolvimento e uso do CORAZON: ferramenta para normalização e agrupamento de dados de expressão gênica

  • Orientador : JOSÉ MIGUEL ORTEGA
  • MEMBROS DA BANCA :
  • GUSTAVO HENRIQUE ESTEVES
  • JOSÉ MIGUEL ORTEGA
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • THAIS GAUDENCIO DO REGO
  • VINICIUS RAMOS HENRIQUES MARACAJA COUTINHO
  • Data: 11/05/2018

  • Mostrar Resumo
  • A criação de enciclopédias de expressão gênica possibilita a compreensão de grupos de genes que são co-expressos em diferentes tecidos e o entendimento de grupos gênicos conforme suas funções e origem. Devido à enorme quantidade de dados em larga escala, gerados em projetos de transcriptômica, houve uma demanda intensa em usar técnicas fornecidas pela inteligência artificial, que tornou-se amplamente utilizada na bioinformática. A aprendizagem não supervisionada é a tarefa de aprendizagem de máquina que analisa os dados fornecidos e determina os objetos que podem ser agrupados. Foi construída uma ferramenta amigável chamada CORAZON (Correlation Analyses Zipper Online), que implementa 3 algoritmos de aprendizagem de máquina não supervisionada (mean shift, k-means e hierárquico), 6 metodologias de normalização (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts Per Million (CPM), log base-2, normalização pela soma dos valores da instância e normalização pelo maior valor de atributo para cada instância) e uma estratégia para observar a influência dos atributos, para agrupamento de dados de expressão gênica. Os desempenhos dos algoritmos foram avaliados através de 5 modelos comumente usados para validar metodologias de agrupamento, cada um composto por 50 conjuntos de dados gerados aleatoriamente. Os algoritmos apresentaram acurácia variando entre 92-100%. Em seguida, a ferramenta foi aplicada para agrupar tecidos, obter conhecimentos evolutivos e funcionais dos genes, com base no enriquecimento de processos biológicos, e associar com fatores de transcrição. Para selecionar o melhor número de clusters para o k-means e o hierárquico, foram utilizados o critério de informação bayesiana (BIC), seguido da derivada da função discreta e a Silhueta. No hierárquico foi adotado o método do Ward. No total, 3 bases de dados (Uhlen, Encode e Fantom) foram analisadas e, em relação aos tecidos, foram observados grupos relacionados a glândulas, tecidos cardíacos, musculares, relacionados ao sistema reprodutivo e grupos com um único tecido, como testículo, cérebro e medula óssea. Em relação aos grupos de genes, foram obtidos vários grupos com especificidades em suas funções: detecção de estímulos envolvidos na percepção sensorial, reprodução, sinalização sináptica, sistema nervoso, sistema imunológico, desenvolvimento de sistemas e metabólicos. Também foi observado que geralmente grupos com mais de 80% de genes não codificantes, mais de 40% dos seus genes codificantes são recentes, originados em Mammalia e a minoria é do clado Eukaryota. Por outro lado, grupos com mais de 90% de genes codificantes, mais de 40% deles apareceram em Eukaryota e a minoria em Mammalia. Estes resultados mostram o potencial dos métodos do CORAZON, que podem ajudar na análise de grande quantidade de dados genômicos, possibilitando associações dos processos biológicos com RNAs não codificantes e codificantes agrupados juntos, bem como a possibilidade do estudo da história evolutiva. CORAZON está disponível gratuitamente em http://biodados.icb.ufmg.br/corazon ou http://corazon.integrativebioinformatics.me.


  • Mostrar Abstract
  • The creation of gene expression encyclopedias possibilities the understanding of gene groups that are co-expressed in different tissues and comprehend gene clusters according to their functions and origin. Due to the huge amount of data generated in large-scale transcriptomics projects, an intense demand to use techniques provided by artificial intelligence became widely used in bioinformatics. Unsupervised learning is the machine learning task that analyzes the data provided and tries to determine if some objects can be grouped in some way, forming clusters. We developed an online tool called CORAZON (Correlation Analyses Zipper Online), which implements three unsupervised machine learning algorithms (mean shift, k-means and hierarchical) to cluster gene expression datasets, six normalization methodologies (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts per million (CPM), base-2 log, normalization by the sum of the instance's values and normalization by the highest attribute value for each instance), and a strategy to observe the attributes influence, all in a friendly environment. The algorithms performances were evaluated through five models commonly used to validate clustering methodologies, each one composed by fifty randomly generated datasets. The algorithms presented accuracies ranging between 92-100%. Next, we applied our tool to cluster tissues, obtain gene’s evolutionarily knowledgement and functional insights, based on the Gene Ontology enrichment, and connect with transcription factors. To select the best number of clusters for k-means and hierarchical algorithms we used Bayesian information criterion (BIC), followed by the derivative of the discrete function and Silhouette. In the hierarchical, we adopted the Ward’s method. In total, we analyzed three databases (Uhlen, Encode and Fantom) and in relation to tissues we can observe groups related to glands, cardiac tissues, muscular tissues, tissues related to the reproductive system and in all three groups are observed with a single tissue, such as testis, brain and bone-narrow. In relation to the genes clusters, we obtained several clusters that have specificities in their functions: detection of stimulus involved in sensory perception, reproduction, synaptic signaling, nervous system, immunological system, system development, and metabolics. We also observed that clusters with more than 80% of noncodings, more than 40% of their coding genes are recents appearing in mammalian class and the minority are from eukaryota class. Otherwise, clusters with more than 90% of coding genes, have more than 40% of them appeared in eukaryota and the minority from mammalian. These results illustrate the potential of the methods in CORAZON tool, which can help in the large quantities analysis of genomic data, possibiliting the potential associations analyzes between noncoding RNAs and the biological processes of clustered together coding genes, as well as the possibility of evolutionary history study. CORAZON is freely available at http://biodados.icb.ufmg.br/corazon or http://corazon.integrativebioinformatics.me.

5
  • DIEGO ARTHUR DE AZEVEDO MORAIS
  • Transcriptogramer: Pacote em R para Análise Transcricional

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • JORGE ESTEFANO SANTANA DE SOUZA
  • MAURO ANTONIO ALVES CASTRO
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • Data: 29/06/2018

  • Mostrar Resumo
  • O transcriptograma, um método utilizado na análise de transcriptomas, utiliza dados de interação proteína-proteína para construir uma lista ordenada de genes. Nesta lista, genes são posicionados de forma que a probabilidade de interação entre seus produtos decaia exponencialmente com o aumento da distância entre suas posições. A lista ordenada de genes é então utilizada para calcular o valor de expressão médio de genes funcionalmente associados numa janela com raio configurável, permitindo a expressão diferencial de grupos gênicos não pré-definidos em estudos caso-controle. O objetivo deste estudo é a implementação de um pacote em R que use transcriptogramas e integre funcionalidades de pacotes já conhecidos pela comunidade científica, capaz de realizar: expressão diferencial, enriquecimento funcional, e visualização de rede. O pacote transcriptogramer foi implementado e encontra-se disponível no Bioconductor, um repositório para softwares open source desenvolvidos na linguagem R para utilização em bioinformática. Numa comparação entre o transcriptogramer e um pipeline combinando funcionalidades dos pacotes limma e topGO, observou-se que o transcriptogramer identificou aproximadamente 10 vezes mais termos do Gene Ontology significativamente enriquecidos, dentre os quais foram encontrados a maioria dos termos identificados pelo pipeline convencional.


  • Mostrar Abstract
  • The transcriptogram, a method used on transcriptomes analysis, uses protein-protein interaction data to build an ordered gene list. On this list, genes are placed such that the probability of interaction between its products exponentially decreases with the increase of the distance between its positions. The ordered gene list is then used to calculate the average expression value of functionally associated genes in a window with settable radius, allowing the differential expression of non-predefined gene sets in case-control studies. This study aims to implement an R package that uses transcriptograms and integrates features from packages known by the scientific community, able to perform: differential expression, functional enrichment, and network visualization. The transcriptogramer package was implemented and is available at Bioconductor, a repository for open source softwares developed in the R language for use in bioinformatics. In a comparison between the transcriptogramer and a pipeline combining features from limma and topGO packages, was noticed that the transcriptogramer identified nearly 10 times more Gene Ontology terms significantly enriched, among which most of the terms identified by the conventional pipeline were found.

     

6
  • PAULO ROBERTO BRANCO LINS
  • DESCOBRINDO REDES DE ASSOCIAÇÃO ENVOLVENDO miRNAs E lincRNAs HUMANOS ATRAVÉS DE UMA ANÁLISE DE eQTL

  • Orientador : JUNIOR BARRERA
  • MEMBROS DA BANCA :
  • SANDRO JOSE DE SOUZA
  • WILFREDO BLANCO FIGUEROLA
  • GUILHERME SUAREZ KURTZ
  • Data: 19/07/2018

  • Mostrar Resumo
  • Variações no nível de expressão gênica estão entre as principais causas da diversidade fenotípica nos organismos, incluindo o desenvolvimento de patologias e a resposta aos fármacos em humanos. Os RNAsnão codificantes (ncRNAs) desempenham um papel importante no complexo mecanismo das redes regulatórias. Embora ainda não completamente compreendidos, dois representantes dos ncRNAsdespontam em pesquisas recentes como protagonistas no desenvolvimento de quadros clínicos. São eles os microRNAs (miRNAs) e os RNAsnão codificantes intergênicos longos (lincRNAs). Assim, o presente trabalho integrou dados públicos para catalogar o vasto panorama dos efeitos regulatórios dos miRNAse doslincRNAsno genoma humano. Através de uma análise de expression Quantitative Trait Loci (eQTL) foram identificadas variações que tivessem efeito putativo na expressão gênica. Redes de associação também foram criadas relacionando os resultados da análise eQTL comtratos de relevância clínica e/ou farmacológica. Por meio dessa, foram reveladas associações que podem continuar despertando o interesse de novos estudos envolvendo o tema. Distúrbios mentais e coronários, além do câncer, foram os tratos com maior evidência nos resultados do estudo.

     


  • Mostrar Abstract
  • Variations in the level of gene expression are among the main causes of phenotypic diversity in organisms, including the development of pathologies and response to drugs in humans. Non-coding RNAs (ncRNAs) play an important role in the complex mechanism of regulatory networks. Although not yet fully understood, two representatives of the ncRNAs emerge in recent researches as protagonists in the development of clinical conditions. They are the microRNAs (miRNAs) and the long intergenic non-coding RNAs (lincRNAs). Thus, the present work integrated public data to catalog the vast landscape of the regulatory effects of miRNAs and lincRNAs in the human genome. Through expression Quantitative Trait Loci (eQTL) analysis, variations that had a putative effect on gene expression were identified. Association networks were also created relating the eQTL analysis results to traits of clinical and/or pharmacological relevance. Through this, associations that may continue to arouse the interest of new studies involving the theme were revealed. Mental and coronary disorders, in addition to cancer, were the most evidenced traits in the study results.

7
  • KARLA CRISTINA TABOSA MACHADO
  • Desenvolvimento de abordagens computacionais para proteogenômica de procariotos

  • Orientador : GUSTAVO ANTONIO DE SOUZA
  • MEMBROS DA BANCA :
  • GUSTAVO ANTONIO DE SOUZA
  • JOAO PAULO MATOS SANTOS LIMA
  • LUCIANO FERNANDES HUERGO
  • Data: 27/07/2018

  • Mostrar Resumo
  • Com o desenvolvimento de sequenciadores de próximageração, uma revolução ocorreu na pesquisa genômica, e atualmente o genoma completo de milhares de linhagens de bactérias são conhecidos. A análise de proteínas por espectrometria de massas (MS) também passou por grandes desenvolvimentos tecnológicos na última década em termos de sensibilidade e capacidade de sequenciamento. A proteômica ainda não se encontra no mesmo nível que a genômica, mas para amostras contendo proteínas de um eucarioto simples (por exemplo, levedura) ou de uma bactéria, a proteômica já é capaz de detectar e quantificar proteínas de maneira completa e exaustiva. Mas há ainda há desafios no que tange a caracterização de regiões codificadoras de um genoma, bem como na validação de modelos genéticos. Dados da literatura mostram que anotações de um mesmo genoma realizado por abordagens independentes geram resultados conflitantes tanto no número de ORFs anotados, quanto aos seus tamanhos (i.e., diferentes escolhas de início de transcrição/tradução). A caracterização de sequências peptídicas em amostras de proteômica pode ser utilizada para validar regiões do genoma como codificantes, área de pesquisa conhecida como proteogenômica. Para tal ocorrer, é necessário a construção de bancos de sequências customizados, que permitem a identificação de novas regiões que anteriormente não eram preditas como codificadoras e se encontravam ausentes em bancos de dados proteicos. Neste trabalho, foi desenvolvida uma estratégia computacional que constrói bancos de sequências de proteínas customizados, a partir do processamento e análise de dados de sequências proteicas de várias linhagens de uma mesma espécie de bacteria. A abordagem identifica e compara proteínas homólogas e unicamente anotadas em todas as linhagens, e reporta as sequências de proteínas de forma não-redundante, ou seja, sequências extensivamente repetidas entre anotações são reportadas somente uma vez com o intuito de manter o tamanho do espaço de busca sob controle. Os bancos também reportam variações de sequência, sejam elas resultantes de variações genéticas ou divergências de anotação de genes, que normalmente são abdicadas em bancos de dados utilizados em análise proteômica. Além dos bancos, houve também uma preocupação de se criar um arquivo de registro, no qual cada observação referente a presença de homólogos, diferenças de sequências, tipo de modificação e presença em linhagens estivesse bem descrita. Com o objetivo de avaliar se os bancos gerados produziam sequências relevantes e não ocorria perda de informação se comparados às sequências originais utilizadas, dados de MS coletados de linhagens clínicas de Mycobacterium tuberculosis foram submetidas à identificação proteica. Comparou-se o banco de dados criado com essa abordagem com uma base de dados formada pela mera concatenação de todas as proteínas anotadas em M. tuberculosis. Além de reduzir o tempo computacional, o número de identificações obtidas em ambas as buscas foi praticamente idêntico. Finalmente, foram criados bancos para 10 espécies bacterianas com pelo menos 65 linhagens caracterizadas. Ao analisar tais bancos, percebeu-se que quanto maior a diversidade do pangenoma da espécie bacteriana, maior a quantidade de proteínas e peptídeos esperados. Os resultados também demonstram a possibilidade de se utilizar tal estratégia para criar bancos contendo sequências de múltiplas espécies, com o intuito de realizar análises metaproteômicas de dados de MS.


  • Mostrar Abstract
  • Next-generation sequencers development cause a revolution in genomic research, and nowadays the complete genomic information of thousands of bacterial strains is available. Similar technological breakthroughs also happened for protein analysis by mass spectrometry (MS) in the last decade regarding sensitivity and throughput. However, proteomics is yet to reach the same level of throughput of genomics, but for samples from simple eukaryotic organisms such as yeasts or bacteria, proteomics is able to detect and quantify their proteome close to completeness. There are still challenges regarding the characterization of coding regions in a genome, as well as in the validation of genomic models. Scientific reports show genomic annotation performed over the same genomic data using independent approaches resulted in divergent data regarding the number of predicted ORFs and also their length (i.e. different choices for transcription/translation initiation). Peptide sequence characterization in proteomics samples can be used to validate genomic regions as coding, research field known as proteogenomics. For such, the design of customized sequence databases which allows the identification of new genomic regions previously predicted to be no-coding and therefore absent in routinely employed databases. In this work, was developed a computational strategy that builds proteins sequence databases customized, through processing and analysis of protein sequence data from several strains of the same bacterial species. The approach identifies and compares homologous and uniquely annotated proteins in all strains, and reports those sequences in a non-redundant manner, which means, sequences extensively repeated among annotations are reported only once in order to keep the size search space under control. Databases also report sequence variations, whether they result from genetic variations or annotation divergences, which are usually abdicated in databases used in proteomic analysis. Besides the databases, there was also a concern to create a registration file, in which each observation regarding the presence of homologous, differences of sequences, modification type and presence in strains was well described. In order to evaluate if the generated databases produced relevant sequences and didn’t happen loss of information if compared to the used original sequences, MS data collected from clinical strains of Mycobacterium tuberculosis were submitted to protein identification. The database created with this approach was compared with a database formed by the mere concatenation of all the proteins annotated in M. tuberculosis. Besides reducing the computacional time, the number of identifications obtained in both searches was practically identical. Finally, databases for 10 bacterial species containing at least 65 strains characterized were created. When analyzing these databases, it was noticed that the greater is the diversity of the pangenome of the bacterial species, greater is the amount of proteins and peptides expected. The result also demonstrate the possibility to use such strategy to create databases containing sequence of multiple species, in the order to perform metaproteomic analyzes of MS data.

8
  • ARANTHYA HEVELLY DE LIMA COSTA
  • ANÁLISE ENERGÉTICA DA INTERAÇÃO DO ESTRADIOL E DIETILESTILBESTROL COM O ERα.


  • Orientador : UMBERTO LAINO FULCO
  • MEMBROS DA BANCA :
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • UMBERTO LAINO FULCO
  • VALDER NOGUEIRA FREIRE
  • Data: 10/08/2018

  • Mostrar Resumo
  • O câncer de mama é uma doença hormônio-dependente, que possui vários subtipos diferentes, padrões de expressão de genes e manifestações distintos (CHENG et al., 2002). Segundo o Instituto Nacional de Câncer (INCA), nas mulheres, apresenta a maior incidência e mortalidade, tanto em países em desenvolvimento quanto em países desenvolvidos. A maioria das neoplasias mamárias são ER + (receptor de estrogênio positivo), isto é, dependentes de 17β-estradiol e o número de ERα (receptor de estrogênio subtipo alfa) é superior ao número de ERβ (receptor de estrogênio subtipo beta), evidenciando a importância do subtipo alfa nesta doença. Este trabalho mensurou as energias de ligação individual dos resíduos que compõem o ERα com o 17β-estradiol e Dietilestilbestrol, utilizando a simulação computacional. Para tanto, foi empregado a Teoria do Funcional Densidade (DFT) e o Método de Fracionamento Molecular com Caps Conjugados (MFCC). Os resultados obtidos constataram que os resíduos com os valores energéticos mais significativos são: GLU353, LEU391, MET343, LEU346, MET388, ARG394, PHE404, HIS524, ASP411, LEU525, ARG352 e ARG548. Estes resultados ajudam a caracterizar a interação entre o 17β-estradiol e o Dietilestilbestrol com o ERα e, por sua vez, podem ser utilizados como base para estudos, planejamento estrutural do fármaco, modulação dos fármacos existentes, tal como para o design de novas drogas.


  • Mostrar Abstract
  • Breast cancer and a hormone-dependent disease, which has several different subtypes, patterns of gene expression and distinct manifestations (CHENG et al., 2002). According to the National Cancer Institute (INCA), in the year 2013, as deaths caused by the disease of 14,388, being 181 men and 14,207. The estimate for 2015 is 57,120 of new cases. Most breast cancers are ER + (estrogen receptor positive), ie, 17β-estradiol dependent. In this type of breast neoplasm, the number of ERα (estrogen receptor alpha subtype) is higher than  the number of ERβ (estrogen receptor beta subtype), evidencing the importance of the alpha subtype in this disease. The purpose of this work is to measure the individual binding  energies  of  ERα  residues  with  17β-estradiol  and  Diethylstilbestrol,  using  a computational simulation. For this purpose, it is employed as Doria of Functional Theory (DFT) and Molecular Fractionation Method with Conjugated Caps (MFCC). The results obtained with this work may help to characterize the interaction between the 17β-estradiol agonists and Diethylstilbestrol with ERα. The results obtained showed the residues with the most significant energy values are: GLU353, LEU391, MET343, LEU346, MET388, ARG394,  PHE404,  HIS524,  ASP411,  LEU525,  ARG352  and  ARG548. These  results help characterize, through the information obtained, an interaction between 17β-estradiol and Diethylstilbestrol with ERα and, in turn, can be used as a basis for studies, structural drug design, modulate existing drugs, such as for the design of new drugs.

9
  • PRISCILLA MACHADO DO NASCIMENTO
  • Implementação de Funcionalidades Para uma Plataforma de Análise de Variantes Genômicas

  • Orientador : JORGE ESTEFANO SANTANA DE SOUZA
  • MEMBROS DA BANCA :
  • JORGE ESTEFANO SANTANA DE SOUZA
  • BEATRIZ STRANSKY FERREIRA
  • MATHEUS AUGUSTO DE BITTENCOURT PASQUALI
  • Data: 21/09/2018

  • Mostrar Resumo
  • Os atuais avanços científicos, no âmbito da genômica, têm sido proporcionados devido à extração de informações significativas do DNA em virtude do uso das novas tecnologias disponibilizadas para realização da análise dos dados genéticos. A medicina de precisão faz uso desses avanços tecnológicos para melhor conhecer a constituição genética e as possíveis alterações que possam vir a produzir doenças com respostas diferenciadas aos tratamentos em um indivíduo. Considerando as mutações genéticas como um dos propulsores da evolução e tendo em vista a compreensão mais apurada dos seus efeitos, o presente trabalho objetiva contribuir nas futuras análises de dados de mutações, visando auxiliar futuramente na identificação de novos hotspot e SNPs. Para que essa análise possa ser realizada foi desenvolvido um produto de software responsável por oferecer assistência aos dados coletados, com o intuito de analisá-los de maneira eficiente e visualizá-los de maneira mais precisa. Este trabalho propõe a implementação de novas funcionalidades que possam agregar valor a este produto, contribuindo diretamente na automatização e aperfeiçoamento dos processos realizados pelas ferramentas de análise de variantes disponíveis no mercado. Visando uma aplicabilidade prática do que foi desenvolvido, foi proposta uma análise dos dados públicos utilizados para anotar os variantes do sistema. Para isso, será realizado um estudo referente aos dados dos preditores existentes, para que possa ser verificada a acurácia dos mesmos em relação aos dados clínicos registrados no banco ClinVar (https://www.ncbi.nlm.nih.gov/clinvar/). Com o intuito de extrair dados para demonstrar a relevância da análise dos falsos positivos/negativos apresentados por meio dos preditores existentes, foi proposto um protótipo de processo que visa melhorar a acurácia dos SNPs identificados pelo sistema.


  • Mostrar Abstract
  • Current scientific advances in genomics have been provided due to extraction of significant information from the DNA using new technologies available for the analysis of genetic data. Precision medicine is based on these technological advances to better understand the genetic constitution and possible changes that may lead to diseases with patient-specific differential responses to treatments. Considering the process of genetic mutation as one of the drivers of evolution and with the goal to better understand its effects, the present work aims to contribute to future analysis of mutation data, helping in thefuture identification of new hotspots and SNPs. For this analysis, a software product was developed responsible for offering assistance to the collected data, in order to analyze them in an efficient way and to visualize them in a more precise way. This work proposes the implementation of new functionalities that can add more value to the aforementioned software, contributing directly to the automation and improvement of the processes performed by the variant analysis tools available in the market. Aiming at an applicability of what was developed, an analysis ofthe public data used to annotate the variants of the system was proposed. For this, a study will be carried out regarding the data of the existing predictors, so that the accuracy of the data can beverified in relation to the clinical data recorded in ClinVar. In order to extract data to demonstrate the relevance of the false positive/negative analysis presented through the existing predictors,a prototype process was proposed that aims to improve the accuracy of the SNPs identified by the system

10
  • MARCEL DA CÂMARA RIBEIRO DANTAS
  • ENGENHARIA REVERSA DA REDE REGULATÓRIA DO SARCOMA DE EWING E INFERÊNCIA DE REGULADORES MESTRES.

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • CESAR RENNO COSTA
  • MATHEUS AUGUSTO DE BITTENCOURT PASQUALI
  • Data: 21/09/2018

  • Mostrar Resumo
  • O Sarcoma de Ewing (SE) é um tumor ósseo maligno raro com alta propensão a metástase ocorrendo mais frequentemente em adolescentes e jovens adultos. Não há uma célula de origem identificada para este câncer e o seu hallmark é a ocorrência de uma translocação cromossomal entre os cromossomos 11 e 22 que resulta em um fator de transcrição aberrante através da fuão de genes da família FET e ETS, comumente EWSR1 e FLI1. A translocação é associada com alteração da cromatina, o que leva a distúrbio significativo no transcriptoma da célula. Os mecanismos regulatórios por trás das alterações transcricionais observadas do SE permanecem pouco compreendidas. Aqui, nós inferimos a rede regulatória do SE e identificamos 7 fatores de transcrição como potenciais mestres reguladores. De acordo com nossos resultados, estes 7 mestres reguladores estão organizados em dois clusters: um que consiste do PAX7 e do RUNX3 e um outro composto pelo ARNT2, CREB3L1, GLI3, MEF2C e PBX3. Os mestres reguladores dentro de cada cluster são agonistas entre eles, e ambos os clusters agem antagonisticamente com relação ao outro. Baseado em dados de transcrição, nós classificamos pacientes de SE em duas coortes de acordo com a atividade regulatória de cada um dos 7 regulons. Alta atividade regulatória do PAX7 e do RUNX3 é associada a um melhor prognóstico e alta atividade regulatória do ARNT2, CREB3L1, GLI3 e PBX3 está associada a um pior prognóstico. Este trabalho contribui para uma melhor compreensão do reguloma do SE, indicando potenciais mestres reguladores que podem levar a um potencial preditor de prognóstico e fatores chaves para tumorigenesis.


  • Mostrar Abstract
  • Ewing Sarcoma (ES) is a rare malignant bone tumor with high propensity to metastasize occurring most frequently in adolescents and young adults. There is no ES cell of origin identified só far and the hallmark of this cancer is the occurrence of a chromosomal translocation between the chromosomes 11 and 22 that results in an aberrant transcription factor through the fusion of a gene from FET family and ETS family, commonly EWSR1 and FLI1. The translocation is associated with chromatin alteration, leading to a significant disturbance in the cell transcriptome. The regulatory mechanisms behind the observed ES transcriptional alterations remain poorly understood. Here, we inferred the transcriptional regulatory network of Ewing Sarcoma and identified 7 transcription factors as potential master regulators. According to our results, these 7 master regulators are organized in two clusters: one composed by PAX7 and RUNX3 and other composed by ARNT2, CREB3L1, GLI3, MEF2C, and PBX3. The master regulators inside each cluster are agonists among each other andboth clusters show antagonism between them. Based on transcriptional data, we classified ES patients of two cohorts according to the activity of each of the seven regulons. High regulatory activity of PAX7 and RUNX3 is associated with better overall survival and high regulatory activity of ARNT2, CREB3L1, GLI3, and PBX3 is associated with worse overall survival. This work contributes to a better understanding of the regulome of Ewing Sarcoma, indicating putative master regulators that can lead to potential prognosis prediction and key factors of tumorigenesis.

11
  • STHEPHANIE NASSIF PINHEIRO
  • CARACTERIZAÇÃO DO GENE 18S rRNA EM PROTOZOÁRIOS DO TAXA APICOMPLEXA: UMA ABORDAGEM APLICADA AO DESENHO DE MARCADORES MOLECULARES

     

  • Orientador : DANIEL CARLOS FERREIRA LANZA
  • MEMBROS DA BANCA :
  • DANIEL CARLOS FERREIRA LANZA
  • KATIA CASTANHO SCORTECCI
  • CLAUDIO BRUNO SILVA DE OLIVEIRA
  • Data: 26/09/2018

  • Mostrar Resumo
  • O filo Apicomplexa compreende protozoários de vários filo ao nível de gênero causadores de parasitoses mundialmente distribuídas como malária, toxoplasmose ou distúrbios intestinais oportunistas. Ainda nos dias de hoje, os principais protozoários de importância médica geralmente são identificados por microscopia óptica, o que dificulta a classificação precisa e o diagnóstico dos pacientes, principalmente nos casos em que a parasitemia é baixa. Nesse contexto o presente trabalho teve como objetivo desenvolver um método molecular alternativo, que possibilite a identificação de ampla variedade de protozoários do filo Apicomplexa. Dessa forma, foi desenvolvido um sistema de primers para utilização em uma reação de PCR (Polymerase Chain Reaction) em duas etapas (semi-nested PCR). O alvo investigado para o desenho de primers foi a região 18S rDNA, por ser um alvo amplamente utilizado para screening e identificação de espécies em estudos de biodiversidade. A partir da análise e caracterização estrutural do ácido nucleico ribossomal in silico, foram desenhados conjuntos de primers que se anelam em regiões conservadas e flanqueiam regiões variáveis no gene. A eficiência de cada conjunto de primers foi avaliada por PCR in silico. Foi selecionado um conjunto de primers que, quando usado de forma aninhada, pode gerar ~166 amplicons com sequências distintas, que podem ser usados para discriminar gêneros e espécies de Apicomplexa por diferença no tamanho em gel de agarose e por sequenciamento. O método proposto foi validado in vitro e sua eficiência na identificação de algumas espécies de protozoários de interesse médico foi confirmada. Após etapas adicionais de validação, esse método poderá ser utilizado para triagem inicial em casos de suspeita de parasitoses e também para determinação de diferentes espécies de parasitas.


  • Mostrar Abstract
  • The Apicomplexa phylum comprises protozoa of various genera causing parasitic diseases worldwide such as malaria, toxoplasmosis or opportunistic intestinal disorders. Nowadays, protozoa of medical importance are generally identified by light microscopy, which makes accurate classification difficult, makes diagnosis and prognosis difficult, particularly in cases where infection is low. In this context, the present work aimed to develop an alternative molecular method that allows the identification of a wide range of protozoa of the Apicomplexa taxa. Thus, a primer system was developed for use in a semi-nested PCR (Polymerase Chain Reaction) reaction. The investigated target for primer design was the 18S rDNA region, as it is a widely used template for screening and species identification in biodiversity studies. From the structural analysis and the ribosomal nucleic acid sequence, sets of primers that interact in conserved regions and flank variable regions of the gene were designed. The efficiency of each set of primers was evaluated by in silico PCR and the generated amplicons were evaluated. A set of primers was selected which, when used in a nested fashion, can generate ~ 166 amplicons with distinct sequences, which can be used to discriminate genera and species of the Apicomplexa taxa by difference in the size of amplicons generated in agarose gel and species by sequencing (Sanger method or Next Gen Sequencing). The proposed method was validated in vitro and its efficiency for identification of some protozoan species of medical interest was confirmed. After further validation steps this method can be used for initial screening in cases of suspected parasitosis and also for parasite species determination

12
  • LAISE CAVALCANTI FLORENTINO
  • Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados.

  • Orientador : JOAO PAULO MATOS SANTOS LIMA
  • MEMBROS DA BANCA :
  • JOAO PAULO MATOS SANTOS LIMA
  • JORGE ESTEFANO SANTANA DE SOUZA
  • VALDIR BALBINO
  • Data: 31/10/2018

  • Mostrar Resumo
  • Nas últimas décadas, avanços em abordagens genômicas completas levaram à identificação de um grande número de mutações relacionadas ao câncer. Estimativas de alto desempenho dos impactos de mutações de câncer na estrutura da proteína não são uma conquista fácil, e a maioria dos estudos está limitada a análises estruturais completas, uma a uma. Além disso, ainda existem muitos desafios no caminho para a previsão precisa e automatizada de mutações patogênicas. Portanto, entender o impacto estrutural de uma mudança específica de aminoácidos é de grande importância para a pesquisa médica do câncer. No entanto, a maioria dos estudos tem enfatizado seqüências e modificações estruturais baseadas em características químicas de aminoácidos e não em características de dobra, nas quais a conservação de interações não-covalentes desempenha um papel significativo. A partir de então, no presente estudo, utilizamos redes de interação de resíduos (RINs) para análises em grande escala de mutações missense do câncer, a fim de inferir seus efeitos na conservação de interações não-covalentes. Nossa hipótese é que mudanças em aminoácidos altamente conectados são mais propensos a causar mutações deletérias. Para avaliar isso, recuperamos mutações missense de câncer dos bancos de dados COSMIC (cancer.sanger.ac.uk/cosmic) e TCGA (cancergenome.nih.gov) e as mapeamos para suas respectivas estruturas recuperadas do Protein Data Bank (rcsb.org). Em seguida, os RINs foram construídos a partir dos arquivos PDB obtidos, e os parâmetros de rede, como o grau do nó, o tipo de arestas, o coeficiente de agrupamento, a centralidade, foram avaliados e plotados usando scripts em R. Posteriormente, comparamos esses resultados com os polimorfismos de nucleotídeo único missense recuperados do banco dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) e com mutações de câncer patogênicas e não patogênicas do banco de dados ClinVar (www.ncbi.nlm.nih.gov/clinvar/). Nossos resultados demonstram que a distribuição de mutações por grau (conectividade do nó) varia significativamente em comparação a simulações aleatórias de Monte Carlo e também à distribuição de um conjunto de polimorfismos humanos de nucleotídeo único (SNPs), tendendo a permanecer em nós com menor conectividade. Além disso, a proporção de mutações deletérias foi significativamente aumentada em nós com alto grau de conectividade quando dois critérios diferentes foram utilizados para sua classificação: proporções de preditores de software (Ndamage) e classificação clínica obtida do ClinVar. Levando em conta esses resultados, podemos concluir que as mudanças nos aminoácidos altamente conectados são, de fato, mais propensas a gerar mutações deletérias, devido a sua maior proporção de ocorrência nesses nós. Nossos resultados também indicam que a conservação de interações não-covalentes é um parâmetro importante a ser considerado na avaliação de efeitos de mutações e a análise de RINs pode ser usada como um parâmetro adicional para auxiliar na previsão de mutações deletérias no câncer. 


  • Mostrar Abstract
  • In the last decades, advances in whole genomic approaches lead to the identification of a vast number of cancer-related mutations. High-throughput estimations of the impacts of cancer mutations in the protein structure are not an easy accomplishment, and most studies are limited to one-by-one whole structural analyzes. Moreover, there are still many challenges on the way to the precise and automated prediction of pathogenic mutations. Therefore, understanding the structural impact of a particular amino acid change is of great importance for cancer medical research. However, most studies have been emphasizing sequences and structural modifications based on chemical characteristics of amino acids and not fold features, in which the conservation of non-covalent interactions play a significant role. Henceforth, in the present study, we used residue interaction networks (RINs) for large-scale analysis of cancer missense mutations in order to infer their effects on the conservation of non-covalent interactions. We hypothesize that changes in highly connected amino acids are more likely to cause deleterious mutations. To evaluate this, we retrieved cancer missense mutations from COSMIC (cancer.sanger.ac.uk/cosmic) and TCGA (cancergenome.nih.gov) databases and mapped them to their respective structures retrieved from Protein Data Bank (rcsb.org). Then, RINs were constructed from the obtained pdb files, and network parameters such as the node's degree, edges' type, clustering coefficient, betweenness weighted were assessed and plotted using R scripts. Later, we compared these results against reported missense single nucleotide polymorphisms retrieved from dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) and to pathogenic and non-pathogenic cancer mutations from ClinVar (www.ncbi.nlm.nih.gov/clinvar/) databases. Our results demonstrate that the distribution of mutations per degree (node connectivity) varies significantly compared to random Monte Carlo simulations and also to the distribution of a set of human single nucleotide polymorphisms (SNPs), tending to remain at nodes with lower connectivity. Besides, the proportion of deleterious mutations was significantly increased in nodes with a high degree of connectivity when two different criteria were used for their classification: proportions of software predictors (Ndamage) and clinical classification obtained from ClinVar. Taking into account these results, we can conclude that the changes in the highly connected amino acids are indeed more likely to generate deleterious mutations, due their higher proportion of occurrence in these nodes. Our results also indicate that the conservation of non-covalent interactions is an important parameter to consider in assessing mutations effects and RINs analyses can be used as an additional parameter to aid in the prediction of deleterious mutations in cancer.

13
  • CAYRO DE MACÊDO MENDES
  • CARACTERIZAÇÃO IN SILICO DE ORFs VARIÁVEIS E DE REGIÕES REGULATÓRIAS NO GENOMA DO VÍRUS DA SÍNDROME DA MANCHA BRANCA (WSSV)

  • Orientador : DANIEL CARLOS FERREIRA LANZA
  • MEMBROS DA BANCA :
  • DANIEL CARLOS FERREIRA LANZA
  • EUZEBIO GUIMARAES BARBOSA
  • SÁVIO TORRES DE FARIAS
  • Data: 19/11/2018

  • Mostrar Resumo
  • A caracterização in silico vem sendo empregada como uma alternativa mais acessível para predição de sequências proteicas que não podem ser reproduzidas in vitro ou ter suas estruturas cristalizadas, bem como pode fornecer dados que complementam abordagens experimentais. O vírus causador da síndrome da mancha branca (WSSV) é um dos maiores problemas enfrentados pela carcinicultura mundial, causando consideráveis danos econômicos. Apesar de os efeitos do vírus nos cultivos serem bem conhecidos, até o momento existem poucas informações sobre os mecanismos de infecção e replicação viral, principalmente devido ao fato de grande parte de suas sequências codificantes não apresentar homologia com sequências conhecidas. Além disso o genoma do WSSV apresenta algumas regiões codificantes que variam entre os diferentes isolados, que até o momento não foram caracterizadas funcionalmente, denominadas ORF75, ORF94, ORF125, ORF23/24, ORF14/15. Esse trabalho teve como objetivo a caracterização in silico das proteínas putativas codificadas pelas regiões variáveis do genoma do WSSV, no intuito de se identificar possíveis funções. Foram empregadas análises filogenéticas a partir do alinhamento de dez sequências genômicas do WSSV obtidas do GenBank. As regiões variáveis das ORF75, ORF94 e ORF125 foram alinhadas e as unidades de repetição e SNPs anotados através da plataforma Geneious. As sequências de aminoácidos foram submetidas a buscas por homólogos remotos, motivos, domínios conservados, reconhecimento de fold e predição estruturas secundárias e terciárias. Foi possível modelar estruturas terciárias de domínios proteicos e inferir possíveis funções que incluem um motivo de reconhecimento de RNA associado a processos pós-transcricionais entre as posições 70-150 da ORF23, um motivo Ankyrim repeat (ANK) atuando em conjunto com o domínio RING-H2 na modulação da proteólise dependente de Ubiquitina na ORF125, helicases de reparo na ORF23/24, uma proteína associada a polimerização de filamentos de actina (ORF14/15) e uma proteína semelhante a subunidade HA2 da hemaglutinina do Influenzavirus (ORF23/24). Também foi possível detectar assinaturas associadas a sinais de localização nuclear dentro das unidades de repetição das sequências de aminoácidos codificadas por ORF75 e ORF94 que podem estar envolvidos na emissão de sinais para proteínas carreadoras do núcleo da célula hospedeira. Foi realizada a análise de algumas regiões regulatórias 100 e 200nt upstream das regiões codificante e foi possível detectar alguns motivos, incluindo um sítio de ligação de “Zinc-Finger”, sugerindo a interação entre possíveis fatores de transcrição. Por meio desses resultados foi proposto um modelo de atuação para cada uma das proteínas estudadas.


  • Mostrar Abstract
  • In silico characterization has been employed as a more accessible alternative for prediction of protein sequences that cannot be reproduced in vitro or have their structures crystallized, as well as can provide data that complement experimental approaches. The virus that causes white spot syndrome (WSSV) is one of the biggest problems facing global shrimp farming, causing considerable economic damage. Although the effects of the virus on the cultures are well known, to date there is little information on the mechanisms of viral infection and replication, mainly because much of their coding sequences do not show homology with known sequences. In addition, the WSSV genome has some coding regions that vary between the different isolates, which have not been functionally characterized to date, called ORF75, ORF94, ORF125, ORF23/24, ORF14/15. This work aimed at the in silico characterization of the putative proteins encoded by the variable regions of the WSSV genome, in order to identify possible functions. Phylogenetic analyzes were performed from the alignment of ten WSSV genomic sequences obtained from GenBank. The variable regions of the ORF75, ORF94 and ORF125 were aligned and the repeat units and SNPs annotated through Geneious platform. The amino acid sequences were subjected to remote homologous searches, motifs, conserved domains, fold recognition and prediction of secondary and tertiary structures. It was possible to model tertiary structures of protein domains and to infer possible functions that include an RNA recognition motif associated with post-transcriptional processes between positions 70-150 of wsv477 (ORF23), an Ankyrim repeat (ANK) motif acting in conjunction with RING-H2 domain on modulation of ubiquitin-dependent proteolysis in wsv249 (ORF125), repair helicases (wsv479, wsv497), actin filament polymerization associated protein (wsv463a), and a HA2 subunit of influenza virus hemagglutinin (wsv492). It has also been possible to detect signatures associated with nuclear localization signals within the repeating units of the amino acid sequences encoded by ORF75 and ORF94 which may be involved in the emission of signals to host cell nucleating proteins. We performed the analysis of some regulatory regions 100 and 200nt upstream of the coding regions and it was possible to detect some motifs, including a Zinc-Finger binding site, suggesting the interaction between possible transcription factors. By means of these results an action model was proposed for each one of the proteins studied.

14
  • THAYNÃ NHAARA OLIVEIRA DAMASCENO
  • PAREADOR DE TERMOS PARA PESQUISA CLÍNICA: INTEGRATE PAIRED TOOL - IPT

  • Orientador : EUZEBIO GUIMARAES BARBOSA
  • MEMBROS DA BANCA :
  • EUZEBIO GUIMARAES BARBOSA
  • GILDERLANIO SANTANA DE ARAÚJO
  • RAND RANDALL MARTINS
  • TETSU SAKAMOTO
  • Data: 18/12/2018

  • Mostrar Resumo
  • Big Data é um termo utilizado para caracterizar o crescente volume de dados existentes sobre os mais diversos temas, sejam eles de cunho biomédico ou não. Devido ao enorme volume de dados biológicos e biomédicos gerados diariamente, uma das principais barreiras encontradas será a análise desses dados. É crescente o desenvolvimento e uso de ferramentas computacionais que permitam a análise desses dados através de técnicas como o Text Mining. O Text Mining, vertente do Data Mining, pode ser definido como um método que permite a extração de informações relevantes contidas em textos. Buscando permitir uma análise diferenciada dos dados, sejam esses dados clínicos ou não, foi desenvolvido um algoritmo simples, que permite a análise desses dados sem a necessidade de correlação com bancos de dados existentes, nem a criação de novos bancos de dados. A partir desse algoritmo, uma ferramenta WEB foi desenvolvida, pra que qualquer pessoa consiga ter acesso ao algoritmo (mesmo sem o conhecimento de técnicas computacionais) e promover a análise dos seus dados. O algoritmo da ferramenta Integrate Paired Tool (IPT) foi escrito em linguagem de programação R e utiliza técnicas de Data Mining e Text Mining para análise de dados clínicos, não restringindo suas análises apenas à estes dados específicos. O IPT promove o pareamento de termos analisando a frequência existente entre pares de dados, a partir de um arquivo .csv fornecido pelo usuário. Além disso, a ferramenta WEB foi desenvolvida a partir das linguagens JavaScript, HTML5, CSS e PHP. O algoritmo lê o arquivo .csv, e o percorre por inteiro, fazendo o pareamento de seus termos, dois a dois, independente se as colunas possuem tamanhos diferentes, ou se estão incompletas, até que todas as colunas sejam pareadas. Após todos os agrupamentos, é atribuído um valor para cada par agrupado, somando os pares de iguais frequências e gerando um outro arquivo .csv contendo as interações existentes e suas respectivas frequências. Após as relações e suas frequências de aparecimento serem formadas, um grafo de interações (em R) é mostrado na tela da ferramenta WEB para que o usuário possa então realizar suas análises, além do arquivo .csv com todas as interações e frequências. A obtenção desse grafo e dessa tabela pode conter informações variáveis, a depender da porcentagem que o usuário escolha na ferramenta IPT. Esse arquivo .csv com os dados das interações e frequências pode ser utilizado pelo usuário em outras ferramentas de visualização de redes, como o Gephi, por exemplo. Para fins de testagem da ferramenta, dados de uma UTI neonatal. O IPT demonstrou funcionar bem e atingiu os objetivos da pesquisa, e como metas futuras, teremos a hospedagem da ferramenta na página do Programa de Pós-Graduação em Bioiformática da UFRN, a análise de outros dados e uma possível integração do pré-processamento dos dados dentro do próprio IPT.


  • Mostrar Abstract
  • Big Data is a term used to characterize the growing volume of existing data on different topics, whether they are biomedical or not. The enormous volume of biological and biomedical data generated daily, one of the main barriers will be an analysis of these data. The development and use of computational tools that allow the analysis of data through techniques such as Text Mining. Text Mining, a Data Mining strand, can be defined as a method that allows the extraction of relevant information contained in text. In order to allow a differentiated analysis of the data, whether these clinical data or not, a simple algorithm was developed, which allows the analysis of this data without the need of correlation with existing databases, nor the creation of new databases. From this algorithm, a WEB tool was developed so that anyone can access the algorithm (even without the knowledge of computational techniques) and promote the analysis of their data. The Integrate Paired Tool (IPT) algorithm was written in R programming language and uses Data Mining and Text Mining techniques for analyzing clinical data, not restricting its analyzes only to these specific data. IPT promotes pairing of terms by analyzing the existing frequency between data pairs, from a user-supplied .csv file. In addition, the WEB tool was developed from the languages JavaScript, HTML5, CSS and PHP. The algorithm reads the .csv file and pass through it by pairing its terms two by two, regardless of whether the columns are different sizes or incomplete until all columns are paired. After all the groupings, a value is assigned to each grouped pair, adding all pairs with the same frequencies and generating another .csv file containing the existing interactions and their respective frequencies. After the relations and their appearance frequencies are formed, a graph of interactions (in R) is shown on the WEB tool screen, so the user can do their analyzes, in addition to the .csv file with all interactions and frequencies. This graph and this table can contain variable information, depending on the percentage that the user chooses in the IPT tool. This .csv file with interaction and frequency data can be used by the user in other network visualization tools, such as Gephi, for example. For the purposes of tool testing, a data from a neonatal was used. The IPT proved to work well and reached the objectives of the research, and as future goals, we will have the hosting of the tool in the page of the Program of Postgraduate in Bioformtics of UFRN, the analysis of other data and a possible integration of the pre-processing of the data within the IPT itself.

Teses
1
  • ANDRÉ LUÍS FONSECA FAUSTINO
  • Bioinformática aplicada à oncologia: Estudos na prospecção de alvos terapêuticos, antígenos tumorais e na dinâmica de resistência a drogas.

  • Orientador : SANDRO JOSE DE SOUZA
  • MEMBROS DA BANCA :
  • SANDRO JOSE DE SOUZA
  • GUSTAVO ANTONIO DE SOUZA
  • LUCYMARA FASSARELLA AGNEZ LIMA
  • DIRCE MARIA CARRARO
  • VALDIR BALBINO
  • Data: 01/11/2018

  • Mostrar Resumo
  • A pesquisa contra o câncer abrange diversas facetas, incluindo desde a compreensão de que processos biológicos são ganhos e perdidos na doença, até como essas características podem afetar a taxa de sobrevida do paciente. Nesse contexto, a bioinformática tem sido aplicada para a prospecção de possíveis candidatos para terapia e diagnóstico. A presente tese contempla o conjunto de três capítulos voltados: i) a prospecção de alvos terapêuticos; ii) identificação de possíveis antígenos tumorais; iii) compreensão de mecanismos associados à resistência droga. No primeiro capítulo, é apresentado um catálogo de proteínas de superfície celular denominado como surfaceoma. O catálogo contempla 3.758 proteínas, as quais foram categorizadas quanto as alterações genéticas e a sua influência na redução sobrevivência em diversos tumores. Além disso, foi proposta uma assinatura de três (WNT5A, CNGA2 e IGSF9B) associados a mau prognóstico em câncer de mama. No seguinte capítulo, são apresentados dados derivados de um segundo artigo, no qual são explorados aspectos adicionais relacionados a antígenos tumorais, com ênfase de CTAs – cancer-testis antigens. Como resultado, foi desenvolvido um método para priorização de possíveis antígenos tumorais em escala genômica. Em seguida, foi discutido a eficácia de combinações entre CTAs no que consta o desenvolvimento de vacinas anticâncer. Finalmente, foram elencadas combinações significativas entre HEATR9, INSL3, GTSF1L e HSF5, que abrangem em média 35% dos pacientes. Por último, o terceiro capitulo discorre sobre um trabalho em desenvolvimento, o qual envolve uma classe de proteínas com função de regulação pós-transcricionais e a sua importância na resposta a drogas anticâncer. Em particular, os achados desse capítulo sugerem uma interessante discussão sobre a regulação mediada por RBPs (RNA-Binding proteins) e a resposta a drogas em pacientes com genótipo TP53 Wildtype e TP53 Mutated. Em conclusão, a presente tese contempla três aspectos fundamentais da pesquisa contra o câncer, sobretudo no desenvolvimento de novas estratégias de tratamento e diagnóstico.


  • Mostrar Abstract
  • Cancer research is a field with several branches, which covers the understanding of how the tumor heterogeneity can be used as a treatment opportunity or how those alterations led poor prognosis and drug resistance. In this context, the bioinformatics rises as a tool to investigate which features could be used as a therapeutical strategy. In this thesis, we presented three chapters that address distinct aspects in the cancer research, such as i) the prospection of therapeutic targets, ii) identification of possible tumor antigens; iii) understanding mechanisms associated with drug resistance. In the first chapter, shown a catalog of cell surface proteins, herein called the surfaceome. The cell surface proteins represent attractive targets for therapy due to the essential role in signaling pathways and often dysregulation in cancer. The surfaceome catalog includes 3758 proteins, which were categorized based on genetic alterations types and the influence in short-term survival in several tumors. Furthermore, we investigate gene signatures and their association with survival rate. As result, three genes (WNT5A, CNGA2, and IGSF9B) were proposed as a poor prognosis in breast cancer patients. The second chapter, it is focused on data derived from a previous article, published in 2017. Briefly, the original publication was associated with the identification of cancer-testis antigens (CTAs) and relation with prognosis in several tumor types. On the other hand, in this chapter, we present new putative tumor antigens from a genome-wide analysis. Next, we discussed strategies to prioritize cases and remove spurious results. In addition, we purpose CTAs combinations as a strategy to increase the effectiveness in anticancer vaccines development. As result, were found significant combinations among HEATR9, INSL3, GTSF1L, and HSF5, which cover in average 35% of patients. Finally, the third chapter discusses a work in progress, which involves proteins associated with post-transcriptional regulation and how those proteins affect anticancer drug response. In particular, our findings suggest an interesting discussion about RBPs (RNA-Binding proteins) expression and response to anticancer drugs. Also, were compared RBPs findings with other transcriptional-related genes, such as transcriptional factors and lincRNAs. In conclusion, this thesis considers three fundamental aspects of cancer research, especially in the development of our treatment and diagnosis strategies. Furthermore, two of these chapters are supported by international publications.

2017
Dissertações
1
  • IARA DANTAS DE SOUZA
  • MAPA METABÓLICO DA INTOXICAÇÃO POR CHUMBO

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • JOAO PAULO MATOS SANTOS LIMA
  • MAURO ANTONIO ALVES CASTRO
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • VIVIANE SOUZA DO AMARAL
  • Data: 14/12/2017

  • Mostrar Resumo
  • Desde a antiguidade, o chumbo vem sendo utilizado pela humanidade em virtude das suas propriedades físico-químicas, como maleabilidade, ductilidade, resistência à corrosão, baixo ponto de fusão e baixa condutividade elétrica. Entretanto, além de sua importância econômica, o chumbo possui uma importância quanto à saúde humana, uma vez que causa intoxicação. Muitos efeitos da intoxicação pelo chumbo já foram relatados na literatura, afetando o organismo como um todo e produzindo sintomas no sistema cardiovascular, no sistema imune, nos ossos, no sistema reprodutivo, no sistema hematológico, no sistema renal, no sistema gastrointestinal e, principalmente, no sistema nervoso. Levantamentos epidemiológicos, estudos em humanos e em modelos animais mostraram que o chumbo é uma potente neurotoxina, não havendo níveis seguros de exposição. Embora haja evidências sobre como o chumbo afeta a homeostase em nível celular, a descrição das vias metabólicas afetadas na intoxicação por chumbo não está totalmente estabelecida. Par a esclarecer os efeitos da intoxicação por chumbo, o objetivo deste estudo é construir um mapa metabólico das vias celulares alteradas pela presença de chumbo e analisar quais proteínas são capazes de interagir com o chumbo. Encontramos um total de 23 proteínas, incluindo o tripeptídeo glutationa, as quais podem interagir diretamente com chumbo. Estas proteínas, juntamente com as informações das vias presentes no KEGG, permitiram a criação do mapa metabólico da intoxicação pelo chumbo. Nossas análises mostraram que o chumbo interage diversos componentes celulares, principalmente interferindo na função normal de proteínas as quais se ligam a metais essenciais, como zinco e cálcio.


  • Mostrar Abstract
  • Lead is an important heavy metal used worldwide in several applications, especially in industry. People exposed to lead can develop a wide range of symptoms associated with lead poisoning. Many effects of lead poisoningwere reported in the literature, showing a compromising of whole body health, with symptoms related to cardiovascular, immune, bone, reproductive, hematological, renal, gastrointestinal, and nervous system. However, the molecular lead targets as wellas the pathways affected by lead poisoning are not completely described. The aim of this study was to construct a map of metabolic pathways impaired in lead poisoning byevaluating which biomolecules are directly affected by lead. Through manual literature curation, we identified proteins which physically interact with lead and subsequently determined the metabolic pathways those proteins are involved with. At total, weidentified 23 proteins involved with heme synthesis, calcium metabolism, neurotransmission, among other biological systems, which helps to understand the wide range of lead poisoning symptoms.

SIGAA | Superintendência de Informática - | | Copyright © 2006-2021 - UFRN - sigaa14-producao.info.ufrn.br.sigaa14-producao