|
Dissertações |
|
1
|
-
ELIONAI MOURA CORDEIRO
-
Autogating em Dados de Citometria de Fluxo Utilizando Classificadores SVM para Identificação de Bacterioplâncton
-
Orientador : ADRIAO DUARTE DORIA NETO
-
MEMBROS DA BANCA :
-
ADRIAO DUARTE DORIA NETO
-
ARAKEN DE MEDEIROS SANTOS
-
DANIEL SABINO AMORIM DE ARAUJO
-
Jorge Estefano de Santana Souza
-
Data: 22/03/2018
-
-
Mostrar Resumo
-
Neste trabalho é apresentada a proposta de desenvolvimento de uma metodologia - juntamente com a apresentação dos resultados de sua aplicação - que utiliza uma técnica de aprendizagem de máquina, SVM, para análise automatizada de dados de citometria de fluxo em amostras de ambientes aquáticos, na identificação de bacterioplâncton. As amostras utilizadas na execução desta metodologia foram coletadas em 19 lagos de montanhas de elevada altitude que foram classificados manualmente no Laboratório de Limnologia do Departamento de Oceanografia e Limnologia da UFRN e dados de lagos da região nordeste do Brasil mais especificamente nos estados do Rio Grande do Norte e Paraíba. Previamente, iniciou-se com alguns testes de configuração da função kernel e uma análise quantitativa com base no número médio de acertos na classificação automatizada, na qual percebeu-se que a taxa de erro de predição variou entre 1,86% e 3,35%, em média. Foram realizadas duas etapas de desenvolvimento da metodologia proposta, onde foram criados modelos de predição e realizados uma série de testes com as bases de dados criadas a partir das informações disponíveis. Os resultados obtidos foram expostos a uma série de análises quantitativas e qualitativas, inclusive utilizando PCA para entender a importância de cada variável nos conjuntos de dados das mostras. Para uma avaliação qualitativa da metodologia proposta, foi aplicada uma análise estatística para comparar ambas estratégias de modelos de predição, que tem por base a classificação final apontada pelo algoritmo de SVM.
-
Mostrar Abstract
-
This master tesis shows the results of a methodology proposal for bacterioplankton identification using a machine learning approach named SVM. Samples used were taken from 19 high elevated lakes located at Pyrenees Mountains. Samples generated 74 databases after been analyzed by a specialist to serve as input to the algorithm. We observed the viability of this method with 3.35% of error in identification. Furthermore, there is no isolated direct correlation between robustness of the prediction models and high complexity of the input data but, indeed, the algorithm settings, function cost and variables choice have an important role in the performance as well.
|
|
2
|
-
LUCAS FELIPE DA SILVA
-
Integração de dados e desenvolvimento de métricas escalável para análise de fatores de transcrição.
-
Orientador : Jorge Estefano de Santana Souza
-
MEMBROS DA BANCA :
-
Jorge Estefano de Santana Souza
-
RODRIGO JULIANI SIQUEIRA DALMOLIN
-
WILFREDO BLANCO FIGUEROLA
-
Data: 28/03/2018
-
-
Mostrar Resumo
-
Atualmente há diversas ferramentas propostas para análise de Fatores de Transcrição (TF), tais como TFCheckpoint, JASPAR, SSTAR, GTRD, Enrichr. No entanto nenhuma dessas ferramentas oferece uma experiência completa, em que se possa avaliar a confiabilidade do TF, ou seja, se de fato uma proteína analisada é um TF e a sua associação com o gene alvo. Ao longo do tempo foram construídas inúmeras bases de dados, todas elas com riquíssimas informações, porém a complexidade intrínseca do dado, o volume de informações, problemas de nomenclatura dos genes e diversos outros fatores fizeram com que tais ferramentas não oferecessem um espectro completo da análise. Por outro lado, para se trabalhar com um grande volume de dados, se requer conhecimentos avançados de computação. Entretanto, o grande público interessado em analisar esses dados são profissionais procedentes das áreas biológicas. Configurando-se como uma barreira, uma vez que a formação acadêmica desta área não oferece em seus componentes curriculares disciplinas de programação. Diante desta situação, este trabalho tem como objetivo criar uma ferramenta web destinada exclusivamente para análise dos TFs. Contendo a integração de diferentes bases de dados e um conjunto de scripts para manipular estas informações, juntamente com osparâmetros cruciais definidos pelo usuário em sua análise, foi idealizado e desenvolvido o Transcription Factor Analysis Tools (TFAT). O cerne desta ferramenta é aanálise para identificar os TFs chaves na modularização da transcrição gênica, ou seja, o enriquecimento dos TFs reguladores de uma lista de genes submetida pelo usuário, que através dos scripts que integram a mesma, consulta sua base de dados, identificam os TFs que estão associados aos genes da lista e calcula o p-valor de enriquecimento. Além disso, a ferramenta verifica a confiabilidade do TF, disponibiliza as predições realizadas e converte os itens de uma lista para o GeneID ou Symbol do Entrez Gene. Outro recurso presente neste trabalho é a utilização da confiabilidade do TF aplicado em toda a ferramenta. Esse grau de confiabilidade levaem consideração evidências de diferentes bases de dados, experimentos, predições e outras características dos TFs. Possuindo um modo padrão e um modo com parâmetros definidos pelo próprio usuário, este recurso de confiabilidade permite toda uma personalização por meio de filtros nas consultas e controle de análise para o usuário final.
-
Mostrar Abstract
-
Currently there are several tools proposed for analysis of Transcription Factors (TF), such as TFCheckpoint, JASPAR, SSTAR, GTRD, Enrichr. However none of these tools offers a complete experience in which the reliability of TF can be evaluated, that is, if in fact an analyzed protein is a TF and its association with the target gene. Numerous databases were built over time, all of them with very rich information, but the intrinsic complexity of the data, the volume of information, problems of gene nomenclature and several other factors meant that such tools did not offer a complete spectrum of analysis . On the other hand, to work with a large volume of data requires advanced computer skills. However, the general public interested in analyzing this data are professionals from the biological areas. Configuring itself as a barrier, since the academic formation of this area does not offer in its curricular components programming disciplines. Faced with this situation, this work aims to create a web tool exclusively for the analysis of TFs. Containing the integration of different databases and a set of scripts to manipulate this information, along with the crucial parameters defined by the user in its analysis, Transcription Factor Analysis Tools (TFAT) was designed and developed. The core of this tool is the analysis to identify the key TFs in the modularization of gene transcription, that is, the enrichment of the regulatory TFs of a list of genessubmitted by the user, that through the scripts that integrate the same, consult its database, identify the TFs that are associated with the listed genes and calculate the enrichment p-value. In addition, the tool verifies TF reliability, makes available predictions, and converts items from a list to the Entrez Gene's GeneID or Symbol. Anotherfeature of this work is the use of TF reliability applied throughout the tool. This degree of reliability takes into account evidence from different databases, experiments, predictions and other characteristics of TFs. With a standard mode and a user-defined mode, this reliability feature allows for a full customization through filters in the queries and analysis control for the end user.
|
|
3
|
-
DANIEL GARCIA TEIXEIRA
-
Um circuito neural canônico com inibição feedback e feedforward.
-
Orientador : CESAR RENNO COSTA
-
MEMBROS DA BANCA :
-
CESAR RENNO COSTA
-
RODRIGO JULIANI SIQUEIRA DALMOLIN
-
RENAN CIPRIANO MOIOLI
-
WILFREDO BLANCO FIGUEROLA
-
Data: 29/03/2018
-
-
Mostrar Resumo
-
A oscilação gama está presente em diversas áreas do cérebro, como no hipocampo, desempenhando um importante mecanismo para o funcionamento da memória. Encontramos diversos modelos capazes de explicar a geração das oscilações gama e explicam suas duas funcionalidades, a de agrupar de forma sincronizada as sinapses dos neurônios e a de selecionar quais neurônios devem disparar em cada ciclo deste sincronismo. Funcionalidades estas que imprimem um caráter computacional do processamento neural a este sistema, como a separação de padrões e a formação de assembleias neurais. Porém, a análise destes modelos existentes demonstra ser muito sensível às variações das atividades cerebrais, sendo fortemente afetados por variações ne suas camadas de entrada, de modo a aparentar não possuir uma boa robustez, gerando muita variação de sua frequência de saída, assim como na competitividade entre estes neurônios. Entretanto, ao se considerar uma importante parte do circuito biológico não considerada em trabalhos anteriores, uma rede de inibição alimentada a frente nos possibilitou a criação de um novo modelo. Baseando-nos no modelo de neurônio de Izhikevich, geramos um novo modelo com uma maior robustez às variações na camada de entrada, bem como um custo computacional reduzido e proximidade do modelo biológico. Em posse deste novo modelo, será possível criar redes neurais com maior capacidade de neurônios, com custo computacional reduzido, além da possibilidade de análise do comportamento individual em cada neurônio do modelo.
-
Mostrar Abstract
-
Gamma oscillation is present in several areas of the brain, such as the hippocampus, playing an important mechanism for memory functioning. We found several models capable of explaining the generation of the gamma oscillations and explain their two functionalities, that of synchronously grouping the synapses of the neurons and of selecting which neurons must trigger in each cycle of this synchronism. These functionalities impart a computational character of neural processing to this system, such as the separation of patterns and the formation of neural assemblies. However, the analysis of these existent models shows to be very sensitive to the variations of the cerebral activities, being strongly affected by variations and their layers of entrance, in order to appear not to have a good robustness, generating much variation of their frequency of exit, as in between these neurons. However, when considering an important part of the biological circuit not considered in previous studies, a fed-in inhibition network enabled us to create a new model. Based on the Izhikevich neuron model, we generated a new model with greater robustness to the variations in the input layer, as well as a reduced computational cost and proximity of the biological model. In the possession of this new model, it will be possible to create neural networks with greater capacity of neurons, with reduced computational cost, besides the possibility of analyzing the individual behavior in each neuron of the model.
|
|
4
|
-
THAÍS DE ALMEIDA RATIS RAMOS
-
Desenvolvimento e uso do CORAZON: ferramenta para normalização e agrupamento de dados de expressão gênica
-
Orientador : JOSÉ MIGUEL ORTEGA
-
MEMBROS DA BANCA :
-
GUSTAVO HENRIQUE ESTEVES
-
JOSÉ MIGUEL ORTEGA
-
RODRIGO JULIANI SIQUEIRA DALMOLIN
-
THAIS GAUDENCIO DO REGO
-
VINICIUS RAMOS HENRIQUES MARACAJA COUTINHO
-
Data: 11/05/2018
-
-
Mostrar Resumo
-
A criação de enciclopédias de expressão gênica possibilita a compreensão de grupos de genes que são co-expressos em diferentes tecidos e o entendimento de grupos gênicos conforme suas funções e origem. Devido à enorme quantidade de dados em larga escala, gerados em projetos de transcriptômica, houve uma demanda intensa em usar técnicas fornecidas pela inteligência artificial, que tornou-se amplamente utilizada na bioinformática. A aprendizagem não supervisionada é a tarefa de aprendizagem de máquina que analisa os dados fornecidos e determina os objetos que podem ser agrupados. Foi construída uma ferramenta amigável chamada CORAZON (Correlation Analyses Zipper Online), que implementa 3 algoritmos de aprendizagem de máquina não supervisionada (mean shift, k-means e hierárquico), 6 metodologias de normalização (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts Per Million (CPM), log base-2, normalização pela soma dos valores da instância e normalização pelo maior valor de atributo para cada instância) e uma estratégia para observar a influência dos atributos, para agrupamento de dados de expressão gênica. Os desempenhos dos algoritmos foram avaliados através de 5 modelos comumente usados para validar metodologias de agrupamento, cada um composto por 50 conjuntos de dados gerados aleatoriamente. Os algoritmos apresentaram acurácia variando entre 92-100%. Em seguida, a ferramenta foi aplicada para agrupar tecidos, obter conhecimentos evolutivos e funcionais dos genes, com base no enriquecimento de processos biológicos, e associar com fatores de transcrição. Para selecionar o melhor número de clusters para o k-means e o hierárquico, foram utilizados o critério de informação bayesiana (BIC), seguido da derivada da função discreta e a Silhueta. No hierárquico foi adotado o método do Ward. No total, 3 bases de dados (Uhlen, Encode e Fantom) foram analisadas e, em relação aos tecidos, foram observados grupos relacionados a glândulas, tecidos cardíacos, musculares, relacionados ao sistema reprodutivo e grupos com um único tecido, como testículo, cérebro e medula óssea. Em relação aos grupos de genes, foram obtidos vários grupos com especificidades em suas funções: detecção de estímulos envolvidos na percepção sensorial, reprodução, sinalização sináptica, sistema nervoso, sistema imunológico, desenvolvimento de sistemas e metabólicos. Também foi observado que geralmente grupos com mais de 80% de genes não codificantes, mais de 40% dos seus genes codificantes são recentes, originados em Mammalia e a minoria é do clado Eukaryota. Por outro lado, grupos com mais de 90% de genes codificantes, mais de 40% deles apareceram em Eukaryota e a minoria em Mammalia. Estes resultados mostram o potencial dos métodos do CORAZON, que podem ajudar na análise de grande quantidade de dados genômicos, possibilitando associações dos processos biológicos com RNAs não codificantes e codificantes agrupados juntos, bem como a possibilidade do estudo da história evolutiva. CORAZON está disponível gratuitamente em http://biodados.icb.ufmg.br/corazon ou http://corazon.integrativebioinformatics.me.
-
Mostrar Abstract
-
The creation of gene expression encyclopedias possibilities the understanding of gene groups that are co-expressed in different tissues and comprehend gene clusters according to their functions and origin. Due to the huge amount of data generated in large-scale transcriptomics projects, an intense demand to use techniques provided by artificial intelligence became widely used in bioinformatics. Unsupervised learning is the machine learning task that analyzes the data provided and tries to determine if some objects can be grouped in some way, forming clusters. We developed an online tool called CORAZON (Correlation Analyses Zipper Online), which implements three unsupervised machine learning algorithms (mean shift, k-means and hierarchical) to cluster gene expression datasets, six normalization methodologies (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts per million (CPM), base-2 log, normalization by the sum of the instance's values and normalization by the highest attribute value for each instance), and a strategy to observe the attributes influence, all in a friendly environment. The algorithms performances were evaluated through five models commonly used to validate clustering methodologies, each one composed by fifty randomly generated datasets. The algorithms presented accuracies ranging between 92-100%. Next, we applied our tool to cluster tissues, obtain gene’s evolutionarily knowledgement and functional insights, based on the Gene Ontology enrichment, and connect with transcription factors. To select the best number of clusters for k-means and hierarchical algorithms we used Bayesian information criterion (BIC), followed by the derivative of the discrete function and Silhouette. In the hierarchical, we adopted the Ward’s method. In total, we analyzed three databases (Uhlen, Encode and Fantom) and in relation to tissues we can observe groups related to glands, cardiac tissues, muscular tissues, tissues related to the reproductive system and in all three groups are observed with a single tissue, such as testis, brain and bone-narrow. In relation to the genes clusters, we obtained several clusters that have specificities in their functions: detection of stimulus involved in sensory perception, reproduction, synaptic signaling, nervous system, immunological system, system development, and metabolics. We also observed that clusters with more than 80% of noncodings, more than 40% of their coding genes are recents appearing in mammalian class and the minority are from eukaryota class. Otherwise, clusters with more than 90% of coding genes, have more than 40% of them appeared in eukaryota and the minority from mammalian. These results illustrate the potential of the methods in CORAZON tool, which can help in the large quantities analysis of genomic data, possibiliting the potential associations analyzes between noncoding RNAs and the biological processes of clustered together coding genes, as well as the possibility of evolutionary history study. CORAZON is freely available at http://biodados.icb.ufmg.br/corazon or http://corazon.integrativebioinformatics.me.
|
|
5
|
-
DIEGO ARTHUR DE AZEVEDO MORAIS
-
Transcriptogramer: Pacote em R para Análise Transcricional
-
Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
-
MEMBROS DA BANCA :
-
Jorge Estefano de Santana Souza
-
MAURO ANTONIO ALVES CASTRO
-
RODRIGO JULIANI SIQUEIRA DALMOLIN
-
Data: 29/06/2018
-
-
Mostrar Resumo
-
O transcriptograma, um método utilizado na análise de transcriptomas, utiliza dados de interação proteína-proteína para construir uma lista ordenada de genes. Nesta lista, genes são posicionados de forma que a probabilidade de interação entre seus produtos decaia exponencialmente com o aumento da distância entre suas posições. A lista ordenada de genes é então utilizada para calcular o valor de expressão médio de genes funcionalmente associados numa janela com raio configurável, permitindo a expressão diferencial de grupos gênicos não pré-definidos em estudos caso-controle. O objetivo deste estudo é a implementação de um pacote em R que use transcriptogramas e integre funcionalidades de pacotes já conhecidos pela comunidade científica, capaz de realizar: expressão diferencial, enriquecimento funcional, e visualização de rede. O pacote transcriptogramer foi implementado e encontra-se disponível no Bioconductor, um repositório para softwares open source desenvolvidos na linguagem R para utilização em bioinformática. Numa comparação entre o transcriptogramer e um pipeline combinando funcionalidades dos pacotes limma e topGO, observou-se que o transcriptogramer identificou aproximadamente 10 vezes mais termos do Gene Ontology significativamente enriquecidos, dentre os quais foram encontrados a maioria dos termos identificados pelo pipeline convencional.
-
Mostrar Abstract
-
The transcriptogram, a method used on transcriptomes analysis, uses protein-protein interaction data to build an ordered gene list. On this list, genes are placed such that the probability of interaction between its products exponentially decreases with the increase of the distance between its positions. The ordered gene list is then used to calculate the average expression value of functionally associated genes in a window with settable radius, allowing the differential expression of non-predefined gene sets in case-control studies. This study aims to implement an R package that uses transcriptograms and integrates features from packages known by the scientific community, able to perform: differential expression, functional enrichment, and network visualization. The transcriptogramer package was implemented and is available at Bioconductor, a repository for open source softwares developed in the R language for use in bioinformatics. In a comparison between the transcriptogramer and a pipeline combining features from limma and topGO packages, was noticed that the transcriptogramer identified nearly 10 times more Gene Ontology terms significantly enriched, among which most of the terms identified by the conventional pipeline were found.
|
|
6
|
-
PAULO ROBERTO BRANCO LINS
-
DESCOBRINDO REDES DE ASSOCIAÇÃO ENVOLVENDO miRNAs E lincRNAs HUMANOS ATRAVÉS DE UMA ANÁLISE DE eQTL
-
Orientador : JUNIOR BARRERA
-
MEMBROS DA BANCA :
-
SANDRO JOSE DE SOUZA
-
WILFREDO BLANCO FIGUEROLA
-
GUILHERME SUAREZ KURTZ
-
Data: 19/07/2018
-
-
Mostrar Resumo
-
Variações no nível de expressão gênica estão entre as principais causas da diversidade fenotípica nos organismos, incluindo o desenvolvimento de patologias e a resposta aos fármacos em humanos. Os RNAsnão codificantes (ncRNAs) desempenham um papel importante no complexo mecanismo das redes regulatórias. Embora ainda não completamente compreendidos, dois representantes dos ncRNAsdespontam em pesquisas recentes como protagonistas no desenvolvimento de quadros clínicos. São eles os microRNAs (miRNAs) e os RNAsnão codificantes intergênicos longos (lincRNAs). Assim, o presente trabalho integrou dados públicos para catalogar o vasto panorama dos efeitos regulatórios dos miRNAse doslincRNAsno genoma humano. Através de uma análise de expression Quantitative Trait Loci (eQTL) foram identificadas variações que tivessem efeito putativo na expressão gênica. Redes de associação também foram criadas relacionando os resultados da análise eQTL comtratos de relevância clínica e/ou farmacológica. Por meio dessa, foram reveladas associações que podem continuar despertando o interesse de novos estudos envolvendo o tema. Distúrbios mentais e coronários, além do câncer, foram os tratos com maior evidência nos resultados do estudo.
-
Mostrar Abstract
-
Variations in the level of gene expression are among the main causes of phenotypic diversity in organisms, including the development of pathologies and response to drugs in humans. Non-coding RNAs (ncRNAs) play an important role in the complex mechanism of regulatory networks. Although not yet fully understood, two representatives of the ncRNAs emerge in recent researches as protagonists in the development of clinical conditions. They are the microRNAs (miRNAs) and the long intergenic non-coding RNAs (lincRNAs). Thus, the present work integrated public data to catalog the vast landscape of the regulatory effects of miRNAs and lincRNAs in the human genome. Through expression Quantitative Trait Loci (eQTL) analysis, variations that had a putative effect on gene expression were identified. Association networks were also created relating the eQTL analysis results to traits of clinical and/or pharmacological relevance. Through this, associations that may continue to arouse the interest of new studies involving the theme were revealed. Mental and coronary disorders, in addition to cancer, were the most evidenced traits in the study results.
|
|
7
|
-
KARLA CRISTINA TABOSA MACHADO
-
Desenvolvimento de abordagens computacionais para proteogenômica de procariotos
-
Orientador : GUSTAVO ANTONIO DE SOUZA
-
MEMBROS DA BANCA :
-
GUSTAVO ANTONIO DE SOUZA
-
JOAO PAULO MATOS SANTOS LIMA
-
LUCIANO FERNANDES HUERGO
-
Data: 27/07/2018
-
-
Mostrar Resumo
-
Com o desenvolvimento de sequenciadores de próximageração, uma revolução ocorreu na pesquisa genômica, e atualmente o genoma completo de milhares de linhagens de bactérias são conhecidos. A análise de proteínas por espectrometria de massas (MS) também passou por grandes desenvolvimentos tecnológicos na última década em termos de sensibilidade e capacidade de sequenciamento. A proteômica ainda não se encontra no mesmo nível que a genômica, mas para amostras contendo proteínas de um eucarioto simples (por exemplo, levedura) ou de uma bactéria, a proteômica já é capaz de detectar e quantificar proteínas de maneira completa e exaustiva. Mas há ainda há desafios no que tange a caracterização de regiões codificadoras de um genoma, bem como na validação de modelos genéticos. Dados da literatura mostram que anotações de um mesmo genoma realizado por abordagens independentes geram resultados conflitantes tanto no número de ORFs anotados, quanto aos seus tamanhos (i.e., diferentes escolhas de início de transcrição/tradução). A caracterização de sequências peptídicas em amostras de proteômica pode ser utilizada para validar regiões do genoma como codificantes, área de pesquisa conhecida como proteogenômica. Para tal ocorrer, é necessário a construção de bancos de sequências customizados, que permitem a identificação de novas regiões que anteriormente não eram preditas como codificadoras e se encontravam ausentes em bancos de dados proteicos. Neste trabalho, foi desenvolvida uma estratégia computacional que constrói bancos de sequências de proteínas customizados, a partir do processamento e análise de dados de sequências proteicas de várias linhagens de uma mesma espécie de bacteria. A abordagem identifica e compara proteínas homólogas e unicamente anotadas em todas as linhagens, e reporta as sequências de proteínas de forma não-redundante, ou seja, sequências extensivamente repetidas entre anotações são reportadas somente uma vez com o intuito de manter o tamanho do espaço de busca sob controle. Os bancos também reportam variações de sequência, sejam elas resultantes de variações genéticas ou divergências de anotação de genes, que normalmente são abdicadas em bancos de dados utilizados em análise proteômica. Além dos bancos, houve também uma preocupação de se criar um arquivo de registro, no qual cada observação referente a presença de homólogos, diferenças de sequências, tipo de modificação e presença em linhagens estivesse bem descrita. Com o objetivo de avaliar se os bancos gerados produziam sequências relevantes e não ocorria perda de informação se comparados às sequências originais utilizadas, dados de MS coletados de linhagens clínicas de Mycobacterium tuberculosis foram submetidas à identificação proteica. Comparou-se o banco de dados criado com essa abordagem com uma base de dados formada pela mera concatenação de todas as proteínas anotadas em M. tuberculosis. Além de reduzir o tempo computacional, o número de identificações obtidas em ambas as buscas foi praticamente idêntico. Finalmente, foram criados bancos para 10 espécies bacterianas com pelo menos 65 linhagens caracterizadas. Ao analisar tais bancos, percebeu-se que quanto maior a diversidade do pangenoma da espécie bacteriana, maior a quantidade de proteínas e peptídeos esperados. Os resultados também demonstram a possibilidade de se utilizar tal estratégia para criar bancos contendo sequências de múltiplas espécies, com o intuito de realizar análises metaproteômicas de dados de MS.
-
Mostrar Abstract
-
Next-generation sequencers development cause a revolution in genomic research, and nowadays the complete genomic information of thousands of bacterial strains is available. Similar technological breakthroughs also happened for protein analysis by mass spectrometry (MS) in the last decade regarding sensitivity and throughput. However, proteomics is yet to reach the same level of throughput of genomics, but for samples from simple eukaryotic organisms such as yeasts or bacteria, proteomics is able to detect and quantify their proteome close to completeness. There are still challenges regarding the characterization of coding regions in a genome, as well as in the validation of genomic models. Scientific reports show genomic annotation performed over the same genomic data using independent approaches resulted in divergent data regarding the number of predicted ORFs and also their length (i.e. different choices for transcription/translation initiation). Peptide sequence characterization in proteomics samples can be used to validate genomic regions as coding, research field known as proteogenomics. For such, the design of customized sequence databases which allows the identification of new genomic regions previously predicted to be no-coding and therefore absent in routinely employed databases. In this work, was developed a computational strategy that builds proteins sequence databases customized, through processing and analysis of protein sequence data from several strains of the same bacterial species. The approach identifies and compares homologous and uniquely annotated proteins in all strains, and reports those sequences in a non-redundant manner, which means, sequences extensively repeated among annotations are reported only once in order to keep the size search space under control. Databases also report sequence variations, whether they result from genetic variations or annotation divergences, which are usually abdicated in databases used in proteomic analysis. Besides the databases, there was also a concern to create a registration file, in which each observation regarding the presence of homologous, differences of sequences, modification type and presence in strains was well described. In order to evaluate if the generated databases produced relevant sequences and didn’t happen loss of information if compared to the used original sequences, MS data collected from clinical strains of Mycobacterium tuberculosis were submitted to protein identification. The database created with this approach was compared with a database formed by the mere concatenation of all the proteins annotated in M. tuberculosis. Besides reducing the computacional time, the number of identifications obtained in both searches was practically identical. Finally, databases for 10 bacterial species containing at least 65 strains characterized were created. When analyzing these databases, it was noticed that the greater is the diversity of the pangenome of the bacterial species, greater is the amount of proteins and peptides expected. The result also demonstrate the possibility to use such strategy to create databases containing sequence of multiple species, in the order to perform metaproteomic analyzes of MS data.
|
|
8
|
-
ARANTHYA HEVELLY DE LIMA COSTA
-
ANÁLISE ENERGÉTICA DA INTERAÇÃO DO ESTRADIOL E DIETILESTILBESTROL COM O ERα.
-
Orientador : UMBERTO LAINO FULCO
-
MEMBROS DA BANCA :
-
RODRIGO JULIANI SIQUEIRA DALMOLIN
-
UMBERTO LAINO FULCO
-
VALDER NOGUEIRA FREIRE
-
Data: 10/08/2018
-
-
Mostrar Resumo
-
O câncer de mama é uma doença hormônio-dependente, que possui vários subtipos diferentes, padrões de expressão de genes e manifestações distintos (CHENG et al., 2002). Segundo o Instituto Nacional de Câncer (INCA), nas mulheres, apresenta a maior incidência e mortalidade, tanto em países em desenvolvimento quanto em países desenvolvidos. A maioria das neoplasias mamárias são ER + (receptor de estrogênio positivo), isto é, dependentes de 17β-estradiol e o número de ERα (receptor de estrogênio subtipo alfa) é superior ao número de ERβ (receptor de estrogênio subtipo beta), evidenciando a importância do subtipo alfa nesta doença. Este trabalho mensurou as energias de ligação individual dos resíduos que compõem o ERα com o 17β-estradiol e Dietilestilbestrol, utilizando a simulação computacional. Para tanto, foi empregado a Teoria do Funcional Densidade (DFT) e o Método de Fracionamento Molecular com Caps Conjugados (MFCC). Os resultados obtidos constataram que os resíduos com os valores energéticos mais significativos são: GLU353, LEU391, MET343, LEU346, MET388, ARG394, PHE404, HIS524, ASP411, LEU525, ARG352 e ARG548. Estes resultados ajudam a caracterizar a interação entre o 17β-estradiol e o Dietilestilbestrol com o ERα e, por sua vez, podem ser utilizados como base para estudos, planejamento estrutural do fármaco, modulação dos fármacos existentes, tal como para o design de novas drogas.
-
Mostrar Abstract
-
Breast cancer and a hormone-dependent disease, which has several different subtypes, patterns of gene expression and distinct manifestations (CHENG et al., 2002). According to the National Cancer Institute (INCA), in the year 2013, as deaths caused by the disease of 14,388, being 181 men and 14,207. The estimate for 2015 is 57,120 of new cases. Most breast cancers are ER + (estrogen receptor positive), ie, 17β-estradiol dependent. In this type of breast neoplasm, the number of ERα (estrogen receptor alpha subtype) is higher than the number of ERβ (estrogen receptor beta subtype), evidencing the importance of the alpha subtype in this disease. The purpose of this work is to measure the individual binding energies of ERα residues with 17β-estradiol and Diethylstilbestrol, using a computational simulation. For this purpose, it is employed as Doria of Functional Theory (DFT) and Molecular Fractionation Method with Conjugated Caps (MFCC). The results obtained with this work may help to characterize the interaction between the 17β-estradiol agonists and Diethylstilbestrol with ERα. The results obtained showed the residues with the most significant energy values are: GLU353, LEU391, MET343, LEU346, MET388, ARG394, PHE404, HIS524, ASP411, LEU525, ARG352 and ARG548. These results help characterize, through the information obtained, an interaction between 17β-estradiol and Diethylstilbestrol with ERα and, in turn, can be used as a basis for studies, structural drug design, modulate existing drugs, such as for the design of new drugs.
|
|
9
|
-
PRISCILLA MACHADO DO NASCIMENTO
-
Implementação de Funcionalidades Para uma Plataforma de Análise de Variantes Genômicas
-
Orientador : Jorge Estefano de Santana Souza
-
MEMBROS DA BANCA :
-
Jorge Estefano de Santana Souza
-
BEATRIZ STRANSKY FERREIRA
-
MATHEUS AUGUSTO DE BITTENCOURT PASQUALI
-
Data: 21/09/2018
-
-
Mostrar Resumo
-
Os atuais avanços científicos, no âmbito da genômica, têm sido proporcionados devido à extração de informações significativas do DNA em virtude do uso das novas tecnologias disponibilizadas para realização da análise dos dados genéticos. A medicina de precisão faz uso desses avanços tecnológicos para melhor conhecer a constituição genética e as possíveis alterações que possam vir a produzir doenças com respostas diferenciadas aos tratamentos em um indivíduo. Considerando as mutações genéticas como um dos propulsores da evolução e tendo em vista a compreensão mais apurada dos seus efeitos, o presente trabalho objetiva contribuir nas futuras análises de dados de mutações, visando auxiliar futuramente na identificação de novos hotspot e SNPs. Para que essa análise possa ser realizada foi desenvolvido um produto de software responsável por oferecer assistência aos dados coletados, com o intuito de analisá-los de maneira eficiente e visualizá-los de maneira mais precisa. Este trabalho propõe a implementação de novas funcionalidades que possam agregar valor a este produto, contribuindo diretamente na automatização e aperfeiçoamento dos processos realizados pelas ferramentas de análise de variantes disponíveis no mercado. Visando uma aplicabilidade prática do que foi desenvolvido, foi proposta uma análise dos dados públicos utilizados para anotar os variantes do sistema. Para isso, será realizado um estudo referente aos dados dos preditores existentes, para que possa ser verificada a acurácia dos mesmos em relação aos dados clínicos registrados no banco ClinVar (https://www.ncbi.nlm.nih.gov/clinvar/). Com o intuito de extrair dados para demonstrar a relevância da análise dos falsos positivos/negativos apresentados por meio dos preditores existentes, foi proposto um protótipo de processo que visa melhorar a acurácia dos SNPs identificados pelo sistema.
-
Mostrar Abstract
-
Current scientific advances in genomics have been provided due to extraction of significant information from the DNA using new technologies available for the analysis of genetic data. Precision medicine is based on these technological advances to better understand the genetic constitution and possible changes that may lead to diseases with patient-specific differential responses to treatments. Considering the process of genetic mutation as one of the drivers of evolution and with the goal to better understand its effects, the present work aims to contribute to future analysis of mutation data, helping in thefuture identification of new hotspots and SNPs. For this analysis, a software product was developed responsible for offering assistance to the collected data, in order to analyze them in an efficient way and to visualize them in a more precise way. This work proposes the implementation of new functionalities that can add more value to the aforementioned software, contributing directly to the automation and improvement of the processes performed by the variant analysis tools available in the market. Aiming at an applicability of what was developed, an analysis ofthe public data used to annotate the variants of the system was proposed. For this, a study will be carried out regarding the data of the existing predictors, so that the accuracy of the data can beverified in relation to the clinical data recorded in ClinVar. In order to extract data to demonstrate the relevance of the false positive/negative analysis presented through the existing predictors,a prototype process was proposed that aims to improve the accuracy of the SNPs identified by the system
|
|
10
|
-
MARCEL DA CÂMARA RIBEIRO DANTAS
-
ENGENHARIA REVERSA DA REDE REGULATÓRIA DO SARCOMA DE EWING E INFERÊNCIA DE REGULADORES MESTRES.
-
Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
-
MEMBROS DA BANCA :
-
RODRIGO JULIANI SIQUEIRA DALMOLIN
-
CESAR RENNO COSTA
-
MATHEUS AUGUSTO DE BITTENCOURT PASQUALI
-
Data: 21/09/2018
-
-
Mostrar Resumo
-
O Sarcoma de Ewing (SE) é um tumor ósseo maligno raro com alta propensão a metástase ocorrendo mais frequentemente em adolescentes e jovens adultos. Não há uma célula de origem identificada para este câncer e o seu hallmark é a ocorrência de uma translocação cromossomal entre os cromossomos 11 e 22 que resulta em um fator de transcrição aberrante através da fuão de genes da família FET e ETS, comumente EWSR1 e FLI1. A translocação é associada com alteração da cromatina, o que leva a distúrbio significativo no transcriptoma da célula. Os mecanismos regulatórios por trás das alterações transcricionais observadas do SE permanecem pouco compreendidas. Aqui, nós inferimos a rede regulatória do SE e identificamos 7 fatores de transcrição como potenciais mestres reguladores. De acordo com nossos resultados, estes 7 mestres reguladores estão organizados em dois clusters: um que consiste do PAX7 e do RUNX3 e um outro composto pelo ARNT2, CREB3L1, GLI3, MEF2C e PBX3. Os mestres reguladores dentro de cada cluster são agonistas entre eles, e ambos os clusters agem antagonisticamente com relação ao outro. Baseado em dados de transcrição, nós classificamos pacientes de SE em duas coortes de acordo com a atividade regulatória de cada um dos 7 regulons. Alta atividade regulatória do PAX7 e do RUNX3 é associada a um melhor prognóstico e alta atividade regulatória do ARNT2, CREB3L1, GLI3 e PBX3 está associada a um pior prognóstico. Este trabalho contribui para uma melhor compreensão do reguloma do SE, indicando potenciais mestres reguladores que podem levar a um potencial preditor de prognóstico e fatores chaves para tumorigenesis.
-
Mostrar Abstract
-
Ewing Sarcoma (ES) is a rare malignant bone tumor with high propensity to metastasize occurring most frequently in adolescents and young adults. There is no ES cell of origin identified só far and the hallmark of this cancer is the occurrence of a chromosomal translocation between the chromosomes 11 and 22 that results in an aberrant transcription factor through the fusion of a gene from FET family and ETS family, commonly EWSR1 and FLI1. The translocation is associated with chromatin alteration, leading to a significant disturbance in the cell transcriptome. The regulatory mechanisms behind the observed ES transcriptional alterations remain poorly understood. Here, we inferred the transcriptional regulatory network of Ewing Sarcoma and identified 7 transcription factors as potential master regulators. According to our results, these 7 master regulators are organized in two clusters: one composed by PAX7 and RUNX3 and other composed by ARNT2, CREB3L1, GLI3, MEF2C, and PBX3. The master regulators inside each cluster are agonists among each other andboth clusters show antagonism between them. Based on transcriptional data, we classified ES patients of two cohorts according to the activity of each of the seven regulons. High regulatory activity of PAX7 and RUNX3 is associated with better overall survival and high regulatory activity of ARNT2, CREB3L1, GLI3, and PBX3 is associated with worse overall survival. This work contributes to a better understanding of the regulome of Ewing Sarcoma, indicating putative master regulators that can lead to potential prognosis prediction and key factors of tumorigenesis.
|
|
11
|
-
STHEPHANIE NASSIF PINHEIRO
-
CARACTERIZAÇÃO DO GENE 18S rRNA EM PROTOZOÁRIOS DO TAXA APICOMPLEXA: UMA ABORDAGEM APLICADA AO DESENHO DE MARCADORES MOLECULARES
-
Orientador : DANIEL CARLOS FERREIRA LANZA
-
MEMBROS DA BANCA :
-
DANIEL CARLOS FERREIRA LANZA
-
KATIA CASTANHO SCORTECCI
-
CLAUDIO BRUNO SILVA DE OLIVEIRA
-
Data: 26/09/2018
-
-
Mostrar Resumo
-
O filo Apicomplexa compreende protozoários de vários filo ao nível de gênero causadores de parasitoses mundialmente distribuídas como malária, toxoplasmose ou distúrbios intestinais oportunistas. Ainda nos dias de hoje, os principais protozoários de importância médica geralmente são identificados por microscopia óptica, o que dificulta a classificação precisa e o diagnóstico dos pacientes, principalmente nos casos em que a parasitemia é baixa. Nesse contexto o presente trabalho teve como objetivo desenvolver um método molecular alternativo, que possibilite a identificação de ampla variedade de protozoários do filo Apicomplexa. Dessa forma, foi desenvolvido um sistema de primers para utilização em uma reação de PCR (Polymerase Chain Reaction) em duas etapas (semi-nested PCR). O alvo investigado para o desenho de primers foi a região 18S rDNA, por ser um alvo amplamente utilizado para screening e identificação de espécies em estudos de biodiversidade. A partir da análise e caracterização estrutural do ácido nucleico ribossomal in silico, foram desenhados conjuntos de primers que se anelam em regiões conservadas e flanqueiam regiões variáveis no gene. A eficiência de cada conjunto de primers foi avaliada por PCR in silico. Foi selecionado um conjunto de primers que, quando usado de forma aninhada, pode gerar ~166 amplicons com sequências distintas, que podem ser usados para discriminar gêneros e espécies de Apicomplexa por diferença no tamanho em gel de agarose e por sequenciamento. O método proposto foi validado in vitro e sua eficiência na identificação de algumas espécies de protozoários de interesse médico foi confirmada. Após etapas adicionais de validação, esse método poderá ser utilizado para triagem inicial em casos de suspeita de parasitoses e também para determinação de diferentes espécies de parasitas.
-
Mostrar Abstract
-
The Apicomplexa phylum comprises protozoa of various genera causing parasitic diseases worldwide such as malaria, toxoplasmosis or opportunistic intestinal disorders. Nowadays, protozoa of medical importance are generally identified by light microscopy, which makes accurate classification difficult, makes diagnosis and prognosis difficult, particularly in cases where infection is low. In this context, the present work aimed to develop an alternative molecular method that allows the identification of a wide range of protozoa of the Apicomplexa taxa. Thus, a primer system was developed for use in a semi-nested PCR (Polymerase Chain Reaction) reaction. The investigated target for primer design was the 18S rDNA region, as it is a widely used template for screening and species identification in biodiversity studies. From the structural analysis and the ribosomal nucleic acid sequence, sets of primers that interact in conserved regions and flank variable regions of the gene were designed. The efficiency of each set of primers was evaluated by in silico PCR and the generated amplicons were evaluated. A set of primers was selected which, when used in a nested fashion, can generate ~ 166 amplicons with distinct sequences, which can be used to discriminate genera and species of the Apicomplexa taxa by difference in the size of amplicons generated in agarose gel and species by sequencing (Sanger method or Next Gen Sequencing). The proposed method was validated in vitro and its efficiency for identification of some protozoan species of medical interest was confirmed. After further validation steps this method can be used for initial screening in cases of suspected parasitosis and also for parasite species determination
|
|
12
|
-
LAISE CAVALCANTI FLORENTINO
-
Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados.
-
Orientador : JOAO PAULO MATOS SANTOS LIMA
-
MEMBROS DA BANCA :
-
JOAO PAULO MATOS SANTOS LIMA
-
Jorge Estefano de Santana Souza
-
VALDIR BALBINO
-
Data: 31/10/2018
-
-
Mostrar Resumo
-
Nas últimas décadas, avanços em abordagens genômicas completas levaram à identificação de um grande número de mutações relacionadas ao câncer. Estimativas de alto desempenho dos impactos de mutações de câncer na estrutura da proteína não são uma conquista fácil, e a maioria dos estudos está limitada a análises estruturais completas, uma a uma. Além disso, ainda existem muitos desafios no caminho para a previsão precisa e automatizada de mutações patogênicas. Portanto, entender o impacto estrutural de uma mudança específica de aminoácidos é de grande importância para a pesquisa médica do câncer. No entanto, a maioria dos estudos tem enfatizado seqüências e modificações estruturais baseadas em características químicas de aminoácidos e não em características de dobra, nas quais a conservação de interações não-covalentes desempenha um papel significativo. A partir de então, no presente estudo, utilizamos redes de interação de resíduos (RINs) para análises em grande escala de mutações missense do câncer, a fim de inferir seus efeitos na conservação de interações não-covalentes. Nossa hipótese é que mudanças em aminoácidos altamente conectados são mais propensos a causar mutações deletérias. Para avaliar isso, recuperamos mutações missense de câncer dos bancos de dados COSMIC (cancer.sanger.ac.uk/cosmic) e TCGA (cancergenome.nih.gov) e as mapeamos para suas respectivas estruturas recuperadas do Protein Data Bank (rcsb.org). Em seguida, os RINs foram construídos a partir dos arquivos PDB obtidos, e os parâmetros de rede, como o grau do nó, o tipo de arestas, o coeficiente de agrupamento, a centralidade, foram avaliados e plotados usando scripts em R. Posteriormente, comparamos esses resultados com os polimorfismos de nucleotídeo único missense recuperados do banco dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) e com mutações de câncer patogênicas e não patogênicas do banco de dados ClinVar (www.ncbi.nlm.nih.gov/clinvar/). Nossos resultados demonstram que a distribuição de mutações por grau (conectividade do nó) varia significativamente em comparação a simulações aleatórias de Monte Carlo e também à distribuição de um conjunto de polimorfismos humanos de nucleotídeo único (SNPs), tendendo a permanecer em nós com menor conectividade. Além disso, a proporção de mutações deletérias foi significativamente aumentada em nós com alto grau de conectividade quando dois critérios diferentes foram utilizados para sua classificação: proporções de preditores de software (Ndamage) e classificação clínica obtida do ClinVar. Levando em conta esses resultados, podemos concluir que as mudanças nos aminoácidos altamente conectados são, de fato, mais propensas a gerar mutações deletérias, devido a sua maior proporção de ocorrência nesses nós. Nossos resultados também indicam que a conservação de interações não-covalentes é um parâmetro importante a ser considerado na avaliação de efeitos de mutações e a análise de RINs pode ser usada como um parâmetro adicional para auxiliar na previsão de mutações deletérias no câncer.
-
Mostrar Abstract
-
In the last decades, advances in whole genomic approaches lead to the identification of a vast number of cancer-related mutations. High-throughput estimations of the impacts of cancer mutations in the protein structure are not an easy accomplishment, and most studies are limited to one-by-one whole structural analyzes. Moreover, there are still many challenges on the way to the precise and automated prediction of pathogenic mutations. Therefore, understanding the structural impact of a particular amino acid change is of great importance for cancer medical research. However, most studies have been emphasizing sequences and structural modifications based on chemical characteristics of amino acids and not fold features, in which the conservation of non-covalent interactions play a significant role. Henceforth, in the present study, we used residue interaction networks (RINs) for large-scale analysis of cancer missense mutations in order to infer their effects on the conservation of non-covalent interactions. We hypothesize that changes in highly connected amino acids are more likely to cause deleterious mutations. To evaluate this, we retrieved cancer missense mutations from COSMIC (cancer.sanger.ac.uk/cosmic) and TCGA (cancergenome.nih.gov) databases and mapped them to their respective structures retrieved from Protein Data Bank (rcsb.org). Then, RINs were constructed from the obtained pdb files, and network parameters such as the node's degree, edges' type, clustering coefficient, betweenness weighted were assessed and plotted using R scripts. Later, we compared these results against reported missense single nucleotide polymorphisms retrieved from dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) and to pathogenic and non-pathogenic cancer mutations from ClinVar (www.ncbi.nlm.nih.gov/clinvar/) databases. Our results demonstrate that the distribution of mutations per degree (node connectivity) varies significantly compared to random Monte Carlo simulations and also to the distribution of a set of human single nucleotide polymorphisms (SNPs), tending to remain at nodes with lower connectivity. Besides, the proportion of deleterious mutations was significantly increased in nodes with a high degree of connectivity when two different criteria were used for their classification: proportions of software predictors (Ndamage) and clinical classification obtained from ClinVar. Taking into account these results, we can conclude that the changes in the highly connected amino acids are indeed more likely to generate deleterious mutations, due their higher proportion of occurrence in these nodes. Our results also indicate that the conservation of non-covalent interactions is an important parameter to consider in assessing mutations effects and RINs analyses can be used as an additional parameter to aid in the prediction of deleterious mutations in cancer.
|
|
13
|
-
CAYRO DE MACÊDO MENDES
-
CARACTERIZAÇÃO IN SILICO DE ORFs VARIÁVEIS E DE REGIÕES REGULATÓRIAS NO GENOMA DO VÍRUS DA SÍNDROME DA MANCHA BRANCA (WSSV)
-
Orientador : DANIEL CARLOS FERREIRA LANZA
-
MEMBROS DA BANCA :
-
DANIEL CARLOS FERREIRA LANZA
-
EUZEBIO GUIMARAES BARBOSA
-
SÁVIO TORRES DE FARIAS
-
Data: 19/11/2018
-
-
Mostrar Resumo
-
A caracterização in silico vem sendo empregada como uma alternativa mais acessível para predição de sequências proteicas que não podem ser reproduzidas in vitro ou ter suas estruturas cristalizadas, bem como pode fornecer dados que complementam abordagens experimentais. O vírus causador da síndrome da mancha branca (WSSV) é um dos maiores problemas enfrentados pela carcinicultura mundial, causando consideráveis danos econômicos. Apesar de os efeitos do vírus nos cultivos serem bem conhecidos, até o momento existem poucas informações sobre os mecanismos de infecção e replicação viral, principalmente devido ao fato de grande parte de suas sequências codificantes não apresentar homologia com sequências conhecidas. Além disso o genoma do WSSV apresenta algumas regiões codificantes que variam entre os diferentes isolados, que até o momento não foram caracterizadas funcionalmente, denominadas ORF75, ORF94, ORF125, ORF23/24, ORF14/15. Esse trabalho teve como objetivo a caracterização in silico das proteínas putativas codificadas pelas regiões variáveis do genoma do WSSV, no intuito de se identificar possíveis funções. Foram empregadas análises filogenéticas a partir do alinhamento de dez sequências genômicas do WSSV obtidas do GenBank. As regiões variáveis das ORF75, ORF94 e ORF125 foram alinhadas e as unidades de repetição e SNPs anotados através da plataforma Geneious. As sequências de aminoácidos foram submetidas a buscas por homólogos remotos, motivos, domínios conservados, reconhecimento de fold e predição estruturas secundárias e terciárias. Foi possível modelar estruturas terciárias de domínios proteicos e inferir possíveis funções que incluem um motivo de reconhecimento de RNA associado a processos pós-transcricionais entre as posições 70-150 da ORF23, um motivo Ankyrim repeat (ANK) atuando em conjunto com o domínio RING-H2 na modulação da proteólise dependente de Ubiquitina na ORF125, helicases de reparo na ORF23/24, uma proteína associada a polimerização de filamentos de actina (ORF14/15) e uma proteína semelhante a subunidade HA2 da hemaglutinina do Influenzavirus (ORF23/24). Também foi possível detectar assinaturas associadas a sinais de localização nuclear dentro das unidades de repetição das sequências de aminoácidos codificadas por ORF75 e ORF94 que podem estar envolvidos na emissão de sinais para proteínas carreadoras do núcleo da célula hospedeira. Foi realizada a análise de algumas regiões regulatórias 100 e 200nt upstream das regiões codificante e foi possível detectar alguns motivos, incluindo um sítio de ligação de “Zinc-Finger”, sugerindo a interação entre possíveis fatores de transcrição. Por meio desses resultados foi proposto um modelo de atuação para cada uma das proteínas estudadas.
-
Mostrar Abstract
-
In silico characterization has been employed as a more accessible alternative for prediction of protein sequences that cannot be reproduced in vitro or have their structures crystallized, as well as can provide data that complement experimental approaches. The virus that causes white spot syndrome (WSSV) is one of the biggest problems facing global shrimp farming, causing considerable economic damage. Although the effects of the virus on the cultures are well known, to date there is little information on the mechanisms of viral infection and replication, mainly because much of their coding sequences do not show homology with known sequences. In addition, the WSSV genome has some coding regions that vary between the different isolates, which have not been functionally characterized to date, called ORF75, ORF94, ORF125, ORF23/24, ORF14/15. This work aimed at the in silico characterization of the putative proteins encoded by the variable regions of the WSSV genome, in order to identify possible functions. Phylogenetic analyzes were performed from the alignment of ten WSSV genomic sequences obtained from GenBank. The variable regions of the ORF75, ORF94 and ORF125 were aligned and the repeat units and SNPs annotated through Geneious platform. The amino acid sequences were subjected to remote homologous searches, motifs, conserved domains, fold recognition and prediction of secondary and tertiary structures. It was possible to model tertiary structures of protein domains and to infer possible functions that include an RNA recognition motif associated with post-transcriptional processes between positions 70-150 of wsv477 (ORF23), an Ankyrim repeat (ANK) motif acting in conjunction with RING-H2 domain on modulation of ubiquitin-dependent proteolysis in wsv249 (ORF125), repair helicases (wsv479, wsv497), actin filament polymerization associated protein (wsv463a), and a HA2 subunit of influenza virus hemagglutinin (wsv492). It has also been possible to detect signatures associated with nuclear localization signals within the repeating units of the amino acid sequences encoded by ORF75 and ORF94 which may be involved in the emission of signals to host cell nucleating proteins. We performed the analysis of some regulatory regions 100 and 200nt upstream of the coding regions and it was possible to detect some motifs, including a Zinc-Finger binding site, suggesting the interaction between possible transcription factors. By means of these results an action model was proposed for each one of the proteins studied.
|
|
14
|
-
THAYNÃ NHAARA OLIVEIRA DAMASCENO
-
PAREADOR DE TERMOS PARA PESQUISA CLÍNICA: INTEGRATE PAIRED TOOL - IPT
-
Orientador : EUZEBIO GUIMARAES BARBOSA
-
MEMBROS DA BANCA :
-
EUZEBIO GUIMARAES BARBOSA
-
GILDERLANIO SANTANA DE ARAÚJO
-
RAND RANDALL MARTINS
-
TETSU SAKAMOTO
-
Data: 18/12/2018
-
-
Mostrar Resumo
-
Big Data é um termo utilizado para caracterizar o crescente volume de dados existentes sobre os mais diversos temas, sejam eles de cunho biomédico ou não. Devido ao enorme volume de dados biológicos e biomédicos gerados diariamente, uma das principais barreiras encontradas será a análise desses dados. É crescente o desenvolvimento e uso de ferramentas computacionais que permitam a análise desses dados através de técnicas como o Text Mining. O Text Mining, vertente do Data Mining, pode ser definido como um método que permite a extração de informações relevantes contidas em textos. Buscando permitir uma análise diferenciada dos dados, sejam esses dados clínicos ou não, foi desenvolvido um algoritmo simples, que permite a análise desses dados sem a necessidade de correlação com bancos de dados existentes, nem a criação de novos bancos de dados. A partir desse algoritmo, uma ferramenta WEB foi desenvolvida, pra que qualquer pessoa consiga ter acesso ao algoritmo (mesmo sem o conhecimento de técnicas computacionais) e promover a análise dos seus dados. O algoritmo da ferramenta Integrate Paired Tool (IPT) foi escrito em linguagem de programação R e utiliza técnicas de Data Mining e Text Mining para análise de dados clínicos, não restringindo suas análises apenas à estes dados específicos. O IPT promove o pareamento de termos analisando a frequência existente entre pares de dados, a partir de um arquivo .csv fornecido pelo usuário. Além disso, a ferramenta WEB foi desenvolvida a partir das linguagens JavaScript, HTML5, CSS e PHP. O algoritmo lê o arquivo .csv, e o percorre por inteiro, fazendo o pareamento de seus termos, dois a dois, independente se as colunas possuem tamanhos diferentes, ou se estão incompletas, até que todas as colunas sejam pareadas. Após todos os agrupamentos, é atribuído um valor para cada par agrupado, somando os pares de iguais frequências e gerando um outro arquivo .csv contendo as interações existentes e suas respectivas frequências. Após as relações e suas frequências de aparecimento serem formadas, um grafo de interações (em R) é mostrado na tela da ferramenta WEB para que o usuário possa então realizar suas análises, além do arquivo .csv com todas as interações e frequências. A obtenção desse grafo e dessa tabela pode conter informações variáveis, a depender da porcentagem que o usuário escolha na ferramenta IPT. Esse arquivo .csv com os dados das interações e frequências pode ser utilizado pelo usuário em outras ferramentas de visualização de redes, como o Gephi, por exemplo. Para fins de testagem da ferramenta, dados de uma UTI neonatal. O IPT demonstrou funcionar bem e atingiu os objetivos da pesquisa, e como metas futuras, teremos a hospedagem da ferramenta na página do Programa de Pós-Graduação em Bioiformática da UFRN, a análise de outros dados e uma possível integração do pré-processamento dos dados dentro do próprio IPT.
-
Mostrar Abstract
-
Big Data is a term used to characterize the growing volume of existing data on different topics, whether they are biomedical or not. The enormous volume of biological and biomedical data generated daily, one of the main barriers will be an analysis of these data. The development and use of computational tools that allow the analysis of data through techniques such as Text Mining. Text Mining, a Data Mining strand, can be defined as a method that allows the extraction of relevant information contained in text. In order to allow a differentiated analysis of the data, whether these clinical data or not, a simple algorithm was developed, which allows the analysis of this data without the need of correlation with existing databases, nor the creation of new databases. From this algorithm, a WEB tool was developed so that anyone can access the algorithm (even without the knowledge of computational techniques) and promote the analysis of their data. The Integrate Paired Tool (IPT) algorithm was written in R programming language and uses Data Mining and Text Mining techniques for analyzing clinical data, not restricting its analyzes only to these specific data. IPT promotes pairing of terms by analyzing the existing frequency between data pairs, from a user-supplied .csv file. In addition, the WEB tool was developed from the languages JavaScript, HTML5, CSS and PHP. The algorithm reads the .csv file and pass through it by pairing its terms two by two, regardless of whether the columns are different sizes or incomplete until all columns are paired. After all the groupings, a value is assigned to each grouped pair, adding all pairs with the same frequencies and generating another .csv file containing the existing interactions and their respective frequencies. After the relations and their appearance frequencies are formed, a graph of interactions (in R) is shown on the WEB tool screen, so the user can do their analyzes, in addition to the .csv file with all interactions and frequencies. This graph and this table can contain variable information, depending on the percentage that the user chooses in the IPT tool. This .csv file with interaction and frequency data can be used by the user in other network visualization tools, such as Gephi, for example. For the purposes of tool testing, a data from a neonatal was used. The IPT proved to work well and reached the objectives of the research, and as future goals, we will have the hosting of the tool in the page of the Program of Postgraduate in Bioformtics of UFRN, the analysis of other data and a possible integration of the pre-processing of the data within the IPT itself.
|
|
|
Teses |
|
1
|
-
ANDRÉ LUÍS FONSECA FAUSTINO
-
Bioinformática aplicada à oncologia: Estudos na prospecção de alvos terapêuticos, antígenos tumorais e na dinâmica de resistência a drogas.
-
Orientador : SANDRO JOSE DE SOUZA
-
MEMBROS DA BANCA :
-
SANDRO JOSE DE SOUZA
-
GUSTAVO ANTONIO DE SOUZA
-
LUCYMARA FASSARELLA AGNEZ LIMA
-
DIRCE MARIA CARRARO
-
VALDIR BALBINO
-
Data: 01/11/2018
-
-
Mostrar Resumo
-
A pesquisa contra o câncer abrange diversas facetas, incluindo desde a compreensão de que processos biológicos são ganhos e perdidos na doença, até como essas características podem afetar a taxa de sobrevida do paciente. Nesse contexto, a bioinformática tem sido aplicada para a prospecção de possíveis candidatos para terapia e diagnóstico. A presente tese contempla o conjunto de três capítulos voltados: i) a prospecção de alvos terapêuticos; ii) identificação de possíveis antígenos tumorais; iii) compreensão de mecanismos associados à resistência droga. No primeiro capítulo, é apresentado um catálogo de proteínas de superfície celular denominado como surfaceoma. O catálogo contempla 3.758 proteínas, as quais foram categorizadas quanto as alterações genéticas e a sua influência na redução sobrevivência em diversos tumores. Além disso, foi proposta uma assinatura de três (WNT5A, CNGA2 e IGSF9B) associados a mau prognóstico em câncer de mama. No seguinte capítulo, são apresentados dados derivados de um segundo artigo, no qual são explorados aspectos adicionais relacionados a antígenos tumorais, com ênfase de CTAs – cancer-testis antigens. Como resultado, foi desenvolvido um método para priorização de possíveis antígenos tumorais em escala genômica. Em seguida, foi discutido a eficácia de combinações entre CTAs no que consta o desenvolvimento de vacinas anticâncer. Finalmente, foram elencadas combinações significativas entre HEATR9, INSL3, GTSF1L e HSF5, que abrangem em média 35% dos pacientes. Por último, o terceiro capitulo discorre sobre um trabalho em desenvolvimento, o qual envolve uma classe de proteínas com função de regulação pós-transcricionais e a sua importância na resposta a drogas anticâncer. Em particular, os achados desse capítulo sugerem uma interessante discussão sobre a regulação mediada por RBPs (RNA-Binding proteins) e a resposta a drogas em pacientes com genótipo TP53 Wildtype e TP53 Mutated. Em conclusão, a presente tese contempla três aspectos fundamentais da pesquisa contra o câncer, sobretudo no desenvolvimento de novas estratégias de tratamento e diagnóstico.
-
Mostrar Abstract
-
Cancer research is a field with several branches, which covers the understanding of how the tumor heterogeneity can be used as a treatment opportunity or how those alterations led poor prognosis and drug resistance. In this context, the bioinformatics rises as a tool to investigate which features could be used as a therapeutical strategy. In this thesis, we presented three chapters that address distinct aspects in the cancer research, such as i) the prospection of therapeutic targets, ii) identification of possible tumor antigens; iii) understanding mechanisms associated with drug resistance. In the first chapter, shown a catalog of cell surface proteins, herein called the surfaceome. The cell surface proteins represent attractive targets for therapy due to the essential role in signaling pathways and often dysregulation in cancer. The surfaceome catalog includes 3758 proteins, which were categorized based on genetic alterations types and the influence in short-term survival in several tumors. Furthermore, we investigate gene signatures and their association with survival rate. As result, three genes (WNT5A, CNGA2, and IGSF9B) were proposed as a poor prognosis in breast cancer patients. The second chapter, it is focused on data derived from a previous article, published in 2017. Briefly, the original publication was associated with the identification of cancer-testis antigens (CTAs) and relation with prognosis in several tumor types. On the other hand, in this chapter, we present new putative tumor antigens from a genome-wide analysis. Next, we discussed strategies to prioritize cases and remove spurious results. In addition, we purpose CTAs combinations as a strategy to increase the effectiveness in anticancer vaccines development. As result, were found significant combinations among HEATR9, INSL3, GTSF1L, and HSF5, which cover in average 35% of patients. Finally, the third chapter discusses a work in progress, which involves proteins associated with post-transcriptional regulation and how those proteins affect anticancer drug response. In particular, our findings suggest an interesting discussion about RBPs (RNA-Binding proteins) expression and response to anticancer drugs. Also, were compared RBPs findings with other transcriptional-related genes, such as transcriptional factors and lincRNAs. In conclusion, this thesis considers three fundamental aspects of cancer research, especially in the development of our treatment and diagnosis strategies. Furthermore, two of these chapters are supported by international publications.
|
|