Portal de Programas de Pós-Graduação (UFRN)

SIGAA - Sistema Integrado de Gestão de Atividades Acadêmicas

PPGBIONF PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA DIRETORIA DE ENSINO - IMD Telefone/Ramal: (84) 99480-6818 E-mail: bioinfo@imd.ufrn.br https://posgraduacao.ufrn.br/PPGBIONF

Dissertações/Teses

Clique aqui para acessar os arquivos diretamente da Biblioteca Digital de Teses e Dissertações da UFRN

2025

	Dissertações
1	SABRINA KAROLAINE ARAÚJO SOUSA DE LIMA ESTUDO SOBRE A DINÂMICA EVOLUTIVA ENTRE AMOSTRAS PROVENIENTES DE INFECÇÕES EM HUMANOS E EM PRIMATAS NÃO HUMANOS DE Treponema pallidum subsp. pertenue Orientador : TETSU SAKAMOTO MEMBROS DA BANCA : FLÁVIA FIGUEIRA ABURJAILE JOAO PAULO MATOS SANTOS LIMA RENAN CIPRIANO MOIOLI TETSU SAKAMOTO Data: 11/03/2025 Mostrar Resumo O Treponema pallidum, uma bactéria do filo Spirochaetota, é responsável pelas treponematoses, doenças causadas por diferentes subespécies desta bactéria, cada qual associada a infecções específicas. Este estudo concentra-se no Treponema pallidum subsp. pertenue (TPE), que provoca a bouba em seres humanos, uma enfermidade transmitida principalmente pelo contato direto com lesões cutâneas, afetando majoritariamente crianças e pré-adolescentes. Se não tratada, pode evoluir para graves deformidades nos ossos e nas cartilagens. Durante o século XX, houve avanços notáveis na erradicação e controle dessa subespécie, contudo, nas últimas décadas, tem-se observado um aumento no número de casos registrados. Até pouco tempo, acreditava-se que essa subespécie afetava apenas humanos, mas estudos recentes identificaram que primatas não humanos (NHPs) também têm sido naturalmente infectados pelo TPE. Considerando o impacto crescente desta doença, tanto em humanos quanto em outras espécies, a TPE tornou-se um foco de vigilância e investigação científica. Esse estudo visa esclarecer a relação entre a infecção em humanos e em outras espécies de primatas, contribuindo para um melhor entendimento da dinâmica de transmissão e das possíveis estratégias de controle e prevenção. Para isso, utilizamos as sequências de genoma de 58 TPEs (24 de humanos e 19 de NHPs) disponíveis em repositórios públicos e aplicamos análises filogenéticas e de detecção de regiões recombinantes. As árvores inferidas demonstraram uma rápida expansão da subespécie na origem da árvore e a divisão das amostras em 9 grupos. Não houve grupos que apresentassem amostras de humano e de NHP, indicando que as interações entre os dois grupos de amostras são raros ou inexistentes. As análises de recombinação detectaram apenas uma região em que uma amostra de NHP pode ter recombinado com uma amostra humana. A aplicação do relógio molecular na inferência filogenética indicou uma origem recente de TPE em 1885. O estudo da evolução do traço ainda sugere que o hospedeiro do ancestral comum mais recente de TPE tenha sido os humanos. As análises realizadas neste estudo permitiram aprofundar o conhecimento sobre a propagação da doença e a sua interação entre diferentes espécies. Mostrar Abstract Treponema pallidum, a bacterium from the phylum Spirochaetota, is responsible for treponematoses, diseases caused by different subspecies of this bacterium, each associated with specific infections. This study focuses on Treponema pallidum subsp. pertenue (TPE), which causes yaws in humans, a disease primarily transmitted through direct contact with skin lesions, predominantly affecting children and pre-adolescents. If left untreated, it can lead to severe deformities in bones and cartilage. During the XX century, significant progress was made in the eradication and control of this subspecies; however, in recent decades, an increase in the number of reported cases has been observed. Until recently, it was believed that this subspecies only affected humans, but recent studies have identified that non-human primates (NHPs) have also been naturally infected by TPE. Given the growing impact of this disease on both humans and other species, TPE has become a critical focus for monitoring and scientific research. This study aims to clarify the relationship between infection in humans and other primate species, contributing to a better understanding of transmission dynamics and potential control and prevention strategies. To achieve this, we utilized genome sequences from 58 TPEs available in public repositories and the ADMIXTURE tool, which allowed us to examine the occurrence of genetic mixing between populations that infect humans and primates. These analyses are crucial for deepening our understanding of the disease’s spread and its interaction between different species.
2	TAÍLA MACIEL DE ALENCAR FIALHO THE PRIMARY VISUAL CORTEX AS A MODEL OF ALZHEIMER’S DISEASE: ACUTE EFFECTS OF AMYLOID-β 1-42 OLIGOMER ON NEURONAL SPIKING ACTIVITY AND ORIENTATION SELECTIVITY Orientador : KERSTIN ERIKA SCHMIDT MEMBROS DA BANCA : ADRIANO BRETANHA LOPES TORT GUSTAVO ROHENKOHL KERSTIN ERIKA SCHMIDT Data: 31/03/2025 Mostrar Resumo A Doença de Alzheimer (DA), responsável por 70% dos 55 milhões de casos de demência em todo o mundo, deve triplicar até 2050, de acordo com a Organização Mundial da Saúde, destacando a necessidade urgente de biomarcadores precoces para melhorar o diagnóstico e o tratamento. A DA é caracterizada por declínio cognitivo, alterações comportamentais e deficiências sensoriais, incluindo prejuízos na percepção visual e no processamento de informações. Estudos de neuroimagem revelam atrofia progressiva em regiões neocorticais críticas para a cognição e o processamento sensorial. De acordo com a hipótese amiloide, o peptídeo tóxico amiloide-beta (Aβ42) desempenha um papel central na patologia da DA, formando placas amiloides e contribuindo para a tauopatia, ambos marcadores da doença. O Aβ42 também está implicado na disfunção de células não neuronais, como alterações astrocitárias, exacerbando ainda mais os déficits neuronais. Embora modelos transgênicos de camundongos, como APP23 x PS45, tenham demonstrado que o Aβ42 perturba o equilíbrio excitação/inibição no córtex sensorial, levando ao silenciamento neuronal, hiperatividade e desintegração sensorial, esses modelos são limitados pela progressão não natural da doença e pela organização cortical distinta dos primatas. Em contraste, os gatos domésticos (Felis catus) apresentam um modelo translacional promissor para a pesquisa da DA devido à sua arquitetura cortical semelhante à dos primatas, circuitos seletivos bem caracterizados e à Síndrome de Disfunção Cognitiva Felina, que compartilha características neuropatológicas com a DA humana, incluindo placas amiloides e tauopatia em áreas neocorticais, como o córtex visual primário (V1). Este estudo investiga os efeitos agudos dos oligômeros de Aβ42 na atividade neuronal e na conectividade funcional no V1 de gatos anestesiados. Utilizando matrizes de microeletrodos 4x4 implantadas bilateralmente, registramos as respostas de 192 neurônios seletivos à orientação na área 17 antes e 50 minutos após a microinjeção de Aβ42. A estimulação visual consistiu em grades móveis em 16 direções a 2 Hz e 0,5 ciclos/grau. Nossos resultados revelam que o Aβ42 perturba rapidamente o processamento cortical sensorial, induzindo três alterações principais na função do V1: (1) uma redução significativa nas taxas de disparo evocadas (Wilcoxon, z = -4,2, p < 0,0001, n = 127) em comparação com controles veiculares (z = -0,762, p = 0,45, n = 65), (2) diminuição da seletividade à orientação (Aβ42, p = 0,0065; veículo, p = 0,02) e (3) comprometimento das respostas sincronizadas à frequência temporal do movimento do estímulo, levando a uma adaptação rápida. Essas alterações surgiram em 50 minutos, indicando disfunção neuronal direta em vez de processos degenerativos mais lentos. Ao estabelecer o V1 do gato doméstico como um modelo translacional valioso para a pesquisa inicial da DA, este estudo destaca suas vantagens sobre os modelos tradicionais de camundongos, incluindo organização columnar sofisticada e arquitetura cortical semelhante à dos primatas. Essas descobertas fornecem insights críticos sobre os efeitos agudos dos oligômeros de Aβ42 no processamento sensorial e abrem novas perspectivas para intervenções terapêuticas durante os estágios iniciais da DA, quando a disfunção dos circuitos ainda pode ser reversível. Mostrar Abstract Alzheimer’s Disease (AD) is the most prevalent form of dementia, accounting for approximately 70% of the 55 million global cases (WHO). This disease is characterized by a progressive decline in memory and cognitive functions, as well as behavioral changes and visual dysfunctions, such as deficits in perception and visual processing. Neuroimaging studies reveal atrophy in the hippocampus and neocortical regions. According to the amyloid cascade hypothesis, the beta-amyloid 1-42 oligomer (Aβ42) plays a central role in the pathology, promoting the formation of amyloid plaques and neurofibrillary tangles. These pathological changes may begin up to 20 years before the onset of the first clinical symptoms. Transgenic models suggest that an imbalance in the excitation/inhibition ratio causes episodes of neuronal silencing followed by hyperactivity, contributing to sensory disintegration and behavioral deficits. Unlike rodents, which do not naturally develop AD, domestic cats (Felis catus) possess selective circuits and columnar cortical maps homologous to those of primates. When aged, they can develop Cognitive Dysfunction Syndrome, a condition similar to human AD, characterized by amyloid plaques, neurofibrillary tangles, and neurodegeneration in various cortical areas, including the visual cortex. In this study, our primary goal is to introduce the primary visual cortex of domestic cats as a promising translational model for the study of AD. Next, we investigate the impact of acute exposure to Aβ42 oligomers on neuronal activity and functional connectivity in the primary visual cortex of cats. The experimental protocol involves the implantation of 4x4 microelectrode arrays (250 µm spacing) in bilateral homologs of areas 17 or 18 in anesthetized cats (n=5), with visual stimulation using moving gratings (2500 ms) in 16 directions at 2 Hz and 0.5 cycles/degree (area 17) or 0.15 cycles/degree (area 18). We analyze changes in fundamental neuronal computations, such as firing rate and orientation selectivity index. Additionally, we examine how the peptide modifies network dynamics through a short-term plasticity adaptation protocol. This study allows precise spatial and temporal control over the action of the Aβ42 oligomer, avoiding compensatory mechanisms typical of transgenic models, in a cortex homologous to that of humans. The results aim to contribute to the understanding of the early pathophysiological mechanisms of AD.
3	LARISSA MARTINS BRITO E SILVA Montagem e anotação de genomas mitocondriais amazônicos a partir de dados públicos disponíveis no NCBI Orientador : Jorge Estefano de Santana Souza MEMBROS DA BANCA : ANDRÉ LUÍS FONSECA FAUSTINO Jorge Estefano de Santana Souza RICARDO KOROIVA Data: 11/04/2025 Mostrar Resumo Os avanços tecnológicos nos últimos anos permitiram o desenvolvimento de tecnologias que facilitaram o sequenciamento e armazenamento de dados genômicos em bancos de dados públicos, como o NCBI. Entretanto, espécies do Sul Global, especificamente espécies amazônicas, são pouco representadas nos bancos de dados públicos. Dessa forma, para reduzir essa lacuna, este estudo tem o objetivo de montar e anotar 100 genomas mitocondriais de peixes amazônicos utilizando dados públicos disponíveis no NCBI, contribuindo com dados de 22 novas espécies que não estavam presentes no GenBank. A precisão das montagens foram validadas por meio de comparações de identidade de sequência com mitogenomas de referência, alcançando até 100% de identidade para a espécie Pygocentrus nattereri. Além disso, também encontrou-se possíveis erros de rotulagem de espécies presentes nos bancos de dados públicos. Ao expandir os dados genômicos de peixes amazônicos, este estudo ajuda a preencher lacunas significativas nos bancos de dados genômicos, contribuindo com novos estudos de conservação, gestão sustentável da pesca e biodiversidade de peixes amazônicos. Além de disponibilizar os resultados em bancos de dados públicos, os dados também serão depositados em um site dedicado a reunir dados genômicos de espécies amazônicas. Mostrar Abstract Technological advances in recent years have enabled the development of technologies that facilitate the sequencing and storage of genomic data in public databases, such as the NCBI. However, species from the Global South, specifically Amazonian species, are poorly represented in public databases. Therefore, in order to reduce this gap, this study aims to assemble and annotate 100 mitochondrial genomes of Amazonian fish using public data available at NCBI, contributing data from 22 new species that were not present in GenBank. The accuracy of the assemblies was validated through sequence identity comparisons with reference mitogenomes, reaching up to 100% identity for the species Pygocentrus nattereri. In addition, possible mislabeling of species present in public databases was also found. By expanding the genomic data of Amazonian fish, this study helps to fill significant gaps in genomic databases, contributing to new studies on conservation, sustainable fisheries management and the biodiversity of Amazonian fish. In addition to making the results available in public databases, the data will also be deposited on a website dedicated to gathering genomic data from Amazonian species.
	Teses
1	THIAGO FELIPE FONSECA NUNES DE OLIVEIRA Risco poligênico para esquizofrenia: Do Paleolítico à Idade do Bronze Orientador : SIDARTA TOLLENDAL GOMES RIBEIRO MEMBROS DA BANCA : MARCOS LEITE FRANCISCO PROSDOCIMI DE CASTRO SANTOS PATRICK CESAR ALVES TERREMATTE SIDARTA TOLLENDAL GOMES RIBEIRO VASILIKI LAGOU Data: 31/01/2025 Mostrar Resumo Este estudo tem como objetivo investigar a dinâmica evolutiva do risco poligênico para esquizofrenia ao longo da história humana, abrangendo períodos desde o Paleolítico (2.5 milhões a 12 mil anos atrás), passando pelo Mesolítico (12 mil a 8 mil anos atrás) , e Neolítico (12 mil a 6 mil anos atrás) , até o Pós-Neolítico (6 mil anos atrás até o início da História registrada). A análise incluiu o cálculo dos escores de risco poligênico para esquizofrenia em genótipos de seres humanos antigos, utilizando dados de estudos de associação genômica ampla. Foram examinadas as variações temporais e espaciais dos PRS, considerando diferentes continentes e períodos históricos. Através de um modelo de Random Forest, foram identificadas as variáveis temporais e espaciais mais influentes na variação dos PRS. Os resultados revelaram que as mudanças nas pressões seletivas e nas estruturas sociais influenciaram a prevalência dos alelos de risco para esquizofrenia, destacando a importância de contextos históricos e sociais na pesquisa psiquiátrica moderna. Além disso, o presente estudo enfatiza a necessidade de inclusão de populações não europeias em estudos genéticos para melhorar a precisão dos cálculos de PRS e a compreensão global das bases genéticas da esquizofrenia. Como conclusão, podemos dizer que nossa análise de genomas antigos, abrangendo do Paleolítico Superior Inicial ao período Pós-Neolítico, revelou flutuações significativas nos escores de risco poligênico para esquizofrenia. Mostrar Abstract Schizophrenia is a serious psychiatric disorder with a heritability of around 70% that strongly interferes with the way the individual perceives the world, invariably generating sociability difficulties with historically negative implications for the individual's fitness. Despite this, a high prevalence of around 1% is reported globally. Thanks to the performance of large GWAS studies and the development of polygenic scores, the polygenic inheritance of psychiatric disorders, especially schizophrenia, has become better understood and has gained clinical relevance in the prediction of phenotypes. At the same time that a decade of accumulation of ancient DNA sequencing data allows us to analyze larger cuts, the study of the evolutionary history of schizophrenia and other psychiatric disorders is possible. In this work we will calculate polygenic scores for schizophrenia from at least 700 complete ancient genomes sequenced dating between 1,500 and 45,000 years, in order to search for signs of selection the scores will be compared with a null model by genetic drift. The distribution patterns of scores and selection signs will be confronted with known periods of disruptive changes in human behavior, such as the paleolithic cognitive revolution, the beginning of religious behavior, the emergence of agriculture and written language. In accordance with the increasingly solid hypothesis of recent emergence for schizophrenia, the hypothesis of high prevalence of schizophrenia will be investigated until the middle of the second millennium BCE inspired by the work The Origin of Consciousness in the Breakdown of the Bicameral Mind by Julian Jaynes.
2	MATHEUS ANSELMO MEDEIROS INTEGRANDO DADOS GÊNICOS: DO DESENVOLVIMENTO DE UMA PLATAFORMA DE INTEGRAÇÃO DE POLIMORFISMOS DE NUCLEOTÍDEO ÚNICO (SNPS) PROVENIENTES DE PAINÉIS METABÓLICOS AO PAPEL DA CREATINA NA SAÚDE RENAL Orientador : JOAO PAULO MATOS SANTOS LIMA MEMBROS DA BANCA : BENTO JOAO DA GRACA AZEVEDO ABREU DIEGO GOMES TEIXEIRA GILDERLANIO SANTANA DE ARAÚJO GUSTAVO ANTONIO DE SOUZA JOAO PAULO MATOS SANTOS LIMA TETSU SAKAMOTO Data: 14/03/2025 Mostrar Resumo A integração de dados genômicos na nutrição personalizada tem avançado significativamente, proporcionando novas perspectivas sobre a influência de polimorfismos de nucleotídeo único (SNPs) em processos metabólicos e na resposta a intervenções nutricionais. Neste contexto, esta tese está estruturada em duas partes. Na primeira, desenvolveu-se uma plataforma bioinformática para a integração de SNPs relacionados a genes envolvidos em vias metabólicas em doenças, utilizando bases de dados como KEGG e GeneCards. A plataforma permite mapear SNPs com vias metabólicas, doenças e frequências alélicas globais, consolidando informações essenciais para a compreensão do impacto genético nas diversas doenças. Na segunda parte, investigou-se a relação entre a suplementação de creatina e a função renal, com base na análise de expressão gênica em bancos como GTEx e GEO. Foram analizados genes como SLC6A8, IGF1 e AKT1 em diferentes condições renais, incluindo nefrosclerose, rejeição de transplantes e carcinomas renais. Os resultados destacam a relevância da bioinformática na interpretação dos dados disponíveis em bancos biológicos, enfatizando a necessidade de ferramentas de integração e análise para que profissionais da saúde possam acessar essas informações e embasar decisões clínicas com maior precisão. Mostrar Abstract The integration of genomic data into personalized nutrition has advanced significantly, providing new insights into the influence of single nucleotide polymorphisms (SNPs) on metabolic processes and responses to nutritional interventions. In this context, this thesis is structured into two parts. In the first part, a bioinformatics platform was developed to integrate SNPs related to genes involved in metabolic pathways associated with diseases, utilizing databases such as KEGG and GeneCards. The platform enables the mapping of SNPs to metabolic pathways, diseases, and global allele frequencies, consolidating essential information for understanding the genetic impact on various diseases. In the second part, the relationship between creatine supplementation and renal function was investigated based on gene expression analysis using databases such as GTEx and GEO. Genes such as SLC6A8, IGF1, and AKT1 were analyzed under different renal conditions, including nephrosclerosis, transplant rejection, and renal carcinomas. The results highlight the relevance of bioinformatics in interpreting data available in biological databases, emphasizing the need for integration and analysis tools to enable healthcare professionals to access this information and support clinical decisions with greater precision.
3	RAUL MAIA FALCÃO Identificação de Biomarcadores e Assinaturas Moleculares em Leiomiossarcoma Uterino por Abordagem Multi-ômica Orientador : Jorge Estefano de Santana Souza MEMBROS DA BANCA : SÉRGIO DE SÁ LEITÃO PAIVA JÚNIOR BEATRIZ STRANSKY FERREIRA Jorge Estefano de Santana Souza MARIANA LIMA BORONI MARTINS VALDIR BALBINO Data: 14/03/2025 Mostrar Resumo O sarcoma uterino é um tumor maligno de evolução clínica agressiva e que representa em torno de 3-7% de todas as neoplasias uterinas malignas. O leiomiossarcoma uterino (uLMS), é o subtipo, de origem mesenquimal, mais comum de sarcoma uterino. O diagnóstico do uLMS ocorre ao acaso ao se realizar histerectomia para leiomiomas (LM) – tumores benignos – e confirmado por características histopatológicas como atipia celular, índice mitótico e necrose de células tumorais. Do ponto de vista molecular, desenvolver estudos eficazes para buscar biomarcadores de diagnóstico do uLMS é um desafio devido à heterogeneidade molecular do tumor e escassez de amostras. Neste estudo, realizamos um estudo abrangente de integração multiômica (genômica, transcriptômica e proteômica) utilizando tumores frescos afim de buscar características moleculares do uLMS. Os resultados apontaram dois alvos terapêuticos, IDH1_p.Arg132Cys e KRAS_p.Gly12Cys, em pacientes com metástase. Também foi observado que a deficiência de recombinação homóloga (HRD) é a assinatura genômica mais predominante. Além disso, 80% das amostras apresentaram uma assinatura de chromotripsis, reforçando o fenótipo de aneuploidia desses tumores. Ainda foi observado que uLMS são tumores com alto escore de proliferação e alta expressão do gene Ki67 (MIM:176741) e estão associados a uma pior prognóstico. Ademais, foi reportado uma alta frequência de eventos de fusão in-frame envolvendo o gene EEF1A1 (MIM:130590). A análise de integração multiômica identificou a amplificação do gene CTHRC1 (MIM:610635) com um impacto negativo no prognóstico da doença. Por fim, o gene PSMB9 (MIM:177045) se encontrou superexpresso e com valores heterogêneos de expressão gênica no grupo uLMS. Os grupos de quartis não mostraram diferença significativa entre os valores de expressão de PSMB9 altos e baixos no tempo de sobrevida de 3 e 5 anos. No entanto, a presença de linfócitos infiltrantes tumorais (TILs) CD8+ contribuiu para o reconhecimento de células tumorais e da resposta do sistema imune. Essa presença foi observada devida a diferenças significativas associadas à melhor sobrevida ao considerar a razãoCD8+/PSMB9 no tempo de sobrevida de 3 anos. Esses achados contribuem para um melhor entendimento da resposta imune bem como as interações celulares da matriz extracelular (ECM) sugerindo que pacientes com uLMS podem se beneficiar de uma medicina de precisão individualizada. Mostrar Abstract Uterine sarcoma is a malignant tumor with aggressive clinical progression, accounting for approximately 3–7% of all malignant uterine neoplasms. Uterine leiomyosarcoma (uLMS) is the most common mesenchymal subtype of uterine sarcoma. The diagnosis of uLMS is often incidental, occurring during hysterectomy for leiomyomas (LM) - benign tumors - and confirmed through histopathological features such as cellular atypia, mitotic index, and tumor cell necrosis. From a molecular perspective, developing effective studies to identify diagnostic biomarkers for uLMS is challenging due to the tumor's molecular heterogeneity and limited sample availability. In this study, we conducted a comprehensive multi-omics integration analysis (genomics, transcriptomics, and proteomics) using fresh tumors to uncover the molecular characteristics of uLMS. The results identified two actionable therapeutic targets, IDH1_p.Arg132Cys and KRAS_p.Gly12Cys, in metastatic patients. Homologous recombination deficiency (HRD) was observed as the most predominant genomic signature. Additionally, 80% of the samples exhibited a chromothripsis signature, reinforcing the aneuploid phenotype of these tumors. uLMS tumors were characterized by a high proliferation score and elevated expression of the Ki67 gene (MIM:176741), which were associated with worse prognosis. Furthermore,a high frequency of in-frame fusion events involving the EEF1A1 gene (MIM:130590) was reported. The multi-omics integration analysis identified amplification of the CTHRC1 gene (MIM:610635), which had a negative impact on disease prognosis. Lastly, the PSMB9 gene (MIM:177045) was found to be overexpressed with heterogeneous gene expression values in the uLMS group. Quartile groups showed no significant differences between high and low PSMB9 expression values in terms of 3- and 5-year survival times. However, the presence of tumor-infiltrating lymphocytes (TILs) CD8+ contributed to tumor cell recognition and immune system response. This presence was associated with significant differences linked to better survival outcomes when considering the CD8+/PSMB9 ratio in 3-year survival. These findings contribute to a better understanding of immune response mechanisms and extracellular matrix (ECM) interactions, suggesting that uLMS patients could benefit from individualized precision medicine.
4	KARLA CRISTINA TABOSA MACHADO Meta-Análise Computacional De Dados Proteômicos De Tecidos Humanos Para Identificação De Antígenos De Câncer-Testículo Orientador : GUSTAVO ANTONIO DE SOUZA MEMBROS DA BANCA : ANDERSON CHAVES CARNIEL ANDRÉ LUÍS FONSECA FAUSTINO GUSTAVO ANTONIO DE SOUZA JOAO PAULO MATOS SANTOS LIMA MARÍLIA MEDEIROS FERNANDES DE NEGREIROS Data: 07/04/2025 Mostrar Resumo A proteômica tem sido considerada uma tecnologia promissora, capaz de oferecer insights sobre o nível de proteína em vários modelos biológicos e clínicos. Ela pode fornecer uma descrição quantitativa do estado de um sistema biológico por meio do estudo de perfis de abundância de proteínas. Biomarcadores são componentes moleculares em amostras clínicas que podem auxiliar no diagnóstico ou prognóstico de doenças, incluindo o câncer. Técnicas ômicas de alto rendimento predizem biomarcadores comparando a expressão gênica entre amostras normais e cancerígenas para identificar alvos diferencialmente expressos. Antígenos de câncer/testículo (CTAs) surgem como potenciais biomarcadores por terem expressão limitada ao testículo em tecidos normais e apresentarem expressão aberrante em vários tipos de câncer. A identificação em larga escala dessas moléculas rotineiramente é realizada por transcriptômica, o que limita a caracterização do marcador uma vez que sua expressão a nível proteico em diferentes tecidos é desconhecida. Os avanços em espectrometria de massas possibilitaram a exploração da caracterização molecular de diferentes tipos celulares e a produção de uma grande quantidade de dados proteômicos. Quando combinados aos avanços computacionais, permitem a comparação de dados múltiplos e potencializam a posterior validação de dados transcriptômicos. Nesse estudo, realizamos uma meta-análise computacional para explorar a expressão diferencial de CTAs a nível proteico em tecidos saudáveis e tumorais. Os conjuntos de dados combinados apresentam os padrões de expressão de 17.200 proteínas únicas, incluindo 241 CTAs conhecidas descritas anteriormente no nível transcriptômico. Essas foram ainda classificadas como significativamente enriquecidas em tecidos tumorais (23 proteínas), exclusivas de tecidos tumorais (26 proteínas) ou abundantes em tecidos saudáveis (8 proteínas). Nosso estudo revelou potencial para permitir futuros avanços na caracterização do proteoma tumoral e a consequente identificação de candidatos a biomarcadores e/ou alvos terapêuticos. Mostrar Abstract Proteomics has been regarded as a promising technology, capable of providing insights into protein levels in various biological and clinical models. Proteomics has been considered a promising technology, capable of providing insights It can provide a quantitative description of the state of a biological system through the study of protein abundance profiles. Biomarkers are molecular markers found in clinical samples which may aid disease diagnosis or prognosis. High-throughput techniques allow prospecting for such signature molecules by comparing gene expression between normal and sick cells. Cancer-testis antigens (CTAs) are promising candidates for cancer biomarkers due to their limited expression to the testis in normal conditions versus their aberrant expression in various tumors. CTAs are routinely identified by transcriptomics, but a comprehensive characterization of their protein levels in different tissues is still necessary. Mass spectrometry-based proteomics allows the characterization of many cellular types and the production of large amounts of data while computational tools allow the comparison of multiple datasets, and together those may corroborate insights obtained at the transcriptomic level. Here a computational meta-analysis explores the CTAs protein abundance in the proteomic layer of healthy and tumor tissues. The combined datasets present the expression patterns of 17,200 unique proteins, including 241 known CTAs previously described at the transcriptomic level. Those were further ranked as significantly enriched in tumor tissues (23 proteins), exclusive to tumor tissues (26 proteins) or abundant in healthy tissues (8 proteins). Our study reveals the potential to enable future advancements for tumor proteome characterization and the subsequent identification of biomarker candidates and/or therapeutic targets.

2024

	Dissertações
1	DANIEL HENRIQUE FERREIRA GOMES USO E DESENVOLVIMENTO DE MÉTODOS COMPUTACIONAIS PARA SOLUCIONAR PROBLEMAS BIOLÓGICOS. Orientador : Jorge Estefano de Santana Souza MEMBROS DA BANCA : Jorge Estefano de Santana Souza BEATRIZ STRANSKY FERREIRA INACIO GOMES MEDEIROS Data: 28/03/2024 Mostrar Resumo A explosão de dados genômicos nas últimas décadas tem apresentado um desafio substancial, exigindo novas abordagens de estudo para análise e interpretação eficientes. Esta pesquisa surge nesse contexto, oferecendo uma análise abrangente em bioinformática, que explora diversas facetas da genômica e sua relevância para a saúde. O estudo engloba a análise de genomas mitocondriais de espécies amazônicas, a investigação das variantes genéticas e sua correlação com a sobrevida de pacientes com câncer gástrico em Natal-RN, e o desenvolvimento do aplicativo DTreePred, projetado para prever a patogenicidade dessas variantes. Adicionalmente, são discutidos os resultados da análise de pacientes com câncer gástrico em Belém-PA, empregando aprendizado de máquina para detecção da doença com base em variantes genéticas. Para validar os modelos de IA desenvolvidos com base na população paraense, foram utilizadas amostras públicas de pacientes coreanos com e sem câncer gástrico. Destaca-se que os modelos mais eficazes alcançaram uma acurácia superior a 90% na classificação de pacientes coreanos como normais ou portadores de câncer. Esta pesquisa evidencia, assim, a integração produtiva de técnicas bioinformáticas na pesquisa genômica e na compreensão de doenças complexas, representando avanços significativos no campo da saúde e da genômica. Mostrar Abstract The explosion of genomic data in recent decades has presented a substantial challenge, requiring new approaches for efficient analysis and interpretation. This research emerges in this context, offering comprehensive bioinformatics analysis, exploring various facets of genomics and its relevance to health. The study encompasses the analysis of mitochondrial genomes of Amazonian species, the investigation of genetic variants and their correlation with the survival of gastric cancer patients in Natal-RN, and the development of the DTreePred application, designed to predict the pathogenicity of these variants. Additionally, the results of the analysis of gastric cancer patients in Belém-PA are discussed, employing machine learning for disease detection based on genetic variants. To validate the AI models developed based on the Pará population, public samples of Korean patients with and without gastric cancer were used. It is noteworthy that the most effective models achieved an accuracy of over 90% in classifying Korean patients as normal or cancer patients. This research thus highlights the productive integration of bioinformatics techniques in genomic research and the understanding of complex diseases, representing significant advances in the fields of health and genomics.
2	LUCAS DE FREITAS LACERDA DESENVOLVIMENTO DE PIPELINE PARA ANÁLISE DE SNPs OTIMIZADOS PARA IDENTIFICAÇÃO DE ESPÉCIES E SEUS HÍBRIDOS: UM ESTUDO DE CASO EM Sapajus (Primates)” Orientador : TETSU SAKAMOTO MEMBROS DA BANCA : TETSU SAKAMOTO AMELY BRANQUINHO MARTINS PATRICIA DOMINGUES DE FREITAS THAIS GAUDENCIO DO REGO Data: 04/09/2024 Mostrar Resumo As pressões antrópicas sofridas pelos remanescentes de Mata Atlântica no litoral nordestino brasileiro se refletem em impactos no estado de conservação dos animais que compõem sua fauna, dentre estes os primatas neotropicais. Visando a conservação dos primatas ameaçados do Nordeste, o Centro Nacinal de Pesquisa e Conservação de Primatas Brasileiros, CPB/ICMBio, coordena o Plano de Ação Nacional para Conservação dos Primatas do Nordeste (PAN-PRINE). Uma das espécies alvo é o macaco-prego-galego (Sapajus flavius), categorizada como Em Perigo de extinção. Visando contribuir para a implementação de ações do PAN PRINE, o presente trabalho objetivou analisar a estrutura genética de amostras provenientes de vida livre e cativeiro de indivíduos do gênero Sapajus e propor um painel de marcadores genéticos para diferenciação de duas espécies parentais e híbridos utilizando técnicas de aprendizado de máquina. Foram realizadas duas análises de estrutura populacional, uma exploratória com várias espécies do gênero e amostras de cativeiro (n=228) e uma análise específica com amostras de cativeiro e populações naturais de S. flavius e S. libidinosus, incluindo híbridos naturais entre as espécies. Nossa análise exploratória retirou do dataset oito amostras de cativeiro que não possuíam um padrão de ancestralidade esperado para hibridação das espécies de interesse. Das amostras remanescentes, 30 foram classificadas como híbridas, 14 como S. libidinosus e 8 como S. flavius, baseado nos coeficientes de ancestralidade estabelecidos para identificar uma espécie (Q>90%). Essas amostras, juntamente com as de vida livre, foram particionadas em 20% para o dataset de validação e 80% para o dataset de treino e teste. Foram utilizados 6 algoritmos de aprendizado supervisionado para o treinamento de modelos preditivos: k Nearest Neighborhood (kNN), Decision Tree (DT), Naive Bayes (NVB), Support Vector Machine (SVM), X Gradient Boosting (XGB) e Random Forest (RF) e posterior seleção de features, que neste caso são SNPs, todos os modelos foram treinados usando partições do dado com K-fold (K=5). Foram selecionadas 15, 30 e 45 features pelo forward feature selection. Os modelos RF, SVM e NVB foram os mais consistentemente bem colocados no ranqueamento ao longo do aumento do número de features, baseado no score de acerto no dataset de validação, com a RF rendendo os melhores resultados para maiores números de SNPs. Quando ranqueamos os conjuntos de SNPs selecionados pelos modelos de acordo com o melhor agrupamento gerado por uma metodologia não supervisionada, obtivemos XGB e KNN como modelos mais bem colocados baseados no Rand Score. Nenhuma de nossas variantes com alto impacto para a identificação dos grupos se localizam em regiões codificantes do genoma, a maioria estava presente em regiões intergênicas (n=20) e em regiões intrônicas que podem pertencer a diferentes variações de splicing de genes (n_vars=24, n_genes=119). A partir do montante inicial de 2484 SNPs, conseguimos reduzir drasticamente a dimensionalidade do nosso dado enquanto mantivemos variantes altamente informativas para diferenciação dos grupos, além do mais, conseguimos identificar que a maioria dessas variantes não possuem impacto em zonas codificantes mas estão altamente associadas com a diferenciação das espécies. Esses resultados são importantes para desenvolver um produto que possa servir como ferramenta para Planos de Ação Nacionais para Conservação de espécies ameaçadas e decisões de manejo que levem em conta o perfil genético das populações e espécies estudadas para medidas mais assertivas na conservação. Mostrar Abstract The anthropogenic pressures experienced by the remnants of the Atlantic Forest on the northeastern coast of Brazil reflect in the conservation status of the animals that make up its fauna, including the Neotropical primates. Aiming to conserve the threatened primates of the Northeast, the National Center for Research and Conservation of Brazilian Primates, CPB/ICMBio, coordinates the National Action Plan for the Conservation of Northeast Primates (PAN-PRINE). One of the target species is the blonde capuchin monkey (Sapajus flavius), categorized as Endangered. In order to contribute to the implementation of the PAN-PRINE's actions, this study aimed to analyze the genetic structure of samples from both wild and captive individuals of the genus Sapajus and to propose a panel of genetic markers for differentiating two parental species and hybrids using machine learning techniques. Two population structure analyses were conducted: one exploratory analysis with various species of the genus and captive samples (n=228) and a specific analysis with captive samples and natural populations of S. flavius and S. libidinosus, including natural hybrids between these species. Our exploratory analysis removed eight captive samples from the dataset that did not exhibit the expected ancestry pattern for the hybridizing species of interest. From the remaining samples, 30 were classified as hybrids, 14 as S. libidinosus, and 8 as S. flavius based on the ancestry coefficients established to identify a species (Q>90%). These samples, and the wild ones, were partitioned into 20% for the validation dataset and 80% for the training and testing dataset. Six supervised learning algorithms were used to train predictive models: k- Nearest Neighbors (kNN), Decision Tree (DT), Naive Bayes (NVB), Support Vector Machine (SVM), X Gradient Boosting (XGB), and Random Forest (RF), followed by feature selection. All models were trained using data partitions with K-fold (K=5). Forward feature selection was used to select 15, 30, and 45 features. The RF, SVM, and NVB models consistently ranked highest as the number of features increased, based on the accuracy score in the validation dataset, with RF yielding the best results for the larger numbers of SNPs. When we ranked the SNP sets selected by the models, according to the best clustering generated by an unsupervised methodology, XGB and kNN emerged as the top models based on the Rand Score. None of our high-impact variants for group identification were located in coding regions of the genome; the majority were found in intergenic regions (n=20) and intronic regions that may belong to different gene splicing variants (n_vars=24, n_genes=119). From the initial set of 2484 SNPs, we drastically reduced the dimensionality of our data while maintaining highly informative variants for group differentiation. Moreover, we identified that most of these variants do not impact coding regions but are highly associated with species differentiation. These results are important for developing a product that can serve as a tool for conservation action plans for threatened species and management decisions considering the genetic profile of the populations and species studied for more effective conservation measures.
3	MATHEUS MIGUEL SOARES DE MEDEIROS LIMA Investigando a a taxonomia de Enterococcus casseliflavus e Especies Relacionadas Orientador : TETSU SAKAMOTO MEMBROS DA BANCA : TETSU SAKAMOTO LUCYMARA FASSARELLA AGNEZ LIMA FLÁVIA FIGUEIRA ABURJAILE JANIRA PRICHULA Data: 27/09/2024 Mostrar Resumo Enterococcus casseliflavus, uma bactéria comumente móvel e de coloração amarela, é um membro comensal do trato gastrointestinal. Ela é ocasionalmente encontrada em casos de bacteremia e outras infecções humanas. Uma preocupação é que todas as cepas dessa espécie possuem o grupo de genes vanC em seu cromossomo, que confere resistência à vancomicina. A classificação de E. casseliflavus é desafiadora, pois apresenta 99% de identidade na análise 16S com E. gallinarum e, principalmente, com E. flavescens, sendo frequentemente classificadas como uma única espécie. Esse estudo visou investigar a taxonomia de E. casseliflavus e outras espécies relacionadas realizando análises dos dados genômicos disponíveis em bancos de dados públicos. Para isso, 155 genomas de espécies relacionadas a E. casseliflavus (E. casseliflavus, E. flavescens, E. entomosocium e E. innesii) foram resgatados e submetidos a análise de Identidade Média de Nucleotídeos (ANI), análise de pangenoma e filogenomica. As abordagens mostraram três grupos bem definidos correspondentes a três espécies de Enterococcus (E. casseliflavus, E. flavescens e E. innesii). Com características de pangenoma aberto, o grupo mostrou grande conservação de genes centrais e alta diversidade de genoma acessório. Aqui sugerimos a remoção do estado de espécies sinônimas entre as espécies E. flavescens e E. casseliflavus e a adição do estado de espécies sinônimas entre E. entomosocium e E. casseliflavus. Mostrar Abstract Enterococcus casseliflavus, a commonly motile, yellow-colored bacterium, is a commensal member of the gastrointestinal tract. It is occasionally found in cases of bacteremia and other human infections. One concern is that all strains of this species have the vanC gene cluster on their chromosome, which confers resistance to vancomycin. The classification of E. casseliflavus is challenging, as it presents 99% identity in the 16S analysis with E. gallinarum and, mainly, with E. flavescens, being often classified as a single species. The goal of this study was to investigate the taxonomy of E. casseliflavus and other related species by analyzing genomic data available in public databases. For this purpose, 155 genomes of species related to E. casseliflavus (E. casseliflavus, E. flavescens, E. entomosocium and E. innesii) were rescued and subjected to Average Nucleotide Identity (ANI), pangenome and phylogenomic analysis. The approaches showed three well-defined groups corresponding to three species of Enterococcus (E. casseliflavus, E. flavescens and E. innesii). With characteristics of an open pangenome, the group showed great conservation of core genes and high accessory genome diversity. Here we suggest removing the synonymous species status between the species E. flavescens and E. casseliflavus and adding the synonymous species status between E. entomosocium and E. casseliflavus.
4	JOÃO VICTOR VILLAS BÔAS SPELTA PREDIÇÃO DE EFEITOS DE VARIANTES DE NUCLEOTÍDEO ÚNICO RELACIONADAS À DETERMINAÇÃO SEXUAL EM Carica papaya (caricaceae) Orientador : TETSU SAKAMOTO MEMBROS DA BANCA : WELISON ANDRADE PEREIRAUNIVERSIDADE FEDERAL DE LAVRAS JOAO PAULO MATOS SANTOS LIMA TETSU SAKAMOTO Data: 30/09/2024 Mostrar Resumo O mamão (Carica papaya) produz um dos frutos mais consumidos ao redor do mundo constituindo alta importância econômica, principalmente nas regiões tropicais. O comércio do mamão se utiliza majoritariamente de cultivares gino dioicos com uma proporção de 1:1 ou 2:1 de hermafroditas e fêmeas. Por motivações comerciais e também inerentes ao cultivo, é desejável a maior quantidade de hermafroditas possível. De forma geral, ainda não é possível produzir apenas sementes hermafroditas, portanto, o sexo da planta é identificado, normalmente, por métodos convencionais após a primeira floração do mamoeiro. Essa ocorre cerca de 4-6 meses depois do plantio da muda, sendo costumeiro o descarte das fêmeas no final. Visando evitar desperdícios de recursos e um rendimento maior da colheita, os produtores também podem recorrer a métodos moleculares por meio de marcadores sexuais. Entretanto, essa alternativa também possui suas limitações, entre elas, o custo elevado. Tendo em vista as adversidades citadas, muitos pesquisadores empenharam-se a estudar o processo de determinação sexual em C. papaya, mas os fatores atuantes diretamente nesse processo permanecem desconhecidos. A elucidação desse mecanismo além de ser de grande interesse agronômico, também se caracteriza como uma grande oportunidade para C. papaya se consolidar como modelo de estudo para pesquisas acerca de cromossomos sexuais de origem recente na história evolutiva. Portanto, neste trabalho, procurou-se usar uma estratégia em bioinformática para abordar o tema. Realizou-se um estudo de associação entre genótipos e fenótipos para encontrar possíveis fatores genéticos envolvidos na determinação sexual a partir de dados de resequenciamento de 36 indivíduos (24 mamoeiros machos e 12 hermafroditas) obtidos em bancos de dados públicos. O estudo de associação foi precedido por uma chamada de variantes realizada no BCFTOOLS, que encontrou 75.607 variantes, restando 37.027 após as filtragens. Foram então realizados estudos de associação utilizando o programa PLINK com as variantes já filtradas e dentre essas, 251 das mais significativas foram submetidas ao programa SnpEff para anotação das variantes, retornando 449 efeitos, entre eles, 402 com nível de impacto modificador, 22 com impacto leve e 25 de efeito moderado. Realizou-se também inferências e anotações dos genes a partir do software Augustus e alinhamentos do tipo BLASTP com as sequências dos genes que tiveram efeitos moderados preditos pelo SnpEff, assim como, montagens de novo do genoma de uma amostra macho e seu alinhamento com a região determinante do sexo hermafrodita. Seus resultados foram registrados e comparados com o que já foi realizado na literatura. Isso permitiu concluir que os resultados obtidos constituem um ponto de partida para estudos mais robustos na compreensão dos mecanismos moleculares da determinação sexual em C. papaya. Mostrar Abstract P apaya (Carica papaya) produces one of the most consumed fruits worldwide, holding great economic importance, especially in tropical regions. Papaya trade mainly involves gynodioecious cultivars with a ratio of 1:1 or 2:1 of hermaphrodites to females. For commercial reasons and also inherent to cultivation, it is preferable to have as many hermaphrodites as possible. In general, it is still not possible to produce only hermaphrodite seeds, so the sex of the plant is usually identified by conventional methods after the first flowering of the papaya plant. This occurs about 4-6 months after planting the seedling, with the females typically being discarded at the end. To avoid wasting resources and achieve higher harvest yields, producers may also resort to molecular methods using sex markers. However, this alternative also has its limitations, including high costs. Given these challenges, many researchers have focused on studying the process of sex determination in C. papaya, but the factors directly influencing this process remain unknown. The elucidation of this mechanism is not only of great agronomic interest, but also represents a significant opportunity for C. papaya to establish itself as a model organism for studying sexual chromosomes of recent evolutionary origin. Therefore, in this work, a bioinformatics strategy was used to address the topic. A genotype-phenotype association study was conducted to find possible genetic factors involved in sex determination using resequencing data from 36 individuals (24 male papaya plants and 12 hermaphrodites) obtained from public databases. The association study was preceded by a variant calling performed with BCFTOOLS, which found 75,607 variants, leaving 37,027 after filtering. Association studies were then carried out using the PLINK program with the filtered variants, and among these, 251 of the most statistically significant variants were applied to the SnpEff program for variant annotation, returning 449 effects, including 402 with a modifier level of impact, 22 with a low impact, and 25 with a moderate effect. Inferences and gene annotations were also performed using the Augustus software and BLASTP alignments with the gene sequences that had moderate effects predicted by SnpEff, as well as de novo genome assemblies of a male sample and its alignment with the hermaphrodite sex-determining region. These results were recorded and compared with previous studies in the literature. This allowed for the conclusion that the specific results obtained serve as a starting point for more robust studies to understand the molecular mechanisms of sex determination in C. papaya.
5	DANILO OLIVEIRA IMPARATO easylayout: pacote R integrado a IDE para dispor grafos usando simulacoes de forca Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN MEMBROS DA BANCA : DEISY MORSELLI GYSI CESAR RENNO COSTA GILDERLANIO SANTANA DE ARAÚJO RODRIGO JULIANI SIQUEIRA DALMOLIN Data: 11/10/2024 Mostrar Resumo A visualização de redes é uma etapa crítica para a comunicação eficaz em várias áreas do conhecimento, especialmente nas ciências da vida. Atualmente, uma lacuna separa a manipulação da visualização de redes em ambientes de programação. Usuários constantemente enfrentam a inconveniência de exportar dados de rede para serem manipulados em softwares externos, como Cytoscape e Gephi. Propomos o easylayout, um pacote que une amigavelmente manipulação e visualização ao integrar-se à IDE do usuário (por exemplo, RStudio, VSCode e Jupyter Notebook). Não se trata de uma nova biblioteca para visualização de grafos, mas sim uma tentativa de padronização e intercomunicação de bibliotecas existentes. O pacote easylayout recebe um objeto igraph e o serializa para dentro de uma aplicação web integrada com a interface do RStudio por meio de um servidor Shiny. Esta aplicação web oferece um ambiente para dispor a rede simulando forças de atração e repulsão. Um modo de edição permite que os usuários movam e rotacionem vértices. O desenvolvimento do pacote visa desempenho computacional, de modo que dispositivos de baixo custo sejam capazes de trabalhar com redes relativamente grandes. Para atingir esse objetivo, utilizamos bibliotecas performáticas, como VivaGraphJS e d3-force e renderização em WebGL. Uma vez ajustado, o layout é enviado de volta ao ambiente de programação, podendo ser visualizado com bibliotecas populares como ggplot2 e a própria biblioteca base. A implementação atual foca em refinar a experiência no ecossistema R, mas o uso de tecnologias web torna-o facilmente portável para ambientes similares, como Jupyter Notebooks. Esperamos que esta ferramenta reduza o tempo gasto visualizando redes e também permita que pesquisadores gerem figuras melhores. Está disponível gratuitamente sob licença MIT no GitHub (https://github.com/dalmolingroup/easylayout). O pacote é implementado em R/Shiny e JavaScript/Svelte. Mostrar Abstract Network visualization is a critical step for effective communication in various fields of knowledge, especially in life sciences. Currently, a gap separates network manipulation from network visualization in programming environments. Users constantly face the inconvenience of exporting network data to be laid out in external software, like Cytoscape and Gephi. We propose easylayout, a package that smoothly bridges manipulation and visualization by taking advantage of existing literate programming tools (e.g., RStudio for RMarkdown, Jupyter Notebooks). The easylayout package receives an igraph object and serializes it into a web application integrated with the RStudio interface through a Shiny server. This web application provides an environment to lay out the network by simulating attraction and repulsion forces. There is an editing mode that allows users to move and rotate vertices. The development of easylayout aims for computational performance, so that even low-end devices are able to work with networks with thousands of vertices and tens of thousands of edges. One way this is done is by curating high-performing graph drawing algorithms like VivaGraphJS (github.com/anvaka/VivaGraphJS) and Cosmos (github.com/cosmograph-org/cosmos). Once the user finishes tinkering the layout, it is sent back to the parent environment to be visualized through popular libraries like ggplot2 and matplotlib. Although the current implementation of easylayout focuses on refining the experience in the RStudio ecosystem, the use of web technologies make it easily portable to similar environments, like Jupyter Notebooks and VSCode. We expect this tool not only to significantly reduce the time spent laying out networks, but also to allow researches to generate more compelling figures.
6	JOÃO VITOR FERREIRA CAVALCANTE EURYALE: Fluxos de Trabalho e Reprodutibilidade em Metagenômica Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN MEMBROS DA BANCA : RODRIGO JULIANI SIQUEIRA DALMOLIN DANIEL CARLOS FERREIRA LANZA RENAN CIPRIANO MOIOLI MARCEL DA CÂMARA RIBEIRO DANTAS Data: 06/12/2024 Mostrar Resumo Os últimos anos têm testemunhado avanços significativos no estudo de comunidades microbianas complexas, impulsionados pela evolução das tecnologias de sequenciamento e pela crescente adoção de métodos de sequenciamento total do genoma (whole genome shotgun) em detrimento dos métodos, antes mais tradicionais, baseados em amplicon. Com essa evolução, essas abordagens foram desenvolvidas com estratégias computacionais associadas para lidar com os dados que geram. No entanto, esses métodos computacionais geralmente não foram acompanhados por estratégias de design cuidadosas que priorizam o suporte a longo prazo, com baixa necessidade de manutenção, alta acessibilidade de dados e automação de ponta a ponta. Neste trabalho, nosso objetivo é, primeiramente, elaborar sobre o cenário computacional em metagenômica e como os métodos atuais podem negligenciar princípios fundamentais de desenvolvimento de software, que os orientariam para uma maior reprodutibilidade, tais como isolamento de dependências, alta parametrização, geração automática de relatórios com figuras interativas que facilitam a exploração de dados e, por fim, documentação descritiva e prática. Em seguida, abordamos as limitações atuais no processamento de dados metagenômicos ao implementar um novo pipeline de análise de dados, o EURYALE, baseado em uma metodologia anterior, o MEDUSA, que selecionou suas ferramentas por meio de rigoroso benchmarking. Esse novo pipeline, adaptável a diferentes cenários e construído com boas práticas de desenvolvimento de software como princípios norteadores, visa avançar o processamento de dados metagenômicos como um todo e, adicionalmente, tornar os dados resultantes desses pipelines de análise acessíveis a um público mais amplo. Mostrar Abstract The past few years have seen significant advances in the study of complex microbial communities associated with the evolution of sequencing technologies and increasing adoption of whole genome shotgun sequencing methods over the once more traditional Amplicon-based methods. Through this evolution, these approaches have been built with associated computational strategies to tackle the data they generate. However, these computational methods have not been generally accompanied by thoughtful design strategies that prioritise long term support with low maintainability, high data accessibility and end-to-end automation. In this work, we aim to first elaborate on the computational landscape in metagenomics, and how its methods can disregard fundamental software development principles that guide them towards improved reproducibility, principles such as dependency isolation, high parameterization, automatic report generation, with interactive figures that facilitate data exploration and, finally, descriptive and practical documentation. Following this, we tackle current limitations in metagenomic data processing by implementing a new data analysis pipeline, EURYALE, based on a previous methodology, MEDUSA, that selected its tools through rigorous benchmarking. This new pipeline, adaptable to different scenarios and built with good software development practices as guiding principles, serves to advance metagenomic data processing as a whole, and, additionally, make the data resulting from these analysis pipelines accessible to a wider audience.
	Teses
1	LUKAS IOHAN DA CRUZ CARVALHO AVALIAÇÃO DE UM NOVO PROTOCOLO DE INDUÇÃO NEURONAL UTILIZANDO SINGLE-CELL RNA-SEQ E APRENDIZADO DE MÁQUINA Orientador : MARCOS ROMUALDO COSTA MEMBROS DA BANCA : CECÍLIA HEDIN-PEREIRA MARCOS ROMUALDO COSTA MYCHAEL VINÍCIUS DA COSTA LOURENÇO RODRIGO JULIANI SIQUEIRA DALMOLIN TARCISO ANDRE FERREIRA VELHO Data: 26/02/2024 Mostrar Resumo A identificação do tipo celular é uma etapa crítica na análise computacional de experimentos de scRNA-Seq, envolvendo a agrupação não supervisionada de células com base nos perfis de expressão gênica. Métodos tradicionais que dependem de marcadores gênicos canônicos apresentam limitações, como sensibilidade a variações e a ausência de genes característicos para certos tipos celulares. Para lidar com esses desafios, propomos uma abordagem inovadora que combina algoritmos de aprendizado de máquina com seleção de características. Nossa metodologia envolve a seleção de um conjunto de dados adequado para treinar um modelo, garantindo generalização para novos dados. Escolhemos um conjunto abrangente de dados que engloba o sistema nervoso central e periférico de camundongos em diferentes estágios de desenvolvimento. Em seguida, a seleção de características foi aplicada usando o algoritmo DUBStepR, considerando correlações gene-gene para identificar características ótimas para a classificação celular. O conjunto de dados resultante, composto por 28.795 células e 16.960 genes, foi usado para treinar e avaliar modelos utilizando os algoritmos de k Nearest Neighborhood (kNN), Decision Tree (DT), Naive Bayes (NB), Support Vector Machine (SVM) e Multilayer Perceptron (MLP). Todos os modelos demonstraram pontuações F1 superiores a 90%, exceto o NB. Testes em um conjunto de dados de scRNA-Seq de cérebro humano confirmaram a robustez dos algoritmos, com valores de área sob a curva (AUC) indicando uma classificação precisa das células. SVM e MLP foram selecionados para análises adicionais devido às taxas mais baixas de falsos positivos e falsos negativos. Comparativos com ferramentas existentes como scAnnotatR e ACTINN destacam a versatilidade de nossa abordagem, especialmente ao lidar com diversos tipos celulares. Em seguida, aplicamos os modelos SVM e MLP para classificar neurônios gerados in vitro a partir de neurônios humanos induzidos (hiNs) gerados por protocolos distintos, alcançando resultados consistentes na identificação de neurônios glutamatérgicos e GABAérgicos. Também tentamos classificar hiNs de acordo com células de diferentes regiões do cérebro, revelando desafios na classificação de neurônios GABAérgicos por região, possivelmente devido a um número limitado de características ótimas. Análise de expressão gênica e Análise de Enriquecimento de Conjunto de Genes (GSEA) contribuíram para identificar conjuntos de genes associados à maturação eletrofisiológica de hiNs glutamatérgicos gerados por um protocolo alternativo usando ASCL1 em comparação com outros protocolos. A análise da rede regulatória identificou fatores de transcrição mestres com maior atividade especificamente neste protocolo. Em conclusão, nossa abordagem integrada de seleção de características e algoritmos de aprendizado de máquina oferece uma maneira alternativa de identificar grupos celulares com base em perfis de expressão gênica, aprimorando o refinamento da análise de células individuais no contexto de expressão gênica diferencial, GSEA e redes regulatórias gênicas. Mostrar Abstract Cell type identification is a critical step in the computational analysis of scRNA-Seq experiments, involving the unsupervised grouping of cells based on gene expression profiles. Traditional methods relying on canonical gene markers exhibit limitations, such as sensitivity to variations and the absence of characteristic genes for certain cell types. To address these challenges, we propose a novel approach combining machine learning algorithms with feature selection. Our methodology involves selecting a dataset suitable for training a model to ensure generalization to new data. We chose a comprehensive dataset encompassing the central and peripheral nervous system from mice at different developmental stages. Subsequently, feature selection was applied using the DUBStepR algorithm, considering gene-gene correlations to identify optimal features for cell classification. The resulting dataset, composed of 28,795 cells and 16,960 genes, was used to train and evaluate models employing k Nearest Neighborhood (kNN), Decision Tree (DT), Naive Bayes (NB), Support Vector Machine (SVM) and Multilayer Perceptron (MLP) algorithms. All models demonstrated F1-scores exceeding 90%, except for NB. Testing on a human brain scRNA-Seq dataset confirmed the robustness of the algorithms, with area under curve (AUC) values indicating accurate cell classification. SVM and MLP were selected for further analysis due to lower false positive and false negative rates. Comparisons with existing tools such as scAnnotatR and ACTINN highlight the versatility of our approach, particularly when dealing with diverse cell types. Next, we applied the SVM and MLP models to classify neurons generated in vitro human-induced neurons (hiNs) generated using distinct protocols, achieving consistent results in identifying glutamatergic and GABAergic neurons. We also attempted to classify hiNs according to cells of different brain regions, revealing challenges in classifying GABAergic neurons by region, possibly due to a limited number of optimal features. Gene expression analysis and Gene Set Enrichment Analysis (GSEA) contributed to identify gene sets associated with the electrophysiological maturation of glutamatergic hiNs generated through an alternative protocol using ASCL1 compared to other protocols. Regulatory network analysis identified master transcription factors with higher activity specifically in this protocol. In conclusion, our integrated approach of feature selection and machine learning algorithms offers an alternative way of identifying cell groups based on gene expression profiles, enhancing the refinement of single-cell analysis in the context of differential gene expression, GSEA, and regulatory gene networks.
2	LUCAS FELIPE DA SILVA ABORDAGENS DE BIOINFORMÁTICA APLICADAS NA ANÁLISE DOS DADOS GERADOS POR ESTRESSE ABIÓTICO: MICROGRAVIDADE E POR PERÓXIDO DE HIDROGÊNIO EM PLANTAS DE CANA-DE-AÇÚCAR Orientador : KATIA CASTANHO SCORTECCI MEMBROS DA BANCA : KATIA CASTANHO SCORTECCI BEATRIZ STRANSKY FERREIRA ADRIANA FERREIRA UCHOA FATIMA CERQUEIRA ALVIM TERCILIO CALSA JUNIOR Data: 07/03/2024 Mostrar Resumo A cana-de-açúcar (Saccharum spp.) é uma monocotiledônea da família Poaceae, uma planta C4 com alta taxa fotossintética, adaptada a regiões de clima tropical e subtropical, sendo o Brasil o maior produtor mundial. As plantas estão sujeitas a diferentes fatores bióticos e abióticos que podem induzir a um estresse oxidativo. Este estresse está associado a um desequilíbrio na homeostase entre a produção e degradação das Espécies Reativas de Oxigênio (EROs). E estas condições podem afetar o seu desenvolvimento. O peróxido de hidrogênio (H2O2) e um produto deste estresse e atua como uma molécula sinalizadora em resposta a vários estímulos celulares nas plantas. Com isso, esta tese foi subdividida em dois capítulos. No primeiro capítulo, foram utilizadas ferramentas de bioinformática para compreender como a alteração no campo gravitacional pode desencadear respostas semelhantes ao estresse oxidativo em plantas de cana-de-açúcar, a partir de dados de sequenciamento de RNA mensageiro. No segundo capítulo, um estresse oxidativo foi induzido por meio da aplicação exógena de H2O2 (0 mM, 10 mM, 20 mM e 30 mM) durante 8 horas, a uma temperatura de 25-27 ºC, em plantas de cana-de-açúcar. E a partir dos dados de proteômica obtidos a partir das raízes e de folhas do material tratado foram realizadas análises de bioinformática. O objetivo deste trabalho foi identificar, nos dois capítulos, genes/proteínas com expressão diferencial nas raízes e folhas sob a condição de microgravidade, assim como em resposta a diferentes concentrações de H2O2. Para alcançar esse propósito, em ambas as abordagens, as espécies Sorghum bicolor, Zea mays e Oryza sativa subs. japonica foram utilizadas como referências. Os resultados da análise de bioinformática revelaram genes únicos e específicos em cada uma das nove bibliotecas de dados analisadas, destacando genes como C5WVD4 e C5YLK6, associados a síntese de isoleucina e NADPH, respectivamente, em resposta à microgravidade, e genes com expressão alterada em diferentes concentrações de H2O2, como C5XFH6 e B4G143, associadas ao fornecimento de NADPH e a fotossíntese na regulação positiva de EROs, respectivamente. E vias metabólicas enriquecidas em resposta à microgravidade e ao H2O2, incluindo o Selenocompound metabolism, Photosynthesis - antenna proteins e Pentose phosphate pathway. Através deste estudo multidisciplinar, que combinou histologia, bioquímica, análise de RNA-seq e proteômica, tem-se uma compreensão aprofundada dos efeitos da microgravidade e do H2O2 na cana-de-açúcar, destacando mudanças na organização estrutural dos tecidos, acúmulo de lignina, H2O2 e EROs. Portanto, o presente trabalho auxiliou na identificação dos genes/proteínas únicos e específicos que foram expressos em cada tecido e das vias metabólicas ativadas em folhas e raízes, esclarecendo as diversas respostas da planta de cana-de-açúcar sob a condição da alteração do padrão de gravidade com o voo do foguete de sondagem VSB-30 e a exposição a diferentes concentrações do H2O2. Revelando uma complexa rede de genes e vias metabólicas que atuam em resposta às condições de estresse oxidativo, desencadeando mecanismos de defesa e tolerância. Os dados obtidos avançam o entendimento de como as plantas respondem a cada uma das condições adversas analisadas, utilizando estratégias adaptativas específicas. Além disso, destacam a importância do H2O2 nas respostas adaptativas e de sobrevivência, bem como a versatilidade do fitormônio ácido abscísico (ABA) na sinalização entre raízes e folhas. Essas descobertas proporcionam insights importantes que poderão ser utilizadas no desenvolvimento de estratégias de melhoramento genético e práticas de cultivo otimizadas para o melhor desempenho da planta em condições variáveis de campo de produção. Mostrar Abstract Sugarcane (Saccharum spp.) is a monocotyledonous plant of the Poaceae family, a C4 plant adapted to tropical and subtropical environmental. And Brazil is the world's largest producer. Plants can be subject to various biotic and abiotic factors that may induce oxidative stress. This stress is associated with an imbalance in the homeostasis between the production and degradation of Reactive Oxygen Species (ROS), conditions that can affect their development. Hydrogen peroxide (H2O2) acts as a signaling molecule in response to various cellular stimuli in plants. Therefore, this thesis was divided into two chapters. In the first chapter, bioinformatics tools were used to understand how changes in the gravitational field can trigger responses like oxidative stress in sugarcane plants, based on messenger RNA sequencing data. In the second chapter, oxidative stress was induced by exogenous application of H2O2 (0 mM, 10 mM, 20 mM, and 30 mM) for 8 hours at a temperature of 25-27 °C in sugarcane plants. Bioinformatic analyses were then conducted on proteomic data obtained from the roots and leaves of the treated material. The aim of this work was to identify, in both chapters, genes/proteins with differential expression in roots and leaves under microgravity conditions, as well as in response to different concentrations of H2O2. To achieve this purpose, in both approaches, the species Sorghum bicolor, Zea mays, and Oryza sativa subs. japonica were used as references. Bioinformatics analysis results revealed unique and specific genes in each of the nine analyzed data libraries, highlighting genes such as C5WVD4 and C5YLK6, associated with isoleucine synthesis and NADPH, respectively, in response to microgravity, and genes with altered expression at different concentrations of H2O2, such as C5XFH6 and B4G143, associated with NADPH supply and photosynthesis in the positive regulation of ROS, respectively. Enriched metabolic pathways in response to microgravity and H2O2, including Selenocompound metabolism, Photosynthesis - antenna proteins, and Pentose phosphate pathway, were also identified. Through this multidisciplinary study, which combines histology, biochemistry, RNA-seq analysis, and proteomics, there is a comprehensive understanding of the effects of microgravity and H2O2 on sugarcane, highlighting changes in tissue structural organization, lignin accumulation, H2O2, and ROS. Therefore, this work assisted in identifying unique and specific genes/proteins expressed in each tissue and the activated metabolic pathways in leaves and roots, elucidating the diverse responses of sugarcane plants under altered gravity conditions with the VSB-30 sounding rocket flight and exposure to different concentrations of H2O2. It reveals a complex network of genes and metabolic pathways that act in response to oxidative stress conditions, triggering defence and tolerance mechanisms. The data obtained advance the understanding of how plants respond to each of the analyzed adverse conditions, employing specific adaptive strategies. Additionally, they emphasize the importance of H2O2 in adaptive and survival responses, as well as the versatility of the abscisic acid (ABA) phytohormone in signaling between roots and leaves. These findings provide valuable insights for the development of genetic improvement strategies and optimized cultivation practices for plant performance under variable conditions.
3	LEONARDO RENE DOS SANTOS CAMPOS Inferência em Larga Escala de Raízes Evolutivas de Genes Ortólogos com o Algoritmo Bridge Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN MEMBROS DA BANCA : CESAR RENNO COSTA EDUARDO BOUTH SEQUERRA RODRIGO JULIANI SIQUEIRA DALMOLIN SÁVIO TORRES DE FARIAS WILFREDO BLANCO FIGUEROLA Data: 08/03/2024 Mostrar Resumo As metodologias de reconstrução de cenários evolutivos são importantes ferramentas que auxiliam na investigação do funcionamento de sistemas biológicos sob a perspectiva de sua conservação ao longo da evolução e de suas origens. O conceito primário para a compreensão dessas técnicas está nas relações estabelecidas comparando os genomas de diferentes espécies para formar famílias de genes conhecidas como grupos de ortólogos. Ortólogos são genes de espécies distintas originários de um ancestral comum que, tipicamente, desempenham funções similares nos respectivos organismos. Observando-se a distribição dos ortólogos numa árvore de espécies é possível determinar em que ponto da evolução mais provavelmente emergiu a característica funcional representada por aquele grupo de ortólogos. Embora este processo seja trivial quando empregado a um único gene, sua aplicação em larga escala permanecia desafiadora. O algoritmo Bridge, implementado na linguagem R através do pacote GeneBridge, permite interrogar simultaneamente milhares de grupos de ortólogos, atribuindo uma raiz evolutiva a cada um, bem como reportando a consistência e a confiabilidade estatística das inferências realizadas. Este trabalho coloca-se como uma referência definitiva para o método de inferência de raízes evolutivas empregado pelo algoritmo bridge, detalhando sua lógica, implementação, acurácia e performance computacional. Mostrar Abstract Methods for reconstructing evolutionary scenarios are important tools that help to better understand biological systems under the perspective of its origins and evolution. The primary concept for understanding them lies in the relationships established by comparing genomes from different species to form gene families known as Orthologous Groups (OGs). Orthologs are genes from distinct species derived from their last common ancestor (LCA), tipically having similar functions in each organism. By observing the phyletic pattern of an OG in a species tree, it is possible to calculate the LCA where most probably the trait represented by the OG emerged. Although this process can be trivial when applied to a single gene, it remains chalenging for large-scale queries. The bridge algorithm, structured as a R software package, allows to interrogate several hundreds to thousands of OGs at once, assigining evolutionary roots to each OG. This thesis constitutes a comprehensive reference to the method of rooting orthologous genes employed by the bridge algorithm, presenting detailed logic, implementation, accuracy, and performance.
4	FÁBIO FONSECA DE OLIVEIRA Propostas de arquiteturas de hardware baseadas em FPGA para aceleração de algoritmos Smith-Waterman e K-Mers Orientador : MARCELO AUGUSTO COSTA FERNANDES MEMBROS DA BANCA : MARCELO AUGUSTO COSTA FERNANDES RENAN CIPRIANO MOIOLI DANIEL SABINO AMORIM DE ARAUJO CARLOS ALBERTO VALDERRAMA SAKUYAMA LUCILEIDE MEDEIROS DANTAS DA SILVA Data: 05/04/2024 Mostrar Resumo Neste trabalho, abordamos o desafio crescente de processar eficientemente o vasto e continuamente expansivo volume de dados em bases de dados biológicas. A necessidade de técnicas de análise de sequências rápidas e precisas é mais premente do que nunca, dada a importância de identificar semelhanças entre sequências biológicas para aplicações em genômica, taxonomia e além. Central para este esforço é a otimização de algoritmos de alinhamento de sequências, particularmente o Smith-Waterman (SW), um método de alto nível de precisão baseado em programação dinâmica, e o K-Mers, uma técnica para a contagem de subsequências que é fundamental na análise genômica. Propomos uma inovadora arquitetura de hardware paralelo para o algoritmo SW, incorporando uma estrutura de array sistólico que acelera significativamente as fases de avanço e retrocesso do alinhamento. Esta arquitetura pré-organiza o alinhamento na etapa de avanço, reduzindo a complexidade do subsequente retrocesso, que é iniciado a partir da posição de pontuação máxima. Validada em Field-Programmable Gate Array (FPGA), a arquitetura alcançou uma taxa de até 79,5 Giga Cell Updates por Segundo (GCPUS), demonstrando um avanço notável na eficiência de processamento. Adicionalmente, desenvolvemos um algoritmo baseado em K-Mers focado na extração exata de subsequências curtas, caracterizado por seu baixo consumo de memória, viabilidade de tempo de execução, alta capacidade de paralelização, e eficiência energética. Destinado primariamente para uso em FPGA, o algoritmo é também adaptável a outras plataformas de hardware. Estas contribuições não apenas estabelecem novos padrões em termos de velocidade e eficiência para o processamento de dados biológicos, mas também abrem caminho para avanços significativos em pesquisas genômicas e taxonômicas, entre outras áreas de bioinformática. Mostrar Abstract In this work, we address the growing challenge of efficiently processing the vast and continuously expanding volume of data in biological databases. The need for fast and accurate sequence analysis techniques is more pressing than ever, given the importance of identifying similarities between biological sequences for applications in genomics, taxonomy, and beyond. Central to this effort is optimizing sequence alignment algorithms, particularly the Smith-Waterman (SW), a high-precision method based on dynamic programming, and K-Mers, a technique for counting subsequences fundamental in genomic analysis. We propose an innovative parallel hardware architecture for the SW algorithm, incorporating a systolic array structure that significantly accelerates the forward and backward phases of alignment. This architecture pre-organizes the alignment in the forward stage, reducing the complexity of the subsequent backtracking initiated from the maximum score position. Validated on Field-Programmable Gate Array (FPGA), the architecture achieved a rate of up to 79.5 Giga Cell Updates per Second (GCPUS), demonstrating a notable advancement in processing efficiency. Additionally, we developed a K-Mers based algorithm focused on the exact extraction of short subsequences, characterized by its low memory consumption, feasibility of execution time, high parallelization capability, and energy efficiency. Primarily intended for use in FPGA, the algorithm is also adaptable to other hardware platforms. These contributions not only set new standards in speed and efficiency for the processing of biological data but also pave the way for significant advances in genomic and taxonomic research, among other areas of bioinformatics.
5	GABRIEL BEZERRA MOTTA CÂMARA Advanced Convolutional Neural Network Techniques for Classification of SARS-CoV-2 Variants and Other Viruses: A Study Using k-mers and Chaos Game Representation Orientador : MARCELO AUGUSTO COSTA FERNANDES MEMBROS DA BANCA : MARCELO AUGUSTO COSTA FERNANDES IVANOVITCH MEDEIROS DANTAS DA SILVA PATRICK CESAR ALVES TERREMATTE TÚLIO DE LIMA CAMPOS GUILHERME DE ALENCAR BARRETO Data: 05/09/2024 Mostrar Resumo Desde Dezembro de 2019, o impacto global da pandemia da COVID-19, causada pelo vírus SARS-CoV-2, tem sido profundo. A identificação precoce da classificação taxonómica e da origem genômica do vírus é fundamental para o planejamento estratégico, contenção e tratamento. As técnicas de aprendizagem profunda provaram ser bem-sucedidas na abordagem de vários desafios de classificação viral, incluindo diagnóstico, metagenômica, filogenética e análise genômica. Motivado por esses avanços, este estudo apresenta um classificador de genoma viral eficaz para SARS-CoV-2, utilizando uma estrutura de rede neural convolucional (CNN). Esta pesquisa empregou representações de imagens de sequências completas do genoma para treinar a CNN, aproveitando dois conjuntos de dados distintos: um baseado na representação de imagens k-mers e outro na representação do jogo do caos (CGR). O conjunto de dados k-mers foi usado para experimentos de classificação taxonômica do vírus SARS-CoV-2, enquanto o conjunto de dados CGR se concentrou na classificação de variantes preocupantes (VOC) do SARS-CoV-2. A CNN obteve desempenho notável na classificação taxonômica, com taxas de acurácia variando de 92% a 100% no conjunto de validação e entre 98,9% e 100% no conjunto de testes contendo amostras de SARS-CoV-2. Estes resultados demonstram a adaptabilidade do modelo para classificar outros vírus emergentes. Para a classificação das variantes do SARS-CoV-2 usando imagens CGR, a CNN apresentou precisão ainda maior, atingindo 99.9% no conjunto de validação e 99.8% no conjunto de testes. As descobertas sublinham a aplicabilidade de técnicas de aprendizagem profunda em tarefas de classificação de genomas, fornecendo uma ferramenta robusta para a detecção precoce e classificação de ameaças virais. A integração de CNNs com representações de imagens k-mers e CGR apresenta um método novo e eficaz para análise do genoma viral, apoiando esforços contínuos em virologia e saúde pública. Mostrar Abstract Since December 2019, the global impact of the COVID-19 pandemic, caused by the SARS-CoV-2 virus, has been profound. Early identification of the virus’s taxonomic classification and genomic origin is critical for strategic planning, containment, and treatment. Deep learning techniques have proven successful in addressing various viral classification challenges, including diagnosis, metagenomics, phylogenetics, and genomic analysis. Motivated by these advances, this study introduces an effective viral genome classifier for SARS-CoV-2, utilizing a convolutional neural network (CNN) framework. This research employed image representations of complete genome sequences to train the CNN, leveraging two distinct datasets: one based on k-mer image representation and the other on Chaos Game Representation (CGR). The k-mer dataset was used for taxonomic classification experiments of the SARS-CoV-2 virus, while the CGR dataset focused on classifying variants of concern (VOC) of SARS-CoV-2. The CNN achieved remarkable performance in taxonomic classification, with accuracy rates ranging from 92% to 100% on the validation set and between 98.9% and 100% on the test set containing SARS-CoV-2 samples. These results demonstrate the model’s adaptability for classifying other emerging viruses. For the classification of SARS-CoV-2 variants using CGR images, the CNN delivered even higher accuracy, reaching 99.9% on the validation set and 99.8% on the test set. The findings underscore the applicability of deep learning techniques in genome classification tasks, providing a robust tool for the early detection and classification of viral threats. The integration of CNNs with k-mer and CGR image representations presents a novel and effective method for viral genome analysis, supporting ongoing efforts in virology and public health.

2023

	Dissertações
1	DOUGLAS FELIPE DE LIMA SILVA Análise genômica de microrganismos degradadores de hidrocarbonetos do petróleo e seu potencial de atuação em hidrocarbonetos prioritários Orientador : LUCYMARA FASSARELLA AGNEZ LIMA MEMBROS DA BANCA : LUCYMARA FASSARELLA AGNEZ LIMA RODRIGO JULIANI SIQUEIRA DALMOLIN ANA TEREZA RIBEIRO DE VASCONCELOS Data: 28/02/2023 Mostrar Resumo A contaminação de solos e ecossistemas marinhos por hidrocarbonetos que compõem o petróleo, provenientes de vazamentos de grande e pequena escala em toda sua cadeia produtiva, traz grave consequências o meio ambiente. Dentre as estratégias existentes para atenuar os impactos ambientais nas áreas acometidas, a biorremediação por bioaumentação ao utilizar organismos capazes de degradar petróleo se mostra uma alternativa com melhor custo-benefício e que promove maior remoção de compostos quando comparada a métodos físico-químicos. São listados por agências reguladoras ambientais nacionais e internacionais 179 compostos com prioridade para biorremediação devido ao seu potencial toxico e/ou mutagênico. A partir de trabalhos anteriores, os integrantes do grupo de pesquisa do Laboratório de Biologia Molecular e Genômica vem obtendo isolados bacterianos a partir de amostras de ambientes contaminados por petróleo, mantendo um estoque desses isolados que formam um banco de microrganismos preservado pelo laboratório. Os genomas de isolados com perfil promissor para atuar em biorremediação estão sendo sequenciados, visando a identificação taxonômica e de seu e perfil metabólico. Sendo assim, até agora, através do sequenciamento do genoma completo de 22 isolados bacterianos obtidos anteriormente pelo grupo e sequenciamento do gene 16S de 18 isolados obtidos a partir de amostras de petróleo coletadas em praias do Rio Grande do Norte no desenvolvimento deste trabalho, resultaram na identificação de 10 gêneros de bactérias capazes de crescer utilizando petróleo como fonte de carbono. A partir da análise dos dados gerados, por meio da linguagem de programação R, foi possível realizar a comparação com os respectivos genomas de referência, determinando suas relações e particularidades. Foram identificados dentre todos os isolados com genoma completo sequenciado 53 genes que codificam enzimas, presentes em 20 vias de degradação e metabolismo de xenobióticos do KEGG, que participam do processo de degradação de 37 hidrocarbonetos relatados como prioritários, bem como o grau de semelhança do perfil de degradação entre isolados. Através da análise dos resultados in sílico foi proposta a formulação de um consórcio de 4 isolados com potencial de atuar na biorremediação de 34 dos 37 compostos. Mostrar Abstract Contamination of soils and marine ecosystems by hydrocarbons that constitute petroleum from large and small oil spills throughout its supply chain brings serious consequences to the environment. Among the existing strategies to mitigate environmental impacts in affected areas, bioremediation by bioaugmentation using organisms capable of degrading oil is an alternative that offers a better cost-benefit ratio and promotes greater removal of compounds when compared to physical-chemical methods. National and international environmental regulatory agencies list 179 compounds as priority for bioremediation due to their toxic and/or mutagenic potential. From previous works, the members of the research group of the Laboratory of Molecular Biology and Genomics have been obtaining bacterial isolates from samples of environments contaminated by oil, maintaining a stock of these isolates that compose a bank of microorganisms preserved by the laboratory. The genomes of isolates with promising profile to act in bioremediation are being sequenced, in an attempt to identify their taxonomic and metabolic profile. So far, through the sequencing of the complete genome of 22 bacterial isolates previously obtained by the group and sequencing of the 16S gene of 18 isolates obtained from oil samples collected on beaches on Rio Grande do Norte in the development of this work, resulted in the identification of 10 genera of bacteria able to grow using oil as a carbon source. The analysis of the generated data, using the R programming language, allowed the comparison with their respective reference genomes, determining their relationships and particularities. It was identified among all isolates with complete genome sequenced 53 genes that encode enzymes, present in 20 pathways of degradation and metabolism of xenobiotics from KEGG, which participate in the degradation process of 37 hydrocarbons reported as priority, as well as the similarities of the degradation profile of the isolates. Through in silico analysis, a consortium of 4 isolates was proposed with potential to act in bioremediation of 34 of the 37 compounds.
2	LEONARDO CABRAL AFONSO FERREIRA Estrutura e diversidade do locus rfb em bactérias do gênero Leptospira e sua associação com a classificação sorológica Orientador : TETSU SAKAMOTO MEMBROS DA BANCA : GUSTAVO ANTONIO DE SOUZA Maria Raquel Venturim Cosate TETSU SAKAMOTO Data: 24/03/2023 Mostrar Resumo A Leptospirose é considerada uma zoonose de importância mundial devido à sua vasta distribuição e virulência, afetando tanto humanos quanto animais de interesse comercial. Causada por bactérias patogênicas do gênero Leptospira e filo Spirochaetes, a contaminação por ela se dá através do contatodireto ou indireto com o agente contaminante presente no ambiente, como urina de animais infectados ou água e solos contaminados. O gênero possui 68 espécies que podem ser agrupadas em dois grandes grupos segundo o seu estilo de vida em patogênicas e saprófitas. Além da classificação taxonômica, amostras destes gêneros podem ser classificadas com base nas suas características antigênicas em sorogrupos e sorovares. A classificação sorológica possui uma grande relevância na área de epidemiologia e análises clínicas, porém, os métodos utilizados para realizar esta classificação são laboriosos, necessitam de infraestrutura e mão de obra especializada, e requerem dias para a obtenção de resultados. Neste estudo visamos encontrar padrões genéticos associados à classificação sorológica de bactérias do gênero Leptospira analisando a composição genética do locus rfb e propor métodos que permitam a classificação das amostras de Leptospira ao nível de sorogrupo. Para isso utilizamos dados genômicos de 68 espécies classificadas em 27 sorogrupos que estão distribuídas em 722 amostras disponíveis no banco de dados públicos. Identificamos os genes que fazem parte do locus rfb através dos grupos de ortólogos nas amostras que continham o locus rfb íntegro em um único contig. Utilizamos um método de agrupamento hierárquico para agrupar amostras que possuíssem perfis semelhantes na composição gênica do locus rfb. Nesta análise foi possível contemplar o panorama da diversidade do perfil da composição genética do locus rfb no gênero Leptospira e observar correspondência entre a classificação em sorogrupos e os grupos formados pelo agrupamento hierárquico. O agrupamento gerado sugere a classificação das amostras em seis grandes classes que, além de apresentarem afinidade sorológica, compartilham semelhanças quanto a composição gênica do locus rfb. Foi observado que amostras de mesmo sorogrupo compartilham semelhanças na composição gênica do locus rfb. Além disso, foi possível verificar a existência de diferentes blocos de genes que podem estar conservados em amostras pertencentes a diferentes espécies e sorogrupos. Presume-se que as diferentes combinações desses blocos gênicos resultem na síntese de diferentes estruturas do antígeno-O do lipopolissacarídeo e consequentemente em diferentes sorogrupos. O presente trabalho permite sugerir marcadores moleculares que permitam o uso de estratégias moleculares para a identificação sorológica de Leptospira. Mostrar Abstract Leptospirosis is considered a globally important zoonosis due to its widespread distribution and virulence, affecting both humans and commercially important animals. It is caused by pathogenic bacteria of the genus Leptospira and phylum Spirochaetes, and contamination occurs through direct or indirect contact with the contaminant agent present in the environment, such as urine from infected animals or contaminated water and soil. The genus has 68 species that can be grouped into two major groups according to their lifestyle: pathogenic and saprophytic. In addition to taxonomic classification, samples of these genera can be classified based on their antigenic characteristics into serogroups and serovars. Serological classification is of great relevance in the fields of epidemiology and clinical analysis, but the methods used for this classification are laborious, require infrastructure and specialized labor, and take days to obtain results. In this study, we aimed to find genetic patterns associated with the serological classification of Leptospira bacteria by analyzing the genetic composition of the rfb locus and proposing methods that allow for the classification of Leptospira samples at the serogroup level. To do this, we used genomic data from 68 species classified into 27 serogroups, which are distributed in 722 samples available in public databases. We identified the genes that are part of the rfb locus through orthologous groups in samples that contained the intact rfb locus in a single contig. We used a hierarchical clustering method to group samples with similar genetic profiles of the rfb locus. This analysis made it possible to contemplate the diversity of the genetic composition profile of the rfb locus in the genus Leptospira and to observe correspondence between serogroup classification and the groups formed by hierarchical clustering. The generated clustering suggests the classification of samples into six large classes that, in addition to presenting serological affinity, share similarities in the genetic composition of the rfb locus. It was observed that samples of the same serogroup share similarities in the genetic composition of the rfb locus. Additionally, it was possible to verify the existence of different gene blocks that may be conserved in samples belonging to different species and serogroups. It is presumed that different combinations of these gene blocks result in the synthesis of different O-antigen structures of lipopolysaccharides and consequently different serogroups. This study allows for the suggestion of molecular markers that allow for the use of molecular strategies for the serological identification of Leptospira.
3	EPITÁCIO DANTAS DE FARIAS FILHO Assinatura Transcricional De Carcinoma Renal De Células Claras Baseada No RNA Endógeno Competidor Orientador : BEATRIZ STRANSKY FERREIRA MEMBROS DA BANCA : ALEXANDRE ROSSI PASCHOAL BEATRIZ STRANSKY FERREIRA PATRICK CESAR ALVES TERREMATTE RODRIGO JULIANI SIQUEIRA DALMOLIN Data: 15/08/2023 Mostrar Resumo O carcinoma renal, por ser uma patologia de desenvolvimento silencioso e multifatorial, é caracterizada por apresentar uma alta taxa de pacientes com metástases. Após diversos estudos elucidarem a atividade dos genes codificantes no desenvolvimento metastático do carcinoma renal, novos estudos buscam avaliar a associação de genes não codificantes, como RNA endógeno competidor (ceRNA), ao processo metastático. Desta forma, o objetivo deste estudo é construir uma assinatura transcricional para o carcinoma renal de células claras (ccRCC), associada ao desenvolvimento metastático a partir de uma rede de ceRNA e analisar as prováveis funções biológicas desempenhada pelos participantes da assinatura. Utilizando os dados de ccRCC do The Cancer Genome Atlas (TCGA), construímos nove assinaturas transcricionais a partir de oito técnicas de seleção de características e analisamos a sensibilidade e especificidade da classificação dos modelos de regressão no processo de benchmarking. Consequentemente, foram obtidos os genes da assinatura e foram realizadas análises de alterações somáticas e de número de cópias, análise de risco para sobrevida e progressão metastática, e análises de anotação funcional. Neste estudo apresentamos uma assinatura transcricional de 10 genes, composta por 2 RNAs longos não codificantes, SNHG15 e AF117829.1, 2 miRNAs, hsa-miR-130a-3p e hsa-mir-381-3p, e 7 mRNAs, BTBD11, INSR, HECW2, RFLNB, PTTG1, HMMR, RASD1. A validação utilizando o conjunto de dados externos do International Cancer Genome Consortium (ICGC) possibilitou avaliar a generalização da assinatura, que apresentou uma acurácia de 72% e área abaixo da curva de 81.5%. As análises genômicas identificaram que os participantes da assinatura se localizam em cromossomos com regiões altamente mutadas (G-index > 2). Os genes hsa-miR-130a-3p, AF117829.1 e HECW2 tiveram uma relação significativa entre a expressão e a sobrevida dos pacientes, e os dois últimos possuem relação significativa com o desenvolvimento metastático. Além disso, foi analisada a anotação funcional em vias importantes para o desenvolvimento tumoral, como: PI3K/AKT, TNF, FoxO, regulação da transcrição da RNA polimerase 2, controle celular e entre outras. Por fim, ao analisar as conexões dos genes da assinatura dentro da rede ceRNA em conjunto com estudos da literatura, foi possível obter um panorama das atividades desempenhadas por eles dentro do ccRCC. Sendo assim, esta assinatura transcricional pode identificar genes não codificantes como potenciais biomarcadores a serem utilizados para uma melhor compreensão do carcinoma renal, bem como no desenvolvimento de futuros tratamentos na área clínica. Mostrar Abstract Renal carcinoma, as it is a pathology of silent and multifactorial development, is characterized by a high rate of patients with metastases. After several studies have elucidated the activity of coding genes in the metastatic development of renal carcinoma, new studies seek to evaluate the association of non-coding genes, such as competitive endogenous RNA (ceRNA), with the metastatic process. Thus, the aim of this study is to build a transcriptional signature for clear cell renal cell carcinoma (ccRCC) associated with metastatic development from a ceRNA network and to analyze the probable biological functions performed by the participants of the signature. Using ccRCC data from The Cancer Genome Atlas (TCGA), we constructed nine transcriptional signatures from eight feature selection techniques and analyzed the sensitivity and specificity of prediction of regression models in the benchmarking process. Consequently, signature genes were obtained and analyzes of somatic and copy number changes, risk analysis for survival and metastatic progression, and functional enrichment analyzes were performed. In this study we present a transcriptional signature of 10 genes, composed of 2 long non-coding RNAs, SNHG15 and AF117829.1, 2 miRNAs, hsa-miR-130a-3p and hsa-mir-381-3p, and 7 mRNAs, BTBD11, INSR, HECW2, RFLNB, PTTG1, HMMR, and RASD1. Validation using the external dataset of the International Cancer Genome Consortium (ICGC) made it possible to assess the generalization of the signature, which showed an accuracy of 72% and an area under the curve of 81.5%. Genomic analyzes identified that the signature participants are located on chromosomes with highly mutated regions (G-index > 2). The hsa-miR-130a-3p genes, AF117829.1 and HECW2, had a significant relationship between expression and patient survival, and the last two have a significant relationship with metastatic development. In addition, functional enrichment was seen in important pathways for tumor development, such as: PI3K/AKT, TNF, FoxO, RNA polymerase 2 transcription regulation, cell control, and others. Finally, by analyzing the connections of the signature genes within the ceRNA network in conjunction with studies in the literature, it was possible to obtain an overview of the activities performed by them within the ccRCC. Therefore, this transcriptional signature can identify non-coding genes as potential biomarkers to be used for a better understanding of renal carcinoma, as well as in the development of future treatments in the clinical area.
4	GUSTAVO LOVATTO MICHAELSEN Construção e Validação de um Modelo Prognóstico Integrando Dados de Expressão Gênica e Metilação de DNA em Meduloblastoma Orientador : MARIALVA SINIGAGLIA MEMBROS DA BANCA : MARIALVA SINIGAGLIA BEATRIZ STRANSKY FERREIRA CAROLINA NOR Data: 14/09/2023 Mostrar Resumo O meduloblastoma (MB) é um dos tumores cerebrais pediátricos mais frequentes e estima-se que um terço dos pacientes irão a óbito devido à doença. Visto que a falta de biomarcadores prognósticos precisos é um grande desafio para a melhora clínica desses pacientes, uma vez que parâmetros prognósticos convencionais da doença apresentam correlações limitadas e pouco confiáveis com seu desfecho, o nosso objetivo foi construir uma assinatura gênica e avaliar seu potencial como um novo modelo prognóstico para pacientes com MB. A desregulação da metilação como a hipermetilação de genes supressores tumorais e a hipometilação de oncogenes são cruciais para o processo de tumorigênese e para a manutenção tumoral, inclusive em MB. Neste estudo nós utilizamos seis conjuntos de dados totalizando 1679 amostras, incluindo dados de expressão gênica e metilação de DNA de MB primário, bem como amostras controle de cerebelo saudável. Nós identificamos genes regulados via metilação (MDGs) em MB, genes cuja expressão está correlacionada com sua metilação e que também se encontram diferencialmente metilados em relação ao tecido saudável. Utilizamos a regressão LASSO, um método estatístico de machine learning supervisionado, aos MDGs tendo como resultado final uma assinatura de dois genes (AG-2) candidatos a biomarcadores prognósticos para o MB (CEMIP e NCBP3). Através de um modelo de escore de risco, confirmamos o impacto na sobrevida global (OS) da AG-2 com a análise de Kaplan-Meier (log-rank p < 0,01). Avaliamos sua robustez e acurácia por meio da área sob a curva ROC prevendo a OS em 1, 3 e 5 anos em múltiplos conjuntos de dados (conjunto de treino: 77,2%, 73,2% e 71,2%, média em três conjuntos de validação: 83,6%, 77,6%, 75,4% em 1, 3 e 5 anos respectivamente). Avaliamos a AG-2 como um biomarcador prognóstico independente com a regressão de Cox multivariada a qual apresentou p-valor < 0,01 em todos os quatro conjuntos de dados avaliados. O modelo de escore de risco da AG-2 regulado via metilação pode efetivamente classificar pacientes com MB em alto e baixo risco, reforçando a importância dessa modificação epigenética nessa doença. Tais genes destacam-se como biomarcadores prognósticos promissores com potencial aplicação no tratamentos de MB. Mostrar Abstract Medulloblastoma (MB) is one of the most common pediatric brain tumors and it is estimated that one-third of patients will die from the disease. The lack of accurateprognostic biomarkers is a major challenge for the clinical improvement of thosepatients, with conventional prognostic parameters having limited and unreliable correlations with the disease outcome. Acknowledging this issue, our aim was to build a gene signature and evaluate its potential as a new prognostic model for patients with the disease. Hypermethylation of tumor suppressor genes and hypomethylation of oncogenes are methylation dysregulations crucial for cancer tumorigenesis and tumor maintenance, and it is no exception for MB. In this study, we used six datasets totaling 1679 MB samples, including RNA gene expression and DNA methylation data from primary MB as well as control samples from healthy cerebellum. We identified methylation-driven genes (MDGs) in MB, genes whose expression is correlated with their methylation and which are also differentially methylated in relation to healthy tissue. After, LASSO regression, a supervised machine learning statistical method, was used with the MDGs as a parameter resulting in a two-gene signature (GS-2) of candidate prognostic biomarkers for MB (CEMIP and NCBP3). Using a risk score model, we confirmed the GS-2 impact on overall survival (OS) with Kaplan-Meier analysis (log-rank p < 0.01). We evaluated its robustness and accuracy with receiver operating characteristic (ROC) curves predicting OS at 1, 3 and 5 years in multiple datasets (training set: 77.2%, 73.2% and 71.2%, mean in three validation sets: 83.6%, 77.6%, 75.4% at 1, 3 and 5 years respectively). We evaluated GS-2 as an independent prognostic biomarker with multivariable Cox regression which showed p-value < 0.01 in all four datasets evaluated. The methylation-regulated GS-2 risk score model can effectively classify patients with MB into high and low-risk, reinforcing the importance of this epigenetic modification in the disease. Such genes stand out as promising prognostic biomarkers with potential application for MB treatment.
5	RUTH FLÁVIA BARROS SETÚBAL Análise filogenética dos genes do locus rfb do Gênero Leptospira dos sorogrupos Sejroe, Mini e Hebdomadis Orientador : Jorge Estefano de Santana Souza MEMBROS DA BANCA : Jorge Estefano de Santana Souza Maria Raquel Venturim Cosate TETSU SAKAMOTO Data: 29/09/2023 Mostrar Resumo A leptospirose é uma zoonose de grande impacto na saúde pública, pois é considerada uma doença de notificação compulsória ocorrendo principalmente em regiões tropicais com saneamento básico precário e condição socioeconômica vulnerável. Ela é causada por bactérias do gênero Leptospira e filo Spirochaetes e a contaminação se dá através do contato direto ou indireto com o agente contaminante. Além da classificação taxonômica, que é realizada através do sequenciamento e a análise de alguns genes marcadores, como o 16S rRNA e o secY, elas são habitualmente classificadas com base nas suas características antigênicas em sorogrupos e sorovares. Este tipo de classificação é intensamente aplicado nos estudos epidemiológicos e de desenvolvimento de vacinas. Apesar da sua importância, poucos estudos foram realizados para entender a dinâmica evolutiva do surgimento ou a mudança de sorologia neste gênero. Diante disso, aplicamos neste estudo métodos de filogenia molecular no intuito de entender os processos evolutivos que envolvem a sorologia do gênero. Para isso, sequências de genes que fazem parte do locus rfb de amostras dos sorogrupos Sejroe, Mini e Hebdomadis (34 amostras) foram extraídas e submetidas ao pipeline filogenético, resultando na inferência de 75 árvores de máxima verossimilhança. Analisando as árvores, pode-se verificar que aqueles genes do locus rfb encontrados na maioria das espécies de Leptospira apresentaram uma topologia semelhante ao da árvore de espécies. Já aqueles genes que se encontram na região variável do locus apresentaram árvores com topologias que sugerem a ocorrência de transferência lateral entre as espécies L. borgpetersenii e L. kirschneri e L. interrogans e L. weilli. O estudo sugere uma nova interpretação da história evolutiva dos genes do locus rfb e da dinâmica evolutiva das mudanças de sorogrupos. Mostrar Abstract Leptospirosis is a zoonosis with a major impact on public health, as it is considered a notifiable disease and occurs mainly in tropical regions with poor sanitation and vulnerable socio-economic conditions. It is caused by bacteria of the genus Leptospira and phylum Spirochaetes and contamination occurs through direct or indirect contact with the contaminating agent. In addition to taxonomic classification, which is carried out through sequencing and the analysis of some marker genes, such as 16S rRNA and secY, they are usually classified based on their antigenic characteristics into serogroups and serovars. This type of classification is widely used in epidemiological studies and vaccine development. Despite its importance, few studies have been carried out to understand the evolutionary dynamics of the emergence or change of serology in this genus. In view of this, in this study we applied molecular phylogeny methods in order to understand the evolutionary processes involving the genus' serology. To this end, gene sequences that are part of the rfb locus from samples of the Sejroe, Mini and Hebdomadis serogroups (34 samples) were extracted and submitted to the phylogenetic pipeline, resulting in the inference of 75 maximum likelihood trees. Analyzing the trees, it can be seen that those genes from the rfb locus found in the majority of Leptospira species presented a topology similar to that of the species tree. On the other hand, those genes found in the variable region of the locus showed trees with topologies that suggest the occurrence of lateral transfer between the species L. borgpetersenii and L. kirschneri and L. interrogans and L. weilli. The study suggests a new interpretation of the evolutionary history of the rfb locus genes and the evolutionary dynamics of serogroup changes.
6	HELMUT KENNEDY AZEVEDO DO PATROCÍNIO Investigação In silico de peptídeos de proteínas do sistema nervoso como candidatos de mimetismo molecular na síndrome de Guillain-Barré e na esclerose múltipla desencadeadas pelo vírus Epstein-Barr. Orientador : JOAO PAULO MATOS SANTOS LIMA MEMBROS DA BANCA : JOAO FIRMINO RODRIGUES NETO JOAO PAULO MATOS SANTOS LIMA JÉSSIKA DE OLIVEIRA VIANA ÂNDREA KELY CAMPOS RIBEIRO DOS SANTOS Data: 20/10/2023 Mostrar Resumo A Síndrome de Guillain-Barré (SGB) e a esclerose múltipla são doenças autoimunes associada a resposta imunológica contra autoantígenos do sistema nervoso periférico (SNP) e central (SNC), respectivamente. A maioria dos estudos sobre a imunopatologia da SGB investigam a reação cruzada entre antígenos de gangliosídeos da bainha de mielina e carboidratos da bactéria Campylobacter jejuni. Entretanto, a SGB apresenta um espectro de subtipos e, particularmente, a forma Polirradiculoneuropatia Aguda Desmielinizante Inflamatória (AIDP) possui poucas evidências de relação com C. jejuni ou de autoimunidade contra gangliosídeos. Já a imunopatologia da esclerose múltipla é mais conhecida e diversos autoantígenos proteicos são conhecidos. Neste trabalho, utilizou-se os bancos de dados “The Human Protein Atlas”, AFND e IEDB para seleção de, respectivamente, proteínas abundantes no sistema nervoso, proteínas imunogênicas do vírus Epstein-Barr e haplótipos de HLA. Também foram utilizadas ferramentas computacionais para predição de ligantes do HLA e de produção de citocinas. Foram encontradas 10 proteínas do sistema nervoso e 28do EBV, as quais foram usadas na predição de peptídeos ligantes de 21 HLAs comuns na população mundial. A partir de busca de haplótipos no AFND, foram localizados ao todo 1359 haplótipos registrados, os quais se distribuem entre 51 pares de HLAs. Os nonapeptídeos de ancoramento das proteínas do EBV e proteínas da mielina foram comparados quanto a identidade em resíduos críticos para a interação com o TCR. Para tal comparação foram estabelecidos três critérios de seleção de acordo com a relevância de cada contato para interação TCR-peptídeo-MHC. O contato principal deve estar localizado na posição P5, enquanto as posições P2, P3 e P8 são secundárias e P4, P6 e P7 são terciárias. De acordo com esses critérios, todas as proteínas do sistema nervoso apresentaram peptídeos com identidade relevante com peptídeos do EBV. A predição de estimulação de citocinas IL-4 ou IFN-γ permite descobrir quais pares de nonâmeros similares são capazes de induzir a ativação de células Th1 ou Th2 e talvez causar autoimunidade pelo mecanismo de mimetismo molecular. Sete proteínas (APLP1, CNP, GlialCam, MAG, MBP, Periaxina e PLP) apresentaram pares de peptídeos similares estimuladores das citocinas IL-4, IFN-γ ou de ambas. A proteína P0 também apresentou pares capazes de induzir IL-4 ou IFN-γ, porém são restritos a um ou poucos HLAs ou haplótipos. Haja vista alta quantidade de possíveis peptídeos que podem causar mimetismo molecular, o resultado deste trabalho está em consonância com a hipótese de que a imunidade tanto na esclerose múltipla como na GBS pode ser causada por múltiplos antígenos diferentes. Entretanto, são necessários estudos experimentais que busquem possíveis autoantígenos nessas doenças. Os pares de nonâmeros aqui encontrados podem subsidiar a investigação de autoantígenos em experimentos laboratoriais. Mostrar Abstract Guillain-Barré Syndrome (GBS) and multiple sclerosis are autoimmune diseases associated with an immune response against peripheral (PNS) and central nervous system (CNS) autoantigens, respectively. Most studies on GBS immunopathology investigate the cross-reactivity between myelin sheath ganglioside antigens and carbohydrates from Campylobacter jejuni bacteria. However, GBS has a spectrum of subtypes and, particularly, the Acute Inflammatory Demyelinating Polyradiculoneuropathy (AIDP) form has little evidence of a relationship with C. jejuni or of autoimmunity against gangliosides. The immunopathology of multiple sclerosis is better understood, with several protein autoantigens reported in the literature. In the present work, we screened the databases “The Human Protein Atlas,” AFND, and IEDB to select abundant proteins from the human nervous system (HNS), immunogenic proteins of the Epstein-Barr virus, and HLA haplotypes, respectively. Then we constructed a pipeline with several open-source computational tools to predict HLA binding to peptides and cytokine production. The following analysis used ten proteins from the HNS and 28 from EBV to predict the binding peptides of 21 common HLAs in the world population. From the search for haplotypes in the AFND, we found 1359 registered haplotypes distributed among 51 pairs of HLAs. After that, our pipeline compared nonapeptide anchors of EBV and myelin proteins for identity at critical residues for interaction with the T-cell receptor (TCR), establishing three selection criteria according to the relevance of each contact for TCR-peptide-MHC interaction. According to these criteria, all nervous system proteins presented peptides with relevant identity with EBV peptides. The prediction of IL-4 or IFN-γ cytokine stimulation allowed the discovery of which pairs of similar nonamers can induce the activation of Th1 or Th2 cells and perhaps cause autoimmunity through molecular mimicry. Seven proteins (APLP1, CNP, GlialCam, MAG, MBP, Periaxin, and PLP) presented pairs of similar peptide stimulators of cytokines IL-4, IFN-γ, or both. The P0 protein also presented pairs capable of inducing IL-4 or IFN-γ, though restricted to one or few HLAs or haplotypes. Given the high number of possible peptides that can cause molecular mimicry, our results align with the hypothesis that multiple antigens can cause immunity in multiple sclerosis and GBS. The nonamer pairs found here support further experimental investigations of these autoantigens and contribute to a better understanding of both pathologies.
	Teses
1	DHIEGO SOUTO ANDRADE Rumo à previsibilidade aprimorada na imunoterapia para o câncer por meio do aprendizado de máquina: um roteiro para a construção de modelos preditivos a partir da análise de recursos do repertório de receptores de células T Orientador : CESAR RENNO COSTA MEMBROS DA BANCA : SOL EFRONI CESAR RENNO COSTA RENAN CIPRIANO MOIOLI RODRIGO JULIANI SIQUEIRA DALMOLIN WILFREDO BLANCO FIGUEROLA Data: 28/03/2023 Mostrar Resumo Embora a terapia do câncer forneça um vasto repertório de medicamentos e tratamentos, muitos tipos de câncer desenvolvem maneiras de escapar e continuam a proliferar. A imunoterapia, em particular, tem se mostrado eficiente na destruição de alguns tipos de câncer, mas não é uma opção infalível. Prever a eficiência de cada opção de tratamento seria uma ferramenta valiosa para o processo de tomada de decisão na prática clínica. A imunoterapia aumenta as células T do paciente para atacar as células cancerígenas. As células T usam uma proteína receptora de sua superfície para identificar possíveis alvos, como células cancerígenas. O advento do NGS (Next Generation Sequencing) trouxe uma velocidade considerável para sequenciar grandes quantidades de material genético, como o TCR (T Cell Receptor). A diversidade de receptores é colossal, e entender esses repertórios altamente complexos pode ser a chave para decifrar o comportamento do sistema imunológico. Aqui, avaliamos o processo de extração de recursos significativos dos dados do repertório do TCR para construir modelos preditivos para distinguir controles saudáveis de pacientes com câncer ou pacientes tratados com diferentes medicamentos. Diante disso, é essencial desenvolver ferramentas que possam gerar informações de maneira fácil e rápida a partir dos dados do repertório do TCR para prever resultados futuros. Desenvolvemos uma ferramenta de bioinformática chamada GENTLE (GENerator of T cell receptor repertoire features for machine LEARNING), voltada para qualquer pesquisador que trabalhe com dados de repertório TCR que visa explorar esses dados e construir ferramentas de previsão. O GENTLE é de código aberto, tem uma plataforma web, pode ser instalado localmente, implementa muitas métricas de diversidade, constrói redes usando a distância de Levenshtein, calcula a frequência de motivos, transforma os dados com métodos de redução dimensional, implementa métodos de normalização, realiza seleção de recursos, constrói, avalia e implanta classificadores. Usando esta ferramenta, pode-se obter grandes insights dos dados do repertório TCR. Mostrar Abstract Although cancer therapy provides a vast repertoire of medicines and treatments, many cancers develop ways to escape and continue to proliferate. Immunotherapy, in particular, has proved efficient in destroying some types of cancers, but it is not an infallible option. Predicting the efficiency of each treatment option would be a valuable tool for the decisionmaking process in clinical practice. Immunotherapy enhances the patient’s T cells to attack cancer cells. T cells use a receptor protein from their surface to identify possible targets, such as cancer cells. The advent of NGS (Next Generation Sequencing) brought considerable speed to sequencing large amounts of genetic material, such as TCR (T Cell Receptor). The diversity of receptors is colossal, and understanding these highly complex repertoires might be the key to deciphering the immune system’s behavior. Here, we evaluated the process of extracting meaningful features of TCR repertoire data to build predictive models to distinguish healthy controls from cancer patients or patients treated with different drugs. In light of that, it is essential to develop tools that can easily and quickly generate insights from TCR repertoire data to predict future outcomes. We developed a bioinformatic tool called GENTLE (GENerator of T cell receptor repertoire features for machine LEarning), geared towards any researcher working with TCR repertoire data that aims to explore these data and build prediction tools. GENTLE is open-source, has a web platform, can be installed locally, implements many diversity metrics, builds networks using the Levenshtein distance, calculates the frequency of motifs, transforms the data with dimensional reduction methods, implements normalization methods, performs feature selection, builds, evaluates, and deploys classifiers. Using this tool, one can glean great insights from TCR repertoire data.
2	JÉSSIKA DE OLIVEIRA VIANA Planejamento in silico, síntese e atividade de derivados espiro-acridínicos Orientador : EUZEBIO GUIMARAES BARBOSA MEMBROS DA BANCA : IGOR JOSÉ DOS SANTOS NASCIMENTO EDILSON BESERRA DE ALENCAR FILHO EUZEBIO GUIMARAES BARBOSA JOAO PAULO MATOS SANTOS LIMA MARCELO DE SOUSA DA SILVA Data: 16/06/2023 Mostrar Resumo Compostos bioativos têm sido estudados de modo a oferecer melhor eficácia e seletividade contra diversas doenças, representando um cenário promissor nodesenvolvimento de fármacos. Recentemente uma série de derivados acridínicosfoi sintetizada e exibiu atividade antileishmania e anticâncer. No entanto, oconceito de “um alvo, um medicamento, uma doença” nem sempre é verdadeiro,pois compostos com aplicações terapêuticas previamente descritas podem atuarem mais de um alvo. Baseado nisto, este trabalho objetivou identificar, portriagem virtual inversa baseada no receptor, o provável mecanismo de ação dederivados espiro-acridínicos. Adicionalmente, o mecanismo de ação foicomprovado através de ensaios enzimáticos in vitro. Utilizando tais abordagens, ocapítulo I deste trabalho apresenta a identificação, através de metodologiascomputacionais, do alvo pteridina redutase 1 (PTR1) de L. major como potencialalvo para os compostos espiro-acridínicos. Adicionalmente, encontramos aenzima quitinase B1 (CHIB1) de Aspergillus fumigatus como potencial alvo contraAspergilose. Para PTR1, os ensaios de ancoragem e dinâmica moleculardemonstraram a alta estabilidade do composto 1 no sítio ativo da enzima. PraCHIB1, outros derivados foram submetidos a ancoragem molecular e dinâmicamolecular, identificando 3 compostos como os de melhor perfil para o alvo. Nocapítulo II, ensaios in vitro foram realizados para comprovar experimentalmente aação dos derivados espiro-acridínicos nas enzimas estudadas. Para PTR1, osensaios in vitro demonstraram KD de 33,1 μM para o melhor composto, enquantopara quitinase o melhor composto apresentou um IC 50 de 0.6 ng/μL. Portanto, opresente trabalho demonstrou a alta eficiência do IVS como uma abordagem depredição de alvos. Adicionalmente, o programa permitiu caracterizar suapotência, modalidade de inibição e perfil de interação com seu alvo terapêutico.Desta forma, os derivados espiro-acridínicos podem atuar como inibidores multi-alvo da PTR1 de leishmania e quitinase de fungos. Mostrar Abstract Bioactive compounds have been studied in order to offer better efficacy and selectivity against various diseases, representing a promising scenario in drug development. Recently, a series of acridinic derivatives was synthesized and exhibited antileishmanial and anticancer activity. However, the concept of "one target, one drug, one disease" is not always true, as compounds with previously described therapeutic applications can act on more than one target. Based on this, this work aimed to identify, through reverse virtual screening based on the receptor, the probable mechanism of action of spiro-acridinic derivatives. Additionally, the mechanism of action was confirmed through in vitro enzymatic assays. Using these approaches, Chapter I of this work presents the identification, through computational methodologies, of the pteridine reductase 1 (PTR1) enzyme of L. major as a potential target for spiro-acridinic compounds. Additionally, we found the chitinase B1 (CHIB1) enzyme of Aspergillus fumigatus as a potential target against Aspergillosis. For PTR1, docking and molecular dynamics assays presented the high stability of compound 1 in the active site of the enzyme. For CHIB1, other derivatives were subjected to molecular docking and molecular dynamics, identifying 3 compounds with the best profile for the target. In Chapter II, in vitro assays were performed to experimentally confirm the action of spiro-acridinic derivatives on the studied enzymes. For PTR1, in vitro assays demonstrated a KD of 33.1 μM for the best compound, while for chitinase, the best compound showed an IC50 of 0.6 ng/μL. Therefore, this work demonstrated the high efficiency of reverse virtual screening as a target prediction approach. Additionally, the program allowed for characterizing its potency, inhibition modality, and interaction profile with its therapeutic target. Thus, spiro-acridinic derivatives can act as multi-target inhibitors of Leishmania's PTR1 and fungal chitinase.

2022

	Dissertações
1	MARIA JULIA PEREIRA DAVI DESENHO E VALIDAÇÃO IN SILICO DE INICIADORES PARA DETECÇÃO DO CORONAVÍRUS 2 CAUSADOR DA SÍNDROME RESPIRATÓRIA AGUDA GRAVE (SARS-COV-2) Orientador : DANIEL CARLOS FERREIRA LANZA MEMBROS DA BANCA : DANIEL CARLOS FERREIRA LANZA RODRIGO JULIANI SIQUEIRA DALMOLIN TAFFAREL MELO TORRES Data: 06/04/2022 Mostrar Resumo O desenho de iniciadores para reação em cadeia da polimerase (PCR) que tenham como alvo segmentos conservados de genomas virais é importante para prevenir resultados falso- negativos e diminuir a necessidade de padronização de diferentes protocolos de PCR para o mesmo alvo. Neste trabalho, foi projetado e descrito um conjunto de iniciadores e sondas que têm como alvo regiões conservadas identificadas a partir de alinhamento múltiplo de 2.341 genomas de SARS-CoV-2 disponíveis no banco de dados GISAID (Global Initiative on Sharing All Influenza Data). Subsequentemente os iniciadores foram validados juntamente com as sondas em 211.833 sequências de genomas completos de SARS-CoV-2. Foram obtidos nove sistemas (primer direto+reverso+sondas) que potencialmente se anelam às regiões altamente conservadas do genoma do vírus identificadas nessa análise. Predições in silico também demonstraram que os iniciadores não interagem com alvos não-específicos em sequências de humanos, bactérias, fungos, Apicomplexa e outros betacoronavirus e linhagens menos patogênicas do coronavírus. A publicação das sequências destes iniciadores e sondas tornará possível validar protocolos mais eficientes para identificação do SARS-CoV-2. Mostrar Abstract The design of polymerase chain reaction (PCR) primers that target conserved segments of viral genomes is important to prevent false-negative results and reduce the need to standardize different PCR protocols for the same target. In this work, we designed and described a set of primers and probes that target conserved regions identified from multiple alignment of 2,341 SARS-CoV-2 genomes available in the GISAID (Global Initiative on Sharing All Influenza Data) database. Subsequently, the primers were validated together with the probes on 211,833 sequences from the entire genomes of SARS-CoV-2. Nine systems were obtained (primer forward+reverse+probes) that potentially anneal to the highly conserved regions of the virus genome identified in this analysis. In silico predictions also demonstrated that the primers do not interact with non-specific targets in sequences from humans, bacteria, fungi, Apicomplexa and other betacoronaviruses and less pathogenic coronavirus strains. The publication of these primer and probes sequences will make it possible to validate more efficient protocols for identifying SARS-CoV-2.
2	MATHEUS GIBEKE SIQUEIRA DALMOLIN Análise baseada em biologia de sistemas destaca processos alterados que afetam a sobrevida geral de pacientes com sarcoma de Ewing Orientador : MARIALVA SINIGAGLIA MEMBROS DA BANCA : MARIALVA SINIGAGLIA RITA MARIA CUNHA DE ALMEIDA LAURO JOSÉ GREGIANIN Data: 06/04/2022 Mostrar Resumo O Sarcoma de Ewing (SE) é uma doença altamente agressiva, sendo a segunda neoplasia óssea pediátrica mais frequente. A marca registrada do SE é a presença do fator de transcrição aberrante EWSR1-FLI que impulsiona a reprogramação metabólica no SE. A taxa de sobrevida dos pacientes de SE aumentou à custa da alta toxicidade que limita as taxas de sobrevida e causa morbidade significativa. Portanto, é crucial identificar e obter uma compreensão completa das vias que afetam a sobrevivência dos pacientes para o desenvolvimento de novos diagnósticos e estratégias terapêuticas. Aqui, identificamos diferenças no nível de expressão entre os sobreviventes de curto prazo e os de longo prazo com base em dados transcricionais disponíveis em três conjuntos de dados públicos, aplicando a análise do transcriptograma. Três grupos de genes diferencialmente expressos comuns às três coortes analisadas foram identificados. Processos relacionados à resposta e reparo ao dano do DNA, resposta imune, apoptose e autofagia foram desregulados entre os grupos com sobrevida curta e sobrevida longa. Além disso, o enriquecimento funcional dos genes comuns entre cada um dos três clusters e pelo menos um regulon de reguladores mestres específicos de SE, destacam a alta expressão da via Hippo em pacientes com sobrevida curta. Nossa análise sugere que diferentes processos podem estar orientando o desfecho de pacientes com SE de forma integrada e podem contribuir para a diversidade de fenótipos impulsionados pela flutuação da expressão de EWSR1- FLI1. Mostrar Abstract Ewing’s Sarcoma (ES) is a highly aggressive disease and the second most frequent pediatric bone neoplasm. The ES hallmark is the presence of the aberrant transcription fator EWSR1-FLI that drives metabolic reprogramming in ES. The ES survival rate has increased at the cost of high toxicity that limits survival rates and causes significant morbidity. Therefore it is crucial to identify and obtain a complete understanding of the pathways that impact ES survival for development of novel diagnostics and therapeutic strategies. Here, we identified differences at the transitional level between ES patients with short-term survivors (STS) and long-term survivors (LTS) based on transcriptional data available in three public datasets, applying the transcriptogram analysis. Three differentially expressed clusters commons across the cohorts analyzed were identified. Processes related to DNA damage response and repair, immune response, apoptosis and autophagy were dysregulated between the STS and LTS groups. Furthermore, the functional enrichment of the common genes between three clusters and ES regulons highlight the upregulation of the Hippo pathway in STS patients. Our analysis suggests that different processes may be guiding the outcome of ES patients in an integrated way and may contribute to the diversity of phenotypes driven by the EWSR1-FLI1 expression fluctuation.
3	DÉBORA VIRGÍNIA DA COSTA E LIMA O Uso de Redes Neurais Artificiais na Análise de Dados de Câncer de Pulmão Orientador : ADRIAO DUARTE DORIA NETO MEMBROS DA BANCA : ADRIAO DUARTE DORIA NETO BEATRIZ STRANSKY FERREIRA TAFFAREL MELO TORRES TETSU SAKAMOTO Data: 12/05/2022 Mostrar Resumo O câncer de pulmão representa a principal causa de morte com câncer no mundo, e possui altos níveis de incidência. Assim como outros tipos de câncer, pode ocorrer por diversas causas, de genéticas à ambientais, por isso estudos realizados a partir de diferentes tipos de dados podem ser relevantes para o controle dessa neoplasia, especialmente quando considerados fatores que têm impacto na sobrevivência dos pacientes. No contexto do câncer de pulmão, esse estudo foi desenvolvido para utilizar deep learning a fim de prever a sobrevivência de pacientes. Para tanto foram obtidos dados clínicos e moleculares presentes em bancos de dados do TCGA (The Cancer Genome Atlas) referentes às coortes LUSC (Carcinoma de Células Escamosas do Pulmão) e LUAD (Adenocarcinoma do pulmão), seguido da análise de das alterações genômicas, e aplicação de redes neurais usando como entrada os genes frequentemente mutados para cada coorte, seleção de genes chave e validação com outro banco de dados. As coortes apresentaram diferenças na sobrevida entre si quando submetidas ao método de Kaplan-Meier e ao teste Log-Rank. Na análise genômica, foram selecionados todos os genes com frequência de mutação superior a 15%, sendo encontrados 34 genes para LUAD e 32 para LUSC. A utilização desses genes como entrada nas redes construídas possibilitou a geração das redes LUSC e LUAD com 100% de acurácia, identificando, de acordo com as mutações, se o paciente estava vivo ou morto. Além disso, foi obtida também uma rede LUSC usando como validação um outro banco de dados o LUSC-KR que alcançou 99% de acurácia. Desta forma, este trabalho mostrou que a utilização de genes com mutações frequentes associadas ao uso de deep learning é uma ferramenta robusta e permite predizer a sobrevida de pacientes com câncer de pulmão. Mostrar Abstract Lung cancer represents the leading cause of cancer death worldwide and has a high incidence. Like other types of cancer, it can occur due to different causes, from genetics to environmental ones, so studies carried out using different types of data may be relevant for the control of this neoplasm, especially when considering factors that have an impact on patient survival. In the context of lung cancer, this study uses deep learning to predict patient survival. Clinical and molecular data from TCGA (The Cancer Genome Atlas) databases were obtained for the LUSC (Lung Squamous Cell Carcinoma) and LUAD (Lung Adenocarcinoma) cohorts, followed by the analysis of the genomic alterations, and application of neural networks using as input the frequently mutated genes for each cohort, selection of key genes and validation with another database. The cohorts showed differences in survival among themselves when subjected to the Kaplan-Meier method and the Log-Rank test. In the genomic analysis, all genes with a mutation frequency above 15% were selected, and 34 genes were found for LUAD and 32 for LUSC. The use of these genes as input in the constructed networks made it possible to generate the LUSC and LUAD networks with 100% accuracy, identifying, according to the mutations, whether the patient was alive or dead. In addition, a LUSC network was also obtained using another LUSC-KR database as validation, which reached 99% accuracy. In this way, this work showed that the use of genes with frequent mutations associated with deep learning is a robust tool and allows predicting the survival of patients with lung cancer.
4	BIANCA CRISTIANE FERREIRA SANTIAGO Análises Metagenômicas Revelam a Influência das Camadas de Profundidade na Biodiversidade Marinha em Regiões Tropicais e Subtropicais Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN MEMBROS DA BANCA : RODRIGO JULIANI SIQUEIRA DALMOLIN CESAR RENNO COSTA GABRIEL DA LUZ WALLAU Data: 28/10/2022 Mostrar Resumo Cerca de 71% do ecossistema da superfície terrestre é coberto por oceano, responsável por conter 97% de toda a água da Terra, sendo o plâncton, a sua forma de vida dominante. Microrganismos têm um papel imprescindível na manutenção do sistema do planeta, uma vez que são fontes de energia e nutrientes aos seres vivos, realizam quase metade da produção primária líquida, mantêm o equilíbrio químico na atmosfera e exportam carbono fixado fotossinteticamente para as camadas mais profundas do oceano. A biologia de ecossistemas oceânicos estuda como os fatores bióticos e abióticos determinam as propriedades do ecossistema oceânico. Com o surgimento de estudos em escala global de organismos de mar aberto, muito tem se descoberto sobre a genômica de comunidades microbianas oceânicas. Um dos principais projetos desta categoria atualmente é o Tara Oceans, um projeto multidisciplinar com o objetivo de compreender a diversidade, interações, funções e complexidade fenotípica em escalas taxonômicas e espaciais do plâncton, através de cerca de 35000 amostras com milhões de organismos coletadas em profundidades de até 2000 m em 210 estações ao longo dos oceanos. O principal objetivo deste trabalho foi comparar amostras oceânicas explorando a abundância, diversidade, e função dos microrganismos encontrados em zonas tropicais e subtropicais, com o intuito de entender como esses fatores afetam a biodiversidade dessas espécies. Para isso, foram selecionadas somente amostras de estações de coleta que apresentaram amostras nas três camadas de profundidade (SRF, DCM e MES) simultaneamente. Essa filtragem resultou em 8 estações com um somatório de 76 amostras. Esses dados foram processados através do pipeline MEDUSA, seguindo o fluxo padrão de uma análise de metagenômica: pré-processamento, alinhamento de sequências com um banco de proteínas referência, classificação taxonômica e anotação funcional. Com os resultados obtidos desse processo foi possível comparar abundância e diversidade dessas amostras e anotar e analisar os resultados dessa comparação. Observou-se uma maior diversidade de organismos na camada mais profunda e não ocorreu uma diferença significativa de abundância entre as camadas de profundidade exploradas. Algumas funções biológicas são exclusivas de cada camada de profundidade, indicando suas particularidades e sua diversidade funcional. Não foi observada distinção significativa de abundância, diversidade ou função comparando exclusivamente as amostras de estações de coleta nos diferentes pontos geográficos. Mostrar Abstract About 71% of the Earth's surface ecosystem is covered by ocean, responsible for containing 97% of all the Earth's water, with plankton being its dominant life form. Microorganisms play an essential role in maintaining the planet's system, since they are sources of energy and nutrients for living beings, realize almost half of net primary production, maintain chemical balance in the atmosphere and export photosynthetically fixed carbon to the deepest layers of the ocean. Ocean ecosystem biology studies how biotic and abiotic factors determine ocean ecosystem properties. With the emergence of global-scale studies of open sea organisms, much has been discovered about the genomics of oceanic microbial communities. One of the main projects in this category today is Tara Oceans, a multidisciplinary project aiming to understand the diversity, interactions, functions and phenotypic complexity at taxonomic and spatial scales of plankton, through about 35000 samples with millions of organisms collected at depths of up to 2000 m in 210 stations across the oceans. The main objective of this work was to compare oceanic samples exploring the abundance, diversity, and function of microorganisms found in tropical and subtropical zones, in order to understand how these factors affect the biodiversity of these species. For this, only samples from collection stations that presented samples in the three depth layers (SRF, DCM and MES) simultaneously were selected. This filtering resulted in 8 stations with a sum of 76 samples. These data were processed through the MEDUSA pipeline, following the standard flow of a metagenomic analysis: pre-processing, sequence alignment with a reference protein bank, taxonomic classification and functional annotation. With the results obtained from this process, it was possible to compare the abundance and diversity of these samples and to note and analyze the results of this comparison. A greater diversity of organisms was observed in the deepest layer (MES) and there was no significant difference in abundance between the explored depth layers. Some biological functions are unique to each depth layer, indicating its particularities and functional diversity. No significant distinction of abundance, diversity or function was observed comparing exclusively samples from collection stations in different geographic points.
5	PRISCILA CAROLINE DE SOUSA COSTA IDENTIFICAÇÃO DE HOMÓLOGOS REMOTOS UTILIZANDO FERRAMENTAS DE ALINHAMENTO ESTRUTURAL DE PROTEÍNAS E APRENDIZADO DE MÁQUINA Orientador : TETSU SAKAMOTO MEMBROS DA BANCA : LUCAS BLEICHER PATRICK CESAR ALVES TERREMATTE TETSU SAKAMOTO Data: 15/12/2022 Mostrar Resumo Os estudos da proteômica têm mostrado o grande número de proteínas descobertas e a sua importância para o estudo da vida. Porém, ainda existe uma alta porcentagem dessas proteínas que não foram anotadas funcionalmente, limitando os avanços em diversas áreas com da saúde e de biotecnologia. As funções das proteínas são definidas pela sua conformidade e mudança da estrutura tridimensional da proteína, por isso, dados da estrutura tridimensional dessas proteínas auxiliam na definição de suas funções. Atualmente, existe uma grande quantidade e diversidade de proteínas que possuem sua sequência caracterizada, porém, ainda há um gargalo metodológico para a obtenção de seus dados estruturais. Com o recente desenvolvimento do programa AlphaFold, que prediz de forma acurada a estrutura tridimensional de proteínas a partir de sua sequência de aminoácidos, este gargalo pode ser superado. Assim, o objetivo desse projeto é avaliar o impacto do uso dessas ferramentas de predição estrutural nas anotações funcionais de proteínas. Neste trabalho, procuramos anotar funcionalmente domínios proteicos de função desconhecida (DUF). Para isso, dados preditos da sua estrutura tridimensional foram submetidos a ferramentas computacionais que realizam uma busca por outras estruturas que compartilhem similaridade estrutural. Análises preliminares demonstraram que muitos domínios podem ser beneficiados com esta análise. Além disso, geramos um modelo de classificação que identifica se duas proteínas que compartilham uma similaridade estrutural são homólogos remotos. Este classificador será utilizado futuramente para analisar os resultados de similaridade e sugerir funções a esses domínios. Mostrar Abstract Proteomics studies have shown the large number of proteins discovered and their importance to the study of life. However, there is still a high percentage of these proteins that have not been functionally annotated, limiting advances in several areas with healthcare and biotechnology. The functions of proteins are defined by their conformation and changes in the protein's three-dimensional structure, so data on the three-dimensional structure of these proteins helps in defining their functions. Currently, there is a large amount and diversity of proteins that have their sequence characterized, however, there is still a methodological bottleneck in obtaining their structural data. With the recent development of the AlphaFold program, which accurately predicts the three-dimensional structure of proteins from their amino acid sequence, this bottleneck can be overcome. Thus, the goal of this project is to evaluate the impact of using these structural prediction tools on functional annotations of proteins. In this work, we aim to functionally annotate protein domains of unknown function (DUF). To this end, predicted data of their three-dimensional structure was submitted to computational tools that perform a search for other structures that share structural similarity. Preliminary analyses have shown that many domains can benefit from this analysis. In addition, we generated a classification model that identifies whether two proteins that share a structural similarity are remote homologs. This classifier will be used in the future to analyze the similarity results and suggest functions to these domains.
	Teses
1	EMMANUEL DUARTE BARBOSA Investigação de complexos proteína-ligante por métodos de bioquímica quântica e evolução molecular Orientador : UMBERTO LAINO FULCO MEMBROS DA BANCA : UMBERTO LAINO FULCO JOAO PAULO MATOS SANTOS LIMA EUDENILSON LINS DE ALBUQUERQUE LUIZ ANTONIO RIBEIRO JUNIOR VALDER NOGUEIRA FREIRE Data: 21/02/2022 Mostrar Resumo Esta tese apresenta três pesquisas realizadas na esfera da modelagem molecular baseadas em princípios da Mecânica Quântica. Adicionalmente, métodos de evolução molecular complementaram alguns resultados. O primeiro estudo retrata o desempenho dos resultados de energia e de custo computacional de 9 combinações de modelos baseados em DFT (DFT -- do inglês, Density Functional Theory) em um sistema organometálico formado pelo cátion de zinco divalente e a enzima Porfobilinogênio Sintase PBGS. As energias de interação foram obtidas empregando o esquema de Fragmentação com Capas Conjugadas (MFCC). Os resultados do perfil de energia de interação total apresentaram diferenças quantitativas lineares, mas demonstraram-se qualitativamente uniformes. A dependência do tempo de processamento computacional mostrou-se mais associada à escolha do conjunto de base do que o funcional de troca e correlação. O segundo estudo apresenta uma descrição bioquímica a partir dos resultados de energia de interação obtidos no estudo anterior, analisando o perfil bioquímico dos resíduos mais relevantes de PBGS que interagem com o zinco. Além disso, foi feito uma análise filogenética e de agrupamento que avaliaram a conservação dos aminoácidos relevantes identificados no sistema zinco-PBGS. As interações intermoleculares mais importantes se deram pela participação dos aminoácidos CIS0122, CIS0124, CIS0132, ASP0169, SER0168, ARG0221, HIS0131, ASP0120, GLY0133, VAL0121, ARG0209 e ARG0174. Dentre esses resíduos, ASP0120, GLI0133, HIS0131, SER0168 e ARG0209 destacaram-se por ocorrer em todos os grupos gerados pela análise de agrupamento não supervisionada. Por outro lado, as cisteínas triplas a 2,5 Å do zinco (CIS0122, CIS0124 e CIS0132) apresentaram a maior de energia atração nos cálculos quânticos são ausentes nos táxons Viridiplantae, Sar, Rhodophyta e em alguns grupos de Bacteria. Já o terceiro trabalho apresentado aqui investiga as interações entre a toxina Lys49-PLA 2 da peçonha de Bothrops moojeni, a qual causa necrose tecidual em vítimas de acidentes ofídicos, e dois compostos (varespladib, aspirina) com potencial para inibir a atividade miotóxica dessas proteínas. A partir desse estudo, foi possível predizer a relevância dos aminoácidos que compõem o sítio de ligação da toxina Lys49-PLA 2 , dentre eles pode-se citar LIS0069, LIS0049, LEU0005, ILE0009, CIS0029, GLI0030, HIS0048, PRO0018, ALA0019, CIS0045, TIR0052, TIR0022, PRO0125* e FEN0126* que ancoram varespladib e os resíduos LIS0069, LIS0049, GLI0032, LEU0002, e LEU0005 para o composto aspirina. Mostrar Abstract This thesis presents three studies carried out in the sphere of molecular modeling based on principles of Quantum Mechanics. Additionally, molecular evolution methods complemented some results. The first study portrays the particularities of the performance of the energy and computational cost results of 9 combinations of models based on DFT (DFT -- Density Functional Theory) in an organometallic system formed by the divalent zinc cation and the enzyme Porphobilinogen Synthase PBGS. The interaction energies were obtained using the Fragmentation with Conjugated Caps (MFCC) scheme. The results of the total interaction energy profile showed linear quantitative differences, but were qualitatively uniform. The computational processing time dependency is more associated with the choice of basis set than the exchange and correlation functional. The second study presents a biochemical description from the interaction energy results obtained in the previous study, analyzing the biochemical profile of the most relevant PBGS residues that interact with zinc. In addition, a phylogenetic and cluster analysis was performed that evaluated the conservation of the relevant amino acids identified in the zinc-PBGS system. The most important intermolecular interactions were due to the participation of amino acids CS0122, CIS0124, CIS0132, ASP0169, SER0168, ARG0221, HIS0131, ASP0120, GLY0133, VAL0121, ARG0209, and ARG0174. Among these residues, ASP0120, GLI0133, HIS0131, SER0168, and ARG0209 stood out for occurring in all groups generated by the unsupervised cluster analysis. On the other hand, triple cysteines at 2.5 Å of zinc (CIS0122, CIS0124, and CIS0132) showed the highest attraction energy and are absent in Viridiplantae, Sar, Rhodophyta, and in some groups of Bacteria. The third work presented here investigates the interactions between the Lys49-PLA 2 toxin from the venom of Bothrops moojeni, which causes tissue necrosis in snakebite victims, and two compounds (varespladib, aspirin) with the potential to inhibit the myotoxic activity of these proteins. The methodology utilized here also uses quantum methods based on DFT within the MFCC scheme. From this study, it was possible to predict the relevance of the amino acids that form the Lys49-PLA 2 binding site, among them, we can mention LIS0069, LIS0049, LEU0005, ILE0009, CIS0029, GLI0030, HIS0048, PRO0018, ALA0019, CIS0045, TIR0052, TIR0022, PRO0125, and FEN0126 which anchor varespladib and residues LIS0069, LIS0049, GLI0032, LEU0002, and LEU0005 which anchor aspirin.
2	DIEGO ARTHUR DE AZEVEDO MORAIS MEDUSA: UM FLUXO DE TRABALHO PARA CLASSIFICAÇÃO TAXONÔMICA E ANOTAÇÃO FUNCIONAL DE METAGENOMAS Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN MEMBROS DA BANCA : RODRIGO JULIANI SIQUEIRA DALMOLIN Jorge Estefano de Santana Souza LUCYMARA FASSARELLA AGNEZ LIMA DIEVAL GUIZELINI FABIANO CORDEIRO MOREIRA Data: 14/04/2022 Mostrar Resumo A metagenômica envolve o estudo da comunidade microbiana encontrada numa amostra extraída de um determinado ambiente. Este ambiente pode ser a parede de uma caverna, uma porção de água do oceano, o intestino humano, ou qualquer fonte contendo micro- organismos de interesse. Tais estudos revelam detalhes sobre a composição taxonômica e as funções exercidas por comunidades microbianas. Como uma análise metagenômica completa requer diferentes ferramentas para diferentes propósitos, a escolha e instalação destas ferramentas representa um desafio. Além disto, o conjunto de ferramentas escolhido afeta a precisão, formatação, e os identificadores funcionais informados nos resultados, impactando a interpretação dos resultados e as respostas biológicas obtidas. O presente trabalho tem como objetivo propor um fluxo de trabalho a ser usado em análises taxonômicas e funcionais de metagenomas. Para isto, foram pesquisadas ferramentas do estado da arte disponíveis na literatura, e conjuntos de dados simulados foram criados para realizar comparações. Como resultado, ferramentas adequadas para cada etapa de análise foram selecionadas, e um fluxo de trabalho sensível e flexível para análises metagenômicas foi projetado. MEDUSA, um fluxo de trabalho eficiente para execução de análises metagenômicas completas, realiza pré-processamento, montagem, alinhamento, classificação taxonômica, e anotação funcional de dados shotgun, permitindo o uso de dicionários criados pelos usuários para transferir anotações para qualquer identificador funcional. MEDUSA inclui diversas ferramentas, tais como o fastp, Bowtie2, DIAMOND, Kaiju, MEGAHIT, e uma nova ferramenta implementada em Python para transferir anotações para resultados de alinhamento BLAST/DIAMOND. Estas ferramentas são instaladas via Conda, e o fluxo de trabalho é gerenciado pelo Snakemake, facilitando a instalação e execução. Comparado com o MEGAN 6 Community Edition, MEDUSA identifica corretamente mais espécies, especialmente as menos abundantes, e é mais adequado para análises funcionais usando identificadores do Gene Ontology. Mostrar Abstract Metagenomics involves the study of the microbial community found in a sample extracted from a given environment. This environment may be a cave wall, a portion of ocean water, the human gut, or any source containing microorganisms of interest. Such studies unravel details about the taxonomic composition and the functions performed by microbial communities. As a complete metagenomic analysis requires different tools for different purposes, the selection and setup of these tools remain challenging. Furthermore, the chosen toolset will affect the accuracy, the formatting, and the functional identifiers reported in the results, impacting the results interpretation and the biological answer obtained. The work presented here aims to propose a pipeline to be used in taxonomic and functional metagenomic analyses. To this end, state-of-the-art tools available in the literature were surveyed, and mock datasets were created to perform benchmarks. As a result, suited tools were selected for each analysis step, and a sensitive and flexible metagenomic analysis pipeline was designed. MEDUSA, an efficient pipeline to conduct comprehensive metagenomic analyses, performs preprocessing, assembly, alignment, taxonomic classification, and functional annotation on shotgun data, supporting user-built dictionaries to transfer annotations to any functional identifier. MEDUSA includes several tools, such as fastp, Bowtie2, DIAMOND, Kaiju, MEGAHIT, and a novel tool implemented in Python to transfer annotations to BLAST/DIAMOND alignment results. These tools are installed via Conda, and the workflow is managed by Snakemake, easing the setup and execution. Compared with MEGAN 6 Community Edition, MEDUSA correctly identifies more species, especially the less abundant, and is more suited for functional analysis using Gene Ontology identifiers.
3	PATRICK CESAR ALVES TERREMATTE Uma nova assinatura de 13 genes via aprendizagem de máquina para predição de sobrevida de pacientes com carcinoma renal de células claras Orientador : ADRIAO DUARTE DORIA NETO MEMBROS DA BANCA : ADRIAO DUARTE DORIA NETO BEATRIZ STRANSKY FERREIRA CICILIA RAQUEL MAIA LEITE DANIEL SABINO AMORIM DE ARAUJO PAULO PIMENTEL DE ASSUMPÇÃO TETSU SAKAMOTO Data: 13/05/2022 Mostrar Resumo Pacientes com carcinoma renal de células claras (ccRCC) têm prognósticos ruins, especialmente em caso de metástase. Neste sentido, é de suma importância identificar biomarcadores em dados genômicos para ajudar a prever o avanço do ccRCC e eventuais resistência a tratamentos. Assim, realizamos um estudo com o objetivo de avaliar assinaturas gênicas e propor uma nova assinatura com maior poder preditivo. Usando coortes ccRCC do The Cancer Genome Atlas (TCGA-KIRC) e do International Cancer Genome Consortium (ICGC-RECA), avaliamos modelos de sobrevida usando regressão de Cox comparando 14 assinaturas da literatura e seis métodos de seleção de características, e também realizamos análise funcional e de expressão diferencial. Neste estudo, apresentamos uma assinatura de 13 genes (AR, AL353637.1, DPP6, FOXJ1, GNB3, HHLA2, IL4, LIMCH1, LINC01732, OTX1, SAA1, SEMA3G, ZIC2) cujos níveis de expressão são capazes de prever risco de pacientes com ccCRC. A assinatura gênica de melhor desempenho foi alcançada usando o método de comitês de Mínima Redundância e Máxima Relevância (mRMR). Essa assinatura apresenta características únicas em relação às demais, como a generalização por diferentes coortes e o enriquecimento funcional em vias relacionadas à doenças: Carcinoma Urotelial, Doença Renal Crônica, Carcinoma de células de transição, e Nefrolitíase. Dos 13 genes em nossa assinatura, oito são conhecidos na literatura por estarem correlacionados com a sobrevida de pacientes com ccRCC e quatro são relacionados ao sistema imunológico. Nosso modelo mostrou um desempenho de 0,82 usando a métrica Receiver Operator Characteristic (ROC) Area Under Curve (AUC). Nossos resultados revelaram dois agrupamentos de genes com alta expressão (SAA1, OTX1, ZIC2, LINC01732, GNB3 e IL4) e baixa expressão (AL353637.1, AR, HHLA2, LIMCH1, SEMA3G, DPP6 e FOXJ1), ambos correlacionados com prognóstico ruins. Esta assinatura pode potencialmente ser desenvolvida para auxiliar tratamentos na prática clínica. Mostrar Abstract Patients with clear cell renal cell carcinoma (ccRCC) have poor survival outcomes, especially if it has metastasized. It is of paramount importance to identify biomarkers in genomic data that could help predict the aggressiveness of ccRCC and its resistance to drugs. Thus, we conducted a study with the aims of evaluating gene signatures and proposing a novel one with higher predictive power and generalization in comparison to the former signatures. Using ccRCC cohorts of the Cancer Genome Atlas (TCGA-KIRC) and International Cancer Genome Consortium (ICGC-RECA), we evaluated linear survival models of Cox regression with 14 signatures and six methods of feature selection, and performed functional analysis and differential gene expression approaches. In this study, we established a 13-gene signature (AR, AL353637.1, DPP6, FOXJ1, GNB3, HHLA2, IL4, LIMCH1, LINC01732, OTX1, SAA1, SEMA3G, ZIC2) whose expression levels are able to predict distinct outcomes of patients with ccRCC. Moreover, we performed a comparison between our signature and others from the literature. The best-performing gene signature was achieved using the ensemble method Min-Redundancy and Max-Relevance (mRMR). This signature comprises unique features in comparison to the others, such as generalization through different cohorts and being functionally enriched in significant pathways: Urothelial Carcinoma, Chronic Kidney disease, and Transitional cell carcinoma, Nephrolithiasis. From the 13 genes in our signature, eight are known to be correlated with ccRCC patient survival and four are immune-related. Our model showed a performance of 0.82 using the Receiver Operator Characteristic (ROC) Area Under Curve (AUC) metric and it generalized well between the cohorts. Our findings revealed two clusters of genes with high expression (SAA1, OTX1, ZIC2, LINC01732, GNB3 and IL4) and low expression (AL353637.1, AR, HHLA2, LIMCH1, SEMA3G, DPP6, and FOXJ1) which are both correlated with poor prognosis. This signature can potentially be used in clinical practice to support patient treatment care and follow-up.
4	IARA DANTAS DE SOUZA Análise das alterações transcricionais sexo-específicas do transtorno depressivo maior Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN MEMBROS DA BANCA : GLORIA REGINA FRANCO GUSTAVO ANTONIO DE SOUZA JOAO PAULO MATOS SANTOS LIMA MATHEUS AUGUSTO DE BITTENCOURT PASQUALI RODRIGO JULIANI SIQUEIRA DALMOLIN Data: 08/07/2022 Mostrar Resumo O transtorno depressivo maior (TDM) é um importante distúrbio neuropsiquiátrico com grande prevalência no Brasil, sendo caracterizado por persistente humor deprimido e/ou perda de prazer por pelo menos duas semanas. O TDM é uma condição incapacitante e que predispõe a outras patologias complexas, como doenças cardiovasculares, podendo até resultar em suicídio. O TDM é mais prevalente em mulheres do que em homens e observa-se diferenças anatômicas, imunológicas, neuronais e hormonais, as quais refletem diferentes prognósticos e sintomatologias entre os sexos. No entanto, não há consenso quanto às alterações transcricionais do TDM em homens e mulheres, bem como as implicações funcionais destas alterações no metabolismo celular. A maior parte dos estudos transcricionais do TDM tenta explicar a fisiopatologia do TDM buscando por alterações da expressão global dos genes. Entretanto as alterações podem ocorrer também em nível de transcrito, de modo que o processamento alternativo de transcritos, pode estar alterado. O presente trabalho busca investigar as alterações transcricionais do TDM em homens e mulheres por meio da análise de expressão diferencial de genes (DGE), a análise de expressão diferencial de transcritos (DTE) e a análise do uso diferencial de isoformas (DTU) em amostras post-mortem de seis regiões cerebrais. O conjunto dos genes identificados em pelo menos uma das três abordagens foi chamado de genes transcricionalmente alterados (TAGs), os quais representam o perfil de alteração transcricional ampla do TDM. Ao todo, 1075 TAGs foram identificados principalmente nas regiões de córtex pré-frontal. Ainda, aproximadamente metade das alterações transcricionais ocorreram apenas em nível de transcrito. Verificamos uma quase ausência de sobreposição entre os genes alterados identificados em homens e mulheres, indicando que o perfil das alterações transcricionais do TDM, em nível de expressão global de genes e de transcritos, é distinto entre os sexos. Verificamos alterações nas vias de processamento e exportação de RNA mensageiro no córtex orbitofrontal de mulheres, além da alteração da expressão do gene DDX39B, um constituinte da maquinaria de processamento de RNA, em diferentes regiões cerebrais de homens e mulheres, respectivamente. Além disso, mostramos que o gene ATAT1 encontra-se alterado em múltiplas regiões cerebrais de mulheres e o gene ABR encontra-se alterado em múltiplas regiões cerebrais de homens, constituindo potenciais biomarcadores sexo-específicos para o TDM. Mostrar Abstract Major depressive disorder (MDD) is an important neuropsychiatric disorder with high prevalence in Brazil, characterized by persistent depressed mood and/or loss of pleasure for at least two weeks. MDD is a disabling condition that predisposes to other complex pathologies, such as cardiovascular diseases, and may even result in suicide. MDD is more prevalent in women than in men and there are anatomical, immunological, neuronal and hormonal differences, which reflect different prognoses and symptoms between the sexes. However, there is no consensus regarding the MDD transcriptional alterations in men and women, as well as the functional implications of these alterations in the cellular metabolism. Most MDD transcriptional studies explain the disease’s pathophysiology by looking for changes in global gene expression. However, gene expression changes can also occur at the transcript level, as RNA splicing pathways may be altered. The present work seeks to investigate the transcriptional alterations of MDD in women and men through differential gene expression (DGE) analysis, differential transcript expression (DTE) analysis and analysis of differential isoform use (DTU) in post-mortem samples of six brain regions. The set of genes identified in at least one of the three approaches was called transcriptionally altered genes (TAGs), which represent the comprehensive transcriptional alteration profile of MDD. At total, 1075 TAGs were identified mainly in the prefrontal cortex. Approximately half of the transcriptional changes occurred only at the transcript level. We found a near absence of overlap between the altered genes identified in men and the ones identified in women. This indicates that MDD transcriptional alteration profile is sex-specific, considering both the gene- and the transcript-level alterations. We verified alterations in the RNA processing and export pathways in the orbitofrontal cortex of women. Additionally the DDX39B gene, an RNA splicing machinery member, was altered in different brain regions of women and men, respectively. Furthermore, we showed that the ATAT1 gene is altered in multiple brain regions of women and the ABR gene is altered in multiple brain regions of men, constituting potential sex-specific biomarkers for MDD.
5	THAÍS DE ALMEIDA RATIS RAMOS Caracterização computacional de RNAs não codificantes longos a nível unicelular associados com o desenvolvimento do tecido cardíaco e com doenças cardiovasculares Orientador : VINICIUS RAMOS HENRIQUES MARACAJA COUTINHO MEMBROS DA BANCA : VINICIUS RAMOS HENRIQUES MARACAJA COUTINHO RODRIGO JULIANI SIQUEIRA DALMOLIN THAIS GAUDENCIO DO REGO GILDERLANIO SANTANA DE ARAÚJO YURI DE ALMEIDA MALHEIROS BARBOSA Data: 02/08/2022 Mostrar Resumo Os RNAs longos não codificantes (lncRNAs) compreendem as unidades transcricionais mais representativas do genoma dos mamíferos e estão associados ao desenvolvimento de órgãos que podem estar associados ao surgimento de doenças, como as cardiovasculares. A Organização Mundial da Saúde (do inglês, World Health Organization (WHO)), por exemplo, publicou que as doenças cardiovasculares são responsáveis pela morte de 17,9 milhões de pessoas a cada ano, correspondendo a 31% de todas as mortes em todo o mundo. Sendo assim, foi utilizado uma combinação dos transcritos das bases de dados Gencode (M20), Ensembl (GRCm38.95) e Amaral et al (2018) para definir o conjunto de lncRNAs de referência não redundantes; e Gencode (M20) para os transcritos codificantes de referência. Além disso, foram utilizadas abordagens de bioinformática, algoritmos de aprendizado de máquina e técnicas estatísticas para definir lncRNAs envolvidos no desenvolvimento cardíaco de mamíferos. Para isso, foi utilizado a base dados de single-cell publicada por DeLaughter et al (2016), no qual havia dados de 4 estágios embrionários (E9.5, E11.5, E14.5, E18.5) e 4 estágios pós-natais (P0, P3, P7, P21) do organismo modelo mus musculus. Neste trabalho identificamos 8 tipos celulares distintos, novos transcritos marcadores (codificantes e diferentes tipos de lncRNAs) e também, expressão diferencial e análise de enriquecimento funcional revelaram subpopulações de cardiomiócitos associadas à função cardíaca; enquanto isso, a análise de co-expressão modular revelou insights funcionais específicos de células para lncRNAs durante o desenvolvimento do miocárdio, incluindo uma potencial associação com genes-chave relacionados à doença e ao “programa de genes fetais”. Nossos resultados evidenciam o papel de lncRNAs particulares no desenvolvimento do coração e destacam o uso de abordagens modulares de co-expressão na definição funcional do tipo de célula. Como trabalho futuro, pretende- se identificar os papéis funcionais desses RNAs no desenvolvimento de tecidos cardíacos e em doenças cardiovasculares utilizando abordagens de validação experimental. Mostrar Abstract Long non-coding RNAs (lncRNAs) comprise the most representative transcriptional units of the mammalian genome, and they’re associated with organ development that can be associated with the emergence of diseases, such as cardiovascular diseases. The World Health Organization (WHO), for example, has published that cardiovascular diseases are responsible for the death of 17.9 million people each year, corresponding to 31% of all deaths all around the world. Therefore, a combination of transcripts from Gencode (M20), Ensembl (GRCm38.95) and Amaral et al. (2018) databases was used to define the set of non-redundant reference lncRNAs; and Gencode (M20) for the reference coding transcripts. In addition, bioinformatics approaches, machine learning algorithms and statistical techniques were used to define lncRNAs involved in mammalian cardiac development in a single-cell perspective. For this, the single-cell database published by DeLaughter et al. (2016) was used, in which there were data from 4 embryonic stages (E9.5, E11.5, E14.5, E18.5) and 4 post -natals (P0, P3, P7, P21) of the mus musculus model organism. Our study identified 8 distinct cell types, novel marker transcripts (coding/lncRNAs) and also, differential expression and functional enrichment analysis revealed cardiomyocyte subpopulations associated with cardiac function; meanwhile modular co-expression analysis reveals cell-specific functional insights for lncRNAs during myocardial development, including a potential association with key genes related to disease and the “fetal gene program”. Our results evidence the role of particular lncRNAs in heart development, and highlights the usage of co-expression modular approaches in the cell-type functional definition. As future work, we intend to identify the functional roles of these RNAs in the development of cardiac tissues and in cardiovascular diseases using experimental validation approaches.
6	ALYSON MATHEUS DE CARVALHO SOUZA Modelos de Processos Interativos em Realidade Virtual aplicados à Bioinformática Orientador : CESAR RENNO COSTA MEMBROS DA BANCA : CESAR RENNO COSTA RENAN CIPRIANO MOIOLI CLEBER DA SILVEIRA CAMPOS ROSILANE RIBEIRO DA MOTA JONATAS MANZOLLI Data: 29/11/2022 Mostrar Resumo A Realidade Virtual (RV) vem evoluindo rapidamente e se tornando mais acessível a outras áreas do conhecimento através da facilitação no desenvolvimento de experiências e na aquisição de equipamentos específicos. Com isso, várias oportunidades de pesquisa são criadas ao integrar a RV com outras áreas do conhecimento. Nas neurociências e ciências cognitivas, a RV vem sendo utilizada de duas principais formas - como meio para trazer o mundo real ao laboratório, através de simulações, aumentando a validade ecológica dos experimentos ou como uma plataforma para criar situações impossíveis, estudando os usuários por uma janela que antes não estava disponível. Na educação, a RV tem sido vista como um meio para incluir outras formas de ensino no dia a dia do aluno, saindo do ensino tradicional e aumentando o engajamento com ideias como a cognição corporificada, utilizando o corpo para aprender e guardar informação. Baseado nessas vertentes de integração da RV, essa tese cumulativa apresenta nove trabalhos desenvolvidos dentro dessas duas temáticas, visando a proposição e implementação de novas metodologias de trabalho nas ciências cognitivas, neurociências, artes e educação utilizando RV. Os trabalhos apresentados são discutidos quanto a sua relevância e seus aspectos inovadores e, por fim, concluímos algumas oportunidades de trabalhos futuros em cima dos textos apresentados. Mostrar Abstract Virtual Reality (VR) has been evolving rapidly and becoming more accessible to other areas of research through an easier development of experiences and easier acquisition of specific equipment. As a result, several research opportunities are created by integrating VR with other areas of knowledge. In neurosciences and cognitive sciences, VR has been used in two main ways - to bring the real world to the laboratory through simulations, increasing the ecological validity of experiments, or as a platform to create impossible situations, studying users through a window that was not available before. In education, VR has been seen as means to include other forms of teaching in the student’s daily life, moving away from traditional teaching and increasing engagement with ideas such as embodied cognition, using the body to learn and store information. Based on these aspects of VR integration, this cumulative thesis presents nine works developed within these two themes, aiming at proposing and implementing new work methodologies in cognitive sciences, neurosciences, arts, and education using VR. The works presented are discussed regarding their relevance and innovative aspects, and, finally, we conclude some opportunities for future work on top of the texts presented.
7	LUCAS MARQUES DA CUNHA DESENVOLVIMENTO DE ABORDAGEM COMPUTACIONAL PARA ANÁLISE E IDENTIFICAÇÃO DE PEPTÍDEOS POLIMÓRFICOS Orientador : GUSTAVO ANTONIO DE SOUZA MEMBROS DA BANCA : FABIO PASSETTI ADRIANA FERREIRA UCHOA DANIEL CARLOS FERREIRA LANZA GUSTAVO ANTONIO DE SOUZA PAULO COSTA CARVALHO Data: 29/11/2022 Mostrar Resumo A abordagem proteômica permite estudos em larga escala da expressão proteica em diferentes tecidos e fluidos corporais, tendo como objetivo identificar e quantificar o conteúdo proteico total. No processo de análise proteômica, a identificação de proteínas ainda apresenta lacunas, apesar dos grandes avanços na área. Frequentemente, um espectrômetro de massa é utilizado para gerar valores de massa/carga das amostras. Após esse processo, geralmente utiliza-se um banco de dados de proteínas referência (por exemplo, UniProt) para identificação das proteínas. Porém, utilizar uma base de referência limita as análises de identificação das proteínas, uma vez que não contém as variações que ocorrem no DNA, que podem impactar na sequência de aminoácidos, ocasionando identificação incorreta ou impossibilitando o processo. Nesse contexto, existem diversas bases de dados personalizadas que incorporam tais variações genéticas. Embora apresentem bons resultados, também se limitam devido à ausência de algumas mutações, tornando-se outro problema no processo de identificação. Um banco de dados de proteogenômica (dbPepVar) criado aqui combina informações de variação genética do dbSNP com sequências de proteínas do RefSeq do NCBI. Conjuntos de dados públicos de espectrometria de massa foram usados para realizar uma análise pan-câncer (Ovário, Colorretal, Mama e Próstata), permitindo a identificação de variações genéticas únicas. No total, 3.726 peptídeos variantes foram identificados em amostras de câncer de ovário, 2.543 em próstata, 2.661 em mama e 2.411 em câncer de cólon-retal. Uma análise de frequência mutacional mostrou genes envolvidos nos processos de progressão tumoral, sensibilidade à quimioterapia e risco de suscetibilidade ao câncer. Curiosamente, em muitas amostras, foram identificados peptídeos C-terminais de proteínas encurtadas originárias de eventos de códon de terminação prematura (PTC). Isso indica que tais proteínas escaparam do decaimento mediado por mutações Nonsense (NMD) e, não surpreendentemente, os genes da maquinaria NMD também estão mutados nas mesmas amostras. Isso sugere que o vestígio do transcrito truncado pode estar associado à ineficiência da maquinaria NMD causada por mutações genéticas. Em perspectiva, o portal web desenvolvido bem como as análises realizadas podem direcionar estudos para identificar novos alvos terapêuticos para diferentes tipos de câncer, podendo-se também utilizar nosso banco de dados para caracterização de variantes em amostras de antecedentes genéticos desconhecidos, como amostras arquivadas. O portal está disponível em: https://bioinfo.imd.ufrn.br/dbPepVar/. Mostrar Abstract The proteomic approach allows large-scale studies of protein expression in different tissues and body fluids, aiming to identify and quantify the total protein content. In the proteomic analysis process, protein identification still presents limitations despite major advances in the area. Frequently, a mass spectrometer is used to generate mass/charge values of the samples. After this process, a reference protein database (eg, UniProt) is usually used to identify proteins. However, using a reference database limits the analysis of the identification of the proteins, since it does not contain the variations in the DNA that can impact the sequence of amino acids, causing incorrect identification or making the process impossible. In this context, there are several custom databases that incorporate such genetic variations. Although they present good results, they are also limited due to the absence of some mutations, becoming another problem in the identification process. A proteogenomics database (dbPepVar) created here combines genetic variation information from dbSNP with protein sequences from NCBI's RefSeq. Public mass spectrometry datasets were used to perform a pan-cancer analysis (Ovarian, Colorectal, Breast, and Prostate), allowing the identification of unique genetic variations. In total 3,726 variant peptides were identified in ovarian cancer samples, 2,543 in prostate, 2,661 in breast and 2,411 in colon-rectal cancer. A mutational frequency analysis showed genes involved in tumor progression processes, sensitivity to chemotherapy, and risk of susceptibility to cancer. Interestingly, in many samples, C-terminal peptides from shortened proteins originating from premature termination codon (PTC) events were identified. This indicates that such proteins had escaped Nonsense-mediated decay (NMD) and, not surprisingly, NMD machinery genes are also mutated in the same samples. This suggests that the vestige of the truncated transcript may be associated with NMD machinery inefficiency caused by gene mutations. In perspective, the web portal developed as well as the analysis performed may direct studies to identify new therapeutic targets for different cancer, and one can also use our database for characterization of variants in samples of unknown genetic background, such as archived samples. The portal is available in: https://bioinfo.imd.ufrn.br/dbPepVar/
8	DANIEL SOARES BRANDAO Investigação das funções cognitivas do sono e dos sonhos através de eletroencefalografia, relatos verbais e jogos eletrônicos Orientador : SIDARTA TOLLENDAL GOMES RIBEIRO MEMBROS DA BANCA : DANIEL YASUMASA TAKAHASHI FELIPE BEIJAMINI GUILHERME BROCKINGTON MARIO ANDRE LEOCADIO MIGUEL SIDARTA TOLLENDAL GOMES RIBEIRO Data: 14/12/2022 Mostrar Resumo O sono é um estado corporal e mental importante para a eliminação de toxinas geradas pelo metabolismo e para a consolidação de memórias. É um estado bastante conservado ao longo da evolução animal, sendo presente em todas as espécies de répteis, aves e mamíferos já estudadas, bem como diversos invertebrados. Por sua alta conservação evolutiva, é bem provável que o sono tenha exercido grande influência sobre a constituição dos diferentes comportamentos encontrados nos animais. A importância do sono para a consolidação de memória tem estabelecido o papel fundamental deste fenômeno para a melhoria do desempenho em tarefas. Além disso, recentemente demonstrou-se que o sonho também está envolvido no aperfeiçoamento da realização de tarefas. A Teoria de Simulação de Ameaças de Revonsuo e Valli (2000) propôs que o sonho teria sido selecionado ao longo da evolução por seu valor adaptativo, funcionando como alerta para a possibilidade de ameaças futuras. Teria sido a evolução dos distintos hábitos de presas e predadores influenciada pelo sono e/ou pelos sonhos? A investigação do papel do sono e dos sonhos na relações presa versus predador em humanos é bastante promissora, tanto pelo fato de humanos poderem comunicar o conteúdo dos sonhos que tiveram, quanto pela possibilidade de elaborar tarefas complexas usando jogos de videogame, que simulem situações presa versus predador que seriam difíceis de emular em modelos animais. Nesse contexto, foram realizados experimentos com 15 duplas de voluntários, as quais vieram conjuntamente ao laboratório e tiveram a atividade cerebral registrada simultaneamente através de eletroencefalografia (EEG). Durante o registro, cada dupla engajou-se num jogo eletrônico interativo por 45 minutos, depois dispuseram-se a dormir por 2 horas e em seguida jogou novamente por mais 45 minutos. Durante o jogo, um dos participantes foi sorteado para atuar no papel de presa e o outro para atuar no papel de predador. A presa poderia abater o oponente apenas com socos, enquanto o predador dispunha também de uma arma de fogo. Portanto, o predador possuía grande vantagem na disputa direta com a presa, assim como ocorre na natureza. Os relatos de sonho dos participantes foram analisados através da opinião de 4 avaliadores independentes que revisaram os relatos de forma cega. Os avaliadores indicaram o grau de certeza de que o participante efetivamente sonhou e grau de clareza dessa lembrança; eles também definiram se os sonhos estavam relacionados ao jogo, ao laboratório, à vida pessoal, a ser presa e a ser predador. Os sinais de EEG foram analisados de maneira automática, através de algoritmos de processamento de dados desenvolvidos especificamente para esse estudo, adequando a sequência de transformações dos dados após inspeção visual dos resultados. Foram avaliadas a potência das oscilações em bandas de frequências características, as propriedades de oscilações lentas e dos fusos do sono, as características dos estágios do sono e escalas do sono. Foi também aplicada ao sinal de EEG uma técnica analítica que busca por padrões recorrentes de distribuição espacial da atividade elétrica; tais microestados estão relacionados às atividades de circuitos neurais específicos através das etiquetas “A”, “B”, “C“ e “D”. Os resultados indicam que as presas relataram sonhar mais do que os predadores, e que a pontuação das presas esteve positivamente correlacionada com o quanto o relato de sonho estava relacionado com o jogo. As presas também foram mais beneficiadas do que os predadores por terem um sono mais profundo, o que também se correlacionou com a pontuação da presa. As presas tiveram maior potência em delta (1 a 3 Hz), que também favoreceu a pontuação da presa, principalmente através da amplitude das oscilações lentas durante o sono. Não foi encontrado qualquer efeito significativo para os fusos do sono. As presas tiveram seu desempenho prejudicado pelo número de ocorrências do microestado C, que está associado a ativações neurais não relacionadas especificamente com a tarefa proposta. Em conjunto, os resultados sugerem que as ondas lentas durante o sono e o conteúdo dos sonhos relacionado ao jogo influenciam favoravelmente o desempenho dos participantes no papel de presa, mas não de predador. Uma possível explicação para esta dicotomia seria que o sono e os sonhos são importantes para a adaptação a situações desafiadoras, não sendo tão relevantes em situações às quais o indivíduo já se encontra adaptado. Mostrar Abstract Sleep is an important bodily and mental state for the elimination of toxins generated by metabolism and for the consolidation of memories. It is a very conserved state throughout animal evolution, being present in all species of reptiles, birds and mammals already studied, as well as several invertebrates. Due to its high evolutionary conservation, it is very likely that sleep had a great influence on the constitution of the different behaviors found in animals. The importance of sleep for memory consolidation has established the fundamental role of this phenomenon in improving task performance. Furthermore, it has recently been shown that dreaming is also involved in improving task performance. The Threat Simulation Theory by Revonsuo and Valli (2000) proposed that dreaming would have been selected throughout evolution for its adaptive value, functioning as an alert for the possibility of future threats. Could the evolution of the different habits of prey and predators have been influenced by sleep and/or dreams? The investigation of the role of sleep and dreams in prey versus predator relationships in humans is quite promising, both because humans can communicate the content of dreams they had, and because of the possibility of developing complex tasks using video games that simulate prey versus predator situations that would be difficult to emulate in animal models.In this context, experiments were carried out with 15 pairs of volunteers, who came together to the laboratory and had their brain activity recorded simultaneously through electroencephalography (EEG). During the recording, each pair engaged in an interactive electronic game for 45 minutes, then laid to sleep for 2 hours and then played again for another 45 minutes. During the game, one of the participants was randomly selected to play the role of prey and the other to play the role of predator. The prey could kill the opponent only by punches, while the predator also had a firearm. Therefore, the predator had a great advantage in the direct dispute with the prey, as it happens in nature. Dream reports were analyzed through the opinion of 4 independent evaluators who reviewed the reports blindly. The evaluators indicated the degree of certainty that the participant actually dreamed and the degree of clarity of this memory; they also defined whether the dreams were related to the game, the laboratory, personal life, being prey and being a predator. The EEG signals were analyzed automatically, through data processing algorithms developed specifically for this study, adapting the sequence of data transformations after visual inspection of the results. The power of oscillations in characteristic frequency bands, the properties of slow oscillations and sleep spindles, the characteristics of sleep stages and sleep scales were evaluated. An analytical technique that searches for recurrent patterns of spatial distribution of electrical activity was also applied to the EEG signal; such microstates are related to the activities of specific neural circuits through the labels “A”, “B”, “C” and “D”.The results indicate that preys reported dreaming more than predators, and that prey scores were positively correlated with how much the dream report was related to the game. Prey also benefited more than predators from having a deeper sleep, which also correlated with prey score. The prey had higher power in delta (1 to 3 Hz), which also favored the prey score, mainly through the amplitude of the slow oscillations during sleep. No significant effect was found for sleep spindles. The prey's performance was impaired by the number of occurrences of the microstate C, which is associated with neural activations not specifically related to the proposed task.Taken together, the results suggest that slow waves during sleep and game-related dream content favorably influence participants' performance in the prey role, but not in the predator role. A possible explanation for this dichotomy would be that sleep and dreams are important for adapting to challenging situations, not being so relevant in situations to which the individual is already adapted.

2021

	Dissertações
1	PITÁGORAS DE AZEVEDO ALVES SOBRINHO RNA-Gatherer: uma ferramenta computacional para anotação de RNAs não-codificantes em organismos pouco conhecidos Orientador : WILFREDO BLANCO FIGUEROLA MEMBROS DA BANCA : WILFREDO BLANCO FIGUEROLA Jorge Estefano de Santana Souza ÂNDREA KELY CAMPOS RIBEIRO DOS SANTOS Data: 29/01/2021 Mostrar Resumo RNAs não-codificantes são moléculas que desempenham papéis decisivos em vários tipos de regulação genética. Identificar eles é essencial para entender a genética de uma espécie. Diversos fatores, como: baixo nível de expressão, amplo espectro de subtipos, atributos diversos, funções heterogêneas e ausência de homologia entre espécies; fazem a detecção de ncRNAs um desafio. Estratégias de bioinformática recentes para detecção genes de ncRNA tentam identificar suas localizações nos genomas e suas estruturas secundárias, usando modelos de covariância e inteligência artificial. A co-expressão desses genes também vem sendo analisada computacionalmente para revelar anotações funcionais. No entanto, não há consenso sobre quais métricas e parâmetros usar no processo de prever as funções dessas moléculas. Em organismos pouco conhecidos, como Arapaima gigas, a falta de informações de referência aumenta essa dificuldade. Além disso, principalmente para RNAs longos não- codificantes, há poucas funções conhecidas, o que torna difícil explicar os papéis desses genes e avaliar a qualidade das predições. Neste trabalho, é descrito um software para descobrir os genes não-codificantes, de diversos tipos, e suas funções em espécies de eucariotos. Este foi validado com uma espécie modelo, o camundongo, e utilizado para explorar o panorama de ncRNAs numa espécie pouco estudada, o Arapaima gigas. A comparação da semelhança entre funções de genes co-expressos nos permitiu definir níveis de confiança para as métricas de calcular co- expressão, e assim, desenvolver uma pipeline de predição funções para lncRNA, a qual inclui métricas para calcular correlações não- lineares. O pacote de software descrito aqui fez 63307 anotações não-codificantes em A. gigas, incluindo 11 tipos de ncRNA e 4 de regiões cis-regulatórias. Dessas anotações, apenas 706 eram similares a ncRNAs já conhecidos em outras espécies e os restantes não haviam sido descritos anteriormente. A análise exploratória dos lncRNAs também revelou 19854 lncRNAs de tecido específico e 256 lncRNAs expressos de forma onipresente. Prever as funções dessas moléculas também revelou que elas estão envolvidas na pigmentação da pele, diferenciação sexual, crescimento e defesa contra tumores. Mostrar Abstract Non-coding RNAs are molecules that play decisive roles in several types of gene regulation. Identifying them is necessary for understanding the genetics of a species. Several factors, such as: low level of expression, the broad spectrum of subtypes, diverse attributes, heterogeneous functions and absence of homology between species; make the detection of ncRNAs genes a challenge. The latest bioinformatics strategies for detecting ncRNA genes have tried to identify their locations in the genomes and their secondary structures, using covariance models and artificial intelligence. The co-expression of these genes has been computationally analyzed in order to reveal their functional annotations. However, there is no consensus on which metrics and parameters to use in the process of predicting the functions of these molecules. In organisms little known, such as Arapaima gigas, the lack of reference information increases the difficulty. Additionally, even for known long non-coding RNAs, there is little functional information, which makes it difficult to explain the roles of these genes. In this work, we describe a software for discovering the non-coding genes, including their diverse types, and their functions in eukaryotic genomes. It was validated by annotating a model species (Mus musculus) and then used to explore the landscape of ncRNA in Arapaima gigas. Comparing the similarity between the functions of co- expressed genes allowed us to define confidence levels for the metrics that measure co-expression, and thus, develop a pipeline for predicting lncRNA functions, which includes metrics for non-linear correlations. The described software suite made 63307 non-coding annotations in A. gigas, including 11 types of ncRNA and 4 types of cis-regulatory regions. Of these annotations, only 706 are similar to ncRNAs already known in other species and the remaining were never described before. The exploratory analysis of lncRNA also revealed 19854 tissue specific lncRNAs and 256 lncRNAs ubiquitously expressed. Predicting the functions of these molecules revealed RNAs involved in skin pigmentation, sex differentiation, growth and defense against tumors.
2	TAYRONE DE SOUSA MONTEIRO Engenharia reversa de redes regulatórias do meduloblastoma e inferência de reguladores mestres Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN MEMBROS DA BANCA : RODRIGO JULIANI SIQUEIRA DALMOLIN RITA MARIA CUNHA DE ALMEIDA MARIALVA SINIGAGLIA Data: 31/08/2021 Mostrar Resumo O meduloblastoma é um câncer do cerebelo que afeta majoritariamente a população pe- diátrica. Este tumor é classificado em quatro subgrupos molecularmente diferentes (WNT, SHH, grupo 3 e grupo 4), onde cada cada um também apresenta características clínicas distintas. Alguns drivers epigenéticos do meduloblastoma já foram descritos por alguns estudos, entretanto, a inferência de suas redes regulatórias e de seus reguladores mestres só é citada uma vez, na literatura. Aqui, foram inferidas as redes regulatórias dos subgrupos SHH, grupo 3 e grupo 4. Após isso, foi identificado um grupo de 10 unidades regulatórias simultaneamente identificadas como reguladores mestres e regulões diferencialmente me- tilados, posteriormente nomeado de “regulões de interesse”. Foi percebido que o padrão de atividade destes regulões varia de acordo com o subgrupos. A análise de enriquecimento de vias do KEGG também foi aplicada, levando em conta o conteúdo de todos os regulões de interesse em cada rede regulatória. Dois termos do KEGG foram identificados conco- mitantemente para os três subgrupos investigados. Este trabalho auxilia na compreensão do reguloma do meduloblastoma, identificando possíveis reguladores mestres, analisando seu metiloma e indicando potenciais alvos terapêuticos. Mostrar Abstract Medulloblastoma (MB) is a cancer of the cerebellum occurring most frequently in the pe- diatric population. This tumor is classified into four distinct molecular subgroups (WNT, SHH, group 3 and group 4), each one also presenting unique clinical features. Some medul- loblastoma epigenetic drivers have been reported by some studies, although the inference of regulatory networks and master regulators have been mentioned only once. Here, we inferred the transcriptional regulatory networks of SHH, group 3 and group 4 subgroups and recognized 10 regulatory units as master regulators and differentially methylated regulons, simultaneously, for all investigated subgroups, subsequently named as the “re- gulons of interest”. The activity pattern of these regulons was observed to vary across subgroups. KEGG pathway enrichment analysis was also done, considering the content of all regulons of interest in each regulatory network. Two KEGG terms were found con- comitantly for all investigated subgroups. This work contributes to the comprehension of the medulloblastoma regulome, identifying prospective master regulators, analyzing their methylome and pointing to potential therapeutic targets.
3	LUKAS IOHAN DA CRUZ CARVALHO Analises de redes moleculares de co-expressão genica revelam vias importantes na doença de Alzheimer e Paralisia Supranuclear Progressiva Orientador : MARCOS ROMUALDO COSTA MEMBROS DA BANCA : MARCOS ROMUALDO COSTA RODRIGO JULIANI SIQUEIRA DALMOLIN TARCISO ANDRE FERREIRA VELHO RICARDO AUGUSTO DE MELO REIS Data: 28/09/2021 Mostrar Resumo As demências, doenças neurodegenerativas onde há perda de funções cognitivas, tiveram sua incidência aumentada nos últimos anos, principalmente por causa do aumento da longevidade na população mundial como um todo. O entendimento do início e progressão dessas patologias pode ajudar na identificação de tratamentos preventivos para essas doenças. Neste trabalho, utilizando dados humanos referentes a duas doenças neurodegenerativas (Alzheimer e Paralisia Supranuclear Progressiva) de duas regiões cerebrais (córtex temporal e cerebelo) e dois modelos animais, 5XFAD de amiloidopatia e TauD35 de taupatia, fizemos uma análise integrativa a nível gene/transcrito aliada a uma análise de co-expressão para identificar similaridades e discrepâncias nos processos biológicos afetados por essas duas doenças. Para que pudéssemos comparar os diferentes dados utilizamos a única variável comum em todos os datasets: a idade da morte. Desse modo dividimos os dados humanos em 3 grupos: A (70- 80), B (81-89) e C (90+); e os animais em grupos de 4 meses, 12 meses, 17 meses e 18 meses. Os resultados da análise transcricional mostraram que alterações imunes estão presentes em AD apenas no córtex temporal, e não no cerebelo, e que alteração na transmissão sináptica ocorre tardiamente (grupos B e C), e são encontradas apenas quando utilizamos genes com isoformas alteradas no processo de enriquecimento funcional em conjunto com os genes diferencialmente expressos. Na PSP, todas as alterações encontradas imunes e de transmissão sináptica são encontradas apenas nos dados de córtex temporal; no entanto, todas as alterações são específicas para o grupo A. Nos modelos animais, as alterações em 5XFAD são semelhantes às encontradas em AD, alterações da resposta imune-inflamatória presentes em grupos precoces (4 meses) e sinápticas em um grupo mais tardio (18 meses). Em TauD35, no entanto, as alterações imunes ocorrem apenas no grupo de 17 meses, enquanto as sinápticas foram no grupo de 4 meses. Além desses resultados, observamos que as alterações em isoformas (gDTUS) estão presentes quase que exclusivamente em humanos, e principalmente em AD. Para refinar os nossos resultados, utilizamos uma abordagem de coexpressão e identificamos módulos com expressão e assinaturas gênicas específicas. Em AD os módulos envolvendo sinapses não apresentavam diferenças para o controle, no entanto, os módulos relativos à reposta imune-inflamatória, matriz extracelular e reposta a fator de crescimento estavam com maior atividade nos indivíduos com AD. Na PSP, os módulos com atividade sináptica apresentaram maior atividade em relação ao controle, enquanto aqueles relacionados com resposta imune tiveram uma atividade menor. Para confirmar a identidade genética desses módulos, utilizamos os genes encontrados nos mesmos e observamos que havia correspondência entre os módulos relacionados à resposta imune-inflamatória com células microgliais e sinápticos com neurônios glutamatérgicos. Além desses achados, também encontramos que a resposta imune-inflamatória e associada, em AD, a região analisada, dado os resultados encontrados na análise de outro dataset (MSBB). Por fim, encontramos genes identificados como fatores de risco para AD, como PTK2B, TREM1 e TREM2 nos módulos, além de MOB e SA4D nos módulos identificados na PSP. Em conjunto, esses resultados sugerem que no modelo de amiloidopatia e em AD, alterações na sinalização sináptica formam um feedback positivo com a resposta imune-inflamatória, sendo esta posterior a primeira; enquanto no modelo de taupatia e PSP, os efeitos na inflamação são secundários às alterações sinápticas. Mostrar Abstract The incidence of neurodegenerative diseases leading to impairment of cognitive functions and dementia have increased in recent years, mainly because of enhanced longevity in the population worldwide. Understanding the onset and progression of these pathologies can help to develop preventive and disease-modifying treatments for these diseases. In this work, using RNA-seq data obtained from two brain regions (temporal cortex and cerebellum) of human patients diagnosed with neurodegenerative diseases (Alzheimer or Progressive Supranuclear Palsy) and two animal models, 5XFAD of amyloidopathy and TauD35 of tauopathy, we performed an integrative analysis at the gene/transcript level combined with a co- expression analysis to identify similarities and discrepancies in the biological processes affected by these two diseases. So that we could compare the different data, we used the only common variable in all datasets: age of death. Thus, we divided the human data into 3 groups: A (70-80), B (81-89) and C (90+); and animals in groups of 4 months, 12 months, 17 months and 18 months. The results of the transcriptional analysis showed that gene expression alterations associated with immune-inflammatory alterations are present in AD only in the temporal cortex and not in the cerebellum, and that alteration related to synaptic transmission occurs late (groups B and C), and are found only when we use genes with isoform switches in the analysis of functional enrichment in conjunction with differentially expressed genes. In PSP, all changes associated with immune-inflammatory responses and synaptic transmission are found exclusively in temporal cortex data; however, all changes are specific for group A. In animal models, changes in 5XFAD are similar to those found in AD human brains, with gene expression alterations associated with the immune-inflammatory response present early (4 months) and synaptic terms only at late pathological stages (18 months). In TauD35 mice, this pattern is inverted, with gene expression changes associated with immune- inflammatory response identified only late (17-month group), whereas those associated with synapses could be identified early (4-month group). In addition to these results, we observed that changes in isoforms (gDTUS) are present almost exclusively in humans, and especially in AD. To refine our results, we used a co-expression approach and identified modules with specific expression and gene signatures. In AD, modules involving synapses did not differ from control, however, modules related to immune-inflammatory response, extracellular matrix and growth factor response were more active in individuals with AD. In PSP, modules with synaptic activity showed greater activity compared to control, while those related to immune response had a lower activity. To confirm the genetic identity of these modules, we also mappedmodule-specific genes to different cell types of the brain using single-cell RNA-seq data. This analysis revealed a correspondence between modules related to the immune-inflammatory response with microglial cells and, to a lesser extent in AD, astrocytes, synaptic cells with glutamatergic neurons and myelination with oligodendrocytes. Finally, we show that genes identified as risk factors for AD or PSP are present in specific co-expression. Together, these results suggest that in the amyloidopathy model and in AD, alterations in synaptic signaling form a positive feedback with the immune inflammatory response, the latter being the first; while in the model of tauopathy and PSP, the effects on inflammation are secondary to synaptic changes.
4	ANDRÉ LUIZ DE LUCENA MOREIRA Estratégias evolutivas aplicadas a redes de regulação gênicas artificiais Orientador : CESAR RENNO COSTA MEMBROS DA BANCA : CESAR RENNO COSTA WILFREDO BLANCO FIGUEROLA DIOGO SANTOS PATA Data: 29/09/2021 Mostrar Resumo Redes de regulação gênica (GRNs) influenciam a resposta comportamental dos indivíduos quando submetidos a diferentes contextos, além de participarem de processos extremamente importantes para a vida, como diferenciação celular, metabolismo e evolução. Modelos computacionais de redes de regulação gênica, associados à inteligência artificial, possibilitam-nos criar soluções adaptáveis e independentes de contexto. Neste trabalho, simulamos a evolução de GRNs com o objetivo de avaliar como eventos de variação de ambiente e crescimento de rede impactam na capacidade de aprendizado do modelo. Para isso, criamos populações de indivíduos representados por redes de regulação gênicas artificiais (AGRNs), com características físicas e comportamentos baseados em bactérias. Submetemos então essas populações às tarefas: “Orientação a Objetivo”, “Fototaxia” e “Fototaxia com Obstáculos”, avaliando como os eventos de duplicação de gene único, duplicação de genoma completo e mudança de contexto afetam a evolução da população. Os resultados indicaram que um aumento gradual de complexidade das tarefas realizadas é benéfico para a evolução do modelo. Além disso, vimos que redes de regulação gênica maiores são necessárias para tarefas mais complexas, sendo a duplicação de gene único uma boa estratégia evolutiva para o crescimento dessas redes, ao contrário da duplicação de genoma completo. Estudar como GRNs evoluíram em meio biológico nos possibilita não só melhorar os modelos computacionais produzidos, como também prover insights sobre aspectos e eventos que influenciaram o desenvolvimento da vida na terra. Mostrar Abstract Evolution optimizes cellular behavior throughout sequential generations by selecting the successful individual cells in a given context. As gene regulatory networks (GRNs) determine the behavior of single cells by ruling the activation of different processes - such as cell differentiation and death - how GRNs change from one generation to the other might have a relevant impact on the course of evolution. It is not clear, however, which mechanisms that affect GRNs effectively favor evolution and how. Here, we use a population of computational robotic models controlled by artificial gene regulatory networks (AGRNs) to evaluate the impact of different genetic modification strategies in the course of evolution. The virtual agent senses the ambient and acts on it as a bacteria in different phototaxis-like tasks - orientation to light, phototaxis, and phototaxis with obstacles. We studied how the strategies of gradual and abrupt changes on the AGRNs impact evolution considering multiple levels of task complexity. The results indicated that a gradual increase in the complexity of the performed tasks is beneficial for the evolution of the model. Furthermore, we have seen that larger gene regulatory networks are needed for more complex tasks, with single-gene duplication being an excellent evolutionary strategy for growing these networks, as opposed to full-genome duplication. Studying how GRNs evolved in a biological environment allows us to improve the computational models produced and provide insights into aspects and events that influenced the development of life on earth.
5	PAULO HENRIQUE LOPES CARLOS O impacto das intervenções não farmacêuticas governamentais em cidades brasileiras durante o primeiro surto pandêmico de SARS-CoV-2: Um estudo de modelagem computacional baseado em agentes na cidade de Natal Orientador : WILFREDO BLANCO FIGUEROLA MEMBROS DA BANCA : WILFREDO BLANCO FIGUEROLA CESAR RENNO COSTA RENAN CIPRIANO MOIOLI LEANDRO DE ALMEIDA Data: 25/10/2021 Mostrar Resumo A primeira onda da pandemia de síndrome respiratória aguda grave coronavírus 2 (SARS- CoV-2) atingiu quase todas as cidades do Brasil no primeiro trimestre de 2020 e durou vários meses. Apesar do esforço dos governos estaduais e municipais, uma resposta não homogênea em todo o país resultou em um número de mortos entre os mais altos registrados globalmente. Para avaliar o impacto das intervenções governamentais não farmacêuticas aplicadas por diferentes cidades - como o fechamento de escolas e empresas em geral - na evolução e propagação da epidemia de SARS-CoV-2, construímos um modelo epidemiológico baseado em agentes ajustado às singularidades de cidades isoladas. O modelo incorpora informações demográficas detalhadas, redes de mobilidade segregadas por segmentos econômicos e leis de restrição promulgadas durante o período pandêmico. Como estudo de caso, analisamos como a cidade de Natal - uma capital de médio porte - reagiu à pandemia. Embora nossos resultados indiquem que a resposta governamental foi efetiva, os atos restritivos de mobilidade salvaram muitas vidas, nossas simulações mostraram que a paralização das atividades escolares foram fundamentais para evitar um elevado número de óbitos (o aumento seria em torno de 525.93%). O fechamento autentico das atividades trabalhistas diminuiria o número de óbitos em aproximadamente 67.54% e a religiosa em torno de 26.7%. A falta de intervenção teria resultado num cenário catastrófico de 6779 óbitos, esse valor corresponde a cerca de 0.77% da população natalense. As simulações mostram que uma análise compartimental dos cenários alternativos pode informar os formuladores de políticas sobre as medidas mais impactantes para novos surtos de pandemia e apoiar decisões futuras à medida que a pandemia avança. Mostrar Abstract The first wave of the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) pandemic hit almost all cities in Brazil in early 2020 and lasted for several months. Despite the effort of local state and municipal governments, an inhomogeneous nationwide response resulted in a death toll among the highest recorded globally. To evaluate the impact of the nonpharmaceutical governmental interventions applied by different cities - such as the closure of schools and business in general - in the evolution and epidemic spread of SARS-CoV-2, we constructed a full-sized agent-based epidemiological model adjusted to the singularities of single cities. The model incorporates detailed demographic information, mobility networks segregated by economic segments, and restricting bills enacted during the pandemic period. As a case study, we analyzed how the City of Natal - a midsized state capital - reacted to the pandemic. Although our results indicate that the governmental response was suboptimal, the restrictive mobility acts saved many lives, our simulations showed that the suspension of school activities was essential to avoid a high number of deaths (the increase would be around 525.93%). The authentic closing of Work activities would decrease the number of deaths by approximately 67.54% and religious activities by 26.7%. The absence of intervention would result in a catastrophic scenario of 6779 deaths, this number corresponds to about 0.77% of the Natal city population. The simulations show that a compartmental analysis of the alternative scenarios can inform policymakers about the most impactful measures for further surges of the pandemic and support future decisions as the pandemic progresses.
6	ELISEU JAYRO DE SOUZA MEDEIROS Bases genéticas associadas à classificação sorológica em Leptospira: um estudo de caso do sorogrupo Sejroe Orientador : TETSU SAKAMOTO MEMBROS DA BANCA : TETSU SAKAMOTO Jorge Estefano de Santana Souza ANNA MONTEIRO CORREIA LIMA Maria Raquel Venturim Cosate Data: 30/11/2021 Mostrar Resumo A leptospirose é uma zoonose amplamente distribuída, causada por cepas de bactérias patogênicas do gênero Leptospira (Filo Spirochaetes). Seus agentes são comumente classificados com base em suas características antigênicas em sorogrupos e sorovares, que são relevantes para estudos epidemiológicos e desenvolvimento de vacinas. No entanto, os métodos utilizados para isso são considerados trabalhosos e requerem uma infraestrutura especializada. Alguns métodos moleculares foram propostos para acelerar esses procedimentos, mas ainda não podem substituir os testes imunológicos, exigindo assim um maior conhecimento da base genética subjacente à classificação sorológica. Neste trabalho, nos concentramos em elucidar os fatores genéticos determinantes do sorogrupo Sejroe, que é um dos sorogrupos mais prevalentes da pecuária. Para isso realizamos uma análise genômica comparativa utilizando mais de 700 amostras de leptospiras disponíveis no banco de dados públicos. A análise mostrou que os genes que compõem o locus rfb são os principais fatores genéticos associados a classificação sorológica O locus rfb de amostras do sorogrupo Sejroe tem uma composição de gene conservada que difere da maioria dos outros sorogrupos. Hebdomadis e Mini foram os únicos sorogrupos cujas amostras apresentam locus rfb com composição gênica semelhante aos do sorogrupo Sejroe, corroborando com a similaridade antigênica compartilhada por eles. Finalmente, nós pudemos determinar uma pequena região no locus rfb em que cada um desses três sorogrupos pode ser distinguido por sua composição gênica. Este é o primeiro trabalho que utiliza um extenso repertório de dados genômicos de amostras de leptospira para elucidar as bases moleculares da classificação sorológica e abrir caminho para estratégias mais confiáveis baseadas em métodos moleculares de sorodiagnósticos. Mostrar Abstract Leptospirosis is a widely distributed zoonosis caused by pathogenic strains of bacteria of the genus Leptospira (Phylum Spirochaetes). Its agents are commonly classified based on their antigenic characteristics into serogroups and serovars, which are relevant for epidemiologic studies and vaccine development. However, the methods used for this are considered laborious and require a specialized infrastructure. Some molecular methods were proposed to accelerate these procedures, but they still can not replace the immunological tests, thus requiring a further understanding of the genetic basis underlying the serological classification. In this work, we focused on elucidating the genetic factors determinant for the serogroup Sejroe, which is one of the most prevalent serogroups in livestock. For this, we conducted a comparative genomic analysis using more than 700 leptospiral samples available in the public database. The analysis showed that the genes comprising the rfb locus are the main genetic factors associated with the serological classification. Samples from the Sejroe serogroup have an rfb locus with a conserved gene composition that differs from most other serogroups. Hebdomadis and Mini were the only serogroups whose samples have rfb locus with similar gene composition to those from serogroup Sejroe, corroborating with the serological affinity shared by them. Finally, we could determine a small region in the rfb locus in which each of those three serogroups can be distinguished by its gene composition. This is the first work that uses an extensive repertoire of genomic data of leptospiral samples to elucidate the molecular basis of the serological classification and open the road to more reliable strategies based on molecular methods for serodiagnosis.
	Teses
1	DIEGO MARQUES COELHO DO TECIDO À CÉLULA-ÚNICA: COMO O USO DE DIFERENTES TÉCNICAS AUXILIAM NA IDENTIFICAÇÃO DE MARCADORES DE EVENTOS BIOLÓGICOS? Orientador : MARCOS ROMUALDO COSTA MEMBROS DA BANCA : MYCHAEL VINÍCIUS DA COSTA LOURENÇO MARCOS ROMUALDO COSTA PATRICIA PESTANA GARCEZ RODRIGO JULIANI SIQUEIRA DALMOLIN TARCISO ANDRE FERREIRA VELHO Data: 31/05/2021 Mostrar Resumo O sequenciamento de RNA mensageiro em larga escala (RNAseq) permite avaliar a diversidade de transcritos expressos em um determinado momento de um sistema biológico. Através da bioinformática, podemos analisar os dados de sequenciamento para obter informações quantitativas sobre a expressão gênica, tais como a expressão diferencial de genes e suas isoformas (splices alternativos). Nesta tese, apresentamos dois estudos independentes que se valeram da bioinformática para obter informações relevantes sobre diferentes fenômenos biológicos. No primeiro caso, nós utilizamos dados de sequenciamento de RNAm em cérebros de pacientes com a doença de Alzheimer para estudar a expressão diferencial de genes e transcritos associadas com a progressão desta doença. Nós demonstramos que a análise de transcritos permite a identificação de alterações gênicas ignoradas em estudos anteriores avaliando apenas a expressão global dos genes. Utilizando dados de sequenciamento de RNAm em células únicas (scRNAseq), nós também mapeamos as alterações da expressão gênica no cérebro de pacientes com a doença de Alzheimer para tipos celulares específicos. Os resultados deste primeiro trabalho contribuem para uma melhor compreensão da patofisiologia da doença de Alzheimer e indicam potenciais alterações moleculares associadas com a doença em tipos celulares individuais. No segundo trabalho desenvolvido nesta tese, nós utilizamos a técnica de scRNAseq para estudar a diversidade de células progenitoras em estágios iniciais do desenvolvimento do neocórtex. Através de análises de expressão diferencial de genes e a utilização de uma abordagem utilizando redes de regulação da expressão gênica, nós identificamos o fator de transcrição Sox9 como um regulador-mestre do comportamento de diferentes subtipos de progenitores neurais. Confirmando estes achados da bioinformática, experimentos genéticos para manipular os níveis de expressão de Sox9 em progenitores neurais demonstraram a importância deste fator de transcrição na regulação da proliferação e diferenciação celular. Em conjunto, os resultados desta tese demonstram a importância da análise transcriptômica através de métodos complementares para uma melhor identificação das alterações da expressão gênica relevantes em diferentes contextos biológicos. Mostrar Abstract Large-scale messenger RNA sequencing (RNAseq) allows the evaluation of the diversity of transcripts expressed at a given moment in a biological system. Through bioinformatics, we can analyze the sequencing data to obtain quantitative information about gene expression, such as the differential expression of genes and their isoforms (alternative splices). In this thesis, we present two independent studies that used bioinformatics to obtain relevant information about different biological phenomena. In the first case, we used mRNA sequencing data in the brains of patients with Alzheimer's disease to study the differential expression of genes and transcripts associated with the progression of this disease. We have shown that the analysis of transcripts allows the identification of genetic changes ignored in previous studies by evaluating only the global expression of genes. Using single cell mRNA sequencing data (scRNAseq), we also map changes in gene expression in the brain of patients with Alzheimer's disease to specific cell types. The results of this first work contribute to a better understanding of the pathophysiology of Alzheimer's disease and pinpoints possible cell-type specific molecular mechanisms of the disease. In the second work developed in this thesis, we used the scRNAseq technique to study the diversity of progenitor cells in the early stages of the development of the neocortex. Through analysis of differential gene expression and the use of an approach using gene regulatory networks, we identified the transcription factor Sox9 as a master regulator of the behavior of different subtypes of neural progenitors. Confirming these findings from bioinformatics, genetic experiments to manipulate Sox9 expression levels in neural progenitors demonstrated the importance of this transcription factor in the regulation of cell proliferation and differentiation. Together, the results of this thesis demonstrate the importance of transcriptomic analysis through complementary methods for a better identification of relevant gene expression changes in different biological contexts.
2	PRISCILLA SUENE DE SANTANA NOGUEIRA SILVERIO 3D-QSARpy: Combinando estratégias de seleção de variáveis e várias técnicas de aprendizado de máquina para construir modelos QSAR Orientador : EUZEBIO GUIMARAES BARBOSA MEMBROS DA BANCA : AMANDA GONDIM DE OLIVEIRA ANNE MAGALY DE PAULA CANUTO ARAKEN DE MEDEIROS SANTOS EUZEBIO GUIMARAES BARBOSA JOAO PAULO MATOS SANTOS LIMA LAURA EMMANUELLA ALVES DOS SANTOS SANTANA DE OLIVEIRA Data: 04/08/2021 Mostrar Resumo Quantitative Structure Activity Relationship (QSAR) é uma tecnologia da área da química medicinal que busca esclarecer as relações existentes entre estruturas moleculares e suas respectivas atividades biológicas. Para isso, são construídos modelos QSAR a partir dos dados estruturais (2D, 3D ou 4D) provenientes de uma série de moléculas já testadas para uma determinada atividade. Através de predições realizadas por esses modelos, objetiva- se identificar quais modificações na molécula podem influenciar, reforçando ou não a resposta biológica. Tal tecnologia permite acelerar o desenvolvimento de novos compostos, reduzindo os custos destinados ao planejamento de fármacos. Considerando o contexto brevemente exposto, o presente trabalho apresenta como objetivo geral propor uma metodologia e testa-la em diversos conjuntos de dados através do desenvolvimento de uma ferramenta para QSAR-3D, então denominada 3D-QSARpy. A metodologia foi validada com sucesso através da aplicação da ferramenta em dois conjuntos de dados com resultados superiores aos previamente publicados. O primeiro deles envolvendo o tratamento de diabetes, alcançando r 2 pred de 0.91. O segundo conjunto referente ao tratamento de câncer, com r 2 pred =0.98. Por fim, duas aplicações da ferramenta foram realizadas, contribuindo com a identificação de novas estruturas moleculares bioativas usando diferentes abordagens. Sendo a primeira delas destinada ao tratamento da doença de chagas, incluindo a construção de modelos QSAR híbridos para três séries, obtendo, r 2 pred =0.8, 0.68 e 0.85. A segunda aplicação para construção de modelos QSAR-4D foi destinada ao tratamento da tuberculose com r 2 pred =0.72. Todos os experimentos realizados, sejam para validação ou para identificação dessas novas moléculas demonstraram, não somente a eficiência da metodologia proposta e da ferramenta desenvolvida, como também a versatilidade de aplicações possíveis por meio dela, seja seguindo o seu pipeline geral, seja utilizando-o parcialmente de modo combinado com outras ferramentas existentes. Mostrar Abstract Quantitative Structure Activity Relationship (QSAR) is a technology in the field of medicinal chemistry that seeks to clarify the relationships between molecular structures and their biological activities. For this, QSAR models are constructed from the structural data (2D, 3D or 4D) from a series of molecules already tested for a given activity. Through predictions made by these models, it is aimed to identify which modifications in the molecule can influence, reinforcing or not the biological response. Such technology allows accelerating the development of new compounds by reducing the costs for drug design. Considering the briefly exposed context, the present work aims to propose a methodology and test it in several data sets through the development of a tool for QSAR-3D, then called 3D-QSARpy. The methodology was successfully validated through the application of the tool in two sets of data, which results outperformed those previously published. The first set involving diabetes treatment, it reached r 2 pred =0.91. The second set referring to cancer treatment, with r 2 pred =0.98. Finally, two applications of the tool were performed, contributing to the identification of new bioactive molecular structures using different approaches. The first of which is intended for the treatment of chagas disease, including the construction of hybrid QSAR models for three series, obtaining r 2 pred = 0.8, 0.68 e 0.85. The second application was the construction of QSAR-4D for the tuberculosis treatment with r 2 pred = 0.72. It doesn’t matter if the experiments were for validation or for the identification of these new molecules. All of them demonstrated not only the efficiency of the proposed methodology and the developed tool, but also the versatility of possible applications with this methodology, either following its general pipeline or using it in a partially way combined with other existing tools.
3	RAFFAEL AZEVEDO DE CARVALHO OLIVEIRA ANDRADE Engenharia reversa da rede regulatória da sepse pediátrica e identificação de reguladores mestres Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN MEMBROS DA BANCA : RODRIGO JULIANI SIQUEIRA DALMOLIN CESAR RENNO COSTA JOAO PAULO MATOS SANTOS LIMA FABIO KLAMT MATHEUS AUGUSTO DE BITTENCOURT PASQUALI Data: 11/08/2021 Mostrar Resumo A sepse é uma síndrome inflamatória aguda muito marcante. É responsável pela maioria dos óbitosem leitos de UTI por todo o mundo. Por se tratar de uma condição estritamente inflamatória e, porcausa disso, multifatorial, existem poucos estudos relativos à regulação gênica em indivíduossépticos, menos ainda em pacientes pediátricos. A compreensão dos mecanismos regulatórios podeauxiliar no combate à sepse por identificar pontos-chave das vias de sinalização responsáveis pelaprogressão. Uma estratégia para identificação dos alvos regulatórios de uma doença é areconstrução da sua rede regulatória a partir de dados transcricionais públicos, identificando osprincipais fatores de transcrição como reguladores mestres. Devido à escassez de dados de sepse empacientes pediátricos e a grande diferença de resposta entre adultos e crianças, o objetivo destetrabalho é o de reconstruir a rede regulatória da sepse e identificar seus posíveis reguladoresmestres. Ao todo foram encontrados 15 fatores que são bons candidatos a regulador mestre nasepse. Especialmente o MEF2A, TRIM25 e RFX2 foram identificados sendo mais expressos empacientes sépticos do que em indivíduos saudáveis. Cada um deles possui uma função isolada e atéentão não relacionadas à sepse diretamente, porém quando analisadoso em conjunto, podem agircomo um tripleto, onde cada fator exerce seu papel em parceria com os outros dois. Os resultadosencontrados aqui apontam os três fatores como possíveis reguladores mestres da sepse pediátrica,podendo ser estudados no futuro de forma experimental para validar os resultados feitos in silico. Mostrar Abstract Sepsis is a acute inflammatory syndrome. Accountable for most obits in ICUs all over the world. Due to its multifactorial nature, there are few studies related to gene expression regulation in pediatric septic patients. Understanding the regulatory mechanisms of sepsis could help against sepsis and also help identify key points of signaling pathways responsible for disease progression. A good strategy to identify regulatory targets of a given disease is by reconstructing its regulatory network, as well as identify its possible master regulators. Given the lack of pediatric sepsis data and the huge difference between adult and pediatric immune response, the objective of this work is to reconstruct sepsis regulatory network and identify its putative master regulators. In summary, we found 15 transcription factors that have good chance of acting as master regulators in pediatric sepsis. Specially MEF2A, TRIM25 and RFX2 were identified upregulated in septic patients in comparison to healthy individuals. Each one of them have a distinct role, that was not directly related to sepsis. But, taken together, we hypothesize that they might act together to influenciate the disease prognosis. Results herein found points towards this three transcription factors as putative master regulators of pediatric sepsis. In vitro validation of the results found in silico could shed light in the different aspects of regulatory understanding of pediatric sepsis.
4	JOSIVAN RIBEIRO JUSTINO MODELO PARA IDENTIFICAÇÃO DE GENES BIMODAIS ASSOCIADOS AO PROGNÓSTICO NO CÂNCER Orientador : SANDRO JOSE DE SOUZA MEMBROS DA BANCA : Giovana Torrezan Jorge Estefano de Santana Souza MARCUS ALEXANDRE NUNES SANDRO JOSE DE SOUZA ÂNDREA KELY CAMPOS RIBEIRO DOS SANTOS Data: 16/09/2021 Mostrar Resumo Nas últimas décadas o interesse biológico em compreender a regulação gênica, tem levado a descobertas de genes tumorais com expressões diferenciadas em subgrupos de pacientes. Estes genes possuem um perfil bimodal de distribuição dos valores de expressão, o que têm despertado a atenção para investigar os padrões de desenvolvimento e de sua funcionalidade. Uma das grandes limitações dos métodos tradicionais está em identificar subgrupos homogêneos, que representam os distintos níveis do valor de expressão gênica para o mesmo tumor. Neste trabalho, desenvolvemos um método que seleciona genes candidatos ao padrão de bimodalidade a partir da função densidade de probabilidade dos valores de expressão, permitindo minimizar a heterogeneidade interna dos picos. Analisamos 25 tipos de tumores e encontramos 96 genes com amostras consistentes quanto ao prognóstico de sobrevida, com p-valor ≤ 0,01. Como contribuição apresentamos um método com o código livre, que possibilita reduzir os níveis de variabilidade interna dos grupos e que relaciona o padrão de expressão bimodal com o prognóstico de sobrevida. Assim, acreditamos que a utilização do método poderá ser útil na avaliação do padrão bimodal de expressão gênica e na descoberta de novos biomarcadores clínicos para diferentes tipos de câncer. Mostrar Abstract In the last decades, the biological interest in understanding the phases of gene regulation has led to the discovery of tumor genes with differentiated expression in subgroups of patients. These genes have a bimodal profile of expression value distribution, which has raised attention to investigate the patterns of development and their functionality. A major limitation of traditional methods is to identify homogeneous subgroups representing distinct levels of gene expression value for the same tumor. We developed a method that selects candidate genes for the bimodality pattern from the probability density function of the expression values, allowing to minimize the internal heterogeneity of the peaks. We analyzed 25 tumor types, found 96 genes with consistent samples regarding survival prognosis with a p-value ≤ 0.01. As a contribution, we have a method with the free code, which makes it possible to reduce the levels of internal variability of the groups and which relates the bimodal expression pattern with survival prognosis. Thus, we believe that the use of the method may be useful in the evaluation of the bimodal pattern of gene expression and in the discovery of new clinical biomarkers for different types of cancer.
5	INACIO GOMES MEDEIROS Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2 Orientador : Jorge Estefano de Santana Souza MEMBROS DA BANCA : ARAKEN DE MEDEIROS SANTOS BEATRIZ STRANSKY FERREIRA Jorge Estefano de Santana Souza SIDNEY EMANUEL BATISTA DOS SANTOS TIRZAH BRAZ PETTA Data: 21/09/2021 Mostrar Resumo A análise de variantes em um contexto clínico e o suporte ao desenvolvimento de terapias contra doenças virais são duas áreas em que diversas pesquisas têm utilizado processos de integração e análise de dados ômicos. Aferir se uma dada variante possui ou não impacto patogênico é um desafio presente na análise de variantes, inclusive quando diferentes ferramentas de predição de patogenicidade apontam resultados divergentes. Em relação ao desenvolvimento de terapias baseadas em RNA de interferência, observa-se que existe uma necessidade contínua de desenho e avaliação de eficiência de novos RNAs pequenos de interferência (siRNAs, do inglês short-interfing RNAs) a cada novo vírus que surge, como o SARS-CoV-2, responsável pela pandemia de COVID-19. Nessa direção, argumenta-se nesta tese, a partir da discussão de dois trabalhos, que processos de integração de dados e seleção de características podem trazer contribuições na resolução de questões ligadas à identificação de patogenicidade de variantes e, em um segundo momento, à disponibilização de informação e características de sequências que podem vir a servir para a formulação de terapias para a COVID-19. Em linhas gerais, o estudo objetivou (a) desenvolver métodos de integração de dados e seleção de características de variantes para aferição de patogenicidade e (b) desenvolver métodos de integração de dados visando a construção de um banco de dados de siRNAs para SARS-CoV-2. Para atingir o primeiro objetivo, foi proposto um modelo de classificação baseado em árvores de decisão para estimar a patogenicidade de variantes, construído por meio de um processo de integração de dados públicos de variantes já catalogadas com predições de patogenicidade trazidas por ferramentas baseadas em aprendizado de máquina. O modelo obtido foi capaz de apresentar uma acurácia superior ao estado da arte relativo à predição de patogenicidade de variantes, constituindo-se em uma importante ferramenta de apoio a profissionais de saúde, como nos diagnósticos de doenças genéticas. No segundo objetivo, combinou-se dados de propriedades estruturais, termodinâmicas, toxicidade, similaridade e de eficiência com o intuito de montar um catálogo global de siRNAs para o SARS-CoV-2. A integração de propriedades diversas relativas a siRNAs em uma única base de dados consolida-se como um referencial de informação que permite a realização de filtragens in silico simples e direcionadas, poupando a execução de muitos testes de bancadas em cima de moléculas candidatas para terapias contra a COVID-19. Esses estudos possuem pontos em comum com outros de integração de dados da literatura, entre eles, aspectos envolvendo diversidade dos dados, reprodutibilidade e descoberta de conhecimento. Por fim, verificou-se que estes trabalhos possuem potencial de aplicação clínica, seja para incrementar a compreensão de variantes relacionadas a comorbidades genéticas diversas, no caso do primeiro trabalho, como no apoio ao desenvolvimento de terapias contra a COVID-19, no caso do segundo trabalho. Mostrar Abstract Analysis of variants in clinical context and the support for the development of therapies against viral diseases are two areas which several research have used processes of integration and analysis of omics data. Assessing whether a given variant has a pathogenic impact is a challenge in the analysis of variants, especially when different tools for predicting pathogenicity point to divergent results. Regarding the development of RNA interference-based therapies, it is observed that there is a continuing need to design and evaluate the efficiency of new small-interfering RNAs (siRNAs) for each new virus that arises, like SARS-CoV-2, responsible for the COVID-19 pandemic. In this sense, it is argued in this thesis, based on the discussion of two works, that data integration and feature selection processes can contribute to the resolution of issues related to the identification of pathogenicity of variants and, in a second moment, to the availability of information and characteristics of sequences that may serve as the basis for therapies for COVID-19. In general terms, the study aimed (a) to develop data integration methods and selection of variant characteristics to measure pathogenicity and (b) to develop data integration methods for the construction of a database of siRNAs for SARS-CoV-2. To achieve the first objective, a decision tree-based classification model was proposed to estimate the pathogenicity of variants, built through an integration process of public data of already cataloged variants with pathogenicity predictions provided by machine learning-based tools. The model was able to present a higher accuracy than the state of the art regarding the prediction of pathogenicity of variants, constituting an important tool to support health professionals, such as in the diagnosis of genetic diseases. In the second objective, data on available properties, thermodynamics, toxicity, similarity, and efficiency were combined to assemble a global catalog of siRNAs for SARS-CoV-2. The integration of diverse properties related to siRNAs in a single consolidated database is an information reference that allows the realization of simple and targeted filtering in siRNA, saving the execution of many wet-lab tests on candidate molecules for COVID-19 antiviral therapies. These studies have common features with other data integration works in aspects involving data diversity, reproducibility, and knowledge discovery. Finally, it was found that these studies have potential for clinical application, either to increase the understanding of variants related to different genetic comorbidities, in the case of the first work, or to support the development of therapies against COVID-19, in the case of second job.
6	ANA CLÁUDIA COSTA DA SILVA Investigação in silico do mecanismo de reorganização sináptica do sono. Um algoritmo para maximizar a capacidade computacional de redes neurais esparsas. Orientador : SIDARTA TOLLENDAL GOMES RIBEIRO MEMBROS DA BANCA : SIDARTA TOLLENDAL GOMES RIBEIRO CESAR RENNO COSTA RODRIGO JULIANI SIQUEIRA DALMOLIN MADRAS VISWANATHAN GANDHI MOHAN MAURO COPELLI NIVALDO ANTONIO PORTELA DE VASCONCELOS Data: 09/11/2021 Mostrar Resumo As memórias são armazenadas no cérebro pela mudança persistente da conectividade entre neurônios e o sono desempenha um papel decisivo para a persistência dessas mudanças. Pesquisas sobre a neurobiologia do sono demonstram a ativação de mecanismos de plasticidade sináptica de longa duração. Dados experimentais apontam para um duplo papel do sono, tanto no esquecimento de memórias irrelevantes quanto no reforço das lembranças mais importantes. A hipótese investigada nesta tese é de que os mecanismos de reorganização sináptica envolvidos na consolidação de memórias podem trazer vantagens na performance das redes neurais artificiais. Este trabalho visa aplicar mecanismos neurobiológicos de aprendizagem dependente de sono na aprendizagem de máquina. Para isto, foi feita uma revisão das teorias de consolidação da memória através do sono, assim como dos modelos computacionais que dão suporte a essas teorias. Com a observação de como o cérebro otimiza os recursos biológicos, a pesquisa seguiu a tendência das redes neurais artificiais onde foram aplicados conceitos presentes na aprendizagem biológica, na aprendizagem de máquina. Então foram realizadas simulações de computador para explorar a hipótese de que os mecanismos subjacentes utilizados pelo cérebro para aprendizagem biológica através do sono são capazes de otimizar o aprendizado em redes neurais artificiais. A esparsialidade sináptica pode trazer vantagens na economia de recursos sem que haja um decaimento na aprendizagem, então, usamos uma rede neural artificial esparsa para aprender diferentes conjuntos de dados e, em seguida, testar se o sono poderia reduzir ainda mais o número mínimo de sinapses que um sistema precisa para o aprendizado de padrões. As simulações foram realizadas com diferentes tamanhos de rede, diferentes níveis de esparsialidades, diversas bases de dados além de utilizar modernos frameworks e algoritmos em aprendizagem de redes neurais profundas. Os resultados corroboram a hipótese de que o sono reduz o número necessário de sinapses para que se atinja um determinado limite de aprendizagem. Mostrar Abstract The memories are stored in the brain by the persistent changes of the connectivity between neurons. Sleep plays an essential role in such changes. Research on sleep neurology has shown the activation of longterm synaptic plasticity. Experimental data point to a double role of sleep: the weakening of irrelevant memories and the reinforcement of more important ones. The hypothesis investigated in this thesis is that synaptic reinforcement and pruning, involved in memory consolidation, can bring advantages to artificial neural networks. This thesis aims to apply neurobiological sleep-dependent learning mechanisms to machine learning. For this, we carried a review of memory consolidation theories and the computational models that support these theories. Observing how the brain optimizes biological resources, the research followed the trend of artificial neural networks to apply concepts present in biological learning in machine learning. Then computer simulations were carried out to explore the hypothesis that the underlying mechanisms used by the brain for biological learning through sleep are capable of optimizing artificial neural network learning. The synaptic spatiality can bring advantage for resource economy without a learning decay, so we used a sparse artificial neural network to learn different datasets and then test if sleep could reduce the minimum of synapses that a system needs to learn patterns. The simulations were carried in different network sizes, such as different sparsity levels, several databases, in addition to modern frameworks and algorithms for artificial neural network learning. The results corroborate the hypothesis that sleeping reduces the number of synapsis required to a certain learning limit.
7	GUILHERME FERNANDES DE ARAÚJO Uma plataforma de simulação de cenários evolutivos biológicos aplicada à teoria do fitness estendido Orientador : SANDRO JOSE DE SOUZA MEMBROS DA BANCA : André Fujita CESAR RENNO COSTA DIOGO MEYER JOAO PAULO MATOS SANTOS LIMA SANDRO JOSE DE SOUZA Data: 24/11/2021 Mostrar Resumo O impacto dos fenótipos estendidos na teoria da evolução contemporânea é controverso. A teoria do fenótipo estendido diz que a expressão dos genes pode ter efeitos além do corpo do indivíduo que os possuem, afetando resultados evolutivos de outros indivíduos que convivem com o mesmo. A teoria do fitness estendido propõe que indivíduos com similaridade genética o suficiente podem utilizar os fenótipos estendidos uns dos outros, assim aumentando as chances de sobrevivência e reprodução do grupo como um todo. Este trabalho tem como objetivo modelar estas interações através de redes aleatórias livres de escala, e investigar o impacto dos fenótipos estendidos e os seus efeitos no sucesso reprodutivo de indivíduos no contexto de grupos capazes de produzi-los e compartilhá-los. As vantagens conferidas pelo uso de fenótipos estendidos disponibilizados por vizinhos semelhantes pode conferir um incentivo evolucionário a nível de grupo para construí-los e compartilhá-los, e este equilíbrio é medido em diferentes simulações de modelos de comportamento. Mostrar Abstract The impact of extended phenotypes on the contemporary theory of evolution is controversial. The extended phenotype theory states that the expression of genes may have effects beyond the body of the individual who possesses it, affecting evolutive results of other individuals which coexist with it.The extended fitness proposes that individuals with enough genetic similarity may use the extended phenotypes of each other, thus increasing the chances of survival and reproduction of the group as a whole. This work aims to model these interactions through random scale-free networks, and investigate the impact of extended phenotypes and its effects in the reproductive success of individuals in the context of groups capable of producing and sharing them. The advantages given by the use of extended phenotypes released by similar neighbors may grant an evolutionary incentive at the group level to build and share them, and this equilibrium is measured in different simulations of behavior models.

2020

	Dissertações
1	LUCAS CAIÃ DE SOUZA TAVARES Interações hipocampo-prefrontais durante a tomada de decisão espacial Orientador : ADRIANO BRETANHA LOPES TORT MEMBROS DA BANCA : ABNER CARDOSO RODRIGUES NETO ADRIANO BRETANHA LOPES TORT CESAR RENNO COSTA WILFREDO BLANCO FIGUEROLA Data: 28/02/2020 Mostrar Resumo O hipocampo tem sido relacionado com a codificação de memórias bem como com a navegação espacial, enquanto que o córtex pré-frontal é associado a funções cognitivas como a tomada de decisões. Supõe-se que ambas as áreas interajam entre si em tarefas que exijam tanto a navegação no espaço quanto processos de tomada de decisão. Entretanto, as assinaturas eletrofisiológicas por trás dessa comunicação carecem de uma melhor elucidação. Para investigar as dinâmicas das interações hipocampo-prefrontais, nós analisamos potenciais de campo local registrados em ratos desempenhando uma tarefa de alternação espacial num labirinto em formato de oito. Observamos que a coerência de fases nas bandas oscilatórias teta (6- 10 Hz) e beta (23-30 Hz) atingem seu pico próximo à região da tomada de decisão do labirinto. Ademais, análises de causalidade de Granger apontam para um fluxo informacional de direcionalidade hipocampo -> córtex pré-frontal na banda teta com maior intensidade em áreas iniciais do labirinto, e na direcionalidade oposta na banda delta, com um pico no início da curva. Adicionalmente, mostramos que os padrões de acoplamento fase- frequência intra e inter-regionais apresentam seletividade espacial. Análises de acoplamento de disparos mostraram que neurônios individuais do córtex pré-frontal são mais moduladas pelo ritmo teta hipocampal que pelo ritmo equivalente da sua própria região. Nossos resultados demonstram maiores níveis de interações eletrofisiológicas entre o hipocampo e o córtex pré-frontal situados próximos à área de decisão do labirinto numa tarefa de alternação espacial. Essas observações corroboram a hipótese de que uma comunicação dinâmica entre essas duas regiões acontece durante decisões espaciais. Mostrar Abstract The hippocampus has been linked to memory encoding and spatial navigation, while the prefrontal cortex is associated with cognitive functions such as decision-making. These regions are hypothesized to communicate in tasks that demand both spatial navigation and decision-making processes. However, the electrophysiological signatures underlying this communication remain to be better elucidated. To investigate the dynamics of the hippocampal-prefrontal interactions, we have analyzed local field potentials and spikes recorded from rats performing an odor-cued spatial alternation task in an 8-shaped maze. We found that the phase coherence of both theta (6-10 Hz) and beta (23-30 Hz) peaked around the choice point area of the maze. Moreover, Granger causality revealed a hippocampus->prefrontal cortex directionality of information flow at theta frequency, peaking at starting areas of the maze, and on the reverse direction at delta frequency, peaking near the turn onset. Additionally, the patterns of phase-amplitude cross-frequency coupling within and between the regions showed spatial selectivity. Lastly, we found that the theta rhythm dynamically modulated neurons in both regions; interestingly, prefrontal cortex neurons were more strongly modulated by the hippocampal theta rhythm than by its LFP. In all, our results reveal maximum electrophysiological interactions between the hippocampus and the prefrontal cortex near the decision-making period of the spatial alternation task. These results corroborate the hypothesis that a dynamic interplay between these regions takes place during spatial decisions.
2	EDEN SILVA E SOUZA AVALIAÇÃO DO ALVO PREDITO DA PLUMIERIDINA EM Cryptococcus neoformans var. grubii H99 Orientador : MARILENE HENNING VAINSTEIN MEMBROS DA BANCA : MARILENE HENNING VAINSTEIN EUZEBIO GUIMARAES BARBOSA GUSTAVO ANTONIO DE SOUZA CHARLEY CHRISTIAN STAATS Data: 28/02/2020 Mostrar Resumo Criptococose é uma infecção fúngica causada por leveduras de Cryptococcus spp. A infecção inicia-se quando células dessecadas ou esporos são inalados e chegam aos pulmões. Se a doença não for propriamente tratada, a infecção pode evoluir e atingir o sistema nervoso central e resultar em meningite meningocócica e até em óbito. O tratamento da criptococose é realizado em três estágios e faz uso de três drogas: fluconazol, anfotericina B e 5-flucitosina. Embora eficaz, o uso destas drogas pode resultar em resistência fúngica e toxicidade para os pacientes. Propõe-se investigar o modo de ação do composto antifúngico plumieridina bem como a identificação do seu alvo molecular em C. neoformans. Para isso, realizou-se uma série de experimentos in vitro e in silico. Inicialmente, uma fração cromatográfica contendo plumieridina foi obtida do extrato aquoso das sementes de Allamanda polyantha e a presença do composto observada através de ressonância magnética nuclear de carbono e hidrogênio. Atividade antifúngica, avaliada através de MIC, foi de 0.250 mg/mL. Através da triagem virtual baseada na similaridade do ligante, quitinase foi identificada como alvo molecular da plumieridina. Modelos tridimencionais das quitinases de C. neoformans foram criados e, através do atracamento molecular, observa-se a interação com resíduos do sítio ativo. Ensaios de inibição da atividade quitinolítica mostram que a atividade é significativamente reduzida na fração secretada e fração celular solúvel, porém, a atividade quitinolítica é pouco reduzida pela presença de plumieridina na fração celular insolúvel, onde são necessárias maiores concentrações do composto. Embora plumieridina seja capaz de inibir a atividade quitinolítica, o composto não parece estar relacionado aos níveis transcricionais das quitinases de C. neoformans, alterando os níveis apenas de CHI22. O tratamento com plumieridina ainda altera o padrão de distribuição dos quitooligômeros na parece celular: de um padrão polarizado para um padrão difuso pela parede. Os resultados confirmam a predição da triagem virtual e mostram que a inibição da atividade quitinolítica pela plumieridina resulta em divisão celular incompleta e, consequente, morte celular. Mostrar Abstract Cryptococcosis is a fungal infection caused by yeasts of Cryptococcus spp. The infection starts when desiccated cells or spores are inhaled and reach the lungs. If the disease is not properly treated, the infection can evolve and reach the central nervous system and result in meningococcal meningitis and even death. The treatment of cryptococcosis is carried out in three stages and uses three drugs: fluconazole, amphotericin B and 5-flucytosine. Although effective, the use of these drugs can result in fungal resistance and can be toxicity for patients. This work aims to investigate the mode of action of the antifungal compound plumieridine as well as the identification of its molecular target in C. neoformans. For this, a series of in vitro and in silico experiments were carried out. Initially, a chromatographic fraction containing plumieridine was obtained from the aqueous extract from seeds of Allamanda polyantha and the presence of the compound observed through carbon and hydrogen nuclear magnetic resonance. Antifungal activity, assessed through MIC, was 0.250 mg/mL. Through virtual screening based on ligand’s similarity, chitinase was identified as plumieridine’s molecular target. Three- dimensional models of C. neoformans chitinases were created and, through molecular docking, it is observed plumieridine interacts with residues in the active site. Chitinolytic inhibitory activity assays show that activity is significantly reduced in the secreted fraction and soluble cell fraction, however, the chitinolytic activity is little reduced by the presence of plumieridine in the insoluble cell fraction, where higher concentrations of the compound are needed. Although plumieridine is able to inhibit chitinolytic activity, the compound does not appear to affect the transcriptional levels of C. neoformans chitinases: only transcription of CHI22 was reduced in the presence of plumieridine. The treatment with plumieridine still alters the distribution pattern of the chitooligomers in the cellular wall: from a polarized pattern to a diffuse pattern through the wall. The results confirm the prediction of virtual screening and show that inhibition of chitinolytic activity by plumieridine results in incomplete cell division and, consequently, cell death.
3	RENATA LILIAN DANTAS CAVALCANTE Investigação exploratória dos fatores genéticos associados ao sistema de determinação sexual em Arapaima gigas (Pirarucu) Orientador : TETSU SAKAMOTO MEMBROS DA BANCA : TETSU SAKAMOTO GUSTAVO ANTONIO DE SOUZA SIDNEY EMANUEL BATISTA DOS SANTOS Data: 30/03/2020 Mostrar Resumo O Pirarucu, (Arapaima gigas) é um dos maiores peixes ósseos de água doce do mundo,podendo pesar por volta de 200 quilogramas e medir cerca de 3 metros de comprimento quando adulto. Pertence a família Arapaimidae, ordem dos Osteoglossiformes e tem como habitat natural a Bacia amazônica. Devido ao seu grande porte, à sua carne conter baixo conteúdo de gordura e pequeno número de espinhas, Arapaima gigas tornou-se uma espécie de especial interesse na pesca. Um dos problemas relacionados à sua exploração pesqueira é que não se conhecem ao certo os mecanismos genéticos ligados a sua diferenciação sexual. A maturação sexual em Arapaima gigas ocorre tardiamente, por volta do terceiro ao quinto ano de vida, e o dimorfismo sexual não é uma característica proeminente nesta espécie. Para um manejo mais sustentável, é de suma importância buscar um método eficaz e pouco invasivo para diferenciar sexualmente os indivíduos juvenis de Arapaima gigas. Para isso, o estabelecimento de um marcador genético molecular relacionado com a diferenciação sexual seria uma vantajosa ferramenta. Análises anteriores do genoma de Arapaima gigas não obtiveram resultados significativos em determinar genes ou grandes regiões genômicas associadas ao sistema de determinação sexual destes indivíduos. Neste estudo, propusemos realizar diferentes abordagens em Bioinformática, que não são tão usuais para a identificação de diferenças genômicas entre indivíduos de sexooposto, com o intuito de identificar regiões repetitivas em excesso ou em falta em um dossexos ou pequenas regiões presentes em apenas um sexo. Para isso, utilizamos dados genômicos de seis representantes adultos de Arapaima gigas, sendo três machos e três fêmeas,além do genoma referência de Pirarucu ID: 12404 depositadas no NCBI. Após realizados esses estudos exploratórios no genoma de Arapaima gigas, notou-se a existência de k-mers que estão representados de maneira distinta entre os indivíduos de sexo oposto. E não só aexistência desses k-mers como também, a identificação de 22 scaffold’s onde ocorrem existência de haploidias, que se fazem presentes em um sexo e com cenário antagônico no outro. Ademais, foi realizada a identificação do painel de microssatélites em Arapaima gigas, onde foi computado a existência de 95.485 microssatélites. O conhecimento dessas regiões de microssatélites é de suma importância para a continuação deste trabalho pois viabiliza sua utilização como marcadores moleculares de regiões genômicas, que aliado principalmente as porções de haploidia existentes em apenas um dos sexos de Arapaima gigas facilitaria técnicas experimentais de isolamento de sequências de interesse. As diferentes proporções na contagem de k-mers e sítios de heterozigose (haploidia) podem indicar a existência de fatores genéticos, que se comprovados através de experimentos na bancada, podem auxiliar na sexagem dos indivíduos de Arapaima gigas. Mostrar Abstract The Pirarucu, (Arapaima gigas) is one of the largest freshwater bony fish in the world,with adults that can weigh 200 kilograms and measure 3 meters in length. It belongs to the Arapaimidae family, of the Osteoglossiformes order and has the Amazon Basin as its natural habitat. Due to its large size and its low fat containing and low fishbone, Arapaima gigas has quickly become a species of special interest in fish-farming. A problem related to its fishery exploitation is that the genetic mechanisms that control the sexual differentiation in Arapaimas gigas are not known. The sexual maturation in Arapaima gigas occurs belatedly, around the third to fifth year of life, and sexual dimorphism is not a strong characteristic of the species. For more sustainable management, it is of paramount importance to seek an effective and non-invasive method to sexually differentiate juvenile individuals of Arapaima gigas. For this, the establishment of a molecular genetic markers related to sexual differentiation would be an advantageous tool. Previous analyses of the Arapaima gigas genome could not find statistically significant determining large genomic regions that are associated with the sex-determination system of these individuals. In This study, we proposed to make uncommon Bioinformatic approaches, that is not so usual, for the identification of genomic differences between individuals of the oppositesex, with the intention of identifying repetitive regions in excess or scarcity in one sex. For this purpose, we used genomic data from six adult representatives of Arapaima gigas, three males and three females, in addition to the reference genome of Pirarucu ID: 12404 deposited in NCBI. After these exploratory studies in the genome, we noticed the existence of k-mers that are represented differently among individuals of the opposite sex. We also identified 22 scaffolds containing haploidy in one sex and with the antagonistic scenario (absence of haploidy) in the other one. Additionally, we performed the identification of the microsatellite panel in Arapaima gigas was performed, where 95.485 microsatellites were found. The knowledge of these microsatellite regions is very important for the continuation of this work, as it enables their use as molecular markers of genomic regions, which would facilitate experimental techniques of isolation of sequences of interest, especially when associated with the portions of haploidy existing in only one of the sexes of rapaimagigas would facilitate experimental techniques of isolation of sequences of interest. The Different proportions in the count of k-mers and heterozygous sites (haploidy) can indicate the existence of genetic factors, which if proven through experiments on the bench, can aid in the sexing of Arapaima gigas individuals.
4	FELIPE VIEIRA DA FONSECA COMPARAÇÃO DE REDES DE INTERAÇÃO DE RESÍDUOS (RINs) COMO UMA FORMA DE AVALIAR A VARIAÇÃO CONFORMACIONAL DE PROTEÍNAS Orientador : JOAO PAULO MATOS SANTOS LIMA MEMBROS DA BANCA : JOAO PAULO MATOS SANTOS LIMA GUSTAVO ANTONIO DE SOUZA RODRIGO MARANGUAPE SILVA DA CUNHA Data: 30/06/2020 Mostrar Resumo Alterações na sequência primária de aminoácidos podem resultar em alterações na estrutura tridimensional de proteínas e perda parcial ou total da sua função. Uma forma de representar as ligações e interações entre todos os aminoácidos de uma proteína é por meio das redes de interação de resíduos (RINs). Nas RINs a estrutura 3D de proteínas são apresentadas na forma de grafos, onde os nós representam os resíduos de aminoácidos e as arestas representam as interações físico-químicas entre os aminoácidos. Nossa hipótese é que a comparação entre RINs de uma mesma proteína em diferentes conformações pode ser utilizada para avaliação dos efeitos de mutações e polimorfismos, assim como para a análise e validação de modelos teóricos. Portanto, o estudo tem por objetivo construir uma ferramenta para comparação de diferentes RINs para uma proteína e utilizar tais dados para pontuar diferenças conformacionais entre proteínas e na validação de modelos gerados por homologia. As RINs foram criadas utilizando o RING 2.0 (Residue Interaction Network Generator). A ferramenta desenvolvida para isso, chamada de CoRINs (Comparator of Residue Interaction Networks), compara todos os nós de RINs geradas a partir de diferentes arquivos de estrutura (PDBs) de uma mesma proteína, levando em consideração a posição, a cadeia e o resíduo, bem como suas interações com os outros aminoácidos. A ferramenta apresenta um gráfico que estima a variação de interações formadas por cada resíduo, que pode ser utilizado com uma estimativa para a variação conformacional daquele sítio proteico, a partir do conjunto de PDBs comparados. Como aplicação para a ferramenta, utilizamos um conjunto de dados com oncogenes e genes supressores de tumor e suas respectivas mutações reportadas. Estas foram mapeadas de acordo com a variação da conectividade de cada resíduo. Os resultados demonstram que mutações associadas aos oncogenes apresentam uma maior tendência de ocorrer em sítios com maior variação na quantidade de interações em seus resíduos. Adicionalmente, a maioria das mutações anotadas como patogênicas e associadas ao câncer nestes genes ocorreu em sítios com maior quantidade de mudanças em interações químicas e físicas. Tais resultados demonstram que a ferramenta CoRINs pode ser útil na identificação das ligações químicas secundárias e interações não-covalentes essenciais à manutenção da estrutura proteica, podendo ser utilizada em estudos evolutivos, como na manutenção da função de proteínas homólogas com alta divergência de sequência primária e também na comparação e validação de modelos estruturais teóricos. Mostrar Abstract Changes in the amino acid sequence may result in alterations in the three- dimensional protein structure, which may lead to partial or complete loss of function. One way to represent the chemical interactions between all amino acids in a protein is through the construction of residue interaction networks (RINs). In RINs, a graph represents the protein 3D structure, with the nodes as amino acid residues, and the edges as the physicochemical interactions between amino acids. We hypothesize that the comparison between RINs of the same protein in different conformations can be used to evaluate the effects of mutations and polymorphisms, as well as for the analysis and validation of theoretical protein models. Therefore, the present work aimed to build a tool to compare different RINs for a protein and to use such data to estimate conformational differences between proteins and also validate models generated by homology modeling. RINs were created using the RING 2.0 (Residue Interaction Network Generator) program. The tool developed for this purpose, called Comparator of Residue Interaction Networks (CoRINs), compares all RIN nodes generated from different structure files (PDBs) of the same protein, taking into account position, chain and residue, as well as their interactions with the other amino acids. The tool also presents a plot that estimates the variation of interactions formed by each residue, which we propose as an estimate for the conformational alterations of that protein site, from a set of compared PDBs. As a possible application for this tool, we used a dataset with oncogenes and tumor suppressor genes with their respective reported mutations mapped according to the connectivity deviation of each residue. Then we retrieved the different conformations for each resulting protein from a bank of structural conformers and constructed the RINs using the software RING 2.0 and compared them with CoRINs. The results show that mutations occurring in the tested oncogenes are more likely to occur in protein sites with a more significant deviation in the mean number of chemical interactions. Additionally, most of these genes’ mutations annotated as pathogenic and associated with clinical cancer cases occurred at sites with the most significant changes in chemical and physical interactions. These results demonstrate that the CoRINs tool can be useful in identifying non- covalent interactions essential for protein structure maintenance and in evolutionary studies, such as in the maintenance of homologous proteins function with high sequence divergence, as well as for the comparison and validation of theoretical structural models.
5	IGOR AUGUSTO BRANDÃO Abordagens da biologia de sistemas na investigação dos pontos de articulação nas rotas metabólicas do KEGG Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN MEMBROS DA BANCA : RODRIGO JULIANI SIQUEIRA DALMOLIN CESAR RENNO COSTA RICARDO D''''OLIVEIRA ALBANUS Data: 14/08/2020 Mostrar Resumo O estudo da essencialidade das proteínas por meio de métodos laboratoriais é caro e não escalável para grandes quantidades de proteínas, desta forma é relevante avaliar a essencialidade das várias proteínas de uma via metabólica como um todo através de ferramentas computacionais. Em geral, uma via metabólica pode ser analisada como grafos, os quais fornecem diferentes recursos para o estudo das características topológicas de redes, como os seus pontos de articulação e disposição dos nós. Atualmente, pesquisas em bioinformática estudam a essencialidade de proteínas com base nas métricas de betweenness e degree, contudo a teoria dos grafos sugere que os pontos de articulação podem ser nós importante em uma rede resta avaliar se esses pontos de articulação são de fato essenciais para as vias metabólicas e seu impacto topológico na rede. Utilizando análises baseadas em métricas de rede, o nosso objetivo é verificar se de fato esses pontos de articulação representam gargalos na rede, sendo estes caracterizados como proteínas de frequências elevadas e localizadas no centro das redes. Para tanto, identificamos os pontos de articulação em diferentes vias metabólicas do KEGG, avaliamos o impacto de cada um deles, calculamos sua frequência e comparamos suas ocorrências com as demais proteínas. Inicialmente, fizemos o levantamento das vias metabólicas do KEGG que estavam disponíveis através dos arquivos KGML associados às redes. Após a listagem das vias disponíveis, os dados estruturais de cada uma delas foram convertidos em objetos do tipo grafo. Os parâmetros ponto de articulação, betweenness e degree foram utilizados para classificar as proteínas constantes em cada via metabólica. Aproximadamente 20% das proteínas foram classificadas como pontos de articulação, das quais 3,75% foram identificadas pela alta frequência e localização em regiões centrais da rede. Além disso, a maior concentração dos pontos de articulação ocorreu na faixa de frequência dos 80 a 90%. Um padrão de não aleatoriedade na distribuição dos pontos de articulação foi identificado nos grupos com frequências acima de 74,5%. Finalmente, a biossíntese de esteroides foi a via metabólica com o maior número de pontos de articulação com frequências superiores a 80% em sua constituição. A oxidoredutase foi a classe dos pontos de articulação presente no maior número de vias metabólicas. As descobertas sugerem que os gargalos das redes avaliadas são pontos de articulação com as frequências mais altas e localizados no centro da rede. Resta realizar análises mais aprofundadas a respeito dos papéis biológicos destes pontos de articulação encontrados. Mostrar Abstract The study of proteins essentiality through laboratory methods is expensive, time-consuming and not scalable for large amounts of proteins. Besides, it is relevant to evaluate the essentiality of several proteins of a metabolic pathway as a whole. The metabolic pathways can be analyzed as graphs, which provide several tools to study the topological features such as the articulation points. Nowadays, research in bioinformatics studies the essentiality of proteins based on betweenness and degree metrics, however, graph theory suggests that articulation points could be essential nodes in a network. It remains to be determined whether these articulation points are essential in metabolic pathways and their topological impact on the network. Using network analysis via metrics and biologic curation, we aim to verify if bottlenecks are proteins with the highest frequencies and located in the center of KEGG metabolic pathways. For this purpose, we identified the articulation points in different networks, evaluate the impact of each articulation point, calculate their frequency and compare them with occurrences of non-articulation points. We consulted KEGG pathways available as KGML files. After, the data was transformed into a graph object. Two centrality parameters including articulation points and degree are determined and the essential proteins based on these parameters are classified. Approximately 20% of the proteins are articulation points. The articulation points with high- frequency which are located in central regions of the network were considered the most important (3.75%). In addition, the highest concentration of articulation points occurred in the frequency range of 80-90%. A pattern of non-randomness of articulation points was identified in the protein groups that have a frequency of at least 74.5%. Finally, steroid biosynthesis is the metabolic pathway with the highest number of articulation points with frequency higher than 80%. Besides, oxidoreductase is the articulation point class present in the highest number of metabolic pathways. Overall, the findings suggest that bottlenecks are articulation points with highest frequencies and located in the center of the network. It remains to perform a deep analysis on the articulation points biological roles.
6	DANILO LOPES MARTINS Análise exploratória do transcriptoma do Arapaima gigas Orientador : Jorge Estefano de Santana Souza MEMBROS DA BANCA : Jorge Estefano de Santana Souza RODRIGO JULIANI SIQUEIRA DALMOLIN SIDNEY EMANUEL BATISTA DOS SANTOS Data: 29/09/2020 Mostrar Resumo O Arapaima gigas, conhecido como pirarucu, é considerado um dos maiores peixes de água doce do mundo, com um notável interesse no mercado da aquicultura devido às suas características biológicas particulares, incluindo o seu rápido crescimento nos seus primeiros anos de vida. Nos últimos anos, apesar da disponibilização massiva de dados advindos de projetos de sequenciamento, poucos foram os que abordaram o táxon que inclui essa espécie. O presente estudo foi desenvolvido com a finalidade de caracterizar o transcriptoma dessa espécie, através de uma análise exploratória transcricional e dos padrões de expressão gênica relacionados a perfis genes tecido-específicos, além de evidenciar genes sexo-específicos. Por meio do sequenciamento do cDNA de 12 amostras de tecidos diferentes do pirarucu, montou-se um transcriptoma de referência com a estratégia de montagem guiada pelo genoma referência. Foram analisados os padrões de expressão gênica para os diferentes tecidos de macho e fêmea de espécimes adultos. Pipelines como STAR, SortMeRNA, Braker2, Diamond e mygene para a montagem e anotação gênica foram utilizados, assim como as ferramentas clusterProfiler e KEGG para análise de enriquecimento funcional dos genes e o animalTFDB para identificação de fatores de transcrição. Neste estudo evidenciamos um conjunto de produtos gênicos anotados que servem como potenciais candidatos a produtos biotecnológicos, por estarem envolvidos nos fenótipos individuais dos tecidos, processos de dimorfismo sexual, e na regulação de processos que podem explicar suas características morfológicas únicas. Esse estudo também podem auxiliar substancialmente na condução de análises posteriores. Mostrar Abstract Arapaima gigas, known as pirarucu, is considered one of the largest freshwater fish in the world, with a notable interest in the aquaculture due to its particular biological characteristics, including its rapid growth in its early years. In recent years, despite the massive availability of data from sequencing projects, few have addressed the taxon that includes this species. The present study was developed aiming characterize the transcriptome of this species, through an exploratory transcriptional analysis and patterns of gene expression related to specific gene profiles, in addition to highlighting sex-specific genes. By cDNA sequencing of 12 different tissue samples from Arapaima gigas, a reference transcriptome was assembled with a genome-guided assembly strategy. The gene expression profiles of different male and female tissues of adult specimens were analyzed. Pipelines such as Hisat2, Braker2, Trinity, Diamond and mygene were used for the assembly and annotation of genes, as well as clusterProfiler and KEGG tools for functional enrichment analysis and animalTFDB for identifying transcription factors. In this study we highlighted a set of annotated genes which may be potential candidates to biotechnological products, as they are involved in individual tissue phenotypes, sexual dimorphism processes, and in regulation of process that can explain their unique morphological characteristics. This study can also substantially conduct further analysis.
	Teses
1	KATYANNA SALES BEZERRA QUANTUM BIOCHEMICAL STUDY OF INTERACTIONS BETWEENTHE ANDROGENIC RECEPTOR, rRNA AND MCL-1 AND LIGANDS Orientador : UMBERTO LAINO FULCO MEMBROS DA BANCA : DOUGLAS SOARES GALVAO EUDENILSON LINS DE ALBUQUERQUE RODRIGO JULIANI SIQUEIRA DALMOLIN UMBERTO LAINO FULCO VALDER NOGUEIRA FREIRE Data: 24/03/2020 Mostrar Resumo Esta tese apresenta três pesquisas realizadas no campo da simulação ab initio, baseadas em princípios da Mecânica Quântica. O primeiro estudo retrata as particularidades das interações entre o receptor androgênico (RA) carregando uma mutação T877A, cuja a qual promove promiscuidade no receptor, e dois fármacos antagonistas acetato de ciproterona e hidroxiflutamida (CPA e HFT) e um composto agonista (RLL). As energias de interação foram obtidas com base em métodos da química quântica baseados na Teoria do Funcional da Densidade (DFT) utilizando o método de Fragmentação com Capas Conjugadas (MFCC). Os resultados demonstram a relevância individual entre T877A-RA e os ligantes, apontando os principais resíduos que perfazem as interações. O segundo estudo apresenta a análise da interação entre RNA ribossômico 16S e a higromicina B (hygB) é um antibiótico aminoglicosídeo que afeta a translocação ribossômica, utilizando a estratégia MFCC à luz do DFT e parametrizações de constantes dielétricas. Os resultados apontaram que os nucleotídeos C1403, C1404, G1405, A1493, G1494, U1495, C1496 e U1498 tinham as energias de ligação mais negativas, tornando-os fortes candidatos para estabilizar o hygB em uma bolsa de ligação adequada da subunidade ribossômica 30S dos procariontes. Já o terceiro trabalho apresentado aqui investiga as interações entre a proteína anti-apoptótica MCL-1, a qual sua superexpressão tem a capacidade de bloquear a via de sinalização da apoptose permitindo o crescimento celular desordenado, e sete compostos químicos com potencial para inibir a proteína. A metodologia utilizada aqui também utiliza métodos quânticos baseados no DFT, além do MFCC. Os resultados apontaram que os resíduos Arg263, Met231, Val253 Phe270, Phe228, Phe254, Leu267 e Thr266 são de crucial importância para a ligação dos inibidores ao bolso hidrofóbico de MCL-1. Os métodos computacionais utilizados nos três estudos emergem como uma alternativa elegante e eficiente para o desenvolvimento de medicamentos. Mostrar Abstract This thesis presents three researches carried out in the field of ab initio simulation, based on principles of Quantum Mechanics. The first study present the particularities of the interactions between the androgen receptor (AR) carrying a T877A mutation, which promotes promiscuity in the receptor, and two antagonist drugs cyproterone acetate and hydroxyflutamide (CPA and HFT) and an agonist compound (RLL). The interaction energies were obtained based on quantum chemistry methods based on Density Functional Theory (DFT) using the method Molecular Fragmentation with Conjugated Caps (MFCC). The results demonstrate the individual relevance between T877A-AR and the ligands, pointing out the main residues that make the interactions. The second study presents the analysis of the interaction between 16S ribosomal RNA and hygromycin B (hygB) is an aminoglycoside antibiotic that affects ribosomal translocation, using the MFCC strategy in light of the DFT and parameterization of dielectric constants. The results showed that nucleotides C1403, C1404, G1405, A1493, G1494, U1495, C1496 and U1498 had the most negative binding energies, making them strong candidates for stabilizing hygB in a suitable binding pouch of the 30S ribosomal subunit of prokaryotes. The third work presented here investigates the interactions between the anti-apoptotic protein MCL-1, which overexpression has the ability to block the apoptosis signaling pathway allowing for disordered cell growth, and seven chemical compounds with the potential to inhibit the protein . The methodology used here also uses quantum methods based on DFT, in addition to MFCC. The results showed that the residues Arg263, Met231, Val253 Phe270, Phe228, Phe254, Leu267 and Thr266 are of crucial importance for the binding of inhibitors to the hydrophobic pocket of MCL-1. The computational methods used in the three studies emerge as an elegant and efficient alternative for drug development.
2	FREDERICO LEMOS DOS SANTOS PROCESSO EPIDÊMICO MEDIADO POR VETORES E PROCESSO NO MODELO SIS EM REDE COMPLEXA: UM ESTUDO DAS PROPRIEDADES CRÍTICAS Orientador : UMBERTO LAINO FULCO MEMBROS DA BANCA : UMBERTO LAINO FULCO JOAO PAULO MATOS SANTOS LIMA ANTONIO DE MACEDO FILHO MAURICIO LOPES DE ALMEIDA PAULO HENRIQUE RIBEIRO BARBOSA Data: 19/08/2020 Mostrar Resumo Desde 1990 que as propagações epidêmicas têm sido alvo de muitos estudos base- ados nos métodos da Física Estatística. As dinâmicas desses processos epidêmicos, tipica- mente de não equilíbrio, consistem na competição pelo estado de saúde ativo (hospedeiros infectados) e inativo (hospedeiros não infectados). A transição entre estes estados ativo (epidêmico) e inativo (não epidêmico) permite a análise do ponto e dos expoentes críticos do sistema (classe de universalidade). Nesta tese investiga-se as propriedades críticas de dois sistemas epidêmicos: O primeiro composto de duas espécies de população que são a humana com hospedeiros não infectados (H) e hospedeiros infectados (Hi) e a dos vetores composta de vetores não infectados (V ) e vetores infectados (Vi), que se difundem inde- pendentemente numa rede unidimensional, com a taxa D, seguindo uma regra dinâmica de probabilidade, onde as taxas de cura dos vetores e dos indivíduos são respectivamente φ e λ. Um segundo sistema epidêmico, conhecido como suscetível infectado suscetível (SIS), em uma rede complexa com alto fator de agregação e com taxa de contaminação λ. Para ambos os modelos, utiliza-se simulações computacionais usando-se o Método de Monte Carlo para obter os dados e fazer a análise de escala de tamanho finito, para estimar as propriedades críticas. Pretende-se obter as propriedades críticas dos dois processos e enquadrá-los em suas respectivas classes de universalidade. Estas informações podem contribuir com as metodologias empregadas pela epidemiologia no combate as doenças infecciosas. Mostrar Abstract Since 1990, epidemic spread has been the subject of many studies based on sta- tistical physics methods. The dynamics of these epidemic processes, typically of non- equilibrium, consist of competition for active (infected hosts) and inactive (uninfected hopedeiro) health status. The transition between these active (epidemic) and inactive (non-epidemic) states allows the analysis of the critical point and exponents of the sys- tem (universality class). In this thesis, the critical properties of two epidemic systems are investigated: The first compound of two population species that are human with uninfec- ted hosts (H) and infected hosts (Hi) and that of vectors composed of non-infected vectors infected (V ) and infected vectors (Vi), which spread independently in a one-dimensional network, at D rates, following a dynamic probability rule, where the cure rates of vectors and individuals are respectively φ and λ. A second epidemic system, known as suscep- tible infected susceptible (SIS), in a complex network with high aggregation factor and contamination rate λ. For both models, computer simulations are used using the Monte Carlo Method to obtain the data and perform a finite-size scale analysis to estimate cri- tical properties. The conclusion of this work is the analysis of critical points and critical exponents. It is expected to define a new class of universality and a parallel with the methodology used by epidemiology to combat infectious diseases.
3	EDUARDO NOGUEIRA CUNHA Um Sistema Inteligente de Baixo Custo para Detecção de Ácidos Nucleicos Baseados em Eletroforese no Espectro Visível Orientador : JOAO PAULO MATOS SANTOS LIMA MEMBROS DA BANCA : ADRIAO DUARTE DORIA NETO ALEXSANDRO SOBREIRA GALDINO DANIEL CARLOS FERREIRA LANZA JOAO PAULO MATOS SANTOS LIMA MARCELO AUGUSTO COSTA FERNANDES RODRIGO MARANGUAPE SILVA DA CUNHA Data: 20/11/2020 Mostrar Resumo A detecção de ácidos nucleicos por eletroforese ainda é uma técnica rápida e acessível para muitos métodos de diagnóstico, principalmente em laboratórios de pesquisa ou em unidades básicas de saúde. Protocolos padrão detectam moléculas de DNA/RNA através de corantes químicos específicos usando um transiluminador de UV ou sistema de fotodocumentação ultravioleta. No entanto, os custos de aquisição e a disponibilidade desses dispositivos, principalmente aqueles com capacidade de fotografia e conexão à Internet, podem ser proibitivos, principalmente nas unidades de saúde pública dos países em desenvolvimento. Além disso, a radiação ultravioleta é um fator de risco adicional comum para profissionais que usam a detecção de ácidos nucleicos baseada em eletroforese. Com isso em mente, este trabalho descreve o desenvolvimento de um sistema inteligente de detecção de DNA/RNA de baixo custo, capaz de obter dados qualitativos e semiquantitativos da análise em gel. O dispositivo proposto explora a faixa de absorção de luz visível dos corantes de DNA/RNA comumente usados, usando peças prontamente disponíveis e processos de fabricação simples, como diodos emissores de luz (LEDs) e impressão 3D. Ao aplicar técnicas de Internet Of Things, nosso sistema cobre uma ampla gama de espectros de cores para detectar bandas de vários corantes usados comercialmente, usando comunicação Bluetooth e um smartphonepara controle de hardware, captura e compartilhamento de imagens. O projeto também permite a escalabilidade do processo e possui baixos custos de fabricação e manutenção. O uso de LEDs no espectro visível pode obter imagens muito reproduzíveis, fornecendo um alto potencial para diagnósticos rápidos e no local de atendimento, além de aplicações em vários campos, como saúde, agricultura e aquicultura. Mostrar Abstract Nucleic acid detection by electrophoresis is still a quick and accessible technique for many diagnosis methods, primarily at research laboratories or at the point of care units. Standard protocols detect DNA/RNA molecules through specific bound chemical dyes using a UV-transilluminator or UV-photo documentation system. However, the acquisition costs and availability of these devices, mainly the ones with photography and internet connection capabilities, can be prohibitive, especially in developing countries public health units. Also, ultraviolet radiation is a common additional risk factor to professionals that use electrophoresis-based nucleic acid detection. With that in mind, this work describes the development of a low-cost DNA/RNA detection smart system capable of obtaining qualitative and semi-quantitative data from gel analysis. The proposed device explores the visible light absorption range of commonly used DNA/RNA dyes using readily available parts, and simple manufacturing processes, such as light-emitting diodes (LEDs) and 3D impression. By applying IoT techniques, our system covers a wide range of color spectrum in order to detect bands from various commercially used dyes, using Bluetooth communication and a smartphone for hardware control, image capturing, and sharing. The project also enables process scalability and has low manufacturing and maintenance costs. The use of LEDs at the visible spectrum can achieve very reproducible images, providing a high potential for rapid and point-of-care diagnostics as well as applications in several fields such as healthcare, agriculture, and aquaculture.

2019

	Dissertações
1	PAULO EDUARDO TOSCANO SOARES Metagenoma de um camarão Penaeus vannamei infectado com o vírus causador da Síndrome da Mancha Branca Orientador : DANIEL CARLOS FERREIRA LANZA MEMBROS DA BANCA : DANIEL CARLOS FERREIRA LANZA Jorge Estefano de Santana Souza ANDRE MAURICIO RIBEIRO DOS SANTOS Data: 11/03/2019 Mostrar Resumo O camarão de patas brancas (Penaeus vannamei) é a espécie mais cultivada naaquicultura mundial. O cultivo comercial geralmente ocorre em densidades altas o quepropicia a seleção de patógenos virulentos, causando surtos epidêmicos. Dentre ospatógenos que acometem a carcinicultura, o vírus causador da Síndrome da ManchaBranca (White Spot Syndrome Virus - WSSV) é conhecido por surtos que podemresultar em mais de 80% de mortalidade em menos de uma semana. Em decorrênciadisso, o uso de estratégias preventivas que possibilitem a identificação eacompanhamento da microbiota nos cultivos tem se tornado cada vez mais necessária,sobretudo em sistemas intensivos. Recentemente, o uso da metagenômica foi sugeridopara o monitoramento em aquicultura. Vários estudos usaram metagenômica 16S, paraestudar a microbiota associada a camarões saudáveis ou infectados com patógenosespecíficos. Outros estudos abordaram a metagenômica shotgun para descobrir novosvírus. A metagenômica shotgun é potencialmente mais informativa que a metagenômicapor genes marcadores, permitindo a recuperação de informação genômica do hospedeiroe seus simbiontes, incluindo vírus, cuja composição pode atuar como bioindicadores doestágio da doença. Neste estudo, a metagenômica shotgun foi utilizada para analisar omúsculo caudal de um exemplar de P. vannamei infectado pelo WSSV. Classificaçõestaxonômicas e funcionais foram feitas para se obter os respectivos perfis dos dadosmetagenômicos. P. vannamei e WSSV foram os organismos mais abundantes naclassificação por reads. Na análise dos contigs, foi observada maior abundância decontigs para camarão, bactérias e WSSV respectivamente. A classificação funcional foirealizada por meio do software MEGAN e resultou em poucos grupos representativosde funções proteicas, que não foram suficientes para estabelecer um perfil funcional daamostra. Uma classificação taxonômica a partir do BLASTx também foi realizada como MEGAN e apresentou resultados similares a classificação usando BLASTn. Osresultados do BLASTn possibilitaram a montagem do genoma mitocondrial completodo P. vannamei. Este estudo fornece suporte para o uso da metagenômica shotguncomo uma ferramenta para o monitoramento da microbiota em cultivos de camarão,sendo possível recuperar simultaneamente informações úteis para a genética depopulações (através do o genoma mitocondrial do camarão) e o monitoramento desimbiontes e patógenos, como as bactérias e o WSSV. Mostrar Abstract White-leg shrimp (Penaeus vannamei) is the most widely cultivated species inaquaculture in the world. Commercial cultivation usually occurs at high densities, whichfavors the selection of virulent pathogens, causing epidemic outbreaks. Among thepathogens that cause shingles, the virus that causes White Spot Syndrome Virus(WSSV) is known for outbreaks that can result in more than 80% of mortality in lessthan a week. As a result, the use of preventive strategies that allow the identification andmonitoring of microbiota in crops has become increasingly necessary, especially inintensive systems. Recently, the use of metagenomics has been suggested formonitoring in aquaculture. Several studies have used 16S metagenomics to study themicrobiota associated with healthy or infected shrimp with specific pathogens. Otherstudies have addressed the metagenomic shotgun to discover new viruses. Themetagenomic shotgun is potentially more informative than the metagenomic by markergenes, allowing the retrieval of genomic information from the host and its symbionts,including viruses, whose composition may act as bioindicators of the disease stage. Inthis study, the shotgun metagenomic was used to analyze the caudal muscle of a P.vannamei specimen infected by WSSV. Taxonomic and functional classifications weremade to obtain the respective profiles of the metagenomic data. P. vannamei and WSSVwere the most abundant organisms in the classification by reads. In the analysis of thecontigs, greater abundance of contigs was observed for shrimp, bacteria and WSSV,respectively. Functional classification was performed using the MEGAN software andresulted in few representative groups of protein functions, which were not sufficient toestablish a functional profile of the sample. A taxonomic classification from theBLASTx was also performed with the MEGAN and presented results similar to theclassification using BLASTn. The BLASTn results enabled the assembly of thecomplete mitochondrial genome of P. vannamei. This study provides support for the useof the shotgun metagenomics as a tool for the monitoring of the microbiota in shrimpcultures, and it is possible to simultaneously retrieve information useful for populationgenetics (through the mitochondrial shrimp genome) and the monitoring of symbiontsand pathogens , such as bacteria and WSSV.
2	ANA CAROLINA MIRANDA FERNANDES COÊLHO neoANT-HILL: uma ferramenta integrada para a detecção de potenciais neoantígenos Orientador : SANDRO JOSE DE SOUZA MEMBROS DA BANCA : Jorge Estefano de Santana Souza SANDRO JOSE DE SOUZA ÂNDREA KELY CAMPOS RIBEIRO DOS SANTOS Data: 18/04/2019 Mostrar Resumo Nos últimos anos, os neoantígenos têm gerado grande interesse na imunoterapia devido à sua capacidade de elicitar respostas imunológicas antitumorais. Os neoantígenos surgem como consequências de mutações somáticas especificas e podem ser apresentados, pelas moléculas de HLA, na superfície das células tumorais e reconhecidos pelas células T como moléculas não-próprias. Diversos estudos indicaram resultados promissores quanto ao uso dos neoantígenos em diferentes abordagens imunoterapêuticas. No entanto, a identificação precisa dos neoantígenos ainda permanece um desafio. Portanto, o objetivo do presente trabalho foi desenvolver uma ferramenta computacional que integre análises imunogenômicas individuais, porém, fundamentais para a identificação de potenciais neoantígenos. Foram utilizados dados de RNA-seq do projeto GEUVADIS e dados de mutações somáticas provenientes de melanoma do projeto TCGA para auxiliar na validação do pipeline desenvolvido. Como resultado, obteve-se a ferramenta, denominada neoANT-HILL, desenvolvida na linguagem de programação Python e, disponível através de uma interface gráfica amigável e interativa. A ferramenta utiliza dados provenientes do sequenciamento genômico ou exômico e/ou dados de RNA-Seq para a execução das análises imunogenômicas disponíveis. A integração dos resultados auxiliam na identificação precisa de potenciais neoantígenos candidatos à imunoterapia. Mostrar Abstract In recent years, neoantigens have generated great interest in immunotherapy due to its ability to elicit antitumor immune responses. Neoantigens arise from specific somatic mutations and it can be present by HLA molecules on the surface of tumor cells and recognized by T cells as non-self molecules. Several studies have indicated promising results in the use of neoantigens in different immunotherapeutic approaches. However, the precise identification of neoantigens remains challenging. Therefore, the aim of the present work was developing a computational tool that integrates the individual immunogenetics analyses, which are fundamental for the identification of potential neoantigens. RNA-seq data from GEUVADIS project and melanoma mutation data obtained from the TCGA to validate the developed pipeline. As a result, we developed a tool, called neoANT-HILL, in Python programming language and available through a friendly and interactive graphical user interface. Data from the whole genome or exome sequencing and/or RNA-Seq data are used for performing the immunogenomic analyzes. The integration of the results allows the identification of potential neoantigens candidates for immunotherapy.
3	PEDRO IGOR CÂMARA DE OLIVEIRA PLANEJAMENTO DE NOVOS INIBIDORES DA CYP51 DO TRYPANOSOMA CRUZI POR ESTUDOS DE QSAR Orientador : EUZEBIO GUIMARAES BARBOSA MEMBROS DA BANCA : EUZEBIO GUIMARAES BARBOSA MARCUS TULLIUS SCOTTI PAULO MARCOS DA MATTA GUEDES Data: 07/06/2019 Mostrar Resumo A doença de Chagas mata cerca de 10.000 pessoas por ano e aproximadamente 8 milhões de pessoas estão infectadas pelo Trypanosoma cruzi. O principal medicamento de referência para o tratamento da doença, o benzonidazol, é utilizado desde a década de 70. Nos últimos anos, muitos inibidores da CYP51 têm sido testados contra esta enzima do parasito. Um destes inibidores, o posaconazol chegou inclusive a testes clínicos, que infelizmente não foram bem sucedidos. Porém ainda há indícios que a CYP51 é um ótimo alvo em potencial para tratar a infecção pelo T. cruzi. A pesquisa por novas moléculas eficazes que poderiam possivelmente curar a fase crônica da doença é algo essencial. Estudos de QSAR (Quantitative Structure Activity Relationship) 2D e 3D foram utilizados neste trabalho para criar três modelos para previsão de atividade biológica, baseados em estruturas químicas de 197 compostos publicados na literatura que já passaram por testes in vivo ou in vitro. Após a análise dos modelos, novos análogos que ainda não foram sintetizados foram sugeridos neste trabalho e tiveram sua atividade biológica prevista e acessibilidade sintética avaliada. Mostrar Abstract Chagas disease kills over 10,000 people per year and approximately 8 million people are infected by Trypanosoma cruzi. The reference drug for treatment of the disease, benznidazole, is the same since the 70s. In recent years, many CYP51 inhibitors were tested against this parasite’s target. One of them, posaconazole, was even tested in clinical trials that unfortunately were not successful. Nevertheless, there are still many evidences that CYP51 is a great potential target to treat T. cruzi infection. The research for new effective molecules that can cure the chronic phase of the disease is essential. 2D and 3D-Quantitative Structure Activity Relationship (QSAR) studies were conducted in this work to create three QSAR models using the chemical structures of 197 published compounds that already went through either in vivo or in vitro tests. After the analysis of the models, new analogues not yet synthesized were suggested here and had their biological activity and synthetic availability assessed.
4	TAYNÁ DA SILVA FIÚZA Investigação in silico de epítopos oriundos de linhagens de Mycobacterium avium subsp. hominissuis como candidatos vacinais Orientador : GUSTAVO ANTONIO DE SOUZA MEMBROS DA BANCA : GUSTAVO ANTONIO DE SOUZA TETSU SAKAMOTO HELENA PAULA BRENTANI Data: 04/12/2019 Mostrar Resumo Micobactérias não tuberculosas são micobactérias ambientais responsáveis por um crescente número de infecções respiratórias e sistêmicas nas últimas décadas, especialmente entre crianças, idosos e indivíduos imunodeficientes. O complexo do Mycobacterium avium, composto por M. avium e M. intracellulare é responsável pela maior parte desses casos e esta primeira espécie possui quatro subespécies de diferentes capacidades infecciosas e hospedeiros. Uma dessas subespécies, Mycobacterium avium subsp. hominissuis, foi isolada de humanos e suínos, enquanto outras variedades infectam gado, aves e animais silvestres. Até o presente momento o tratamento das infecções causadas pelo complexo se dá pelo uso de múltiplos antibióticos em um regime longo, custoso e por vezes ineficiente. A identificação de alvos efetivos para o controle desses organismos é essencial e desafiadora uma vez que proteínas de superfície, moléculas alvo chave em diversas imunoterapias bem-sucedidas, são de difícil isolamento. Além disso, o desenho de imunoterapias e formulações vacinais dependem da identificação de peptídeos de maior interesse imunológico os quais decorrem de protocolos repetitivos e custosos. Nesse trabalho buscou-se integrar ferramentas computacionais de maneira a investigar proteínas de superfície com porções imunogênicas expostas e ubíquas a linhagens de Mycobacterium avium subsp. hominissuis. Para isto, 32648 proteínas de 7 diferentes linhagens de Mycobacterium avium subsp. hominissuis, obtidas do NCBI, foram submetidas à predição de seus domínios trans-membranares pelo software TMHMM e as 3426 sequências contendo estes domínios foram agrupadas em 577 clusters com respeito a sua homologia de modo a classificar proteínas de membrana comuns a todas esses organismos utilizando ferramentas da plataforma CMG Biotools. Utilizando essas sequências, juntamente com os métodos disponíveis no IEDB foram empregados em predições de afinidade aos 27 alelos de MHC mais frequentes em diversas populações humanas e os peptídeos de maior imunogenicidade foram selecionados, restando 112 clusters. Dos peptídeos altamente imunogênicos presentes, apenas os pertencentes a 58 clusters cujas sequências os situavam mais de 50% na porção externa da membrana foram considerados possíveis candidatos a uma formulação vacinal. Foram ainda calculadas a conservação dos peptídeos (presença nas diferentes linhagens analisadas), em que 60% dos clusters são completamente formados por peptídeos ubíquos e a promiscuidade dos mesmos (número de diferentes MHCs aos quais se ligam), em que apenas um cluster possui um peptídeo com alta afinidade a quatro MHCs distintos. Com respeito aos candidatos para a formulação vacinal, um conjunto mínimo de 9 peptídeos com alta afinidade ao número maior de MHCs distintos foi selecionado com peptídeos interagindo com 15 moléculas. Nenhuma das sequências desses peptídeos candidatos mostrou potencial para geração de reatividade cruzada com proteínas humanas ou suínas. O trabalho computacional aqui desenvolvido poderá ser aplicado a outros conjuntos de organismos de maneira a identificar possíveis candidatos para aplicações vacinais. Mostrar Abstract Non-tuberculous mycobacteria are environmental mycobacteria responsible for a growing number of systemic and respiratory infections affecting mostly children, elders and immunocompromised individuals. The Mycobacterium avium Complex comprises Mycobacterium aviumas well as M. intracellulare and the major responsible for the reported cases to this day. M. aviumhas been recently classified as containing four subspecies with different infectivities as well as different hosts. One of those subspecies, Mycobacterium aviumsubsp. hominissuis has been isolated from humans and swines, whereas other varieties are found in cattle, birds and wild animals. To this moment, MAC infections are controlled with the use of multiple antibiotics through long, expensive and sometimes inefficient treatment regimens. The identification of effective targets for controlling such organisms is an essential and challenging task as surface proteins, which are key target molecules in several successful immunotherapies, are difficult to isolate. In addition, the design of immunotherapies and vaccine formulations depends on the identification of peptides of immunological interest which are usually found through repetitive and expensive experimental protocols. In this study applied computational tools to investigate surface proteins with exposed and ubiquitous immunogenic portions to strains of Mycobacterium avium subsp. hominissuis. To achieve that, 32648 amino acid sequences obtained from the NCBI database for Mycobacterium aviumsubsp. hominissuis were submitted to TMHMM for detection of alpha-helix transmembane domain, which were present in 3426 of those sequences. These proteins were clustered in 577 groups by CMG Biotools according to their homology as to identify membrane proteins common to all the organisms of interest. Those sequences were then submitted to available methods obtained at IEDB to classify their affinity to a list of 27 MHC alleles frequent in human populations. Peptides with the highest predicted immunogenicities were selected and 112 clusters with core proteins and high MHC affinities were selected. Crossing information between IEDB and TMHMM allowed for the selection of the 58 clusters in which at least one peptide was predicted to be placed on the outer portion of membrane. We also calculated peptide A. conservation (their presence in different strains), where 60% of clusters are formed by ubiquous peptides and B. promiscuity (the number of distinct MHCs to which they bind), where only a single cluster has a peptide that binds to four distinct MHCs with high affinities. As for vaccine epitope candidates, a minimum set with nine peptides of high binding affinity to the highest possible number of distinct MHCs were selected, interacting with 15 molecules. None of those nine sequences showed potential to cross-react with human or swine proteins. The protocol executed for this work can be applied to other organisms as means to identify possible vaccine application candidates.
5	RAUL MAIA FALCÃO ALPORT AUTOSSÔMICA: UM ESTUDO DE DUAS FAMÍLIAS NORTE-RIO-GRANDENSE Orientador : Jorge Estefano de Santana Souza MEMBROS DA BANCA : Jorge Estefano de Santana Souza SELMA MARIA BEZERRA JERONIMO VALDIR BALBINO Data: 19/12/2019 Mostrar Resumo Síndrome de Alport (SA) é uma patologia geneticamente rara, heterogênea e hereditária associada a mutações germinativas nos genes de colágeno tipo IV (COL4A3, COL4A4 e COL4A5). Caracterizada por provocar perda progressiva da função renal, auditiva e lesões oculares durante a primeira infância, o progresso da doença evolue para uma doença renal terminal frequentemente associada à falência renal. Estudos que visam diagnosticar precocemente indivíduos com essa nefropatia pode levar ao tratamento adequado e, portanto, melhorar a expectativa de vida. Atualmente tem surgido esforços, focados no genoma dos pacientes, para a criação de testes de diagnósticos de doenças/síndromes raras. Sob esse olhar, conhecer mutações, genes e vias metabólicas envolvidas com a patologia é crucial para o entendimento da complexidade dessas doenças. Pensando em corroborar com os achados e estudos a respeito de SA foi realizado o sequenciamento do exoma de duas famílias do Rio Grande do Norte (RN), ambas compostas por 4 indivíduos. Através dos softwares GATK e VARSCAN2 foi realizada a chamada de variantes seguido de uma varredura por variantes deletérias identificadas por um script in house. Os resultados apontaram duas variantes deletérias nos genes que formam as cadeias α3 e α4 do colágeno tipo IV (um stop codon no COL4A3 e frameshift em COL4A4) levando a um truncamento prematuro da proteína. Ambas variantes foram detectadas em estado de homozigose nos probandos e em heterozigose nos demais membros da família. Adicionalmente foi detectado uma ampla região de runs of homozigosity (ROH) envolvendo os genes COL4A3 e COL4A4 em ambos os probandos das duas famílias. De acordo com os achados das variantes deletérias nos genes COL4A3 e COL4A4 em regiões de ROH, essas variantes passam a estar relacionadas a SA de forma que observações semelhantes possam servir como suporte para possíveis alvos na criação de novos testes de diagnóstico e para o serviço de Aconselhamento Genético. Mostrar Abstract Alport syndrome (AS) is a genetically rare, heterogeneous and hereditary pathology associated with germline mutations in collagen type IV genes (COL4A3, COL4A4 and COL4A5). Characterized by progressive loss of renal function, hearing and eye damage during early childhood, the progression of the disease progresses to a terminal renal disease often associated with renal failure. Studies aimed at early diagnosing individuals with this nephropathy may lead to appropriate treatment and thus improve life expectancy. Efforts are currently underway, focused on the genome of patients, to create diagnostic tests for rare diseases/syndromes. From this perspective, mutations, genes and metabolic pathways involved with the pathology is crucial to understanding the complexity of these diseases. Thinking about corroborating the findings and studies about AS, the exome sequencing of two families from Rio Grande do Norte (RN), both composed of 4 individuals, was performed. Through the GATK and VARSCAN2 software, variants were called followed by a screening of deleterious variants identified by an in house script. The results pointed to two deleterious variants in the genes that form the type IV collagen α3 and α4 chains (a stop codon in COL4A3 and frameshift in COL4A4) leading to premature protein truncation. Both variants were detected in homozygous state in the probands and heterozygous in the other family members. Additionally, a broad region of runs of homozigosity (ROH) involving the COL4A3 and COL4A4 genes was detected in both probands of both families. According to the findings of deleterious variants in the COL4A3 and COL4A4 genes in ROH regions, these variants are now related to SA so that similar observations can serve as support for possible targets in the creation of new diagnostic tests and for the service of Genetic Counseling.
6	THIAGO DANTAS SOARES BIO-DIA: Ferramenta web para integração de dados e algoritmos. Orientador : WILFREDO BLANCO FIGUEROLA MEMBROS DA BANCA : ALBERTO SIGNORETTI RODRIGO JULIANI SIQUEIRA DALMOLIN WILFREDO BLANCO FIGUEROLA Data: 19/12/2019 Mostrar Resumo A ciência de dados está se tornando um campo difícil de trabalhar, não apenas pela enorme quantidade de dados e sua variedade de formatos; também pela a necessidade de colaboração entre vários especialistas, a fim de recuperarinformações valiosas. Nesse contexto, criamos o Bio-DIA, um software on-line para criar projetos focados na integração de dados e algoritmos. Os resultados obtidos em um projeto podem ser reutilizados em outros projetos, sem conhecimentos específicos de programação. O software foi criado com o Angular no front-end, o Django no back-end com o Spark para lidar com problemas de big data, como a variedade de extensões de arquivos, e para usar o sistema, o único requisito é usar um padrão xml específico. O aplicativo Bio-DIA facilita a colaboração entre os usuários, permitindo que grupos de pesquisadores compartilhassem dados, scripts e informações. Mostrar Abstract Data science is becoming a difficult field to work, not only because the huge amount of data and its variety of formats; also because the needs of collaboration of several specialists in order to retrieve valuable information. In this context, we created Bio-DIA, an online software to build projects which are focused in the integration of data and algorithms. The results obtained in a project can be reused in other projects, without specific programing knowledge. The software was created with Angular in the front-end, Django in the back-end with Spark to handle thebig-data problems like the variety of formatas, and to use the system the only requirement is to use an specific xml pattern. Bio-DIA application facilitated the collaboration among users, allowing researcher ́s groups to share data, scripts and information.
	Teses
1	CLOVIS FERREIRA DOS REIS Análise Baseada em Biologia de Sistemas de Dados Transcricionais de Células Progenitoras Neurais Humanas Tratadas com Chumbo Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN MEMBROS DA BANCA : BEATRIZ STRANSKY FERREIRA DIEGO BONATTO MATHEUS AUGUSTO DE BITTENCOURT PASQUALI RODRIGO JULIANI SIQUEIRA DALMOLIN VIVIANE SOUZA DO AMARAL Data: 01/11/2019 Mostrar Resumo As consequências do envenenamento por chumbo são diversas e importantes na saúde humana. Atngindo todos os sistemas orgânicos, afeta principalmente o sistema nervoso, com implicações graves e irreversíveis do neurodesenvolvimento, consolidação de memória e processos de aprendizagem em crianças. Sua interação com componentes celulares dá-se de muitas formas, afetando prote nas de ligação a ons, prote nas de sinalização de transdução, canais iônicos transmembrana e fatores de transcrição. Apesar da sintomatologia da intoxicação por chumbo já ser bastante conhecida, pouco ainda se sabe sobre seus efeitos sistêmicos e sobre o seu impacto global na modulação da transcrição de células neuronais. A fm de investgar tais efeitos sob uma ótca de biologia de sistemas, aplicamos o pipeline do pacote transcriptogramer R/Bioconductor com a fnalidade de avaliar o perfl transcricional de células progenitoras neurais humanas (NPCs) tratadas com acetato de chumbo 30μM por 26 dias. Dotado de um método não supervisionado, o algoritmo do transcriptogramer é projetado para identfcar, em experimentos do tpo caso-controle, grupos de genes funcionalmente associados e diferencialmente expressos. Tal pipeline foi capaz de identfcar onze clusteres diferencialmente expressos entre os dias 3 e 11 do tratamento com chumbo. Destes, sete apresentaram uma regulação negatva de diversos sistemas celulares envolvidos na diferenciação celular, como organização do citoesqueleto, RNA e biossíntese de proteínas, caracterizados por redes grandes e fortemente conectadas. Os quatro clusteres positvamente regulados apresentaram nós esparsos e pouco conectados, principalmente relacionados a transcrição, transporte transmembrana e transdução de sinal. Já no período subsequente, envolvendo os dias 12 a 26 de tratamento, foi possível observar uma alteração maciça do perfl de transcrição celular com interferência em todas as camadas da regulação da expressão gênica. Desta forma, nossos resultados sugerem que o chumbo induz modifcações transcricionais signifcatvas nas NPCs que podem ser correlacionadas a danos e/ou adaptações de diversos sistemas, todos decorrentes da intoxicação por este metal pesado, influenciando, assim, o resultado fnal da diferenciação das células ES-NP. Mostrar Abstract The consequences of lead poisoning are diverse and relevant to human health. Reaching all organ systems, it mainly afects the nervous system, with severe and irreversible implicatons of neurodevelopment, memory consolidaton, and learning processes in children. They interact with cellular components in many ways, afectng ion-binding proteins, transducton signaling proteins, transmembrane ion channels, and transcripton factors. If in one hand, the symptoms of lead poisoning are well known, on the other hand, we have a lack of the systemic efects and its impact on neuronal cell transcripton modulaton. In order to investgate such efects from a systems biology perspectve, we applied the transcriptogramer R/Bioconductor package pipeline to evaluate the transcriptonal profle of lead acetate- treated human neural progenitor cells (NPCs) 30μM for 26 days. The transcriptogramer algorithm is designed to identfy functonally associated and diferentally expressed gene groups in case-control experiments in an unsupervised way. It was able to identfy eleven diferentally expressed clusters between days 3 and 11 of the lead treatment. Of these, seven presented negatve regulaton of several cellular systems involved in cell diferentaton, such as cytoskeleton organizaton, RNA and protein biosynthesis, characterized by large and tghtly connected networks. The four clusters that were positvely regulated presented sparse and poorly connected nodes, mainly related to transcripton, transmembrane transport, and signal transducton. In the subsequent period, involving days 12 to 26 of treatment, it was possible to observe a massive alteraton of the cellular transcripton profle with interference in all layers of gene expression regulaton. Thus, our results suggest that lead induces signifcant transcriptonal modifcatons in NPCs which can be correlated to damage and/or adaptatons of various systems, all resultng from intoxicaton by this heavy metal, thus influencing the result of ES-NP cell diferentaton.
2	BRUNO MATTOS SILVA WANDERLEY flowDiv: uma nova ferramenta computacional para análise da diversidade citométrica Orientador : ADRIAO DUARTE DORIA NETO MEMBROS DA BANCA : ADRIAO DUARTE DORIA NETO DANIEL SABINO AMORIM DE ARAUJO Jorge Estefano de Santana Souza ANDRE MEGALI AMADO FERNANDO UNREIN ROSEMBERG FERNANDES DE MENEZES Data: 25/11/2019 Mostrar Resumo A citometria de fluxo (CMF) é uma técnica analítica baseada na caracterização espectroscópica de partículas em suspensão. Essa técnica permite a descrição quantitativa e qualitativa de uma vasta gama de sistemas celulares em poucos segundos e a custos relativamente baixos - características que a tornam uma ferramenta bastante ubíqua em protocolos analíticos, tanto industriais quanto acadêmicos. Nesse tocante, as ciências ambientais vem lidando com obstáculos bastante notórios quanto à estruturação de protocolos de CFM: a natureza altamente heterogênea das amostras ambientais dificulta o ajuste de protocolos que equilibrem raciocínios matemáticos padronizados e os significados biológicos intrínsecos do sistema em estudo. Diversas abordagens vem sendo concebidas com vistas a corrigir essas incongruências e, dentre elas, as que exploram a ideia da diversidade citométrica - o estudo de dados de CFM com base em métodos de ecologia numérica - vem se mostrando bastante auspiciosas. Contudo, apesar da disponibilidade de soluções, muitos desafios técnicos ainda precisam ser superados. Neste trabalho, nós desenvolvemos e aplicamos uma nova ferramenta computacional, o flowDiv, especialmente projetada para a análise da diversidade citométrica de dados ambientais. Aqui, além de pormenorizamos a lógica por trás do método e o compararmos a estratégias computacionais similares, nós o aplicamos a problemas reais, revelando como alguns fatores ecológicos importantes, como o estado nutricional, afetam a diversidade citométrica de grupos microbianos de lagos naturais da Patagônia argentina e do nordeste brasileiro. Mostrar Abstract Flow cytometry (FCM) is an analytical technique based on the spectroscopic characterization of particulates. This technique allows the quantitative and qualitative description of a wide range of cellular systems within seconds and at relatively low costs. Such features make it a very ubiquitous tool in both industrial and academic analytical protocols. The environmental sciences have been dealing with quite obvious obstacles with regrads to the structuring of FCM protocols: the highly heterogeneous nature of environmental samples makes it difficult to adjust protocols that balance standard mathematical reasoning and the intrinsic biological meanings of the system under study. Several approaches have been devised to correct these incongruities, including those that explore the idea of cytometric diversity - the study of FCM data based on numerical ecology methods - has been quite auspicious. However, despite the availability of solutions, many technical challenges still need to be overcome. In this work, we develop and apply a new computational tool, flowDiv, specially designed for the analysis of cytometric diversity of environmental data. Here, in addition to detailing the logic behind the method and comparing it to similar computational strategies, we apply it to real problems, revealing how some important ecological factors, such as nutritional status, affect the cytometric diversity of microbial groups in natural lakes at Patagonian Argentina and northeast Brazil.
3	VANDECLECIO LIRA DA SILVA Bioinformática aplicada para identificação de genes de câncer/testículo e sua associação com prognóstico em uma análise pan-câncer. Orientador : SANDRO JOSE DE SOUZA MEMBROS DA BANCA : RODRIGO JULIANI SIQUEIRA DALMOLIN SANDRO JOSE DE SOUZA SIDNEY EMANUEL BATISTA DOS SANTOS TIRZAH BRAZ PETTA ÂNDREA KELY CAMPOS RIBEIRO DOS SANTOS Data: 04/12/2019 Mostrar Resumo Os genes de câncer / testículo (CT) são excelentes candidatos para imunoterapias do câncer devido à sua expressão restrita em tecidos normais e à capacidade de provocar uma resposta imune quando expressa em células tumorais. Neste estudo, realizamos uma análise genome-wide para os CT genes com a identificação de 745 putativos genes de CT. Comparando com um outro conjunto de genes de CT conhecidos, mostramos que novos CT genes foram identificados. Realizamos a integração várias bases de dados de expressão gênica de tecidos normais e de tumor, para identificação dos genes de CT. A integração de dados clínicos e de infiltração de células CD8+ no tumor, nos levou a identificar dezenas de CT genes associados com bom ou mau prognóstico. Para os CT genes relacionados ao bom prognóstico, mostramos que existe uma relação direta entre a expressão gênica do CT e um sinal de infiltração de células CD8+ para alguns tipos de tumores, especialmente melanoma. Além do mais, nesta tese contextualizamos a bioinformática em um cenário de big data. Mostrar Abstract Cancer/testis (CT) genes are excellent candidates for cancer immunotherapies because of their restrict expression in normal tissues and the capacity to elicit an immune response when expressed in tumor cells. In this study, we provide a genome-wide screen for CT genes with the identification of 745 putative CT genes. Comparison with a set of known CT genes shows that 201 new CT genes were identified. Integration of gene expression and clinical data led us to identify dozens of CT genes associated with either good or poor prognosis. For the CT genes related to good prognosis, we show that there is a direct relationship between CT gene expression and a signal for CD8+ cells infiltration for some tumor types, especially melanoma. In addition, we contextualized bioinformatics in a big data scenario.

2018

	Dissertações
1	ELIONAI MOURA CORDEIRO Autogating em Dados de Citometria de Fluxo Utilizando Classificadores SVM para Identificação de Bacterioplâncton Orientador : ADRIAO DUARTE DORIA NETO MEMBROS DA BANCA : ADRIAO DUARTE DORIA NETO ARAKEN DE MEDEIROS SANTOS DANIEL SABINO AMORIM DE ARAUJO Jorge Estefano de Santana Souza Data: 22/03/2018 Mostrar Resumo Neste trabalho é apresentada a proposta de desenvolvimento de uma metodologia - juntamente com a apresentação dos resultados de sua aplicação - que utiliza uma técnica de aprendizagem de máquina, SVM, para análise automatizada de dados de citometria de fluxo em amostras de ambientes aquáticos, na identificação de bacterioplâncton. As amostras utilizadas na execução desta metodologia foram coletadas em 19 lagos de montanhas de elevada altitude que foram classificados manualmente no Laboratório de Limnologia do Departamento de Oceanografia e Limnologia da UFRN e dados de lagos da região nordeste do Brasil mais especificamente nos estados do Rio Grande do Norte e Paraíba. Previamente, iniciou-se com alguns testes de configuração da função kernel e uma análise quantitativa com base no número médio de acertos na classificação automatizada, na qual percebeu-se que a taxa de erro de predição variou entre 1,86% e 3,35%, em média. Foram realizadas duas etapas de desenvolvimento da metodologia proposta, onde foram criados modelos de predição e realizados uma série de testes com as bases de dados criadas a partir das informações disponíveis. Os resultados obtidos foram expostos a uma série de análises quantitativas e qualitativas, inclusive utilizando PCA para entender a importância de cada variável nos conjuntos de dados das mostras. Para uma avaliação qualitativa da metodologia proposta, foi aplicada uma análise estatística para comparar ambas estratégias de modelos de predição, que tem por base a classificação final apontada pelo algoritmo de SVM. Mostrar Abstract This master tesis shows the results of a methodology proposal for bacterioplankton identification using a machine learning approach named SVM. Samples used were taken from 19 high elevated lakes located at Pyrenees Mountains. Samples generated 74 databases after been analyzed by a specialist to serve as input to the algorithm. We observed the viability of this method with 3.35% of error in identification. Furthermore, there is no isolated direct correlation between robustness of the prediction models and high complexity of the input data but, indeed, the algorithm settings, function cost and variables choice have an important role in the performance as well.
2	LUCAS FELIPE DA SILVA Integração de dados e desenvolvimento de métricas escalável para análise de fatores de transcrição. Orientador : Jorge Estefano de Santana Souza MEMBROS DA BANCA : Jorge Estefano de Santana Souza RODRIGO JULIANI SIQUEIRA DALMOLIN WILFREDO BLANCO FIGUEROLA Data: 28/03/2018 Mostrar Resumo Atualmente há diversas ferramentas propostas para análise de Fatores de Transcrição (TF), tais como TFCheckpoint, JASPAR, SSTAR, GTRD, Enrichr. No entanto nenhuma dessas ferramentas oferece uma experiência completa, em que se possa avaliar a confiabilidade do TF, ou seja, se de fato uma proteína analisada é um TF e a sua associação com o gene alvo. Ao longo do tempo foram construídas inúmeras bases de dados, todas elas com riquíssimas informações, porém a complexidade intrínseca do dado, o volume de informações, problemas de nomenclatura dos genes e diversos outros fatores fizeram com que tais ferramentas não oferecessem um espectro completo da análise. Por outro lado, para se trabalhar com um grande volume de dados, se requer conhecimentos avançados de computação. Entretanto, o grande público interessado em analisar esses dados são profissionais procedentes das áreas biológicas. Configurando-se como uma barreira, uma vez que a formação acadêmica desta área não oferece em seus componentes curriculares disciplinas de programação. Diante desta situação, este trabalho tem como objetivo criar uma ferramenta web destinada exclusivamente para análise dos TFs. Contendo a integração de diferentes bases de dados e um conjunto de scripts para manipular estas informações, juntamente com osparâmetros cruciais definidos pelo usuário em sua análise, foi idealizado e desenvolvido o Transcription Factor Analysis Tools (TFAT). O cerne desta ferramenta é aanálise para identificar os TFs chaves na modularização da transcrição gênica, ou seja, o enriquecimento dos TFs reguladores de uma lista de genes submetida pelo usuário, que através dos scripts que integram a mesma, consulta sua base de dados, identificam os TFs que estão associados aos genes da lista e calcula o p-valor de enriquecimento. Além disso, a ferramenta verifica a confiabilidade do TF, disponibiliza as predições realizadas e converte os itens de uma lista para o GeneID ou Symbol do Entrez Gene. Outro recurso presente neste trabalho é a utilização da confiabilidade do TF aplicado em toda a ferramenta. Esse grau de confiabilidade levaem consideração evidências de diferentes bases de dados, experimentos, predições e outras características dos TFs. Possuindo um modo padrão e um modo com parâmetros definidos pelo próprio usuário, este recurso de confiabilidade permite toda uma personalização por meio de filtros nas consultas e controle de análise para o usuário final. Mostrar Abstract Currently there are several tools proposed for analysis of Transcription Factors (TF), such as TFCheckpoint, JASPAR, SSTAR, GTRD, Enrichr. However none of these tools offers a complete experience in which the reliability of TF can be evaluated, that is, if in fact an analyzed protein is a TF and its association with the target gene. Numerous databases were built over time, all of them with very rich information, but the intrinsic complexity of the data, the volume of information, problems of gene nomenclature and several other factors meant that such tools did not offer a complete spectrum of analysis . On the other hand, to work with a large volume of data requires advanced computer skills. However, the general public interested in analyzing this data are professionals from the biological areas. Configuring itself as a barrier, since the academic formation of this area does not offer in its curricular components programming disciplines. Faced with this situation, this work aims to create a web tool exclusively for the analysis of TFs. Containing the integration of different databases and a set of scripts to manipulate this information, along with the crucial parameters defined by the user in its analysis, Transcription Factor Analysis Tools (TFAT) was designed and developed. The core of this tool is the analysis to identify the key TFs in the modularization of gene transcription, that is, the enrichment of the regulatory TFs of a list of genessubmitted by the user, that through the scripts that integrate the same, consult its database, identify the TFs that are associated with the listed genes and calculate the enrichment p-value. In addition, the tool verifies TF reliability, makes available predictions, and converts items from a list to the Entrez Gene's GeneID or Symbol. Anotherfeature of this work is the use of TF reliability applied throughout the tool. This degree of reliability takes into account evidence from different databases, experiments, predictions and other characteristics of TFs. With a standard mode and a user-defined mode, this reliability feature allows for a full customization through filters in the queries and analysis control for the end user.
3	DANIEL GARCIA TEIXEIRA Um circuito neural canônico com inibição feedback e feedforward. Orientador : CESAR RENNO COSTA MEMBROS DA BANCA : CESAR RENNO COSTA RODRIGO JULIANI SIQUEIRA DALMOLIN RENAN CIPRIANO MOIOLI WILFREDO BLANCO FIGUEROLA Data: 29/03/2018 Mostrar Resumo A oscilação gama está presente em diversas áreas do cérebro, como no hipocampo, desempenhando um importante mecanismo para o funcionamento da memória. Encontramos diversos modelos capazes de explicar a geração das oscilações gama e explicam suas duas funcionalidades, a de agrupar de forma sincronizada as sinapses dos neurônios e a de selecionar quais neurônios devem disparar em cada ciclo deste sincronismo. Funcionalidades estas que imprimem um caráter computacional do processamento neural a este sistema, como a separação de padrões e a formação de assembleias neurais. Porém, a análise destes modelos existentes demonstra ser muito sensível às variações das atividades cerebrais, sendo fortemente afetados por variações ne suas camadas de entrada, de modo a aparentar não possuir uma boa robustez, gerando muita variação de sua frequência de saída, assim como na competitividade entre estes neurônios. Entretanto, ao se considerar uma importante parte do circuito biológico não considerada em trabalhos anteriores, uma rede de inibição alimentada a frente nos possibilitou a criação de um novo modelo. Baseando-nos no modelo de neurônio de Izhikevich, geramos um novo modelo com uma maior robustez às variações na camada de entrada, bem como um custo computacional reduzido e proximidade do modelo biológico. Em posse deste novo modelo, será possível criar redes neurais com maior capacidade de neurônios, com custo computacional reduzido, além da possibilidade de análise do comportamento individual em cada neurônio do modelo. Mostrar Abstract Gamma oscillation is present in several areas of the brain, such as the hippocampus, playing an important mechanism for memory functioning. We found several models capable of explaining the generation of the gamma oscillations and explain their two functionalities, that of synchronously grouping the synapses of the neurons and of selecting which neurons must trigger in each cycle of this synchronism. These functionalities impart a computational character of neural processing to this system, such as the separation of patterns and the formation of neural assemblies. However, the analysis of these existent models shows to be very sensitive to the variations of the cerebral activities, being strongly affected by variations and their layers of entrance, in order to appear not to have a good robustness, generating much variation of their frequency of exit, as in between these neurons. However, when considering an important part of the biological circuit not considered in previous studies, a fed-in inhibition network enabled us to create a new model. Based on the Izhikevich neuron model, we generated a new model with greater robustness to the variations in the input layer, as well as a reduced computational cost and proximity of the biological model. In the possession of this new model, it will be possible to create neural networks with greater capacity of neurons, with reduced computational cost, besides the possibility of analyzing the individual behavior in each neuron of the model.
4	THAÍS DE ALMEIDA RATIS RAMOS Desenvolvimento e uso do CORAZON: ferramenta para normalização e agrupamento de dados de expressão gênica Orientador : JOSÉ MIGUEL ORTEGA MEMBROS DA BANCA : GUSTAVO HENRIQUE ESTEVES JOSÉ MIGUEL ORTEGA RODRIGO JULIANI SIQUEIRA DALMOLIN THAIS GAUDENCIO DO REGO VINICIUS RAMOS HENRIQUES MARACAJA COUTINHO Data: 11/05/2018 Mostrar Resumo A criação de enciclopédias de expressão gênica possibilita a compreensão de grupos de genes que são co-expressos em diferentes tecidos e o entendimento de grupos gênicos conforme suas funções e origem. Devido à enorme quantidade de dados em larga escala, gerados em projetos de transcriptômica, houve uma demanda intensa em usar técnicas fornecidas pela inteligência artificial, que tornou-se amplamente utilizada na bioinformática. A aprendizagem não supervisionada é a tarefa de aprendizagem de máquina que analisa os dados fornecidos e determina os objetos que podem ser agrupados. Foi construída uma ferramenta amigável chamada CORAZON (Correlation Analyses Zipper Online), que implementa 3 algoritmos de aprendizagem de máquina não supervisionada (mean shift, k-means e hierárquico), 6 metodologias de normalização (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts Per Million (CPM), log base-2, normalização pela soma dos valores da instância e normalização pelo maior valor de atributo para cada instância) e uma estratégia para observar a influência dos atributos, para agrupamento de dados de expressão gênica. Os desempenhos dos algoritmos foram avaliados através de 5 modelos comumente usados para validar metodologias de agrupamento, cada um composto por 50 conjuntos de dados gerados aleatoriamente. Os algoritmos apresentaram acurácia variando entre 92-100%. Em seguida, a ferramenta foi aplicada para agrupar tecidos, obter conhecimentos evolutivos e funcionais dos genes, com base no enriquecimento de processos biológicos, e associar com fatores de transcrição. Para selecionar o melhor número de clusters para o k-means e o hierárquico, foram utilizados o critério de informação bayesiana (BIC), seguido da derivada da função discreta e a Silhueta. No hierárquico foi adotado o método do Ward. No total, 3 bases de dados (Uhlen, Encode e Fantom) foram analisadas e, em relação aos tecidos, foram observados grupos relacionados a glândulas, tecidos cardíacos, musculares, relacionados ao sistema reprodutivo e grupos com um único tecido, como testículo, cérebro e medula óssea. Em relação aos grupos de genes, foram obtidos vários grupos com especificidades em suas funções: detecção de estímulos envolvidos na percepção sensorial, reprodução, sinalização sináptica, sistema nervoso, sistema imunológico, desenvolvimento de sistemas e metabólicos. Também foi observado que geralmente grupos com mais de 80% de genes não codificantes, mais de 40% dos seus genes codificantes são recentes, originados em Mammalia e a minoria é do clado Eukaryota. Por outro lado, grupos com mais de 90% de genes codificantes, mais de 40% deles apareceram em Eukaryota e a minoria em Mammalia. Estes resultados mostram o potencial dos métodos do CORAZON, que podem ajudar na análise de grande quantidade de dados genômicos, possibilitando associações dos processos biológicos com RNAs não codificantes e codificantes agrupados juntos, bem como a possibilidade do estudo da história evolutiva. CORAZON está disponível gratuitamente em http://biodados.icb.ufmg.br/corazon ou http://corazon.integrativebioinformatics.me. Mostrar Abstract The creation of gene expression encyclopedias possibilities the understanding of gene groups that are co-expressed in different tissues and comprehend gene clusters according to their functions and origin. Due to the huge amount of data generated in large-scale transcriptomics projects, an intense demand to use techniques provided by artificial intelligence became widely used in bioinformatics. Unsupervised learning is the machine learning task that analyzes the data provided and tries to determine if some objects can be grouped in some way, forming clusters. We developed an online tool called CORAZON (Correlation Analyses Zipper Online), which implements three unsupervised machine learning algorithms (mean shift, k-means and hierarchical) to cluster gene expression datasets, six normalization methodologies (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts per million (CPM), base-2 log, normalization by the sum of the instance's values and normalization by the highest attribute value for each instance), and a strategy to observe the attributes influence, all in a friendly environment. The algorithms performances were evaluated through five models commonly used to validate clustering methodologies, each one composed by fifty randomly generated datasets. The algorithms presented accuracies ranging between 92-100%. Next, we applied our tool to cluster tissues, obtain gene’s evolutionarily knowledgement and functional insights, based on the Gene Ontology enrichment, and connect with transcription factors. To select the best number of clusters for k-means and hierarchical algorithms we used Bayesian information criterion (BIC), followed by the derivative of the discrete function and Silhouette. In the hierarchical, we adopted the Ward’s method. In total, we analyzed three databases (Uhlen, Encode and Fantom) and in relation to tissues we can observe groups related to glands, cardiac tissues, muscular tissues, tissues related to the reproductive system and in all three groups are observed with a single tissue, such as testis, brain and bone-narrow. In relation to the genes clusters, we obtained several clusters that have specificities in their functions: detection of stimulus involved in sensory perception, reproduction, synaptic signaling, nervous system, immunological system, system development, and metabolics. We also observed that clusters with more than 80% of noncodings, more than 40% of their coding genes are recents appearing in mammalian class and the minority are from eukaryota class. Otherwise, clusters with more than 90% of coding genes, have more than 40% of them appeared in eukaryota and the minority from mammalian. These results illustrate the potential of the methods in CORAZON tool, which can help in the large quantities analysis of genomic data, possibiliting the potential associations analyzes between noncoding RNAs and the biological processes of clustered together coding genes, as well as the possibility of evolutionary history study. CORAZON is freely available at http://biodados.icb.ufmg.br/corazon or http://corazon.integrativebioinformatics.me.
5	DIEGO ARTHUR DE AZEVEDO MORAIS Transcriptogramer: Pacote em R para Análise Transcricional Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN MEMBROS DA BANCA : Jorge Estefano de Santana Souza MAURO ANTONIO ALVES CASTRO RODRIGO JULIANI SIQUEIRA DALMOLIN Data: 29/06/2018 Mostrar Resumo O transcriptograma, um método utilizado na análise de transcriptomas, utiliza dados de interação proteína-proteína para construir uma lista ordenada de genes. Nesta lista, genes são posicionados de forma que a probabilidade de interação entre seus produtos decaia exponencialmente com o aumento da distância entre suas posições. A lista ordenada de genes é então utilizada para calcular o valor de expressão médio de genes funcionalmente associados numa janela com raio configurável, permitindo a expressão diferencial de grupos gênicos não pré-definidos em estudos caso-controle. O objetivo deste estudo é a implementação de um pacote em R que use transcriptogramas e integre funcionalidades de pacotes já conhecidos pela comunidade científica, capaz de realizar: expressão diferencial, enriquecimento funcional, e visualização de rede. O pacote transcriptogramer foi implementado e encontra-se disponível no Bioconductor, um repositório para softwares open source desenvolvidos na linguagem R para utilização em bioinformática. Numa comparação entre o transcriptogramer e um pipeline combinando funcionalidades dos pacotes limma e topGO, observou-se que o transcriptogramer identificou aproximadamente 10 vezes mais termos do Gene Ontology significativamente enriquecidos, dentre os quais foram encontrados a maioria dos termos identificados pelo pipeline convencional. Mostrar Abstract The transcriptogram, a method used on transcriptomes analysis, uses protein-protein interaction data to build an ordered gene list. On this list, genes are placed such that the probability of interaction between its products exponentially decreases with the increase of the distance between its positions. The ordered gene list is then used to calculate the average expression value of functionally associated genes in a window with settable radius, allowing the differential expression of non-predefined gene sets in case-control studies. This study aims to implement an R package that uses transcriptograms and integrates features from packages known by the scientific community, able to perform: differential expression, functional enrichment, and network visualization. The transcriptogramer package was implemented and is available at Bioconductor, a repository for open source softwares developed in the R language for use in bioinformatics. In a comparison between the transcriptogramer and a pipeline combining features from limma and topGO packages, was noticed that the transcriptogramer identified nearly 10 times more Gene Ontology terms significantly enriched, among which most of the terms identified by the conventional pipeline were found.
6	PAULO ROBERTO BRANCO LINS DESCOBRINDO REDES DE ASSOCIAÇÃO ENVOLVENDO miRNAs E lincRNAs HUMANOS ATRAVÉS DE UMA ANÁLISE DE eQTL Orientador : JUNIOR BARRERA MEMBROS DA BANCA : SANDRO JOSE DE SOUZA WILFREDO BLANCO FIGUEROLA GUILHERME SUAREZ KURTZ Data: 19/07/2018 Mostrar Resumo Variações no nível de expressão gênica estão entre as principais causas da diversidade fenotípica nos organismos, incluindo o desenvolvimento de patologias e a resposta aos fármacos em humanos. Os RNAsnão codificantes (ncRNAs) desempenham um papel importante no complexo mecanismo das redes regulatórias. Embora ainda não completamente compreendidos, dois representantes dos ncRNAsdespontam em pesquisas recentes como protagonistas no desenvolvimento de quadros clínicos. São eles os microRNAs (miRNAs) e os RNAsnão codificantes intergênicos longos (lincRNAs). Assim, o presente trabalho integrou dados públicos para catalogar o vasto panorama dos efeitos regulatórios dos miRNAse doslincRNAsno genoma humano. Através de uma análise de expression Quantitative Trait Loci (eQTL) foram identificadas variações que tivessem efeito putativo na expressão gênica. Redes de associação também foram criadas relacionando os resultados da análise eQTL comtratos de relevância clínica e/ou farmacológica. Por meio dessa, foram reveladas associações que podem continuar despertando o interesse de novos estudos envolvendo o tema. Distúrbios mentais e coronários, além do câncer, foram os tratos com maior evidência nos resultados do estudo. Mostrar Abstract Variations in the level of gene expression are among the main causes of phenotypic diversity in organisms, including the development of pathologies and response to drugs in humans. Non-coding RNAs (ncRNAs) play an important role in the complex mechanism of regulatory networks. Although not yet fully understood, two representatives of the ncRNAs emerge in recent researches as protagonists in the development of clinical conditions. They are the microRNAs (miRNAs) and the long intergenic non-coding RNAs (lincRNAs). Thus, the present work integrated public data to catalog the vast landscape of the regulatory effects of miRNAs and lincRNAs in the human genome. Through expression Quantitative Trait Loci (eQTL) analysis, variations that had a putative effect on gene expression were identified. Association networks were also created relating the eQTL analysis results to traits of clinical and/or pharmacological relevance. Through this, associations that may continue to arouse the interest of new studies involving the theme were revealed. Mental and coronary disorders, in addition to cancer, were the most evidenced traits in the study results.
7	KARLA CRISTINA TABOSA MACHADO Desenvolvimento de abordagens computacionais para proteogenômica de procariotos Orientador : GUSTAVO ANTONIO DE SOUZA MEMBROS DA BANCA : GUSTAVO ANTONIO DE SOUZA JOAO PAULO MATOS SANTOS LIMA LUCIANO FERNANDES HUERGO Data: 27/07/2018 Mostrar Resumo Com o desenvolvimento de sequenciadores de próximageração, uma revolução ocorreu na pesquisa genômica, e atualmente o genoma completo de milhares de linhagens de bactérias são conhecidos. A análise de proteínas por espectrometria de massas (MS) também passou por grandes desenvolvimentos tecnológicos na última década em termos de sensibilidade e capacidade de sequenciamento. A proteômica ainda não se encontra no mesmo nível que a genômica, mas para amostras contendo proteínas de um eucarioto simples (por exemplo, levedura) ou de uma bactéria, a proteômica já é capaz de detectar e quantificar proteínas de maneira completa e exaustiva. Mas há ainda há desafios no que tange a caracterização de regiões codificadoras de um genoma, bem como na validação de modelos genéticos. Dados da literatura mostram que anotações de um mesmo genoma realizado por abordagens independentes geram resultados conflitantes tanto no número de ORFs anotados, quanto aos seus tamanhos (i.e., diferentes escolhas de início de transcrição/tradução). A caracterização de sequências peptídicas em amostras de proteômica pode ser utilizada para validar regiões do genoma como codificantes, área de pesquisa conhecida como proteogenômica. Para tal ocorrer, é necessário a construção de bancos de sequências customizados, que permitem a identificação de novas regiões que anteriormente não eram preditas como codificadoras e se encontravam ausentes em bancos de dados proteicos. Neste trabalho, foi desenvolvida uma estratégia computacional que constrói bancos de sequências de proteínas customizados, a partir do processamento e análise de dados de sequências proteicas de várias linhagens de uma mesma espécie de bacteria. A abordagem identifica e compara proteínas homólogas e unicamente anotadas em todas as linhagens, e reporta as sequências de proteínas de forma não-redundante, ou seja, sequências extensivamente repetidas entre anotações são reportadas somente uma vez com o intuito de manter o tamanho do espaço de busca sob controle. Os bancos também reportam variações de sequência, sejam elas resultantes de variações genéticas ou divergências de anotação de genes, que normalmente são abdicadas em bancos de dados utilizados em análise proteômica. Além dos bancos, houve também uma preocupação de se criar um arquivo de registro, no qual cada observação referente a presença de homólogos, diferenças de sequências, tipo de modificação e presença em linhagens estivesse bem descrita. Com o objetivo de avaliar se os bancos gerados produziam sequências relevantes e não ocorria perda de informação se comparados às sequências originais utilizadas, dados de MS coletados de linhagens clínicas de Mycobacterium tuberculosis foram submetidas à identificação proteica. Comparou-se o banco de dados criado com essa abordagem com uma base de dados formada pela mera concatenação de todas as proteínas anotadas em M. tuberculosis. Além de reduzir o tempo computacional, o número de identificações obtidas em ambas as buscas foi praticamente idêntico. Finalmente, foram criados bancos para 10 espécies bacterianas com pelo menos 65 linhagens caracterizadas. Ao analisar tais bancos, percebeu-se que quanto maior a diversidade do pangenoma da espécie bacteriana, maior a quantidade de proteínas e peptídeos esperados. Os resultados também demonstram a possibilidade de se utilizar tal estratégia para criar bancos contendo sequências de múltiplas espécies, com o intuito de realizar análises metaproteômicas de dados de MS. Mostrar Abstract Next-generation sequencers development cause a revolution in genomic research, and nowadays the complete genomic information of thousands of bacterial strains is available. Similar technological breakthroughs also happened for protein analysis by mass spectrometry (MS) in the last decade regarding sensitivity and throughput. However, proteomics is yet to reach the same level of throughput of genomics, but for samples from simple eukaryotic organisms such as yeasts or bacteria, proteomics is able to detect and quantify their proteome close to completeness. There are still challenges regarding the characterization of coding regions in a genome, as well as in the validation of genomic models. Scientific reports show genomic annotation performed over the same genomic data using independent approaches resulted in divergent data regarding the number of predicted ORFs and also their length (i.e. different choices for transcription/translation initiation). Peptide sequence characterization in proteomics samples can be used to validate genomic regions as coding, research field known as proteogenomics. For such, the design of customized sequence databases which allows the identification of new genomic regions previously predicted to be no-coding and therefore absent in routinely employed databases. In this work, was developed a computational strategy that builds proteins sequence databases customized, through processing and analysis of protein sequence data from several strains of the same bacterial species. The approach identifies and compares homologous and uniquely annotated proteins in all strains, and reports those sequences in a non-redundant manner, which means, sequences extensively repeated among annotations are reported only once in order to keep the size search space under control. Databases also report sequence variations, whether they result from genetic variations or annotation divergences, which are usually abdicated in databases used in proteomic analysis. Besides the databases, there was also a concern to create a registration file, in which each observation regarding the presence of homologous, differences of sequences, modification type and presence in strains was well described. In order to evaluate if the generated databases produced relevant sequences and didn’t happen loss of information if compared to the used original sequences, MS data collected from clinical strains of Mycobacterium tuberculosis were submitted to protein identification. The database created with this approach was compared with a database formed by the mere concatenation of all the proteins annotated in M. tuberculosis. Besides reducing the computacional time, the number of identifications obtained in both searches was practically identical. Finally, databases for 10 bacterial species containing at least 65 strains characterized were created. When analyzing these databases, it was noticed that the greater is the diversity of the pangenome of the bacterial species, greater is the amount of proteins and peptides expected. The result also demonstrate the possibility to use such strategy to create databases containing sequence of multiple species, in the order to perform metaproteomic analyzes of MS data.
8	ARANTHYA HEVELLY DE LIMA COSTA ANÁLISE ENERGÉTICA DA INTERAÇÃO DO ESTRADIOL E DIETILESTILBESTROL COM O ERα. Orientador : UMBERTO LAINO FULCO MEMBROS DA BANCA : RODRIGO JULIANI SIQUEIRA DALMOLIN UMBERTO LAINO FULCO VALDER NOGUEIRA FREIRE Data: 10/08/2018 Mostrar Resumo O câncer de mama é uma doença hormônio-dependente, que possui vários subtipos diferentes, padrões de expressão de genes e manifestações distintos (CHENG et al., 2002). Segundo o Instituto Nacional de Câncer (INCA), nas mulheres, apresenta a maior incidência e mortalidade, tanto em países em desenvolvimento quanto em países desenvolvidos. A maioria das neoplasias mamárias são ER + (receptor de estrogênio positivo), isto é, dependentes de 17β-estradiol e o número de ERα (receptor de estrogênio subtipo alfa) é superior ao número de ERβ (receptor de estrogênio subtipo beta), evidenciando a importância do subtipo alfa nesta doença. Este trabalho mensurou as energias de ligação individual dos resíduos que compõem o ERα com o 17β-estradiol e Dietilestilbestrol, utilizando a simulação computacional. Para tanto, foi empregado a Teoria do Funcional Densidade (DFT) e o Método de Fracionamento Molecular com Caps Conjugados (MFCC). Os resultados obtidos constataram que os resíduos com os valores energéticos mais significativos são: GLU353, LEU391, MET343, LEU346, MET388, ARG394, PHE404, HIS524, ASP411, LEU525, ARG352 e ARG548. Estes resultados ajudam a caracterizar a interação entre o 17β-estradiol e o Dietilestilbestrol com o ERα e, por sua vez, podem ser utilizados como base para estudos, planejamento estrutural do fármaco, modulação dos fármacos existentes, tal como para o design de novas drogas. Mostrar Abstract Breast cancer and a hormone-dependent disease, which has several different subtypes, patterns of gene expression and distinct manifestations (CHENG et al., 2002). According to the National Cancer Institute (INCA), in the year 2013, as deaths caused by the disease of 14,388, being 181 men and 14,207. The estimate for 2015 is 57,120 of new cases. Most breast cancers are ER + (estrogen receptor positive), ie, 17β-estradiol dependent. In this type of breast neoplasm, the number of ERα (estrogen receptor alpha subtype) is higher than the number of ERβ (estrogen receptor beta subtype), evidencing the importance of the alpha subtype in this disease. The purpose of this work is to measure the individual binding energies of ERα residues with 17β-estradiol and Diethylstilbestrol, using a computational simulation. For this purpose, it is employed as Doria of Functional Theory (DFT) and Molecular Fractionation Method with Conjugated Caps (MFCC). The results obtained with this work may help to characterize the interaction between the 17β-estradiol agonists and Diethylstilbestrol with ERα. The results obtained showed the residues with the most significant energy values are: GLU353, LEU391, MET343, LEU346, MET388, ARG394, PHE404, HIS524, ASP411, LEU525, ARG352 and ARG548. These results help characterize, through the information obtained, an interaction between 17β-estradiol and Diethylstilbestrol with ERα and, in turn, can be used as a basis for studies, structural drug design, modulate existing drugs, such as for the design of new drugs.
9	PRISCILLA MACHADO DO NASCIMENTO Implementação de Funcionalidades Para uma Plataforma de Análise de Variantes Genômicas Orientador : Jorge Estefano de Santana Souza MEMBROS DA BANCA : Jorge Estefano de Santana Souza BEATRIZ STRANSKY FERREIRA MATHEUS AUGUSTO DE BITTENCOURT PASQUALI Data: 21/09/2018 Mostrar Resumo Os atuais avanços científicos, no âmbito da genômica, têm sido proporcionados devido à extração de informações significativas do DNA em virtude do uso das novas tecnologias disponibilizadas para realização da análise dos dados genéticos. A medicina de precisão faz uso desses avanços tecnológicos para melhor conhecer a constituição genética e as possíveis alterações que possam vir a produzir doenças com respostas diferenciadas aos tratamentos em um indivíduo. Considerando as mutações genéticas como um dos propulsores da evolução e tendo em vista a compreensão mais apurada dos seus efeitos, o presente trabalho objetiva contribuir nas futuras análises de dados de mutações, visando auxiliar futuramente na identificação de novos hotspot e SNPs. Para que essa análise possa ser realizada foi desenvolvido um produto de software responsável por oferecer assistência aos dados coletados, com o intuito de analisá-los de maneira eficiente e visualizá-los de maneira mais precisa. Este trabalho propõe a implementação de novas funcionalidades que possam agregar valor a este produto, contribuindo diretamente na automatização e aperfeiçoamento dos processos realizados pelas ferramentas de análise de variantes disponíveis no mercado. Visando uma aplicabilidade prática do que foi desenvolvido, foi proposta uma análise dos dados públicos utilizados para anotar os variantes do sistema. Para isso, será realizado um estudo referente aos dados dos preditores existentes, para que possa ser verificada a acurácia dos mesmos em relação aos dados clínicos registrados no banco ClinVar (https://www.ncbi.nlm.nih.gov/clinvar/). Com o intuito de extrair dados para demonstrar a relevância da análise dos falsos positivos/negativos apresentados por meio dos preditores existentes, foi proposto um protótipo de processo que visa melhorar a acurácia dos SNPs identificados pelo sistema. Mostrar Abstract Current scientific advances in genomics have been provided due to extraction of significant information from the DNA using new technologies available for the analysis of genetic data. Precision medicine is based on these technological advances to better understand the genetic constitution and possible changes that may lead to diseases with patient-specific differential responses to treatments. Considering the process of genetic mutation as one of the drivers of evolution and with the goal to better understand its effects, the present work aims to contribute to future analysis of mutation data, helping in thefuture identification of new hotspots and SNPs. For this analysis, a software product was developed responsible for offering assistance to the collected data, in order to analyze them in an efficient way and to visualize them in a more precise way. This work proposes the implementation of new functionalities that can add more value to the aforementioned software, contributing directly to the automation and improvement of the processes performed by the variant analysis tools available in the market. Aiming at an applicability of what was developed, an analysis ofthe public data used to annotate the variants of the system was proposed. For this, a study will be carried out regarding the data of the existing predictors, so that the accuracy of the data can beverified in relation to the clinical data recorded in ClinVar. In order to extract data to demonstrate the relevance of the false positive/negative analysis presented through the existing predictors,a prototype process was proposed that aims to improve the accuracy of the SNPs identified by the system
10	MARCEL DA CÂMARA RIBEIRO DANTAS ENGENHARIA REVERSA DA REDE REGULATÓRIA DO SARCOMA DE EWING E INFERÊNCIA DE REGULADORES MESTRES. Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN MEMBROS DA BANCA : RODRIGO JULIANI SIQUEIRA DALMOLIN CESAR RENNO COSTA MATHEUS AUGUSTO DE BITTENCOURT PASQUALI Data: 21/09/2018 Mostrar Resumo O Sarcoma de Ewing (SE) é um tumor ósseo maligno raro com alta propensão a metástase ocorrendo mais frequentemente em adolescentes e jovens adultos. Não há uma célula de origem identificada para este câncer e o seu hallmark é a ocorrência de uma translocação cromossomal entre os cromossomos 11 e 22 que resulta em um fator de transcrição aberrante através da fuão de genes da família FET e ETS, comumente EWSR1 e FLI1. A translocação é associada com alteração da cromatina, o que leva a distúrbio significativo no transcriptoma da célula. Os mecanismos regulatórios por trás das alterações transcricionais observadas do SE permanecem pouco compreendidas. Aqui, nós inferimos a rede regulatória do SE e identificamos 7 fatores de transcrição como potenciais mestres reguladores. De acordo com nossos resultados, estes 7 mestres reguladores estão organizados em dois clusters: um que consiste do PAX7 e do RUNX3 e um outro composto pelo ARNT2, CREB3L1, GLI3, MEF2C e PBX3. Os mestres reguladores dentro de cada cluster são agonistas entre eles, e ambos os clusters agem antagonisticamente com relação ao outro. Baseado em dados de transcrição, nós classificamos pacientes de SE em duas coortes de acordo com a atividade regulatória de cada um dos 7 regulons. Alta atividade regulatória do PAX7 e do RUNX3 é associada a um melhor prognóstico e alta atividade regulatória do ARNT2, CREB3L1, GLI3 e PBX3 está associada a um pior prognóstico. Este trabalho contribui para uma melhor compreensão do reguloma do SE, indicando potenciais mestres reguladores que podem levar a um potencial preditor de prognóstico e fatores chaves para tumorigenesis. Mostrar Abstract Ewing Sarcoma (ES) is a rare malignant bone tumor with high propensity to metastasize occurring most frequently in adolescents and young adults. There is no ES cell of origin identified só far and the hallmark of this cancer is the occurrence of a chromosomal translocation between the chromosomes 11 and 22 that results in an aberrant transcription factor through the fusion of a gene from FET family and ETS family, commonly EWSR1 and FLI1. The translocation is associated with chromatin alteration, leading to a significant disturbance in the cell transcriptome. The regulatory mechanisms behind the observed ES transcriptional alterations remain poorly understood. Here, we inferred the transcriptional regulatory network of Ewing Sarcoma and identified 7 transcription factors as potential master regulators. According to our results, these 7 master regulators are organized in two clusters: one composed by PAX7 and RUNX3 and other composed by ARNT2, CREB3L1, GLI3, MEF2C, and PBX3. The master regulators inside each cluster are agonists among each other andboth clusters show antagonism between them. Based on transcriptional data, we classified ES patients of two cohorts according to the activity of each of the seven regulons. High regulatory activity of PAX7 and RUNX3 is associated with better overall survival and high regulatory activity of ARNT2, CREB3L1, GLI3, and PBX3 is associated with worse overall survival. This work contributes to a better understanding of the regulome of Ewing Sarcoma, indicating putative master regulators that can lead to potential prognosis prediction and key factors of tumorigenesis.
11	STHEPHANIE NASSIF PINHEIRO CARACTERIZAÇÃO DO GENE 18S rRNA EM PROTOZOÁRIOS DO TAXA APICOMPLEXA: UMA ABORDAGEM APLICADA AO DESENHO DE MARCADORES MOLECULARES Orientador : DANIEL CARLOS FERREIRA LANZA MEMBROS DA BANCA : DANIEL CARLOS FERREIRA LANZA KATIA CASTANHO SCORTECCI CLAUDIO BRUNO SILVA DE OLIVEIRA Data: 26/09/2018 Mostrar Resumo O filo Apicomplexa compreende protozoários de vários filo ao nível de gênero causadores de parasitoses mundialmente distribuídas como malária, toxoplasmose ou distúrbios intestinais oportunistas. Ainda nos dias de hoje, os principais protozoários de importância médica geralmente são identificados por microscopia óptica, o que dificulta a classificação precisa e o diagnóstico dos pacientes, principalmente nos casos em que a parasitemia é baixa. Nesse contexto o presente trabalho teve como objetivo desenvolver um método molecular alternativo, que possibilite a identificação de ampla variedade de protozoários do filo Apicomplexa. Dessa forma, foi desenvolvido um sistema de primers para utilização em uma reação de PCR (Polymerase Chain Reaction) em duas etapas (semi-nested PCR). O alvo investigado para o desenho de primers foi a região 18S rDNA, por ser um alvo amplamente utilizado para screening e identificação de espécies em estudos de biodiversidade. A partir da análise e caracterização estrutural do ácido nucleico ribossomal in silico, foram desenhados conjuntos de primers que se anelam em regiões conservadas e flanqueiam regiões variáveis no gene. A eficiência de cada conjunto de primers foi avaliada por PCR in silico. Foi selecionado um conjunto de primers que, quando usado de forma aninhada, pode gerar ~166 amplicons com sequências distintas, que podem ser usados para discriminar gêneros e espécies de Apicomplexa por diferença no tamanho em gel de agarose e por sequenciamento. O método proposto foi validado in vitro e sua eficiência na identificação de algumas espécies de protozoários de interesse médico foi confirmada. Após etapas adicionais de validação, esse método poderá ser utilizado para triagem inicial em casos de suspeita de parasitoses e também para determinação de diferentes espécies de parasitas. Mostrar Abstract The Apicomplexa phylum comprises protozoa of various genera causing parasitic diseases worldwide such as malaria, toxoplasmosis or opportunistic intestinal disorders. Nowadays, protozoa of medical importance are generally identified by light microscopy, which makes accurate classification difficult, makes diagnosis and prognosis difficult, particularly in cases where infection is low. In this context, the present work aimed to develop an alternative molecular method that allows the identification of a wide range of protozoa of the Apicomplexa taxa. Thus, a primer system was developed for use in a semi-nested PCR (Polymerase Chain Reaction) reaction. The investigated target for primer design was the 18S rDNA region, as it is a widely used template for screening and species identification in biodiversity studies. From the structural analysis and the ribosomal nucleic acid sequence, sets of primers that interact in conserved regions and flank variable regions of the gene were designed. The efficiency of each set of primers was evaluated by in silico PCR and the generated amplicons were evaluated. A set of primers was selected which, when used in a nested fashion, can generate ~ 166 amplicons with distinct sequences, which can be used to discriminate genera and species of the Apicomplexa taxa by difference in the size of amplicons generated in agarose gel and species by sequencing (Sanger method or Next Gen Sequencing). The proposed method was validated in vitro and its efficiency for identification of some protozoan species of medical interest was confirmed. After further validation steps this method can be used for initial screening in cases of suspected parasitosis and also for parasite species determination
12	LAISE CAVALCANTI FLORENTINO Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados. Orientador : JOAO PAULO MATOS SANTOS LIMA MEMBROS DA BANCA : JOAO PAULO MATOS SANTOS LIMA Jorge Estefano de Santana Souza VALDIR BALBINO Data: 31/10/2018 Mostrar Resumo Nas últimas décadas, avanços em abordagens genômicas completas levaram à identificação de um grande número de mutações relacionadas ao câncer. Estimativas de alto desempenho dos impactos de mutações de câncer na estrutura da proteína não são uma conquista fácil, e a maioria dos estudos está limitada a análises estruturais completas, uma a uma. Além disso, ainda existem muitos desafios no caminho para a previsão precisa e automatizada de mutações patogênicas. Portanto, entender o impacto estrutural de uma mudança específica de aminoácidos é de grande importância para a pesquisa médica do câncer. No entanto, a maioria dos estudos tem enfatizado seqüências e modificações estruturais baseadas em características químicas de aminoácidos e não em características de dobra, nas quais a conservação de interações não-covalentes desempenha um papel significativo. A partir de então, no presente estudo, utilizamos redes de interação de resíduos (RINs) para análises em grande escala de mutações missense do câncer, a fim de inferir seus efeitos na conservação de interações não-covalentes. Nossa hipótese é que mudanças em aminoácidos altamente conectados são mais propensos a causar mutações deletérias. Para avaliar isso, recuperamos mutações missense de câncer dos bancos de dados COSMIC (cancer.sanger.ac.uk/cosmic) e TCGA (cancergenome.nih.gov) e as mapeamos para suas respectivas estruturas recuperadas do Protein Data Bank (rcsb.org). Em seguida, os RINs foram construídos a partir dos arquivos PDB obtidos, e os parâmetros de rede, como o grau do nó, o tipo de arestas, o coeficiente de agrupamento, a centralidade, foram avaliados e plotados usando scripts em R. Posteriormente, comparamos esses resultados com os polimorfismos de nucleotídeo único missense recuperados do banco dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) e com mutações de câncer patogênicas e não patogênicas do banco de dados ClinVar (www.ncbi.nlm.nih.gov/clinvar/). Nossos resultados demonstram que a distribuição de mutações por grau (conectividade do nó) varia significativamente em comparação a simulações aleatórias de Monte Carlo e também à distribuição de um conjunto de polimorfismos humanos de nucleotídeo único (SNPs), tendendo a permanecer em nós com menor conectividade. Além disso, a proporção de mutações deletérias foi significativamente aumentada em nós com alto grau de conectividade quando dois critérios diferentes foram utilizados para sua classificação: proporções de preditores de software (Ndamage) e classificação clínica obtida do ClinVar. Levando em conta esses resultados, podemos concluir que as mudanças nos aminoácidos altamente conectados são, de fato, mais propensas a gerar mutações deletérias, devido a sua maior proporção de ocorrência nesses nós. Nossos resultados também indicam que a conservação de interações não-covalentes é um parâmetro importante a ser considerado na avaliação de efeitos de mutações e a análise de RINs pode ser usada como um parâmetro adicional para auxiliar na previsão de mutações deletérias no câncer. Mostrar Abstract In the last decades, advances in whole genomic approaches lead to the identification of a vast number of cancer-related mutations. High-throughput estimations of the impacts of cancer mutations in the protein structure are not an easy accomplishment, and most studies are limited to one-by-one whole structural analyzes. Moreover, there are still many challenges on the way to the precise and automated prediction of pathogenic mutations. Therefore, understanding the structural impact of a particular amino acid change is of great importance for cancer medical research. However, most studies have been emphasizing sequences and structural modifications based on chemical characteristics of amino acids and not fold features, in which the conservation of non-covalent interactions play a significant role. Henceforth, in the present study, we used residue interaction networks (RINs) for large-scale analysis of cancer missense mutations in order to infer their effects on the conservation of non-covalent interactions. We hypothesize that changes in highly connected amino acids are more likely to cause deleterious mutations. To evaluate this, we retrieved cancer missense mutations from COSMIC (cancer.sanger.ac.uk/cosmic) and TCGA (cancergenome.nih.gov) databases and mapped them to their respective structures retrieved from Protein Data Bank (rcsb.org). Then, RINs were constructed from the obtained pdb files, and network parameters such as the node's degree, edges' type, clustering coefficient, betweenness weighted were assessed and plotted using R scripts. Later, we compared these results against reported missense single nucleotide polymorphisms retrieved from dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) and to pathogenic and non-pathogenic cancer mutations from ClinVar (www.ncbi.nlm.nih.gov/clinvar/) databases. Our results demonstrate that the distribution of mutations per degree (node connectivity) varies significantly compared to random Monte Carlo simulations and also to the distribution of a set of human single nucleotide polymorphisms (SNPs), tending to remain at nodes with lower connectivity. Besides, the proportion of deleterious mutations was significantly increased in nodes with a high degree of connectivity when two different criteria were used for their classification: proportions of software predictors (Ndamage) and clinical classification obtained from ClinVar. Taking into account these results, we can conclude that the changes in the highly connected amino acids are indeed more likely to generate deleterious mutations, due their higher proportion of occurrence in these nodes. Our results also indicate that the conservation of non-covalent interactions is an important parameter to consider in assessing mutations effects and RINs analyses can be used as an additional parameter to aid in the prediction of deleterious mutations in cancer.
13	CAYRO DE MACÊDO MENDES CARACTERIZAÇÃO IN SILICO DE ORFs VARIÁVEIS E DE REGIÕES REGULATÓRIAS NO GENOMA DO VÍRUS DA SÍNDROME DA MANCHA BRANCA (WSSV) Orientador : DANIEL CARLOS FERREIRA LANZA MEMBROS DA BANCA : DANIEL CARLOS FERREIRA LANZA EUZEBIO GUIMARAES BARBOSA SÁVIO TORRES DE FARIAS Data: 19/11/2018 Mostrar Resumo A caracterização in silico vem sendo empregada como uma alternativa mais acessível para predição de sequências proteicas que não podem ser reproduzidas in vitro ou ter suas estruturas cristalizadas, bem como pode fornecer dados que complementam abordagens experimentais. O vírus causador da síndrome da mancha branca (WSSV) é um dos maiores problemas enfrentados pela carcinicultura mundial, causando consideráveis danos econômicos. Apesar de os efeitos do vírus nos cultivos serem bem conhecidos, até o momento existem poucas informações sobre os mecanismos de infecção e replicação viral, principalmente devido ao fato de grande parte de suas sequências codificantes não apresentar homologia com sequências conhecidas. Além disso o genoma do WSSV apresenta algumas regiões codificantes que variam entre os diferentes isolados, que até o momento não foram caracterizadas funcionalmente, denominadas ORF75, ORF94, ORF125, ORF23/24, ORF14/15. Esse trabalho teve como objetivo a caracterização in silico das proteínas putativas codificadas pelas regiões variáveis do genoma do WSSV, no intuito de se identificar possíveis funções. Foram empregadas análises filogenéticas a partir do alinhamento de dez sequências genômicas do WSSV obtidas do GenBank. As regiões variáveis das ORF75, ORF94 e ORF125 foram alinhadas e as unidades de repetição e SNPs anotados através da plataforma Geneious. As sequências de aminoácidos foram submetidas a buscas por homólogos remotos, motivos, domínios conservados, reconhecimento de fold e predição estruturas secundárias e terciárias. Foi possível modelar estruturas terciárias de domínios proteicos e inferir possíveis funções que incluem um motivo de reconhecimento de RNA associado a processos pós-transcricionais entre as posições 70-150 da ORF23, um motivo Ankyrim repeat (ANK) atuando em conjunto com o domínio RING-H2 na modulação da proteólise dependente de Ubiquitina na ORF125, helicases de reparo na ORF23/24, uma proteína associada a polimerização de filamentos de actina (ORF14/15) e uma proteína semelhante a subunidade HA2 da hemaglutinina do Influenzavirus (ORF23/24). Também foi possível detectar assinaturas associadas a sinais de localização nuclear dentro das unidades de repetição das sequências de aminoácidos codificadas por ORF75 e ORF94 que podem estar envolvidos na emissão de sinais para proteínas carreadoras do núcleo da célula hospedeira. Foi realizada a análise de algumas regiões regulatórias 100 e 200nt upstream das regiões codificante e foi possível detectar alguns motivos, incluindo um sítio de ligação de “Zinc-Finger”, sugerindo a interação entre possíveis fatores de transcrição. Por meio desses resultados foi proposto um modelo de atuação para cada uma das proteínas estudadas. Mostrar Abstract In silico characterization has been employed as a more accessible alternative for prediction of protein sequences that cannot be reproduced in vitro or have their structures crystallized, as well as can provide data that complement experimental approaches. The virus that causes white spot syndrome (WSSV) is one of the biggest problems facing global shrimp farming, causing considerable economic damage. Although the effects of the virus on the cultures are well known, to date there is little information on the mechanisms of viral infection and replication, mainly because much of their coding sequences do not show homology with known sequences. In addition, the WSSV genome has some coding regions that vary between the different isolates, which have not been functionally characterized to date, called ORF75, ORF94, ORF125, ORF23/24, ORF14/15. This work aimed at the in silico characterization of the putative proteins encoded by the variable regions of the WSSV genome, in order to identify possible functions. Phylogenetic analyzes were performed from the alignment of ten WSSV genomic sequences obtained from GenBank. The variable regions of the ORF75, ORF94 and ORF125 were aligned and the repeat units and SNPs annotated through Geneious platform. The amino acid sequences were subjected to remote homologous searches, motifs, conserved domains, fold recognition and prediction of secondary and tertiary structures. It was possible to model tertiary structures of protein domains and to infer possible functions that include an RNA recognition motif associated with post-transcriptional processes between positions 70-150 of wsv477 (ORF23), an Ankyrim repeat (ANK) motif acting in conjunction with RING-H2 domain on modulation of ubiquitin-dependent proteolysis in wsv249 (ORF125), repair helicases (wsv479, wsv497), actin filament polymerization associated protein (wsv463a), and a HA2 subunit of influenza virus hemagglutinin (wsv492). It has also been possible to detect signatures associated with nuclear localization signals within the repeating units of the amino acid sequences encoded by ORF75 and ORF94 which may be involved in the emission of signals to host cell nucleating proteins. We performed the analysis of some regulatory regions 100 and 200nt upstream of the coding regions and it was possible to detect some motifs, including a Zinc-Finger binding site, suggesting the interaction between possible transcription factors. By means of these results an action model was proposed for each one of the proteins studied.
14	THAYNÃ NHAARA OLIVEIRA DAMASCENO PAREADOR DE TERMOS PARA PESQUISA CLÍNICA: INTEGRATE PAIRED TOOL - IPT Orientador : EUZEBIO GUIMARAES BARBOSA MEMBROS DA BANCA : EUZEBIO GUIMARAES BARBOSA GILDERLANIO SANTANA DE ARAÚJO RAND RANDALL MARTINS TETSU SAKAMOTO Data: 18/12/2018 Mostrar Resumo Big Data é um termo utilizado para caracterizar o crescente volume de dados existentes sobre os mais diversos temas, sejam eles de cunho biomédico ou não. Devido ao enorme volume de dados biológicos e biomédicos gerados diariamente, uma das principais barreiras encontradas será a análise desses dados. É crescente o desenvolvimento e uso de ferramentas computacionais que permitam a análise desses dados através de técnicas como o Text Mining. O Text Mining, vertente do Data Mining, pode ser definido como um método que permite a extração de informações relevantes contidas em textos. Buscando permitir uma análise diferenciada dos dados, sejam esses dados clínicos ou não, foi desenvolvido um algoritmo simples, que permite a análise desses dados sem a necessidade de correlação com bancos de dados existentes, nem a criação de novos bancos de dados. A partir desse algoritmo, uma ferramenta WEB foi desenvolvida, pra que qualquer pessoa consiga ter acesso ao algoritmo (mesmo sem o conhecimento de técnicas computacionais) e promover a análise dos seus dados. O algoritmo da ferramenta Integrate Paired Tool (IPT) foi escrito em linguagem de programação R e utiliza técnicas de Data Mining e Text Mining para análise de dados clínicos, não restringindo suas análises apenas à estes dados específicos. O IPT promove o pareamento de termos analisando a frequência existente entre pares de dados, a partir de um arquivo .csv fornecido pelo usuário. Além disso, a ferramenta WEB foi desenvolvida a partir das linguagens JavaScript, HTML5, CSS e PHP. O algoritmo lê o arquivo .csv, e o percorre por inteiro, fazendo o pareamento de seus termos, dois a dois, independente se as colunas possuem tamanhos diferentes, ou se estão incompletas, até que todas as colunas sejam pareadas. Após todos os agrupamentos, é atribuído um valor para cada par agrupado, somando os pares de iguais frequências e gerando um outro arquivo .csv contendo as interações existentes e suas respectivas frequências. Após as relações e suas frequências de aparecimento serem formadas, um grafo de interações (em R) é mostrado na tela da ferramenta WEB para que o usuário possa então realizar suas análises, além do arquivo .csv com todas as interações e frequências. A obtenção desse grafo e dessa tabela pode conter informações variáveis, a depender da porcentagem que o usuário escolha na ferramenta IPT. Esse arquivo .csv com os dados das interações e frequências pode ser utilizado pelo usuário em outras ferramentas de visualização de redes, como o Gephi, por exemplo. Para fins de testagem da ferramenta, dados de uma UTI neonatal. O IPT demonstrou funcionar bem e atingiu os objetivos da pesquisa, e como metas futuras, teremos a hospedagem da ferramenta na página do Programa de Pós-Graduação em Bioiformática da UFRN, a análise de outros dados e uma possível integração do pré-processamento dos dados dentro do próprio IPT. Mostrar Abstract Big Data is a term used to characterize the growing volume of existing data on different topics, whether they are biomedical or not. The enormous volume of biological and biomedical data generated daily, one of the main barriers will be an analysis of these data. The development and use of computational tools that allow the analysis of data through techniques such as Text Mining. Text Mining, a Data Mining strand, can be defined as a method that allows the extraction of relevant information contained in text. In order to allow a differentiated analysis of the data, whether these clinical data or not, a simple algorithm was developed, which allows the analysis of this data without the need of correlation with existing databases, nor the creation of new databases. From this algorithm, a WEB tool was developed so that anyone can access the algorithm (even without the knowledge of computational techniques) and promote the analysis of their data. The Integrate Paired Tool (IPT) algorithm was written in R programming language and uses Data Mining and Text Mining techniques for analyzing clinical data, not restricting its analyzes only to these specific data. IPT promotes pairing of terms by analyzing the existing frequency between data pairs, from a user-supplied .csv file. In addition, the WEB tool was developed from the languages JavaScript, HTML5, CSS and PHP. The algorithm reads the .csv file and pass through it by pairing its terms two by two, regardless of whether the columns are different sizes or incomplete until all columns are paired. After all the groupings, a value is assigned to each grouped pair, adding all pairs with the same frequencies and generating another .csv file containing the existing interactions and their respective frequencies. After the relations and their appearance frequencies are formed, a graph of interactions (in R) is shown on the WEB tool screen, so the user can do their analyzes, in addition to the .csv file with all interactions and frequencies. This graph and this table can contain variable information, depending on the percentage that the user chooses in the IPT tool. This .csv file with interaction and frequency data can be used by the user in other network visualization tools, such as Gephi, for example. For the purposes of tool testing, a data from a neonatal was used. The IPT proved to work well and reached the objectives of the research, and as future goals, we will have the hosting of the tool in the page of the Program of Postgraduate in Bioformtics of UFRN, the analysis of other data and a possible integration of the pre-processing of the data within the IPT itself.
	Teses
1	ANDRÉ LUÍS FONSECA FAUSTINO Bioinformática aplicada à oncologia: Estudos na prospecção de alvos terapêuticos, antígenos tumorais e na dinâmica de resistência a drogas. Orientador : SANDRO JOSE DE SOUZA MEMBROS DA BANCA : SANDRO JOSE DE SOUZA GUSTAVO ANTONIO DE SOUZA LUCYMARA FASSARELLA AGNEZ LIMA DIRCE MARIA CARRARO VALDIR BALBINO Data: 01/11/2018 Mostrar Resumo A pesquisa contra o câncer abrange diversas facetas, incluindo desde a compreensão de que processos biológicos são ganhos e perdidos na doença, até como essas características podem afetar a taxa de sobrevida do paciente. Nesse contexto, a bioinformática tem sido aplicada para a prospecção de possíveis candidatos para terapia e diagnóstico. A presente tese contempla o conjunto de três capítulos voltados: i) a prospecção de alvos terapêuticos; ii) identificação de possíveis antígenos tumorais; iii) compreensão de mecanismos associados à resistência droga. No primeiro capítulo, é apresentado um catálogo de proteínas de superfície celular denominado como surfaceoma. O catálogo contempla 3.758 proteínas, as quais foram categorizadas quanto as alterações genéticas e a sua influência na redução sobrevivência em diversos tumores. Além disso, foi proposta uma assinatura de três (WNT5A, CNGA2 e IGSF9B) associados a mau prognóstico em câncer de mama. No seguinte capítulo, são apresentados dados derivados de um segundo artigo, no qual são explorados aspectos adicionais relacionados a antígenos tumorais, com ênfase de CTAs – cancer-testis antigens. Como resultado, foi desenvolvido um método para priorização de possíveis antígenos tumorais em escala genômica. Em seguida, foi discutido a eficácia de combinações entre CTAs no que consta o desenvolvimento de vacinas anticâncer. Finalmente, foram elencadas combinações significativas entre HEATR9, INSL3, GTSF1L e HSF5, que abrangem em média 35% dos pacientes. Por último, o terceiro capitulo discorre sobre um trabalho em desenvolvimento, o qual envolve uma classe de proteínas com função de regulação pós-transcricionais e a sua importância na resposta a drogas anticâncer. Em particular, os achados desse capítulo sugerem uma interessante discussão sobre a regulação mediada por RBPs (RNA-Binding proteins) e a resposta a drogas em pacientes com genótipo TP53 Wildtype e TP53 Mutated. Em conclusão, a presente tese contempla três aspectos fundamentais da pesquisa contra o câncer, sobretudo no desenvolvimento de novas estratégias de tratamento e diagnóstico. Mostrar Abstract Cancer research is a field with several branches, which covers the understanding of how the tumor heterogeneity can be used as a treatment opportunity or how those alterations led poor prognosis and drug resistance. In this context, the bioinformatics rises as a tool to investigate which features could be used as a therapeutical strategy. In this thesis, we presented three chapters that address distinct aspects in the cancer research, such as i) the prospection of therapeutic targets, ii) identification of possible tumor antigens; iii) understanding mechanisms associated with drug resistance. In the first chapter, shown a catalog of cell surface proteins, herein called the surfaceome. The cell surface proteins represent attractive targets for therapy due to the essential role in signaling pathways and often dysregulation in cancer. The surfaceome catalog includes 3758 proteins, which were categorized based on genetic alterations types and the influence in short-term survival in several tumors. Furthermore, we investigate gene signatures and their association with survival rate. As result, three genes (WNT5A, CNGA2, and IGSF9B) were proposed as a poor prognosis in breast cancer patients. The second chapter, it is focused on data derived from a previous article, published in 2017. Briefly, the original publication was associated with the identification of cancer-testis antigens (CTAs) and relation with prognosis in several tumor types. On the other hand, in this chapter, we present new putative tumor antigens from a genome-wide analysis. Next, we discussed strategies to prioritize cases and remove spurious results. In addition, we purpose CTAs combinations as a strategy to increase the effectiveness in anticancer vaccines development. As result, were found significant combinations among HEATR9, INSL3, GTSF1L, and HSF5, which cover in average 35% of patients. Finally, the third chapter discusses a work in progress, which involves proteins associated with post-transcriptional regulation and how those proteins affect anticancer drug response. In particular, our findings suggest an interesting discussion about RBPs (RNA-Binding proteins) expression and response to anticancer drugs. Also, were compared RBPs findings with other transcriptional-related genes, such as transcriptional factors and lincRNAs. In conclusion, this thesis considers three fundamental aspects of cancer research, especially in the development of our treatment and diagnosis strategies. Furthermore, two of these chapters are supported by international publications.

2017

	Dissertações
1	IARA DANTAS DE SOUZA MAPA METABÓLICO DA INTOXICAÇÃO POR CHUMBO Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN MEMBROS DA BANCA : JOAO PAULO MATOS SANTOS LIMA MAURO ANTONIO ALVES CASTRO RODRIGO JULIANI SIQUEIRA DALMOLIN VIVIANE SOUZA DO AMARAL Data: 14/12/2017 Mostrar Resumo Desde a antiguidade, o chumbo vem sendo utilizado pela humanidade em virtude das suas propriedades físico-químicas, como maleabilidade, ductilidade, resistência à corrosão, baixo ponto de fusão e baixa condutividade elétrica. Entretanto, além de sua importância econômica, o chumbo possui uma importância quanto à saúde humana, uma vez que causa intoxicação. Muitos efeitos da intoxicação pelo chumbo já foram relatados na literatura, afetando o organismo como um todo e produzindo sintomas no sistema cardiovascular, no sistema imune, nos ossos, no sistema reprodutivo, no sistema hematológico, no sistema renal, no sistema gastrointestinal e, principalmente, no sistema nervoso. Levantamentos epidemiológicos, estudos em humanos e em modelos animais mostraram que o chumbo é uma potente neurotoxina, não havendo níveis seguros de exposição. Embora haja evidências sobre como o chumbo afeta a homeostase em nível celular, a descrição das vias metabólicas afetadas na intoxicação por chumbo não está totalmente estabelecida. Par a esclarecer os efeitos da intoxicação por chumbo, o objetivo deste estudo é construir um mapa metabólico das vias celulares alteradas pela presença de chumbo e analisar quais proteínas são capazes de interagir com o chumbo. Encontramos um total de 23 proteínas, incluindo o tripeptídeo glutationa, as quais podem interagir diretamente com chumbo. Estas proteínas, juntamente com as informações das vias presentes no KEGG, permitiram a criação do mapa metabólico da intoxicação pelo chumbo. Nossas análises mostraram que o chumbo interage diversos componentes celulares, principalmente interferindo na função normal de proteínas as quais se ligam a metais essenciais, como zinco e cálcio. Mostrar Abstract Lead is an important heavy metal used worldwide in several applications, especially in industry. People exposed to lead can develop a wide range of symptoms associated with lead poisoning. Many effects of lead poisoningwere reported in the literature, showing a compromising of whole body health, with symptoms related to cardiovascular, immune, bone, reproductive, hematological, renal, gastrointestinal, and nervous system. However, the molecular lead targets as wellas the pathways affected by lead poisoning are not completely described. The aim of this study was to construct a map of metabolic pathways impaired in lead poisoning byevaluating which biomolecules are directly affected by lead. Through manual literature curation, we identified proteins which physically interact with lead and subsequently determined the metabolic pathways those proteins are involved with. At total, weidentified 23 proteins involved with heme synthesis, calcium metabolism, neurotransmission, among other biological systems, which helps to understand the wide range of lead poisoning symptoms.