Banca de QUALIFICAÇÃO: THAYNA NHAARA OLIVEIRA DAMASCENO

Uma banca de QUALIFICAÇÃO de MESTRADO foi cadastrada pelo programa.
DISCENTE : THAYNA NHAARA OLIVEIRA DAMASCENO
DATA : 18/06/2018
HORA: 14:00
LOCAL: BioME
TÍTULO:

PAREADOR DE TERMOS PARA PESQUISA CLÍNICA: INTEGRATE PAIRED TOOL - IPT 


PALAVRAS-CHAVES:

Text Mining. Bioinformática. Biomedical Text Mining. Grafos.


PÁGINAS: 52
RESUMO:

Um dos grandes problemas encontrados pelos pesquisadores, sejam eles da área da saúde ou não, está no crescente volume de dados existentes sobre os mais diversos temas, e à esse volume de dados massivo, dá-se o nome de Big Data. Devido ao enorme volume de dados biológicos e biomédicos gerados diariamente, uma das principais barreiras encontradas será a análise desses dados. É crescente o desenvolvimento e uso de ferramentas computacionais que permitam a análise desses dados através de técnicas como o Text Mining. O Text Mining, vertente do Data Mining, pode ser definido como um método que permite a extração de informações relevantes contidas em textos. Buscando permitir uma análise diferenciada dos dados, sejam esses dados clínicos ou não, foi desenvolvido um algoritmo simples, que permite a análise desses dados sem a necessidade de correlação com bancos de dados existentes, nem a criação de novos bancos de dados. A partir desse algoritmo, uma ferramenta WEB foi desenvolvida, pra que qualquer pessoa consiga ter acesso ao algoritmo (mesmo sem o conhecimento de técnicas computacionais) e promover a análise dos seus dados. O algoritmo foi desenvolvido em um script em R, através da utilização do RStudio, e a ferramenta foi desenvolvida a partir das linguagens JavaScript, HTML5, CSS e PHP. À ferramenta deu-se o nome de Integrate Paired Tool, e ela utiliza técnicas de Text Mining para a análise de dados a partir de um arquivo .csv disponibilizado pelo usuário. O algoritmo lê o arquivo .csv, e o percorre por inteiro, fazendo o pareamento de seus termos, dois a dois, independente se as colunas possuem tamanhos diferentes, ou se estão incompletas, até que todas as colunas sejam pareadas. Após todos os agrupamentos, é atribuído um valor para cada par agrupado, somando os pares de iguais frequências e gerando um outro arquivo .csv contendo as interações existentes e suas respectivas frequências. Após as relações e suas frequências de aparecimento serem formadas, um grafo de interações (em R) é mostrado na tela da ferramenta WEB para que o usuário possa então realizar suas análises, além do arquivo .csv com todas as interações e frequências. A obtenção desse grafo e dessa tabela pode conter informações variáveis, a depender da porcentagem que o usuário escolha na ferramenta IPT. Esse arquivo .csv com os dados das interações e frequências pode ser utilizado pelo usuário em outras ferramentas de visualização de redes, como o Gephi, por exemplo. Para fins de testagem da ferramenta, dados de uma UTI neonatal e de uma pesquisa por abstracts o PubMed foram utilizados. A pesquisa dos abstracts seguiu um script próprio, disponibilizado no trabalho. O IPT demonstrou funcionar bem e atingiu os objetivos da pesquisa, e como metas futuras, teremos a hospedagem da ferramenta na página do Programa de Pós-Graduação em Bioiformática da UFRN, a análise de outros dados e uma possível integração do pré-processamento dos dados do PubMed dentro do próprio IPT.


MEMBROS DA BANCA:
Presidente - 1893445 - EUZEBIO GUIMARAES BARBOSA
Externo ao Programa - 2432313 - RAND RANDALL MARTINS
Interno - 1507794 - RODRIGO JULIANI SIQUEIRA DALMOLIN
Notícia cadastrada em: 08/06/2018 15:43
SIGAA | Superintendência de Tecnologia da Informação - (84) 3342 2210 | Copyright © 2006-2024 - UFRN - sigaa08-producao.info.ufrn.br.sigaa08-producao