Banca de DEFESA: NALBERT GABRIEL MELO LEAL

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE : NALBERT GABRIEL MELO LEAL
DATA : 22/09/2025
HORA: 16:30
LOCAL: meet.google.com/iqw-xeaq-krp
TÍTULO:

Uso de técnicas de detecção automatizada de erros em datasets supervisionados para tratamento de rótulos  oriundos de pipelines de aprendizado fracamente supervisionado


PALAVRAS-CHAVES:

Aprendizado fracamente supervisionado; Data programming; Rótulos ruidosos; Detecção automática de ruídos.


PÁGINAS: 132
RESUMO:

O alto custo da rotulação de dados para treinar modelos de aprendizado de máquina motivou o desenvolvimento do aprendizado fracamente supervisionado (AFS), em compensação, introduz ruídos nos rótulos, afetando o desempenho dos modelos. Entre as técnicas de AFS, data programming (DP) se destaca ao utilizar fontes ruidosas (como heurísticas e modelos pré-treinados) para realizar a rotulação automatizada de dados com baixo custo, resultando em rótulos potencialmente imprecisos que impactam o desempenho do end-model. O objetivo desse trabalho, é avaliar se técnicas que detectam instâncias ruidosas podem melhorar o desempenho do modelo final obtido com o pipeline de DP para tarefas de classificação. Para isso, realizou-se um experimento cujo objetivo foi identificar o impacto no desempenho e custo que o uso da detecção de instâncias ruidosas tem no pipeline de DP. Algumas das técnicas para o experimento já eram conhecidas pelo autor, mas não ligadas previamente ao AFS, já outras foram selecionadas a partir de uma revisão da literatura que buscou técnicas de detecção de ruídos já aplicadas ao AFS. O impacto de cada técnica no desempenho do end-model foi avaliado pela métrica Matthews correlation coefficient e o custo através do tempo de execução do pipeline no qual a técnica foi introduzida. Os resultados demonstram que a aplicação das técnicas de detecção, na maioria dos casos, degradou o desempenho dos end-models de forma estatisticamente significativa. Somente 4% dos pipelines com detecção apresentaram uma melhoria de desempenho estatisticamente significativa e superior ao baseline. As melhorias, quando ocorreram, foram pontuais e vieram acompanhadas de um alto custo computacional. Além disso, os baselines, especialmente os com LMs hyper label model e majority vote, mostraram um melhor equilíbrio entre desempenho e custo. Assim, O pipeline de DP sem técnicas de detecção se mostrou uma abordagem mais eficiente.


MEMBROS DA BANCA:
Presidente - 1669545 - DANIEL SABINO AMORIM DE ARAUJO
Interno - 2353000 - ELIAS JACOB DE MENEZES NETO
Interno - 4351681 - JOAO CARLOS XAVIER JUNIOR
Externo à Instituição - ARAKEN DE MEDEIROS SANTOS - UFERSA
Notícia cadastrada em: 09/09/2025 16:21
SIGAA | Superintendência de Tecnologia da Informação - (84) 3342 2210 | Copyright © 2006-2025 - UFRN - sigaa01-producao.info.ufrn.br.sigaa01-producao