Uso de técnicas de detecção automatizada de erros em datasets supervisionados para tratamento de rótulos oriundos de pipelines de aprendizado fracamente supervisionado
Aprendizado fracamente supervisionado; Data programming; Rótulos ruidosos; Detecção automática de ruídos.
O alto custo da rotulação de dados para treinar modelos de aprendizado de máquina motivou o desenvolvimento do aprendizado fracamente supervisionado (AFS), em compensação, introduz ruídos nos rótulos, afetando o desempenho dos modelos. Entre as técnicas de AFS, data programming (DP) se destaca ao utilizar fontes ruidosas (como heurísticas e modelos pré-treinados) para realizar a rotulação automatizada de dados com baixo custo, resultando em rótulos potencialmente imprecisos que impactam o desempenho do end-model. O objetivo desse trabalho, é avaliar se técnicas que detectam instâncias ruidosas podem melhorar o desempenho do modelo final obtido com o pipeline de DP para tarefas de classificação. Para isso, realizou-se um experimento cujo objetivo foi identificar o impacto no desempenho e custo que o uso da detecção de instâncias ruidosas tem no pipeline de DP. Algumas das técnicas para o experimento já eram conhecidas pelo autor, mas não ligadas previamente ao AFS, já outras foram selecionadas a partir de uma revisão da literatura que buscou técnicas de detecção de ruídos já aplicadas ao AFS. O impacto de cada técnica no desempenho do end-model foi avaliado pela métrica Matthews correlation coefficient e o custo através do tempo de execução do pipeline no qual a técnica foi introduzida. Os resultados demonstram que a aplicação das técnicas de detecção, na maioria dos casos, degradou o desempenho dos end-models de forma estatisticamente significativa. Somente 4% dos pipelines com detecção apresentaram uma melhoria de desempenho estatisticamente significativa e superior ao baseline. As melhorias, quando ocorreram, foram pontuais e vieram acompanhadas de um alto custo computacional. Além disso, os baselines, especialmente os com LMs hyper label model e majority vote, mostraram um melhor equilíbrio entre desempenho e custo. Assim, O pipeline de DP sem técnicas de detecção se mostrou uma abordagem mais eficiente.