Um Método para Classificação de Dados Semissupervisionados em Fluxos Contínuos de Dados
Aprendizado semissupervisionado, classificação em fluxos contínuos de
dados, mudança de contexto.
Aplicações no domínio de fluxos contínuos de dados (do inglês, Data Streams) recebem um grande volume de dados rapidamente e, existe a necessidade de processá-los sequencialmente. Uma característica destas aplicações é que os dados podem sofrer mudanças durante o processo da utilização do modelo, além disso a quantidade de instâncias cujo rótulo é conhecido pode não ser suficiente para gerar um modelo eficaz. A fim de, suprimir a dificuldade da pouca quantidade de instâncias rotulada, pode-se utilizar o aprendizado semissupervisionado e, o uso de comitês de classificadores podem auxiliar na detecção da mudança de contexto. Assim, neste trabalho, é proposto um método para realizar a classificação semissupervisionada em tarefas com fluxos contínuos de dados, utilizando uma abordagem baseada em comitês de classificadores. Para avaliar a eficácia da proposta, são realizados testes empíricos com cinco bases de dados, um comitê de classificadores semissupervisionados e dois diferentes tamanhos de batch, utilizando como métrica a acurácia, precisão, recall e F-Score Os resultados preliminares apontam que essa proposta obteve melhores resultados em comparação às abordagens supervisionadas, quando se utiliza batches com uma quantidade maior instâncias.