Um Framework Semissupervisionado para Classificação de Dados em Fluxos Contínuos
Aprendizado semissupervisionado, classificação em fluxos contínuos de
dados, mudança de contexto.
Aplicações no domínio de fluxos contínuos de dados (do inglês, Data Streams) recebem
um grande volume de dados rapidamente e, existe a necessidade de processá-los sequencialmente.
Uma característica destas aplicações é que os dados podem sofrer mudanças
durante o processo da utilização do modelo, ademais a quantidade de instâncias cujo rótulo
é conhecido pode não ser suficiente para gerar um modelo eficaz. A fim de suprimir
a dificuldade da pouca quantidade de instâncias rotulada, pode-se utilizar o aprendizado
semissupervisionado. Além disso, o uso de comitês de classificadores pode auxiliar na
detecção da mudança de contexto. Assim, neste trabalho, é proposto um método para
realizar a classificação semissupervisionada em tarefas com fluxos contínuos de dados,
utilizando uma abordagem baseada em comitês de classificadores. Para avaliar a eficácia
da proposta, são realizados testes empíricos com onze bases de dados utilizando dois diferentes
tamanhos de batch, nove abordagens supervisionadas (três classificadores simples
e seis comitês), por meio das métricas acurácia, precisão, recall e F-Score. Ao avaliar a
quantidade de instâncias processadas, as abordagens supervisionadas obtiveram um desempenho
praticamente constantes, enquanto que a proposta apresentou uma melhora de
8,28% e 3,81% utilizando 5% e 10% de instâncias rotuladas, respectivamente. De modo
geral, os resultados apontam que aumentar a quantidade de instâncias processadas nos
batches implica, na maioria das vezes, na melhora dos resultados da abordagem semissupervisionada.