Um Framework para classificação semissupervisionada de dados em ambiente não estacionários
Aprendizado semissupervisionado, dados não-estacionários
Aprendizado semissupervisionado é uma área de aprendizado de máquina que treina um classificador com poucas instâncias rotuladas no conjunto de dados. Essa estratégia é usada, especialmente quando o número de instâncias cujo rótulo é conhecido pode não ser suficiente para gerar um modelo eficaz. Nos últimos anos, a geração de dados se tornou cada vez maior e com uma velocidade muito alta. A partir destes dois conceitos iniciais apresentados, os dados são gerados rapidamente, e não há dados suficientes rotulados para treinar um classificador nos modelos tradicionais; assim, uma nova tarefa de classificação surge no cenário de fluxo de dados. Esse processo se torna ainda mais desafiador no cenário semissupervisionado, onde apenas algumas instâncias rotuladas estão disponíveis. O framework semissupervisionado DyDaSL foi proposto na literatura para abordar esse problema. Esse framework utiliza um comitê com n classificadores que foram treinados nas iterações anteriores para rotular os dados mais recentes do fluxo de dados. Esta pesquisa propõe extensões para cada um dos módulo do framework DyDaSL visando otimizar os processos de treinamento do comitê, detecção e reação as mudanças de contexto para aumentar a eficácia da classificação na tarefa semissupervisionada. Duas extensões são propostas para o módulo de treinamento para gerar comitês mais eficazes, começando com apenas um classificador e aumentando ao longo do processo de classificação. Três extensões são propostas para os módulos de detecção da mudança de contexto para aumentar a eficácia das detecções delas a partir de limiares flexíveis ou testes estatísticos. Duas extensões são propostas para o módulo de reação para adaptar o comitê a essas mudanças de contexto. Os resultados preliminares apontam para resultados positivos em todos os três módulos; uma das extensões de treinamento supera o módulo de treinamento padrão em 17 de 20 (85%) casos. Uma extensão do módulo de detecção da mudança de contexto supera o original em 12 de 15 (80%). Finalmente, uma das extensões dos módulos de reação obteve resultados superiores em 73 de 80 (91,25%) casos.