Banca de DEFESA: YURI THOMAS PINHEIRO NUNES

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE : YURI THOMAS PINHEIRO NUNES
DATA : 16/04/2024
HORA: 15:00
LOCAL: Sala Virtual do Meets: meet.google.com/gjx-jxbd-atk
TÍTULO:

Detecção Heurística de Concept Drift baseado em TEDA


PALAVRAS-CHAVES:

Classificação em Data Stream, Detector de Concept Drift, Data Stream, Aprendizado não supervisionado, TEDA


PÁGINAS: 50
RESUMO:

A enorme quantidade de aplicações de aprendizado de máquina e dados produzidos apresentam diversos desafios atualmente. Em diversos contextos, os dados podem possuir relevância temporal através de sazonalidade e tendências resultando em comportamento não-estacionário. Essa característica presente em diversos sistemas dificulta a aplicação de modelos de aprendizado de máquina, que de forma geral, assumem que os dados são estacionários. Nesse cenários, as fontes de dados podem ser consideradas como data streams: fontes ordenadas e ilimitadas de dados não estacionários. Essas fontes alimentam as aplicações de aprendizado máquina de forma não confiável por violar a estacionariedade. Quando o data stream apresenta uma variação significativa podendo induzir a degradação de performance é dito que ocorreu um concept drift. Considera-se que um data stream que apresenta concept drift representa um sistema evolutivo (evolving system). Um sistema que evolui ao longo do tempo através de mudanças nos seus conceitos internos, por exemplo, emergência de novos conceitos, extinção de conceitos, divisão e fusão de conceitos, etc. Neste contexto, as técnicas de aprendizado de máquina devem ser adaptadas para o contexto de data streams. Um exemplo seria um classificador para amostras de data stream (classificador de data stream). Esse tipo de modelo precisa considerar retreinamento em tempo real, robustez à não estacionariedade, indisponibilidade de dados, conjunto limitado de dados, entre outros. Para implementar essas diversas características é essencial o uso de detectores de concept drift (CDD). CDDs não modelos capazes de identificar quando um ou mais conceitos da data stream mudaram de forma significativa. A literatura é rica em trabalhos sobre de detecção de concept drift distribuídos em três grupos: supervisionados, semi-supervisionados e não supervisionados. Os métodos supervisionados tem acesso as classes verdadeiras das amostras da data stream no momento de detecção enquanto os métodos semi-supervisionados tem acesso limitado. Os métodos semi-supervisionados podem ter acesso as classes verdadeiras durante o treinamento, durante etapas offline ou até mesmo a um sub-conjunto de amostras no momento de detecção. Os métodos não supervisionados não acessam as classes verdadeiras das amostras, sendo teoricamente mais limitado que as demais abordagens. Entretanto, os métodos não supervisionados possibilitam menor atraso de detecção em aplicações reais, já que é razoável que não se tenha acesso à classe verdadeira no momento da detecção. Exemplos de métodos não supervisionados são o ADWIN, KSWIN e PageHinkley. Este trabalho apresenta um novo método de detecção de concept drift, o TEDA-CDD. Esse detector é composto por dois modelos para representar conceitos baseados em TEDA: o modelo de referência e o modelo evolutivo. O modelo de referência tem como objetivo representar o conceito conhecido pelo modelo de aprendizado de máquina enquanto o modelo de referência é livre para se adaptar a qualquer novo modelo que emergir do data stream. Os modelos são comparados de forma heurística através do índice de Jaccard para indicar similaridade. Quando o índice indicar baixa similaridade entre os modelos o detector indica um concept drift. Afim de comparar o método proposto com outros métodos presentes na literatura, inicialmente, propõe-se uma abordagem realística para classificadores de data stream. Essa abordagem possibilita aplicar diversos classificadores e detectores na tarefa de classificação de data stream e estimar métricas de desempenho especificas ao contexto de data streams. Nos experimentos, o método proposto é comparado a outros métodos presentes na literatura utilizando benchmarks sintéticos e reais. O método proposto possui desempenho comparável em termos de precisão em relação aos métodos consolidados na literatura ao passo que é o mais eficiente em termos de consumo de memória.


MEMBROS DA BANCA:
Presidente - 1153006 - LUIZ AFFONSO HENDERSON GUEDES DE OLIVEIRA
Interno - 2885532 - IVANOVITCH MEDEIROS DANTAS DA SILVA
Interno - 1837240 - MARCELO AUGUSTO COSTA FERNANDES
Externo à Instituição - IGNACIO SANCHEZ GENDRIZ
Externo à Instituição - JUAN MOISES MAURICIO VILLANUEVA - UFPB
Notícia cadastrada em: 23/03/2024 11:21
SIGAA | Superintendência de Tecnologia da Informação - (84) 3342 2210 | Copyright © 2006-2024 - UFRN - sigaa13-producao.info.ufrn.br.sigaa13-producao