Dynamic clustering based on evolving system approach
Data Streams, Algoritmos evolutivos, Modelos Ocultos de Markv, Sistemas Evolutivos, TEDA
O objetivo principal deste trabalho é desenvolver um algoritmo para processamento de series temporais ou sequências de dados ordenados. Essas fontes de dados podem ser consideradas data streams, fluxos de dados contínuos e teoricamente infinitos. Considerar series temporais e sequências de dados como data streams possibilita uso de algoritmos evolutivos por utilizar uma política de passagem única de dados e extrair conhecimento de forma cumulativa. Este algoritmo é fortemente inspirado em modelos ocultos de Markov (do inglês hidden Markov models - HMM) e no algoritmo evolutivo de clusterização AutoCloud, que por sua vez é baseado no TEDA (Typicality and Eccentricity Data Analysis). O AutoCloud servirá de base para modelar os estados das HMM's e o TEDA será utilizado para estimar as transições de estado assim obtendo um modelo similar a uma HMM tradicional. Incialmente serão propostos modificações ao AutoCloud para melhorar o desempenho do algoritmo em relação a concept drift e concept evolution e também na operação de fusão de clusters e adição da operação de cisão de clusters. Além dessas mudanças, será definida a estrátegia para calcular as transições mais típicas entre clusters. Como resultado, esperasse que o desempenho do AutoCloud não seja prejudicado em benchmarks já conhecidos mas também que ele se torne mais robusto ao lidar com novos datasets. Além de ser possível estimar os parâmetros de HMMs simples.