Análise de Agrupamentos Com Base na Teoria da Informação: Uma Abordagem Representativa
Análise de agrupamentos, Teoria da Informação, Entropia, Potencial de Informação Cruzado, Dados Complexos.
Atualmente, um dos maiores desafios para o campo de mineração de dados é realizar a análise de agrupamentos em dados complexos. Diversas técnicas foram propostas mas, em geral, elas só conseguem atingir bons resultados dentro de domínios específicos, não existindo, dessa maneira, um consenso de qual seria a melhor maneira de se agrupar dados. Em geral, essas técnicas falham por fazer suposições nem sempre verdadeiras sobre a distribuição de probabilidade dos dados. Com base nisso, o trabalho proposto neste documento cria uma nova medida baseada no Potencial de Informação Cruzado que utiliza pontos representativos do conjunto de dados e a estatística extraída diretamente deles para medir a interação entre grupos. A abordagem proposta permite usar todas as vantagens desse descritor de informação e contorna as limitações impostas a ele pela sua própria forma de funcionamento. A partir disso, duas funções custo e três algoritmos de foram propostos para realizar a análise de agrupamentos. Como o uso de teoria da informação permite capturar a relação entre diferentes padrões, independentemente de suposições sobre a natureza dessa relação, a abordagem proposta aqui foi capaz de obter um desempenho superior aos principais algoritmos citados na literatura. Esses resultados valem tanto para o contexto de dados sintéticos desenvolvidos para testar os algoritmos em situações específicas quanto em dados extraídos de problemas reais de diferentes naturezas