Uma Plataforma Intervalar para Agrupamentos de Dados
Distância intervalar; Medida de similaridade; Algoritmos de agrupamento; Índices de Validação; Agregações de i-distâncias
Este trabalho propõe uma plataforma para métodos de agrupamento
de dados do tipo intervalar e uma solução para dados híbridos que contenham esse tipo de dados.
O principal objetivo do uso de dados com natureza intervalar é representar informação numérica dotada de imprecisões, que são normalmente capturadas a
partir de medidas do mundo real. Para isso, é necessário adaptar técnicas de valores reais para serem utilizadas em dados intervalares.
Para aplicações de agrupamento intervalares, por exemplo, é necessário propor uma distância intervalar e também adaptar algoritmos de agrupamento para serem utilizados nesse contexto.
Neste caso, adaptamos uma distância intervalar, chamada $d_{km}$, e propomos algoritmos de agrupamento fuzzy intervalares, Fuzzy C-Means baseado em intervalos e ckMeans baseado em intervalos, e três índices de validação intervalares. Para validar a estrutura baseada em intervalos proposta, uma análise empírica foi realizada com conjuntos de dados sintéticos e reais.
A análise empírica é baseada em um índice de validade de cluster externo, Correct Rand, e seis índices de validação interna, sendo que três são necessárias adequações para serem utilizados com dados intervalares.
É realizada uma análise comparativa entre os resultados existentes na literatura e os resultados obtidos. E mais, para trabalhar com dados híbridos uma investigação sobre funções de agregações de i-distâncias é realizada.