Novas estratégias para resolver o problema da degeneração no algoritmo k-means
K-means, Degeneration, Clustering, Heuristics.
O k-means é um algoritmo benchmark bastante utilizado na área de mineração de dados.
Ele pertence à grande categoria de heurísticas com base em etapas de
localização-alocação que, alternadamente, localiza centros de cluster e atribuí
pontos de dados a eles até que nenhuma melhoria seja possível. Tais heurísticas
são conhecidas por sofrer de um fenômeno chamado de degeneração, em que,
alguns dos clusters ficam vazios, e, portanto, fora de uso. Nesta tese, propõe-se
varias comparações e uma série de estratégias para contornar soluções
degeneradas durante a execução de k-means. Os experimentos computacionais
demonstram que essas estratégias são eficientes e levam a melhores
soluções de agrupamento na grande maioria dos casos testados.