Seleção de atributos baseado em algoritmos de agrupamento para tarefas de classificação
Comitês de classificadores, seleção de atributos
Com o aumento do tamanho dos conjuntos de dados utilizados em sistemas de classi-
cação, a seleção dos atributos mais relevantes se tornou uma das principais tarefas da
fase de pré-processamento. Em um conjunto de dados é esperado que todos os atributos
que o descreve sejam relevantes, porém isso nem sempre acontece. Selecionar o conjunto
de atributos mais relevantes ajuda a reduzir a dimensionalidade dos dados sem afetar
o desempenho, ou até mesmo melhorá-lo, para que se possa obter melhores resultados
quando utilizado na classicação de dados. Os métodos de seleção de características existentes
selecionam os melhores atributos para uma base de dados como um todo, sem levar
em consideração as particularidades de cada instância. A Seleção de atributos baseada
em algoritmos de agrupamento, método proposto deste trabalho, seleciona os atributos
mais relevantes para cada grupo de instâncias, utilizando algoritmos de agrupamento
para agrupá-las de acordo com as suas semelhanças. Este trabalho efetua uma análise
experimental de diferentes técnicas de agrupamento aplicadas a essa nova abordagem de
seleção de atributos. Para isso, são utilizados os algoritmos de agrupamento k-Médias,
DBscan e Expectation-Maximization(EM) como métodos de seleção. São efetuadas aná-
lises de desempenho e estatísticas para vericar qual desses algoritmos de agrupamento
melhor se adequa a essa nova Seleção de Atributos. Assim, a contribuição deste trabalho é
apresentar uma nova abordagem, através de uma versão Semidinâmica e outra Dinâmica,
para seleção de atributos baseada em algoritmos de agrupamento e determinar qual dos
métodos de agrupamento realiza uma melhor seleção e obtém um melhor desempenho na
construção de classicadores mais acurados.