Automações não-supervisionadas na Abordagem de Seleção Dinâmica de Atributos baseado na Fronteira de Pareto
Pré-processamento de dados, Seleção de Atributos, Análise de Dados, Algoritmos de Agrupamento, Técnicas não-supervisionadas.
Muitas estratégias de seleção de atributos foram desenvolvidas nas últimas décadas, usando diferentes critérios para selecionar as características mais relevantes. O uso da seleção dinâmica de atributos, entretanto, mostrou que o uso de múltiplos critérios simultaneamente para determinar o melhor subconjunto de atributos para instâncias similares pode fornecer resultados encorajadores. Embora o uso da seleção dinâmica tenha atenuado parte das limitações encontradas em métodos de seleção tradicionais, a utilização exclusiva de critério de avaliação supervisionados e a definição manual da quantidade de grupos a serem utilizados, conduzem a limitações de análises de problemas complexos em cenários não-supervisionados. Neste contexto, esta tese propõe três vertentes da abordagem de seleção dinâmica de atributos baseada na fronteira de pareto. A primeira está relacionada com a inclusão de critérios não-supervisionados na versão base do PF-DFS/M. A segunda (PF-DFS/P) e terceira (PF-DFS/A) vertentes são variações da versão base, onde incluem, respectivamente, a automatização parcial e total da definição da quantidade de grupos a serem utilizados no processo de pré-procesamento através do uso de um comitê de índices de validação interno. A automatização do hiperparâmetro referente a quantidade grupos permite que, ao invés da escolha arbitrária, sejam utilizados mecanismos que possam auxiliar pesquisadores a lidar com bases de dados não-rotuladas, ou até mesmo a constituir uma análise sob bases rotuladas. Adicionalmente, foi proposta a análise do PF-DFS frente a cenários de dados ruidosos. Nas análises investigativas foram utilizados conjuntos de dados reais e artificiais onde foram avaliados: (I) o desempenho do PF-DFS em termos de estabilidade e robustez, (II) o comportamento do PF-DFS com a inclusão de critérios de avaliação não-supervisionados e (III) o comportamento do PF-DFS com automatização parcial e total em relação a quantidade de grupos.