STRATIFICATION OF PRETERM BIRTH RISK IN BRAZIL THROUGH UNSUPERVISED LEARNING METHODS AND SOCIOECONOMIC DATA
Nascimento prematuro, Clusterização, Aprendizagem Não-supervisionada, k-Means, Mapas Auto-organizáveis, Brasil.
Nascimento prematuro (PTB) é um fenômeno que traz riscos e desafios à sobrevivência de um recém-nascido. Apesar de muitos avanços na pesquisa, nem todas as causas do PTB estão bem definidas. Atualmente, entende-se que risco de PTB é multifatorial e que pode, também, estar associado a fatores socioeconômicos. Objetivando analisar essa possível relação, este trabalho busca estratificar o risco de PTB no Brasil utilizando-se apenas de dados socioeconômicos, extraindo e analisando clusters que apresentarem divergência relevante de PTB, todos os quais serão descobertos por processos de clusterização automáticos usando uma série de métodos de aprendizagem de máquina não-supervisionada. Através do uso de bancos de dados públicos disponibilizados pelo Governo Federal do Brasil, um novo banco de dados foi gerado com dados socioeconômicos a nível municipal e uma taxa de ocorrência de PTB. Esse banco de dados foi processado utilizando dois métodos de clusterização distintos, ambos construídos através da união de métodos de aprendizagem não-supervisionada, tais como $k$-médias, análise de componentes principais (PCA), clusterização espacial baseada em densidade de aplicações com ruído (DBSCAN), mapas auto-organizáveis (SOM) e clusterização hierárquica. Os clusters com alto PTB foram formados majoritariamente por municípios com baixos níveis educacionais, com pior qualidade de serviços públicos -- como saneamento básico e coleta de lixo -- e com populações mais brancas. A distribuição dos clusters também foi observada, com clusters com alto PTB concentrados nas regiões Norte e Nordeste. Os resultados indicam, uma influência positiva da qualidade de vida e da oferta de serviços públicos na redução do risco de PTB.