Aprendizagem Não-Supervisionada Aplicada a Estratificação de Nascimentos Prematuros no Brasil
Aprendizagem de máquina, aprendizagem não-supervisionada, SINASC, CADU, Nascimento prematuridade
De acordo com dados recentemente publicados pelo UNICEF em 2016 a principal causa de mortalidade infantil até os 5 anos é o nascimento prematuro, representando cerca de 17,9% da mortalidade infantil global. No Brasil, o cenário é o mesmo atingindo 17,1% inferior a somente mortalidade devido a problemas congênitos. Todavia, vale ressaltar que ao restringir os dados para o período neonatal problemas relacionados à prematuridade são as principais causas da mortalidade infantil representando 15,1% da totalidade. Estudos têm mostrado que muitas das causas da prematuridade estão associadas a questões sociais, econômicas e culturais. Assim, este trabalho tem como meta estratificar este grave problema identificando correlações entre prematuridade e dados socioeconômicos, objetivando direcionar políticas públicas mais efetivas para redução da mortalidade por prematuridade. A estratificação será realizada através de ferramentas de aprendizagem de máquina baseadas em algoritmos não-supervisionados no qual uma análise por clusterização em dois níveis é aplicada em dois conjuntos de dados coletados pelo Governo Federal do Brasil: o Sistema de Informações sobre Nascidos Vivos (SINASC) e o Cadastro Único (CADU). Resultados mostram que taxa de prematuridade por município está correlacionada com as condições socioeconômicas.