Identificação de dificuldades e questões de interesse de desenvolvedores de aplicações para Big Data com o framework Apache Spark
Big Data, Apache Spark, modelagem de tópicos probabilística, Latent Dirichlet Allocation (LDA), Stack Overflow, taxonomia.
Este trabalho de pesquisa busca identificar e classificar as principais dificuldades e questões de interesse dos desenvolvedores de aplicações para o processamento de Big Data utilizando o framework Apache Spark. Nesse sentido, utilizamos o algoritmo Latent Dirichlet Allocation para realizar uma modelagem probabilística de tópicos em informações extraídas do Stack Overflow, uma vez que não é viável a inspeção manual de todo o conjunto de dados. A partir do estudo compreensivo de trabalhos relacionados, estabelecemos e aplicamos uma metodologia, bem como construímos uma aplicação Spark para execução das tarefas, utilizando as bibliotecas Spark SQL e MLlib (para de aprendizagem de máquina). Análises sobre os resultados obtidos foram realizadas por um grupo composto por 5 pesquisadores: dois professores doutores, um aluno doutorando e dois alunos mestrandos. A partir da análise semântica dos rótulos atribuídos a cada um dos tópicos identificados, uma taxonomia de interesses e dificuldades foi construída.