Avaliando o iSklearn para aprendizado de máquina automatizado aplicado a processamento de linguagem natural
Aprendizado de máquina automatizado; configuração de algoritmos; processamento de linguagem natural; aprendizado profundo; transfer learning.
Aprendizado de máquina automatizado (AutoML, do inglês automated machine learning) vem ganhando destaque tanto na academia quanto na indústria e se mostrando uma abordagem importante para que não especialistas na área possam extrair informação útil a partir de dados. Algumas destas ferramentas fazem uso de configuradores de algoritmos que têm se demonstrado eficientes, entre eles o irace. Neste trabalho, avaliaremos o iSklearn, a primeira ferramenta de AutoML baseada em configuração de algoritmos a utilizar o irace como configurador, abordando especificamente o domínio de processamento de linguagem natural (PLN). Para isso, aplicaremos esta ferramenta em conjuntos de dados populares na área de PLN e iremos comparar com resultados de referência obtidos com a biblioteca scikit-learn, tanto usando algoritmos padrões de ML quanto uma das mais populares ferramenta de AutoML (Auto-sklearn). Além disso, iremos analisar os efeitos de configurações alternativas e do quanto o iSklearn pode se beneficiar do uso de transfer learning para se aproximar do estado-da-arte em PLN. Resultados preliminares demonstram que o iSklearn é capaz de produzir modelos competitivos em relação ao Auto-sklearn para a área de PLN.