Compressão Consciente de Modelos de Redes Neurais Profundas Baseada em Poda Seguida de Quantização
Aprendizagem profunda, Quantização consciente, Poda consciente, Microserviços, Classificação automática de modulação.
Técnicas de aprendizado profundo, particulamente as redes neurais profundas (Deep Neural Networks - DNNs), têm sido utilizadas com êxito em muitos problemas. Porém, esses tipos de algoritmos exigem um grande esforço computacional, devido a grande quantidade de parâmetros e de operações matemáticas realizadas, e isto pode ser um problema para aplicações onde os recursos computacionais são limitados, aplicações que requerem baixa latência ou baixo consumo energético. Assim, este trabalho propõe a aplicação de uma nova estratégia de treinamento para compressão consciente de modelos de DNNs baseados em poda, quantização e poda seguida de quantização capaz de reduzir o tempo de processamento e seu tamanho em memória. A estratégia de compressão foi aplicada em dois domínios, o primeiro para classificação automática de modulações, onde foi possível reduzir o tamanho do modelo em 13 vezes, e manter uma acurácia apenas 1,8% menor que a do modelo não comprimido. No segundo domínio, voltado para a classificação de imagens em ambientes de microserviços, a mesma estratégia de compressão foi aplicada. Neste contexto, observou-se uma redução de 7,6 vezes no tamanho do modelo, mantendo uma acurácia próxima ao modelo não comprimido. Além disso, a implementação dessas técnicas reduziu a latência de predição em 1,7 vezes e também diminuiu significativamente o tempo necessário para a implantação de microserviços contendo esses modelos. Esses resultados ressaltam a eficácia da abordagem proposta, indicando seu potencial impacto positivo em cenários que demandam eficiência computacional e economia de recursos.