Deep Q-Managed: Um Novo Algoritmo para Aprendizagem por Reforço Profundo Multiobjetivo
Aprendizado por Reforço Multiobjetivo, Deep Q-Learning, Double Q-Learning, Dueling Networks
O algoritmo Deep Q-Managed, proposto neste trabalho, representa um avanço significativo no campo da aprendizagem por reforço multiobjetivo. Esta nova estratégia emprega uma técnica atualizada de otimização multiobjetivo híbrida, que oferece uma garantia matemática de que todas as políticas pertencentes ao Pareto Front podem ser encontradas, destacando-se na aquisição de políticas multiobjetivo não dominadas em ambientes caracterizados por funções de transição determinísticas. Sua flexibilidade se estende a cenários onde o Pareto Front apresenta complexidades geométricas convexas, côncavas ou mistas, tornando-o em uma solução versátil para uma ampla gama de aplicações. A proposta foi validada utilizando os tradicionais benchmarks MORL e diferentes configurações da frente de Pareto. A qualidade das políticas encontradas pelo algoritmo foi comparada com abordagens proeminentes na literatura utilizando a métrica de hipervolume. Os resultados da estratégia proposta estabelecem o algoritmo Deep Q-Managed como um candidato digno para lidar com problemas multiobjetivos desafiadores.