Algoritmos de Aprendizagem por Reforço para Problemas de Otimização Multiobjetivo
Otimização Multiobjetivo, Q-Learning, Escalarização, Fronteira de Pareto.
Problemas de otimização multiobjetivo retratam situações reais e por isso essa classe
de problemas é extremamente importante. No entanto, ele carece de técnicas que possam
vencer suas limitações que são impostas pela classe e não por um problema em específico.
Algoritmos e técnicas de aprendizagem por reforço estão em consonância com este
tipo de problema e alguns frameworks tem sido propostos, os mesmos são baseados em
um dos algoritmos mais populares e utilizados nesta área, o Q-Learning. Assim, nossa
proposta é a de desenvolver algoritmos que possam vencer as limitações da classe de problemas
de otimização multiobjetivo. Os mesmos são utilizados em problemas de benchmark que
simulam situações que ocorrem em problemas reais e servem para validar técnicas. Para
os testes iniciais do algoritmo foi usado o benchmark Deep Sea Treasure que é extremamente
importante e oferece todas as limitações possíveis que um problema multiobjetivo
pode oferecer. Os algoritmos desenvolvidos conseguem vencer algumas limitações, no entanto, podem e devem ser refinados visando a total resolução dessas limitações, principalmente as que se referem na diversidade de soluções encontradas sob a Fronteira de Pareto e a possibilidade de
escolha a posteriori de uma política ótima.