Modelo de Otimização Multiobjetivo em Sistemas Multiagentes com Aprendizado Por Reforço
Sistemas multiagentes, aprendizado por reforço, otimização multiobjetivo, tomada de decisão.
Este trabalho propõe um algoritmo de aprendizado por reforço multiagente multiobjetivo para cenários onde múltiplos agentes autônomos operam em um ambiente compartilhado e devem otimizar simultaneamente objetivos possivelmente conflitantes. A pesquisa visa superar as limitações das abordagens atuais, fornecendo soluções adaptativas, escaláveis e eficazes para problemas complexos como planejamento logístico e distribuição de energia. O objetivo é explorar abordagens para o desenvolvimento de algoritmos de aprendizado por reforço multiagente, propondo metodologias para o aprendizado em diferentes cenários de interação entre agentes, como a utilização de múltiplos agentes para aceleração do aprendizado, aprendizado de ações conjuntas, aprendizado individual em ambientes com observação compartilhada e aprendizado individual em ambientes com observações individuais. A relevância do tema se dá pela capacidade dos algoritmos de aprendizado por reforço de se adaptar a mudanças no ambiente, tornando-os adequados para problemas de otimização multiobjetivo em situações reais de decisão distribuída. A metodologia inclui o desenvolvimento de um algoritmo de aprendizado por reforço multiagente, a avaliação do impacto de diferentes técnicas de modelagem de recompensa, como a Difference Reward e PBRS (Potential-Based Reward Shaping), e a comparação do algoritmo proposto com outras soluções da literatura, considerando aspectos como definição de preferências a priori entre os objetivos, restrições quanto ao formato da Fronteira de Pareto, características de comunicação entre os agentes e nível de conhecimento dos agentes sobre o ambiente. Espera-se que esta pesquisa amplie o estado da arte em aprendizado por reforço multiagente e otimização multiobjetivo, contribuindo com soluções mais eficazes e adaptativas para problemas complexos.