Aprendizagem por Reforço Multiagente para Gerência de Interferência Intercelular em Cenários com Hotspots
RL Multiagente; interferência intercelular; Multi-Armed Bandit; Q-learning; ICIC; ; ns-3; hotspot
A interferência entre células (ICI) continua sendo um desafio crítico em redes móveis. Embora os padrões atuais e futuros estejam evoluindo rapidamente, o aumento constante na demanda de dados, o surgimento de novos casos de uso, a coexistência de múltiplas tecnologias e o aspecto dinâmico dos ambientes urbanos intensificam o impacto da interferência no desempenho do sistema. A ICI se torna especialmente desafiadora em implantações densas e em cenários com zonas de alta densidade de usuários, chamadas de hotspots. A Reutilização de Frequência Fracionada (FFR) é uma técnica bem estabelecida para mitigar a ICI em redes baseadas em OFDMA, como LTE e 5G, mas as configurações estáticas tradicionais geralmente não conseguem se adaptar aos padrões de interferência dinâmica. Esta tese propõe uma estrutura de coordenação de interferência dinâmica baseada em aprendizado por reforço, projetada para aprimorar a adaptabilidade e o desempenho das técnicas de FFR. A solução consiste em uma arquitetura multiagente hierárquica, na qual dois agentes de aprendizado por reforço operam em coordenação, sem troca direta de informações, para controlar em conjunto a alocação de largura de banda e a classificação do usuário por meio do limite RSRQ. A abordagem proposta foi avaliada por meio de simulações de rede, usando ns-3, em dois cenários diferentes, representando ambientes urbanos densos e condições de conexão massivas. Os resultados mostram que a estrutura proposta supera consistentemente as configurações estáticas e de agente único, alcançando ganhos de rendimento de até 99,4%, particularmente sob condições de alta interferência. Além disso, seu design modular permite a integração de diferentes estratégias de aprendizado. Enquanto os agentes Q-Learning apresentaram o mais alto desempenho, os agentes Multi-Armed Bandit (MAB) alcançaram resultados comparáveis, mas com complexidade computacional significativamente menor. Ao combinar técnicas clássicas de ICIC com aprendizado por reforço, este trabalho apresenta uma estratégia de mitigação de interferência flexível e de baixa sobrecarga, que pode se adaptar a condições de rede diversas e em evolução.