Banca de DEFESA: THIAGO HENRIQUE FREIRE DE OLIVEIRA

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE : THIAGO HENRIQUE FREIRE DE OLIVEIRA
DATA : 11/01/2021
HORA: 09:00
LOCAL: Virtual Pelo Google Meet
TÍTULO:

Algoritmos de Aprendizagem por Reforço para Problemas de Otimização Multiobjetivo


PALAVRAS-CHAVES:

Otimização Multiobjetivo, Q-Learning, ε−constraint, Fronteira de Pareto, Hypervolume, Abordagem de Política Única.


PÁGINAS: 90
RESUMO:

Problemas de otimização multiobjetivo retratam situações reais e por isso, esta classe de problemas é extremamente importante. No entanto, mesmo já sendo estudada há décadas, esta classe de problemas continua a proporcionar situações desafiadoras, ainda mais pela persistente carência de técnicas eficazes. Dentre todas as dificuldades que podemos encontrar na otimização de múltiplos objetivos simultaneamente, sejam eles conflitantes ou não, uma das principais dificuldades encontradas pelos algoritmos e abordagens existentes é a necessidade de conhecimento a priori do problema, ocasionando em uma predefinição da importância para cada um dos objetivos. Já quando tratamos esta classe de problemas por meio da aprendizagem por reforço, duas abordagens são predominantes: política única (single-policy) e múltiplas políticas (multi-policy). Algoritmos e técnicas que utilizam a primeira abordagem sofrem com a necessidade de conhecimento prévio do problema, característica inerente dos problemas multiobjetivo. Já a segunda abordagem possui outras dificuldades, tais como: limitação do conjunto de soluções e elevado custo computacional. Diante deste contexto apresentado, o trabalho propõe dois algoritmos híbridos, chamados de Q-Managed with reset e Q-Managed without reset. Ambos são uma hibridização do algoritmo Q-Learning e à abordagem ε−constraint, respectiva- mente pertencentes à aprendizagem por reforço e otimização multiobjetivo. De forma resumida, os algoritmos propostos atuam da seguinte forma: o Q-Learning é utilizado para a exploração do ambiente, enquanto que à abordagem ε−constraint é utilizada para a delimitação dinâmica do ambiente, permitindo manter intacta a essência de como o algoritmo Q-Learning atua. Essa delimitação tem a seguinte finalidade: impor que o agente de aprendizagem possa aprender outras soluções por meio do bloqueio de ações que o levem a soluções já aprendidas e sem melhoria das mesmas, ou seja, soluções para qual o agente de aprendizagem já convergiu. Tal característica do bloqueio de ações é realizada pela figura de um gerente (Manager), onde o mesmo é responsável por observar tudo o que ocorre no ambiente. Com relação a diferença entre os algoritmos propostos, basicamente trata-se da escolha de aproveitar ou não o conhecimento já adquirido do ambiente após uma solução ser considerada aprendida, ou seja, o agente de aprendizado ter convergido para uma determinada solução. Como forma de testar a eficácia das duas versões do Q-Managed, foram utilizados benchmarks tradicionais, os quais também foram adotados em outros trabalhos, permitindo assim uma comparação mais justa. Assim, duas abordagens comparativas foram adotadas, sendo a primeira delas por meio da implementação dos algoritmos de terceiros para uma comparação direta, enquanto que a segunda se deu por meio de uma métrica comum a todos que utilizaram os mesmos benchmarks. Em todos os testes possíveis, os algoritmos aqui propostos se mostraram eficazes, sempre encontrando toda a Fronteira de Pareto.


MEMBROS DA BANCA:
Presidente - 347628 - ADRIAO DUARTE DORIA NETO
Interno - 1837240 - MARCELO AUGUSTO COSTA FERNANDES
Externo ao Programa - 1669545 - DANIEL SABINO AMORIM DE ARAUJO
Externo à Instituição - ALUIZIO FAUSTO RIBEIRO ARAÚJO - UFPE
Externo à Instituição - FRANCISCO CHAGAS DE LIMA JUNIOR - UERN
Externo à Instituição - JORGE DANTAS DE MELO - UFRN
Notícia cadastrada em: 05/12/2020 11:14
SIGAA | Superintendência de Tecnologia da Informação - (84) 3342 2210 | Copyright © 2006-2024 - UFRN - sigaa08-producao.info.ufrn.br.sigaa08-producao