Rotulamento de Papel Retórico no Domínio Legal Apoiada por modelos Transformadores
codificação de sentenças, BERT, julgamento, classificação de sentenças
Legal AI, a aplicação da Inteligência Artificial no domínio legal, é um campo de pesquisa que compreende muitas dimensões e tarefas de interesse. Como em outros domínios de aplicação, um dos benefícios almejados é a automação de tarefas, a qual aumenta a produtividade dos profissionais da área e torna o Direito mais acessível. Texto é uma importante fonte de dados no domínio legal, consequentemente Legal AI possui um grande interesse nos avanços relacionados ao Processamento de Linguagem Natural (PLN).
Esta tese tem como foco a automação do Rotulamento de Papel Retórico no Domínio Legal (RPRDL), uma tarefa que atribui funções semânticas para sentenças textuais em documentos legais. RPRDL é uma tarefa relevante porque ela localiza informações úteis por si só, e que também são úteis para tarefas posteriores tais como sumarização de textos legais e busca de jurisprudência. Existem fatores que tornam a RPRDL uma tarefa não-trivial, mesmo para humanos: heterogeneidade de fontes de documentos, falta de padrões, necessidade de conhecimento do domínio legal e o nível de subjetividade inerente à tarefa. Estes fatores complicadores e o alto volume de documentos legais justificam a automação da tarefa. Essa automação pode ser implementada como uma tarefa de classificação de sentenças: sentenças são utilizadas como entrada de um modelo que atribui um rótulo, ou classe, para cada sentença. A utilização de Modelos Transformadores de Linguagem Pré-treinados (MTLP) no desenvolvimento de classificadores é uma escolha óbvia visto que MTLPs são o estado da arte de muitas tarefas de PLN, incluindo a classificação de texto. Entretanto, esta tese evidencia dois problemas centrais encontrados em trabalhos sobre RPRDL suportados por MTLPs. O primeiro problema é a falta de trabalhos sobre melhores maneiras de lidar com as idiossincrasias de textos legais e com conjuntos de dados relacionados à tarefa de RPRDL que são normalmente pequenos e desbalanceados. Quase todos os trabalhos relacionados simplesmente utilizam a estratégia padrão de ajuste fino para treinar seus modelos. O segundo problema é o aproveitamento parcial da capacidade de exploração de contexto que é intrínseca aos MTLPs, um fato que prejudica o desempenho dos modelos.
Esta tese propõe estudos que visam superar tais problemas e consequentemente avançar o estado da arte da tarefa de RPRDL. Desses estudos, dois estão finalizados, um está próximo de ser finalizado e dois estão em elaboração. Os resultados advindos desses estudos serão utilizados para prover respostas às questões de pesquisa elencadas nesta tese.