Uma Abordagem Baseada em Grafos de Conhecimento para Modelagem de Textos Legislativos: Representação e Análise de Similaridade entre Documentos
Textos legislativos, Processamento de Linguagem Natural, Grafos de Conhecimento, IA Baseada em Grafos.
A principal tarefa do Poder Legislativo — a criação de leis — depende de um processo complexo e exigente, no qual novas propostas devem ser analisadas, debatidas e revisadas à luz da legislação existente. Essas atividades frequentemente demandam grande esforço humano devido à linguagem técnica, ampla extensão textual e interdependência dos textos jurídicos. Ao mesmo tempo, essas características representam uma oportunidade tangível para a Inteligência Artificial (IA), especialmente por meio da integração do Processamento de Linguagem Natural (PLN) e representações estruturadas de dados. Com o objetivo de modelar documentos legislativos de forma a preservar sua rica semântica estrutural, este trabalho propõe uma abordagem para transformar textos legislativos em Grafos de Conhecimento (GCs) especializados para o domínio, capturando sua organização hierárquica inerente. Baseado no padrão LexML — um esquema XML brasileiro para documentos jurídicos —, o método proposto extrai relações estruturais explícitas (e.g., artigos, parágrafos, incisos) e as organiza em GCs armazenados em um banco de dados Neo4j. Esses grafos refletem a topologia interna dos textos legais, permitindo representações estruturadas que viabilizam análises mais significativas em comparação ao texto bruto não estruturado. Para avaliar a eficácia dessa abordagem sensível à estrutura, foram conduzidos experimentos comparativos em tarefas de similaridade entre documentos, componente essencial dos fluxos de trabalho legislativos. Dois cenários foram avaliados: (i) uma baseline apenas com uso de texto, aplicando embeddings de sentenças baseadas em BERT e calculadas pela média entre seções do documento; e (ii) grafos sensíveis à estrutura, representados por embeddings gerados via FastRP e GraphSAGE. Experimentos com proposições legislativas da Assembleia Legislativa do Rio Grande do Norte (ALRN) mostraram que, embora o modelo baseado em texto tenha alcançado maior precisão, revocação e escores F1, as representações baseadas em GCs forneceram insights interpretáveis e guiados pela estrutura, complementando modelos puramente textuais. Finalmente, os resultados demonstram a viabilidade de converter documentos legislativos em Grafos de Conhecimento, sendo terreno fértil para futuros enriquecimentos com informações contextuais extraídas por Grandes Modelos de Linguagem. Ao unir PLN e IA baseada em grafos, este trabalho avança as metodologias para modelagem de documentos jurídicos, oferecendo um pipeline reprodutível para análise de similaridade, compreensão estrutural e maior eficiência em processos legislativos.