Assistente de Busca: Uma abordagem RAG para busca semântica em documentos textuais da Alern
Retrieval-Augmented Generation; Large Language Models; Busca Semântica.
O crescimento sem precedentes na produção de documentos textuais não estruturados em instituições públicas apresenta desafios para a recuperação e interpretação eficiente de informações. Esta pesquisa aborda esses desafios por meio do desenvolvimento de um assistente de busca utilizando a abordagem Retrieval-Augmented Generation (RAG), aplicada especificamente aos documentos produzidos pela Assembleia Legislativa do Estado do Rio Grande do Norte (Alern). O sistema proposto faz uso de técnicas de Processamento de Linguagem Natural (PLN), bancos vetoriais e Large Language Models (LLMs) para viabilizar a busca semântica e a geração de conteúdo relevante. A pesquisa apresenta uma arquitetura capaz de recuperar fragmentos de documentos com base em similaridade semântica. As consultas fornecidas pelos usuários são processadas para localizar conteúdos com relevante semelhança contextual, os quais são sintetizados em respostas coerentes e contextualmente apropriadas por meio de um modelo de linguagem generativo configurado para atender à intenção do usuário.
Os resultados de avaliações automatizadas, utilizando BERTScore, demonstram a eficácia do sistema em realizar a recuperação de informações com base nos dados de entrada do usuário -- alcançando 79% de precisão e 69% de recall (valores satisfatórios em cenários de geração de texto), bem como uma taxa baixíssima (0,38%) de reprovação por parte dos usuários de teste. Com a utilização da abordagem RAG, o assistente proposto não apenas reduz a carga cognitiva associada à análise manual de grandes coleções documentais, mas também fornece uma solução escalável e adaptável a conjuntos de dados em constante evolução. Esta pesquisa contribui para reduzir a lacuna entre a disponibilidade de dados públicos e a geração de informações acionáveis, alinhando-se aos objetivos de transparência e acessibilidade no ambiente legislativo.