Razão custo–desempenho de LLMs em BioNER: análise de escalabilidade e estratégias de In-Context Learning no corpus BC5CDR
BioNER; Grandes Modelos de Linguagem; In-Context Learning; escalabilidade; F1-Score; BC5CDR
Este trabalho investiga a razão custo-desempenho e os limites cognitivos de Grandes Modelos de Linguagem (LLMs) na tarefa de Reconhecimento de Entidades Nomeadas Biomédicas (BioNER) sob o paradigma de In-Context Learning (ICL). Utilizou-se o corpus BC5CDR consolidado (1.500 artigos) para a extração estruturada de compostos químicos (Chemicals) e patologias (Diseases). Por meio de um pipeline distribuído e reprodutível baseado no motor vLLM, foram avaliadas 18 arquiteturas open-weights (1B a 70B parâmetros) submetidas a variações sistemáticas do número de exemplos few-shot em contexto (k ∈ {0, 1, 2, 4, 8, 16, 32}). A avaliação pautou-se no critério estrito de Exact Match, mensurando Precisão, Revocação e F1-Score. Os resultados quantitativos revelam que: (i) a escalabilidade paramétrica eleva o desempenho, com o modelo de 70B atingindo o teto preditivo (F1 ∼ 0,63), ao passo que modelos altamente instruídos de 8B (F1 ∼ 0,61) estabelecem a fronteira de Pareto ótima, indicando que o refinamento do treinamento compensa o custo de inferência; (ii) o acréscimo de exemplos few-shot induz saturação atencional em arquiteturas menores, provocando colapsos de até 75% no F1-Score em densidades extremas (k = 32), fenômeno quantificado pela métrica de Estabilidade de Contexto (∆); e (iii) existe assimetria entre as classes, com Chemicals extraídas com alta precisão morfológica (F1 ∼ 0,79), enquanto Diseases (F1 ∼ 0,48) configuram a principal barreira de abstração semântica. O estudo oferece, assim, diretrizes para a implantação eficiente e escalável de LLMs em aplicações biomédicas.