Modelos Computacionais de Linguagem para Vocalizações de Saguis
Bioacústica computacional; Callithrix; Modelos de linguagem; Aprendizado profundo; Transformer; Embeddings Acústicos.
A comunicação vocal dos saguis (Callithrix) destaca-se pela sofisticação acústica e plasticidade ontogenética, apresentando propriedades estruturais que sugerem a existência de uma sintaxe complexa. Enquanto a bioacústica de aves já emprega modelos de linguagem baseados em aprendizado profundo (Deep Learning), a pesquisa com saguis ainda carece de ferramentas capazes de modelar a complexidade sequencial e acústica de seus repertórios. Esta dissertação investigou a estrutura das sequências vocais de saguis através do desenvolvimento e comparação de modelos computacionais de linguagem. O estudo utilizou um conjunto de dados composto por 91.086 vocalizações de 9 saguis durante os primeiros dois meses de vida. A metodologia foi dividida em três fases: (I) estabelecimento de uma linha de base com Modelos de Markov de ordem 0 a 19; (II) aplicação de arquiteturas de aprendizado profundo (RNN, LSTM e Transformer) utilizando rótulos categóricos de sílabas; e (III) implementação de modelos gerativos baseados em embeddings acústicos extraídos via Swin Transformer a partir de espectrogramas. A avaliação foi realizada através das métricas de Divergência de Kullback-Leibler (𝐷𝐾𝐿 ) , pontuação BLEU e Proporção de Sílabas. Os resultados demonstraram que, para dados simbólicos discretos, o Modelo de Markov de ordem 13 estabeleceu a melhor performance, superando as redes neurais que, neste cenário, sofreram com colapso de modo e repetição excessiva. No entanto, a introdução de embeddings acústicos inverteu este cenário: a arquitetura Transformer alimentada com características espectrais ricas obteve o melhor desempenho global, superando a linha de base estocástica ao reduzir significativamente a 𝐷𝐾𝐿 e manter a coerência estrutural em sequências longas (até 40 sílabas). Conclui-se que a riqueza da informação acústica é indispensável para a modelagem da comunicação de primatas e que a arquitetura híbrida proposta (Swin Transformer + Transformer) representa um avanço metodológico capaz de capturar dependências temporais e nuances bioacústicas que escapam às abordagens tradicionais.