Portal de Programas de Pós-Graduação (UFRN)

SIGAA - Sistema Integrado de Gestão de Atividades Acadêmicas

PPGBIONF PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA DIRETORIA DE ENSINO - IMD Telefone/Ramal: Não informado E-mail: Não informado https://posgraduacao.ufrn.br/PPGBIONF

Banca de QUALIFICAÇÃO: ANGELO GUSTAVO SOUZA MARINHO MORAIS DE SALES

Uma banca de QUALIFICAÇÃO de MESTRADO foi cadastrada pelo programa.
DISCENTE : ANGELO GUSTAVO SOUZA MARINHO MORAIS DE SALES
DATA : 12/02/2026
HORA: 08:00
LOCAL: Online
TÍTULO: Modelos Computacionais de Linguagem para Vocalizações de Saguis

PALAVRAS-CHAVES:

Bioacústica computacional; Callithrix; Modelos de linguagem; Aprendizado profundo; Transformer; Embeddings Acústicos.

PÁGINAS: 58
RESUMO:

A comunicação vocal dos saguis (Callithrix) destaca-se pela sofisticação acústica e plasticidade ontogenética, apresentando propriedades estruturais que sugerem a existência de uma sintaxe complexa. Enquanto a bioacústica de aves já emprega modelos de linguagem baseados em aprendizado profundo (Deep Learning), a pesquisa com saguis ainda carece de ferramentas capazes de modelar a complexidade sequencial e acústica de seus repertórios. Esta dissertação investigou a estrutura das sequências vocais de saguis através do desenvolvimento e comparação de modelos computacionais de linguagem. O estudo utilizou um conjunto de dados composto por 91.086 vocalizações de 9 saguis durante os primeiros dois meses de vida. A metodologia foi dividida em três fases: (I) estabelecimento de uma linha de base com Modelos de Markov de ordem 0 a 19; (II) aplicação de arquiteturas de aprendizado profundo (RNN, LSTM e Transformer) utilizando rótulos categóricos de sílabas; e (III) implementação de modelos gerativos baseados em embeddings acústicos extraídos via Swin Transformer a partir de espectrogramas. A avaliação foi realizada através das métricas de Divergência de Kullback-Leibler (𝐷𝐾𝐿 ) , pontuação BLEU e Proporção de Sílabas. Os resultados demonstraram que, para dados simbólicos discretos, o Modelo de Markov de ordem 13 estabeleceu a melhor performance, superando as redes neurais que, neste cenário, sofreram com colapso de modo e repetição excessiva. No entanto, a introdução de embeddings acústicos inverteu este cenário: a arquitetura Transformer alimentada com características espectrais ricas obteve o melhor desempenho global, superando a linha de base estocástica ao reduzir significativamente a 𝐷𝐾𝐿 e manter a coerência estrutural em sequências longas (até 40 sílabas). Conclui-se que a riqueza da informação acústica é indispensável para a modelagem da comunicação de primatas e que a arquitetura híbrida proposta (Swin Transformer + Transformer) representa um avanço metodológico capaz de capturar dependências temporais e nuances bioacústicas que escapam às abordagens tradicionais.

MEMBROS DA BANCA:
Interno - 3086031 - DANIEL YASUMASA TAKAHASHI

Notícia cadastrada em: 02/02/2026 18:54