Portal de Programas de Pós-Graduação (UFRN)

SIGAA - Sistema Integrado de Gestão de Atividades Acadêmicas

PPgSC/UFRN PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO ADMINISTRAÇÃO DO CCET Phone: (84) 99919-3640 E-mail: secretaria@ppgsc.ufrn.br https://posgraduacao.ufrn.br/ppgsc

Banca de DEFESA: JOÃO HELIS JUNIOR DE AZEVEDO BERNARDO

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
STUDENT : JOÃO HELIS JUNIOR DE AZEVEDO BERNARDO
DATE: 04/09/2025
TIME: 15:00
LOCAL: Google Meet (remota)
TITLE: Investigando a Relação entre Integração Contínua e Projetos de Aprendizado de Máquina

KEY WORDS:

Integração Contínua; Aprendizagem de Máquina; Duração de Builds; Cobertura de Teste.

PAGES: 248
BIG AREA: Ciências Exatas e da Terra
AREA: Ciência da Computação
SUBÁREA: Metodologia e Técnicas da Computação
SPECIALTY: Engenharia de Software
SUMMARY:

A Integração Contínua (CI) . uma pedra angular do desenvolvimento de software moderno. No entanto, embora amplamente adotada em projetos de software tradicionais, a aplicação de práticas de CI em projetos de Aprendizado de Máquina (ML) apresenta desafios distintos, estendendo-se além do teste e validação de código para abranger validação de dados e teste de modelo. Portanto, esta tese visa aprofundar a compreens.o das diferenças, desafios e estratégias associadas à adoção de CI em projetos de ML. Por meio de uma abordagem de métodos mistos, conduzimos quatro estudos que combinam análises quantitativas em repositórios open-source e estudos qualitativos baseados em surveys de profissionais. O Estudo 1, baseado em uma análise de 93 projetos de ML e 92 n.oML do GITHUB, revela que os projetos de ML tendem a exibir duração de build mais longas e menores taxas de cobertura de teste. O Estudo 2, pesquisando 155 profissionais de 47 projetos de ML, identifica oito diferenças principais na adoção de IC, incluindo complexidade de teste, requisitos de infraestrutura e estabilidade do build. Desafios como alta complexidade de projeto, manipulação extensiva de dados, aumento de demandas computacionais e gerenciamento de dependências contribuem para essas diferenças. Além disso, a natureza não determinística dos sistemas de ML, dependências de dados e restrições computacionais foram identificadas como barreiras significativas para testes eficazes. O Estudo 3 muda o foco para projetos gerais open-source para estabelecer uma base para como a CI influencia o tempo de entrega de pull requests (PR). Os resultados indicam que a CI não necessariamente acelera a entrega de PRs, mas simplifica o processamento de contribuições, facilitando as decis.es de revisão de PRs e mantendo a qualidade do projeto sem sobrecarregar os mantenedores. O Estudo 4, analisando 27 projetos de ML e 31 projetos não-ML, revela que projetos de ML têm tempos de entrega de PRs significativamente maiores, recebem menos PRs por release, têm taxas de merges para rejeição mais altas e seguem cadências de releases mais lentas — cerca de uma release a cada oito meses, em comparação com a cada quatro ou cinco meses em projetos não-ML. No geral, embora os princípios básicos de CI permaneçam relevantes, os projetos de ML exigem práticas personalizadas, como o rastreamento de métricas de desempenho do modelo, a priorização da execução de testes e o aprimoramento do gerenciamento de dependências. Os resultados destacam a necessidade de diretrizes padronizadas para abordar esses desafios e fortalecer os fluxos de trabalho de integração contínua em ML. Ao integrar dados quantitativos e insights de profissionais, esta tese avança a compreensão da integração contínua em ML, abrindo caminho para estratégias de CI mais eficazes e robustas no domínio de ML.

COMMITTEE MEMBERS:
Presidente - 1644456 - UIRA KULESZA
Interno - 1678918 - NELIO ALESSANDRO AZEVEDO CACHO
Externo ao Programa - 2180207 - ITAMIR DE MORAIS BARROCA FILHO - UFRNExterno à Instituição - DANIEL ALENCAR DA COSTA - UO
Externo à Instituição - FILIPE ROSEIRO COGO
Externo à Instituição - GUSTAVO HENRIQUE LIMA PINTO - UFPA

Notícia cadastrada em: 01/09/2025 14:52