Banca de QUALIFICAÇÃO: JOÃO HELIS JUNIOR DE AZEVEDO BERNARDO

Uma banca de QUALIFICAÇÃO de DOUTORADO foi cadastrada pelo programa.
STUDENT : JOÃO HELIS JUNIOR DE AZEVEDO BERNARDO
DATE: 17/03/2025
TIME: 16:00
LOCAL: Google Meet
TITLE:

Investigando a Relação entre Integração Contínua e Projetos de Aprendizado de Máquina


KEY WORDS:

Integração Contínua; Aprendizagem de Máquina; Duração de Builds; Cobertura de Teste.


PAGES: 223
BIG AREA: Ciências Exatas e da Terra
AREA: Ciência da Computação
SUBÁREA: Metodologia e Técnicas da Computação
SPECIALTY: Engenharia de Software
SUMMARY:

A Integração Contínua (CI) . uma pedra angular do desenvolvimento de software moderno. No entanto, embora amplamente adotada em projetos de software tradicionais, a aplicação de práticas de CI em projetos de Aprendizado de Máquina (ML) apresenta desafios distintos, estendendo-se além do teste e validação de código para abranger validação de dados e teste de modelo. Portanto, esta tese visa aprofundar a compreens.o das diferenças, desafios e estratégias associadas à adoção de CI em projetos de ML. Por meio de uma abordagem de métodos mistos, conduzimos quatro estudos que combinam análises quantitativas em repositórios open-source e estudos qualitativos baseados em surveys de profissionais. O Estudo 1, baseado em uma análise de 93 projetos de ML e 92 n.oML do GITHUB, revela que os projetos de ML tendem a exibir duração de build mais longas e menores taxas de cobertura de teste. O Estudo 2, pesquisando 155 profissionais de 47 projetos de ML, identifica oito diferenças principais na adoção de IC, incluindo complexidade de teste, requisitos de infraestrutura e estabilidade do build. Desafios como alta complexidade de projeto, manipulação extensiva de dados, aumento de demandas computacionais e gerenciamento de dependências contribuem para essas diferenças. Além disso, a natureza não determinística dos sistemas de ML, dependências de dados e restrições computacionais foram identificadas como barreiras significativas para testes eficazes. O Estudo 3 muda o foco para projetos gerais open-source para estabelecer uma base para como a CI influencia o tempo de entrega de pull requests (PR). Os resultados indicam que a CI não necessariamente acelera a entrega de PRs, mas simplifica o processamento de contribuições, facilitando as decis.es de revisão de PRs e mantendo a qualidade do projeto sem sobrecarregar os mantenedores. Como próxima etapa desta tese, o Estudo 4 visa estender os resultados do Estudo 3 conduzindo uma análise comparativa do tempo de entrega de PRs em projetos de ML e n.o ML, ajudando a determinar se os atrasos em projetos de ML são parte de uma tendência mais ampla de desenvolvimento de software ou surgem de restrições específicas de ML. A principal conclusão desta tese é que, embora os princípios fundamentais de CI permaneçam valiosos, os projetos de ML exigem abordagens de CI personalizadas. Para preencher essa lacuna, propomos um conjunto de pr.ticas de CI específicas para ML, incluindo o rastreamento de métricas de desempenho do modelo e a priorização da execução de testes. Nossos resultados enfatizam a necessidade de diretrizes padronizadas para abordar desafios cr.ticos de CI em fluxos de trabalho de ML, como gerenciamento de dependências. Ao integrar dados quantitativos e insights de profissionais, esta tese  avança a compreensão de CI em ML, abrindo caminho para estratégias de CI mais eficazes e robustas no domínio de ML.


COMMITTEE MEMBERS:
Presidente - 1644456 - UIRA KULESZA
Interno - 1678918 - NELIO ALESSANDRO AZEVEDO CACHO
Externo ao Programa - 2180207 - ITAMIR DE MORAIS BARROCA FILHO - UFRNExterno à Instituição - FILIPE ROSEIRO COGO
Externo à Instituição - DANIEL ALENCAR DA COSTA - UO
Externo à Instituição - GUSTAVO HENRIQUE LIMA PINTO - UFPA
Notícia cadastrada em: 07/03/2025 09:27
SIGAA | Superintendência de Tecnologia da Informação - (84) 3342 2210 | Copyright © 2006-2025 - UFRN - sigaa05-producao.info.ufrn.br.sigaa05-producao