Integração de Consultas Textuais com Detecção de Objetos Baseada em IA: Uma Abordagem Composicional Guiada por Prompts
IA Neuro-Simbólica, Detecção de Objetos Guiada por Prompt, Raciocínio Intermodal, Alinhamento Visão-Linguagem, Reconhecimento Orientado por Consultas.
Embora a detecção e o reconhecimento de objetos tenham sido amplamente adotados por muitas aplicações na tomada de decisões, novos algoritmos e metodologias surgiram para aprimorar a identificação automática de objetos-alvo. Em particular, o avanço do aprendizado profundo e dos modelos de linguagem abriu inúmeras possibilidades nessa área, embora persistam desafios na análise contextual de consultas e nas interações humanas. Este artigo apresenta um novo framework neuro-simbólico de detecção de objetos que alinha propostas de objetos a prompts textuais por meio de um módulo de aprendizado profundo, ao mesmo tempo em que possibilita o raciocínio lógico por meio de um módulo simbólico. Ao integrar aprendizado profundo com raciocínio simbólico, a detecção de objetos e a compreensão de cena são consideravelmente aprimoradas, viabilizando interações complexas orientadas por consultas. Utilizando um conjunto de dados sintéticos de imagens 3D, os resultados demonstram que o framework generaliza de forma eficaz para consultas complexas, combinando descrições baseadas em atributos simples sem treinamento explícito em prompts compostos. Apresentamos os resultados numéricos e discussões abrangentes, destacando o potencial de nossa abordagem para aplicações inteligentes emergentes.