VALIDAÇÃO DA QUALIDADE DAS RESPOSTAS DO CHATGPT ÀS PERGUNTAS FREQUENTES SOBRE SÍFILIS GESTACIONAL E CONGÊNITA
inteligência artificial; perguntas frequentes (FAQ); sífilis gestacional; sífilis congênita.
A sífilis é uma infecção sexualmente transmissível causada pela bactéria Treponema pallidum. Embora seja uma doença curável por meio de antibióticos, a ausência de tratamento pode ocasionar graves complicações. O aumento das taxas de sífilis adquirida, gestacional e congênita está associado, entre outros fatores, à desinformação. Nesse contexto, ferramentas de inteligência artificial (IA) como o ChatGPT, baseadas em processamento de linguagem natural, surgem como alternativas potenciais para a difusão de informações em saúde. Esta dissertação teve como objetivo validar a qualidade das respostas fornecidas pelo ChatGPT a perguntas frequentes sobre sífilis gestacional e congênita. Trata-se de um estudo de validação, descritivo, transversal e observacional, de abordagem quantitativa. O percurso metodológico contemplou: (1) busca e seleção de perguntas frequentes em sites institucionais; (2) geração das respostas pelo ChatGPT 4.0, com o comando “responda como um FAQ”; (3) validação por especialistas e público-alvo (gestantes); e (4) análise da legibilidade textual das respostas. Os juízes especialistas avaliaram clareza, relevância, precisão, abrangência e satisfação geral, enquanto o público-alvo analisou apenas clareza, relevância e satisfação. A coleta foi realizada por meio de formulários eletrônicos (especialistas) e impressos (público-alvo). A legibilidade foi medida pelo software ALT, utilizando fórmulas clássicas como Flesch Reading Ease, Gulpease, Flesch-Kincaid, Gunning Fog, ARI, Coleman-Liau e um índice geral. Participaram 21 profissionais de saúde e 19 gestantes. Entre os especialistas, as respostas apresentaram médias superiores a 4,0 na escala Likert (1 a 5), com destaque para clareza (IVC = 94%) e relevância (IVC = 91%). Entretanto, abrangência (74%) e precisão (76%) ficaram abaixo do ponto de corte (IVC ≥ 78%), evidenciando lacunas técnicas. O alfa de Cronbach global (91,4%) demonstrou alta consistência interna. Já o público-alvo atribuiu média global de 4,4, com IVC de 90,3% e consistência interna de 90,3%, sinalizando ótima aceitação das respostas. A análise de legibilidade indicou que a maioria dos textos situou-se em nível médio a superior, sem diferenças significativas entre os grupos. As correlações de Pearson revelaram associações estatisticamente significativas entre a maioria dos índices, como ARI e Flesch-Kincaid (r = 0,897; p < 0,001) e Gulpease e Índice Geral (r = -0,926; p < 0,001), confirmando a coerência entre métricas semelhantes. Contudo, a análise de confiabilidade entre três chats de respostas mostrou que nenhum índice atingiu níveis bons ou excelentes de consistência (ICC < 50% ), exceto Coleman-Liau com 49% entretanto, nao houve significancia estatistica. Conclui-se que o ChatGPT apresenta potencial como ferramenta complementar de educação em saúde, fornecendo respostas consideradas claras, relevantes e satisfatórias, principalmente pelo público-alvo com ensino medio e superior. Entretanto, limitações em precisão e abrangência ressaltam a necessidade de supervisão técnica e revisão crítica das informações antes de seu uso em contextos clínicos e educacionais.