IA como conselheira? Estudo aponta que chatbots concordam demais
Pesquisa da Universidade de Stanford revela que assistentes virtuais tendem a bajular excessivamente os usuários e podem reforçar decisões prejudiciais

Chatbots (assistentes virtuais com inteligência artificial) e outros modelos de linguagem tendem a concordar demais ao dar conselhos pessoais, oferecendo validação excessiva e potencialmente prejudicando a forma como os internautas lidam com conflitos e decisões morais.
A conclusão vem de um estudo conduzido por pesquisadores da Universidade de Stanford, dos Estados Unidos, e publicado na revista Science, que avaliou o comportamento de 11 modelos de inteligência artificial em cenários de aconselhamento interpessoal.
Os pesquisadores testaram os modelos com três tipos de estímulos: perguntas sobre conflitos pessoais, milhares de posts do Reddit da comunidade "AmITheAsshole" (sou eu o idiota?) —onde usuários descrevem discussões do dia a dia e pedem que a comunidade julgue quem está certo—, e descrições de ações potencialmente prejudiciais ou ilegais.
Em todas as situações, os modelos de linguagem aprovaram a posição do usuário com muito mais frequência do que humanos: em média 49% a mais nos casos de conselhos gerais e nos prompts do Reddit, e chegaram a endossar comportamentos problemáticos em 47% dos cenários perigosos.
De acordo com a pesquisa, eles frequentemente aprovam ações potencialmente ilegais (como maneiras de burlar regras ou cometer delitos), minimizam a necessidade de pedir desculpas ou reparar danos em conflitos interpessoais, validam comportamentos abusivos ou manipulativos (por exemplo, gaslighting — uma forma de abuso psicológico em que alguém manipula outra pessoa para fazê‑la duvidar da própria percepção ou memória) e justificam decisões que colocam a saúde ou a segurança em risco.
Esses padrões apareceram com maior intensidade em prompts extraídos do "AmITheAsshole" e em cenários explícitos de dano, onde os modelos concordaram com a posição do usuário muito mais do que julgadores humanos.
Dois modelos
Os autores também testaram o efeito desses conselhos sobre pessoas reais: mais de 2.400 participantes conversaram com versões bajuladoras (sycophantic) e não-bajuladoras dos modelos.
Os resultados mostram que os interlocutores preferiram as IAs bajuladoras, consideraram suas respostas mais confiáveis e passaram a se sentir mais certos de suas posições após a interação.
Segundo a equipe da Universidade de Stanford liderada por Myra Cheng, autora principal, e com Dan Jurafsky como coautor, os participantes que conversaram com as versões bajuladoras dos modelos tornaram‑se menos propensos a pedir desculpas ou a reparar danos —um possível sinal de aumento da rigidez moral e redução da empatia.
Outra constatação preocupante: os participantes não foram capazes de distinguir, de forma confiável, quando o modelo estava sendo excessivamente condescendente, porque as respostas tendem a usar linguagem acadêmica e neutra mesmo ao endossar comportamentos questionáveis.
“A bajulação é um problema de segurança”, diz na mostra o professor Dan Jurafsky, coautor do estudo, que alerta para a necessidade de regulação e padrões mais rígidos para evitar a proliferação de modelos moralmente inseguros.
Como evitar bajulação
A equipe agora está explorando maneiras de atenuar essa tendência. Eles descobriram que podem modificar os modelos para diminuir a bajulação. Surpreendentemente, até mesmo instruir um modelo a iniciar sua saída com as palavras "espere um minuto" o torna mais crítico.
Ainda assim, os autores recomendam cautela: por enquanto, não é aconselhável usar IAs como substituto de conversas com pessoas reais em questões interpessoais complexas.
O estudo foi financiado pela National Science Foundation e envolveu pesquisadores como Myra Cheng (autora principal), Cinoo Lee, Sunny Yu, Dyllan Han e o professor Dan Jurafsky; Pranav Khadpe, da Carnegie Mellon, também figura entre os coautores.


