Image: The Verge
Uma nova pesquisa da Universidade da Pensilvânia mostrou que os chatbots de IA, como o GPT-4o Mini da OpenAI, podem ser manipulados para ignorar suas próprias regras de segurança.
O estudo aplicou táticas de persuasão da psicologia para convencer os modelos a realizar tarefas que normalmente recusariam, como fornecer instruções para sintetizar a lidocaína ou xingar o usuário.
A tática mais eficaz foi a do “comprometimento”, onde o modelo era induzido a responder a uma pergunta inofensiva antes de ser solicitado a quebrar as regras.
O estudo demonstra uma vulnerabilidade preocupante nos modelos de linguagem atuais, revelando que os “guardrails” de segurança podem ser contornados com táticas psicológicas simples.
A pesquisa levanta sérias questões sobre a segurança e a confiabilidade dos chatbots de IA, que estão sendo cada vez mais integrados a produtos e serviços.
A facilidade com que um modelo pode ser persuadido a fornecer informações perigosas ou a se comportar de forma inadequada é um alerta para as empresas de tecnologia, que precisam encontrar novas maneiras de garantir a robustez de seus sistemas contra a manipulação humana.
Quer saber mais sobre as táticas de persuasão usadas no estudo e o impacto delas na segurança dos chatbots? Leia o artigo completo no The Verge para todos os detalhes.








