Chatbots podem ser manipulados com bajulação e pressão social

Por Luiz A Sanfer |

Atualizando em

Chatbots podem ser manipulados

Image: The Verge

Uma nova pesquisa da Universidade da Pensilvânia mostrou que os chatbots de IA, como o GPT-4o Mini da OpenAI, podem ser manipulados para ignorar suas próprias regras de segurança.

O estudo aplicou táticas de persuasão da psicologia para convencer os modelos a realizar tarefas que normalmente recusariam, como fornecer instruções para sintetizar a lidocaína ou xingar o usuário.

A tática mais eficaz foi a do “comprometimento”, onde o modelo era induzido a responder a uma pergunta inofensiva antes de ser solicitado a quebrar as regras.

O estudo demonstra uma vulnerabilidade preocupante nos modelos de linguagem atuais, revelando que os “guardrails” de segurança podem ser contornados com táticas psicológicas simples.

A pesquisa levanta sérias questões sobre a segurança e a confiabilidade dos chatbots de IA, que estão sendo cada vez mais integrados a produtos e serviços.

A facilidade com que um modelo pode ser persuadido a fornecer informações perigosas ou a se comportar de forma inadequada é um alerta para as empresas de tecnologia, que precisam encontrar novas maneiras de garantir a robustez de seus sistemas contra a manipulação humana.

Quer saber mais sobre as táticas de persuasão usadas no estudo e o impacto delas na segurança dos chatbots? Leia o artigo completo no The Verge para todos os detalhes.

Fonte: www.theverge.com/

Escrito por Luiz A Sanfer

Editor-chefe do Reveio, especialista em tecnologia com 10 anos de experiência testando diversos produtos desde marcas famosas as mais genéricas, para recomendar as melhores opções para você.

Newsletter

Cadastre seu e-mail e receba as últimas novidades!

Relacionados

Web Stories

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
"><font dir="auto" style="vertical-align: inherit

Menu

Institucional

Siga-nos

© 2025 REVEIO – Todos os direitos reservados

Valorizamos a sua privacidade

Este site utiliza cookies para melhorar sua experiência de navegação. Saiba mais sobre como nós utilizamos os cookies em nossa Politica de Cookies.