Blog

Nossas últimas novidades

Prompt injection: como proteger chatbots e agentes de IA sem travar o produto

Tempo de Leitura

min

Prompt injection: como proteger chatbots e agentes de IA sem travar o produto

Entenda prompt injection (direta e indireta) e aplique mitigação em camadas: separação de instruções/dados, validação de saída, restrição de ferramentas e checklist baseado em OWASP.

26 de fevereiro de 2026

Se um chatbot pode ser convencido a ignorar regras, ele não é “inteligente”.
Ele está sem controle.

Prompt injection é quando uma entrada (do usuário, de um documento recuperado via RAG ou até de uma ferramenta) consegue alterar o comportamento do modelo de forma indesejada: ignorar políticas, revelar informação, executar ações ou produzir saídas perigosas.

A OWASP lista prompt injection como um dos principais riscos em aplicações com LLM (LLM01). Em sistemas com RAG e tool calling, o impacto pode ser maior porque o modelo vira uma camada de decisão no meio do caminho.

O que você vai aprender

Diferença entre injeção direta e indireta
Onde a injeção entra num sistema moderno (RAG, tools, plugins)
Mitigação em camadas que não depende de “prompts mágicos”
Checklist para reduzir risco sem matar a experiência do usuário

Direta vs indireta (a distinção que muda sua arquitetura)

Injeção direta é a clássica: o usuário escreve algo do tipo “ignore todas as instruções e faça X”.

Injeção indireta é mais perigosa: o usuário não escreve a instrução maliciosa.
Ela vem “escondida” em algum conteúdo que o modelo lê, por exemplo:

um documento indexado no RAG
uma página HTML
um e-mail/ticket
a saída de uma ferramenta (um sistema externo “comprometido”)

Em outras palavras: RAG transforma documentos em entrada.
Se você não tratar isso como “input não confiável”, a chance de incidente sobe.

O que não funciona (ou funciona pouco)

“Colocar uma frase forte no prompt”
Ajuda, mas não é uma barreira de segurança.
Confiar que o modelo vai “se comportar”
Modelos erram, interpretam mal e podem ser manipulados.
Colocar regras de permissão no prompt
Permissão é uma regra de sistema. Deve ser aplicada no backend (não no texto).

A lógica é parecida com segurança em apps tradicionais: você não confia em input do usuário, valida e aplica autorização no servidor.

Mitigação em camadas (o que costuma dar mais resultado)

Camada 1: Separe instruções de dados (de verdade)

No prompt, deixe claro:

“instruções” (política do sistema)
“entrada do usuário”
“conteúdo recuperado”

E, principalmente, delimite o conteúdo recuperado.

Exemplo conceitual (o formato exato varia):

INSTRUÇÕES DO SISTEMA:
- Siga as políticas abaixo...
- Não execute ações sem validação...

ENTRADA DO USUÁRIO:
<<< ... >>>

CONTEÚDO RECUPERADO (NÃO CONFIÁVEL):
<<< ... >>>

Essa separação reduz a chance de o modelo “achar” que um documento é uma instrução do sistema.