Blog
Nossas últimas novidadesLLMOps: métricas, logs e avaliação para colocar IA em produção com previsibilidade
IA em produção sem métrica é roleta.
LLMOps é o que transforma “demo bonita” em “produto confiável”.
LLMOps (Large Language Model Operations) é o conjunto de práticas e processos para operar aplicações baseadas em LLMs com qualidade, segurança e previsibilidade. Em vez de tratar IA como “um endpoint mágico”, você trata como um sistema: com versionamento, monitoramento, avaliação e melhoria contínua.
O que você vai ver aqui
- O que muda quando seu produto tem LLM (vs. software tradicional)
- Quais métricas realmente ajudam (qualidade, custo, latência, segurança)
- Como organizar logs e rastreabilidade sem vazar dados
- Como usar evals para evoluir com segurança
- Checklist final de LLMOps
O que muda em apps com IA generativa
Além de código, você passa a ter “componentes mutáveis” como:
- prompt (instruções e templates)
- modelo (troca de versão/provedor)
- dados (RAG, embeddings, base de conhecimento)
- ferramentas (tool calling)
- políticas (segurança, privacidade, compliance)
Isso cria um efeito comum: algo muda e o comportamento muda junto — nem sempre para melhor.
Métricas essenciais (as que dão alavanca)
1) Latência e estabilidade
- tempo total de resposta (p50/p95/p99)
- tempo por etapa (retrieval, rerank, tool, geração)
- taxa de erro (timeouts, falha de tool, falha de retrieval)
- taxa de fallback (quando você precisa trocar modelo/estratégia)
2) Custo (por request, por usuário e por feature)
- tokens de entrada/saída
- custo estimado por request
- custo por usuário/dia e por feature (para budget e produto)
- outliers (requests que explodem custo)
Se você quer um guia dedicado: Como reduzir custo de IA generativa.
3) Qualidade e confiabilidade
Qualidade é o mais difícil — mas dá para operacionalizar.
Métricas úteis:
- taxa de “não sei / não encontrei”
- taxa de resposta com fonte (em RAG)
- taxa de retrabalho/insatisfação (thumbs down, re-pergunta)
- “first answer resolution”: resolveu na primeira?
Para RAG, monitore também:
- recall/precision do retrieval (trechos corretos estão vindo?)
- cobertura do conteúdo (quais tópicos não têm fonte?)
4) Segurança e comportamento
- taxa de bloqueio por política (jailbreak, prompt injection)
- tentativas suspeitas por usuário/IP
- ações críticas via tools (com auditoria)
- vazamento potencial (detecção de PII na saída)
Leituras relacionadas:
Logs e rastreabilidade (sem capturar “tudo”)
Você quer rastrear para depurar e evoluir, mas precisa evitar vazamento.
Boas práticas:
- logar IDs de documentos/chunks (não texto completo)
- redigir/mascarar PII antes de salvar prompts
-
salvar “traços” (trace) por request:
- prompt_version
- model_version
- ragconfigversion
- tools_enabled
- custo e latência por etapa
Isso permite responder a pergunta que sempre aparece em incidentes: “o que mudou entre ontem e hoje?”
Evals: o que são e por que são parte do produto
Evals (avaliações) testam saídas do modelo com critérios que você define: qualidade, estilo, aderência a políticas, etc. A OpenAI e outras plataformas tratam evals como uma peça central para confiabilidade e upgrades de modelo.
Como começar (mínimo viável):
- crie um dataset com 30–100 casos reais
- defina critérios objetivos (ex.: “citou fonte”, “não inventou”, “respondeu em até 8 linhas”)
- rode evals em mudanças de prompt/modelo/dados
- só publique se não houver regressão relevante
Um guia completo (com prática) está aqui: Testes de regressão para prompts e RAG.
SLOs para IA (sim, dá para ter)
SLO não é só uptime. Em IA, exemplos úteis:
- “p95 < 4s”
- “custo médio por request < X”
- “% de respostas com fonte em RAG > Y”
- “% de respostas avaliadas como ‘ok’ em amostra semanal > Z”
SLO é o que dá conversa de negócio com base em dados, não em opinião.
Checklist final de LLMOps
- Versionamento: prompt, modelo, base RAG, configs de retrieval/rerank
- Tracing por request (latência por etapa + custo)
- Logs seguros (IDs, redaction, retenção)
- Dashboards: latência, custo, erros, qualidade, segurança
- Alertas para outliers de custo e quedas de qualidade
- Evals offline + amostragem semanal com revisão humana
- Processo de rollout (canário/feature flag) e rollback rápido
- Testes adversariais (prompt injection, dados sensíveis, tool misuse)