🔒 Uso Interno
Playbook — Agente Pericial Ejzenberg
Atualizado: 06/04/2026 · Confidencial

Guia de Implantação
Agente de IA Pericial

Documento interno de referência para construção e deploy do agente RAG com base documental de 70GB — fotos, PDFs, emails e processos judiciais.

70GB de documentação
4 formatos de arquivo
Dify + Claude + Qdrant
4 semanas de implementação
4 Semanas
R$600 Setup mín.
R$350 Op. mensal

Como tratar cada formato

Os 70GB chegam em 4 formatos distintos. Cada um exige extração diferente — usar a ferramenta errada compromete a qualidade do agente.

⚠️ Passo zero obrigatório antes de indexar
Fazer piloto com amostras de cada formato (5 fotos, 5 PDFs, 3 emails, 1 processo) antes de processar os 70GB completos. Se a extração for ruim, o agente é ruim — independente do LLM escolhido.
📷
Fotos
Conteúdo Cenas, veículos, obras, incêndios, plantas fotografadas
Desafio Conteúdo visual — não tem texto para extrair diretamente
Ferramenta Claude Vision API
Output Descrição técnica indexável da cena
Custo ~R$0,05 por foto
📄
PDFs
Conteúdo Laudos, normas ABNT/CTB, jurisprudências, contratos
Desafio Mix de digital e escaneado no mesmo arquivo
Ferramenta LlamaParse
Output Texto com estrutura preservada (títulos, quesitos, tabelas)
Custo R$1,70 por 1.000 páginas
📧
Emails
Conteúdo Comunicações com advogados, clientes, juízo
Desafio Contexto fragmentado em threads + anexos embutidos
Ferramenta Python mailparser
Output Thread completa + anexos processados separadamente
Custo Grátis (processamento local)
⚖️
Processos Judiciais
Conteúdo Petições, decisões, laudos de outros peritos, depoimentos
Desafio 500+ páginas heterogêneas num único PDF
Ferramenta LlamaParse + segmentador
Output Cada peça processual separada com tipo identificado
Custo ~R$0,50 por processo de 200 pág.

Stack escolhida e por quê

Cada ferramenta tem uma função específica. Nenhuma é substituível sem impacto no sistema.

Plataforma RAG
Dify (self-hosted)
Feito para base documental grande. Interface de upload pronta. Conecta qualquer LLM. Dados ficam no nosso servidor.
LLM
Claude Sonnet 4.6
200k tokens de contexto. Melhor do mercado para texto técnico-jurídico longo. Segue instruções com precisão.
Visão
Claude Vision API
Analisa fotos periciais, extrai informações de cenas e texto visível em imagens digitalizadas.
Extração PDF
LlamaParse
Especializado em RAG. Preserva estrutura de laudos: títulos, quesitos, tabelas, seções. Muito superior ao PyMuPDF para este caso.
Vector Store
Qdrant (self-hosted)
Aguenta milhões de chunks. Self-hosted no Railway, gratuito. Busca semântica em milissegundos mesmo em escala.
Embeddings
OpenAI text-embedding-3-large
Melhor precisão para texto técnico. Custo de indexação: ~R$80 para os 70GB completos (pago uma vez).
Storage
Cloudflare R2
70GB por R$6/mês. Sem custo de saída de dados. Armazena os originais intocados.
Infraestrutura
Railway
Hospeda Dify + Qdrant + fila de processamento. Deploy simples, ~R$200/mês para tudo.

Sequência de execução

Ordem que minimiza risco e permite uso parcial desde a semana 2.

0
Piloto de extração
1 dia
Nós
Antes de qualquer infraestrutura, testar a extração com amostras reais. Se a qualidade não for boa, ajustar a ferramenta antes de processar 70GB.
5 fotos representativas → Claude Vision → avaliar descrição gerada
5 PDFs (digital + escaneado) → LlamaParse → checar estrutura preservada
3 threads de email → mailparser → checar contexto e anexos
1 processo judicial completo → ver se peças são separadas corretamente
!
Só avançar se os resultados forem satisfatórios
1
Organização dos documentos
2–3 dias
Sergio + Nós
Os 70GB precisam estar organizados em pastas por área antes de indexar. Metadados corretos = busca precisa depois.
/fotos/acidentes · /fotos/incendios · /fotos/construcao · /fotos/industrial
/laudos-proprios/[por área]
/processos/[por ano ou cliente]
/emails/[por assunto ou parte]
/normas-legislacao/[ABNT · CTB · NRs · etc]
2
Infraestrutura
Semana 1
Nós
Subir toda a infra antes de começar a ingestão. A fila de processamento garante que tudo roda em background sem travar.
Cloudflare R2: bucket criado, credenciais configuradas
Railway: servidor com Dify + Qdrant + Redis + BullMQ
PostgreSQL: banco de metadados dos documentos
Pipeline de ingestão: script de upload → extração → chunking → embedding → indexação
Dashboard de progresso: Sergio acompanha quantos documentos foram indexados
3
Ingestão dos 70GB
Semana 2 · 3–7 dias rodando
Automático
O pipeline processa em background continuamente. Começa pelos laudos próprios — que são os mais valiosos para o agente. Sistema já é utilizável com parcial indexado.
Prioridade 1: laudos próprios do Sergio (base do conhecimento)
Prioridade 2: normas e legislação (fundamentação)
Prioridade 3: processos judiciais
Prioridade 4: emails e comunicações
Prioridade 5: fotos (mais pesadas, processadas por último)
4
Agente e prompts
Semana 3
Nós
Configurar a busca em 2 camadas e criar os prompts por área. Esta é a etapa que define a qualidade do laudo gerado.
Busca camada 1: filtro por metadados (área + tipo + data)
Busca camada 2: semântica nos chunks filtrados → top 20 relevantes
Prompt base: persona do Sergio, regras, limites, formato
Templates por área: acidente · incêndio · construção civil · industrial · cargas
Geração: caso descrito → busca → rascunho de laudo estruturado
Export: Word editável + PDF formatado com cabeçalho do Sergio
5
Interface e testes com casos reais
Semana 4
Nós + Sergio
Interface limpa para uso diário. Sergio testa com casos reais e corrige o que o agente errar — cada correção melhora o prompt.
Tela de upload: arrasta pasta → indexação automática
Tela de novo laudo: área + descrição do caso (texto ou voz)
Tela de resultado: laudo editável + botão exportar
Testar 10 casos reais do Sergio antes de considerar pronto
!
Cada erro do agente = ajuste de prompt, não de infraestrutura

Custos estimados

Valores de referência para precificação e planejamento. O maior custo é o setup — a operação mensal é baixa.

Setup inicial
Pago uma vez
LlamaParse — ingestão PDFs/processos R$ 300–800
Claude Vision — processamento fotos R$ 200–500
OpenAI Embeddings — indexação 70GB R$ 80
Desenvolvimento (4 semanas)
Total Setup R$ 580–1.380
Operação mensal
Recorrente
Cloudflare R2 (70GB storage) R$ 6
Railway (Dify + Qdrant + Redis) R$ 150–200
Claude API (uso diário do Sergio) R$ 100–300
OpenAI Embeddings (novos docs) R$ 5
Total Mensal R$ 261–511

O que fazer agora

Três passos para começar antes da próxima reunião com o Sergio.

Passo 1 · Nós
Rodar o piloto de extração
Pedir ao Sergio amostras representativas de cada formato — 5 fotos, 5 PDFs (digital + escaneado), 3 emails, 1 processo. Rodar o pipeline e avaliar a qualidade.
→ Define se LlamaParse é suficiente ou precisa de Textract
Passo 2 · Sergio
Organizar os 70GB em pastas
Separar os documentos por área (acidente, incêndio, construção, industrial) e tipo (laudos próprios, processos, normas, emails). Sem organização, a busca perde precisão.
→ Pode ser feito em paralelo com o passo 1
Passo 3 · Nós
Levantar os 10 quesitos mais comuns
Por área, quais são os quesitos que o Sergio mais responde? Isso vira o backbone dos templates de prompt e define a estrutura de cada tipo de laudo.
→ Entrevistar o Sergio ou analisar laudos anteriores

Dificuldade por etapa e o que o Claude faz

Para cada etapa: nível de dificuldade técnica, quanto o Claude executa sozinho e o que precisa de nós.

Etapa Dificuldade Claude faz sozinho Observação
Piloto de extração Testar os 4 formatos com amostras
● Fácil
Claude Code executa 85%
Escreve os scripts de extração, chama as APIs, gera relatório de qualidade. Só precisa das amostras em mãos.
Organização dos documentos Estruturar pastas dos 70GB
● Fácil
Claude Code executa 20%
Ação manual do Sergio. Claude pode criar script de renomeação e organização em lote, mas o conteúdo precisa ser classificado por quem conhece os casos.
Infraestrutura (Railway + R2 + Qdrant) Subir os servidores e configurar
● Médio
Claude Code executa 70%
Escreve todos os arquivos de configuração, Dockerfiles, variáveis de ambiente. Precisa de aprovação manual no painel do Railway e Cloudflare para criar os recursos.
Pipeline de ingestão Extração → chunking → embedding → Qdrant
● Médio
Claude Code executa 90%
Escreve o pipeline completo em Python. A complexidade está no tratamento de erros e na fila assíncrona — que Claude resolve bem. Monitoramento de qualidade precisa de revisão humana.
Ingestão dos 70GB Rodar o pipeline em produção
● Fácil
Claude Code executa 10%
É tempo de máquina, não trabalho técnico. O pipeline roda sozinho por dias. Claude monitora logs e corrige erros pontuais que aparecerem.
Agente + prompts por área Busca em 2 camadas + templates de laudo
● Difícil
Claude Code executa 75%
A lógica de busca e integração Claude faz. Os templates de laudo por área precisam da expertise do Sergio para definir estrutura, seções obrigatórias e tom correto.
Interface web Upload + chat + export Word/PDF
● Médio
Claude Code executa 95%
Frontend e backend completos escritos pelo Claude. Revisão de UX e ajuste de layout pela nossa parte antes de entregar ao Sergio.
Refinamento com casos reais Ajuste de prompts após testes do Sergio
● Médio
Claude Code executa 60%
Claude ajusta os prompts com base no feedback. Mas o feedback de qualidade técnica do laudo só pode vir do Sergio — ele é o especialista, não nós.
Claude Code faz (média geral)
~70%
do projeto completo
O que é insubstituível:
✦ Classificação manual dos 70GB de documentos
✦ Definição da estrutura dos templates de laudo por área
✦ Validação técnica dos laudos gerados (Sergio)
✦ Aprovação de recursos em painéis externos (Railway, Cloudflare)
✦ Feedback de qualidade pericial nos testes finais

O que cobre os % que o Claude não faz

Cada lacuna tem uma ferramenta ou processo específico. Nada fica descoberto.

Etapa % restante O que cobre Custo extra
Piloto de extração Avaliação de qualidade
15%
Revisão humana — nós lemos o output e aprovamos a qualidade antes de avançar. Não tem ferramenta que substitua julgamento técnico neste ponto.
R$ 0 — tempo nosso
Organização dos 70GB Classificação por área/tipo
80%
Sergio + script de bulk rename — Claude escreve um script que percorre as pastas e sugere classificação automática por palavras-chave nos nomes dos arquivos. Sergio confirma ou corrige em lote. Reduz o trabalho manual de semanas para horas.
R$ 0 — script Python
Infraestrutura Criação de recursos em nuvem
30%
Railway CLI + Cloudflare CLI — Claude gera todos os comandos. Nós executamos com aprovação. Com as CLIs configuradas, até isso pode ser automatizado. O 30% é só aprovação com clique.
R$ 0 — ferramentas grátis
Agente + templates de laudo Estrutura pericial por área
25%
Entrevista estruturada com Sergio — 1 sessão de 2h por área (5 áreas = ~10h total). Claude transforma as respostas em templates e prompts. O conhecimento é do Sergio, a estruturação é do Claude.
Tempo do Sergio
Refinamento com casos reais Validação técnica pericial
40%
Ciclos de feedback Sergio → Claude — Sergio usa o agente em 10 casos reais e anota o que errou. Claude ajusta os prompts. Esse ciclo acontece 2-3 vezes até o agente estar calibrado para a linguagem pericial do Sergio.
Tempo de iteração

Segurança e sigilo dos documentos

Documentos periciais têm sigilo processual. A arquitetura foi escolhida exatamente para isso.

⚖️ Por que self-hosted é obrigatório neste caso
Laudos periciais contêm dados sensíveis de partes, testemunhas e segredos de processo. Enviar esses documentos para servidores de terceiros (ChatGPT, Gemini, NotebookLM) configura quebra de sigilo. Com self-hosted, os dados nunca saem dos servidores que controlamos.
🔒

Dados nunca saem do servidor

Dify e Qdrant rodam no Railway — servidor dedicado. Nenhum documento é enviado para OpenAI, Anthropic ou qualquer terceiro. Só os embeddings (números matemáticos, sem texto) são gerados externamente.

🛡️

Criptografia em trânsito e em repouso

R2 (Cloudflare) criptografa todos os arquivos armazenados com AES-256. Todas as conexões são HTTPS/TLS 1.3. Qdrant e Railway têm rede privada interna sem exposição pública.

🔑

Acesso exclusivo do Sergio

Autenticação com senha + 2FA no painel do Dify. Nenhuma URL pública expõe os documentos. O agente só é acessível com login — sem links compartilháveis.

💾

Backup automático

R2 replica os originais automaticamente. Qdrant faz snapshot diário dos vetores. Railway persiste o banco de metadados. Recuperação total em caso de falha em menos de 1 hora.

Quais APIs recebem dados externos
✓ SEGURO
OpenAI Embeddings
Recebe apenas chunks de texto anônimos. Não recebe nomes, processos ou partes. Não armazena os dados após processar.
✓ SEGURO
Claude API (Anthropic)
Recebe o contexto da consulta ativa. Anthropic não usa inputs de API para treinar modelos. Zero retenção após a resposta.
✓ SEGURO
LlamaParse
Processa e devolve o texto. Não armazena documentos após extração. Política explícita de não retenção.
⚠ ATENÇÃO
ChatGPT / Gemini / NotebookLM
NÃO usar para documentos periciais. Armazenam inputs, podem usar para treino e não oferecem garantia de sigilo processual.

Importação sem inserção caso a caso — é possível?

Sim. Nenhum documento precisa ser inserido manualmente. O sistema monitora pastas e ingere automaticamente.

📁
Opção 1 — Pasta monitorada
Script Python roda em background no servidor. Monitora uma pasta local ou de rede. Qualquer arquivo novo adicionado é automaticamente detectado, processado e indexado em minutos.
Watch folder
Zero clique
☁️
Opção 2 — Google Drive / OneDrive sync
Sergio já usa Google Drive ou OneDrive? O sistema se conecta via API. Toda vez que um arquivo é adicionado ou atualizado na pasta pericial, a ingestão dispara automaticamente.
Drive API
Sync automático
📧
Opção 3 — Email automático
Sergio encaminha qualquer email com anexo para um endereço especial (ex: base@ejzenberg.ai). O sistema processa o email, extrai os anexos e indexa tudo automaticamente.
Forward por email
Imediato
📱
Opção 4 — Upload pelo celular
Interface mobile simples: Sergio fotografa um documento no campo (acidente, obra) e envia pelo app. Claude Vision processa a foto na hora e indexa com os metadados do caso.
Mobile upload
Campo → base em 1 toque
✓ Recomendação: combinar Opção 1 + Opção 4
Pasta monitorada no computador do escritório captura tudo que já existe e o que for adicionado pelo PC. Upload mobile captura o que Sergio produz em campo. A base cresce sozinha, sem nenhuma ação manual além de salvar o arquivo onde sempre salvou.