MODULO 4.6

🎯 Lab completo: palavra-codigo

Experimento controlado ponta a ponta. 10 sessoes com CLAUDE.md vs 10 com hook. Medir, comparar, internalizar.

6
Topicos
35
Minutos
Pratico
Nivel
LAB
Tipo
1

πŸ› οΈ Setup do lab

Diretorio dedicado, tudo isolado. Reproduzivel em qualquer maquina.

πŸ“ Estrutura do lab

labs/palavra-codigo/
β”œβ”€β”€ README.md           (instrucoes)
β”œβ”€β”€ CLAUDE.md           (com a palavra)
β”œβ”€β”€ prime.md            (mesma palavra, formato hook)
β”œβ”€β”€ hook.sh             (SessionStart handler)
β”œβ”€β”€ settings.json       (config do hook)
└── run_experiment.sh   (automatiza 10 rodadas)

A palavra-codigo deste experimento: XIBATA-7

πŸ’‘ Lab ja pronto

labs/palavra-codigo/ no repo do curso. Clone e rode.

2

πŸ“Š Rodada A: so CLAUDE.md

Baseline. Anotar rigorosamente β€” vai ser o dado que voce cita em reuniao.

1

Prepare o diretorio

Copie CLAUDE.md com a palavra. Certifique-se de que nao ha .claude/settings.local.json com hook.

2

Abra 10 sessoes novas

Cada uma comeca do zero. Claude Code em modo limpo. Sessao individual.

3

FaΓ§a a pergunta padrao

'Qual a palavra-codigo?' ou 'Qual a senha secreta?'

4

Anote resposta literal

Planilha: sessao #, resposta, match (sim/nao)

πŸ“Š Resultado tipico

  • Acertos: 6-8 em 10 (60-80%)
  • Falhas tipicas: 'nao sei', 'que palavra-codigo?', 'nao encontrei referencia'
  • Variancia: alta sessao a sessao
  • Conclusao: CLAUDE.md e sugestivo, nao deterministico
3

πŸͺ Rodada B: hook SessionStart

Mesma pergunta, mesma palavra β€” outro mecanismo. Ver o 10/10.

1

Remova CLAUDE.md

Para provar que so o hook injeta.

2

Configure settings.local.json

Aponte para hook.sh que retorna additionalContext com a palavra.

3

Valide localmente

echo input | ./hook.sh | jq . β€” confirme JSON valido.

4

Repita 10 sessoes

Mesma pergunta, mesma planilha.

πŸ“Š Resultado tipico

  • Acertos: 10 em 10 (100%)
  • Consistencia: resposta tipicamente identica
  • Variancia: quase zero
  • Conclusao: hook e deterministico, CLAUDE.md nao
4

πŸ“ˆ Comparar: tabela de resultados

Numero vence argumento. Tenha a tabela em mao.

πŸ“ Formato da tabela

| Sessao | CLAUDE.md     | Hook          | Match |
|--------|---------------|---------------|-------|
| 1      | XIBATA-7      | XIBATA-7      | ok    |
| 2      | que palavra?  | XIBATA-7      | FAIL  |
| 3      | XIBATA-7      | XIBATA-7      | ok    |
| 4      | nao sei       | XIBATA-7      | FAIL  |
| ...    | ...           | ...           | ...   |
| 10     | XIBATA-7      | XIBATA-7      | ok    |

Totais:
  CLAUDE.md: 7/10 (70%)
  Hook:      10/10 (100%)

Diferenca: +30 pontos percentuais

πŸ’‘ Imprima ou screenshot

Cole na documentacao interna. Quando alguem do time questionar 'por que investir em hooks?', a tabela fala sozinha.

5

πŸ§ͺ Variacao: PreCompact

Teste opcional mas definitivo: a palavra sobrevive compactacao?

1

Sessao longa sintetica

Abra, faΓ§a 50+ queries pesadas para forΓ§ar compactacao.

2

Pergunte antes do squeeze

'Qual a palavra?' β€” anote.

3

Aguarde/forΓ§e compactacao

Ate Claude mostrar que resumiu. Alguns clientes notificam.

4

Pergunte de novo

Mesma pergunta. Com PreCompact: mesma resposta. Sem: 'nao sei'.

πŸ’‘ Prova final

Esse e o teste que convence ate cetico. 'Funciona em sessao longa?' Resposta: sim, com PreCompact. Sem: nao.

6

πŸŽ‰ Conclusao da Trilha 4

Voce ja tem os 3 hooks criticos. Daqui em diante e escalar, nao inventar.

πŸ† O que voce conseguiu

Checklist de dominio:

  • β€’Entende por que CLAUDE.md falha e por que hook nao.
  • β€’Sabe configurar SessionStart, PreCompact, UserPromptSubmit.
  • β€’Escreve prime.md e context.md no formato certo.
  • β€’Debug de hook em menos de 5 minutos.
  • β€’Tem experimento A/B reprodutivel para provar o sistema.

πŸ’‘ Proximas trilhas

T5 escala (backends, decay, promotion). T6 integra (Gemini, memoria por projeto, metricas). Voce nao PRECISA delas para o 10/10 β€” precisa se quiser crescer alem de 200 memorias.

πŸ“ Resumo do Modulo

βœ“
Setup reproduzivel β€” mesmo teste para qualquer projeto.
βœ“
Fase A e baseline β€” 7/10 esperado.
βœ“
Fase B e treatment β€” 10/10 esperado.
βœ“
Validacao A/B fecha o loop β€” numero derruba duvida.

Proximo:

Trilha 5 β€” Arquitetura e backends