🎛️ Ajustes Finos — Parâmetros, Rate Limit e Estabilidade do Chizu

Esta página documenta os ajustes técnicos fundamentais para garantir estabilidade, qualidade de resposta e prevenção de erros HTTP 429 — Too Many Requests no Chizu.

O objetivo é permitir controle fino do comportamento do modelo, especialmente durante testes, deploy e uso em produção.

⚠️ O que é o erro 429?

O erro HTTP 429 indica que o limite de requisições permitido pela API foi excedido.

Na prática: - Muitas requisições em pouco tempo - Payloads grandes demais - Respostas longas demais - Falta de controle de concorrência

Isso causa: - Falhas intermitentes - Travamentos aparentes - Experiência ruim para o usuário

🎯 Estratégia geral para evitar 429

Reduzir tokens
Reduzir tamanho do prompt
Reduzir concorrência
Adicionar retry com backoff exponencial
Fallback local com koans/aforismos

⚙️ Parâmetros recomendados do payload

Valores seguros para produção

temperature = 0.4
max_tokens = 250
top_p = 0.9
presence_penalty = 0.3
frequency_penalty = 0.3

| Parâmetro         | Função                    | Justificativa                                   |
| ----------------- | ------------------------- | ----------------------------------------------- |
| temperature       | Criatividade              | 0.4 mantém equilíbrio entre coerência e fluidez |
| max_tokens        | Tamanho da resposta       | Limitar evita estouro de quota                  |
| top_p             | Diversidade               | 0.9 mantém naturalidade sem exagero             |
| presence_penalty  | Evitar repetição temática | Melhora fluidez                                 |
| frequency_penalty | Evitar repetição textual  | Reduz loops                                     |

🎛️ Ajustes Finos — Parâmetros e Estabilidade (Multi-IA)

🛡️ Estratégia de Alta Disponibilidade (Multi-IA)

Para mitigar erros de cota (HTTP 429) ou modelos descontinuados (HTTP 404), o sistema implementa um Fallback Dinâmico (rodízio automático) entre 4 provedores de última geração:

Gemini 2.5-Flash-Lite (Google): Provedor principal. Utiliza a API estável v1 para garantir respostas profundas e rápidas.
Cerebras: Primeira linha de reserva. Focado em baixíssima latência (LPU), ideal para interações instantâneas.
SambaNova: Segunda linha de reserva. Utiliza arquitetura RDU, excelente para manter a coerência em diálogos longos.
Groq: Terceira linha de reserva. Garante a entrega da resposta em milissegundos se todos os outros falharem.

⚙️ Parâmetros Calibrados (Março/2026)

Os parâmetros abaixo foram refinados para equilibrar a serenidade do Mestre Chizu com a necessidade de respostas fluidas e não repetitivas.

Configuração Atual (`engine.py`)

Parâmetro	Valor	Função Técnica	Justificativa Zen
`temperature`	0.45	Criatividade/Aleatoriedade	Um toque de inspiração sem perder a sobriedade.
`max_tokens`	200	Limite de tamanho	Respostas completas que cabem no "fôlego" do Render.
`top_p`	0.9	Diversidade de núcleo	Mantém a naturalidade das palavras escolhidas.
`frequency_penalty`	0.2	Penalidade de repetição	Evita que o mestre use as mesmas palavras em sequência.
`presence_penalty`	0.1	Penalidade de presença	Incentiva a abordagem de novos ângulos no ensinamento.

📊 Monitoramento e Logs de Auditoria

Para garantir a transparência do sistema, cada requisição gera um log unificado no console do servidor (Render/Terminal). Isso permite identificar qual "cérebro" foi utilizado para cada resposta:

[LOG] Estilo: system_prompt.txt | Provedor: Gemini
INFO: 177.104.74.30:0 - "POST /ask HTTP/1.1" 200 OK

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search