RAG no Chizu

Este capítulo explica como o Chizu utiliza a técnica chamada RAG (Retrieval Augmented Generation) para gerar respostas baseadas nos textos carregados no sistema.

RAG combina duas capacidades:

recuperação de informação (retrieval)
geração de texto (generation)

Essa combinação permite que o modelo responda perguntas utilizando conteúdo real armazenado no sistema.

🧠 O que é RAG

RAG significa Retrieval Augmented Generation, que pode ser traduzido como:

Geração de texto aumentada por recuperação de informações.

Em vez de responder apenas com base no conhecimento interno do modelo, o sistema primeiro busca informações relevantes e depois usa essas informações para gerar a resposta.

Isso torna as respostas:

mais precisas
mais contextualizadas
baseadas nos textos fornecidos ao sistema

🔎 Como o RAG funciona

O processo geral do RAG segue três etapas principais:

Receber a pergunta do usuário
Buscar trechos relevantes nos textos
Gerar a resposta usando esses trechos como contexto

Esse processo permite que o modelo responda perguntas sobre conteúdos específicos, como livros ou documentos.

⚙️ Fluxo de funcionamento no Chizu

No Chizu, o fluxo funciona da seguinte forma:

O usuário faz uma pergunta
A pergunta é convertida em embedding
O sistema executa uma busca semântica
Os chunks mais relevantes são recuperados
Esses textos são enviados ao modelo de linguagem
O modelo gera a resposta usando esses trechos como base

Fluxo simplificado:

```text Pergunta do usuário ↓ Embedding da pergunta ↓ Busca semântica ↓ Chunks relevantes ↓ Modelo de linguagem ↓ Resposta final

---

## 📚 Por que usar RAG

Sem RAG, o modelo responde apenas com base no **conhecimento aprendido durante o treinamento**.

Com RAG, o sistema pode responder utilizando:

- livros carregados
- documentos do projeto
- bases de conhecimento específicas

Isso permite que o Chizu funcione como um **assistente especializado nos textos fornecidos**.

---

## 📦 Exemplo simplificado

Usuário pergunta:

> O que é atenção plena?

O sistema realiza os seguintes passos:

1. converte a pergunta em embedding  
2. encontra chunks relacionados a **atenção, respiração e presença**  
3. envia esses trechos ao modelo  
4. o modelo gera uma resposta baseada nesses textos  

Exemplo de contexto enviado ao modelo:

```text
A atenção plena consiste em observar o momento presente sem julgamento.

Respirar conscientemente é uma das formas mais simples de retornar ao presente.

🧘 Analogia simples

Podemos imaginar o RAG como um professor consultando um livro antes de responder uma pergunta.

alguém faz uma pergunta
o professor procura no livro os trechos relevantes
ele lê rapidamente essas partes
então formula a resposta

O modelo de linguagem faz algo semelhante: ele consulta os textos antes de responder.

📌 Resumo

RAG significa Retrieval Augmented Generation
Combina busca de informação com geração de texto
O sistema recupera trechos relevantes antes de responder
As respostas passam a ser baseadas nos textos carregados

Essa arquitetura permite que o Chizu funcione como um assistente capaz de responder perguntas sobre os livros presentes no sistema.

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search