RAG no Chizu
Este capítulo explica como o Chizu utiliza a técnica chamada RAG (Retrieval Augmented Generation) para gerar respostas baseadas nos textos carregados no sistema.
RAG combina duas capacidades:
- recuperação de informação (retrieval)
- geração de texto (generation)
Essa combinação permite que o modelo responda perguntas utilizando conteúdo real armazenado no sistema.
🧠 O que é RAG
RAG significa Retrieval Augmented Generation, que pode ser traduzido como:
Geração de texto aumentada por recuperação de informações.
Em vez de responder apenas com base no conhecimento interno do modelo, o sistema primeiro busca informações relevantes e depois usa essas informações para gerar a resposta.
Isso torna as respostas:
- mais precisas
- mais contextualizadas
- baseadas nos textos fornecidos ao sistema
🔎 Como o RAG funciona
O processo geral do RAG segue três etapas principais:
- Receber a pergunta do usuário
- Buscar trechos relevantes nos textos
- Gerar a resposta usando esses trechos como contexto
Esse processo permite que o modelo responda perguntas sobre conteúdos específicos, como livros ou documentos.
⚙️ Fluxo de funcionamento no Chizu
No Chizu, o fluxo funciona da seguinte forma:
- O usuário faz uma pergunta
- A pergunta é convertida em embedding
- O sistema executa uma busca semântica
- Os chunks mais relevantes são recuperados
- Esses textos são enviados ao modelo de linguagem
- O modelo gera a resposta usando esses trechos como base
Fluxo simplificado:
```text Pergunta do usuário ↓ Embedding da pergunta ↓ Busca semântica ↓ Chunks relevantes ↓ Modelo de linguagem ↓ Resposta final
---
## 📚 Por que usar RAG
Sem RAG, o modelo responde apenas com base no **conhecimento aprendido durante o treinamento**.
Com RAG, o sistema pode responder utilizando:
- livros carregados
- documentos do projeto
- bases de conhecimento específicas
Isso permite que o Chizu funcione como um **assistente especializado nos textos fornecidos**.
---
## 📦 Exemplo simplificado
Usuário pergunta:
> O que é atenção plena?
O sistema realiza os seguintes passos:
1. converte a pergunta em embedding
2. encontra chunks relacionados a **atenção, respiração e presença**
3. envia esses trechos ao modelo
4. o modelo gera uma resposta baseada nesses textos
Exemplo de contexto enviado ao modelo:
```text
A atenção plena consiste em observar o momento presente sem julgamento.
Respirar conscientemente é uma das formas mais simples de retornar ao presente.
🧘 Analogia simples
Podemos imaginar o RAG como um professor consultando um livro antes de responder uma pergunta.
- alguém faz uma pergunta
- o professor procura no livro os trechos relevantes
- ele lê rapidamente essas partes
- então formula a resposta
O modelo de linguagem faz algo semelhante: ele consulta os textos antes de responder.
📌 Resumo
- RAG significa Retrieval Augmented Generation
- Combina busca de informação com geração de texto
- O sistema recupera trechos relevantes antes de responder
- As respostas passam a ser baseadas nos textos carregados
Essa arquitetura permite que o Chizu funcione como um assistente capaz de responder perguntas sobre os livros presentes no sistema.