Busca Semântica
Este capítulo explica o conceito de busca semântica, um dos mecanismos centrais utilizados pelo Chizu para encontrar informações relevantes nos textos.
Diferente de uma busca tradicional baseada apenas em palavras, a busca semântica tenta encontrar significados relacionados.
🔎 O que é Busca Semântica
A busca semântica é uma técnica que permite encontrar conteúdos com significado semelhante, mesmo que as palavras utilizadas sejam diferentes.
Em uma busca tradicional, o sistema procura palavras exatas.
Exemplo:
Consulta:
Como acalmar a mente?
Uma busca tradicional procuraria apenas por palavras como:
- acalmar
- mente
Se essas palavras não estiverem no texto, o sistema não encontra nada.
Já a busca semântica procura ideias relacionadas, como:
- respirar
- atenção plena
- silêncio interior
- observar pensamentos
Mesmo sem repetir as mesmas palavras.
🧠 Como a Busca Semântica Funciona
A busca semântica funciona usando embeddings, que são representações numéricas do significado dos textos.
O processo funciona da seguinte forma:
- O sistema possui vários chunks de texto armazenados
- Cada chunk possui um embedding
- Quando o usuário faz uma pergunta, ela também é convertida em embedding
- O sistema compara esse vetor com os embeddings existentes
- Os textos com maior proximidade semântica são selecionados
Essa proximidade normalmente é calculada usando similaridade vetorial.
📏 Similaridade entre Vetores
Embeddings podem ser comparados matematicamente.
Uma das técnicas mais comuns é a similaridade de cosseno (cosine similarity).
Ela mede o ângulo entre dois vetores.
- vetores próximos → significados semelhantes
- vetores distantes → significados diferentes
Exemplo simplificado:
Pergunta: "Como acalmar a mente?"
↓
Embedding da pergunta
↓
Comparação com embeddings dos textos
↓
Seleção dos chunks mais próximos
⚙️ Fluxo da Busca Semântica no Chizu
No Chizu, o fluxo básico funciona assim:
- O usuário faz uma pergunta
- A pergunta é convertida em embedding
- O sistema procura os embeddings mais próximos
- Os chunks correspondentes são recuperados
- Esses textos são enviados ao modelo de linguagem
- O modelo gera a resposta usando esse contexto
Esse processo permite que o sistema responda usando informações presentes nos livros carregados.
📚 Exemplo Prático
Suponha que exista um chunk no sistema:
Observe sua respiração e permita que os pensamentos passem.
Usuário pergunta:
Como posso acalmar minha mente?
Mesmo que as palavras sejam diferentes, o significado é semelhante.
A busca semântica identifica essa proximidade e recupera esse trecho como contexto para a resposta.
🧘 Analogia simples
Podemos imaginar a busca semântica como um mapa de significados.
- Cada texto é um ponto nesse mapa
- Textos com significados parecidos ficam próximos
- Textos muito diferentes ficam distantes
Quando surge uma pergunta, o sistema procura os pontos mais próximos no mapa.
📌 Resumo
- Busca tradicional → procura palavras exatas
- Busca semântica → procura significados semelhantes
- Embeddings permitem representar textos como vetores
- Similaridade vetorial identifica conteúdos relacionados
A busca semântica é o mecanismo que permite ao Chizu encontrar conhecimento relevante dentro dos textos antes de gerar uma resposta.