Embeddings

Este capítulo explica o que são embeddings, por que eles são fundamentais para sistemas modernos de inteligência artificial e como são usados no Chizu para permitir busca semântica real.

🧠 O que são embeddings?

Embeddings são representações matemáticas do significado dos textos.

Eles transformam:

Palavras → Frases → Parágrafos → Documentos

em vetores numéricos.

Esses vetores capturam o sentido, não apenas as palavras.

🔢 O que é um vetor?

Um vetor é uma lista de números, por exemplo: [0.023, -0.91, 0.44, 0.002, 0.78, ...]

Cada número representa uma característica semântica aprendida.

Modelos modernos usam vetores com:

384 dimensões
768 dimensões
1024 dimensões
1536 dimensões ou mais

🌍 O que significa “representar o significado”?

Palavras diferentes podem ter significado parecido:

carro
automóvel
veículo

Nos embeddings, essas palavras ficam próximas no espaço vetorial.

Já palavras com significados distantes:

carro
meditação

ficam muito afastadas matematicamente.

🗺️ Espaço vetorial

Imagine um espaço com milhares de dimensões.

Cada texto vira um ponto nesse espaço.

Textos com significado parecido:

→ ficam próximos
Textos diferentes:

→ ficam distantes

Isso permite medir similaridade matemática.

📐 Como se mede essa proximidade?

A métrica mais comum é:

similaridade do cosseno

Ela calcula o ângulo entre dois vetores.

Resultado:

1.0 → idênticos
0.8 → muito semelhantes
0.5 → relacionados
0.2 → pouco relacionados
0.0 → não relacionados

🔍 Para que embeddings são usados?

Busca semântica
Recomendação de conteúdo
Agrupamento de textos
Classificação automática
Detecção de similaridade
Chatbots inteligentes

⚙️ Como o Chizu usa embeddings?

O Chizu:

Divide os textos em pequenos blocos (chunks)
Gera embeddings para cada bloco
Armazena esses vetores
Quando chega uma pergunta:
Gera embedding da pergunta
Compara com todos os vetores
Encontra os mais próximos
Recupera os textos correspondentes
Envia esses textos ao LLM

🔁 Fluxo resumido

Texto → Embeddings → Vetores armazenados Pergunta → Embedding → Comparação → Textos relevantes → Resposta

🧩 Por que isso é tão poderoso?

Porque o sistema:

Não depende de palavras exatas
Entende o sentido
Encontra respostas mesmo se a pergunta for formulada de outra forma

Exemplo:

Pergunta:

Como acalmar a mente?

Mesmo sem essa frase literal nos textos, o sistema pode encontrar:

meditação
silêncio
atenção plena
respiração consciente

🛑 Diferença entre busca tradicional e semântica

Busca tradicional:

Procura palavras exatas.

Busca semântica:

Procura significado.

🧘 Metáfora Zen

Embeddings são como:

Um mapa invisível do significado das palavras.

Eles não veem letras, veem intenções.

🧠 Embeddings não pensam

Eles não entendem de verdade.

Eles apenas:

Representam matematicamente padrões estatísticos da linguagem.

Mas isso já é suficiente para criar sistemas incrivelmente inteligentes.

📌 Conceito-chave

Embeddings são a ponte entre linguagem humana e matemática.

🔗 Próximo capítulo

👉 07 — Busca Semântica

Aqui veremos como esses vetores são usados para encontrar as respostas certas.

📚 Aprofundamento técnico

Este capítulo apresentou uma visão geral sobre embeddings.

Se você quiser entender como o Chizu utiliza embeddings na prática, incluindo:

geração de embeddings
armazenamento
relação com chunks
uso na busca semântica

consulte o capítulo detalhado:

➡ Chunks e Embeddings

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search