Organização dos Textos no Projeto Chizu
Este documento descreve como os textos são organizados, tratados e preparados para se tornarem a base de conhecimento do ZenBot.
O objetivo é transformar conteúdos brutos em informação estruturada, pesquisável e semanticamente significativa.
Visão Geral
O Chizu utiliza textos como fonte principal de conhecimento. Esses textos passam por um processo de transformação, que inclui:
Texto bruto → Limpeza → Fragmentação → Embeddings → Busca Semântica
Esse fluxo garante que o sistema consiga entender o significado dos conteúdos, e não apenas localizar palavras.
Tipos de Textos Utilizados
Os principais formatos são:
- PDFs
- Arquivos de texto (.txt)
- Textos extraídos da web
- Conteúdos preparados manualmente
Esses materiais ficam organizados principalmente na pasta: textos/
Limpeza dos Textos
Após a extração, os textos passam por um processo de limpeza, que inclui:
- Remoção de caracteres estranhos.
- Correção de espaçamentos.
- Padronização de parágrafos.
- Eliminação de ruídos visuais.
Objetivo: deixar o texto mais claro, contínuo e semanticamente consistente.
Fragmentação (Chunks)
Textos longos são divididos em pequenos blocos, chamados de chunks.
Por que fragmentar?
- Facilita a indexação.
- Melhora a busca semântica.
- Permite respostas mais precisas.
Cada chunk representa uma ideia completa ou um pequeno trecho coerente.
Geração de Embeddings
Cada fragmento é convertido em um vetor semântico (embedding).
Embeddings são representações matemáticas do significado dos textos, permitindo que o sistema:
- Compare ideias.
- Meça similaridade.
- Realize busca por sentido, e não apenas por palavras.
Armazenamento dos Dados
Os dados gerados são organizados principalmente em: data/
Contendo:
- Vetores de embeddings.
- Índices de busca.
- Arquivos auxiliares para desempenho.
Pipeline de Preparação dos Textos
O processo completo segue a sequência:
- Extração do texto.
- Limpeza.
- Fragmentação.
- Geração dos embeddings.
- Armazenamento.
- Indexação para busca.
Este conjunto de etapas forma o pipeline de preparação do conhecimento.
Organização dos Arquivos
A separação clara entre:
- Textos brutos
- Textos limpos
- Fragmentos
- Dados vetoriais
permite:
- Facilidade de manutenção.
- Reprocessamento simples.
- Evolução contínua da base de conhecimento.
Princípios da Organização
- Clareza
- Simplicidade
- Modularidade
- Reprodutibilidade
- Qualidade semântica
Conclusão
A organização dos textos é o coração do Chizu. Um bom preparo dos dados garante:
- Respostas melhores.
- Maior coerência.
- Melhor experiência para o usuário.
- Base sólida para evolução futura.