Organização dos Textos no Projeto Chizu

Este documento descreve como os textos são organizados, tratados e preparados para se tornarem a base de conhecimento do ZenBot.

O objetivo é transformar conteúdos brutos em informação estruturada, pesquisável e semanticamente significativa.

Visão Geral

O Chizu utiliza textos como fonte principal de conhecimento. Esses textos passam por um processo de transformação, que inclui:

Texto bruto → Limpeza → Fragmentação → Embeddings → Busca Semântica

Esse fluxo garante que o sistema consiga entender o significado dos conteúdos, e não apenas localizar palavras.

Os principais formatos são:

Esses materiais ficam organizados principalmente na pasta: textos/

Após a extração, os textos passam por um processo de limpeza, que inclui:

Objetivo: deixar o texto mais claro, contínuo e semanticamente consistente.

Textos longos são divididos em pequenos blocos, chamados de chunks.

Cada chunk representa uma ideia completa ou um pequeno trecho coerente.

Cada fragmento é convertido em um vetor semântico (embedding).

Embeddings são representações matemáticas do significado dos textos, permitindo que o sistema:

Os dados gerados são organizados principalmente em: data/

Contendo:

O processo completo segue a sequência:

Este conjunto de etapas forma o pipeline de preparação do conhecimento.

A separação clara entre:

permite:

A organização dos textos é o coração do Chizu. Um bom preparo dos dados garante: