Cómo funciona el pipeline RAG

Resumen técnico del asistente de consultoría en este sitio.

#1

Pregunta del usuario

Formulario chat LiveView

#2

Embedding de consulta

Embedding vectorial vía API LLM

#3

Recuperar chunks

Búsqueda por similitud pgvector

#4

Aumentar prompt

Contexto FAQ + portafolio

#5

Respuesta LLM

Completion Gemini / OpenAI

#6

Rate limit y log

Token bucket ETS + auditoría

Fuentes de conocimiento

  • Chunks FAQ estáticos en Content.knowledge_chunks/0
  • Casos de estudio y narrativa about
  • Re-indexado vía mix rag.reindex en pgvector

Consideraciones de producción

  • Rate limits por hora por IP
  • Prompts bilingües por locale
  • Webhook Telegram para mensajes async
Ver repo demo

Inquire about my experience

Portfolio assistant — architecture, projects, and consulting.

See how RAG retrieval works