Cómo funciona el pipeline RAG
Resumen técnico del asistente de consultoría en este sitio.
#1
Pregunta del usuario
Formulario chat LiveView
#2
Embedding de consulta
Embedding vectorial vía API LLM
#3
Recuperar chunks
Búsqueda por similitud pgvector
#4
Aumentar prompt
Contexto FAQ + portafolio
#5
Respuesta LLM
Completion Gemini / OpenAI
#6
Rate limit y log
Token bucket ETS + auditoría
Fuentes de conocimiento
- • Chunks FAQ estáticos en Content.knowledge_chunks/0
- • Casos de estudio y narrativa about
- • Re-indexado vía mix rag.reindex en pgvector
Consideraciones de producción
- • Rate limits por hora por IP
- • Prompts bilingües por locale
- • Webhook Telegram para mensajes async