RAG pipeline construction - Codex / Claude Code Skill

Construye pipelines de retrieval-augmented generation production-ready con estrategias de chunking deliberadas, selección de modelo de embedding, configuración de vector store, blending de búsqueda híbrida y reranking para que los agentes respondan desde tus documentos con alucinación reducida y fuentes citadas. Esta habilidad se enfoca en las decisiones de ingeniería que separan un prototype que funciona de un sistema RAG de calidad de producción.

Categoría Investigación

Plataforma Codex / Claude Code

Fecha de publicación 2026-04-22

ragretrievalembeddings

Casos de uso

Construyendo un sistema de Q&A de base de conocimiento donde precisión y precisión de citación son más importantes que raw recall de retrieval
Creando un agente grounded en documentos que debe responder preguntas sobre un corpus específico sin alucinar información no contenida en el corpus
Implementando respuestas con citación pesada para investigación académica o legal donde usuarios downstream necesitan verificabilidad
Construyendo un sistema RAG específico para un dominio para un campo (medicina, derecho, ingeniería) donde la precisión factual es crítica y la alucinación es costosa
Escalando un sistema RAG más allá de un solo corpus a múltiples colecciones de documentos con diferentes schemas y requisitos de retrieval

Funciones principales

Selecciona una estrategia de chunking alineada con tu estructura de corpus: splitting de carácter recursivo para texto no estructurado, chunking semántico para prosa y splitting estructural para documentos con headings o secciones
Configura el modelo de embedding para tu tipo de datos y lenguaje: código requiere embeddings diferentes a prosa y corpus multilingual pueden necesitar modelos multilingual
Configura el vector store con parámetros de indexing apropiados para tu volumen de query esperado y frecuencia de actualización
Implementa búsqueda híbrida combinando retrieval denso de vector con retrieval disperso de BM25 para capturar tanto similitud semántica como matching exacto de términos
Añade un paso de reranking usando un modelo cross-encoder para reordenar los top-k chunks recuperados por relevancia real a la query específica, mejorando precisión al costo de una latencia de segundo paso

Relacionados

3 Entradas indexadas

Brainstorming before build

Investigación

Explora objetivos, restricciones, riesgos y opciones de diseño antes de comprometerse con un camino de implementación específico. Esta técnica es más valiosa cuando se enfrentan decisiones de producto o UX donde la elección equivocada es costosa de revertir: nuevas funcionalidades con valor de usuario incierto, pivotes arquitectónicos o dependencias cruzadas donde cada equipo tiene un modelo mental diferente del problema.

Fine-tuning preparation

Investigación

Curate, deduplica y formatea datasets de training para fine-tuning para que el modelo resultante realmente mejore en comportamientos objetivo en lugar de aprender ruido. Fine-tuning preparation cubre filtrado de calidad de dataset, consistencia de formato de output, splits de train/test y evitar common pitfalls como data leakage que invalidan resultados de fine-tuning.

Library docs in the loop

Investigación

Mantiene las respuestas de asistentes de IA ancladas a la documentación real de la librería, changelog y firmas tipadas que se shippean en lugar de a memoria o resúmenes de blogs stale. Esto es esencial durante bumps de versión mayores, integración de SDKs unfamiliar o hotfixes de on-call donde guesses confiados pero incorrectos sobre comportamiento de API causan más daño que el bug original.