
Introducción 1.1. Por qué leer esta guía 1.2. Qué es y qué no es el Prompt Engineering 1.3. Cómo usar esta guía y el glosario
Fundamentos: cómo funcionan los LLM 2.1. Diferencia entre IA general y LLM 2.2. Tokens y tokenización (BPE) 2.3. Ventana de contexto 2.4. Parámetros y pesos 2.5. Tipos de modelos: base, instruct, reasoning
Arquitectura Transformer 3.1. Autoatención (self-attention) 3.2. Capas feed-forward y normalización 3.3. Escalabilidad y paralelización 3.4. Infraestructura y hardware: CPU vs GPU, clusters y costes
Capacidades y limitaciones de los LLM 4.1. Fortalezas reales 4.2. Limitaciones técnicas y conceptuales 4.3. Riesgos y errores comunes (alucinaciones, sesgos) 4.4. Estrategias de mitigación (RAG, herramientas, guardrails)
Técnicas base de Prompt Engineering 5.1. Zero-Shot 5.2. One-Shot 5.3. Few-Shot 5.4. Cuándo usar cada una y ejemplos claros
Estrategias intermedias 6.1. Chain of Thought (CoT) 6.2. ReAct (Reason + Act) 6.3. Contratos de salida y formatos estructurados 6.4. Rúbricas de evaluación y autocorrección
Diseño de sistemas con LLM 7.1. RAG y búsqueda contextual 7.2. Integración con APIs y herramientas externas 7.3. Wrappers y SaaS 7.4. Monitorización y telemetría
Control y precisión en entornos reales 8.1. Instrucciones explícitas y restricción de criterios 8.2. Formatos de salida (JSON, tablas, etc.) 8.3. Iteración controlada 8.4. Evaluación automatizada
Taller práctico: de prompt suelto a flujo reproducible 9.1. Definición del contrato de entrada/salida 9.2. Preparación y segmentación del contexto 9.3. Uso de herramientas auxiliares 9.4. Validación y pruebas 9.5. Creación y mantenimiento de una librería de prompts
Conclusiones y siguientes pasosGlosario — Términos clave para referencia rápida
1. Introducción
El prompt engineering no es un truco para “dominar” una inteligencia artificial como si fuera un atajo de teclado. Es una disciplina emergente que combina comprensión técnica de los modelos de lenguaje con diseño estratégico de instrucciones para obtener salidas útiles, consistentes y verificables.
Hoy, casi todo el mundo dice “IA” cuando en realidad se refiere a modelos grandes de lenguaje (Large Language Models, LLM). Estos sistemas no “piensan” ni “entienden” en sentido humano; generan texto prediciendo, token a token, la secuencia más probable a partir de un contexto dado. Su potencia no reside en imitar la conciencia, sino en modelar patrones del lenguaje con tal fidelidad que pueden resolver problemas prácticos en una enorme variedad de dominios.
Esta guía está pensada para ayudarte a pasar de nociones dispersas a un mapa mental claro y operativo. Aquí no encontrarás recetas mágicas ni catálogos de trucos sueltos: aprenderás a estructurar contextos, diseñar contratos de salida y construir flujos reproducibles que conviertan un “prompt” improvisado en una herramienta fiable dentro de un sistema más amplio.
1.1. Por qué leer esta guía
Porque la calidad de lo que obtienes de un LLM depende directamente de cómo le planteas la tarea. No basta con “pedirlo bien”: hay que entender qué es capaz de hacer el modelo, cómo procesa la información y dónde se rompen sus límites. Este conocimiento es lo que diferencia una respuesta mediocre de una solución de valor.
1.2. Qué es y qué no es el Prompt Engineering
No es:
Un lenguaje secreto para desbloquear “modos ocultos”.
Un sustituto de la verificación humana.
Una lista de comandos que funcionarán siempre.
Sí es:
Una metodología para especificar instrucciones claras, contexto relevante y criterios de validación.
Una forma de traducir un problema humano a un formato que el modelo pueda interpretar con la mayor precisión posible.
Una pieza dentro de un flujo mayor, que puede incluir recuperación de información, herramientas externas y validaciones automáticas.
1.3. Cómo usar esta guía y el glosario
La estructura es progresiva: empezaremos con la anatomía básica de un LLM, pasaremos por las técnicas fundamentales de diseño de prompts y avanzaremos hacia estrategias intermedias y diseño de sistemas. Cada concepto clave del que hablemos está recogido en el glosario final, para que puedas consultarlo en cualquier momento sin interrumpir la lectura. (aunque también puedes preguntarle a ChatGPT)
2. Fundamentos: cómo funcionan los LLM
Antes de entrar en técnicas de prompt engineering, es imprescindible entender la maquinaria que hay detrás. Un LLM no es un “cerebro digital” en el sentido biológico: es un sistema estadístico entrenado para predecir la siguiente unidad de lenguaje —un token— en función de los tokens anteriores.
2.1. Diferencia entre IA general y LLM
IA General (AGI): el concepto hipotético de un sistema capaz de realizar cualquier tarea cognitiva humana. No existe hoy en forma plena.
LLM: un modelo de lenguaje entrenado con cantidades masivas de texto para producir salidas lingüísticas. Está especializado en procesar, generar y transformar lenguaje natural, pero no posee comprensión o intención.
Cuando hablamos de ChatGPT, Claude, Gemini o LLaMA, nos referimos a LLMs, no a AGI.
2.2. Tokens y tokenización (BPE)
Un token es la unidad mínima de texto que el modelo maneja. Puede ser:
Una palabra entera (“gato”).
Un fragmento de palabra (“elec-” + “tricidad”).
Símbolos, signos de puntuación o espacios.
El proceso de tokenización convierte texto en secuencias numéricas que el modelo procesa.
La técnica más común es Byte Pair Encoding (BPE), que equilibra eficiencia y granularidad: descompone las palabras en subunidades frecuentes para que el vocabulario cubra todos los casos posibles.
2.3. Ventana de contexto
La ventana de contexto es el número máximo de tokens que un modelo puede considerar en una interacción.
Un GPT-4 con 8K tokens puede manejar ~6.000 palabras antes de “olvidar” lo más antiguo.
Modelos de 32K, 100K o más amplían esa memoria de trabajo y permiten operaciones sobre documentos largos o análisis complejos.
Importante: el contexto no es persistente entre sesiones a menos que se diseñe un sistema que lo gestione (por ejemplo, bases de datos de memoria o RAG).
2.4. Parámetros y pesos
Los parámetros son los valores numéricos internos que definen cómo el modelo transforma entradas en salidas. Un modelo como GPT-3 tiene 175.000 millones de parámetros; GPT-4, probablemente varios billones.
Los pesos son el valor concreto de cada parámetro tras el entrenamiento. Son el equivalente a la “memoria” del modelo: no almacenan datos literales, sino patrones estadísticos.
2.5. Tipos de modelos: base, instruct, reasoning
Base: entrenado para predecir texto, sin ajuste especial para seguir instrucciones.
Instruct: ajustado mediante fine-tuning y reinforcement learning para responder de forma útil y segura a instrucciones humanas.
Reasoning: optimizado para tareas que requieren razonamiento multi-paso, verificación intermedia y planificación.
3. Arquitectura Transformer
El avance decisivo que hizo posibles los LLM modernos fue la arquitectura Transformer, presentada por Vaswani et al. en 2017 en el artículo Attention Is All You Need.
Su diseño rompió con las limitaciones de modelos anteriores (RNN, LSTM), permitiendo entrenar redes más profundas, manejar secuencias largas y escalar masivamente el tamaño de los modelos.
3.1. Self-attention (Autoatención)
El núcleo del Transformer es el mecanismo de autoatención, que evalúa la relación de cada token con todos los demás en la secuencia.
En cada capa:
Cada token genera tres vectores: Q (query), K (key) y V (value).
Se calculan similitudes entre las queries y todas las keys.
Se ponderan los values según esas similitudes.
Esto permite que el modelo “decida” qué partes del contexto son más relevantes para predecir el siguiente token, capturando dependencias de largo alcance sin procesar palabra por palabra de forma secuencial.
3.2. Capasfeed-forward y normalización
Después de la autoatención:
Una red feed-forward procesa cada posición de forma independiente para aplicar transformaciones no lineales.
Se aplican mecanismos de normalización de capas (layer normalization) para estabilizar el entrenamiento.
Se usan residual connections para mantener el flujo de gradiente en redes profundas.
3.3. Escalabilidad y paralelización
El Transformer procesa tokens en paralelo dentro de cada capa. Esto lo hace ideal para ejecutarse en hardware con gran capacidad de cómputo en paralelo, como las GPU y TPU.
El entrenamiento se distribuye en:
Paralelismo de datos: distintos lotes (batches) en diferentes GPUs.
Paralelismo de modelo: dividir las capas o los parámetros entre GPUs.
Paralelismo de pipeline: procesar distintas etapas en paralelo.
3.4. Infraestructura y hardware: CPU vs GPU, clusters y costes
CPU: eficientes para tareas de control y preprocesamiento, pero lentas para operaciones de matrices masivas.
GPU: optimizadas para operaciones en paralelo sobre grandes matrices, esenciales para entrenar y ejecutar LLMs.
Clusters: miles de GPUs interconectadas permiten entrenar modelos con billones de parámetros en semanas en lugar de años.
El coste: entrenar un modelo puntero puede superar los 10 millones de dólares en hardware y energía.
Este consumo masivo de GPU ha tensado mercados como el de gaming, donde la demanda industrial encarece tarjetas gráficas de alto rendimiento.
4. Capacidades y limitaciones de los LLM
Un LLM no es una herramienta universal que lo resuelva todo. Su rendimiento depende del diseño del prompt, de la calidad y diversidad de sus datos de entrenamiento, y de las limitaciones inherentes a su arquitectura.
4.1. Fortalezas reales
Versatilidad lingüística: generación, resumen, traducción, reformulación y análisis de texto.
Transferencia de conocimiento: capacidad de aplicar patrones aprendidos a dominios nuevos sin reentrenamiento explícito.
Creatividad controlada: generación de ideas, borradores o hipótesis en entornos creativos y técnicos.
Interacción conversacional: mantiene diálogos coherentes en múltiples turnos (dentro de la ventana de contexto).
4.2. Limitaciones técnicas y conceptuales
Falta de comprensión semántica: no “entiende” conceptos; opera con correlaciones estadísticas.
Memoria limitada: restringido por la ventana de contexto; sin memoria persistente salvo que se diseñe externamente.
Conocimiento congelado: sus datos se detienen en la fecha de corte del entrenamiento.
Sensibilidad a la redacción: cambios mínimos en el prompt pueden alterar drásticamente la respuesta.
4.3. Riesgos y errores comunes
Alucinaciones: generación de datos falsos con tono convincente.
Sesgos: reproducen prejuicios presentes en los datos de entrenamiento.
Confianza excesiva del usuario: tomar como “verdad” lo que es solo una predicción lingüística.
Fugas de información: si se exponen datos sensibles en el contexto.
4.4. Estrategias de mitigación
RAG (Retrieval-Augmented Generation): combinar el modelo con un sistema de búsqueda para añadir contexto actualizado y verificado.
Herramientas externas: delegar cálculos, búsquedas o verificaciones a funciones específicas.
Guardrails: sistemas de filtrado y validación de salidas antes de presentarlas al usuario.
Evaluación continua: pruebas periódicas para detectar degradaciones en el rendimiento.
5. Técnicas base de Prompt Engineering
Las técnicas base son el punto de partida para estructurar interacciones con un LLM. No garantizan precisión absoluta, pero permiten establecer patrones claros que mejoran la calidad y consistencia de las respuestas.
5.1. Zero-Shot
En zero-shot, el modelo recibe únicamente la instrucción, sin ejemplos previos.
Ejemplo:
“Resume en tres frases las causas de la Revolución Francesa.”
Ventajas:
Rápido y directo.
Útil para tareas simples y bien definidas.
Limitaciones:
Menor control sobre el estilo y formato de la salida.
Mayor riesgo de interpretaciones ambiguas.
5.2. One-Shot
En one-shot, se incluye un único ejemplo que sirve como referencia.
Ejemplo:
Ejemplo:
Pregunta: “¿Cuál es la capital de Italia?”
Respuesta: “Roma.”
Pregunta: “¿Cuál es la capital de Alemania?”
Ventajas:
Marca un patrón de respuesta.
Reduce ambigüedades frente al zero-shot.
Limitaciones:
Si el ejemplo no es representativo, puede sesgar la respuesta.
5.3. Few-Shot
En few-shot, se aportan varios ejemplos antes de la tarea objetivo.
Ejemplo:
Ejemplo 1:
Pregunta: “¿Cuál es la capital de Francia?”
Respuesta: “París.”
Ejemplo 2:
Pregunta: “¿Cuál es la capital de España?”
Respuesta: “Madrid.”
Pregunta: “¿Cuál es la capital de Portugal?”
Ventajas:
Define con mayor precisión el estilo y formato esperados.
Útil para tareas con estructura repetitiva.
Limitaciones:
Consume más tokens de la ventana de contexto.
Puede limitar la creatividad del modelo si los ejemplos son demasiado específicos.
5.4. Cuándo usar cada una
Zero-Shot: consultas simples, con bajo riesgo de interpretación errónea.
One-Shot: cuando un ejemplo basta para fijar formato.
Few-Shot: tareas repetitivas que requieren consistencia y formato uniforme.
6. Estrategias intermedias
Una vez dominadas las técnicas base, es momento de incorporar estructuras que guíen al modelo en procesos más complejos y que aumenten la trazabilidad de sus respuestas.
6.1. Chain of Thought (CoT)
El Chain of Thought consiste en pedir explícitamente al modelo que razone paso a paso antes de dar la respuesta final.
Ejemplo:
“Razonemos paso a paso para resolver este problema matemático…”
Ventajas:
Mejora la precisión en tareas lógicas o con múltiples pasos.
Permite auditar el razonamiento intermedio.
Limitaciones:
Mayor consumo de tokens.
Puede introducir pasos irrelevantes si no se controla.
6.2.ReAct (Reason + Act)
En este patrón, el modelo alterna entre:
Reason: reflexionar y planificar.
Act: ejecutar una acción (por ejemplo, una búsqueda externa o cálculo).
Este enfoque es especialmente útil en sistemas con tool calling, donde el LLM coordina acciones con herramientas externas.
6.3. Contratos de salida y formatos estructurados
Definir un contrato de salida implica especificar:
Formato (JSON, tabla, lista numerada…).
Campos obligatorios.
Reglas de validación.
Ejemplo:
“Devuélveme la respuesta en JSON con los campos ‘titulo’, ‘resumen’ y ‘fecha’.”
Esto reduce la ambigüedad y facilita la integración en sistemas automatizados.
6.4. Rúbricas de evaluación y autocorrección
Incluir una rúbrica de criterios en el prompt permite que el modelo:
Evalúe su propia respuesta.
Proponga correcciones si no cumple los criterios.
Ejemplo:
“Antes de dar la respuesta final, verifica que cumple los criterios 1, 2 y 3. Si no, corrige.”
7. Diseño de sistemas con LLM
El prompt engineering es solo una parte de un ecosistema mayor. Para que un LLM sea útil en producción, suele integrarse con otras capas de software, bases de datos y flujos de control.
7.1. RAG (Retrieval-Augmented Generation)
El RAG combina el LLM con un sistema de búsqueda en una base de conocimiento externa:
El usuario formula la consulta.
El sistema busca información relevante en documentos indexados.
El resultado se pasa como contexto al LLM, que genera la respuesta.
Ventajas:
Acceso a información actualizada.
Reducción de alucinaciones.
Control sobre las fuentes.
7.2. Integración con APIs y herramientas externas
Los LLM pueden actuar como orquestadores que:
Llaman a APIs.
Ejecutan scripts.
Consultan bases de datos.
Ejemplo: un asistente que recibe una pregunta meteorológica y, en lugar de inventar la respuesta, consulta la API oficial de la AEMET y devuelve el resultado.
7.3. Wrappers y SaaS
Muchos productos comerciales no entrenan modelos propios, sino que construyen wrappers alrededor de LLMs existentes:
Añaden interfaz.
Gestionan el contexto.
Aplican validaciones.
Escalan a múltiples usuarios.
Ejemplos: gestores de contenido que usan GPT-4 para redactar textos, o CRMs que integran generación de emails personalizados.
7.4. Monitorización y telemetría
En entornos reales, es crítico:
Medir latencia y coste por consulta.
Evaluar calidad de las respuestas.
Detectar degradaciones o cambios en el comportamiento del modelo.
Ajustar el prompt y el sistema en base a métricas.
8. Control y precisión en entornos reales
Un LLM en producción debe comportarse de forma predecible. Esto requiere métodos para guiar sus salidas y verificar su calidad antes de presentarlas al usuario o integrarlas en otros sistemas.
8.1. Instrucciones explícitas y restricción de criterios
Especificar formato, tono y alcance de la respuesta.
Indicar explícitamente qué no debe incluirse.
Limitar la tarea a un dominio concreto para reducir desviaciones.
Ejemplo:
“Responde en un párrafo de máximo 80 palabras, usando solo datos históricos verificados, sin opiniones personales.”
8.2. Formatos de salida (JSON, tablas, etc.)
Definir un formato de salida facilita:
Procesamiento automático.
Integración con otras aplicaciones.
Validación programática.
Ejemplo:
“Devuelve un JSON con los campos ‘tema’, ‘resumen’ y ‘fuente’.”
8.3. Iteración controlada
En tareas complejas:
Pedir un primer borrador.
Revisarlo automáticamente o manualmente.
Solicitar al modelo ajustes específicos.
Este ciclo de refinamiento reduce errores y aumenta la coherencia.
8.4. Evaluación automatizada
Pruebas unitarias: prompts de control que verifican salidas conocidas.
Checklists: listas de criterios que la respuesta debe cumplir.
Comparación de modelos: evaluar la misma tarea en distintos LLM para detectar discrepancias.
9. Taller práctico: de prompt suelto a flujo reproducible
En esta sección vamos a transformar una idea difusa en un prompt optimizado, documentado y listo para reutilizar en un sistema.
9.1. Definición del contrato de entrada/salida
Antes de escribir nada, aclara:
Objetivo: qué quieres conseguir.
Entrada: qué datos o contexto mínimo necesita el modelo.
Salida: formato exacto y criterios de calidad.
Ejemplo de contrato:
Objetivo: resumir artículos académicos.
Entrada: título + texto del artículo.
Salida: JSON con tema, resumen (máx. 200 palabras), palabras_clave.
9.2. Preparación y segmentación del contexto
Si el texto es muy largo:
Divídelo en fragmentos dentro del límite de tokens.
Añade un identificador a cada segmento para mantener el orden.
Procesa cada bloque de forma independiente y luego unifica los resultados.
9.3. Uso de herramientas auxiliares
Preprocesamiento: limpiar el texto, eliminar ruido.
Postprocesamiento: verificar formato, corregir errores ortográficos, validar datos.
Memoria externa: guardar resúmenes parciales o contexto histórico para consultas futuras.
9.4. Validación y pruebas
Ejecuta el prompt varias veces para comprobar consistencia.
Cambia ejemplos o instrucciones y evalúa impacto.
Añade pruebas con casos límite (textos muy cortos, muy técnicos, etc.).
9.5. Creación y mantenimiento de una librería de prompts
Guarda cada prompt validado con su contrato, ejemplos y resultados de prueba.
Clasifica por tipo de tarea y formato de salida.
Actualiza cuando haya cambios en el modelo o en las necesidades del sistema.
10. Conclusiones y siguientes pasos
El prompt engineering es mucho más que “pedirle bien” a un modelo. Es un conjunto de técnicas y principios que, aplicados con método, convierten a un LLM en una herramienta fiable y adaptable.
A lo largo de esta guía hemos recorrido:
Qué son realmente los LLM y cómo funcionan por dentro.
Sus capacidades y limitaciones reales.
Técnicas base y estrategias intermedias para diseñar prompts efectivos.
Cómo integrarlos en sistemas más amplios y controlar su comportamiento.
Un ejemplo práctico para pasar de idea difusa a flujo reproducible.
Próximos pasos:
Practicar: experimenta con zero-shot, few-shot, Chain of Thought y contratos de salida.
Documentar: guarda y organiza prompts efectivos.
Iterar: ajusta en función de resultados, métricas y feedback.
Integrar: combina el LLM con herramientas externas, RAG o APIs para ampliar capacidades.
El prompt engineering no es estático. Los modelos evolucionan, cambian sus capacidades y sus sesgos. Mantenerse actualizado es parte del trabajo.
Glosario
AGI (Artificial General Intelligence): concepto de IA con capacidades cognitivas generales equiparables a las humanas. No existe hoy en día.
BPE (Byte Pair Encoding): técnica de tokenización que divide palabras en subunidades frecuentes.
Chain of Thought (CoT): estrategia que pide al modelo razonar paso a paso antes de responder.
Contexto: información incluida en la entrada que el modelo usa para generar la respuesta.
Contrato de salida: especificación del formato, contenido y criterios que debe cumplir la respuesta.
Few-Shot: técnica que presenta varios ejemplos antes de la tarea objetivo.
GPU (Graphics Processing Unit): procesador especializado en operaciones en paralelo, crucial para el entrenamiento y ejecución de LLMs.
Instruct Model: modelo ajustado para seguir instrucciones humanas de forma más directa.
LLM (Large Language Model): modelo de lenguaje de gran escala entrenado con grandes volúmenes de texto.
One-Shot: técnica que presenta un único ejemplo antes de la tarea objetivo.
Prompt: instrucción o conjunto de instrucciones dadas a un LLM.
RAG (Retrieval-Augmented Generation): técnica que combina un LLM con un sistema de recuperación de información externa.
ReAct: patrón que alterna razonamiento (Reason) y acción (Act) en un mismo flujo.
Token: unidad mínima de texto procesada por el modelo (puede ser una palabra, parte de palabra o símbolo).
Ventana de contexto: número máximo de tokens que el modelo puede procesar en una interacción.
Zero-Shot: técnica que presenta la tarea sin ejemplos previos.