Un modelo de lenguaje grande (LLM) no "comprende" como un humano ni "busca" en una base de datos. Hace una sola cosa, miles de millones de veces: predecir el siguiente fragmento de texto más probable dado todo lo que vino antes.
Consecuencias prácticas, que explican el 90 % de las sorpresas:
Es excelente con los patrones (estilo, estructura, código idiomático) porque son regularidades del lenguaje.
Puede inventar con confianza (alucinar): un texto falso pero plausible sigue siendo estadísticamente probable. De ahí la regla que vendrá después: dale las fuentes, no confíes en su memoria para los hechos.
No tiene ninguna memoria entre conversaciones. Todo lo que "sabe" sobre ti vive en el contexto que se le entrega en cada llamada.
Su conocimiento se detiene en una fecha de corte. Para eventos actuales, debes proporcionarle una búsqueda web.
Conserva esta imagen: un improvisador brillante pero amnésico. Tu tarea es darle el decorado adecuado (contexto) para cada escena.
Puntos clave
Un LLM predice el siguiente token, nada más
Alucinar = producir una salida plausible pero falsa, un riesgo estructural
Sin memoria entre sesiones: todo vive en el contexto
Conocimiento congelado en una fecha de corte
Los tokens y la ventana de contexto
El modelo no ve letras ni palabras, sino tokens: fragmentos de texto. En términos generales, 1 token equivale a unos 4 caracteres, es decir, aproximadamente 0,75 palabras en inglés. La palabra "interesting" puede ser 2 o 3 tokens.
La ventana de contexto es el número máximo de tokens que el modelo puede procesar de una sola vez: tu instrucción + el historial + los archivos + su respuesta. Los modelos Claude recientes admiten hasta 200 000 tokens, y algunas configuraciones hasta 1 millón de tokens (el modelo que escribió esto opera a 1M).
Por qué es fundamental:
Todo se paga en tokens (entrada + salida). Más contexto = más caro y más lento.
Cuando la ventana se llena, hay que resumir o limpiar (veremos /compact y /clear en Claude Code).
Un contexto sobrecargado de ruido degrada la calidad: la información útil se pierde. "Más contexto" no significa "mejor resultado".
El módulo 7 está dedicado por completo a dominar el contexto y los costos. Por ahora, recuerda la unidad: el token.
Puntos clave
Token = fragmento de texto, aproximadamente 4 caracteres
Ventana de contexto = entrada + historial + archivos + salida, con un límite (200K, a veces 1M)
Todo se factura en tokens, entrada y salida
Demasiado contexto ruidoso degrada la calidad, no solo el costo
La temperatura, y el mito del ajuste mágico
La temperatura regula la aleatoriedad de la predicción. Baja (0 a 0.3): el modelo casi siempre elige el token más probable, lo que produce respuestas estables y predecibles, ideal para código, extracción y clasificación. Alta (0.7 a 1): más diversidad, ideal para brainstorming y creatividad.
Otros dos parámetros que encontrarás en la API:
max_tokens: la longitud máxima de la respuesta. Demasiado bajo = respuesta cortada.
top_p: una alternativa a la temperatura (muestreo de núcleo). Por lo general se ajusta uno u otro, no ambos.
La trampa clásica del principiante: creer que se corrige un mal resultado tocando la temperatura. El 95 % de las veces el problema está en el prompt, no en el ajuste. Un prompt claro con temperatura 0.3 supera a un prompt vago con cualquier temperatura. Ajustamos la temperatura al final, no al principio.
Puntos clave
Temperatura baja = estable y factual; alta = creativo y diverso
max_tokens limita la salida (cuidado con los cortes)
Un mal resultado casi siempre proviene del prompt, no de la temperatura
La familia Claude: Opus, Sonnet, Haiku
Anthropic lanza cada generacion en tres tamaños, que intercambian inteligencia por velocidad y costo:
Opus: el mas capaz. Arquitectura, razonamiento complejo, depuracion difícil, brainstorming. El mas lento y costoso.
Sonnet: el equilibrio. El caballo de batalla diario, muy buena relacion calidad/costo.
Haiku: el mas rapido y economico. Tareas repetitivas, clasificacion, volumen, multilingue.
Identificadores de modelos (utiles en la API y en Claude Code) para la generacion actual:
Opus 4.8: claude-opus-4-8
Sonnet 4.6: claude-sonnet-4-6
Haiku 4.5: claude-haiku-4-5-20251001
La regla de Pierre, aplicada en su practica: Opus para arquitectura, brainstorming y depuracion; delegar lo repetitivo, lo multilingue y las auditorias a Sonnet o Haiku mediante sub-agentes. Mas detalles en el modulo multi-agente. En cuanto a facturacion, las llamadas a Claude son el recurso economico en su configuracion: solo los servicios externos de pago cuentan de verdad.
Puntos clave
Opus = potencia, Sonnet = equilibrio, Haiku = velocidad/volumen
Mismos identificadores en todas partes: claude-opus-4-8, claude-sonnet-4-6, claude-haiku-4-5-...
Pierre: Opus para arquitectura/depuracion, Sonnet/Haiku para trabajo repetitivo delegado
Significado sin diccionario: los embeddings
Cuando un modelo de lenguaje lee una palabra o una oracion, no la busca en un diccionario. En cambio, convierte el texto en un vector, es decir, una larga lista de numeros (a menudo cientos o miles de valores). Esa lista se llama embedding. Cada numero captura una pequeña faceta del significado, de modo que la lista completa representa lo que el texto "significa" para el modelo.
La clave es que significados similares producen vectores similares. En el espacio matematico donde viven estos vectores (llamado espacio de embedding), las palabras y frases se agrupan por significado. "Doctor" y "medico" quedan cerca el uno del otro. "Perro" y "gato" son vecinos, pero estan lejos de "factura". El modelo nunca necesito una regla que dijera que esas palabras estaban relacionadas: aprendio sus posiciones procesando miles de millones de oraciones.
Esta geometria del significado es lo que permite a Claude responder preguntas, encontrar pasajes relevantes y comprender el contexto. Cuando haces una pregunta, esta se convierte en un vector, y el modelo encuentra el contenido cuyo vector esta cerca en el espacio de embedding. Ese proceso se llama busqueda semantica (busqueda por significado, no por palabras exactas).
Vector: una lista de numeros que codifica un concepto.
Embedding: el vector especifico que un modelo asigna a un fragmento de texto.
Espacio de embedding: el mapa multidimensional donde viven todos esos vectores.
Busqueda semantica: encontrar texto por distancia de significado en lugar de coincidencia de palabras clave.
Puntos clave
Los embeddings convierten el texto en listas de numeros
Significados similares quedan cerca en el espacio de embedding
La busqueda semantica usa distancia vectorial, no palabras clave
Los modelos aprenden estas posiciones a partir de datos, no de reglas
Muestreo: por qué el mismo prompt varía
Cada vez que un modelo de lenguaje genera texto, elige las palabras de una en una. Después de cada palabra, consulta una lista de probabilidades: miles de palabras candidatas, cada una con una puntuación. La forma en que elige de esa lista se llama decodificación, y es la principal razón por la que dos prompts idénticos pueden producir respuestas diferentes.
La decodificación voraz siempre elige la palabra con la puntuación más alta. Es rápida y completamente determinista (la salida es siempre la misma), pero tiende a producir texto plano y repetitivo. La decodificación por muestreo introduce aleatoriedad: el modelo extrae de la lista de probabilidades en lugar de tomar siempre el elemento superior. El grado de aleatoriedad se controla mediante la temperatura (tratada en la siguiente lección) y dos filtros aplicados antes del muestreo:
Filtrado top-k: conservar solo los k candidatos con mayor puntuación y descartar el resto. Si k es 40, solo las 40 palabras más probables son elegibles en cada paso.
Filtrado top-p (muestreo nucleico): conservar el conjunto más pequeño de candidatos cuya probabilidad combinada alcanza p. Si p es 0,9, se conservan las palabras que en conjunto representan el 90 % de la masa de probabilidad; la larga cola de palabras improbables se elimina. Esto se adapta de forma dinámica: cuando el modelo tiene mucha confianza, menos palabras pasan el filtro.
En la práctica, top-p y top-k se aplican juntos con frecuencia antes del muestreo basado en temperatura. La API de Claude expone ambos parámetros. Aumentar p o k amplía el conjunto y aumenta la variedad; reducirlos hace el modelo más predecible. Fijar la temperatura en 0 vuelve a la decodificación voraz independientemente de los valores de top-p o top-k.
Puntos clave
La decodificación voraz siempre elige la palabra de mayor probabilidad, produciendo una salida determinista.
Top-k limita los candidatos a las k palabras más probables en cada paso.
Top-p (muestreo nucleico) conserva el conjunto más pequeño de palabras que cubre p de la probabilidad total.
La decodificación por muestreo introduce variedad útil; la temperatura 0 la elimina.
Tres voces: system, user, assistant
Cada conversación enviada a un LLM (modelo de lenguaje grande) está compuesta de mensajes, y cada mensaje pertenece a uno de tres roles: system, user o assistant. Entender estos roles le permite saber exactamente cómo se instruye a Claude, quién habla y qué puede decir Claude.
El system prompt lo define quién construye el producto (un desarrollador, una empresa o el propio Claude Code). Llega antes de que comience la conversación e indica a Claude cómo comportarse: su personalidad, sus límites, su tarea. El usuario nunca lo ve, a menos que el creador decida mostrarlo.
El turno user es su mensaje: la pregunta, la instrucción o el archivo que envía. El turno assistant es la respuesta de Claude. Estos dos se alternan para formar el historial de conversación que Claude lee cada vez que responde.
system: instrucciones invisibles del creador, que establecen las reglas y la personalidad.
user: su entrada, el mensaje que escribe o el archivo que adjunta.
assistant: la respuesta de Claude, generada a partir de todo lo que aparece antes en el hilo.
Puntos clave
El system prompt es invisible para el usuario pero controla el comportamiento de Claude.
Los turnos user y assistant se alternan para formar el historial de conversación.
Claude lee el historial completo en cada respuesta, no solo el último mensaje.
Saber qué rol contiene qué texto ayuda a depurar comportamientos inesperados.
Cómo fue entrenado Claude
Claude comienza su vida como todo gran modelo de lenguaje (LLM): pasa por el preentrenamiento, donde lee una porción enorme de internet, libros y código. Durante esta fase, el modelo aprende gramática, hechos, patrones de razonamiento y estilos de escritura únicamente prediciendo la siguiente palabra, miles de millones de veces. Sin ninguna guía humana todavía, solo estadísticas a una escala enorme.
A continuación viene el RLHF (Reinforcement Learning from Human Feedback, o aprendizaje por refuerzo a partir de retroalimentación humana). Entrenadores humanos evalúan pares de respuestas del modelo, y esas evaluaciones se usan para entrenar un "modelo de preferencias" separado. Luego se ajusta a Claude para que produzca respuestas que obtengan buenas puntuaciones en ese modelo de preferencias. Así es como la predicción de texto en bruto se convierte en un asistente útil que sigue instrucciones y evita errores evidentes.
Anthropic agrega una tercera capa llamada Constitutional AI (CAI). En lugar de depender únicamente de evaluadores humanos, CAI proporciona al modelo un conjunto escrito de principios (una "constitución") y le pide que critique y revise sus propias respuestas según esos principios. Esto hace que el proceso de alineamiento sea más escalable y transparente, porque las reglas son explícitas en lugar de estar enterradas en las intuiciones de los evaluadores.
Estas tres fases dan forma a todo lo que experimentas al hablar con Claude:
El preentrenamiento determina lo que Claude sabe y cómo razona.
El RLHF determina qué tan útil es y su capacidad para seguir instrucciones.
Constitutional AI determina sus límites de seguridad y valores consistentes.
Las tres fases juntas explican por qué Claude puede escribir código con fluidez pero rechazará ciertas solicitudes sin que el usuario se lo pida.
Puntos clave
Preentrenamiento: aprender lenguaje a partir de texto en bruto a gran escala
RLHF: moldear el comportamiento con evaluaciones de preferencias humanas
Constitutional AI: autocrítica a partir de principios escritos
Las fases de entrenamiento determinan el conocimiento, la utilidad y los límites de seguridad
La atencion y por que importa la posicion
Cada LLM (modelo de lenguaje grande) moderno esta construido sobre un mecanismo llamado atencion. Cuando el modelo lee tu indicacion, no trata cada palabra de la misma manera. En cambio, asigna una puntuacion a cada palabra (o token) respecto a todas las demas y decide cuales son mas relevantes para cada paso de la respuesta. Piensa en ello como si el modelo se preguntara: "para escribir esta proxima palabra, en cuales palabras anteriores debo apoyarme mas?"
Dado que las puntuaciones de atencion se calculan sobre toda la ventana de contexto (el texto total que el modelo puede ver a la vez), el modelo puede en teoria conectar cualquier par de informaciones, sin importar que tan separadas esten. En la practica, sin embargo, los investigadores han observado un patron llamado lost-in-the-middle: los modelos tienden a recordar mucho mejor la informacion colocada al principio o al final de una indicacion larga, que la informacion enterrada en el medio.
Esto tiene una consecuencia directa y practica en como estructuras las indicaciones y los documentos que le pasas a Claude:
Coloca la tarea o pregunta al principio (o al menos muy pronto). El modelo ancla su atencion en los tokens iniciales.
Coloca los datos o restricciones criticas cerca del final, justo antes de que esperes que comience la respuesta. El contenido al final de la indicacion se recupera de manera confiable.
Evita enterrar reglas clave en el medio de un bloque largo de texto de contexto. Esas reglas son las mas propensas a ser ignoradas u olvidadas.
Usa estructura (encabezados, listas con viñetas, etiquetas explicitas como "IMPORTANTE:") para reforzar la atencion en los pasajes criticos, donde sea que esten.
El mismo principio aplica cuando le pasas a Claude un documento largo y le haces una pregunta al respecto. Coloca tu pregunta antes del documento, reformulala brevemente despues, y resalta la seccion relevante con una etiqueta. Esa estructura de sandwich combate el efecto lost-in-the-middle y produce sistematicamente mejores respuestas.
Puntos clave
La atencion pondera cada token respecto a todos los demas para determinar la relevancia
Lost-in-the-middle: la informacion enterrada en el medio de una indicacion larga es la que se recuerda con menos fiabilidad
Coloca las tareas al principio, las restricciones criticas al final, y usa estructura para señalar la importancia
Reformular una pregunta antes y despues de un documento largo mejora el recuerdo
La fecha de corte del conocimiento y el anclaje
Todo modelo de lenguaje de gran escala (LLM) se entrena sobre un conjunto de textos recopilados hasta una fecha específica, llamada la fecha de corte del conocimiento. A partir de esa fecha, el modelo no tiene conciencia de nuevos eventos, precios actualizados, leyes revisadas ni de nada más que haya cambiado. La fecha de corte de Claude es agosto de 2025, por lo que no puede responder de forma fiable sobre lo que ocurrió después de ese momento.
Esto plantea un problema práctico: el mundo sigue avanzando mientras el modelo permanece congelado. Una pregunta sobre los precios actuales de las acciones, la última versión de un software o un evento político reciente probablemente producirá una respuesta desactualizada o simplemente incorrecta, incluso en un modelo capaz. El modelo no sabe lo que no sabe, por lo que puede responder con falsa confianza.
El anclaje es la técnica que se utiliza para resolver esto. Consiste en dar al modelo acceso a información fresca y fiable en el momento en que responde, en lugar de depender únicamente de lo que memorizó durante el entrenamiento. Los dos métodos de anclaje más comunes son:
Integración de búsqueda web: el sistema recupera resultados de búsqueda en tiempo real y los inyecta en el contexto del modelo antes de que responda. Claude.ai puede hacerlo con su botón de búsqueda integrado.
Fuentes proporcionadas manualmente: usted pega o adjunta el texto relevante (un documento, un fragmento de página web, un archivo de datos). El modelo razona sobre lo que usted le facilitó, no sobre su memoria desactualizada.
El anclaje no hace al modelo infalible, pero desplaza el cuello de botella desde los datos de entrenamiento congelados hacia la calidad de las fuentes que usted proporciona. Cite o verifique siempre esas fuentes de forma independiente para cualquier cosa que sea importante.
Puntos clave
Fecha de corte del conocimiento: la fecha a partir de la cual un modelo no dispone de datos de entrenamiento
Anclaje: suministrar fuentes actuales para que el modelo razone sobre hechos recientes
La integración de búsqueda web inyecta resultados en tiempo real en el contexto del modelo
Pegar o adjuntar texto es la forma más sencilla de anclaje manual
Trabaja conmigo
Domina Claude, Claude Code y los LLM, desde tu primer prompt hasta la orquestacion multiagente.
Te gusta este curso? Lo cree de principio a fin. Necesitas una web app, una app movil, automatizacion con IA o SEO/GEO? Hablemos.