The Claude Bible
Inicio / Fundamentos de los LLMs
Nivel: Principiante · 10 lecciones

Fundamentos de los LLMs

Tokens, contexto, temperatura, la familia Claude. La base.

Abrir el curso interactivo212 lecciones, cuestionarios, ejercicios, 3 idiomas, gratis.

Qué es realmente un LLM

Un modelo de lenguaje grande (LLM) no "comprende" como un humano ni "busca" en una base de datos. Hace una sola cosa, miles de millones de veces: predecir el siguiente fragmento de texto más probable dado todo lo que vino antes.

Consecuencias prácticas, que explican el 90 % de las sorpresas:

Conserva esta imagen: un improvisador brillante pero amnésico. Tu tarea es darle el decorado adecuado (contexto) para cada escena.

Puntos clave
  • Un LLM predice el siguiente token, nada más
  • Alucinar = producir una salida plausible pero falsa, un riesgo estructural
  • Sin memoria entre sesiones: todo vive en el contexto
  • Conocimiento congelado en una fecha de corte

Los tokens y la ventana de contexto

El modelo no ve letras ni palabras, sino tokens: fragmentos de texto. En términos generales, 1 token equivale a unos 4 caracteres, es decir, aproximadamente 0,75 palabras en inglés. La palabra "interesting" puede ser 2 o 3 tokens.

La ventana de contexto es el número máximo de tokens que el modelo puede procesar de una sola vez: tu instrucción + el historial + los archivos + su respuesta. Los modelos Claude recientes admiten hasta 200 000 tokens, y algunas configuraciones hasta 1 millón de tokens (el modelo que escribió esto opera a 1M).

Por qué es fundamental:

El módulo 7 está dedicado por completo a dominar el contexto y los costos. Por ahora, recuerda la unidad: el token.

Puntos clave
  • Token = fragmento de texto, aproximadamente 4 caracteres
  • Ventana de contexto = entrada + historial + archivos + salida, con un límite (200K, a veces 1M)
  • Todo se factura en tokens, entrada y salida
  • Demasiado contexto ruidoso degrada la calidad, no solo el costo

La temperatura, y el mito del ajuste mágico

La temperatura regula la aleatoriedad de la predicción. Baja (0 a 0.3): el modelo casi siempre elige el token más probable, lo que produce respuestas estables y predecibles, ideal para código, extracción y clasificación. Alta (0.7 a 1): más diversidad, ideal para brainstorming y creatividad.

Otros dos parámetros que encontrarás en la API:

La trampa clásica del principiante: creer que se corrige un mal resultado tocando la temperatura. El 95 % de las veces el problema está en el prompt, no en el ajuste. Un prompt claro con temperatura 0.3 supera a un prompt vago con cualquier temperatura. Ajustamos la temperatura al final, no al principio.

Puntos clave
  • Temperatura baja = estable y factual; alta = creativo y diverso
  • max_tokens limita la salida (cuidado con los cortes)
  • Un mal resultado casi siempre proviene del prompt, no de la temperatura

La familia Claude: Opus, Sonnet, Haiku

Anthropic lanza cada generacion en tres tamaños, que intercambian inteligencia por velocidad y costo:

Identificadores de modelos (utiles en la API y en Claude Code) para la generacion actual:

La regla de Pierre, aplicada en su practica: Opus para arquitectura, brainstorming y depuracion; delegar lo repetitivo, lo multilingue y las auditorias a Sonnet o Haiku mediante sub-agentes. Mas detalles en el modulo multi-agente. En cuanto a facturacion, las llamadas a Claude son el recurso economico en su configuracion: solo los servicios externos de pago cuentan de verdad.

Puntos clave
  • Opus = potencia, Sonnet = equilibrio, Haiku = velocidad/volumen
  • Mismos identificadores en todas partes: claude-opus-4-8, claude-sonnet-4-6, claude-haiku-4-5-...
  • Pierre: Opus para arquitectura/depuracion, Sonnet/Haiku para trabajo repetitivo delegado

Significado sin diccionario: los embeddings

Cuando un modelo de lenguaje lee una palabra o una oracion, no la busca en un diccionario. En cambio, convierte el texto en un vector, es decir, una larga lista de numeros (a menudo cientos o miles de valores). Esa lista se llama embedding. Cada numero captura una pequeña faceta del significado, de modo que la lista completa representa lo que el texto "significa" para el modelo.

La clave es que significados similares producen vectores similares. En el espacio matematico donde viven estos vectores (llamado espacio de embedding), las palabras y frases se agrupan por significado. "Doctor" y "medico" quedan cerca el uno del otro. "Perro" y "gato" son vecinos, pero estan lejos de "factura". El modelo nunca necesito una regla que dijera que esas palabras estaban relacionadas: aprendio sus posiciones procesando miles de millones de oraciones.

Esta geometria del significado es lo que permite a Claude responder preguntas, encontrar pasajes relevantes y comprender el contexto. Cuando haces una pregunta, esta se convierte en un vector, y el modelo encuentra el contenido cuyo vector esta cerca en el espacio de embedding. Ese proceso se llama busqueda semantica (busqueda por significado, no por palabras exactas).

Puntos clave
  • Los embeddings convierten el texto en listas de numeros
  • Significados similares quedan cerca en el espacio de embedding
  • La busqueda semantica usa distancia vectorial, no palabras clave
  • Los modelos aprenden estas posiciones a partir de datos, no de reglas

Muestreo: por qué el mismo prompt varía

Cada vez que un modelo de lenguaje genera texto, elige las palabras de una en una. Después de cada palabra, consulta una lista de probabilidades: miles de palabras candidatas, cada una con una puntuación. La forma en que elige de esa lista se llama decodificación, y es la principal razón por la que dos prompts idénticos pueden producir respuestas diferentes.

La decodificación voraz siempre elige la palabra con la puntuación más alta. Es rápida y completamente determinista (la salida es siempre la misma), pero tiende a producir texto plano y repetitivo. La decodificación por muestreo introduce aleatoriedad: el modelo extrae de la lista de probabilidades en lugar de tomar siempre el elemento superior. El grado de aleatoriedad se controla mediante la temperatura (tratada en la siguiente lección) y dos filtros aplicados antes del muestreo:

En la práctica, top-p y top-k se aplican juntos con frecuencia antes del muestreo basado en temperatura. La API de Claude expone ambos parámetros. Aumentar p o k amplía el conjunto y aumenta la variedad; reducirlos hace el modelo más predecible. Fijar la temperatura en 0 vuelve a la decodificación voraz independientemente de los valores de top-p o top-k.

Puntos clave
  • La decodificación voraz siempre elige la palabra de mayor probabilidad, produciendo una salida determinista.
  • Top-k limita los candidatos a las k palabras más probables en cada paso.
  • Top-p (muestreo nucleico) conserva el conjunto más pequeño de palabras que cubre p de la probabilidad total.
  • La decodificación por muestreo introduce variedad útil; la temperatura 0 la elimina.

Tres voces: system, user, assistant

Cada conversación enviada a un LLM (modelo de lenguaje grande) está compuesta de mensajes, y cada mensaje pertenece a uno de tres roles: system, user o assistant. Entender estos roles le permite saber exactamente cómo se instruye a Claude, quién habla y qué puede decir Claude.

El system prompt lo define quién construye el producto (un desarrollador, una empresa o el propio Claude Code). Llega antes de que comience la conversación e indica a Claude cómo comportarse: su personalidad, sus límites, su tarea. El usuario nunca lo ve, a menos que el creador decida mostrarlo.

El turno user es su mensaje: la pregunta, la instrucción o el archivo que envía. El turno assistant es la respuesta de Claude. Estos dos se alternan para formar el historial de conversación que Claude lee cada vez que responde.

Puntos clave
  • El system prompt es invisible para el usuario pero controla el comportamiento de Claude.
  • Los turnos user y assistant se alternan para formar el historial de conversación.
  • Claude lee el historial completo en cada respuesta, no solo el último mensaje.
  • Saber qué rol contiene qué texto ayuda a depurar comportamientos inesperados.

Cómo fue entrenado Claude

Claude comienza su vida como todo gran modelo de lenguaje (LLM): pasa por el preentrenamiento, donde lee una porción enorme de internet, libros y código. Durante esta fase, el modelo aprende gramática, hechos, patrones de razonamiento y estilos de escritura únicamente prediciendo la siguiente palabra, miles de millones de veces. Sin ninguna guía humana todavía, solo estadísticas a una escala enorme.

A continuación viene el RLHF (Reinforcement Learning from Human Feedback, o aprendizaje por refuerzo a partir de retroalimentación humana). Entrenadores humanos evalúan pares de respuestas del modelo, y esas evaluaciones se usan para entrenar un "modelo de preferencias" separado. Luego se ajusta a Claude para que produzca respuestas que obtengan buenas puntuaciones en ese modelo de preferencias. Así es como la predicción de texto en bruto se convierte en un asistente útil que sigue instrucciones y evita errores evidentes.

Anthropic agrega una tercera capa llamada Constitutional AI (CAI). En lugar de depender únicamente de evaluadores humanos, CAI proporciona al modelo un conjunto escrito de principios (una "constitución") y le pide que critique y revise sus propias respuestas según esos principios. Esto hace que el proceso de alineamiento sea más escalable y transparente, porque las reglas son explícitas en lugar de estar enterradas en las intuiciones de los evaluadores.

Estas tres fases dan forma a todo lo que experimentas al hablar con Claude:

Puntos clave
  • Preentrenamiento: aprender lenguaje a partir de texto en bruto a gran escala
  • RLHF: moldear el comportamiento con evaluaciones de preferencias humanas
  • Constitutional AI: autocrítica a partir de principios escritos
  • Las fases de entrenamiento determinan el conocimiento, la utilidad y los límites de seguridad

La atencion y por que importa la posicion

Cada LLM (modelo de lenguaje grande) moderno esta construido sobre un mecanismo llamado atencion. Cuando el modelo lee tu indicacion, no trata cada palabra de la misma manera. En cambio, asigna una puntuacion a cada palabra (o token) respecto a todas las demas y decide cuales son mas relevantes para cada paso de la respuesta. Piensa en ello como si el modelo se preguntara: "para escribir esta proxima palabra, en cuales palabras anteriores debo apoyarme mas?"

Dado que las puntuaciones de atencion se calculan sobre toda la ventana de contexto (el texto total que el modelo puede ver a la vez), el modelo puede en teoria conectar cualquier par de informaciones, sin importar que tan separadas esten. En la practica, sin embargo, los investigadores han observado un patron llamado lost-in-the-middle: los modelos tienden a recordar mucho mejor la informacion colocada al principio o al final de una indicacion larga, que la informacion enterrada en el medio.

Esto tiene una consecuencia directa y practica en como estructuras las indicaciones y los documentos que le pasas a Claude:

El mismo principio aplica cuando le pasas a Claude un documento largo y le haces una pregunta al respecto. Coloca tu pregunta antes del documento, reformulala brevemente despues, y resalta la seccion relevante con una etiqueta. Esa estructura de sandwich combate el efecto lost-in-the-middle y produce sistematicamente mejores respuestas.

Puntos clave
  • La atencion pondera cada token respecto a todos los demas para determinar la relevancia
  • Lost-in-the-middle: la informacion enterrada en el medio de una indicacion larga es la que se recuerda con menos fiabilidad
  • Coloca las tareas al principio, las restricciones criticas al final, y usa estructura para señalar la importancia
  • Reformular una pregunta antes y despues de un documento largo mejora el recuerdo

La fecha de corte del conocimiento y el anclaje

Todo modelo de lenguaje de gran escala (LLM) se entrena sobre un conjunto de textos recopilados hasta una fecha específica, llamada la fecha de corte del conocimiento. A partir de esa fecha, el modelo no tiene conciencia de nuevos eventos, precios actualizados, leyes revisadas ni de nada más que haya cambiado. La fecha de corte de Claude es agosto de 2025, por lo que no puede responder de forma fiable sobre lo que ocurrió después de ese momento.

Esto plantea un problema práctico: el mundo sigue avanzando mientras el modelo permanece congelado. Una pregunta sobre los precios actuales de las acciones, la última versión de un software o un evento político reciente probablemente producirá una respuesta desactualizada o simplemente incorrecta, incluso en un modelo capaz. El modelo no sabe lo que no sabe, por lo que puede responder con falsa confianza.

El anclaje es la técnica que se utiliza para resolver esto. Consiste en dar al modelo acceso a información fresca y fiable en el momento en que responde, en lugar de depender únicamente de lo que memorizó durante el entrenamiento. Los dos métodos de anclaje más comunes son:

El anclaje no hace al modelo infalible, pero desplaza el cuello de botella desde los datos de entrenamiento congelados hacia la calidad de las fuentes que usted proporciona. Cite o verifique siempre esas fuentes de forma independiente para cualquier cosa que sea importante.

Puntos clave
  • Fecha de corte del conocimiento: la fecha a partir de la cual un modelo no dispone de datos de entrenamiento
  • Anclaje: suministrar fuentes actuales para que el modelo razone sobre hechos recientes
  • La integración de búsqueda web inyecta resultados en tiempo real en el contexto del modelo
  • Pegar o adjuntar texto es la forma más sencilla de anclaje manual
Trabaja conmigo

Domina Claude, Claude Code y los LLM, desde tu primer prompt hasta la orquestacion multiagente.

Te gusta este curso? Lo cree de principio a fin. Necesitas una web app, una app movil, automatizacion con IA o SEO/GEO? Hablemos.

Contactame en LinkedInVer un sitio que hice