Inicio / Fundamentos de los LLMs

Nivel: Principiante · 11 lecciones

Fundamentos de los LLMs

Tokens, contexto, temperatura, la familia Claude. La base.

Abrir el curso interactivo237 lecciones, cuestionarios, ejercicios, un examen final con diploma, 3 idiomas, gratis.

Qué es realmente un LLM

Un modelo de lenguaje grande (LLM) no "comprende" como un humano ni "busca" en una base de datos. Hace una sola cosa, miles de millones de veces: predecir el siguiente fragmento de texto más probable dado todo lo que vino antes.

Consecuencias prácticas, que explican el 90 % de las sorpresas:

Es excelente con los patrones (estilo, estructura, código idiomático) porque son regularidades del lenguaje.
Puede inventar con confianza (alucinar): un texto falso pero plausible sigue siendo estadísticamente probable. De ahí la regla que vendrá después: dale las fuentes, no confíes en su memoria para los hechos.
No tiene ninguna memoria entre conversaciones. Todo lo que "sabe" sobre ti vive en el contexto que se le entrega en cada llamada.
Su conocimiento se detiene en una fecha de corte. Para eventos actuales, debes proporcionarle una búsqueda web.

Conserva esta imagen: un improvisador brillante pero amnésico. Tu tarea es darle el decorado adecuado (contexto) para cada escena.

Puntos clave

Un LLM predice el siguiente token, nada más
Alucinar = producir una salida plausible pero falsa, un riesgo estructural
Sin memoria entre sesiones: todo vive en el contexto
Conocimiento congelado en una fecha de corte

Los tokens y la ventana de contexto

El modelo no ve letras ni palabras, sino tokens: fragmentos de texto. En términos generales, 1 token equivale a unos 4 caracteres, es decir, aproximadamente 0,75 palabras en inglés. La palabra "interesting" puede ser 2 o 3 tokens.

La ventana de contexto es el número máximo de tokens que el modelo puede procesar de una sola vez: tu instrucción + el historial + los archivos + su respuesta. Los modelos Claude recientes admiten hasta 200 000 tokens, y algunas configuraciones hasta 1 millón de tokens (el modelo que escribió esto opera a 1M).

Por qué es fundamental:

Todo se paga en tokens (entrada + salida). Más contexto = más caro y más lento.
Cuando la ventana se llena, hay que resumir o limpiar (veremos /compact y /clear en Claude Code).
Un contexto sobrecargado de ruido degrada la calidad: la información útil se pierde. "Más contexto" no significa "mejor resultado".

El módulo 7 está dedicado por completo a dominar el contexto y los costos. Por ahora, recuerda la unidad: el token.

Puntos clave

Token = fragmento de texto, aproximadamente 4 caracteres
Ventana de contexto = entrada + historial + archivos + salida, con un límite (200K, a veces 1M)
Todo se factura en tokens, entrada y salida
Demasiado contexto ruidoso degrada la calidad, no solo el costo

La temperatura, y el mito del ajuste mágico

La temperatura regula la aleatoriedad de la predicción. Baja (0 a 0.3): el modelo casi siempre elige el token más probable, lo que produce respuestas estables y predecibles, ideal para código, extracción y clasificación. Alta (0.7 a 1): más diversidad, ideal para brainstorming y creatividad.

Otros dos parámetros que encontrarás en la API:

max_tokens: la longitud máxima de la respuesta. Demasiado bajo = respuesta cortada.
top_p: una alternativa a la temperatura (muestreo de núcleo). Por lo general se ajusta uno u otro, no ambos.

La trampa clásica del principiante: creer que se corrige un mal resultado tocando la temperatura. El 95 % de las veces el problema está en el prompt, no en el ajuste. Un prompt claro con temperatura 0.3 supera a un prompt vago con cualquier temperatura. Ajustamos la temperatura al final, no al principio.

Puntos clave

Temperatura baja = estable y factual; alta = creativo y diverso
max_tokens limita la salida (cuidado con los cortes)
Un mal resultado casi siempre proviene del prompt, no de la temperatura

La familia Claude: Opus, Sonnet, Haiku

Anthropic lanza cada generacion en tres tamaños, que intercambian inteligencia por velocidad y costo:

Opus: el mas capaz. Arquitectura, razonamiento complejo, depuracion difícil, brainstorming. El mas lento y costoso.
Sonnet: el equilibrio. El caballo de batalla diario, muy buena relacion calidad/costo.
Haiku: el mas rapido y economico. Tareas repetitivas, clasificacion, volumen, multilingue.

Identificadores de modelos (utiles en la API y en Claude Code) para la generacion actual:

Opus 4.8: claude-opus-4-8
Sonnet 4.6: claude-sonnet-4-6
Haiku 4.5: claude-haiku-4-5-20251001

La regla de Pierre, aplicada en su practica: Opus para arquitectura, brainstorming y depuracion; delegar lo repetitivo, lo multilingue y las auditorias a Sonnet o Haiku mediante sub-agentes. Mas detalles en el modulo multi-agente. En cuanto a facturacion, las llamadas a Claude son el recurso economico en su configuracion: solo los servicios externos de pago cuentan de verdad.

Puntos clave

Opus = potencia, Sonnet = equilibrio, Haiku = velocidad/volumen
Mismos identificadores en todas partes: claude-opus-4-8, claude-sonnet-4-6, claude-haiku-4-5-...
Pierre: Opus para arquitectura/depuracion, Sonnet/Haiku para trabajo repetitivo delegado

Significado sin diccionario: los embeddings

Cuando un modelo de lenguaje lee una palabra o una oracion, no la busca en un diccionario. En cambio, convierte el texto en un vector, es decir, una larga lista de numeros (a menudo cientos o miles de valores). Esa lista se llama embedding. Cada numero captura una pequeña faceta del significado, de modo que la lista completa representa lo que el texto "significa" para el modelo.

La clave es que significados similares producen vectores similares. En el espacio matematico donde viven estos vectores (llamado espacio de embedding), las palabras y frases se agrupan por significado. "Doctor" y "medico" quedan cerca el uno del otro. "Perro" y "gato" son vecinos, pero estan lejos de "factura". El modelo nunca necesito una regla que dijera que esas palabras estaban relacionadas: aprendio sus posiciones procesando miles de millones de oraciones.

Esta geometria del significado es lo que permite a Claude responder preguntas, encontrar pasajes relevantes y comprender el contexto. Cuando haces una pregunta, esta se convierte en un vector, y el modelo encuentra el contenido cuyo vector esta cerca en el espacio de embedding. Ese proceso se llama busqueda semantica (busqueda por significado, no por palabras exactas).

Vector: una lista de numeros que codifica un concepto.
Embedding: el vector especifico que un modelo asigna a un fragmento de texto.
Espacio de embedding: el mapa multidimensional donde viven todos esos vectores.
Busqueda semantica: encontrar texto por distancia de significado en lugar de coincidencia de palabras clave.

Puntos clave

Los embeddings convierten el texto en listas de numeros
Significados similares quedan cerca en el espacio de embedding
La busqueda semantica usa distancia vectorial, no palabras clave
Los modelos aprenden estas posiciones a partir de datos, no de reglas

Muestreo: por qué el mismo prompt varía

Cada vez que un modelo de lenguaje genera texto, elige las palabras de una en una. Después de cada palabra, consulta una lista de probabilidades: miles de palabras candidatas, cada una con una puntuación. La forma en que elige de esa lista se llama decodificación, y es la principal razón por la que dos prompts idénticos pueden producir respuestas diferentes.

La decodificación voraz siempre elige la palabra con la puntuación más alta. Es rápida y completamente determinista (la salida es siempre la misma), pero tiende a producir texto plano y repetitivo. La decodificación por muestreo introduce aleatoriedad: el modelo extrae de la lista de probabilidades en lugar de tomar siempre el elemento superior. El grado de aleatoriedad se controla mediante la temperatura (tratada en la siguiente lección) y dos filtros aplicados antes del muestreo:

Filtrado top-k: conservar solo los k candidatos con mayor puntuación y descartar el resto. Si k es 40, solo las 40 palabras más probables son elegibles en cada paso.
Filtrado top-p (muestreo nucleico): conservar el conjunto más pequeño de candidatos cuya probabilidad combinada alcanza p. Si p es 0,9, se conservan las palabras que en conjunto representan el 90 % de la masa de probabilidad; la larga cola de palabras improbables se elimina. Esto se adapta de forma dinámica: cuando el modelo tiene mucha confianza, menos palabras pasan el filtro.

En la práctica, top-p y top-k se aplican juntos con frecuencia antes del muestreo basado en temperatura. La API de Claude expone ambos parámetros. Aumentar p o k amplía el conjunto y aumenta la variedad; reducirlos hace el modelo más predecible. Fijar la temperatura en 0 vuelve a la decodificación voraz independientemente de los valores de top-p o top-k.

Puntos clave

La decodificación voraz siempre elige la palabra de mayor probabilidad, produciendo una salida determinista.
Top-k limita los candidatos a las k palabras más probables en cada paso.
Top-p (muestreo nucleico) conserva el conjunto más pequeño de palabras que cubre p de la probabilidad total.
La decodificación por muestreo introduce variedad útil; la temperatura 0 la elimina.

Tres voces: system, user, assistant

Cada conversación enviada a un LLM (modelo de lenguaje grande) está compuesta de mensajes, y cada mensaje pertenece a uno de tres roles: system, user o assistant. Entender estos roles le permite saber exactamente cómo se instruye a Claude, quién habla y qué puede decir Claude.

El system prompt lo define quién construye el producto (un desarrollador, una empresa o el propio Claude Code). Llega antes de que comience la conversación e indica a Claude cómo comportarse: su personalidad, sus límites, su tarea. El usuario nunca lo ve, a menos que el creador decida mostrarlo.

El turno user es su mensaje: la pregunta, la instrucción o el archivo que envía. El turno assistant es la respuesta de Claude. Estos dos se alternan para formar el historial de conversación que Claude lee cada vez que responde.

system: instrucciones invisibles del creador, que establecen las reglas y la personalidad.
user: su entrada, el mensaje que escribe o el archivo que adjunta.
assistant: la respuesta de Claude, generada a partir de todo lo que aparece antes en el hilo.

Puntos clave

El system prompt es invisible para el usuario pero controla el comportamiento de Claude.
Los turnos user y assistant se alternan para formar el historial de conversación.
Claude lee el historial completo en cada respuesta, no solo el último mensaje.
Saber qué rol contiene qué texto ayuda a depurar comportamientos inesperados.

Cómo fue entrenado Claude

Claude comienza su vida como todo gran modelo de lenguaje (LLM): pasa por el preentrenamiento, donde lee una porción enorme de internet, libros y código. Durante esta fase, el modelo aprende gramática, hechos, patrones de razonamiento y estilos de escritura únicamente prediciendo la siguiente palabra, miles de millones de veces. Sin ninguna guía humana todavía, solo estadísticas a una escala enorme.

A continuación viene el RLHF (Reinforcement Learning from Human Feedback, o aprendizaje por refuerzo a partir de retroalimentación humana). Entrenadores humanos evalúan pares de respuestas del modelo, y esas evaluaciones se usan para entrenar un "modelo de preferencias" separado. Luego se ajusta a Claude para que produzca respuestas que obtengan buenas puntuaciones en ese modelo de preferencias. Así es como la predicción de texto en bruto se convierte en un asistente útil que sigue instrucciones y evita errores evidentes.

Anthropic agrega una tercera capa llamada Constitutional AI (CAI). En lugar de depender únicamente de evaluadores humanos, CAI proporciona al modelo un conjunto escrito de principios (una "constitución") y le pide que critique y revise sus propias respuestas según esos principios. Esto hace que el proceso de alineamiento sea más escalable y transparente, porque las reglas son explícitas en lugar de estar enterradas en las intuiciones de los evaluadores.

Estas tres fases dan forma a todo lo que experimentas al hablar con Claude:

El preentrenamiento determina lo que Claude sabe y cómo razona.
El RLHF determina qué tan útil es y su capacidad para seguir instrucciones.
Constitutional AI determina sus límites de seguridad y valores consistentes.
Las tres fases juntas explican por qué Claude puede escribir código con fluidez pero rechazará ciertas solicitudes sin que el usuario se lo pida.

Puntos clave

Preentrenamiento: aprender lenguaje a partir de texto en bruto a gran escala
RLHF: moldear el comportamiento con evaluaciones de preferencias humanas
Constitutional AI: autocrítica a partir de principios escritos
Las fases de entrenamiento determinan el conocimiento, la utilidad y los límites de seguridad

La atencion y por que importa la posicion

Cada LLM (modelo de lenguaje grande) moderno esta construido sobre un mecanismo llamado atencion. Cuando el modelo lee tu indicacion, no trata cada palabra de la misma manera. En cambio, asigna una puntuacion a cada palabra (o token) respecto a todas las demas y decide cuales son mas relevantes para cada paso de la respuesta. Piensa en ello como si el modelo se preguntara: "para escribir esta proxima palabra, en cuales palabras anteriores debo apoyarme mas?"

Dado que las puntuaciones de atencion se calculan sobre toda la ventana de contexto (el texto total que el modelo puede ver a la vez), el modelo puede en teoria conectar cualquier par de informaciones, sin importar que tan separadas esten. En la practica, sin embargo, los investigadores han observado un patron llamado lost-in-the-middle: los modelos tienden a recordar mucho mejor la informacion colocada al principio o al final de una indicacion larga, que la informacion enterrada en el medio.

Esto tiene una consecuencia directa y practica en como estructuras las indicaciones y los documentos que le pasas a Claude:

Coloca la tarea o pregunta al principio (o al menos muy pronto). El modelo ancla su atencion en los tokens iniciales.
Coloca los datos o restricciones criticas cerca del final, justo antes de que esperes que comience la respuesta. El contenido al final de la indicacion se recupera de manera confiable.
Evita enterrar reglas clave en el medio de un bloque largo de texto de contexto. Esas reglas son las mas propensas a ser ignoradas u olvidadas.
Usa estructura (encabezados, listas con viñetas, etiquetas explicitas como "IMPORTANTE:") para reforzar la atencion en los pasajes criticos, donde sea que esten.

El mismo principio aplica cuando le pasas a Claude un documento largo y le haces una pregunta al respecto. Coloca tu pregunta antes del documento, reformulala brevemente despues, y resalta la seccion relevante con una etiqueta. Esa estructura de sandwich combate el efecto lost-in-the-middle y produce sistematicamente mejores respuestas.

Puntos clave

La atencion pondera cada token respecto a todos los demas para determinar la relevancia
Lost-in-the-middle: la informacion enterrada en el medio de una indicacion larga es la que se recuerda con menos fiabilidad
Coloca las tareas al principio, las restricciones criticas al final, y usa estructura para señalar la importancia
Reformular una pregunta antes y despues de un documento largo mejora el recuerdo

La fecha de corte del conocimiento y el anclaje

Todo modelo de lenguaje de gran escala (LLM) se entrena sobre un conjunto de textos recopilados hasta una fecha específica, llamada la fecha de corte del conocimiento. A partir de esa fecha, el modelo no tiene conciencia de nuevos eventos, precios actualizados, leyes revisadas ni de nada más que haya cambiado. La fecha de corte de Claude es agosto de 2025, por lo que no puede responder de forma fiable sobre lo que ocurrió después de ese momento.

Esto plantea un problema práctico: el mundo sigue avanzando mientras el modelo permanece congelado. Una pregunta sobre los precios actuales de las acciones, la última versión de un software o un evento político reciente probablemente producirá una respuesta desactualizada o simplemente incorrecta, incluso en un modelo capaz. El modelo no sabe lo que no sabe, por lo que puede responder con falsa confianza.

El anclaje es la técnica que se utiliza para resolver esto. Consiste en dar al modelo acceso a información fresca y fiable en el momento en que responde, en lugar de depender únicamente de lo que memorizó durante el entrenamiento. Los dos métodos de anclaje más comunes son:

Integración de búsqueda web: el sistema recupera resultados de búsqueda en tiempo real y los inyecta en el contexto del modelo antes de que responda. Claude.ai puede hacerlo con su botón de búsqueda integrado.
Fuentes proporcionadas manualmente: usted pega o adjunta el texto relevante (un documento, un fragmento de página web, un archivo de datos). El modelo razona sobre lo que usted le facilitó, no sobre su memoria desactualizada.

El anclaje no hace al modelo infalible, pero desplaza el cuello de botella desde los datos de entrenamiento congelados hacia la calidad de las fuentes que usted proporciona. Cite o verifique siempre esas fuentes de forma independiente para cualquier cosa que sea importante.

Puntos clave

Fecha de corte del conocimiento: la fecha a partir de la cual un modelo no dispone de datos de entrenamiento
Anclaje: suministrar fuentes actuales para que el modelo razone sobre hechos recientes
La integración de búsqueda web inyecta resultados en tiempo real en el contexto del modelo
Pegar o adjuntar texto es la forma más sencilla de anclaje manual

La era de Claude 5: Fable y Mythos

El 9 de junio de 2026, Anthropic lanzó una nueva familia de modelos llamada Claude 5, introduciendo un nivel por encima de la conocida pila Opus/Sonnet/Haiku. Un nivel de modelo es una banda de nomenclatura que Anthropic usa para señalar capacidad y precio relativos (Haiku es el nivel más rápido y económico, Sonnet el intermedio equilibrado, Opus el nivel superior anterior). El nuevo nivel se llama clase Mythos, y se sitúa por encima de Opus. Dos modelos comparten este mismo modelo subyacente de clase Mythos: Fable 5 (id de API claude-fable-5) y Mythos 5 (id de API claude-mythos-5). Tienen capacidades, precios y comportamiento de API idénticos. La única diferencia es quién puede acceder a ellos y qué controles de seguridad se ejecutan en cada uno.

Fable 5 es la versión de disponibilidad general (GA), lo que significa que cualquier cliente de pago puede llamarlo a través de la API o usarlo dentro de una aplicación de Claude. Mythos 5 es solo por invitación, reservado para organizaciones aprobadas bajo un programa llamado Project Glasswing. Las categorías aprobadas incluyen ciberdefensores (equipos de seguridad que protegen infraestructura), proveedores de infraestructura, y organizaciones con lo que Anthropic llama "acceso confiable en biología" (acceso verificado a capacidades adyacentes a la investigación biológica). Para un usuario o desarrollador cotidiano, esta distinción importa de una manera práctica: en un plan de pago obtienes Fable 5, y Mythos 5 simplemente no está disponible para ti a menos que tu empleador haya sido aprobado individualmente en Project Glasswing.

La diferencia entre los dos modelos es un conjunto de tres salvaguardas de seguridad basadas en clasificadores integradas en Fable 5. Un clasificador aquí es un sistema automatizado más pequeño que analiza una solicitud y la marca si coincide con un patrón de riesgo, antes o durante la respuesta del modelo. Las tres salvaguardas de Fable 5 apuntan a: capacidad cibernética ofensiva (ayudar a construir herramientas de ataque), contenido peligroso de tipo biológico/químico (ayudar a sintetizar material relevante para armas), y prevención de destilación (impedir que alguien extraiga sistemáticamente los propios patrones de razonamiento de Fable 5 para entrenar un modelo rival de forma barata). Anthropic informa que estas salvaguardas se activan en menos del 5% de las sesiones, por lo que la gran mayoría del trabajo cotidiano de programación, escritura y análisis no se ve afectada. Mythos 5 funciona sin estos clasificadores de doble uso, que es exactamente por qué está restringido a organizaciones verificadas en lugar de abrirse a todo el mundo: eliminar las salvaguardas solo es aceptable cuando la fiabilidad del solicitante ya ha sido establecida.

Una elección de diseño notable: cuando una de las tres salvaguardas de Fable 5 se activa, la solicitud no recibe un rechazo directo. En cambio, recae en Opus 4.8, el modelo de siguiente nivel de Anthropic, que responde a la solicitud bajo su propio perfil de seguridad (menos restrictivo). Esto significa que un investigador de seguridad legítimo que hace una pregunta límite sobre ciberseguridad tiene más probabilidades de obtener una respuesta útil de Opus 4.8 que de llegar a un callejón sin salida. Antes del lanzamiento, Anthropic encargó más de 1.000 horas de red-teaming externo (investigadores de seguridad independientes que intentan profesionalmente romper las medidas de seguridad del modelo) y reportó que no se encontró ningún jailbreak universal, lo que significa que ningún truco único logró eludir todas las salvaguardas a la vez de forma fiable.

El lanzamiento no estuvo exento de drama. El 12 de junio de 2026, apenas tres días después del lanzamiento, el gobierno de Estados Unidos aplicó controles de exportación al nuevo nivel de modelo: restricciones legales sobre qué países o entidades pueden acceder a determinada tecnología avanzada. Anthropic no podía verificar, en tiempo real, la nacionalidad de cada usuario que hacía una solicitud a través de la API. En lugar de arriesgarse a violar los controles, Anthropic suspendió tanto Fable 5 como Mythos 5 para todo el mundo globalmente, no solo para los usuarios en regiones restringidas. Los controles se levantaron el 30 de junio de 2026, y Anthropic volvió a desplegar Fable 5 en todo el mundo el 1 de julio de 2026. La versión redesplegada se lanzó con un clasificador antijailbreak adicional que, según Anthropic, bloquea una técnica de elusión previamente conocida en más del 99% de los casos, una mejora realizada durante la ventana de suspensión de tres semanas.

En el lado de la API, Fable 5 cuesta 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida, ambos por encima de los precios de 5/25 dólares de Opus 4.8, lo que refleja su estatus de nivel superior. Ofrece una ventana de contexto de 1 millón de tokens (la cantidad de texto que puede considerar a la vez) y hasta 128.000 tokens de salida máxima por respuesta. Un detalle técnico clave: Fable 5 siempre se ejecuta con pensamiento adaptativo, un modo de razonamiento interno en el que el modelo decide por sí mismo cuánto deliberar antes de responder, y esto no se puede desactivar a través de la API, solo ajustar en profundidad mediante una configuración de "esfuerzo".

Para un principiante, la conclusión práctica es simple: a partir de julio de 2026, si eres un usuario de pago de Claude, Fable 5 es el modelo más capaz al que puedes acceder, y Mythos 5 existe como un hermano igualmente poderoso que la mayoría de las personas nunca tocará porque requiere aprobación organizacional, no habilidad personal ni nivel de pago. El estado del arte, para ti, es Fable 5.

Puntos clave

Fable 5 (claude-fable-5) y Mythos 5 (claude-mythos-5) son el mismo modelo subyacente de clase Mythos; Fable 5 es GA, Mythos 5 es solo por invitación vía Project Glasswing.
Los tres clasificadores de seguridad de Fable 5 (cibernético, biológico/químico, destilación) se activan en menos del 5% de las sesiones y recaen en Opus 4.8 en lugar de un rechazo directo.
Los controles de exportación de EE. UU. forzaron una suspensión global de ambos modelos el 12 de junio de 2026; Fable 5 regresó a nivel mundial el 1 de julio de 2026 con un clasificador antijailbreak más fuerte.
Precios de Fable 5: 10/50 dólares por millón de tokens de entrada/salida, ventana de contexto de 1M, salida máxima de 128K, pensamiento adaptativo siempre activo.

Trabaja conmigo

¿Necesitas este nivel de ejecución en tu proyecto?

Soy Pierre Bottazzi. Construí este curso yo solo, de principio a fin: 237 lecciones en 3 idiomas, la aplicación, el diseño, el SEO, el sistema de cuentas. Eso mismo hago para mis clientes: web apps, apps móviles, automatización con IA, SEO/GEO. Hablamos sin compromiso y con mucho gusto: la decisión es totalmente tuya.

Contáctame en LinkedIn Ver sept-tools.com (industria)Ver totemsauvage.com (galería de arte)

Inspiración

Inspirado por 0xloucash

Una de mis inspiraciones. Loucash (0xloucash) tiene el don de encontrar siempre los mejores trucos de IA y convertirlos en instalaciones que funcionan de verdad. Con InstallClaw configura tu propio agente de IA OpenClaw, en tu casa, en 48 h.

Su Instagram InstallClaw