The Claude Bible
Inicio / Otros LLMs y enrutamiento
Nivel: Experto · 10 lecciones

Otros LLMs y enrutamiento

El panorama de modelos, el mapa de rechazos, elegir la herramienta correcta para cada tarea.

Abrir el curso interactivo212 lecciones, cuestionarios, ejercicios, 3 idiomas, gratis.

El panorama: Claude, GPT, Gemini y el resto

Claude no está solo. Conocer el panorama le permite elegir el modelo correcto para cada tarea y transferir técnicas (un buen prompt sigue siendo bueno en todas partes). Las grandes familias:

El corpus CL4R1T4S de Pierre reúne los system prompts reales de todos estos proveedores (y de las herramientas Cursor, v0, Lovable, Devin, Perplexity...). Su Pattern Bank extrae más de 75 patrones reutilizables, organizados en 13 categorías. La meta-lección: las mejores prácticas de prompting son las mismas en todas partes, porque todos estos modelos comparten la misma naturaleza de predicción del siguiente token. Aprender Claude es aprender a hablar con todos ellos.

Puntos clave
  • Familias: Claude (código/razonamiento/seguridad), GPT (ecosistema), Gemini (contexto gigante), open-weights (local), Grok (permisivo)
  • Las técnicas de prompting se transfieren: misma naturaleza de predicción del siguiente token
  • CL4R1T4S: una colección de system prompts reales + un Pattern Bank de 75+ patrones
  • Aprender Claude = aprender a hablar con todos los LLMs

Mapa de rechazos y enrutamiento táctico

Cada modelo tiene su política de rechazo declarada en su system prompt. El Refusal Map de Pierre es una matriz de 14 proveedores x 14 categorías (derechos de autor, ciberofensiva/defensiva, datos personales, médico, jurídico, financiero, etc.) que resume, por modelo, lo que es estricto, flexible o abierto.

El uso es el enrutamiento táctico: para una tarea legítima que choca con un rechazo demasiado amplio, elegir el modelo cuya política deja la latitud adecuada. Ejemplos documentados:

Dos advertencias honestas que el propio Pierre anota:

La verdadera lección transferible: dar un contexto legítimo permite que una solicitud prospere. "Auditoría de seguridad de mi propio sitio, aquí está la autorización" se trata de manera muy diferente a la misma solicitud sin un marco. Un encuadre honesto es la primera clave, mucho antes que la elección del modelo.

Puntos clave
  • Refusal Map = matriz de proveedores x categorías de rechazo (estricto/flexible/abierto)
  • Enrutamiento táctico: para una tarea legítima, elegir el modelo con la latitud adecuada
  • Mapa declarativo, no conductual: probar en la realidad; líneas rojas infranqueables en todas partes
  • Un encuadre honesto y legítimo desbloquea más que la elección del modelo

GPT-5 y la familia OpenAI

El GPT-5 de OpenAI (lanzado en 2025) es el modelo insignia actual de la serie GPT. Compite directamente con Claude Opus en razonamiento, escritura de formato largo y tareas multimodales (es decir, puede procesar tanto texto como imágenes). GPT-5 destaca especialmente en el seguimiento de instrucciones para casos de uso masivos de consumidores y está profundamente integrado en los productos de Microsoft a través del Azure OpenAI Service.

La familia OpenAI está organizada en niveles, de manera similar a la escala Opus / Sonnet / Haiku de Claude:

En comparación con Claude, GPT-5 tiende a ser más permisivo con contenido en casos límite y está optimizado para la amplitud de tareas de usuario. Claude (en especial Opus, identificador de modelo claude-opus-4-8) se prefiere generalmente para documentos largos y matizados, cadenas de instrucciones estrictas y flujos de trabajo de codificación agentiva donde los rechazos y las alucinaciones (hechos inventados) tienen un costo elevado. Las dos familias de modelos difieren de forma más visible en el manejo de la ventana de contexto: Claude 3.x y 4.x admiten hasta 200 000 tokens de contexto, mientras que GPT-5 admite 128 000 tokens en la mayoría de las configuraciones de API.

Al enrutar tareas entre modelos, la pregunta práctica no es "cuál es más inteligente" sino "cuál es más confiable para esta tarea específica a este costo." GPT-5 a través de la API de OpenAI y Claude a través de la API de Anthropic son llamables desde el mismo código de orquestación, por lo que los sistemas reales suelen usar ambos, asignando tareas según sus fortalezas.

Puntos clave
  • GPT-5 es el modelo insignia de OpenAI, competitivo con Claude Opus en razonamiento y tareas multimodales.
  • La escala de niveles de OpenAI: GPT-5, GPT-4o, o3/o4-mini (razonamiento), GPT-4o mini.
  • Claude admite hasta 200k tokens de contexto; la API de GPT-5 tiene un límite de 128k en la mayoría de las configuraciones.
  • Elige el modelo según la adecuación a la tarea y el costo, no según un veredicto único de 'mejor modelo'.

Gemini y los contextos muy largos

La familia Gemini de Google (Ultra, Pro, Flash) es la principal rival de Claude y los modelos de clase GPT-4. Su característica definitoria es una ventana de contexto enorme (la cantidad máxima de texto, código o datos que un modelo puede leer en una sola solicitud). A mediados de 2026, Gemini 1.5 Pro admite hasta 1 millón de tokens, y Gemini 1.5 Flash hasta 1 millón de tokens a menor costo. Como referencia, un token equivale aproximadamente a 3 o 4 caracteres de texto en inglés, por lo que 1 millón de tokens cabe en varias novelas extensas o en toda una base de código de tamaño mediano.

¿Cuándo importa realmente una ventana de contexto larga? Importa cuando no es posible dividir la entrada en fragmentos más pequeños sin perder significado. Los casos comunes incluyen:

Los modelos Claude (Opus claude-opus-4-8, Sonnet claude-sonnet-4-6) ofrecen hasta 200 000 tokens de contexto, lo que cubre la mayoría de las tareas profesionales. La ventaja de Gemini aparece en los casos donde incluso 200 000 tokens no son suficientes. La disyuntiva práctica: la calidad del razonamiento suele ser mayor en Claude y los modelos de clase GPT-4 para tareas complejas de varios pasos, mientras que Gemini Flash intercambia algo de profundidad de razonamiento por velocidad y precio a escala.

Puntos clave
  • Gemini Pro y Flash: ventana de contexto de hasta 1 millón de tokens
  • El tamaño de la ventana de contexto importa sobre todo cuando la entrada no puede dividirse
  • Claude llega hasta cerca de 200 000 tokens, con alta calidad de razonamiento
  • Elegir el modelo según la forma de la tarea, no por lealtad a una marca

Modelos abiertos: Llama, Mistral

Los modelos de pesos abiertos son modelos de IA cuyos parámetros entrenados (los valores numéricos que definen el comportamiento del modelo) se publican de forma abierta, de modo que cualquiera puede descargarlos y ejecutarlos en su propia máquina o en sus propios servidores. Las dos familias más destacadas son Meta Llama (Llama 3, Llama 4) y Mistral (Mistral 7B, Mixtral, Mistral Large). A diferencia de Claude o GPT, no se necesita ninguna clave API ni suscripción mensual para ejecutarlos una vez descargados.

El compromiso central es control versus capacidad. Los modelos de pesos abiertos ofrecen privacidad total de los datos (nada sale de tu máquina), costo cero por token en el momento de la inferencia y la posibilidad de hacer fine-tuning (reentrenar con tus propios datos) para un dominio específico. El costo es que debes aportar el hardware, gestionar las actualizaciones y aceptar que la capacidad de vanguardia sigue por detrás de los mejores modelos propietarios como Claude Opus o GPT-4o, al menos a mediados de 2026.

Al decidir dónde ejecutar una carga de trabajo, prefiere los modelos de pesos abiertos cuando se cumpla una o más de estas condiciones:

Una pila práctica: usa Ollama (un servidor de modelos local, gratuito) para servir Llama o Mistral en tu laptop o en una GPU alquilada, y luego apunta tu código a http://localhost:11434 usando la misma forma de API compatible con OpenAI. En producción, las versiones cuantizadas (comprimidas) de 4 bits de Llama 3 8B funcionan en una sola GPU de consumo con 8 GB de VRAM.

Puntos clave
  • Pesos abiertos: parámetros públicos, auto-alojable
  • Ideal para: privacidad, alto volumen, fine-tuning, uso sin conexión
  • Ollama sirve Llama/Mistral localmente via API REST
  • Compromiso: control y costo versus capacidad de vanguardia

Ejecutar un modelo localmente con Ollama

La inferencia local consiste en ejecutar un modelo de IA completamente en tu propia máquina, de modo que ningún dato sale jamás de tu hardware. Ollama es la herramienta más popular para esto: descarga modelos de pesos abiertos (modelos cuyos pesos se han publicado de forma pública), los gestiona como imágenes Docker y expone una API REST local en el puerto 11434.

El compromiso fundamental es entre capacidad y control. Los modelos en la nube como Claude Opus o GPT-4 se ejecutan en los servidores del proveedor y ofrecen el mejor razonamiento a costa de enviar tu texto a un tercero. Los modelos locales se ejecutan en tu CPU o GPU sin ninguna llamada de red, pero son más pequeños y menos capaces para tareas de razonamiento complejo.

Principales casos de uso de la inferencia local:

Los principales modelos disponibles a través de Ollama incluyen Llama 3 (Meta), Mistral, Gemma (Google), Phi-3 (Microsoft) y muchas variantes ajustadas. Ninguno iguala a Claude Opus en razonamiento complejo hoy en día, pero son completamente adecuados para clasificación, resúmenes, extracción con plantillas y completación de código en patrones conocidos.

Puntos clave
  • Inferencia local: el modelo se ejecuta en tu hardware, ningún dato sale al exterior
  • Ollama gestiona modelos de pesos abiertos y sirve una API local
  • Compromiso: privacidad y cero coste por llamada frente a menor capacidad
  • Ideal para datos sensibles, uso sin conexión o volúmenes de llamadas muy elevados

Componer un prompt de sistema multi-proveedor

El comportamiento predeterminado de ningún proveedor es óptimo para todas las tareas. La composición de prompts multi-proveedor consiste en leer los prompts de sistema publicados o reconstruidos de varios productos de IA, extraer las reglas relevantes para su caso de uso y fusionarlas en un único prompt de sistema coherente que usted controla.

Cada proveedor ha resuelto bien un problema diferente. Cursor (un editor de código con IA) aplica una disciplina estricta de edición de archivos: nunca reescribe un archivo sin haberlo leído antes y siempre muestra un diff antes de aplicar cambios. Perplexity aplica la cita en línea: cada afirmación factual lleva una referencia numerada. El prompt de sistema de GPT-4o aplica la prohibición de titubeos: veda frases como "Creo que" o "No estoy seguro" cuando el modelo tiene contexto suficiente para ser directo. Cline y Devin aplican la disciplina de bucle autónomo: el modelo debe declarar un plan, ejecutarlo paso a paso y detenerse solo ante ambigüedad o un límite de costo.

Al combinar todo esto en un único prompt de sistema para Claude (usando claude-opus-4-8 para razonamiento complejo o claude-sonnet-4-6 para mayor velocidad), se obtiene un agente que cita fuentes, edita archivos de forma segura, responde con directitud y funciona de manera autónoma sin solicitudes de confirmación constantes. Esta técnica se conoce a veces como prompt Frankenstein, porque cose reglas de múltiples fuentes en un solo cuerpo.

Puntos clave
  • Extraer la regla más sólida de cada prompt de proveedor
  • Fusionar las reglas en un único prompt de sistema sin contradicciones
  • Probar el prompt compuesto en una tarea real antes de desplegarlo
  • Las reglas del propietario siempre prevalecen sobre los valores predeterminados de los proveedores

Enrutamiento táctico por tarea

No todas las tareas merecen el mismo modelo. El enrutamiento táctico consiste en elegir el modelo cuyas fortalezas se ajustan al trabajo en cuestión, de modo que se invierta capacidad de cómputo donde resulta rentable y se evite pagar un precio premium por tareas que no requieren razonamiento profundo.

Los tres niveles en junio de 2026 son: Opus (claude-opus-4-8) para razonamiento complejo, arquitectura y decisiones de juicio; Sonnet (claude-sonnet-4-6) para el amplio terreno medio de programación, redacción y análisis; Haiku (claude-haiku-4-5) para tareas rápidas, de alto volumen y simples, como clasificación o extracción. Enrutar de forma incorrecta en cualquier dirección tiene un costo: usar Opus para renombrar una variable desperdicia el presupuesto, usar Haiku para diseñar un sistema distribuido arriesga producir un resultado superficial.

Una heurística de enrutamiento práctica cubre cuatro señales:

En Claude Code (el agente de codificación CLI e IDE) se cambia de modelo con el indicador --model o el comando /model dentro de una sesión. Los agentes y pipelines construidos sobre la API de Anthropic pueden enrutar de forma programática pasando el parámetro model por solicitud, de modo que un solo pipeline puede usar Haiku para el prefiltrado y Opus solo para el paso de juicio final.

Puntos clave
  • Enrutamiento táctico: ajustar el nivel de modelo a los requisitos de la tarea
  • Opus para el juicio, Sonnet para la amplitud, Haiku para la velocidad
  • Cuatro señales de enrutamiento: riesgo, novedad, longitud de salida, latencia
  • El indicador --model de Claude Code permite cambiar por sesión o por llamada

Diferencias de rechazo entre proveedores

Cada gran proveedor de LLM entrena su modelo con una política de rechazo: un conjunto de reglas que llevan al modelo a declinar ciertas solicitudes. Estas políticas difieren en alcance, tono y consistencia. Conocer las diferencias permite enrutar las tareas hacia el modelo con más probabilidades de completarlas sin fricciones.

Las principales dimensiones en las que los proveedores divergen se listan a continuación. Un rechazo firme significa que el modelo no cumplirá sin importar cómo se formule el prompt. Un rechazo blando significa que el modelo resiste por defecto, pero puede desbloquearse con contexto en el system prompt, asignación de rol o permiso explícito del llamador de la API.

La estrategia práctica de enrutamiento es usar un system prompt para establecer el contexto antes de que ocurra el rechazo. Si un modelo sigue rechazando después de establecer el contexto, cambie de proveedor en lugar de intentar engañar al modelo con inyección de prompt (técnica que intenta anular las instrucciones ocultando comandos en la entrada), lo cual es poco confiable y viola los términos del servicio.

Puntos clave
  • Los rechazos firmes o blandos dependen de la política del proveedor y del contexto del operador
  • El contexto del system prompt es el mecanismo de desbloqueo legítimo
  • Los modelos open-weight no tienen ninguna política de rechazo aplicada
  • Enrute según el tipo de tarea: elija el proveedor cuya política se adapte al caso de uso

Fine-tuning contra prompting

Un modelo de lenguaje grande (LLM) como Claude puede seguir instrucciones escritas en texto natural, una técnica llamada prompting. El fine-tuning es diferente: se toma un modelo existente y se continúa entrenándolo con un conjunto de datos propio, de modo que los pesos del modelo cambian. Ambos enfoques pueden lograr que un modelo se comporte como se desea, pero resuelven problemas distintos.

El prompting gana en la mayoría de los casos porque es rápido, económico y reversible. Se itera en minutos, se paga solo la inferencia (el cómputo utilizado cuando el modelo responde), y se puede cambiar de modelo sin perder nada. El fine-tuning exige recopilar cientos o miles de ejemplos etiquetados, pagar tiempo de cómputo en GPU, alojar el modelo resultante, y repetir todo el proceso cada vez que cambien las necesidades.

El fine-tuning justifica su costo en un conjunto reducido de situaciones:

Una regla práctica: agote primero el prompting. Use system prompts, ejemplos few-shot (un conjunto de pares entrada/salida incluidos en el prompt), y la generación aumentada por recuperación (RAG) (obtención de documentos relevantes en tiempo de ejecución) antes de recurrir al fine-tuning. El fine-tuning corrige el comportamiento; el prompting lo moldea. Si la brecha entre lo que hace el modelo y lo que se necesita es cuestión de conocimiento o estilo que cabe en una ventana de contexto, el prompting es casi siempre la respuesta correcta.

Puntos clave
  • El prompting es rápido y reversible: preferirlo por defecto
  • Hacer fine-tuning solo para escala, formato de salida estricto, vocabulario de dominio o privacidad de datos
  • Los ejemplos few-shot y el RAG pueden sustituir al fine-tuning en muchos casos
  • Los modelos pequeños fine-tuned reducen costos a alto volumen de solicitudes
Trabaja conmigo

Domina Claude, Claude Code y los LLM, desde tu primer prompt hasta la orquestacion multiagente.

Te gusta este curso? Lo cree de principio a fin. Necesitas una web app, una app movil, automatizacion con IA o SEO/GEO? Hablemos.

Contactame en LinkedInVer un sitio que hice