El panorama de modelos, el mapa de rechazos, elegir la herramienta correcta para cada tarea.

El panorama: Claude, GPT, Gemini y el resto

Claude no está solo. Conocer el panorama le permite elegir el modelo correcto para cada tarea y transferir técnicas (un buen prompt sigue siendo bueno en todas partes). Las grandes familias:

Anthropic Claude: la referencia en código, razonamiento largo, seguimiento de instrucciones y seguridad. Destaca en agéntica (Claude Code, Cowork).
OpenAI GPT: un ecosistema amplio, multimodal, function calling maduro, el agente Atlas/computer-use.
Google Gemini: ventanas de contexto muy grandes, integración con Google, multimodal nativo.
Open-weights (Llama, Mistral, Kimi, DeepSeek): pesos abiertos, desplegables localmente, ajustables. El terreno de la soberanía y el coste marginal cero.
xAI Grok: más permisivo en ciertos contenidos, tiempo real.

El corpus CL4R1T4S de Pierre reúne los system prompts reales de todos estos proveedores (y de las herramientas Cursor, v0, Lovable, Devin, Perplexity...). Su Pattern Bank extrae más de 75 patrones reutilizables, organizados en 13 categorías. La meta-lección: las mejores prácticas de prompting son las mismas en todas partes, porque todos estos modelos comparten la misma naturaleza de predicción del siguiente token. Aprender Claude es aprender a hablar con todos ellos.

Actualización, julio de 2026: la escalera de Anthropic ganó un peldaño. La familia Claude 5 (Fable 5, y su gemelo sin restricciones Mythos 5 reservado a organizaciones aprobadas) se sitúa ahora por encima de Opus 4.8, y Sonnet 5 sustituyó a Sonnet 4.6 como gama media por defecto. El módulo de fundamentos cuenta la historia completa.

Puntos clave

Familias: Claude (código/razonamiento/seguridad), GPT (ecosistema), Gemini (contexto gigante), open-weights (local), Grok (permisivo)
Las técnicas de prompting se transfieren: misma naturaleza de predicción del siguiente token
CL4R1T4S: una colección de system prompts reales + un Pattern Bank de 75+ patrones
Aprender Claude = aprender a hablar con todos los LLMs

Mapa de rechazos y enrutamiento táctico

Cada modelo tiene su política de rechazo declarada en su system prompt. El Refusal Map de Pierre es una matriz de 14 proveedores x 14 categorías (derechos de autor, ciberofensiva/defensiva, datos personales, médico, jurídico, financiero, etc.) que resume, por modelo, lo que es estricto, flexible o abierto.

El uso es el enrutamiento táctico: para una tarea legítima que choca con un rechazo demasiado amplio, elegir el modelo cuya política deja la latitud adecuada. Ejemplos documentados:

Auditoría defensiva o refuerzo de tu propio sitio: Claude se siente muy cómodo.
Decisión jurídica o financiera: Claude responde pero con una advertencia; se mantiene a un humano en el circuito.

Dos advertencias honestas que el propio Pierre anota:

El mapa es declarativo (lo que dice el prompt), no conductual: los clasificadores pueden bloquear más allá de él. Probar en la realidad antes de catalogar.
Solo sirve para desbloquear lo legítimo. Las líneas rojas (malware real, armas CBRN, contenido sexual con menores) son infranqueables en todas partes, y con razón.

La verdadera lección transferible: dar un contexto legítimo permite que una solicitud prospere. "Auditoría de seguridad de mi propio sitio, aquí está la autorización" se trata de manera muy diferente a la misma solicitud sin un marco. Un encuadre honesto es la primera clave, mucho antes que la elección del modelo.

Puntos clave

Refusal Map = matriz de proveedores x categorías de rechazo (estricto/flexible/abierto)
Enrutamiento táctico: para una tarea legítima, elegir el modelo con la latitud adecuada
Mapa declarativo, no conductual: probar en la realidad; líneas rojas infranqueables en todas partes
Un encuadre honesto y legítimo desbloquea más que la elección del modelo

GPT-5 y la familia OpenAI

El GPT-5 de OpenAI (lanzado en 2025) es el modelo insignia actual de la serie GPT. Compite directamente con Claude Opus en razonamiento, escritura de formato largo y tareas multimodales (es decir, puede procesar tanto texto como imágenes). GPT-5 destaca especialmente en el seguimiento de instrucciones para casos de uso masivos de consumidores y está profundamente integrado en los productos de Microsoft a través del Azure OpenAI Service.

La familia OpenAI está organizada en niveles, de manera similar a la escala Opus / Sonnet / Haiku de Claude:

GPT-5: modelo insignia, máxima capacidad, mayor costo por token (un token equivale aproximadamente a 0,75 palabras).
GPT-4o ("omni"): modelo multimodal rápido, predeterminado en ChatGPT, buen equilibrio entre costo y calidad.
o3 / o4-mini: los modelos de "razonamiento" de OpenAI, que piensan paso a paso antes de responder, un concepto similar al modo de pensamiento extendido de Claude.
GPT-4o mini: bajo costo, alta velocidad, comparable al nivel Haiku.

En comparación con Claude, GPT-5 tiende a ser más permisivo con contenido en casos límite y está optimizado para la amplitud de tareas de usuario. Claude (en especial Opus, identificador de modelo claude-opus-4-8) se prefiere generalmente para documentos largos y matizados, cadenas de instrucciones estrictas y flujos de trabajo de codificación agentiva donde los rechazos y las alucinaciones (hechos inventados) tienen un costo elevado. Las dos familias de modelos difieren de forma más visible en el manejo de la ventana de contexto: Claude 3.x y 4.x admiten hasta 200 000 tokens de contexto, mientras que GPT-5 admite 128 000 tokens en la mayoría de las configuraciones de API.

Al enrutar tareas entre modelos, la pregunta práctica no es "cuál es más inteligente" sino "cuál es más confiable para esta tarea específica a este costo." GPT-5 a través de la API de OpenAI y Claude a través de la API de Anthropic son llamables desde el mismo código de orquestación, por lo que los sistemas reales suelen usar ambos, asignando tareas según sus fortalezas.

Puntos clave

GPT-5 es el modelo insignia de OpenAI, competitivo con Claude Opus en razonamiento y tareas multimodales.
La escala de niveles de OpenAI: GPT-5, GPT-4o, o3/o4-mini (razonamiento), GPT-4o mini.
Claude admite hasta 200k tokens de contexto; la API de GPT-5 tiene un límite de 128k en la mayoría de las configuraciones.
Elige el modelo según la adecuación a la tarea y el costo, no según un veredicto único de 'mejor modelo'.

Gemini y los contextos muy largos

La familia Gemini de Google (Ultra, Pro, Flash) es la principal rival de Claude y los modelos de clase GPT-4. Su característica definitoria es una ventana de contexto enorme (la cantidad máxima de texto, código o datos que un modelo puede leer en una sola solicitud). A mediados de 2026, Gemini 1.5 Pro admite hasta 1 millón de tokens, y Gemini 1.5 Flash hasta 1 millón de tokens a menor costo. Como referencia, un token equivale aproximadamente a 3 o 4 caracteres de texto en inglés, por lo que 1 millón de tokens cabe en varias novelas extensas o en toda una base de código de tamaño mediano.

¿Cuándo importa realmente una ventana de contexto larga? Importa cuando no es posible dividir la entrada en fragmentos más pequeños sin perder significado. Los casos comunes incluyen:

Analizar un contrato legal completo o un artículo de investigación sin resumirlo primero
Depurar una base de código extensa enviando todos los archivos a la vez
Buscar un detalle específico en un historial de conversación o transcripción completa
Procesar transcripciones de audio o video de una hora en una sola llamada

Los modelos Claude (Opus claude-opus-4-8, Sonnet claude-sonnet-4-6) ofrecen hasta 200 000 tokens de contexto, lo que cubre la mayoría de las tareas profesionales. La ventaja de Gemini aparece en los casos donde incluso 200 000 tokens no son suficientes. La disyuntiva práctica: la calidad del razonamiento suele ser mayor en Claude y los modelos de clase GPT-4 para tareas complejas de varios pasos, mientras que Gemini Flash intercambia algo de profundidad de razonamiento por velocidad y precio a escala.

Actualización, julio de 2026: Google descontinuó el Gemini CLI el 18 de junio de 2026 para los niveles gratuito, Pro y Ultra, sustituido por el Antigravity CLI de código cerrado (sin paridad de funciones al lanzamiento). Donde este curso mencionara el comando gemini como alternativa CLI, lee Antigravity CLI, con esa reserva.

Puntos clave

Gemini Pro y Flash: ventana de contexto de hasta 1 millón de tokens
El tamaño de la ventana de contexto importa sobre todo cuando la entrada no puede dividirse
Claude llega hasta cerca de 200 000 tokens, con alta calidad de razonamiento
Elegir el modelo según la forma de la tarea, no por lealtad a una marca

Modelos abiertos: Llama, Mistral

Los modelos de pesos abiertos son modelos de IA cuyos parámetros entrenados (los valores numéricos que definen el comportamiento del modelo) se publican de forma abierta, de modo que cualquiera puede descargarlos y ejecutarlos en su propia máquina o en sus propios servidores. Las dos familias más destacadas son Meta Llama (Llama 3, Llama 4) y Mistral (Mistral 7B, Mixtral, Mistral Large). A diferencia de Claude o GPT, no se necesita ninguna clave API ni suscripción mensual para ejecutarlos una vez descargados.

El compromiso central es control versus capacidad. Los modelos de pesos abiertos ofrecen privacidad total de los datos (nada sale de tu máquina), costo cero por token en el momento de la inferencia y la posibilidad de hacer fine-tuning (reentrenar con tus propios datos) para un dominio específico. El costo es que debes aportar el hardware, gestionar las actualizaciones y aceptar que la capacidad de vanguardia sigue por detrás de los mejores modelos propietarios como Claude Opus o GPT-4o, al menos a mediados de 2026.

Al decidir dónde ejecutar una carga de trabajo, prefiere los modelos de pesos abiertos cuando se cumpla una o más de estas condiciones:

Sensibilidad de los datos: documentos legales, médicos o internos que no pueden salir de tu infraestructura.
Alto volumen, baja complejidad: tareas de clasificación, extracción o resumen donde un modelo de 7B u 8B es suficientemente preciso y el costo por llamada importa.
Fine-tuning necesario: necesitas vocabulario específico del dominio o un estilo editorial propio que la ingeniería de prompts por sí sola no puede garantizar de forma fiable.
Despliegue sin conexión o en el borde: sin conexión a internet confiable, o con restricciones de latencia que una API remota no puede cumplir.

Una pila práctica: usa Ollama (un servidor de modelos local, gratuito) para servir Llama o Mistral en tu laptop o en una GPU alquilada, y luego apunta tu código a http://localhost:11434 usando la misma forma de API compatible con OpenAI. En producción, las versiones cuantizadas (comprimidas) de 4 bits de Llama 3 8B funcionan en una sola GPU de consumo con 8 GB de VRAM.

Puntos clave

Pesos abiertos: parámetros públicos, auto-alojable
Ideal para: privacidad, alto volumen, fine-tuning, uso sin conexión
Ollama sirve Llama/Mistral localmente via API REST
Compromiso: control y costo versus capacidad de vanguardia

Ejecutar un modelo localmente con Ollama

La inferencia local consiste en ejecutar un modelo de IA completamente en tu propia máquina, de modo que ningún dato sale jamás de tu hardware. Ollama es la herramienta más popular para esto: descarga modelos de pesos abiertos (modelos cuyos pesos se han publicado de forma pública), los gestiona como imágenes Docker y expone una API REST local en el puerto 11434.

El compromiso fundamental es entre capacidad y control. Los modelos en la nube como Claude Opus o GPT-4 se ejecutan en los servidores del proveedor y ofrecen el mejor razonamiento a costa de enviar tu texto a un tercero. Los modelos locales se ejecutan en tu CPU o GPU sin ninguna llamada de red, pero son más pequeños y menos capaces para tareas de razonamiento complejo.

Principales casos de uso de la inferencia local:

Datos sensibles: historiales médicos, documentos legales, código interno que no puedes enviar a una API externa.
Entornos sin conexión o aislados: fábricas, dispositivos de campo o redes seguras sin acceso a internet.
Coste a alto volumen: una vez descargado el modelo, cada llamada es gratuita, lo que resulta atractivo para millones de completaciones cortas.
Bucles de baja latencia: un modelo local puede responder en menos de un segundo en una GPU moderna, evitando el tiempo de tránsito por la red.

Los principales modelos disponibles a través de Ollama incluyen Llama 3 (Meta), Mistral, Gemma (Google), Phi-3 (Microsoft) y muchas variantes ajustadas. Ninguno iguala a Claude Opus en razonamiento complejo hoy en día, pero son completamente adecuados para clasificación, resúmenes, extracción con plantillas y completación de código en patrones conocidos.

Puntos clave

Inferencia local: el modelo se ejecuta en tu hardware, ningún dato sale al exterior
Ollama gestiona modelos de pesos abiertos y sirve una API local
Compromiso: privacidad y cero coste por llamada frente a menor capacidad
Ideal para datos sensibles, uso sin conexión o volúmenes de llamadas muy elevados

Componer un prompt de sistema multi-proveedor

El comportamiento predeterminado de ningún proveedor es óptimo para todas las tareas. La composición de prompts multi-proveedor consiste en leer los prompts de sistema publicados o reconstruidos de varios productos de IA, extraer las reglas relevantes para su caso de uso y fusionarlas en un único prompt de sistema coherente que usted controla.

Cada proveedor ha resuelto bien un problema diferente. Cursor (un editor de código con IA) aplica una disciplina estricta de edición de archivos: nunca reescribe un archivo sin haberlo leído antes y siempre muestra un diff antes de aplicar cambios. Perplexity aplica la cita en línea: cada afirmación factual lleva una referencia numerada. El prompt de sistema de GPT-4o aplica la prohibición de titubeos: veda frases como "Creo que" o "No estoy seguro" cuando el modelo tiene contexto suficiente para ser directo. Cline y Devin aplican la disciplina de bucle autónomo: el modelo debe declarar un plan, ejecutarlo paso a paso y detenerse solo ante ambigüedad o un límite de costo.

Al combinar todo esto en un único prompt de sistema para Claude (usando claude-opus-4-8 para razonamiento complejo o claude-sonnet-4-6 para mayor velocidad), se obtiene un agente que cita fuentes, edita archivos de forma segura, responde con directitud y funciona de manera autónoma sin solicitudes de confirmación constantes. Esta técnica se conoce a veces como prompt Frankenstein, porque cose reglas de múltiples fuentes en un solo cuerpo.

Leer antes de escribir (Cursor): siempre leer un archivo antes de editarlo; mostrar un resumen del diff.
Citar cada afirmación (Perplexity): agregar [fuente: ...] o una nota numerada a pie de página en las afirmaciones factuales.
Sin titubeos (GPT-4o): prohibir frases de relleno; ser directo cuando el contexto sea suficiente.
Planificar y luego ejecutar (Cline/Devin): declarar los pasos antes de actuar; detenerse solo ante ambigüedad o límite de costo.
Archivar, nunca eliminar (regla del propietario): nunca borrar, siempre mover a _ARCHIVES/.

Puntos clave

Extraer la regla más sólida de cada prompt de proveedor
Fusionar las reglas en un único prompt de sistema sin contradicciones
Probar el prompt compuesto en una tarea real antes de desplegarlo
Las reglas del propietario siempre prevalecen sobre los valores predeterminados de los proveedores

Enrutamiento táctico por tarea

No todas las tareas merecen el mismo modelo. El enrutamiento táctico consiste en elegir el modelo cuyas fortalezas se ajustan al trabajo en cuestión, de modo que se invierta capacidad de cómputo donde resulta rentable y se evite pagar un precio premium por tareas que no requieren razonamiento profundo.

Los tres niveles en junio de 2026 son: Opus (claude-opus-4-8) para razonamiento complejo, arquitectura y decisiones de juicio; Sonnet (claude-sonnet-4-6) para el amplio terreno medio de programación, redacción y análisis; Haiku (claude-haiku-4-5) para tareas rápidas, de alto volumen y simples, como clasificación o extracción. Enrutar de forma incorrecta en cualquier dirección tiene un costo: usar Opus para renombrar una variable desperdicia el presupuesto, usar Haiku para diseñar un sistema distribuido arriesga producir un resultado superficial.

Una heurística de enrutamiento práctica cubre cuatro señales:

Riesgo: ¿una respuesta incorrecta causaría un daño real o retrabajo? Inclinar hacia Opus.
Novedad: ¿el problema está bien definido y es repetitivo? Haiku o Sonnet es suficiente.
Longitud de la salida: los documentos estructurados largos se benefician del razonamiento de Sonnet u Opus sobre muchos tokens.
Presupuesto de latencia: si un usuario espera menos de dos segundos, Haiku gana en velocidad independientemente de la complejidad de la tarea.

En Claude Code (el agente de codificación CLI e IDE) se cambia de modelo con el indicador --model o el comando /model dentro de una sesión. Los agentes y pipelines construidos sobre la API de Anthropic pueden enrutar de forma programática pasando el parámetro model por solicitud, de modo que un solo pipeline puede usar Haiku para el prefiltrado y Opus solo para el paso de juicio final.

Puntos clave

Enrutamiento táctico: ajustar el nivel de modelo a los requisitos de la tarea
Opus para el juicio, Sonnet para la amplitud, Haiku para la velocidad
Cuatro señales de enrutamiento: riesgo, novedad, longitud de salida, latencia
El indicador --model de Claude Code permite cambiar por sesión o por llamada

Diferencias de rechazo entre proveedores

Cada gran proveedor de LLM entrena su modelo con una política de rechazo: un conjunto de reglas que llevan al modelo a declinar ciertas solicitudes. Estas políticas difieren en alcance, tono y consistencia. Conocer las diferencias permite enrutar las tareas hacia el modelo con más probabilidades de completarlas sin fricciones.

Las principales dimensiones en las que los proveedores divergen se listan a continuación. Un rechazo firme significa que el modelo no cumplirá sin importar cómo se formule el prompt. Un rechazo blando significa que el modelo resiste por defecto, pero puede desbloquearse con contexto en el system prompt, asignación de rol o permiso explícito del llamador de la API.

Detalle médico y jurídico: Claude (Anthropic) tiende a agregar avisos legales, pero puede ir más lejos con un system prompt que establezca un contexto profesional. GPT-4o (OpenAI) se comporta de manera similar. Gemini (Google) es más conservador en especificidades clínicas.
Seguridad y contenido ofensivo: Todos los grandes proveedores rechazan firmemente las instrucciones paso a paso para la síntesis de armas. Para temas de seguridad de doble uso (pruebas de penetración, análisis de exploits), Claude con un system prompt de operador es generalmente el más permisivo entre los tres grandes.
Ficción creativa con temas oscuros: Claude permite contenido literario maduro cuando el operador lo habilita. GPT-4o es más estricto por defecto con la violencia y el contenido explícito. Los modelos open-weight (Llama, Mistral) ejecutados localmente no tienen ninguna política aplicada.
Opinión política y temas controvertidos: Claude declina expresar opiniones personales sobre temas políticos en disputa. GPT-4o se comporta de manera similar. Los modelos open-weight suelen dar una opinión si se les pregunta directamente.

La estrategia práctica de enrutamiento es usar un system prompt para establecer el contexto antes de que ocurra el rechazo. Si un modelo sigue rechazando después de establecer el contexto, cambie de proveedor en lugar de intentar engañar al modelo con inyección de prompt (técnica que intenta anular las instrucciones ocultando comandos en la entrada), lo cual es poco confiable y viola los términos del servicio.

Puntos clave

Los rechazos firmes o blandos dependen de la política del proveedor y del contexto del operador
El contexto del system prompt es el mecanismo de desbloqueo legítimo
Los modelos open-weight no tienen ninguna política de rechazo aplicada
Enrute según el tipo de tarea: elija el proveedor cuya política se adapte al caso de uso

Fine-tuning contra prompting

Un modelo de lenguaje grande (LLM) como Claude puede seguir instrucciones escritas en texto natural, una técnica llamada prompting. El fine-tuning es diferente: se toma un modelo existente y se continúa entrenándolo con un conjunto de datos propio, de modo que los pesos del modelo cambian. Ambos enfoques pueden lograr que un modelo se comporte como se desea, pero resuelven problemas distintos.

El prompting gana en la mayoría de los casos porque es rápido, económico y reversible. Se itera en minutos, se paga solo la inferencia (el cómputo utilizado cuando el modelo responde), y se puede cambiar de modelo sin perder nada. El fine-tuning exige recopilar cientos o miles de ejemplos etiquetados, pagar tiempo de cómputo en GPU, alojar el modelo resultante, y repetir todo el proceso cada vez que cambien las necesidades.

El fine-tuning justifica su costo en un conjunto reducido de situaciones:

Latencia y costo a gran escala: un modelo pequeño fine-tuned (7B u 8B parámetros) que responde millones de solicitudes por día es mucho más económico que enrutar cada llamada a un modelo frontier.
Salida altamente estructurada: si se necesita que el modelo produzca siempre JSON válido en un esquema fijo, el fine-tuning impone el formato de manera más confiable que un prompt.
Vocabulario o estilo de dominio: textos médicos, legales o específicos de un sector donde el modelo base usa sistemáticamente terminología incorrecta.
Los datos no pueden salir de los servidores: un modelo fine-tuned alojado localmente evita enviar registros sensibles a una API de terceros.

Una regla práctica: agote primero el prompting. Use system prompts, ejemplos few-shot (un conjunto de pares entrada/salida incluidos en el prompt), y la generación aumentada por recuperación (RAG) (obtención de documentos relevantes en tiempo de ejecución) antes de recurrir al fine-tuning. El fine-tuning corrige el comportamiento; el prompting lo moldea. Si la brecha entre lo que hace el modelo y lo que se necesita es cuestión de conocimiento o estilo que cabe en una ventana de contexto, el prompting es casi siempre la respuesta correcta.

Puntos clave

El prompting es rápido y reversible: preferirlo por defecto
Hacer fine-tuning solo para escala, formato de salida estricto, vocabulario de dominio o privacidad de datos
Los ejemplos few-shot y el RAG pueden sustituir al fine-tuning en muchos casos
Los modelos pequeños fine-tuned reducen costos a alto volumen de solicitudes

Otros LLMs y enrutamiento

El panorama: Claude, GPT, Gemini y el resto

Mapa de rechazos y enrutamiento táctico

GPT-5 y la familia OpenAI

Gemini y los contextos muy largos

Modelos abiertos: Llama, Mistral

Ejecutar un modelo localmente con Ollama

Componer un prompt de sistema multi-proveedor

Enrutamiento táctico por tarea

Diferencias de rechazo entre proveedores

Fine-tuning contra prompting

¿Necesitas este nivel de ejecución en tu proyecto?

Inspirado por 0xloucash