Los modelos open weight han dejado de ser el «plan B barato» de la IA. En 2026, Llama, Qwen y Mistral rinden lo suficiente para sustituir a GPT-4 en la mayoría de tareas reales, corren en tu propia infraestructura y no envían tus datos a nadie. Para empresas con datos sensibles o facturas de API que se disparan, esto lo cambia todo.
Qué ha pasado
La brecha entre los modelos cerrados (GPT-5, Claude, Gemini) y los abiertos se ha estrechado mucho. Meta, Alibaba y Mistral publican modelos cuyos pesos puedes descargar, ejecutar y afinar libremente. Ya no hablamos de juguetes: hay variantes que compiten de tú a tú con los modelos cerrados de hace un año en código, razonamiento y multilingüe.
Por qué importa
El modelo abierto resuelve tres problemas que el cerrado no puede:
- Privacidad: el modelo corre en tu servidor; ningún dato sale a un tercero.
- Coste: a partir de cierto volumen, el self-hosting sale mucho más barato que pagar por token.
- Control: fijas la versión, la afinas con tus datos y no dependes de un proveedor.
Qué modelos importan ahora
- Llama (Meta): el referente general, con enorme comunidad y herramientas compatibles, desde tamaños pequeños hasta cientos de miles de millones de parámetros.
- Qwen (Alibaba): muy fuerte en multilingüe y código; sus variantes Coder compiten con los cerrados en autocompletado.
- Mistral: modelos europeos centrados en eficiencia y buena relación calidad/coste; relevante por soberanía de datos en la UE.
Qué cambia respecto a antes
Hace dos años, «open source» significaba aceptar un salto de calidad notable a cambio de control. Hoy, para tareas como clasificar, resumir, traducir, extraer datos o autocompletar código, la diferencia con los modelos cerrados es marginal o inexistente. El cálculo ha cambiado: ya no es «¿me conformo con menos?», sino «¿necesito de verdad el modelo de frontera para esta tarea concreta?». En muchos casos, la respuesta es no.
Quién debería usarlo
Empresas con datos sensibles: salud, legal, banca o cualquiera con GDPR estricto.
Productos con alto volumen: cuando la factura de API se dispara, el self-hosting amortiza GPUs rápido.
Equipos que necesitan personalizar: fine-tuning con datos propios para un dominio específico.
Quién NO: si tu volumen es bajo o necesitas el máximo razonamiento en tareas muy complejas, las APIs cerradas siguen siendo más simples y, a poca escala, más baratas. Montar inferencia tiene un coste operativo real.
Cómo y dónde ejecutarlos
- En local/prototipo:
Ollamaollama.cppcorren modelos cuantizados en un portátil potente. - Serverless: Cloudflare Workers AI o Replicate, sin gestionar GPUs y con pago por uso.
- Gestionado: Hugging Face Inference Endpoints despliega cualquier modelo con SLA y autoscaling.
- Volumen alto: GPUs propias o reservadas con vLLM/TGI siguen siendo lo más rentable.
Ejemplos prácticos
1) Asistente interno privado: una empresa monta un chat sobre su documentación con Llama, sin que un dato salga de sus servidores.
2) Autocompletado propio: un equipo despliega Qwen Coder afinado con su base de código.
3) Clasificación a escala: procesar millones de tickets con un modelo abierto cuesta una fracción de hacerlo por API.
4) Soberanía de datos UE: una administración usa Mistral en infraestructura europea por cumplimiento.
Ventajas y limitaciones
A favor: privacidad total, coste por token cercano a cero a escala, control de versión, personalización con fine-tuning y sin lock-in de proveedor.
En contra: el modelo más inteligente sigue siendo cerrado, montar y mantener inferencia exige conocimiento de MLOps, las GPUs son caras y las licencias «abiertas» tienen letra pequeña (algunas restringen el uso comercial a gran escala).
Nuestra valoración
En 2026, ignorar los modelos abiertos es dejar dinero y privacidad sobre la mesa. No sustituyen a GPT-5 o Claude para lo más exigente, pero cubren la mayoría del trabajo diario de IA a una fracción del coste y con tus datos bajo control. La estrategia ganadora no es «abierto o cerrado», sino combinar ambos: el modelo de frontera para lo difícil, el abierto para el volumen.
Recomendación práctica: prueba un modelo abierto con Ollama en tu equipo esta semana. Mide calidad en tu caso real frente a tu API actual. Si el resultado es comparable, calcula el ahorro a tu volumen: muchas veces justifica el salto.