A finales de 2024 los modelos chinos eran "buenos para multilingüe pero no para código". En 2026 son el primer recurso de cualquier equipo serio que quiera frontier open source barato. Qwen 3.6 supera a Gemma 4 en todos los benchmarks de coding, GLM-5.1 lidera SWE-Bench Pro por encima de GPT-5.4 y Claude Opus 4.6, DeepSeek V3.2 sigue siendo la opción razonada más barata, y Kimi K2 cierra el círculo con context y agentic capabilities.
Si vienes de la guía pillar de IA local o has hecho deploy con Apple Silicon, este post te dice qué modelo chino elegir, qué licencias firmas con cada uno, qué riesgo geopolítico es real y qué es FUD, y cómo conviven con RGPD si los self-hosteas.
Por qué los modelos chinos importan en 2026
Tres datos del último trimestre que lo explican:
Qwen 3.6 72B (abril 2026) saca 94,8% en HumanEval vs 92,1% de Gemma 4 y supera a Llama 3.3 en SWE-Bench Verified (68,2% vs 61,4%).
GLM-5.1 (Z.ai, abril 2026) lidera SWE-Bench Pro con 58,4, por encima de GPT-5.4 (57,7) y Claude Opus 4.6 (57,3).
Coste por millón de tokens: la mayoría rondan los $0.10-0.30/M input en sus APIs nativas, frente a $3-15 de los frontier americanos.
A eso súmale que casi todos vienen con pesos descargables (parcial o total), tool calling robusto y soporte multilingüe nativo, y entiendes por qué cualquier CTO con presupuesto miran hacia allí.
Familias principales
Qwen (Alibaba)
Qwen es probablemente el ecosistema más activo. La familia Qwen 3 incluye desde 0.6B (móvil) hasta el flagship Qwen3-235B-A22B, un MoE de 235B parámetros con 22B activos por forward pass.
Modelos clave abril 2026:
Qwen 3.6 72B — densos, 72B params, 128K context, multimodal opcional. Mejor opción para coding open source que cabe en 2x A100.
Qwen3-235B-A22B-Thinking-2507 — variante de razonamiento con 256K context, top-3 mundial en MATH y GPQA.
Qwen 3 Coder 32B — especialista coding, ideal para Cursor o Claude Code self-hosted.
Licencia: Qwen License. Permite uso comercial pero con restricciones para empresas con >100 millones de usuarios activos mensuales (caso límite que probablemente no te aplique).
GLM (Z.ai, antes Zhipu AI)
GLM-4.6 es 355B totales con 32B activos y 200K context. La serie GLM-5 lanzada en abril de 2026 sube el listón con la versión 5.1 ganando varios benchmarks frente a top tier propietario.
Modelos clave:
GLM-4.5 y GLM-4.6 — Apache 2.0, mejor balance abierto/calidad.
GLM-5.1 — frontier puro, pesos parciales, top en SWE-Bench Pro.
GLM-4.5-Air — 106B / 12B activos, encaja en una H100 cómoda.
Licencia: Apache 2.0 para 4.5 y 4.6. Para GLM-5+ aún hay matices, hay que revisar el repo oficial.
DeepSeek
DeepSeek puso el listón en diciembre de 2024 con V3 y desde entonces no ha parado. DeepSeek V3.2 es el modelo chat por defecto y R2 lleva la línea de razonamiento estilo OpenAI o3.
Modelos clave:
DeepSeek V3.2 — MoE 671B con 37B activos. Coste $0.14/M input, $0.28/M output. Detalles en el análisis comparado V3.2 vs Opus 4.7.
DeepSeek R2 — razonamiento, integra entrenamiento agentic; rumores de context > 200K.
Licencia: DeepSeek License. Permisiva para casi todos los usos comerciales, pero revisa la cláusula de "harmful use" que puede ser más estricta que MIT/Apache.
Kimi (Moonshot AI)
Kimi K2 es la apuesta de Moonshot por agentic open source. Su Kimi K2 Thinking soporta 256K context con cuantización INT4 nativa, y la rama Linear consigue procesado long-context 2,9× más rápido y decoding 6× más rápido.
Modelos clave:
Kimi K2 — generalista agentic, excelente para tool use largo.
Kimi K2 Thinking — razonamiento, INT4 nativo, ideal para deploy on-device en hardware potente.
Kimi Linear — variante con atención lineal para long-context masivo.
Licencia: Modified MIT con restricciones suaves; revisar.
Otros: Yi y MiMo
Yi-Large (01.AI): generalista sólido, menos hype pero buen rendimiento en español.
MiMo (variante china emergente que aparece en benchmarks de coding 2026): especialista en código, pesos abiertos.
Benchmarks comparativos — abril 2026
|
Modelo |
SWE-Bench Verified |
HumanEval |
GPQA |
MATH |
Context |
|---|---|---|---|---|---|
|
Qwen 3.6 72B |
68,2% |
94,8% |
~74% |
~88% |
128K |
|
Qwen3-235B-A22B-Thinking |
70%+ |
~95% |
80%+ |
90%+ |
256K |
|
GLM-4.6 |
~62% |
~93% |
~70% |
~85% |
200K |
|
GLM-5.1 |
58,4 SWE-Bench Pro |
n/d |
80%+ |
n/d |
n/d |
|
DeepSeek V3.2 |
60,5% |
92,3% |
71% |
89% |
128K |
|
Kimi K2 Thinking |
~60% |
~93% |
75%+ |
88% |
256K |
|
Llama 3.3 70B (referencia US) |
51% |
91% |
65% |
78% |
128K |
|
Claude Opus 4.7 (referencia top) |
73% |
96% |
84% |
92% |
200K |
Datos de Hugging Face leaderboard, repos oficiales y comparativas de Artificial Analysis.
Licencias: la letra pequeña
|
Modelo |
Licencia |
Uso comercial sin restricciones |
Restricción notable |
|---|---|---|---|
|
Qwen 3 / 3.6 |
Qwen License |
Sí salvo si superas 100M MAU |
Cláusula MAU |
|
GLM-4.5 / 4.6 |
Apache 2.0 |
Sí |
— |
|
GLM-5.1 |
Z.ai Custom |
Revisar |
Restricciones país |
|
DeepSeek V3.2 |
DeepSeek License |
Sí |
"Harmful use" más amplio |
|
Kimi K2 |
Modified MIT |
Sí |
Atribución requerida |
|
Yi-Large |
Yi License |
Sí salvo competencia directa |
Cláusula competencia |
Recomendación: si tu producto vende a grandes empresas que harán vendor risk assessment, prefiere Apache 2.0 o MIT puros (GLM-4.6 sigue siendo la mejor combinación calidad/licencia). Si tu uso es interno y bajo control, todo lo anterior es viable.
Riesgo geopolítico real vs FUD
Hay dos preocupaciones legítimas y muchos miedos basados en titulares.
Reales:
Datasets opacos: ningún proveedor chino publica el corpus de entrenamiento completo. Esto vale para Llama también, pero la asimetría regulatoria es mayor con China.
Restricciones de exportación: el AI Diffusion Framework americano (octubre 2025) limita el uso de cómputo NVIDIA para entrenar modelos por encima de ciertos umbrales en China. Eso afecta sostenibilidad a futuro, no a los pesos ya descargados.
Cambios de licencia retroactivos: ya pasó con algunas variantes de Qwen 1; los pesos descargados antes son tuyos, los nuevos cambian de regla.
FUD (poco fundado):
"Backdoors en los pesos": hasta ahora ningún análisis independiente ha encontrado backdoors detectables. Esto no significa que no puedan existir, pero un modelo con 70B parámetros es un objeto opaco para cualquier proveedor; los chinos no tienen ventaja especial aquí frente a Meta o Mistral.
"Sesgos políticos": hay sesgo medido en respuestas sobre Tiananmen, Taiwán o Xinjiang. Es real y replicable. Es relevante si construyes producto editorial o educativo. Irrelevante si usas el modelo para coding, tareas internas o atención al cliente sobre tu propio producto.
"Telemetría oculta": los pesos son archivos estáticos; si los corres self-hosted detrás de tu firewall, no llaman a casa. Otra cosa son las APIs oficiales de DeepSeek o Kimi (esas sí mandan tu prompt a China).
RGPD y modelos chinos
Aquí hay un punto poco discutido pero importante: si self-hosteas el modelo, los datos no salen de tu infraestructura. Esto te ahorra el problema de la transferencia internacional con China (que sería complicadísima de justificar bajo RGPD sin SCCs y TIA).
Si por el contrario llamas a la API de DeepSeek o Kimi:
Estás haciendo transferencia internacional a China.
China no tiene decisión de adecuación de la Comisión Europea.
Necesitas SCCs, TIA específico, y probablemente AIPD si tratas datos personales.
En la práctica: inviable para producción europea con datos de usuarios reales.
La conclusión razonable: modelo chino + self-hosted = sí. Modelo chino + API oficial = no, salvo casos extremos sin datos personales.
Para los detalles de qué exigir y cómo documentar, repasa el DPA con tu proveedor de IA y la guía de transferencias internacionales en IA.
Cuándo elegir un modelo chino vs Llama (u otro abierto)
|
Tu prioridad |
Mejor opción 2026 |
|---|---|
|
Coding open source de máxima calidad |
Qwen 3.6 72B o GLM-5.1 |
|
Razonamiento abierto frontier |
DeepSeek R2 o Qwen-Thinking |
|
Long-context masivo (>200K) |
Kimi K2 Thinking o GLM-4.6 |
|
Licencia limpia (Apache 2.0) |
GLM-4.5 / 4.6 |
|
Multilingüe español + asiático |
Qwen 3.6 |
|
Multilingüe español + europeo |
Mistral o Llama 3.3 70B |
|
Sensibilidad geopolítica alta (defensa, gobierno) |
Llama 3.3 70B |
|
Precio API más bajo (cuando no toques datos personales) |
DeepSeek V3.2 |
Setup rápido en empresa
Apple Silicon
Como vimos en la guía Apple Silicon, MLX es la vía rápida en Mac:
mlx_lm.server --model mlx-community/Qwen3-72B-Instruct-4bit --port 8080GLM-4.6 funciona en M3 Max / M4 Pro 64+ GB con cuantización Q4. Qwen 3.6 72B necesita 96 GB cómodo.
Linux (vLLM)
Para producción tipo data center, vLLM sigue siendo el inference server por defecto:
vllm serve Qwen/Qwen3-72B-Instruct \
--tensor-parallel-size 2 \
--max-model-len 128000 \
--enable-prefix-cachingPara los MoE grandes (Qwen3-235B-A22B, DeepSeek V3.2 671B) necesitas multi-nodo o cuantización agresiva (Q3-K-M, AWQ-3bit).
Cloud GPU rápido
Lambda Labs, Crusoe, RunPod tienen plantillas listas para Qwen y DeepSeek. Pricing rondando $1.50-3.50/h por A100 80GB.
Conclusión
Los modelos chinos open source son, en abril de 2026, la mejor combinación calidad/precio del mercado para uso interno. La licencia Apache 2.0 de GLM y la calidad de coding de Qwen 3.6 hacen que sean primera elección en muchos equipos.
Las restricciones reales son licencias específicas (revisar siempre) y geopolítica (en sectores sensibles). El FUD sobre backdoors y telemetría se disuelve en cuanto self-hosteas.
Para empresas europeas, el patrón ganador es: modelos chinos open source + self-hosted en infraestructura europea + AI Gateway con audit log y Zero Data Retention. Eso es exactamente lo que ofrece Levante Platform: conectas tu Qwen o GLM via Tensorix y tienes RGPD limpio sin renunciar a la frontera de calidad open source.
Datos verificados con HuggingFace, repos oficiales (QwenLM, MoonshotAI, deepseek-ai, zai-org), Artificial Analysis y BenchLM (abril 2026).


