Cuando un CTO me dice "necesitamos IA privada", la definición varía mucho: desde "no quiero que mis datos entren a un modelo americano" hasta "quiero los pesos del modelo en mis servidores y sin internet". La diferencia no es retórica — son arquitecturas distintas con costes y fricciones muy distintas.
Este artículo desmonta las 5 formas reales de usar LLMs en empresa sin exponer datos, con pros, contras, coste aproximado y ejemplos concretos de proveedores 2026.
El espectro: de cero privacidad a soberanía total
Ordenadas de menor a mayor soberanía:
|
# |
Arquitectura |
Quién tiene el modelo |
Dónde corre el inference |
Control que ganas |
Coste |
|---|---|---|---|---|---|
|
1 |
ChatGPT Enterprise / Claude Enterprise |
Proveedor |
Proveedor (EEUU) |
Políticas ZDR, DPA |
Bajo |
|
2 |
VPC dedicada cloud |
Proveedor |
Cloud tuyo (AWS/Azure/GCP UE) |
Aislamiento de red |
Medio |
|
3 |
ZDR + región UE |
Proveedor europeo |
Proveedor (UE) |
Todo UE + ZDR |
Medio |
|
4 |
Open-source self-hosted |
Tú |
Tu infra/cloud propio |
Control total operativo |
Alto |
|
5 |
On-prem air-gapped |
Tú |
Tu servidor físico |
Soberanía total |
Muy alto |
Cada escalón añade control y quita conveniencia. El truco es saber dónde te conviene parar.
Opción 1: ChatGPT/Claude Enterprise con ZDR
Lo más simple. Sigues usando una plataforma SaaS del proveedor pero con el plan empresarial y Zero Data Retention activado.
Cómo funciona: firmas contrato enterprise, pides ZDR, OpenAI/Anthropic procesa tu dato, devuelve la respuesta y borra sin retención ni entrenamiento.
A favor:
Setup en días.
Modelos frontier (GPT-5, Claude Opus 4.7).
Coste predecible por asiento o por token.
Compliance con DPA, SOC 2, ISO, HIPAA (en Claude) y BAA disponible.
En contra:
Infraestructura sigue en EEUU.
Schrems II / DPF pendiente.
Para datos del Art. 9 RGPD, sigue siendo discutible.
Coste orientativo (abril 2026): Claude Team $20/asiento/mes (anual), Enterprise $20/asiento + uso. ChatGPT equivalente similar.
Cuándo elegirlo: caso de uso empresarial general sin datos críticos Art. 9, equipo que necesita modelos frontier, presión de time-to-market.
Para detalle del riesgo RGPD específico de ChatGPT en este régimen: ¿Cumple ChatGPT con el RGPD?.
Opción 2: VPC dedicada en cloud europeo
Usas el modelo del proveedor americano pero corriendo en infraestructura cloud que tú eliges, en región europea, con VPC aislado.
Azure OpenAI con EU Data Zones
Microsoft lanzó Azure OpenAI Data Zones para EU. Cuando creas un deployment "DataZone" en un Azure AI Foundry resource localizado en un estado miembro UE, prompts y responses se procesan solo en estados UE. Disponible en todas las regiones Azure europeas (Ámsterdam, Dublín, Fráncfort, Estocolmo, Milán, París, Varsovia, Madrid).
Datos en reposo y en tránsito dentro del EU Data Boundary.
Compliance: GDPR, ISO 27001, SOC 2, HIPAA BAA.
Modelos: GPT-5 y familia OpenAI bajo contrato Microsoft.
AWS Bedrock con Claude
Bedrock ofrece Claude Opus 4.7 (y modelos menores) en regiones UE. A abril de 2026, las regiones UE disponibles son Ireland (eu-west-1) y Stockholm (eu-north-1) para Claude Opus 4.7. No hay Frankfurt aún para ese modelo concreto, aunque otros modelos (Mistral, Llama) sí.
Infraestructura AWS europea.
Compliance: GDPR, ISO 27001, SOC 2.
No hay "ZDR" explícito; configuras tú el retention.
Google Cloud Vertex AI
Vertex AI con Gemini ofrece regiones europeas (europe-west4 Ámsterdam, europe-west1 Bélgica, europe-west3 Fráncfort). Data residency configurable.
A favor común:
Modelo frontier + infra UE.
Integración con tu stack cloud existente.
Control operativo (VPC, firewall, IAM).
En contra común:
El proveedor americano sigue siendo sub-procesador.
Schrems II aún cuestionable si el control del plane de management está en EEUU.
Setup más complejo que SaaS puro.
Cuándo elegirlo: ya tienes workloads serios en Azure/AWS/GCP y quieres añadir IA con la misma gobernanza cloud. La mayoría de empresas medianas/grandes lo eligen por este motivo.
Opción 3: Proveedor europeo con infraestructura y DPA europeos
En vez de OpenAI/Anthropic como sub-procesador, usas un proveedor europeo cuyo stack entero (infra, contrato, soporte) es UE.
Mistral AI (Francia):
EU-native, GDPR compliance de raíz.
API con hosting Paris por defecto.
Modelos: Mistral Large 3, Small 4, Nemo, Voxtral TTS.
Pricing API: Mistral Large $2 input / $6 output por millón de tokens; Small $0.20/$0.60; Nemo $0.15/$0.15.
Le Chat Pro: $14.99/usuario/mes.
Planes Team/Enterprise con data residency Paris.
Aleph Alpha (Alemania):
Modelos Luminous, foco empresa y administración pública alemana.
Hosting Alemania.
Contratos con BSI, Bundeswehr.
Levante Platform (España):
Gateway multi-modelo con orquestación.
Infraestructura UE (Frankfurt/París).
DPA español.
Puedes elegir modelo europeo (Mistral, Aleph) o ruta enclave a modelo americano con ZDR cuando el caso lo justifique.
A favor:
Proveedor responsable bajo jurisdicción UE.
Cero transferencia internacional.
Interlocutor rápido y en tu idioma.
Respuesta simple a auditoría RGPD.
En contra:
Modelos europeos van por detrás en algunos benchmarks vs GPT-5/Claude Opus.
Ecosistema de herramientas más pequeño.
Comunidad técnica menor.
Cuándo elegirlo: compliance es prioridad alta, datos Art. 9, administración pública o sectores regulados (financiero, salud, legal).
Opción 4: Modelo open-source self-hosted
Tú coges los pesos de un modelo open-source y lo corres en tu cloud o tu datacenter. El modelo es tuyo operativamente — pero no es tu modelo en sentido legal (la licencia sigue siendo del autor).
Modelos open-source viables 2026
Llama 4 (Meta): licencia permisiva con restricciones >700M usuarios activos.
Mistral Large 3 Open (parcial): algunos modelos Mistral son open-weights, otros no.
Qwen 3 (Alibaba): muy competente, licencia Apache 2.0.
DeepSeek V3 (DeepSeek): strong reasoning, código accesible.
Mixtral 8x22B y variantes MoE: buena relación calidad/coste.
Stack de inferencia
vLLM: estándar de facto para servir LLMs en GPU.
SGLang: alternativa con optimizaciones específicas.
TensorRT-LLM (NVIDIA): para NVIDIA GPU al máximo rendimiento.
llama.cpp / Ollama: para inference pequeña (CPU o GPU modesta), útil en edge.
Plataformas de gestión
LiteLLM: router multi-modelo con compatibilidad API-OpenAI.
BentoML: empaquetado y deployment.
Ray Serve: escalado y orquestación.
A favor:
Control total: qué modelo, qué versión, qué retention (literalmente cero si no guardas nada).
Sin dependencia de un proveedor (no vendor lock-in).
Costes marginales bajos a alto volumen.
En contra:
CapEx o cloud GPU caros (H100 ~$2-4/hora, H200 ~$4-8/hora).
Equipo técnico especializado (ML ops).
Modelos van ligeramente por detrás de closed frontier en calidad.
Seguridad del modelo (jailbreaks, safety) es tu responsabilidad.
Coste orientativo: para 10 req/s constantes sobre un modelo 70B en vLLM con 4x H100, ~$5K-$10K/mes en cloud o $200K-$400K CapEx en hardware propio + datacenter.
Cuándo elegirlo: volumen alto con ROI calculado, equipo técnico sólido, caso de uso donde tú puedes fine-tunear sobre datos propios, o sector donde la soberanía del modelo es negocio (defensa, administración).
Opción 5: On-premise completo / air-gapped
Como la opción 4 pero en tu datacenter físico, sin conexión a internet, con GPUs compradas por ti y modelo cargado desde medio físico controlado.
Aplica a:
Defensa, inteligencia.
Utilities críticas (energía, agua, transporte).
Sector bancario ciertas áreas.
Sanidad con datos muy sensibles.
Ejemplos de stacks:
Hardware: NVIDIA DGX, Dell PowerEdge con H200, servidores Supermicro.
Networking: sin salida a internet, VLAN dedicada, firewall kernel-level.
Acceso: VPN interna o físico.
Modelo: Llama, Mistral, Qwen — descargado, verificado hash, cargado.
A favor:
Soberanía total demostrable.
Compliance trivial (no hay transferencia, no hay sub-procesadores).
Zero trust con proveedor cloud imposible.
En contra:
Inversión inicial alta ($100K-$1M+).
Equipo ML ops y SRE dedicado.
Actualizaciones de modelo manuales.
Escalado lento (comprar más hierro).
Cuándo elegirlo: lo exige la normativa sectorial o la base de clientes, o el modelo de amenaza incluye actores que pueden comprometer cloud público.
Matriz de decisión rápida
|
Tu situación |
Arquitectura recomendada |
|---|---|
|
Pyme general, datos no sensibles |
1 (Enterprise + ZDR) |
|
Mediana ya en Azure, datos regulados |
2 (Azure OpenAI EU Data Zone) |
|
Empresa europea compliance-first |
3 (Mistral / Levante Platform) |
|
Scale-up tech con volumen > €50K/mes en APIs |
4 (self-hosted open-source) |
|
Defensa, administración crítica, salud |
5 (on-prem air-gapped) |
Empieza por la opción más ligera que cubre tus requisitos. Subir un peldaño cuesta en operativa. Bajar uno cuesta en compliance — y lo segundo duele más si llega auditoría.
El error común: arquitectura híbrida mal pensada
Muchas empresas acaban con una mezcla sin estrategia: ChatGPT personal para unos equipos, Azure OpenAI para producto, algún piloto de Llama en dev. Sin gobierno central.
Tres consecuencias predecibles:
Shadow AI: empleados pegan datos en ChatGPT personal sin permiso.
Costes dispersos: 5 contratos distintos, imposible optimizar.
Compliance imposible: ningún DPO puede garantizar a la AEPD qué dato está dónde.
La solución no es una sola arquitectura — es una capa de gateway que unifique el acceso, aplique políticas y haga enrutado consciente del caso de uso. Ahí es donde Levante Platform encaja: hacer que tu organización pueda usar GPT, Claude, Mistral, Llama local — con un único DPA, una única factura, un único control de acceso, y decisiones de enrutado automáticas según el dato que pase.
FAQ
¿"IA privada" significa siempre on-premise?
No. "Privada" es un espectro. Una IA con ZDR y DPA en cloud europeo también es "privada" para la mayoría de empresas españolas. On-prem es solo el extremo más soberano.
¿Open-source self-hosted es siempre más privado que API?
En teoría sí (tú controlas todo). En práctica, depende de tu operativa. Un open-source mal configurado con logs a un Datadog en EEUU no es más privado que una API con ZDR.
¿Cuánto cuesta arrancar con IA privada?
Opción 1 (Enterprise + ZDR): ~€20-60/usuario/mes. Opción 2 (VPC cloud): variable, típicamente €1K-€10K/mes según uso. Opción 3 (Proveedor UE): similar a opción 1. Opción 4 (self-hosted): desde €3K-5K/mes en cloud o inversión inicial €50K+ on-prem. Opción 5: €100K+ CapEx mínimo.
¿Puedo usar modelos open-source sin GPU propia?
Sí, via APIs de "inference-as-a-service" que corren open models por ti: Together AI, Fireworks, Groq, Cerebras. Eso te quita la gestión de hardware pero sigues dependiendo de su privacy policy. Algunas ofrecen variantes con hosting EU.
¿Qué modelo open-source es el mejor para empresa en 2026?
Depende del caso. Para general purpose en inglés: Llama 4 o Qwen 3. Para código: DeepSeek V3 o Qwen Coder. Para razonamiento: DeepSeek V3 en modo "thinking". Para castellano: Mistral Large 3 (mejor calidad en castellano que Llama).
¿RAG resuelve el problema de privacidad?
Parcialmente. RAG (Retrieval Augmented Generation) te permite no mandar la base de conocimiento completa al modelo — solo los chunks relevantes a la query. Reduce la superficie de datos expuestos pero no elimina la dependencia del modelo. RAG + modelo privado sí resuelve más. RAG + modelo público solo mitiga.
¿Cómo elijo entre Azure OpenAI EU y Mistral?
Azure OpenAI EU si ya estás en stack Microsoft y necesitas GPT-5 específicamente. Mistral si priorizas proveedor europeo puro y el modelo Mistral Large cubre tu caso (la mayoría de casos empresariales, sí).
Recapitulando
IA privada en empresa no es un producto — es un espectro de arquitecturas con trade-offs distintos. Elegir bien depende de qué significa "privado" para tu regulación, qué modelos necesitas y cuánto equipo técnico puedes dedicar.
Si arrancas hoy, el 80% de empresas están mejor entre la opción 2 (cloud EU con modelo americano) y la opción 3 (proveedor europeo). Saltar directo a opción 5 (on-prem) es raro que compense si no lo exige la normativa sectorial.
Para el marco completo de RGPD aplicado a IA: IA y RGPD en 2026. Para Zero Data Retention en detalle: Zero Data Retention en IA. Para una plataforma que orquesta estas 5 opciones en una sola capa: Levante Platform.
Datos verificados: Claude pricing (abril 2026), Mistral API pricing 2026, Azure OpenAI Data Zones, AWS Bedrock Claude Opus 4.7 regions.



