Cómo conectar Ollama a una app de escritorio: guía paso a paso

Si ya tienes Ollama corriendo y has hecho ollama run llama4 alguna vez, sabes que la terminal no es donde quieres vivir a diario. Chatear con un LLM necesita historial, búsqueda, adjuntar archivos, gestionar prompts reutilizables, y muchas más cosas que un TUI no da.

La solución no es abandonar Ollama: es ponerle una app de escritorio por delante que consuma su API local. Tres candidatos serios hacen esto bien en abril de 2026: Levante, Cherry Studio y Msty. Esta guía cubre cómo conectar Ollama a cada uno, qué esperar y cómo resolver los problemas típicos.

Si es tu primer contacto con IA local, antes échale un ojo a la guía completa de IA local. Aquí entramos directos al tutorial.

Por qué usar una app de escritorio sobre Ollama

Ollama es un motor, no un producto final. Expone una API HTTP compatible con OpenAI en http://localhost:11434 y se queda ahí. Lo que no hace:

Guardar historial de conversaciones persistente.
Buscar dentro de esas conversaciones.
Adjuntar PDFs, imágenes o código.
Gestionar plantillas de prompts.
Cambiar de modelo sin reiniciar un comando.
Conectar con servidores MCP.
Mezclar modelos locales con APIs cloud (OpenAI, Anthropic, Google) en la misma UI.

Todo eso lo aporta la app de escritorio. Ollama solo tiene que preocuparse de servir tokens rápido.

Paso 0: verificar que Ollama está corriendo

Antes de configurar nada, asegúrate de que Ollama está arriba:

# Verifica que el proceso está escuchando
curl http://localhost:11434/api/tags

Si devuelve JSON con una lista de modelos (aunque esté vacía), Ollama está listo. Si da Connection refused:

# Mac (instalado vía brew o .dmg)
ollama serve

# Linux (systemd)
sudo systemctl start ollama

# Windows
# Abre "Ollama" desde el menú inicio; el icono en la bandeja indica que está corriendo

Ollama v0.13.3 o superior añade soporte de Responses API de OpenAI además del formato Chat Completions clásico. Recomiendo actualizar si tu versión es anterior:

ollama --version
# Si es <0.13.3, actualiza
brew upgrade ollama  # Mac
curl -fsSL https://ollama.com/install.sh | sh  # Linux

Paso 1: descargar al menos un modelo

Si nunca has descargado un modelo, hazlo antes de conectar la app:

# Modelo pequeño y rápido para testear conexión
ollama pull qwen3:4b

# Modelo medio balanceado (recomendado para uso normal)
ollama pull llama4:8b

# Modelo grande (si tienes 24GB+ RAM)
ollama pull qwen3:32b

Recomendación para primera prueba: qwen3:4b ocupa unos 2,6 GB, arranca rápido y confirma que toda la cadena funciona antes de mover modelos pesados.

Paso 2: conectar la app de escritorio

Aquí divergen los pasos según la app.

Opción A: Levante

Levante es nuestra app de escritorio open-source (Apache 2.0 + Commons Clause) nativa para Mac, Windows y Linux. Detecta Ollama automáticamente al arrancar.

Instala Levante desde levanteapp.com (o brew install --cask levante en Mac).
Ábrela. En "Proveedores" vas a ver "Ollama" con un indicador verde si está corriendo — no hay que pegar URL ni tokens.
Pulsa sobre "Ollama" para ver los modelos descargados. Se listan con su tamaño y contexto.
Selecciona uno y chatea.

Si tienes Ollama en otra máquina de la LAN (por ejemplo un Mac Studio con los modelos grandes), en "Proveedores → Ollama → URL personalizada" cambias http://localhost:11434 por http://<ip-del-server>:11434. Necesitas haber lanzado OLLAMA_HOST=0.0.0.0 ollama serve en esa máquina para que escuche en la red.

Ventaja de Levante: puedes mezclar en la misma conversación modelos locales de Ollama con APIs cloud (Anthropic, OpenAI, Google), usando BYOK con tus propias claves. Las claves se guardan en el keychain nativo del OS.

Opción B: Cherry Studio

Cherry Studio es gratuita, open-source y muy popular en la comunidad china e internacional.

Descarga desde cherry-ai.com (hay builds para Mac, Windows y Linux).
Ábrela. Vas a "Settings → Model Providers".
Busca "Ollama" en la lista. Si no aparece, usa "Add Custom Provider" con:
- Provider Type: OpenAI Compatible
- Base URL: http://localhost:11434/v1
- API Key: cualquier cosa (Ollama no la valida, pero el campo no puede estar vacío — usa ollama).
En "Models" pulsa "Manage" para cargar la lista desde Ollama.
Selecciona el modelo por defecto.

Cherry Studio es más visual y tiene un catálogo muy grande de assistants pre-configurados. Menos integración nativa con RGPD y compliance que Levante.

Opción C: Msty

Msty apunta a usabilidad máxima, parece más un "Notion de IA" que un chat clásico.

Descarga desde msty.app.
Al instalar, te ofrece usar "Local AI" — acepta. Detecta Ollama si está corriendo.
Si no lo detecta, "Settings → Local AI → Configure" y pegas http://localhost:11434.
Selecciona modelo y listo.

Msty destaca en "Split Chat" (comparar dos modelos respondiendo a la vez) y "Knowledge Stacks" (RAG sobre documentos locales).

Paso 3: verificar que todo está conectado

Una vez configurado, manda un mensaje de prueba tipo "Hola, ¿qué modelo eres?". Deberías ver la respuesta en 1-3 segundos en Mac Apple Silicon con un modelo 4-8B, o 5-10 segundos en PC con GPU NVIDIA media.

Si la respuesta tarda >30 segundos, probablemente está corriendo en CPU. Verifica:

Mac: Ollama usa Metal automáticamente. Si va lento, el modelo es demasiado grande para tu RAM. Baja a uno más pequeño.
Windows/Linux NVIDIA: nvidia-smi debería mostrar ollama en procesos cuando respondes. Si no aparece, falta CUDA en tu Ollama. Reinstala desde ollama.com.
AMD: Ollama soporta ROCm en Linux. En Windows, ROCm es experimental. Puede que esté cayendo a CPU.

Problemas comunes y cómo resolverlos

"No puedo conectarme, localhost:11434 responde pero la app dice offline"

Reinicia Ollama:

# Mac/Linux
pkill ollama && ollama serve

# Windows
# Cierra el icono de la bandeja, relanza "Ollama"

Si sigue, verifica que el cortafuegos no esté bloqueando conexiones locales (poco común pero pasa en Windows Enterprise).

"La lista de modelos está vacía en la app pero `ollama list` los muestra"

Normalmente es cuestión de permisos o de que la app apunta a otro puerto. Reabre la config de la app y verifica que la base URL es exactamente http://localhost:11434/v1 (algunas apps esperan /v1 al final para usar el endpoint OpenAI-compatible, otras no).

"Respuestas lentísimas en Mac a pesar de tener chip M-series"

Cierra Chrome y otras apps con muchas pestañas. Mac con memoria unificada comparte RAM entre sistema y modelo — si tienes 16 GB y el navegador usa 8 GB, al modelo le queda poco y va a disco (swap), con latencias desastrosas.

"El modelo se apaga solo entre peticiones"

Ollama descarga modelos de RAM tras 5 minutos de inactividad por defecto. Si quieres que se mantenga caliente:

# Mantener modelo siempre cargado
OLLAMA_KEEP_ALIVE=-1 ollama serve

O desde la app, si tiene esa opción en ajustes.

"Error CORS en la consola"

Ollama v0.11+ permite origins remotos. Si usas una app web que corre en otro origin:

OLLAMA_ORIGINS="*" ollama serve

Para seguridad, restríngelo a los origins concretos en producción.

"Quiero usar Ollama desde otro ordenador de la red"

Configura Ollama para escuchar en todas las interfaces:

OLLAMA_HOST=0.0.0.0:11434 ollama serve

Y configura la app en el cliente con http://<ip-del-server>:11434. Para máxima seguridad, encierra detrás de un reverse proxy con auth (nginx, Caddy), porque Ollama no tiene autenticación nativa.

Combinar Ollama con APIs cloud

Una vez tienes Ollama conectado, el paso siguiente natural es mezclar local y cloud en la misma app:

Tareas privadas (datos sensibles, código corporativo) → modelo local en Ollama.
Tareas que necesitan frontera (razonamiento complejo, código con API poco común) → Claude o GPT cloud.
Tareas batch de gran volumen → local en Ollama si tu hardware tira, o Gemini Flash-Lite cloud si prefieres no saturar tu Mac.

Apps como Levante permiten elegir el proveedor por conversación o incluso por turno. Cherry Studio y Msty también, con UIs distintas.

Si el driver principal es privacidad, combina Ollama con Zero Data Retention en cloud para los casos donde cloud es inevitable.

Comparativa rápida: cuál elegir

Criterio	Levante	Cherry Studio	Msty
Licencia	Apache 2.0 + CC	Apache 2.0	Propietario (free)
Auto-detecta Ollama	Sí	Manual	Sí
Mezcla local + cloud	Sí	Sí	Sí
MCP Store nativo	Sí	No	No
Keychain OS	Sí	No (settings)	No (settings)
RGPD / infraestructura EU	Sí (Platform)	No	No
Split Chat	No	No	Sí
Best for	Equipos y desarrolladores	Exploración	Notion-like workflow

Conclusión

Conectar Ollama a una app de escritorio es el paso que convierte "IA local" en "IA que uso todos los días". La configuración es trivial en las tres apps si Ollama ya está corriendo: en Levante es cero-click, en Cherry/Msty un formulario.

La decisión real no es técnica, es de criterio: ¿quieres open-source auditable con cumplimiento europeo? Levante. ¿Quieres máxima flexibilidad y un catálogo amplio de plantillas? Cherry Studio. ¿Quieres workflow tipo notas + IA con comparativas side-by-side? Msty.

Para ampliar:

IA local en tu ordenador: guía completa 2026 — pillar con hardware, modelos, integración.
Ollama vs LM Studio — qué motor elegir.
Modelos locales vs modelos en la nube — cuándo vale la pena local.

Fuentes verificadas

API OpenAI-compatible de Ollama (puerto 11434): docs.ollama.com/api/openai-compatibility.
Versión Ollama v0.13.3 con Responses API: changelog oficial en github.com/ollama/ollama/releases.
Cherry Studio y Msty son productos de terceros; datos verificados en sus webs oficiales en abril 2026.
Datos verificados el 23 de abril de 2026.

Cómo conectar Ollama a una app de escritorio: guía paso a paso

Cómo conectar Ollama a una app de escritorio: guía paso a paso

Por qué usar una app de escritorio sobre Ollama

Paso 0: verificar que Ollama está corriendo

Paso 1: descargar al menos un modelo

Paso 2: conectar la app de escritorio

Opción A: Levante

Opción B: Cherry Studio

Opción C: Msty

Paso 3: verificar que todo está conectado

Problemas comunes y cómo resolverlos

"No puedo conectarme, localhost:11434 responde pero la app dice offline"

"La lista de modelos está vacía en la app pero `ollama list` los muestra"

"Respuestas lentísimas en Mac a pesar de tener chip M-series"

"El modelo se apaga solo entre peticiones"

"Error CORS en la consola"

"Quiero usar Ollama desde otro ordenador de la red"

Combinar Ollama con APIs cloud

Comparativa rápida: cuál elegir

Conclusión

Fuentes verificadas

Sigue leyendo

Modelos locales vs modelos en la nube: comparativa honesta 2026

OpenAI vs Anthropic vs Google en 2026: cuál usar para qué

¿Qué es BYOK? Bring Your Own Key en apps de IA, explicado

Cómo conectar Ollama a una app de escritorio: guía paso a paso

Cómo conectar Ollama a una app de escritorio: guía paso a paso

Por qué usar una app de escritorio sobre Ollama

Paso 0: verificar que Ollama está corriendo

Paso 1: descargar al menos un modelo

Paso 2: conectar la app de escritorio

Opción A: Levante

Opción B: Cherry Studio

Opción C: Msty

Paso 3: verificar que todo está conectado

Problemas comunes y cómo resolverlos

"No puedo conectarme, localhost:11434 responde pero la app dice offline"

"La lista de modelos está vacía en la app pero ollama list los muestra"

"Respuestas lentísimas en Mac a pesar de tener chip M-series"

"El modelo se apaga solo entre peticiones"

"Error CORS en la consola"

"Quiero usar Ollama desde otro ordenador de la red"

Combinar Ollama con APIs cloud

Comparativa rápida: cuál elegir

Conclusión

Fuentes verificadas

Sigue leyendo

Modelos locales vs modelos en la nube: comparativa honesta 2026

OpenAI vs Anthropic vs Google en 2026: cuál usar para qué

¿Qué es BYOK? Bring Your Own Key en apps de IA, explicado

"La lista de modelos está vacía en la app pero `ollama list` los muestra"