Cómo conectar Ollama a una app de escritorio: guía paso a paso
Si ya tienes Ollama corriendo y has hecho ollama run llama4 alguna vez, sabes que la terminal no es donde quieres vivir a diario. Chatear con un LLM necesita historial, búsqueda, adjuntar archivos, gestionar prompts reutilizables, y muchas más cosas que un TUI no da.
La solución no es abandonar Ollama: es ponerle una app de escritorio por delante que consuma su API local. Tres candidatos serios hacen esto bien en abril de 2026: Levante, Cherry Studio y Msty. Esta guía cubre cómo conectar Ollama a cada uno, qué esperar y cómo resolver los problemas típicos.
Si es tu primer contacto con IA local, antes échale un ojo a la guía completa de IA local. Aquí entramos directos al tutorial.
Por qué usar una app de escritorio sobre Ollama
Ollama es un motor, no un producto final. Expone una API HTTP compatible con OpenAI en http://localhost:11434 y se queda ahí. Lo que no hace:
Guardar historial de conversaciones persistente.
Buscar dentro de esas conversaciones.
Adjuntar PDFs, imágenes o código.
Gestionar plantillas de prompts.
Cambiar de modelo sin reiniciar un comando.
Conectar con servidores MCP.
Mezclar modelos locales con APIs cloud (OpenAI, Anthropic, Google) en la misma UI.
Todo eso lo aporta la app de escritorio. Ollama solo tiene que preocuparse de servir tokens rápido.
Paso 0: verificar que Ollama está corriendo
Antes de configurar nada, asegúrate de que Ollama está arriba:
# Verifica que el proceso está escuchando
curl http://localhost:11434/api/tagsSi devuelve JSON con una lista de modelos (aunque esté vacía), Ollama está listo. Si da Connection refused:
# Mac (instalado vía brew o .dmg)
ollama serve
# Linux (systemd)
sudo systemctl start ollama
# Windows
# Abre "Ollama" desde el menú inicio; el icono en la bandeja indica que está corriendoOllama v0.13.3 o superior añade soporte de Responses API de OpenAI además del formato Chat Completions clásico. Recomiendo actualizar si tu versión es anterior:
ollama --version
# Si es <0.13.3, actualiza
brew upgrade ollama # Mac
curl -fsSL https://ollama.com/install.sh | sh # LinuxPaso 1: descargar al menos un modelo
Si nunca has descargado un modelo, hazlo antes de conectar la app:
# Modelo pequeño y rápido para testear conexión
ollama pull qwen3:4b
# Modelo medio balanceado (recomendado para uso normal)
ollama pull llama4:8b
# Modelo grande (si tienes 24GB+ RAM)
ollama pull qwen3:32bRecomendación para primera prueba: qwen3:4b ocupa unos 2,6 GB, arranca rápido y confirma que toda la cadena funciona antes de mover modelos pesados.
Paso 2: conectar la app de escritorio
Aquí divergen los pasos según la app.
Opción A: Levante
Levante es nuestra app de escritorio open-source (Apache 2.0 + Commons Clause) nativa para Mac, Windows y Linux. Detecta Ollama automáticamente al arrancar.
Instala Levante desde
levanteapp.com(obrew install --cask levanteen Mac).Ábrela. En "Proveedores" vas a ver "Ollama" con un indicador verde si está corriendo — no hay que pegar URL ni tokens.
Pulsa sobre "Ollama" para ver los modelos descargados. Se listan con su tamaño y contexto.
Selecciona uno y chatea.
Si tienes Ollama en otra máquina de la LAN (por ejemplo un Mac Studio con los modelos grandes), en "Proveedores → Ollama → URL personalizada" cambias http://localhost:11434 por http://<ip-del-server>:11434. Necesitas haber lanzado OLLAMA_HOST=0.0.0.0 ollama serve en esa máquina para que escuche en la red.
Ventaja de Levante: puedes mezclar en la misma conversación modelos locales de Ollama con APIs cloud (Anthropic, OpenAI, Google), usando BYOK con tus propias claves. Las claves se guardan en el keychain nativo del OS.
Opción B: Cherry Studio
Cherry Studio es gratuita, open-source y muy popular en la comunidad china e internacional.
Descarga desde
cherry-ai.com(hay builds para Mac, Windows y Linux).Ábrela. Vas a "Settings → Model Providers".
Busca "Ollama" en la lista. Si no aparece, usa "Add Custom Provider" con:
Provider Type:
OpenAI CompatibleBase URL:
http://localhost:11434/v1API Key: cualquier cosa (Ollama no la valida, pero el campo no puede estar vacío — usa
ollama).
En "Models" pulsa "Manage" para cargar la lista desde Ollama.
Selecciona el modelo por defecto.
Cherry Studio es más visual y tiene un catálogo muy grande de assistants pre-configurados. Menos integración nativa con RGPD y compliance que Levante.
Opción C: Msty
Msty apunta a usabilidad máxima, parece más un "Notion de IA" que un chat clásico.
Descarga desde
msty.app.Al instalar, te ofrece usar "Local AI" — acepta. Detecta Ollama si está corriendo.
Si no lo detecta, "Settings → Local AI → Configure" y pegas
http://localhost:11434.Selecciona modelo y listo.
Msty destaca en "Split Chat" (comparar dos modelos respondiendo a la vez) y "Knowledge Stacks" (RAG sobre documentos locales).
Paso 3: verificar que todo está conectado
Una vez configurado, manda un mensaje de prueba tipo "Hola, ¿qué modelo eres?". Deberías ver la respuesta en 1-3 segundos en Mac Apple Silicon con un modelo 4-8B, o 5-10 segundos en PC con GPU NVIDIA media.
Si la respuesta tarda >30 segundos, probablemente está corriendo en CPU. Verifica:
Mac: Ollama usa Metal automáticamente. Si va lento, el modelo es demasiado grande para tu RAM. Baja a uno más pequeño.
Windows/Linux NVIDIA:
nvidia-smidebería mostrarollamaen procesos cuando respondes. Si no aparece, falta CUDA en tu Ollama. Reinstala desde ollama.com.AMD: Ollama soporta ROCm en Linux. En Windows, ROCm es experimental. Puede que esté cayendo a CPU.
Problemas comunes y cómo resolverlos
"No puedo conectarme, localhost:11434 responde pero la app dice offline"
Reinicia Ollama:
# Mac/Linux
pkill ollama && ollama serve
# Windows
# Cierra el icono de la bandeja, relanza "Ollama"Si sigue, verifica que el cortafuegos no esté bloqueando conexiones locales (poco común pero pasa en Windows Enterprise).
"La lista de modelos está vacía en la app pero ollama list los muestra"
Normalmente es cuestión de permisos o de que la app apunta a otro puerto. Reabre la config de la app y verifica que la base URL es exactamente http://localhost:11434/v1 (algunas apps esperan /v1 al final para usar el endpoint OpenAI-compatible, otras no).
"Respuestas lentísimas en Mac a pesar de tener chip M-series"
Cierra Chrome y otras apps con muchas pestañas. Mac con memoria unificada comparte RAM entre sistema y modelo — si tienes 16 GB y el navegador usa 8 GB, al modelo le queda poco y va a disco (swap), con latencias desastrosas.
"El modelo se apaga solo entre peticiones"
Ollama descarga modelos de RAM tras 5 minutos de inactividad por defecto. Si quieres que se mantenga caliente:
# Mantener modelo siempre cargado
OLLAMA_KEEP_ALIVE=-1 ollama serveO desde la app, si tiene esa opción en ajustes.
"Error CORS en la consola"
Ollama v0.11+ permite origins remotos. Si usas una app web que corre en otro origin:
OLLAMA_ORIGINS="*" ollama servePara seguridad, restríngelo a los origins concretos en producción.
"Quiero usar Ollama desde otro ordenador de la red"
Configura Ollama para escuchar en todas las interfaces:
OLLAMA_HOST=0.0.0.0:11434 ollama serveY configura la app en el cliente con http://<ip-del-server>:11434. Para máxima seguridad, encierra detrás de un reverse proxy con auth (nginx, Caddy), porque Ollama no tiene autenticación nativa.
Combinar Ollama con APIs cloud
Una vez tienes Ollama conectado, el paso siguiente natural es mezclar local y cloud en la misma app:
Tareas privadas (datos sensibles, código corporativo) → modelo local en Ollama.
Tareas que necesitan frontera (razonamiento complejo, código con API poco común) → Claude o GPT cloud.
Tareas batch de gran volumen → local en Ollama si tu hardware tira, o Gemini Flash-Lite cloud si prefieres no saturar tu Mac.
Apps como Levante permiten elegir el proveedor por conversación o incluso por turno. Cherry Studio y Msty también, con UIs distintas.
Si el driver principal es privacidad, combina Ollama con Zero Data Retention en cloud para los casos donde cloud es inevitable.
Comparativa rápida: cuál elegir
|
Criterio |
Levante |
Cherry Studio |
Msty |
|---|---|---|---|
|
Licencia |
Apache 2.0 + CC |
Apache 2.0 |
Propietario (free) |
|
Auto-detecta Ollama |
Sí |
Manual |
Sí |
|
Mezcla local + cloud |
Sí |
Sí |
Sí |
|
MCP Store nativo |
Sí |
No |
No |
|
Keychain OS |
Sí |
No (settings) |
No (settings) |
|
RGPD / infraestructura EU |
Sí (Platform) |
No |
No |
|
Split Chat |
No |
No |
Sí |
|
Best for |
Equipos y desarrolladores |
Exploración |
Notion-like workflow |
Conclusión
Conectar Ollama a una app de escritorio es el paso que convierte "IA local" en "IA que uso todos los días". La configuración es trivial en las tres apps si Ollama ya está corriendo: en Levante es cero-click, en Cherry/Msty un formulario.
La decisión real no es técnica, es de criterio: ¿quieres open-source auditable con cumplimiento europeo? Levante. ¿Quieres máxima flexibilidad y un catálogo amplio de plantillas? Cherry Studio. ¿Quieres workflow tipo notas + IA con comparativas side-by-side? Msty.
Para ampliar:
IA local en tu ordenador: guía completa 2026 — pillar con hardware, modelos, integración.
Ollama vs LM Studio — qué motor elegir.
Modelos locales vs modelos en la nube — cuándo vale la pena local.
Fuentes verificadas
API OpenAI-compatible de Ollama (puerto 11434): docs.ollama.com/api/openai-compatibility.
Versión Ollama v0.13.3 con Responses API: changelog oficial en github.com/ollama/ollama/releases.
Cherry Studio y Msty son productos de terceros; datos verificados en sus webs oficiales en abril 2026.
Datos verificados el 23 de abril de 2026.



