TL;DR. “Local-first” se ha convertido en una mentira educada en la IA personal. La mayoría de los productos comercializados como locales mantienen en realidad el trabajo pesado en la nube, con la caché en tu dispositivo. Ostler ejecuta cada componente en una sola máquina Mac, la que el cliente ya posee. Esto cuesta más de construir, y es la única respuesta honesta a la promesa de privacidad que esta categoría no para de hacer. Hay también un punto financiero más silencioso: la inferencia con LLM en la nube está hoy fuertemente subvencionada, y se espera ampliamente que se vuelva más cara; la inferencia local no le cuesta nada al cliente por consulta, ni hoy ni nunca.

“Local-first” se ha convertido en una mentira educada.

Lee las páginas de marketing de la actual hornada de productos de IA personal y encontrarás la frase por todas partes. Luego lee los diagramas de arquitectura, cuando la empresa es lo bastante generosa para publicar uno, y encontrarás un viaje de ida y vuelta silencioso. Tus mensajes se resumen en la GPU de otro. Tus fotos se vectorizan en un servicio de vectores gestionado. Tu “capa de memoria” es una API de pago en algún lugar de us-east-1. La parte local es la caché.

Eso no es local-first. Es local-cache-first. La diferencia importa, porque la parte que va por el cable es la parte que importa: tus palabras privadas, en lenguaje llano, leídas por un modelo que se ejecuta en una máquina que no posees.

Esta entrada trata de lo que hicimos en su lugar, y del coste de ingeniería de hacerlo de esa manera.

Qué significa realmente máquina-única

Cuando decimos que Ostler se ejecuta en una sola máquina, queremos decir lo obvio. Cada componente que toca tus datos vive en tu Mac. No “vive en tu Mac y también en nuestros servidores”. No “vive en tu Mac salvo que el modelo sea demasiado grande”. Un Mac. El que compraste. El que tienes delante.

Concretamente, esta es la superficie que se distribuye:

  • Qdrant. La base de datos de vectores. Vectores de cada correo, mensaje y nota – indexados para la recuperación semántica. Se ejecuta como un proceso local. Escucha en localhost. No habla con nada más.
  • Oxigraph. El almacén de grafo RDF. Tripletas estructuradas que enlazan personas, organizaciones, temas, fechas, lugares – tu grafo de conocimiento como hecho, no como impresión. Proceso local. Localhost.
  • Redis. Caché y un bus de mensajes interno para el pipeline de ingesta. Proceso local. Localhost.
  • Ollama. El runtime del modelo. Aloja el LLM local (Qwen 3.5 9B, unos 6,6 GB en disco, cómodo en Apple Silicon) y el modelo de embeddings (nomic-embed-text). La inferencia ocurre en la GPU y los núcleos neuronales de tu máquina.
  • Whisper. Voz a texto para notas de voz y grabaciones de llamadas. Local. El audio nunca sale.
  • El compilador del wiki. Construye tu wiki privado a partir del grafo. Markdown de salida, en una carpeta que puedes abrir en el Finder. Veintiún tipos de página, renderizados por completo en local.
  • El runtime del agente. Un proceso en Rust que orquesta la recuperación, el uso de herramientas y la respuesta. Escucha tus canales (iMessage, WhatsApp, correo, la app de iOS) y enruta al modelo local.
  • Un almacén SQLite cifrado. Estado del usuario, preferencias, registro de auditoría. SQLCipher, en disco, en tu directorio personal.

Eso es la pila entera. No hay servicio de inferencia remoto. No hay base de datos de vectores alojada. No hay demonio de sincronización enviando deltas a un backend. Desenchufa el cable de red de la parte trasera de tu Mac y cada uno de esos servicios sigue ejecutándose. El asistente sigue respondiendo. El wiki sigue renderizando. El grafo sigue creciendo a medida que se ingieren nuevas fuentes locales.

Las únicas vías fuera de la máquina son las que el cliente activa. Búsqueda web pública, sin contexto personal adjunto. El propio iCloud Drive de Apple si se quieren copias de seguridad en el sistema de archivos visible. Cada una es opcional, cada una está nombrada en la pantalla de ajustes, y el valor por defecto es ninguna.

El coste de la honestidad

Esto es más difícil de construir que la alternativa híbrida. Es justo decirlo en voz alta.

Recurre a un modelo en la nube gestionado y el problema de la inferencia desaparece. Otro lleva el centro de datos, pagas una tarifa por consulta, y no tienes que pensar si el portátil del cliente puede mantener un modelo de tamaño considerable en marcha. Recurre a una base de datos de vectores alojada y el problema de la recuperación desaparece también. Recurre a un grafo-como-servicio y lo mismo ocurre con el problema del modelado de relaciones. Elige las tres y estarás ejecutando una fina cáscara de macOS sobre una pila de servicios online de pago, con un texto de marketing que espera que nadie lea el registro de red.

La vía de la máquina única significa distribuir los runtimes nosotros mismos. Empaquetar Ollama. Elegir un modelo que quepa en un Mac de consumo y que aún produzca buenas llamadas a herramientas. Ejecutar Qdrant como un subproceso del instalador del Hub. Versionar Oxigraph. Escribir las migraciones. Poseer cada dependencia de la cadena de suministro, porque no hay escotilla de escape gestionada cuando algo se rompe. Es más ingeniería. Pensamos que es la ingeniería que merece la pena hacer.

Por qué las alternativas filtran

Hay tres patrones que la categoría adyacente de la IA personal usa hoy, y cada uno de ellos filtra la parte que importa.

El patrón híbrido. Un modelo local maneja las “tareas de bajo nivel” (resumir, autocompletar, enrutar) y un modelo remoto maneja el razonamiento significativo. openhuman, uno de los productos más honestos de este espacio, distribuye exactamente esta forma: LLM local para lo fácil, treinta y pico proveedores de nube empaquetados para lo difícil. Su propia página de posicionamiento es clara al respecto. El problema arquitectónico de este patrón es que lo “difícil” es la parte que usa tus datos privados. El modelo barato y local recibe tu lista de la compra. El modelo caro y remoto recibe la transcripción de tu terapia. Tus consultas más difíciles y personales son precisamente las que salen de la máquina. Eso invierte la promesa de privacidad.

El patrón del espacio de trabajo en la nube. Una base de datos de grafo con agentes encima, alojada en un SaaS. Los competidores con forma de nube en esta categoría apuntan a trabajadores del conocimiento que construyen espacios de trabajo compartidos, no a individuos que intentan mantener sus vidas en su propio hardware. El problema arquitectónico es que el grafo se alimenta de documentos que subes. El producto, estructuralmente, no puede alcanzar los datos de tu Mac como Ostler sí puede. Para usarlo, primero tienes que entregar los datos.

El patrón local multimáquina. Una caja para el almacenamiento, otra para el cómputo, una red privada entre ellas, un homelab en tu habitación de invitados. NovaStation es el ejemplo impresionante de este patrón: un centro de mando de IA personal repartido entre un MacBook, un iMac, un Dell y un ThinkPad. El problema arquitectónico es doble. Primero, añade una red privada que mantener y asegurar donde no hacía falta ninguna. Segundo, le pide al cliente que haga el trabajo de un administrador de sistemas. Yo mismo ejecuté una versión de dos máquinas de esto durante un año antes de productizarla. Fue un entorno de investigación maravilloso. No es donde queremos que viva la mayoría de la gente.

Hay un coste más que merece la pena nombrar, y es financiero más que arquitectónico. La inferencia con modelos en la nube se tarifa hoy como si el cómputo fuera un reclamo. Cada prompt enviado a un modelo alojado le cuesta dinero real al proveedor, y ese dinero se traslada actualmente a los consumidores a tarifas fuertemente subvencionadas diseñadas para crear hábito. Los comentaristas del sector esperan cada vez más que esos precios suban una vez que haya bastantes usuarios comprometidos con un producto dado. La inferencia local no tiene coste por consulta. El modelo se ejecuta en una máquina que el cliente ya posee; el coste marginal de un prompt más es cero, hoy y en cada fecha de renovación a partir de entonces.

La máquina única esquiva los tres patrones arquitectónicos de arriba, y la trayectoria de coste de paso. No hay inferencia remota, así que no hay inversión de la promesa de privacidad. No hay espacio de trabajo en la nube, así que no hay paso de subida. No hay red de homelab que mantener, así que no hay superficie de ataque extra ni impuesto de administración de sistemas.

Una sola fuente de verdad

Hay un beneficio más silencioso de la forma máquina-única que no aparece en el marketing.

Cuando hay una máquina, hay una copia de tus datos. Tu memoria es el disco que tienes delante, y nada más. No hay conflicto de sincronización. No hay ventana de consistencia eventual. No hay “el portátil dice una cosa y la nube dice otra, ¿cuál es la actual?” El disco es la respuesta.

Esto suena trivial hasta que has vivido en el otro mundo. Cualquiera que haya intentado mantener notas sincronizadas en tres dispositivos, o haya tenido un evento de calendario que se des-canceló en silencio porque dos réplicas no estaban de acuerdo, conoce el coste de la verdad distribuida. Los datos personales son singularmente sensibles a esta clase de error. La inferencia correcta sobre una memoria desfasada sigue siendo una respuesta equivocada.

Una máquina. Una copia. Una fuente de verdad. El sistema puede equivocarse sobre lo que querías, pero no puede confundirse sobre lo que tiene.

El cierre

The world does revolve around you.™ Tu conocimiento también debería.

No tu conocimiento en el centro de datos de otro, cómodamente cacheado en tu portátil. No tu conocimiento en un pipeline híbrido que susurra las partes sensibles por el cable. Tu conocimiento, en tu máquina, donde puedes desenchufar el cable y verlo seguir funcionando.

Ese es el listón. Una sola máquina. Un solo cliente. Una sola fuente de verdad. Todo lo demás es local-cache-first disfrazado.

Preguntas, correcciones, desacuerdos – [email protected].