Tres personas, tres puntos de vista completamente distintos, tres motivos distintos para preocuparse, y la misma respuesta arquitectónica a lo largo de los últimos seis meses. Ninguna de ellas hablaba con las otras. Ninguna de ellas tenía motivo alguno para converger en la misma imagen. Lo hicieron igualmente.

Esa clase de convergencia es rara. Es también la señal más fuerte que puedes obtener de que una arquitectura es real y no una moda. Así que quiero exponer quién dijo qué, por qué cala, y qué significa para cualquiera que intente averiguar hacia dónde se dirige la IA personal.

El diplomático

El 26 de abril de 2026, Vivian Balakrishnan, ministro de Asuntos Exteriores de Singapur, publicó en abierto en Facebook sobre un sistema que había estado construyendo discretamente. Lo llamó un segundo cerebro para un diplomático. Funciona en una Raspberry Pi sobre su escritorio. Compila con el tiempo un grafo de conocimiento a partir de sus discursos y artículos. Responde preguntas sobre su trabajo, redacta discursos, condensa información, y se sitúa en la intersección de cada canal de conversación que usa. Escribió una línea sobre cómo se siente al respecto que ningún equipo de marketing podría fabricar:

Se ha vuelto inestimable – no me atrevo a apagarlo.

El ministro es un cirujano convertido en tecnócrata que lleva dos décadas en el gabinete de Singapur. No es un aficionado. Tampoco es alguien que tenga nada que ganar al respaldar una arquitectura sobre otra. Es un usuario de alto rango que describe lo que le funciona, y lo que le funciona es un razonador pequeño ejecutándose localmente en hardware económico, pegado a un corpus personal que nunca sale del dispositivo. (Publicación original de Facebook.)

La arquitectura que describe no es Ostler. Está usando NanoClaw, un asistente Claude de código abierto autoalojado de Gavriel Cohen, más el patrón LLM Wiki de Andrej Karpathy. Runtime distinto, hardware físico distinto, país distinto, caso de uso distinto. Pero las decisiones arquitectónicas son las mismas que las que tomamos nosotros: el razonador es pequeño y local, la memoria es tuya y vive en tu hardware, y nada sustancial sale del dispositivo a menos que elijas enviarlo.

Lo que me llama la atención de su publicación es el tono operativo. No está argumentando a favor de la arquitectura. Simplemente la usa, y la frase que le salió al teclear iba sobre no querer perder el acceso a ella. Así se siente definir una categoría, desde dentro.

El investigador

Seis meses antes de la publicación del ministro, el 17 de octubre de 2025, Andrej Karpathy fue al pódcast de Dwarkesh Patel y expuso en detalle el argumento del núcleo cognitivo. Alrededor del 95 % de los pesos de un modelo de frontera están haciendo trabajo de memorización que no tiene nada que ver con el razonamiento. Separa las dos funciones, y un razonador pequeño con una memoria externa curada bate a un monolito de 1,8 billones de parámetros en el trabajo que de verdad le importa a un único humano.

Las matemáticas lo respaldan. Llama 3 comprime sus datos de entrenamiento a algo así como 0,07 bits por token. El inglés bien estructurado lleva alrededor de 1,5 bits por token. El modelo de frontera sostiene una imagen comprimida con pérdida de la web abierta, y la mayor parte de esa imagen es ruido al que tú, el usuario, no necesitas acceder. GPT-4o, con unos 200.000 millones de parámetros, ya supera al GPT-4 original de 1,8 billones. El coste de inferencia para una calidad de nivel GPT-3.5 cayó por un factor de 280 entre 2022 y 2024. La línea de tendencia es clara y no se ralentiza.

Karpathy estaba haciendo un argumento arquitectónico. No estaba construyendo un producto. Pero la arquitectura que describía es exactamente lo que se ejecuta en la Pi del diplomático y en el Mac de cada cliente de Ostler. (Entrada más larga sobre el argumento de Karpathy aquí.)

Y no fue el único investigador que decía esto. Seis meses después, el 21 de abril de 2026, OpenAI publicó discretamente Privacy Filter como pesos abiertos Apache-2.0. Un especialista de 1.500 millones de parámetros cuyo único trabajo es depurar PII del texto en el dispositivo, diseñado para encajar delante de cualquier pipeline local. La tesis del núcleo cognitivo como entregable concreto, distribuida por la empresa de la que menos lo esperarías. (Entrada aquí.)

Unos días después, un artículo revisado por pares de la Universidad de Nanjing y ByteDance aterrizó con un benchmark. PersonaVLM (arXiv:2604.13074): un razonador de 7.000 millones de parámetros con una memoria personalizada curada bate a GPT-4o por un 5,2 % en tareas de personalización a largo plazo. Su taxonomía de memoria – central, semántica, procedimental, episódica – se superpone casi limpiamente al Personal World Graph que Ostler ya construye. Su mecanismo de evolución de la personalidad, un vector Big Five de cinco dimensiones actualizado mediante media móvil exponencial a lo largo de las interacciones, es una respuesta limpia a una pregunta que llevaba arrastrando en mi propio backlog.

Un investigador articulando la arquitectura. Un proveedor distribuyendo una primitiva. Un equipo académico evaluando una pieza. Todos independientes. Todos convergiendo.

El fundador

Yo soy el tercer punto de vista, y el menos autorizado de los tres. No soy investigador. No soy un usuario de alto rango con dos décadas de experiencia operativa en el servicio público. Soy alguien que fundó Creative Machines en septiembre de 2025, miró la vía de la nube para la IA personal, y concluyó que no se podía hacer funcionar en el eje de la privacidad sin un compromiso que yo personalmente no podía tragar. Así que construí la versión local-first en su lugar.

El patrón salió de las restricciones. Ostler ejecuta un razonador de 9.000 millones de parámetros en tu Mac, pegado a un grafo de conocimiento personal que sostiene tus contactos, calendario, mensajes, navegación, documentos y conversaciones como una memoria estructurada. El razonador toma una pregunta, consulta la memoria, devuelve una respuesta. El razonador es intercambiable; lo cambiaremos por lo que sea mejor cada trimestre. La memoria es lo que el usuario posee y lo que la vía de la nube, fundamentalmente, no puede replicar.

En su momento no lo veía como una tesis. Era simplemente la única arquitectura que satisfacía la garantía de privacidad que yo quería. El hecho de que el investigador más citado del campo, el laboratorio de frontera con más datos, un equipo de investigación de alto nivel en China, y el ministro de Asuntos Exteriores de uno de los gobiernos más tecnocráticos de Asia hayan llegado ahora todos independientemente a la misma arquitectura no es una vuelta de la victoria. Es la validación más fuerte que podría haber pedido, de personas que no tienen motivo para confirmar la hipótesis de un fundador pequeño.

Por qué importa la convergencia desde puntos de vista disjuntos

Si el diplomático fuera investigador, podrías llamarlo pensamiento de grupo. Si el investigador fuera un proveedor, podrías llamarlo posicionamiento. Si el fundador fuera algo distinto a un operador pequeño con un presupuesto que cabe en una tarjeta de crédito, podrías llamarlo marketing bien financiado. Ninguno de esos marcos funciona cuando el acuerdo viene de tres roles que no tienen solapamiento operativo.

El diplomático está resolviendo un problema operativo real y diario: cómo mantiene un ministro ocupado su propia memoria de trabajo al día y accesible. No está optimizando para la elegancia. Está optimizando para no tener que apagar el sistema.

El investigador está resolviendo un problema arquitectónico: dónde, en la pila, pertenece cada función. Está optimizando para el reparto correcto de la carga de trabajo. El caso de uso del diplomático nunca entra en su análisis.

El fundador, en este caso yo, está resolviendo un problema de restricción: cuál es el conjunto más pequeño de compromisos arquitectónicos que satisfacen una garantía de privacidad estricta sin dejar de ser un producto útil. Otra lente, de nuevo.

Y aun así, todos terminan con: un razonador pequeño, ejecutándose localmente, hablando con una memoria personal curada que vive en el propio hardware del usuario. Tres problemas, tres lentes, una respuesta.

El contraste sigue en pie

Cada IA personal enrutada a la nube en el mercado está haciendo la apuesta opuesta. Según se informa, Apple está a punto de anunciar que Siri enrutará las consultas difíciles a través de Google Gemini. Perplexity vende un producto "Personal Computer" que envía tus datos a sus servidores. Poke recaudó veinticinco millones de dólares para poner un asistente de iMessage en la nube. Cada uno de estos productos tiene un modelo de un billón de parámetros haciendo el razonamiento y una base de datos remota sosteniendo la memoria. Están optimizando la mitad equivocada. El razonador se encoge por un factor de dos cada nueve meses. La memoria es la parte que, para empezar, nunca debió salir de tu dispositivo.

Si la arquitectura sobrevive al escrutinio de tres puntos de vista completamente disjuntos, los competidores enrutados a la nube no solo están haciendo una apuesta distinta. Están construyendo sobre un cimiento que se encoge activamente bajo sus pies.

Dónde nos deja esto

La versión honesta de esta historia es que la arquitectura me la impuso la privacidad, la validó la tendencia coste-calidad, la articuló un investigador, la distribuyó como primitiva un laboratorio de frontera, la evaluó un equipo académico, y ahora la usa un ministro de Asuntos Exteriores para responder preguntas de política en una Raspberry Pi. No predijimos el racimo de validaciones. Simplemente seguimos construyendo, y la validación siguió llegando.

Si ese es el futuro sobre el que quieres apostar, Ostler es la versión de él que vive en tu Mac. El producto está en beta entre amigos. La arquitectura está documentada aquí.

Preguntas, correcciones, desacuerdos – [email protected].