En el pódcast de Dwarkesh Patel el 17 de octubre de 2025, Andrej Karpathy expuso cómo cree que será la próxima arquitectura para la IA personal. Un razonador pequeño. Una memoria externa. Los dos unidos por la recuperación.
Lo escuché dando un paseo. Al final me estaba riendo, porque estaba describiendo el sistema que llevaba un mes funcionando en la Mac Mini de mi escritorio.
Esta entrada no es una vuelta de honor. Karpathy llegó primero en público, y se ha ganado el derecho de fijar el marco. Lo que quiero hacer es repasar su argumento, mapearlo sobre lo que Ostler ya hace, y ser honesto sobre lo que esto significa para cualquiera que esté construyendo en este espacio.
El argumento, en lenguaje llano
La afirmación de Karpathy es que aproximadamente el 95 % de los pesos de un modelo de vanguardia están memorizando – cotizaciones bursátiles, HTML roto, spam de foros, galimatías autogenerado raspado de la web abierta. Solo alrededor del 5 % hace razonamiento real. La arquitectura es ineficiente por diseño, porque nadie se ha molestado en separar las dos tareas.
Sepáralas, dice, y un razonador de mil millones de parámetros con una buena capa de recuperación supera a un modelo de 1,8 billones de parámetros que intenta hacer ambas cosas. Es una afirmación de compresión de aproximadamente 1.800x, y las cuentas son defendibles. Llama 3 comprime sus datos de entrenamiento a algo así como 0,07 bits por token. El inglés bien estructurado transporta alrededor de 1,5 bits por token. El modelo de un billón de parámetros sostiene una imagen comprimida de baja resolución del internet en el que fue entrenado, y la mayor parte de esa imagen es ruido.
La dirección del viaje ya está establecida. GPT-4o, con unos 200 mil millones de parámetros, supera al GPT-4 original de 1,8 billones. El coste de inferencia para una calidad de nivel GPT-3.5 cayó por un factor de 280 entre 2022 y 2024. Modelos más pequeños, más limpios y mejor arquitecturados siguen ganando.
La arquitectura correcta separa el razonador de la memoria. El razonador se mantiene pequeño. La memoria es lo que tú cures.
Cómo se ve esto en Ostler
Llevamos enviando el patrón cognitive-core desde que fundé Creative Machines en septiembre de 2025. Simplemente todavía no se llamaba así.
El razonador es un modelo open-weight de 9 mil millones de parámetros que corre en local en tu Mac. Hoy es Qwen 3.5 9B. El próximo trimestre será algo mejor. Los pesos son intercambiables porque el razonador tiene exactamente un trabajo: tomar una pregunta, consultar la memoria, devolver una respuesta. No necesita saber a cuánto cerró el Dow en 2017. Necesita saber cómo pensar.
La memoria es tu Personal World Graph. Tus contactos, tu calendario, tus mensajes, tu historial de navegación, tus documentos, tus conversaciones, todo estructurado en nodos y aristas e incrustaciones vectoriales. Un almacén de vectores para la búsqueda por similitud. Un grafo RDF para las relaciones. Un archivo SQLite para todo lo demás. Sin lastre enciclopédico. Nada sobre nadie que no esté en tu vida.
Cuando le haces una pregunta a Ostler, el razonador consulta la memoria, recupera una porción enfocada de tu vida real, y responde a partir de ahí. El razonador hace el razonamiento. El grafo hace el recordar. El mismo patrón que describió Karpathy.
Por qué esto importa estratégicamente
De esto se desprenden dos consecuencias que no creo que se aprecien todavía de forma generalizada.
La primera es que los modelos locales están alcanzando el ritmo más rápido de lo que nadie fuera de este espacio se da cuenta. La tendencia coste-calidad de 280x no se está ralentizando. Un modelo 9B corriendo hoy en una Mac Mini está aproximadamente donde estaba GPT-3.5 hace dos años. A la misma trayectoria, el 9B del año que viene corre a la calidad del 30B de hoy por el mismo coste energético. Nuestro producto se vuelve más inteligente mientras dormimos, y no tenemos que cambiar una línea de código para que eso ocurra. Simplemente intercambiamos los pesos.
La segunda es que la memoria es el foso, no el modelo. No entrenamos modelos. No tenemos un presupuesto de cómputo de diez cifras. Nunca superaremos a OpenAI en GPU. Pero OpenAI no puede ver los hilos de WhatsApp que me importan esta semana, ni la cadena de correos con un colaborador al que ahora quiero volver a contactar, ni las notas de una reunión de hace seis meses a las que necesito referirme hoy. Ese corpus existe solo en mi hardware. Un laboratorio de vanguardia no puede reproducirlo porque no tiene consentimiento para extraer mi vida. Nadie lo tiene salvo yo.
La arquitectura de Karpathy convierte al razonador en un producto básico. Está bien. Nunca íbamos a ganar con el razonador. Vamos a ganar con la memoria, y la memoria solo funciona si se queda en tu máquina.
Y la validación ha seguido llegando
En abril de 2026, OpenAI publicó discretamente Privacy Filter como open weights Apache-2.0 – un modelo especialista de 1,5 mil millones de parámetros cuyo único trabajo es depurar información personal identificable del texto antes de que salga del dispositivo. La tesis cognitive-core como entregable concreto, enviado por la empresa de la que menos lo esperarías. (Lo estamos integrando en el pipeline de Ostler esta semana; entrada aparte aquí.)
Unos días después, un artículo revisado por pares de la Universidad de Nanjing y ByteDance aterrizó con un benchmark detrás del mismo argumento. PersonaVLM (arXiv 2604.13074): un razonador de 7 mil millones de parámetros con una memoria personalizada curada supera a GPT-4o en un 5,2 % en tareas de personalización a largo plazo. Su taxonomía de memoria – core, semantic, procedural, episodic – se mapea casi limpiamente sobre el Personal World Graph que Ostler ya construye. Su mecanismo de evolución de personalidad (un vector Big Five de cinco dimensiones actualizado mediante media móvil exponencial a lo largo de las interacciones) es una respuesta limpia a una pregunta que llevaba en mi propio backlog desde 2024.
Seis meses. Tres respaldos independientes – uno de un antiguo miembro fundador de OpenAI, uno de la propia OpenAI, uno de un equipo académico revisado por pares. La arquitectura por la que aposté a finales de 2025 ya no es mía para defenderla.
El contraste con la IA personal enrutada a la nube
Según se informa, Apple está a punto de anunciar que Siri enrutará las consultas difíciles a través de Google Gemini. El producto "Personal Computer" de Perplexity anuncia un hub Mac Mini que reenvía tus datos a sus servidores para procesarlos. Poke recaudó 25 millones de dólares para construir un asistente de iMessage que vive en la nube.
Cada uno de estos productos tiene un modelo de un billón de parámetros haciendo el razonamiento y una base de datos en la nube sosteniendo la memoria. Están optimizando la mitad equivocada. El razonador ya se está haciendo más pequeño cada trimestre. La memoria es la parte que nunca debió salir de tu dispositivo en primer lugar.
Si Karpathy tiene razón sobre la arquitectura – y la curva coste-calidad dice que la tiene – entonces los asistentes personales enrutados a la nube están construyendo sobre un cimiento que se encoge activamente bajo ellos. No necesitas su modelo de 1,8 billones de parámetros para responder "¿cuándo vi a James por última vez?". Necesitas un razonador pequeño y tu propio calendario.
Hacia dónde vamos a partir de aquí
No voy a afirmar que vimos esto venir desde el principio con la claridad de un Karpathy. No lo hicimos. Lo construimos así porque la ruta de la nube era inviable por motivos de privacidad, y porque Apple Silicon hizo la inferencia local lo bastante barata como para intentarlo de verdad. La arquitectura surgió de las restricciones.
Lo que sí afirmaré es que las restricciones eran las correctas. La privacidad nos empujó al patrón cognitive-core antes de que tuviera nombre. Ahora tiene nombre, y un investigador muy conocido ha defendido el caso en público, y nuestro trabajo es seguir construyendo la mitad de la memoria mientras la comunidad open-weights nos entrega gratis la mitad del razonador cada tres meses.
Si ese es el futuro por el que quieres apostar, el producto está en beta para amigos. Puedes leer sobre la arquitectura aquí.
Preguntas, correcciones, desacuerdos – [email protected].