Dans le podcast de Dwarkesh Patel le 17 octobre 2025, Andrej Karpathy a exposé ce qu'il pense être la prochaine architecture pour l'IA personnelle. Un petit raisonneur. Une mémoire externe. Les deux reliés par la récupération.
Je l'ai écouté lors d'une promenade. À la fin, je riais, parce qu'il décrivait le système qui tournait sur le Mac Mini posé sur mon bureau depuis le mois précédent.
Ce billet n'est pas un tour d'honneur. Karpathy y est arrivé le premier en public, et il a gagné le droit de poser le cadre. Ce que je veux faire, c'est parcourir son argument, le mettre en regard de ce qu'Ostler fait déjà, et être honnête sur ce que cela signifie pour quiconque construit dans cet espace.
L'argument, en clair
L'affirmation de Karpathy est qu'environ 95 % des poids d'un modèle de pointe font de la mémorisation – cours de bourse, HTML cassé, spam de forum, charabia autogénéré récupéré sur le web ouvert. Seuls 5 % environ font du véritable raisonnement. L'architecture est inefficace par conception, parce que personne ne s'est donné la peine de séparer les deux tâches.
Séparez-les, dit-il, et un raisonneur d'un milliard de paramètres avec une bonne couche de récupération bat un modèle de 1,8 billion de paramètres qui essaie de faire les deux. C'est une affirmation de compression d'environ 1 800x, et les calculs sont défendables. Llama 3 compresse ses données d'entraînement à environ 0,07 bit par token. L'anglais bien structuré porte environ 1,5 bit par token. Le modèle à mille milliards de paramètres détient une image compressée à basse résolution de l'internet sur lequel il a été entraîné, et la majeure partie de cette image est du bruit.
La direction est déjà établie. GPT-4o, à environ 200 milliards de paramètres, surpasse le GPT-4 original à 1,8 billion. Le coût d'inférence pour une qualité de niveau GPT-3.5 a chuté d'un facteur 280 entre 2022 et 2024. Des modèles plus petits, plus propres et mieux architecturés continuent de gagner.
La bonne architecture sépare le raisonneur de la mémoire. Le raisonneur reste petit. La mémoire est ce que vous curatez.
À quoi cela ressemble dans Ostler
Nous livrons le modèle cognitive-core depuis que j'ai fondé Creative Machines en septembre 2025. Il n'avait simplement pas encore ce nom.
Le raisonneur est un modèle open-weight de 9 milliards de paramètres tournant localement sur votre Mac. Aujourd'hui, c'est Qwen 3.5 9B. Le trimestre prochain, ce sera quelque chose de mieux. Les poids sont interchangeables parce que le raisonneur a exactement un seul travail : prendre une question, consulter la mémoire, renvoyer une réponse. Il n'a pas besoin de savoir à combien le Dow a clôturé en 2017. Il a besoin de savoir comment penser.
La mémoire est votre Personal World Graph. Vos contacts, votre calendrier, vos messages, votre historique de navigation, vos documents, vos conversations, tout structuré en nœuds, arêtes et embeddings vectoriels. Un magasin de vecteurs pour la recherche de similarité. Un graphe RDF pour les relations. Un fichier SQLite pour tout le reste. Pas de lest encyclopédique. Rien sur quiconque ne fait pas partie de votre vie.
Quand vous posez une question à Ostler, le raisonneur interroge la mémoire, récupère une tranche ciblée de votre vie réelle, et répond à partir de là. Le raisonneur fait le raisonnement. Le graphe fait la mémorisation. Le même modèle que celui décrit par Karpathy.
Pourquoi cela compte stratégiquement
Deux conséquences en découlent que je ne pense pas être largement appréciées encore.
La première est que les modèles locaux rattrapent leur retard plus vite que quiconque en dehors de cet espace ne le réalise. La tendance coût-qualité de 280x ne ralentit pas. Un modèle 9B tournant aujourd'hui sur un Mac Mini se situe à peu près là où était GPT-3.5 il y a deux ans. À la même trajectoire, le 9B de l'année prochaine tourne à la qualité du 30B d'aujourd'hui pour le même coût énergétique. Notre produit devient plus intelligent pendant que nous dormons, et nous n'avons pas à changer une ligne de code pour que cela arrive. Nous échangeons simplement les poids.
La seconde est que la mémoire est le rempart, pas le modèle. Nous n'entraînons pas de modèles. Nous n'avons pas un budget de calcul à dix chiffres. Nous ne dépasserons jamais OpenAI en matière de GPU. Mais OpenAI ne peut pas voir les fils WhatsApp qui comptent pour moi cette semaine, ni la chaîne d'e-mails avec un collaborateur que je veux maintenant recontacter, ni les notes de réunion d'il y a six mois auxquelles j'ai besoin de me référer aujourd'hui. Ce corpus n'existe que sur mon matériel. Un laboratoire de pointe ne peut pas le reproduire parce qu'il n'a pas le consentement d'extraire ma vie. Personne ne l'a sauf moi.
L'architecture de Karpathy fait du raisonneur une marchandise. C'est bien. Nous n'allions jamais gagner sur le raisonneur. Nous allons gagner sur la mémoire, et la mémoire ne fonctionne que si elle reste sur votre machine.
Et la validation a continué d'arriver
En avril 2026, OpenAI a discrètement publié Privacy Filter en open weights Apache-2.0 – un modèle spécialiste de 1,5 milliard de paramètres dont l'unique travail est de nettoyer les informations personnellement identifiables du texte avant qu'il ne quitte l'appareil. La thèse cognitive-core comme livrable concret, livrée par l'entreprise dont on s'y attendrait le moins. (Nous l'intégrons dans le pipeline d'Ostler cette semaine ; billet séparé ici.)
Quelques jours plus tard, un article évalué par les pairs de l'Université de Nanjing et de ByteDance a débarqué avec un benchmark derrière le même argument. PersonaVLM (arXiv 2604.13074) : un raisonneur de 7 milliards de paramètres avec une mémoire personnalisée curatée bat GPT-4o de 5,2 % sur les tâches de personnalisation à long terme. Leur taxonomie de mémoire – core, semantic, procedural, episodic – se calque presque proprement sur le Personal World Graph qu'Ostler construit déjà. Leur mécanisme d'évolution de la personnalité (un vecteur Big Five à cinq dimensions mis à jour via une moyenne mobile exponentielle au fil des interactions) est une réponse nette à une question que je traînais dans mon propre backlog depuis 2024.
Six mois. Trois soutiens indépendants – un d'un ancien membre fondateur d'OpenAI, un d'OpenAI elle-même, un d'une équipe universitaire évaluée par les pairs. L'architecture sur laquelle j'ai parié fin 2025 n'est plus la mienne à défendre.
Le contraste avec l'IA personnelle routée vers le cloud
Apple serait sur le point d'annoncer que Siri acheminera les requêtes difficiles via Google Gemini. Le produit "Personal Computer" de Perplexity fait la publicité d'un hub Mac Mini qui transfère vos données vers leurs serveurs pour traitement. Poke a levé 25 millions de dollars pour construire un assistant iMessage qui vit dans le cloud.
Chacun de ces produits possède un modèle à mille milliards de paramètres qui fait le raisonnement et une base de données cloud qui détient la mémoire. Ils optimisent la mauvaise moitié. Le raisonneur rétrécit déjà chaque trimestre. La mémoire est la partie qui n'aurait jamais dû quitter votre appareil en premier lieu.
Si Karpathy a raison au sujet de l'architecture – et la courbe coût-qualité dit qu'il a raison – alors les assistants personnels routés vers le cloud construisent sur une fondation qui rétrécit activement sous eux. Vous n'avez pas besoin de leur modèle de 1,8 billion de paramètres pour répondre à "quand ai-je vu James pour la dernière fois ?". Vous avez besoin d'un petit raisonneur et de votre propre calendrier.
Où nous allons à partir d'ici
Je ne vais pas prétendre que nous avons vu cela venir dès le départ avec la clarté d'un Karpathy. Ce n'est pas le cas. Nous l'avons construit ainsi parce que la voie cloud était un non-démarrage pour des raisons de confidentialité, et parce qu'Apple Silicon a rendu l'inférence locale assez bon marché pour réellement essayer. L'architecture a découlé des contraintes.
Ce que je vais affirmer, c'est que les contraintes étaient les bonnes. La confidentialité nous a poussés dans le modèle cognitive-core avant qu'il n'ait un nom. Maintenant il a un nom, et un chercheur très connu a plaidé pour lui en public, et notre travail est de continuer à développer la moitié mémoire pendant que la moitié raisonneur nous est remise gratuitement par la communauté open-weights tous les trois mois.
Si c'est l'avenir sur lequel vous voulez parier, le produit est en bêta entre amis. Vous pouvez lire sur l'architecture ici.
Questions, corrections, désaccords – [email protected].