Trois personnes, trois points de vue complètement différents, trois raisons différentes de s'en soucier, et la même réponse architecturale au cours des six derniers mois. Aucune d'elles ne parlait aux autres. Aucune d'elles n'avait la moindre raison de converger vers la même image. Elles l'ont fait quand même.

Ce genre de convergence est rare. C'est aussi le signal le plus fort que l'on puisse obtenir qu'une architecture est réelle et non une mode. Je veux donc exposer qui a dit quoi, pourquoi cela porte, et ce que cela signifie pour quiconque tente de déterminer où va l'IA personnelle.

Le diplomate

Le 26 avril 2026, Vivian Balakrishnan, ministre des Affaires étrangères de Singapour, a publié publiquement sur Facebook à propos d'un système qu'il construisait discrètement. Il l'a appelé un second cerveau pour un diplomate. Il tourne sur un Raspberry Pi sur son bureau. Il compile au fil du temps un graphe de connaissances à partir de ses discours et articles. Il répond à des questions sur son travail, rédige des discours, condense l'information, et se tient à l'intersection de chaque canal de conversation qu'il utilise. Il a écrit une phrase sur ce qu'il en ressent qu'aucune équipe marketing ne pourrait fabriquer :

C'est devenu inestimable – je n'ose pas l'éteindre.

Le ministre est un chirurgien devenu technocrate qui siège au cabinet singapourien depuis deux décennies. Ce n'est pas un amateur. Ce n'est pas non plus quelqu'un qui aurait quoi que ce soit à gagner à soutenir une architecture plutôt qu'une autre. C'est un utilisateur de haut rang qui décrit ce qui fonctionne pour lui, et ce qui fonctionne pour lui, c'est un petit raisonneur tournant localement sur du matériel peu coûteux, collé à un corpus personnel qui ne quitte jamais l'appareil. (Publication Facebook originale.)

L'architecture qu'il décrit n'est pas Ostler. Il utilise NanoClaw, un assistant Claude open source auto-hébergé de Gavriel Cohen, plus le schéma LLM Wiki d'Andrej Karpathy. Runtime différent, matériel physique différent, pays différent, cas d'usage différent. Mais les décisions architecturales sont les mêmes que celles que nous avons prises : le raisonneur est petit et local, la mémoire est la vôtre et vit sur votre matériel, et rien de substantiel ne sort de l'appareil à moins que vous ne choisissiez de l'envoyer.

Ce qui me frappe dans sa publication, c'est le ton opérationnel. Il ne plaide pas pour l'architecture. Il l'utilise, tout simplement, et la phrase qui lui est tombée des doigts portait sur le fait de ne pas vouloir en perdre l'accès. Voilà à quoi ressemble la définition d'une catégorie, vue de l'intérieur.

Le chercheur

Six mois avant la publication du ministre, le 17 octobre 2025, Andrej Karpathy est passé sur le podcast de Dwarkesh Patel et a exposé en détail l'argument du cœur cognitif. Environ 95 % des poids d'un modèle de pointe font un travail de mémorisation qui n'a rien à voir avec le raisonnement. Séparez les deux fonctions, et un petit raisonneur doté d'une mémoire externe curatée bat un monolithe de 1 800 milliards de paramètres sur le travail qui compte réellement pour un seul humain.

Les maths lui donnent raison. Llama 3 compresse ses données d'entraînement à environ 0,07 bit par token. L'anglais bien structuré porte environ 1,5 bit par token. Le modèle de pointe détient une image compressée avec perte du web ouvert, et l'essentiel de cette image est du bruit auquel vous, l'utilisateur, n'avez pas besoin d'accéder. GPT-4o, à environ 200 milliards de paramètres, surpasse déjà le GPT-4 originel à 1 800 milliards. Le coût d'inférence pour une qualité de niveau GPT-3.5 a chuté d'un facteur 280 entre 2022 et 2024. La courbe de tendance est claire et ne ralentit pas.

Karpathy formulait un argument architectural. Il ne construisait pas un produit. Mais l'architecture qu'il décrivait est exactement ce qui tourne sur le Pi du diplomate et sur le Mac de chaque client d'Ostler. (Billet plus long sur l'argument de Karpathy ici.)

Et il n'était pas le seul chercheur à dire cela. Six mois plus tard, le 21 avril 2026, OpenAI a discrètement publié Privacy Filter en poids ouverts sous Apache-2.0. Un spécialiste de 1,5 milliard de paramètres dont le seul travail est de nettoyer les PII du texte sur l'appareil, conçu pour s'insérer devant n'importe quel pipeline local. La thèse du cœur cognitif comme livrable concret, expédiée par l'entreprise dont vous vous y attendriez le moins. (Billet ici.)

Quelques jours après, un article relu par les pairs de l'Université de Nanjing et de ByteDance est paru avec un benchmark. PersonaVLM (arXiv:2604.13074) : un raisonneur de 7 milliards de paramètres doté d'une mémoire personnalisée curatée bat GPT-4o de 5,2 % sur les tâches de personnalisation à long terme. Leur taxonomie de mémoire – centrale, sémantique, procédurale, épisodique – se superpose presque proprement au Personal World Graph qu'Ostler construit déjà. Leur mécanisme d'évolution de la personnalité, un vecteur Big Five à cinq dimensions mis à jour via une moyenne mobile exponentielle au fil des interactions, est une réponse nette à une question que je traînais dans mon propre backlog.

Un chercheur qui articule l'architecture. Un éditeur qui livre une primitive. Une équipe académique qui benchmark une pièce. Tous indépendants. Tous convergents.

Le fondateur

Je suis le troisième point de vue, et le moins faisant autorité des trois. Je ne suis pas chercheur. Je ne suis pas un utilisateur de haut rang avec deux décennies d'expertise opérationnelle dans la fonction publique. Je suis quelqu'un qui a fondé Creative Machines en septembre 2025, a examiné la voie cloud pour l'IA personnelle, et a conclu qu'on ne pouvait pas la faire fonctionner sur l'axe de la confidentialité sans un compromis que je ne pouvais personnellement pas avaler. Alors j'ai construit la version local-first à la place.

Le schéma est sorti des contraintes. Ostler fait tourner un raisonneur de 9 milliards de paramètres sur votre Mac, collé à un graphe de connaissances personnel qui détient vos contacts, votre calendrier, vos messages, votre navigation, vos documents et vos conversations sous forme de mémoire structurée. Le raisonneur prend une question, interroge la mémoire, retourne une réponse. Le raisonneur est interchangeable ; nous le remplacerons par ce qu'il y a de mieux chaque trimestre. La mémoire est la chose que l'utilisateur possède et la chose que la voie cloud ne peut fondamentalement pas répliquer.

Je ne voyais pas cela comme une thèse à l'époque. C'était simplement la seule architecture qui satisfaisait la garantie de confidentialité que je voulais. Le fait que le chercheur le plus cité du domaine, le labo de pointe le plus riche en données, une équipe de recherche de haut niveau en Chine, et le ministre des Affaires étrangères de l'un des gouvernements les plus technocratiques d'Asie soient désormais tous parvenus indépendamment à la même architecture n'est pas un tour d'honneur. C'est la plus forte validation que j'aurais pu demander, venant de personnes qui n'ont aucune raison de confirmer l'hypothèse d'un petit fondateur.

Pourquoi la convergence depuis des points de vue disjoints compte

Si le diplomate était un chercheur, on pourrait appeler cela de la pensée de groupe. Si le chercheur était un éditeur, on pourrait appeler cela du positionnement. Si le fondateur était autre chose qu'un petit acteur avec un budget tenant sur une carte de crédit, on pourrait appeler cela du marketing bien financé. Aucun de ces cadres ne tient quand l'accord vient de trois rôles qui n'ont aucun chevauchement opérationnel.

Le diplomate résout un problème opérationnel réel et quotidien : comment un ministre occupé garde sa propre mémoire de travail à jour et accessible. Il n'optimise pas pour l'élégance. Il optimise pour ne pas avoir à éteindre le système.

Le chercheur résout un problème architectural : où dans la pile chaque fonction a-t-elle sa place. Il optimise pour le bon découpage de la charge de travail. Le cas d'usage du diplomate n'entre jamais dans son analyse.

Le fondateur, en l'occurrence moi, résout un problème de contrainte : quel est le plus petit ensemble d'engagements architecturaux qui satisfont une garantie de confidentialité stricte tout en restant un produit utile. Encore une autre lentille.

Et pourtant, ils aboutissent tous à : un petit raisonneur, tournant localement, parlant à une mémoire personnelle curatée qui vit sur le matériel de l'utilisateur. Trois problèmes, trois lentilles, une réponse.

Le contraste tient toujours

Chaque IA personnelle routée vers le cloud sur le marché fait le pari inverse. Apple s'apprêterait, dit-on, à annoncer que Siri routera les requêtes difficiles via Google Gemini. Perplexity vend un produit "Personal Computer" qui expédie vos données vers leurs serveurs. Poke a levé vingt-cinq millions de dollars pour mettre un assistant iMessage dans le cloud. Chacun de ces produits a un modèle à mille milliards de paramètres faisant le raisonnement et une base de données distante détenant la mémoire. Ils optimisent la mauvaise moitié. Le raisonneur rétrécit d'un facteur deux tous les neuf mois. La mémoire est la partie qui n'aurait jamais dû quitter votre appareil en premier lieu.

Si l'architecture survit à l'examen de trois points de vue complètement disjoints, les concurrents routés vers le cloud ne font pas seulement un pari différent. Ils construisent sur une fondation qui rétrécit activement sous leurs pieds.

Où cela nous mène

La version honnête de cette histoire, c'est que l'architecture m'a été imposée par la confidentialité, validée par la tendance coût-qualité, articulée par un chercheur, expédiée comme primitive par un labo de pointe, benchmarkée par une équipe académique, et est désormais utilisée par un ministre des Affaires étrangères pour répondre à des questions de politique sur un Raspberry Pi. Nous n'avons pas prédit la grappe de validations. Nous avons simplement continué à construire, et la validation a continué d'arriver.

Si c'est l'avenir sur lequel vous voulez parier, Ostler est la version de cet avenir qui vit sur votre Mac. Le produit est en bêta entre amis. L'architecture est documentée ici.

Questions, corrections, désaccords – [email protected].