TL;DR. “Local-first” est devenu un mensonge poli dans l'IA personnelle. La plupart des produits commercialisés comme locaux gardent en réalité le gros du travail dans le cloud, avec le cache sur votre appareil. Ostler exécute chaque composant sur une seule machine Mac, celle que le client possède déjà. Cela coûte plus cher à construire, et c'est la seule réponse honnête à la promesse de confidentialité que cette catégorie n'arrête pas de faire. Il y a aussi un point financier plus discret : l'inférence par LLM cloud est aujourd'hui fortement subventionnée, et l'on s'attend largement à ce qu'elle devienne plus chère ; l'inférence locale ne coûte rien au client par requête, aujourd'hui comme toujours.

“Local-first” est devenu un mensonge poli.

Lisez les pages marketing de la fournée actuelle de produits d'IA personnelle et vous trouverez l'expression partout. Lisez ensuite les schémas d'architecture, quand l'entreprise est assez généreuse pour en publier un, et vous trouverez un aller-retour discret. Vos messages sont résumés sur le GPU de quelqu'un d'autre. Vos photos sont vectorisées dans un service de vecteurs géré. Votre “couche mémoire” est une API payante quelque part dans us-east-1. La partie locale, c'est le cache.

Ce n'est pas du local-first. C'est du local-cache-first. La différence compte, car la partie qui passe sur le fil est la partie qui compte : vos mots privés, en clair, lus par un modèle tournant sur une machine que vous ne possédez pas.

Ce billet parle de ce que nous avons fait à la place, et du coût d'ingénierie de le faire de cette manière.

Ce que machine-unique signifie vraiment

Quand nous disons qu'Ostler tourne sur une seule machine, nous voulons dire la chose évidente. Chaque composant qui touche vos données vit sur votre Mac. Pas “vit sur votre Mac et aussi sur nos serveurs”. Pas “vit sur votre Mac sauf si le modèle est trop gros”. Un Mac. Celui que vous avez acheté. Celui qui est devant vous.

Concrètement, voici la surface qui est livrée :

  • Qdrant. La base de données de vecteurs. Des vecteurs de chaque e-mail, message et note – indexés pour la recherche sémantique. Tourne comme un processus local. Écoute sur localhost. Ne parle à rien d'autre.
  • Oxigraph. Le magasin de graphe RDF. Des triplets structurés reliant personnes, organisations, sujets, dates, lieux – votre graphe de connaissances comme un fait, pas une impression. Processus local. Localhost.
  • Redis. Cache et un bus de messages interne pour le pipeline d'ingestion. Processus local. Localhost.
  • Ollama. Le runtime du modèle. Héberge le LLM local (Qwen 3.5 9B, environ 6,6 Go sur le disque, à l'aise sur Apple Silicon) et le modèle d'embedding (nomic-embed-text). L'inférence se fait sur le GPU et les cœurs neuronaux de votre machine.
  • Whisper. Reconnaissance vocale pour les notes vocales et les enregistrements d'appels. Local. L'audio ne part jamais.
  • Le compilateur de wiki. Construit votre wiki privé à partir du graphe. Du Markdown en sortie, dans un dossier que vous pouvez ouvrir dans le Finder. Vingt et un types de pages, entièrement rendus localement.
  • Le runtime de l'agent. Un processus Rust qui orchestre la récupération, l'usage d'outils et la réponse. Écoute vos canaux (iMessage, WhatsApp, e-mail, l'app iOS) et route vers le modèle local.
  • Un magasin SQLite chiffré. État utilisateur, préférences, journal d'audit. SQLCipher, sur le disque, dans votre répertoire personnel.

C'est l'intégralité de la pile. Il n'y a aucun service d'inférence distant. Il n'y a aucune base de données de vecteurs hébergée. Il n'y a aucun démon de synchronisation envoyant des deltas à un backend. Débranchez le câble réseau à l'arrière de votre Mac et chacun de ces services continue de tourner. L'assistant continue de répondre. Le wiki continue de s'afficher. Le graphe continue de croître à mesure que de nouvelles sources locales sont ingérées.

Les seuls chemins hors de la machine sont ceux que le client active. La recherche web publique, sans aucun contexte personnel attaché. L'iCloud Drive d'Apple lui-même si l'on veut des sauvegardes dans le système de fichiers visible. Chacun est opt-in, chacun est nommé sur l'écran des réglages, et la valeur par défaut est aucun.

Le coût de l'honnêteté

C'est plus difficile à construire que l'alternative hybride. Il est juste de le dire à voix haute.

Optez pour un modèle cloud géré et le problème d'inférence disparaît. Quelqu'un d'autre exploite le centre de données, vous payez des frais par requête, et vous n'avez pas à vous demander si le portable du client peut faire tourner un modèle d'une taille respectable. Optez pour une base de données de vecteurs hébergée et le problème de récupération disparaît aussi. Optez pour un graphe-en-tant-que-service et il en va de même pour le problème de modélisation des relations. Choisissez les trois et vous faites tourner une mince coquille macOS au-dessus d'une pile de services en ligne payants, avec un argumentaire qui espère que personne ne lit le journal réseau.

Le chemin de la machine unique signifie livrer les runtimes nous-mêmes. Embarquer Ollama. Choisir un modèle qui tient sur un Mac grand public tout en produisant de bons appels d'outils. Faire tourner Qdrant comme un sous-processus de l'installateur du Hub. Versionner Oxigraph. Écrire les migrations. Posséder chaque dépendance de la chaîne d'approvisionnement, car il n'y a pas d'échappatoire gérée quand quelque chose casse. C'est plus d'ingénierie. Nous pensons que c'est l'ingénierie qui en vaut la peine.

Pourquoi les alternatives fuient

Il y a trois schémas que la catégorie voisine de l'IA personnelle emploie aujourd'hui, et chacun d'eux fait fuir la partie qui compte.

Le schéma hybride. Un modèle local gère les “tâches de bas niveau” (résumé, autocomplétion, routage) et un modèle distant gère le raisonnement significatif. openhuman, l'un des produits les plus honnêtes de cet espace, livre exactement cette forme : LLM local pour le facile, plus de trente fournisseurs cloud embarqués pour le difficile. Leur propre page de positionnement est claire là-dessus. Le problème architectural de ce schéma est que le “difficile” est la partie qui utilise vos données privées. Le modèle local et bon marché reçoit votre liste de courses. Le modèle distant et coûteux reçoit la transcription de votre thérapie. Vos requêtes les plus difficiles et les plus personnelles sont précisément celles qui quittent la machine. Cela inverse la promesse de confidentialité.

Le schéma de l'espace de travail cloud. Une base de données de graphe avec des agents par-dessus, hébergée dans un SaaS. Les concurrents de forme cloud dans cette catégorie visent les travailleurs du savoir qui construisent des espaces de travail partagés, pas les individus qui essaient de garder leur vie sur leur propre matériel. Le problème architectural est que le graphe est alimenté par des documents que vous téléversez. Le produit ne peut structurellement pas atteindre les données sur votre Mac comme Ostler le peut. Pour l'utiliser, vous devez d'abord remettre les données.

Le schéma local multi-machines. Une box pour le stockage, une autre pour le calcul, un réseau privé entre elles, un homelab dans votre chambre d'amis. NovaStation est l'exemple impressionnant de ce schéma : un centre de commande d'IA personnel réparti entre un MacBook, un iMac, un Dell et un ThinkPad. Le problème architectural est double. Premièrement, il ajoute un réseau privé à maintenir et sécuriser là où aucun n'était nécessaire. Deuxièmement, il demande au client de faire le travail d'un administrateur système. J'ai moi-même fait tourner une version à deux machines de cela pendant un an avant de la produitiser. C'était un merveilleux environnement de recherche. Ce n'est pas là où nous voulons que la plupart des gens vivent.

Il y a un coût de plus qui mérite d'être nommé, et il est financier plutôt qu'architectural. L'inférence par modèle cloud est tarifée aujourd'hui comme si le calcul était un produit d'appel. Chaque prompt envoyé à un modèle hébergé coûte de l'argent réel au fournisseur, et cet argent est actuellement répercuté sur les consommateurs à des tarifs fortement subventionnés conçus pour créer l'habitude. Les commentateurs du secteur s'attendent de plus en plus à ce que ces prix montent une fois qu'assez d'utilisateurs sont engagés sur un produit donné. L'inférence locale n'a aucun coût par requête. Le modèle tourne sur une machine que le client possède déjà ; le coût marginal d'un prompt de plus est nul, aujourd'hui et à chaque date de renouvellement par la suite.

La machine unique contourne les trois schémas architecturaux ci-dessus, et la trajectoire de coût en prime. Il n'y a pas d'inférence distante, donc pas d'inversion de la promesse de confidentialité. Il n'y a pas d'espace de travail cloud, donc pas d'étape de téléversement. Il n'y a pas de réseau homelab à maintenir, donc pas de surface d'attaque supplémentaire ni de taxe d'administration système.

Une seule source de vérité

Il y a un bénéfice plus discret à la forme machine-unique qui n'apparaît pas dans le marketing.

Quand il y a une machine, il y a une copie de vos données. Votre mémoire, c'est le disque devant vous, et rien d'autre. Il n'y a pas de conflit de synchronisation. Il n'y a pas de fenêtre de cohérence à terme. Il n'y a pas de “le portable dit une chose et le cloud en dit une autre, lequel fait foi ?” Le disque est la réponse.

Cela paraît trivial jusqu'à ce que vous ayez vécu dans l'autre monde. Quiconque a essayé de garder des notes synchronisées sur trois appareils, ou a vu un événement de calendrier se dé-annuler silencieusement parce que deux répliques étaient en désaccord, connaît le coût de la vérité distribuée. Les données personnelles sont singulièrement sensibles à cette classe de bug. La bonne inférence sur une mémoire périmée reste une mauvaise réponse.

Une machine. Une copie. Une source de vérité. Le système peut se tromper sur ce que vous vouliez, mais il ne peut pas être confus sur ce qu'il a.

La conclusion

The world does revolve around you.™ Votre savoir aussi devrait.

Pas votre savoir dans le centre de données de quelqu'un d'autre, utilement mis en cache sur votre portable. Pas votre savoir dans un pipeline hybride qui murmure les bouts sensibles sur le fil. Votre savoir, sur votre machine, là où vous pouvez débrancher le câble et le regarder continuer de fonctionner.

C'est la barre. Une seule machine. Un seul client. Une seule source de vérité. Tout le reste, c'est du local-cache-first déguisé.

Questions, corrections, désaccords – [email protected].