TL;DR. “Local-first” ist in der persönlichen KI zu einer höflichen Lüge geworden. Die meisten als lokal vermarkteten Produkte halten die Hauptarbeit in Wirklichkeit in der Cloud, mit dem Cache auf Ihrem Gerät. Ostler führt jede Komponente auf einem einzigen Mac aus, dem, der dem Kunden bereits gehört. Das kostet mehr im Bau und ist die einzige ehrliche Antwort auf das Datenschutzversprechen, das diese Kategorie immer wieder gibt. Es gibt auch einen leiseren finanziellen Punkt: Cloud-LLM-Inferenz wird heute stark subventioniert und dürfte weithin teurer werden; lokale Inferenz kostet den Kunden nichts pro Anfrage, heute oder jemals.

“Local-first” ist zu einer höflichen Lüge geworden.

Lesen Sie die Marketingseiten der aktuellen Riege persönlicher KI-Produkte, und Sie werden den Begriff überall finden. Lesen Sie dann die Architekturdiagramme, wenn das Unternehmen großzügig genug ist, eines zu veröffentlichen, und Sie werden einen leisen Roundtrip finden. Ihre Nachrichten werden auf der GPU eines anderen zusammengefasst. Ihre Fotos werden in einem verwalteten Vektordienst eingebettet. Ihre “Memory-Schicht” ist eine kostenpflichtige API irgendwo in us-east-1. Der lokale Teil ist der Cache.

Das ist nicht local-first. Es ist local-cache-first. Der Unterschied ist wichtig, denn der Teil, der über die Leitung geht, ist der Teil, der zählt: Ihre privaten Worte, in einfachem Deutsch, gelesen von einem Modell, das auf einer Maschine läuft, die Ihnen nicht gehört.

Dieser Beitrag handelt davon, was wir stattdessen getan haben, und von den Engineering-Kosten, es auf diese Weise zu tun.

Was Eine-Maschine tatsächlich bedeutet

Wenn wir sagen, dass Ostler auf einer einzigen Maschine läuft, meinen wir das Offensichtliche. Jede Komponente, die Ihre Daten berührt, lebt auf Ihrem Mac. Nicht “lebt auf Ihrem Mac und auch auf unseren Servern”. Nicht “lebt auf Ihrem Mac, es sei denn, das Modell ist zu groß”. Ein Mac. Der, den Sie gekauft haben. Der vor Ihnen.

Konkret ist hier die Fläche, die ausgeliefert wird:

  • Qdrant. Die Vektordatenbank. Embeddings jeder E-Mail, jeder Nachricht und jeder Notiz – indexiert für semantischen Abruf. Läuft als lokaler Prozess. Lauscht auf localhost. Spricht mit nichts anderem.
  • Oxigraph. Der RDF-Graphspeicher. Strukturierte Triples, die Menschen, Organisationen, Themen, Daten, Orte verknüpfen – Ihr Wissensgraph als Tatsache, nicht als Gefühl. Lokaler Prozess. Localhost.
  • Redis. Cache und ein interner Message-Bus für die Ingest-Pipeline. Lokaler Prozess. Localhost.
  • Ollama. Die Modell-Runtime. Beherbergt das lokale LLM (Qwen 3.5 9B, etwa 6,6 GB auf der Festplatte, komfortabel auf Apple Silicon) und das Embedding-Modell (nomic-embed-text). Die Inferenz findet auf der GPU und den neuronalen Kernen Ihrer Maschine statt.
  • Whisper. Speech-to-Text für Sprachnotizen und Anrufaufzeichnungen. Lokal. Das Audio verlässt sie nie.
  • Der Wiki-Compiler. Baut Ihr privates Wiki aus dem Graphen. Markdown raus, in einem Ordner, den Sie im Finder öffnen können. Einundzwanzig Seitentypen, vollständig lokal gerendert.
  • Die Agent-Runtime. Ein Rust-Prozess, der Abruf, Tool-Nutzung und Antwort orchestriert. Lauscht auf Ihre Kanäle (iMessage, WhatsApp, E-Mail, die iOS-App) und leitet an das lokale Modell weiter.
  • Ein verschlüsselter SQLite-Speicher. Nutzerstatus, Vorlieben, Audit-Log. SQLCipher, auf der Festplatte, in Ihrem Home-Verzeichnis.

Das ist der gesamte Stack. Es gibt keinen entfernten Inferenzdienst. Es gibt keine gehostete Vektordatenbank. Es gibt keinen Synchronisierungs-Daemon, der Deltas an ein Backend schickt. Ziehen Sie das Netzwerkkabel aus der Rückseite Ihres Mac, und jeder dieser Dienste läuft weiter. Der Assistent antwortet weiter. Das Wiki rendert weiter. Der Graph wächst weiter, während neue lokale Quellen eingelesen werden.

Die einzigen Pfade von der Maschine weg sind solche, die der Kunde einschaltet. Öffentliche Websuche, ohne angehängten persönlichen Kontext. Apples eigenes iCloud Drive, falls Backups im sichtbaren Dateisystem gewünscht sind. Jeder ist Opt-in, jeder ist auf dem Einstellungsbildschirm benannt, und die Voreinstellung ist keiner.

Der Preis der Ehrlichkeit

Das ist schwieriger zu bauen als die hybride Alternative. Es ist nur fair, das laut auszusprechen.

Greifen Sie zu einem verwalteten Cloud-Modell, und das Inferenzproblem verschwindet. Jemand anderes betreibt das Rechenzentrum, Sie zahlen eine Gebühr pro Anfrage, und Sie müssen nicht darüber nachdenken, ob der Laptop des Kunden ein ansehnliches Modell am Laufen halten kann. Greifen Sie zu einer gehosteten Vektordatenbank, und das Abrufproblem verschwindet ebenfalls. Greifen Sie zu einem Graph-as-a-Service, und das gilt auch für das Beziehungsmodellierungsproblem. Wählen Sie alle drei, und Sie betreiben eine dünne macOS-Hülle über einem Stapel bezahlter Online-Dienste, mit Marketingtexten, die hoffen, dass niemand das Netzwerkprotokoll liest.

Der Ein-Maschine-Pfad bedeutet, dass wir die Runtimes selbst ausliefern. Ollama bündeln. Ein Modell auswählen, das auf einen Verbraucher-Mac passt und trotzdem gute Tool-Aufrufe produziert. Qdrant als Subprozess des Hub-Installers betreiben. Oxigraph versionieren. Die Migrationen schreiben. Jede Abhängigkeit in der Lieferkette besitzen, denn es gibt keine verwaltete Notausstiegsluke, wenn etwas kaputtgeht. Es ist mehr Engineering. Wir halten es für das Engineering, das es wert ist, getan zu werden.

Warum die Alternativen lecken

Es gibt drei Muster, die die benachbarte Kategorie der persönlichen KI heute verwendet, und jedes von ihnen leckt den Teil, der zählt.

Das Hybridmuster. Ein lokales Modell übernimmt “Low-Level-Aufgaben” (Zusammenfassen, Autovervollständigung, Routing) und ein entferntes Modell übernimmt das bedeutsame Reasoning. openhuman, eines der ehrlicheren Produkte in diesem Bereich, liefert genau diese Form aus: lokales LLM für das Einfache, dreißig-plus gebündelte Cloud-Anbieter für das Schwierige. Ihre eigene Positionierungsseite ist darin deutlich. Das architektonische Problem dieses Musters ist, dass das “Schwierige” der Teil ist, der Ihre privaten Daten verwendet. Das billige lokale Modell bekommt Ihre Einkaufsliste. Das teure entfernte Modell bekommt Ihr Therapie-Transkript. Ihre schwersten, persönlichsten Anfragen sind genau die, die die Maschine verlassen. Das kehrt das Datenschutzversprechen um.

Das Cloud-Workspace-Muster. Eine Graphdatenbank mit Agenten obendrauf, gehostet in einem SaaS. Cloud-förmige Wettbewerber in dieser Kategorie zielen auf Wissensarbeiter, die geteilte Arbeitsbereiche aufbauen, nicht auf Einzelpersonen, die versuchen, ihr Leben auf ihrer eigenen Hardware zu behalten. Das architektonische Problem ist, dass der Graph aus Dokumenten gespeist wird, die Sie hochladen. Das Produkt kann strukturell nicht die Daten auf Ihrem Mac erreichen, wie Ostler es kann. Um es zu nutzen, müssen Sie die Daten zuerst übergeben.

Das Mehr-Maschinen-lokal-Muster. Eine Box für den Speicher, eine andere für die Rechenleistung, ein privates Netzwerk dazwischen, ein Homelab in Ihrem Gästezimmer. NovaStation ist das beeindruckende Beispiel dieses Musters: eine persönliche KI-Kommandozentrale, aufgeteilt auf ein MacBook, einen iMac, einen Dell und ein ThinkPad. Das architektonische Problem ist zweifach. Erstens fügt es ein privates Netzwerk hinzu, das gewartet und gesichert werden muss, wo keines nötig war. Zweitens verlangt es vom Kunden, die Arbeit eines Sysadmins zu erledigen. Ich habe selbst ein Jahr lang eine Zwei-Maschinen-Version davon betrieben, bevor ich es produktisierte. Es war eine wunderbare Forschungsumgebung. Es ist nicht das, worin die meisten Menschen leben sollen.

Es gibt noch eine Kostenstelle, die es wert ist, benannt zu werden, und sie ist finanziell statt architektonisch. Cloud-Modell-Inferenz wird heute so bepreist, als wäre Rechenleistung ein Lockvogelangebot. Jeder an ein gehostetes Modell gesendete Prompt kostet den Anbieter echtes Geld, und dieses Geld wird derzeit an die Verbraucher zu stark subventionierten Tarifen weitergegeben, die darauf ausgelegt sind, Gewohnheit aufzubauen. Branchenkommentare erwarten zunehmend, dass diese Preise steigen, sobald genug Nutzer an ein bestimmtes Produkt gebunden sind. Lokale Inferenz hat keine Kosten pro Anfrage. Das Modell läuft auf einer Maschine, die dem Kunden bereits gehört; die Grenzkosten eines weiteren Prompts sind null, heute und an jedem Verlängerungsdatum danach.

Eine-Maschine umgeht alle drei architektonischen Muster oben, und überdies die Kostenentwicklung. Es gibt keine entfernte Inferenz, also gibt es keine Umkehrung des Datenschutzversprechens. Es gibt keinen Cloud-Workspace, also gibt es keinen Upload-Schritt. Es gibt kein Homelab-Netzwerk zu warten, also gibt es keine zusätzliche Angriffsfläche und keine Sysadmin-Steuer.

Eine einzige Wahrheitsquelle

Es gibt einen leiseren Vorteil der Ein-Maschine-Form, der nicht im Marketing auftaucht.

Wenn es eine Maschine gibt, gibt es eine Kopie Ihrer Daten. Ihr Speicher ist die Festplatte vor Ihnen und sonst nichts. Es gibt keinen Sync-Konflikt. Es gibt kein Eventual-Consistency-Fenster. Es gibt kein “der Laptop sagt das eine und die Cloud sagt das andere, welches ist aktuell?” Die Festplatte ist die Antwort.

Das klingt trivial, bis man in der anderen Welt gelebt hat. Jeder, der versucht hat, Notizen über drei Geräte synchron zu halten, oder bei dem sich ein Kalendereintrag stillschweigend selbst ent-storniert hat, weil zwei Replikate sich uneinig waren, kennt den Preis verteilter Wahrheit. Persönliche Daten sind für diese Klasse von Bugs einzigartig empfindlich. Die richtige Schlussfolgerung auf veraltetem Speicher ist immer noch eine falsche Antwort.

Eine Maschine. Eine Kopie. Eine Wahrheitsquelle. Das System kann sich darüber irren, was Sie wollten, aber es kann nicht verwirrt darüber sein, was es hat.

Der Schluss

The world does revolve around you.™ Ihr Wissen sollte es auch.

Nicht Ihr Wissen im Rechenzentrum eines anderen, hilfreich auf Ihrem Laptop zwischengespeichert. Nicht Ihr Wissen in einer hybriden Pipeline, die die sensiblen Teile über die Leitung flüstert. Ihr Wissen, auf Ihrer Maschine, wo Sie das Kabel ziehen und zusehen können, wie es weiterläuft.

Das ist die Messlatte. Eine Maschine. Ein Kunde. Eine einzige Wahrheitsquelle. Alles andere ist local-cache-first im Kostüm.

Fragen, Korrekturen, Widerspruch – [email protected].