Drei Menschen, drei völlig verschiedene Blickwinkel, drei verschiedene Gründe, sich darum zu kümmern, und dieselbe architektonische Antwort über die letzten sechs Monate. Keiner von ihnen sprach mit den anderen. Keiner von ihnen hatte irgendeinen Grund, auf dasselbe Bild zuzulaufen. Sie taten es trotzdem.
Diese Art von Konvergenz ist selten. Sie ist auch das stärkste Signal, das man bekommen kann, dass eine Architektur real ist und keine Mode. Daher möchte ich darlegen, wer was gesagt hat, warum es trifft, und was es für jeden bedeutet, der herauszufinden versucht, wohin sich persönliche KI bewegt.
Der Diplomat
Am 26. April 2026 postete Vivian Balakrishnan, Singapurs Außenminister, öffentlich auf Facebook über ein System, das er still und leise gebaut hatte. Er nannte es ein zweites Gehirn für einen Diplomaten. Es läuft auf einem Raspberry Pi auf seinem Schreibtisch. Es kompiliert mit der Zeit einen Wissensgraphen aus seinen Reden und Artikeln. Es beantwortet Fragen zu seiner Arbeit, entwirft Reden, verdichtet Informationen und sitzt an der Schnittstelle jedes Gesprächskanals, den er nutzt. Er schrieb eine Zeile darüber, wie er dazu steht, die kein Marketingteam fabrizieren könnte:
Es ist unverzichtbar geworden – ich wage nicht, es abzuschalten.
Der Minister ist ein zum Technokraten gewordener Chirurg, der seit zwei Jahrzehnten im singapurischen Kabinett ist. Er ist kein Hobbyist. Er ist auch niemand, der etwas davon hat, eine Architektur über eine andere zu befürworten. Er ist ein hochrangiger Nutzer, der beschreibt, was für ihn funktioniert, und was für ihn funktioniert, ist ein kleiner Reasoner, der lokal auf günstiger Hardware läuft, verklebt mit einem persönlichen Korpus, der das Gerät nie verlässt. (Originaler Facebook-Beitrag.)
Die Architektur, die er beschreibt, ist nicht Ostler. Er verwendet NanoClaw, einen quelloffenen selbstgehosteten Claude-Assistenten von Gavriel Cohen, plus das LLM-Wiki-Muster von Andrej Karpathy. Andere Runtime, andere physische Hardware, anderes Land, anderer Anwendungsfall. Aber die architektonischen Entscheidungen sind dieselben wie die, die wir getroffen haben: der Reasoner ist klein und lokal, der Speicher gehört Ihnen und lebt auf Ihrer Hardware, und nichts Wesentliches fließt aus dem Gerät hinaus, es sei denn, Sie entscheiden sich, es zu senden.
Was mich an seinem Beitrag beeindruckt, ist der operative Ton. Er argumentiert nicht für die Architektur. Er verwendet sie einfach, und der Satz, der ihm beim Tippen herausfiel, handelte davon, den Zugang dazu nicht verlieren zu wollen. So fühlt sich kategoriedefinierend von innen an.
Der Forscher
Sechs Monate vor dem Beitrag des Ministers, am 17. Oktober 2025, ging Andrej Karpathy in Dwarkesh Patels Podcast und legte das Argument des kognitiven Kerns im Detail dar. Rund 95 % der Gewichte eines Frontier-Modells leisten Memorierungsarbeit, die nichts mit Reasoning zu tun hat. Trennt man die beiden Funktionen auseinander, schlägt ein kleiner Reasoner mit einem kuratierten externen Speicher einen Monolithen mit 1,8 Billionen Parametern bei der Arbeit, die für einen einzelnen Menschen tatsächlich zählt.
Die Mathematik gibt ihm Recht. Llama 3 komprimiert seine Trainingsdaten mit etwa 0,07 Bit pro Token. Gut strukturiertes Englisch trägt rund 1,5 Bit pro Token. Das Frontier-Modell hält ein verlustbehaftet komprimiertes Abbild des offenen Webs, und das meiste dieses Abbilds ist Rauschen, auf das Sie, der Nutzer, nicht zugreifen müssen. GPT-4o mit rund 200 Milliarden Parametern übertrifft bereits das ursprüngliche GPT-4 mit 1,8 Billionen. Die Inferenzkosten für Qualität auf GPT-3.5-Niveau fielen zwischen 2022 und 2024 um den Faktor 280. Die Trendlinie ist klar und verlangsamt sich nicht.
Karpathy machte ein architektonisches Argument. Er baute kein Produkt. Aber die Architektur, die er beschrieb, ist genau das, was auf dem Pi des Diplomaten und auf dem Mac jedes Ostler-Kunden läuft. (Längerer Beitrag zu Karpathys Argument hier.)
Und er war nicht der einzige Forscher, der das sagte. Sechs Monate später, am 21. April 2026, veröffentlichte OpenAI still und leise Privacy Filter als Apache-2.0 offene Gewichte. Ein Spezialist mit 1,5 Milliarden Parametern, dessen ganze Aufgabe es ist, PII auf dem Gerät aus Text zu säubern, ausgelegt, sich vor jede lokale Pipeline zu setzen. Die These vom kognitiven Kern als konkretes Lieferergebnis, ausgeliefert von dem Unternehmen, von dem Sie es am wenigsten erwarten würden. (Beitrag hier.)
Ein paar Tage danach erschien ein begutachtetes Paper der Universität Nanjing und von ByteDance mit einem Benchmark. PersonaVLM (arXiv:2604.13074): ein Reasoner mit 7 Milliarden Parametern und einem kuratierten personalisierten Speicher schlägt GPT-4o bei Langzeit-Personalisierungsaufgaben um 5,2 %. Ihre Speicher-Taxonomie – Kern, semantisch, prozedural, episodisch – bildet sich fast sauber auf den Personal World Graph ab, den Ostler bereits baut. Ihr Mechanismus zur Persönlichkeitsentwicklung, ein fünfdimensionaler Big-Five-Vektor, der über die Interaktionen hinweg per exponentiell gleitendem Durchschnitt aktualisiert wird, ist eine saubere Antwort auf eine Frage, die ich in meinem eigenen Backlog mit mir herumgetragen hatte.
Ein Forscher, der die Architektur formuliert. Ein Anbieter, der ein Primitiv ausliefert. Ein akademisches Team, das ein Teil benchmarkt. Alle unabhängig. Alle konvergierend.
Der Gründer
Ich bin der dritte Blickwinkel und der am wenigsten maßgebliche der drei. Ich bin kein Forscher. Ich bin kein hochrangiger Nutzer mit zwei Jahrzehnten öffentlich-dienstlicher operativer Expertise. Ich bin jemand, der Creative Machines im September 2025 gründete, sich den Cloud-Weg für persönliche KI ansah und zu dem Schluss kam, dass er nicht auf der Privatsphärenachse zum Funktionieren gebracht werden konnte, ohne einen Kompromiss, den ich persönlich nicht ertragen konnte. Also baute ich stattdessen die local-first-Version.
Das Muster fiel aus den Beschränkungen heraus. Ostler führt einen Reasoner mit 9 Milliarden Parametern auf Ihrem Mac aus, verklebt mit einem persönlichen Wissensgraphen, der Ihre Kontakte, Ihren Kalender, Ihre Nachrichten, Ihr Surfverhalten, Ihre Dokumente und Gespräche als strukturierten Speicher hält. Der Reasoner nimmt eine Frage, fragt den Speicher ab, gibt eine Antwort zurück. Der Reasoner ist austauschbar; wir tauschen ihn jedes Quartal gegen das Beste aus. Der Speicher ist das, was dem Nutzer gehört, und das, was der Cloud-Weg grundsätzlich nicht replizieren kann.
Ich sah dies damals nicht als These. Es war einfach die einzige Architektur, die die Datenschutzgarantie erfüllte, die ich wollte. Die Tatsache, dass der meistzitierte Forscher des Feldes, das datenreichste Frontier-Labor, ein hochrangiges Forschungsteam in China und der Außenminister einer der technokratischsten Regierungen Asiens nun alle unabhängig bei derselben Architektur angekommen sind, ist keine Ehrenrunde. Es ist das stärkste Stück Validierung, um das ich hätte bitten können, von Menschen, die keinen Grund haben, die Hypothese eines kleinen Gründers zu bestätigen.
Warum Konvergenz aus disjunkten Blickwinkeln wichtig ist
Wäre der Diplomat ein Forscher, könnte man es Gruppendenken nennen. Wäre der Forscher ein Anbieter, könnte man es Positionierung nennen. Wäre der Gründer etwas anderes als ein kleiner Akteur mit einem Budget, das auf eine Kreditkarte passt, könnte man es gut finanziertes Marketing nennen. Keiner dieser Rahmen funktioniert, wenn die Übereinstimmung aus drei Rollen kommt, die keine operative Überschneidung haben.
Der Diplomat löst ein echtes, tägliches, operatives Problem: Wie hält ein beschäftigter Minister sein eigenes Arbeitsgedächtnis aktuell und zugänglich. Er optimiert nicht auf Eleganz. Er optimiert darauf, das System nicht abschalten zu müssen.
Der Forscher löst ein architektonisches Problem: Wohin im Stack gehört jede Funktion. Er optimiert auf die richtige Aufteilung der Arbeitslast. Der Anwendungsfall des Diplomaten geht nie in seine Analyse ein.
Der Gründer, in diesem Fall ich, löst ein Beschränkungsproblem: Was ist die kleinste Menge architektonischer Festlegungen, die eine strikte Datenschutzgarantie erfüllen und dabei trotzdem ein nützliches Produkt bleiben. Wieder eine andere Linse.
Und doch landen sie alle bei: einem kleinen Reasoner, der lokal läuft und mit einem kuratierten persönlichen Speicher spricht, der auf der eigenen Hardware des Nutzers lebt. Drei Probleme, drei Linsen, eine Antwort.
Der Kontrast hält noch
Jede cloud-geroutete persönliche KI auf dem Markt geht die entgegengesetzte Wette ein. Apple wird Berichten zufolge bald ankündigen, dass Siri schwierige Anfragen über Google Gemini routen wird. Perplexity verkauft ein "Personal Computer"-Produkt, das Ihre Daten an deren Server schickt. Poke sammelte fünfundzwanzig Millionen Dollar ein, um einen iMessage-Assistenten in die Cloud zu setzen. Jedes dieser Produkte hat ein Billionen-Parameter-Modell, das das Reasoning erledigt, und eine entfernte Datenbank, die den Speicher hält. Sie optimieren die falsche Hälfte. Der Reasoner schrumpft alle neun Monate um den Faktor zwei. Der Speicher ist der Teil, der von vornherein nie Ihr Gerät hätte verlassen sollen.
Wenn die Architektur der Prüfung dreier völlig disjunkter Blickwinkel standhält, gehen die cloud-gerouteten Wettbewerber nicht nur eine andere Wette ein. Sie bauen auf einem Fundament, das unter ihnen aktiv schrumpft.
Wo uns das hinführt
Die ehrliche Version dieser Geschichte ist, dass mir die Architektur durch den Datenschutz aufgezwungen, durch den Kosten-Qualitäts-Trend validiert, von einem Forscher formuliert, von einem Frontier-Labor als Primitiv ausgeliefert, von einem akademischen Team benchmarkt wurde und nun von einem Außenminister verwendet wird, um auf einem Raspberry Pi politische Fragen zu beantworten. Wir haben das Validierungs-Cluster nicht vorhergesagt. Wir haben einfach weitergebaut, und die Validierung kam immer weiter an.
Wenn das die Zukunft ist, auf die Sie wetten wollen, ist Ostler die Version davon, die auf Ihrem Mac lebt. Das Produkt ist in der Friends-Beta. Die Architektur ist hier dokumentiert.
Fragen, Korrekturen, Widerspruch – [email protected].