Karpathy beschrieb die Architektur. Wir hatten sie bereits gebaut.

In Dwarkesh Patels Podcast am 17. Oktober 2025 legte Andrej Karpathy dar, wie er die nächste Architektur für persönliche KI sieht. Ein kleiner Reasoner. Ein externes Gedächtnis. Beide durch Retrieval miteinander verbunden.

Ich hörte es bei einem Spaziergang. Am Ende musste ich lachen, denn er beschrieb das System, das im Vormonat auf dem Mac Mini auf meinem Schreibtisch gelaufen war.

Dieser Beitrag ist keine Ehrenrunde. Karpathy war zuerst öffentlich dort, und er hat sich das Recht verdient, den Rahmen zu setzen. Was ich tun möchte, ist sein Argument durchzugehen, es auf das abzubilden, was Ostler bereits tut, und ehrlich zu sein, was das für alle bedeutet, die in diesem Bereich bauen.

Das Argument, in einfachen Worten

Karpathys Behauptung ist, dass etwa 95 % der Gewichte eines führenden Modells Memorierung betreiben – Börsenticker, kaputtes HTML, Forenspam, automatisch erzeugter Unsinn, aus dem offenen Web gescrapt. Nur etwa 5 % leisten tatsächliches Reasoning. Die Architektur ist von Natur aus ineffizient, weil sich niemand die Mühe gemacht hat, die beiden Aufgaben zu trennen.

Trennt man sie, sagt er, dann schlägt ein Reasoner mit 1 Milliarde Parametern und einer guten Retrieval-Schicht ein Modell mit 1,8 Billionen Parametern, das versucht, beides zu tun. Das ist eine Kompressionsbehauptung von etwa 1.800x, und die Mathematik ist vertretbar. Llama 3 komprimiert seine Trainingsdaten bei etwa 0,07 Bit pro Token. Gut strukturiertes Englisch trägt rund 1,5 Bit pro Token. Das Modell mit einer Billion Parametern hält ein niedrig aufgelöstes komprimiertes Bild des Internets, auf dem es trainiert wurde, und der Großteil dieses Bildes ist Rauschen.

Die Richtung ist bereits vorgegeben. GPT-4o, mit etwa 200 Milliarden Parametern, übertrifft das ursprüngliche GPT-4 mit 1,8 Billionen. Die Inferenzkosten für Qualität auf GPT-3.5-Niveau fielen zwischen 2022 und 2024 um den Faktor 280. Kleinere, sauberere, besser architekturierte Modelle gewinnen weiter.

Die richtige Architektur trennt den Reasoner vom Gedächtnis. Der Reasoner bleibt klein. Das Gedächtnis ist, was auch immer Sie kuratieren.

Wie das in Ostler aussieht

Wir liefern das Cognitive-Core-Muster aus, seit ich Creative Machines im September 2025 gründete. Es hieß nur noch nicht so.

Der Reasoner ist ein Open-Weight-Modell mit 9 Milliarden Parametern, das lokal auf Ihrem Mac läuft. Heute ist das Qwen3 9B. Nächstes Quartal wird es etwas Besseres sein. Die Gewichte sind austauschbar, weil der Reasoner genau eine Aufgabe hat: eine Frage nehmen, das Gedächtnis konsultieren, eine Antwort zurückgeben. Er muss nicht wissen, wo der Dow 2017 schloss. Er muss wissen, wie man denkt.

Das Gedächtnis ist Ihr Personal World Graph. Ihre Kontakte, Ihr Kalender, Ihre Nachrichten, Ihr Browserverlauf, Ihre Dokumente, Ihre Gespräche, alles strukturiert in Knoten und Kanten und Vektor-Embeddings. Ein Vektorspeicher für die Ähnlichkeitssuche. Ein RDF-Graph für Beziehungen. Eine SQLite-Datei für alles andere. Kein enzyklopädischer Ballast. Nichts über jemanden, der nicht in Ihrem Leben ist.

Wenn Sie Ostler eine Frage stellen, fragt der Reasoner das Gedächtnis ab, erhält einen fokussierten Ausschnitt Ihres tatsächlichen Lebens zurück und antwortet daraus. Der Reasoner übernimmt das Reasoning. Der Graph übernimmt das Erinnern. Dasselbe Muster, das Karpathy beschrieb.

Warum das strategisch wichtig ist

Daraus folgen zwei Konsequenzen, die meiner Meinung nach noch nicht breit gewürdigt werden.

Die erste ist, dass lokale Modelle schneller aufholen, als irgendjemand außerhalb dieses Bereichs erkennt. Der 280x-Kosten-Qualitäts-Trend verlangsamt sich nicht. Ein 9B-Modell, das heute auf einem Mac Mini läuft, ist ungefähr dort, wo GPT-3.5 vor zwei Jahren war. Auf derselben Bahn läuft das 9B des nächsten Jahres bei der heutigen 30B-Qualität für dieselben Energiekosten. Unser Produkt wird schlauer, während wir schlafen, und wir müssen keine Zeile Code ändern, damit das geschieht. Wir tauschen einfach die Gewichte aus.

Die zweite ist, dass das Gedächtnis der Burggraben ist, nicht das Modell. Wir trainieren keine Modelle. Wir haben kein elfstelliges Compute-Budget. Wir werden OpenAI niemals beim GPU-Einsatz übertreffen. Aber OpenAI kann die WhatsApp-Threads, die mir diese Woche wichtig sind, nicht sehen, oder die E-Mail-Kette mit einem Mitarbeiter, den ich nun wieder kontaktieren möchte, oder die Besprechungsnotizen von vor sechs Monaten, auf die ich mich heute beziehen muss. Dieses Korpus existiert nur auf meiner Hardware. Ein führendes Labor kann es nicht reproduzieren, weil es keine Einwilligung hat, mein Leben zu extrahieren. Niemand außer mir hat sie.

Karpathys Architektur macht den Reasoner zur Massenware. Das ist in Ordnung. Wir hätten beim Reasoner ohnehin nie gewonnen. Wir werden beim Gedächtnis gewinnen, und das Gedächtnis funktioniert nur, wenn es auf Ihrer Maschine bleibt.

Und die Bestätigung ist weiter eingetroffen

Im April 2026 veröffentlichte OpenAI still und leise Privacy Filter als Apache-2.0 Open Weights – ein Spezialmodell mit 1,5 Milliarden Parametern, dessen einzige Aufgabe es ist, personenbezogene Informationen aus Text zu entfernen, bevor er das Gerät verlässt. Die Cognitive-Core-These als konkretes Liefergegenstand, ausgeliefert von dem Unternehmen, von dem man es am wenigsten erwarten würde. (Wir binden es diese Woche in Ostlers Pipeline ein; separater Beitrag hier.)

Wenige Tage später landete ein peer-reviewtes Paper der Nanjing University und von ByteDance mit einem Benchmark hinter demselben Argument. PersonaVLM (arXiv 2604.13074): ein Reasoner mit 7 Milliarden Parametern und einem kuratierten personalisierten Gedächtnis schlägt GPT-4o um 5,2 % bei langfristigen Personalisierungsaufgaben. Ihre Gedächtnis-Taxonomie – core, semantic, procedural, episodic – lässt sich fast sauber auf den Personal World Graph abbilden, den Ostler bereits aufbaut. Ihr Persönlichkeitsevolutionsmechanismus (ein fünfdimensionaler Big-Five-Vektor, der über interaktionsübergreifende exponentielle gleitende Durchschnitte aktualisiert wird) ist eine saubere Antwort auf eine Frage, die ich seit zwei Jahren mit mir herumtrug.

Sechs Monate. Drei unabhängige Bestätigungen – eine von einem ehemaligen Gründungsmitglied von OpenAI, eine von OpenAI selbst, eine von einem peer-reviewten akademischen Team. Die Architektur, auf die ich Ende 2025 gesetzt habe, ist nicht mehr meine, die ich verteidigen müsste.

Der Kontrast zur cloud-gerouteten persönlichen KI

Apple soll Berichten zufolge im Begriff sein anzukündigen, dass Siri schwierige Anfragen über Google Gemini leiten wird. Perplexitys "Personal Computer"-Produkt wirbt mit einem Mac-Mini-Hub, der Ihre Daten zur Verarbeitung an ihre Server weiterleitet. Poke hat 25 Millionen Dollar aufgenommen, um einen iMessage-Assistenten zu bauen, der in der Cloud lebt.

Jedes dieser Produkte hat ein Modell mit einer Billion Parametern, das das Reasoning übernimmt, und eine Cloud-Datenbank, die das Gedächtnis hält. Sie optimieren die falsche Hälfte. Der Reasoner wird ohnehin jedes Quartal kleiner. Das Gedächtnis ist der Teil, der Ihr Gerät von vornherein nie hätte verlassen dürfen.

Wenn Karpathy mit der Architektur recht hat – und die Kosten-Qualitäts-Kurve sagt, dass er es hat – dann bauen cloud-geroutete persönliche Assistenten auf einem Fundament, das unter ihnen aktiv schrumpft. Sie brauchen ihr Modell mit 1,8 Billionen Parametern nicht, um "wann habe ich James zuletzt gesehen?" zu beantworten. Sie brauchen einen kleinen Reasoner und Ihren eigenen Kalender.

Wie es von hier aus weitergeht

Ich werde nicht behaupten, dass wir das von Anfang an mit Karpathy-Klarheit kommen sahen. Taten wir nicht. Wir bauten es so, weil die Cloud-Route aus Datenschutzgründen ein Nichtstarter war und weil Apple Silicon lokale Inferenz günstig genug machte, um es tatsächlich zu versuchen. Die Architektur ergab sich aus den Einschränkungen.

Was ich behaupten werde, ist, dass die Einschränkungen die richtigen waren. Der Datenschutz zwang uns in das Cognitive-Core-Muster, bevor es einen Namen hatte. Jetzt hat es einen Namen, und ein sehr bekannter Forscher hat den Fall dafür öffentlich vertreten, und unsere Aufgabe ist es, die Gedächtnis-Hälfte weiter auszubauen, während uns die Reasoner-Hälfte alle drei Monate von der Open-Weights-Community kostenlos in die Hand gegeben wird.

Wenn das die Zukunft ist, auf die Sie setzen wollen, ist das Produkt in der Friends-Beta. Sie können über die Architektur hier lesen.

Fragen, Korrekturen, Widerspruch – [email protected].