Nel podcast di Dwarkesh Patel il 17 ottobre 2025, Andrej Karpathy ha esposto quella che, secondo lui, sarà la prossima architettura per l'IA personale. Un piccolo reasoner. Una memoria esterna. I due uniti dal retrieval.
L'ho ascoltato durante una passeggiata. Alla fine ridevo, perché stava descrivendo il sistema che girava da un mese sul Mac Mini sulla mia scrivania.
Questo post non è un giro d'onore. Karpathy ci è arrivato per primo in pubblico, e si è guadagnato il diritto di impostare la cornice. Quello che voglio fare è ripercorrere il suo argomento, mapparlo su ciò che Ostler fa già, ed essere onesto su cosa significhi per chiunque costruisca in questo spazio.
L'argomento, in parole semplici
L'affermazione di Karpathy è che circa il 95% dei pesi di un modello di frontiera fa memorizzazione – quotazioni di borsa, HTML rotto, spam di forum, gibberish autogenerato raccolto dal web aperto. Solo circa il 5% fa ragionamento vero. L'architettura è inefficiente per progetto, perché nessuno si è preso la briga di separare i due compiti.
Separali, dice, e un reasoner da un miliardo di parametri con un buon livello di retrieval batte un modello da 1,8 trilioni di parametri che cerca di fare entrambe le cose. È un'affermazione di compressione di circa 1.800x, e i conti reggono. Llama 3 comprime i suoi dati di addestramento a qualcosa come 0,07 bit per token. L'inglese ben strutturato porta circa 1,5 bit per token. Il modello da mille miliardi di parametri trattiene un'immagine compressa a bassa risoluzione dell'internet su cui è stato addestrato, e gran parte di quell'immagine è rumore.
La direzione di marcia è già stabilita. GPT-4o, con circa 200 miliardi di parametri, supera il GPT-4 originale da 1,8 trilioni. Il costo di inferenza per una qualità di livello GPT-3.5 è sceso di un fattore 280 tra il 2022 e il 2024. Modelli più piccoli, più puliti e meglio architettati continuano a vincere.
L'architettura giusta separa il reasoner dalla memoria. Il reasoner resta piccolo. La memoria è qualunque cosa tu curi.
Come appare tutto questo in Ostler
Distribuiamo il pattern cognitive-core da quando ho fondato Creative Machines a settembre 2025. Semplicemente non si chiamava ancora così.
Il reasoner è un modello open-weight da 9 miliardi di parametri che gira in locale sul tuo Mac. Oggi è Qwen 3.5 9B. Il prossimo trimestre sarà qualcosa di migliore. I pesi sono intercambiabili perché il reasoner ha esattamente un compito: prendere una domanda, consultare la memoria, restituire una risposta. Non ha bisogno di sapere a quanto ha chiuso il Dow nel 2017. Ha bisogno di sapere come pensare.
La memoria è il tuo Personal World Graph. I tuoi contatti, il tuo calendario, i tuoi messaggi, la tua cronologia di navigazione, i tuoi documenti, le tue conversazioni, tutto strutturato in nodi, archi ed embedding vettoriali. Un vector store per la ricerca per similarità. Un grafo RDF per le relazioni. Un file SQLite per tutto il resto. Nessuna zavorra enciclopedica. Nulla su chiunque non faccia parte della tua vita.
Quando fai una domanda a Ostler, il reasoner interroga la memoria, recupera una fetta mirata della tua vita reale e risponde a partire da quella. Il reasoner fa il ragionamento. Il grafo fa il ricordare. Lo stesso pattern descritto da Karpathy.
Perché questo conta strategicamente
Da questo discendono due conseguenze che non credo siano ancora ampiamente apprezzate.
La prima è che i modelli locali stanno recuperando più velocemente di quanto chiunque al di fuori di questo spazio si renda conto. Il trend costo-qualità di 280x non sta rallentando. Un modello 9B che gira oggi su un Mac Mini si trova all'incirca dove era GPT-3.5 due anni fa. Sulla stessa traiettoria, il 9B dell'anno prossimo gira alla qualità del 30B di oggi allo stesso costo energetico. Il nostro prodotto diventa più intelligente mentre dormiamo, e non dobbiamo cambiare una riga di codice perché ciò accada. Cambiamo semplicemente i pesi.
La seconda è che la memoria è il fossato, non il modello. Non addestriamo modelli. Non abbiamo un budget di calcolo a dieci cifre. Non supereremo mai OpenAI sulle GPU. Ma OpenAI non può vedere i thread di WhatsApp che mi interessano questa settimana, né la catena di email con un collaboratore che ora voglio ricontattare, né le note di una riunione di sei mesi fa a cui devo riferirmi oggi. Quel corpus esiste solo sul mio hardware. Un laboratorio di frontiera non può riprodurlo perché non ha il consenso per estrarre la mia vita. Nessuno ce l'ha tranne me.
L'architettura di Karpathy rende il reasoner una commodity. Va bene. Non avremmo mai vinto sul reasoner. Vinceremo sulla memoria, e la memoria funziona solo se resta sulla tua macchina.
E la validazione ha continuato ad arrivare
Ad aprile 2026, OpenAI ha rilasciato silenziosamente Privacy Filter come open weights Apache-2.0 – un modello specialista da 1,5 miliardi di parametri il cui unico compito è ripulire le informazioni di identificazione personale dal testo prima che lasci il dispositivo. La tesi cognitive-core come deliverable concreto, distribuito dall'azienda da cui meno te lo aspetteresti. (La stiamo integrando nella pipeline di Ostler questa settimana; post separato qui.)
Pochi giorni dopo, un paper peer-reviewed della Nanjing University e di ByteDance è arrivato con un benchmark a sostegno dello stesso argomento. PersonaVLM (arXiv 2604.13074): un reasoner da 7 miliardi di parametri con una memoria personalizzata curata batte GPT-4o del 5,2% nei compiti di personalizzazione a lungo termine. La loro tassonomia della memoria – core, semantic, procedural, episodic – si mappa quasi perfettamente sul Personal World Graph che Ostler già costruisce. Il loro meccanismo di evoluzione della personalità (un vettore Big Five a cinque dimensioni aggiornato tramite media mobile esponenziale attraverso le interazioni) è una risposta pulita a una domanda che mi portavo dietro nel mio backlog dal 2024.
Sei mesi. Tre conferme indipendenti – una da un ex membro fondatore di OpenAI, una da OpenAI stessa, una da un team accademico peer-reviewed. L'architettura su cui ho scommesso a fine 2025 non è più mia da difendere.
Il contrasto con l'IA personale instradata al cloud
Apple sarebbe in procinto di annunciare che Siri instraderà le query difficili attraverso Google Gemini. Il prodotto "Personal Computer" di Perplexity pubblicizza un hub Mac Mini che inoltra i tuoi dati ai loro server per l'elaborazione. Poke ha raccolto 25 milioni di dollari per costruire un assistente iMessage che vive nel cloud.
Ognuno di questi prodotti ha un modello da mille miliardi di parametri che fa il ragionamento e un database cloud che tiene la memoria. Stanno ottimizzando la metà sbagliata. Il reasoner si rimpicciolisce già ogni trimestre. La memoria è la parte che non avrebbe mai dovuto lasciare il tuo dispositivo in primo luogo.
Se Karpathy ha ragione sull'architettura – e la curva costo-qualità dice che ce l'ha – allora gli assistenti personali instradati al cloud stanno costruendo su una fondazione che si restringe attivamente sotto di loro. Non ti serve il loro modello da 1,8 trilioni di parametri per rispondere a "quando ho visto James l'ultima volta?". Ti serve un piccolo reasoner e il tuo calendario.
Dove andiamo da qui
Non sosterrò che l'abbiamo visto arrivare fin dall'inizio con la chiarezza di un Karpathy. Non è così. L'abbiamo costruito in questo modo perché la via cloud era un non-partenza per ragioni di privacy, e perché Apple Silicon ha reso l'inferenza locale abbastanza economica da provarci davvero. L'architettura è scaturita dai vincoli.
Quello che sosterrò è che i vincoli erano quelli giusti. La privacy ci ha spinti nel pattern cognitive-core prima che avesse un nome. Ora ha un nome, e un ricercatore molto noto ne ha sostenuto la causa in pubblico, e il nostro compito è continuare a sviluppare la metà della memoria mentre la metà del reasoner ci viene consegnata gratis dalla comunità open-weights ogni tre mesi.
Se quello è il futuro su cui vuoi scommettere, il prodotto è in beta tra amici. Puoi leggere dell'architettura qui.
Domande, correzioni, disaccordi – [email protected].