Tre persone, tre punti di vista completamente diversi, tre motivi diversi per cui interessarsene, e la stessa risposta architettonica nel corso degli ultimi sei mesi. Nessuna di loro parlava con le altre. Nessuna di loro aveva alcun motivo di convergere sulla stessa immagine. Lo hanno fatto comunque.

Questo tipo di convergenza è raro. È anche il segnale più forte che puoi ottenere che un'architettura è reale e non una moda. Quindi voglio esporre chi ha detto cosa, perché fa presa, e cosa significa per chiunque cerchi di capire dove sta andando l'IA personale.

Il diplomatico

Il 26 aprile 2026, Vivian Balakrishnan, ministro degli Esteri di Singapore, ha pubblicato pubblicamente su Facebook a proposito di un sistema che stava costruendo in sordina. Lo ha chiamato un secondo cervello per un diplomatico. Gira su un Raspberry Pi sulla sua scrivania. Compila nel tempo un grafo di conoscenza dai suoi discorsi e articoli. Risponde a domande sul suo lavoro, abbozza discorsi, condensa informazioni, e si colloca all'incrocio di ogni canale di conversazione che usa. Ha scritto una riga su come si sente al riguardo che nessun team di marketing potrebbe confezionare:

È diventato inestimabile – non oso spegnerlo.

Il ministro è un chirurgo diventato tecnocrate che siede nel gabinetto di Singapore da due decenni. Non è un hobbista. Non è nemmeno qualcuno che abbia qualcosa da guadagnare nel sostenere un'architettura rispetto a un'altra. È un utente di alto rango che descrive ciò che funziona per lui, e ciò che funziona per lui è un piccolo reasoner che gira localmente su hardware economico, incollato a un corpus personale che non lascia mai il dispositivo. (Post Facebook originale.)

L'architettura che descrive non è Ostler. Sta usando NanoClaw, un assistente Claude open source auto-ospitato di Gavriel Cohen, più il pattern LLM Wiki di Andrej Karpathy. Runtime diverso, hardware fisico diverso, paese diverso, caso d'uso diverso. Ma le decisioni architettoniche sono le stesse di quelle che abbiamo preso noi: il reasoner è piccolo e locale, la memoria è tua e vive sul tuo hardware, e nulla di sostanziale esce dal dispositivo a meno che tu non scelga di inviarlo.

Ciò che mi colpisce del suo post è il tono operativo. Non sta argomentando a favore dell'architettura. La sta semplicemente usando, e la frase che gli è caduta dalla tastiera riguardava il non voler perdere l'accesso ad essa. È così che ci si sente a definire una categoria, visto da dentro.

Il ricercatore

Sei mesi prima del post del ministro, il 17 ottobre 2025, Andrej Karpathy è andato al podcast di Dwarkesh Patel e ha esposto in dettaglio l'argomento del nucleo cognitivo. Circa il 95 % dei pesi di un modello di frontiera sta facendo lavoro di memorizzazione che non ha nulla a che fare con il ragionamento. Separa le due funzioni, e un piccolo reasoner con una memoria esterna curata batte un monolite da 1,8 trilioni di parametri sul lavoro che conta davvero per un singolo essere umano.

La matematica gli dà ragione. Llama 3 comprime i suoi dati di addestramento a qualcosa come 0,07 bit per token. L'inglese ben strutturato porta circa 1,5 bit per token. Il modello di frontiera tiene un'immagine compressa con perdita del web aperto, e la maggior parte di quell'immagine è rumore a cui tu, l'utente, non hai bisogno di accedere. GPT-4o, a circa 200 miliardi di parametri, supera già il GPT-4 originale a 1,8 trilioni. Il costo di inferenza per una qualità di livello GPT-3.5 è calato di un fattore 280 tra il 2022 e il 2024. La linea di tendenza è chiara e non rallenta.

Karpathy stava facendo un argomento architettonico. Non stava costruendo un prodotto. Ma l'architettura che descriveva è esattamente ciò che gira sul Pi del diplomatico e sul Mac di ogni cliente di Ostler. (Post più lungo sull'argomento di Karpathy qui.)

E non era l'unico ricercatore a dirlo. Sei mesi dopo, il 21 aprile 2026, OpenAI ha rilasciato silenziosamente Privacy Filter come pesi aperti Apache-2.0. Uno specialista da 1,5 miliardi di parametri il cui unico compito è ripulire le PII dal testo sul dispositivo, progettato per inserirsi davanti a qualsiasi pipeline locale. La tesi del nucleo cognitivo come risultato concreto, distribuita dall'azienda da cui te lo aspetteresti di meno. (Post qui.)

Pochi giorni dopo, un articolo sottoposto a revisione paritaria dell'Università di Nanjing e di ByteDance è arrivato con un benchmark. PersonaVLM (arXiv:2604.13074): un reasoner da 7 miliardi di parametri con una memoria personalizzata curata batte GPT-4o del 5,2 % nei compiti di personalizzazione a lungo termine. La loro tassonomia della memoria – centrale, semantica, procedurale, episodica – si sovrappone quasi nettamente al Personal World Graph che Ostler già costruisce. Il loro meccanismo di evoluzione della personalità, un vettore Big Five a cinque dimensioni aggiornato tramite media mobile esponenziale attraverso le interazioni, è una risposta pulita a una domanda che mi portavo dietro nel mio stesso backlog.

Un ricercatore che articola l'architettura. Un fornitore che distribuisce una primitiva. Un team accademico che fa il benchmark di un pezzo. Tutti indipendenti. Tutti convergenti.

Il fondatore

Io sono il terzo punto di vista, e il meno autorevole dei tre. Non sono un ricercatore. Non sono un utente di alto rango con due decenni di competenza operativa nel servizio pubblico. Sono qualcuno che ha fondato Creative Machines a settembre 2025, ha guardato la via del cloud per l'IA personale, e ha concluso che non si poteva farla funzionare sull'asse della privacy senza un compromesso che io personalmente non potevo digerire. Così ho costruito la versione local-first invece.

Il pattern è uscito dai vincoli. Ostler esegue un reasoner da 9 miliardi di parametri sul tuo Mac, incollato a un grafo di conoscenza personale che tiene i tuoi contatti, il calendario, i messaggi, la navigazione, i documenti e le conversazioni come memoria strutturata. Il reasoner prende una domanda, interroga la memoria, restituisce una risposta. Il reasoner è intercambiabile; lo sostituiremo con il migliore ogni trimestre. La memoria è la cosa che l'utente possiede e la cosa che la via del cloud, fondamentalmente, non può replicare.

All'epoca non lo vedevo come una tesi. Era semplicemente l'unica architettura che soddisfaceva la garanzia di privacy che volevo. Il fatto che il ricercatore più citato del settore, il laboratorio di frontiera più ricco di dati, un team di ricerca di alto livello in Cina, e il ministro degli Esteri di uno dei governi più tecnocratici dell'Asia siano ora tutti giunti indipendentemente alla stessa architettura non è un giro d'onore. È la più forte conferma che avrei potuto chiedere, da persone che non hanno motivo di confermare l'ipotesi di un piccolo fondatore.

Perché la convergenza da punti di vista disgiunti conta

Se il diplomatico fosse un ricercatore, potresti chiamarlo pensiero di gruppo. Se il ricercatore fosse un fornitore, potresti chiamarlo posizionamento. Se il fondatore fosse qualcosa di diverso da un piccolo operatore con un budget che sta su una carta di credito, potresti chiamarlo marketing ben finanziato. Nessuno di questi schemi regge quando l'accordo viene da tre ruoli che non hanno alcuna sovrapposizione operativa.

Il diplomatico sta risolvendo un problema operativo reale e quotidiano: come fa un ministro impegnato a tenere la propria memoria di lavoro aggiornata e accessibile. Non sta ottimizzando per l'eleganza. Sta ottimizzando per non dover spegnere il sistema.

Il ricercatore sta risolvendo un problema architettonico: dove, nello stack, appartiene ciascuna funzione. Sta ottimizzando per la giusta scomposizione del carico di lavoro. Il caso d'uso del diplomatico non entra mai nella sua analisi.

Il fondatore, in questo caso io, sta risolvendo un problema di vincolo: qual è il più piccolo insieme di impegni architettonici che soddisfano una garanzia di privacy rigorosa pur restando un prodotto utile. Di nuovo un'altra lente.

Eppure finiscono tutti con: un piccolo reasoner, che gira localmente, che parla con una memoria personale curata che vive sull'hardware dell'utente stesso. Tre problemi, tre lenti, una risposta.

Il contrasto regge ancora

Ogni IA personale instradata al cloud sul mercato sta facendo la scommessa opposta. Apple, a quanto si dice, sta per annunciare che Siri instraderà le query difficili attraverso Google Gemini. Perplexity vende un prodotto "Personal Computer" che invia i tuoi dati ai loro server. Poke ha raccolto venticinque milioni di dollari per mettere un assistente iMessage nel cloud. Ognuno di questi prodotti ha un modello da mille miliardi di parametri che fa il ragionamento e un database remoto che tiene la memoria. Stanno ottimizzando la metà sbagliata. Il reasoner si rimpicciolisce di un fattore due ogni nove mesi. La memoria è la parte che, in primo luogo, non avrebbe mai dovuto lasciare il tuo dispositivo.

Se l'architettura sopravvive allo scrutinio di tre punti di vista completamente disgiunti, i concorrenti instradati al cloud non stanno solo facendo una scommessa diversa. Stanno costruendo su una fondazione che si sta attivamente rimpicciolendo sotto di loro.

Dove ci lascia tutto questo

La versione onesta di questa storia è che l'architettura mi è stata imposta dalla privacy, convalidata dalla tendenza costo-qualità, articolata da un ricercatore, distribuita come primitiva da un laboratorio di frontiera, sottoposta a benchmark da un team accademico, e ora viene usata da un ministro degli Esteri per rispondere a domande di politica su un Raspberry Pi. Non avevamo previsto il grappolo di conferme. Abbiamo semplicemente continuato a costruire, e la conferma ha continuato ad arrivare.

Se quello è il futuro su cui vuoi scommettere, Ostler è la versione di esso che vive sul tuo Mac. Il prodotto è in beta tra amici. L'architettura è documentata qui.

Domande, correzioni, disaccordi – [email protected].