Dalla gravità di Newton all’IA: i fisici di Harvard trovano le leggi nascoste del deep learning
Uno studio pubblicato su JSTAT mostra come un modello minimale possa spiegare l’efficienza e la robustezza delle reti neurali
Trieste, 5 maggio 2026 – I sistemi di intelligenza artificiale basati su reti neurali – come ChatGPT, Claude, DeepSeek o Gemini – sono straordinariamente potenti, eppure il loro funzionamento interno rimane in gran parte una “scatola nera”. Per comprendere come questi sistemi producono le loro risposte, un gruppo di fisici dell’Università di Harvard ha sviluppato un modello matematico semplificato dell’apprendimento nelle reti neurali.
I “modelli giocattolo”, come quello presentato nello studio appena pubblicato sul Journal of Statistical Mechanics: Theory and Experiment (JSTAT), offrono ai ricercatori un laboratorio teorico controllato per indagare i meccanismi fondamentali delle reti neurali. Una comprensione più profonda del funzionamento di questi sistemi potrebbe aiutare a progettare sistemi di intelligenza artificiale più efficienti e affidabili, affrontando anche alcune delle sfide attuali.
Le leggi dell’IA
È un po’ come quando Keplero descrisse le leggi che governano il moto dei pianeti. “Il modo in cui furono scoperte le leggi di gravità di Newton è stato inizialmente identificando leggi di scala tra i periodi orbitali dei pianeti e i loro raggi”, spiega Alexander Atanasov, dottorando in fisica teorica all’Università di Harvard e primo autore del nuovo studio. Keplero formulò le sue leggi osservando il moto dei pianeti, senza comprendere pienamente i meccanismi sottostanti. Eppure quel lavoro si rivelò cruciale: in seguito permise a Newton di scoprire la gravità, portando a una comprensione molto più profonda dell’universo.
Negli studi sul deep learning – il ramo dell’intelligenza artificiale basato sulle reti neurali – potremmo trovarci ancora in una fase simile a quella kepleriana. Oggi i ricercatori hanno identificato diverse leggi empiriche che descrivono il comportamento delle reti neurali, ma manca ancora una sorta di “teoria della gravità” che spieghi perché si comportino in quel modo.
Gli scienziati, per esempio, conoscono le leggi di scala. “Sappiamo che se prendiamo un modello e lo rendiamo più grande, oppure gli forniamo più dati, le sue prestazioni aumentano”, spiega Cengiz Pehlevan, professore associato di matematica applicata all’Università di Harvard e autore senior dello studio. Queste leggi rendono prevedibili le prestazioni, ma non rivelano ancora i meccanismi profondi che le determinano. Questo approccio non è solo inefficiente – i sistemi di IA odierni consumano enormi quantità di energia – ma contribuisce poco anche alla comprensione di come questi funzionino realmente.
Reti neurali come organismi biologici
“I modelli di deep learning non sono algoritmi scritti a mano come un insieme di regole. Non sono progettati manualmente”, spiega Atanasov. “Sono molto più simili a un organismo coltivato in laboratorio”. I chatbot di IA generativa si basano su reti neurali, una tecnologia che – in modo molto lontano – ricorda il funzionamento di un cervello biologico. Sono composte da molte piccole unità di elaborazione, chiamate neuroni artificiali, ciascuna delle quali esegue operazioni semplici ma è connessa alle altre in una rete complessa.
È proprio questa struttura a rete che consente l’emergere di comportamenti “intelligenti”. Sebbene conosciamo le operazioni matematiche svolte da ogni singolo componente, prevedere e spiegare in modo meccanicistico il comportamento del sistema nel suo complesso rimane estremamente difficile: al crescere del numero di componenti, la complessità aumenta rapidamente.
Un modello giocattolo
Poiché al momento è impossibile analizzare una rete neurale su larga scala con metodi matematici esatti, Atanasov e i suoi colleghi hanno scelto di lavorare con un modello semplificato che cattura comunque molte caratteristiche chiave dei sistemi più complessi.
“Il modello che stiamo studiando è abbastanza semplice da poter essere risolto matematicamente – spiega Jacob Zavatone-Veth, Junior Fellow alla Harvard Society of Fellows e coautore dello studio – Allo stesso tempo, riproduce diversi dei fenomeni principali osservati nelle grandi reti neurali”.
Il modello giocattolo utilizzato nello studio è la ridge regression, una variante della regressione lineare.
La regressione lineare è un metodo statistico usato per stimare relazioni tra variabili. Per esempio, se conosciamo altezza e peso di 100 persone, possiamo usare la regressione lineare per individuare una relazione matematica tra le due grandezze e stimare l’altezza di una nuova persona conoscendo solo il suo peso.
Il mistero dell’overfitting
La ridge regression è un tipo di regressione che aiuta a ridurre il fenomeno noto come overfitting. Quando i modelli vengono addestrati su grandi dataset, una rete neurale – un po’ come uno studente molto diligente ma forse poco brillante – può finire per memorizzare i dati di addestramento invece di apprendere gli schemi che le permettano di generalizzare e fare previsioni affidabili su nuovi dati.
Eppure i modelli di deep learning spesso si comportano in modo sorprendente. “Nonostante siano estremamente grandi, questi modelli riescono ad apprendere dai dati senza andare in overfitting”, spiega Atanasov, definendolo “uno dei grandi misteri del deep learning”.
A prima vista questo sembra controintuitivo. In teoria, modelli più grandi dovrebbero essere più soggetti all’overfitting. Invece, le leggi di scala mostrano che le prestazioni spesso migliorano all’aumentare dei dati utilizzati durante l’addestramento.
Nuove intuizioni
Il nuovo studio offre un possibile tassello della spiegazione. Secondo i ricercatori, la capacità delle reti neurali di apprendere senza overfitting potrebbe derivare da principi legati alla teoria della rinormalizzazione, un quadro teorico ampiamente utilizzato nella fisica statistica.
Per capirlo, è utile considerare la dimensionalità dei dati elaborati dai moderni sistemi di IA. Nell’esempio precedente di regressione lineare abbiamo considerato solo due variabili – altezza e peso. Sistemi reali come ChatGPT, invece, operano in spazi con migliaia o addirittura milioni di variabili, rendendo un’analisi matematica esatta estremamente difficile.
È qui che le idee della fisica statistica diventano utili. Nei dati ad altissima dimensionalità emergono naturalmente piccole variazioni casuali – note come fluttuazioni statistiche. La teoria della rinormalizzazione mostra che molti dettagli microscopici possono essere efficacemente assorbiti in un piccolo numero di parametri, il che significa che anche sistemi molto complessi possono esibire comportamenti su larga scala relativamente semplici.
Utilizzando questo quadro teorico e il loro modello giocattolo semplificato, i ricercatori mostrano come queste fluttuazioni ad alta dimensionalità possano in realtà stabilizzare l’apprendimento anziché destabilizzarlo.
“È qualcosa che possiamo comprendere analizzando modelli lineari più semplici”, spiega Pehlevan, suggerendo che lo stesso meccanismo potrebbe spiegare perché le attuali reti neurali evitino l’overfitting anche quando sono fortemente sovraparametrizzate.
Il modello semplificato potrebbe avere anche un altro scopo. Come osserva Zavatone-Veth, potrebbe costituire una sorta di riferimento di base per comprendere come l’apprendimento si comporti in sistemi ad altissima dimensionalità. Studiando un modello sufficientemente semplice da essere analizzato matematicamente, i ricercatori possono identificare quali aspetti dell’apprendimento siano probabilmente generali – cioè destinati a comparire in molte e diverse reti neurali – e quali invece dipendano dai dettagli di uno specifico modello. In questo senso, studi come questo possono contribuire a chiarire alcuni dei principi fondamentali che stanno alla base dell’apprendimento nei sistemi complessi.
Lo studio “Scaling and renormalization in high-dimensional regression” by Alexander Atanasov et al. è disponibile su JSTAT




