La ricorsione di Welford è un algoritmo numericamente stabile per il calcolo incrementale della media e della varianza campionaria. Permette di aggiornare la media e la varianza man mano che nuovi dati vengono aggiunti, senza la necessità di conservare tutti i dati precedenti.
Supponiamo di avere una sequenza di valori \( x_1, x_2, \dots, x_n \). Vogliamo calcolare la media \( \mu_n \) e la varianza \( \sigma_n^2 \) dopo aver osservato il valore \( x_n \).
La media può essere aggiornata con la formula ricorsiva:
\( \mu_n = \mu_{n-1} + \dfrac{x_n - \mu_{n-1}}{n} \)
Per la varianza, utilizziamo la seguente ricorsione:
\( M_n = M_{n-1} + (x_n - \mu_{n-1})(x_n - \mu_n) \)
Dove \( M_n \) è la somma dei quadrati delle differenze dalla media. La varianza è poi calcolata come:
\( \sigma_n^2 = \dfrac{M_n}{n} \)
Questa derivazione evita problemi di cancellazione numerica ed è efficiente dal punto di vista computazionale.
Durante le mie simulazioni, ho osservato come la media e la varianza si comportano nel tempo nei diversi casi di frequenze assolute e relative sia nel processo di Bernoulli che nella passeggiata aleatoria.
La media delle frequenze assolute aumenta linearmente nel tempo, poiché accumuliamo successi indipendenti. La varianza cresce proporzionalmente al numero di prove.
La media delle frequenze relative tende a stabilizzarsi attorno alla probabilità di successo \( p \) man mano che aumenta il numero di prove, grazie alla legge dei grandi numeri. La varianza diminuisce nel tempo.
La posizione (somma cumulativa dei salti) oscilla nel tempo. La media rimane costante a zero se \( p = 0.5 \), mentre la varianza aumenta linearmente con il tempo.
La media delle frequenze relative tende a zero nel caso simmetrico (\( p = 0.5 \)). La varianza diminuisce nel tempo.
La distribuzione del numero assoluto di successi tende ad allargarsi nel tempo, aumentando la varianza. Al contrario, la distribuzione delle frequenze relative si restringe attorno al valore atteso \( p \), riducendo la varianza.
Questo perché, mentre il numero assoluto di successi continua a crescere, la frequenza relativa si stabilizza grazie alla proporzionalità rispetto al numero totale di prove.