La mediana è una misura di posizione che rappresenta il valore centrale di un insieme di dati ordinati. Formalmente, data una serie di osservazioni \( x_1, x_2, \dots, x_n \), la mediana è il valore \( c \) che minimizza la somma delle deviazioni assolute:
\( S(c) = \sum_{i=1}^{n} |x_i - c| \)
Supponiamo di voler trovare il valore di \( c \) che minimizza \( S(c) \). Consideriamo i dati ordinati in ordine crescente:
\( x_{(1)} \leq x_{(2)} \leq \dots \leq x_{(n)} \)
La funzione \( S(c) \) è una funzione convessa rispetto a \( c \) e presenta un minimo quando \( c \) è uguale alla mediana dei dati. Per dimostrarlo, osserviamo che:
Questo significa che il punto di minimo di \( S(c) \) si trova proprio in corrispondenza della mediana.
Consideriamo la derivata della funzione obiettivo \( S(c) \):
\( \dfrac{dS}{dc} = \sum_{i=1}^{n} \dfrac{d}{dc} |x_i - c| \)
Poiché la derivata di \( |x_i - c| \) rispetto a \( c \) è:
\( \dfrac{d}{dc} |x_i - c| = \begin{cases} -1 & \text{se } c < x_i \\ 0 & \text{se } c = x_i \\ 1 & \text{se } c > x_i \end{cases} \)
La derivata totale diventa:
\( \dfrac{dS}{dc} = \sum_{x_i < c} (-1) + \sum_{x_i = c} (0) + \sum_{x_i > c} (1) = (-n_1) + n_2 \)
Dove \( n_1 \) è il numero di osservazioni minori di \( c \) e \( n_2 \) è il numero di osservazioni maggiori di \( c \). Il minimo di \( S(c) \) si verifica quando la derivata cambia segno, cioè quando \( n_1 = n_2 \), ovvero quando \( c \) è la mediana.
Le misure di posizione, o di tendenza centrale, sono statistiche che riassumono un insieme di dati identificando un valore centrale attorno al quale i dati sono distribuiti. Esistono diverse misure di posizione, ciascuna con le proprie caratteristiche e applicazioni.
\( \overline{x} = \dfrac{1}{n} \sum_{i=1}^{n} x_i \)
È la somma di tutti i valori divisa per il numero totale di valori. Sensibile ai valori estremi (outlier).
È il valore centrale di un insieme di dati ordinati. Non è influenzata dai valori estremi ed è preferibile quando i dati hanno una distribuzione asimmetrica.
È il valore che appare con maggiore frequenza nell'insieme di dati. Utile per dati categoriali o discreti.
\( G = \left( \prod_{i=1}^{n} x_i \right)^{1/n} \)
Utilizzata per dati positivi, come tassi di crescita o dati proporzionali.
\( H = \dfrac{n}{\sum_{i=1}^{n} \dfrac{1}{x_i}} \)
Indicata quando si lavora con rapporti o velocità.
Le misure di posizione possono essere generalizzate attraverso varie metodologie, portando a un numero infinito di possibili definizioni. Alcuni esempi includono:
\( M_r = \left( \dfrac{1}{n} \sum_{i=1}^{n} x_i^r \right)^{1/r} \)
Variando il parametro \( r \), otteniamo diverse medie:
Calcolata scartando una certa percentuale dei valori più alti e più bassi, riducendo l'influenza degli outlier.
Simile alla media troncata, ma i valori estremi sono sostituiti con i valori più vicini non scartati.
Valori che dividono l'insieme di dati ordinati in parti uguali. La mediana è un caso particolare (50º percentile).
Ogni valore \( x_i \) è moltiplicato per un peso \( w_i \), riflettendo l'importanza relativa delle osservazioni.
\( \overline{x}_w = \dfrac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i} \)
Queste generalizzazioni mostrano come, variando le formule o introducendo nuovi parametri, possiamo definire infinite altre misure di posizione per adattarci a diverse esigenze analitiche.
La scelta della misura di posizione più appropriata dipende dalla natura dei dati e dagli obiettivi dell'analisi. Comprendere le diverse opzioni e le loro proprietà permette di sintetizzare le informazioni in modo efficace e significativo.