Scomposizione della devianza

La scomposizione della devianza è un'operazione utilizzata in statistica per calcolare, tra le altre cose, il coefficiente di determinazione e la statistica test ANOVA. Data una variabile numerica y {\displaystyle y} si chiama devianza la somma degli scarti quadratici dalla media campionaria i ( y i y ¯ ) 2 {\textstyle \sum _{i}(y_{i}-{\bar {y}})^{2}} ; questa quantità si può scomporre in una parte "spiegata" da una o più variabili x {\displaystyle x} e una parte "residua"; la somma di queste due parti è costante e corrisponde alla devianza totale.

Devianza tra e entro gruppi

Quattro boxplot di una variabile numerica y distinta tra due gruppi. Negli esempi a sinistra la devianza tra gruppi è chiaramente maggiore a quella entro gruppi, perché i valori di y sono ben distinti tra gruppi diversi. Negli esempi a destra accade invece il contrario.

Quando si dispone di k {\displaystyle k} gruppi distinti di n j {\displaystyle n_{j}} osservazioni ciascuno di una variabile numerica y {\displaystyle y} , si può calcolare la devianza complessiva di y {\displaystyle y} ignorando la distinzione tra gruppi, e la si può scomporre in due quantità SSW (devianza entro gruppi, in inglese Sum of Squares Within) e SSB (devianza tra gruppi, in inglese Sum of Squares Between):

  • la media campionaria di y {\displaystyle y} nel j-esimo gruppo si indica come y ¯ j {\displaystyle {\bar {y}}_{j}} ;
  • la devianza di y {\displaystyle y} entro il j-esimo gruppo si indica come S S j {\displaystyle SS_{j}} ;
  • la media campionaria generale di y {\displaystyle y} si indica come y ¯ {\displaystyle {\bar {y}}} , e la devianza totale di y {\displaystyle y} si indica come S S T {\displaystyle SST} ;
  • S S W = j = 1 k S S j {\displaystyle SSW=\sum _{j=1}^{k}SS_{j}} ;
  • S S B = j = 1 k n j ( y ¯ j y ¯ ) 2 {\displaystyle SSB=\sum _{j=1}^{k}n_{j}({\bar {y}}_{j}-{\bar {y}})^{2}} ;
  • S S T = S S W + S S B {\displaystyle SST=SSW+SSB} .

La devianza tra gruppi sarà maggiore di quella entro gruppi quando i valori di y {\displaystyle y} sono ben distinti tra gruppi diversi, e sarà invece bassa quando le medie locali y ¯ j {\displaystyle {\bar {y}}_{j}} si assomigliano. Nel caso limite in cui esse siano tutte uguali, S S B = 0 {\displaystyle SSB=0} . Questa scomposizione si può usare per creare il coefficiente η 2 = S S B / S S T {\displaystyle \eta ^{2}=SSB/SST} , che indica la proporzione della devianza totale di y {\displaystyle y} che nasce dall'eterogeneità dei gruppi sui quali la variabile viene osservata[1]. In virtù della relazione tra devianza e varianza, introducendo i propri denominatori alle equazioni sopra, si ricava la scomposizione della varianza, la quale ha il vantaggio di ricondurre le quantità empiriche sopra alle proprietà della variabile casuale y {\displaystyle y} e permette di condurre i test delle ipotesi che vanno sotto il nome di ANOVA (ANalisys Of VAriance).

Devianza spiegata e residua

In questi due esempi di regressione lineare semplice, la devianza spiegata è uguale, mentre quella residua è differente, perciò il valore R quadro varia anch'esso

Quando si dispone di due variabili numeriche y {\displaystyle y} e x {\displaystyle x} , si può analizzare la relazione tra le due variabili con un modello lineare semplice, in questo modo, per misurare l'associazione tra le due variabili, si può scomporre la devianza totale di y {\displaystyle y} (la variabile usata come outcome nel modello lineare) in devianza residua SSR e spiegata SSM (Sum of Squares of Model):

  • si indica con y ^ i {\displaystyle {\hat {y}}_{i}} il valore di y i {\displaystyle y_{i}} previsto dal modello;
  • S S R = i = 1 n ( y i y ^ i ) 2 {\displaystyle SSR=\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}} ;
  • S S M = i = 1 n ( y ^ i y ¯ ) 2 {\displaystyle SSM=\sum _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}} .

Il rapporto tra SSM e devianza totale di y {\displaystyle y} SST dà luogo al coefficiente di determinazione R 2 {\displaystyle R^{2}} , il quale è anche il quadrato del coefficiente di correlazione di Pearson R {\displaystyle R} . Come si può notare dalle equazioni, R 2 {\displaystyle R^{2}} è tanto maggiore quando i valori di y {\displaystyle y} risultano vicini a quelli previsti del modello, mentre diminuisce quando il modello prevede valori molto vicini tra loro nella scala della y {\displaystyle y} .

Chiaramente, questo metodo è facilmente estendibile a un numero maggiore di variabili x {\displaystyle x} utilizzando una regressione multivariata, in tal caso il coefficiente R 2 {\displaystyle R^{2}} perde il suo valore di indice di associazione tra variabili e si volge ad indicare la capacità del modello lineare di determinare appunto il valore di ciascuna y {\displaystyle y} osservata, o, in altre parole, la capacità del modello di "spiegare" appunto la variabilità di y {\displaystyle y} ; si definisce invece "residua" la devianza (e la rispettiva varianza) di y {\displaystyle y} che il modello non riesce a spiegare per mezzo dei predittori x {\displaystyle x} .

Si può verificare facilmente che nel caso di una sola variabile esplicativa x {\displaystyle x} categorica, i gruppi definiti dalle categorie di quella variabile danno luogo alle equazioni S S R = S S W {\displaystyle SSR=SSW} e S S M = S S B {\displaystyle SSM=SSB} , perciò η 2 = R 2 {\displaystyle \eta ^{2}=R^{2}} .

Note

  1. ^ Amalia Caputo, Relazione tra una variabile categoriale e una cardinale, su federica.unina.it. URL consultato il 9 dicembre 2019.
  Portale Matematica
  Portale Statistica