La tabella a doppia entrata riporta la distribuzione
congiunta delle due variabili. I dati del campione ci danno, per
ogni cella: a) la frequenza osservata Oi ossia il numero di casi
che hanno quei dati valori sulle variabili considerate; b) la
frequenza attesa Ai, ossia la frequenza che avremmo osservato
nella cella se la disposizone dei casi nelle celle della tabella
fosse da attribuirsi al caso. E' lecito pensare che questo accada
se non vi è una relazione tra le due variabili. La frequenza
attesa deriva da una semplice proporzione: se non vi è
attrazione tra le modalità delle due variabili il numero
di casi in una cella dovrebbe avere la stessa proporzione rispetto
al suo marginale di riga che ha il suo marginale di colonna rispetto
al totale dei casi, ossia Ai: marginale di riga = marginale di
colonna: totale dei casi da cui deriva che Ai=(marginale di riga
* marginale di colonna)/numero di casi. Quanto più le frequenze
osservate si discostano dalle frequenze attese tanto più
è probabile che vi sia attrazione tra le singole modalità
delle variabili e quindi vi sia una relazione tra le due variabili.
La differenza tra la frequenza osservata e la frequenza attesa,
al quadrato (per evitare problemi di segni negativi), rapportata
alla frequenza attesa.
.
Quanto più è alto questo indice tanto più
si può dire vi sia uno scostamento, per quella singola
cella, tra la situazione osservata e la situazione di pura casualità,
e quindi un'attrazione tra le due modalità. Questo indice
non va utilizzato se la frequenza attesa è inferiore a
1, dato che il valore diventa artificialmente alto perché
il denominatore è inferiore a 1. In questo caso è
utile accorpare i casi per evitare di avere frequenze marginali
troppo basse.