1	Corso di Metodologia e tecnica della ricerca sociale Corso di laurea in Scienze dell’Educazione a.a. 2002-2003 [in costruzione] Il disegno della ricerca sociale ed elementi di statistica inferenziale Prof. Renato Grimaldi Con la collaborazione di Mariella Piscopo e Adelaide Gallina Elaborazione multimediale a cura di Anna De Luca
2	Indice 0. Premessa 1. Analisi Monovariata: aspetti teorici 2. Analisi monovariata: aspetti computazionali 3. Le rappresentazioni grafiche 4.Teoria e ipotesi 5. Il disegno della ricerca 6. La distribuzione normale 7. La stima intervallare 8. La numerosità campionaria 9. Analisi bivariata: tabella a doppia entrata 10. Analisi bivariata: analisi della varianza 11. Analisi bivariata: la correlazione 12: Analisi bivariata: la regressione 13. Glossario 14. Bibliografia
3	Cenni preliminari Il corso on-line di Metodologia e Tecnica della Ricerca Sociale si pone l’obiettivo di aiutare lo studente a comprendere alcuni concetti rilevanti per l’analisi dei dati, attraverso l’uso di Internet. La rete possiede numerosi laboratori virtuali interattivi, che facilitano l’acquisizione di alcuni concetti chiave, mediante simulazioni che consentono di far emergere la costruzione della teoria. In merito alla stima statistica ne abbiamo selezionati alcuni e inseriti nel corso, in tal modo lo studente può lavorare, attivando una videata parallela a quella qui proposta, sperimentando gli esercizi direttamente nel laboratorio virtuale.
4	Cenni preliminari Usufruendo del corso on-line, per attivare pagine web in un’altra finestra, oltre a quella del corso, ed avere quindi contemporaneamente entrambe le applicazioni attive è necessario selezionare l’indirizzo web del sito indicato, cliccarvi sopra premendo contemporaneamente il tasto shift della tastiera. In tal modo sarà possibile all’utente lavorare nel laboratorio attivato senza perdere la videata power point del corso on-line.
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51	Valori caratteristici di tendenza centrale e di dispersione per tipi di variabili TAB. A
52	Analisi monovariata
53	Analisi monovariata
54	Analisi monovariata
55	Analisi monovariata
56	Analisi monovariata
57	Analisi monovariata
58	Analisi monovariata
59	Analisi monovariata
60	Analisi monovariata
61	Analisi monovariata
62	Analisi monovariata
63	Analisi monovariata
64	Analisi monovariata
65	3. Le rappresentazioni grafiche
66	3.a Diagramma a barre
67	3.b Istogramma Si ricorre a questo tipo di rappresentazione quando si lavora con variabili cardinali (es: l’età o il voto di maturità come nella figura). L’istogramma si costruisce partendo da una tabella di frequenza. L’asse delle ascisse riporta i valori della variabile considerata (con il livello di scala almeno ad intervalli).
68	3.b Istogramma
69	3.c Box Plot Il box plot è utilizzato per fornire una rappresentazione grafica dell’analisi esplorativa della distribuzione di una variabile almeno categoriale ordinata.
70	3. c Box Plot
71	3. c Box-Plot
72	3. c Box-Plot
73	3. c Box-Plot
74	3. c Box-Plot Distribuzione del voto di maturità (in sessantesimi) per genere (da SPSS)
75	4. Teoria e Ipotesi
76	4.a Concetti ed asserti Teorie e ipotesi sono le forme di asserto più usate nella scienza. Per asserto si intende una costruzione mentale passibile di essere pensata come vera o falsa. Gli studenti del corso di laurea in scienze dell’educazione è un concetto, anche se formato di più termini, e non un asserto. Gli studenti del corso di laurea in scienze dell’educazione sono prevalentemente di genere femminile è un asserto. Esso asserisce infatti qualcosa che può essere pensato o controllato come vero o falso (Grimaldi, 2000, cap. 3)
77	4.b Teoria ed ipotesi
78	4.c Esempi di asserti
79	4.c Esempi di asserti
80	4.c Esempi di asserti
81	4.c Esempi di asserti
82	5. Il disegno della ricerca Le fasi fondamentali della ricerca
83	5.a Fasi fondamentali della ricerca
84	Fase 1: Scelta del problema e la formulazione delle ipotesi In questa fase il ricercatore sceglie il problema e formula la teoria e le ipotesi della ricerca. In un’indagine sugli studenti di Scienze dell’Educazione la teoria potrebbe affermare che l’utilizzo delle strutture didattiche da parte degli studenti ne migliora il successo universitario e l’ipotesi potrebbe affermare che esiste una relazione positiva tra frequenza alle lezioni e risultati, ossia che la frequenza (misurata come numero di ore settimanali di frequenza ai corsi) tende ad influenzare positivamente la media dei voti degli esami sostenuti.
85	Fase 1: Scelta del problema e la formulazione delle ipotesi
86
87	Fase 3: la raccolta dei dati
88	Fase 4: la codifica e l’analisi dei dati
89	Fase 5: l’interpretazione dei risultati e il controllo delle ipotesi
90	Fase 5: l’interpretazione dei risultati e il controllo delle ipotesi
91	Fase 1 bis
92	6. La distribuzione normale
93	6.a Che cos’è la distribuzione normale Una distribuzione normale assume una tipica forma a campana, simmetrica all’asse verticale. Negli esempi riportati si può notare come le curve possano assumere dei profili diversi anche avendo la stessa area.
94	6.a Che cos’è la distribuzione normale
95	6.a Che cos’è la distribuzione normale
96	6.a Che cos’è la distribuzione normale
97	6.a Che cos’è la distribuzione normale
98	6.a Che cos’è la distribuzione normale
99	6.a Che cos’è la distribuzione normale
100	6.b La distribuzione normale standardizzata La distribuzione normale standardizzata è particolarmente utile nelle operazioni di stima statistica e per comparare tra loro valori provenienti da differenti distribuzioni, anche non normali (ad esempio per comparare il voto di italiano di uno studente proveniente dalla scuola A con quello nella stessa materia di un altro studente proveniente dalla scuola B). Essa presenta media uguale a 0 e scarto tipo pari a 1.
101	6.b La distribuzione normale standardizzata
102	6.b La distribuzione normale standardizzata
103	6.b La distribuzione normale standardizzata
104	6.b La distribuzione normale standardizzata
105	6.b Intervalli tipici
106	6.b Intervalli tipici
107	6.c Il Teorema del Limite Centrale legge dei grandi numeri
108
109	6.c Il Teorema del Limite Centrale
110	6.c Il Teorema del Limite Centrale
111	6.c Il Teorema del Limite Centrale
112	6.c Il Teorema del Limite Centrale
113	6.c Il Teorema del Limite Centrale
114	6.d La distribuzione campionaria della media Un esempio La distribuzione delle medie campionarie segue il teorema del limite centrale anche se la popolazione di partenza non è normale quando il campione è elevato, approssimativamente superiore alle 30 unità. Di seguito si portano due esempi al riguardo, sia con estrazione con reimmissione sia senza reimmissione. I realtà per fare l’esperimento la popolazione è piccola (5 casi) e il campione ancor di più (2 casi). Questo esempio serve a farci capire che la media di tutte le medie dei campioni corrisponde alla media e che anche per piccoli campioni la distribuzione delle medie campionarie tende ad assomigliare alla normale (anche per piccoli campioni).
115	6.d La distribuzione campionaria della media Un esempio
116	6.d La distribuzione campionaria della media
117	6.d La distribuzione campionaria della media
118	6.d La distribuzione campionaria della media
119	6.d La distribuzione campionaria della media
120	6.d La distribuzione campionaria della media
121	6.d La distribuzione campionaria della media: campione senza reimmissione
122	6.d La distribuzione campionaria della media
123	6.d La distribuzione campionaria della media
124	6.d La distribuzione campionaria della media
125	6.d La distribuzione campionaria della media
126	6.d La distribuzione campionaria della media
127	7. Stima statistica La stima intervallare
128	7. Stima statistica
129	7. Stima statistica
130	7. Stima statistica
131	7. Intervalli di fiducia
132	7. Intervalli di fiducia Gli statistici hanno elaborato delle tecniche a seconda del grado di conoscenza della realtà che si vuole investigare. La tabella che segue ci aiuta ad orientarci nella casistica che si viene a determinare. In merito al parametro numerosità campionaria, occorre dire che di solito si considerano piccoli campioni quelli che hanno approssimativamente meno di 30 casi, medio-grandi i campioni con più di 30 casi.
133	7. Intervalli di fiducia
134	7. Intervalli di fiducia
135	7. Intervalli di fiducia per la media caso 2° (Bienaymè Tchebicheff) La formula per calcolare gli intervalli di fiducia è la seguente: dove dipende dal livello di significatività prescelto. Esempio: si estrae un campione di 15 unità da una popolazione di soggetti residenti nella valle d’Aosta. Si vuole calcolare l’intervallo di fiducia che con una probabilità nota e prescelta contiene il parametro vero e sconosciuto della popolazione. Il reddito medio del campione è pari a 2000 €, lo scarto tipo della popolazione =200 €. Scelto il livello di significatività =0.05, l’intervallo sarà: Svolgendo i calcoli otterremo che la media della popolazione, sarà compresa con una probabilità del 95% nell’intervallo: 1769< < 2231
136	7. Intervalli di fiducia per la media 3° caso 3. Lo scarto tipo (deviazione standard) della popolazione è noto, il campione ha numerosità qualsiasi (< o > di 30 casi) e la forma può essere o meno normale Quando lo scarto tipo della popolazione è noto (si tratta per lo più di una caso teorico, dato che di solito quando si conosce lo scarto tipo della popolazione se ne conosce anche la media), sia che si conosca la forma della distribuzione della variabile nella popolazione, sia che non la si conosca, la formula per calcolare gli intervalli di fiducia non cambia ed è pari a:
137	7. Intervalli di fiducia per la media 3° caso
138	7. Intervalli di fiducia per la media 3° caso
139	7. Intervalli di fiducia per la media 3° caso
140	7. Intervalli di fiducia per la media 3° caso
141	7. Intervalli di fiducia per la media 3° caso Laboratorio interattivo - Webstat
142	7. Intervalli di fiducia per la media 3° caso Laboratorio interattivo - Webstat L’home page del programma è la seguente:
143	7. Intervalli di fiducia per la media 3° caso Laboratorio interattivo - Webstat
144	7. Intervalli di fiducia per la media 3° caso Laboratorio interattivo - Webstat
145	7. Intervalli di fiducia per la media 3° caso Laboratorio interattivo - Webstat
146	7. Intervalli di fiducia per la media 3° caso Laboratorio interattivo - Webstat
147	7. Intervalli di fiducia per la media 3° caso Laboratorio interattivo - Webstat
148	7. Intervalli di fiducia per la media 3° caso Laboratorio interattivo - Vestac
149	7. Intervalli di fiducia per la media 3° caso Laboratorio interattivo - Vestac
150	7. Intervalli di fiducia per la media 3° caso Laboratorio interattivo - Vestac
151	7. Intervalli di fiducia per la media 3° caso Laboratorio interattivo - Vestac
152	7. Intervalli di fiducia per la media 3° caso Laboratorio interattivo - Vestac
153	7. Intervalli di fiducia per la media 3° caso Laboratorio interattivo - Vestac
154	7. Intervallo di fiducia per una media 4° caso
155	7. Intervallo di fiducia per una media 4° caso
156	7. Intervallo di fiducia per una media 4° caso
157	7. Intervallo di fiducia per una media 4° caso Applicando la formula [ ] otteniamo il limite inferiore: LI= 209.904 e il limite superiore: LS = 523.430. L'intervallo di fiducia al livello del 95% (livello di significatività di 0.05) sarà: Il ricercatore quindi può affermare che, con una probabilità del 95%, la velocità media di lettura degli alunni, fra cui è stato estratto il campione, è compresa tra 209.904 e 523.430 parole al minuto.
158	7. Intervallo di fiducia per una media 4° caso Webstat Con l’ausilio del programma Webstat possiamo calcolare gli intervalli di fiducia per la media:
159	7. Intervallo di fiducia per una media 4° caso Webstat
160	7. Intervallo di fiducia per una media 5° caso
161	7. Intervallo di fiducia per una media 5° caso Un ricercatore è interessato a stimare l’intervallo di fiducia della media dei voti ottenuti all’esame di maturità dagli studenti che si iscrivono al corso di laurea in Scienze dell’ Educazione, con un livello di fiducia del 99%. Estrae casualmente un campione di 60 studenti, ne calcola la media e lo scarto tipo (deviazione standard). Le informazioni necessarie sono:
162	7. Intervallo di fiducia per una media 5° caso Applicando la formula otteniamo il limite inferiore LI= 76 e il limite superiore LS = 84 L'intervallo di fiducia ad un livello di attendibilità del 99% (livello di errore del 0.01) sarà dunque: La media dei voti della popolazione da cui il campione è stato estratto sarà compresa, con una probabilità del 99%, nell’intervallo sopra considerato.
163	7. Intervallo di fiducia per una media 5° caso Webstat
164	7. Intervallo di fiducia per una media 5° caso Webstat
165	7. Intervallo di fiducia per una media 5° caso Webstat
166	7. Intervallo di fiducia per una media 5° caso Webstat
167	7. Intervalli di fiducia per una proporzione
168	7. Intervalli di fiducia per una proporzione Esempio
169	7. Intervalli di fiducia per una proporzione Esempio I limiti di tale intervallo sono: Limite inferiore LI = 0.30 - (1.96)(.072) = 0.16 Limite superiore LS = 0.30 + (1.96)(.072) = 0.44. L'intervallo di fiducia sarà quindi: Questo significa che (con il 95% di livello di fiducia) la proporzione di elettori che votano per il Partito della Mela nella popolazione è compreso tra il 16% e il 44%.
170	7. Intervalli di fiducia per una proporzione Webstat
171	7. Intervalli di fiducia per una proporzione Webstat
172	7. Intervalli di fiducia per una proporzione Webstat
173	7. Intervalli di fiducia per una proporzione Webstat
174	7. Intervalli di fiducia per una proporzione Webstat
175	8. Calcolo della numerosità campionaria per la stima di una media
176	8. Calcolo della numerosità campionaria per la stima di una media
177	8. Calcolo della numerosità campionaria per la stima di una media
178	8. Calcolo della numerosità campionaria di una media
179	8. Calcolo della numerosità campionaria di una media
180	8. Calcolo della numerosità campionaria di una media
181	8. Calcolo della numerosità campionaria di una media
182	8. Calcolo della numerosità campionaria di una media
183	8. Calcolo della numerosità campionaria di una media
184	8. Calcolo della numerosità campionaria di una media
185	8. Calcolo della numerosità campionaria di una media
186	8. Calcolo della numerosità campionaria di una media
187	8. Calcolo della numerosità campionaria di una media
188	8. Calcolo della numerosità campionaria di una media
189	8. Calcolo della numerosità campionaria di una media
190	8. Calcolo della numerosità campionaria di una media
191	8. Calcolo della numerosità campionaria per la stima di una media
192	8. Calcolo della numerosità campionaria per la stima di una proporzione
193	8. Calcolo della numerosità campionaria per la stima di una proporzione
194	8. Calcolo della numerosità campionaria per la stima di una proporzione
195	8. Calcolo della numerosità campionaria per la stima di una proporzione
196	8. Calcolo della numerosità campionaria per la stima di una proporzione
197	8. Calcolo della numerosità campionaria per la stima di una proporzione
198	8. Calcolo della numerosità campionaria per la stima di una proporzione
199	8. Calcolo della numerosità campionaria per la stima di una proporzione
200	9. Analisi bivariata: tabella a doppia entrata
201	9. Analisi bivariata: tabella a doppia entrata
202	9. Analisi bivariata: tabella a doppia entrata
203	9. Analisi bivariata: tabella a doppia entrata
204	10. Analisi bivariata: analisi della varianza
205	10. Analisi bivariata: analisi della varianza
206	10. Analisi bivariata: analisi della varianza
207	10. Analisi bivariata: analisi della varianza
208	11. Analisi bivariata: la correlazione
209	11. Analisi bivariata: la correlazione
210	12. Analisi bivariata: la regressione
211	12. Analisi bivariata: la regressione
212	12. Analisi bivariata: la regressione
213	12. Analisi bivariata: la regressione
214	12. Analisi bivariata: la regressione
215
216
217
218
219