Chi-square test: kad i kako koristiti hi-kvadrat test
# Chi-square test: kad i kako koristiti hi-kvadrat test
Kad imate dva pitanja u anketi sa ponuđenim odgovorima i pitate se da li su odgovori na jedno pitanje povezani sa odgovorima na drugo, hi-kvadrat test je vaš alat. On je jedan od najstarijih i najčešće korišćenih statističkih testova, a njegova elegancija leži u jednostavnosti: poredi ono što ste dobili sa onim što biste očekivali da nema nikakve povezanosti.
Šta je chi-square test?
Chi-square test (χ² test, hi-kvadrat test) je neparametrijski statistički test koji se koristi za analizu kategoričkih (nominalnih ili ordinalnih) varijabli. Njegova osnovna logika je poređenje posmatranih frekvencija sa očekivanim frekvencijama.
Postoje dva osnovna tipa:
1. Test nezavisnosti (test asocijacije)
Ovo je najčešća upotreba. Testira se da li postoji statistički značajna povezanost između dvije kategoričke varijable.
Primjeri:
- •Da li postoji veza između pola i preferencije za online vs. uživo nastavu?
- •Da li je izbor studijskog programa povezan sa mjestom odrastanja (grad vs. selo)?
- •Da li tip škole (gimnazija vs. stručna) utiče na namjeru upisa na fakultet?
2. Test slaganja (goodness of fit)
Testira se da li se distribucija jedne kategoričke varijable razlikuje od neke teorijske distribucije.
Primjeri:
- •Da li su studenti ravnomjerno raspoređeni po godinama studija?
- •Da li distribucija odgovora na pitanje odgovara normalnoj distribuciji?
- •Da li su odgovori na Likert skali ravnomjerno raspoređeni?
U ostatku ovog teksta fokusiraćemo se na test nezavisnosti jer se mnogo češće koristi u istraživačkoj praksi.
Kontingencijska tabela: temelj hi-kvadrat testa
Kontingencijska tabela (tabela unakrsne klasifikacije) prikazuje frekvencije za svaku kombinaciju kategorija dviju varijabli.
Primjer: Ispitujemo da li postoji veza između pola (muški, ženski) i preferencije za tip nastave (online, uživo).
Posmatrane frekvencije (O)
| Online | Uživo | Ukupno | |
|---|---|---|---|
| Muški | 60 | 40 | 100 |
| Ženski | 45 | 55 | 100 |
| **Ukupno** | **105** | **95** | **200** |
Kako se računaju očekivane frekvencije (E)?
Očekivane frekvencije pokazuju šta bismo očekivali da nema nikakve veze između varijabli. Računaju se formulom:
E = (zbir reda × zbir kolone) / ukupan N
Za ćeliju „Muški, Online": E = (100 × 105) / 200 = 52.5
Očekivane frekvencije (E)
| Online | Uživo | Ukupno | |
|---|---|---|---|
| Muški | 52.5 | 47.5 | 100 |
| Ženski | 52.5 | 47.5 | 100 |
| **Ukupno** | **105** | **95** | **200** |
Chi-square formula
χ² = Σ (O - E)² / E
Za svaku ćeliju, izračunavate koliko se posmatrana frekvencija razlikuje od očekivane, kvadrirate tu razliku, podijelite sa očekivanom, i saberete sve.
Za naš primjer:
- •Ćelija (Muški, Online): (60 - 52.5)² / 52.5 = 1.07
- •Ćelija (Muški, Uživo): (40 - 47.5)² / 47.5 = 1.18
- •Ćelija (Ženski, Online): (45 - 52.5)² / 52.5 = 1.07
- •Ćelija (Ženski, Uživo): (55 - 47.5)² / 47.5 = 1.18
χ² = 1.07 + 1.18 + 1.07 + 1.18 = 4.50
Stepeni slobode
df = (broj redova - 1) × (broj kolona - 1) = (2 - 1) × (2 - 1) = 1
Uz df = 1, kritična vrijednost za p = .05 je 3.84. Naš χ² = 4.50 > 3.84, pa je rezultat statistički značajan.
Pretpostavke hi-kvadrat testa
Prije nego što primijenite hi-kvadrat test, provjerite ove pretpostavke:
1. Kategoričke varijable
Obje varijable moraju biti kategoričke (nominalne ili ordinalne). Hi-kvadrat test ne možete koristiti na kontinuiranim varijablama. Ako imate kontinuiranu varijablu, trebate je kategorisati (npr. „nizak, srednji, visok rezultat") ili koristiti drugi test.
Ako radite sa kontinuiranim varijablama i želite testirati razlike između grupa, pogledajte članke o t-testu ili ANOVA.
2. Očekivane frekvencije > 5
U svakoj ćeliji kontingencijske tabele, očekivana frekvencija mora biti najmanje 5. Ako nije, chi-square test nije pouzdan jer distribucija test statistike ne prati hi-kvadrat distribuciju dovoljno dobro.
Šta raditi ako je ovaj uslov prekršen?
- •Spojite kategorije (npr. umjesto 5 kategorija, napravite 3)
- •Koristite Fisherov egzaktni test (vidi dolje)
- •Povećajte uzorak
3. Nezavisnost opservacija
Svaki ispitanik smije biti zastupljen samo jednom u tabeli. Ovo znači da ne možete koristiti hi-kvadrat test za ponovljena mjerenja (isti ispitanici testirani dva puta). Za takve podatke koristite McNemar test.
Cramér's V: veličina efekta
Statistička značajnost vam govori da veza postoji, ali ne i koliko je jaka. Za to služi Cramér's V.
| Cramér's V | Veličina efekta (za df* = 1) |
|---|---|
| .10 | Mali efekat |
| .30 | Srednji efekat |
| .50 | Veliki efekat |
*Za tabele veće od 2×2, pragovi zavise od broja stepeni slobode.
Za naš primjer: V = √(χ²/(N × df*)) = √(4.50/(200 × 1)) = √0.0225 = .15
Ovo je mali do srednji efekat, što znači da postoji statistički značajna ali ne naročito jaka veza između pola i preferencije za tip nastave.
Fisherov egzaktni test: alternativa za male uzorke
Kad imate male uzorke i očekivane frekvencije ispod 5, Fisherov egzaktni test je bolji izbor. Umjesto da koristi aproksimaciju (kao hi-kvadrat), on računa tačnu vjerovatnoću dobijene ili ekstremnije tabele.
Kada koristiti Fisherov test:
- •Kad je ukupan N manji od 20
- •Kad bilo koja očekivana frekvencija pada ispod 5
- •Za tabele 2×2 (za veće tabele koristi se Fisher-Freeman-Halton test)
Fisherov test je konzervativniji od hi-kvadrat testa, što znači da je manje vjerovatno da ćete dobiti lažno pozitivan rezultat.
Praktičan primjer: pol i preferencija za tip nastave
Vratimo se na naš primjer detaljnije. Istraživač želi da ispita da li postoji veza između pola studenata i njihove preferencije za online ili uživo nastavu. Podatke prikuplja anketom na uzorku od 200 studenata psihologije.
Hipoteze:
- •H₀: Ne postoji veza između pola i preferencije za tip nastave (varijable su nezavisne).
- •H₁: Postoji veza između pola i preferencije za tip nastave (varijable nisu nezavisne).
Provjera pretpostavki:
- Obje varijable su kategoričke (pol: muški/ženski; tip nastave: online/uživo). ✓
- Sve očekivane frekvencije su > 5 (minimalna je 47.5). ✓
- Svaki student je anketiran jednom, opservacije su nezavisne. ✓
Rezultati:
χ²(1, N = 200) = 4.50, p = .034, V = .15
Interpretacija:
Rezultati hi-kvadrat testa nezavisnosti pokazuju da postoji statistički značajna veza između pola i preferencije za tip nastave, χ²(1, N = 200) = 4.50, p = .034. Cramér's V = .15 ukazuje na mali efekat. Analiza posmatranih frekvencija pokazuje da muški studenti češće biraju online nastavu (60% vs. 45%), dok ženski studenti češće preferiraju nastavu uživo (55% vs. 40%).
Ograničenja:
Ovaj nalaz ne govori zašto postoji ova razlika. Moguća objašnjenja uključuju razlike u stilovima učenja, različite socijalne potrebe, ili konfundirajuće varijable poput studijskog programa ili godine studija.
APA format za izvještavanje
Hi-kvadrat test ima specifičan APA format koji morate poštovati:
Za test nezavisnosti:
χ²(df, N = ukupan broj) = vrijednost, p = vrijednost, V = vrijednost
Primjeri:
- •χ²(1, N = 200) = 5.83, p = .016, V = .17
- •χ²(2, N = 350) = 12.45, p = .002, V = .19
- •χ²(4, N = 500) = 8.21, p = .084 (nije značajno, ne navodi se V)
Za test slaganja:
χ²(df, N = ukupan broj) = vrijednost, p = vrijednost
Važno: Uvijek navodite i veličinu efekta (Cramér's V) uz značajne rezultate. Sama statistička značajnost bez veličine efekta ne govori mnogo. Ovo je opšte pravilo za sve statističke testove, ne samo za hi-kvadrat.
Posebni slučajevi i varijante
Yatesova korekcija kontinuiteta
Za 2×2 tabele, neki softverski paketi automatski primjenjuju Yatesovu korekciju koja smanjuje hi-kvadrat vrijednost. Ovo je konzervativnije i smanjuje rizik od lažno pozitivnih rezultata, ali neki statističari smatraju da je previše konzervativno. Provjerite da li vaš softver koristi korekciju i budite konzistentni.
Hi-kvadrat sa više od 2 kategorija
Kad imate tabelu veću od 2×2 (npr. 3×4), značajan hi-kvadrat test govori da postoji veza, ali ne govori gdje. Za detaljniju analizu koristite:
- •Standardizovane rezidualne (adjusted standardized residuals > |2| su značajne)
- •Post-hoc analizu (poredite svaki par kategorija posebno sa Bonferroni korekcijom)
Najčešća greška
Korišćenje hi-kvadrat testa na kontinuiranim podacima.
Studenti ponekad naprave grešku tako što uzmu kontinuiranu varijablu (npr. rezultat na testu inteligencije), podijele je na kategorije (nizak, srednji, visok IQ), i onda koriste hi-kvadrat test umjesto t-testa ili ANOVA-e.
Zašto je ovo problematično? Kategorizacija kontinuiranih varijabli dovodi do gubitka informacija i smanjenja statističke snage. Umjesto da koristite puni raspon rezultata (od 80 do 140), vi sve svodite na tri kategorije i gubite finese podataka.
Primjer greške: Istraživač mjeri anksioznost na skali od 0 do 60 i dijeli ispitanike na „nisko anksiozne" (0-20), „srednje" (21-40) i „visoko anksiozne" (41-60). Zatim koristi hi-kvadrat test da vidi da li se distribucija razlikuje po polu. Ovo je neopravdano jer je anksioznost kontinuirana varijabla. Pravilno bi bilo koristiti t-test za poređenje prosječne anksioznosti između polova, ili ANOVA ako imate više od dvije grupe.
Kada je kategorizacija opravdana? Samo kad kategorije imaju suštinsko značenje (npr. „položio/pao", „zadovoljan/nezadovoljan/neutralan" kao odgovor na pitanje sa ponuđenim kategorijama). Ako su kategorije vještačke podjele kontinuirane varijable, koristite odgovarajući parametrijski test.
Alternativni testovi
Evo pregleda kad koristiti koji test za kategoričke podatke:
| Situacija | Test |
|---|---|
| 2 kategoričke varijable, N > 20 | Chi-square test nezavisnosti |
| 2 kategoričke varijable, N < 20 | Fisherov egzaktni test |
| Ponovljena mjerenja, 2×2 tabela | McNemar test |
| Ponovljena mjerenja, veća tabela | Cochran Q test |
| Ordinalne varijable | Gamma koeficijent, Kendall τ |
| Jedna varijabla, teorijska distribucija | Chi-square test slaganja |
Rezime ključnih tačaka
- Chi-square test se koristi za kategoričke varijable.
- Osnovna logika: poređenje posmatranih i očekivanih frekvencija.
- Pretpostavke: očekivane frekvencije > 5, nezavisnost opservacija.
- Cramér's V je mjera veličine efekta.
- Za male uzorke koristite Fisherov egzaktni test.
- APA format: χ²(df, N = ...) = ..., p = ..., V = ...
- Ne koristite hi-kvadrat na kategorisanim kontinuiranim varijablama.
Isprobajte Istražimo platformu
Istražimo automatski prepoznaje kategoričke varijable i nudi chi-square test sa Cramér's V i vizuelizacijom kontingencijske tabele. Kad u anketi imate pitanja sa ponuđenim odgovorima, platforma vam omogućava da jednim klikom testirate povezanost između bilo koja dva pitanja, sa kompletnim APA izvještajem i grafičkim prikazom.
Isprobajte ovo u Istražimo platformi
Od kreiranja ankete do statističke analize, sve na jednom mjestu. Besplatno za studente i istraživače.
Započni besplatno →