Korelacija vs kauzalnost: zašto povezanost nije uzročnost
# Korelacija vs kauzalnost: zašto povezanost nije uzročnost
Zamislite da čitate istraživanje u kojem piše: „Postoji statistički značajna korelacija između konzumiranja čokolade i broja Nobelovih nagrada po zemlji (r = .79, p < .01)." Da li to znači da čokolada čini ljude pametnijim? Naravno da ne. Ali iznenadili biste se koliko često se ovakve greške pojavljuju u studentskim radovima, pa čak i u popularnoj nauci.
Razumijevanje razlike između korelacije i kauzalnosti jedna je od najvažnijih statističkih lekcija koje možete naučiti. Ova razlika nije samo akademska pedantnost. Pogrešna interpretacija korelacije može dovesti do loših politika, pogrešnih zaključaka i ozbiljnih etičkih problema u istraživanju.
Šta je korelacija?
Korelacija je statistička mjera koja opisuje stepen i smjer povezanosti između dvije varijable. Kad kažemo da su dvije varijable korelirane, to znači da se mijenjaju zajedno na sistematičan način.
Na primjer, ako studenti koji više vremena provode učeći imaju bolje ocjene, postoji pozitivna korelacija između vremena učenja i akademskog uspjeha. Ako studenti koji više vremena provode na društvenim mrežama imaju niže ocjene, to je negativna korelacija.
Ali ovo je ključna stvar: korelacija samo opisuje da se varijable kreću zajedno. Ona ništa ne govori o tome zašto se to dešava.
Pearsonov koeficijent korelacije (r)
Najčešće korišten koeficijent korelacije je Pearsonov r. On mjeri linearnu povezanost između dvije kontinuirane varijable.
Raspon vrijednosti: od -1 do +1
- •r = +1 znači savršenu pozitivnu linearnu povezanost (kad jedna varijabla raste, druga raste u savršeno proporcionalnom odnosu)
- •r = 0 znači da nema linearne povezanosti
- •r = -1 znači savršenu negativnu linearnu povezanost (kad jedna raste, druga opada u savršeno proporcionalnom odnosu)
Preduslovi za Pearsonov r:
- Obje varijable su kontinuirane (intervalna ili racio skala)
- Odnos između varijabli je linearan (provjerite scatter plotom)
- Nema ekstremnih outliera koji iskrivljuju rezultate
- Varijable su približno normalno distribuirane
Ako vas zanima kako se korelacija uklapa u širi kontekst statističkih testova, pogledajte i objašnjenje t-testa kao jednog od najčešćih postupaka za testiranje razlika.
Cohenove konvencije za veličinu efekta
Jacob Cohen je predložio smjernice za interpretaciju veličine korelacije:
| Veličina efekta | Pearsonov r |
|---|---|
| Mala | .10 |
| Srednja | .30 |
| Velika | .50 |
Ove vrijednosti su orijentacione, ne apsolutne. U nekim oblastima, korelacija od .30 može biti izuzetno važna (npr. u kliničkoj psihologiji), dok u drugima korelacija od .50 može biti očekivana i ne posebno informativna.
Važno je zapamtiti da je koeficijent determinacije (r²) često korisniji za interpretaciju. Ako je r = .50, onda je r² = .25, što znači da jedna varijabla objašnjava 25% varijanse druge. Korelacija od .30 objašnjava samo 9% varijanse, što je zapravo prilično malo.
Spearmanov rho: alternativa Pearsonu
Kad varijable nisu normalno distribuirane, kad su ordinalne (npr. Likert skala sa malo tačaka), ili kad je odnos monoton ali ne linearan, bolji izbor je Spearmanov koeficijent korelacije ranga (ρ).
Spearmanov rho radi tako što rangira vrijednosti obje varijable, a onda računa Pearsonov r na rangovima. Prednosti:
- •Ne pretpostavlja normalnu distribuciju
- •Robustan na outliere
- •Može detektovati bilo koji monoton odnos (ne samo linearan)
Na primjer, ako ispitujete povezanost između ranga na listi želja i zadovoljstva kupovinom, Spearmanov rho je pravi izbor jer radite sa ordinalnim podacima.
Korelaciona matrica: kako je čitati
Kad imate više od dvije varijable, korelacije se prikazuju u korelacionoj matrici. To je tabela u kojoj su redovi i kolone varijable, a svaka ćelija sadrži korelacioni koeficijent između odgovarajućeg para.
Primjer: Zamislite da ispitujete vezu između samopoštovanja, anksioznosti, akademskog uspjeha i društvene podrške kod studenata.
| Samopoštov. | Anksioznost | Ak. uspjeh | Društv. podr. | |
|---|---|---|---|---|
| Samopoštovanje | 1.00 | -.42** | .35** | .51** |
| Anksioznost | -.42** | 1.00 | -.28* | -.33** |
| Ak. uspjeh | .35** | -.28* | 1.00 | .22* |
| Društv. podrška | .51** | -.33** | .22* | 1.00 |
Kako čitati ovu matricu:
- Dijagonala je uvijek 1.00 (svaka varijabla savršeno korelira sama sa sobom)
- Matrica je simetrična (korelacija A sa B je ista kao B sa A)
- Zvjezdice označavaju statističku značajnost ( p < .05, * p < .01)
- Negativne vrijednosti znače inverznu povezanost (npr. veća anksioznost, niži akademski uspjeh)
Lažne korelacije: kad statistika laže
Postoji čitav web sajt (tylervigen.com/spurious-correlations) posvećen smiješnim korelacijama koje su statistički značajne ali potpuno besmislene. Evo nekih klasičnih primjera:
Sladoled i utapanje. Prodaja sladoleda i broj utapanja su visoko korelirani. Znači li to da sladoled uzrokuje utapanje? Ne. Oboje rastu ljeti jer je toplo. Temperatura je treća varijabla koja utiče na obje.
Nicolas Cage i bazeni. Broj filmova Nicolasa Cagea u datoj godini je gotovo savršeno koreliran sa brojem utapanja u bazenima. Korelacija je oko r = .87. Ovo je čist statistički artefakt koji nastaje kad pretražujete dovoljno veliki broj varijabli.
Čokolada i Nobelove nagrade. Studija objavljena u New England Journal of Medicine pokazala je visoku korelaciju između konzumiranja čokolade po glavi stanovnika i broja Nobelovih nagrada po zemlji. Ovo je vjerovatno odraz bogatstva zemlje (bogatije zemlje imaju i više čokolade i više naučnika).
Problem treće varijable
Većina lažnih korelacija nastaje zbog problema treće varijable (engl. confounding variable). Treća varijabla je nešto što utiče na obje varijable koje posmatrate, stvarajući iluziju da su one uzročno povezane.
Klasičan primjer iz razvojne psihologije: postoji pozitivna korelacija između veličine stopala kod djece i njihovog rječnika. Djeca sa većim stopalima znaju više riječi! Ali to ne znači da rast stopala poboljšava jezičke sposobnosti. Treća varijabla je uzrast: starija djeca imaju i veća stopala i bogatiji rječnik.
Još jedan primjer: korelacija između broja vatrogasaca na požaru i štete od požara. Više vatrogasaca, veća šteta? Ne. Veći požari zahtijevaju više vatrogasaca i uzrokuju veću štetu. Veličina požara je treća varijabla.
Kada korelacija JESTE dokaz za kauzalnost?
Korelacija sama po sebi nikada ne dokazuje kauzalnost, ali postoje uslovi pod kojima korelativni podaci mogu biti snažan argument za uzročnu vezu:
1. Eksperimentalni dizajn. Ako ste nasumično rasporedili učesnike u grupe, manipulisali nezavisnu varijablu i kontrolisali druge faktore, onda pronađena korelacija između varijabli zaista ukazuje na kauzalni odnos. Eksperiment je jedini dizajn koji omogućava uzročne zaključke. Ako planirate eksperiment, dobar početak je razumjeti kako napisati metodologiju tako da kauzalni zaključci budu opravdani.
2. Hillovi kriterijumi (za epidemiologiju). Bradford Hill je predložio devet kriterijuma koji zajedno mogu podržati kauzalnu interpretaciju: snaga povezanosti, konzistentnost, specifičnost, temporalnost, biološki gradijent, plausibilnost, koherentnost, eksperimentalni dokaz i analogija.
3. Temporalni redoslijed. Ako možete pokazati da promjena u X uvijek prethodi promjeni u Y, to pojačava (ali ne dokazuje) kauzalni argument. Longitudinalna istraživanja su tu ključna.
4. Medijaciona analiza. Statistički sofisticiraniji pristup koji testira putanje uticaja i može razlikovati direktne od indirektnih efekata.
Praktičan primjer: samopoštovanje i akademski uspjeh
Recimo da radite istraživanje o povezanosti samopoštovanja i akademskog uspjeha kod studenata psihologije. Prikupili ste podatke od 150 studenata koristeći Rosenbergovu skalu samopoštovanja i prosječnu ocjenu.
Rezultat: r = .38, p < .001
Šta možete reći:
- •Postoji umjerena pozitivna korelacija između samopoštovanja i akademskog uspjeha.
- •Studenti sa višim samopoštovanjem imaju tendenciju da imaju bolji prosjek ocjena.
- •Koeficijent determinacije (r² = .14) govori da samopoštovanje objašnjava oko 14% varijanse akademskog uspjeha.
Šta NE možete reći:
- •Visoko samopoštovanje uzrokuje bolji akademski uspjeh.
- •Poboljšanje samopoštovanja će dovesti do boljih ocjena.
Zašto ne? Postoji mnogo mogućih objašnjenja:
- •Akademski uspjeh može uticati na samopoštovanje (obrnuta uzročnost)
- •Socioekonomski status može uticati na oboje (treća varijabla)
- •Opšta kompetentnost može biti u osnovi oboje (treća varijabla)
Da biste tvrdili da samopoštovanje uzrokuje bolji uspjeh, trebali biste eksperiment: nasumično rasporedite studente u grupu koja prolazi program za jačanje samopoštovanja i kontrolnu grupu, pa uporedite njihove ocjene nakon semestra.
Najčešća greška
„Korelacija je 0.8, dakle X uzrokuje Y."
Ovo je daleko najčešća greška u studentskim radovima. Visoka korelacija je privlačna jer izgleda kao jasan dokaz, ali čak i korelacija od r = .99 ne dokazuje uzročnost bez odgovarajućeg istraživačkog dizajna.
Ova greška se pojavljuje u raznim oblicima:
- •„Rezultati pokazuju da upotreba društvenih mreža smanjuje samopoštovanje (r = -.45)." Netačno. Rezultati pokazuju da su upotreba društvenih mreža i samopoštovanje negativno korelirani.
- •„Stres izaziva nesanicu (r = .52)." Netačno. Stres i nesanica su pozitivno korelirani, ali na osnovu korelacije ne možemo tvrditi smjer uzročnosti.
- •„Potrebno je smanjiti vrijeme na ekranu jer ono uzrokuje depresiju (r = .33)." Ovo je zaključak o politici zasnovan na korelativnim podacima.
Kako ispravno formulisati: Koristite jezik povezanosti, ne uzročnosti. Umjesto „uzrokuje" i „dovodi do", koristite „povezano je sa", „korelira sa", „postoji tendencija da".
Korelacija u kontekstu drugih testova
Korelacija je samo jedan od alata u vašem statističkom arsenalu. Ako vas zanima ne samo da li su varijable povezane nego i da li postoje razlike između grupa, pogledajte članke o t-testu za poređenje dvije grupe. Razumijevanje korelacije je temelj za naprednije analize poput regresije, medijacione analize i strukturalnog modelovanja.
Rezime ključnih principa
- Korelacija mjeri povezanost, ne uzročnost.
- Pearsonov r mjeri linearnu povezanost; Spearmanov rho je za neparametrijske podatke.
- Korelaciona matrica je sistematičan pregled svih parova korelacija.
- Treća varijabla je najčešći razlog lažnih korelacija.
- Samo eksperimentalni dizajn dozvoljava uzročne zaključke.
- Koristite Cohenove konvencije za interpretaciju veličine efekta (ali sa rezervom).
- Uvijek koristite jezik povezanosti kada izvještavate o korelativnim nalazima.
Isprobajte Istražimo platformu
Istražimo automatski generiše korelacionu matricu sa heat mapom i označava statistički značajne korelacije. Umjesto da ručno računate korelacije između deset varijabli (to je 45 parova!), platforma to radi u jednom kliku, sa oznakama značajnosti i vizuelnim prikazom koji možete direktno koristiti u radu.
Isprobajte ovo u Istražimo platformi
Od kreiranja ankete do statističke analize, sve na jednom mjestu. Besplatno za studente i istraživače.
Započni besplatno →