Jeśli tu trafiasz drogi badaczu, to znaczy, że masz jakieś dane o charakterze numerycznym, albo porządkowym (jeśli masz dane nominalne nie-porządkowe, to nie jest miejsce dla Ciebie!) i nie wiesz który z testów korelacji zastosować (taaak, jest ich tyle do wyboru).
Korelacja to po prostu miara związku między dwoma cechami, domyślnie są to cechy ilościowe (numeryczne; takie jak wiek, wzrost, waga), ale można też korelować cechy porządkowe (wykształcenie z wielkością miasta zamieszkania). Czasem zdarza się, że w starych i źle przetłumaczonych książkach i skryptach słowo “korelacja” miesza się ze słowem “relacja”, ale to temat na inny moment.
Aby uzyskać prawidłowy współczynnik i jeszcze bardziej prawidłową istotność statystyczną trzeba wybrać taki test, który sprawdzi się dla konkretnych danych. Użycie nieprawidłowego testu może a) nie wykazać związku tam gdzie on jest (a Tobie zależy przecież na tym, żeby związek był 😉 albo b) może podać nieprawidłową wartość tego związku (czasem zupełnie mieszając Twoją teorię). Jak tego uniknąć? W praktyce badawczej stosuje się tak naprawdę tylko trzy testy korelacji: r-Pearsona, rho-Spearmana, oraz tau-b Kendalla.
Wybór testu opisuje tak zwany algorytm wyboru testu (dla zainteresowanych klik i klik). Obecnie, to co przez ponad sto lat praktycy udowadniali w morzu artykułów naukowych jest raczej bezdyskusyjne. Podsumowuje to w swojej książce Field.
Jaki wybrać test?
1) r-Pearsona wymaga spełnienia tzw. założeń normalności rozkładu dla korelowanych zmiennych, żeby był prawidłowo szacowany (r 6.5.2.1 s 177); musisz mieć rozkład normalny, żeby użyć r-Pearsona (tutaj info jak to sprawdzić i miniporadnik o parametryczności)
2) Jeżeli założenie o normalności rozkładu nie jest spełnione należy użyć testu rho Spearmana (r 6.5.3 s 179)
3) Jeśli chcemy korelować skale porządkowe i „wiązania” czyli powtarzające się często rangi (czyli na przykład pytania na skalach Likerta z odpowiedziami od 1 do 5) używamy testu tau-b Kendalla (r 6.5.4 s 181)
Rho Spearmana jest rangowym testem który został przez Spearmana zaproponowany jako alternatywa dla współczynnika r-Pearsona. Spearman w swoim artykule zwrócił uwagę na przypadki odstające i ekstremalne w badaniach, czyli problem braku normalności rozkładu analizowanych danych. Te odstępstwa powodowały, że współczynnik Pearsona był szacowany nieprawidłowo. Zaproponował więc swoją wersję testu.
Potem, ponieważ testu rho próbowano używać dla danych porządkowych poprawkę zaproponował Kendall (tau-b), a to z tego powodu, że dane porządkowe są skazane na tzw. „wiązania”. Testy rangowe źle znoszą obserwacje (wyniki) powtarzające się, a dane porządkowe (na przykład skala Likerta 1..5 od “zdecydowanie się nie zgadzam” do “zdecydowanie się zgadzam”, albo wykształcenie “podstawowe”, “średnie”, “wyższe”) zawierają takich wiele. Badani mają mało opcji do wyboru i ich odpowiedzi będą często się w obrębie badania powtarzały; w takim wypadku należy użyć testu tau.
Na koniec ciekawostka: w statystycznym drogowskazie jest drobne nieporozumienie, znajduje się tam zdanie “przy skalach porządkowych dysponujemy współczynnikami tau-b Kendalla i rho-Spearmana”. Mylone powody dla których zostały stworzone testy nieparametryczne. Spearman sprawdzi się lepiej od Pearsona dla danych porządkowych, ale z uwagi na tzw. wiązania będzie gorszy od Tau-b Kendalla. Statystyczny drogowskaz w ogóle pomija kwestie parametryczności związku.
I co? Wszystko jasne?
Bibliografia:
Kendall, M. G. (1938). A new measure of rank correlation. Biometrika, 30(1/2), 81-93.
Field, A. (2013). Discovering statistics using IBM SPSS statistics. sage.
Spearman, C. (1904). The proof and measurement of association between two things. The American journal of psychology, 15(1), 72-101. http://dx.doi.org/10.2307/1412159
Przeczytaj także