Który test wybrać do oceny normalności rozkładu?

5 stycznia 2022 | author

Facebook

W wielu przypadkach badacz wybierając odpowiedni test do weryfikacji swojej hipotezy musi najpierw określić czy jego dane posiadają tzw. rozkład normalny, czy nie. Z wielu obecnie dostępnych testów w praktyce wybiera się pomiędzy kilkoma najpopularniejszymi, które zazwyczaj po prostu są dostępne w programie statystycznym którym się posługujemy. W 95% przypadków badacz decyduje między testem Kołomogorowa-Smirnowa (D) a testem Shapiro-Wilka (W). Co wybrać kiedy wszystko fajne? Jak żyć?

TL;DR – nasze zdanie jest takie, że zawsze test Shapiro-Wilka.

Skąd taka decyzja? Jeśli to czytasz to pracujesz albo w SPSS, PSPP, Statistica albo Minitab, bo niby jak byś tu trafił? Może jeszcze R… W tych programach do wyboru masz zazwyczaj dwa-trzy testy (Minitab jest ciekawym wyjątkiem, R jest poza stawką, a takie JASP/JAMOVI same sugerują test S-W). I cały wybór, cała trudność wyboru wiąże się z tym, że jeden rabin (autor popularnych książek do statystyki) powie “tak”, drugi powie “inaczej”. Podstawą decyzji jest “wielkość próby”, czyli ilość osób które zbadaliśmy. W klasycznych już książkach przyjęło się, że kiedy próba mała, lepiej wykorzystać test Saphiro-Wilka niż Kołomogorowa-Smirnowa.

A co to znaczy mała próba? Różni autorzy różnie definiują „małą” próbę, np. Stanisz (2007) uważa, że mała próba to taka poniżej 2000 osób badanych, co jednak rzadko się zdarza w praktyce badań społecznych, np. psychologicznych, medycznych, etc. W podręczniku Bedyńskiej (wydanie z 2012) na stronie 67 autorka zaleca stosowanie testu Saphiro-Wilka tam, gdzie próba (ilość osób w badaniu) jest mniejsza niż 100 tym samym “zmniejszając” małą próbę z 2000 osób do 100. I czo teras?

Może zadajmy pytanie – jakie są podstawy tego wyboru? Różni autorzy wskazują, że nieco już archaiczny test Kołomogorowa-Smirnowa (nawet z poprawką Lillieforsa) niedokładnie szacuje swoje wyniki w przypadku małej ilości obserwacji (małej ilości osób badanych), dlatego dokładniej (poprawniej) ocenia rozkład test Saphiro-Wilka i wskazują na to dość skomplikowane publikacje sprawdzające poprawność różnych testów.

Te bardziej złożone publikacje sugerują test S-W z różnych powodów. Field pisze o po prostu większej mocy testu S-W (pp 546 „in general the Shapiro–Wilk test is more accurate”; poza tym Field w różnych miejscach zaleca użycie testu S-W jeśli wyniki K-S i S-W się od siebie różnią pp 546, 526, 575). Moc testu statystycznego jest zdolnością tego testu do wykrywania różnic między grupami, jego „bezbłędnością”. Porównując dwa testy statystyczne, ten jest lepszy, który ma większą moc, czyli dla tej samej liczby obserwacji oraz takim samym założonym poziomie istotności częściej odrzuca fałszywą hipotezę, ponieważ moc testu zależy od liczebności próby, większa moc testu jest zaletą w mniejszych próbach. Dokładniejsze porównanie mocy testów można znaleźć np. w publikacji Razali i Wah (2011) – ich symulacje wskazują, że Kołomogorov-Smirnov ma zaledwie równie dobrą moc testu co Saphiro-Wilk dla prób o wielkości około 2000 obserwacji (osób badanych), natomiast w przedziale 50-100 osób badanych nawet nie ma co porównywać testów, bo K-S jest najgorszym z możliwych wyborów, podczas gdy S-W nadal wypada akceptowalnie. Są wprawdzie jeszcze różne dodatkowe oszacowania „poprawności” testów, ale S-W zawsze wypada w nich lepiej – słowem jest najbardziej trafny (z tych ogólnodostępnych na przykład w SPSS) i po prostu poprawnie szacuje. Mimo zatem określenia przez Bedyńską małej próby jako 100 osób, my w ogóle nie będziemy polecać K-S tylko ZAWSZE S-W, takie z nas hooligansy statystyki. A w razie dyskusji powołajcie się na ten wpis i podaną bibliografię.

Na koniec jeszcze dość często pomijana kwestia tego jak policzyć tę ilość osób badanych, czyli wielkość próby. Badania korelacyjne/regresyjne to badania w których po prostu bierzemy ilość osób badanych które mamy. Mówimy oczywiście o ilości osób użytych w danym porównaniu – jeśli nawet początkowo zbadaliśmy 1000 osób, ale docelowo w naszym badaniu chcemy opisywać tylko ekstrawertyków i tylko wyniki takich osób wykorzystamy w analizach, to bierzemy ilość osób wykorzystywanych podczas analizy. Badania porównawcze – czyli takie w których porównujemy ze sobą jakieś grupy (testy t-Studenta, ANOVA, U, H i inne): w nich bierzemy wielkość każdej najmniejszej podgrupy osobno. Porównujemy kobiety i mężczyzn? Sprawdzamy wielkość każdej grupy z osobna, bo dla każdej z nich Z OSOBNA wykonujemy test rozkładu interesującej nas zmiennej. Nie zawsze jest to jasne, kiedyś (opaaanie, lata temu) z racji oszczędności i błędów w tłumaczeniu pokutowało przekonanie, że interesuje nas rozkład po prostu jakiejś zmiennej, np. wzrostu. Nie zagłębiając się w techniczne szczegóły należy zapamiętać tylko tyle, że poprawna wersja to wykonanie takiego testu normalności rozkładu, który uwzględnia grupy. Tzn. porównując wzrost kobiet i mężczyzn określamy najpierw osobno rozkład wzrostu kobiet, potem rozkład wzrostu mężczyzn (analogicznie dla większej ilości grup). Dlatego każda z tych podgrup jeśli jest mniejsza niż 100 osób – to zgodnie ze wszystkimi tu wymienionymi argumentami powinna wysłać Cię do testu S-W, ale my już o tym mówiliśmy i my wiemy co jest pięć – zawsze S-W.

Bibliografia:
Bedyńska, S., & Książek, M. (2012). Statystyczny drogowskaz: praktyczny przewodnik wykorzystania modeli regresji oraz równań strukturalnych. Wydawnictwo Akademickie Sedno.

Razali, N. M., & Wah, Y. B. (2011). Power comparisons of shapiro-wilk, kolmogorov-smirnov, lilliefors and anderson-darling tests. Journal of statistical modeling and analytics, 2(1), 21-33.

Stanisz, A. (2007). Przystępny kurs statystyki: z zastosowaniem STATISTICA PL na przykładach z medycyny. StatSoft.

<wróć