Co to jest parametryczność? Jak sprawdzić czy dane są parametryczne?

30 marca 2024 | author

Facebook

Dzisiaj będzie coś hotter than Oscars (chociaż umówmy się, akurat Oscary to nie jest wysoko postawiona poprzeczka). Porozmawiamy o tym, jak rozróżnić nasze dane na parametryczne i nieparametryczne. I dlaczego to jest ważne dla wyników badania. A będzie to trochę złożona sprawa, bo musisz najpierw załapać parę dziwnych ale podstawowych rzeczy. Potem to będzie już tylko z górki. No to hey, ho, let’s go.

O CO W OGÓLE CHODZI Z CAŁĄ TĄ PARAMETRYCZNOŚCIĄ

Tak w dużym skrócie – o wybór prawidłowej metody statystycznej. Pisaliśmy już o tym, że poprawność analizy statystycznej zależy od tego czy wybierzemy poprawny test do naszych danych – to nazywa się algorytmem wyboru testu. W zależności od tego jakie mamy dane (zmienne, elementy badania) wybieramy według tego algorytmu jakim testem powinniśmy się posłużyć. Ten algorytm wyboru testu ma parę etapów, na których wybiera się najpierw ogólną grupę testów, potem jakąś podgrupę i na końcu konkretny test. I jednym z etapów jest sprawdzenie parametryczności danych. Od niej zależy czy wybierzemy testy parametryczne czy nieparametryczne.

No, nie brzmi to specjalnie zrozumiale na tym etapie. Ale spróbujmy nieco pójść w storryteling. U zarania dziejów statystyki określono zakres wymagań, które musiały spełnić zebrane dane by dało się je analizować. Działo się tak, bo pewne idee statystyczne liczone były jeszcze na kartkach (a nie z użyciem komputerów) i określenie matematyczne i statystyczne pewnych rzeczy było w zasadzie złożonym zajęciem. Wymagania te można z grubsza określić mianem parametryczności, a testy na nich oparte to testy parametyczne, klasyczne (choć z powodu różncyh fatalnych pomyłek w polskim piśmiennictwie zdarzają się różne nazwy). Wspomniane wymagania były dość restrykcyjne i w zasadzie nieco odrealnione – dziś wiemy, że równie „idealne dane” zdarzają się rzadko, albo są bardzo kosztowne w zbieraniu. Na przykład taka idea rozkładu normalnego – pisaliśmy o tym, że wymaganie od naszych danych żeby zawsze miały rozkład normalny jest piękną ideą, ale średnio działa w realnym świecie [tu można sobie zrobić żart polityczny, ale my w żarty polityczne nie idziemy]. To znaczy, rzadko się taki rozkład w przeciętnych badaniach zdarza. A to z kolei oznaczałoby, że spora ilość zebranych danych jest nieprzydatna, nie do analizy i wywalana do śmieci.

Mądrzy statystycy wpadli na pomysł, że może warto rozwinąć jakieś metody alternatywne, które poradzą sobie z tym że zebrane dane nie są idealne. Na takie pomysły wpadali i sto lat temu, ale ponieważ złożoność obliczeniowa tych metod była bardzo duża, na ich realny rozwój trzeba było poczekać na ekspansję komputeryzacji. Totalnie, wyobraź sobie, że liczenie „łatwiejszego” testu na kartkach byłoby drogą przez mękę nawet dla zaawansowanego matematyka czy statystyka, a co dopiero mówić o innych naukach które chciały takie metody aplikować. W skrócie – takie metody upraszczają działania badacza, bo dane nie muszą być idealne, ale utrudniały analizę danych z racji złożoności obliczeniowej. Dział metod zajmujących się tymi nowymi, wymagającymi testami statystycznymi to statystyka nieparametryczna, a nowoczesne testy na nich oparte to testy nieparametryczne. Użycie testów nieparametrycznych rozkwita ledwie od paru dekad, bo tak naprawdę tyle lat ma powszechna komputeryzacja.

TO CZEMU MUSZĘ WYBIERAĆ MIĘDZY TESTAMI PARAMETRYCZNYMI A NIEPARAMETRYCZNYMI

Ano, tu już sprawa się komplikuje, bo naukowcy spierają się między sobą o to które testy są „lepsze”. Mogliby to rozwiązać jakimiś walkami w klatkach, albo odpowiednikiem naukowego Mortal Kombat (ok, niby po franczyzie MK nie można się spodziewać wysokich lotów kina, ale i tak czekamy na następną premierę, skorpion był taki meh 5/7), ale zamiast tego wolą dyskutować. I te dyskusje trwają parę dekad i są pisane takim językiem, że prędzej zgniją Ci oczy niż coś z tego dla siebie ugrasz. Pomijając to jak bardzo sprawa jest dyskusyjna, możemy to podsumować mniej więcej tak: testy parametryczne są „lepsze”, bo informacje które z nich dostajemy są „lepszym” odzwierciedleniem populacji i dają się „łatwiej”, bardziej intuicyjnie interpretować. Testy nieparametryczne są „gorsze”, bo mamy co do ich wyników jakby „mniejszą pewność”, a na dodatek trudniej się je „odczytuje” przeciętnemu czytelnikowi.

Jeszcze raz to powtórzymy – sprawa jest dyskusyjna, ale przyjmuje się, że jeśli to jest możliwe to w pierwszej kolejności w ruch powinien pójść test parametryczny, a jeśli to niemożliwe, to dopiero używamy testu parametrycznego. Test nieparametryczny jest planem B. Z punktu widzenia statystycznych purystów i innych świrów jak mamy dane gorsze (nieparametryczne) to z musu trzeba użyć gorszego testu (nieparametrycznego). Ale z punktu widzenia większości naukowców czy studentów – jakość wyników i ich interpretacja niczym się nie różni między tymi dwoma grupami.

Choć studenci i często doświadczeni badacze panikują „olaboga, co ja zrobiu, dane mam nieparametryczne, to źle chyba, jakiś urok rzuciły złe wiedźmy”, to tak naprawdę to nic złego. Panikę podkręcają odruchy naukowców sprzed kilku dekad – taki naukowiec kiedyś to rwał włosy z głowy, bo jak mu wychodziło że dane są nieparametryczne, bo obliczenie wyników dla takich danych raczej było poza jego zasięgiem. Dzisiaj, dla Ciebie to nie ma znaczenia, bo pakiet statystyczny tak samo szybko obliczy dla Ciebie wynik testu parametrycznego jak i nieparametrycznego. To rozważanie o danych nieparametrycznych przypomina informację o tym, że dziecko jest lewonożne. I co? I nic. Jest i tyle. Może lewą nogą w sumie kopać piłę tak samo jak prawą. Dla przeciętnego badania wyniki nieparametryczne, a właściwie ich interpretacja będą praktycznie takie same jak wyniki parametryczne. A popiskiwania miłośników klasyki statystycznej, że te testy nieparametryczne to gorsze ma w świetle badań symulacyjnych coraz mniejsze uzasadnienie.

Także – mimo tego że nie ma powodów do paniki, umawiamy się wszyscy (w świecie nauki rzecz jasna) że jeśli dane są parametryczne, to najpierw próbujemy użyć testu parametrycznego. I będziemy próbować tak zbierać dane, żeby były one parametryczne. A jeśli to nie będzie możliwe, to po prostu jako alternatywy użyjemy testu nieparametrycznego.

[Drobna uwaga: stoimy na stanowisku, że lepiej użyć testu nieparametrycznego niż przerabiać zebrane dane tak żeby były parametryczne; ten drugi pomysł uważamy za absurdalną praktykę która przynosi więcej szkody niż korzyści].

Teraz już wiadomo o co kamon?

JAK ODRÓŻNIĆ DANE PARAMETRYCZNE OD NIEPARAMETRYCZNYCH

Dobra, tu będzie z górki już chyba. Wracamy do algorytmu wyboru testu statystycznego. Według pierwszej części tego poradnika (klik tutaj), zaczynasz od wyboru grupy testów. Jeśli wychodzi Ci, że

  • jesteś w grupie testów Chi (klik, oraz klik), to w ogóle się parametrycznością nie przejmujesz, bo Chi tak nie bardzo się z ideą parametryczności sklejają (są od niej w zasadzie niezależne)
  • jesteś w grupie testów korelacji/regresji/sem (kilk tutaj) to Twoim jedynym zadaniem jest określić czy zmienne mają rozkład normalny (tak się to robi: klik); jeśli nie mają rozkładu normalnego, to twoje dane są nieparametryczne; pod tym linkiem wybierzesz którą metodę korelacji wybrać
  • jesteś w grupie porównań międzygrupowych, to sprawa jest trochę bardziej złożona i wymaga całego akapitu, albo kilku; proszę, są poniżej.

PARAMETRYCZNOŚĆ W PORÓWNANIACH PODGRUP

Ta trzecia grupa testów, to porównania między grupami. Wszystko jedno ile podgrup chcesz ze sobą porównywać, zasady będą zawsze takie same:

Po pierwsze porównywane podgrupy muszą być równoliczne, żeby uznać że dane są parametryczne. Na przykład: chcesz porównać ilość jedzonej czekolady wśród dzieci i dorosłych – wówczas ilość zbadanych dzieci musi być taka sama jak ilość zbadanych dzieci. Często jest tak, że losowo przydziela się osoby badane do jakichś warunków badawczych. Wówczas, z racji losowości grupy są „prawie takie same”. Na przykład mamy 31 dzieci i 29 dorosłych. Na szczęście, w statystyce równoliczność jest pojęciem które można opisać mniej więcej tak „możemy sobie założyć jakąś granicę błędu, to nie muszą być idealnie równe grupy”. Żeby dowiedzieć się, czy porównywane grupy są równoliczne czy nie, musimy wykonać test liczebności chi-kwadrat (jaki? klik). Nieistotny statystycznie test chi-kwadrat w tym wypadku powie nam, że z punktu widzenia statystyki te dwie grupy równoliczne, nawet jeśli są między nimi jakieś tam rozbieżności. Jeśli rozbieżności będą za duże, na przykład mamy 30 dorosłych a 15 dzieci, to test powie nam istotnym statystycznie wynikiem, że tych grup nie możemy traktować jako równoliczne. Jeśli grupy są równoliczne przechodzimy do następnego sprawdzenia, jeśli nie – od razu do testów nieparametrycznych.

Choć uważa się, że równoliczność podgrup jest najważniejsza i od niej zaczynamy badanie parametryczności, to jeszcze nie wszystko. Są jeszcze dwa etapy. Etap drugi, to sprawdzenie, czy uzyskane rozkłady jakiejś zmiennej którą chcemy porównywać w podgrupach są zgodne z rozkładem normalnym czy nie. Pisaliśmy o tym tutaj (klik), że jesteśmy zwolennikami testu Saphiro-Wilka, którego nieistotny wynik potwierdzi nam, czy rozkłady są zgodne z rozkładem normalnym. Jeśli są, to mamy (na razie) dane parametryczne i możemy przejść do trzeciego etapu; jeśli nie są, bo wynik testu był istotny statystycznie, to od razu do testów nieparametrycznych. Oczywiście dodamy ponownie, bo pisaliśmy o tym (serio, kliknij ten link i przeczytaj jeśli właśnie ogarniasz sobie kwestię parametryczności), że mówimy tu o wyniku w każdej porównywanej podgrupie, a nie wyniku ogólnym dla wszystkich badanych. W naszym przykładzie – chcemy, żeby rozkład ilości zjedzonej czekolady był zgodny z rozkładem normalnym zarówno dla grupy dzieci jak i dla dzieci dorosłych. Tutaj akurat nie powinno być odstępstw – choć jedna grupa nie ma rozkładu normalnego = trudno, nie ma testu parametrycznego.

Punkt trzeci to określenie czy w porównywanych podgrupach są równomiernie rozłożone wariancje. Ten trzeci warunek, jeśli jest złamany również może skierować badacza na ścieżkę testów nieparametrycznych, ale tu jeszcze jest szansa na „ratunek” testu parametrycznego. Większość analiz parametrycznych w pakietach statystycznych ma wbudowane „analizatory” równości wariancji porównywanych podgrup. Są to dodatkowe testy do testów. I tak na przykład test t-Studenta i jednozmiennowa analiza wariancji (ANOVA) mają możliwość „wydrukowania” wyniku testu Levene’a, a analiza wariancji z powtarzanym pomiarem testu Mauchley’a. Jeśli taki test jest istotny statystyczne, to dane nie mają równych wariancji i badacz może użyć testu nieparametrycznego. Może też skorzystać tak zwanej poprawki do testu, czyli dodatkowego obliczenia które zmieni wynik potrzebny do Twojego badania. Jak to działa?

Powiedzmy, że mamy do policzenia test t-Studenta. Spełniliśmy dwa pierwsze warunki (normalność i równoliczność) a zatem czas na sprawdzenie trzeciego. Zamawiamy (np. w SPSS, albo Statistica) test Levene’a i sprawdzamy jego istotność. Jeśli test Levene’a jest nieistotny statystycznie, to możemy po prostu zrobić test t-Studenta i zinterpretować jego wynik. Jeśli test Levene’a jest istotny to wówczas albo możemy przejść do testu nieparametrycznego, albo wybrać poprawkę testu t-Studenta dla nierównolicznych wariancji (tzw. test w którym nie założono równości wariancji, ten test w SPSS to technicznie test Welcha). To będzie po prostu nieco inny wynik testu t-Studenta niż ten który dostali byśmy bez poprawki. Pytanie – co wybrać, test nieparametryczny, czy poprawkę do testu? Test parametryczny kusi nas tym że starzy ludzie go lubią, z drugiej strony poprawka może być trudniejsza w zrozumieniu i wykonaniu dla młodego naukowca… na tym etapie nie ma szczególnej zgodności między książkami czy lepiej stosować poprawkę testu czy test nieparametryczny, więc zrób co uważasz i co będzie dla Ciebie łatwiejsze w ogarnięciu.

Analogicznie dla testu jednozmiennowej analizy wariancji musimy zamówić w programie statystycznym okienko z testem Levene’a i jeśli jest on istotny statystycznie, to trzeba użyć poprawki, która w SPSS nazywa się „mocnym testem średnich”, albo testem Welcha. W wielu pakietach statystycznych jest też alternatywnie test Browna-Forsytha, ale daje praktycznie te same wyniki, więc to bez różnicy. Czyli – jeśli wykonujemy jednoczynnikową ANOVA, mamy równoliczne grupy, normalne rozkłady, a test Levene’a wskazuje że wariancje nie są równe, to odczytujemy wynik testu Welcha zamiast wyniku po prostu ANOVA i to będzie po prostu trochę inny wynik niż wynik ANOVA. W analizie z powtarzanym pomiarem mamy natomiast test Mauchley’a który mówi nam, czy możemy skorzystać z „normalnego” wyniku testu, czy też użyć poprawki (Greenhouse’a-Geissera, lub Huynha-Feldta).

Uufff… Trochę to może się wydawać na pierwszy rzut oka złożone, choć takie nie jest. Jeśli opis tego ostatniego warunku nie jest szczególnie jasny – dajcie znać, to go rozbudujemy, albo pokażemy na przykładach jak stosować poprawki.

PODSUMOWUJĄC

  • sprawdzaj równoliczność porównywanych grup
  • sprawdzaj normalność rozkładu zmiennej w podgrupach
  • sprawdzaj równość wariancji
  • jeśli na którymś etapie coś nie gra – rozważ (z naciskiem na wybierz) testy nieparametryczne

ŻEBY NIE BYŁO ZBYT ŁATWO

Jeśli decydujesz się na tym etapie z nami zostać przy trzech magicznych regułach wyboru, to nie psuj sobie krwi i nie czytaj dalej. Bo niżej to tylko uwagi do dłuższej dyskusji o meandrach statystyki, które mogą Cię nie dotyczyć.

Są jeszcze takie śmieszki co to lubio sobie ze studento pożartować i zaczynają majonezową dyskusję: „niektóre testy parametryczne są względnie odporne na złamanie założeń parametryczności, więc nie trzeba od razu tak radykalnie odrzucać testu parametrycznego jeśli dane są nieparametryczne, a przecież testy parametryczne to lepsze so…”. Tym samym sugerując, że decyzję na poziomie wyboru testu, co do której uzasadnienia lub podania za i przeciw, zawsze grupa leciwych statystyków będzie podważać i spierać się o nią przynajmniej do wypuszczenia nowego sezonu Ricka i Morty’ego. W skrócie – są ludzie którzy wierzą, że te nowoczesne reguły wyboru testów są niepotrzebne, bo przecież względnie to to jedno i to samo. Klucz leży w słowie względnie i choć niektóre popularne na polskim rynku sugerują że ta względna odporność pozwala na odstępstwa od reguł, to nie podają szczególnie dokładnie gdzie ta względność się kończy a gdzie zaczyna. Prawdę powiedziawszy, biorąc pod uwagę np. badania symulacyjne (taka zaawansowana dziedzina statystycznego blablabla) to ta względna odporność zależy od zbioru dodatkowych warunków które są a) dla studenta totalnie niezrozumiałe b) dla studenta jest to zbędna wiedza i c) ta grupa przypadków w których względność ma zastosowanie jest naprawdę bardzo mała. Mówiąc krótko – od razu wstrzymujcie takich doradców, bo zazwyczaj że odstępstwo od tych reguł przyniesie Wam więcej dobrego niż złego.

Innym problemem jest wykonalność i rozumienie tych testów nieparametrycznych przez grono młodych badaczy. W wielu miejscach (konkretnie: uczelniach), wśród wielu promotorów jest mniej więcej takie podejście, że test parametryczny jest prostszy w wykonaniu i łatwiejszy w interpretacji. I mają rację, testy parametryczne są w ogóle zgodne z naszą intuicją, bo posługują się średnimi czyli czymś co ludzki mózg w miarę dobrze ogarnia; testy nieparametryczne zwykle pracują na medianach lub średnich rangach, które mogą być trudniejsze w rozumieniu, bo ich koncepcje są po prostu trudniejsze. Nic dziwnego, że zachęca się studentów do użycia czegoś co wydaje się być bardziej w ich zasięgu. I w sumie to rozumiemy. Do pewnego stopnia nawet mamy świadomość, że użycie nieprawidłowego testu nie zawsze skończy się błędami w wynikach… ale też rozumiemy, że jest to nie do przewidzenia, czy używając tak naprawdę nieprawidłowej metody (czyli testu parametrycznego tam gdzie dane są nieparametryczne) uzyskamy prawidłowy wynik. Nie będziemy tu specjalnie angażować się w kwestię tego kto ma rację i co jest lepsze dla przeciętnego studenta/studentki, po prostu powiemy, że to podejście rozumiemy. Aczkolwiek mamy takie zdanie w tej kwestii, które będziemy forsować: trudność w wykonaniu obu grup tych testów, biorąc pod uwagę ilość gotowych tutoriali w necie jest dziś w zasadzie porównywalna. A algorytm testu, gdy stosuje się podejście takie jak wyżej nie jest też czymś strasznie złożonym. Zachęcamy więc do tego, żeby Twoje wyniki były po prostu „bliższe prawdy” a to oznacza właśnie użycie poprawnego testu. To że niepoprawny test da poprawny wynik (potwierdzi Twoją tezę) jest możliwe, ale my byśmy nie ryzykowali.

Tyle na dzisiaj. Bez odbioru

…i tak serio, jeśli jeszcze z jakiegoś powodu nie widzieliście nowego Topgana, to nadróbcie zaległości.

<wróć