Jaki test statystyczny wybrać? Cz. I, czyli ogarniamy algorytm wyboru testu statystycznego

27 października 2021 | author

Facebook

JAKI TEST STATYSTYCZNY WYBRAĆ?

Słowem wstępu – bo zawsze musi być jakiś wstęp – pozwolimy sobie na parę uwag. Jeśli nie wiesz czy ten wpis Ci się przyda, albo co dokładnie w nim znajdziesz – przeczytaj ten wstęp. Jeśli już wiesz, że ten wpis pasuje do Ciebie i Twojej wewnętrznej aury/chi/energii to przejdź od razu do akapitu o wyborze testu.

Co tu znajdziesz? Znajdziesz tutaj najbardziej podstawowy algorytm wyboru testu statystycznego który pozwoli Ci uporać się z Twoimi wynikami badania. Każda analiza danych wymaga wybrania właściwej metody statystycznej; jest ich naprawdę wiele i nawet wprawny badacz może się pogubić w tym wszystkim. Postaramy się uporządkować trochę wiedzy i podać je w duchu naszego bloga całkowitym laikom (polecamy przejrzenie poprzednich poradników). Czego tu nie znajdziesz? Rozwiązania nietypowych problemów i dyskusji o wyższości jednej metody nad drugą. Musisz mieć świadomość już na tym etapie, że przez ostatnie kilkadziesiąt lat w literaturze przedmiotu wydarzyło się mnóstwo (zarówno złego jak i dobrego). Z tego powodu pomiędzy poszczególnymi podręcznikami i “szkołami” jest wiele niejasności, a nawet sprzeczności. Poza tym – nawet najlepsze podręczniki (i internetowe poradniki) nie rozwiążą problemów które nie zdarzają się zbyt często. Jeśli chcesz wymienić żarówkę w swojej ulubionej lampce, to im bardziej popularna będzie lampka tym większe są szanse na to że w 3 minuty znajdziesz w sieci gotowy filmik jak to zrobić. Jeśli Twoja lampka to nietypowy model mołdawski z 1905 roku, to może będziesz potrzebować pomocy specjalisty. Tak jest ze wszystkim, takie jest życie. Takie są profile na Tinderze – albo “standardowe”, albo zupełnie nieprzewidywalne.

Jeszcze chwilkę, jeszcze sekundkę. Zdradzimy Ci sekret, który ukrywają przed Tobą profesjonaliści [zobacz memy]: książki które kojarzysz są przekombinowane. Na przykład – do porównywania ze sobą dwóch grup ze względu na jakiś pomiar opracowano dziesiątki różnych testów, ale (!) w praktyce wykorzystuje się tylko kilka. W zależności od tego kto i kiedy pisał podręcznik – próbował forsować jakiś konkretny test (czasem błędnie!), ale współcześnie okazuje się (dzięki metodom analizy symulacyjnej) że pomiędzy proponowanymi rozwiązaniami nie ma praktycznie żadnej różnicy, lub na poziomie potwierdzania lub obalania hipotez szanse na popełnienie błędów ani specjalnie nie rosną ani nie spadają. To znaczy – polecamy zapoznanie się z podręcznikami Stanisza, Bedyńskiej, Fielda, oraz dowolnymi innymi, ale żeby wykonać coś poprawnie wystarczy Ci niniejszy skrócony algorytm. Najważniejsze jest dobrać odpowiednią grupę testów (np korelacje vs liczebności), bo już w obrębie danej grupy testów wybór ma mniejsze znaczenie.

NO TO ZACZYNAJMY!

Dokładnie tak jak skończyliśmy – na początek musisz rozumieć, że testy dzielą się na grupy. I tu znów, my użyjemy pewnego uproszczenia, które przyniesie ulgę Twym obolałym skroniom. 🙂 Dana grupa testów wynika z tego jakie zmienne masz do dyspozycji w pojedynczej analizie. Te z kolei wynikają z Twoich hipotez (lub pytań badawczych). Pisaliśmy o tym tu i tu – jeśli jeszcze nie masz tego ogarniętego, zalecamy zapoznanie się. Zakładamy że masz już opracowane sensowne hipotezy badawcze, a co za tym idzie ich brzmienie jest stosunkowo proste. Jeśli nie jest i masz wątpliwości na tym etapie, to jesteś w sytuacji z mołdawską żarówką (patrz wyżej). Hipoteza powinna być na tyle prosto sformułowana, żeby można było rozpisać ją do zmiennych, czyli konstruktów które badamy. Hipotezę (lub pytanie badawcze) rozpisuje się na zmienne, a następnie biorąc pod uwagę typ i ilość zmiennych wybiera się grupę testów. Koniecznie, obowiązkowo, bezdyskusyjnie zapoznaj się z naszym artykułem o typach zmiennych.

WYBÓR GRUPY TESTÓW

Idziemy od ogółu do szczegółu! Najpierw określamy ogólną grupę testów, żeby wiedzieć gdzie w ogóle szukać. Posłużmy się (uproszczonymi) przykładami z tego właśnie artykułu:

H1. Mniej kobiet niż mężczyzn pali.
P1. Czy wiek i osobowość są ze sobą związane?
H2. Studenci jedzą tygodniowo mniej czekolady niż dzieci.

i spróbujmy jak w przykładzie rozpisać sobie problemy badawcze (hipotezy) na zmienne. W przypadku pierwszej z nich mamy zmienne: płeć (kobieta vs mężczyzna) i palenie papierosów (pali vs nie pali). Obie zmienne są typu kategorii, są nominalne lub jak kto woli jakościowe (nie ma w nich “numerkówcyferków”). Jeśli w obrębie jednego problemu który rozpatrujesz są tylko zmienne jakościowe – wybierz grupę testów chi (jakościowych).

Wiek i osobowość to zmienne ciągłe, ilościowe (są cyferkonumerkami). Wiek w latach to jedna zmienna osobowość mierzona np. NEO-FFI to pięć zmiennych (neurotyzm, ekstrawersja i tak dalej). Każdą z tych zmiennych można zapisać w postaci jakiejś wartości liczbowej – a więc wszystkie zmienne są ilościowe. Jeśli w obrębie problemu (hipotezy, pytania) wszystkie zmienne są ilościowe to wybierzesz grupę testów korelacje-regresje-SEM (ilościowe).

W gdy mamy i takie i takie zmienne (jakościowe i ilościowe) wybierzesz grupę testów t/ANOVA, czyli porównań międzygrupowych zwanych testami istotności różnic międzygrupowych. Trzeci przykład jest złożony z dwóch zmiennych – ilości jedzonej czekolady tygodniowo (jakaś wartość liczbowa, czyli zmienna ilościowa) i tego czy ktoś jest studentem czy dzieckiem (grupa badawcza jest zmienną jakościową). Mamy i zmienne jakościowe i zmienne ilościowe. Wybierasz testy z grupy porównań międzygrupowych.

Jak widzisz, klasyczne określanie testu poprzez opisywanie co jest zmienną zależną a niezależną nie jest Ci specjalnie potrzebne (przynajmniej na tym etapie). Nie musisz na początek zagłębiać się bardziej w treść i brzmienie hipotez. Rozpisz zmienne na typy i podejmij decyzję o wyborze grupy testów.

Podsumujmy. Jakie mamy dane w analizie?

  • TYLKO nominalne = nieciągłe = nieparametryczne = jakościowe (płeć, kolor). Wybierz grupę testów chi (A na rysunku poniżej)
  • TYLKO ilorazowe = ciągłe = ilościowe = skale (wzrost, waga, jak-bardzo-coś). Wybierz grupę testów korelacje/regresje/SEM (na rysunku grupa B).
  • I TAKIE I TAKIE. Wybierz grupę porównań międzygrupowych t/ANOVA/GLM (C)

Proste, prawda? No to lecimy dalej, a właściwie przybliżamy szczegół… eee… w sensie, że doprecyzujemy teraz które testy konkretnie należy wybrać.

WYBÓR KONKRETNEGO TESTU Z GRUPY: PARAMETRYCZNE VS NIEPARAMETRYCZNE

W obrębie każdej grupy jest do Twojej dyspozycji kilka różnych testów. O każdym z nich w każdej podgrupie będziemy pisać oczywiście szerzej, ale nie to jest dla Ciebie ważne na początek. Ważne jest zapamiętanie – wiem w której grupie jestem, muszę po prostu spośród kilku testów wybrać ten właściwy. Każda grupa rządzi się nieco innymi prawami.

Grupa testów chi składa się w zasadzie z trzech testów do wyboru: chi-jednozmiennowego (test zgodności), chi-dwuzmiennowego (test niezależności) i analizy log-liniowej czyli więcej niż dwóch zmiennych. Zatem w tej grupie testów wybierasz konkretny test względem tego ile masz zmiennych. Grupa testów korelacji jest nieco bardziej złożona – zaczyna się od ustalenia czy interesują nas związki (czyli korelacje) czy wpływ (regresje) – a jeśli to wpływ to sprawdzamy czy to prosty wpływ, czy jakiś złożony albo pośredni (modelowanie strukturalne czyli SEM (bez obaw, kto by to kazał studentom liczyć?:) )). Grupa porównań międzygrupowych rządzi się ustaleniem tego ile masz grup do porównania (czy to test t, czy różne wersje ANOVA), oraz czy mierzysz jakąś cechę tylko raz czy powtarzasz pomiary kilka razy na tych samych obiektach (mierzysz wagę ciała przed i po posiłku), czyli jak sama nazwa wskazuje czy były to pomiary niezależne czy powtarzane. Jeszcze raz powtórzymy – o każdej z tych grup wkrótce napiszemy więcej. Ale czas na zgłębienie drugiej podstawowej wiedzy w obrębie wyboru testu.

Grupa korelacji i porównań międzygrupowych wymaga ustalenia czy dane są parametryczne czy nie (tu stosujemy pewien skrót myślowy który potem jeszcze nieco rozwiniemy). To znaczy sprawdzenia, czy zebrane dane mają oczekiwaną przez klasyczną statystykę “formę”. Na ten moment wystarczy rozumienie podstawowej różnicy między nimi – klasyczna statystyka zaproponowała metody odróżniania “prawdy od fałszu” z użyciem pewnej grupy testów, ale obwarowała się różnego rodzaju obostrzeniami, kiedy tego testu można użyć. To trochę tak jak w klasycznych RPG’ach. Wiesz że istnieje Magiczny Czar r-Pearsona którym pokonasz swojego potwora, ale żeby go użyć musisz mieć co najmniej 50 level i dwa Pergaminy Siły Statystycznej. Klasycy dążyli do tego, żeby zdobyć (wyexpić) ten Czar, ale nowa grupa graczy powiedziała “eee, chrzanić to, znajdziemy metodę ubicia smoka bez tego 50 levelu”. I tak się stało. Zostały opracowane nowe metody, rozwinęła się statystyka nieparametryczna, czyli taka, dla której założenia klasyczne nie są spełnione, bo nie muszą. Te nowe metody nie są tak proste i intuicyjne jak klasyczne – łatwiej byłoby rzucić jeden Czar i po sprawie, zamiast wykonać kilkanaście innych ruchów dokładnie po sobie – ale są dostępne, a współczesne komputery dużo ułatwiają.

Co to są te testy nieparametryczne? Ano podróżniku, to po prostu odpowiedniki klasycznych testów (dla niepoznaki nazwiemy je parametrycznymi). Każdy test parametryczny (klasyczny) ma swój nieparametryczny odpowiednik, takiego swojego doppelgangera (albo młodszego brata). Nie możesz spełnić jakichś założeń danej klasycznej analizy – bam! beng! masz od razu prawie taki sam test tylko nieparametryczny. Klasycznym definicjom parametryczności wymykają się testy chi oraz regresja, ale o tym wszystkim będziemy pisać już niedługo. Określenie czy coś jest parametryczne czy nie jest związane m. in. z normalnością rozkładów (rozkład nie może być krejzolski). Kiedy będziemy pisać o danej grupie wyjaśnimy na przykład jaki test korelacji wybrać z danej podgrupy, albo jak sprawdzić parametryczność rozkładu i którym testem.

W skrócie – jeśli wiesz jaką grupę testów wybrać, musisz określić w podgrupie czy będziesz potrzebować testu parametrycznego czy nieparametrycznego. Oczywiście – temat rozwiniemy, ale poniżej masz już tabelkę wyboru testu, którą będziemy Ci prezentować przez najbliższe kilka spotkań. Możesz nam wierzyć, że poniższa tabelka wystarczyłaby do opędzenia sporej większości prac naukowych w tym kraju. 🙂 W tabeli widać podział na trzy grupy testów oraz po jednej stronie parametryczne testy a po drugiej ich nieparametryczne odpowiedniki.

 

Zapamiętaj dokładnie tę tabelę. Albo i nie, w ogóle co my Ci będziemy mówić jak masz żyć? Po co w ogóle to pamiętać skoro można do tego wrócić? Zapamiętaj że taka tabelka gdzieś jest, wystarczy. Albo i nie, bo ile dałbym by zapomnieć Cię, wszystkie chwile te…

Tyle w części pierwszej. Wkrótce wrócimy do omawiania kolejno wszystkich trzech w/w grup. Póki co – powodzenia!

<wróć