Jaki test Chi-kwadrat wybrać? Ile ich jest?

1 listopada 2021 | author

Facebook

JAKI TEST STATYSTYCZNY WYBRAĆ? CZ. II, CZYLI OGARNIAMY ALGORYTM WYBORU TESTU STATYSTYCZNEGO W OBRĘBIE GRUPY CHI-KWADRAT / JAKI TEST CHI-KWADRAT WYBRAĆ? ILE ICH JEST?

Dzień dobry, dzień dobry! Witamy w kolejnym odcinku naszego reality show w którym studenci głowią się jak zrobić analizę statystyczną do swojej pracy! Do wygrania jest oczywiście wiele cennych nagród, w tym cały bagażnik przecieru pomidorowego naszego sponsora, ale nie uprzedzajmy faktów.

Dziś porozmawiamy sobie o testach z grupy Chi-kwadrat. Jeśli tu trafiasz, to prawdopodobnie masz już za sobą pierwszą część naszego poradnika wyboru testu statystycznego i wyszło Ci że musisz wykonać analizę w oparciu o tę grupę testów. Inny powód Twojej obecności może być taki, że z dużej ilości testów Chi nie łatwo wybrać coś konkretnego, bo podręczniki które znasz (wikipedia?) opisują to jakimś orientalnym językiem i nie idzie nic z tego zrozumieć. Jeszcze inny możliwy powód jest taki, że naprawdę masz przeczytane już wszystkie strony w sieci i szukasz czegoś nowego – słowem jesteś robotem zaprogramowanym na zbieranie danych; szanujemy to. Ale wróćmy do kwestii testów chi-kwadrat.

Powiedzmy że z naszego poradnika wyszło Ci, że musisz teraz wybrać jeden z testów Chi i go wykonać. Testy z grupy Chi (a właściwie statystyki oparta o ten rozkład) operują na danych nominalnych (kategoriach). To znaczy, że możesz policzyć ile osób wybrało w Twojej restauracji frytki (jedna kategoria) a ile ziemniaki-puree (druga opcja), a następnie sprawdzić czy różnica między tymi ilościami (liczebnościami) jest istotna statystycznie czy nie. Nie będziemy się zagłębiać w tę kwestię – pewnie znajdziesz setkę poradników w necie (przykład) jak wykonać dany test i jak go zinterpretować. Nieee, nie przeglądaj ich teraz. 🙂 Tutaj naszym wspólnym zadaniem (naszym i Twoim) jest wybrać jeden z tych testów, bo wersji testu Chi jest kilka.

Od czego zaczniemy? Od Twoich hipotez / pytań badawczych. Wiemy z poprzedniej części, że determinują one ilość i typ zmiennych które z kolei “wymuszają” typ testu statystycznego. Jeśli hipotezy / pytania są oparte tylko i wyłącznie na zmiennych jakościowych (kategoriach), to należy zdecydować się na test chi-kwadrat. Tak, to ta grupa. Jesteś w dobrym miejscu. 🙂 Czo teras? Teraz należy policzyć ilość zmiennych które mamy w obrębie jednego problemu badawczego. Przypatrzymy się kolejno:

  • Wśród badanych studentów więcej osób pali niż nie pali
  • Czy kobiety częściej od mężczyzn wybierają saunę zamiast basenu?
  • Osoby uzależnione od leków przeciwbólowych wystawione na działanie stresu częściej zapadają na choroby wątroby.

i zastanówmy się ile zmiennych jest w obrębie jednego problemu badawczego. W pierwszym z nich mamy tak naprawdę jedną zmienną jakościową – palenie papierosów, które przyjmie dwie możliwe wartości pali / nie pali. W drugim przypadku mamy już dwie zmienne jakościowe: płeć (kobieta / mężczyzna) oraz wybór miejsca relaksu (sauna / basen). W trzecim przypadku mamy aż trzy zmienne: uzależnienie od leków (leki / brak leków), działanie stresu (stres / brak stresu) oraz choroba wątroby (wystąpiła / nie wystąpiła). Od ilości zmiennych zależy następny krok.

JEŚLI MASZ JEDNĄ ZMIENNĄ

Jeśli masz jedną zmienną jakościową – nie ma innej drogi, wybierasz jednozmiennowy test chi-kwadrat zwany też testem zgodności. Podpowiedź – w Statistica go nie znajdziesz,  jest szansa, że będziesz go liczyć ręcznie :(.  Za to w SPSS znajdziesz go w testach nieparametrycznych / testach klasycznych, a to brzmi jak balet klasyczny). Ten test ma super prostą konstrukcję i mówi tylko o jednej rzeczy – czy porównywane grupy mają zbliżoną liczebność czy nie. Istotny statystycznie test powie nam tylko tyle, że wśród badanych studentów więcej osób paliło (N = 40) niż nie paliło (N = 10). Co z tym zrobimy to już nasza sprawa. Interpretację testu i jak go wykonać znajdziesz oczywiście gdzieś tam, w necie.

JEŚLI MASZ DWIE ZMIENNE

Jeśli masz dwie zmienne jakościowe to należy zastosować (jak sama nazwa wskazuje, lol) dwuzmiennowy test chi-kwadrat zwany też testem niezależności Chi. Czasem jest też nazywany testem proporcji – ponieważ jego równie prosta konstrukcja sprawdza nie tyle czy w którejś podgrupie było więcej osób, ale czy było ich proporcjonalnie więcej względem innej grupy. Zatem żeby sprawdzić czy kobiety częściej wybierają saunę niż basen będziemy odnosić to do grupy mężczyzn i sprawdzać czy u mężczyzn to będzie wyglądało inaczej -> czy u mężczyzn proporcja wybierających saunę względem basenu będzie inna niż u kobiet. Podpowiedź – zaawansowani badacze wykorzystujący SPSS posługują się testem porównania proporcji „z” z poprawką Bonferroniego. Niemniej w obrębie dwuzmiennowych testów Chi kwadrat jest do wyboru kilka jego wersji – na przykład test Fishera i inne nazwy brzmiące jak nazwy kanionów w Stanach. Który wybrać?

TL;DR – zawsze wybieraj test o nazwie Iloraz Wiarygodności. Dlaczego tak? Trzeba by się nieco zagłębić w historię testu Chi-kwadrat. Masz na to czas? Autor testu, Pearson, proponował go już ponad 100 lat temu (poważka), to były czasy w których komputery nawet nie chodziły ludziom po głowach (też poważka), a obliczenie wyniku testu – a już szczególnie jego istotności – było zadaniem na tygodnie pracy (totalnie smutna poważka, porażka). Dlatego zaproponowano różne proste wersje tego testu, które pozwalały go obliczyć z pewnym przybliżeniem, ale w sposób który był możliwy dla przeciętnego (ogarniętego) studenta. Przez lata trwały debaty na temat tego, że ten test jest przybliżeniem, ale nie sprawdza się np. dla małych grup, albo dla dużych grup, albo w ogóle się nie sprawdza bo cośtam-cośtam, więc różni Ważni Statystycy proponowali swoje wersje testu: “jeśli masz pięć osób leworęcznych w grupie wybierz moje przybliżenie bo ja mówię że jest fajne”. I tak piętrzyły się poprawki, testy, komplikował się algorytm wyboru, aż w końcu – już w erze komputerów – ktoś sobie przypomniał jak powinien wyglądać ten wzór i jego obliczanie. Ten właściwy, prawidłowy, sprawiedliwy i najlepszy test (a przynajmniej nie gorszy od innych wg nowych badań) nazywa się Iloraz Wiarygodności. Będzie się sprawdzał zawsze i zawsze podawał dobry (poprawny) wynik. Będzie się też nieco różnił w wynikach od klasycznego testu Chi wykorzystywanego w starszych badaniach i podpisywany jako Chi-Pearsona. I o to chodzi, na tym nam zależy. Będzie precyzyjniejszy, a Tobie nie będzie trzeba mieszać w głowie jego alternatywami (kto ich używa ten sam się przezywa!). Nooo, to wszystko jasne w zakresie testu dla dwóch zmiennych.

JEŚLI MASZ TRZY ZMIENNE

Jeśli masz trzy i więcej zmiennych jakościowych to są dwie drogi. Niepoprawna jest taka, że podzielisz sobie badanych na podgrupy i w podgrupach wykonasz testy dwuzmiennowe; choć pomysł często pojawia się wśród studentów i kadry naukowej, to niczym się nie będzie różnił od oceniania danych “na oko”. Poprawna jest taka że użyjesz analizy log-liniowej. Ta właśnie analiza pozwala ocenić, czy trzy (lub więcej zmiennych nominalnych) wchodzą ze sobą w interakcję (czy podgrupy mają różne proporcje). Podpowiedź – w SPSS wykonuje się tę analizę gorzej niż np. w Statistica. Podobnie jak test dwuzmiennowy analiza log-liniowa jest testem proporcji, czyli jeśli chcemy się posłużyć przykładem z osobami uzależnionymi od leków przeciwbólowych to będziemy określać nie tylko proporcję osób wystawionych na działanie stresu i nie wystawionych względem tego czy ktoś zachorował na wątrobę czy nie ale to wszystko jeszcze w rozdziale na grupę osób uzależnionych i nieuzależnionych od leków. Ufff. Sporo tego, c’nie. Taka analiza nie należy do najłatwiejszych – zwłaszcza w interpretacji – ale to jedyna słuszna droga potwierdzenia złożonej tezy. Zapamiętaj tę nazwę, zapamiętaj te litery.

OK, w temacie wyboru testu Chi-kwadrat wiesz już wszystko. Nie było tak trudno, prawda? Za tydzień zajmiemy się zmiennymi ciągłymi, jesteśmy w kontakcie. 🙂

<wróć