Ogarniamy: rozumienie typów zmiennych

23 października 2021 | author

Facebook

– OWMORDASZKĘ, MUSZĘ OGARNĄĆ WYNIKI SWOICH BADAŃ 🙁

Jesteś już w trakcie robienia badań? Kwestionariusz jest zrobiony i wyniki się teraz zbierają? Albo właśnie przeprowadzasz super eksperyment? To znaczy, że tuż tuż, już za chwilę zmierzysz się z kwestią opracowania wyników – zazwyczaj analizą zebranych danych. Czas przygotować się na tę (zazwyczaj nierówną) walkę! Wierzymy w Ciebie jak Mickey Goldmill w Rocky’ego. Niczym Burneika namówimy Cię na te (wege?) stejki, nabierzesz siły Saitamy (serio, drugi sezon był słaby, a i tak czekamy na trzeci). I będziemy mniej wymagający niż treningi Chodakowskiej. Zaczynamy!

Na początek rozgrzewka i trening mentalny. Dlaczego rozumienie czym jest zmienna i jej typ w ogóle miałoby Ci być potrzebne? Ano – przede wszystkim dlatego, że masz postawione jakieś hipotezy lub pytania i je właśnie sprawdzasz. Uzyskanie odpowiedzi na nie to Twój najbardziej podstawowy cel pracy – a możesz to zrobić tylko z użyciem metody naukowej. …no, ok, możesz to zrobić też innymi metodami, np. wahadełkiem, różdżką, szklaną kulą, ale to nie Hogwart i użycie magii może nie przejść u recenzentów (mugole!). Metoda naukowa wymaga zazwyczaj testowania hipotez z użyciem metod statystycznych. A te z kolei wymagają wybrania odpowiednich narzędzi: konkretnych testów nadających się do odpowiedniego problemu. Żeby wybrać poprawnie test – należy rozumieć z jakimi zmiennymi w ogóle ma się doczynienia, nie ma innej rady. TL;DR: musisz to wiedzieć, żeby uzyskać wyniki do pracy. Jeśli wiesz ile i jakich zmiennych masz w swoich badaniach – zazwyczaj wiesz już który test, albo którą grupę testów wybrać.

– ALE O CO KAMAN Z TYMI ZMIENNYMI?

Zmienna (statystyczna) to inaczej coś co mierzymy lub sprawdzamy. To dowolna cecha którą możemy określić dla osoby badanej lub badanego obiektu. Każdy „obiekt” w Twoim otoczeniu ma jakieś cechy – urządzenie na którym to czytasz może mieć np. typ (komputer czy telefon?) albo przekątną ekranu. Badany może mieć wiek, lub natężenie ekstrawersji. W statystyce mówimy że zmienna przyjmuje jakąś wartość. To ile tych cech chcesz zbadać jest oczywiście Twoim wyborem, podyktowanym pewnie jakimiś założeniami badawczymi, ale nie będziemy się w to zagłębiać. Najważniejsze jest zrozumienie, że rodzaj badanej cechy determinuje to co można z nią potem zrobić. Jak to działa?

To wbrew pozorom prostsze niż się wydaje. Pomyśl o tym że dowolna cecha albo jest wyrażalna przez jakąś liczbę, albo nie. Albo coś ma w środku jakieś numerki albo nie. Zmienne o charakterze numerycznym (tzw. ilościowe) to np. wzrost, waga, wiek, rozmiar ekranu telewizora i wszystko co można zapisać w postaci wyniku. Ten drugi typ zmiennych (zmienne jakościowe) to coś co nie ma domyślnie żadnego numeru: kolor oczu osoby badanej to kategoria semantyczna – niebieski, czarny, zielony. Tu nie ma numeracji, tylko słowa. Czyli – albo mamy jakieś słowa, albo jakieś cyferki. Zmienne jakościowe (te pierwsze) albo ilościowe (te drugie). Proste, prawda?

– DOBRA, MAM… A MOŻE NIE MAM?

…to dlaczego to wszystko takie trudne? Analizy statystyczne, dorosłe życie, podróże, wybór gdzie zjeść obiad… Wiemy dobrze że w tym miejscu ktoś mógłby zacząć się sprzeciwiać, że nie, że to za proste i że o co chodzi. No to porozmawiajmy jak dorośli. O tym jaki jest świat. 🙂

Zarówno Wikipedia jak i książki do statystyki – zresztą skrypty i wykładowcy też – zazwyczaj podają dużo bardziej skomplikowane definicje i wiele więcej podziałów. Ma to pewne uzasadnienie: nauka lubi precyzję i szczegółowość. Dla naukowca, takiego teoretyka statystyki na przykład, jest spora różnica pomiędzy zmiennymi ilościowymi ilorazowymi a interwałowymi. Można w zasadzie do woli wyróżniać i wydzielać poszczególne pod-działy zmiennych, pod-typy, oraz łączyć je w grupy. Pytanie brzmi – jakie to ma znaczenie dla Ciebie, tu i teraz?

ZLUZUJ, Z NAMI PÓJDZIE ŁATWIEJ 🙂

Otóż – niewielkie, marginalne można by rzec. My zaryzykowalibyśmy nawet stwierdzenie, że większość z nich jest archaizmem, zbędnym z punktu widzenia przeciętnego studenta. (1) Po pierwsze – praktyka badawcza w świecie nauki pokazuje, że do poprawnego wyboru testu i opisu wyników wystarczy w zasadzie ten dychotomiczny podział zmiennych. Mało tego – ze świecą szukać we współczesnych publikacjach innych typów zmiennych czy analiz opartych o inny podział. (2) Po drugie – oczywiście istnieją bardziej złożone problemy badawcze, ale na poziomie studenckim i doktoranckim zdarzają się bardzo, bardzo rzadko. (3) Po trzecie pomiarów cech dzisiaj dokonuje się bardziej precyzyjnie niż np. dekadę-dwie temu i problem z podziałem danych podczas analiz wyników rozwiązuje się sam – prawie nikt nie zbiera danych innego typu. (4) Po czwarte zwiększa się ogólna świadomość badawcza i zarówno stawiane problemy, jak i używane narzędzia badawcze marginalizują błędy popełniane przy zbieraniu danych – takie właśnie jak zbieranie “brzydkich” statystycznie typów zmiennych. Jeśli studenci nie powstrzymają się nawzajem, to zrobią to promotorzy, recenzenci, FBI i reprezentacja Polski. (5) Po piąte współcześnie – algorytm wyboru testu statystycznego bardzo się uprościł. Ma na to wpływ przede wszystkim ekspansja metod obliczeniowych (komputery zawsze na propsie!) i badania symulacyjne które np. pokazują że zamiast trzech różnych testów wystarczy jeden, wyniki są “prawie-tak-samo” dobre i nie ma się co wkręcać, dobrze jest jak jest. Uuufff! Ocieramy pot z czoła i jedziemy dalej.

No to tyle. Wiesz już wszystko. Wracaj do pracy, wracaj do korzeni, a my niedługo napiszemy więcej o algorytmie wyboru testu – ten artykuł bardzo Ci pomoże. Niech Ci w głowie kiełkuje opcja „jakościowe vs ilościowe”.

Ciao

Cześć

Adios

Guantanamera

OK, wciąż tu jesteś. Podejrzewamy co się mogło stać. Zdarzyło Ci się trafić na dane o charakterze porządkowym i teraz nie wiesz co zrobić. Nooooo, powiemy Ci szczerze, mrrok. Zło. Jak to się stało że takie dane masz i w ogóle zbierasz lub chcesz analizować? Przecież pisaliśmy, żeby unikać przedziałów…

[dźwięk przewijanej taśmy] [stopklatka] [“pewnie zastanawiacie się jak się znaleźliśmy w tej sytuacji?”]

NIE WIEM JAKA TO ZMIENNA, TA CAŁA PORZĄDKOWA

Po kolei. Zmienne porządkowe to specyficzna pod-grupa zmiennych jakościowych. Chodzi o to, że można jakoś uporządkować kategorie – która “wyżej” a która “niżej”, która „więcej” a która „mniej”. Świetnym przykładem jest wykształcenie – można bez problemu nadać porządek wartościom zmiennej: podstawowe, zawodowe, średnie, wyższe. W większości przypadków traktujemy takie zmienne po prostu jak kategorie, czyli zwykłe zmienne jakościowe i to że mają porządek nie ma dla nas większego znaczenia. Ale dochodzi do tego jeszcze coś co się nazywa skalą Likerta. Z kolei skala Likerta to porządek który zazwyczaj przedstawiamy osobie badanej wraz z jakimiś numerkami. Przykład?

Jak bardzo lubisz czekoladę – zaznacz:

(1) wcale nie lubię, (2) trochę nie lubię, (3) ani lubię ani nie lubię (4) trochę lubię (5) bardzo lubię

Tu już się robi grubszy problem, bo niby to kategorie, ale przecież mają jakieś „numerki”. Jakby zadać pytanie w ogóle inaczej?

Jak bardzo lubisz czekoladę – zaznacz na skali od 1 do 5.

And this is where fun begins.

Cała teoria statystyki od lat uważa, że kwestionariusz zbudowany ze skal porządkowych daje jakiś wynik i ten wynik można uznać za pomiar ilościowy, chociaż skala Likerta jest jakościowa… przy czym od dawna trwa debata, czy na pewno “pojedyncze pytanie z numerkami” to skala porządkowa (jakościowa), a jeśli tak to dlaczego i w którym miejscu stawiamy granicę.

Od razu powiemy, że konsensusu nie ma (niestety 🙁 ), a przynajmniej nie jest on jasny i prosty. Udowodniono, że np. w regresji predyktory o charakterze porządkowym można traktować jak predyktory ilościowe i nie zaburza to jakości modelu. Jednocześnie inni autorzy zwracają uwagę, że w korelacjach i porównaniach międzygrupowych lepiej użyć nieparametrycznego odpowiednika testu… a jeszcze inni, że np. ANOVA jest względnie odporna na zmienne porządkowe… jak to wszystko ogarnąć? Co zrobić? Jak żyć?

NASZE RADY, CZYLI JAK OGARNĄĆ ZMIENNE PORZĄDKOWE

Przede wszystkim jeśli możesz – unikaj w swoich badaniach zmiennych porządkowych; to trochę zabawa dla profesjonalistów, oraz studentów chcących poczuć dreszczyk emocji 😉 Pisaliśmy już o tym, nie ma co się powtarzać.

Jeśli już masz takie zmienne to musisz rozważyć co z nimi zrobić (póki co – skrótowo):

  • jeśli używasz ich do opisu próby, to traktuj je jak kategorie nominalne
  • jeśli chcesz je z czymś korelować – użyj korelacji nieparametrycznych
  • jeśli to skale Likerta, to traktuj je jak zmienne ciągłe (decyzję uzależniaj od rozkładów i równoliczności podgrup, o tym wkrótce) – niektórzy mogliby się do tego przyczepić, ale będą się bali, bo da się to obronić 😉
  • jeśli chcesz porównać między sobą wyniki grup z użyciem takiej zmiennej – rozważ najpierw proste testy nieparametryczne
  • w regresji się tym nie przejmuj, w modelowaniu strukturalnym użyj metod nieparametrycznych
  • skontaktuj się ze specjalistą jeśli z jakichś przyczyn powyższe punkty nie wyczerpują tematu, albo masz wątpliwości

Naprawdę, obiecujemy że niedługo będziemy szerzej pisać o wyborze testu statystycznego i tam nieco problemów się sama rozwiąże. No to jak? Sztywniutko?

Powodzenia!

<wróć