„Jaki jest poziom cechy?” może być dla Ciebie problemem.

„Jaki jest poziom cechy?” może być dla Ciebie problemem.

19 marca 2024 | author

Dzisiaj porozmawiamy o problemach badawczych, które z punktu widzenia statystyki są dość problematyczne. Mowa będzie o tak postawionych pytaniach badawczych, dla których punkt odniesienia jest niejasny albo trudny do zweryfikowania. Oto kilka przykładów:

Pytanie badawcze: Jaki jest poziom wiedzy studentów?
Hipoteza badawcza: Mężczyźni często wybierają czerwone samochody.
Hipoteza badawcza: Ilość zjadanych słodyczy przez dzieci jest za duża.

DLACZEGO TAK POSTAWIONE PYTANIA BĘDĄ DLA CIEBIE KŁOPOTLIWE

Statystyka współczesna wymaga tego, aby pytania badawcze czy hipotezy były falsyfikowalne. Mówiąc prostym językiem – żeby jakąś tezę potwierdzić lub obalić to trzeba według odpowiednich wytycznych matematycznych (statystycznych) sprawdzić czy mamy rację. Niestety, tego typu pomysły na tezy badawcze mają małą szansę na prawidłową weryfikację statystyczną. Dlaczego? [tak na marginesie, biorąc pod uwagę nasze poprzednie poradniki, na przykład ten, albo ten, jak to się stało, że masz takie rzeczy w swojej w pracy?]

Problemem w tych pytaniach badawczych i hipotezach jest brak punktu odniesienia. Co to znaczy „poziom wiedzy studentów będzie wysoki”? Albo – jak często to „często”? Jak dużo to „za dużo”? Spróbujmy ten problem ująć jeszcze prościej, załóżmy że badasz wzrost studentów i zakładasz, że on będzie „wysoki”. Zbierasz wyniki, tworzysz jakieś podsumowanie i możesz powiedzieć że „przeciętny (średni) wzrost badanych wynosi 1,70m” – ale to dużo czy mało? Badasz dzieci czy dorosłych? Koszykarzy, przeciętną populację? Ile to dużo? Chyba łapiesz już w czym tkwi problem? Wyniki bez kontekstu często nie mają sensu. Wyniki bez ustalonego punktu odniesienia nie nadają się do sensownej interpretacji. A co za tym idzie – skoro nie ma interpretacji, to nie ma falsyfikacji ani hipotez weryfikacji (daaamn, ale rym). Możesz oczywiście opisać uzyskane wskaźniki wzrostu, albo poziomu wiedzy studentów, następnie sprawdzić jaki jest średni wzrost w populacji oraz poczynić setki innych mniej lub bardziej trudnych zabiegów… ale zawsze będzie to jakoś problematyczne. Jeśli nie ma poprawnej definicji tego co „jest wysokie” to żadna statystyka nie powie Ci poprawnie „czy to co masz w swoich wynikach jest wysokie”.

JAK TO ZAŁATWIAJĄ PROFESJONALIŚCI

Współczesna statystyka stara się odnosić poziom jakiejś cechy do potencjalnych norm populacyjnych. Oznacza to, że narzędzie badawcze którym posługuje się badacz powinno być wystandaryzowane – a to z kolei znaczy, że narzędzie powinno przejść bardzo złożoną procedurę walidacyjną lub psychometryczną, która na wiele sposobów wykazuje że a) dane narzędzie rzetelnie mierzy to co badacz chciałby żeby mierzyło; b) wyniki takiego badania są spójne, poprawne i tworzą jakiś wskaźnik; c) można tym narzędziem badać różnych ludzi i powinni oni udzielać sensownych odpowiedzi i najważniejsze d) badacz zbadał bardzo dużą przekrojową grupę ludzi a następnie wygenerował normy dla tego narzędzia. Oczywiście każda z wymienionych tu rzeczy to kawał ogromnej pracy, prób, błędów i tak naprawdę mało które narzędzie badawcze ostatecznie udaje się zrobić na tyle dobrze, żeby te wszystkie „wymagania” spełnić. Ci studiujący, którzy mieli na zajęciach kurs psychometrii i próbowali tworzyć własne narzędzia, wiedzą, że nawet w podstawowej, uproszczonej formie, wykonanie takiego narzędzia zgodnego ze współczesnymi standardami to dwusemestralne cierpienie całego zespołu. I co najważniejsze – zaczynają rozumieć, że seria pytań wymyślonych po prostu przez badacza rzadko kiedy sprawdza się w jakimkolwiek pomiarze…

…no ale to wszystko rzecz drugorzędna. Najważniejsza kwestia to utworzenie dla kwestionariusza norm populacyjnych. Większość standaryzowanych narzędzi kwestionariuszowych, na przykład kwestionariusze do badania wymiarów osobowości, albo poziomu stresu, czy dobrostanu (jakości życia), zawierają w podręczniku tak zwane normy, czyli wynik ciężkiej pracy statystyków, którzy po skomplikowanej analizie bardzo wielu osób badanych określają precyzyjnie jaki wynik uzyskany przez badaną osobę jest wysoki, jaki przeciętny a jaki niski. Warto oczywiście dodać, że nie wszystkie narzędzia taki zestaw norm zawierają, choćby dlatego że uzyskanie takich norm, które współcześnie uzna się za sensowne, to naprawdę trudne zajęcie. I dopiero po tych wszystkich punktach można powiedzieć, jaki jest wynik jakiejś osoby/grupy – czy był wysoki czy niski. Także – próba określenia „poziomu” jakiejś cechy bez norm wydaje się jakimś mrocznym gmachem z początku wieku w którym doszło do tragedii.

Nawet jeśli dany kwestionariusz nie zawiera norm (co może się z różnych przyczyn zdarzyć), nadal taki „znany w półświatku” kwestionariusz-gagatek mógł być wiele razy użyty i jego wyniki mogły być publikowane. W części prac badawczych w których znany naukowiec użył tego samego narzędzia co Ty, można po prostu odczytać jego wyniki jako „referencyjne dla Ciebie” i odnieść swoje wyniki do jego wyników. Na przykład – nie wiesz czy poziom stresu Twoich badanych jest duży czy mały, a użyłeś(łaś) narzędzia które jest zwalidowane/wystandaryzowane (ma własną publikację, używają go inni badacze) – wówczas Twoje wyniki możesz porównywać z czyimiś wynikami. Znajdujesz takie w których była w miarę neutralna grupa – widzisz, że zbadani przez tego badacza jacyś studenci mieli średni stres na poziomie dajmy na to 10 punktów i badacz uznał, że to średnio; Twoja grupa badanych, czyli studenci akurat Twojego kierunku mieli średnie wyniki na poziomie 15 punktów – możesz więc powiedzieć, że to „więcej niż u innych badaczy”, a nawet że to „dużo”. Choć taka metoda nie jest szczególnie „statystyczna” to czasem się ją stosuje z braku laku.

A KIEDY SAMI WYMYŚLAMY SOBIE KWESTIONARIUSZ

OK, ale Ty jesteś w innym miejscu: zdarzyło Ci się, że masz własny kwestionariusz który stworzyłeś(łaś) sam(a) i wymyśliłeś(łaś) serię pytań „z głowy” które mają coś mierzyć. Pomijamy kwestię tego, że kwestionariusze autorskie są o tyle złym pomysłem, że będą dla Ciebie po prostu większym problemem niż narzędzia standaryzowane (takie profesjonalne narzędzia badawcze, opublikowane gdzieś) – pisaliśmy o tym nie raz i za każdym razem to powtarzamy.

Chociaż jest to sytuacja w której jest źle, zróbmy tak, żeby nie było gorzej. Twój własny kwestionariusz powinien mieć w takim razie jakiś klucz. Co to jest klucz kwestionariusza – pisaliśmy tutaj, na ten moment ważne jest po prostu żeby wiedzieć, że jeśli nie możesz (a przede wszystkim nie chcesz, bo to zajęło by Ci gdzieś z semestr czasu) wykonać całej złożonej procedury psychometrycznej, to przynajmniej utwórz sobie jakiś klucz, czyli ustal (samodzielnie, albo z jakimś koordynatorem Twojej pracy) które pytania w Twojej ankiecie odpowiadają za wskaźnik który mierzysz. Na przykład – jeśli mierzysz poziom wiedzy w jakimś zakresie, to wskaż które pytania odnoszą się do wiedzy. Następnie, określ które odpowiedzi są prawidłowe (albo zmierzą jakiś wskaźnik) a które nie. Dzięki temu możesz najpierw podsumować jaki jest wynik Twojego pomiaru (poradniki: jak to zrobić w SPSS, jak to zrobić w Statistica). Uzyskasz w ten sposób jakiś poziom, wskaźnik, coś co można opisać. Opisywanie wyników dla każdego pytania o wiedzę osobno jest możliwe, ale bardzo czasochłonne i co najgorsze – jak chcesz podsumować 20 pytań o wiedzę kiedy na każde z nich badani odpowiadali inaczej? Pojedyncze wskaźniki praktycznie uniemożliwią Ci podjęcie decyzji odnośnie tego czy jakiś „poziom jest wysoki”.

MOŻESZ BYĆ PIERWSZY(A)

OK, masz w takim razie jakiś wskaźnik. Jakiś poziom. Jakąś ilość. To co dalej? Współczesna statystyka raczej smuci się na takie historie. Żeby określić czy ten wskaźnik jest „duży”, „wysoki”, czy „wystarczający” trzeba mieć punkt odniesienia. I tu pojawiają się schody, bo każde rozwiązanie które zastosujesz jest „raczej złe niż dobre”. To trochę tak jak próba zbudowania mostu z patyków – jakiś tam most zbudujesz; do Twojej prywatnej oceny należeć będzie czy ten most się do czegoś nadaje. Ale – hej! lepiej mieć jakiś most, niż nie mieć żadnego. No to co robimy?

Najpierw spróbuj samodzielnie określić sobie poziomy. W sumie to powinno być dla Ciebie przyjemnym spostrzeżeniem – jeśli nikt wcześniej nie badał czegoś Twoim kwestionariuszem, bo to Twój autorski kwestionariusz, to kto ma Ciebie powstrzymać, przed samodzielnym ustaleniem jakie wyniki są wysokie. W badaniu wiedzy można zdobyć od 0 do 10 punktów? No to Ty sobie ustalisz, że średni wynik to od 3 do 7 punktów, a od 8 do 10 to wysoki wynik. I proszę – możesz powiedzieć, że Twoi badani uzyskiwali średnio 8,5 punkta więc ich wiedza jest „duża”, „średni poziom wiedzy jest wysoki”.

Jaki tu jest tak naprawdę problem? Ano taki, że nikt Ci nie powie dokładnie jak ustalić te wyniki „wysokie”. Możesz sobie samodzielnie takie ustalić i nie przyjedzie żadna policja statystyczna żeby wsadzić Cię na rok do Sztumu. Ale dlaczego akurat 8 punktów, a nie 7. Albo 9? Może jakieś pytania były szczególnie trudne, albo szczególnie łatwe? Może praktycznie wszyscy uzyskiwali 5 punktów a tylko kilka osób 7 i nikt nie uzyskał 10? Może to co Tobie wydaje się trudne ankietowanym wydało się łatwe i odwrotnie? Wskazanie samodzielne jest możliwe (i często z przyczyn braku innych pomysłów konieczne), ale określenie przez to „ogólnego poziomu wiedzy” to ocena całkowicie na oko. Dalej mamy patyczany most. I to niewiele ma wspólnego ze statystyką.

WZMACNIANIE MOSTU TAŚMĄ SAMOPRZYLEPNĄ

W nieco archaicznych działach statystyki ktoś wpadł na pomysł, że można tych patyków po prostu bardzo dużo położyć w jednym miejscu, to może nikt nie zauważy że nie da się po tym stąpać. I tak oto powstały złożone metody, które robią dokładnie to samo co arbitralne ustalenie sobie „ile to jest dużo”, tylko with extra steps. Klasycznie (ach, klasyk) sugerowało się jakiś podział uzyskanych wyników na przedziały. To znaczy z użyciem jakiegoś złożonego, mistycznego algorytmu wyliczało się ile tych przedziałów ma być, a potem z użyciem jeszcze innego algorytmu określało się od jakiej do jakiej wartości mają być te przedziały. Cóż, ponieważ tych algorytmów zaproponowano co najmniej kilka, a większość i tak wymagała założenia jakiejś arbitralnie przyjętej stałej, to różnica między zupełnie własnym określeniem tych przedziałów a przypadkowym użyciem przypadkowego algorytmu była taka, że ten drugi wymagał przynajmniej jednego statystyka, 3 zaklęć i przynajmniej 15-tego poziomu rozwinięcia postaci. A wyniki były równie przypadkowe.

Ktoś inny zaproponował posłużenie się miarami rozkładu i na przykład określenie z użyciem średniej i odchylenia standardowego zakresu wyników „przeciętnych” jako punktów odniesienia. Szybko okazało się, że wyniki takich własnych narzędzi badawczych rzadko mają coś wspólnego z „idealnymi rozkładami” (takimi jak rozkład normalny) i na przykład wyniki przeciętne zabierały 70% wyników, a wyników „wysokich” to w ogóle nie było. Dobudowano do tego mnóstwo pomysłów „normalizacji rozkładu”, albo „odcięcia” np. zamiast jednego odchylenia to półtora odchylenia, albo pół, albo użycie mediany, albo w ogóle jakichś innych ezoterycznych norm, ale znów wracamy do kwestii z poprzedniego akapitu: jakość takiej metody niewiele różni się od „oceny na oko” i choć wielu brodatych statystyków by chciało żeby było inaczej – nasz most dalej jest z patyków. Najczęściej taka metoda sprowadza się do „popatrzenia na wykres rozkładu”, chłodnej oceny sytuacji i powiedzenia sobie „eee, wyniki są… ten… wysokie”. Bo nikt tak naprawdę nie powie że nie. [OK, my powiemy że nie, ale kto by sobie tym zaprzątał głowę?]

Ta ostatnia metoda ma w sumie trochę sensu. Można po rozkładach, a konkretnie jego skośności ocenić czy więcej było wyników „wysokich” czy „niskich”, ale jest to zabawa ryzykowna, bo zawsze znajdzie się ktoś kto potwierdzi Twój werdykt, albo ktoś kto powie, że rozkład jest „za mało skośny”, żeby taki werdykt potwierdzać. Jesteś w kropce.

Z powyższych metod można jeszcze wymienić próbę podziału wszystkich wyników, a konkretniej osób badanych na równoliczne podgrupy względem jakiejś wartości wyniku który nas interesuje. To znaczy podziału osób badanych tak, żeby jedna grupa zawierała dokładnie połowę niższych, a druga dokładnie połowę wyższych. Na przykład dzielić można na pół wg. mediany, albo na cztery grupy wg kwartyli. W podziale na cztery grupy najniższe wyniki uznajemy za „niskie”, drugą i trzecią pod względem zakresu wyników za „średnie”, a czwartą grupę z najwyższymi wynikami za wyniki „wysokie”. Wówczas można sobie samodzielnie stworzyć jakąś „statystyczną normę” i uznać, że taka grupa miała wyniki niskie, a taka wysokie. Zaletą takiego podejścia jest prostota wykonania w większości programów statystycznych; oraz oczywiście prostota opisania wyniku. Wadą natomiast to, że zakładamy od razu że grupy mają być równe, więc powinniśmy zawsze dostać tę samą informację – że wysokie wyniki uzyskiwało 25% badanych… co nie przybliża nas w sumie do określenia czy poziom jest wysoki. No to ile w końcu tej taśmy trzeba zużyć, żeby poważnie nią wzmocnić most z patyków?

MOŻESZ TEŻ PROŚCIEJ

Wróćmy do początkowego problemu, a raczej problemu z problemami badawczymi. Jakie tu są w ogóle problemy z tymi problemami? Ano takie, że nie porównujemy nic ze sobą, tylko patrzymy na jeden wynik. Jeden wynik to trudna zagwozdka dla statystyka. Możesz jednak nieco obejść ten problem i to wszystko zrobić prościej: porównać uzyskany wynik ze zbadaną przez siebie grupą odniesienia. Na pytanie o to „Jaki jest poziom wiedzy studentów” będzie bardzo trudno udzielić Ci sensownej i jednoznacznej odpowiedzi. Aaaale, jest na to proste rozwiązanie. Zbadaj jakąś inną grupę, w statystyce nazywaną najczęściej „grupą kontrolną”. Popatrz na takie pytanie „Poziom wiedzy studentów będzie wyższy niż poziom wiedzy osób niestudiujących” brzmi już nieco precyzyjniej, prawda? I co najważniejsze – nie musisz w żadne sposób definiować kto ma „wysoki” a kto „niski” poziom, bo porównujesz wyniki surowe dwóch grup ze sobą.

Dlaczego to jest prostsze? Wróćmy do przykładu pierwszego – ze wzrostem. Powiedzmy, że twoja teza brzmiała „wzrost uczniów I LO w Dobroniersku jest duży”. Badasz sobie tę grupę uczniów, wychodzi Ci, że średni wzrost to 1,70 m. I teraz głowisz się na różne sposoby czy te 1,70 to dużo czy mało. Ale, ale – gdybyśmy mieli jakąś grupę odniesienia… Proszę bardzo, badamy uczniów XI Technikum w Bardzewie i okazuje się, że ta grupa odniesienia ma średnio 1,65 m wzrostu! Możemy wówczas poprawioną tezę „uczniowie I LO w Dobroniersku są wyżsi niż uczniowie XI Technikum w Bardzewie” potwierdzić. To oczywiście pewne uproszczenie, ale chyba jasne jest już dlaczego to jest „lżejsza” droga dla Ciebie?

Grupę odniesienia często wystarczy utworzyć jakoś intuicyjnie na zasadzie „po-prostu-inna-grupa”. „Wiedza studentów maszynoznawstwa o suwnicach jest duża” jest gorsze niż „wiedza studentów maszynoznawstwa o suwnicach jest wyższa niż innych studentów”. Albo „wiedza studentów maszynoznawstwa o suwnicach jest wyższa niż studentów mechanoplastyki”. Albo „wiedza studentów maszynoznawstwa o suwnicach jest wyższa niż u dzieci” i tak dalej.

PODSUMUJMY

Autorskie kwestionariusze są złe; problemy badawcze oparte o jedną zmienną są złe; problem statystycznej oceny „poziomu jakiejś cechy” jest taki, że niczym ona się nie różni od metod „na oko”.

Żeby jakoś to ogarnąć: utwórz klucz swojego narzędzia; określ ile to „dużo”, nie przejmuj się tym że metody statystyczne niewiele tu pomogą. Ponieważ każda z tych metod jest równie „zła” to będzie tak samo „dobra”. Po prostu idź na spacer i kup sobie coś co sprawi Ci przyjemność, wszystko będzie dobrze.

<wróć następny wpis>

Przeczytaj także

30 marca 2024