Zmienne ilościowe: korelacje, regresje, SEM

ZMIENNE ILOŚCIOWE: KORELACJE, REGRESJE, SEM. JAKI TEST STATYSTYCZNY WYBRAĆ? CZ. III, CZYLI OGARNIAMY ALGORYTM WYBORU TESTU STATYSTYCZNEGO W OBRĘBIE ZMIENNYCH LICZBOWYCH

No tak, jasne, pogoda wreszcie grillowa, otwarcie sezonu plenerowego, sąsiedzi w klapkach i skarpetach, a my tu gadu gadu o statystyce do pracy. No ładnie mamy. Co zrobić, takie jest życie, raz się człowiek zastanawia czy eko-rozpałka to już przypadkiem nie ekstrawagancja, a raz się zastanawia co tu zrobić z wynikami do swojej pracy.

Jest pewna szansa, że czekasz na ten wpis, bo zdarzyło Ci się przeczytać pierwszą i drugą część naszego poradnika wyboru testu statystycznego w pracy mgr/lic/doc. Próbujemy wspólnymi siłami przemielić Twój problem badawczy na jakieś tam cyferki i wybrać spośród wielu możliwych do wykonania testów ten jeden właściwy. Jest też szansa, że nie masz pojęcia co tu robisz – trochę tak jak z wejściem do klubu dla motocyklistów: wchodzisz i wiesz, że coś jest nie tak, ale jakoś tak głupio się teraz wycofać, więc siadasz przy barze… Anyway zostań z nami, będzie fun fun fun.

W tym wpisie zajmujemy się zmiennymi ilościowymi. Cooo? Co? Ano, to że już rozmawialiśmy o tym, że zmienne wyznaczają grupę testów do użycia w pracy magisterskiej, nauczyliśmy się je rozróżniać i teraz jesteśmy na etapie w którym wszystkie użyte przez Ciebie zmienne są zmiennymi ilościowymi – to znaczy mają w środku jakieś tam numerkocyferki. Takie zmienne to np. wiek, wzrost, natężenie ekstrawersji, ilość wypitych w miesiącu kaw lub piw i tym podobne – w skrócie wszystko to co można wyrazić numerycznie. I skoro w swoich badaniach używasz tylko zmiennych o takim charakterze (takiego typu) to znaczy, że musisz wybrać spośród testów korelacyjno-regresyjnych (więcej o grupach testów tutaj). OK, wiesz już jaka to grupa testów. Jak wybrać prawidłowe podejście do problemu badawczego?

Jak zawsze potrzebne jest przyjrzenie się hipotezom, bo grupa testów korelacji i regresji najpierw dzieli się z grubsza na dwie podgrupy – związki i wpływy. Przyjrzyjmy się więc hipotezom i pytaniom badawczym:

czy wiek osób badanych jest związany z poziomem ekstrawersji?
inteligencja emocjonalna wpływa pozytywnie na zadowolenie ze związku

Tak sformułowane hipotezy powinny być dla Ciebie w miarę jasnymi wytycznymi – pierwsza z nich mówi o związkach druga o wpływie. Czym to się różni? Związek nie mówi nam o tym co jest przyczyną a co skutkiem. Zależność przyczynowo-skutkowa to wpływ. Jeśli znajdziemy związek między tonażem spożywanej czekolady a PKB kraju, to trudno będzie powiedzieć co jest przyczyną a co skutkiem. Możemy przypuszczać opierając się o wiedzę teoretyczną, że inteligencja emocjonalna może być przyczyną a zadowolenie ze związku jest skutkiem. Czy to jasne?

OK, tu przerwa i mała dygresja – w nauce trwa naprawdę ożywiona debata na temat tego kiedy możemy mówić o wpływie. Rwą szaty promotorzy – toż to załamano pierwsze przykazanie – wszak wpływ jedynie dla eksperymentów zarezerwowany. I w sumie dużo w tym racji. W eksperymencie mamy możliwość obserwowania następstw czasowych, i w ten sposób uprawnia się wnioskowanie o przyczynie i skutku. Ale istnieją również analizy testujące teoretyczny model wpływu kilku zmiennych na jedną zmienną objaśnianą. W teorii: powinien być background teoretyczny wyjaśniający skąd ten wpływ i ewentualnie złożony model badawczo-statystyczny tę teorię weryfikujący. W przeciwnym wypadku możemy mówić jedynie o predykcji czyli o przewidywaniu jednych wyników na podstawie innych; innymi słowy, czy znając wzrost badanego możemy przewidzieć jego zarobki, ale nie mówimy nic o wpływie bo nie wiemy co na co wpływa. Regresja z tej perspektywy jest modelem wpływu kiedy mamy porządne tło teoretyczne albo jest modelem przewidywań (nie wpływu!) kiedy nie możemy udowodnić zależności przyczynowo-skutkowej.

W praktyce wygląda to tak, że bidny studencina i jego promotor (und recenzent auch) i tak się w tym pogubi. Nie wkręcaj się za bardzo, to powszechna praktyka (sorry, lajf is lajf). Została postawiona hipoteza, ktoś to przyklepał – weryfikuj zgodnie z wytycznymi, zanim do nas dotrze że to bez sensu. My tu sprawy nie rozstrzygniemy, rób co Ci serce podpowiada. Także tego. O czym to my…?

Aaa, hipotezy. Przyjrzyj się im i jeśli masz tam jakiś “związek” a nie “wpływ” użyj po prostu korelacji. Ile ich jest i jak je wybierać – pisaliśmy tutaj; są trzy ogólnouznane testy i wybór między nimi będzie dość prosty. Więcej w temacie korelacji naprawdę nie potrzebujesz wiedzieć. Dobrą praktyką jest założenie, że jeśli nie pojawia się słowo “wpływ”, to możemy założyć, że gdzieś tam domyślnie jest “związek”. Na przykład:

Istnieje zależność między osobowością a temperamentem

Nie ma w obrębie takiej hipotezy słowa “wpływ” więc uznaj że to związek i załatw sprawę korelacjami. Będzie prosto i z fartem. A co z tym “wpływem”. No cóż – nie będzie to szczególnie pokrzepiające, ale prawda jest taka, że to dość skomplikowane. Na początek nie jest źle, wystarczy nauczyć się liczyć zmienne. Przyjrzyjmy się takim hipotezom:

ilość zjadanej miesięcznie czekolady wpływa na długość włosów
osobowość (mierzona NEO-FFI) wpływa na ilość zjadanej miesięcznie czekolady

W pierwszym przypadku – jedna zmienna wpływa na jedną zmienną. Należy użyć regresji jednozmiennowej. W drugim przypadku pięć zmiennych (NEO-FFI mierzy osobowość pięcioma wymiarami: ekstrawersją, neurotyzmem itd) wpływa na jedną. Wówczas nadal jesteśmy w obrębie regresji, ale regresji wielozmiennowej / wielorakiej.

TESTOWANIE MODELU WPŁYWU JEDNEJ ALBO WIELU ZMIENNYCH NA JEDNĄ ZMIENNĄ OBJAŚNIANĄ, TO ANALIZA REGRESJI

Różnica między regresją a korelacją może być po studencku wyjaśniona tak, że w przypadku korelacji chcemy tylko sprawdzić, czy jest jakiś związek między cechami. W przypadku regresji chcemy sprawdzić czy na podstawie jednej cechy/zmiennej możemy przewidywać inną. Dlatego właśnie w praktyce wykorzystuje się regresję do potwierdzania hipotez o „wpływie”(choć takie podejście ma oczywiście swoje wady i jest krytykowane).

Regresją (na poziomie studenckim) weryfikujemy jednak głównie wpływ bezpośredni. Od jednej zmiennej do drugiej i w dość prostym układzie.

JEŚLI HIPOTEZA JEST BARDZIEJ ZŁOŻONA PRZYCZYNOWO-SKUTKOWO…

na przykład:

ekstrawersja jest przyczyną częstszego jedzenia czekolady, a to z kolei jest powodem wzrostu włosów

to ewidentnie mamy wpływ o dużo większej złożoności. Jedna zmienna wpływa na drugą a druga na trzecią, albo językiem statystyki zmienna numer jeden wpływa na zmienną numer trzy przy pośredniczącym wpływie zmiennej numer dwa. Jest więcej zależności, siatka zmiennych się komplikuje i mówimy już nie o regresji prostej, ale o mediacji / moderacji. Można oczywiście realizować założenia takiej hipotezy z użyciem prostych metod – mediacja klasyczną metodą Baron i Kenny jest możliwa z użyciem kolejno wykonywanych regresji. Algorytm postępowania w takim przypadku świetnie streszcza podręcznik Statystyczny Drogowskaz cz. 3 i powinien on wystarczyć na Twoje potrzeby (kilkanaście stron, da się to przeżyć). Ale co jeśli mamy hipotezę o jeszcze większej złożoności:

ekstrawersja jest przyczyną większego zużycia energi, która jest przyczyną częstszego jedzenia czekolady a to z kolei jest powodem wzrostu włosów
ekstrawersja wpływa na długość włosa badanego przy równoczesnym wpływie pośredniczącym zużycia energii i spożycia czekolady

To nie korelacja czy związek, czy święty węzeł małżeński pomiarowany drewnianym liczydłem. Zaczynają się poważne schody. W tym sensie, że rozrysowanie prawidłowej siatki zmiennych to dopiero początek. Wybrać metodę mediacyjną i makra do SPSS (process Hayesa) czy może modelowanie strukturalne (SEM)? W większości przypadków skończysz na modelowaniu strukturalnym w jakimś programie typu AMOS – i ze sporą ilością środków uspokajających… Pojawia się przy tym wiele innych pytań: jak złożony jest wpływ? Chcemy go eksplorować i poprawiać model, czy tylko zweryfikować?

Niestety, na tym poziomie nie bardzo jest Ci co podpowiedzieć. A przynajmniej nie w kilku zdaniach czy pojedynczym wpisie na blog. Ilość możliwych kombinacji jest monstrualna, nie sposób nawet streścić tego czego można się spodziewać, bo każda hipoteza badawcza o złożonym problemie przyczynowo-skutkowym (kierunkowym) oparta na zmiennych ilościowych tak naprawdę jest innym problemem statystycznym. Wystarczy powiedzieć, że o każdym typie takich analiz jest osobna książka streszczająca co i jak liczyć – wyobraź więc sobie jak duża złożoność tam w środku siedzi. Jeśli chcesz poczytać o podstawowych i zaawansowanych problemach związanych z mediacją, moderacją, oraz SEM – zajrzyj do Statystycznego Drogowskazu, cz. 3 poświęconej modelom opartym na regresji (no popatrz co za zbieg okoliczności, to jest trzecia część tego wpisu i trzecia część podręcznika Bedyńskiej, coincidence…). Modelowanie SEM to już w ogóle wyższa półka zabawy statystycznej i polecić możemy książkę Konarskiego, ale jeśli trafisz na nią z tego bloga – kuuurczę. to może być problem z jej przyswojeniem. 😉 Pamiętaj o jednym – nie możemy za Ciebie rozwiązać wszystkich problemów (a mediacje i SEM to jednak niestandardowe problemy) które pojawiły się na Twojej drodze, natomiast chętnie skierujemy Cię na dobrą drogę gdy zabłądzisz.

Nasza rada – jeśli stoisz przed takim problemem pogadaj szczerze ze swoim promotorem i zapytaj jak to widzi. Może zgodzi się na podzielenie Twojego złożonego modelu na kilka mniejszych i prostszych? A może ma już dla Ciebie gotową odpowiedź (“zrób mediację wg Bedyńskiej”) i problem z głowy? Przypomnij swojemu tutorowi (i sobie), że wszystkim wam zależy na zakończeniu tej strasznej historii z Twoją pracą i że może by tak do celu?

Albo napisz do nas i zapytaj “co w takiej-to-a-takiej sytuacji”? Może nawet następny wpis o tym będzie traktował?

A jeśli nie – następny wpis przygotowujemy już o testach międzygrupowych. Będzie prościej i smaczniej.

<wróć następny wpis>

Przeczytaj także

30 marca 2024