Suma czy średnia – jak obliczyć wynik testu?

NIE WIESZ CZY OBLICZYĆ WYNIK Z UŻYCIEM ŚREDNIEJ CZY Z UŻYCIEM SUMY?

OK, o tym jak ogólnie obliczać wyniki do swoich prac pisaliśmy trochę tutaj, a trochę tu i tu. W większości przypadków zawarta w kluczu metoda obliczeń wyników powinna z góry nam dać informację, czy autor narzędzia badawczego założył że do policzenia będzie to suma albo średnia. Ale co jeśli nie dał wyraźnej informacji? Albo coś się pomieszało i obliczyliśmy średnią zamiast sumy (lub odwrotnie)? Co wtedy?

Nic. Albo prawie nic. To w zasadzie bez znaczenia. Jeśli chcemy przeprowadzać istotnościowe analizy statystyczne, to nie będzie to miało wpływu na uzyskane przez nas wyniki. Także – już na tym etapie możesz wrócić do przeglądania zdjęć kotów z gotową odpowiedzią na swój problem (wszystko git). Jeśli natomiast zdjęcia kotów Cię znudzą, to spróbuj zdjęć tych śmiesznych piesków… albo przeczytać szczegółowe informacje na ten temat poniżej.

JAK SIĘ LICZY WYNIKI KWESTIONARIUSZY

Trafiasz tutaj, więc pewnie masz jakiś kwestionariusz, albo inne narzędzie badawcze dla którego musisz policzyć wynik. Kwestionariusz powinien mieć jakiś podręcznik, czy inną instrukcję wskazującą jak wynik tego narzędzia badawczego obliczyć – na przykład klucz (serio, przeczytaj ten wpis o kluczu) kwestionariusza NEO-FFI do badania osobowości wskazuje które pytania wchodzą w zakres poziomu ekstrawersji, a które w zakres otwartości. I dzięki temu wiemy jakie wyniki uzyskał badany. Rzecz w tym, że instrukcja obliczeń powinna zawierać informację o tym jaką metodą dokładnie wynik uzyskać. Na przykład – czy dodać do siebie punkty które badany uzyskał w kolejnych pięciu pytaniach, czy może obliczyć średnią jego czasu reakcji, czy może przydzielić go do takiej albo innej grupy w zależności od wybranej odpowiedzi. Słowem – instrukcja powinna zawierać precyzyjny wzór matematyczny typu punkty_za_pierwsze_pytanie + punkty_za_drugie_pytanie = poziom ekstrawersji. Oczywiście w kluczu powinny się także znaleźć informacje o punktacji, na przykład „odpowiedź a pytania pierwszego jest poprawna i to jest 1 punkt wiedzy”, albo „w stwierdzeniu trzecim jeśli badany zaznaczył, że zdecydowanie się z tym stwierdzeniem zgadza, to otrzymuje 5 punktów”.

Precyzja wskazania jak obliczyć wynik kwestionariusza jest związana z jego interpretacją. W dobrych narzędziach badawczych autorzy opisują co oznaczają konkretne „ilości zdobytych punktów”. Nazywa się to normami kwestionariusza, i choć jest tych norm wiele rodzajów, to z grubsza można to rozumieć jako „od jakiej ilości zdobytych punktów poziom zbadanej cechy jest wysoki, a dla jakiego zakresu niski lub przeciętny” na tle jakiejś tam populacji. Ma to głównie znaczenie w diagnozie indywidualnej, o czym jeszcze będziemy mówić (pisać?). Niemniej, lepiej będzie dla Ciebie przyjąć, że jeśli autor kwestionariusza wie co robi, to poda użytkownikowi taką informację.

PROBLEMY Z KLUCZAMI

Niestety – mimo tego że tak być powinno, tzn. raczej powinno się zdarzyć, że jesteś w posiadaniu klucza do kwestionariusza który zawiera wszystkie wyżej wymienione informacje może nastąpić cały szereg trudnych spraw. Na przykład autor(ka) narzędzia wskazał tylko pytania które wchodzą w skalę lubienia słodyczy, ale nie podał dokładnego sposobu obliczenia wyniku. Albo nie skorzystałeś(łaś) z naszego poradnika do wyboru „fajnego testu” i masz na dysku 5 różnych wersji klucza, a każdy jest inny. Albo coś się pomieszało (komuś, nigdy Tobie, pamiętaj!) i zamiast sumy masz średnią, a powinno być odwrotnie. Co wówczas? Dlaczego nikt nie mówił wcześniej, że dorosłe życie będzie takie trudne? Pojawia się pytanie (tak, naprawdę dość często nas o to pytacie): co powinno być policzone – suma czy średnia?

JAK POWIADA POLSKI WIESZCZ: „WSZYSTKO JEDNO, WSZYSTKO JEDNO”

Dygresja – jeden z nas był przekonany że zna Piotrka z tej opowieści Wieszcza, ale po latach okazało się, że to raczej nie ten Piotrek. Anyway – przy większości obliczeń które nazywamy „analizy statystyczne” to czy policzymy sumę czy średnią nie ma znaczenia, naprawdę wszystko jedno. Ktoś może powiedzieć: „eeej, jak to, ja trochę umiem w matematykę i przecież jak się obliczy średnią to dostaje się inny wynik niż kiedy obliczy się sumę”. No jacha brachu matematyczny, totalnie RiGCz, masz rację. Ale to ma znaczenie kiedy przyglądamy się wynikom jednej osoby. Dostanie się inny wynik i osoba badana będzie miała na przykład poziom zadowolenia z życia dla sumy 100 punktów a dla średniej 10. To ma znaczenie w przypadku w którym oceniamy indywidualny wynik osoby badanej względem norm kwestionariusza; czyli kiedy w kluczu (podręczniku do testu) jest informacja precyzyjna o tym czy użyć sumy czy średniej żeby dla pojedynczej osoby określić czy jej wynik jest niski czy wysoki. Zmienia się też zakres wyników całej próby – osoby badane dla sumy mogą mieć zakres wyników od 50 do 100 punktów, a dla średniej od 5 do 10. To zmienia myślenie o interpretowaniu wyników całej próby znów w kontekście interpretowania czy wyniki przez nas zebrane, a konkretniej czy nasi badani mieli poziom zadowolenia z życia jako cała spójna grupa badanych niski czy wysoki. Ale-ale, choć jest to technicznie jakaś tam różnica, to ma znaczenie tylko kiedy a) mamy klucz który wyraźnie nam powie czy mamy użyć sumy czy średniej, oraz b) chcemy jedynie indywidualnie albo w próbie określić które dokładnie osoby wrzucić do grupy osób z wynikami niskimi, a które z wysokimi (znów według jakichś tam norm).

DLACZEGO NIC NI MO ZNOCZENIA

Kojarzycie taki zespół „Krupnioki z Sosnowca„? Dobra, sorki za dygresję związaną ponownie z podtytułem. Bo tera bedzio najlepsze – kiedy chcemy porównać ze sobą wyniki dwóch grup, albo sprawdzić czy poziom szczęścia wiąże się z jakąś inną zmienną, na przykład ze wzrostem, to to czy policzymy dla wyniku testu średnią czy sumę nie ma technicznie znaczenia. Głównie dlatego, że jeśli użyjemy tego samego działania dla obliczenia wyników dla wszystkich naszych badanych, to porównywane między grupami wartości będą dla nas niosły taką samą informację dla sumy czy dla średnich. Ktoś będzie miał czegoś tak samo więcej, a ktoś mniej – jak to w życiu. Tylko że tu symetrycznie.

Większość prac badawczych to nie są prace w których po prostu określa się jakiś poziom cechy – do tego służy diagnoza indywidualna. Zresztą, testowanie hipotez o treści mniej więcej „czy poziom wiedzy studentów jest wysoki” jest naszym zdaniem delikatnie mówiąc kontrowersyjne. Ponownie to podkreślmy – większość, zdecydowana większość współczesnych prac badawczych porównuje poziomy danej cechy między grupami, albo poziom tej cechy chce zestawić z poziomem innej. Mówimy tu o badaniach różnic międzygrupowych i badaniach korelacyjnych. W obu przypadkach to czy policzyliśmy średnią czy sumę nie ma znaczenia.

Jeśli chodzi o różnice międzygrupowe – może się okazać, że w przypadku obliczenia średnich wyników dla osób badanych różnica między grupami (na przykład porównywanymi kobietami i mężczyznami) wynosi 0,5 punkta, a dla obliczonej sumy różnica między dwoma grupami wynosi 5 punktów, ale prawdziwe true school testy statystyczne określając czy różnica jest istotna statystycznie i tak w pewnym sensie standaryzują (gdzieś tam na poziomie tego jak działają w środku) wyniki. I dają dokładnie taką samą odpowiedź dla obliczonej średniej jak i dla sumy. Mówiąc językiem statystyki – poziom istotności statystycznej będzie identyczny dla średnich jak i dla sum złożonych z tych samych np. pytań kwestionariusza. No chyba że coś bardzo źle zrobimy na poziomie obliczeń, ale to potem pogadamy. O co chodzi z tą standaryzacją? A o to, że dla testu nie powinno mieć znaczenia czy podamy wzrost w metrach czy centymetrach – różnica we wzroście, a właściwie wielkość różnicy powinna być ta sama. To oczywiście pewne uproszczenie, ale możliwe że złapiesz w ten sposób ideę: dla testu statystycznego nie ma znaczenia jak wyrażone są zmienne, jeśli wyrażamy je tak samo dla wszystkich zbadanych osób.

Podobnie korelacje pomiędzy zmiennymi: czy policzymy średnią czy sumę – związek między zmiennymi będzie miał taką samą siłę i istotność statystyczną. Mało tego – jeśli sobie rozrysujemy te dwie zmienne na przykład na wykresie rozrzutu, to z racji ich konstrukcji łatwo udowodnić, że to jest ta sama zmienna, tylko ma inną „podziałkę” (coś jak wspomniane wyżej metry i centymetry). Być może na poziomie na którym tu rozmawiamy i tak użyliśmy za dużo złożonych pojęć i za dużo podaliśmy informacji która może przyprawić Cię o ból głowy, ale weź w ogóle o tych wszystkich tłumaczeniach zapomnij. Co za dużo to niezdrowo. Pokażmy tylko na przykładzie, że mamy rację.

PRZYKŁAD Z (HEHE) STUDENTAMI (HEHE)

No to mamy przykładowe badanie własne w którym chcieliśmy dowiedzieć się czy poziom zadowolenia ze studiów rośnie z wiekiem (badanie korelacyjne) i czy poziom zadowolenia ze swoich studiów różni się między osobami nadal studiującymi i osobami które są już jakiś czas po studiach. Zbadaliśmy gargantuiczną liczbę 12 badanych – 6 studentów i 6 osób po studiach, sprawdziliśmy ich wiek i zadaliśmy im pięć pytań o to w jakim stopniu są zadowoleni z różnych aspektów swoich studiów (pytania ponumerujmy od P1 do P5). Nasz klucz kwestionariusza był taki, że nie wiedzieliśmy czy zdecydować się żeby liczyć sumę punktów tych poszczególnych pytań, czy średnią. No to policzyliśmy obie bo nas stać. Oto złożona baza danych, żeby każdy mógł sobie sprawdzić sam:

grupa	wiek	P1	P2	P3	P4	P5	suma	średnia
po studiach	31	1	2	2	1	2	8	1,6
student	21	1	2	1	3	3	10	2
student	24	2	3	2	2	1	10	2
po studiach	26	1	1	3	3	3	11	2,2
student	24	3	1	2	3	3	12	2,4
student	25	1	1	3	3	4	12	2,4
po studiach	28	2	4	3	3	2	14	2,8
po studiach	29	2	3	4	2	3	14	2,8
student	21	4	4	3	2	3	16	3,2
student	25	2	4	3	4	4	17	3,4
po studiach	37	3	5	4	4	3	19	3,8
po studiach	41	5	5	4	4	5	23	4,6

Od razu widać, że między obliczoną sumą a średnią są różnice w zakresie uzyskanych wyników (R), średniej i odchyleniu standardowym (M i SD), ale miary skośności, kurtozy i normalności rozkładu są takie same. Na język polski to trochę takie statystyczne „to ta sama zmienna ale z inną skalą, podziałką, czy czymtam„:

	R	M	SD	Sk	Kurt	W
suma	8,00-23,00	13,83	4,3	0,83	0,37	0,95
średnia	1,60-4,60	2,77	0,86	0,83	0,37	0,95

Aaaale, nie o tym mieliśmy, bo interesuje nas nie „jakiś poziom zmiennej”, czyli to klasyczne „czy poziom zadowolenia tak w ogóle jest wysoki”, ale kwestia tego czy studenci i ludzie po studiach różnią się od siebie. W tym celu wykonamy test istotności różnic, na przykład taki test t-studenta i dowiemy się z niego, że wprawdzie średnie i odchylenia standardowe różnią się dla obliczonej sumy i dla obliczonej średniej („inna podziałka”), ale sam wynik testu (t), jego istotność statystyczna i siła efektu (p i d) są dokładnie takie same. Mówiąc prościej – czy policzyliśmy średnią czy sumę, dostaliśmy taki sam wynik w kontekście naszego pytania badawczego: osoby po studiach nie różnią się od osób jeszcze studiujących poziomem zadowolenia ze swoich studiów.

	student (N = 6)		po studiach (N = 6)
	M	SD	M	SD	t(10)	p	d
suma	12,83	2,99	14,83	5,42	-0,79	0,447	0,5
srednia	2,57	0,6	2,97	1,08	-0,79	0,447	0,5

A teraz kwestia korelacji. Chcieliśmy sprawdzić, czy wraz z wiekiem rośnie poziom zadowolenia ze studiów i użyliśmy dla tych danych które mamy testu korelacji r-Pearsona. Obliczone współczynniki korelacji i ich poziom istotności statystycznej między wiekiem i policzoną średnią: r(10) = 0,637; p = 0,026, a wiekiem i policzoną sumą: r(10) = 0,637; p = 0,026 są dokładnie takie same.

Podsumowując – na powyższym przykładzie pokazaliśmy dlaczego w analizach istotnościowych nie ma znaczenia czy użyjemy średniej czy sumy. Jeśli to nie wystarczy Ci za dowód, to nie wiemy już co Ci wystarczy.

A KIEDY DOSTANIEMY INNE WYNIKI SUM I ŚREDNICH?

Jeśli coś poważnie skaszanimy na poziomie zbierania danych i obliczenia potem wyników. W zasadzie te same wyniki analiz istotnościowych dla sum i średnich powinniśmy dostać niezależnie do tego ile mamy pytań w kwestionariuszu, czy jaki jest zakres wyników dla pojedynczego pytania. Ale jest coś co może nam wysypać tę koncepcję. Nazywa się to „braki danych”. Czasami badaczowi zdarzy się zapomnieć o tym, żeby sprawdzić czy badany wypełnił całą ankietę czy tylko pół. Czasami zaś badany z jakichś przyczyn nie mógł odpowiedzieć… zresztą nieważne, powiedzmy że dla badanego nr 10 nie mamy odpowiedzi na 3 pytanie ankiety, a ono wchodzi w skład klucza dla wskazanego wyżej poziomu zadowolenia ze studiów.

Technicznie, jeśli mamy jakieś braki danych, to powinniśmy w ogóle rozważyć, czy taką osobę badaną włączyć do obliczenia wyników, bo nie wiemy jak mogłaby odpowiedzieć gdyby odpowiedziała, ergo – nie wiemy czy np. miałaby wynik niski, czy średni gdyby jednak odpowiedziała. To oczywiście temat na dłuższą historię, ale załóżmy, że po prostu mamy dziurę w bazie danych. Różne programy do obliczeń sum i średnich (bo można je obliczyć w Excelu, SPSS, Statistica, R i na kartce) mają różne algorytmy radzenia sobie z brakami. I tak na przykład Excel obliczy wynik sumy traktując braki danych zazwyczaj jako zera, a średnią obliczy jakimś tam innym, tylko sobie znanym sposobem. Uzyskane wyniki dla sum i średnich nie będą ze sobą zgodne tak jak w powyższym przykładzie. Testy istotnościowe będą dawać różne wyniki, bo to nie jest już kwestią „innej podziałki”, a „innej metody radzenia sobie z brakami danych”. Wówczas wyniki z sumy i średniej mogą być zupełnie inne.

W takich przypadkach w których mamy sporo braków danych, niektórzy statystycy argumentują, że być może to średnia jest bliższym przybliżeniem odpowiedzi danej osoby. Należy jednak pamiętać, że respondenci, którzy odpowiedzieli tylko na jedną z, powiedzmy, 10 pozycji, będą mieli ten jeden wynik jako średni wynik. Analityk (co my gadamy, student(ka)!) musi przed obliczeniem średniej ustalić zasady dotyczące wykluczenia z powodu dużej ilości braków danych… przynajmniej jeśli chce sprawdzać czy sumy i średnie się ze sobą zgadzają. Problem braków danych jest generalnie dość złożony i jeszcze o nim napiszemy.

Podsumowując: jeśli nie masz braków danych, to czy policzysz średnią, czy sumę dla wyników testów istotnościowych (różnic między grupami, korelacji między zmiennymi) to nie ma absolutnie żadnego znaczenia.

<wróć następny wpis>

Przeczytaj także

30 marca 2024