Braki danych – co powodują i dlaczego należy się ich wystrzegać?

14 lutego 2022 | author

Facebook

Zbierasz sobie wyniki swoich badań. Osoby badane wypełniają jakieś kwestionariusze (wszystko jedno czy papierowe czy on-line). I ci nasi niesforni badani zapomnieli wypełnić całą ankietę. Straszne gapy! Dlaczego takiemu badanemu nie należy się ciasteczko za udział? Dlaczego Ty też zamiast ciasteczka dasz sobie rózgę na święta?

BRAKI DANYCH – SKĄD SIĘ BIORĄ?

Jak w akapicie wyżej – osoba badana może po prostu nie wypełnić wszystkich pól Twojego kwestionariusza. Masz kwestionariusz papierowy (tak, tak, naprawdę jeszcze trochę ludzi robi badania metodą papier-ołówek) i osoba badana pominęła jakąś odpowiedź. Dzieje się tak z różnych powodów – czasem osoba badana nie zauważy jakiegoś pola, nie doczyta pytania, albo zwyczajnie nie chce odpowiedzieć. Żyjemy w czasach ciągłego pośpiechu i osoba badana może po prostu pobieżnie wypełnić kwestionariusz, albo po prostu znudzić się nim po setnym pytaniu.

Podobnie jest z kwestionariuszami elektronicznymi – czyli powszechnie stosowane Google Formularze, albo ich odpowiednik Microsoftu; to samo dotyczy przecież innych platform, na przykład zdobywającego popularność multinarzędzia Qualtrics. Osoba badana może nie zauważyć jakiegoś pytania, z jakiegoś powodu je pominąć, albo po prostu zamknąć okno przeglądarki. Zmotywowanie badanego do wypełnienia bardzo długiego kwestionariusza jest zadaniem naprawdę trudnym i nie oszukujmy się: jeśli coś ma powyżej 50 pytań, to badanemu może się zacząć dłużyć czas… nawet nie wiesz ile memów czeka tam daleko, daleko od Twojego kwestionariusza.

BRAKI DANYCH – CO POWODUJĄ? DLACZEGO TO WAŻNE W BADANIACH?

Jeśli chcesz sprawdzić rozkład wieku wśród studentów Twojego kierunku, to pewnie zadasz im o to pytanie, na przykład w ankiecie. I wyobraź sobie, że osoba badana akurat wieku nie podała. Z punktu widzenia Twojego założenia badawczego, wynik zebrany od tej osoby jest dla Ciebie bezużyteczny. Poświęcasz czas, energię, gadasz do tego badanego, namawiasz go na udział, a ostatecznie to tak jakby tego badanego w ogóle nie mieć. To najprostszy przykład i najłatwiejszy w zrozumieniu dlaczego brak danych to kiepska sprawa.

Sprawa komplikuje się kiedy masz w użyciu tzw. kwestionariusz standaryzowany – czyli zestaw pytań który mierzy jakąś cechę (na przykład ekstrawersja, lubienie słodyczy, poziom samooceny i tak dalej). Pisaliśmy już o kwestionariuszach tutaj, tutaj i tutaj. Zazwyczaj autorzy takiego kwestionariusza tłumaczą jak odczytać wyniki osoby badanej a potem obliczyć wynik testu. Stosuje się do tego instrukcję zwaną kluczem. I teraz uwaga – jeśli badany na 10 pytań naszego kwestionariusza udzielił odpowiedzi tylko na 9, to mamy spory kłopot. Mamy pojedynczy brak danych, wydaje się że to nic wielkiego, ale większość metod badawczych zakłada, że jeden brak danych wyklucza obliczenie całego wyniku dla osoby badanej. Badany nie wypełnia tylko jednego pytania z całego kwestionariusza, a okazuje się, że nie możesz użyć jego odpowiedzi!

Większość badaczy (i teoretyków) zakłada, że nie wiemy co badany wpisałby w miejsce które pominął, stąd nie powinno się „zgadywać”: po prostu mamy puste miejsce. Większość metod kwestionariuszowych oblicza wynik (czyli podaje matematyczny zapis tego jak wynik dla badanego uzyskać) z użyciem jakichś działań matematycznych, i choć na chłopski rozum tylko brakuje jakiegoś pojedynczego elementu, to idee matematyczne które za tym stoją nie powinny być przez Ciebie naruszane. Jeśli wpadniesz na pomysł typu „i tak sobie policzę ten wynik, nikt mi nie powie jak mam żyć”, to mamy dla Ciebie złe wiadomości: taki pomysł to jeszcze gorsza opcja niż wywalenie badanego ze swoich zbiorów. Zaufaj nam, wiemy co mówimy.

Niektóre metody badawcze mają przygotowany do ich obsługi jakiś podręcznik, w którym – jest cień szansy – będzie jakiś pomysł na to, jak sobie poradzić z brakiem danych. Autor wówczas zaproponuje, żeby inaczej policzyć wynik, albo użyć jakiejś innej metody. Niemniej – możesz spokojnie przyjąć, że niepełny arkusz Twojego badanego będzie po prostu do wywalenia. Ultra-rzadko zdarza się, żeby dało się obliczyć jakiś wynik potrzebny w Twoim badaniu. Słowem – braki danych to megaklops.

BRAKI DANYCH – JAK IM ZAPOBIEGAĆ?

W przypadku kwestionariuszy papierowych można zaraz przy wypełnianiu sprawdzać odpowiedzi badanego… ale na to mało kto chce iść, bo to zwykle srogie naruszenie prywatności i więcej z tego uciekających badanych niż pożytku. Możesz tuż po wypełnieniu poprosić po prostu osobę badaną o sprawdzenie czy na pewno wszystko jest wypełnione, może się jeszcze opamięta. Możesz też poprosić o to, żeby badany poinformował czy są jakieś pytania na które nie chce odpowiedzieć – da Ci to obraz tego na ile badany jest nieogaruskiem, a na ile Twoje pytania wchodzą w jego prywatność trochę za bardzo.

W przypadku kwestionariuszy elektronicznych stosuje się zabieg wymuszania odpowiedzi przez osobę badaną. W wyniku takiego działania na przykład Formularze Google będą uniemożliwiały badanemu zakończenie badania dopóki nie poda on wszystkich odpowiedzi; co fajne – będą też natychmiast wskazywać badanemu co nie zostało wypełnione. Przyjemnie, szybko i z korzyścią dla badania. O tym jak ustawić w Formularzach Google wymuszanie odpowiedzi pisaliśmy już nieco w tym poradniku. W innych narzędziach trzeba sobie wygooglać pojęcie „wymuszanie odpowiedzi” / „response forcing”; na przykład dla Qualtrics są gotowe dwa poradniki – tu i tu.

Są pewne poglądy, że nie można zmusić osoby badanej do wypełnienie wszystkich pól kwestionariusza – tak samo jak nie można zmusić osoby badanej do udziału w badaniu. My stoimy na stanowisku, że badany może w każdym momencie odmówić udziału, albo zrezygnować z ankiety; jeśli zrezygnuje z powodu obowiązku wypełnienia kluczowych dla badania pól ankiety, to przynajmniej od razu mamy jasność, że taki zestaw odpowiedzi do niczego nam się nie przyda. Jeśli robimy badania na temat nastawienia do serków dietetycznych, to tak samo działa sytuacja w której badany nie chce brać udziału w badaniu, co sytuacja w której badany się zgadza na udział, ale nie udziela odpowiedzi na pytania o serkach. Wymuszanie przez kwestionariusz elektroniczny zaznaczenia jakiejś odpowiedzi, to nie przymuszanie osoby badanej do udziału.

KIEDY NIE WYMUSZASZ ODPOWIEDZI W KWESTIONARIUSZU ON-LINE

dzieje się jeszcze jedna krzywda Twoim badaniom. Zarówno Formularze Google, jak i na przykład Qualtrics informują Cię o ilości osób badanych które wzięły udział w badaniu – dzięki temu możesz sprawdzać czy już badanie zakończyć czy nie. Jeśli odpowiedzi nie są wymuszane, to badany może wziąć udział w badaniu, następnie nie wypełnić ani jednego pola, a i tak zostanie zapisany jako biorący udział. W efekcie – możesz być przekonany/przekonana, że masz już zbadane, nooo, powiedzmy ze 100 osób… a tu się okazuje, że z powodu braków danych do kosza należałoby wyrzucić więcej niż połowę. Oszczędź sobie czasu i spraw, że wyniki badania pozwolą Ci odpowiedzieć na główne pytania badawcze.

Ej, serio, to mega ważne.

BRAKI DANYCH – JAK LECZYĆ?

Uuuuu, no to sprawa jest grusza. W sensie – dopiero dziś uświadamiasz sobie, że to jest ważne i wyniki Twojego badania są dziurawe jak kocioł… Znaczy… Coś nam nie pykło skojarzenie haropoterowe. Anyway – masz braki. I co teras?

No co, no słabo. 🙁 Radzenie sobie z brakami to droga przez mękę. Głownie dlatego, że nie ma zgody między naukowcami co do tego, która metoda jest najlepsza, a co gorsze też dlatego, że nie ma zgody czy w ogóle powinno się takie metody stosować. Dla ambitnych – rozpoczyna się zwykle od analizy która wskazuje czy braki danych są czysto przypadkowe czy też może są jakieś kluczowe miejsca w badaniu które są dla badanych nie do przejścia (na przykład Test MCAR). Następnie określa się jaki jest procent braków danych i jeśli przekracza on jakąś magiczną ilość (tak, tu też nie ma zgody co do tego jaka ma być ta wartość) decyduje co dalej. Zwykle – jak już się zdecydujemy żeby coś z brakami danych robić, to uzupełnia się je medianą albo średnią odpowiedzi innych badanych (na przykład oprogramowanie Statistica ma do tego dodatkowy moduł).

Ponieważ takie podejście spotyka się z krytyką (a jakże, przecież naukowcy muszą się ciągle kłócić), czasem po prostu nic się nie robi, z nadzieją że to co badany wypełnił do czegoś się nada. Na przykład – z trzech istotnych dla nas kwestionariuszy wypełnił dwa, które możemy wykorzystać w naszych badaniach. To jednak wymaga precyzyjnego sprawdzania czy dobrze obliczyliśmy wyniki i czy pominęliśmy właściwe metody i w ogóle sporej kontroli zarówno bazy danych, jak i stawianych potem hipotez, a także interpretacji wyników.

Sorki, to nie jest zabawa dla nowicjuszy, to jest prawdziwy wycisk na siłce. Dobra, co my gadamy, że w ogóle na jakąś siłkę będziemy łazić… Po prostu lepiej zapobiegać niż leczyć, bo nie napiszemy w dwóch akapitach poradnika jak Cię uratować z takiej sytuacji. A może napiszemy, tylko nikt tego nie przeczyta, bo będzie za długie.

KIEDY WYMUSZASZ ODPOWIEDZI W KWESTIONARIUSZU ON-LINE CIESZY SIĘ KOTEK

i Ty też się cieszysz, motorniczy w tramwaju się cieszy, wszyscy tańczą i śpiewają piosenki. Popatrz jak fajnie ten kotek podskakuje! Podaruj sobie odrobinę luksusu, zrób tak, żeby formularz elektroniczny zbierał wyniki badania nadające się do dalszej pracy.

I tu ostatnia porada. Pamiętaj o tzw. pytaniach/odpowiedziach opcjonalnych. Wymuszanie odpowiedzi powinno dotyczyć tylko tych pytań które są dla Ciebie kluczowe, reszta może być pominięta. Na przykład – jeśli płeć nie jest ważna w Twoich badaniach, to nie ma potrzeby zmuszać osoby badanej do jej określenia w Twoim kwestionariuszu. Jeśli najpierw pytasz osobę badaną o to czy lubi pierogi, a jeśli tak, to w następnym pytaniu prosisz, żeby ta osoba wymieniła ulubione pierogowe szaleństwo, to to drugie pytanie także jest całkiem opcjonalne (jeśli osoba badana nie lubi pierogów, to nie musi wypełniać pytania o to jakie lubi pierogi). Zadbaj o te pytania które bezpośrednio wynikają z Twoich hipotez (o tym jak te rzeczy się łączą pisaliśmy tutaj, tutaj, tutaj i tutaj). Jeśli używasz jakiegoś kwestonariusza standaryzowanego (czyli gotowego narzędzia badawczego z kluczem), to obowiązkowo zadbaj o wymuszenie odpowiedzi na wszystkie pytania tego kwestionariusza.

Także – tego. Poradzisz sobie. Będzie dobrze!

<wróć