Tworzenie bazy danych
Czyszczenie danych
Przygotowanie danych do analizy

Powrót do bazy wiedzy

Tworzenie bazy danych


Przed przystąpieniem do analizy danych zebranych w badaniu, niezbędne jest ich przygotowanie.

Pierwszym i niezbędnym krokiem w procesie przygotowania danych do analizy jest ich wprowadzenie do bazy. Samodzielne projektowanie bazy wyników jest konieczne jedynie wówczas, kiedy w badaniu nie wykorzystywano rozwiązań pozwalających na automatyczne generowanie bazy z zebranych danych (np. w przypadku przeprowadzania ankiety papierowej – tzw. badania typu PAPI).

Działanie to wiąże się ze zdefiniowaniem kodów, czyli liczbowych etykiet, jakie powinny zostać przypisane każdej z możliwych wartości zmiennej (operacja ta nie jest konieczna, jeśli zmienna ma charakter liczbowy, np. w wypadku liczby lat nauki respondenta). Dzięki operacji kodowania odpowiedzi respondentów zostają "przekonwertowane" do liczbowego formatu, umożliwiającego przeprowadzenie analiz statystycznych (DeVaus 2002b: 1).

Kody mogą także zostać przypisane do określonych odpowiedzi już na poziomie projektowania kwestionariusza. 


Czyszczenie danych


Kolejnym krokiem, jaki należy podjąć po wprowadzeniu danych do bazy jest ich „wyczyszczenie”, polegające na wyeliminowaniu błędów w bazie powstałych podczas wprowadzania danych (Rubin 2010: 280).

Babbie (2003) wyróżnia dwa typy czyszczenia danych, które powinno się przeprowadzić przed przystąpieniem do analizy. Są to:

  • czyszczenie dotyczące dopuszczalnych kodów - polegające na sprawdzeniu, czy w przygotowanej bazie mamy do czynienia jedynie z kodami, do których zostały przypisane określone wartości zmiennych - kategorie odpowiedzi.

PRZYKŁAD: W przypadku zmiennej opisującej miejsce zamieszkania wyróżniamy trzy wartości z przyporządkowanymi im kodami liczbowymi: 1-wieś, 2-miasto, 9-brak danych; wszelkie inne kody pojawiające się w bazie danych na tej zmiennej powinny zostać zatem potraktowane jako błędne.

  • czyszczenie logiczne - jest procesem polegającym na sprawdzeniu, czy kody pojawiają się w przypadkach, w których powinny się były pojawić, tj. czy nie zostały złamane założone w strukturze logicznej kwestionariusza reguły przejścia.

PRZYKŁAD: Struktura logiczna kwestionariusza zakłada, że na pytanie dotyczące średnich miesięcznych zarobków mają udzielić odpowiedzi jedynie ci, którzy posiadają umowę o pracę. Jeżeli pomimo czytelnych instrukcji respondent udzielił odpowiedzi na to pytanie, pomimo że takiej umowy nie posiada, należy potraktować taką odpowiedź jako błąd (Babbie 2003: 434-435).


Przygotowanie danych do analizy


Po przeprowadzeniu czyszczenia bazy danych należy przystąpić do przygotowania istniejących w bazie zmiennych do analizy. De Vaus (2002b) wskazuje na cztery etapy tego procesu:

  • dokonanie niezbędnych zmian w zakresie przypisanych do danej zmiennej kategorii odpowiedzi na potrzeby przyszłej analizy - rekodowanie dwóch i więcej kategorii w jedną, czy zmiana kodów przypisanym poszczególnym odpowiedziom;
  • tworzenie nowych zmiennych, które zostaną wykorzystane w analizie na bazie już istniejących;
  • standaryzacja zmiennych, umożliwiająca porównania między nimi;
  • rozwiązanie problemu braków danych (DeVaus 2002b).

Szczególnie istotnym problemem z perspektywy jakości analizowanych danych i - tym samym - precyzji uzyskanych wyników jest zagadnienie braków danych. Przyczyny, z których w zbiorze znalazły się braki danych to np. odmowa udzielenia odpowiedzi na określone pytanie przez respondenta, przypadkowe ominięcie pytania czy też sytuacja, w której żadna z odpowiedzi zawartych w kafeterii nie oddaje stanowiska respondenta w danej kwestii (por. Allison 2002: 1).

Problem braków danych badacz może rozwiązać na kilka różnych sposobów, takich jak (por. Edners 2010, Allison 2001):

  • wykluczenie obserwacji z brakami danych z analizy;
  • zastosowanie wag korygujących niedoreprezentację danej warstwy (grupy scharakteryzowanej ze względu na określoną wartość zmiennej lub kombinację wartości zmiennych, np. mężczyzn czy też kobiet mieszkające na wsi) wynikającą z braków odpowiedzi (por. Corbetta 2003:27);
  • wykorzystanie jednej z metod imputacji braków danych.

Wzór cytowania:

Magierowski M. Przygotowanie danych do analizy. Dostępny: http://www.researchonline.pl/baza?podkategoria=23, data dostępu: .././../2013.

Bibliografia

Allison P. 2002. Missing Data. London: Sage Publications.
Babbie E. 2003. Badania społeczne w praktyce. Warszawa: Wydawnictwo PWN.
Corbetta P. 2003. Social Research. Theory, Methods and Techniques. London: Sage Publications.
DeVaus D. A. Analyzing Social Science Data: 50 Key Problems in Data Analysis. London: Sage Publications.
DeVaus D. A. 2002b. Surveys in Social Research. London: Routledge.
Enders C. K. 2010. Applied Missing Data Analysis. New York: Guilford Press.
Rubin A. 2010. Statistics for Evidence-Based Practice and Evaluation. Belmont, CA: Brooks/Cole, Cengage Learning.


100 000+

Zrealizowanych ankiet. Dołącz do grona naszych klientów!

Szpital Dziecięcy BIS Goldman Recruitment Klon Jawor Iwentarium ISI Edisonda TTPlast Splendour Idea Rozwoju

Newsletter

Promocje, nowości produktowe i żadnego spamu!