zajęcia pozalekcyjne wałbrzych

Statystyka w pracy badawczej

Statystyka jest nauką, z której psychologowie korzystają by podejmować decyzje o skuteczności twierdzeń. Działania badawcze, prowadzone zgodnie z metodologią nauk zyskują na obiektywności na podstawie analiz statystycznych. Należy pamiętać, że „liczby nie wiedzą skąd pochodzą” (to zdanie profesora Francuza, które jest jednocześnie tytułem podręcznika i mottem dla tego kursu). W samych obliczeniach statystycznych nie ma prawdy ani sensu. Zatem zabierając się za działania w SPSS należy mieć podstawę w wiedzy i doświadczeniu by badać zjawiska, które faktycznie występują i szukać związków tam, gdzie jest podstawa by wystąpiły

Hipoteza

Operacjonalizacja

Ciekawość, teoria, badanie, analiza wyników, odpowiedź

Jest wiele sposobów, by w naukowy sposób odpowiadać na ciekawość. Zwykle zaczynamy od ogólnego pytania (np. Czy psychoanaliza działa?). Następnie planujemy jak będziemy to sprawdzać. Możemy na przykład sprawdzić (1) różnice w samopoczuciu osób cierpiących na nerwicę, które korzystają z psychoanalizy z tymi, którzy cierpią ale nie korzystają albo (2) ich samopoczucie przed i po terapii. Wtedy postawimy hipotezy:

  1. Osoby cierpiące na nerwicę czują się lepiej po terapii niż osoby, które cierpią na nerwicę, ale nie korzystają z terapii.
  2. Osoby cierpiące czują się lepiej po terapii niż przed nią.

Obie te hipotezy są sformułowane w języku psychologicznym i nie da się ich sprawdzić przy pomocy narzędzi statystycznych. Zatem należy wykonać na nich operacjonalizację, którą da się zapisać w języku matematycznym. W tym celu posługiwać się będziemy pojęciami hipoteza zerowa, hipoteza alternatywna oraz pomiar. 

Hipoteza

z greckiego przypuszczenie. Jest to zdanie, które wymaga potwierdzenia lub falsyfikacji. Zawarta jest w nim spodziewana relacja między jakimiś zjawiskami.

H₀

Hipoteza zerowa

zakłada, że między zjawiskami nie ma związku

H₁

Hipoteza alternatywna

w idealnej sytuacji jest jedynym logicznym dopełnieniem hipotezy zerowej. Innymi słowy jeśli nie H₀ to H₁. W praktyce odrzucenie hipotezy zerowej powinno być jednoznaczne z przyjęciem hipotezy alternatywnej.

μn

Pomiar

dla porządku w tym kursie pomiar będę oznaczał grecką literą μ (mi) a w miejsce n będę podstawiał numery pomiarów. Zatem jeśli średni wzrost w grupie 1 będzie większy niż w grupie dwa zapiszemy μ12

W naszym przykładzie zmieniona hipoteza wyglądałaby następująco:

μ1 – pomiar samopoczucia przy pomocy testu samopoczucia osób korzystających z psychoanalizy (np. na skali od 1 do 100)

μ2 – pomiar samopoczucia przy pomocy testu samopoczucia osób niekorzystających z psychoanalizy (np. na skali od 1 do 100)

H₀ – nie ma różnic między między osobami korzystającymi z psychoanalizy i niekorzystającymi pod względem ogólnego wyniku samopoczucia, zatem

H₀: μ1μ2

H1 – istnieje różnica między osobami korzystającymi z psychoanalizy a niekorzystającymi (to przykład hipotezy dwustronnej lub bezkierunkowej)

H1: μ1 ≠ μ2

lub

H1 – osoby korzystające z terapii osiągają wyższe wyniki w teście samopoczucia od osób niekorzystających (jest to przykład hipotezy jednostronnej)

H1: μ1μ2

Jak można by opisać hipotezy dla drugiego przykładu?

Hipoteza jednostronna a dwustronna

Hipoteza jednostronna zakłada, że różnica między grupami da się przewidzieć, np. w sytuacji gdy sprawdzamy wpływ terapii na samopoczucie można założyć, że będzie on pozytywny. To znaczy, że ludzie będą uzyskiwali wyższe wyniki korzystając z terapii niż bez niej. W takiej sytuacji możemy postawić hipotezę alternatywną, która zakłada, że wyniki jednej grupy będą wyższe od wyników drugiej grupy.

Hipoteza dwustronna zakłada jedynie, że wyniki grup nie będą równe, ale nie daje pozwala nam określić, czy np. terapia wpływa pozytywnie, czy negatywnie na nastrój. Pozwoli nam jedynie stwierdzić, że istnieje wpływ.

Miara tendencji centralnej

Analizując wyniki badanych posługujemy się pewnego rodzaju uproszczeniami i modelami. Jednym z takich uproszczeń jest tendencja centralna (kiedyś „nadzieja matematyczna”), która mówi nam o tym jaka wartość jest najczęstsza, najbliższa środka lub po prostu… średnia.

Średnia arytmetyczna, daje nam informację na temat tego jaką wartość średnio uzyskują pomiary w naszym badaniu. Jest jednak miarą nieprecyzyjną. Nie daje nam pełnej wiedzy na temat naszych danych.

Poniższe zbiory danych mają taką samą średnią, ale składają się na nie zgoła inne wartości.

A

5

4

5

6

5

5

3

6

6

5

B

10

8

5

1

8

2

7

7

1

1

Średnia arytmetyczna

Najczęściej stosowana w psychologii miara tendencji centralnej. Jest ilorazem sumy pomiarów i liczby pomiarów.

By pogłębić nasz wgląd w różnice między danymi posługujemy się wariancją. Dzięki niej możemy przyjrzeć się odległości poszczególnych pomiarów od średniej.

Wariancja dla grupy A wynosi

𝛅²(A) = 0,888888888888889

a dla grupy B

𝛅²(B) = 12

To znaczy, że mimo takiej samej średniej wyniki w grupie B są znacznie bardziej zróżnicowane

𝛅²

Wariancja

Podstawowa miara zmienności, mówi nam o tym jak bardzo dane różnią się między sobą. Jest kwadratem różnicy między wartością oczekiwaną (u nas średnią arytmetyczną) a pomiarami.

Odchylenie standardowe pozwala nam zobaczyć jak średnio każdy pomiar oddalony jest od średniej. Dzięki temu łatwiej na zaobserwować różnorodność danych

Odchylenie standardowe dla grupy A wynosi

𝛅(A) = 0,943

a dla grupy B

𝛅(B) = 3,464

To znaczy, że mimo takiej samej średniej wyniki w grupie B są znacznie bardziej zróżnicowane

𝛅

Odchylenie standardowe

Klasyczna, najczęściej stosowana miara zmienności, mówi nam o tym jak bardzo dane różnią się między sobą. Jest pierwiastkiem kwadratowym wariancji.

pobierz dane i samodzielnie dokonaj obliczeń

Rozkład normalny

Rozkład normalny (lub krzywa Gaussa) jest jednym z najczęstszych rozkładów zmiennych. Zakłada, że większość wyników zorganizowana jest wokół środka, centralnej wartości, im dalej od niej tym mniej wyników. Rozkład wyników zbliża się do normalnego gdy zwiększamy ilość pomiarów. Zatem jeśli zbadamy 15 osób to prawdopodobne jest, że rozkład nie będzie normalny, ale jeśli zbadamy 15 000 to ich wyniki rozłożą się normalnie.

Do opisu rozkładu normalnego wykorzystujemy dwóch pojęć:

Skośności – czyli mary przemieszczenia rozkładu konkretnej zmiennej względem rozkładu normalnego na osi X. Wartości skośności znajdują się w przedziale od -1 do 1. Wartości dodatnie świadczą o przesunięciu szczytu rozkładu w lewo, ujemna w prawo.

Kurtozy – czyli miary przemieszczenia (lub spłaszczenia / wypiętrzenia) rozkładu konkretnej zmiennej względem rozkładu normalnego na osi Y. Wartości kurtozy znajdują się w przedziale od -1 do 1. Wartości dodatnie świadczą o wypiętrzeniu (rozkład leptokurtyczny) szczytu rozkładu, ujemna o spłaszczeniu (rozkład platokurtyczny).

Do badania hipotezy o normalności rozkładu wykorzystujemy np. test Shapiro – Wilka, dla którego hipotezą zerową jest normalność rozkładu.

M. W. Toews – Praca własna, based (in concept) on figure by Jeremy Kemp, on 2005-02-09
źródło grafiki 

Homogeniczność

Jednorodność wariancji lub homogeniczność jest miarą tego na ile rozrzut wyników jest zmiennych jest do siebie podobny. Zatem jeśli wariancje dwóch zmiennych są zbliżone możemy powiedzieć, że zmienne są homogeniczne.

Testem, którym możemy zweryfikować jednorodność wariancji (homogeniczność) jest test Leaven’a dla którego hipotezą zerową jest homogeniczność rozkładu.

Podejmowanie decyzji

Na podstawie testów statystycznych będziemy podejmować decyzje względem naszych hipotez. Przyjęcie hipotezy zerowej opierać będziemy na prawdopodobieństwie popełnienia błędu I rodzaju. Testy statystyczne pomogą nam określić jakie jest prawdopodobieństwo odrzucenia prawdziwej hipotezy zerowej. Będziemy się w tym celu posługiwać wartością p, czyli istotnością statystyczną.

Wartość p = 0,99 oznacza, że mamy 99% prawdopodobieństwo, że przyjęcie hipotezy zerowej jest dobrą decyzją. Wartością graniczną jest p=0,05 dla której istnieje jedynie 5% prawdopodobieństwa, że hipoteza zerowa jest prawdziwa. Zwykle gdy p<0,05 przyjmujemy hipotezę alternatywną.

H₀ fałszywa

H₀ prawdziwa

nieodrzucenie H₀

błąd II rodzaju

dobra decyzja

odrzucenie H₀

dobra decyzja

błąd I rodzaju

Przygotowanie do pracy w SPSS

Import danych

Przed rozpoczęciem pracy z SPSS dobrze upewnić się, że dane, którymi się posługujemy są odpowiednio opisane w widoku zmiennych.

Bazy danych stworzone w SPSS nie wymagają importu, wystarczy otworzyć plik z rozszerzeniem .sav i uruchomi się program, który od razu pokaże tabelę.

Jeśli chcemy skorzystać z bazy danych, która powstała w innym programie (np. zaimportować tabelę z Google lub Microsoft Forms) trzeba przejść proces importu opisany w filmie.

Porównywanie grup

2 grupy, dane niezależne

Do porównywania 2 grup wykorzystywać będziemy testy parametryczne (kiedy zmienne spełniać będą warunki normalności i homogeniczności rozkładu wyników) lub testy nieparametryczne (gry warunki normalności i homogeniczności rozkładu wyników nie zostaną spełnione). Przykładem testu parametrycznego jest test t Studenta, nieparametrycznym odpowiednikiem tego testu jest U Manna-Whitneya.

Dane niezależne to takie, które np. pozyskaliśmy od dwóch oddzielnych grup.

Decyzję o tym, że istnieje istotna różnica między grupami podejmujemy gdy p<0,05 niezależnie od tego, czy korzystamy z testów parametrycznych czy nieparametrycznych.

pobierz dane i samodzielnie dokonaj obliczeń

2 grupy, zmienne zależne

Do porównywania 2 grup wykorzystywać będziemy testy parametryczne (kiedy zmienne spełniać będą warunki normalności i homogeniczności rozkładu wyników) lub testy nieparametryczne (gry warunki normalności i homogeniczności rozkładu wyników nie zostaną spełnione). Przykładem testu parametrycznego jest test t Studenta dla prób zależnych, nieparametrycznym odpowiednikiem tego testu jest T Wilcoxona.

Dane zależne to takie, które np. pozyskaliśmy od osób z tej samej grupy w dwukrotnym pomiarze, np. przed i po oddziaływaniu eksperymentalnym..

Decyzję o tym, że istnieje istotna różnica między grupami podejmujemy gdy p<0,05 niezależnie od tego, czy korzystamy z testów parametrycznych czy nieparametrycznych.

pobierz dane i samodzielnie dokonaj obliczeń

3 i więcej grup

Do porównywania 3 i więcej grup wykorzystywać będziemy jednoczynnikową analizę wariancji (ANOVA). Działanie to da nam odpowiedź na pytanie, czy istnieje istotna statystycznie różnica między grupami.

Często taka odpowiedź nie jest wystarczająca, bo chcemy wiedzieć, między którymi grupami jest największa różnica. By ją odnaleźć wykonujemy testy post – hoc. Zastosowanie tych testów jest uzależnione od spełnienia przez zmienne warunku o homogenicznym rozkładzie. Dlatego poza wyborem testów post – hoc warto wykonać test Leavean’a.

pobierz dane i samodzielnie dokonaj obliczeń

Miara siły związku

Badanie istotności różnic między grupami nie gwarantuje podstaw do podjęcia właściwej decyzji o zależności między grupami. Istotność statystyczna jest wartością podatną na liczebność grupy. Zatem im liczniejsza grupy tym większe prawdopodobieństwo, że różnica między nimi będzie statystycznie istotna.

By upewnić się, że mamy podstawy do podjęcia odpowiedniej decyzji poza istotnością warto również zbadać wielkość efektu. Każdy z testów istotności ma odpowiedni wskaźnik wielkości efektu. Dla testu t Studenta jest to d Cohena, które dla danych niezależnych jest różnicą średnich danych standaryzowanych, a dla danych zależnych ilorazem różnicy średnich i odchylenia standardowego.

Procedura

Podsumowując powyższe informacje należy zwrócić uwagę na algorytm postępowania. Zatem by porównać grupy należy odpowiedzieć na pytania o ilość grup oraz o to, czy dane są zależne, czy nie, czy rozkład wyników zmiennych spełnia warunek zastosowania testu parametrycznego (homogeniczność, normalność), czy nie. Następnie odpowiednio dobrać testy statystyczne i podjąć decyzję na podstawie wyników tych testów oraz wiedzy psychologicznej.

Dla 2 grup

Dla 3 i więcej grup

Porównywanie zmiennych

Korelacja

Badanie zależności między zmiennymi wymaga spojrzenia na dwa aspekty. Pierwszy to siła związku (podobnie jak w przypadku porównywania grup). Jest ona mierzona współczynnikiem korelacji, który mieści się w przedziale od -1 do 1. Korelacja na poziomie 1 oznacza, że każda zmiana zmiennej X spowoduje zmianę w zmiennej Y. Korelacja pozytywna pozwala nam powiedzieć, że im bardziej rośnie X tym większe jest Y. Korelacja odwrotna (przy współczynniku mniejszym od zera) oznacza, że im bardziej rośnie X tym bardziej Y maleje.

Poza oceną siły korelacji ważne jest stwierdzenie istotności korelacji. Tu podobnie jak w testach badających różnice między grupowe dla wartości p<0,05 uznajemy, że korelacja jest istotna.

Wybór odpowiedniego współczynnika korelacji uzależniony jest od skali, na której mierzymy zmienne oraz od ilości zmiennych

pobierz dane i samodzielnie dokonaj obliczeń

Literatura

Brzeziński, J. (2012). Metodologia badań psychologicznych. Wydawnictwo Naukowe PWN.
Francuz, P., i Mackiewicz, R. (2007). Liczby nie wiedzą, skąd pochodzą: Przewodnik po metodologii i statystyce : nie tylko dla psychologów. Wydawnictwo KUL.
Shaughnessy, J. J., Zechmeister, J. S., & Zechmeister, E. B. (2007). Metody badawcze w psychologii. Gdańskie Wydawnictwo Psychologiczne.
Szymczak, W. (2018). Podstawy statystyki dla psychologów: Podręcznik akademicki. Difin.

źródło baz danych