www.ebookgigs.com
www.ebookgigs.com
www.ebookgigs.com
Metodologia badań psychologicznych Jerzy Brzeziński
W Y D A W N I C T W O W A R S Z A W A
N A U K O W E 2 0 0 4
PWN
Projekt okładki i stron tytułowych Karolina Lijklema Redaktor Małgorzata Kasprzewska Redaktor techniczny Teresa Skrzypkowska
Copyright © by Wydawnictwo Naukowe PWN Sp. z o.o. Warszawa 1996 Copyright © by Wydawnictwo Naukowe PWN SA Warszawa 2003 ISBN 83-01-14041-0 Wydawnictwo Naukowe PWN SA 00-251 Warszawa, ul. Miodowa 10 lei.: (0 22) 695 43 21 faks:(0 22)695 40 31 e-mail:
[email protected] www.pwn.pl Wydawnictwo Naukowe PWN SA Wydanie V Arkuszy drukarskich 42,75 Druk ukończono w lipcu 2004 r. Druk i oprawa: Toruńskie Zakłady Graficzne „Zapolex" Sp. z 0.0. 87-100 Toruń, ul. Gen. Sowińskiego 2/4
Spis treści Wprowadzenie: dlaczego metodologia? ................................................... .
15
1. Różne rozumienia metodologii ...................................................................................... 2. Dwa cele nauczania metodologii .................................................................................... 2.1. Znajomość biema ................................................................................. -................. 2.2. Znajomość czynna................................................................................................... 3. Podstawowa literatura z zakresu metodologii badań psychologicznych i dyscyplin pokrewnych
15 17 18 20 23
Część I. NATURA PROCESU BADAWCZEGO W PSYCHOLOGII Rozdział 1. Struktura procesu badawczego w psychologii ....................
29
1. 2. 3. 4. 5. 6. 7.
Wprowadzenie.................................................................................................................. Cele poznania naukowego — zewnętrzne i wewnętrzne ................................................... Schemat poznania naukowego .......................................................................................... Etapy postępowania badawczego w naukach empirycznych (wg M. Bunge'a).................. Struktura procesu badawczego w psychologii (ujęcie własne) ...................................... Między „odkryciem" a „uzasadnieniem" .......................................................................... Podsumowanie..................................................................................................................
29 30 34 35 37 44 46
Rozdział 2. Zewnętrzne determinanty procesu badawczego w psychologii — psychologia a praktyka społeczna.........................................................
48
1. Wprowadzenie.................................................................................................................. 2. Między zewnętrznymi a wewnętrznymi uwarunkowaniami procesu badawczego w psy chologii ........................................................................................................................... 3. Psychologia stosowana czy stosowanie psychologii — jedna, albo wiele psychologii? . .
48 49 51
4. Psychologia a model tzw. nauk praktycznych................................................................... 5. Obieg informacji między sferą praktyki społecznej i sferą nauki ...................................... 6. Podsumowanie ..................................................................................................................
57 60 62
Rozdział 3. Wewnętrzne determinanty procesu badawczego (I) — wpływ świadomości metodologicznej na rezultaty procesu badaw czego ............................................................................................................
64
1. Wprowadzenie .................................................................................................................. 2. Trafność badania psychologicznego .................................................................................. 2.1. Trafność wewnętrzna ............................................................................................ 2.2. Trafność zewnętrzna................................................................................................ 3. Proces badawczy w kontekście świadomości metodologicznej .......................................... 4. Poza kontekstem świadomości metodologicznej ................................................................ 5. Podsumowanie..................................................................................................................
64 65 65 68 71 82 86
Rozdział 4. Wewnętrzne determinanty procesu badawczego (II) — badanie psychologiczne jako interakcja: „badacz-osoba badana" . . . .
88
1. Wprowadzenie.................................................................................................................. 2. Osobliwości badania psychologicznego (wg S. Rosenzweiga)............................................ 3. Nastawienia badacza na potwierdzenie hipotezy badawczej — efekt oczekiwań interper sonalnych badacza OIB (wg R. B. Rosenthala) ................................................................ 3.1. Pojęcie efektu oczekiwań interpersonalnych badacza OIB — efekt Golema i efekt Galatei.......................................................................................................... 3.2. Czynniki kształtujące OIB........................................................................................ 3.3. Rosenthala teoria czterech czynników pośredniczących w powstawaniu OIB . . . . 3.4. Zapobieganie występowaniu efektu OIB.................................................................. 4. Postrzeganie przez osobę badaną sytuacji badawczej ...................................................... 4.1. Status motywacyjny osoby badanej, SM .................................................................. 4.2. Koncepcja wskazówek sugerujących osobie badanej treść hipotezy badawczej WSH (wg M. T. Ome'a)................................................................................................... 4.2.1. Charakterystyka zmiennych WSH ................................................................ 4.2.2. Trzy procedury kontroli WSH ..................................................................... 4.2.2.1. Badanie posteksperymentalne........................................................ 4.2.2.2. Niby-eksperyment ......................................................................... 4.2.2.3. Symulacja eksperymentalna .......................................................... 4.2.3. Nowe plany eksperymentalne do badania efektów WSH ............................. 4.3. Koncepcja lęku osoby badanej przed oceną wystawianą przez badacza, LPO (wg M. J. Rosenberga) ......................................................................................................... 4.3.1. LPO jako zmienna pośrednicząca ............................................................ 4.3.2. Dwie metody badania wpływu LPO na wyniki badania psychologicznego . 4.3.2.1. Metoda powtórnego przeprowadzenia badania wg zmienionego scenariusza.................................................................................... 4.3.2.2. Metoda manipulowania pobudzeniem emocjonalnym ................. 4.3.3. Czynniki wyzwalające u osób badanych LPO.............................................. 4.4. Czy osoba badana nastawiona jest na współpracę z badaczem?.............................. 4.5. Oczekiwania interpersonalne osoby badanej formułowane pod adresem badacza, OIOB ........................................................................................................ 5. Powiązaraa między zmiennymi kontekstu psychologicznego badania psychologicznego . 6. Podsumowanie..................................................................................................................
88 89 89 89 90 93 94 95 95 96 96 103 104 105 106 106 109 109 112 112 114 116 118 120 121 124
Rozdział 5. Etyczne problemy psychologii (I) — między kodeksem etycznym a laboratorium............................................................................
125
1. Wprowadzenie .................................................................................................................. 2. Szczególnie etycznie wątpliwe aspekty działalności badawczej psychologa ....................... 2.1. Okłamywanie osób badanych.................................................................................... 2.2. Narażanie osób badanych na cierpienie, wstyd, lęk przed oceną oraz zaniżanie ich samooceny ............................................................................................................... 2.3. Psycholog (wykładowca i egzaminator) a student w roli osoby badanej.................... 3. Informowanie społeczności uczonych o uzyskanych rezultatach badawczych..................... 3.1. Ukrywanie niedoskonałości warsztatowych ............................................................ 3.2. Kłopoty z trafnością zewnętrzną............................................................................... 3.3. Nastawienie na potwierdzanie hipotez — „pomaganie" hipotezom ......................... 3.4. Intersubiektywna kontrolowalność rezultatu badawczego — problem repetycji badań psychologicznych ..................................................................................................... 4. Podsumowanie..................................................................................................................
150 152
Rozdział 6. Etyczne problemy psychologii (II) — między kodeksem etycznym a praktyką społeczną .................................................................
154
1. 2. 3. 4.
Wprowadzenie................................................................................................................... Rezultat badawczy jako podstawa praktycznego działania .................................................. Psycholog jako nauczyciel i mistrz -— jedność badania i nauczania .................................. Testy psychologiczne w rękach psychologa .................................................................... 4.1. Test psychologiczny i jego użytkownik ................................................................. 42. Adaptacja obcego testu ............................................................................................ 4.3. Intencja twórcy testu a zakres jego rzeczywistych zastosowań ................................. 4.4. Prawa osoby badanej ............................................................................................ 4.5. Uwagi końcowe ....................................................................................................... 5. Podsumowanie ................................. '. ...............................................................................
125 129 132 138 142 144 145 147 148
154 155 157 165 166 169 172 175 178 178
Część II ZMIENNE — PROBLEMY — HIPOTEZY Rozdział 7. Zmienne i ich operacjonalizacja
.........................................
183
Wprowadzenie .................................................................................................................. Pojęcie zmiennej............................................................................................................... Konstrukcja mnogościowa zmiennej ilościowej ............................................................ S. S. Stevensa klasyfikacja zmiennych: nominalne, porządkowe, interwałowe i ilorazowe Zmienne — zależne i niezależne. Klasyfikacja zmiennych ................................................ Zasady wprowadzania terminów teoretycznych do nauk empirycznych (wg J. Kmity) . Wskaźniki......................................................................................................................... 7.1. Pojęcie wskaźnika — wskaźniki rzeczowe i definicyjne .......................................... 7.2. Klasyfikacja wskaźników (wg S. Nowaka) .......................................................... 7.3. Moc rozdzielcza wskaźników empirycznych ............................................................ 8. Wyniki uzyskane na skalach narzędzi pomiarowych jako wskaźniki zmiennych ilościowych 8.1. Założenia dotyczące natury narzędzia pomiarowego n ............................................. 8.2. Pojęcie funkcji operacyjnej....................................................................................... 8.3. Pojęcie idealnego narzędzia md ............................................................................
183 184 186 188 189 192 195 195 198 200 203 203 204 205
1. 2. 3. 4. 5. 6. 7.
9. Nowe ujęcie problemu operacjonalizacji zmiennych psychologicznych (wg E. Homowskiej) 9.1. Istota procedury operacjonalizacji............................................................................ 9.1.1. Czynnik — wielkość — zmienna................................................................ 9.1.2. Podstawowe założenia.................................................................................. 9.2. Etapy procedury operacjonalizacji ....................................................................... 9.2.1. Rekonstrukcja czynnika teoretycznego; konstrukcja wielkości...................... 9.2.2. Konceptualizacja wielkości, dobieranie wskaźników, konstruowanie zmiennej 9.2.3. Dobór narzędzia pomiarowego i pomiar zmiennej ................................... 9.3. Analiza przykładu.................................................................................................... 10. Podsumowanie................................................................................................................
206 206 207 208 209 209 211 213 214 215
Rozdział 8. Problemy badawcze i hipotezy badawcze
216
...........................
1. Wprowadzenie.......................................................................................................
216
2. Problem badawczy jako pytanie — cechy dobrze sformułowanego problemu badawczego 2.1. Pytania rozstrzygnięcia i pytania dopełnienia ....................................................... 2.2. N. Bemapa klasyfikacja pytań................................................................................... 3. Klasyfikacja problemów badawczych................................................................................ 4. Hipoteza jako odpowiedź na pytanie badawcze — cechy dobrze sformułowanej hipotezy 5. Klasyfikacja hipotez badawczych ..................................................................................... 6. Podsumowanie..................................................................................................................
216 218 220 223 225 226 227
Część III. W STRONĘ METOD STATYSTYCZNYCH Rozdział 9. Próba .................................................................................................
231
1. 2. 3. 4.
231 232 234 236 238 239 240 240 240 241 242 243 244
Wprowadzenie.................................................................................................................. Dlaczego próba złożona z ochotników jest stronnicza?..................................................... Próba kwotowa................................................................................................................. Próba losowa.................................................................................................................... 4.1. Pojęcie operatu losowania i mechanizmu losowania ............................................ 4.2. Jak posługiwać się tablicami liczb losowych ........................................................ 4.3. Odmiany schematów losowania próby ..................................................................... 4.3.1. Losowanie nieograniczone indywidualne ........................................................ 4.3.2. Losowanie systematyczne indywidualne ........................................................ 4.3.3. Losowanie warstwowe ................................................................................... 4.3.4. Losowanie grupowe ....................................................................................... 4.3.5. Losowanie wielostopniowe............................................................................. 4.4. Testowanie losowości próby ................................................................................ 4.5. Wyznaczanie niezbędnej wielkości próby — przykład ze schematem losowania nieograniczonego indywidualnego............................................................................ 5. Podsumowanie..................................................................................................................
246 248
Rozdział 10. Miary siły związku między zmiennymi — wybrane zagad nienia ....................................................................................................................
249
ł. Wprowadzenie .................................................................................................................. 2. Związek liniowy versus związek krzywoliniowy ...............................................................
249 250
3. Metoda oceny „liniowości" i „odchylenia od liniowości" związku dwóch zmiennych . . 4. Wybór optymalnej miary siły związku między zmiennymi ............................................... 5. Podsumowanie ..................................................................................................................
251 25 6 25 9
Rozdział 11. Testy istotności różnic — wybrane zagadnienia ...............
260
1. Wprowadzenie.................................................................................................................. 2. Waninki poprawnego stosowania testów istotności różnic w badaniach empirycznych . 2.1. Respektowanie zasady randomizacji ...................................................................... 2.2. Grupy (dane) niezależne versus grupy (dane) zależne............................................... 23. Respektowanie założenia o rozkładzie zmiennej zależnej w populacji ..................... 2.4. Problem homogeniczności (jednorodności) porównywanych grup ............................ 2.5. Skala pomiarowa zmiennej zależnej ...................................................................... 2.6. Liczba porównywanych grup ................................................................................... 2.7. Duże N versus małe W............................................................................................ 3. Wybór optymalnego testu statystycznego — grupy (dane) niezależne ............................... 3.1. Najbardziej rozpowszechnione testy statystyczne w praktyce badawczej psychologów 3.2. Algorytm wyboru optymalnego testu ....................................................................... 4. Wybór optymalnego testu statystycznego — grupy (dane) zależne.................................... 4.1. Najbardziej rozpowszechnione testy statystyczne w praktyce badawczej psychologów 4.2. Algorytm wyboru optymalnego testu ....................................................................... 5. Podsumowanie...................................................................................................................
260 261 261 262 263 264 265 265 266 267 267 272 273 273 277 277
Część IV. MODELE SPRAWDZANIA HIPOTEZ Rozdział 12. Model eksperymentalny (E)
....................................................
1. Wprowadzenie .................................................................................................................. 2. Charakterystyka modelu eksperymentalnego (E) ................................................................ 2.1. Model eksperymentalny (E) a model quasi-eksperymentalny (qE) ............................ 2.2. Pojęcie kontroli zmiennych niezależnych.................................................................. 2.2.1. Dwie metody kontroli zmiennych niezależnych stosowane w planach jedno-jednozmiennowych, dwuwartościowych („0-1")............................................ 2.2.2. Statystyczny aspekt kontroli zmiennych — analiza wariancji zmiennej zależnej 2.3. Znaczenie randomizacji ............................................................................................ 2.4. Rola instrukcji maskujących cel eksperymentu w psychologii („decepcja")............... 2.5. Realizm życiowy i realizm psychologiczny .............................................................. 3. Pojęcie planu eksperymentalnego i quasi-eksperymentalnego ............................................. 4. Trafność planu eksperymentalnego i czynniki ją zakłócające ............................................. 4.1. Trafność wewnętrzna i czynniki ją zakłócające ........................................................ 4.2. Trafność zewnętrzna i czynniki ją zakłócające ..................................................... 4.3. Statystyczny kontekst trafności ............................................................. -.................. 4.4. Odniesienie do teorii................................................................................................ 5. Odmiany planów eksperymentalnych................................................................................. 5.1. Plany jedno-jednozmiennowe, dwuwartościowe („0 -1")........................................... 5.1.1. Plan 1. — z grupą kontrolną, z pomiarem początkowym i końcowym zmiennej zależnej......................................................................................................... 5.1.2. Plan 2. — z grupą kontrolną, bez pomiaru początkowego zmiennej zależnej
282 282 284 284 290 292 296 303 304 307 309 313 313 318 322 323 323 323 325 326
5.1.3. Plan 3. — z pomiarem początkowym i końcowym zmiennej zależnej w róż nych grupach ............................................................................................ 5.1.4. Plan 4. — czterogrupowy, Solomona ........................................................... 5.1.5. Plan 5. — trzygrupowy, z podwojonym pomiarem początkowym i jednym pomiarem końcowym zmiennej zależnej....................................................... 5.1.6. Plan 6. — czterogrupowy, z pomiarem początkowym i końcowym zmiennej zależnej na różnych grupach .................................................................... 5.2. Ograniczenia planów „0-1" ...................................................................................... 5.3. Piany jedno-wielozmiennowe, wielowartościowe — kilka uwag wprowadzających . 6. Ocena istotności zmiennych niezależnych w modelu eksperymentalnym ........................... 6.1. Poziom istotności statystycznej a a faktyczna istotność zmiennej X (postępowania eksperymentalnego) dla danej zmiennej zależnej Y .................................................. 6.1.1. Jak liczne powinny być grupy: eksperymentalna i kontrolna? Duża próba versus mała próba.............................................................................................. 6.1.2. Nastawienie na kontrolę błędu I lub II rodzaju ............................................ 6.2. Wskaźniki istotności zmiennej X (postępowania eksperymentalnego) ....................... 7. Podsumowanie ..................................................................................................................
327 328 332 332 333 334 337 337 337 338 340 341
Rozdział 13. Model wielokrotnej regresji (MR) ........................................
343
1. Wprowadzenie — model analizy wariancji (ANOVA) a model wielokrotnej regresji (MR) 2. Zmienne (niezależne) ilościowe w liniowym modelu MR ............................................. 2.1. Podstawowe odmiany MR........................................................................................ 2.1.1. Model liniowy: jedno-jednozmiennowy .................................................. 2.1.2. Model liniowy: jedno-wielozmiennowy....................................................... 2.2. Wprowadzenie interakcji zmiennych ilościowych do modelu MR ........................... 3. Zmienne jakościowe w modelu MR — konstruowanie zmiennych instrumentalnych . . . 3.1. Jedna zmienna dwukategorialna — analiza przykładu: test r, test F, współczynnik korelacji r ............................................................................................................. 3.2. Jedna zmienna wielokategohalna.............................................................................. 3.2.1. Analiza przykładu z wykorzystaniem kodowania zero-jedynkowego............. 3.2.2. Analiza przykładu z wykorzystaniem kodowania quasi-eksperymentalnego 3.2.3. Analiza przykładu z wykorzystaniem kodowania ortogonalnego ................... 3.3. Dwie zmienne wielokategorialne — zagadnienie interakcji miedzy zmiennymi jakościo wymi........................................................................................................................ 3.3.1. Analiza przykładu z wykorzystaniem kodowania ortogonalnego ................... 3.3.2. Analiza przykładu z wykorzystaniem kodowania quasi-eksperymentalnego . 3.3.3. Interakcja między zmiennymi jakościowymi a kodowanie zero-jedynkowe . 3.4. Kodowanie interakcji wielu zmiennych jakościowych .............................................. 4. Ustalenie porządku istotnościowego w obrębie zmiennych niezależnych wprowadzonych do modelu MR ................................................................................................................. 5. Podsumowanie ..................................................................................................................
343 346 346 347 354 362 363
Rozdział 14. Model ex post facto (EPF) ..................................................
363 370 370 379 388 396 398 402 423 425 426 429
431
■
1. Wprowadzenie................................................................................................................... 2. Model eksperymentalny a model EPF............................................................................... 3. Dwie odmiany modelu EPF.............................................................................................. 3.1. Odmiana eksploracyjna (EPF-E) .............................................................................. 3.2. Odmiana konfirmacyjna (EPF-K)............................................................................. 4. Zbieranie i opracowywanie danych empirycznych pochodzących z wywiadów ................
10
431 431 432 432 438 443
4.1. Opracowanie schematu zbierania danych za pomocą wywiadu..................................... 4.2. Przeszkolenie osób prowadzących wywiady oraz sędziów kompetentnych . . . . 4.3. Przygotowanie skal szacunkowych i ich akceptowanie przez badacza ..........................
443 445 447
5. Ocena istotności zmiennych w modelu EPF ................................................................................ 6. Wady i zalety modelu EPF ............................................................................................................. 7. Podsumowanie....................................................................................................................................
449 450 451
Część V. PODSTAWY KONSTRUKCJI TESTÓW PSYCHOLOGICZNYCH I INTERPRETACJI ILOŚCIOWEJ DANYCH TESTOWYCH Rozdział 15. Rzetelność i błąd standardowy pomiaru.................................
455
1. Wprowadzenie.................................................................................................................................... 2. Założenia klasycznej teorii testów psychologicznych .............................................................. 3. Odmiany błędu standardowego ....................................................................................................... 3.1. Błąd pomiaru wyniku otrzymanego ..................................................................................... 3.2. Błąd estymacji wyniku prawdziwego................................................................................... 3.3. Błąd pomiaru wyniku prawdziwego..................................................................................... 3.4. Błąd prognozy.......................................................................................................................... 3.5. Błąd zastąpienia ....................................................................................................................... 3.6. Analiza porównawcza błędów ............................................................................................... 3.7. Punktowa i przedziałowa estymacja wyniku prawdziwego .............................................
455 458 461 461 462 462 462 463 463 464
4. 5. 6. 7. 8.
Sześć emirycznych metod estymacji rzetelności testu psychologicznego ................................ Metody oparte na porównaniu dwukrotnego badania tym samym testem .............................. Metody oparte na porównaniu form alternatywnych (równoległych) testu.............................. Metody oparte na porównaniu części (np. połówek) tego samego testu ................................. Metody oparte na analizie właściwości statystycznych pozycji testowych ..............................
466 468 470 47 1 473
8.1. 8.2. 8.3. 8.4. 8.5. 8.6.
Wzory K-R 20 i KR 21 Kudera i Richardsona ................................................................ Wzór Cronbacha...................................................................................................................... Podejście Hoyta ....................................................................................................................... Podejście Lorda i Novicka oraz Cronbacha, Gleser, Nandy i Rajaratnama................. Podejście Winera..................................................................................................................... Podejście Brzezińskiego .........................................................................................................
473 475 476 480 484 491
8.6.1. Uwagi krytyczne o dotychczasowych ujęciach problemu rzetelności testu . 8.6.2. Wskaźnik DT ............................................................................................................. 9. M e t o d y o p a r t e n a a n a l i z i e z w i ą z k u p o z y c j i t e s t o w y c h z o g ó l n y m w y n i k i e m t e s t u . . . . 9.1. W z ó r S p e a r m a n a - B r o w n a ....................................................................................................... 9.2. Wzór Gulliksena ................................................................................................................ 10. Metody oparte na badaniu stopnia zgodności sędziów kompetentnych (współczynnik W-Kendalla) ........................................................................................................................................ 11. Podsumowanie................................................................................................., .................................
491 493 499 499 500 500 50 5
■
Rozdział 16. Moc dyskryminacyjna pozycji testowych................................
507
1. Wprowadzenie.................................................................................................................................... 2. Trzy wskaźniki mocy dyskryminacyjnej pozycji testowych .......................................................
507 507
11
2.1. Współczynnik korelacji punktowo-czteropolowej — korzystanie z tablic Jurgensena 2.2. Współczynnik korelacji punktowo-dwyjnej ..................................................... 2.3. Współczynnik korelacji dwyjnej — korzystanie z tablic Flanagana (metoda dol nych i górnych 27% próby)..................................................................................... 2.4. Sprowadzanie pozycji wielokategorialnej do postaci dwukategorialnej (metoda Edwardsa-Kilpatricka) .................................................................................................. 3. Podsumowanie..................................................................................................................
507 509 510
Rozdział 17. Trafność..................................................................................
514
1. Wprowadzenie.................................................................................................................. 2. Cztery aspekty trafności.................................................................................................... 2.1. Trafność kryterialna................................................................................................. 2.2. Trafność treściowa (wewnętrzna)............................................................................. 3. Trafność teoretyczna (wg L. J. Cronbacha i P. E. Meehla) .............................................. 4. Aspekt zbieżny (konwergentny) i różnicowy (dyskryminatywny) trafności — analiza ma cierzy „wielu cech — wielu metod" D. T. Campbella i D. W. Fiskego .......................... 4.1. Aspekt zbieżny i aspekt różnicowy trafności ....................................................... 4.2. Metoda „klasyczna" analizy macierzy WCWM ..................................................... 4.3. Wykorzystanie wielowymiarowych modeli statystycznych do analizy macierzy WCWM.................................................................................................................... 5. Badanie trafności z wykorzystaniem modelu analizy czynnikowej (tzw. trafność czynniko wa) ................................................................................................................................. 6. Podsumowanie..................................................................................................................
514 516 517 519 520
511 513
525 525 527 530 532 534
Rozdział 18. Standaryzacja — obiektywność — normalizacja ...............
536
1. Wprowadzenie .................................................................................................................. 2. Standaryzacja i obiektywność testu................................................................................... 3. Skale standardowe oparte na modelu rozkładu normalnego.............................................. 3.1. Skala tenowa (7) ..................................................................................................... 3.2. Skala stenowa.......................................................................................................... 4. Porównanie skal standardowych........................................................................................ 5. Podsumowanie..................................................................................................................
536 537 539 539 541 543 545
Rozdział 19. Analiza profilów psychometrycznych — porównania intraindywidualne i interindywidualne..............................................................
548
1. Wprowadzenie .................................................................................................................. 2. Analiza intraprofilowa ...................................................................................................... 2.1. Wykaz stosowanych oznaczeń i wzorów pomocniczych ........................................ 2.2. Wykreślenie profilu otrzymanego (P) oraz profilu górnych (P-g) i profilu dolnych (P-d) granic przedziałów ufności.............................................................................. 2.3. Analiza dyspersji profilu — wskaźnik: G-D . . .".................................................... 2.4. Analiza odchyleń wyników poszczególnych testów (7i) od średniego profilu (P) — wskaźnik: Ti-P....................................................................................................... 2.4.1. Średnia obliczona z uwzględnieniem testu 71,................................................ 2.4.2. Średnia obliczona bez uwzględnienia testu 7",.............................................. 2.5. Ocena istotności różnic wyników dwóch testów: 7/ i Tj — wskaźnik: d(T, - 7}) . 3. Analiza interprofilowa ......................................................................................................
12
548 549 549 551 553 555 555 557 558 559
3.1. Współczynnik G-Holleya i Guilforda — testy dychotomiczne („0, 1") .................... 3.2. Współczynnik GT-Vegeiiusa — testy trychotomiczne („-1, 0, +1") ......................... 3.3. Współczynnik rsp-Vegeliusa dla testów o wynikach wyrażonych na skali dwubiegu nowej ...................................................................................................................... 3.4. Wykorzystanie współczynnika korelacji rangowej
559 562
568 568 571 574
Rozdział 20. Problemy adaptacji kulturowej testów.....................................
576
1. Wprowadzenie.................................................................................................................. 2. Czy testy psychologiczne powstałe w warunkach innej kultury powinny być poddane adap tacji kulturowej?............................................................................................................... 2.1. Dystynkcja: emic — etic ......................................................................................... 2.2. Czy możliwe jest skonstruowanie testu neutralnego kulturowo — problem testów: culture-free, culture-fair oraz culture-reduced .......................................................... 2.3. Znaczenie back translation ...................................................................................... 2.4. Transkrypcja — translacja — trawestacja — parafraza — rekonstrukcja................. 3. Sprawdzanie równoważności testów (wg R. Ł. Drwala).................................................... 4. Konteksty adaptacji kulturowej testów.............................................................................. 4.1. Kontekst teorii psychologicznej................................................................................ 4.2. Kontekst psychometryczny .................................................................................... 4.3. Kontekst celu .......................................................................................................... 4.4. Kontekst doświadczenia kulturowego osoby badanej ................................................ 4.5. Kontekst świadomości społecznej............................................................................. 4.6. Kontekst kwalifikacji zawodowych użytkownika testu.............................................. 4.7. Kontekst użycia....................................................................................................... 5. Podsumowanie..................................................................................................................
576
564 566
576 577 579 581 583 584 586 588 589 590 592 593 594 594 595
Podziękowania......................................................................................................
597
Nota bibliograficzna ............................................................................................
598
Dodatek A. Jak pisać raport z badań psychologicznych? ..........................
599
Dodatek B. Tablice statystyczne i psychometryczne ..............................
604
Tablica 1. Liczby losowe................................................................................................ Tablica 2. Dystrybuanta rozkładu normalnego................................................................. Tablica 3. Wartości krytyczne rozkładu t Studenta......................................................... Tablica 4. Wartości krytyczne rozkładu / ................................................................... Tablica 5. Wartości krytyczne rozkładu F Snedecora...................................................... Tablica 6a. Wartości krytyczne statystyki k' testu serii Walda-Wolfowitza ..................... Tablica 6b. Wartości krytyczne statystyki k" testu serii Walda-Wolfowitza ...................... Tablica 7. Wartości z odpowiadające danym wartościom r............................................. Tablica 8. Krytyczne wartości r ..................................................................................... Tablica 9. Współczynniki /-&, — tablice Flanagana.......................................................... Tablica 10. Współczynniki 0 — tablice Jurgensena ..................................................... Tablica 11 a. Wartości krytyczne S współczynnika zgodności W Kendalla ........................ Tablica llb. Wartości krytyczne S współczynnika zgodności W Kendalla .........................
606 615 617 619 627 637 638 639 643 645 649 661 661
Literatura..............................................................................................................
662
Wprowadzenie: dlaczego metodologia?
1. Różne rozumienia metodologii Zacznijmy od tego, że psychologia jest nauką i to nauką empiryczną. To na pozór banalne stwierdzenie ma jednak poważne konsekwencje zarówno dla samej psychologii jako dyscypliny naukowej, jak i dla tych, którzy chcą ją twórczo uprawiać, którzy chcą ją rozbudowywać rozwijając i tworząc nowe teorie (a jest to główne zadanie psychologii por. np. Schmidt, 1995, s. 25), rozbudowując jej instrumentarium (tzn. zastępując przestarzałe metody nowymi, bardziej precyzyjnymi i wprowadzając całkiem nowe metody), proponując nowe systemy interpretacyjne uzyskiwanych, za pomocą różnorakich metod, wyników badawczych. Mówiąc „nauka" mamy na myśli dwa sensy tego terminu: „termin «nauka» bywa dwojako rozumiany. Przy jednym jego rozumieniu nauka to tyle, co rzemiosło uczonych, czyli ogół czynności wykonywanych przez uczonych jako takich. Przy drugim rozumieniu terminu «nauka» określa się nim wytwór tych czynności, a więc system twierdzeń, do których uznania doszli uczeni w swym dążeniu do poznania rzeczywistości" (Ajdukiewicz, 1965, s. 173). Podobnie rozróżnia dwa sensy terminu „nauka" Kmita (1976, s. 93) pisząc: „istnieją, jak wiadomo, dwa podstawowe dla rozważań teoriopoznawczych sposoby pojmowania terminu: «nauka». Z jednej bowiem strony odnoszony jest on do określonego systemu czynności badawczych, z drugiej zaś strony stosuje się go do odpowiedniego zbioru założeń badań naukowych oraz ich rezultatów wyrażonych w postaci zdań". W pierwszym przypadku Kmita mówi o „praktyce badawczej", zaś w drugim pozostaje przy terminie „nauka". Nauka, dwojako rozumiana, jest przedmiotem zainteresowań metodologii. Metodologia dzieli się na (Ajdukiewicz, 1965, s. 174; Topolski, 1984, s. 14): (a) metodologię ogólną — traktującą o prawidłowościach rządzących proce sem poznawczym, wspólnych dla wszystkich nauk (np. klasyfikowanie, definiowa nie, wnioskowanie, wyjaśnianie itp.), (b) metodologię szczegółową (metodologie szczegółowe) — dotyczącą danej dyscypliny naukowej i zajmującą się charakterystycznymi dla tej właśnie dyscypli ny naukowej procedurami poznawczymi (np. planowanie eksperymentów w psy chologii czy budowa testów psychologicznych). 15
Badania nad działaniami poznawczymi (Nowak L„ 1977, s. 29) mogą być prowadzone w dwojaki sposób (Topolski, 1984, s. 14; Nowak S., 1985, s. 23; Kamiński, 1992, s. 43): (a) można dokonywać rekonstrukcji i opisu rzeczywistego postępowania ba dawczego osób zajmujących się nauką (tu: psychologów) i wówczas będziemy mówili o metodologii opisowej. Tak też pojmuje zakres zadań adresowanych do metodologii L. Nowak (1977, s. 29): „Traktuje ona (metodologia J. B.) o tym, w jaki sposób typowy uczestnik procesu poznawczego realizuje swoje cele. A zatem jakie środki stosuje, aby cele te osiągnąć. Rekonstrukcja i hierarchizacja tych celów oraz analiza tych środków (metod postępowania, procedur poznawczych) stanowi zadanie teorii działań poznawczych, albo inaczej, metodologii nauk. Mówiąc do kładniej, idzie tu o metodologię nauk empirycznych" (podkr. J. B.). Tak rozumiana metodologia, to metodologia opisowa. (b) można też wskazywać badaczom jak powinni postępować, aby zminima lizować błędy i zmaksymalizować osiągnięcia badawcze. Można tedy pojmować metodologię tak jak to czyni S. Nowak (1985, s. 24; także Ajdukiewicz, 1965, s. 175; Topolski, 1984, s. 14; Giedymin, 1962, s. 919, 1964, s. 17, 177). I tak, na przykład, S. Nowak tak formułuje zadania metodologii: „O tym jak te czynności (badawcze J. B.) realizować w sposób poprawny, mówią te reguły metodologiczne, których zasadność uznajemy. Kiedy reguły te stosujemy jako kryteria oceny nauki istniejącej lub jako normy własnego postępowania badawczego i wzorce pożąda nego kształtu jego wytworów, przechodzimy na teren metodologii pojmowanej w sposób normatywny. Tak uprawiana metodologia jest też nauką praktyczną, reguły jej mówią bowiem jak w poszczególnych przypadkach należy postępować, aby zrealizować określone — etapowe czy bardziej ogólne — cele procesu badawcze go" (Nowak S., 1985, s. 24). Tak rozumiana metodologia, to metodologia normatywna. Można z kolei zadać pytanie o źródła owych norm postępowania badawczego, które będzie poprawne1 z metodologicznego punktu widzenia. Na to pytanie udziela odpowiedzi cytowany już Ajdukiewicz (s. 175): „Normy poprawności procedury naukowej, które formułuje metodologia, nie są przez nią z góry dyktowane uczonym specjalistom. Normy te wyczytuje metodologia z praktyki specjalistów, którzy pewne pociągnięcia w robocie naukowej aprobują, a inne dezaprobują, odrzucając je jako nieudane. Lecz specjaliści, oceniając własne i cudze postępowanie naukowe, osądzają je w sposób zgodny z tymi normami, ale nie uświadamiają ich sobie na tyle wyraźnie, aby mogli z nich w sformułowaniu słownym zdać sprawę. Inaczej mówiąc, uczeni specjaliści mają wyrobione przez praktykę sumienie naukowe, ale nie zawsze zdają sobie wyraźnie sprawę z zasad, które głosem tego sumienia kierują. Skodyfikowanie zasad tego naukowego sumienia jest zadaniem metodologii (podkr. J. B.). Chciałbym w tej wypowiedzi wybitnego logika zaakcentować jedno „Metodologia nazywa mianowicie poprawnym w danej nauce takie postępowanie, które przyczynia się do osiągnięcia jej zadania, zaś niepoprawnym takie, które osiągnięciu tego zadania nie służy, a tym bardziej takie, które temu zadaniu przeszkadza" (Ajdukiewicz, 1965, s. 175).
16
określenie, a mianowicie: „naukowe sumienie". Tak bowiem, jak nieetyczne jest złe traktowanie przez psychologa-klinicystę powierzonego jego opiece terapeutycznej pacjenta, tak też nieetyczne jest prowadzenie badania naukowego bez gruntownej znajomości zasad regulujących to postępowanie badawcze. Po trzydziestu latach od daty publikacji Logiki pragmatycznej, do analogicznego stanowiska w kwestii ważności zasad metodologicznych doszedł psycholog, Rosenthal (1994), który też powiązał etyczność postępowania badacza z metodologiczną jakością prowadzonych przez niego badań — „zła nauka przyczynia się do złej etyki". I jeszcze jeden podział. Wyróżnia się (Nowak L., 1977, s. 29): (a) metodologię nauk empirycznych (psychologii, pedagogiki, fizyki, biologii, chemii itp.), (b) metodologię nauk formalnych (matematyki, logiki). W niniejszym podręczniku metodologia będzie rozumiana jako: (1) metodologia szczegółowa — bo dotycząca jednej dyscypliny, psychologii (albo jednej grupy dyscyplin nauk behawioralnych: psychologii, socjologii, peda gogiki); (2) metodologia normatywna — jest to podręcznik, który ma kształtować świadomość metodologiczną kandydatów na badaczy (czy młodych badaczy) czyli ma wskazywać wzorcowe rozwiązania warsztatowe, których akceptacja pozwoli im na uniknięcie błędów w prowadzonych badaniach empirycznych; (3) metodologia nauk empirycznych — bo psychologia jest nauką empiryczną. W tym podręczniku będę posługiwał się pierwszym rozumieniem terminu „nauka" (w sensie Kmitowej „praktyki badawczej"). Interesować mnie tedy będą osobliwości procesu badawczego w psychologii.
2. Dwa cele nauczania metodologii Czemu służy wiedza z zakresu metodologii badań psychologicznych? Jak sądzę, na to pytanie można udzielić dwóch uzupełniających się odpowiedzi. Po pierwsze, psychologowi (także studentowi psychologii) metodologia niezbędna jest do zrozumienia naukowych tekstów i procedur, z którymi zapoznaje się w trakcie lektury naukowych opracowań z zakresu psychologii, a zwłaszcza tych ich części, które zdają sprawozdanie z przeprowadzonych przez danego autora badań empirycznych. Psycholog-czytelnik nie powinien wierzyć autorowi „na słowo" i powinien umieć sformułować własną opinię na temat wartości poznawczej wyników, o których traktuje dane opracowanie. Do tego jednak niezbędna jest znajomość metodologii. Po drugie, psycholog (także student psychologii) powinien umieć: (1) samodzielnie zaprojektować badanie empiryczne, (2) samodzielnie je przeprowadzić, oraz (3) samodzielnie zinterpretować i uogólnić uzyskane wyniki. Aby było to możliwe musi on posiąść odpowiednie kompetencje metodologiczne. 17
Respektując powyżej wprowadzone rozróżnienie dwóch sposobów opanowania wiedzy metodologicznej będę mówił o: (a) biernej znajomości metodologii, (b) czynnej znajomości metodologii. Pisząc niniejszy podręcznik zwracałem uwagę, aby służył on zarówno tym (studenci pierwszych lat studiów), którzy wpierw chcą zrozumieć przekazywaną im wiedzę psychologiczną, pochodzącą wszak — przypominam, iż psychologia jest nauką empiryczną! — z badania empirycznego, zanim przejdą do jej wykorzystywania we własnej praktyce (diagnostycznej, terapeutycznej, profilaktycznej), jak i tym, którzy sami chcą wiedzę psychologiczną (naukową!) wzbogacać prowadząc samodzielne badania empiryczne — dla studentów taką pierwszą, poważną okazją będzie praca magisterska, a dla słuchaczy studiów doktoranckich będzie to praca doktorska.
2.1. Znajomość bierna Mówiąc o biernej znajomości metodologii mam na myśli trzy zasadnicze konteksty korzystania z wiedzy metodologicznej dotyczącej standardów prowadzenia badań empirycznych w psychologii (i dyscyplinach pokrewnych): (a) kontekst studiowania, ze zrozumieniem, literatury psychologicznej, (b) kontekst poprawnego wykorzystania, w praktyce psychologicznej, rezulta tów badawczych zaczerpniętych z literatury przedmiotu, (c) kontekst umiejętnego formułowania pytań adresowanych do specjalistów z zakresu metodologii i statystyki. Kontekst (a). Już na pierwszym roku studiów psychologicznych student zobowiązany jest do lektury nie tylko pisanych z myślą o nim elementarnych skryptów, ale także fragmentów poważnych książek i artykułów drukowanych w profesjonalnych czasopismach naukowych. Udział tych ostatnich w zestawach lektur wzrasta wraz z przechodzeniem studenta na wyższe lata studiów i — w zasadzie — nie podlega żadnym ograniczeniom w okresie przygotowywania przez niego pracy magisterskiej (ta zaś powinna być pracą naukową i empiryczną — wszak pisana jest na uniwersytecie, a to zobowiązuje do uszanowania podstawowych wartości, którym wierni są „ludzie uniwersytetu", por. Brzeziński, 1994, 1996; także rozdz. 6., pkt. 3.). Chcąc czytać, ze zrozumieniem, teksty naukowe z psychologii, zwłaszcza te referujące przebieg badań empirycznych oraz prezentujące wyniki tych badań, Czytelnik powinien umieć rozszyfrować specjalistyczne-terminy, symbole i wzory. Powinien wyrobić sobie krytyczny sąd na temat zastosowanej przez autora danego artykułu procedury badawczej, narzędzia pomiarowego, techniki doboru próby, zastosowanych testów statystycznych i współczynników korelacji. Bo co przeciętnemu nie-psychologowi mówią takie zwroty: „badanie empiryczne przeprowadzono wg modelu ex post facto", „eksperyment przeprowadzono zgodnie z planem So18
lomona", „w badaniu kontrolowano efekt pretestu" "współczynnik rzetelności testu (stabilność bezwzględna) wynosi: rn = 0,86", „trafność treściową kwestionariusza badano...'1, „współczynnik zgodności sędziów W-Kendalla wyniósł: W - 0,72", „interakcja zmiennych A i B okazała się istotna na poziomie p < 0,01", „do testowania hipotezy HQ: p - 0 posłużono się testem /", ,,/2 = 12,34; df = 1; p < 0,001 (test dwustronny)"? Zapewne niewiele! Oczywiście, zawsze można trudne momenty w tekście opuścić i czytać tylko to, co napisane „ludzkim" językiem (bez tych wszystkich utrudnień technicznych). Tylko — rodzi się pytanie — czy takie czytanie można nazwać studiowaniem literatury przedmiotu? Czy można mówić, że się zrozumiało dany tekst naukowy z psychologii, jeżeli nie zrozumiało się istotnych jego elementów? Czy można polegać jedynie na tym, co sam o swoim wytworze napisał autor (jeżeli, przykładowo, napisał on o zastosowanym przez siebie teście uzdolnień matematycznych, że jego rzetelność wyniosła rlt = 0,55 i że była ona wysoka, gdy faktycznie, w przypadku testów uzdolnień nie jest ona nawet wystarczająca)? Moja odpowiedź — nie! Zatem, tak samo ważne jest studiowanie teorii psychologicznych, jak i studiowanie metodologii ułatwiającej dokonanie krytycznej oceny ich „dobroci". Kontekst (b). Jeżeli psycholog zdołał opanować takie kwantum wiedzy metodologicznej, że może dokonać oceny wartości metodologicznej teorii psychologicznych, o większym lub mniejszym zasięgu, opisanych w naukowych monografiach i periodykach, to jest też gotowy do wykorzystania tych teorii w swojej praktyce psychologicznej. Psycholog nie powinien bezkrytycznie zawierzyć, na słowo, autorowi danego opracowania, że przedstawiona przez niego koncepcja rzeczywiście zasługuje na miano teorii empirycznej w sensie kryteriów metodologicznych. Zbyt wiele pojawia się opracowań, nieraz pod bardzo nęcącymi tytułami, które prezentują koncepcje (świadomie unikam terminu „teoria", gdy nie ma pewności co do rzeczywistego statusu teoriopoznawczego takich „produktów") nie sprawdzone w przyjęty w społeczności psychologów-badaczy sposób, jeśli oferowane przez autorów takich opracowań metody diagnostyczne nie spełniają określonych standardów ujętych w swoistym kodeksie obowiązującym psychologa konstruującego i stosującego metody diagnostyczne (np. APA, 1985a, 1985b). Zanim tedy psycholog sięgnie po taką koncepcję, winien się wpierw upewnić, czy rzeczywiście zasługuje ona na miano „teorii" i czy jako taka może stać się podstawą do wykorzystania w rozwiązaniu określonego problemu praktycznego (piszę o tym szczegółowo w rozdz. 2.), a dopiero potem przystąpić do wyprowadzenia z jej twierdzeń dyrektyw praktycznego działania. Uważam, że nie sposób odpowiedzialnie przystąpić do samodzielnego (a więc twórczego, a nie tylko odtwórczego, przypominającego pracę inżyniera konstruującego jakieś urządzenie techniczne na podstawie szczegółowego planu ujętego w licencji) zastosowania czyjejś koncepcji w celu usprawnienia własnej praktyki psychologicznej bez dobrej znajomości metodologii. Metodologia dostarcza bowiem psychologowi ostrych kryteriów umożliwiających oddzielenie ziaren od plew. Kontekst (c). Tak, jak od psychologa-praktyka oczekuje się, że rozwiązując trudny problem zawodowy (z zakresu diagnostyki czy terapii) zwróci się o pomoc 19
do specjalisty, który legitymuje się bogatszym od niego doświadczeniem zawodowym oraz gruntowniej szą wiedzą teoretyczną, tak od psychologa-badacza (zwłaszcza dopiero stawiającego pierwsze samodzielne kroki badawcze) oczekuje się, iż będzie zwracał się on o pomoc do specjalisty — metodologa, psychometry czy statystyka. Nie przynosi mu ujmy to, że czegoś nie wie. Gwałtowny rozwój metodologii badań empirycznych (także komputeryzacja psychometrii i statystyki) uniemożliwia — zwłaszcza psychologowi, który musi śledzić rozwój wiedzy w zakresie swojej specjalizacji — dotrzymywanie kroku specjalistom z zakresu metodologii, którzy tylko nią się profesjonalnie zajmują. Przynosi natomiast ujmę (powiem ostrzej — dyskwalifikuje go jako badacza!) postawa nieujawniania swojej niewiedzy metodologicznej w obawie przed utratą swoiście pojmowanego prestiżu zawodowego (Rosenbergowski „lęk przed oceną"). Zatem można sformułować dyrektywę dla wszystkich psychologów (a zwłaszcza dla tych, którzy debiutują w roli badaczy) — w miarę możliwości konsultuj projekty badawcze ze specjalistą z zakresu metodologii, psychometrii i statystyki. Ale żeby efektywnie z takiej pomocy specjalistycznej skorzystać, trzeba umieć zadawać pytania. Do tego zaś niezbędne są pewne minimalne kompetencje metodologiczne. Chodzi bowiem o wysławianie się w języku zrozumiałym dla specjalisty i chodzi też o to, aby zrozumieć to, co nam specjalista powie. Nie możemy, tak po prostu, pokazać zbioru danych i powiedzieć — „proszę nam to jakoś obliczyć". Na tak sformułowaną prośbę, przy całej życzliwości specjalisty do nas, trudno oczekiwać wartościowej odpowiedzi. Żeby zaś zadać pytanie sensownie, trzeba wpierw opanować język, w którym takie pytanie będzie zadane. Tym językiem jest język metodologii. Wypada się tedy zgodzić z S. Nowakiem (1985, s. 35), który pisze, że: „specjalista w swej dziedzinie nauki to człowiek, który nie tylko umie znajdować odpowiedzi na pytania, lecz także pytania te poprawnie formułować". Pamiętajmy, że od metodologa nie możemy oczekiwać, iż rozwiąże on nam nasz problem badawczy, gdyż nie jest on psychologiem klinicznym czy psychologiem społecznym. Nie ma on obowiązku — nawet jako metodolog-psycholog — znać problematyki teoretycznej (psychologicznej) równie dobrze, jak psycholog specjalizujący się w danym zagadnieniu. Nie. Natomiast na badaczu-psychologu spoczywa obowiązek znajomości metodologii w takim zakresie, który umożliwi nie tylko zadanie sensownych pytań specjaliście z zakresu metodologii czy statystyki, ale także zrozumienie tego co nam ów specjalista odpowie. I to jest ten kontekst umiejętnego formułowania pytań.
2.2. Znajomość czynna Czynna znajomość metodologii badań psychologicznych obejmuje cztery konteksty: (a) kontekst prowadzenia własnych badań empirycznych, (b) kontekst integrowania rezultatów badawczych powstałych w różnych pra cowniach, (c) kontekst powtarzania (replikacji) badań empirycznych, ■
20
(d) kontekst psychologii badania empirycznego (psychologicznego!) i etyki zachowań badawczych psychologa. Kontekst (a). Na ogół mówiąc o nauczaniu metodologii (zwłaszcza rozumianej, tak jak w niniejszym podręczniku — normatywnie) myślimy o tym, że słuchacz naszych wykładów czy czytelnik naszego podręcznika wykorzysta przyswojoną wiedzę z zakresu metodologii do prawidłowego przeprowadzenia badań empirycznych. I rzeczywiście jest to główny cel wykładu metodologii — nie tylko tego, który zawarty jest w niniejszym podręczniku. Przecież to, jaka będzie psychologia jako nauka — zależy przede wszystkim od tego, jaka będzie świadomość metodologiczna społeczności psychologów, a więc jakie będą kompetencje metodologiczne psychologów-badaczy. I taki jest kontekst (bodajże najważniejszy) znajomości metodologii. Idealny psycholog, to taki, który nie tylko zna teorie psychologiczne, umie posłużyć się nimi w procesie diagnostycznym i terapeutycznym, ale także potrafi samodzielnie przeprowadzić badanie empiryczne, w którym poddane będą kontroli empirycznej jego oryginalne pomysły teoretyczne. Rzecz jasna, realnemu psychologowi dość daleko do typu idealnego. Nic jednak nie stoi na przeszkodzie, aby usiłować zbliżać się do tego ideału, czemu sprzyja między innymi zwiększanie kompetencji metodologicznych psychologa. Pamiętajmy, że nawet najbardziej oryginalnie brzmiąca i obiecująca pod względem potencjalnych zastosowań „teoria" jest niewiele warta, jeżeli nie będzie ona poddana surowemu testowi empirycznemu. Aby zaś taki test teorii przeprowadzić, niezbędna jest bardzo pogłębiona wiedza z zakresu metodologii badań psychologicznych. Mam nadzieję, że Czytelnik, który sięgnął po niniejszy podręcznik będzie w stanie poradzić sobie w problemowej sytuacji badania empirycznego. Kontekst (b). Znajomość metodologii jest pomocna także wówczas, gdy chcemy dokonać integracji wyników badań tego samego problemu, prowadzonych przez różnych badaczy, w określonym przedziale czasu. Takie zestawienia rezultatów badawczych są ostatnio prowadzone z wykorzystaniem nowoczesnych metod tzw. metaanalizy (ang. meta-analysiś). Jednym z bardziej reprezentatywnych i wyczerpujących ujęć tej nowoczesnej metody integracji danych empirycznych jest licząca prawie 600 stron monografia Huntera i Schmidta (1990; por. także: Rosenthal, 1991c). Schmidt (1995), autor jedynego dostępnego w języku polskim opracowania na temat metaanalizy, wskazuje na następujące zalety tej nowej, zaawansowanej metody analizy danych i tworzenia nowych teorii: „Niektórzy twierdzą, że metaanaliza nie jest niczym więcej niż nową, ilościową metodą prowadzenia przeglądów literatury (Guzzo, Jackson i KatzelL 1986). Gdyby tak faktycznie było, jej oddziaływanie byłoby w pełni oceniane jedynie poprzez sprawdzanie różnic we wnioskach płynących z metaanalitycznych versus tradycyjnych przeglądów literatury. Różnice te są istotne, -wskazują bowiem, że wnioski z przeglądów opisowych, opartych na tradycyjnych procedurach testów statystycznej istotności, są często błędne. Niemniej jednak, metaanaliza to coś znacznie więcej niż nowa metoda dokonywania przeglądów. (...) Metaanaliza wyjaśnia krytyczną rolę błędu próby, błędu pomiaru oraz innych artefaktów w determinowaniu obserwowanych rezultatów oraz mocy statystycznej poszczególnych badań. W
ten sposób metaanaliza ujawnia, jak niewiele informacji zawartych jest w pojedynczym badaniu, co dowodzi, inaczej niż głosi to powszechnie przyjęty pogląd, że żadne jednostkowe badanie nie jest w stanie rozwiązać danej kwestii czy znaleźć odpowiedzi na dane pytanie. (...) Dlatego każde pojedyncze badanie musi być rozważane jako pojedynczy element danych stanowiących wkład do przyszłej metaanalizy". Przykładu integracji danych rozproszonych w różnych opracowaniach dostarcza praca Rosenthala i Rubina (1978), zestawiająca rezultaty 345 studiów empirycznych nad efektem oczekiwań interpersonalnych. W podręczniku podstaw metodologii badań psychologicznych nie znalazło się miejsce na przedstawienie tej nowej metody zaawansowanej analizy danych. Niemniej jednak, Czytelnik, który przejdzie przez podstawowy kurs metodologii będzie przygotowany do podjęcia wysiłku doskonalenia swoich kompetencji metodologicznych. To tak, jak z teorią eksperymentu. Najpierw wystarczyła znajomość zasad eksperymentowania, wyprowadzonych z kanonów Millowskich (por. rozdz. 12.), poparta znajomością prostych testów istotności statystycznej różnic. Później trzeba było opanować zasady eksperymentowania oparte na statystycznym modelu jednowymiarowej analizy wariancji ANOVA (np. w zakresie podręcznika Brzezińskiego i Stachowskiego, 1984), aby przejść do eksperymentowania opartego na modelu wielowymiarowej analizy wariancji MANOVA (por. Aranowska, 1987), połączonego z metodą analizy ścieżek (ang. path analysis — por. Gaul, Machowski, 1987). A co trzeba będzie opanować jutro, aby prowadzone badania empiryczne nie odstawały od coraz bardziej wyśrubowanych standardów metodologicznych, bez spełnienia których nie można liczyć na opublikowanie artykułu w prestiżowych pismach naukowych? Kontekst (c). Znajomość metodologii jest przydatna także w sytuacji, gdy badacz chce dokonać replikacji badania empirycznego przeprowadzonego przez innego psychologa i opisanego w literaturze przedmiotu. Nie zawsze dane badanie jest powtarzane ze 100% odtworzeniem oryginalnych warunków. Czasem nowe badanie prowadzone jest ze zmianami scenariusza badania, albo w odmiennych warunkach kulturowych. Bywa też i tak, że badacz powtarza dane badanie, ale z użyciem nowych, bardziej precyzyjnych narzędzi badawczych. Psychologia jest — przez przedmiot swoich badań (jest nim żywy człowiek) i psychologiczny charakter badania psychologicznego (osoba badana wchodzi z badaczem w interakcję!) — na tyle osobliwą dyscypliną naukową (por. Rosenzweig, 1933), że trudno osiągnąć pełny sukces w powtarzaniu już przez kogoś przeprowadzonych badań (zwłaszcza w eksperymentalnej psychologii społecznej czy psychologii osobowości). Zagrożeniem dla pełnej replikowalności badań psychologicznych są takie zmienne, jak: oczekiwania interpersonalne badacza, wskazówki sugerujące osobie badanej treść hipotez badawczych, lęk przed oceną, status motywacyjny osoby badanej itp. (o tych zmiennych traktuje rozdz. 4.). Wreszcie, badacz może chcieć powtórzyć czyjeś badania, aby upewnić się, czy rzeczywiście dany efekt eksperymentalny wystąpił. Kompetencje metodologiczne wymagane od badacza przystępującego do replikacji jakichś badań są takie same, jak przy przeprowadzaniu badań oryginalnych (kontekst (a)). 22
Problematyce replikacji badań empirycznych w naukach społecznych poświęcony jest zbiór kilkudziesięciu artykułów zredagowany przez Neuliepa (1991). Zachęcam do jego lektury. Kontekst (d). Już zaznaczyłem, iż osobliwością badań empirycznych prowadzonych przez psychologów jest to, że wchodzą oni, jako badacze, w interakcję z osobami badanymi, co ma poważne konsekwencje metodologiczne (wyniki badań empirycznych mogą się różnić z powtórzenia na powtórzenie) oraz etyczne (nie wszystko, co technicznie wykonalne, możliwe jest do przeprowadzenia, gdyż nie pozwalają na to zasady etyczne). Stoję na stanowisku, że podnosząc swoje kwalifikacje metodologiczne badacz — jako psycholog! — nie może stać się tylko bezdusznym „dodatkiem" do komputera, aparatury ekspozycyjno-pomiarowej oraz testów psychologicznych. Na nim, jako człowieku i członku społeczności psychologicznej (np. Polskiego Towarzystwa Psychologicznego), spoczywa szczególna odpowiedzialność za to, jak będzie się czuła osoba badana (a zwłaszcza dziecko czy osoba chora), która mu zaufała i zgodziła się wziąć udział w prowadzonych przez niego (i niekoniecznie przyjemnych) badaniach. Można tu powtórzyć za wybitnym psychologiem społecznym, Aronsonem (1995, s. 513): „...osoby badane w eksperymentach powinny być zawsze chronione". I nie mogę zaakceptować stanowiska zajętego przez Zimbardo, autora głośnych badań (Stanfordzki eksperyment więzienny — por. Zimbardo, 1973; także dobre omówienie w: Eysenck, Eysenck, 1996, rozdz. 5.: Eksperymentalna symulacja więzienna, s. 59-68), który zapytany, czy powtórzyłby swój eksperyment powiedział: „...przeprowadziłbym ten eksperyment. (...) Jeżeli jednak wprowadzimy zakaz prowadzenia badań budzących jakiekolwiek wątpliwości etyczne lub kontrolowanych eksperymentów, oznaczać to będzie, że pewnych obszarów natury ludzkiej nigdy nie poznamy" (McDermott, 1995, s. 6). Oczywiście to badacz sam zdecyduje, jakie zajmie stanowisko w kwestii ochrony praw osoby badanej do informacji (pełnej) i swobody decydowania co do udziału w badaniu psychologicznym. Niemniej jednak warto, mówiąc o sprawach warsztatu badawczego psychologii, nie zapomnieć i o osobie badanej. Zagadnieniom psychologii i etyki badań psychologicznych poświęcone są w niniejszym podręczniku aż trzy rozdziały — rozdz. 4., 5. i 6.
3. Podstawowa literatura z zakresu metodologii badań psychologicznych i dyscyplin pokrewnych Po każdym z rozdziałów, w Podsumowaniu, Czytelnik znajdzie informacje o podstawowych, dostępnych w języku polskim, tekstach — i tych o charakterze podręcznikowym, i tych bardziej zaawansowanych, których lektura, ze zrozumieniem^.), wymaga co najmniej znajomości treści danego rozdziału. Także zamieszczona na końcu podręcznika literatura cytowana (książki i artykuły) może okazać 23
się pomocna dla kogoś, kto zechciałby pogłębić swoje wiadomości z metodologii. Tam znajdzie też Czytelnik literaturę obcojęzyczną. Tutaj zaś chciałbym zwrócić uwagę na pozycje książkowe, dostępne w języku polskim, najbardziej podstawowe dla pogłębienia wiadomości z metodologii badań psychologicznych i dyscyplin pokrewnych. 1. Podstawy logiczne badań naukowych Ajdukiewicz K. (1965), Logika pragmatyczna, Warszawa, PWN. Batóg T. (1994), Podstawy logiki, Poznań, Wyd. Nauk. UAM. Giedymin J. (1964), Problemy, założenia, rozstrzygnięcia, Poznań, PTE. Kmita J. (1973), Wykłady z logiki i metodologii nauk, Warszawa, PWN. Marciszewski W. (red.)(1988). Mała encyklopedia logiki, Wrocław, Ossolineum. Pawłowski T. (1986), Tworzenie pojęć i definowanie w naukach humanistycznych, Warszawa, PWN. Ziembiński Z. (1995), Logika praktyczna, Warszawa, Wyd. Nauk. PWN. 2. Metodologia ogólna Amsterdamski S. (1983a), Między historią a metodą, Warszawa, PIW. Amsterdamski S. (1983b), Nauka a porządek świata. Warszawa, PWN. Feyerabend P. K. (1979), Jak być dobrym empirystą?. Warszawa, PWN. Hempel C. G. (1968), Podstawy nauk przyrodniczych, Warszawa, WNT. Kamiński S. (1992), Nauka t metoda. Pojęcie nauki i klasyfikacja nauk, Lublin, Tow. Nauk. KUL. Kmita J. (1976), Szkice z teorii poznania naukowego, Warszawa, PWN. Kuhn T. S. (1968), Struktura rewolucji naukowych. Warszawa, PWN. Kuhn T. S. (1985), Dwa bieguny. Tradycja i nowatorstwo w badaniach naukowych. Warszawa, PIW. Lakatos I. (1995), Pisma z filozofii nauk empirycznych, Warszawa, Wyd. Nauk. PWN. Nagel E. (1970), Struktura nauki. Warszawa, PWN. Nowak L. (1977), Wstęp do idealizacyjnej teorii nauk. Warszawa, PWN. Popper K. R. (1977), Logika odkrycia naukowego, Warszawa, PWN. Popper K. R. (1992), Wiedza obiektywna. Ewolucyjna teoria epistemologiczna. Warszawa, Wyd. Nauk. PWN. Siemianowski A. (1976), Poznawcze i praktyczne funkcje nauk empirycznych, Warszawa, PWN. Such J. (1975), Problemy weryfikacji wiedzy. Warszawa, PWN. 3. Metodologia badań psychologicznych i pokrewnych Brzeziński J., Siuta J. (red.)(1991), Społeczny kontekst badań psychologicznych i pedagogicznych. Wybór tekstów, Poznań, Wyd. Nauk. UAM. Gaul M. (1990), Idealizacyjne modele poznania naukowego w psychologii, Warszawa-Poznan, PWN. Jakubowska U. (1993), Czynności badawcze w psychologii i pedagogice. Zarys problematyki, Bydgoszcz, Wyd. WSP. Maruszewski T. (1983), Analiza procesów poznawczych jednostki w świetle idealizacyjnej teorii nauki, Poznań, Wyd. Nauk. UAM. Nowak S. (red.)(1965), Metody badań socjologicznych. Wybór tekstów. Warszawa, PWN. Nowak S. (1985), Metodologia badań społecznych, Warszawa, PWN. Paszkiewicz E. (1983), Struktura teorii psychologicznych, Warszawa, PWN. Topolski J. (1984), Metodologia historii, Warszawa, PWN. Zamiara K. (1974), Metodologiczne znaczenie sporu o status poznawczy teorii. Warszawa, PWN. Zamiara K. (1995), Dynamika pojęć i programów psychologicznych. Szkice metodologiczne. Szczecin, Wyd. Fundacja im. Kazimierza Ajdukiewicza na rzecz Rozwoju Nauk Filozoficznych. 24
4. Eksperyment, pomiar, psychometria, statystyka Amerykańskie Towarzystwo Psychologiczne, APA (1985), Standardy dla testów stosowanych w psychologii i pedagogice, Warszawa, Poi. Tow. Psychol., Lab. Technik Diagnostycznych, „Biblioteka Psychologa Praktyka", tom 1. Bielą A. (1992), Skalowanie wielowymiarowe jako metoda badań naukowych, Lublin, Tow. Nauk. KUL. Blalock H. M. (1975), Statystyka dla socjologów, Warszawa, PWN. Brzeziński J. (red.)(1977), Wielozmiennowe modele statystyczne w badaniach psychologicznych, Warszawa, PWN. Brzeziński J. (red.)(1984). Wybrane zagadnienia z psychometrii i diagnostyki psychologicznej, Poznań, Wyd. Nauk. UAM. Brzeziński J. (red.)(1988). Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych, Warszawa, Poi. Tow. Psychol., Lab. Technik Diagnostycznych, „Biblioteka Psychologa ■ Praktyka", tom 2. Brzeziński J. (red.)(1993), Psychologiczne i psychometryczne problemy diagnostyki psychologicznej, Poznań, Wyd. Nauk. UAM. Brzeziński J. (red.)(1995), Z zagadnień diagnostyki psychologicznej', Poznań, Wyd. Fundacji Humaniora. Brzeziński J., Hornowska E. (red.)(1993a), Z psychometrycznych problemów diagnostyki psychologicznej, Poznań, Wyd. Nauk. UAM. Brzeziński J., Hornowska E. (red.)(1993b), Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej. Warszawa, Wyd. Nauk. PWN.
Brzeziński J., Stachowski R. (1984), Zastosowanie analizy wariancji w eksperymentalnych badaniach psychologicznych, Warszawa, PWN. Domański Cz. (1979), Statystyczne testy nieparametryczne. Warszawa, PWE. Drwal R. Ł. (1995)., Adaptacja kwestionariuszy osobowości. Warszawa, Wyd. Nauk. PWN. Góralski A. (1980), Metody opisu i wnioskowania statystycznego w psychologii i pedagogice. Warszawa, PWN.
Greń J. (1987), Statystyka matematyczna. Podręcznik programowany. Warszawa, PWN. Horaowska E. (1989), Operacjonalizacja wielkości psychologicznych. Założenia — struktura — konsekwencje, Wrocław, Ossolineum. Kozielecki J. (red.)(197]), Problemy psychologii matematycznej, Warszawa, PWN. Machowski A. (1993), Rzetelność testów psychologicznych. Dwa ujęcia modelowe, Warszawa-Poznań, Wyd. Nauk. PWN. Matczak A. (1994), Diagnoza intelektu. Warszawa, Wyd. Inst. Psychol. PAN. Magnusson D. (1991), Wprowadzenie do teorii testów. Warszawa, PWN. Marek T. (1989), Analiza skupień w badaniach empirycznych. Metody SAHN, Warszawa, PWN. Niemierko B. (1990), Pomiar sprawdzający w dydaktyce. Teoria i zastosowania. Warszawa, PWN. Nowakowska M. (1975), Psychologia ilościowa z elementami naukometrii, Warszawa, PWN. Paluchowski Wl. J. (1983), Z zagadnień diagnostyki osobowości, Wrocław, Ossolineum. Paluchowski Wl. J. (1991), Diagnozowanie osobowości. Testowanie — interpretacja — interwencja, Poznań, Wyd. Nauk. UAM i Nakom. Paluchowski Wl. J. (red.)(1992), Współczesne techniki badawcze w psychologii klinicznej, Warszawa, Poi. Tow. Psychol., Lab. Technik Diagnostycznych, „Biblioteka Psychologa Praktyka", tom 2. Paszkiewicz E., Szustrowa T. (red.)(1985). Metody badań psychologicznych, „Materiały do nauczania psychologii", seria III, tom 4., Warszawa, PWN. Pawłowski Z. (1972), Wstęp do statystycznej metody reprezentacyjnej, Warszawa, PWN. Seul S. (1995), Oczekiwania nauczyciela a wyniki nauczania, Szczecin, Wyd. Uniwersytetu Szczecińskiego. Sosnowski T.. Zimmer K. (Eds.)(1993), Metody psychofizjologiczne w badaniach psychologicznych. Warszawa, Wyd. Nauk. PWN. Sułek A. (1975), Eksperyment w badaniach społecznych, Warszawa, PWN.
25
Wieczorkowska-Siarkiewicz G. (1987), Skalowanie wielowymiarowe jako metoda badania percepcji. Warszawa, Wyd. Uniwersytetu Warszawskiego. Zakrzewska M. (1994), Analiza czynnikowa w budowaniu i sprawdzaniu modeli psychologicznych, Poznań, Wyd. Nauk. UAM. 5. Etyka badania naukowego Bernard J. (1994), Od biologii do etyki. Nowe horyzonty wiedzy, nowe obowiązki człowieka. Warszawa, Wyd. Nauk. PWN. Brzeziński J., Poznaniak W. (red.)(1994), Etyczne problemy działalności badawczej i praktycznej psychologów, Poznań, Wyd. Fundacji Humaniora. Goćkowski J., Kisiel P. (red.)(1994). Patologia i terapia tycia naukowego, Kraków, Universitas. Goćkowski J., Pigoń K. (red.)(1991), Etyka zawodowa ludzi nauki, Wrocław, Ossolineum. Komitet Etyki w Nauce PAN (1994), Dobre obyczaje w nauce. Zbiór zasad i wytycznych, Warszawa. Polskie Towarzystwo Psychologiczne (1992), Kodeks etyczno-zawodowy psychologa. Warszawa, PTP.
natura procesu badawczego w psychologii
. część I
Rozdział i. Struktura procesu badawczego w psychologii
1. Wprowadzenie „Najogólniej mówiąc podstawowym przedmiotem psychologii — jak pisze nestor polskiej psychologii profesor Tadeusz Tomaszewski w najbardziej popularnym w Polsce podręczniku akademickim psychologii (1975, s. 8)' —jest człowiek i jego zachowanie się. Obydwa elementy tego określenia są ściśle ze sobą związane: kiedy mówimy o psychologii jako nauce o człowieku, to interesujemy się nim głównie jako podmiotem zachowania się; kiedy zaś mówimy o psychologii jako nauce o zachowaniu się, to mamy na myśli przede wszystkim najwyższe, specyficznie ludzkie formy zachowania się". Nie tylko psychologia uczyniła z człowieka i jego zachowania przedmiot swoich badań. Ale to właśnie psychologia wyróżnia się spośród tych dyscyplin naukowych tym, że: „...jej właściwym przedmiotem staje się coraz wyraźniej zachowanie najwyżej zorganizowane, jakim jest zachowanie się celowe, ukierunkowane na osiągnięcie określonego stanu końcowego, które jest jego wynikiem. Tę formę zachowania się nazywamy w języku polskim czynnością, a jeśli chcemy podkreślić, że czynności człowieka mają swój przedmiot, na który są skierowane i który pod ich wpływem podlega zmianom, mówimy o działaniu lub o czynnościach przedmiotowych" (tamże, s. 9). Konsekwencją takiego rozumienia psychologii jest podana, w tym samym podręczniku, jej definicja (tamże, s. 9): „Psychologia jest to nauka o czynnościach człowieka i o człowieku jako ich podmiocie" Tak określony przedmiot nadaje specyficzny sens ogólnym schematom metodologicznym, wedle których badacze-psychologowie stawiają pytania badawcze Psychologia pod redakcją Tomaszewskiego miała do 1992 roku aż sześć wydań. Od 1992 roku ukazały się dwa wydania nowej edytorsko wersji tego podręcznika w czterech tomach: tom 1. J. Kozielecki: Percepcja, myślenie, decyzje; tom 2. J. Reykowski: Emocje, motywacje, osobowość; tom 3. I. Kurcz: Pamięć, uczenie się, język; tom 4. J. Strelau: Temperament, inteligencja. Całość nosi tytuł Psychologia ogólna i jej redaktorem naukowym pozostał T. Tomaszewski.
29
(problemy), formułują prawdopodobne na nie odpowiedzi (hipotezy), dokonują pomiaru interesujących ich zmiennych i — wreszcie — sprawdzają zgodność sformułowanych hipotez badawczych z danymi doświadczenia. Mówiąc krótko, stosowane procedury badawcze muszą uwzględniać fakt, iż przedmiotem badania nie jest metal, minerał, promieniowanie, ale człowiek i jego zachowanie się. Dlatego też nie będzie, ani w tym rozdziale, ani w całej książce, mowy o sztuce prowadzenia badań naukowych w ogóle, ale wyłącznie o sztuce prowadzenia naukowych badań psychologicznych. Niemniej jednak trzeba zacząć od ukazania ogólnego schematu poznania naukowego, aby poprzez jego uszczegółowienie dojść do takiego schematu, wedle którego Czytelnik będzie mógł przeprowadzać badania mające na celu rozwiązanie określonych problemów naukowych należących do psychologii. Zacznę tedy od zaprezentowania celów poznania naukowego, aby z kolei przejść do naszkicowania ogólnego schematu poznania naukowego. Następnie przedstawię proces badawczy w postaci łańcucha następujących po sobie ogniw (etapów, kroków, faz). Wreszcie, w ostatnim punkcie niniejszego rozdziału zapoznam Czytelnika z własnym ujęciem procesu badawczego w psychologii. Mówiąc jeszcze inaczej, nowe ujęcie procesu badawczego w psychologii, które tu zostanie przedstawione, będzie stanowiło swoistą ramę konstrukcyjną całego wykładu metodologii badań psychologicznych.
2. Cele poznania naukowego — zewnętrzne i wewnętrzne Nie każde poznanie może być uznane za poznanie naukowe. Aby można je było za takie uznać, musi ono realizować określone cele. Za Suchem (1973, s. 16) można wyróżnić dwa rodzaje celów: zewnętrzne i wewnętrzne: „cele zewnętrzne wynikają z funkcji, jakie pełni nauka w społeczeństwie, w życiu ludzi, a więc «na zewnątrz», gdy jest stosowana do realizacji pewnych zadań teoretycznych lub praktycznych. Cele wewnętrzne — to cele — jakie sobie uczony zwykle stawia bezpośrednio w swej pracy badawczej, cele czysto poznawcze". Zwykło się mówić, iż każdy badacz zmierza do tego, by poznać prawdę, by dać prawdziwy obraz tego wycinka rzeczywistości, który bada. Byłaby tedy prawda celem najgłówniejszym poznania naukowego. Myślę, że trafnie ujął to znany filozof krakowski Wl. Stróżewski, gdy pisał następujące słowa: „Gdy św. Augustyn, po długich poszukiwaniach, znalazł wreszcie zadowalającą go odpowiedź na pytanie, czym jest szczęście, sformułował ją następująco: beata ąuippe vita est gaudium de veritate (życie szczęśliwe to radowanie się z prawdy). Myślę, że odpowiedź ta musi z konieczności odnosić się do życia człowieka nauki. Nie ma większej radości niż radość znalezienia prawdy. I nie ma większej troski nad to, by to, co znajdowane, było istotnie prawdą" (Stróżewski, 1991, s. 72).
Jednakże nie każda prawda jest celem badacza. Taka, która go interesuje (powinna interesować!), cechuje się: (1) ogólnością, (2) ścisłością, (3) wysoką informatywną zawartością, (4) pewnością, (5) prostotą. Mimo pozornej niemożności realizacji wszystkich pięciu celów jednocześnie, przy bliższej ich analizie metodologicznej okazuje się, że nie tylko są one ściśle ze sobą powiązane, ale też wzajemnie warunkują się. Nie jest to widoczne na pierwszy rzut oka, gdyż związki między wyróżnionymi celami mają zazwyczaj charakter pośredni — co ilustruje schemat przedstawiony na rys. 1.1. (Such 1973, s. 18). ogólność
«
} 1
1
prostota
informatywną zawartość (stopień sprawdzalności)
pewność
ścisłość Rys. 1.1. Wzajemne powiązania celów poznania naukowego
Centralne miejsce w tym schemacie —jak widać — zajmuje cel: informatywną zawartość (wysoka). Jest on związany z pozostałymi celami. Jego centralne położenie uzasadnione jest i tym, że warunkuje on bezpośrednio stopień sprawdzalności wiedzy, gdyż im więcej dane twierdzenie (hipoteza badawcza) mówi o rzeczywistości, im bogatsze jest w treść, im wreszcie więcej można z niego wyprowadzić różnorodnych konsekwencji logicznych i doświadczalnych, tym łatwiej (i dokładniej) można je będzie sprawdzić (liczniejszy i bardziej różnorodny będzie materiał empiryczny, na którym twierdzenie będzie potwierdzone). Z kolei informatywną zawartość wiedzy uwarunkowana jest jej ogólnością wyrażającą się liczbą zdań (wniosków — w tym empirycznych), które dadzą się z tej wiedzy wyprowadzić. Im bardziej jest ona ogólna, tym więcej można z niej wyprowadzić wniosków konfrontowanych z rzeczywistością. Tym też tłumaczy się rozwój nauki w kierunku formułowania coraz bardziej ogólnych twierdzeń obejmujących klasy zjawisk i dotyczących jak największej liczby przypadków. Z tego samego powodu dąży się do tego. by wiedzę naukową cechowała jak największa ścisłość. Pociąga to za sobą matematyzację poszczególnych dyscyplin naukowych — nie ominęła ona i psychologii, o czym może się Czytelnik przekonać z elementarnego wprowadzenia w dziedzinę psychologii matematycznej pióra Coombsa, Dawesa i Tverskyego (1977). „Matematyczne" ujęcie twierdzeń danej dyscypliny naukowej nadaje im matematyczną ścisłość, a także — poprzez zwiększenie stopnia precyzji wyprowadzania 31
wniosków i konsekwencji — wysoki stopień ich sprawdzalności. Tym samym wyrażenie twierdzeń w ścisłej postaci matematycznej zwiększa ich informatywną zawartość. Jeżeli chodzi o następny wewnętrzny cel: prostotę, to zacząć należy od tego, że wyróżnia się dwa rodzaje prostoty wiedzy: (a) prostotę matematyczną i (b) prostotę logiczną. Oba rodzaje prostoty są ze sobą ujemnie skorelowane. Otóż, im dana teoria zawiera mniej założeń wyjściowych (tzw. postulatów), i jednocześnie większa jest ich zawartość informatywną, tym większy jest stopień jej prostoty logicznej. Z drugiej jednak strony taka prosta logicznie teoria wymaga dość skomplikowanego i zaawansowanego aparatu matematycznego, za pomocą którego będzie można wyprowadzić z niej logiczne i empiryczne konsekwencje. Rozwój nauki przebiega w kierunku formułowania twierdzeń coraz prostszych logicznie, a tym samym wymagających stosowania coraz bardziej skomplikowanego aparatu matematycznego. Wreszcie, ostatnim elementem przedstawionego wyżej schematu jest pewność wiedzy, przy czym wyróżnia się trzy jej rodzaje: (a) pewność psychologiczną, (b) pewność epistemologiczną, (c) pewność logiczną. Pewność psychologiczna oznacza wiarygodność, stopień subiektywnego przekonania o tym, że dane twierdzenie (hipoteza badawcza, teoria) jest prawdziwe. Pewność epistemologiczną z kolei mówi o stopniu potwierdzenia (konfirmacji) danego twierdzenia (hipotezy badawczej, teorii) w świetle uzyskanych danych empirycznych. Zaś pewność logiczna określa stopień jej niezawodności w sensie teorii prawdopodobieństwa. Wśród metodologów spotyka się sąd, iż wiedza naukowa osiąga wysoki stopień pewności psychologicznej oraz epistemologicznej, natomiast stopień jej niezawodności (pewności logicznej) może być dość niski. Nie wykluczają oni bowiem tego, iż pewność w sensie logicznym nie idzie w parze z ogólnością i ścisłością wiedzy. Dlatego też cytowany tu Such sugeruje, by przez pewność, w powyższym schemacie, rozumieć tylko pewność epistemologiczną, a ostatecznie także pewność psychologiczną — ale już,nie pewność logiczną. Scharakteryzowane tu cele wewnętrzne są podporządkowane celom zewnętrznym. Są środkami ich realizacji. Cele zewnętrzne wiążą się z funkcjami, jakie nauka pełni w społeczeństwie. Ponieważ nauka wyrosła z potrzeb czysto utylitarnych (praktycznych), więc jednym z jej celów zewnętrznych jest cel praktyczny — umożliwienie człowiekowi jak najefektywniejszego działania (na ten temat więcej w rozdz. 2.). Efektywne działanie wymaga opanowania umiejętności godzenia ze sobą środków i celów. Trzeba bowiem z jednej strony dobierać środki pod kątem celów, które chcemy osiągnąć, a z drugiej strony formułować takie cele, które są dostępne naszemu poznaniu. Koordynacja środków i celów wymaga umiejętności przewidywania przyszłych zjawisk. Jest tedy przewidywanie bezpośrednią funkcją praktyczną nauki. Kozielecki (1975, s. 24) w odniesieniu do teorii psychologicznych tak to sformułował: „...ważną funkcją teorii naukowej jest przewidywanie zachowania człowieka. Niektórzy badacze, jak np. behawioryści uważali, że predykcja jest jej funkcją podstawową, a nawet jedyną. Chociaż takie radykalne stanowisko nie wydaje się słuszne, to jednak nie ulega wątpliwości, że jednym z ważnych kryteriów 32
oceny użyteczności teorii jest stopień trafności opierających się na niej przewidywań zachowania (...)- Irn wyższe jest prawdopodobieństwo trafnego przewidywania zjawiska przez daną teorię, tym większa jest jej wartość predyktywna". Człowiek jednak nie tylko chce efektywnie działać w świecie, w którym żyje, ale chce go także poznać, zrozumieć. Drugim zatem celem zewnętrznym nauki jest wyjaśnianie. Jest ono funkcją teoretyczną nauki. I znowu przywołam, w tym kontekście, wypowiedź Kozieleckiego (tamże, s. 25-26): „Coraz więcej badaczy (...) zwraca uwagę, że celem psychologii jest nie tylko przewidywanie zachowania ludzi, ale również — a nawet przede wszystkim — wyjaśnianie go, a więc poznanie procesów psychicznych, które warunkują zachowanie. Czasem psychologowie mówią, że dobra teoria powinna opisać mechanizmy działania. Funkcję teorii, która polega na opisie i wyjaśnianiu wewnętrznych mechanizmów czynności ludzkich, będę nazywał funkcją eksplanacyjną". Jakie zachodzi powiązanie obu rodzajów celów — wewnętrznych i zewnętrznych? Badacz opisuje rzeczywistość, aby ją wyjaśnić oraz by przewidywać zajście nowych stanów rzeczy. Jednocześnie owo wyjaśnianie i przewidywanie podporządkowane jest temu, aby daną rzeczywistość można było ujmować racjonalnie i racjonalnie ją przekształcać. Im dokładniejsza i głębsza jest wiedza naukowa, tym lepiej spełnia ona swoje cele zewnętrzne. Cele wewnętrzne nauki można sprowadzić do tego, „że nauka stara się wiernie i głęboko opisać świat" (Such 1973, s. 25). Odpowiednio możemy mówić o trzech podstawowych funkcjach nauki: 1) funkcji deskryptywnej (opis), 2) funkcji eksplanacyjnej (wyjaśnianie), 3) funkcji prognostycznej (predykcja, przewidywanie).
Nauki i _ fizyczne biologiczne c
1------1----- A. Psychologia B. Socjologia
J a Eko nom ja
D. E. F.
Historia Nauki polity Prawo Językoznawstwo
G. H. Filozofia naukowa Rys. 1.2. Klasyfikacja nauk (wg. Such 1973, s. 41-47)
Metodologia ujmuje naukę dwojako, raz jako proces zdobywania wiedzy, proces badania (por. Wprowadzenie, s. 15), a raz jako rezultat tego procesu (wiedza naukowa), sumę wiedzy. Zapoznajmy się teraz z klasyfikacją nauk, czyli podziałem 33
„wiedzy naukowej" na poszczególne dyscypliny. Pozwoli to nam na umiejscowienie psychologii w systemie innych nauk. Schemat przedstawiony na rys. 1.2. prezentuje jeden z możliwych podziałów.
3. Schemat poznania naukowego Wróćmy do spojrzenia na naukę, jako proces zdobywania wiedzy, jako proces poznawania otaczającej badacza rzeczywistości. Proces poznania naukowego można przedstawić w postaci czteroogniwowego łańcucha: fakty (1)
fakty. (4)
przewidywanie (3)
teoria (2)
Jest więc tak, jak powiedział kiedyś Einstein, że punktem wyjścia każdej nauki muszą być fakty i one też muszą być jej punktem docelowym. W sposób bardziej poglądowy kolejne stadia poznania naukowego prezentuje rys. 1.3.
TEORIE dedukcja świat konstrukcji teoretycznych
świat faktów empirycznych
PRZEWIDYWANIA
-------------
budowanie teorii
i
sprawdzanie
i
FAKTY
FAKTY
Rys. 1.3. Schemat poznania naukowego (wg Such 1973, s. 169)
Nad linią przerywaną mamy świat konstrukcji teoretycznych, w którym działa badacz jako teoretyk, natomiast pod linią mamy świat faktów empirycznych, w którym działa badacz jako eksperymentator. W pierwszym kroku badacz formułuje teorie. W drugim wyprowadza z nich na drodze dedukcji określone przewidywania (predykcje). Wreszcie w trzecim kroku sprawdza teorie przez konfrontację przewidywań z faktami ustalonymi w drodze obserwacji czy eksperymentu.
34
4. Etapy postępowania badawczego w naukach empirycznych (wg M. Bunge'a) Wiemy już, czym jest nauka i jak z punktu widzenia metodologa wygląda w ogólnych zarysach schemat poznania naukowego. Tu musimy zająć się nim bliżej. Postępowanie badawcze przebiega według z góry określonych etapów, kroków, czy faz. które charakteryzuje to, iż stanowią pewną zamkniętą całość wyodrębniającą się na tle całego procesu badawczego. Ujęcie procesu badawczego jako łańcucha następujących po sobie etapów ma też walory dydaktyczne, gdyż pokazuje Czytelnikowi, jakie czynności badawcze musi wykonać w trakcie rozwiązywania określonego problemu naukowego. Na wstępie zapoznajmy się — tytułem przykładu — ze schematami spotykanymi w literaturze metodologicznej. Jednym z bardziej reprezentatywnych jest schemat zaproponowany przez Bunge'a (1959; cyt. za: Rudniański, 1975, s. 20-21; 1976). Wyróżnia się w nim 5 etapów, a na każdym z nich od 2 do 4 podetapów: Etap 1. Ujęcie problemu 1. Dokonanie przeglądu faktów (zebranie określonej grupy faktów, ich wstę pna ocena i selekcja z punktu widzenia problemu naukowego). 2. Rozpoznanie problemu (ocena sytuacji i występujących w danej dziedzinie wiedzy, podlegającej penetracji badacza, nieadekwatności, luk, niekonsekwencji). 3. Postawienie problemu (sformułowanie pytania; odpowiedź na nie miałaby lepiej niż dotychczas wyjaśnić dany skrawek rzeczywistości). Etap 2. Zbudowanie modelu teoretycznego 1. Dokonanie selekcji ważnych czynników (wysunięcie założeń o zmiennych potencjalnie istotnych). 2. Wysunięcie centralnych hipotez i pomocniczych założeń (zaproponowanie założeń mówiących o charakterze związków łączących zmienne, próba sformuło wania twierdzeń, które mają wyjaśnić zaobserwowane fakty). 3. Dokonanie przekładu na język matematyki (wyrażenie — w miarę możli wości — hipotez w języku matematyki). Etap 3. Wyprowadzenie szczegółowych konsekwencji 1. Wyszukanie racjonalnych ujęć (uporządkowanie konsekwencji, jakie mogą być zweryfikowane). 2. Wyszukanie podstaw empirycznych (postawienie prognoz — na podstawie modelu i danych empirycznych — z uwzględnieniem dostępnych badaczowi tech nik ich weryfikacji). Etap 4. Sprawdzenie hipotez 1. Zaplanowanie sprawdzenia (zaplanowanie sposobów sprawdzania prognoz, zaplanowanie różnego typu działań, takich jak: obserwacje, pomiary, eksperymenty itp.). 2. Wykonanie sprawdzenia (przeprowadzenie odpowiednich działań i zebranie danych). 3. Usystematyzowanie danych (ich klasyfikacja, analiza i ocena ich wartości, wyeliminowanie z pola rozważań danych zbędnych). 35
4. Wyprowadzenie wniosków (interpretacja danych w terminach przyjętego modelu teoretycznego). Etap 5. Wprowadzenie do teorii wniosków z badań empirycznych 1. Dokonanie porównania wniosków z prognozami (ocena stopnia, w jakim uzyskane wyniki potwierdzają lub obalają założony model teoretyczny). 2. Zmodyfikowanie modelu (wprowadzenie do modelu pewnych zmian lub nawet zastąpienie go innym). 3. Przedstawienie sugestii dla dalszej pracy (wyszukiwanie luk i błędów w ca łym toku postępowania badawczego, gdy model został obalony oraz poszukiwanie możliwości rozszerzenia modelu, gdy model został potwierdzony). W kolejnej książce: Scientific Research, t.l (1967, s. 9, rys. 1.1) Bunge dokonał zmian w tym schemacie — m. in. skrócił go do 8 etapów, bez wyróżniania „podetapów". Zaprezentowany wyżej schemat jest na tyle ogólny, iż obejmuje różne dyscypliny naukowe. Dla takich dyscyplin naukowych, jak psychologia, pedagogika czy socjologia, Townsend (1953, s. 38-39) zaproponował podział procesu badawczego na etapy jako odpowiedzi na następujące pytania: 1. Jaki jest problem? 2. Jaka jest hipoteza? 3. Jaka jest zmienna (zmienne) niezależna? 4. Jaka jest zmienna (zmienne) zależna? 5. W jaki sposób ma być mierzona zmienna zależna? 6. Co trzeba kontrolować? 7. Jaka będzie procedura przeprowadzania eksperymentu? a) jakie aparaty będą potrzebne? b) w jaki sposób i w jakiej kolejności planuje się przeprowadzenie ekspe rymentu? c) w jaki sposób będą analizowane rezultaty? 8. Czy będzie można wykorzystać rezultaty tego eksperymentu do przyjęcia lub odrzucenia hipotezy? Czy nie popełniono żadnych błędów? Te dwa przedstawione podziały wystarczą, by zorientować się, jak badacze widzą kolejne kroki rozwiązywania problemu naukowego. Zauważmy, że poważnym mankamentem pierwszego schematu (Bunge) jest to, iż zbyt mało uwagi poświęca się w nim analizie układu zmiennych niezależnych potencjalnie istotnych dla danej zmiennej zależnej Y. To samo można powiedzieć o drugim schemacie (Townsend). Oba podziały pomijają pewne ważne etapy oraz nie uwzględniają zachodzących w trakcie badania sprzężeń między określonymi czynnościami badawczymi, wykonywanymi na danych etapach procesu badawczego. Dlatego też w następnym punkcie proponuję nowy podział procesu badawczego, któremu podporządkowany będzie wykład całości materiału w tym podręczniku. Jest on na tyle szczegółowy, że Czytelnik będzie mógł zgodnie z nim przeprowadzić swoje pierwsze badania naukowe — czy to przygotowując pracę seminaryjną, czy przystępując do pisania pracy magisterskiej.
36
5. Struktura procesu badawczego w psychologii (ujęcie własne) Zgodnie z tym, co wyżej powiedziałem proponuję rozbicie procesu badawczego w psychologii na następujące etapy: 1. Sformułowanie problemu badawczego oraz hipotezy badawczej. 2. Określenie obrazu przestrzeni zmiennych (oczywiście — niezależnych X[,..JQ istotnych dla zmiennej zależnej Y, czyli skrótowo: O{PY ) oraz obrazu struktury przestrzeni zmiennej Y, czyli skrótowo: O(SY). 3. Operacjonalizacja zmiennych. 4. Wybór modelu badawczego: 4a. Model eksperymentalny, 4b. Model korelacyjny. 5. Dobór próby z populacji. 6. Wybór modelu statystycznego: 6a. Model testu / lub ANOVA lub MANOVA, 6b. Model wielokrotnej regresji MR. 7. Akceptacja lub odrzucenie hipotezy. 8. Ocena, interpretacja i generalizacja rezultatu badawczego. W formie graficznej schemat procesu badawczego przedstawiony został na rys. 1.4. Scharakteryzujmy teraz bliżej poszczególne etapy. Etap 1. Badanie naukowe zaczyna się od zwerbalizowania przez badacza problemu naukowego w postaci pytania: „Od jakiej zmiennej niezależnej Xj (zmiennych: XU...,X„), i jak, zależy dana zmienna zależna Y?". Pytanie to rodzi się jako rezultat konstatacji pewnych luk w systemie wiedzy, niekonsekwencji stanowisk znajdujących odbicie w literaturze przedmiotu. Badacz może też pokusić się o ustalenie nowych praw, lepiej opisujących prawidłowości zachodzące w otaczającym go świecie. Czytelnik nie powinien oczekiwać od autora, iż ten wskaże mu receptę na formułowanie ciekawych poznawczo i wartościowych problemów badawczych. Powinien wiedzieć, iż takie czynniki, jak intuicja, znajomość literatury przedmiotu, możliwość prowadzenia dyskusji w gronie osób obeznanych z danym zagadnieniem, wytrwałość w dążeniu do celu mają olbrzymi wpływ na formułowanie ważkich problemów badawczych i znajdowanie dróg ich rozwiązania. Zapoznanie się z arcyciekawą i pouczającą monografią pióra Selyego [Od marzenia sennego do odkrycia naukowego), czy równie ciekawą książką napisaną przez Beveridge'a {Sztuka badań naukowych) ukaże Czytelnikowi całą złożoność zagadnienia tu poruszonego. Tam też przedstawiono autentyczne przykłady, zaczerpnięte z historii nauki, wpadania na ciekawe pytania i ich rozwiązania. Polecam także zapoznanie się 2 nieco trudniejszymi opracowaniami problematyki myślenia twórczego w nauce, dokonanymi przez Nęckę (1987, 1994a, 1994b). Do tej problematyki powrócimy jeszcze w rozdz. 8. 37
Rys. 1.4. Schemat procesu badawczego
Próbując udzielić odpowiedzi na pytanie badawcze (problem badawczy) psycholog stara się nie tylko wskazać zmienne, od których zależy interesująca go zmienna zależna Y, ale stara się też określić postać związku (zależności) łączącego zmienną zależną Y ze zmienną niezależną X} (j = 1, ..., n) lub z wieloma zmiennymi niezależnymi (gdy badacz chce określić łączny wpływ zmiennych Xb ..., X„ na zmienną Y). Owa odpowiedź na pytanie badawcze, to hipoteza badawcza. Jeżeli zadajemy pytanie o postać związku łączącego zmienną zależną i zmienną (lub zmienne) niezależną dla niej istotną, to próbując na nie odpowiedzieć badacz będzie też musiał odpowiedzieć na pytanie: Jakie w ogóle zmienne niezależne są istotne dla danej zmiennej zależnej Y7 Nie można przecież rozpatrywać wpływu jakiejś zmiennej Xj na zmienną Y nie respektując wpływów innych zmiennych istotnych dla Y. Z chwilą sformułowania tego drugiego pytania badanie wkracza w drugą fazę. Bywa niekiedy i tak, że badacz jest zainteresowany tylko udzieleniem odpowiedzi na pytanie: Jakie zmienne niezależne wpływają (są istotne dla...) na zmienną Yl Tutaj jednak nie będzie nas interesował taki „szczątkowy" proces badawczy. Etap 2, Schemat procesu badawczego w drugiej fazie obejmuje problemy istotnościowe, hipotezy istotnościowe oraz hipotetyczne układy zmiennych niezależnych. Proces badawczy w tej fazie zaczyna się od sformułowania problemu istotnościowego 1.: 1. Jakie zmienne niezależne są istotne dla zmiennej Y! Próbą odpowiedzi na to pytanie jest hipoteza istotnościowa 1. postaci: T. Zmienne niezależne X1( ..., X„ są istotne dla Y. Zbiór zmiennych niezależnych, uznanych przez badacza za istotne dla Y, tworzy obraz przestrzeni zmiennych istotnych dla Y. Używamy tu sformułowania obraz przestrzeni... [symbolicznie O(PY)], a nie przestrzeń... (symbolicznie: Py) dla odróżnienia tego, co jest ustaleniem — niekoniecznie trafnym — badacza, od tego, co istnieje rzeczywiście. Mówiąc inaczej, termin „obraz przestrzeni..." jest terminem epistemologicznym, natomiast „przestrzeń..." jest terminem ontologicznym. Sens tego rozróżnienia, wprowadzonego przez L. Nowaka (Nowak L., 1974, 1977, 1980) w odniesieniu do pary terminów: „przestrzeń wielkości istotnych dla wielkości określanej... — obraz przestrzeni...", jest taki, iż badacz nie zna zbioru zmiennych niezależnych istotnych dla Y. Jedynym, co może zrobić, to zmierzać do jak najwierniejszego jego odwzorowania. Tak więc badacz formułując hipotezę 1'. może się mylić, gdyż: (a) wyliczył zbyt mało zmiennych niezależnych de facto istotnych dla Y y (b) wyliczył zbyt dużo zmiennych, a tym samym tylko część z nich jest de facto istotna dla Y. Po utworzeniu O(PY) badacz formułuje problem istotnościowy 2.: 2. Jaki jest porządek istotnościowy w obrębie zmiennych zaliczonych do
i/W
Hipoteza istotnościowa 2.\ będąca próbą odpowiedzi badacza na ten problem, przyjmuje postać następującego sformułowania: 39
2'. Zmienne z O(P Y ) uporządkowane są — wg relacji „bycia bardziej istotną dla Y niż..." — w następujący sposób... Przyjęcie tej hipotezy wprowadzającej do O(PY ) porządek istotnościowy daje w efekcie obraz struktury przestrzeni zmiennej Y (symbolicznie: O(S Y )). Zmienne wchodzące do O(SY) mogą oddziaływać niezależnie na Y — mówimy wtedy, że mamy do czynienia z obrazem izolowanej struktury przestrzeni zmiennej Y — bądź mogą wchodzić one ze sobą w interakcje i łącznie wpływać na zmienną Y i mówimy wówczas o obrazie interakcyjnej struktury przestrzeni zmiennej Y. Dla ich odróżnienia używam następujących oznaczeń: Olz(SY) — obraz izolowanej struktury..., Oj„{SY) — obraz interakcyjnej struktury...,
Rys. 1.5. Wykres obrazujący brak interakcji (rys. a) między zmiennymi Xy i A";oraz wykres obrazujący występowanie interakcji miedzy zmiennymi X t i X 2 (rys. b)
Co to znaczy, że zmienne wchodzą ze sobą w interakcje? Wedle Ackoffa (1969, s. 309-391): „dwie zmienne są w interakcji, jeśli wpływ, który jedna z nich ma na zależne od niej zjawisko, zależy od wartości, jakie przyjmuje druga zmienna". Mówiąc inaczej, interakcja dwóch zmiennych jest miarą ich współzależności. Wyobraźmy sobie, że dla danej zmiennej Y istotne są tylko dwie zmienne X{ i X2. Każda z nich przyjmuje dla osób badanych następujące wartości: v(Xi)= {a h a 2 } i v(X2) = {b] ,b2}. Prostym efektem działania zmiennej X] na Y nazywamy jej oddziaływanie na zmienną Y, gdy druga zmienna X2 przyjmuje jedną z dwóch wartości. Tak więc można tu mówić o dwóch efektach prostych zmiennej X]t jednym przy wartości bt i drugim przy wartości b2 zmiennej X2- Sumę efektów prostych zmiennej Xt lub X2 określa się mianem efektu głównego zmiennej Xx lub X2. Możemy powiedzieć, iż zmienne X x i X 2 wchodzą ze sobą w interakcję, jeżeli ich proste efekty różnią się, jeżeli natomiast ich efekty proste są sobie równe — interakcja Xi X 2 jest zerowa (Oktaba, 1966, s. 232). Rys. 1.5 ilustruje powyższe 40
rozważania. Trzeba zaznaczyć, iż w taki właśnie sposób określa się pojęcie interakcji w układzie czynnikowym analizy wariancji ANOVA (bliżej o pojęciu interakcji zmiennych oraz pojęciu efektu prostego por. Brzeziński, Stachowski, 1984, s. 191-200) stanowiącym statystyczną podstawę współczesnego eksperymentowania (por. etapy: 4a i 6a procesu badawczego). W psychologii mamy wiele przypadków interakcyjnych obrazów struktur przestrzeni zmiennej Y. Rozważa się np. efekt współdziałania określonych elementów sytuacji z pewnymi cechami osobowości człowieka (jest to program teoretyczny i metodologiczny tzw. psychologii interakcyjnej budowanej przez Magnussona i Endlera; por. Magnusson, Endler, 1977; Endler, Magnusson, 1976; Magnusson, 1981; Endler, 1983). Dalej, na podstawie zajścia bądź niezajścia interakcji między zmiennymi w badaniach nad sposobem integrowania informacji przez badanych stwierdza się, iż integrują oni informacje w sposób konfiguracyjny lub addytywny (Stachowski, 1976). I trzeci przykład, inteligencja człowieka kształtuje się jako efekt interakcji dwóch czynników — genotypu („tego co wrodzone") i środowiska („tego co nabyte") (Seligman, 1995). Zresztą do badania oddziaływań dziedziczności i środowiska na ludzkie zachowania stosuje się takie modele statystyczne, jak np. ANOVA, które umożliwiają określanie procentowego udziału interakcji obu czynników w wyjaśnianiu zmienności zmiennej zależnej Y (por. Wahlsten, 1990). Trzeci z problemów istotnościowych sprowadza się tedy do pytania: 3. Jaki jest rodzaj obrazu struktury przestrzennej zmiennej Y? Odpowiedź na nie, w postaci trzeciej hipotezy istotnościowej brzmi: 3'a. O(Sy) jest interakcyjny — Oin (PY), 3'b. O(Sy) jest izolowany — Oiz (PY). Układ powiązań zachodzących między tymi trzema problemami i hipotezami istotnościowymi — „wypełniającymi" etap drugi badania naukowego — przedstawiony został na rys. 1.6.
Rys. 1.6. Problemy i hipotezy istotnościowe
41
Przyjęcie przez badacza jednej z dwóch postaci hipotezy 3'. — a lub b daje w efekcie określony rodzaj O(S Y ). Po jego określeniu badanie wchodzi w fazę następną. Etap 3. Poprzez nadanie zmiennym (które mają jeszcze status zmiennych teoretycznych) określonego sensu empirycznego dokonany zostaje — używając terminologii Carnapa (1959, s. 38) — przekład z języka teoretycznego (ang. theoreticat language) na język obserwacyjny (ang. observational ianguage). Czynność tę określam mianem operacjonalizacji zmiennych. Problematyce operacjonalizacji zmiennych, ze szczególnym zwróceniem uwagi na oryginalną koncepcję autorstwa Elżbiety Homowskiej (1989), poświęcony jest rozdz. 7. Operacjonafizacja zmiennych wymaga, jak nietrudno się domyśleć, zastosowania narzędzi pomiarowych, ze względu na które poszczególne zmienne będą operacjonalizowane. Będą to bądź narzędzia już gotowe — np. testy psychologiczne, aparatura laboratoryjna — bądź też specjalnie dla danego badania konstruowane czy tylko standaryzowane. Ogólne zasady konstrukcji, standaryzacji i adaptacji kulturowej najczęściej stosowanych przez psychologów narzędzi, jakimi są testy psychologiczne, omawiam w części V (rozdz. 15.-20.). Etap 4. Z hipotezy badawczej wyprowadza się następnie dostępne obserwacji konsekwencje, formułuje się prognozy. One to będą podlegały bezpośredniemu sprawdzaniu empirycznemu poprzez porównanie z faktami. Przystępując do zaplanowania badania empirycznego nastawionego na sprawdzenie hipotezy badawczej psycholog musi odwołać się do jakiegoś modelu badawczego — co stanowi treść etapu 6. badania naukowego. Tradycyjnie już — za Cronbachem (1957, 1975) — wyodrębniam dwie klasy modeli badawczych: pierwszą, obejmującą te modele, które zakładają manipulację zmiennymi niezależnymi istotnymi dla Y i tradycyjnie określane są mianem modeli eksperymentalnych (etap 4a) oraz drugą, obejmującą te modele, które nie zakładają manipulacji zmiennymi i określane są mianem modeli korelacyjnych czy regresyjnych (por. Cohen, Cohen, 1983). We wprowadzeniu do części IV oraz na rys. IV. 1. dokładniej pokazałem, jakie to odmiany modeli badawczych stosowane są w praktyce badawczej psychologii. W rozdz. 12.-14. omawiam podstawowe odmiany trzech modeli badawczych. Etap 5. Kolejnym krokiem, który badacz musi wykonać jest dobór próby z populacji. To właśnie na próbie psycholog przeprowadza określoną procedurę sprawdzania hipotez, wyprowadzoną bądź z modelu eksperymentalnego (etap 4a). bądź z modelu korelacyjnego (etap 4b). Aby próba mogła być uznana za w pełni reprezentatywną musi ona być pobrana z populacji w sposób losowy. Inne sposoby- wyłaniania próby z populacji prowadzą do tego, że uzyskany rezultat badawczy będzie obciążony większym lub mniejszym błędem. Zagadnieniom tym poświęcam odrębny rozdz. 9., w którym omawiam podstawowe techniki doboru próby (nie tylko losowego) z populacji stosowane w praktyce badawczej psychologów. 42
Po zakończeniu badań empirycznych badacz przystępuje do porządkowania zebranych danych. Dokonuje ich tabelaryzacji, prezentacji graficznej na wykresach oraz opisu w języku statystyki opisowej. Piszę o tym w rozdz. 10. Etap 6. Po uporządkowaniu danych psycholog musi dokonać wyboru modelu statystycznego, w ramach którego testowane będą hipotezy. Ten etap badania sprzężony jest z etapem 4. I tak, modelowi eksperymentalnemu badań (etap 4a) odpowiadają modele statystyczne (etap 6a): model testu t (albo modele testów nieparametrycznych), model ANOVA, model MANOVA. Z kolei modelowi korelacyjnemu (etap 4b) odpowiada model statystyczny (por. Cohen, Cohen, 1983) wielokrotnej regresji/korelacji (ang. mulńple regression/correlation) (etap 4b), Problemy metodologiczne związane z testowaniem hipotez (za pomocą testów istotności oraz przedziałów ufności) omawiam w rozdz. 11. Etap 7. Na tym etapie procesu badawczego badacz musi podjąć decyzję dotyczącą tego, czy sprawdzaną hipotezę można uznać za potwierdzoną czy też za nie potwierdzoną. W przypadku drugiej odpowiedzi, badanie można uznać za zakończone niepowodzeniem — w tym sensie, że hipoteza, do której badacz się przywiązał nie uzyskała w świetle danych empirycznych wystarczającego potwierdzenia. Może jednak być i tak, że opisywana w hipotezie zależność Y od X miała miejsce, ale błędy metodologiczne popełnione przez badacza uniemożliwiły jej wydobycie na światło dzienne. Badacz nie powinien tedy, bez zastanowienia, od razu odrzucać sprawdzanej hipotezy, ale powinien spróbować przeanalizować krytycznie cały tok postępowania badawczego pod kątem ewentualnych błędów warsztatowych, których naprawienie być może dałoby inny rezultat badawczy i sprawdzana hipoteza „obroniłaby się". Tak czy inaczej, akceptacja hipotezy lub jej odrzucenie kończy ten etap postępowania badawczego i badanie wchodzi w ostatni, ósmy etap. Etap 8. Ostatnie pytania, na które badacz musi odpowiedzieć, by zakończyć proces badawczy, to pytania o: (a) Jakość metodologiczną przeprowadzonego badania Krytyczna ocena strony metodologicznej procesu badawczego powinna skłonić badacza do wnikliwego przeanalizowania czynności badawczych wykonanych na poprzednich etapach badania naukowego. O tym, że badacz powinien cofnąć się do wcześniejszych etapów procesu badawczego i wprowadzić do nich istotne korekty, informują go zaznaczone na rys. 1.4. sprzężenia zwrotne oznaczone numerami: 1-6. Najbardziej brzemienne i najdalej idące ingerencje w proces badawczy, zmieniające cały jego przebieg, związane są ze zmianami: (a) treści hipotez badawczych oraz (b) budowy O(PY) i O(SY )- Są to ingerencje w etap 1. i 2. Kolejne ingerencje dotyczą etapów: 3.-6. Cofanie się do wcześniejszych etapów badania naukowego może nie zakończyć się na przejściu tylko jednego cyklu badawczego. Może być ich więcej, przy czym kolejne cykle mogą być realizowane przez innego badacza. Tak też najczęściej bywa. 43
(b) Znaczenie psychologiczne uzyskanego rezultatu badawczego W tym miejscu badacz musi odwołać się do teorii, w języku której sformułowane zostały problem badawczy i hipoteza badawcza oraz zdefiniowane zostały zmienne. Posługując się tym językiem (dokładniej, jest to język Teorii Badanego Obiektu, TBO — por. rozdz. 3., pkt. 3.) psycholog ocenia znaczenie uzyskanego rezultatu badawczego — po pierwsze, dla rozbudowy (lub zakwestionowania) danej teorii psychologicznej oraz po drugie, dla praktyki psychologicznej, która będzie nadbudowana na uzyskanym rezultacie badawczym (por. rozdz. 2.). (c) Zasięg wniosków, które sformułował po zakończeniu badania Jeśli chodzi o pkt (c), to jest to — inaczej mówiąc — problem generalizowalności wniosków z badania. Zagadnienie to wiąże się z problemem tzw. trafności zewnętrznej badania (por. rozdz. 3., pkt. 2.2.). Planując badanie empiryczne badacz powinien zdawać sobie sprawę z faktu, iż nie jest w stanie, z powodu ograniczeń ekonomicznych i technicznych, przebadać całej populacji, ale tylko pewien jej fragment, tzn. próbę. Jednakże wnioski chce rozciągnąć na całą populację. Aby to było możliwe, próba musi być reprezentatywna dla danej populacji. Zakres wniosków zależy także od przyjętych przez badacza procedur manipulowania zmiennymi. Jak Czytelnik może się przekonać na podstawie lektury rozdz. 12. (pkt. 2.2.1), niektóre procedury, jak np. ustalanie stałego podzakresu wartości zmiennych, bardzo ograniczają zasięg wniosków (inaczej: ograniczają wielkość populacji, na którą mogą być uogólnione).
6. Między „odkryciem" a „uzasadnieniem" Współczesna praktyka badawcza, charakteryzująca psychologię i inne spokrewnione z nią dyscypliny naukowe, takie jak: pedagogika czy socjologia, a nawet, w pewnym zakresie, psychiatria, zaciera różnice miedzy stosowanymi przez badaczy procedurami dochodzenia do określonego rezultatu badawczego i procedurami empirycznego potwierdzania (uzasadniania) tego rezultatu. Zaczęło to być bardzo widoczne, zwłaszcza w latach sześćdziesiątych i siedemdziesiątych (a w Polsce w latach osiemdziesiątych), gdy stosunkowo łatwo dostępne stało się bogate oprogramowanie w zakresie wielozmiennowych modeli statystycznych, takich jak wielokrotna korelacja/regresja (por. rozdz. 13.), jednozmiennowa analiza wariancji ANOVA (por. Brzeziński, Stachowski, 1984), wielozmiennowa analiza wariancji MANOVA (por. Aranowska, 1987), analiza skupień (por. Marek, 1989), skalowanie wielowymiarowe (por. Bielą, 1992, 1995), analiza kanoniczna (por. Nosal, 1987) czy analiza czynnikowa (por. Zakrzewska, 1994), adresowane wprost do badacza, np. psychologa. Mam tu na myśli zwłaszcza takie biblioteki programów etatystycznych, jak: SPSS PC+, SYSTAT, CSS STATISTICA. Te pakiety statystyczne doczekały się już omówień adresowanych do przedstawicieli określonych grup użytkowników (w Polsce mogę wskazać na pracę Wywiała, 1994, a z publikacji amerykańskich — na pracę Heddersona, 1991; obie dotyczą pakietu SPSS PC+). 44
Wskazane wyżej wielozmiennowe modele statystyczne walnie przyczyniły się do wzbogacenia warsztatu badawczego i to nie tylko w zakresie istotnego poszerzenia środków technicznych związanych z procedurami sprawdzania hipotez, ale także (a nawet przede wszystkim) z możliwościami formułowania nowych hipotez, które stały się „testowalne" w laboratorium badacza. Przed „erą" wielowymiarowych modeli statystycznych (dla ich „panoramicznego" przeglądu — por. Brzeziński, 1987) niepodzielnie panowały bądź testy istotności różnic, odwołujące się do porównań dwugrupowych, takich jak w prezentowanych w rozdz. 12. planach eksperymentalnych typu „wszystko albo nic" (test t, test z, test x 2 , test Manna-Whitneya itp.), bądź współczynniki korelacji dwuzmiennych (współczynnik r-Pearsona, współczynnik r, -Spearmana, współczynnik rrKendalla) i współczynniki siły związku między dwiema zmiennymi (współczynnik 0-Yule'a, współczynnik Q-Kendalla, współczynnik C-Pearsona, współczynnik K-Cramera itp.). Na badacza nakładało to jedynie obowiązek poprowadzenia badań na dwóch grupach osób (eksperymentalnej i kontrolnej), zgodnie z kanonem jednej różnicy, albo na jednej pobranej z populacji grupie osób. Sytuacja uległa „komplikacji" z momentem rozprzestrzenienia się coraz bardziej skomplikowanych wielozmiennowych modeli statystycznych. Nałożyły one na badacza obowiązek myślenia o nowych zależnościach między zmiennymi w kategoriach schematu postępowania sprawdzającego hipotezy o tych właśnie zależnościach. Tak zatem, na przykład, test F — w jakimś planie eksperymentalnym opartym na modelu ANOVA — jest zarazem metodą „odkrycia" nowego wyniku, jak i metodą „uzasadnienia" empirycznego tegoż wyniku. Nowe modele statystyczne stwarzają nowe możliwości jeśli chodzi o treść formułowanych hipotez badawczych. Odwołajmy się do tylko jednego przykładu. Otóż rozwój analizy wariancji umożliwił testowanie hipotez (modeli teoretycznych) traktujących o wpływie na Y interakcji dwóch (i większej liczby) zmiennych niezależnych. Tak jest w przypadku wspomnianego już modelu psychologii interakcyjnej Endlera i Magnussona, która bardzo silnie związała się — w zakresie metodyki badań empirycznych — z modelem ANOVA (dokładniej, odmiana trój czynnikowa — krytyczne uwagi na ten temat w: Brzeziński, 1985d). Biorąc pod uwagę wzajemne uwarunkowania czynności „odkrywania" i czynności „uzasadniania" i myśląc o wyborze optymalnego modelu badawczego (etap 4.) badacz musi jednocześnie myśleć o dopasowanym do tego modelu badawczego modelu statystycznym (etap 6.). Wybór modelu statystycznego, w ramach którego analizowane będą dane empiryczne zebrane w badaniu poprowadzonym zgodnie z wymaganiami danego modelu badawczego, na przykład eksperymentalnego, musi być dokonany zanim przystąpi się do zbierania owych danych. Także powiązane ze sobą są etapy 5. i 6., gdyż chcąc zastosować jakiś określony model statystyczny badacz musi uwzględnić jego wymagania dotyczące techniki doboru próby z populacji oraz jej wielkości. Niestety, badacze dość często zaczynają poszukiwać optymalnego rozwiązania w tym zakresie dopiero po zebraniu danych, ale wtedy może okazać się, że nie będzie możliwe posłużenie się jakimś testem statystycznym, gdyż nie zostały spełnione konstytuujące ten test założenia modelowe. Gdyby bowiem badacz jeszcze 45
przed rozpoczęciem badań empirycznych zadał sobie trud przeanalizowania wybranej metodyki badawczej pod kątem jej „przystawania" do założeń danego, uznanego za najlepszy, modelu statystycznego, to nie spotkałoby go rozczarowanie w postaci niemożności posłużenia się tym modelem w procesie sprawdzania hipotez, gdyż — na przykład — grupy porównawcze okazały się zbyt małe, albo zastosowane narzędzia badawcze gwarantują pomiar zmiennej Y jedynie na poziomie skali nominalnej, a test statystyczny wymaga pomiaru na poziomie skali interwałowej. Owe wzajemne warunkowanie się wyborów dokonywanych przez badacza na etapach 4. i 6. procesu badawczego zaznaczone zostało na rys. 1.4. powiązaniami między 4a i 6a oraz 4b i 6b. Trudno byłby wskazać to szczególne miejsce w procesie badawczym, w którym kończy się „odkrywanie" jakiejś opisanej hipotezy zależności między zmiennymi i zaczyna się „uzasadnianie" tej hipotezy. Jak to już zostało wykazane, także w pracach dotyczących metodologii psychologii (por. Paszkiewicz, 1977; Brzeziński, 1978b; Kosnarewicz, 1989) nie sposób utrzymać, tak jak to chciała metodologia pozytywistyczna (za Reichenbachem, 1960), swoistego podziału czynności badawczych na te, które należą do „kontekstu odkrycia", i te, które należą do „kontekstu uzasadnienia". Akt badania naukowego jest po prostu aktem twórczym i można (trzeba) go analizować w kategoriach teorii rozwiązywania problemów (por. Nickles, 1988; Simon, 1977); obejmuje on zarówno analizy prowadzone w obrębie „kontekstu odkrycia" (Popper, 1977); jak i w obrębie „kontekstu uzasadnienia" (Simon, 1977). Oba zaś konteksty wzajemnie się przenikają i nie sposób oddzielić jeden od drugiego.
7, Podsumowanie W niniejszym rozdziale przedstawiona została pewna koncepcja procesu badawczego w psychologii (por. rys. 1.4). Zgodnie z nią, proces badawczy został podzielony na etapy (czy mówiąc inaczej — kroki, ogniwa), obejmujące względnie wyodrębnione czynności badawcze, które musi wykonać psycholog. Ta struktura procesu badawczego stała się osią, wokół której „kręci się" cały podręcznik. Po prostu, zaprezentowany tu wykład metodologii badań empirycznych w psychologii został ustrukturowany na wzór procesu badawczego, przebiegającego w kolejnych etapach. Mimo iż w rzeczywistości trudno oddzielić od siebie poszczególne etapy i wskazać gdzie kończy się jeden, a zaczyna drugi, i że nie zawsze czynności badawcze są tak „grzecznie" ułożone, jak to pokazano na rys. 1.4., to — kierując się względami dydaktycznymi — starałem się w kolejnych rozdziałach prezentować pewne „zamknięte" całości, tak, aby Czytelnik mógł na dany temat znaleźć prawie wszystko w jednym miejscu. Nie zawsze jednak mogło to się udać. Mimo wszystko jednak sądzę, że taka prezentacja problematyki metodologicznej, podporządkowana 46
strukturze procesu badawczego, może okazać się przydatna w przyswajaniu nie tak łatwych przecież zagadnień. Czytelnikowi zainteresowanemu poszerzeniem swojej wiedzy na tematy poruszane w tym rozdziale zalecałbym sięgnięcie do dostępnych w języku polskim opracowań (por. także wykaz literatury zamieszczony w pkt. 3. Wprowadzenia). Oto wybrane tytuły. Opracowania z metodologii nauk: Ajdukiewicz K. Logika pragmatyczna; Hempel C.G. Podstawy nauk przyrodniczych; Kamiński S. Nauka i metoda. Pojęcie nauki i klasyfikacja nauk; Kmita J. Szkice z teorii poznania naukowego; Nowak L. Wstęp do ideałizacyjnej teorii nauki; Nagel E. Struktura nauki; Rudniański J. Fazy rozwiązywania problemów naukowych; Such J. Problemy weryfikacji wiedzyOpracowania z metodologii psychologii i dyscyplin pokrewnych: Coombs C.H., Dawes R.M., Tversky A. Wprowadzenie do psychologii matematycznej; Jakubowska U. Czynności badawcze w psychologii i pedagogice. Zarys problematyki; Nowak S. Metodologia badań społecznych; Nowakowska M. Psychologia ilościowa z elementami naukometrii; Paszkiewicz E. Struktura teorii psychologicznych; Tomaszewski T. Wstęp do psychologii; Zamiara K. Dynamika pojęć i programów psychologicznych. Szkice metodologiczne.
Rozdział 2. Zewnętrzne determinanty procesu badawczego w psychologii — psychologia a praktyka społeczna 1. Wprowadzenie Podejmując refleksję metodologiczną nad uwarunkowaniami, zewnętrznymi i wewnętrznymi, procesu badawczego w jakiejkolwiek dyscyplinie naukowej, a zatem i w psychologii, musimy bliżej określić, jak rozumiemy terminy: zewnętrzne uwarunkowania i wewnętrzne uwarunkowania. W jakim miejscu biegnie granica między tymi dwoma rodzajami uwarunkowań? Wśród filozofów nauki nie ma co do tego zgody. W literaturze przedmiotu można spotkać — jak zauważa Krajewski (1979, s. 203-204) — trzy koncepcje. Wedle pierwszej (najwęziej traktującej pojęcie czynników wewnętrznych) uwarunkowania wewnętrzne mają charakter czysto logiczny, zaś zewnętrzne sprowadzane są do doświadczenia. Zgodnie z drugą koncepcją (głównie głoszoną przez socjologów nauki) uwarunkowania wewnętrzne to wszystko to, co dzieje się w obrębie społeczności uczonych, a więc należą tu czynniki poznawcze, ale też socjologiczne i psychologiczne charakteryzujące relacje zachodzące między członkami społeczności uczonych. Zaś uwarunkowania zewnętrzne sprowadzane są do oddziaływań, „nacisków" społecznych na naukę (w grę wchodzą tu między innymi takie czynniki, jak adresowane do nauki zapotrzebowanie praktyki społecznej na nowe wyniki, a także: ideologia, religia, przesądy, uprzedzenia rasowe). Wreszcie, trzecia koncepcja uwarunkowania wewnętrzne sprowadza do wszystkich czynników poznawczych (związanych z teorią i doświadczeniem), a uwarunkowania zewnętrzne utożsamia z wszelkimi wpływami pozapoznawczymi (psychologicznymi, ekonomicznymi, ideologicznymi itd). W niniejszym rozdziale przyjęta będzie druga koncepcja podziału uwarunkowań procesu badawczego w psychologii na zewnętrzne i wewnętrzne (jej rzecznikiem jest także Kuhn, 1971).
2. Między zewnętrznymi a wewnętrznymi uwarunkowaniami procesu badawczego w psychologii Aby zdać sobie sprawę z całej złożoności zagadnienia względnego udziału w twórczości naukowej czynnika spontaniczności (czyli twórczości de facto) i czynnika algorytmizacji, nie możemy pominąć uwarunkowań procesu badawczego realizowanego w takiej dyscyplinie empirycznej, jaką jest psychologia (czy szerzej — reprezentowane tu przez nią tzw. behavioral sciences — nauki behawioralne). Są to, jak zaznaczono we Wprowadzeniu, uwarunkowania — w stosunku do procesu badawczego — wewnętrzne i zewnętrzne. Jeśli chodzi o uwarunkowania wewnętrzne, to są one dwojakiego rodzaju. Pierwsze związane są ze swoistą logiką procesu badawczego. Na owe uwarunkowania składają się takie elementy, jak: (a) stan indywidualnej świadomości metodologicznej realizatorów badania na ukowego, (b) standard realizacji procesu badawczego, akceptowany przez społeczność psychologów-badaczy w danym okresie rozwoju psychologii jako dyscypliny na ukowej, wedle którego opracowywane są poszczególne fazy procesu badawczego (oczywiście ów standard jest pochodną stanu społecznej świadomości metodologi cznej psychologów). Drugie zaś związane są ze specyficznym dla nauk behawioralnych charakterem wiązku łączącego badacza z obiektem badanym, osobą badaną. Związek ten ma charakter interakcji, której oba człony wzajemnie na siebie oddziałują. Czyni to z procesu badawczego całkiem odmienną jakość niż ta, z jaką mamy do czynienia analizując — z tych samych pozycji metodologicznych — proces badawczy, np. w fizyce czy chemii. Chcąc tedy wniknąć w naturę procesu badawczego w psychologii, nie sposób pominąć owej psychospołecznej specyfiki relacji: „badacz — osoba badana". Trzeba zatem spojrzeć na proces badawczy także (czy przede wszystkim) z punktu widzenia „psychologii społecznej metodologii badań psychologicznych". Z kolei uwarunkowania zewnętrzne procesu badawczego związane są z jego „naturą społeczną" (por. Nickles, 1989), z kontekstem praktyki społecznej, na której zapotrzebowanie badacze podejmują badania empiryczne w oczekiwaniu, że wyniki owych badań przyczynią się do wzrostu efektywności działań podejmowanych w danym obszarze praktyki społecznej. Owe osadzenie procesu badawczego w kontekście praktyki społecznej nie różnicuje poszczególnych dyscyplin naukowych. Jest ono takie samo zarówno dla nauk behawioralnych, jak i dla nauk przyrodniczych. Niemniej jednak, omawiając owe uwarunkowania będziemy mieli na uwadze zawsze badania psychologiczne, a nie fizyczne czy inżynieryjne. Z powyższego, krótkiego przedstawienia uwarunkowań procesu badawczego wylania się określony porządek, w którym będą one w niniejszym rozdziale zaprezentowane. Czytelnik zechce teraz spojrzeć na rys. 2.1, który ukazuje wzajemne powiązania owych uwarunkowań z procesem badawczym. 49
Rys. 2.1. Powiązanie procesu badawczego z jego zewnętrznymi i wewnętrznymi uwarunkowaniami
Tu ograniczymy się do omówienia uwarunkowań zewnętrznych, pochodzących od kontekstu praktyki społecznej (por. blok I). W następnej kolejności — ale już w rozdz. 3. — zajmiemy się strukturą świadomości metodologicznej (społecznej i indywidualnej) psychologów-badaczy (por. blok II) oraz uwarunkowaniami wynikającymi z wzajemnego powiązania faz procesu badawczego z elementami świadomości metodologicznej (por. blok III) — czyli uwarunkowaniami wewnętrznymi pierwszego rodzaju. Z kolei w rozdz. 4. przejdziemy do omówienia uwarunkowań wewnętrznych drugiego rodzaju — psychologicznych (por. blok IV). W postaci uporządkowanej owe uwarunkowania przedstawione są na diagramie (por. rys. 2.2). UWARUNKOWANIA PROCESU BADAWCZEGO W PSYCHOLOGII
ZEWNĘTRZNE [KONTEKST PRAKTYKI SPOŁECZNEJ]
LOGIKA PROCESU BADAWCZEGO
STAN ŚWIADOMOŚCI METODOLOGICZNEJ BADACZY
STANDARD REALIZACJI PROCESU BADAWCZEGO
WEWNĘTRZNE
PSYCHOLOGIA PROCESU BADAWCZEGO
ZMIENNE PSYCHOLOGICZNE ZWIĄZANE Z BADACZEM
ZMIENNE PSYCHOLOGICZNE ZWIĄZANE Z OSOBĄ BADANĄ
Rys. 2.2- Klasyfikacja uwarunkowań procesu badawczego w psychologii
3. Psychologia stosowana czy stosowanie psychologii — jedna, albo wiele psychologii? Przedmiotem niniejszych rozważań jest relacja zachodząca między sferą szeroko rozumianej praktyki społecznej (zwłaszcza tej, angażującej w jakimś stopniu aktywność psychologów) a sferą psychologii reprezentującej ogólniejszą sferę nauki — którą za Kmitą (1976, s. 97) rozumiemy jako: „formę świadomości społecznej funkcjonalnie zdeterminowaną przez społeczną praktykę badawczą, jako subiektywny kontekst społeczny tej ostatniej". Obejmuje ona dwie płaszczyzny: (1) społeczną świadomość metodologiczną, (2) płaszczyznę ustaleń badawczych — jak pisze Kmita — teorii naukowych bądź ..luźniejszych" zespołów twierdzeń. 51
Rozpoznanie specyfiki owej relacji pozwoli —jak mniemam — odpowiedzieć na sformułowane w tytule niniejszego punktu pytanie o osobliwość stosunku psychologii (jako nauki) do działania praktycznego. Chodzi bowiem o to, czy należy mówić o dwóch psychologiach — jednej, „akademickiej", odpowiadającej na pytania podstawowe i oderwanej od zagadnień praktyki edukacyjnej, rehabilitacyjnej, produkcyjnej itp., oraz drugiej, „stosowanej", rozwiązującej problemy praktyczne, zaczerpnięte z otaczającej psychologa rzeczywistości społecznej — ze szkoły, szpitala, zakładu pracy — czy też należy mówić o jednej psychologii, której ustalenia badawcze są stosowane w określonej dziedzinie praktyki społecznej jako odpowiedź na zgłaszane przez nią zapotrzebowanie społeczne? Pierwsze rozwiązanie pociąga za sobą konieczność powołania dwóch psychologii — lepszej (z metodologicznego punktu widzenia, rzecz jasna!) i gorszej, czy inaczej mówiąc psychologii teoretycznej i psychologii stosowanej. Ta ostatnia byłaby „uboga krewną" (pod względem metodologicznym) tej pierwszej. W tym „odwiecznym" sporze psychologów uniwersyteckich z psychologami-praktykami (bo tu mniej więcej biegnie linia demarkacyjna) zajmuję (tu wyrażane) stanowisko, zgodnie z którym powiązanie psychologii z praktyką społeczną polega na stosowaniu psychologii w różnych dziedzinach życia społecznego, a nie na powoływaniu „psychologii stosowanych" (psychologii wychowawczej, klinicznej, penitencjarnej, pastoralnej itd.) jako pomostów między psychologią teoretyczną i praktyką społeczną (podobne stanowisko zostało wyrażone w: Matarazzo, 1987; Ellis, 1992). W odległej przeszłości sferę nauki i sferę praktyki dzieliła przepaść. Nauka z istoty swej nie miała praktycznych zastosowań. Działalność naukową podejmowano wyłącznie dla niej samej (Arystoteles, 1956, s. 120 i n.). Jeśli chodzi o psychologię, to stosunkowo późno dostrzeżono realne korzyści płynące z wykorzystywania wiedzy psychologicznej w życiu codziennym. Zaczęto wiązać określone osiągnięcia psychologii z konkretnymi sferami działalności praktycznej człowieka. Coraz częściej pokładano nadzieje w psychologii jako tej sferze aktywności (naukowej) człowieka, która nie tylko pozwoli odpowiedzieć na trudne pytania zrodzone w sferze praktyki społecznej, ale pozwoli także — za pomocą wypracowanych przez nią metod i środków — w jakimś zakresie regulować tę ostatnią. Wydaje się, że psychologia stała się dyscypliną z obszaru nauk behawioralnych, która dostarcza najbardziej usystematyzowanej wiedzy na temat funkcjonowania człowieka w otaczającej go rzeczywistości społecznej. Rzecz jasna w obrębie samej psychologii występują twierdzenia lepiej lub gorzej uzasadnione; to samo można powiedzieć o formułowanych na jej gruncie teoriach oraz o metodach ich empirycznej kontroli. Ustalenia teoretyczne dokonane przez psychologów zaczęły być w różnym stopniu wykorzystywane jako teoretyczna podstawa odpowiednich działań praktycznych. Na przykład, teoria rozwoju umysłowego człowieka sformułowana przez Piageta stała się podstawą nowego systemu dydaktycznego opracowanego przez AebHego (1982). Została tu dokonana transformacja twierdzeń naukowych i formułowanych na jej podstawie predykcji dotyczących określonej sfery działalności czło52
wieka, na dyrektywy praktycznego działania (tu: działania praktyczne nauczyciela w klasie szkolnej). Podobnie, odpowiednie teorie, pojedyncze twierdzenia i metody wypracowane przez psychologię społeczną pozwoliły (i pozwalają) lepiej zrozumieć (a w konsekwencji zapobiegać i pomagać) funkcjonowanie człowieka w organizacjach społecznych — w zakładzie pracy, w szkole, w szpitalu. Zwiększająca się przydatność wiedzy psychologicznej (naukowej!) dla praktyki, czyniąca ją bardziej efektywną, doprowadziła w efekcie do formułowania wobec psychologii nowych oczekiwań. Nie chodziło już tylko o wiedzę podstawową, „czystą", którą dopiero wykorzystywali decydenci działający w sferze praktyki — czy to w szkole, czy w zakładzie pracy, czy też w szpitalu — opracowując system działań praktycznych na owej wiedzy oparty. Chodziło o to, aby wyeliminować z łańcucha jedno ogniwo, czyli o to, by sama psychologia zaczęła się zajmować poszczególnymi sferami działalności praktycznej człowieka i zaczęła dostarczać gotowych recept na skuteczne działanie: dydaktyczne, rehabilitacyjne, produkcyjne itp. Mówiąc jeszcze inaczej, chodziło o to, by zbyt abstrakcyjne, zbyt odległe od konkretnej — szpitalnej, więziennej, szkolnej, fabrycznej — rzeczywistości teorie, zrodzone w warunkach laboratoryjnych, wyartykułowane w języku zrozumiałym tylko dla wąskiego grona specjalistów, zastąpić przez teorie (pisane przez małe „t") bezpośrednio objaśniające konkretny fragment rzeczywistości. Zaczęły tedy powstawać, tworzone przez pedagogów i psychologów zajmujących się funkcjonowaniem dziecka w szkole, „teorie" psychologiczne i „teorie" pedagogiczne. Zaczęto też mówić o psychologii szkolnej, psychologii wychowawczej, a także o psychologii dziecka czy też o pedagogicznej teorii wychowania, opartej na ogólniejszych teoriach psychologicznych. Analogicznie zaczęły powstawać psychologie: lekarska, przemysłowa, penitencjarna, wojskowa, kosmiczna, pastoralna itp. Mamy zatem z jednej strony teorię psychologiczną par excellence, a z drugiej strony „teorie" psychologiczne odnoszące się do poszczególnych sfer praktycznej działalności człowieka. Te drugie zaliczono do psychologii stosowanej. Pierwsze z kolei zaczęto niekiedy, dość niezręcznie, określać mianem psychologii teoretycznej (Tomaszewski, 1963, s. 46), dla podkreślenia braku bezpośredniej więzi tejże psychologii z praktyką psychologiczną. Tak jak przedmiotem psychologii jest — według Tomaszewskiego (1975, s. 8) — „człowiek i jego zachowanie", albo dokładniej: „psychologia jest nauką o czynnościach człowieka i o człowieku jako ich podmiocie", tak przedmiotem psychologii penitencjarnej jest funkcjonowanie człowieka w warunkach izolacji społecznej itd. Przytoczmy — dla przykładu — dwa określenia relacji wiążącej wiedzę psychologiczną z konkretnym obszarem praktyki społecznej. W pierwszym przypadku będzie mowa o psychologii wychowawczej traktowanej jako odrębna dyscyplina psychologiczna. W drugim, o stosowaniu wiedzy psychologicznej do rozwiązywania konkretnych problemów z danego obszaru praktyki społecznej. W rozdziale 1. pracy zbiorowej pod redakcją Skinnera (1971): Psychologia wychowawcza czytamy: „Psycholog wychowawczy to psycholog praktykujący. Interesuje się podstawowymi prawami rządzącymi zachowaniem się ludzi, a także 53
zastosowaniem tych praw w odniesieniu do wychowania. Psychologia wychowawcza to przedmiot studiów, dziedzina wiedzy, zestaw praw i zasad naukowych, zestaw narzędzi i metod oraz dziedzina badań" (Anderson, 1971, s. 14-15). Dalej Anderson (tamże, s. 20) podaje sześć charakterystycznych cech wyróżniających psychologię wychowawczą w gąszczu innych dyscyplin psychologicznych: „1. Psychologia wychowawcza zajmuje się zachowaniem człowieka. 2. Stanowi ona zbiór faktów czy informacji pochodzących z obserwacji i badań. 3. Całokształt wiedzy może być podsumowany czy uogólniony w postaci sformułowanych zasad czy teorii. 4. Psychologia wychowawcza opracowała metodologię, za pomocą której prze prowadza się badania, zbiera informacje, sprawdza hipotezy i rozwija teo rie. 5. Metodologia ta stanowi przydatne narzędzie rozwiązywania problemów wychowawczych w miarę ich wyłaniania się. 6. Te informacje, ten zasób wiedzy, te zasady, metodologia stanowią istotę psychologii wychowawczej, tworzą podstawę teorii wychowawczej i prak tyki wychowawcze/' (podkr.: J. B.). Na drugim krańcu, jeśli chodzi o stosunek do problemu: „psychologia praktyka społeczna" znajduje się stanowisko reprezentowane przez autora podręcznika: Psychologia pracy. Organizacja psychiki i działania człowieka, Nosala (1977, s. 18). Widzi on relację między psychologią ogólną i psychologią pracy i na tym tle przedmiot psychologii pracy następująco: „Psychologia pracy jest dziedziną zastosowań wiedzy psychologicznej (...). Psychologia pracy jest więc dziedziną praktycznego zastosowania dorobku psychologii ogólnej w celu uzasadnienia, wyjaśnienia i przewidywania prawidłowości zachowań ludzi w sytuacjach biofizycznych, informacyjnych i społecznych związanych z pracą". Przytoczona charakterystyka psychologii wychowawczej jest przykładem budowania psychologii praktycznej, bezpośrednio społecznie użytecznej, budującej własne teorie — odmienne od teorii psychologii akademickiej i odmienne od innych psychologii stosowanych — dysponującej swoistą „metodologią" (tj. strategiami badawczymi, narzędziami pomiarowymi i regułami integracji i interpretacji danych) oraz swoistymi regułami przekładania owych „upraktycznionych" twierdzeń „naukowych" na język działań w sferze praktyki edukacyjnej. Nawiasem mówiąc, owa deklarowana przez Andersona odrębność metodologiczna jest tylko pozorna. Nie można bowiem poważnie traktować tego, co autor pisze o odrębności metodologicznej psychologii wychowawczej. Nie tylko bowiem psychologia wychowawcza (jako psychologia stosowana) „posługuje się metodami naukowymi'' (Anderson, 1971, s. 21) i nie tylko psychologowie i wychowawcy „podchodzą do rozwiązywania problemów zachowując postawę naukową i wykorzystując metody naukowe do gromadzenia i interpretowania danych" (tamże, s. 21). Nie chciałbym mnożyć przykładów, ale sądzę, iż w przypadku innych „psychologii stosowanych" mamy do czynienia z podobnym dookreśleniem ich „specyfiki" teoretycznej i metodologicznej. Ponieważ liczba owych psychologii stosowa54
nych wzrasta, a nie maleje, więc należy się spodziewać, że zamiast jednej psychologii „po prostu" będziemy mieli wiele psychologii „bezpośrednio" przydatnych w poszczególnych sferach praktyki społecznej — od tradycyjnych już, wymienionych w pracy Tomaszewskiego (1963, s. 46): psychologii wychowawczej, psychologii pracy i psychologii klinicznej po... psychologię kosmiczną. Sądzę, że owo rozczłonkowanie nie wyjdzie na dobre ani samej psychologii, jako nauce empirycznej, ani poszczególnym sferom praktyki społecznej korzystającym z usług „teoretycznych" psychologii. Pierwszej grozi to dezintegracją i popadnięciem w utylitaryzm (pod hasłem: należy prowadzić — czytaj: finansować! —tylko takie badania, które dostarczają, najlepiej od razu, wymiernych, praktyczoych korzyści, których wyniki dadzą się od razu zastosować). Zrodził się mit, iż psycholog stojący bliżej praktyki wie lepiej, jak rozwiązywać problemy tejże pra ktyki. Wie lepiej, gdyż — argumentuje się — obcuje „na co dzień" z przedmiotem swej zawodowej troski, wczuwa się w niego. Jego wiedza jest „gorąca". Z kolei psycholog-teoretyk, ograniczony uniwersyteckimi murami swojego laboratorium, nie jest w stanie służyć wprost praktyce społecznej. Jego wiedza jest „zimna". Ale już Arystoteles w Metafizyce zauważył, iż: „Myślimy jednak, że poznanie i zdol ność rozumienia należą raczej do wiedzy niż do doświadczenia i sądzimy, że ludzie wiedzy są mądrzejsi od empiryków, bo mądrość zależna jest we wszystkich przy padkach raczej od wiedzy. A dzieje się tak dlatego, ponieważ tamci znają przyczy nę, a ci nie, empirycy znają skutek, ale nie znają przyczyny, a teoretycy znają i skutek, i przyczynę. Dlatego też uważamy, że architekci we wszystkich kunsztach są hardziej czcigodni tudzież więcej wiedzą niż rzemieślnicy, i że są mądrzejsi od nich. ponieważ znają przyczyny tego, co zostało wytworzone (podczas gdy rzemie ślnicy działają tak, jak działa przyroda nieożywiona, nie wiedząc, co robią, tak jak płonący ogień — ale podczas gdy nieożywiona przyroda spełnia swe funkcje zgod nie z przyrodzonymi tendencjami, rzemieślnicy czynią to z przyzwyczajenia); tak że nie dlatego uważamy ich za mądrzejszych, ponieważ są zdolni do działania, lecz dlatego, że znają teorię i znają przyczyny. Krótko mówiąc, oznaką człowieka po siadającego wiedzę i człowieka, który jej nie posiada, jest możliwość uczenia i dlatego uważamy, że umiejętność jest bardziej wiedzą niż doświadczenie, tamci bowiem mogą uczyć, a ci drudzy nie" (Arystoteles, 1983, s. 4-5) (podkr.: J, B.). Praktyce społecznej też grozi to dezintegracją (różne sfery praktyki społecznej objaśniane będą przez różne psychologie, których obiekt pomocy psychologicznej —człowiek — jest ten sam) i w dalszej perspektywie, obniżeniem efektywności (pragmatyzm, nastawienie na bezpośrednią użyteczność badań psychologicznych spowoduje obniżenie poziomu świadomości metodologicznej badaczy, a także ob niżenie poziomu refleksji teoretycznej). Nie powinna tedy psychologia rozwijać się pod dyktando decydentów ze sfery praktycznego działania, przez opracowywanie gotowych przepisów, projektów sprawnego działania (prace psychologiczne, to nie książki kucharskie!). Powinna natomiast dostarczyć gruntownie sprawdzonej wiedzy teoretycznej, stanowiącej konieczną dla efektywnego, praktycznego działania w różnych sferach praktyki społecznej bazę teoretyczną. Fakt, iż mamy określone wyniki praktycznie zastosować, 55
nie powinien usprawiedliwiać wykorzystywania przez badacza metodologicznej taryfy ulgowej. Badania empiryczne prowadzone na obszarze bezpośrednich zastosowań psychologii nie powinny odbiegać pod względem poziomu metodologicznego od badań prowadzonych w laboratorium eksperymentalnym. Zatem nie wiele psychologii praktycznych, ale jedna psychologia dostarczająca wyników empirycznie sprawdzonych, gwarantuje wysoką efektywność opartej na nich danej praktyce społecznej. Trafnie to ujął cytowany wyżej Nosal, szkicując relacje zachodzące między psychologią po prostu (ogólną) i tzw. psychologią pracy. Wróćmy do przykładu z dziedziny praktyki edukacyjnej. Piaget tworząc teorię rozwoju umysłowego człowieka i prowadząc bardzo rozległe i wieloletnie badania nad tym problemem, nie odpowiadał „wprost" na zgłaszane przez jakąś instytucję rządową zamówienie na opracowanie teoretycznych podstaw funkcjonowania szkoły. Natomiast jego wieloletni współpracownik (a także pedagog, nauczyciel) Aebli postanowi! przebudować praktykę dydaktyczną, dając jej nowe podstawy psychologiczne (teoretyczne). W tym celu zbudował spójny system działań (a nie mniejszych teorii) dydaktycznych oparty na wynikach badań naukowych przeprowadzonych w pracowni Piageta. Akceptując wyniki badań psychologicznych uzyskane przez Piageta i chcąc nauczać dzieci (a więc chcąc działać praktycznie), pedagog powinien postępować tak, aby jego działania dydaktyczne były niesprzeczne z dyrektywami wyprowadzonymi przez Aebliego z teorii Piageta. Przytoczony tu przykład jest przykładem pozytywnego, w interesie podmiotu (tu: dziecka), stosowania wiedzy psychologicznej w konkretnej sferze praktyki społecznej. Obok pozytywnych istnieją też negatywne przypadki sięgania przez decydentów ze sfery praktycznego działania po wiedzę psychologiczną (naukową) w celu uzasadniania działań praktycznych, których cele zostały narzucone przez określoną ideologię. Ważne bowiem w takim przypadku będzie to, aby osiągnąć pożądany — z ideologicznego punktu widzenia — stan rzeczy (może chodzić np. o ukształtowanie w określony sposób osobowości dziecka, o zmianę postaw, o kształtowanie opinii). Wiedza psychologiczna będzie tu potraktowana jako ułatwiająca podejmowanie działań — w interesie określonej grupy nacisku i wbrew (lub nie licząc się z nim) interesowi jednostki (dziecka, obywatela siedzącego przed odbiornikiem TV. ucznia w klasie szkolnej). Możliwości nadużywania wiedzy psychologicznej zostały dobrze ukazane m. in. przez Koftę i Malak (1983; por. też: Zimbardo, Ruch, 1994: Cialdini, 1994). Może ona służyć decydentowi ze sfery praktycznego działania (np. projektującemu nowy system wychowania) podnosząc efektywność jego działań. Można tu tedy mówić o nauce w służbie ideologii. Udostępnianie specjalistycznej wiedzy psychologicznej, która może być wykorzystana wbrew interesowi jednostki, stawia psychologa w sytuacji wyboru moralnego. Z jednej strony mamy działania w interesie określonych instytucji (np. w interesie instytucji oświatowych), gdyż „postulowany" czy „uznany za pożądany stan rzeczy" jest takim z punktu widzenia właśnie tych instytucji, w służbie których psycholog występuje, a swoboda jego działania wyznaczona jest przez daną perspektywę ideologiczną. Z drugiej zaś strony mamy działania w interesie podmiotu jego naukowych zainteresowań, np. dziecka. Dobro podmiotu musi wyznaczać granice działań psychologa. Służąc wiedzą 56
na temat warunków kształtowania osobowości czy funkcjonowania jednostki w grupie społecznej, psycholog staje się współautorem określonego systemu działań, którego — w postaci finalnej — może nie akceptować ze względów etycznych. Wiedza psychologiczna w zakresie technik zmian postaw, technik prania mózgu, technik indoktrynacji, technik modelowania osobowości może być groźna (groźna dla pojedynczych osób), gdyż może stanowić podstawę naukową dla systemów praktycznego działania — socjotechnicznego, propagandowego, zniewalającego. Zatem nie każde zapotrzebowanie na wiedzę psychologiczną (naukową!) zgłaszane ze strony różnych instytucji powinno się spotkać z pozytywnym odzewem ze strony psychologów-badaczy. Psycholog musi być świadomy tego, komu i w jakim celu użycza wyników własnych badań naukowych. Wyraźnie podkreślają to kodeksy etyczne normujące postępowanie psychologów (por. rozdz. 5. i 6.).
4. Psychologia a model tzw. nauk praktycznych Spróbujmy teraz ustosunkować się do metodologicznego modelu określonego mianem „nauk praktycznych", który przedstawiciele takich dyscyplin, jak: prawo (Podgórecki. 1957), medycyna (Ziemski, 1973), nauki techniczne (Chwalisz i in., 1976) czy pedagogika (Muszyński, 1976), a także poszczególne gałęzie psychologii stosowanej uważają za adekwatnie rekonstruujący postępowanie badawcze charaktery'styczne dla tych dyscyplin. Mówiąc krótko, spróbujemy odpowiedzieć na pytanie, czy zasadne, z metodologicznego punktu widzenia, jest odrębne traktowanie tej grupy dyscyplin naukowych jako tzw. nauk praktycznych. Pod wpływem koncepcji Petrażyckiego (1939), Kotarbińskiego (1972), Stonerta (1967), a zwłaszcza Podgóreckiego (1962) utrwalił się w świadomości badaczy, przedstawicieli wyżej wymienionych dyscyplin naukowych podział nauk na: (a) nauki teoretyczne — opisujące i wyjaśniające dany stan rzeczy, (b) nauki praktyczne — projektujące pożądany stan rzeczy. Zatem psychologia ogólna miałaby — według zwolenników tego rozróżnienia — status metodologiczny „nauki teoretycznej" (bo opisywałaby i wyjaśniałaby w terminach ogólnych specyfikę ludzkiego zachowania się), a poszczególne „psychologie stosowane" byłyby naukami praktycznymi (bo korzystając z ogólnej teorii psychologicznej, projektowałyby osiągnięcie pożądanego sianu rzeczy, np. zrehabilitowanie alkoholika). Najwyraźniej ten typ myślenia metodologicznego zaważył na traktowaniu pedagogiki czy psychologii wychowawczej jako nauki praktycznej. Przypomnijmy, iż według Podgóreckiego charakterystycznymi dla tzw. nauk praktycznych są zdania dyrektywalne, które, ujmując rzecz schematycznie, przyjmują postać wypowiedzi: „chcąc osiągnąć postulowany stan rzeczy A musisz wykonać działanie B" — np. chcąc ukształtować osobowość ucznia według wzoru prospołecznego, musisz podejmować takie to, a takie działania wychowujące. Swoisty jest stosunek Podgóreckiego do ocen: oceny właściwe wyznaczają problemy, a 57
oceny utylitarne stanowią twierdzenia formułowane na obszarze nauk praktycznych. Z kolei nauki teoretyczne nie eksponują ocen. Podejmują one wyłącznie problemy teoretyczne. Warto może jeszcze przytoczyć zwięzłą charakterystykę jednych i drugich podaną przez Kotarbińskiego. Nauka teoretyczna, to taka „której celem naczelnym jest zdobywanie prawd (...)", a nauka praktyczna, to taka, „której celem naczelnym jest coś innego niż zdobywanie prawd, np. to, aby powstało jakieś narzędzie albo nastąpiło wyzdrowienie, albo zwiększył się majątek" (Kotarbiński, 1972, s. 6). Psychologia stosowana — odpowiadając, jak się wydaje, na społeczne zapotrzebowanie w sferze szeroko rozumianej praktyki społecznej — identyfikuje formułowane na jej gruncie problemy i zadania jako problemy i zadania należące do nauki praktycznej. Zatem korzysta ona z ustaleń teoretycznych dokonanych na gruncie psychologii ogólnej, która dostarcza jej naukowej wiedzy o zależnościach między faktami. Dokonując „importu" owej wiedzy, formułuje twierdzenia o charakterze optymalizacyjnym. O ich „dobroci" decyduje stopień, w jakim oparte na nich działania praktyczne pozwalają osiągnąć postulowany stan rzeczy, np. zresocjalizowanie więźnia, zrehabilitowanie alkoholika czy usamodzielnienie życiowe oligofrenika. Uważam jednak, że nie jest to trafna charakterystyka psychologii stosowanej. Nietrafność tej charakterystyki wynika z przyjęcia przez Podgóreckiego podziału nauk na teoretyczne i praktyczne. W świetle ustaleń dokonanych przez Siemianowskiego w pracy Poznawcze i praktyczne funkcje nauk empirycznych (1976) podział ten jest nie do utrzymania. Można by go respektować, jak pisze Siemianowski, tylko wówczas, gdyby znana była chociaż jedna dyscyplina empiryczna, spełniająca jeden z warunków: „(1) nie zawierająca żadnego twierdzenia mogącego stanowić podstawę naukowego wyjaśniania znanych faktów lub przewidywania faktów nieznanych i równocześnie zawierająca twierdzenie odpowiadające na pytanie jak postępować, aby uzyskać określony cel badawczy, (2) która umożliwiając wyjaśnienie i przewidywanie — nie dostarcza żadnych informacji użytecznych w działaniach praktycznych" (1976, s. 7). Akceptuję też stanowisko zawarte w cytowanej pracy Siemianowskiego (tamże, s. 53-54), zgodnie z którym: (1) naczelnym zadaniem nauk empirycznych jest dostarczanie wyjaśnień fak tów, regularności oraz prawidłowości empirycznych, (2) problemy formułowane na gruncie tych nauk, to problemy poznawcze (odpowiedź na pytanie: „dlaczego?"), (3) podstawowe zdania formułowane w tych naukach, to prawa empiryczne stanowiące podstawę naukowego wyjaśnienia, (4) prawa empiryczne podlegają sprawdzaniu, (5) informacje występujące w formułowanych- przez badaczy przewidywaniach wykorzystywane są „przy rozwiązywaniu praktycznych problemów decyzyjnych", (6) w związku z (5) jedna z funkcji nauk empirycznych polega na „dostarcza niu informacji decydentom, przed którymi wyłonił się praktyczny problem wyboru". 58
Ponieważ nie na każde zapotrzebowanie praktyki społecznej w danym okresie określona dyscyplina empiryczna jest w stanie udzielić pozytywnej odpowiedzi przez dostarczenie naukowej podbudowy dla działań praktycznych, więc przedstawiciele praktyki społecznej zmuszeni są sięgać po dane zawarte w wiedzy pozanaukowej (np. wiedza parapsychologiczna, magia, wierzenia). Nawiasem mówiąc, niekiedy w znacznym stopniu, np. w sferze psychoterapii, praktyka oparta jest na intuicji, zdrowym rozsądku, a nawet myśleniu życzeniowym. Dochodzi też do zderzenia dwóch rodzajów zapotrzebowania zgłaszanego ze strony społecznej praktyki: — zapotrzebowania autentycznego, — zapotrzebowania nakazowego (sterowanego instytucjonalnie). Bywa, że racje naukowe nie zgadzają się z racjami pozanaukowymi, że oczekuje się działań praktycznych zgodnych z tymi ostatnimi, a niekoniecznie zgodnych z wynikami badań naukowych. Jak tedy postąpić ma psycholog udostępniający wiedzę na temat mechanizmów kształtowania osobowości czy kształtowania i zmian postaw (stanowiącą teoretyczną podbudowę systemu działań socjotechnicznych) w odpowiedzi na zgłoszone przez instytucję X (np. pozostającą w bliskiej więzi z jakimś ośrodkiem władzy) zapotrzebowanie obwarowane swoistymi warunkami brzegowymi, niewiele mającymi wspólnego, czy to z racjami naukowymi, czy też z racjami podmiotowymi? A co z kolei ma zrobić przeciętny realizator owych działań socjotechnicznych? Są to ważne pytania. Dotyczą one relacji między dwiema perspektywami patrzenia, perspektywą naukową i perspektywą ideologiczną, na praktykę. Bywa i tak, że racje naukowe dochodzą — w takich przypadkach — do głosu niejako w drugiej kolejności (o ile są dopuszczalne z punktu widzenia założonej perspektywy ideologicznej). Ważne jest przecież — zgodnie z „duchem" zdań dyrektywalnych — aby podejmować takie działania, które gwarantują realizację postulowanego (przez kogo?) stanu rzeczy uznanego za optymalny (dla kogo1). Ważny jest przecież — w założonej perspektywie ideologicznej — „cel", cel wychowania, cel propagandy itp. To, co charakteryzuje współczesną naukę, to wielość propozycji teoretycznych w zakresie ujęcia danego faktu, wielość metod i środków dochodzenia do prawdy, przejawiająca się w pluralizmie metodologicznym i światopoglądowym. Ów pluralizm powinien też znaleźć odbicie w działaniach podejmowanych na polu praktyki. Wreszcie, dobro podmiotu powinno być tym kryterium pozanaukowym, które przede wszystkim należy uwzględnić przy podejmowaniu decyzji w sferze praktyki społecznej opartej na naukowej wiedzy psychologicznej. Odrzucając stanowisko, zgodnie z którym niezbędne jest ogniwo pośredniczące między praktyką społeczną a psychologią „teoretyczną" pod postacią „psychologii stosowanej", akceptuję takie stanowisko, w myśl którego związek teorii psychologicznej z praktyką społeczną sprowadza się do stosowania teoretycznej wiedzy psychologicznej (dobrze uzasadnionej empirycznie) w poszczególnych sferach praktyki społecznej. Niepotrzebna jest „druga" (pod względem teoretycznym i metodologicznym — gorsza) psychologia (tylko pozornie bardziej przydatna w praktyce, bo operująca językiem zrozumiałym dla decydenta ze sfery praktyki spo59
łecznej. bo zajmująca się pacjentem, a nie szczurem w laboratorium, bo — wreszcie — obiecująca natychmiastowe gratyfikacje po zastosowaniu jej metod i jej wyników). W ujęciu tu promowanym mamy do czynienia z jedną psychologią (i przez analogię zjedna fizyką, jedną socjologią). Tak więc będziemy mówili, na przykład, o psychologicznej teorii uczenia się, która staje się podstawą systemu dydaktycznego szkoły. Zbędne są też — żeby odwołać się do przykładu z innej dziedziny praktyki — „teorie psychoterapeutyczne", nad którymi pracują psychologowie kliniczni. Zamiast mówić o takich teoriach podbudowujących działania terapeutyczne proponuję — za Krzeczkowskim (por. Siemianowski, 1976, s. 217) — mówić o „umiejętnościach" terapeutycznych (analogicznie: pedagogicznych, chirurgicznych itp.).
5. Obieg informacji między sferą praktyki społecznej i sferą nauki Przejdźmy teraz, zgodnie z wyżej przedstawionym porządkiem, do bliższego scharakteryzowania zewnętrznych uwarunkowań procesu badawczego, tj. do omówienia kontekstu praktyki społecznej (por. blok I, rys. 2.1). Ramowym odniesieniem dla prezentacji owych uwarunkowań jest Kmity (1976) model wzajemnego warunkowania się obu sfer: praktyki społecznej i praktyki badawczej. Nawiązując do tej koncepcji filozoficznej chciałbym zaprezentować jej główne idee odniesione do interesującego nas zagadnienia. Na rys. 2.3 przedstawiony został, w postaci syntetycznej, obieg informacji między sferą praktyki społecznej (blok 1.), która rejestrując nieefektywność podejmowanych w jakimś z jej obszarów działań praktycznych „zgłasza" — pod adresem nauki (tu: psychologii) — zapotrzebowanie na nowe rezultaty badawcze zwiększające efektywność opartych na nich działań (por. blok 2.). Na gruncie danej dyscypliny naukowej przygotowana zostaje odpowiedź w postaci nowej teorii (por. blok 3.), względnie korekt do obowiązującej teorii i nowej metody na niej nadbudowanej. Celem, do którego dążą badacze jest konstruowanie teorii pozwalającej na dokładniejsze wyjaśnienie zależności zachodzących w danym obszarze sfery praktyki społecznej oraz zwiększenie jej mocy predykcyjnej. Zanim propozycja nowego (względnie skorygowanego) ujęcia danego zjawiska będzie upowszechniona, musi przejść przez filtr metodologiczny (por. blok 4.). Inaczej mówiąc, musi spełnić obowiązujące na danym etapie rozwoju określonej dyscypliny naukowej kryteria „dobroci" teorii. Musi wytrzymać próbę konfrontacji z faktami empirycznymi. Pozytywny wynik tego testu pozwala teraz na opracowanie, opartych na testowanej teorii, dyrektyw praktycznego działania odpowiadających wprost na zgłaszane przez praktykę społeczną zapotrzebowanie. Zanim jednak dany obszar pra60
khki społecznej będzie funkcjonował według programu uwzględniającego owe dylektywy, to i one muszą przejść przez sprawdzający ich skuteczność filtr prakseologiczny (por. blok 5.).
ZAPOTRZEBOWANIE SPOŁECZNE ADRESOWANE / DO NAUKI / 2
(c)
Rw 2.?. Obieg informacji między sferą praktyki społecznej i sferą praktyki badawczej
Podejmowane postępowanie realizujące nadbudowane na nowej teorii dyrektywy praktycznego działania musi jeszcze być sprawdzone pod kątem etycznej dopuszczalności. Chodzi o to, aby pomagając jednocześnie nie szkodzić. Aby, odwołując się do przykładu, nowa metoda postępowania z dziećmi nie wyzwalała u nich stanów lękowych, frustracji, zagrożenia ich poczucia własnej wartości. Zatem jeszcze jeden filtr włączony w obieg informacji, filtr etyczny (por. blok 6.). Pozytywny wynik dopuszcza nową propozycję do upowszechnienia w danym obszarze praktyki społecznej. Negatywne wyniki wszystkich filtrów względnie tylko jednego z nich, „cofają" nas znowu do bloku 2. Ponownie aktualne staje się pytanie o nowe propozycje programu działania bardziej efektywnego od dotychczas obowiązującego. Wyżej naszkicowany obieg informacji można by nazwać normalnym. Jednak obok normalnego obiegu informacji w praktyce spotykamy się z jego wypaczeniami. Owe wypaczenia polegają bądź na pominięciu któregoś z filtrów (co na rys. 2.3 ilustrują linie a, b, c), bądź na wprowadzeniu dodatkowego, czwartego filtru (linia d do bloku 7.). I tak, nowa propozycja teoretycznego ujęcia danego zjawiska może być od razu (poza filtrem metodologicznym) wykorzystana jako podstawa zaprogramowania działań praktycznych (linia a), które bez uprzedniego sprawdzenia ich skuteczności (pominięcie filtru prakseologicznego) mogą być „od razu" wprowadzone do sfery praktyki społecznej (linia b). Takie przyspieszone postępowanie może — wbrew nadziejom psychologa — zakończyć się fiaskiem. 61
Także w przypadku uwzględnienia filtru metodologicznego, a opuszczenia filtru prakseologicznego może okazać się, że mimo dobrej podstawy teoretycznej program działania okazał się nieefektywny, gdyż wadliwie przełożono twierdzenia teorii na dyrektywy praktycznego działania. Uwzględnienie filtru prakseologicznego zapobiegłoby upowszechnieniu wadliwego programu działania. Wreszcie — linia c — program działania nie poddany „atestacji etycznej" może doprowadzić do tego, że psycholog (lub inny realizator ze sfery praktyki społecznej) chcąc pomagać będzie jednocześnie szkodził — jego działania będą odbierane lękowo, będą wyzwalały frustracje, czy zagrażały jego poczuciu własnej wartości. Takie jatrogenne działanie jest, rzecz jasna, nie do zaakceptowania. Wypaczenia obiegu informacji, jego patologizacja, mogą być związane nie tylko z wypadnięciem jednego, dwóch lub wszystkich trzech filtrów. W systemach totalitarnych w obieg informacji między sferę praktyki społecznej i sferę praktyki badawczej wprowadzony jest jeszcze dodatkowy filtr, któremu przypisywana jest rola cenzorska. Jest to filtr ideologiczny. To on w instancji ostatecznej „decyduje" 0 tym, czy dany program (bez względu na wyniki filtrów: metodologicznego, pra kseologicznego i etycznego) będzie upowszechniony czy też nie. Jakie z tego tytułu konsekwencje ponosi społeczeństwo pozostające w okowach rządów totalitarnych, nie trzeba tutaj pisać. Wystarczy wspomnieć o losach genetyki w ZSRR ery stali nowskiej, losach fizyki „niearyjskiej" w III Rzeszy, czy o losach wyników badań społecznych nie respektujących dogmatu marksistowsko-leninowskiego w krajach opartych na rządach komunistycznych. To wypaczenie ilustruje na rys. 2.3 linia d 1 blok 7. Przystępując do realizacji jakiegoś projektu badawczego badacz podlega omówionym wyżej uwarunkowaniom, nie może się od nich uwolnić. Jest w jakiejś mierze zaprogramowany społecznie. Nie można tedy w pełni zrozumieć postępowania badacza w trakcie realizacji procesu badawczego, zrozumieć podejmowanych przez niego decyzji badawczych, jeżeli nie spojrzy się na niego jako na uczestniczącego (z jednej strony biernie, bo przyjmującego zalecenia praktyki społecznej, a z drugiej strony czynnie, bo starającego się zmienić stan praktyki społecznej) w opisanym wyżej obiegu informacji. W szczególności jednak praktyka społeczna — co pokazane zostanie w następnym rozdziale — oddziałuje na badaczy modyfikując ich stan świadomości metodologicznej.
6. Podsumowanie W niniejszy rozdziale ukazane zostały powiązania między sferą praktyki społecznej, w jakiejś mierze obsługiwaną przez psychologię, jako dostarczającą jej efektywnych metod umożliwiających sprawne funkcjonowanie, oraz sferą praktyki badawczej, „wymyślającej" (i sprawdzającej) nowe teorie i nowe metody działania — z inspiracji praktyki społecznej. Naszkicowane tu ujęcie powiązań obu tych sfer 62
zrywa z zakorzenionym w środowisku psychologów-praktyków przekonaniem, iż dla prawidłowej „obsługi" praktyki społecznej niezbędne jest powołanie, obok psychologii akademickiej (mało przydatnej, bo oderwanej od życia; por. Straś-Romaoowska, 1992), psychologii stosowanych (wielu!). Zgodnie jednak z prezentowanym w tej książce stanowiskiem istnieje tylko jedna psychologia o wielu praktycznych zastosowaniach, w różnych dziedzinach życia społecznego. Czytelnikowi zainteresowanemu poznaniem innych ujęć rozważanego, na gruncie psychologii, problemu „teoria a praktyka" polecam następujące opracowania: Kowalik S. Upośledzenie umysłowe. Teoria i praktyka rehabilitacji; Kowalik S. i Sęk H. Psychologia kliniczna i psychologia społeczna — pojęcia, przedmiot i wzajemne związki; Tomaszewski T. Wstęp do psychologii, rozdz. 5.: Psychologia jako nauka społecznie użyteczna; Franus E. Struktura i ogólna metodologia nauki ergonomii, część III., pkt. VIII. Zasada integracji teorii z praktyką.
Rozdział 3. Wewnętrzne determinanty procesu badawczego (I) — wpływ świadomości metodologicznej na rezultaty procesu badawczego 1. Wprowadzenie Empiryczne badania psychologiczne w większości przypadków realizowane są — tak, jak to przed laty pokazał Cronbach (1957, 1975) — w dwóch nurtach: (a) eksperymentalnym, (b) korelacyjnym. W opracowaniach metodologicznych mówi się o modelowych ich ujęciach (mniej lub bardziej wyidealizowanych). W rozdziałach: 12., 13. i 14. modele te zostaną dokładnie przedstawione. Zakładają one pewną standardową postać procesu badawczego (por. rozdz. 1.), który powinien być odtwarzany — krok po kroku — przez psychologa, aby zminimalizować obciążenie uzyskanych rezultatów badawczych wywołane pominięciem lub niezbyt dokładnym (czy nawet złym) wykonaniem elementów szeroko pojętej, standardowej procedur) badawczej — owego wzorca „umieszczonego" w świadomości metodologiczne psychologów. Trzeba jednak pamiętać, że źródłem artefaktów w badaniach psychologicznych jest nie tylko metodologiczna (w sensie rzeczywistego stanu społecznej świadomości metodologicznej — por. Kmita, 1976) niedoskonałość psychologii jako dyscypliny naukowej. Drugim niezmiernie ważnym źródłem artefaktów są wskazane w klasycznej już dziś pracy Rosenzweiga (1993; por. także: rozdz. 4., pkt. 2.) osobliwości odróżniające badanie psychologiczne od analogicznych badań fizycznych, biologicznych czy chemicznych. Wreszcie, rezultaty badania psychologicznego mogą ulegać daleko idącej transformacji zmieniającej ich pierwotny sens wówczas, gdy są „odczytywane" przez reprezentantów instytucji społecznych, które są zainteresowane ich wykorzystaniem jako podstawy (naukowej!) do podejmowania określonych działań praktycznych. Owe wyniki legitymizują podejmowane przez instytucję decyzje, zwłaszcza wówczas, gdy nie mogą one liczyć na popularność w społeczeństwie. Instytucje takie mogą też czuć się uprawnione do takich interpretacyjnych manipulacji zwłaszcza wówczas, gdy to one sponsorowały owe badania psychologiczne. Także 64
sam badacz może ulec „czarowi" instytucji sponsorującej prowadzone przez niego badania, i przeprowadzić je tak (niekoniecznie uświadamiając to sobie), aby ich rezultaty nie rozminęły się ze znanymi mu oczekiwaniami instytucji. O tym pisałem dokładniej w poprzednim rozdziale (rozdz. 2.). Aspekty etyczne tego zagadnienia poruszone są w rozdz. 6., pkt. 2. W tym zaś rozdziale chciałbym położyć nacisk na te elementy świadomości metodologicznej (i ich wzajemne powiązania), które — jak mi się wydaje — odgrywają szczególną rolę w powstawaniu wspomnianych wyżej obciążeń czy artefaktów. Chciałbym też zwrócić uwagę na zniekształcające — i intencje badacza, i uzyskane przez niego rezultaty badawcze — oddziaływanie kontekstów (innych niż kontekst świadomości metodologicznej), w których „zanurzone" są zarówno czynności badawcze (dochodzenie do rezultatu badawczego czy, inaczej mówiąc, do rozwiązania problemu badawczego), jak i czynności związane z aplikacją rezultatu badawczego (przeniesienie przetworzonego, ale nie przez badacza (!), rezultatu badawczego z laboratorium do praktyki społecznej). W tym miejscu będą one tylko umieszczone w ogólnym schemacie; ich dokładniejsze omówienie znajdzie Czytelnik w innych rozdziałach tej części.
2. Trafność badania psychologicznego Analizując postępowanie badawcze psychologa możemy próbować poszukać odpowiedzi na dwa, jak się wydaje, bardzo podstawowe pytania. Odpowiedź na nie przesądza bowiem o wartości poznawczej i praktycznej uzyskanego przez psychologa rezultatu badawczego (dalej RB)!.
2.1. Trafność wewnętrzna Pierwsze pytanie związane jest z wyborem procedury badawczej (obejmującym istotne jej elementy), umożliwiającej dokonanie trafnej oceny sformułowanej przez badacza hipotezy, jako odpowiedzi na postawiony problem badawczy. Pytanie to zatem dotyczy „logiki procesu badawczego", a dokładniej, związane jest z obowiązującym w danej dyscyplinie naukowej (empirycznej) standardem realizacji procesu badawczego, a także aspektów treściowych podejmowanych przez psychologa decyzji związanych z wyborami określonych rozwiązań metodologicznych w poszczególnych krokach procesu badawczego (tzw, węzłach decyzyjnych). Owe wybory przesądzać będą, w ostatecznej instancji, o tym, czy uzyskany przez psychologa RB będzie mógł stanowić podstawę (empiryczną) zaakceptowania merytorycznie 1 Na końcu tego rozdziału zamieszczony został — dla wygody Czytelnika — wykaz skrótów, którymi posługuję się tu.
65
poprawnej (trafnej) hipotezy lub podstawę jej odrzucenia, gdyby ona sama okazała się nietrafna. Odwołajmy się do prostej ilustracji empirycznej. Otóż w psychologii znane jest tzw. prawo Yerkesa-Dodsona mówiące o nieliniowej zależności, „LT-kształtnej. między poziomem wykonania jakiegoś zadania oraz poziomem aktywacji (motywacji) podmiotu je wykonującego. Zgodnie z tym prawem, wraz ze wzrostem, ale do pewnego optymalnego punktu, poziomu aktywacji organizmu zwiększa się poziom wykonania zadania (mierzony, na przykład, liczbą popełnionych błędów). Jednakże po przekroczeniu tegoż optimum poziomu aktywacji, dalszy jego wzrost powoduje spadek poziomu wykonania zadania. Gdybyśmy zaplanowali eksperymentalne potwierdzenie tej hipotezy i zaprojektowali badanie wedle jednego z klasycznych planów „zero-jeden" (takich jak omówione w rozdz. 12., pkt. 5.), to okazałoby się, że — w zależności od doboru dwóch wartości poziomu aktywacji: „niższego" i „wyższego" — albo potwierdzilibyśmy hipotezę o zależności liniowej (rosnącej lub malejącej), albo też obalilibyśmy hipotezę o jakimkolwiek związku — liniowym czy krzywoliniowym. Rzecz jasna, brak wiedzy badacza na temat ograniczeń zastosowań tych planów eksperymentalnych do empirycznego sprawdzania wyłącznie hipotez o zależnościach liniowych powoduje, że przeprowadzone przez niego badanie empiryczne nie będzie mogło dostarczyć RB przesądzającego 0 trafności hipotezy, nawet gdy jest ona de facto prawdziwa. Inny przykład dotyczy wyboru miary związku między zmienną niezależną 1 zmienną zależną. Wybór współczynnika determinacji (r2) opartego na współczyn niku korelacji liniowej w sytuacji, gdy dane empiryczne wykazują wyraźny trend krzywoliniowy, może doprowadzić do bardzo znacznego niedoszacowania badanej zależności. Właściwy w takiej sytuacji byłby albo wybór wskaźnika eta-kwadrat (z/ 2 ), albo postępowanie oparte na analizie składowych regresyjnych (por. rozdz. 12., pkt. 7. oraz rozdz. 13., pkt. 4.). W tym przykładzie mieliśmy sytuację, w której mimo wyboru trafnego planu badawczego, umożliwiającego testowanie hipotez tra ktujących o zależnościach nieliniowych, „niedouczenie" statystyczne badacza spo wodowało, że nie doszacował on (i to znacząco!) siły związku między zmienną niezależną a zmienną zależną. Przykłady można by mnożyć, ale — jak sądzę — te dwa dobrze ilustrują typ błędów, o których tu piszę. Zauważmy jeszcze, że czym innym jest trafna /nietrafna (w sensie opisywania faktycznej zależności) hipoteza sformułowana przez badacza, jako — na gruncie jego wiedzy — najbardziej prawdopodobna odpowiedź na pytanie badawcze, a czym innym jest trafna/nietrafna (w wyżej wyłożonym sensie) procedura badawcza umożliwiająca /uniemożliwiająca potwierdzenie /odrzucenie hipotezy badawczej. Ponadto, prowadząc badanie stwarzające metodologiczne warunki do potwierdzenia /odrzucenia trafnej /nietrafnej hipotezy, badacz mimo wszystko może podjąć decyzję — w efekcie błędnego zinterpretowania RB - błędną bo: (a) nakazującą odrzucenie prawdziwej (trafnej) hipotezy — błąd typu A, (b) nakazującą akceptację fałszywej (nietrafnej) hipotezy — błąd typu B. 66
Trudno z kolei określić rodzaj błędu popełnianego przez psychologa prowadzącego badanie nietrafne, a tym samym uniemożliwiające uzyskanie trafnego RB (chyba że przez przypadek). Mogą wystąpić dwie takie sytuacje: (1) testowanie trafnej hipotezy w warunkach badania psychologicznego cechu jącego się brakiem trafności, oraz (2) testowanie nietrafnej hipotezy w warunkach badania cechującego się bra kiem trafności. Ciąg: I. hipoteza — II. badanie empiryczne — III. RB — IV. decyzja, którego ogniwa poddane są ocenie „zero-jedynkowej" (trafne versus nietrafne) zosta! przedstawiony na rys. 3.1. Stan metodologicznie i psychologicznie „pożądany" pokazują ścieżki nakreślone pogrubioną linią.
I. HIPOTEZA
R EZ ULTAT B AD AW C Z Y [ R B]
II. BADANIE
IV. DECYZJA TRAFNA [akceptacja trafnej hipotezy]
BŁĄD A [odrzucenie trafnej hipotezy]
TRAFNA
TRAFNE
NI ET R AFN E
TRAFNY
TRAFNA [odrzucenie nietrafnej hipotezy]
■>TRAFNY BŁĄDB [pozostawienie nietrafnej hipotezy]
TRAFNE
N I ET R AF N E
Rys. 3.1. Cztery rodzaje trafności występujące w badaniu psychologicznym: I. Trafność hipotezy, II. Trafność badania empirycznego, III. Trafność RB, IV. Trafność decyzji badacza
Opisany wyżej rodzaj trafności badania psychologicznego nazwiemy trafnością wewnętrzną2. Za badanie trafne wewnętrznie będziemy zaś uznawać badanie przeprowadzone w sposób umożliwiający uzyskanie prawdziwej odpowiedzi na sfor* Nawiązuję tu do pojęcia internal validity (trafność wewnętrzna) wprowadzonego w pracy Campbella (1957) i rozwiniętego w pracach Campbella i Stanleya (1963) oraz Cooka i Campbella (1979). Wprowadzone przez Campbella rozróżnienie między trafnością wewnętrzną i trafnością zewnętrcną spotkało się nie tylko z aprobatą — choć ta w efekcie przeważyła -— ale też z uwagami bytycznymi (por. Kruglanski, Kroy, 1975: Hultsh, Hickey, 1978), które, jak mi się wydaje, Cook iCampbeli przekonywająco odparli (1979, s. 85-94).
67
mulowane przez badacza pytanie (umożliwiające rozwiązanie problemu badawczego). Inaczej mówiąc, badanie trafne wewnętrznie stwarza możliwość uzyskania potwierdzenia hipotezy, jeżeli jest ona prawdziwa, i jej odrzucenia, jeżeli jest ona fałszywa.
2.2. Trafność zewnętrzna Przejdźmy teraz do pytania drugiego. Załóżmy na początek, że psycholog przeprowadził trafne wewnętrznie badanie empiryczne i podjął, także trafną, decyzję dotyczącą hipotezy badawczej. I co dalej? Otóż powinien on teraz uogólnić (zgeneralizować) RB (dokładniej: treść hipotezy potwierdzonej w badaniu empirycznym) na wszystkie te elementy populacji (najczęściej populacja obejmuje zbiór osób o znanych badaczowi właściwościach), które reprezentowane były w próbie, na której przeprowadzono właściwe badanie empiryczne testujące hipotezę badawczą. Taki jest zresztą sens prowadzenia badań na reprezentatywnych próbach (o stosunkowo niewielkich liczebnościach) pobieranych z populacji obejmujących dużo osób i przez to trudnych (technicznie czy ekonomicznie) do objęcia danych badaniem. Generalizowaniu podlegają także elementy sytuacji badania (wytworzone przez badacza w laboratorium), w której w określony sposób zachowują się osoby badane wchodzące w skład próby. Zakłada się przy tym milcząco, że elementy sytuacji badania stanowią uproszczony, ale w miarę wierny, obraz realnej sytuacji życiowej. Dlatego też (np. Aronson i inni, 1994, s. 58) mówi się o: (1) realizmie psychologicznym (psychological realism) i (2) realizmie życiowym {mundane realism), którymi powinien być nacechowany każdy eksperyment przeprowadzony przez psychologa (o czym dokładniej w rozdz. 12., pkt. 2.5.). Generalizowanie wniosków z poziomu próby na poziom populacji jest uzasadnione wówczas, gdy zmienne niezależne zaliczone przez badacza do obrazu przestrzeni zmiennych istotnych dla zmiennej zależnej, tj. O(Py), będą przyjmowały dla elementów (osób) z próby wartości z tych samych podzakresów wartości co dla elementów (osób) z populacji. Zatem nie tylko: O(PY )-próby = 0(P y)-populacji, ale także, na poziomie próby, uwzględnione są te same podzakresy wartości zmiennych zaliczonych do O(P¥). Nie jest to wcale warunek łatwy do spełnienia w przypadku dyscyplin naukowych zaliczanych do nauk behawioralnych, a więc i w przypadku psychologii. Jednym z powodów, dla których wspomniany zabieg uogólniania RB z próby (przebadanej!) na populację (nie poddaną badaniom!) może być — i najczęściej jest — nieuprawniony, jest to, że Xj istotne dla Y (najczęściej zmienne zakłócające) przyjmują dla osób z próby wartości z innego podzakresu wartości niż dla osób z populacji. Zilustruję to następującym przykładem: 68
Kinsey i jego współpracownicy przeprowadzili w latach czterdziestych i pięćdziesiątych słynne badania nad zachowaniem seksualnym mężczyzn i kobiet (Kinsey i inni, 1948; Kinsey i inni, 1953). Przeprowadzone nad wzorcem zachowań seksualnych badania objęły 8 tys. mężczyzn i 12 tys. kobiet. Badania miały charakter ankietowy i objęły tylko ochotników. Z wcześniej przeprowadzonych przez Masłowa (1942) badań nad związkiem zachowań seksualnych kobiet z ich poczuciem własnej wartości wynikało, że osoby, które uzyskiwały wysokie wyniki w teście badającym tę zmienną, wykazywały tendencję do przyjmowania niekonwencjonalnych postaw wobec zachowań seksualnych. Z kolei późniejsze badania Masłowa i Sakody (por. Maslow, Sakoda, 1952) przeprowadzone na części osób badanych przez Kinseya i jego współpracowników wykazały, że osoby biorące ochotniczo udział w badaniach ankietowych uzyskiwały wyższe wyniki na skali poczucia własnej wartości niż nieochotnicy. Podsumowując wyniki owych badań można powiedzieć (Rosenthal, Rosnow, 1984, s. 186), że badania przeprowadzone przez zespół Kinseya dostarczyły RB kreślących nieprawdziwy obraz wzorców zachowań seksualnych obowiązujących w społeczeństwie amerykańskim lat czterdziestych naszego wieku. Społeczeństwo amerykańskie nie było aż tak niekonwencjonalne, jeśli chodzi o sferę zachowań seksualnych, jak by to wynikało z badań Kinseya. Niestety, w psychologii stosunkowo dużo badań empirycznych prowadzi się na próbach skompletowanych z ochotników. Rosnow i Rosenthal (1976) szacują ich liczbę na 70 — 90% (są to zazwyczaj studenci pierwszych lat studiów, i to studiów psychologicznych!). Stawia to pod znakiem zapytania możliwość poprawnego generalizowania RB z tak dobieranych (nie losowo) prób na populacje. Ten rodzaj trafności, który związany jest z prawomocnością zabiegu generalizowania RB z próby na populację, nazwiemy trafnością zewnętrzną3. Dane badanie empiryczne jest trafne zewnętrznie, jeżeli na poziom populacji opisanej podzakresami wartości zmiennych niezależnych oraz zmiennej zależnej można będzie przenieść RB uzyskany z badania przeprowadzonego na poziomie próby. Inaczej mówiąc, zabieg przeniesienia (generalizowania) RB z próby na populację będzie uprawniony, jeżeli O(pY)-próby będzie tożsamy z 0(Py)-populacji pod względem tych samych podzakresów wartości Xj oraz Y opisujących próbę i populację. Zbierzmy, to co dotychczas powiedzieliśmy o ograniczeniach trafności zewnętrznej. Ograniczenia generalizowania wniosków z poziomu próby na poziom populacji (a więc ograniczenia trafności zewnętrznej badań psychologicznych) związane są z: (a) — brakiem symetrii O(P Y )-próby i O^^-populacji pod względem: (a~l): liczby zmiennych ważnych (nieadekwatność 0(PK)-próby względem zawartości 0(/V)-populacji, 3
Campbell (1957: także: Campbell, Stanley, 1963; Cook, Campbell, 1979) wprowadził pojęcie akrnal validily (trafność zewnętrzna).
69
(b)
(a-2): podzakresów wartości tych samych zmiennych ważnych (nieadekwatność O(Pr)-próby względem zakresów wartości zmiennych ważnych z 0(/V)-populacji; — brakiem symetrii O(PY )'próby i O(PY )-populacji pod względem zawartości podzbioru zmiennych zakłócających w O(PY)-pTÓby\ pewne zmienne w nim występujące nie pojawią się w 0(/V)-populacji: (b-1): stosowanie pomiaru zmiennych, a zwłaszcza pomiaru zmiennej zależnej (kontekst pomiaru), przed (tzw. efekt pretestu) i po wprowadzeniu manipulacji eksperymentalnej (posttest), w celu ustalenia wielkości efektu eksperymentalnego; (b-2): dobór osób do grup porównawczych (np. eksperymentalnej i kontrolnej) nie respektujący zasady randomiazacji (kontekst selekcji), a zwłaszcza wykorzystywanie w badaniach: (b-2.1): ochotników, (b-2.2): osób „specjalnych" (np. więźniów, żołnierzy, studentów psychologii (!), osób zamieszkujących wyraźnie wyodrębnione i „nietypowe" terytoria), (b-2.3): osób w jakiś sposób uzależnionych od badacza (np. studentów zdających egzamin u profesora prowadzącego nieprzyjemne badania nad stresem); (b-3): prowadzenie badań w warunkach nie odpowiadających warunkom, na które będą uogólniane wyniki badania (kontekst warunków); (b-4): oddziaływanie na osoby badane z próby, w czasie trwania badania, zdarzeń „zewnętrznych" wobec sytuacji badawczej (kontekst historyczny), które nie wystąpią lub wystąpią z inną intensywnością wtedy, gdy badacz będzie odnosił wyniki otrzymane na podstawie badania próby do osób z całej populacji; (b-5): wchodzenie osób badanych w interakcje z badaczem (kontekst psychologiczny), co związane jest z oddziaływaniem na zmienną zależną takich zmiennych kontekstu psychologicznego (por. rozdz. 4.), jak: (b-5.1): lęk osoby badanej przed oceną (por. rozdz. 4., pkt. 4.3.), (b-5.2): wskazówki sugerujące osobie badanej treść hipotezy badawczej (por. rozdz. 4., pkt. 4.2.), (b-5.3): motywacyja osoby badanej (por. rozdz. 4., pkt. 4.1.), (b-5.4): oczekiwania interpersonalne badacza (por. rozdz. 4., pkt. 3.1-3.3); (b-6): wchodzenie badaczy w interakcję z instytucjami (kontekst socjologiczny) zamawiającymi przeprowadzenie badań (sponsorującymi je).
Rysunek 3.2. ilustruje postępowanie badacza w kontekście trafności zewnętrznej i trafności wewnętrznej badania empirycznego przeprowadzanego w psychologii.
Rys. 3.2. Trafność wewnętrzna a trafność zewnętrzna badania psychologicznego
3. Proces badawczy w kontekście świadomości metodologicznej Rozpatrując proces badawczy w kontekście takiego konstruktu teoretycznego, jakim jest SM (świadomość metodologiczna), nie sposób pominąć — aby uzyskać w miarę pełny obraz uwarunkowań tego procesu — pozostałych kontekstów, pożarnetodologicznych, a wynikających z psychologicznej i socjologicznej natury badania empirycznego realizowanego przez psychologa (o czym, jako jeden z pierwszych, pisał wspomniany już Rosenzweig, 1933). Jest to tym bardziej istotne, że —jak się wydaje — owe pozametodologiczne wpływy w jakiś sposób przyczyniają się do kształtowania oblicza indywidualnej SM, a w konsekwencji i społecznej SM. Jak to ujął Kmita (1976), zapotrzebowanie społeczne, o którym była mowa w poprzednim rozdziale, zgłaszane pod adresem określonej dyscypliny naukowej „trafia" na określony stan społecznej świadomości metodologicznej. To, jaką wartość będzie miała odpowiedź psychologii na zapotrzebowanie społeczne zgłaszane przez sferę praktyki społecznej, będzie w znaczącym stopniu zależało od stanu owej świadomości. 71
Istotę owego powiązania stanu SM społeczności uczonych z zapotrzebowaniem praktyki społecznej na nowy, określony typ wyników badawczych ujął Kmita (1976, s. 97): „Pierwotnie obiektywne jest zawsze zapotrzebowanie na określony typ wyników badawczych, zaś świadomość metodologiczna stanowi subiektywną reprezentację tego zapotrzebowania. Jeżeli przy tym jest to reprezentacja dostatecznie adekwatna, a więc oparta na niej subiektywnie praktyka badawcza jest efektywna — staje się ona społecznym względnie trwałym kontekstem subiektywnym tej praktyki i przez dłuższy okres występuje w roli samodzielnego «sędziego» dalszych wyników badawczych". Analogicznie zachodzi powiązanie stanu społecznej SM z realizowaną na gruncie danej dyscypliny naukowej praktyką badawczą. Owa praktyka realizowana jest przez poszczególnych badaczy, których cechuje określony stan indywidualnej SM. Indywidualna SM jest swoistą konkretyzacją idealnej SM (społecznej) — swoistą dla różnych badaczy. Zauważmy jeszcze, że (Kmita, 1976, s. 20-22): „Teoretyczne wyjaśnienie zjawisk z dziedziny świadomości indywidualnej zawsze musi dokonywać się w terminach zjawisk z dziedziny świadomości społecznej, jakkolwiek z reguły niezbędne tu są jeszcze dodatkowe przesłanki eksplanacyjne. Co więcej, sam opis danego bloku przekonań indywidualnych może być dokonany jedynie w terminach zakładających określoną charakterystykę odpowiedniego bloku przekonań ze sfery świadomości społecznej: w terminach różnic dzielących ten pierwszy blok od jego idealnego odpowiednika społecznego. (...) Oczywiście możliwość wytwarzania przez jednostki istotnie nowych idei, czyli możliwość twórczości w szerokim tego słowa znaczeniu, oparta jest (...) na tym, iż stosunek świadomości indywidualnej do świadomości społecznej uregulowany jest (...) przez założenie o racjonalności — odniesione do poszczególnych jednostek. Stąd właśnie możliwe są różnego rodzaju innowacyjne «deformacje» indywidualne świadomości społecznej, z których pewne okazują się być następnie twórcze w węższym (tym razem) znaczeniu tego słowa: odpowiadają dostatecznie adekwatnie na nowo powstałe zapotrzebowanie obiektywne, dzięki czemu przechodzą do sfery świadomości społecznej". Powtórzmy, w skrócie, to co wyżej zostało powiedziane. Ze strony praktyki społecznej pojawia się zapotrzebowanie na określonego rodzaju rezultaty badawcze (o ważkich konsekwencjach teoretycznych i metodologicznych także dla praktyki badawczej). Znajduje ono odzwierciedlenie w społecznej SM. Jeżeli przy tym subiektywna praktyka badawcza oparta na tej ostatniej jest efektywna, to SM staje się — jak zauważa Kmita (1976, s. 97): „(...) społecznym, względnie trwałym kontekstem obiektywnym tej praktyki i przez dłuższy okres występuje w roli samodzielnego «sędziego» dalszych wyników badawczych". Jest tak, aż do pojawienia się nowych zapotrzebowań ze strony praktyki społecznej, które nie są zaspokajane przez rezultaty badawcze uzyskiwane na gruncie dotychczasowego stanu społecznej SM. Zajmijmy się teraz opisaniem struktury SM, która decyduje o jakości „filtru metodologicznego" ingerującego w obieg informacji przedstawiony w rozdz. 2. na rys. 2.3. 72
To, co przede wszystkim charakteryzuje badacza, to jego wiedza na temat badanego obiektu. Powinien on umiejętnie posługiwać się „obowiązującym" w danej społeczności badaczy kanonem teorii naukowych. Z ich pomocą móc opisywać, wyjaśniać i przewidywać zachodzenie zmian badanych zjawisk. Jednakże nie wystarczy znać jedynie „czyste" teorie psychologiczne. Trzeba jeszcze wykazać się znajomością swoistych dla tych teorii metod badawczych. Znajomość narzędzi właściwych psychologii umożliwia z jednej strony poprawne formułowanie twierdzeń i teorii naukowych, a także prawidłowe ocenianie natężenia rozpoznanych w trakcie badania czynników istotnie modyfikujących zachowanie się osoby badanej, a z drugiej strony — poddanie ich empirycznej modyfikacji. Poznanie narzędzi badawczych to nie tylko wiedza o: (a) zakresie ich stosowania w praktyce badawczej psychologii, (b) psychologicznym sensie uzyskiwanych z ich pomocą wyników, (c) znaczeniu danego wyniku dla wyjaśnienia zachowania się osoby badanej, ale także (d) wiedza-umiejętność budowy, analogicznych do wersji prototypowych, nowych narzędzi. Badacz musi także posiąść wiedzę dotyczącą sposobów empirycznej weryfikacji formułowanych przez siebie teorii, luźniejszych grup twierdzeń czy pojedynczych hipotez. Nawet najciekawsza poznawczo i najbardziej obiecująca, jeśli chodzi o konsekwencje (potencjalne) dla praktyki społecznej, hipoteza (czy teoria), jest tylko tworem umysłu, który wpierw musi być skonfrontowany z „twardą" rzeczywistością, aby mógł być odpowiedzialnie upowszechniony. Każdy pomysł badawczy, czy to jest teoria, czy nowa metoda badawcza, musi być zatem poddany empirycznej weryfikacji. Psychologia dysponuje szerokim wachlarzem modeli badawczych, które w takich przypadkach znajdują zastosowanie. Trzeba zatem, aby badacz posiadł również wiedzę na ich temat. Bez tej znajomości trudno uznać jego kompetencje za pełne. Sumując, badacz musi dysponować wiedzą o modelach badań psychologii. Powinna to być wiedza operatywna, umożliwiająca mu nie tylko powielanie, „odbijanie z matrycy", typowych rozwiązań badawczych opisanych w podręcznikach, ale również — czy przede wszystkim! — stosowanie twórczych przekształceń znanych rozwiązań w nowych, niestandardowych sytuacjach badawczych. W ten sposób dochodzić będzie do bardzo pożądanych sprzężeń rozwoju teoretycznego psychologii z rozwojem jej instrumentarium (w sensie wykluczania nieefektywnych procedur badawczych, uzupełniania i korygowania już funkcjonujących oraz wprowadzania nowych podejść badawczych). Oczekuje się tedy od badacza, aby nie był skostniały, aby nie zatrzymywał się« swoim rozwoju teoretycznym i metodologicznym na poziomie wiedzy przetozanej mu w okresie, gdy był studentem, ale aby był otwarty na nowe idee i poglądy, aby stale unowocześniał swój warsztat badawczy. Opanowanie języka teorii i metod danej dyscypliny naukowej i swobodne nimi operowanie przez badacza świadczy o jego dobrym przygotowaniu do rozwiązywania problemów badawczych. Czy zatem można uznać za modelowe swobodne, elastyczne operowanie przez badacza dorobkiem współczesnej psychologii? Czy 73
jest tak, że do danego problemu dobiera on najlepiej mu „pasującą" teorię psychologiczną, a do oceny natężenia czynników hipotetycznych, istotnie wywierających wpływ na zachowanie się osoby badanej, dobiera metody najlepiej mu znane względnie te, które sobie upodobał? Otóż taki obraz badacza „fruwającego beztrosko z kwiatka na kwiatek", z teorii na teorię, z narzędzi na narzędzia byłby obrazem nie zalecanym. Co więcej, należy przeciwstawić się ewentualnemu upowszechnieniu takiego obrazu badacza — „erudyty". Niestety, obserwujemy, iż taki obraz „naukowego" funkcjonowania badaczy znajduje dość duże wzięcie wśród nich samych. Wydaje się on zaprzeczeniem skostnienia teoretycznego i świadectwem swoiście rozumianych kompetencji zawodowych. Zatem jakie jest modelowe ujęcie powiązań między: (a) teoriami i (b) narzędziami badawczymi? Spróbujmy na to pytanie odpowiedzieć. Zanim badacz zacznie posługiwać się językiem określonej teorii i stosować określone narzędzia badawcze, musi najpierw dokonać wyboru natury bardziej podstawowej, bo filozoficznej. Musi bowiem dokonać wyboru pewnego modelu świata odpowiadając na pytanie o zakładaną przez siebie ontologię (pytanie: „Jaka jest natura rzeczywistości?") i na pytanie o zakładaną epistemologię (wybór języka, w którym będzie opisywał poznawaną rzeczywistość). Zatem musi zacząć od ustosunkowania się do podstawowych kwestii natury filozoficznej — ontologicznych i epistemologicznych. O ile wiedza o modelach badań jest niekiedy dość znacząco zróżnicowana w obrębie społeczności uczonych, o tyle rozwiązania problemów ontologicznych i epistemologicznych przyjęte przez badacza są na ogół zgodne z tymi, które są akceptowane przez większość członków społeczności badaczy. Często jest i tak, że badacz nie angażuje się w rozwiązywanie kwestii natury filozoficznej (podstawowej), ale po prostu akceptuje to, co akceptuje społeczność, z którą się identyfikuje. Jeśli chodzi o poglądy na naturę poznawanej przez niego rzeczywistości, to zawierają się one w jego światopoglądzie. Na ogół poglądy ontologiczne badacze „otrzymują w spadku" po swoich mistrzach, przejmują je w ramach szkoły naukowej, której stają się członkami, której poglądy mniej lub bardziej ostentacyjnie głoszą i są skłonni bronić ich w naukowych dysputach. Badacz strukturuje rzeczywistość uznając pewne typy ontologiczne za podstawowe, a inne za pochodne — sprowadzalne do tych pierwszych. Strukturalizacja rzeczywistości wskazuje badaczowi, z jakich składa się ona przedmiotów — czy są to na przykład rzeczy (strukturalizacja substancjalistyczna), czy zdarzenia (strukturalizacja ewentystyczna), czy rzeczy i zbiory (substancjalizm mnogościowy), itd. Wskazuje ona zatem, jakim to przedmiotom przysługują zmienne (wielkości, czynniki), które interesują badacza. Wskazuje ona również na rodzaj systemów relacyjnych, którymi badacz będzie się zajmował w swojej praktyce badawczej. Taki system relacyjny obejmuje uniwersum (zbiór przedmiotów typu podstawowego) oraz zmienne, które charakteryzują przedmioty zaliczone do danego uniwersum. Następnie badacz przeprowadza stratyfikację esencjalną zmiennych, wyróżniając ze zbioru wszystkich możliwych zmiennych te, które są istotne (wywierają 74
wpływ) dla zmiennych określonego rodzaju — zmiennych zależnych. Badacz posługuje się klasyfikacyjnymi zasadami stratyfikacji esencjalnej. Wreszcie dokonuje on stratyfikacji zbioru zmiennych, które uznał za istotne dla innego zbioru zmiennych G eo "nej zmiennej zależnej — w szczególności). W tym przypadku odwołuje się do porządkujących zasad stratyfikacji esencjalnej. Zmienne zostają uporządkowane od najbardziej do najmniej istotnych. Kolejny krok to określenie rodzaju zależności wiążących zmienne zależne Izmienną zależną) ze zmiennymi dla nich (dla niej) istotnymi; chodzi o ustalenie zasad związków ontologicznych. Przykładowo badacz może stać przed wyborem: determinizm versus indeterminizm. Zasady stratyfikacji esencjalnej wraz z zasadami związków ontologicznych składają się na perspektywę ontologiczną. Zatem perspektywa ontologiczna to sposób podejścia badacza do rozwiązywania kwestii ontologicznych, to jego poglądy ontologiczne. Zauważmy — tytułem przykładu — że dwa wielkie paradygmaty psychologiczne — introspekcjonizm i behawioryzm — zakładają dwie odmienne perspektywy ontologiczne, co w efekcie doprowadziło do nieprzekładalności twierdzeń i wyników badań wyrażonych w języku jednej z nich na język drugiej. W ramach perspektywy ontologicznej dokonuje się zatem ustaleń co do natury świata. Z kolei to, jak naukowo poznawać świat, ustala się w ramach perspektywy epistemologicznej. Psycholog tym różni się na przykład od fizyka, że jego działania badawcze przeprowadzane są na innych osobach, a nie na przedmiotach martwych. Prowadząc badanie naukowe musi on odpowiedzieć na pytanie, czy to, jak będzie traktował osobę badaną, nie wywoła u niej urazu, czy nie będzie to dla niej przykre, czy nie sprawi jej bólu. Dokonując wyboru strategii badawczej i narzędzi badawczych musi tedy badacz nie tylko kierować się kryteriami metodologicznymi czy teoretycznymi, ale także brać pod uwagę fakt, że osoba badana musi być traktowana podmiotowo, a nie przedmiotowo. Mówiąc krótko, ważna jest jeszcze perspektywa aksjologiczna, w której ulokują się pozostałe wybory: filozoficzne, teoretyczne i związane z przyjętą strategią badawczą. Ważne jest zdanie sobie sprawy z faktu, że wszystko, co badacz w procesie badawczym będzie robił, podlega ocenie moralnej. Owa perspektywa aksjologiczna musi być zatem tą, która niejako w pierwszej instancji kwalifikuje wybory badacza jako dopuszczalne (z etycznego punktu widzenia) bądź jako niedopuszczalne. Racje etyczne muszą być racjami pierwszo rzędowy mi, muszą poprzedzać pozostałe — teoretyczne, metodologiczne czy praktyczne. Zauważmy jeszcze, że działania badacza podlegają kwalifikacji etycznej dwukrotnie. Pierwszy raz, gdy jako uczony przeprowadza on badanie empiryczne, zorientowane na sprawdzenie hipotez teoretycznych za pomocą jakichś metod psychologicznych (o tym traktowała perspektywa aksjologiczna). Drugi raz zaś, gdy jako psycholog proponuje podjęcie jakichś działań uznanych za skuteczne z punktu widzenia prakseologicznego i opartych na sprawdzonych empirycznie teoriach (o tej kwalifikacji mówiłem prezentując, w rozdz. 2., pkt. 4., obieg informacji miedzy sferą praktyki społecznej i sferą nauki). 75
Podsumowując można powiedzieć, że rozwiązanie w określony sposób problemów natury ontologicznej ma wpływ na to, jak badacz rozwiąże problemy epistemologiczne, a to z kolei wyznacza przyjętą przez niego taktykę postępowania badawczego. Owe zaś decyzje metodologiczne rozpatrywane są w perspektywie aksjologicznej. Każde poważne badanie naukowe w psychologii (a także w każdej innej dyscyplinie empirycznej) rozpoczyna się od sformułowania problemu badawczego w postaci pytania o naturę związku łączącego daną, wyróżnioną przez badacza zmienną niezależną z jedną lub z większą liczbą zmiennych niezależnych, uznanych przez badacza za hipotetycznie ważne dla danej Y. W tym miejscu psycholog — poszukując nowych powiązań między jakąś Y oraz jakimiś zmiennymi niezależnymi — odwołuje się, nawet niekoniecznie świadomie, do swojej dotychczasowej wiedzy teoretycznej, ulegając określonym preferencjom w teoretycznym „osadzeniu" pytania badawczego. Może on bowiem patrzeć na rzeczywistość przez okulary neobehawiorysty, a może też postrzegać ją w kategoriach psychologii poznawczej. Co więcej, jego wcześniejsze opcje teoretyczne (wybór określonej perspektywy ontologicznej — o czym była mowa wyżej) związane z — jak powiedział Topolski (1983, s. 130) — „wizją świata i człowieka" nie tylko sugerują badaczowi szukanie takich, a nie innych ujęć teoretycznych problemu badawczego, ale także, wprowadzając w krąg jego zainteresowań badawczych określone układy zmiennych, równocześnie blokują możliwości formułowania innych pytań badawczych, uwzględniających inne zestawy zmiennych i powiązań między nimi niż te, które dopuszcza założona przez SM badacza perspektywa ontologiczna, a dokładniej — wybrana (i zaaprobowana) przez niego określona Teoria badanego obiektu (TBO). W jednej z wcześniejszych prac (Brzeziński, 1978, s. 13-15) ująłem opozycję dwóch wielkich teoretycznych programów (paradygmatów) psychologii, introspekcjonizmu i behawioryzmu, jako kontrowersję dwóch odmiennych perspektyw ontologicznych operujących różnymi TBO, lokowanymi w różnych perspektywach ontologicznych, co najdobitniejszy wyraz znalazło w programach teoretycznych ich „ojców" — Wundta (1908) oraz Watsona (1919). Dla introspekcjonizmu podstawowym typem ontologicznym w sferze faktów psychologicznych była kategoria przeżyć wewnętrznych (stanów świadomościowych) człowieka, a zmiennymi niezależnymi ważnymi dla Y (rozważanego typu) były zmienne typu „wewnętrznego" (psychologicznego). Z kolei dla behawioryzmu podstawowym typem ontologicznym w sferze faktów psychologicznych była kategoria zachowań się człowieka. I odpowiednio zmiennymi niezależnymi ważnymi dla Y były zmienne typu „zewnętrznego" (bodźcowego). Sformułowanie pytania badawczego oraz hipotezy badawczej, jako możliwej na nie odpowiedzi traktującej o naturze związku (liniowy versus krzywoliniowy) łączącego Y z określoną Xj, zakładającego u jego podstaw zaakceptowaną przez badacza (czy raczej przez szkołę naukową, z którą się on identyfikuje) określoną TBO, inicjuje proces badawczy stanowiąc jego pierwszy krok. Należy tu zwrócić uwagę na to, że ów pierwszy krok ściśle powiązany jest z dokonaną wcześniej 76
przez badacza akceptacją określonej TBO. To zaś rodzi, rzecz jasna, określone konsekwencje w postaci: „zahamowania postępu w badaniach" (por. Greenwald i inni, 1986), „nastawienia na konfirmację hipotez" (por. Magnusson, 1992) czy zawężenia zakresu formułowanych pytań badawczych (na co z kolei zwrócił uwagę, w odniesieniu do badań psychologicznych, Barber, 1991). Wspomnę tu jeszcze „osobę nr 1" Kuhna (1968), który pierwszy, tak wyraziście, przedstawił istotę paradygmatu, ukierunkowującego myślenie wielu pokoleń badaczy. Związanie się badacza z określoną TBO ma też konsekwencje dla drugiego kroku procesu badawczego, to jest dla utworzenia przez badacza (na gruncie jego wiedzy naukowej — tu: psychologicznej) O(P¥). 0{PY ) stanowi podzbiór zmiennych niezależnych — uznanych przez badacza za istotne w stosunku do zbioru zmiennych niezależnych de facto istotnych dla Y. Otóż tylko zmienne niezależne uznane przez badacza, a nie zmienne faktycznie istotne dla Y, będą poddane — w przeprowadzanym badaniu empirycznym — kontroli. Mówiąc inaczej, językiem technicznym, tylko zmienne ważne zaliczone przez badacza do O(PY) będą traktowane przez niego jako źródło wariancji wyjaśnionej Y. Faktycznie zaś istotne (i te ważne, i te zakłócające) zmienne niezależne dla Y mogą być, w części lub wszystkie, potraktowane jako źródło drugiej części wariancji Y — nie kontrolowanej przez badacza — to jest wariancji resztowej zmiennej zależnej. Pozostawienie poza kontrolą części zmiennych niezależnych obniży trafność wewnętrzną badania empirycznego (spójrzmy jeszcze raz na rys. 3.1.). Może bowiem zdarzyć się tak, że prawidłowo rozpoznana zależność między Y i Xj (inaczej: trafna hipoteza sformułowana przez badacza) nie będzie jako taka potwierdzona w badaniu, gdyż nieadekwatny O(PY) względem PY może spowodować otrzymanie jozmytego" RB. który nie będzie mógł stanowić dostatecznie mocnej — z metodologicznego punktu widzenia — podstawy do tego, aby ją zaakceptować. Także taki.joznnt)" RB nie będzie uzasadnieniem dla decyzji odrzucającej hipotezę, gdy jest ona faktycznie nietrafna. Decydując się na określoną TBO (w ramach danej perspektywy ontologicznej) badacz przesądza — jak to już zostało wyżej powiedziane — o tym, jakie będzie formułował pytania badawcze (por. zawężający eksplorację badawczą wpływ przyjętego przez badacza paradygmatu — Barber, 1991) i które zmienne niezależne będą przez niego efektywnie kontrolowane, stając się tym samym systematycznym źródłem wariancji wyjaśnionej Y, co ma znaczący wpływ na trafność wewnętrzną pzeprowadzanego przez psychologa badania. Jeżeli jest ono nietrafne wewnętrznie, tona podstawie jego RB nie można dokonać jednoznacznej oceny trafności testowanej hipotezy badawczej. Podsumowując, możemy powiedzieć, że podejmowane przez badacza w dwóch pierwszych krokach procesu badawczego czynności badawcze zdeterminowane są przez przyjętą przez tego badacza TBO, która — jak sądzę — stanowi podstawowy element SM psychologa. ■ Kolejny etap badania naukowego związany jest z bardzo ważnym, z metodologicznego punktu widzenia, zabiegiem operacjonalizacji zmiennych. Ta zaś 77
związana jest z doborem i konstrukcją (lub adaptacją już istniejących — w sensie adaptacji kulturowej; por. rozdz. 20.) narzędzi pomiarowych (tj. m. in. testów psy chologicznych — testów inteligencji, skal postaw, kwestionariuszy osobowości). Operacjonaiizacja zmiennych przeprowadzana jest przez badacza w celu nadania zmiennym z O(PY )------ mającym status konstruktu teoretycznego — sensu empi rycznego. To, jaka będzie postać finalna konstruowanego przez psychologa testu psychologicznego, zależeć będzie przede wszystkim od założonej w punkcie wyj ścia Teorii operacjonalizacji zmiennych (TOZ). Przekonywającą i spójną teorię operacjonalizacji zmiennych w badaniach psychologicznych, wywodzącą swój rodowód filozoficzny i teoretyczny z Idealizacyjnej teorii nauki (ITN) stworzonej przez L. Nowaka (1980) i rozwijanej na gruncie psychologii przez Brzezińskiego (I978b), Gaula (1990) czy Maruszewskiego (1983), stworzyła Homowska (1989) — por. rozdz. 7. To, jaki będzie efekt przeprowadzonej operacjonalizacji zmiennych zależeć będzie od przyjętej przez badacza TOZ. Jeżeli — dla przykładu — ograniczymy się do modeli psychometrycznych, to i tutaj psycholog musi dokonać wyboru między konkurencyjnymi czy uzupełniającymi się modelami — „klasyczną" teorią testów (Gulliksen, 1950), „statystyczną" teorią testów (Lord, Novick, 1968), teorią generalizacji i teorią wyników genetycznych (Cronbach i inni, 1972) czy całej rodziny tzw. Item Response Theory (IRT) (Guttman, 1950; Torgerson, 1958; Lazarsfeld, 1959; Lord, 1980; por. dla przeglądu problematyki IRT: Hulin i inni, 1983). Uzyskany za pomocą narzędzia pomiarowego (tu: testu psychologicznego) wynik musi być interpretowalny w terminach przyjętej przez badacza TBO. Mówiąc inaczej, narzędzie, którym posłuży się psycholog, musi przystawać do określonej teorii psychologicznej (musi traktować ją jako swoją), którą zaakceptował on jako teoretyczną podstawę do sformułowania — w kroku 1. — problemu badawczego i hipotezy badawczej oraz jako „ramę" interpretacyjną RB. Nie może tedy być tak że w procedurze operacjonalizacji badacz posłużył się techniką Rorschacha i kwestionariuszem 16 PF Cattella, gdyż w pierwszym przypadku TBO jest teorią psychoanalityczną, a w drugim przypadku teorią czynnikową. Obie zaś lokują się w różnych perspektywach ontologicznych. Zatem teorie leżące u podstaw poszczególnych narzędzi pomiarowych wykorzystanych w procedurze operacjonalizacji powinny być porównywalne i zakładające tę samą TBO, która leży także u podstaw interpretacji poszczególnych wyników i finalnego RB (podjęcie przez badacza decyzji o akceptacji lub odrzuceniu hipotezy — krok 7.) oraz generalizacji RB z próby na populację (krok 8.). W każdym razie — żeby odwołać się do jakiejś prostej ilustracji — niedopuszczalne jest, aby takie zmienne jak: inteligencja, potrzeby, samoocena, przystosowanie, neurotyzm zaliczone do jednego O(PY) były operacjonalizowane za pomocą takich dobrze psychologom znanych narzędzi, jak — odpowiednio — WAIS-R. TAT, ACL, technika Ro, MPI, gdyż zostały one wywiedzione z różnych teorii psychologicznych, „przypisanych" do różnych paradygmatów. Co więcej, zostały one skonstruowane w ramach różnych TOZ. 78
Z tego, co dotychczas napisałem, wyłaniają się następujące sekwencje „elementów" SM — w sensie warunkowania jednych przez drugie: TBO —> TIRB
—> TGRB,
TBO —> TOZ, TOZ —> TIRB, TOZ —> TGRB. W kolejnym, czwartym, kroku badawczym psycholog dokonuje wyboru modelu badawczego. Ten krok jest sprzężony z krokiem szóstym, wyborem modelu statystycznego, w którego ramach testowane będą — na podstawie uzyskanego z przeprowadzonego badania empirycznego (eksperymentalnego lub korelacyjnego) RB — hipotezy badawcze. Kolejna teoria, której znajomość musi posiąść badacz, to Teoria badania empirycznego (TBE). Jej znajomość i konsekwentne przestrzeganie przy planowaniu badania empirycznego umożliwi, po pierwsze, uzyskanie rzetelnego RB, a ten z kolei, po drugie, umożliwi podjęcie trafnej decyzji co do hipotezy badawczej (por. rys. 3.1). TBE obejmuje zbiór zasad odnoszących się do planowania i prowadzenia badania sprawdzającego hipotezę badawczą. W przypadku psychologii w grę mogą wchodzić dwie duże klasy modeli badawczych — eksperymentalne i korelacyjne. I jedne i drugie można podzielić — z uwagi na liczbę uwzględnianych w badaniach zmiennych X i Y — na następujące odmiany: (a) 1 Y —• 1 X (c) m Y — 1 X,
(b) 1 Y — n X, (d) m Y — n X.
Wiedza dotycząca obu klas modeli badawczych jest w psychologii bardzo rozbudowana. W kształceniu uniwersyteckim psychologów (ono zaś formuje przyszłego badacza-psychologa) kładzie się duży nacisk na jej opanowanie (por. Matarazzo. 1987 — Appendix A, s. 903; Kimble, 1984; Ellis, 1992; Hoshmand, PolIringhome. 1992). Od bogactwa tej wiedzy oraz umiejętnego jej wykorzystania w konkretnych sytuacjach badawczych zależeć będzie to, czy uzyskany przez badacza RB będzie umożliwiał podjęcie przez niego trafnej decyzji w odniesieniu do testowanej hipotezy, a więc czy RB będzie trafny i rzetelny (nie obciążony konsekwencjami złych wyborów metodologicznych badacza). Pochodną owej wiedzy będzie zatem to. że badacz będzie ustalał „fakty", a nie „artefakty". Krok 4. sprzężony jest zarówno z krokiem 6. (o czym dokładniej niżej) — w urn sensie, że wybór modelu badawczego przesądza wybór .adekwatnego do niego modelu statystycznego (i na odwrót, jeżeli badacz wykazuje preferencje do określonego modelu statystycznego, w którym chciałby „opracować" hipotezę badawczą, to musi. właśnie pod ten model, dokonać wyboru modelu badawczego) — też z krokiem 5. (wybór techniki doboru próby) i z krokiem 7., w którym badacz, na podstawie przeprowadzonych analiz statystycznych (tj. testów istotności 79
różnic między średnimi wartościami Y w grupach kryterialnych), dokonuje oceny hipotezy badawczej w kategoriach jej akceptacji lub odrzucenia. Na ,jakość" realizacji procesu badawczego w krokach 5.-7. mają wpływ kompetencje badacza w zakresie teorii statystyki — statystyki opisowej, statystyki indukcyjnej (testowanie hipotez): jednowymiarowa versus wielowymiarowa — oraz techniki doboru próby: losowa versus nielosowa (np. kwotowa). Nadużycia statystyki dokonywane przez niedoświadczonych badaczy związane są najczęściej z wyborem niewłaściwych testów statystycznych, błędnym opracowaniem schematu próby, błędną (lub niepełną) interpretacją wyników przeprowadzonej analizy statystycznej, z poprzestaniem jedynie na obliczaniu poziomu istotności statystycznej przy jednoczesnym ignorowaniu innych metod, np. wskaźników wielkości efektu ieffect size) (por. Chów, 1988; Cohen, 1988, 1990, 1992, 1994; Borenstein, Cohen, 1988; Hunter, Schmidt, 1990; Di Nuovo, 1992). Wiadomo (por. Morrison, Henkel, 1970), iż manipulowanie przez badaczy poziomem istotności statystycznej tak, aby zmaksymalizować szansę publikacji raportu z badań w czasopismach naukowych sprawiło, że stosowanie testów istotności (tylko) poddawane było ostrej krytyce (por. także: Cohen, 1994). Na rys. 3.3 pokazuję — w skrótowej formie — najbardziej rozpowszechnione wśród psychologów techniki statystyczne (stosowane w ramach bądź modelu korelacyjnego — zacieniowane trójkąty, bądź modelu eksperymentalnego — białe trójkąty) przypisane do każdej z czterech wyżej wymienionych odmian modeli badawczych. Strzałki ilustrują trendy rozwojowe poszczególnych modeli statystycznych. U podstaw każdej techniki statystycznej wykorzystywanej przez badacza w procesie empirycznej kontroli hipotez znajdują się założenia dotyczące natury wnioskowania statystycznego: procedury klasyczne wg ujęcia Neymana-Pearsona i Fishera (Fisher, 1925, 1935; Lehmann, 1968), ujęcia Bayesa (por. Edwards, Lindman. Savage, 1963; Philips 1973; Bortz, 1984), analizy sekwencyjne wg Walda (Wali 1947; Marek, Noworol, 1987), założenie o losowości próby (Johnstone, 1989). To wszystko zaś składa się na wymienioną już Teorię statystyki (TS), która obok TBE przesądza o jakości kroków 4.-7. procesu badawczego. Obie teorie są bardzo ważnymi elementami SM. Obie też muszą być zgodne z TBO. Mamy zatem: TBO
—> TBE/TS,
TBE/TS —> TIRB, TBE/TS —> TGRB. W kroku 8. procesu badawczego dokonuje się oceny uzyskanego w trakcie przeprowadzonego eksperymentu (krok 4a) lub badania korelacyjnego (krok 4b) RB oraz — w przypadku jego zaakceptowania — interpretacji i generalizacji. Oczywiście interpretacja RB dokonywana jest w ramach pojęciowych TIRB. która z kolei musi być kompatybilna z wyjściową TBO. Także generalizacja nie może — w sensie teoretycznym — wykraczać poza obie teorie ją ograniczające, tj. TIRB oraz TBO. Ponieważ RB został uzyskany za pomocą konkretnych narzędzi 80
Rys. 3.3. Odmiany modelu badawczego i odpowiadające im modele statystyczne (najbardziej rozpowszechnione w praktyce badawczej psychologów). Modele eksperymentalne — białe trójkąty; modele statystyczne — zacieniowane trójkąty. Klucz: i — test f; F — test F; ANOVA — jednowymiarowa analiza wariancji: jednoczynnikowa i wieloczynnikowa; MANOVA — wielowymiarowa analiza wariancji: jednoczynnikowa i wieloczynnikotta; muli. t. — wielokrotny test r, r — współczynnik korelacji liniowej Pearsona; R — współczynnik korelacji wielokrotnej; CA — analiza kanoniczna; V—test Hotellinga; V — test Rao; /. — test Wilksa.
pomiarowych, a te z kolei zostały skonstruowane z respektowaniem bazowej dla nich TOZ, więc TGRB wykorzystana przez badacza przy generalizowaniu RB z poziomu próby na poziom populacji musi uwzględniać ograniczenia interpretacyjne będące pochodną natury TOZ. Podobne ograniczenia nakłada na TGRB zastosowana przez badacza TBE/TS. Mamy zatem: TBO —> TIRB —> TGRB, TBO —> TBE /TS —> TGRB, TBO —> TOZ
—> TGRB.
Omówione wyżej powiązania elementów SM ujęte zostały w formie graficznej na rys. 3.4 (por. blok I, obwiedziony przerywaną linią). Z kolei na rys. 3.5 powtó-
81
rzono — za rozdz. 1., rys. 1.4. — schemat procesu badawczego. Literami: a — e (tak samo jak na rys. 3.4) oznaczono wpływ poszczególnych, wyżej omówionych, elementów SM na kolejne kroki procesu badawczego.
Rys. 3.4. Elementy kontekstu świadomości metodologicznej (K-SM) jemne powiązania
ich uwarunkowania oraz wza-
4. Poza kontekstem świadomości metodologicznej W poprzednim punkcie przeanalizowaliśmy, jeszcze raz, osiem kolejnych kroków procesu badawczego, ale tym razem pod kątem tego, w jaki sposób na czynności badawcze podejmowane przez psychologa oddziałuje stan jego SM. Musimy jednak pamiętać o systemie powiązań między sferą praktyki badawczej — zajmowaliśmy się nią w rozdz. 2. — i sferą praktyki społecznej. To zapotrzebowanie społeczne płynące z tej drugiej sfery wymusza na badaczach podejmowanie określonych zadań badawczych. Można też — odpowiednio — mówić o zewnętrznych i wewnętrznych determinantach procesu badawczego w psychologii. Jeśli chodzi o determinanty wewnętrzne, to związane są one bądź: (a) ze stanem SM (czym już się zajmowaliśmy), bądź też z (b) psychologicznym charakterem badania, którego wyrazem jest zachodząca między obydwoma podmiotami tego badania, badaczem-psychologiem i osobą ba daną, interakcja. Ignorowanie tego psychologicznego kontekstu i skupianie uwagi jedynie na analizie kontekstu świadomościowego może doprowadzić do bardzo przykrych dla badacza konsekwencji, gdyż zamiast mówić o faktach, będzie on mówił o artefaktacn.
Rys. 3.5. Powiązanie elementów świadomości metodologicznej (SM) z poszczególnymi krokami procesu badawczego
1
Do najważniejszych czynników kontekstu interakcji: „badacz — osoba badana", które bezwzględnie powinny być uwzględnione przez badacza i także przez niego w miarę możliwości kontrolowane należą: (a) oczekiwania badacza, (b) zmienne sugerujące hipotezę badawczą, (c) lęk przed oceną, (d) status motywacyjny osoby badanej, (e) aprobata społeczna. Analiza tego kontekstu przeprowadzona została w rozdz. 4. Wróćmy jednak do wątku dotyczącego związku łączącego dwie sfery — nauki i praktyki społecznej. Dotychczas interesowała nas wyłącznie pierwsza sfera w kontekście jej wewnętrznych uwarunkowań — tych związanych z logiką wewnętrzną procesu badawczego oraz z psychologicznym charakterem badania empirycznego realizowanego przez psychologa. Na rys. 3.5 w pierwszym, obwiedzionym przerywaną linią prostokącie mamy przedstawiony, w ujęciu schematycznym, proces badawczy. Z kolei drugi prostokąt obejmuje jeszcze 2 kroki — dziewiąty i dziesiąty — które, mimo, że nie wykonuje ich sam badacz, stanowią swoiste dopełnienie procesu badawczego sensu stricto. Kroki te bowiem należą nie do naukowca, ale do praktyka, który występuje w imieniu instytucji społecznej zgłaszającej zapotrzebowanie na określony RB, pozwalający jej podjąć działania praktyczne — owym wynikiem uzasadnione i usprawiedliwione — umożliwiające osiągnięcie pożądanego stanu praktyki społecznej, a tym samym zaspokojenie zapotrzebowania społecznego adresowanego do sfery praktyki badawczej (por. rozdz. 2., rys 2.1). Praca psychologa-badacza zakończyła się w momencie oceny RB (załóżmy, że badanie cechowała wysoka trafność wewnętrzna) i dokonaniu jego generalizacji (załóżmy też, że badanie, cechowała równie wysoka trafność zewnętrzna). Niestety, badacz na ogół nie ma wpływu na to, jak RB będzie odczytany i odebrany przez psychologa-praktyka czy innego przedstawiciela praktyki społecznej (nauczyciela, terapeutę, pracownika socjalnego itp.), jaki będzie mu nadany sens praktyczny, co w nim interesującego dostrzeże praktyk i wreszcie, jakim podda go zabiegom adaptacyjnym, aby mógł — post factum (i taka praktyka „aplikacyjna" też, niestety, ma miejsce) — uprawomocnić działania podejmowane przez daną instytucję społeczną (szkołę, poradnię zdrowia psychicznego, zakład karny itp.). Na rys. 3.5 ujęte to zostało w postaci kroku 9.: odbiór RB oraz kroku 10.: podjęcie działania praktycznego. Oba zaś kroki polegające na transformacji „czystego" RB na konkretne działania uzależnione są od przyjętej — w danej sferze praktyki społecznej i w danym momencie jej rozwoju — Praktyki odbioru rezultatu badawczego (PORB) oraz Praktyki aplikacji rezultatu badawczego (PARB). Te zaś pozostają pod wpływem kontekstu interakcji: „badacz — instytucja społeczna" (IBIS) — (por. rys. 3.4, kontekst C). Owe oddziaływania mogą kształtować PARB w dwojaki sposób. Dana instytucja społeczna zleca wprost przeprowadzenie badań ukierunkowanych na rozwiązanie interesującego ją problemu praktycznego. Oczekuje ona tedy, że psycholog, który podjął się tego zadania, dostarczy jej takiego RB, który będzie mógł być wykorzystany do zaplanowania i przeprowadzenia określonej strategii postępowania praktycznego, umożliwiającego satysfakcjonujące rozwiązanie problemu praktycz84
nego. Przykładowo, instytucja oświatowa zleca wykonanie badań naukowych (psychologicznych) dotyczących specyfiki procesów emocjonalnych i poznawczych u dzieci z rozpoznaniem MBD (minimał brain disorders), w celu opracowania takiej strategii nauczania w klasie szkolnej, która by uwzględniła rozpoznaną przez psychologa ich charakterystykę. Badacz, znając oczekiwania instytucji, a więc pracując nie dla wyłącznej satysfakcji poznawczej, ale — przede wszystkim! — dla uzyskania określonej gratyfikacji ze strony sponsorującej badania instytucji, może starać się tak je przeprowadzić oraz tak sporządzić finalny raport, aby zmaksymalizować szansę uzyskania ponownego zamówienia. Mówiąc inaczej, nie będzie to całkowicie „chłodny", obiektywny raport pokazujący wszystkie trudności metodologiczne i ograniczenia interpretacyjne uzyskanego RB, z którymi zetknął się sam badacz (i nie z wszystkimi z nich dostatecznie dobrze sobie poradził), a które poważnie ograniczyłyby „aplikowalność" RB. gdyby rzetelnie je uwzględnić. W konsekwencji instytucja finansująca badania nie byłaby zadowolona z takiego „rozmytego" RB, bowiem trudno oprzeć na nim strategię działania praktycznego, które ma cechować przede wszystkim wysoka efektywność. Mogłoby zdarzyć się i tak, że instytucja ta nie przyjęłaby raportu nie spełniającego jej oczekiwań, a wówczas badacz zmuszony byłby zrekompensować poniesione przez nią straty finansowe. Nawet gdyby instytucja zrezygnowała ze zwrotu źle — w jej ocenie — „ulokowanych" pieniędzy, to pozostaje jeszcze problem zagrożenia poczucia własnej wartości i poczucia kompetencji zawodowej badacza. Omawiając powyższy przykład niespełnienia przez badacza oczekiwania zamawiającej dane badanie instytucji społecznej, chciałem wskazać na niebezpieczeństwo związane z bezpośrednim uzależnieniem badacza od danej instytucji społecznej, z prowadzeniem badań pod jej dyktando. Przynajmniej w części takie bezpośrednie powiązania badacza z instytucją społeczną sponsorującą badania na ściśle przez nią określony temat mogą stawiać pod znakiem zapytania obiektywność tych badań. Może też badacz, znając oczekiwania określonej instytucji społecznej, opakować interpretacyjnie uzyskany RB, aby kupiła ona od niego raport badawczy i tym samym sponsorowała, post factum, przeprowadzone badania. W tym przypadku badacz będzie pomagał danej instytucji odczytać RB, narzucając jej własne ujęcie PARB. dopasowane do merytorycznego profilu prowadzonej przez nią działalności praktycznej. Oba wyżej opisane sposoby oddziaływania instytucji społecznej zgłaszającej zapotrzebowanie na określony RB w jakiś sposób uzależniają od niej badacza. Tym samym zachodzić może podejrzenie, że dany RB jest obciążony i że obciążona jest także PORB. W konsekwencji zaprojektowane działanie praktyczne może być mało skuteczne, gdyż oparte zostało na nierzetelnych podstawach. Znacznie tedy korzystniejsza — oczywiście z omawianego punktu widzenia — jest taka sytuacja gdy dana instytucja sięga po wyniki badań, które nie są przez nią bezpośrednio sponsorowane (tzn. są one dla niej anonimowe) albo gdy pochodzą one z tzw. badań podstawowych (w warunkach polskich, na przykład, sponsorowane przez Komitet Badań Naukowych). 85
Pozostaje jeszcze jedno niebezpieczeństwo nadużycia RB. Mamy z nim do czynienia wówczas, gdy jakaś instytucja potrzebuje naukowego uzasadnienia swojej — niekoniecznie moralnie czystej — działalności. Przykładu może dostarczyć wprowadzenie w byłych krajach komunistycznych (w niedalekiej jeszcze przeszło ści), reform szkolnych — zgodnych z ideologią komunistyczną — które odwoły wały się do „naukowych" ekspertyz przeprowadzonych przez dyspozycyjnych wo bec władzy profesorów pedagogiki i psychologii. W badaniach empirycznych prowadzonych w naukach behawioralnych trudno — z uwagi na ich psychologiczny charakter — spełnić fundamentalny warunek powtarzalności RB (uzyskanie tego samego RB przez innego badacza przeprowa dzającego — z zachowaniem wszystkich elementów procedury badawczej — ba danie będące, w istocie, repliką badania wyjściowego) i trudno takie badania pod dać rygorystycznej kontroli — na wzór tej, której poddawane są badania realizo wane przez fizyków czy biologów. Znając tedy ograniczenia psychologii jako nauki empirycznej, powinniśmy starać się minimalizować zniekształcające RB i (utrud niające jego powtórzenie) wpływy nie kontrolowanych przez badacza czynników kontekstu IBIS (por. Neuliep, 1991)
5. Podsumowanie W psychologii, a także w pozostałych dyscyplinach naukowych zaliczanych do nauk behawioralnych, badanie naukowe można traktować jako proces rozwiązywania problemów (Nickles, 1988). Rozpoczyna się ono bowiem sformułowaniem problemu badawczego, przybierającego postać pytania, oraz sformułowaniem najbardziej prawdopodobnego (na gruncie wiedzy badacza) rozwiązania, które przybiera postać hipotezy badawczej. Kolejne, wykonywane przez badacza — na ogół wystandaryzowane w danej społeczności badaczy (tj. psychologów) — czynności dotyczą próby konfirmacji tej hipotezy na podstawie uzyskanego RB. Jego akceptacja, interpretacja oraz generalizacja kończy ów proces badawczy. O jakości procesu badawczego decyduje przede wszystkim stan społecznej i indywidualnej SM. W pkt. 3. (por. rys. 3.4) ukazałem, jakie elementy SM i w jakich pozostające względem siebie zależnościach wywierają wpływ na poszczególne kroki, wykonywane przez badacza w procesie badawczym. Drugim, obok SM, ważnym kontekstem, w którym należy rozpatrywać proces badawczy, jest kontekst IBOB. Ignorowanie go przez badacza kończy się tym, że zamiast o faktach badacz będzie komunikował o artefaktach. Ów interakcyjny charakter naukowego badania psychologicznego jest odpowiedzialny za to, że tak trudno uzyskać powtarzalność RB. Tym większa odpowiedzialność spoczywa na badaczu, który powinien dołożyć maksymalnych starań, aby objąć efektywną kontrolą te zmienne niezależne, których źródłem jest kontekst IBOB. Problem ten został tu potraktowany marginalnie, gdyż osiowy dla tego rozdziału był kontekst SM (o kontekście IBOB traktuje rozdz. 4.). 86
W pkt. 4. przedstawione zostały dalsze losy RB, który w określony sposób odczytany przez praktyków (krok 9.), staje się podstawą do zaprojektowania przez jakąś instytucję społeczną działania praktycznego (krok 10.). Tak jak o jakości procesu badawczego (kroki: 1.-8.) decydował kontekst IBOB, tak o jakości aplikacji RB (kroki: 9.-10.) decyduje w jakiejś mierze kontekst IBIS. Możliwe negatywne oddziaływania tego kontekstu na wykorzystywanie RB, dokonujące się na styku: „sfera badawcza — sfera praktyki społecznej" omówiłem w poprzednim punkcie. Stosunkowo najwięcej uwagi poświęciłem na omówienie wpływu kontekstu SM na proces badawczy. Nie oznacza to jednak wcale, że pozostałe, „pozaświadomościowe" konteksty są mniej ważne. Rozwinięcie poruszanych w tym rozdziale zagadnień znajdzie Czytelnik w kilku, dostępnych w języku polskim, książkach. I tak, problematyka świadomości metodologicznej oraz stosunek indywidualnej SM do społecznej SM przedstawione zostały, w oryginalnym ujęciu, w pracy: Kmita J.: Szkice z teorii poznania społecznego. Opozycję dwóch podstawowych w psychologii perspektyw ontologicznych — introspekcjonizmu oraz behawioryzmu — przedstawiłem w swojej wcześniejszej pracy: Metodologiczne i psychologiczne wyznaczniki procesu badawczego w psychologii. Polecam też trzy monografie poświęcone tej problematyce: Zamiara K. Dynamika pojęć i programów psychologicznych. Szkice metodologiczne; PaszkiewiczE. Struktura teorii psychologicznych oraz Kozielecki J. Koncepcje psychologicme człowieka. Skróty stosowane w tekście SM
—
Ś w i a d o m oś ć m e t o d ol o g i cz n a
RB
—
Rezultat badawczy
(a) TBO
—
Teoria badanego obiektu
(b) TOZ
—
Teoria operacjonalizacji zmiennych
(c) TBE/TS — j (d) TIRB
—
Teoria badania empirycznego/Teoria statystyki Teoria interpretacji rezultatu badawczego
(e) TGRB
—
Teoria generalizacji rezultatu badawczego
(f) PORB
—
Praktyka odbioru rezultatu badawczego
(g) PARB
—
Praktyka aplikacji rezultatu badawczego
(Al K-SM
—
Kontekst świadomości metodologicznej
(Bi K-IBOB — IBIS
—
Kontekst interakcji: badacz — osoba badana !
Kontekst interakcji: badacz — instytucja społeczna
(Cl K-
Rozdział 4. Wewnętrzne determinanty procesu badawczego (II) — badanie psychologiczne jako interakcja „badaczosoba badana"
1. Wprowadzenie Porzućmy teraz, charakterystyczny dla tradycyjnej metodologii, zorientowanej na logikę procesu badawczego, punkt widzenia na praktykę badawczą, polegający na: (a) bądź rekonstrukcji przebiegu poszczególnych faz procesu badawczego na stawionego na potwierdzenie, czy też, jak chce Popper (1977), na falsyfikację hi potez stanowiących najbardziej prawdopodobne (z punktu widzenia wiedzy bada cza) rozwiązanie problemu badawczego, (b) bądź wskazywaniu badaczowi jak ma postępować, aby zmaksymałizować uzyskanie trafnej (w sensie: rozdz. 3., pkt. 2.) odpowiedzi na pytanie badawcze. Zajmijmy się natomiast uwarunkowaniami wewnętrznymi procesu badawczego związanymi z jego psychologią. Ich źródeł będziemy szukać w zachowaniu się głównych „aktorów" tego „psychologicznego teatru" (Słoma, 1983) — badacza, z jednej strony i osoby badanej, z drugiej. System uznawanych wartości, zajmowane postawy, kierowanie się chwilowymi preferencjami, uprzednie doświadczenia badawcze, inteligencja, wiedza, temperament współdeterminują styl odegrania wspomnianych ról: roli badacza i roli osoby badanej. To, jak zachowuje się osoba badana w sytuacji badawczej, w dużej mierze zależy od postrzeganego przez nią zachowania się badacza w tej samej sytuacji. I odwrotnie, zachowanie się badacza w jakiejś mierze też jest modyfikowane przez zachowanie się osoby badanej (Jamieson i in., 1987). Mówiąc inaczej, o specyfice psychologicznego badania naukowego stanowi interakcja dwóch podmiotów procesu badawczego — badacza (psychologa) i osoby badanej (ucznia, studenta, „człowieka z ulicy" itp.).
SS
1 Osobliwości badania psychologicznego (wg S. Rosenzweiga) Rosenzweig (1933, s. 353-354) zwracał uwagę na trojakiego rodzaju osobliwości, odróżniające naukowe badanie psychologiczne od analogicznego badania prowadzonego przez fizyka czy chemika. Pierwszą osobliwością psychologicznego eksperymentowania jest to, że osoba badana może przyjmować status eksperymentatora (jest tak, gdy musi ona dokonywać samoobserwacji i zdawać z niej relację badaczowi). Druga osobliwość związana jest z możliwością reagowania nie tylko na programowo wprowadzone przez badacza elementy postępowania eksperymentalnego, ale także na cały kontekst owego postępowania, który w jakiejś mierze będzie modyfikował zachowanie się osoby badanej, znajdującej się w sytuacji psychologicznego badania naukowego. Z kolei trzecia osobliwość polega na możliwości traktowania badacza przez osobę badaną jako „...części materiału eksperymentalnego" i na tym, że w konsekwencji osoba badana „...może reagować na osobowość eksperymentatora" (tamże). Sytuacja badania naukowego stanowi „problem psychologiczny" (jak to ujął cytowany tu Rosenzweig) nie tylko dla osoby badanej, ale ma ona problemowy charakter też dla badacza. Nie jest bowiem badacz osobą z „zewnątrz" układu badawczego, która jedynie planuje i czuwa nad prawidłowym przebiegiem procesu badawczego sama się weń nie angażując. Interakcyjny układ „badacz-osoba badana" zanurzony jest w określonym kontekście społecznym, który w istotny sposób modyfikuje przebieg tej interakcji.
3. Nastawienia badacza na potwierdzenie hipotezy badawczej — efekt oczekiwań interpersonalnych badacza, OIB (wg R. B. Rosenthala) 3.1. Pojęcie efektu oczekiwań interpersonalnych badacza OIB — efekt Golema i efekt Galatei Jedną z ważniejszych zmiennych kontekstu psychologicznego badania psychologicznego jest bez wątpienia zmienna oczekiwań interpersonalnych (ang. interpersonal expectations) czy inaczej, zmienna oczekiwań badacza (ang. researcher's apectations), będąca od wielu lat obiektem intensywnych badań prowadzonych przez Rosenthala i jego współpracowników (por. Rosenthal, 1966, 1969, 1973, 1991a. 1991b, 1993, 1994b; Rosenthal, Rubin, 1978; Rosenthal, Jacobson, 1968, 89
1992; Rosenthal, Rosnow, 1984, 1991; Babad, Inbar, Rosenthal, 1982; Babad. 1993; Harris, Rosenthal, 1985; Harris, 1993) oraz innych psychologów (np. Barber, Silver, 1968 — krytycznie; Cooper, 1979, 1985; Brophy, 1983, 1985; Jussim, 1986; Gilly, 1987; Darley, Oleson, 1993; Seul, 1995; Brzeziński, Kowalik, 1993a). Przez nią „przełamują się" pozostałe zmienne charakteryzujące badacza. Ona jest źródłem efektu samospełniającego się proroctwa (ang. self-fulfilling prophecy effect), efektu Pigmaliona (ang. Pygmalion effect), efektu Galatei (efekt pozytywnych oczekiwań — ang. positive expectations effect, Galatea effect), efektu Goiema (efekt negatywnych oczekiwań — ang. negative expectations effect. Golem effect), stronniczości eksperymentatora (ang. experimenter bias) czy, ogólnie rzecz ujmując, efektu Rosenthala. Dalej będę posługiwał się skrótem — OIB (od: oczekiwania interpersonalne badacza).
3.2. Czynniki kształtujące OIB Badacz nawiązujący kontakt z osobą badaną nie od razu dysponuje jej pełnym portretem psychologicznym. Jego oczekiwania co do funkcjonowania osoby badanej też nie są w pełni ukształtowane. Trzeba tedy mówić o wstępnych OIB, które będą ulegały poszerzeniu, aż przyjmą postać skonkretyzowaną (albo zgodną z kierunkiem wstępnych oczekiwań, albo, w wyniku dokonanych przez badacza zmian, niezgodną z kierunkiem wstępnych oczekiwań). Mówiąc o wstępnych OIB i ich rozwijaniu w kierunku pierwotnym lub zmianie i rozbudowie w kierunku przeciwnym do pierwotnie założonego musimy wziąć pod uwagę dwa kluczowe problemy: (1) problem wstępnych OIB, (2) problem listy potencjalnych czynników wpływających na rozbudowę (lub zmianę) wstępnych OIB. Pierwszym źródłem wstępnych OIB jest osobowość badacza (postawy, przekonania, uznawane wartości). Badania porównawcze przeprowadzone nad osobami cechującymi się odpowiednio wysokim i niskim poziomem OIB pozwalają stworzyć portrety psychologiczne tych osób. Głównym rysem portretu badacza o wysokim poziomie OIB jest autorytaryzm (w sensie: Adorno i in., cyt. wyd. 1969) i dogmatyczny styl myślenia (w sensie: Rokeach, 1960). Badania Babad i in. (1982; Babad, 1993) „rozpoznały" jeszcze takie zmienne, charakteryzujące osoby o wysokim poziomie OIB, jak: brak tolerancji na odmienność, sztywność myślenia, poszukiwanie aprobaty społecznej. Osoby o. wysokim poziomie OIB różnią się od osób o niskim poziomie OIB także pod względem postrzegania innych w kategoriach stereotypów społecznych i przesądów. Są też one bardziej inercyjne, jeśli chodzi o przyswajanie informacji odnoszących się do aktualnego funkcjonowania osoby badanej (odporność na informacje nie potwierdzające oczekiwań badacza). 90
Drugim ważnym źródłem wstępnych OIB jest wiedza badacza (znajomość aktualnych teorii psychologicznych, współczesnych wyników badań empirycznych, metodologii psychologii), jego doświadczenie zawodowe, a także to wszystko, co składa się na skrótowe określenie: kompetencje zawodowe. Trudno to źródło precyzujnie oddzielić od pierwszego. W zasadzie oba one stanowią jedno „duże" źródło wstępnych OIB. Trzecim źródłem wstępnych OIB, tkwiącym poza badaczem, są dane, które uzyskuje on o osobie badanej zanim nawiąże z nią kontakt. Te dane mogą być dwojakiego rodzaju. Z jednej strony będą to dane obiektywne: fizjologiczne, społeczno-demograficzne, wyniki obiektywnych testów psychologicznych. Z drugiej zaś strony badacz korzysta z takich danych, jak pewne stereotypowe charakterystyki osób, wynikające z ich przynależności do określonych grup społecznych, wspólnot religijnych, mniejszości narodowych Ud., z danych, które mają sens tylko dla danego badacza, wynikających z tzw. pierwszego wrażenia (sylwetka osoby badanej, sposób jej zachowania się w pierwszym kontakcie z badaczem, styl mówienia, mimika, pantomimika itp.). Będą to dane subiektywne. Przymiotnik: „subiektywny" tu użyty ma podwójny sens. Pierwszy odpowiada sensowi psychometrycznemu dychotomii: „dane obiektywne — dane subiektywne" i związany jest z niemożnością precyzyjnego wy standaryzowania sposobów zbierania tych danych i nadawania im jednolitej i trafnej interpretacji niezależnej od badacza. Drugi wiąże się z tym, że te same dane będą różnie interpretowane przez badaczy o wysokim i niskim poziomie OIB; na dodatek oczekiwania badaczy różnią się jeszcze zmiennymi osobowościowymi stanowiącymi pierwsze, wyżej omówione, źródło wstępnych OIB. Przykładowo, badacz, który uzyskuje wysokie wyniki na skalach autorytaryzmu i dogmatyzmu, i którego cechuje jednocześnie wysoki poziom OIB, przywiązuje większą wagę do stereotypowych charakterystyk osób badanych. Będzie on osoby badane z grupy spodziewanych zachowań potwierdzających hipotezę badawczą traktował odmiennie od osób badanych z grupy spodziewanych zachowań hipotezy badawczej nie potwierdzających. Atrybucje sukcesu w pierwszej grupie i niepowodzenia w grupie drugiej dokonywane przez badacza będą miały charakter podmiotowy (odnoszone będą do charakterystyki osoby badanej). Z kolei atrybucja niepowodzenia w pierwszej grupie i sukcesu w drugiej grupie będzie miała charakter sytuacyjny (odnoszona będzie do charakterystyki sytuacji zadaniowej). Korzystając z wyżej wyszczególnionych i scharakteryzowanych źródeł wstępnych OIB, badacz formułuje je względem zachowania się osoby badanej. Odróżniamy OIB dotyczące spodziewanych niepowodzeń osoby badanej (w skrócie: oczekiwania negatywne) od oczekiwań dotyczących spodziewanych sukcesów tej osoby (w skrócie: oczekiwania pozytywne). Negatywne OIB prowadzą do efektu Golema. a pozytywne do efektu Galatei (por. Babad i in., 1982). Wstępne OIB nie mają — zgodnie ze swą nazwą — postaci ugruntowanego i zamkniętego systemu. Podlegają one ewolucji, rzecz jasna zróżnicowanej, w zależności od działania takich czynników, jak: (a) charakter informacji o osobie badanej, lokalizowanych na wymiarze: „informacje jednoznaczne — informacje dwuznaczne", 91
(b) charakter OIB lokalizowanych na wymiarze: „oczekiwania elastyczne — oczekiwania sztywne", (c) stopień potwierdzenia wstępnych OIB przez zachowanie się osoby badanej lokalizowany na wymiarze: „niski stopień niepotwierdzenia — wysoki stopień niepotwierdzenia". Są to najważniejsze czynniki wpływające na ewolucję wstępnych OIB. Jeśli chodzi o wymiar „jednoznaczności-dwuznaczności", to jego związek z wymiarem „utrzymania-zmiany" wstępnych OIB jest taki, że badacze interpretują docierające do nich dwuznaczne informacje, dotyczące charakterystyki zachowania się osób badanych, zgodnie z wytworzonymi wcześniej OIB. Zatem im więcej dopływa do badacza informacji niejednoznacznych, tym mniejsza szansa na to, że zmieni on pierwotnie wytworzone OIB (niezależnie od ewidentnej — dla osoby postronnej — ich nietrafności). Informacje zgodne ze wstępnymi OIB są przez badacza łatwiej zauważane w polu informacyjnym i łatwiej zapamiętywane. Łatwiej też podlegają rekonstrukcji te zdarzenia, które miały miejsce w przeszłości, jeżeli były zgodne z wytworzonymi OIB i mogą służyć ich podtrzymaniu. Mówiąc krótko, zachowania osoby badanej będą interpretowane w sposób zgodny z wstępnie ukształtowanymi OIB i to w stopniu tym większym, im większa będzie niejednoznaczność napływających do badacza informacji. Jeżeli wytworzone przez badacza oczekiwania oparte są na jednoznacznych, stabilnych i pewnych informacjach, to będą one miały charakter sztywny i trudno będą się poddawały oddziaływaniom nakierowanym na ich zmianę. Określone predyspozycje osobowościowe badacza skłaniają go do wytwarzania raczej sztywnych niż elastycznych wstępnych OIB i to niekoniecznie opartych na jednoznacznych i pewnych informacjach. Osoby autorytarne, dogmatyczne, przesądne będą częściej skłonne do formułowania przewidywań, których nie będą chciały zmieniać. Częściej też będą napływające do nich dane (zwłaszcza te niejednoznaczne) reinterpretować w duchu wcześniej wytworzonych OIB. Tacy „sztywni" badacze, wchodząc w interakcję z osobami badanymi, będą traktować je w sposób wynikający z własnych nastawień. Z kolei badacze o niskim poziomie oczekiwań skłonni są dostosowywać swoje zachowania w interakcji z osobami badanymi do ich zachowań, a nie do obrazu tych zachowań narzucanego przez wstępne OIB. Mówiąc krótko, „sztywność" nastawień podwyższa próg wrażliwości badacza na występującą zmienność zachowania osoby badanej. Zatem jednoznaczne, stabilne i pewne informacje mogą stanowić podstawę do formowania opornych na zmianę „sztywnych" OIB. W przeciwnym przypadku będziemy mieli do czynienia z „elastycznymi", podatnymi na zmianę OIB. Jaka jest odporność wstępnych OIB — tych „sztywnych" i tych „elastycznych" — na nowe informacje podważające trafność tych informacji, które legły u podstaw wstępnie sformułowanych OIB? Nietrudno odpowiedzieć na to pytanie. Rzecz jasna, „sztywne" OIB — niejako na mocy ich definicji — są bardziej odporne na informacje je dyskonfirmujące niż oczekiwania „elastyczne". 92
Zachowania osoby badanej mogą być jednoznacznie zgodne z OIB, ale może być i tak, że ich zgodność z OIB wcale nie jest jednoznaczna i można je równie dobrze uznać za potwierdzające wstępne OIB, jak i za nie potwierdzające tych oczekiwań. Z takiej niejednoznacznej sytuacji obronną ręką częściej wychodzą OIB „sztywne" niż OIB „elastyczne". Z kolei elastyczne wstępne OIB są bardziej otwarte na informacje ich nie potwierdzające i w konsekwencji są bardziej podatne na zmiany. Te OIB, które prowadzą do rzeczywistego wywołania efektu oczekiwań badacza, są raczej „sztywne" niż „elastyczne". Po prostu badacze o „sztywnych" wstępnych OIB będą je utrzymywać nawet w konfrontacji z danymi dość przekonywająco je obalającymi. Dynamicznie przebiegający proces formowania się wstępnych OIB i ich zmian pod wpływem informacji ich nie potwierdzających pociąga za sobą zróżnicowane — w zależności od charakteru OIB — traktowanie osób badanych. Informacje o ich zachowaniu docierają do badacza i albo wzmacniają wstępne OIB i przyczyniają się do ich rozbudowy, albo też je osłabiają, powodując w ten sposób ich zmianę i przebudowę.
33. Rosenthala teoria czterech czynników pośredniczących w powstawaniu OIB Wiele prowadzonych badań nad efektem oczekiwań interpersonalnych wyraźnie wskazuje na różnice w traktowaniu osób badanych przez badaczy uznających je bądź za charakteryzujące się wysokimi osiągnięciami (przynależność do grupy potwierdzaczy hipotezy badawczej — grupa „+") bądź za charakteryzujące się niskimi osiągnięciami (przynależność do grupy obalaczy hipotezy badawczej — grupa „-"). Dla opisania i wyjaśnienia owych różnic w traktowaniu osób badanych przez badacza (a także uczniów przez nauczyciela czy pacjentów psychiatrycznych przez terapeutę) Rosenthal opracował koncepcję czterech czynników pośredniczących (por. Rosenthal. 1991b, s. 365 i nast., a także: Harris, Rosenthal, 1985; Babad i in., : 1982). Te czynniki to: (a) klimat (ang. climate) — badacz stwarza osobom badanym z grupy „+" cieplejszy klimat społeczno-emocjonalny; osoby te traktowane są przez badacza życzliwiej; (b) sprzężenie zwrotne (ang. ) — badacze z większym zainteresowa niem i w sposób zróżnicowany traktują osoby z grupy „+"; inaczej mówiąc, po święcają im więcej uwagi; (c) wkład (ang. input) — badacze więcej wymagają od osób z grupy „+"; gdy są to uczniowie, to nauczyciel więcej, i częściej, wymaga (i to-trudniejszego do opanowania materiału) od uczniów, których zaliczył do grupy „sukcesu"; badacz poświęca im więcej uwagi i jest wobec nich bardziej „nauczycielski" (chętniej i dokładniej objaśnia, co mają zrobić); (d) wydajność (ang. output) — badacz osobom z grupy „+" stwarza więcej okazji do „wykazania się", do ujawnienia ich „potencjałów". 93
Im bardziej warunki badania są wy standaryzowane (eksperyment laboratoryjny, aparaturowa ekspozycja bodźców i taka sama rejestracja odpowiedzi, brak możliwości ingerencji badacza w pracę osoby badanej itp.) i odbiegają od warunków swobodnego badania klinicznego, tym bardziej maleje udział tych czynników w powstawaniu efektu OIB, a i sam efekt staje się mniejszy.
3.4. Zapobieganie występowaniu efektu OIB Zróżnicowane traktowanie przez badacza osób badanych pociąga za sobą zróżnicowanie ich zachowanie się. Oddziaływanie badacza na osoby badane ulega przefiltrowaniu przez zmienne podmiotowe, związane z osobą badaną. Przyjrzyjmy się teraz tym zmiennym. Zacznijmy od tych zmiennych, które charakteryzują osobę badaną, tworząc jej „psychologiczny portret" (por. rys. 4.1, bloki: ff,^,^). Są to: (1) zmienne osobowościowe (takie jak: inteligencja, system wartości i przeko nań, lokalizacja kontroli, poczucie własnej wartości, postrzeganie badacza jako po dobnego do siebie, samoocena), (2) zmienne charakteryzujące uprzednie doświadczenie badawcze osoby bada nej, tzn. obraz powstały w rezultacie jej wcześniejszego kontaktowania się z bada czem w celach badawczych, a także jej wiedza potoczna, zdroworozsądkowa na ten temat, (3) zmienne związane z wytworzonym przez osobę badaną „prywatnym" ob razem instytucji reprezentowanej przez badacza (uniwersytet, szpital psychiatrycz ny, poradnia zdrowia psychicznego itp.). Scharakteryzujmy teraz pokrótce te zmienne, tworzące „portret psychologiczny" osoby badanej. Zgodność systemu uznawanych przez osobę badaną wartości jest bardzo ważną — jęli nie najważniejszą — zmienną pośredniczącą związaną z osobą badaną. Osoby badane o wysokim poczuciu własnej wartości oceniają się wyżej i raczej nie są skłonne dopuszczać do siebie informacji niezgodnych z ich „prywatnym" obrazem samego siebie. Są one tedy odporne na przekazywane im przez badacza sprzężenia zwrotne obniżające poziom ich samooceny i zmuszające je — gdyby były skłonne akceptować informacje zawarte w owym sprzężeniu zwrotnym — do zmiany, in minus, poczucia własnej wartości. Poczucie to jest bardzo odporne na zmiany. Osoby badane o wysokim jego poziomie z łatwością będą oddalały od siebie informacje (jako niezgodne z ich wyobrażeniem siebie samych) dwuznaczne czy o niewielkim natężeniu, które nie będą zgodne z ich samooceną. Z kolei osoby badane o niskim poczuciu własnej wartości nie będą się przeciwstawiały napływającym informacjom o swych niepowodzeniach, gdyż będzie to zgodne z ich ogólną koncepcją niskiego poczucia własnej wartości. Lokalizacja kontroli (w sensie: Rotter, 1966) jest zmienną dobrze opisaną w literaturze przedmiotu i nie ma potrzeby zatrzymywać się tu nad nią (por. Drwal. 1978, 1981). Osoba badana spostrzegająca siebie jako sprawującą kontrolę nad 94
własnym zachowaniem będzie mniej podatna na poddawanie się sprzężeniom zwrotnym płynącym od drugiej osoby (tu: od badacza), modyfikującym jej zachowanie, zgodnie z wytworzonymi pozytywnymi lub negatywnymi OIB, niż osoba badana lokalizująca źródło kontroli własnego zachowania na zewnątrz.
4. Postrzeganie przez osobę badaną sytuacji badawczej To, co stanowi szczególny „wkład" osoby badanej w interakcję „badacz-osoba badana", to wiązka czterech zmiennych (por. rys. 4.1): (1) status motywacyjny osoby badanej, SM; miejsce osoby badanej na konti nuum: ..zgłoszenie dobrowolne — zgłoszenie przymusowe" (por. Rosenthal, RosDOW. 1975; Brzeziński, Kowalik, 1993a), (2) wskazówki sugerujące hipotezę badawczą, WSH (ang. the demand characteristics of expeńmental situation, DC), zmienna opisana przez Orne'a (1991, 1993). (3) lęk przed oceną, LPO (ang. the evaluation apprehension, EA), zmienna opisana przez Rosenberga (1991a, 1991b), (4) oczekiwania interpersonalne osoby badanej formułowane pod adresem ba dacza. OIOB.
4.1. Status motywacyjny osoby badanej, SM Przejdźmy teraz do omówienia zmiennej SM. Analizując wyniki, od których zależy w znaczącym stopniu — trafność badania empirycznego, powinniśmy wpierw odpowiedzieć na pytanie o to, co osobę badaną skłoniło do tego, że zgodziła się wziąć udział w badaniu. Spróbujmy wpierw wyobrazić sobie kontinuum, którego krańce można opisać jako: „zgłoszenie dobrowolne osoby badanej — zgłoszenie przymusowe osoby badanej". Lokalizacja osoby badanej na tym kontinuum ma wpływ na trafność badań empirycznych prowadzonych przez badacza. To na polu badań empirycznych prowadzonych w naukach behawioralnych dokonano w ostatnich kilkudziesięciu latach istotnych ustaleń na temat roli SM w powstawaniu artefaktów. Najpoważniejsza na ten temat monografia Rosenthala i Rosnowa (cyt. wyd. 1975): The volunteer subject przedstawiła dane dotyczące charakterystyki osób deklarujących dobrowolny udział w badaniach psychologicznych (ochotników). Z ..portretem psychologicznym" ochotnika Czytelnik może się zapoznać w rozdz. 9.. pkt. 2. Nie wszyscy jednak psychologowie podzielają obawy co do stronniczości ochotników. I tak, z ustaleniami Rosenthala i Rosnowa polemizotal Kruglanski (1973), a na jego uwagi udzielili odpowiedzi Rosnow i Rosenthal ■74). Problem obciążenia wyników badań psychologicznych z udziałem ochotni95
ków został podjęty w pracach Bella (1962), Kohna i in. (1981) czy Cowlesa i Davisa (1987). Jednym z bardziej spektakularnych przykładów oddziaływania czynnika motywacyjnego na zachowanie się osób badanych w badaniach o charakterze ankietowym są głośne badania przeprowadzone przez Kinseya i jego współpracowników nad zachowaniem się seksualnym mężczyzn i kobiet. Analizę tego przykładu znajdzie Czytelnik w rozdz. 9., pkt. 2.
4.2. Koncepcja wskazówek sugerujących osobie badanej treść hipotezy badawczej WSH (wg M. T. Orne'a) 4.2.1. Charakterystyka zmiennych WSH Kolejna ważna zmienna modyfikująca przebieg badania empirycznego to zmienna WSH. Pierwszą pracę poświęconą tej zmiennej Ome ogłosił w 1959 r. (Orne, 1959a, 1959b, 1962 — poi. przekł. 1991, 1969, 1970, 1973 — poi. przekł. 1993). Podstawową myśl koncepcji Orne'a znaleźć można w zdaniach zaczerpniętych z jego najgłośniejszej pracy, która doczekała się wielu przekładów na języki obce (wg poi. wyd. 1991, s. 23): „Na zachowanie osoby biorącej udział w eksperymencie można by spojrzeć niemal tak samo, jak na zachowanie osoby w sytuacji rozwiązywania problemów, to znaczy, iż w pewnym momencie osoba badana spostrzega jako swoje zadanie to, że powinna uzyskać pewność co do prawdziwego celu eksperymentu i tak reagować, aby potwierdzić testowaną hipotezę. Jeśli patrzymy na to w ten właśnie sposób, to wszystkie bodźce, które komunikują osobie badanej treść testowanej hipotezy, stają się istotnymi determinantami jej zachowania. Całokształt tych bodźców nazwaliśmy «zmiennymi sugerującymi hipotezę badawczą» (Orne, 1959a). Bodźce te obejmują pogłoski, plotki krążące wśród studentów o eksperymencie, informacje uzyskiwane przez osoby badane podczas umawiania się na badanie, informacje związane z osobą eksperymentatora, z urządzeniem laboratorium, a także bezpośrednie i pośrednie informacje, które osoba badana odbiera w czasie samego eksperymentu. Często nie dostrzeganym przez eksperymentatora, a mimo to bardzo ważnym źródłem informacji dla osób badanych jest sama procedura eksperymentalna, którą osoby biorące udział w eksperymencie spostrzegają przez pryzmat dotychczasowej wiedzy i doświadczenia. Jeśli na przykład stosuje się jakiś test dwukrotnie i przedziela się go jakąś procedurą eksperymentalną, to nawet najmniej rozgarnięty student zorientuje się, że eksperymentator oczekuje jakiejś zmiany w wynikach testu, zwłaszcza jeśli test ten jest w oczywisty sposób związany z zastosowaną procedurą eksperymentalną". W każdym badaniu, zdaniem Orne'a, osoba badana ma status aktywnego uczestnika badania, a nie pasywnego „odbiornika" reagującego, na wzór szczura zamkniętego w skrzynce Skinnera, na bodźce-zmienne dozowane jej przez badacza Sytuacja badania — co już dużo wcześniej zauważył Rosenzweig (1933) — trak96
towana jes jest przez osobę badaną jako sytuacja problemowa. To, co przede sikim osób wszy-osoba badana stara się ustalić, to cel badania, w którym bierze ; ona sobie udział. Zdaje sobie sprawę z tego, że ma dość ściśle określony status, od niej ocz że badacz „czegoś" niej oczekuje, że pewne jej zachowania, odpowiedzi
Benie, że testowe mają większe zna-ie, że pewnych jej zachowań badacz
keję (bo tr oczekuje, że przynoszą mu one satysfa-;cję (bo trafnie ich wystąpienie no martwi; przewidział), gdy inne są mu obojętne czy wręcz go martwią (bo burzą
jego hipotezę, oczekiwania, dyskonfirmują te oczekiwania). Wyobrażając sobie cel badania i oceniając swój w nim udział pod kątem zagrożenia poczucia własnej wartości, osoba badana będzie postępowała bądź tak, aby jej zachowanie było zgodne z jej rekonstrukcją hipotezy badacza (udział w badaniu uznany został przez osobę badaną za „neutralny" dla jej poczucia własnej wartości), bądź tak, by jej zachowanie falsyfikowało zrekonstruowaną przez nią hipotezę badacza (udział w badaniu uznany został przez osobę badaną za „zagrażający" jej poczuciu własnej wartości). Zdaniem Orne'a, w typowej sytuacji badawczej, a więc przy dobrowolnym udziale w badaniach psychologicznych i braku poczucia zagrożenia poczucia własnej wartości, osoba badana jest skłonna współpracować z badaczem. Mówiąc inaczej, osoba badana będzie pozytywnie zmotywowana do tego, aby odegrać rolę „dobrej" osoby badanej i „...będzie się starała swoim zachowaniem potwierdzić postawioną przez eksperymentatora hipotezę" (Orne, 1991, s. 22-23). Zwróćmy uwagę na zakładany przez Orne'a SM — o którym była wyżej mowa — oraz na zakładany przez niego, jako konsekwencja pierwszego założenia, brak zagrożenia poczucia własnej wartości. Skupmy się teraz na Orneowskiej koncepcji osoby badanej, dobrowolnie biorącej udział w badaniu psychologicznym i nie percepującej jego przyszłych wyniŁów jako zagrażających jej poczuciu własnej wartości. Taka osoba badana, współpracując L badaczem w trakcie badania empirycznego, po jego zakończeniu oczekuje od badacza aprobaty dla swego zachowania. Takie nastawienie osoby badanej — mimo jej afirmującego stosunku do badacza — powinno budzić niepokój metodoSogiczny. gdyż zagraża ono obiektywności badania psychologicznego. Badanie psychologiczne staje się, poprzez subtelne oddziaływanie na zmienną zależną dodatkowych, nie kontrolowanych przez badacza zmiennych — których źródłem jest interakcja: „badacz-osoba badana" — trudne do wiernego powtórzenia przez innych badacz\. Niepowtarzalny — w innych warunkach społecznych (inny badacz, inna osoba badana) — charakter interakcji zachodzącej między badaczem i osobą badaną jest ..odpowiedzialny" za to, że przy takich powtórzeniach nie uzyskuje się tych samych rezultatów. Badania Orne'a (1959b) nad zachowaniem się osób poddanych hipnozie pokarały, że występowanie efektu eksperymentalnego miało miejsce tytko wówczas, gdy osoby badane uświadamiały sobie hipotezę badacza. Nie rejestrowano natomiast występowania efektu eksperymentalnego wówczas, gdy osoba badana nie była w Sanie zwerbalizować hipotezy badawczej. Oznaczałoby to, że werbalizacja hipotezy przez osobę badaną jest stosunkowo trafnym predyktorem zachowania się tej osoidać tedy wyraźnie, że zachowanie się osoby badanej w sytuacji badania 97
psychologicznego jest funkcją roli przez nią tworzonej i przez nią granej. Jest to rola „dobrej" osoby badanej (rzecz jasna, przy założeniu, że osoba badana bierze udział w badaniu na zasadach dobrowolnego zgłoszenia i że przyszły wynik badania nie jest postrzegany przez nią jako zagrażający jej poczuciu własnej wartości!). Jeżeli cel badania nie jest oczywisty, jeżeli jest on rozmyty, to osoby badane będą formułować wiele konkurencyjnych interpretacji tego celu. W efekcie nie doprowadzi to do jasnych, jednoznacznych rezultatów badania. Druga skrajność, to jest, gdy osoba badana jest w pełni świadoma hipotez badacza, może doprowadzić do zachowań „przekornych". Osoba badana nie zechce skorzystać z nazbyt oczywistych wskazówek i będzie się zachowywać naturalnie, uczciwie, albo przeciwnie niż to sugerują WSH. Może być i tak, że nazbyt oczywiste (z punktu wiedzenia osoby badanej!) WSH mogą sprowokować osobę badaną do zastanawiania się nad tym, co tak „naprawdę" badacz chce ukryć przed nią i co „naprawdę" eksperyment bada. Ponieważ, akceptując punkt widzenia Ome'a, nie sposób wyobrazić sobie osobę badaną, która nie przypisywałaby żadnego znaczenia manipulacjom badacza i dla której cel badania byłby całkiem obojętny, zatem trudno byłoby zaaranżować takie badanie naukowe, z którego jego WSH byłyby całkowicie wyeliminowane. Trzeba tedy nie tyle eliminować z badania jego WSH (bo jak to zrobić?), ile poddać je efektywnej kontroli. Działaniem WSH można wytłumaczyć fakt, że tak mało znamy badań psychologicznych, które, powtórzone przez innego badacza, na innych osobach badanych, ale z wiernym zachowaniem wszystkich elementów scenariusza badania, dostarczają tych samych rezultatów. Bardzo spektakularny jest w tym względzie przykład badań przeprowadzonych przez Ellisona, Davisa, Saltzmana i Burkego (1952 — podaję za: Orne, 1969; także: SiWerman, 1977, s. 57-58) oraz powtórzonych przez Gustafsona i Ome'a (por. Gustafson, Orne, 1965), a dotyczących zagadnienia wykrywalności kłamstwa za pomocą detektora kłamstwa (z GSR jako zmienną zależną). Zapoznam teraz dokładniej Czytelnika z przebiegiem tych badań, gdyż stanowią one dobrą ilustrację wpływu zmiennych WSH na wyniki badania psychologicznego. Ellison i in. badali wpływ znajomości wyniku uzyskanego na podstawie badania detektorem kłamstwa na wielkość reakcji skórno-galwanicznej (GSR). Po przeprowadzeniu pierwszej próby z detektorem kłamstwa części osób badanych powiedziano, że ich kłamstwo zostało przez badacza wykryte, zaś pozostałym, że ich kłamstwa nie zdołano wykryć. Podanie tej informacji wpłynęło na wyniki drugiej części eksperymentu. Otóż kłamstwa tych osób badanych, które uwierzyły, że detektor wykazał, iż kłamały, stały się trudniejsze do wykrycia za drugim razem. Natomiast kłamstwa osób, którym wydawało się, iż zdołały badacza wprowadzić w błąd stawały się łatwiejsze do wykrycia w drugiej próbie. Osiągnięte przez Ellisona i in. rezultaty okazały się dość paradoksalne i niezgodne z rezultatami osiągniętymi przez osoby posługujące się detektorami kłamstwa w codziennej praktyce zawodowej (np. badania sądowe). W praktyce przecież obsługujący detektor kłamstwa stara się tak postępować, by osoba badana była przekonana, że nie jest w stanie „oszukać" detektor. Zatem w świetle wyżej przedstawionych wyników, za98
biegi te prowadziłyby do zmniejszenia stopnia wykrywalności kłamstw, a nie — jak tego chcą osoby prowadzące badanie — do zwiększenia stopnia wykrywalności. Jak zatem wytłumaczyć rozbieżność danych pochodzących z laboratorium z danymi, jakich dostarcza rzeczywista praktyka? Odpowiedzi na to pytanie starali się udzielić Gustafson i Orne. Założyli oni, że w badaniu przeprowadzonym przez Ellisona i in. działały dodatkowe zmienne, których wspomniani badacze nie kontrolowali. Były to zmienne WSH. Z rozmów przeprowadzonych z badanymi studentami wynikało, że część z nich uważa, iż detektor kłamstwa nadaje się jedynie do wykrywania kłamstw zwykłych osób, i że tylko nałogowym kłamcom udaje się wprowadzić „go" w błąd. Zatem wartością, do której zmierzali studenci, było wykrycie ich kłamstw (wszyscy uważali się za normalnych, a nie za nałogowych kłamców). Tak więc sytuacja badanych studentów jest różna od sytuacji badanego-podejrżanego, który za wszelką cenę chciałby ukryć fakt kłamstwa. Mając informacje o akceptowanych przez osoby badane wartościach, możliwe jest manipulowanie tymi przekonaniami, a tym samym zmienianie WSH danej sytuacji eksperymantalnej. Tak też uczynili Gustafson i Orne. Podzielili oni osoby badane na dwie grupy. Każda grupa otrzymała odmienne instrukcje. I tak, pierwszej grupie powiedziano, że: Jest to eksperyment nad wykrywaniem oszukiwania. Próbujemy sprawdzić, jak dobrze pracuje detektor kłamstwa. Jak wiesz, niemożliwe jest wykrycie kłamstwa w przypadku osobowości psychopatycznych czy nałogowych kłamców. Chcemy, byś spróbował «okpić» jak umiesz najlepiej detektor podczas eksperymentu". Instrukcja ta miała na celu zwiększenie tego rodzaju WSH, które wystąpiły w badaniu Ellisona i in. Drugiej grupie podano instrukcję, wedle której postępowały osoby badane — jak się wydawało — w eksperymencie przeprowadzonym przez Ellisona i in. Była ona następująca: „Jest to badanie nad wykrywaniem kłamstwa i choć bardzo trudno jest oszukać detektor — to jednak ludzie bardzo inteligentni, emocjonalnie stabilni i dojrzali umieją to uczynić". W tym przypadku WSH miały zwiększyć tendencję badanych do oszukiwania. Następnie osoby badane z obu grup losowały jedną kartkę z numerem, którego miały nie ujawniać badaczowi. Tabela 4.1. Liczba trafnych i nietrafnych detekcji w pierwszej próbie eksperymentu Gustafsona iOmea Podana informacja o: wykryciu kłamstwa Grupa z ..potrzebą wykrycia" wykryci nie wykryci Grupa z
9 7 13 3
niewykryciu kłamstwa 13 3 11 5
„potrzebą oszukania" wykryci
ł między kolumnami 1,3 n.i. 0,17 n.i.
nie wykryci
/' między wierszami
1,31 n.i.
0,17 n.i.
Mca osobom badanym podano informacje o ..wykryciu" dopiero po próbie, z klórej pochodzą le dane
99
Tabela 4.2. Liczba trafnych i nietrafnych detekcji w drugiej próbie eksperymentu Gustafsona i Orne' Podana informacja o:
ł
wykryciu kłamstwa
niewykryciu kłamstwa
między kolumnami
4
14
10,28
12
2
a < 0,005
15
3
15,36
1
13
a < 0,001
Grupa z „potrzebą wykrycia" wykryci nie wykryci Grupa z „potrzebą oszukania" wykryci nie wykryci X* między wierszami
12,96 a < 0,001
12,55 a < 0,001
uwaga: ]f pokazuje, że ani podanie informacji, ani motywacja osób badanych nie były istotne: 0,25 (a> 0.95) i 0,001; df=\. Jednakie trafna detekcja zależała od interakcji informacji i motywacji: jf=30.94; Jf=l, a < 0,001
Z kolei badacz prezentował każdej osobie badanej kolejno wszystkie numery, a detektor kłamstwa rejestrował wielkość reakcji GSR. W pierwszej próbie różnica „stosunku oczekiwania" (względna wielkość krytyczna GSR) w obu grupach była nieistotna (por. tab. 4.1). Po przeprowadzeniu pierwszej próby badacz informował połowę osób z pierwszej i połowę z drugiej grupy, że ich kłamstwa zostały wykryte przez detektor (badacz miał niezależny dostęp do kart z numerami), a drugą połowę osób badanych, że nie zostały wykryte. O tym, czy dana osoba znalazła się w grupie „wykrytych" czy „nie wykrytych" decydowano w sposób losowy. Druga próba polegała na powtórzeniu badania, ale z inną kartą. Uzyskane wyniki (tab. 4.2) okazały się bardzo interesujące. Wysokie wyniki GSR uzyskano od 2 rodzajów osób badanych: (a) tych, które chciały być wykryte, ale nie zostały wykryte, (b) tych, które chciały oszukać, ale im się to nie udało (jest to grupa podobna do osób badanych w autentycznych warunkach życiowych). Tak więc osoby, których oczekiwania (nadzieje) zostały spełnione miały słabsze reakcje skórno-galwaniczne i tym samym ich kłamstwa stawały się trudniejsze do wykrycia — wbrew ich własnym nadziejom. Osoby, które chciały być „wykryte" i rzeczywiście zostały „wykryte", zachowywały się (pod względem wielkości GSR) analogicznie, jak osoby, które chciały oszukać i rzeczywiście oszukały. Okazało się zatem, że manipulacja WSH w interakcji ze zmienną niezależną, jaką był „rodzaj instrukcji", doprowadziła do różnych rezultatów. Manipulacja ta była skuteczna, gdyż instrukcje podawane osobom badanym odzwierciedlały ich poglądy ujawnione we wcześniejszej rozmowie. Wiarogodność instrukcji oraz zgodność z procedurą eksperymentalną okazały się rzetelną drogą do zmiany WSH sytuacji badawczej. W badaniu Gustafsona i Orne'a instrukcje nie były opracowane z myślą o bezpośredniej manipulacji postawami osób badanych, ale z myślą o dostarczeniu im różnych, podstawowych informacji o eksperymencie, w którym brały udział. Instrukcje te okazały się skuteczne, gdyż zmieniły percepcję sytuacji badawczej 100
osób badanych. Oczywiście, co nietrudno zauważyć, instrukcje podawane badanym nie mówiły im wprost, jak mają się zachować! Badanie przeprowadzone wedle układu Gustafsona i Orne'a pozwoliło m. in. na wytworzenie takiej sytuacji, która nie odbiegałaby od realnej sytuacji życiowej {Realizm życiowy — por. rozdz. 12., pkt. 2.5). Pozwoliło to jednocześnie na wyjaśnienie różnic w rezultatach osiąganych w laboratorium i w praktyce. Oczywiście aby uzyskać zamierzone efekty instrukcje muszą być dokładnie przemyślane i podawane bardzo ostrożnie. Bywa i tak, że trudno przewidzieć, w jaki sposób zmienić WSH sytuacji badawczej. Pewne nie zidentyfikowane przez badacza aspekty sytuacji badawczej mogą w sposób o wiele silniejszy wyznaczać WSH niż mozolnie opracowane przez niego instrukcje zmiany WSH. W takich przypadkach trudno się spodziewać sukcesów podobnych do tych, jakie były udziałem Gustafsona i Orne'a. Sytuacja badania, w jakiej znajduje się dana osoba, traktowana jest przez nią jako typowa sytuacja rozwiązywania problemów. Stara się ona ustalić cel badania, w którym uczestniczy i w zależności od nastawienia, swej postawy wobec badania, będzie starała się zachowywać tak, by zgodnie z własnymi wyobrażeniami odnośnie hipotezy badawczej albo ją potwierdzać, albo też falsyfikować. W przeciętnej sytuacji badania naukowego, a więc przy dobrowolnym udziale w badaniach i braku zagrożenia poczucia własnej wartości ze strony eksperymentatora osoba badana stara się współpracować z nim, tzn. postępować zgodnie z własnymi wyobrażeniami dotyczącymi oczekiwań co do sprawdzanej hipotezy. Mówiąc inaczej, osoba badana chce jak najlepiej zagrać rolę „dobrej" osoby badanej i często już po zakończeniu badania oczekuje od badacza aprobaty dla swego zachowania się w trakcie tego badania. Pomimo tego, że osobą badaną kierują pozytywne pobudki, takie jej nastawienie wobec badania psychologicznego stwarza poważne zagrożenie (Da jego obiektywności i może spowodować, że jego trafność zewnętrzna będzie dość niska. Zdając sobie sprawę z faktu, że osoby badane chcą poznać cel eksperymentu i postępować tak, by potwierdzić oczekiwania eksperymentatora, badacze starają się różnymi dostępnymi środkami zamaskować prawdziwy cel badania w nadziei, że pozwoli to uratować zagrożoną trafność zewnętrzną. Często stosowanym wybiegiem jest podawanie fałszywego celu badania. Jednakże jest to strategia raczej znana typowym osobom badanym, tzn. studentom; jest to populacja najczęściej poddawana badaniom przez badaczy-psychologów. Można nawet mówić nie o psychologii jako nauce o zachowaniu się człowieka, ale jako o nauce o zachowaniu się studenta psychologii (!). Stwarza to dość paradoksalną sytuację, gdyż nawet badaczowi, który stara się postępować z badanymi uczciwie i nie maskować — przez podawanie fałszywych danych —- prawdziwego celu badania, osoby badane oie wierzą, odbierając jego deklaracje co do prawdziwości podawanych danych jako perf jako perfidne kłamstwo. Tak Tak czy inaczej, osoby badane będą reagowały nie tylko na układu b wprowadzone do układu badawczego zmienne niezależne, o których różne ws traktują hipotezy, ale także na różne wskaźniki celu badania, których achowai dostarczają badanym: (a) osoba badacza (jej :howanie się w trakcie badania, Bwarzys. stosunek do badanych), (b) wypowiedzi osób towarzyszących badaczowi, (c) aparatura, sposób przeprowadzania pomiarów i re101
jestrowania wyników, (d) pomieszczenie, w którym przeprowadzane jest badanie, (e) sposób eksponowania bodźców, treść pytań zadawanych badanym, (f) atmosfera w pomieszczeniu, w którym odbywa się badanie itp. Z tego też względu badania przeprowadzane według planów, zgodnie z którymi dokonuje się kilkakrotnego testowania (pomiaru zmiennej zależnej) tej samej osoby, mają niewielką wartość, gdyż: (1) zestaw pytań (w przypadku kwestionariusza wywiadu czy też testu wiadomości) nie będzie już czymś nowym dla osoby badanej i będzie mogła ona udzielić tych samych odpowiedzi co za pierwszym razem, względnie je „poprawiać", gdy uzna, że jej poprzednia odpowiedź nie była dobra, (2) sam fakt podawania jednej i tej samej osobie badanej wielokrotnie tego samego testu wystarczy, nawet niezbyt inteligentnej jednostce, by domyśliła się, że prawdopodobnie badacz prosi ją znowu o wypełnienie tego samego testu dlatego, że oczekuje, iż wypełni go ona inaczej niż poprzednio, a zatem pozostaje jej tylko odpowiedzieć sobie na pytanie: „Jakich to zmian oczekuje ode mnie badacz?". Trudność tę można wyeliminować przez dokonywanie pomiarów na różnych losowo równoważnych grupach. Dobrze, ale co uczynić, gdy takie równoważne losowo grupy są badaczowi niedostępne, albo gdy muszą to być takie same osoby? Sprawa się oczywiście komplikuje, gdyż wymaga opracowania bardziej złożonych planów badawczych, co może dostarczyć dodatkowych wskaźników WSH osobom badanym. Dalej pokażę warianty postępowania badawczego w różnym stopniu minimalizujące wpływ WSH na zmienną zależną. Rzecz jasna, że WSH tego samego badania będzie różne dla różnych osób. Może być i tak, że część WSH będzie postrzegana jednolicie przez wszystkie osoby badane, a część nie. Może być też i tak, że inne WSH będą postrzegane przez jeden typ środowiska, z którego rekrutują się badani, np. studenci, a inne przez inne środowisko, np. przez żołnierzy. W każdym razie musimy przyjąć następujące założenie: na każdą osobę badaną oddziałują dwie grupy zmiennych: (1) zmienne niezależne ważne dla Y, (2) postrzegane WSH sytuacji badawczej (wraz z innymi zmiennymi zakłó cającymi). Wielkość wariancji zmiennej zależnej Y wyjaśnianej wpływami WSH decyduje o stopniu powtarzalności badania i o stopniu jego trafności ekologicznej. Im ta wariancja będzie mniejsza, tym większy będzie stopień powtarzalności samego badania i większa jego trafność zewnętrzna. Nasuwa się kolejne pytanie: w jaki sposób oddzielić wariancję zmiennej Y wprowadzoną przez WSH od wariancji wprowadzonej przez zmienne ważne dla K jeżeli nie sposób całkowicie wyeliminować WSH z badania? Postaram się teraz udzielić odpowiedzi na to pytanie. Procedury pozwalające określić i oddzielić wariancję zmiennej Y wprowadzoną przez WSH muszą uwzględnić fakt, że efekty wpływu WSH na Y są wynikiem aktywnego podejścia badanych do reagowania i to nie na pojedynczą zmienną niezależną wprowadzoną do układu przez badacza, ale na cały kontekst eksperymentalny, a więc na aktualnie działający na osobę badaną kompleks zmiennych. Z badań eksperymentalnych przeprowadzonych przez Orne'a wynikało, że wystc102
powanie efektu eksperymentalnego miało miejsce tylko wówczas, gdy badani uświadamiali sobie hipotezę testowaną przez badacza. Nie stwierdzono natomiast występowania efektu eksperymentalnego w zachowaniach tych osób badanych, które nie były zdolne do werbalizacji hipotezy badawczej. Oznacza to, że postrzeganie hipotezy testowanej przez badacza jest trafniejszym predyktorem wystąpienia efektu eksperymentalnego w zachowaniu się osoby badanej w sytuacji eksperymentalnej niż deklaracja tejże osoby zdająca sprawę z tego, co myśli ona o swoim zachowaniu się w trakcie badania (jak reagowała na zmienne eksperymentalne wprowadzone przez badacza do układu eksperymentalnego). W świetle przedstawionych dalej rozważań na temat grania przez osobę badaną roli „dobrej (współpracującej z badaczem) osoby badanej" widać wyraźnie, iż jej zachowanie się w sytuacji badania naukowego jest funkcją roli stworzonej przez nią i przez nią granej. Jeżeli cel badania nie jest oczywisty, osoby badane będą formułowały wiele różnych, konkurencyjnych hipotez odnośnie tegoż celu. W efekcie WSH nie doprowadzą do jasnych rezultatów. Druga skrajność, tzn. sytuacja, w której osoby badane są w pełni świadome hipotez badacza (cel badania jest jednoznaczny i oczywisty), może wywołać u nich tendencję do zachowania się „przekornego" (osoba badana nie chce skorzystać z możliwości, jakie stwarzają zbyt oczywiste WSH) — uczciwego. W skrajnych przypadkach może wystąpić tendencja do zachowania się przeciwnego niż to, które sugerują WSH. Wydaje się, że bardzo ważne jest określenie tych sytuacji, w których WSH wyzwalają zachowania osób badanych wzmacniające efekty zmiennych niezależnych oraz tych sytuacji, w których WSH wyzwalają zachowania badanych zmierzające do osłabienia tychże efektów. Ważne jest także rozpoznanie sytuacji, w których WSH nie odgrywają większej roli w modyfikowaniu efektów eksperymentalnych. Ponieważ — podkreślam raz jeszcze — trudno wyobrazić sobie osobę badaną, która nie przypisywałaby żadnego znaczenia manipulacjom eksperymentatora i która nie wyobrażałaby sobie domniemanego celu badania, w którym bierze udział, zatem trudno tak zaaranżować badanie, by całkowicie wyeliminować jego WSH. Proponuje się zatem, by tak projektować badanie empiryczne, aby możliwe było manipulowanie zmiennymi WSH sytuacji badawczej oraz określenie stopnia ich wpływu na zmienną zależną (określenie i oddzielenie wariancji zmiennej Y wprowadzonej przez WSH). Niestety takie badania są technicznie złożone. 411 Trzy procedury kontroli WSH Do badania WSH Ome zaproponował użycie tzw. procedur quasi-kontrolnych. Są to: (1) badanie posteksperymentalne (ang. postexperimental inąuiry), (2) niby-eksperyment (ang. non-experiment), (3) symulacja eksperymentalna (ang. simulańon). Ome wysuwa także analogię między badaniem farmakologicznym z użyciem placebo a badaniem WSH. Przedstawię teraz wymienione procedury wraz z ich krytyczną dyskusją i zaproponuję kilka planów eksperymentalnych, które pozwala-I iyby nie tylko na pogłębioną analizę efektów WSH, ale także na jednoczesne kon103
trolowanie innych, inferencyjnych wpływów na zmienną zależną, takich jak: wpływ pomiaru początkowego zmiennej Y przed wprowadzeniem manipulacji eksperymentalnej (tzw. pretestu) oraz wpływ instrukcji maskujących (ang. deception) podawanych przez badacza. Ten ostatni wpływ jest ściśle związany z wpływem WSH i dlatego powinno się je badać łącznie. 4.2.2.1. Badanie post eksperymentalne Badanie posteksperymentalne polega na przeprowadzeniu z osobami badanymi wywiadów na temat tego, co myślą o procedurze, której oddziaływaniu były poddane. Takie badanie jest dość trudne do przeprowadzenia i to nie ze względów obiektywnych, ale ze względów natury psychologicznej. Badacz chce, by badanie okazało się rzetelne, by instrukcje maskujące były na tyle „dobre", aby uniemożliwiały rozpoznanie przez osobę badaną prawdziwego celu badania. Jeżeli okaże się, że uświadamiała ona sobie cel badania w takim stopniu, który może podważać rzetelność jej odpowiedzi, badacz będzie zmuszony zrezygnować albo z jej wyników (wyniki nie będą poddawane dalszej obróbce, np. statystycznej), albo z dalszego jej udziału w badaniach. Oznacza to podwyższenie kosztów badania. Dlatego też badacze mogą odczuwać podświadomą niechęć do zbyt daleko „idącego w głąb" wywiadu, do niernego „drążenia" problemu. Przeprowadzenie wywiadu z osobami badanymi może napotykać na różne przeszkody, np. w postaci trudności w werbalizowaniu przez badanych odczuć, jakich doznawali w trakcie eksperymentu, niechęci do ujawniania tego, co wiedzą lub czego się domyślają na temat celu badania. Także sam wywiad przeprowadzony po zakończonym badaniu może zmieniać jego WSH. W efekcie badanie postekspery mentalne, nastawione na określenie stopnia wpływu WSH na zmienną zależną, może wypaść zadowalająco mimo tego, że WSH miały duży udział w wyjaśnianiu zmienności zmiennej Y. Może się tak stać, gdyż i osoby badane są w jakiejś mierze zainteresowane w uznaniu badania za rzetelne, ponieważ w przeciwnym przypadku mogą być narażone na utratę określonych gratyfikacji za udział w badaniu. Sądzę, iż można by podnieść skuteczność takiego badania posteksperymentalnego, jeżeli wywiad przeprowadzałaby inna osoba niż prowadzący badanie eksperymentalne psycholog (pod warunkiem, że nie będzie ona postrzegana przez osoby badane jako zwierzchnik eksperymentatora) i jeżeli sam wywiad miałby charakter rozmowy klinicznej w wersji standaryzowanych informacji, najlepiej z wykorzystaniem wielopunktowych skal szacunkowych. Można by też skonstruować kwestionariusz wywiadu według formalnego schematu kwestionariusza dynamicznego zaproponowanego przez Nowakowską (1975). Zdaniem Newberry'ego (1973) o wiele skuteczniejszy od wywiadu ustnego jest wywiad pisemny z możliwością udzielania przez badanego więcej niż dwóch odpowiedzi. Orne (1969) sugeruje pewną modyfikację badania posteksperymentalnego, która polegałaby na przeprowadzeniu nie jednego wywiadu po zakończeniu całego badania właściwego, ale serii wywiadów po każdym ważniejszym etapie procedury badawczej. Modyfikacja ta jest dość kosztowna i uciążliwa, gdyż wymaga wprowadzenia tylu grup badanych, ile przewiduje się wywiadów. Każda grupa osób badanych kończyłaby swój udział w eks104
perymencie w innym momencie, coraz bardziej oddalonym od momentu wyjściowego. W ten sposób można by śledzić dynamikę zmian WSH w trakcie trwania samego badania. Potrzebne tu jednak byłoby jedno, moim zdaniem, dość istotne założenie o losowej równoważności osób badanych należących do różnych grup (zasada randomizacji!). Założenie to pozwalałoby na traktowanie WSH jako takich samych dla poszczególnych grup badawczych. Niemniej otwarta pozostaje kwestia: jak zbadać zasadność takiego założenia? Badanie tej samej grupy osób jest niewskazane ze względu na duże obciążenie i fizyczne, i psychiczne (przede wszystkim!), a także dlatego, że w wyniku wielokrotnego pytania tych samych osób badanych o te same informacje możemy im „wmówić" percepcję określonych WSH. Wydaje się, że mimo różnych wad badanie posteksperymentalne warto przeprowadzać, jeżeli nie po właściwym badaniu, to już na pewno po poprzedzającym je badaniu pilotażowym. Wszak wnioski z takiego badania mogą okazać się bardzo istotne dla samej procedury eksperymentalnej, którą można będzie skorygować, a tym samym zaoszczędzić kosztów, jakie pociągałyby za sobą zmiany właściwego badania. Badanie posteksperymentalne przeprowadzone w fazie pilotażowej badania właściwego przyczyni się też do zwiększenia trafności tego ostatniego. Nie należy zapominać i o tym, że samo badanie posteksperymentalne także jest źródłem określonych WSH. które mogą być wskaźnikami WSH właściwego badania. W każdym bądź razie problem wcale nie jest łatwy do „rozgryzienia" i na pewno go w pełni me rozwiążemy za pomocą jedynie badania posteksperymentalnego. 412.2. Niby-eksperyment Badanie WSH za pomocą procedury „niby-eksperymentalnej" wymaga dwu równoważnych grup osób badanych wylosowanych z tej samej populacji. Najlepiej, gdy reprezentacyjną dla danej populacji próbę rozdzielimy losowo na dwie grupy: A i B. Z kolei grupę A poddaje się działaniu procedury eksperymentalnej, a osoby z grupy B prosi się, aby wyobraziły sobie, że są osobami poddanymi badaniom właściwym. W tym celu zapoznaje się je ze scenariuszem badania, z aparaturą i narzędziami pomiarowymi, z pomieszczeniem, w którym będzie przeprowadzane badanie, z osobami przeprowadzającymi i nadzorującymi przebieg badania itp. Udziela się im także tych samych instrukcji co osobom z grupy A. Obie grupy różni jedynie to. że osoby z grupy A będą rzeczywiście poddane badaniom właściwym, a osoby 2 grupy B — nie. Z kolei osoby z grupy A poddane są właściwym liom. a osoby z grupy B prosi się, by zachowywały się tak (tzn. udzielały iwiedzi na pytania testowe), jak wyobrażają sobie, że zachowywać się powinni prawdziwi badani (osoby te grają rolę „prawdziwych" osób badanych — w sensie biernego interpretacyjnego grania roli, por. Greenwood, 1991, s.- 184-185). Następnie badacz porównuje rezultaty otrzymane z badania obu grup. Jeżeli ciąże się. że rezultaty te są zbieżne, można przypuszczać, że osoby poddane badaniom odgadły ich cel. To jednak nie może jeszcze stanowić podstawy do wydalia sądu, że odgadnięcie właściwego celu badania było tym, co przede wszydeterminowało zachowanie się osób badanych w trakcie eksperymentu. Naj105
lepiej, w celu wyeliminowania wpływu czynnika stronniczości badacza, gdy badanie grupy B będzie prowadzone przez innego badacza, takiego, który nie jest zorientowany w zachowaniu się osób z grupy A. Osoby badane z grupy B mogą być następnie poddane wywiadowi opisanemu w pkt. 4.2.2.1. 4.2.2.3. Symulacja eksperymentalna W procedurze symulacji eksperymentalnej zadaniem osób badanych jest symulowanie rzeczywistego zachowania się osób poddanych oddziaływaniom zmiennych eksperymentalnych. Oczywiście osoby te nie są poddane oddziaływaniom jakichkolwiek zmiennych. Procedura ta wymaga, by inny badacz planował badanie i analizował jego wyniki, a inny przeprowadzał samo badanie (tak jak to sugeruje Barber, 1991, s. 400). Ten drugi badacz nie wie, że w badanej grupie znajdują się osoby, które nie reagują na zmienne eksperymentalne w sposób naturalny, ale jedynie symulują to reagowanie. Osoby badane-symulujące powinny być poinformowane, że osoba przeprowadzająca badanie nie zna ich statusu. Niedoinformowanie badacza ma na celu kontrolowanie czynnika jego stronniczości. Przykładu zastosowania tej procedury dostarczają badania nad hipnozą oraz nad deprywacją sensoryczną przeprowadzone przez Ome'a i współpracowników (por. Damaser, Shor. Orne, 1963; Orne, 1959b; 1969; Orne, Scheibe, 1964). W badaniach nad hipnozą okazało się, że osoby badane symulujące trans hipnotyczny potrafiły wprowadzić w błąd nawet bardzo wytrawnych zawodowych hipnotyzerów. Naśladowały one zachowanie się „prawdziwych" osób badanych opierając się przy tym tylko na różnych wskaźnikach, jakich dostarczała im sytuacja badawcza. Taki schemat postępowania umożliwia oddzielenie efektu stronniczości badacza od efektu WSH. Można także pytać przeprowadzającego badanie, czy osoba badana rzeczywiście zachowuje się tak, jak on to obserwuje, ponieważ jest pod wpływem działania manipulacji eksperymentalnej, np. sugestii hipnotycznej, czy też po prostu symuluje zachowanie się faktycznej osoby badanej. To, w jakim stopniu osoby symulujące kopiują zachowanie się rzeczywistych badanych, jest wskaźnikiem udziału WSH w determinowaniu zachowania się osób badanych. Z tego, że nie stwierdzono różnic między zachowaniem się osób badanych rzeczywistych i symulujących, nie wynika jeszcze, że zaobserwowane zjawiska psychologiczne wywołane zostały działaniem WSH sytuacji badawczej. Prawdopodobnie zostały one jednak wywołane, jak sądzi Orne, zadziałaniem zmiennej eksperymentalnej na Y. Niemniej jednak dopiero zarejestrowanie różnic w zachowaniu się osób badanych i osób symulujących może nas upewnić, że zmienne WSH nie miały istotnego wpływu na zmienną zależną. 4.2.3. Nowe plany eksperymentalne do badania efektów WSH Chciałbym teraz zaproponować kilka nowych planów eksperymentalnych, które pozwoliłyby badaczowi kontrolować wpływy omawianych poprzednio czynników zakłócających trafność uzyskanych w badaniu rezultatów. Chodzi tu o kontrolowanie 106
wpływów WSH sytuacji badawczej, wpływów instrukcji maskujących na zachowanie się osoby badanej w trakcie badania i wpływów efektu pretestu. Wprowadźmy następujące oznaczenia, które pomogą nam w symbolicznym przedstawieniu planów eksperymentalnych. I tak: X — zmienna niezależna-główna dla Y (manipulacja eksperymentalna), *V ■■■ ' *5p — pomiary początkowe zmiennej zależnej Y, Yu, ..., Y 5k — pomiary końcowe zmiennej zależnej Y, X— symulacja zachowania się w sytuacji badawczej, takiego, jakie wg wyobrażeń danej osoby potwierdza hipotezę badacza, X — symulacja zachowania się w sytuacji badawczej, jakie wg wyobrażeń danej osoby nie potwierdza hipotezy badacza. Schemat badania z zastosowaniem procedury symulacyjnej wedle Orne'a wygląda następująco: (la) X-YIIL k-Yy grupa B
grupa A
( l b) Y\.-X-Ylk A Y^-k-la
grupa &™Pa B
W planie (la) należy przyjąć założenie, że grupy A i B są losowo równoważ-tzn. „startują" z tego samego poziomu natężenia zmiennej zależnej. Założenie to jednak ma sens tylko wówczas, gdy grupy A i B są dostatecznie liczne. Ponieważ w psychologii dość często prowadzi się badania na małych grupach, konieczne jest sprawdzenie przed wprowadzeniem manipulacji eksperymentalnej, czy rzeczywiście grupy A i B nie różnią się pod względem natężenia zmiennej zależnej. Postulat ten spełnia plan (lb). Jednakże w planie tym nie kontroluje się efektu pretestu. którego kontrola jest bardzo ważna (por. rozdz. 12., pkt. 4.1), zwłaszcza dla badań w zakresie psychologii społecznej (problematyka zmiany postaw). Należałoby zatem przeprowadzić badanie WSH wedle układu opracowanego na kanwie planu Solomona (por. rozdział 12., pkt. 5.1.4 — plan 4.). Ponadto schematy zaproponowane przez Ome'a należy uzupełnić o wprowadzenie jeszcze jednej grupy: grupy kontrolnej, gdyż grupa symulująca nie realizuje celów prawdziwej grupy kontrolnej. Jest ona „grupą kontrolną" w innym sensie, gdyż wprowadza się ją w celu wykrycia wpływów WSH na zmienną zależną; tymczasem klasyczną grupę kontrolną wprowadza się dla sprawdzenia, czy zmiany zachowania zarejestrowane po zakończeniu badania rzeczywiście wystąpiły tylko w grupie, która wystawiono na działanie manipulacji eksperymentalnej, a nie wystąpiły w grupie, która była odizolowana od wpływów zmiennej niezależnej-głównej na Y. Łącząc postulat konlolowania efektu pretestu zmiennej zależnej z postulatem dołączenia do układu pip\ kontrolnej, możemy zaproponować następujący plan eksperymentalny: Yi p -X- Tu
grupa A
Yip - X - Y2k
gnipa B
Yj p - Yik
X - Yu Y5k
gnipa C
grupa D grupa E
107
Badacz może uznać, że kontrolował w danym badaniu efekty WSH i pretestu zmiennej zależnej, jeżeli wykaże, że: Y ik > Y 3p efektu pretestu Y,
ocena istotności zmiennej X dla Y oraz kontrola
yM Y
= Ylp Y
kontrola czynnika dojrzewania,
1^
<
kontrola WSH.
Yik
Jednakże przed przystąpieniem do badań należy wykazać, że: Stwierdzenie tych równości będzie potwierdzeniem słuszności założenia o równoważności grup porównawczych (ściślej: uprawdopodobnieniem tego założenia, gdyż na pięć grup sprawdzamy tylko trzy). Dla bardziej „subtelnych" analiz wpływu WSH na zachowanie się osób badanych w trakcie eksperymentu proponuję zróżnicowanie grupy symulującej na dwie podgrupy. Jedna opowiadałaby dotychczasowej grupie symulującej, tzn. starałaby się postępować tak, by potwierdzić nieznaną jej (badacz jej o tym nie informuje) hipotezę badawczą. Druga natomiast miałaby zachowywać się tak, by hipoteza badacza nie została potwierdzona. Jeżeli WSH wpływa na rezultaty badania, to wyniki otrzymane od grupy symulującej życzliwie dla badacza powinny być takie same, jak wyniki otrzymane od grupy poddanej działaniu manipulacji eksperymentalnej. Analogicznie, wyniki grupy symulującej „nieżyczliwie" dla badacza powinny się diametralnie różnić od wyników grupy poddanej działaniu postępowania eksperymentalnego. Jeżeli faktycznie wykonanie grupy eksperymentalnej jest lepsze od wykonania grupy kontrolnej, to wykonanie grupy symulującej „nieżyczliwie" powinno być jeszcze gorsze od wykonania grupy kontrolnej, i na odwrót. W przypadku, gdy WSH nie miały wpływu na rezultaty badania, grupy symulujące „życzliwie" i „nieżyczliwie" powinny uzyskiwać podobne wyniki, jak grupa kontrolna. Zatem schematy: (la), (lb) i (2) można rozbudować do następującej postaci:
108
Do zapisanych wyżej porównań należy dodatkowo wprowadzić:
Hal
Y u- = Y u
(lb')
K a. = Y K
(T)
Yu. = Yu Y
-
*2k
—
Y '»
=V *»•
Podane plany są planami eksperymentalnymi, a więc badacz jest zobowiązany do przestrzegania zasady randomizacji (por. rozdz. 12., pkt. 2.3). Stosowanie procedur kontroli efektów WSH w badaniach prowadzonych przez badaczy-psychologów na pewno przyczyni się do poprawienia schematów niejednego badania i to na etapie poprzedzających je badań pilotażowych. Podwyższy to w efekcie trafność zewnętrzną tych badań i przyczyni się do zwiększenia stopnia ich powtarzalności. Należy jednak pamiętać, że ani przedstawione powyżej procedury quasi-kontrolne, ani nowe plany eksperymentalne nie wyeliminują nam z badania wpływów WSH, pozwolą natomiast poddać je efektywnej kontroli. Dodatkowe korzyści wynikają z przydzielania funkcji badacza dwóm osobom, z których jedna planuje przebieg badania i zna jego cel, a druga zajmuje się jego stroną techniczną — przeprowadza je, wydaje instrukcje i dokonuje niezbędnych pomiarów zmiennej zależnej w wyróżnionych grupach osób badanych: eksperymentalnych, kontrolnych i symulujących. Ma to na celu kontrolowanie wpływu stronniczości badacza przeprowadzającego badanie. Nierozpoznanie przez osobę badającą osób symulujących w grupie badanych (wszak nie wie ona, które z nich symulują, a które w sposób naturalny reagują na wpływy manipulacji eksperymentalnej) może być wskaźnikiem osłabionego krytycyzmu badacza, albo też wskaźnikiem postawy przyjmowania wszelkich zachowań osoby badanej „za dobrą monetę" jeżeli tylko w jakimś stopniu „podpadają" one pod wytworzony obraz zachowania się badanych, wywołanego oddziaływaniem manipulacji eksperymentalnej. Zauważmy jeszcze, iż status osób symulujących jest inny niż status osób należących do grup eksperymentalnych i kontrolnych. Są one pomocnikami badacza i od ich chęci współpracy z badaczem (Orne bardzo w nią wierzy) zależy ich użyteczność w wykrywaniu WSH sytuacji (procedury) badawczej. Osoby symulujące zachowanie się ..prawdziwych" osób badanych wchodzą w swoistą interakcję z badaczem. Stosowanie procedur quasi-kontrolnych przyczynia się zatem do wypracowania takich procedur badawczych, które zbliżają model badania laboratoryjnego do naturalnych badań terenowych.
4.3. Koncepcja lęku osoby badanej przed oceną wystawianą przez badacza, LPO (wg M. J. Rosenberga) 43.1. LPO jako zmienna pośrednicząca Przejdźmy teraz do omówienia kolejnej najważniejszej — moim zdaniem — imiennej pośredniczącej, to jest LPO. LPO, tak jak ją określił Rosenberg (1965 — poi. wyd. 1991a), jest najważniejszą zmienną „podmiotową" (charakteryzującą na109
stawienia osoby badanej w sytuacji wystawienia jej na potencjalną krytykę innych osób — w szczególności badacza), pośredniczącą przy oddziaływaniu na zachowanie się osoby badanej w sytuacji badania psychologicznego takich zmiennych, jak: WSH, OIB, gotowość osoby badanej do współpracy z badaczem. Wprowadzony przez Rosenberga konstrukt LPO pozwala na głębsze zrozumienie istoty interakcji: „badacz — osoba badana". Badacz nawiązując kontakt z osobą badaną musi w swoim postępowaniu wziąć pod uwagę to, że spostrzega ona relację zachodzącą między nimi jako relację niesymetryczną. To badacz ocenia, a osoba badana jest oceniana, a nie na odwrót. W tym kontakcie ulega zderzeniu koncepcja własnego ,ja" (dokładniej: to, jaką osoba badana sama siebie widzi i jaką chciałaby być widziana przez innych) z obrazem zdrowia psychicznego, poziomu intelektualnego, przystosowania społecznego, umiejętności funkcjonowania społecznego itp., który wyłania się z przeprowadzonego przez badacza badania. Obraz ten na ogół odbiega od tego, co o samej sobie sądzi osoba badana. Chce ona uniknąć takiej konfrontacji obu obrazów. Gdy jednak jest to nieuniknione, gdy musi się wystawić na ocenę badacza, to pojawia się u niej uczucie niepokoju. Niepokój — Rosenbergowski LPO — w zależności od stopnia jego nasilenia, będzie blokował spontaniczność zachowania się osoby badanej w sytuacji badawczej. Niepokój ten może się także stać podstawą tendencyjnego postrzegania intencji kierujących badaczem, analizującym poszczególne sfery funkcjonowania osoby badanej. Zrodzony w ten sposób brak zaufania do badacza skutecznie może przesądzić o niekorzystnym (z metodologicznego punktu widzenia) rozwoju interakcji: „badacz — osoba badana". Należy tedy, za wszelką cenę, starać się zredukować poziom LPO u osoby badanej, zanim przystąpi się do zbierania danych. Sam Rosenberg tak opisał wprowadzoną przez siebie nową zmienną (Rosenberg, 1991a, s. 34-35): „Zakłada się, że typowy badany ujmuje typowy eksperyment psychologiczny opierając się na wstępnym założeniu, że psycholog może podejmować próbę oceny jego przystosowania emocjonalnego, zdrowia psychicznego, czy też jego braku. Przedstawiciele opinii publicznej łącznie ze studentami młodszych lat psychologii zazwyczaj już wiedzą (pomimo naszych okazjonalnych wysiłków mających na celu wykazanie, że jest na odwrót), że osoby, których praca obejmuje umiejętności i zainteresowania psychologiczne posiadają specjalne zdolności wykrywania powyższych właściwości i stanów. Nawet wówczas, kiedy badany jest przekonany o tym, że nie bada się bezpośrednio jego przystosowania, przypuszczalnie sądzi on, że eksperymentator winien być uwrażliwiony na wszystkie zachowania, które świadczą o złym przystosowaniu albo o niedojrzałości. Występujące w eksperymencie początkowe podejrzenie badanego, że może zostać on poddany ocenie, będzie zazwyczaj potwierdzane lub odrzucane (w zależności od tego, jak to jest spostrzegane we wczesnych stadiach kontaktu z eksperymentatorem). Gdy jest ono potwierdzane lub też, gdy podejrzenie to jest potwierdzane w pewnym stopniu, typowy badany będzie prawdopodobnie przeżywał lek przed oceną; jest to aktywne, zabarwione lękowo zainteresowanie dotyczące tego, czy (badany) uzyska ocenę pozytywną ze strony eksperymentatora albo czy przy110
najmniej nie stworzy podstawy do oceny negatywnej. Zmienne osobowościowe będą w pewnym stopniu wiązały się z zakresem działania tego lęku. Lecz równie ważne są różne aspekty modelu eksperymentalnego, takie jak wyjaśnienia udzielane przez eksperymentatora, rodzaje wykorzystywanych miar, a także same manipulacje eksperymentalne. Takie czynniki mogą działać z równą siłą we wszystkich kombinacjach warunków eksperymentalnych; lecz tu skoncentrujemy się na kłopotliwej sytuacji, w której różnice zabiegów stosowanych wobec kolejnych grup eksperymentalnych wywołują zróżnicowany poziom wzbudzenia i potwierdzenia lęku przed oceną. Szczególną trudność związaną z tym stanem rzeczy stanowi fakt, iż badani w grupach przeżywających wysoki poziom lęku przed oceną będą bardziej podatni na interpretowanie instrukcji i wyjaśnień podawanych przez eksperymentatora oraz stosowanych przez niego miar jako związanych z reakcjami, które mogą być rozpatrywane jako normalne albo patologiczne, dojrzałe albo niedojrzałe. Innymi słowy, będą oni wysuwali hipotezy na temat tego, jak uzyskać ocenę pozytywną albo jak uniknąć oceny negatywnej. Ponieważ badani w takiej grupie eksperymentalnej wykazują dostateczne podobieństwo w zakresie percepcyjnego ujęcia sytuacji, dojdą oni niezależnie od siebie do bardzo podobnych hipotez. Z kolei podobieństwo to może wpływać w systematyczny sposób na reagowanie w eksperymencie w taki sposób, który sprzyja fałszywemu potwierdzeniu oczekiwań eksperymentatora". Jeżeli prześledzić różne artykuły stanowiące raporty z badań psychologicznych, wyłania się z nich obraz osoby badanej jako takiej, która jest pozytywnie nastawiona do badacza i do roli, jaką on jej naznaczył. Zakłada się także, że osoba badana w każdej sytuacji chce współpracować z badaczem bez względu na konsekwencje dla jej samopoczucia, jakie niesie ta współpraca. Mało przy tym zwracano uwagi na fakt, że uczestniczenie w badaniach naukowych jest formą wystawiania I się osoby badanej na ocenę, że różne elementy jej obrazu siebie samej mogą, po I wysłuchaniu przewidzianych dla danego badania instrukcji maskujących i po per-[ cepcji WSH sytuacji badawczej, ulec niekiedy dość daleko idącym zmianom (tym bardziej, że skuteczność zabiegów wyprowadzających osoby badane z sytuacji badawczej jest dość problematyczna). Z drugiej strony wiemy, jak trudno wywołać zmiany w obrazie siebie samego u osób o pozytywnej i stabilnej samoocenie, zwłaszcza, gdy zmianom mają podlegać tzw. osiowe elementy obrazu siebie same-I go. Z kolei u osób o chwiejnej, niestabilnej samoocenie (w sensie: Brzezińska, ! Kofta. 1975). o nieadekwatnej kontroli emocjonalnej (w sensie: Kofta, 1979) wy-I stępuje tendencja do unikania sytuacji, w których mogłyby one być wystawione na krytykę własnego „ja". Mówiąc inaczej, starają się one, niekiedy za wszelką cenę, i nie przyjmować informacji sprzecznych z wytworzonym obrazem siebie samego. Wszelkie informacje zagrażające poczuciu własnej wartości takiej osoby stają się I dla niej bardzo dolegliwe, gdyż nie umie ona sobie z nimi poradzić. Jeżeli teraz I postawimy taką osobę w sytuacji badania psychologicznego, w której badacz ma-I nipuluje instrukcjami stresującymi, to znajdzie się ona w sytuacji autentycznego konfliktu. Z jednej strony chciałaby wypełniać rolę dobrej osoby badanej, a z drugiej — nie chce dopuścić do tego, by okazało się, że pod jakimś względem jest 111
gorsza niż to sobie wyobrażała. Tym co determinuje zachowanie się osoby badanej w takiej i podobnych sytuacjach jest właśnie zmienna LPO Gdyby przeprowadzić badanie posteksperymentalne, takie jak opisane niżej, okazałoby się, że osoby badane zadawałyby m. in. takie pytania: „Jaki był prawdziwy cel eksperymentu?", „Czy badacz nie wykorzysta wyników badań przeciwko mnie?", „Czy wypadłem zadawalająco?", „Czy zachowywałem się jak inni normalni ludzie?", „Czy reagowałem inteligentnie?". Osoby badane, które nurtują podobne problemy będą reagowały w sposób lękowy na zmienne niezależne wprowadzane przez badacza. W efekcie badacz otrzyma fałszywy obraz zależności między daną zmienną niezależną-główną dla Y i zmienną zależną. Z badań przeprowadzonych przez Rosenberga i współpracowników, które 9 skrócie zreferuję, wynika, że raz wywołany u osób badanych LPO będzie w istotny sposób wywierał wpływ na zmienną zależną i że wpływ ten nie tylko wywołuje wzrost wariancji błędu, ale także powoduje „nachylenie" wyników zmiennej zależnej bądź w jednym, bądź w drugim kierunku na kontinuum jej wartości. Naraża to badacza na formułowanie fikcyjnych wniosków. W tym kontekście niezmiernie ważne staje się wychwycenie czynników, które mogą przyczyniać się do powstawania u osób badanych LPO. Poznanie czynników tkwiących w sytuacji badawczej i w samym badaczu może istotnie obniżyć wpływ LPO na rezultaty badania psychologicznego. 4.3.2. Dwie metody badania wpływu LPO na wyniki badania psychologicznego Przedstawię teraz (za: Rosenberg, 1991b) dwie metody badania wpływów zmiennej LPO na zmienną zależną. 4.3.2.1. Metoda powtórnego przeprowadzenia badania wg zmienionego scenariusza Metoda polega na powtórnym przeprowadzeniu tego samego badania, ale wedle zmienionego scenariusza. Zmiany wprowadzane do scenariusza badania mają na celu wyeliminowanie tych elementów procedury badawczej, które mogą być hipotetycznymi czynnikami wywołującymi u badanych LPO. Jeżeli po przestrukturowaniu badania okaże się, że prowadzi ono do takich samych rezultatów, prawdopodobne jest, że w danym badaniu u osób badanych nie wystąpił LPO, przynajmniej w tych fazach, które zostały przez badacza skorygowane. Jeżeli natomiast zastąpienie elementów lękotwórczych procedury badawczej elementami lękowo obojętnymi da w efekcie wyniki odmienne od pierwotnie otrzymanych, powinno to być dla badacza sygnałem, iż zmienna LPO w tym badaniu nie była czynnikiem obojętnym z punktu widzenia trafności tego badania. Przeanalizujmy teraz przykład stanowiący ilustrację zastosowania tej metody. Posłużył się nią Rosenberg przy sprawdzaniu trafności hipotez dotyczących dysonansu poznawczego. Chodziło mu głównie o hipotezę głoszącą, iż w warunkach wysokiej nagrody dochodzi do niniejszych zmian postaw niż w warunkach niskiej 112
oagrody, gdyż w pierwszej sytuacji u danej jednostki występuje dysonans o niższym natężeniu niż w drugiej. W badaniach, które potwierdziły tę hipotezę, a przeprowadzonych przez Cohena (por. Brehm, Cohen, 1962), jako nagrody używano określonej sumy pieniędzy. Stawiało to badanych, zwłaszcza tych w warunkach dysonansu o niskim natężeniu (wysoka nagroda pieniężna), w dość dwuznacznej i kłopotliwej, przynajmniej dla części z nich, sytuacji. Mogli oni przecież postrzegać oferowaną im sumę jako próbę przekupienia za dokonanie zmian swoich poglądów, postaw. W ten sposób percepowana sytuacja badawcza wytwarzała (czy ostrożniej: mogła wytwarzać) u osoby badanej zagrożenie, że może być ona potraktowana przez badacza jako przekupna albo, że całe badanie w rzeczywistości przeprowadzane jest tylko po to, by badacz mógł się przekonać, które z osób pod wpływem odpowiednich sum pieniężnych łatwo godzą się na zmianę własnych poglądów. Badania przeprowadzono na grupie studentów Uniwersytetu w Yale. Zadaniem badanych było napisanie eseju na temat: „Dlaczego działania policji w New Haven były usprawiedliwione?". Chodziło tu o akcję sił policyjnych po zajściach, jakie miały miejsce na kampusie. Akcja ta spotkała się z negatywną oceną ze strony studentów. Zatem „wypracowanie", jakie mieli napisać badani, było sprzeczne z ich postawami wobec policji. Badacz podzielił studentów na podgrupy. Jako nagrodę badani otrzymywali: 0,50 dol., 1 dol., 5 dol., 10 dol. Po napisaniu eseju wypełniali ankietę, która dotyczyła stopnia aprobaty działań policji na terenie uniwersytetu. Na koniec osoby badane miały podać argumenty, jakimi posłużyły się w trakcie pisania niezgodnego z ich poglądami eseju. Otrzymane rezultaty potwierdziły oczekiwania Cohena. Grupa o najniższej nagrodzie (0,50 dol.) wykazała stosunkowo największą zmianę postaw w kierunku propolicyjnym, a grupy o nagrodach najwyższych (5 i 10 dol.) nie różniły się od grupy kontrolnej, która bez jakiejkolwiek obrony postawy przeciwnej wypełniała ankietę dotyczącą słuszności działań policji. Rosenberg kwestionuje te rezultaty mówiąc, że stopień zmian postaw będzie funkcją rosnącą wielkości nagrody pieniężnej, a nie jej funkcją malejącą, jak to wynika z badań Cohena. Dlaczego? Rezultaty Cohena można wytłumaczyć w kategoriach lęku przed oceną. Zresztą przeprowadzając podobne badania, ale z wyeliminowaniem z procedury badawczej elementów wzbudzających lęk przed oceną, Rosenberg (1991a) otrzymał wyniki, które potwierdzały zasadność jego zarzutów stawianych Cohenowi. Jego zdaniem dostarczanie osobom badanym w niektórych eksperymentach psychologicznych wysokich nagród dla wywołania argumentów skierowanych przeciwko ich postawom może im się wydać dziwne i mogą one uważać eksperymentatora za osobę, która traktuje je nieszczerze. To z kolei wy■ wołuje u nich poczucie, że poddane są jakiejś próbie, ocenie. W ten sposób u osoby badanej może wytworzyć się dość silny LPO, który będzie modyfikował jej zachowanie się. Niewspółmiernie wysoka — zdaniem osoby badanej — nagroda powoduje, że zaczyna ona podejrzewać, iż zasadniczym celem badania jest sprawdzenie jej uczciwości, odporności na pokusy czy też nieprzekupności. Na końcu tego łańcucha domysłów może leżeć stwierdzenie: „Muszę twardo trzymać się swoich wcześniej wyrażonych poglądów, gdyż inaczej potraktuje mnie on jako przekupne-
113
go!". W rezultacie odpowiedzi osoby badanej w ankiecie do badania zmian postaw będą obciążone efektem nastawienia odpowiedzi (ang. response-set). Aby wyeliminować z badania Cohena LPO należałoby — jak sugeruje Rosenberg — podzielić badanie na dwie fazy: pierwszą, obciążoną LPO, w której badacz wywołuje dysonans, i drugą, obojętną, w której badacz dokonuje pomiaru postaw. Badanie powinno być realizowane przez dwóch badaczy pozornie nie mających ze sobą nic wspólnego. W ten sposób negatywne emocje wyzwolone przez badacza oferującego „łapówkę" kosztem domniemanej autonomii osoby badanej nie wpływałyby na jej odpowiedzi w ankiecie stosowanej przez drugiego badacza, w całkowicie innym badaniu — jak to sugeruje się osobom badanym. Rosenberg zdaje się jednak nie dostrzegać jednego, a mianowicie tego, że mamy do czynienia z klasycznym problemem stosowania instrukcji maskujących drugiego rodzaju (dla zamaskowania instrukcji pierwszego rodzaju). Możemy snuć obawy, czy rzeczywiście wszystkie osoby badane dadzą się przekonać, że nie ma związku pomiędzy jednym a drugim badaniem. W każdym razie badania przeprowadzone przez Rosenberga nad dysonansem poznawczym z wyżej omówionymi modyfikacjami okazały się zgodne z jego oczekiwaniami1. Zostały one także potwierdzone przez Lindera, Coopera i Jonesa (1967). 4.3.2.2. Metoda manipulowania pobudzeniem emocjonalnym Kolej teraz na przedstawienie drugiej metody. Jest to metoda manipulowania pobudzeniem emocjonalnym i dostarczania odpowiednich wskazówek zachowania się. Zacznijmy od opisu eksperymentu. Dwóm grupom osób badanych zaproponowano udział w badaniu percepcji społecznej. Badani mieli oceniać stopień, w jakim „lubią", bądź „nie lubią", przedstawione im na fotografiach osoby. Badanie zostało poprzedzone informacją, że reakcje „lubienia-nielubienia" są skorelowane z osobowością, a szczególnie z dojrzałością psychiczną osoby oceniającej fotografie. Pierwszej grupie powiedziano następnie, że osoby dojrzałe i zdrowe psychicznie udzielały raczej odpowiedzi typu „lubienie". Drugą grupę poinformowano, że osoby niedojrzałe i psychicznie niezdrowe wykazywały tendencje do udzielania odpowiedzi typu „nielubienie". Obie grupy zostały dodatkowo poinformowane, że poprzednie badania, które dostarczyły odczytanych im wniosków, prowadzone były w takiej postaci, że każdorazowo osoba badana ustosunkowywała się do innej „żywej" osoby. Teraz badaczowi chodzi o sprawdzenie, czy te wnioski można odnieść także do fotografii. Wcześniej jednak — jak dalej informowano osoby badane — niezbędne jest wystandaryzowanie fotografii w celu określenia stopnia, w jakim wyzwalają one reakcje „lubienia-nielubienia". Oczywiście, jak sugerowano, standaryzacja fotografii wolna będzie od oceny osobowościowej badanych. Ocena ta zostanie przeprowadzona później poprzez porównanie uzyskanych szacunków z ocenami zebranymi od osób o określonych cechach osobowości. Czytelnikowi polecam zapoznanie się z wnikliwą krytyką eksperymentu Rosenberga i jego interpretacji hipotezy dysonansu poznawczego przeprowadzoną przez Nuttina (1982).
114
Rzecz jasna, że takie instrukcje musiały wywołać uczucie zagrożenia przypisania domniemanej cechy osobowości i to w nieprzyjemnych dla badanych kategoriach braku dojrzałości i zdrowia psychicznego. Są to dość typowe odczucia, jakie wywołują u większości osób badanych eksperymenty psychologiczne. Z kolei przez dostarczanie różnych wskaźników (informacje o tym, co pokazały poprzednio przeprowadzone badania) wprowadzano do eksperymentu zmienne WSH. Trzecią grupą badawczą, o której tu jeszcze nie było mowy, była grupa kontrolna. Otrzymała ona tylko krótki, neutralny komunikat -— bez celowego wprowadzania zmiennych: LPO i WSH. Gdyby nie stwierdzono różnic w odpowiedziach tych grup, świadczyłoby to, że albo nie udało się wywołać efektu oddziaływania na zmienną zależną zmiennej LPO, albo też. że zmienna ta nie miała wpływu na zachowanie się osób badanych | w sytuacji eksperymentu psychologicznego. Rezultaty okazały się bardzo interesujące. Dla 12 fotografii mężczyzn (każda szacowana na skali 21-punktowej: od -10 do +10) obliczono sumę punktów uzyskanych od każdej osoby badanej oraz średnie arytmetyczne (oddzielnie dla kobiet I i mężczyzn). Do porównań międzygrupowych zastosowano test f/-Manna-Whitneya. Rezultaty przedstawiam niżej:
Jeżeli przyjrzymy się tym rezultatom zobaczymy, że są one zgodne z przewidywaniami Rosenberga. Wszystkie osoby zostały dodatkowo przebadane za pomocą Skali Aprobaty Społecznej (Social Desirability Scalę, SD), Marlowea-Crowna. Na podstawie wyników uzyskanych przez mężczyzn w tej skali próbowano wyjaśnić brak istotnych różnic między grupą kontrolną, a grupą zorientowaną na jiielubienie". Uzyskane wyniki tak skomentował sam Rosenberg (1991b, s. 77): „Gdy badanych mężczyzn podzielimy na górną i dolną połówkę rozkładu ocen stwierdzimy, że występuje trend w przewidywanym kierunku u badanych z wysoką potrzebą aprobaty społecznej między grupą kontrolną i grupą, której sugerowano nielubienie. Natomiast u badanych z niską potrzebą aprobaty społecznej trend ten jest odwrócony i osiąga istotność (p<0,10) w kierunku sprzecznym z hipotezą. Gdyby ta ostatnia grupa wykazywała trend słabszy od trendu w grupie pierwszej, p wynik ogólny potwierdziłby przewidywaną zależność na akceptowalnym pozio115
mie istotności statystycznej. Tak więc to właśnie ci badani, którzy potrzebowali mniej aprobaty społecznej od innych (i możemy założyć — również od eksperymentatora) nie wykazywali chęci reagowania przeciwko swej naturze i uzyskiwania od eksperymentatora oceny normalności poprzez przedstawianie siebie jako bardziej nielubiących osób obcych aniżeli uczyniliby to skądinąd". Średnia punktów na kontinuum „lubienia-nielubienia" uzyskana przez mężczyzn o wysokim SD wynosiła +34,77, a w grupie mężczyzn o niskim wyniku SD +13,72 (różnica istotna statystycznie na a < 0,03). Posteksperymentalne badanie wykazało, że rzeczywiście uzyskane rezultaty zostały spowodowane wywołanym eksperymentalnie lękiem przed oceną. Tyle jeśli chodzi o prezentację tej metody. Ogólnie rzecz biorąc, jeżeli chcemy wywołać u osób badanych LPO, najlepiej uczynić to przez wprowadzenie instrukcji, w której u osób badanych wystąpiłyby elementy zagrożenia pozytywnego obrazu samego siebie. Na przykład, w innych badaniach Rosenberga osoby badane miały wykonywać długie i nudne zadanie polegające na dodawaniu kolumny cyfr. W instrukcji mającej wywołać LPO badacz poinformował jedną grupę osób badanych, że dojrzali i psychicznie zdrowi ludzie wykonują tego typu zadania z przyjemnością i są bardziej efektywni niż osoby niedojrzałe. Z kolei drugą grupę poinformował, że osoby dojrzałe i psychicznie zdrowe są mniej efektywne i odczuwają mniej przyjemności z wykonywania tego typu zadań niż osoby niedojrzałe i psychicznie niezdrowe. Trzecia grupa — kontrolna — otrzymała neutralną instrukcję. Cechą charakterystyczną drugiej metody wywoływania lęku przed oceną i pokazanego tu eksperymentu jest to, że instrukcje „lękotwórcze" podawane są bardzo wyraźnie, w bardzo bezpośredni sposób. W rzeczywistych badaniach mamy raczej do czynienia z bardziej zawoalowanymi instrukcjami, a osoby badane reagują lckowo raczej na jakieś pozawerbalne komunikaty. Ciekawe zatem byłoby opracowanie zestawu takich „subtelnych" metod wywoływania i badania rzeczywistego LPO, bez potrzeby powtarzania badania, czy też organizowania go specjalnie dla ustalenia efektów LPO. 4.3.3. Czynniki wyzwalające u osób badanych LPO Zapytajmy jeszcze, kończąc omawianie tej zmiennej, od czego, od jakich czynników zależy to, że jedne osoby badane są bardziej lękowo nastawione wobec badania i samego badacza, a inne mniej lub wcale? Z badań nad tą zmienną można wysnuć następujące wnioski (por. Brzeziński, Kowalik, 1993a, s. 286-287): (1) można zmniejszyć oddziaływanie LPO, na wyniki badania psychologicz nego, jeżeli funkcję osoby przekazującej instrukcje zawierające potencjalne źródło LPO i przez to skupiającej na sobie zainteresowanie osoby badanej, oddzielimy od funkcji osoby rejestrującej pomiary. Przypominam, że Barber (1991, s. 400) wpro wadził rozróżnienie między „badaczem", który planuje i organizuje badanie i „eksperymentatorem", który przeprowadza badanie i zbiera wyniki; (2) jeśli instrukcje badacza sugerują osobom badanym, iż podjęcie przez nie danego zachowania pociągnie za sobą pozytywną ocenę, a zachowanie to spostrze116
gane jest jako sprzeczne z przyjętymi normami społecznymi, to należy spodziewać się, że osoby badane o wysokim poziomie zmiennej aprobaty społecznej (w sensie: Crowne, Marlow, 1964; Drwal, 1995) będą raczej akceptowały wzorzec zachowania propagowany w instrukcji, a osoby badane o niskim poziomie zmiennej aprobaty społecznej będą skłonne odrzucać ten wzorzec i postępować w zgodzie z normami; (3) jeżeli badacz umożliwi osobie badanej ciągły dostęp do informacji zwrotnych o Jakości" jej funkcjonowania w sytuacji badawczej, to ułatwi jej w ten sposób takie kształtowanie zachowania, aby mogła ona uzyskać pozytywną ocenę badacza; (4) im mniejszy wysiłek musi włożyć osoba badana w zachowanie, które — zgodnie z sugestią zawartą w instrukcji — ma jej dostarczyć pozytywnych ocen, tym bardziej będzie ona skłonna owe zachowania podejmować; (5) badacz postrzegany przez osobę badaną jako ktoś, kto sprawuje nad nią władzę (np. badacz-klinicysta i osoba badana-pacjent czy badacz-profesor uniwer sytetu i osoba badana-student zdający u niego egzamin), który kontroluje jej dostęp do jakiegoś celu, łatwiej skłoni osobę badaną, aby zachowywała się zgodnie z instrukcją — zwłaszcza wtedy, gdy nie będzie ona postrzegała innych źródeł LPO; (6) w przypadku, gdy w celu uzyskania pozytywnej oceny ze strony badacza osoba badana musi postępować w sposób dotychczas nie praktykowany albo nie zgodny z przyjętymi normami, owo postępowanie ułatwi bardzo jasno dla osoby badanej sformułowana instrukcja; (7) badacze (zwłaszcza psychologowie!) postrzegani przez osoby badane jako osoby surowe i nie ujawniające swoich zamiarów, a jednocześnie „wścibskie", mo; gą wywołać u badanych zachowania oporne; (8) wysoki poziom LPO u osób badanych sprzyja wystąpieniu OIB, a wyeli minowanie LPO blokuje wystąpienie OIB; (9) LPO jest silniejszym niż WSH regulatorem zachowania osoby badanej; gotowość osoby badanej do współpracy z badaczem jest wtórna w stosunku do poszukiwania potwierdzenia u badacza tego, że jest ona „normalna"; osoba badana nie będzie współpracowała z badaczem, jeżeli uzna, że może to zaszkodzić jej reputacji (por. pkt. 4.4.). Dochodzić może także do interakcji zmiennych: LPO i OIB, tzn. zainteresowanie osoby badanej tym, czy badacz będzie ją oceniał jako „normalną" bądź ..nienormalną" może wywierać wpływ na sposób, w jaki będzie ona postrzegała jego preferencje i aspiracje co do wyniku badania. Badany nastawiony na odbiór wszelkich informacji, które mogą okazać się przydatne dla oceny stopnia zagrożenia własnego , ja" w danym badaniu, będzie jednocześnie wyłapywał znacznie więcej informacji (w postaci niewerbalnych komunikatów badacza) mówiących o preferencjach badacza co do rezultatów badania. W celu sprawdzenia, czy rzeczywiście tak jest, należy powtórzyć typowy eksperyment Rosenthala zgodnie z wymaganiem pierwszej metody wywoływania LPO. Badanie takie musi obejmować co najmniej dwie grupy: jedną z eksperymentalnie wywołanym silnym LPO i drugą z eksperymentalnie wywołanym słabym LPO. Badania tego typu przeprowadzone przez Rosenberga pokazały, że LPO pośredniczy w występowaniu efektów OIB. 117
4.4. Czy osoba badana nastawiona jest na współpracę z badaczem? Sytuacja eksperymentu psychologicznego może być dla osoby badanej sytuacją konfliktową, gdyż z jednej strony jako dobra osoba badana chce ona współpracować z badaczem i zależy jej na tym, by wysiłek włożony przez niego w zaplanowanie i przeprowadzenie eksperymentu nie poszedł na marne, a z drugiej strony zależy jej na tym, by badacz postrzegał ją jako inteligentną, błyskotliwą, dojrzałą emocjonalnie itp. W wielu eksperymentach, zwłaszcza z zakresu psychologii społecznej i zagadnień stresu psychologicznego te dwie tendencje osoby badanej nie mogą iść ze sobą w parze. Jaka tendencja zatem w sytuacji konfliktowej przeważy: chęć współpracy z badaczem, czy też chęć chronienia obrazu siebie samego, chęć pokazania się w badaczowi korzystnym świetle? Wyniki przeprowadzonych badań nie dostarczają jednoznacznych odpowiedzi. Tak np. Orne twierdzi, że osoba badana stara się przede wszystkim pokazać się (i rzeczywiście tak postępować) badaczowi jako chętnie i rzetelnie z nim współpracująca. Z kolei Riecken (1962) uważa, że badani starają się głównie jak najlepiej „wypaść" w danym badaniu, że zależy im na jak najlepszej ocenie własnego ,ja". Ciekawą hipotezę na ten temat sformułowali Sigalł, Aronson i Van Hoose (1970). Zapoznam z nią teraz Czytelnika. Próbowali oni wyjaśnić tendencje, jakimi kierują się osoby badane w eksperymentach psychologicznych. Ich zdaniem, w sytuacji, gdy osoba badana rozpozna (albo jej się wydaje, że rozpoznała) hipotezę badacza, nie będzie przejawiała tendencji do współpracy z nim jeżeli uzna, iż może to zaszkodzić jej „reputacji". Znaczy to, że jej zainteresowanie współpracą z badaczem jest wtórne w stosunku do jej zainteresowania tym, by pokazać się badaczowi w jak najlepszym świetle (ochrona własnego ,ja"). To, jak osoba badana oceni siebie na dymensji zdolności, decyduje o chęci (lub jej braku) współpracy z badaczem. Spontaniczna współpraca nie występuje. By sprawdzić tę hipotezę wspomniani wyżej autorzy opracowali następującą procedurę badawczą. Stworzyli cztery rodzaje warunków eksperymentalnych: (a) warunki zwiększonej efektywności (increased outpui) — współpraca osoby badanej z badaczem przynosiła obu stronom korzyści; (b) warunki zmniejszonej efektywności (decreased output) — tu także współ praca była korzystna dla obu stron; (c) warunki zmniejszonej efektywności, ale w obsesyjno-kompulsywnym kon tekście osobowościowym (decreased-output — obsessive-compulsive) — współpra ca osoby badanej z badaczem była korzystna dla badacza, ale nie dla osoby badanej i odwrotnie: brak współpracy był korzystny dla osoby badanej, ale nie dla badacza; (d) warunki kontrolne — nie sugerowały osobie badanej żadnej formy pracy. Badaniom indywidualnym poddano 40 studentów wstępnego kursu psycholo gii (sic!). Posłużono się instrukcją maskującą, która informowała osoby badane, że 118
badania, w których biorą udział mają na celu rozwiązanie pewnych problemów z zakresu psychologii przemysłowej. Wedle instrukcji osoby badane miały przez 7 minut przepisywać z książki telefonicznej numery telefonów na arkusze czystego (nie poliniowanego) papieru. Po rozdaniu arkuszy badacz opuścił pomieszczenie i wrócił po upływie 7 minut. Było to, jak wcześniej poinformowano, zadanie próbne. Osoby badane zostały także poinformowane, że zadanie, które wykonują nie jest ciekawe, ale wybrano je dlatego, że powiązane jest z kilkoma typami zadań przemysłowych, i że jego wykonanie jest niezależne od inteligencji i zdolności. Do tego momentu osoby badane otrzymywały niewiele informacji, nie były jeszcze przydzielone do grup różniących się warunkami eksperymentalnymi (zabezpieczenie przed wpływem na ich zachowanie ewentualnej stronniczości badacza), a nie poliniowany papier miał uniemożliwić dokonanie szybkiej oceny własnej efektywności. Po zebraniu wypełnionych arkuszy badacz obliczył dla każdej osoby badanej jej rezultat (liczbę przepisanych numerów) i wszystkie osoby rozdzielił losowo do czterech grup (randomizacja!). Do każdego wyniku osoby badanej z grupy (a) dodał 20 pkt.; od każdego wyniku osoby z grupy (b) odjął 20 pkt.; tak samo postąpił z wynikami grupy (c); wyniki grupy kontrolnej pozostawił bez zmian. Po wykonaniu tych operacji (w tajemnicy przed osobami badanymi) badacz dał każdej osobie poliniowane arkusze papieru z wypisanymi obok każdej linii kolejnymi numerami, by ułatwić jej zorientowanie się w tempie własnej pracy. Osoby badane z grupy (a) informował, że opracował teorię mówiącą o zależności między natężeniem oświetlenia w pomieszczeniu a wydajnością pracy. Następnie wskazywał, że włączona jest tylko połowa oświetlenia, i że w takich warunkach oświetleniowych spodziewa się on, iż w czasie 7 min badany może przepisać X numerów (tu podawał badanemu jego wynik uzyskany w zadaniu próbnym, powiększony o 20). Poinformował także osoby badane, że mogą kontrolować na zegarku, czas własnej pracy i wyszedł z pokoju, by wrócić po 7 min i zabrać arkusze. Grupa (b) otrzymała podobne instrukcje, ale wynik każdej osoby był pomniejszony o 20 pkt. W grupie (c) badacz podał instrukcję mówiącą, że interesuje go typ osobowości obsesyjno-kompulsywnej i że ludzie o tym typie osobowości są niernie drobiaz-; gowi (koncentrują się na drobiazgach). Następnie informował, że uważa iż zadanie, które badani mają wykonywać jest wskaźnikiem zachowań obsesyjno-kompulsywnych. gdyż ludzie, którzy zmuszają się do pośpiechu przy wykonywaniu właśnie takich zadań, są obsesyjno-kompulsywni. Grupa kontrolna była proszona o wykonanie zadania bez dodatkowych informacji i fałszowania wyniku „wyjściowego". Z każdą osobą badaną badacz przeprowadził rozmowę posteksperymentalną mającą oa celu wyprowadzenie jej z warunków eksperymentalnych (było to ważne zwłaszcza dla warunków (c)). Usiłowano także dowiedzieć się, czy osoba badana domyśliła się prawdziwej hipotezy badacza. Okazało się, że nikogo takiego nie było. Badacz oczekiwał, że w warunkach (a) nastąpi wzrost efektywności osób badanych (wysoki wynik będzie zaspokajał potrzebę osiągnięć, a zatem współpraca osoby badanej z badaczem będzie korzystna dla obu stron). Spodziewał się, że w warunkach (b) nastąpi spadek efektywności, ale osoby badane mogły zechcieć pobzać. że są lepsze niż badacz sobie to wyobraża, zatem współpraca z nim nie 119
pozwalała im na osiągnięcie własnych celów, a z kolei osiągnięcie ich przekreślało tę współpracę. Natomiast w warunkach (c) należało spodziewać się, że osoby badane zmniejszą swą efektywność, gdyż nie zechcą być oceniane jako „obsesyjno-kompulsywne". Rezultaty były następujące: warunk (a): przeciętna zmiana +5,7 warunk (b): przeciętna zmiana +6,2 i warunk (c): przeciętna zmiana -8,0 i warunk (d): przeciętna zmiana + 1,9 i Test f-ANOVA = 6,28; df= 3 i 36; a = 0,005. Test dla par różnic Duncana pokazał istotność różnic (a < 0,01) dla wszystkich par z wyjątkiem pary (a-b). Wykazano więc, że osoby badane w badaniu psychologicznym kierują się przede wszystkim własnymi celami, a dopiero później, i to pod warunkiem, że nie jest to sprzeczne z oceną własnych możliwości intelektualnych i własnej osobowości, kierują się celami badacza. Wyniki badań Sigalla, Aronsona i Van Hoosego zgodne są z przedstawioną wyżej koncepcją Rosenberga, mówiącą, że jednym z ważniejszych czynników motywujących zachowanie się badanych w eksperymencie jest LPO.
4.5. Oczekiwania interpersonalne osoby badanej formułowane pod adresem badacza, OIOB OIOB stanowią swoiste odwrócenie OIB. Tak, bowiem, jak badacz modeluje „odpowiadające" mu zachowania osoby badanej (wg wzorca efektu Galatei czy efektu Golema), tak i osoba badana może — zwrotnie — kształtować zachowania badacza. Pokazały to wyraźnie badania przeprowadzone w sytuacji szkolnej (por. Jamieson i in., 1987 — badali oni student expectancy effect). Osoba badana (podobnie jak uczeń) kierując się uprzednimi doświadczeniami badawczymi (dotyczy to zwłaszcza studentów pierwszych lat studiów psychologicznych często występujących w roli „królików doświadczalnych" biorących udział w badaniach empirycznych prowadzonych przez ich starszych kolegów przygotowujących prace magisterskie czy, co gorsza, w badaniach prowadzonych przez asystentów i doktorantów) wyniesionymi z kontaktów z tymi samymi lub z innymi psychologami, informacjami, które posiada o instytucji, dla której pracuje psycholog, pewnymi obiegowymi sądami na temat badań psychologicznych, dokonuje konfrontacji tych „przedbadawczych" informacji z trafnie —jak jej się wydaje — rozpoznanymi informacjami dotyczącymi celu badania oraz sformułowanej przez psychologa hipotezy badawczej. Status motywacyjny osoby badanej w połączeniu z samooceną (abstrahując od jej adekwatności) tych elementów ,ja", które jej zdaniem oceniane są przez psychologa w trakcie badania empirycznego oraz dokonana przez nią ocena konsekwencji, jakie mogą z tego wynikać dla jej „osobistych interesów", wyzwala (względnie nie) LPO. Owe zabarwione lękowo (zmienione) in120
fonr formacje oraz obraz kompetencji i „życzliwości" psychologa (zwłaszcza jego!) są podstawą formułowania pod jego adresem oczekiwań, których intencją jest przekonanie go do własnej, prywatnej wersji hipotezy badawczej. Jej obronny charakter będzie tym większy, im bardziej udział osoby badanej w badaniach będzie miał charakter przymusowy, im bardziej psycholog będzie postrzegany jako źródło różnorodnych zagrożeń, a wyzwolony LPO będzie blokował tendencję do grania roli „dobrej" (w sensie Orne'a) osoby badanej. Inaczej na OIOB będzie reagował badacz o wysokiej (adekwatnej) samoocenie pod względem kompetencji zawodowych, a inaczej badacz, który ocenia swoje profesjonalne możliwości bardzo nisko i w trakcie badania czuje się niepewnie. Lek przez oceną, którą mu wystawia osoba badana (a ocena ta dotyczy jego kompetencji zawodowych) czyni go osobą podatną na OIOB. I znowu, redukcja tego lęku osłabi wielkość efektu OIOB.
5. Powiązania między zmiennymi kontekstu psychologicznego badania psychologicznego Pisząc w niniejszym rozdziale o izolowanym wpływie czynników związanym z ladaczem i osobą badaną na wyniki badania psychologicznego, dokonałem pewneo uproszczenia bardziej złożonej, bo interakcyjnej rzeczywistości badawczej. Potapiłem tak dla większego uwypuklenia swoistości wpływów owych czynników — związanych z badaczem i z osobą badaną. Rozpatrywanie zatem oddzielnie loszczególnych wpływów jest pewnym zabiegiem upraszczającym (o statusie zatżenia idealizującego). Tak naprawdę, to owe wpływy zazębiają się. Zresztą owe zazębienia były kilkakrotnie ukazywane. Rysunek 4.1 przedstawia schematyczny obraz — nadal uproszczony — połązeń zachodzących między najważniejszymi zmiennymi psychologicznymi oddającymi istotę interakcji „badacz-osoba badana 11 . Wprowadzono na nim oznaczenia terowe: A,, A 2 , B x , B 2 , B 3 (zmienne charakteryzujące: badacza i osobę badaną); i].a 2 . b h b 2 , b$ (wpływ zmiennych z bloków: A i B); c, d (sprzężenia zwrotne). Zacznijmy analizę rys. 4.1 od przedstawienia tych zmiennych, które są swoiłtym „wkładem" badacza w interakcję. Są to: (1) zmienne osobowościowe — składające się na charakterystykę psychologi czną badacza (np. autorytaryzm, neurotyzm, otwartość umysłu) — blok A x \ (2) zmienne charakteryzujące funkcjonowanie zawodowe badacza — jego rompetencje zawodowe i doświadczenie w wykonywaniu zawodu, percepcja celu adania (np. realizacja badania na czyjeś zlecenie) — blok A 2 , Głównymi kanałami przekazu informacji, które modyfikują wpływ zmiennych [ndmiotowych (związanych z osobą badaną i badaczem) na zachowanie się badaBa i osoby badanej w sytuacji badawczej są: (a) OIB, które w taki sposób kształtują jego zachowania w sytuacji badawczej 121
Rys. 4.1. Interakcja „badacz-osoba badana"
(por. Duncan i in., 1969), że osoba badana może „odczytywać" treść hipotezy badawczej na podstawie li tylko takich wskaźników paralingwistycznych odczytywanych osobom badanym instrukcji, jak: tempo, rytm, intonacja, wysokość głosu itp., które różnicowały osoby czytające instrukcje i znające/nie znające treści hipotez; (b) OIOB, które w pewnym stopniu współkształtują zachowanie badawcze psychologa i zwrotnie dostosowują zachowanie osoby badanej do OIB badacza-psy-I chologa (sprzężenie zwrotne c). Zmienną, która — jak już wiemy z lektury pkt. 4.1 —stanowi swoisty pomost , między badaczem znającym treść hipotezy i chcącym ją potwierdzić a osobą ba-I daną. która musi się w określony sposób zachować w sytuacji badawczej, są OIB. I Zanim jednak dojdzie do ukształtowania się oczekiwań adresowanych do danej i osoby badanej (badacz postrzega ją jako taką, która jest „w stanie" potwierdzić I jego oczekiwania i przyczynić się do potwierdzenia hipotezy, lub jako taką, która I będzie raczej „nośnikiem" wyników falsyfikujących hipotezę), badacz wytwarza pierwsze, wstępne oczekiwania jej dotyczące, korzystając z różnych dostępnych mu źródeł informacji o niej. Dlatego też, tak ważna jest całkowita anonimowość badań. I Wstępne OIB, już po przyjęciu przez nie skrystalizowanej postaci, kształtują zachowania psychologa w sytuacji badawczej. Pośredniczącą rolę odgrywają cztery, I wyszczególnione przez Rosenthala, czynniki pośredniczące 1°: sprzężenie zwrotne, klimat emocjonalny, wkład i wydajność. To, jak zachowa się osoba badana, zależy od trzech grup zmiennych, (oznaczonych na rys. 4.1 literami: Bu B2, B3) stanowiących jej osobisty „wkład": (1) zmienne osobowościowe (np. poczucie własnej wartości, stabilność obrazu siebie samego, postrzeganie kontroli nad własnym zachowaniem się); (2) doświadczenie badawcze (np. studenci psychologii dość często goszczą w I laboratoriach psychologicznych i są obeznani z typowymi procedurami badawczymi I i pomiarowymi; to zaś sprawia, że nie reagują oni tak spontanicznie jak inne osoby i w konsekwencji badacz może mieć kłopoty z uogólnianiem uzyskanych wyników I na inne populacje); (3) obraz instytucji zatrudniającej badacza (reprezentowanej przez niego; dla I osoby badanej, np. żołnierza, nie jest obojętne czy badanie prowadzone jest przez I psychologa zatrudnionego w wojsku, czy dla placówki badawczej, np. uniwersyHfickiej). „Decydujący" wpływ na zachowanie badawcze osoby badanej mają trzy, I szczegółowo wyżej omówione czynniki pośredniczące II0: SM, WSH, które „dzia-I łaja" poprzez trzeci czynnik — LPO. Zachowanie się osoby badanej w sytuacji dawczej będzie zwrotnie (sprzężenie d) współkształtowało wstępne OIB. 123
6. Podsumowanie Nieuwzględnianie przez badacza (a zwłaszcza przez psychologa!) psychologicznego charakteru badania naukowego w psychologii, tego, że osoba badana wchodzi z nim w interakcję (czy badacz tego chce, czy nie) i że może to mieć (i najczęściej ma!) wpływ na końcowy wynik tego badania, prowadzi do groźnych konsekwencji metodologicznych (pomijam tu konsekwencje etyczne). Sprowadzają się one do kreowania przez badacza artefaktów. Niestety zbyt wielu jeszcze badaczy-psychologów lekceważy te zagrożenia i nie poddaje efektywnej kontroli zmiennych kontekstu psychologicznego i społecznego (zwłaszcza tych opisanych w niniejszym rozdziale). Skutki są niestety „zabójcze" dla badań psychologicznych czy pedagogicznych. Wielu z nich nie udaje się powtórzyć innym badaczom, którzy postępując ściśle wedle wskazówek zawartych w oryginalnym raporcie badawczym uzyskują wyniki odbiegające (niekiedy znacząco) od wyników opisanych przez autora badań oryginalnych. Jak jednak wiemy, powtarzalność badań jest jednym z kryteriów ich intersubiektywnej kontrolowalności. Śmiem twierdzić, że operatywna wiedza badacza na temat zmiennych kontekstu psychologicznego badania psychologicznego jest jednym z najważniejszych elementów kompetencji badawczych psychologa. Literatura przedmiotu bardzo bogata w języku angielskim, jest, niestety, dość uboga jeśli chodzi o język polski. Pozycją „numer 1", zalecaną Czytelnikowi, jest zbiór tłumaczeń podstawowych prac takich autorów, jak Rosenthal, Rosenberg, Barber, Orne i inni: Brzeziński J., Siuta J. (red.) Społeczny kontekst badań psychologicznych i pedagogicznych. Wybór tekstów. Z innych opracowań polecam oryginalną pracę badawczą odnoszącą się do zjawiska oczekiwań interpersonalnych nauczyciela w klasie szkolnej: Seul S. Oczekiwania nauczyciela a wyniki nauczania. Oczekiwań interpersonalnych nauczyciela dotyczy też praca: Gilly M. Nauczyciel-uczeń. Role instytucjonalne a reprezentacje. Rozbudowany model powstawania i wpływu OIB na zachowanie się osób badanych w sytuacji badania psychologicznego znajdzie Czytelnik w: Brzeziński J., Kowalik S. Modelujący wyniki badania psychologicznego (diagnostycznego) wpływ osoby badanej (pacjenta) i badacza (klinicysty). Ponadto polecam: Ome M. T. Komunikowanie się w sytuacji eksperymentalnej: dlaczego jest ono istotne, jak jest oceniane i jakie ma znaczenie dla trafności ekologicznej.
Rozdział 5. Etyczne problemy psychologii (I) — między kodeksem etycznym a laboratorium 1. Wprowadzenie Czy psychologowie potrzebują odrębnego kodeksu etycznego, który regulowałby ich działalność zawodową? Wbrew pozorom odpowiedź na to pytanie nie jest wcale oczywista. Z jednej bowiem strony można powiedzieć, że wystarczy nie naruszać norm ogólnoludzkiego postępowania, respektować powszechnie akceptowane wartości, takie jak: wolność, podmiotowość, autonomia, lub też kierować się tym, co dyktuje własne sumienie i wówczas odpowiedź na to pytanie będzie przecząca. Osoby, które miałyby wątpliwości co do tych aprobowanych przez społeczeństwo Dorm i wartości, zawsze mogą zajrzeć do ogólnie dostępnej Deklaracji Praw Cztowka ONZ. Cóż bowiem będzie „bardziej etycznego" w sformułowaniach kodeksu etycznego psychologa od ogólnych sformułowań etycznych? Z drugiej zaś strony, swoistość roli, jaką przypada pełnić psychologowi, a której zasadniczą treścią jest interakcja interpersonalna, zmusza go zapewne do zwrócenia większej (świadomej) uwagi nie tylko na profesjonalizm, ale też na subtelność relacji międzyosobowych, w które uwikłany jest w swojej działalności. Dodajmy jeszcze i to, że owe relacje mają na ogół charakter asymetryczny. To psycholog „coś" nakazuje, „coś" może zrobić, i to psycholog, a nie jego klient, wyposażony jest w specjalistyczną wiedzę iposługuje się metodami (budzącymi niekiedy lęk), którymi może pomóc, ale może też zaszkodzić — intencjonalnie lub bezwiednie. Specyfika roli nakłada na psychologa znacznie większe ograniczenia etyczne w jego działalności zawodowej, niż na przykład dzieje się to w zawodzie archeologa. Wszystko, co czyni psycholog — jako badacz, wykładowca, terapeuta, ekspert — jest o wiele bardziej wyraziście j lokowane w perspektywie aksjologicznej niż to, co czyni archeolog. W tym wyI padku odpowiedź na powyższe pytanie jest więc twierdząca. I Uważam, że argumenty „za" przeważają i że warto pokusić się o przeprowadzenie bardziej szczegółowej charakterystyki etycznej regulacji działalności profesjonalnej psychologa. Nie czuję się jednak dostatecznie kompetentny, aby dyskutować na temat etycznych implikacji, jakie pociągają za sobą wszystkie role peł125
nione przez psychologa. Osobiście bliżej mi znaną rolą psychologa jest rola badacza i związana z nią rola pracownika nauki i nauczyciela. Chciałbym tedy omówić etyczne aspekty relacji interpersonalnej, w którą wchodzi z badaną osobą psycholog, pełniąc rolę zakładającą jego określone kompetencje jako badacza. Omawiając etyczne aspekty relacji: „psycholog-osoba badana", będę odwoływał się do następujących tekstów normatywnych: American Psychologial Association (1973), Ethical principles in the conduct of research with human participants, Washington, DC, Author (w skrócie: EPCRHP); American Psychological Association (1992), Ethical principles of psychologist and code of conduct, , American Psychologist", 47, 1597-1611 (w skrócie: EPP): Komitet Etyki w Nauce przy Prezydium PAN (1994), Dobre obyczaje w nauce. Zbiór zasad i wytycznych, Warszawa, Autor (w skrócie: DON); Polskie Towarzystwo Psychologiczne (1992), Kodeks etyczno-zawodowy psychologa, Warszawa, PTP (w skrócie: KEZP). Inni psychologowie znacznie więcej uwagi poświęcają omówieniu, pominiętej przeze mnie, relacji: „psycholog (jako praktyk)-kłient/pacjent" oraz „psycholog (jako nauczyciel zawodu)-student/słuchacz". Być może, że te dwie ostatnie relacje są ważniejsze dla środowiska psychologów (kodeksy poświęcają im na ogół więcej miejsca), ale nie zapominajmy, że nie byłoby psychologa-praktyka, gdyby nie prowadzono psychologicznych badań naukowych, gdyby na uniwersytetach nie rozwijała się w „jarzmie metodologicznym" psychologia. Jaką bowiem wiedzą i jakimi metodami posługiwałby się psycholog-praktyk? Psycholog, który zechce wejść w rolę badacza, musi liczyć się z tym, że poprzez fakt przeprowadzenia badania oraz uzyskane wyniki badawcze, rozpowszechnione w przyjęty w jego środowisku sposób (publikacja, referat na konferencji, wykład, ekspertyza), wejdzie w następujące relacje: (1) z osobami badanymi (relacja a); (2) ze studentami, których naucza — m.in. odwołując się do danych uzyska nych w trakcie przeprowadzonego badania (relacja b)\ (3) z reprezentującymi instytucje szeroko pojętej praktyki społecznej osobami, których postępowanie wobec np. pacjentów czy uczniów uzasadnione jest uzyska nymi przez niego wynikami badawczymi (relacja c); (4) z innymi osobami (społeczność uczonych), które prowadząc własne bada nia, będą w jakimś zakresie wzorować się na jego metodzie bądź uwzględniać uzyskane przez niego wyniki w analizowaniu systemu wiedzy psychologicznej (re lacja d). To zaś będzie miało pośredni wpływ na jakość praktyki społecznej (swoi ste „przedłużenie" relacji c — relacja c'). Jak wiadomo, w procesie kształcenia studentów ważną rolę odgrywa ich kontakt z psychologami-praktykarni. Ci zaś będą przenosić na nich swoje doświadczenie zawodowe, ukształtowane m.in. pod wpływem rezultatów badawczych uzyskanych przez psychologa-badacza (kolejne „przedłużenie" relacji c — relacja c'"). Także studenci, kontaktując się z instytucjami praktyki społecznej, w jakimś zakresie przenoszą „nowinki" z uniwersytetu, zwłaszcza ci bardziej ambitni, myślący o 126
przyszłej karierze naukowej (kolejne „przedłużenie" relacji c — relacja c"). Z kolei psychologowie-praktycy będą, po jakimś czasie, informować zwrotnie o skuteczności/braku skuteczności postępowania diagnostycznego czy terapeutycznego opartego na wynikach badawczych przekazanych przez badacza — bądź bezpośrednio, ze środowiska praktyki społecznej (relacja/), bądź pośrednio, ze środowiska badaczy (relacja e\ stanowiąca „przedłużenie" relacji e). Zależności te, wyżej przedstawione, zostały szkicowo ujęte na rys. 5.1.
Rys. 5.1. Relacje, w które wchodzi psycholog występujący w roli badacza
Analizując relacje, w które wchodzi psycholog występujący w roli badacza, akcentuję przede wszystkim możliwe skutki jego postępowania, skutki, które naruszają przyjęte przez społeczność psychologów (i wyartykułowane w kodeksach zawodowych) normy postępowania z osobami badanymi. Zresztą właśnie tym normom, a zwłaszcza ich naruszaniu, poświęcony jest cały ten rozdział. Trzeba jednakże pamiętać i o tym, że dla psychologii, jako dyscypliny naukowej, równie ważne są skutki metodologiczne (chociaż i one mają swoją kwalifikację etyczną). Relacją, która rodzi zdecydowaną większość problemów etycznych, jest relacja badania empirycznego (relacja a). Zauważmy od razu, iż wyróżnioną już przez 127
Rosenzweiga (1933) osobliwością badania (naukowego) psychologicznego jest to, że nie tylko badacz jest aktywnym podmiotem badania, panującym niepodzielnie nad sytuacją badawczą, ale, że i osoba badana jest aktywnym podmiotem, „żywo' reagującym nie tylko na polecenia badacza (i nie tylko zgodnie z jego intencjami), ale także na niego, jako na jeden z elementów sytuacji badawczej. Co więcej, może wpływać na zmianę jego zachowania. Trzeba tedy mówić o dwupodmiotowym charakterze badania psychologicznego. Sądzę, i temu poświęcę stosunkowo najwięcej miejsca w niniejszym rozdziale, że najbardziej wątpliwe aspekty postępowania badacza w trakcie badania psychologicznego związane są z: (1) okłamywaniem osób badanych i ich niedoinformowaniem co do celu badania i poszczególnych elementów jego scenariusza (por. pkt. 2.1); (2) narażaniem osób badanych na dyskomfort fizyczny i psychiczny (por. pkt. 2.2); (3) uzależnianiem osób badanych od badacza, który w ich świadomości może wykorzystać uzyskane w trakcie badania informacje (niekiedy dotyczące sfery intymnej czy naruszenia przez osobę badaną norm prawa) przeciwko osobie badanej; (4) wykorzystywaniem pozycji zawodowej w celu uzyskania zgody na udział w — niekoniecznie przyjemnych i niekoniecznie obojętnych dla zdrowia psychicznego — badaniach (por. pkt. 2.3). Badacz, który prowadzi badania za pomocą metody nie spełniającej zaakceptowanych przez społeczność badaczy standardów (czy tylko częściowo je spełniających) i świadomie to ukrywa, albo — niezgodnie ze stanem faktycznym — podnosi wartości parametrów „swojej" metody, nie tylko postępuje niezgodnie z kodeksem etycznym, ale kreuje nowe fakty pseudonaukowe za pomocą tej nieuczciwie skonstruowanej i stosowanej metody. Owe artefakty, bo tak właśnie należy je określić, oraz nierzetelna metoda, za pomocą której zostały one uzyskane, nie zakończą żywota wraz z zamknięciem tego pseudonaukowego badania. Podobnie jak i dane uzyskane, co prawda zgodnie ze standardami metodologicznymi, ale w sytuacji wymuszenia udziału osoby badanej w badaniu (por. relacja a) i podobnych sytuacjach badawczych obciążonych interakcyjnym charakterem badania psychologicznego. Są one przekazywane przez badacza: — innym badaczom, z którymi psycholog komunikuje się (relacja komuniko wania — d) prowadząc wspólne badania, ogłaszając ich wyniki w trakcie konfe rencji naukowych czy publikując artykuły i książki; — studentom (relacja nauczania — b) w trakcie wykładów seminariów i zajęć praktycznych; — przedstawicielom praktyki społecznej (relacja zastosowania — c), którzy bądź przejmują od badacza gotową metodę, opracowaną przez niego z myślą o zastosowaniu w praktyce, bądź też, częściej, którzy na podstawie nietrafnych re zultatów badawczych sami projektują i konstruują metody postępowania diagnosty cznego czy terapeutycznego. Rezultaty nieetycznego postępowania badacza rozprzestrzeniają się nie tylko wskutek jego bezpośredniej działalności dydaktycznej (relacja b), ekspertalnej (relacja c) czy naukowej (relacja d). Wchodzą one także w obieg społeczny, gdyż są w postaci częściowo zmienionej wykorzystywane w sferze praktyki społecznej przez innych psychologów, którzy prowadząc działalność ekspertalną oparli się 128
właśnie na tych wynikach badawczych (relacja c'), a także przez tych studentów, którzy odbywając w instytucjach praktyki społecznej staże, informują o postępach wiedzy psychologicznej (niejako z „pierwszej ręki") na ich uniwersytetach (relacja c"). Nieefektywność postępowania praktycznego opartego na nietrafnych rezultatach badawczych, pozyskanych za pomocą nierzetelnych metod, po pewnym czasie zostanie dostrzeżona. Informacja o niej, jeżeli oczywiście badacz będzie zainteresowany jej uzyskaniem, dotrze do niego bądź bezpośrednio ze sfery praktyki społecznej (relacja/) bądź od innych badaczy, którzy przekonali się o nieskuteczności postępowania praktycznego korzystającego z owych pseudobadawczych rezultatów, a zalecanego w formułowanych ekspertyzach (relacje: e i e'). Także i studenci utrzymujący kontakty z instytucjami praktyki społecznej mogą informować psychologa-badacza o tym, że w praktyce odstąpiono od formułowanych przez niego zaleceń, gdyż nie prowadziły one do oczekiwanej zmiany stanu rzeczy (relacja e").
2. Szczególnie etycznie wątpliwe aspekty działalności badawczej psychologa Spośród wymienionych na wstępie relacji interpersonalnych, w które wchodzi psycholog, relacja, w której występuje on w roli badacza, przede wszystkim eksperymentatora (laboratoryjnego i terenowego), jest najbardziej narażona na etyczne wypaczenia. To w laboratorium psychologicznym (w szerokim sensie tego pojęcia) ulegają (mogą ulegać) naruszeniu podstawowe prawa osoby badanej do informacji, wolności, autonomii, godności, podmiotowości i do prywatności. Za spektakularne przykłady niech posłużą powszechnie znane i w niemal każdym akademickim podręczniku psychologii omawiane eksperymenty Ascha (1952), Sherif i Sherifa j(1953). Milgrama (1963, 1970) czy eksperymenty Rosenthala i jego naśladowców (por. Rosenthal, 1991a; Rosenthal, Jacobson, 1968). ! Wszystkie kodeksy etyczne zwracają na to uwagę, a mimo to pokusa opublikowania nowego wyniku i znalezienia się na kartach prestiżowego pisma „Science Citation Index" jest silniejsza od respektowania przez badacza etycznych standsdów prowadzenia badań naukowych. Dobitnie na ten temat wypowiada się DON w pkt. 2.5: „Badania naukowe należy prowadzić w sposób nie uwłaczający godności człowieka i nie naruszający zasad humanitarnych. Badania, których przedmiotem jest człowiek, należy prowadzić zgodnie i przyjętymi w skali międzynarodowej zasadami deontologii. W postępowaniu z człowiekiem jako przedmiotem badań należy przestrzegać zasady dobrowolnej i wiadomej zgody na uczestnictwo w badaniach oraz zasady poufności i anonimo\wici wyników badań. Jeżeli badany jest małoletni, to należy dodatkowo uzyskać 129
zgodę jego rodziców lub prawnych opiekunów. Osobie badanej trzeba przyznać prawo do wycofania się z uczestnictwa w trakcie prowadzonych badań. W przypadku badań dolegliwych obowiązkiem pracownika nauki jest analiza konieczności takich badań, ograniczenie ich rozmiaru, zminimalizowanie stopnia ich dolegliwości i przywrócenie osób badanych do stanu sprzed podjęcia badań. Osoba badana powinna być w pełni uświadomiona co do charakteru, celu i skutków badań. Naruszenie tej normy jest dopuszczalne tylko w tych szczególnych sytuacjach, gdy uprzednia pełna informacja o badaniach mogłaby zniweczyć wartość ich wyników. W tych przypadkach zatajoną informację pracownik nauki powinien ujawnić osobie badanej po zakończeniu badań i uznać jej prawo do odmowy zgody na wykorzystanie uzyskanych od niej danych. Badania naukowe na osobach, których wolność osobista jest ograniczona nie powinny mieć miejsca. (...)" (podkr. J.B.). Podstawowe prawa osoby badanej, które muszą być respektowane przez badacza, szczegółowo zostały ujęte w KEZP w zasadach: 31-35. Pisze się tam bowiem: „(...) psycholog przestrzega zasady dobrowolności uczestnictwa w badaniach psychologicznych (...) psycholog nie podejmuje badań, które mogłyby narazić osoby uczestniczące na cierpienia lub utratę cenionych wartości (...). Przed rozpoczęciem badań psycholog ma obowiązek poinformowania uczestników o celu, przebiegu, a zwłaszcza o tych aspektach badania, co do których w sposób uzasadniony można oczekiwać, że będą wpływały na gotowość uczestniczenia oraz wyjaśnić wszystkie inne aspekty badania, o które pytają uczestnicy i uzyskać ich zgodę (...). W każdym przypadku powoływania się na konkretne wyniki badań psycholog usuwa z nich wszystko, co mogłoby się przyczynić do identyfikacji osób uczestniczących" (podkr. J.B), Także najnowsza edycja EPP (standardy: 6.06.-6.19) szczegółowo „wylicza" etyczne zasady prowadzenia badań z udziałem osób w roli obiektów badanych. Kodeks Etyczny Amerykańskiego Towarzystwa Psychologicznego zwraca uwagę przede wszystkim na: planowanie i prowadzenie badania zgodnie z etycznymi zasadami i w sposób kompetentny (standard 6.06), odpowiedzialność badacza, jego koncentrację na godności i dobru osoby badanej (standard 6.07), zgodność postępowania badacza z obowiązującym prawem (standard 6.08), uzyskanie zgody badanej instytucji na prowadzenie badań na jej terenie przed ich rozpoczęciem (standard 6.09), uzyskanie zgody osób badanych na udział w planowanych badaniach oraz na wyjaśnienie osobom badanym natury tych badań (standard 6.10), język (jego dostępność), którym komunikuje się psycholog z osobami badanymi na temat planowanego badania i możliwe jego konsekwencje dla osoby badanej (standardy: 6.11-6.13), informowanie osób badanych o naturze rezultatów badawczych oraz wynikających z nich wnioskach (standard 6.18), unikanie stosowania instrukcji maskujących prawdziwy cel badania (ang. deceptioń) i prowadzenie takich badań, które nie wymagają odwoływania się do „decepcji" (standard 6.15), informowanie osób badanych o różnych aspektach związanych z udziałem w badaniach oraz z wykorzystywaniem wyników tych badań (standard 6.16-6.18) i honorowaniem udziału w nich (standard 6.19). 130
Najbardziej pogłębione omówienie etycznej strony badań psychologicznych z udziałem osób w roli obiektów badanych, zawarte zostało w wydanym przez APA w 1973 r. dokumencie EPCRHP. Sformułowano w nim 10 zasad, do których respektowania zobowiązano psychologów przystępujących do planowania i prowadzenia badań naukowych z udziałem osób w roli obiektów badanych. Nie miejsce tu na to, aby przytoczyć, in extenso, cały dokument. Dla orientacji przytoczę tylko jego kluczowe sformułowania. Te 10 zasad znalazło się, po przeredagowaniu, w tekście Ethica! Principłes of Psychologists, opracowanym w 1981 r. przez American Psychological Association (por. polskie tłumaczenie w: „Nowiny Psychologiczne", 1985, nr 3(30), Zasada 9 — Badania prowadzone z udziałem ludzi, s. 1214). Zasada 1. Badacz przed przystąpieniem do przeprowadzenia badania musi dokonać jego całościowej oceny z etycznego punktu widzenia. Zasada 2. Badacz ponosi odpowiedzialność za etyczność całego badania, w tym także za postępowanie swych współpracowników. Zasada 3. Badacz zobowiązany jest do udzielenia pełnej i szczegółowej informacji osobie badanej o wszystkich aspektach badania, w którym bierze ona udział; do udzielenia odpowiedzi na wszystkie jej pytania dotyczące badania, tak aby osoba badana mogła w pełni świadomie wyrazić zgodę na udział w badaniu lub odmówić takiej zgody. Zasada 4, Badacz powinien unikać utajnienia przed osobą badaną prawdziwego celu badania i posługiwać się tą procedurą tylko w szczególnie uzasadnionych przepadkach; badacz powinien zadbać o to, aby osobie badanej wyjaśnione zostały powody, dla których została ona wprowadzona w błąd. Zasada 5. Badacz powinien respektować prawo osoby badanej do odmowy •działu w badaniach albo wycofania się w trakcie badania. Zasada ta nabiera szczególnego znaczenia wówczas, gdy osoba badana pozostaje w jakiejś zależności od adacza. Zasada 6. Udział osoby badanej musi opierać się na jasno określonym porozumieniu zawartym między badaczem i osobą badaną. Niedopuszczalne są różnorodne formy nacisku wywieranego przez badacza na osobę badaną. Badacz jest także zobowiązany w jakiś sposób honorować udział osoby badanej w badaniu. Zasada 7. Badacz musi chronić osobę badaną przed różnorakimi formami isychicznego i fizycznego dyskomfortu; nie może jej narażać na doznawanie lęku, wstydu, bólu itp. Zasada 8. Po skończeniu badania i opracowniu jego rezultatów badacz musi wyjaśnić osobie badanej ich naturę oraz odpowiedzieć na wszystkie pytania i wątiliwości. jakie nasunęły się osobie badanej w trakcie jej udziału w badaniu. Jest to szczególnie ważne wówczas, gdy osoba badana została wprowadzona w błąd »zez badacza w wyniku zastosowanej przez niego instrukcji maskującej prawdziwy cel badań. Zasada 9. Jeżeli udział w badaniu może za sobą pociągnąć wystąpienie niewżądanych dla osoby badanej skutków, to badacz jest zobowiązany do zrobienia 131
wszystkiego, co w efekcie zniosłoby (albo wręcz zablokowało możliwość ich wystąpienia) owe przykre dla osoby badanej skutki udziału w badaniach. Zasada 10. Żadne informacje o osobie badanej, które badacz uzyskał w trakcie badania, nie mogą by przez niego udostępnione osobom trzecim; musi być zachowana pełna dyskrecja, a osoby badane należy zapewnić o pełnej ochronie wszystkich informacji ich dotyczących, zebranych w trakcie prowadzenia badania. Tyle, w skrócie, jeśli chodzi o zawartość najważniejszych dla psychologa dokumentów zawierających istotne dla badaczy standardy etyczne, które powinny być respektowane przez każdego psychologa prowadzącego działalność badawczą. Spróbuję teraz omówić w świetle wyżej przytoczonych zasad etycznych najbardziej etycznie „wrażliwe" aspekty badawczej działalności psychologów
2.1. Okłamywanie osób badanych KEZP (zasada 34.): „Przed rozpoczęciem badań psycholog ma obowiązek poinformować uczestników o ich celu, przebiegu, a zwłaszcza o tych aspektach badania, co do których w sposób uzasadniony można oczekiwać, że będą wpływać na gotowość uczestniczenia oraz wyjaśnić wszystkie inne aspekty badania, o które pytają uczestnicy i uzyskać ich zgodę (...)"■ EPCRHP (zasada 4.): „Szczerość i uczciwość są zasadniczymi charakterystykami związku łączącego badacza z osobą badaną. Kiedy wymagania metodologiczne danego badania czynią niezbędnym zatajenie albo okłamanie, wymaga się od badacza, aby zadbał on o to, iżby osoba badana zrozumiała racje takiego postępowania, a także, aby przywrócić początkowy (sprzed badania — J. B.) stan więzi z badaczem". EPP (standard 6.15 a,c): „(a) Psychologowie nie prowadzą badania pociągającego za sobą okłamywanie (osób badanych — / B.), chyba, że uznają, iż użycie technik okłamywania osób badanych (ang. deceptwe techniąues) jest usprawiedliwione z uwagi na naukowe, edukacyjne i aplikacyjne wartości badania, i że użycie efektywnie równoważnych, alternatywnych procedur nie opartych na okłamywaniu (osób badanych — J. B.) nie jest możliwe (...) (c) Jakiekolwiek inne odwoływanie się do kłamstwa będącego integralną cechą planu albo procedury badawczej musi być wyjaśnione osobom badanym tak wcześnie, jak to tylko jest możliwe. Pożądane jest, aby odbyło się to zaraz po zakończeniu udziału osób badanych w badaniu, ale nie później niż po podsumowaniu wyników badania" (pkt. c — por. punkt 2.2 tego rozdziału). To co łączy prawie wszystkie badania eksperymentalne — i te laboratoryjne i te terenowe (naturalne) — prowadzone od lat przez psychologów, to niedoinformowanie (a nawet wprowadzanie w błąd) osób badanych co do celu badania. Psychologowie są (byli) przekonani, że osoba badana nie może poznać istoty postępowania eksperymentalnego, gdyż uprzedzona co do spodziewanych efektów, mogłaby zachować się niespontanicznie. Wiele eksperymentów z psychologii społecznej, 132
z problematyki stresu psychologicznego utraciłoby swój sens — np. eksperyment Ascha czy Milgrama. Owe eksperymenty „decepcyjne" w mniej lub bardziej przemyślny sposób dezinformują osobę badaną, która, ulegając autorytetowi psychologa, wierzy mu i postępuje zgodnie z rozpisaną w tym scenariuszu rolą. To, że osoba badana narażona jest na dyskomfort psychiczny (przeżywa lęk, gniew, doznaje uczucia wstydu), że manipuluje się jej samooceną, że dezinformuje się ją co do jej poziomu przystosowania społecznego, inteligencji, zdrowia psychicznego, istotnych cech charakteru, szans na uzyskanie powodzenia w nauce szkolnej, studiach, pracy zawodowej, atrakcyjności dla potencjalnego partnera, podatności na pokusy, zdaje się nie przeszkadzać psychologom, którzy uważają, że służba nauce rozgrzesza ich i owych „drobnych" kłamstw. Mimo oczywistości zapisów w kodeksach etycznych na ten temat, problem ten nadal jest aktualny. Mówi o tym wyraźnie KEZP (zasada 34.). EPP (standardy: 6.15 i 6.11), EPCRHP (zasady: 4. i 7.). Według przeprowadzonych analiz (por. Craig, Metze, 1986, s. 231) w latach sześćdziesiątych 40% wszystkich przeprowadzonych przez psychologów społecznych badań empirycznych opierało się na „decepcji", a w latach siedemdziesiątych takich badań było już 60%. Obrońcy wyżej opisanego postępowania argumentują, że po zakończeniu badania i tak odbywają z osobami badanymi sesje posteksperymentalne, w trakcie których szczegółowo omawiają, nic tym razem nie zatajając, wszystkie elementy przeprowadzonej procedury badawczej i odpowiadają na wszystkie pytania osób badanych. Takie wyprowadzenie osób badanych z błędu (ang. debriefing) ma być, zdaniem badaczy, skutecznym antidotum na ewentualne przykre konsekwencje uprzedniego wprowadzenia w błąd. Można przyjąć, że część osób badanych przyj-i mie z ulgą te „wyjaśnienia" i uspokojona opuści labolatorium. Można mieć jednak wątpliwości co do tego, czy badaczowi uda się przekonać wszystkie osoby badane, że tym razem nie kłamie. Część osób może uznać, że psycholog lituje się nad nimi i stara się je przekonać, że jednak są atrakcyjne, inteligentne, dobrze przystosowane, współczujące itp. Ile zaś osób nie okaże psychologowi, że nie uwierzyło w jego „wyjaśnienia" i — ze zmienioną samooceną I - opuści laboratorium? To, że wyraziły one zgodę na udział w badaniu, że — co więcej — otrzymały nawet zapłatę za ten udział, nie powinno rozgrzeszać psycho-| toga. Jest (był) on bowiem traktowany przez osoby badane jako osoba kompetentna, której nie tylko można (czy nawet trzeba) wierzyć, ale też można zaufać co I do intencji, które nim kierowały w badaniu. Psycholog jest traktowany przez osoby i kdane jako autorytet i nie widzą one, na ogół, powodów, dla których miałby je okłamywać. Podejmowana przez badacza próba „odkłamania" badania spotyka się tym razem raczej z podejrzliwością i odrzuceniem niż ze zrozumieniem i akceptecją. Sprawa jeszcze bardziej się komplikuje, gdy tak naprawdę dopiero owe „wyjaśnienia" mają charakter manipulacji eksperymentalnej („decepcja" drugiego stopnia), a prawdziwe wyjaśnienia nastąpią dopiero po nich, a więc wówczas, gdy osoby badane pogodziły się z tym, że wpierw je wprowadzono w błąd (intencje I badacza były jednak czyste, gdyż wywiedzione z racji naukowych), a następnie 133
wszystko „wyjaśniono" i... okazuje się, że to też było zafałszowane, a dopiero teraz osoba badana uzyska prawdziwe informacje. Kto teraz uwierzy badaczowi? Kodeksy etyczne zalecają unikanie instrukcji maskujących prawdziwy ceł badań. Są jednak takie problemy badawcze — tak przynajmniej twierdzą psychologowie — których rozwiązanie wymaga zaplanowania badania, w którym osoba badana nie będzie o wszystkim poinformowana, albo będzie dezinformowana. Trudno sobie wyobrazić — argumentują ci psychologowie — aby za pomocą techniki grania roli promowanej przez Kelmana (1967; szersze omówienie tej techniki w: Greenwood, 1991; Brzeziński, 1978b) można było przeprowadzić udane eksperymenty z problematyki stresu psychologicznego czy badania podobne do „nieetycznego" eksperymentu Milgrama (1963). Odgrywanie roli osoby badanej przeżywającej skrajny stres czy osoby opanowanej przez silny lęk lub gniew nie przekonuje krytyków etycznego podejścia proponowanego przez Kelmana do rozwiązania problemu okłamywania osób badanych. Uważają oni bowiem, że w ten sposób psychologia staje się nauką o tym, jak osobom badanym wydaje się, że zachowałyby się w danej sytuacji, nawet ekstremalnie trudnej (krytyk techniki grania roli, Freedman użył określenia psychology by consensus — por. Freedman, 1969). Co tedy robić, aby nie szkodząc osobie badanej, równocześnie rzetelnie rozwijać badania naukowe? Autorzy EPCRHP wymieniają pięć sytuacji, w których — ich zdaniem — dopuszczalne jest okłamywanie osoby badanej. Przytoczmy je tutaj i opatrzmy komentarzem. Sytuacja 1. Badacz uważa, że problem, którym się zajmuje, jest bardzo ważny. Co jednak znaczy „bardzo ważny"? Dla którego badacza problem przez niego rozwiązywany nie jest bardzo ważny? Kto ma, poza nim samym, dokonać oceny stopnia ważności problemu? Czy problem, którego rozwiązanie da mu w efekcie habilitację, jest ważniejszy od problemu rozwiązywanego przez magistranta czy nawet doktoranta? Jeżeli zaś odwołamy się do racji społecznych, ogólnoludzkich (np. w sytuacji opracowywania techniki psychoterapeutycznej minimalizującej lęk osób chorych na chorobę nowotworową), to jakie mamy gwarancje, że to „bardzo ważne badanie" rzeczywiście da deklarowane przez badacza efekty, co może stanowić społecznie dostateczną rację dla usprawiedliwienia narażenia osób badanych na przeżywanie dyskomfortu? Sytuacja 2. Możliwe jest zademonstrowanie, że badania nie można przeprowadzić, jeżeli psycholog nie posłuży się instrukcją maskującą prawdziwy cel badania. I znowu pytanie, przed jakim gronem ekspertów badacz powinien zademonstrować niemożność prowadzenia badań w sposób etyczny? Rodzi się też problem natury technicznej, w jaki sposób należy wykazać, że badania nie można przeprowadzić inaczej, jak tylko z użyciem instrukcji „maskującej"? Jak sądzę, można mówić o przekonywaniu (tylko kogo? samego siebie?), ale nie o demonstracji, która miała by polegać, zapewne, na przeprowadzeniu minibadania typu „granie roli" i wykazaniu jego nieprzydatności do potwierdzenia hipotezy roboczej. Jeśli jednak badacz nie jest przekonany do celowości prowadzenia badania w sposób etycznie aprobowany, to będzie starał się uwypuklić same „minusy" takiego badania. 134
Sytuacja 3. Można w sposób uzasadniony założyć, że pełne poinformowanie osoby badanej po zakończeniu badań o zatajeniu przed nią prawdziwego celu badań (por. zasada 8. EPCRHP), nie wpłynie na osłabienie jej zaufania do badacza — do jego rzetelności i prawości. I tego wyjścia „ratunkowego" dla nieetycznego eksperymentatora nie da się oczywiście obronić. Przyjmuje się tu bowiem milcząco założenie idealizujące, mówiące o tym, że badacz jest zdolny dokonać pełnego wglądu w osobowość osoby badanej, w system jej wartości, przekonań i preferencji oraz strukturę jej samooceny, a także jej prywatnej wiedzy o psychologii i psychologach w szczególności. Na tej podstawie można przyjąć, że nie znane osobiście psychologowi potencjalne osoby badane darzą go bezgranicznym zaufaniem. Jeżeli zaś badacz planowałby przeprowadzenie badania na próbie (celowo, t.j. nie losowo, dobranej) złożonej wyłącznie z osób, o których wie, że darzą go właśnie takim zaufaniem, to należy spodziewać się wystąpienia artefaktów (por. zmienną wskazówek sugerujących hipotezę badawczą opracowaną przez Ome'a; osoba badana będzie starała się grać rolę „dobrej osoby badanej", a takie nastawienie prowadzić będzie do jej zachowań testowych zgodnych z treścią hipotezy roboczej). Sytuacja 4. Osoba badana ma stworzoną przez badacza możliwość wycofania się w dowolnym, przez nią wybranym, momencie z dalszego udziału w badaniu |»r. zasada 5. EPCRHP), albo możliwość anulowania wyników badania po uzyskaniu od badacza pełnej, prawdziwej informacji o całym badaniu. To usprawiedliwienie posłużenia się instrukcjami maskującymi prawdziwy cel badania, nawiązujące do zasady 5. EPCRHP, w żadnej mierze nie może być traktowane jako „okoliczność łagodząca" dla nieetycznego eksperymentowania. Co z lego. że osoba badana dowie się, że wcale nie jest bezwzględna wobec osób słabszych i że może zarządać wycofania „swoich" wyników ze zbioru danych eksperymentalnych. Przeżywanych przez nią, być może przykrych czy skrywanych emocji, nie uświadomionych urazów poeksperymentalnych nikt i nic nie jest w stanie cofnąć. Osoba badana miała prawo zaufać psychologowi, że nie będzie narażona na jakiekolwiek cierpienie i że jej kondycja psychiczna po zakończeniu badania będzie taka sama jak przed jego rozpoczęciem. Sytuacja 5. Badacz ponosi pełną odpowiedzialność za wywołanie oraz zneuI tralizowanie stresujących osoby badane efektów ich uczestnictwa w badaniu psy[ ekologicznym (por. zasada 9. EPCRHP). To, że badacz ponosi pełną odpowiedzialność za ewentualne przykre dla osoby badanej konsekwencje jej udziału w badaniu psychologicznym, wynika z ogólniejszej normy, która i tak obowiązuje badacza przeprowadzającego jakiekolwiek badanie z udziałem osób w roli obiektów badanych. Sytuacja nr 5 jest w jakiejś mierze wzorcowa dla wszystkich sytuacji badawczych i może być traktowana jako szczególnie usprawiedliwiająca posłużenie się przez psychologa instrukcjami mai skującymi prawdziwy cel badania. Nie widzę w wymienionych sytuacjach nic szczególnego, co usprawiedliwiałoby okłamywanie osób badanych. Po pierwsze, ocena tego czy dana sytuacja badawcza (problem badawczy) usprawiedliwia odwołanie się do instrukcji maskującej 135
prawdziwy cel badania i tak zależy tu od samego badacza. Jeżeli bardzo mu będzie zależało na przeprowadzeniu badania, to może „rozgrzeszyć się" i przeprowadzić badanie w sposób nieetyczny. Po drugie, przedstawienie prawdziwego obrazu badania po jego zakończeniu (debriefing) jest samo w sobie godne polecenia i upowszechnienia w społeczności psychologów, ale to w niczym nie zmienia faktu, że osoby badane były narażone przez jakiś czas (czas trwania badania) na dyskomfort psychiczny i fizyczny, a ponadto niekoniecznie muszą teraz uwierzyć badaczowi w to, co im opowiada o rzeczywistych założeniach badania i faktycznym znaczeniu uzyskanych przez osoby badane wyników. Nie muszą uwierzyć, bo raz już zostały okłamane. Niby dlaczego nie miałoby się to powtórzyć, zwłaszcza że psycholog nie jest na ogół postrzegany jako „zwykły" badacz (jak np. botanik czy historyk). Uważa się, że dysponuje on specjalnymi kwalifikacjami i metodami, które pozwalają mu przeniknąć do głębi psychiki osoby badanej i rozpoznać to, co niekoniecznie chciałaby ona przed nim ujawnić. Rodzi to często postawy nieufności wobec intencji psychologa namawiającego do udziału w jakimś badaniu. Nieufność tę można utrwalić przez zabieg odkłamywania, zastosowany w trakcie spotkania postekspery mentalnego z osobami badanymi. Zapewne część z tych osób weźmie wyjaśnienia psychologa za dobrą monetę, ale jakaś część może je odrzucić, nie okazując tego badaczowi. Może dla tych kilku (kilkunastu) osób warto się zastanowić, i to głęboko, nad tym, czy rzeczywiście musimy przeprowadzić nasze badanie właśnie w taki, zniewalający osoby badane, sposób. Oczywiście można tak jak Milgram (1977) rozbudować badanie posteksperymentalne mające na celu przywrócenie wyjściowego stanu psychicznego osób poddanych tak przykrym (i zapewne nieobojętnym dla funkcjonowania pozalaboratoryjnego) doświadczeniom, jakie związane były z udziałem w badaniach nad problematyką uległości. Przeprowadził on nie tylko spotkanie posteksperymentalne z osobami badanymi, ale także spotkał się z nimi jeszcze raz po upływie roku. Przeprowadzono z nimi wówczas intensywny wywiad psychiatryczny. Aronson i Carlsmith (1968) szczegółowo analizują warunki dobrego wywiadu posteksperymentalnego, który powinien być przeprowadzony z osobami badanymi po zakończeniu właściwego badania. Warto zapoznać się z tymi warunkami przed przystąpieniem do planowania badania. Nie sądzę, aby możliwe było znalezienie satysfakcjonującego rozwiązania tego dylematu. W jaki sposób przeprowadzić badanie, które nie naruszałoby praw osoby badanej jako człowieka (etyczność), a które jednocześnie cechowałyby — jak to ujął Aronson i in. (1994) — realizm życiowy i realizm psychologiczny (trafność!). Jak pogodzić rygoryzm etyczny z rygoryzmem metodologicznym. Odrzucając skrajne stanowiska można, jak sądzę, zalecić następujące postępowanie: 1. Zanim przystąpimy do przeprowadzenia badania, powinniśmy uzyskać zgodę wytypowanych przez nas osób na ich udział w badaniu. Powinniśmy unikać jakichkolwiek form nacisku i mglistych obietnic. Jest to bardzo ważne zwłaszcza wtedy, gdy osoby badane pozostają w jakiejś zależności od nas (np. są to nasi studenci). Jeżeli to możliwe, należy unikać przeprowadzania badań z udziałem 136
śnie takich, zależnych od nas osób (etyczną stronę wykorzystywania studentów badaniach psychologicznych omawiam w punkcie 2.3). 2. Dobrze jest zasięgnąć opinii ekspertów, np. doświadczonych psychologów, którzy ocenią elementy scenariusza badania jako potencjalne źródła stresu dla oso by badanej. Eksperci powinni też zwrócić badaczowi uwagę na to, jak powinno wyglądać badanie posteksperymentalne, aby zminimalizowało przykre dla osoby badanej następstwa jej udziału w badaniu. I wreszcie, powinni oni rozważyć, czy udział w tym badaniu może mieć długofalowe, przykre następstwa dla osoby ba danej. Można też dokonać, jeżeli to będzie możliwe, próby wskazania takiej kon figuracji cech osobowości, które mogłyby wchodzić w interakcję z postępowaniem sperymentalnym. Dla ułatwienia można opracować zestaw skal szacunkowych, których oceniane byłyby poszczególne elementy scenariusza badania. 3. Jeżeli skonstruowaliśmy zestaw skal szacunkowych do oceny psychologi cznych konsekwencji udziału w danym badaniu, to można prosić o jego wypełnie nie nie tylko ekspertów, ale także osoby podobne do tych, które mamy zamiar poddać badaniom (pochodzące z tej samej populacji). W tym punkcie nawiązuję do postępowania Berscheida i in. (1973), który sugerował przedstawienie pełnego opisu eksperymentu próbie osób pobranych z tej samej populacji, z której pobierane będą przyszłe osoby badane. Z kolei osoby te będą pytane o to, czy zgodziłyby się wziąć udział w opisywanym badaniu. Jeżeli wyrażają zgodę, to jest to wskazówką, iż badacz może przystąpić do kompletowania próby oraz przeprowadzania badania. Wracając jednak do mojej propozycji sugeruję, aby przeprowadzić porównanie pro filu odpowiedzi ekspertów i potencjalnych osób badanych. Analiza zgodności (nie zgodności) obu profilów może być źródłem ważnych informacji o osobach bada nych w fazie przedeksperymentalnej. Deklarowaną przez osobę z próby sondażowej zgodę na udział w badaniu możemy traktować (ale nie bezwzględnie!) jako „zie lone światło" dla naszych badań empirycznych. Pamiętajmy jednak, że — w gra nicach błędu próby — możemy przeszacować gotowość osób badanych do wzięcia udziału w psychologicznie obciążających (na przykład stresowych) badaniach. Tak czy inaczej, jeżeli już zdecydowaliśmy się na przeprowadzenie badania, które może być związane z przeżywaniem przez osoby badane przykrych emocji, a którego ważne elementy musimy przed nimi zataić, to nie wolno nam odstąpić od tego. aby wpierw w maksymalnym zakresie poinformować osoby badane o możliwych konsekwencjach udziału w badaniu, a następnie uzyskać ich zgodę (nie f wolno stosować przy tym jakichkolwiek form nacisku np. wynikających z relacji i „profesor-student") oraz zapewnienie je że w każdym momencie badania będą mogły zrezygnować z dalszego w nim udziału. Muszą one być także świadome tego. że badacz gwarantuje im pełną dyskrecję i anonimowość w prezentowaniu I wyników badań. Musi on je także zapewnić, że badanie zakończy się omówieniem, z ich udziałem, uzyskanych wyników i że także na tym, ostatnim już, etapie będą mogły, jeżeli zechcą, wycofać ze zbioru wyników tę część, która ich dotyczy. i Osoby badane muszą być także poinformowane, że będą mogły kontaktować się z I badaczem po zakończeniu badania, aby omawiać z nim problemy, które zrodził ich udział w badaniach. 137
Stosunkowo dużo miejsca poświęciłem tu na omówienie problematyki posługiwania się przez psychologów, w prowadzonych przez nich badaniach empirycznych, instrukcjami maskującymi prawdziwy cel badania, gdyż jest to temat dość niechętnie podejmowany przez badaczy psychologów. Z jednej bowiem strony nie sposób nie przyznać racji „rygorystom" etycznym, z drugiej zaś, nie można nie prowadzić „prawdziwych", nie „udawanych" badań naukowych (co z tego. że osoby badane zaznają chwilowego dyskomfortu, badacz i tak wszystko im wyjaśni, a do udziału w badaniach nie były przecież zmuszane). W polskim KEZP, nie tak szczegółowo jak w omawianym tu EPCRHP, problematyka ta została ujęta w zasadach: 32.-34., ale całkowicie pominięte zostały obowiązki badacza związane z przeprowadzeniem przez niego rozmów posteksperymentalnych z osobami, które brały udział w badaniu. Czytelnikowi polecam dwa artykuły Siebera (1982) poświęcone problematyce „decepcji" w eksperymentach społecznych.
2.2. Narażanie osób badanych na cierpienie, wstyd, lęk przed oceną oraz zaniżanie ich samooceny KEZP (zasada 33.): „Psycholog nie podejmuje badań, które mogłyby narazić osoby w nich uczestniczące na cierpienie lub utratę cenionych przez nie wartości (...) psycholog zobowiązany jest również podjąć wszelkie kroki w celu zminimalizowania przykrości związanych z badaniami i ich negatywnych skutków dla osób w nich uczestniczących". EPCRHP (zasada 7.): „Etycznie postępujący badacz chroni osoby badane przed fizycznym i psychicznym dyskomfortem, krzywdą i niebezpieczeństwem. Jeżeli zachodzi ryzyko wystąpienia takich konsekwencji, badacz zobowiązany jest poinformować osobę badaną o tym fakcie. Musi on uzyskać zgodę osoby badanej na udział w badaniu jeszcze przed jego rozpoczęciem i na wykonanie wszystkich możliwych pomiarów, aby zminimalizować ów dyskomfort. Procedura badawcza nie może być przeprowadzona, jeżeli jest prawdopodobne wyrządzenie poważnej i trwałej krzywdy osobom badanym". EPP (standard 6.15.b.): „Psychologowie nigdy nie okłamują osób badanych, jeśli chodzi o istotne aspekty badania, które mogą wpływać na ich gotowość do uczestniczenia w badaniu, takie jak: zagrożenie fizyczne, dyskomfort, albo emocjonalnie nieprzyjemne przeżycia". Chciałbym zaryzykować tezę, iż żadne, nawet to najbardziej błahe zadanie, które przeprowadza student I roku studiów w ramach standardowego kursu psychologii eksperymentalnej (ogólnej), pod pedagogicznym nadzorem asystenta, na swoich kolegach z grupy ćwiczeniowej nie odpowiada wyżej przytoczonym — za kodeksami etycznymi — standardom etycznym. Jeżeli — na początek naszych rozważań — odrzucimy te eksperymenty (np. stresowe), w których udział jest związany czy to z deprywacją sensoryczną, czy z narażaniem na rzeczywisty lub 138
tylko antycypowany ból, a ograniczymy się do takich badań jak eksperyment Ascha (1952), to tym co łączy wszystkie badania jest ów nieprzyjemny dla osoby badanej stan emocjonalny, który przeżywa ona biorąc udział w takim czy innym badaniu psychologicznym, a który Rosenberg (1991a, s. 34) określił następująco: „...aktywne, zabarwione lękowo zainteresowanie dotyczące tego, czy badany uzyska ocenę pozytywną ze strony eksperymentatora albo czy przynajmniej nie stworzy podstawy do oceny negatywnej". Owa „nieprzyjemna" emocja to lęk przed oceną. Weber i Cook (1991, s.142), w znanym i powszechnie cytowanym artykule, podtrzymują tezę Rosenberga o tym, że osoby badane przeżywają w trakcie badania lęk przed oceną: „...lęk przed oceną może łatwo być wzbudzony w sytuacji eksperymentalnej poprzez zwykłe myślenie o eksperymencie i poprzez specyficzne instrukcje związane z zadaniami wykonywanymi w sytuacji laboratoryjnej". Psycholog kliniczny, Fraczek (1979), specjalista w zakresie badań nad psychologicznymi osobliwościami czynności agresywnych wyodrębnił trzy podejścia, postawy, do rozwiązywania dylematów etycznych, jakie rodzą badania psychologi-; czne, w których udział związany jest z narażeniem osób badanych na jakieś cierpienie, a co najmniej na przeżywanie lęku przed oceną. Zgodnie z pierwszą postawą — rygoryzmu etycznego — niedozwolone jest stwarzanie osobom badanym jakiegokolwiek zagrożenia, nawet najbardziej błahego, ani narażanie ich na przeżywanie przykrych emocji. Wobec takich badań można i wysunąć zastrzeżenie —jak to ujął Poznaniak (1991, s. 132) — że: „samo wywol lanie przykrych stanów emocjonalnych i stwarzanie warunków ułatwiających ich i ekspresję jest naganne dlatego, że z punktu widzenia norm moralnych i wartości społecznych emocje te (np. gniew) i zachowania (np. agresja) są w ogóle niepożądane i złe. zarówno wtedy, gdy przejawiają się w sytuacjach naturalnych, jak i w I laboratorium psychologicznym". Zgodnie z drugą postawą — indyferentyzmu moralnego — lekceważy się ko-I szty psychiczne udziału osoby badanej w badaniu psychologicznym. Uważa się bowiem, że jest ona narażona na przeżywanie przykrych emocji oraz dyskomfort I psychiczny i fizyczny tylko przez krótki okres, i że nie pociąga to za sobą trwałych negatywnych skutków dla tej osoby. Codzienne życie dostarcza osobie badanej I znacznie częściej intensywniejszych doznań o negatywnym emocjonalnym I wydźwięku. Mówiąc krótko, minimalizuje się negatywne skutki, jakie pociąga za i sobą udział w badaniach psychologicznych. Wreszcie, zgodnie z trzecią postawą — realizmu etycznego — należy unikać I zadawania osobom badanym cierpień i narażania ich na dyskomfort psychiczny I i fizyczny. Należy też, jeżeli tylko jest to możliwe, posługiwać się alternatywnymi I k> klasycznego, „nieetycznego" eksperymentu rozwiązaniami metodologicznymi (np. technika grania roli — por. dobre omówienie jej „plusów" i" „minusów": Greuwood. 1991). Zauważmy, że sformułowania zawarte w cytowanych tu kodeksach etycznych ^■cspondują z pierwszą. ..rygorystyczni]" postawą. Osobiście skłaniałbym się do I aakceptowania z jednej strony postulatów wynikających ze stanowiska rygorysty139
cznego, traktując je jako założenia idealizujące (ideał), przyjmowane przez każdego badacza-psychologa. Z drugiej zaś strony chciałbym akceptować, w jakiejś mierze, postulaty wynikające z przyjęcia trzeciego, realistycznego stanowiska, jako swoiste ograniczenie od dołu swobody działania badacza przez kodeksy etyczne. Rzecz jasna, „postęp" w etyce badań psychologicznych powinien przejawiać się nie w rozluźnianiu rygorów etycznych (postawa indyferentyzmu moralnego), ale w ich zaostrzaniu (postawa rygoryzmu etycznego). W poprzednim punkcie (2.1) zajmowaliśmy się problemem niedoinformowania osoby badanej {lub jej dezinformowania) w imię swoiście przez psychologów pojmowanej nadrzędności celu naukowego nad prawem człowieka do informacji — rzetelnej i pełnej. Owo doinformowanie osoby badanej ma swój dodatkowy wymiar, jeśli dotyczy ono nie tylko wiedzy tej osoby o prawdziwych zamiarach badacza, ale także o przewidywanych przez niego możliwych przykrych doznaniach, które będą towarzyszyły osobie badanej wystawionej na manipulacje eksperymentatora oraz o ewentualnych, prawdopodobnych, odległych i trwałych następstwach udziału w danym badaniu, Informowanie osoby badanej o tym, co może ją spotkać w laboratorium, jest niezbędne, aby potencjalna osoba badana mogła prawidłowo ocenić możliwość swego udziału w badaniu, do którego namawiana jest przez psychologa i aby mogła podjąć — w warunkach pełnego dostępu do informacji i braku jakiegokolwiek nacisku ze strony badacza czy innych osób — autonomiczną decyzję co do swego udziału, w roli osoby badanej, w danym eksperymencie. Doinformowanie plus zagwarantowanie nienaruszalności własnego ,ja" (we wszystkich jego aspektach) wyznaczają z jednej strony poczucie bezpieczeństwa osoby badanej, z drugiej strony zaś pozytywnie nastawiają ją do współpracy z badaczem. Niestety, psychologowie w trosce o metodologiczną poprawność i „matematyczną" precyzję uzyskiwanych wyników na ogół przymykają oczy na etyczną stronę planowanych i przeprowadzanych badań. Mając do wyboru własny, „naukowy" interes lub interes „prywatny" osoby badanej, nieodmiennie wybierają ten pierwszy. Psycholog zdaje się dążyć do tego, aby upodobnić badanie psychologiczne do eksperymentu fizycznego — tego metodologicznego wzorca badania empirycznego. Zapomina przy tym o specyfice „przedmiotu" badań psychologicznych i relacji, jaka łączy psychologa z „obiektem" badanym — o jej interakcyjnym charakterze i asymetryczności (por. rozdz. 4.). To psycholog-badacz zajmuje wyróżnioną pozycję w owej relacji, jest w interakcji z osobą badaną „partnerem" dominującym. To on jest postrzegany jako osoba kompetentna, kontrolująca, nagradzająca i karząca, wymagająca posłuszeństwa. Psycholog przestaje widzieć w osobie badanej człowieka, a widzi jedynie „coś", co dostarcza wyników, i jest identyfikowane-z określonym numerem operatu losowania. Redukcja zainteresowania psychologa osobą badaną do rzetelności i trafności wyników, których dostarcza ona w trakcie badania, sprawia, że nadrzędne dla niego stają się nie normy etyczne (nakazujące m.in. nienarażanie osób badanych na dyskomfort fizyczny i psychiczny), lecz normy metodologiczne. Uważam, że taka hierarchia wartości jest nie do przyjęcia. 140
Wśród badań psychologicznych najbardziej podatne na krytykę za ich nieetyczność są zapewne badania nad stresem (w szerokim sensie). Biorące w nich udział osoby badane narażone są na przeżywanie, nieraz bardzo przykrych, doznań oraz zadaje się im, z różną intensywnością, cierpienia. Zasadne staje się tedy pytanie: Czy możliwe jest prowadzenie badań nad stresem w pełni zgodne z zasadami etyki badania naukowego (por. zasada 7. EPCRHP)? Czy możliwe jest badanie zachowania się osoby badanej znajdującej się w stanie skrajnego stresu bez oddziaływania na nią silnymi stresorami i bez rzeczywistego wprowadzania jej w ów stan? Musimy zgodzić się z krytykami kelmanowskiej techniki grania roli (etycznej alternatywy dla klasycznego, „decepcyjnego" eksperymentu), że na ogół nie jest to możliwe (por. Freedman, 1969; Miller, 1972; Cooper, 1976; Brzeziński, 1978b; Greenwood, 1991). Czy zatem, rozgrzeszeni, możemy uchylić etyczne standardy, aby móc skutecznie przeprowadzić badania nad stresem? Moja odpowiedź znowu będzie przecząca. Trzeba szukać innych, etycznych dróg wyjścia z tej sytuacji (Brzeziński, 1994e, f). Możliwe są, jak sądzę, trzy — o różnej wartości metodologicznej — wyjścia Iz tej sytuacji. Pierwsze polega na zastąpieniu procedury eksperymentalnej procedurą ex post facto (por. rozdz. 14.). Jej jedyną zaletą jest właśnie „etyczność". Osoby badane znalazły się kiedyś w trudnej sytuacji (zmienna niezależna), w której I w określony sposób się zachowały (zmienna zależna). Badacz opisuje to zachowanie i próbuje je wyjaśnić. Jak widać, osoby badane znalazły się w stanie stresu nie na skutek postępowania eksperymentalnego (nieetycznego!), ale na skutek zrządzenia losu. Wady tej metody — przede wszystkim brak możliwości kontrolowania zmiennej eksperymentalnej! — zostały wyczerpująco opisane w literaturze metodologicznej (por. Meehl, 1970; Kerlinger, 1986). Podobnie ustala się charaktery-: Sykę tzw. osobowości przedchorobowej (ang. premorbid personality) w badaniach psychosomatycznych, np. w badaniu pacjentów po przeżytym zawale serca. Zgodnie z procedurą ex post facto zostały przeprowadzone znane badania Adorno i infch 11969) nad osobowością autorytarną czy badania Bandury i Waltersa (1968) I ud agresywnym zachowaniem się uczniów. Drugie podejście zakłada „wykorzystywanie" w badaniach stresowych „spe■fcych" grup ludzi, świadomie godzących się na udział w eksperymentach, które ^fcwywołać u nich ból fizyczny, stan deprywacji potrzeb, przykre emocje (lęk. Hrw), wstyd, obniżenie samooceny (Brzeziński, 1994e). Można ich zresztą za Btdal w badaniach wynagradzać. Przeprowadzenie badań z ochotnikami rodzi jedWk specyficzne problemy metodologiczne. Różnią się oni pod wieloma względami B-takimi jak: poziom inteligencji, poziom wykształcenia, nastawienie na aprobatę Hrieczną. otwartość itp. — od reszty populacji (por. Rosenthal. Rosnow, 1975; por. też rozdz. 9.. pkt. 2.). Będąc w zgodzie z etyką, popadamy w kłopoty metodologiczne, gdyż opierając się na wynikach uzyskanych od ochotników dokonamy tó» przeszacowania, albo niedoszacowania wartości jakiegoś parametru w odnieBeniu do populacji obejmującej tylko ochotników. Mogą to też być osoby, których dotychczasowy zawód zakładał narażanie się na niebezpieczeństwa (do zagrożenia ■h włącznie), takie jak: żołnierze zawodowi, strażacy, policjanci. Pamiętajmy, że 141
dokonane przez nas ustalenia mogą być — tak naprawdę — prawdziwe dla populacji żołnierzy, strażaków, policjantów itp. Próby uogólnienia wyników na inne populacje mogą stwarzać problemy metodologiczne podobne do tych, związanych z wykorzystywaniem w badaniach stresowych ochotników. Te problemy to istotne obniżenie trafności zewnętrznej badania (Cook, Campbell, 1979; por. rozdz. 3., pkt. 2.2) przez czynnik selekcji (niereprezentatywnosc próby uzyskanej z pogwałceniem zasady randomizacji). Wreszcie — trzecie podejście — można odwołać się do już wspomnianej w pkt. 2.1 strategii zaproponowanej przez Berscheida i in. (1973). Zgodnie z nią, przedstawiamy szczegółowy opis badania próbie osób pochodzących z tej samej populacji, na której mamy zamiar prowadzić nasze badania, i pytamy, czy osoby te skłonne byłyby wziąć udział w rzeczywistym badaniu. Uzyskanie od nich zgody jest dla badacza wskazówką, że może on przystąpić do przeprowadzenia zasadniczego badania na próbie reprezentatywnej dla tej populacji z odwołaniem się do procedury „decepcyjnej". Nie promuję badań przeprowadzanych na „specjalnych" grupach osób, które za udział w badaniach mogą liczyć na specjalne traktowanie, a które nie są — z uwagi na swój dotychczasowy status — w stanie podejmować autonomicznych decyzji. Mam tu na myśli przede wszystkim więźniów („nagrodą" za udział w badaniach może być dla nich, np. złagodzenie reżimu odbywania kary pozbawienia wolności lub dodatkowy dostęp do określonych dóbr: przepustek, korespondencji itp.). Takie postępowanie zbyt jawnie przypomina quasi-naukowe eksperymenty medyczne prowadzone przez lekarzy spod znaku SS w niemieckich obozach koncentracyjnych w czasie ostatniej wojny światowej. Za nieetyczne (pomijam tu wartość metodologiczną takich badań — trafność zewnętrzna!) uważam przeprowadzanie badań stresowych przez nauczycieli akademickich na „podległych" im studentach. Czy student, który wie, że będzie musiał uzyskać u danego asystenta zaliczenie ćwiczeń lub będzie zdawał egzamin u profesora prowadzącego to badanie, ma pełną swobodę wyboru w sytuacji delikatnego nacisku ze strony tych osób na wyrażenie zgody na udział w ich badaniach? Odpowiedź na to pytanie pozostawiam Czytelnikowi. Podobnie się dzieje, gdy nauczyciele czy psychologowie szkolni prowadzą badania w szkole, w której sami pracują. To samo dotyczy pacjentów, którzy nie wiedzą, że niektóre z badań, którym są poddawani, nie stanowią elementów standardowego leczenia, lecz są składowymi badań, dzięki którym ich autor będzie się doktoryzował. Tłumaczenie, że „przy okazji" pacjenci leczą się, nie stanowi dostatecznej racji dla łamania zasady pełnego informowania osób o badaniach, w których biorą udział.
2.3. Psycholog (wykładowca i egzaminator) a student w roli osoby badanej KEZP (Zasada 32): „(-.-)jeżeli uczestnicy badań pozostają w stosunku zależności wobec prowadzącego badania jako jego studenci, klienci lub pracownicy, a także 142
wtedy, gdy istnieje możliwość społecznej presji na udział w badaniach, należy szczególnie zadbać o to, aby zasada dobrowolnego udziału nie była naruszona" (podkr. J. B.). EPCRHP (zasada 5): ,,(...)badacz respektuje prawo jednostki do uchylenia się od udziału w badaniu, albo wycofania się z niego w dowolnym momencie. Zobowiązanie do ochrony tego prawa wymaga specjalnej czujności, gdy badacz ma władzę nad osobą badaną" (podkr. J. B.). Stosunkowo dużo badań psychologicznych przeprowadzanych jest z udziałem studentów, w tym studentów psychologii(!), w roli osób badanych. Jest tak, gdyż — jak sądzę —jest stosunkowo łatwo dostępna dla badaczy-psychologów (w większości są to przecież pracownicy wyższych uczelni) populacja. Nie wchodząc w ograniczenia metodologiczne, jakie stwarza prowadzenie badań na studentach (trafność zewnętrzna! — psychologia jako nauka o zachowaniu się studenta psychologii I roku studiów), chciałbym skupić się jedynie na aspektach etycznych takich badań. Podstawowy zarzut etyczny, i to zarzut nie do odparcia, związany jest z asymetrycznością relacji: „nauczyciel (psycholog)-student (osoba badana)", z tym, że badacz (w jego roli występuje tu profesor czy asystent) jest postrzegany przez studenta, sposobiącego się do roli osoby badanej, jako osoba mająca nad nim władzę. Nawet, gdy będziemy starali się zmniejszyć ów dystans, to nie zmienimy faktu, ze dla osób badanych będziemy przede wszystkim nauczycielami, a dopiero 1 « drugiej kolejności badaczami. Warto, jeżeli już musimy prowadzić takie badanie (bo łatwiej, bo taniej, bo badani są „pod ręką", bo to, że są oni specyficzną popu-I hcją nie stanowi — jeżeli rzeczywiście nie stanowi — zagrożeń dla trafności ■trcętrznej badania), dostosować się do kilku zaleceń, aby zminimalizować etyczI* obciążenie badań z udziałem studentów. Jeszcze raz zaznaczam, że pomijam tu Istotne, podważające trafność badań, zarzuty natury metodologicznej. Po pierwsze, unikamy prowadzenia badań, zwłaszcza tych obciążających emocjonalnie i fizycznie osoby badane (np, badania nad stresem), jeżeli przyszłe osoby badane rekrutowane miałyby być spośród studentów, którzy biorą udział w prowadzonych przez nas zajęciach dydaktycznych (uczęszczają na nasze wykłady, ćwiczenia, seminaria lub konwersatoria). Poważnym przeć i wskazaniem jest egzamin, lory student będzie musiał u nas zdawać po zakończeniu badania. Trudno będzie przekonać studentów, że to, czy zgodzą się oni wziąć udział w badaniu, albo :i) wycofają się w trakcie jego realizacji (mimo poniesionych już przez nas kosztów i przysparzania nam kłopotów metodologicznych), czy też będą nam posłu-mi. nie będzie miało najmniejszego wpływu na nasz, jako egzaminatorów, stosu-K L do nich. Wyobraźmy sobie taką sytuację. Student odmówił nam dalszego sdziału w badaniu, które uznał za uwłaczające jego godności, czego wyraźnie przed lami nie krył. My nie umieliśmy okazać obojętności, gdyż ta odmowa doprowa-fciła do kolejnych odmów, a to z kolei do tak znacznego zmniejszenia grupy rymentalnej (z wielkim trudem skompletowanej), że kontynuowanie badań iło sens. Po kilku miesiącach spotykamy się na egzaminie. Student nie jest gotowany i nie zdaje egzaminu. Wychodząc mówi do siebie półgłosem: „Gdynie zerwał badań, to dziś dostałbym łatwiejsze pytania i zdałbym egzamin". 143
Aby owa hipotetyczna sytuacja nie stała się rzeczywistością, nie włączajmy do badań studentów, z którymi mamy zajęcia dydaktyczne. Najlepiej prowadźmy je poza naszym instytutem czy wydziałem. Po drugie, niedopuszczalne z etycznego punktu widzenia jest praktykowane przez niektóre uniwersytety pensum godzin udziału studentów psychologii (pierwszych lat studiów) w badaniach prowadzonych przez pracowników uniwersytetu. Jest to sprzeczne przede wszystkim z zasadą 32. KEZP czy zasadą EPCRHP, a także z pkt. 2.5 DON i standardem 6.11 EPP. Tylko dobrowolnie wyrażona zgoda, bez wywierania nacisku, może być podstawą włączenia studenta do grupy badawczej. Po trzecie wreszcie, udział studentów psychologii w charakterze osób badanych może, przynajmniej w niektórych badaniach (np. osobowościowych, klinicznych), doprowadzić do złamania zasady 10. EPCRHP, a przynajmniej może zachodzić domniemanie, że zasada ta nie będzie w pełni respektowana. Jak wiemy, nakłada ona na badacza obowiązek traktowania wszystkich informacji, uzyskanych w trakcie badania o osobie badanej (od niej samej i z innych źródeł) jako poufnych, bez prawa udostępniania ich osobom trzecim. Mogą to być przecież bardzo osobiste dane, nawet wykraczające poza ścisły kontekst postępowania badawczego, obejmujące intymne dane z życia osobistego, charakterystyki osobowości, informacje o strukturze intelektu osoby badanej. Jeżeli badacz ma wpływ, jako członek zespołu kształcącego, na losy osoby badanej jako studenta, to uzyskane informacje o nim mogą rzutować na jego decyzje o procesie kształcenia studentów. A gdyby nawet nie rzutowały (a efekt oczekiwań interpersonalnych?), to jednak student ma świadomość, że psycholog wie o nim znacznie więcej niż o innych studentach i może żywić obawy (lęk przed oceną), że informacje te będą wykorzystane przeciwko niemu. W każdym razie, najłagodniej rzecz ujmując, sytuacja nie jest klarowna etycznie. Podsumowując, dość niejasny — nawet gdyby badacz chciał dostosować się do wyżej wyłożonych wskazówek — etyczny status badań psychologicznych, przeprowadzanych na studentach psychologii (w szczególności!) oraz metodologiczne problemy związane ze specyficznym charakterem tej populacji (m.in. ograniczenia trafności zewnętrznej badania) powinny nas skłonić do rezygnacji ze studentów, a studentów psychologii w szczególności, jako osób biorących udział w badaniach naukowych prowadzonych w psychologii.
3. Informowanie społeczności uczonych o uzyskanych rezultatach badawczych W poprzednim punkcie rozpatrywaliśmy zachowanie się badacza-psychologa, względem osoby badanej, w trakcie przeprowadzanego badania naukowego. Nasze uwagi dotyczyły etycznego kontekstu stosowanych w sytuacji badania naukowego 144
I różnoraki óżnorakich zabiegów, takich jak: instrukcje maskujące cel badania, pomiary prowadzi przeprowadzane za pomocą specjalistycznej aparatury, przedmiotowe i badanej traktowanie osoby badaniac] lej (np. określenia: „obiekt badany", „przypadek"), wymuszanie problema udziału w . przez pr\ liach itp. Jednakże to wszystko co zostało ujęte w pkt. 2. nie I -psychok wyczerpuje )blematyki etycznego „zachowania się" badacza. Równie ważne jest spojrzenie przez pryzmat etyki na — oznaczoną na rys. 5.1 symbolem d — relację badacza--psychologa z innymi badaczami, którym komunikuje on (monografia, artykuł zamieszczony w specjalistycznym piśmie, referat wygłoszony na konferencji naukowej, czy raport z badań) rezultaty własnych badań. Tak jak w poprzednim punkcie naszą analizę rozpoczniemy od przytoczenia odpowiednich fragmentów kodeksów etycznych. DON (pkt. 1.8): „Pracownik nauki powinien ustawicznie poszerzać i pogłębiać swą wiedzę i doskonalić umiejętności. (...)Pracownika nauki powinna cechować stalą gotowość do kwestionowania, rewidowania i odrzucania teorii, nawet będącej jego własnym dorobkiem, jeśli fakty jej zaprzeczą"; (pkt. 2.7): „Pracownik nauki dzieli się z innymi swymi osiągnięciami i wiedzą, (...[pracownik nauki jest obowiązany do rzetelnego przedstawienia wyników badań, świadomy, że nierzetelność w sferze nauki szkodzi nauce i społeczeństwu. Pracownik nauki nie ukrywa niewygodnych wyników badań, podważających jego hipotezy robocze, ani nie zataja alternatywnych hipotez i sposobów interpretacji. Pracownik nauki nie wywiera jakiegokolwiek nacisku na innych pracowników nauki w celu świadomego ukrycia prawdy, ujawnionej w toku badań naukowych. (...)Stopień szczegółowości sprawozdania z prac badawczych powinien umożliwiać powtórzenie badań w innym ośrodku". KEZP (zasada 37.): „Psycholog dba o rzetelne przedstawienie wyników swych badań i stara się zapobiec ich niewłaściwemu wykorzystaniu. Dlatego należy zawsze uwzględniać wyniki, które nie potwierdzają hipotez badawczych, istnienie alternatywnych hipotez i alternatywnych sposobów interpretacji wyników oraz : ograniczenia zasięgu generalizacji uzyskanych rezultatów. Szczególną ostrożność należy zachować przy formułowaniu praktycznych wniosków z badań". EPP (standard 6.21): „(a) Psychologowie nie fabrykują wyników ani ich nie fałszują w swoich publikacjach, (b) Jeżeli psychologowie zauważyli istotne błędy I w swoich opublikowanych wynikach, to podejmują oni rozsądne kroki w celu skorygowania tych błędów — w korekcie, wycofaniu publikacji, w erracie albo w inpy. odnoszący się do publikacji, sposób".
13.1. Ukrywanie niedoskonałości warsztatowych Pisząc raport z przeprowadzonych badań empirycznych (kierując się przy tym wskazówkami technicznymi zawartymi w Dodatku A: Jak pisać raport z badań empirycznych? — !), przygotowując artykuł do specjalistycznego pisma, np. „Przeglądu Psychologicznego", pisząc referat na konferencję naukową czy pracując nad 145
prezentacją planszową własnych wyników, badacz powinien zawsze pamiętać o tym, ze ci (inni psychologowie), którzy będą słuchali jego wystąpienia na konferencji czy też będą czytali jego „wypracowanie", mogą zechcieć albo krytycznie ustosunkować się do: (a) założeń teoretycznych i przyjętej przez badacza interpretacji teoretycznej uzyskanych wyników empirycznych, (b) zastosowanej przez badacza operacjonalizacji zmiennych, (c) sposobu doboru próby z populacji i związanego z tym dopuszczalnego zakresu generalizacji (trafność zewnętrzna! — o tym więcej w pkt. 3.2) wyników badania, (d) dokonanego przez badacza wyboru szczegółowego planu badania, np. badanie przeprowadzone w układzie czynnikowym analizy wariancji, oraz (e) wykorzystanego przez autora badań aparatu analizy statystycznej danych empirycznych (testy istotności różnic, miary siły związku między zmiennymi itp.), albo też powtórzyć to badanie — „dosłownie" lub z pewnymi modyfikacjami. Tak czy inaczej, badacz powinien przyjąć jako normę postępowania dyrektywę, że należy tak opisać zastosowaną procedurę badawczą, aby było możliwe przeprowadzenie pełnej, krytycznej dyskusji nie tylko nad zaprezentowanym w opracowaniu wynikiem, ale — co nie mniej ważne, jeżeli nie ważniejsze, jeśli przyjąć punkt widzenia metodologa — nad warsztatem badawczym, a ponadto, aby było możliwe powtórzenie badań przez innych członków społeczności badaczy (piszę o tym w pkt. 3.4 niniejszego rozdziału). Należy przy tym przełamać — skądinąd zrozumiałą z psychologicznego punktu widzenia — niechęć do ujawniania słabości warsztatowych. Powinno się — tak uważam — na tyle szczegółowo przedstawić stronę metodologiczną badań, aby uzyskany wynik stał się nie tylko intersubiektywnie komunikowalny, ale także intersubiektywnie kontrolo walny. Spełnienie zaś tego ostatniego wymogu nie będzie możliwe bez przedstawienia w miarę pełnej informacji dotyczącej strony warsztatowej prezentowanej pracy. Nie sądzę, aby „przyznanie się" do pewnych „niedoskonałości" narażało reputację badacza na szwank. Powiem inaczej, to ich ukrywanie przed, z natury dociekliwym, czytelnikiem artykułu i słuchaczem referatu może spowodować zaetykietowanie (a raz przylepionej etykiety trudno się pozbyć) badacza jako mało rzetelnego, niernie ceniącego swój image naukowy czy wręcz jako „krętacza". Można też jeszcze inaczej postawić ten problem. Dlaczego badacz decyduje się na publikowanie wyników badań, jeżeli sam nie jest przekonany o ich warsztatowej „doskonałości"? Dlaczego nie dopracuje ich i dopiero potem nie ogłosi drukiem artykułu na ich temat? Powodem, dla którego badacz tak nie postępuje (no, może nie zawsze, ale na ogół) jest to, że może on być zainteresowany (co dobrze świadczy o jego dojrzałości) uzyskaniem zwrotnych informacji ze strony kompetentnych kolegów-psychologów o (także) aspektach metodologicznych przeprowadzonych badań — z nadzieją, że podsuną mu oni jakieś pomysły, które mogą okazać się przydatne w ewentualnym powtórzeniu badań wedle zmodyfikowanej procedury. Bywa i tak (i nie jest to wcale zjawisko rzadkie), że badacz zainteresowany jest efektem pierwszeństwa (zwłaszcza jeżeli jego opracowanie dotyczy czegoś zupełnie nowego, co może mu przynieść szerszą sławę) w publikowaniu 146
wyników. Jeżeli jednak, w pogoni za uznaniem swojej grupy zawodowej (a może i szerszego forum), przemilczy on (a stąd już bardzo niedaleko do „naginania" danych do hipotezy roboczej) potknięcia i niedociągnięcia warsztatowe tak, aby to co zaprezentował miało znamiona doskonałej warsztatowo, zamkniętej „całości", to wówczs jego postępowanie należy uznać za niegodne postawy badacza.
I Kłopoty z trafnością zewnętrzną [zymani lanie wyników badań empirycznych o wysokiej trafności zewnętrznej 0 pojęć (sens pojęcia wyjaśniam w pkt. 2.2 rozdz. 3.) stwarza poważne cholog( kłopoty nie tylko /etiologom, ale także przedstawicielom innych nauk od nich behawioralnych (wszak nie oó nich uwolnieni ani pedagogowie, ani iej psyct socjologowie czy przedstawiciele bli-ej psychologii dyscypliny z grupy oblem tr nauk medycznych — psychiatrii). Oczywiście blem trafności ychologi zewnętrznej przestałby być problemem nękającym autorów prac riowiek f ^etiologicznych, a zwłaszcza tych, które zdają sprawę z tego, jak nie. oddzii zachowuje się )wiek poddany określonemu postępowaniu — chociaż zmieniającemu jego postawy i opi-lie, oddziaływaniu wychowawczemu, ■szyscy li psychoteraputycznemu itp., gdyby badaniom I-chociażby takim, jak te mych pr przed chwilą przeze mnie przytoczone — byli poddani [Wszyscy ludzie, one zabu wobec których to postępowanie jest zamierzone (widzowie okre-nych programów TV, uczniowie danego typu szkoły, pacjenci chorzy na Mówi okre-zaburzenie psychiczne), a nie tylko mniej lub bardziej liczne ich miom pc reprezentaiadomo, kreślony Mówiąc językiem zapożyczonym od statystyków — problem znika, całego ic gdy ba-iom poddana jest cała populacja, a nie tylko pobrana z niej BŚcią zev próba. Jak jednak )mo, badania psychologiczne w prawie 100% 1 prowadzi się na próbach w lony sposób pobranych z populacji. To zaś, podstav jaki sposób doboru osób (próba) :go ich zbioru (populacja) zastosował wniosków badacz, ma bezpośredni związek z trafią zewnętrzną, czyli z zakresem ntatywm ogólności wniosków, które może on wysnuć tawie przeprowadzonego Kowania badania. Aby nie podawano w wątpliwość zasięgu iosków z danego Kjaliści badania, powinno być one przeprowadzone na próbie repre-/wnej, a tę jest ona można skonstruować jedynie za pomocą któregoś ze schematów wania licznej, cz; (metodą losową opisaną w pkt. 6. rozdz. 9.) lub metodą kwotową — ale ezne (np. cjaliści uważają ją za obciążoną (por. np. Nowak S., 1985 s. 301), mimo zióski. Ho faktu, ona dość powszechnie stosowana przez socjologów w badaniach Za et De opinii publicznej. cz\ przez psychologów konstruujących i normalizujących zadają testy psychologiczne inp. normalizacja polskiej adaptacji Skali Inteligencji szczegó WAIS-R — por. Brzeziński. Hornowska, 1993b). i próby m Za etycznie nieakceptowalne należy uznać takie zachowanie badacza, ■iaśnie te który zadając sobie trudu doboru próby metodą reprezentacyjną (próba losowa lub, szczególnych przypadkach, kwotowa), postępuje, w fazie uogólniania wniosków i próby na populację, tak, jak gdyby była ona próbą de facto reprezentatywną dla iśnie tej populacji. Jest to nadużycie interpretacyjne. Badacze, a przynajmniej 147
niektórzy z nich, mają tendencję do niernego uogólniania wniosków z przeprowadzonego, nie tak rzadko na próbach wcale nie reprezentatywnych, badania empirycznego. Przykładem takiego dość spektakularnego nadużycia jest sporządzanie norm testowch (chodzi o testy psychologiczne) na podstawie badań przeprowadzonych na próbach skompletowanych z osób, do których badacz ma stosunkowo łatwy dostęp: np. taką „łatwo" dostępną populacją dla psychologów-pracowników uniwersyteckich są studenci. Niestety w parze z ową łatwością nie idzie wysoka trafność przeprowadzonych na takich próbach badań. Nie można bowiem standaryzować i normalizować jakiegoś testu na próbie studentów, a potem stosować go nie tylko do studentów, czy przede wszystkim do nie-studentów. Żeby nie być gołosłownym, przytoczę tu, tytułem przykładu, skład próby normalizacyjnej dla polskiej adaptacji kwestionariusza osobowości C/7-Gougha — „1100 studentów różnych kierunków studiów..." (Choynowski i inni, 1968, s. 221).
3.3. Nastawienie na potwierdzanie hipotez — „pomaganie" hipotezom Tak jak w pkt. 3.1 mówiliśmy o ukrywaniu niedoskonałości warsztatowych badania, którego wyniki badacz zdecydował się opublikować, tak tutaj zajmiemy się aspektem etycznym takiego postępowania badacza, które nastawione jest na potwierdzenie — „za wszelką cenę" — swojej hipotezy roboczej. Owe „wyrozumiałe" traktowanie przez badacza hipotezy roboczej może ujawniać się w dwóch fazach: (a) w fazie planowania i prowadzenia samych badań empirycznych oraz (b) w fazie przygotowywania do druku raportu z tych badań. Taka praktyka badawcza jest dokładną odwrotnością dyrektyw płynących z metodologii popperowskiej, która pokazuje badacza jako tego, który szuka — i to niekiedy z niemałym trudem — przypadków obalających jego hipotezę roboczą, a nie jako osobę skrzętnie zbierającą wszystkie te przypadki, które właśnie potwierdzałyby hipotezę. To, że badacze chętniej rejestrują przypadki „za", niż „przeciw" i że tyra pierwszym dają większy „posłuch", można jeszcze od strony psychologicznej zrozumieć (vide Rosenthala koncepcja efektu oczekiwań interpersonalnych opisana w pkt. 3. rozdz. 4.), ale trudniej zrozumieć decyzje wydawców specjalistycznych czasopism naukowych, którzy niechętnie (jeżeli w ogóle) podejmują się druku artykułów, w których autorzy donoszą, iż w efekcie przeprowadzenia kosztownych i żmudnych badań obalili własną hipotezę roboczą. Za obalenie hipotezy (własnej!) też nie otrzymuje się — na ogół — tytułu magistra czy stopnia naukowego. Są to, moim zdaniem, główne czynniki odpowiedzialne za to, że psycholog — spoza danego zespołu badawczego — niewiele wie na temat już odrzuconych hipotez i zmuszany bywa do wchodzenia jeszcze raz na ścieżkę, która prowadzi donikąd — marnując przy tym czas i środki finansowe. Interesujące badania na temat decyzji podejmowanych przez redakcje czasopism naukowych w sprawie artykułów zdających sprawę z badań, które nie zakoń148
czyły się sukcesem w postaci odrzucenia hipotezy zerowej (//<>), przeprowadził przed laty SterHng (1959). Przeanalizował on cztery prestiżowe amerykańskie naukowe pisma psychologiczne (po jednym kompletnym roczniku z każdego tytułu). Na ogólną liczbę 264 artykułów, w których posłużono się testami istotności różnic w celu ewentualnego odrzucenia Ho opublikowano aż... 8 artykułów (co, jak łatwo obliczyć, stanowiło niecałe 3% wszystkich opublikowanych artykułów), których autorzy donosili, iż nie udało im się odrzucić hipotezy zerowej, a tym samym potwierdzić swojej hipotezy roboczej. Warto też przytoczyć słowa A. W. Meltona, przez 12 lat redaktora czasopisma ,Journal of Experimental Psychology": „...przy wydawaniu «Journal» istniała silna niechęć do akceptowania i publikowania wyni-j tów badań, gdy owe wyniki były istotne na poziomie 0,05 (zwracam uwagę na podniesienie poprzeczki, jeśli chodzi o poziom istotności różnic, co jeszcze bardziej zwiększyło liczbę odrzucanych przez redakcję artykułów — J.B.), niezależnie od lego. czy test był jedno- czy dwustronny. Nie implikuje to niewolniczego zachwytu dla poziomu 0,01, jak mogliby zarzucić nam krytycy. Odzwierciedla to raczej przekonanie, iż istnieje odpowiedzialność badacza dotyczącą takiego ustalania rezultatów badań, by żaden rozsądny człowiek nie mógł tych rezultatów zdyskredytować poprzez stwierdzenie, iż są one bez pokrycia..." (Melton, 1962). Jak sądzę, taka praktyka kwalifikowania do druku artykułów staje się szybko rozpoznawalna przez potencjalnych autorów. Jedną z jej konsekwencji, jest niechęć badaczy, zwłaszcza młodych, dopiero zaczynających kolekcjonowanie artykułów, I do podejmowania prób opublikowania artykułów mówiących o różnicach — między, np. grupami: eksperymentalną i kontrolną — występujących na poziomie „le-| pszym" od a = 0,05. Taka polityka wydawnicza sprzyja powstawaniu artefaktów, i gdyż — zwłaszcza w czasach powszechnej dostępności bogatych i łatwych w uży-I ciu pakietów statystycznych w rodzaju SPSS PC+, czy CSS STATISTICA — ba-[ dacze, których cechuje niższy poziom rygoryzmu etycznego w odniesieniu do I standardów własnej pracy naukowej, będą tak długo przeliczać, za pomocą różnych I dostępnych testów istotności różnic, wyniki własnych badań empirycznych, aż uzyBlją pożądany poziom istotności 0.01. czy ..tylko" 0.05. Zauważmy jeszcze, że stwarzanie takiej bariery zaporowej, pod postacią I wskaźnika a, wyzwala u badaczy dość silną motywację do „poprawiania" wyników I surowych w kierunku ich zgodności z testowaną hipotezą. Oto próbka takiej moI fliwej racjonalizacji: „odrzucam skrajne wyniki, gdyż dokładniejsza analiza zacho[ wania się tych osób badanych w trakcie eksperymentu wskazuje na to, że zacho-I mały się one tendencyjnie" (albo inne sformułowanie, które też może być wy-I korzystane — ..nienaturalnie"). Bogata wiedza z zakresu statystyki oraz umiejęt-I uośc posługiwania się pakietami statystycznymi, przy jednoczesnych brakach w Htyce zawodowej, mogą przyczyniać się do tego, że badacz będzie wprowadzał I poprawki" do wyników badań, i że będą one trudno wykrywalne. W pogoni za „wynikami statystycznie istotnymi" badacze starają się przebadać Hk najwięcej osób, nie zdając sobie niekiedy sprawy z faktu, że tym samym faworyzują hipotezę roboczą (maksymalizacja błędu I rodzaju — piszę o tym w W& 12.). Zwiększając tylko liczebność grup porównawczych możemy doprowa149
dzić do tego, że potwierdzimy istotność statystyczną nawet najbardziej trywialnego związku między zmiennymi. Hays, autor uznanego i wznawianego (cztery wydania do roku 1981) w USA podręcznika statystyki, adresowanego do przedstawicieli nauk społecznych, a więc i psychologii, jeden z podrozdziałów zatytułował znamiennie: Can a sample size be too large? („Czy próba badawcza może być za duża?"). Na tytułowe pytanie odpowiada on twierdząco (Hays, 1973, s. 422). Dlatego też — jak o tym piszę w rozdz. 12.—14. — w miejsce wskaźnika a, używanego w roli miernika ważności jakiejś zmiennej niezależnej X dla danej zmiennej zależnej K, należy posługiwać się pojęciem wariancji zmiennej zależnej, wyjaśnianej wpływem na tę zmienną danej zmiennej niezależnej (np. wspomniany tu Hays zaproponował taki wskaźnik, który nazwał mianem tu 2 — „omega-kwadrat"; może być on stosowany w miejsce statystyki t czy statystyki F\ (por. pkt.7. rozdz. 12.). Zilustrujmy to, co zostało tu krytycznie powiedziane o kryterium er, wynikami badań przeprowadzonych przez Bąkana (1966). Nawiasem mówiąc, nie są to jedyne badania na ten temat ukazujące jak niedoświadczony (w statystyce) badacz i mało krytyczny czytelnik mogą być wyprowadzeni na manowce, jeżeli swoją wiedzę o sile wpływu jakiejś zmiennej na inną zmienną opierać będą na wielkości a. Bakan przeprowadził za pomocą testów istotności różnic różnorakie porównania międzygrupowe, które objęły aż... 60 tys. osób przebadanych za pomocą baterii testów psychologicznych. I cóż się okazało? Jak nietrudno się domyśleć, wszystkie przeprowadzone porównania były istotne statystycznie. Między tymi porównaniami znalazły się i tak „egzotyczne", jak: „grupa osób mieszkających na wschód od rzeki Missisipi versus grupa osób mieszkających na zachód od Missisipi", „osoby ze stanu Maine versus osoby z pozostałych stanów", „osoby mieszkające na Północy versus osoby mieszkające na Południu". Gdyby jednak w ślad za testami istotności różnic zastosowano jakieś mierniki w rodzaju wspomnianego już wskaźnika „omega-kwadrat" Haysa, to okazałoby się, jak niewielki procent wariancji wspólnej mają te zmienne.
3.4. Intersubiektywna kontrolowalność rezultatu badawczego — problem repetycji badań psychologicznych Dla rozwoju badań naukowych ważne jest nie tylko powstawanie (i publikowanie) oryginalnych prac badawczych, donoszących o odkryciach nowych zależności między zmiennymi, ale także ogłaszanie drukiem dwojakiego rodzaju innych prac. Jedne, już w poprzednim punkcie wspominane, informują społeczność uczonych o nieudanych próbach potwierdzenia jakiejś hipotezy roboczej (lub mówiąc językiem statystyki — o nieudanej próbie odrzucenia HQ). Drugie zaś, to prace powtarzające badania już wcześniej przez kogoś wykonane. Chciałbym mocno zaakcentować to, iż możliwość powtórzenia cudzych badań i opublikowania ich w specjalistycznym periodyku przyczynia się, i to istotnie, do zwiększenia stopnia intersubiektywnej 150
kontrolowalności badań naukowych. Zdaniem Campbella (1969) metoda powtarzania badań jest jedną z głównych metod kontrolowania artefaktów. Powtarzanie badań umożliwia też dokonywanie korekt, które mogą mieć istotny wpływ zarówno na rzetelność samych badań, jak i na ich trafność. Mówiąc krótko, możliwość powtórzenia badań jest niezbędna jako forma korekty wiedzy naukowej (podobny pogląd na ten temat przedstawił Lamal, 1991). leżeli tak wielką rolę — i słusznie — przypisuje się repetycji już przeprowadzonych, przez kogoś' innego, a więc nieoryginalnych badań, to powinno się też [tworzyć warunki ułatwiające opublikowanie ich rezultatów. I chociaż wszyscy specjaliści wypowiadają się „za" — por. np. tom kilkudziesięciu prac na ten temat: Replication research in the social sciences (Neuliep, 1991) — to praktyka wydawnicza jest przekorna i w pismach fachowych niewiele można znaleźć badań stanowiących repetycje badań już przeprowadzonych. Wróćmy do wyników badań Sterlinga (1959). o których wspomnieliśmy w pkt. 3.3. Na ogólną liczbę 362 przeanalizowanych artykułów opublikowanych w czterech liczących się periodykach psychologicznych, nie było ani jednego artykułu referującego wyniki pochodzące i powtórzenia badań. Czy nie jest to znamienne? Taka praktyka wydawnicza jest szybko rozpoznawana przez początkujących badaczy, którzy nie chcą angażować j swego czasu i środków finansowych w przedsięwzięcie, które z punktu widzenia rozwoju ich kariery naukowej nie ma żadnego znaczenia. Wszak trudno wpisać sobie w rocznym sprawozdaniu jako publikację, coś co nie stało się nią na skutek właśnie takich upodobań wydawców czasopism naukowych w naukach społecznch. Młody, i nie tylko młody, badacz „goni" za publikacjami, gdyż ich liczba fcriaszcza gdy są one zamieszczone w renomowanych pismach) jest główną podHnrą awansu naukowego na kolejny stopień naukowy i kolejne stanowisko w akademickiej drabince awansowej. Wszystkim badaczom znane jest powiedzenie, : które przywędrowało z amerykańskich uniwersytetów: publish or perish (publikoIwać lub /ginąć). To, że tak trudno opublikować replikacje czyichś badań, stwarza ! zagrożenie dla d/iałania normy intersubiektywnej kontrolowalności wyników badań | naukowych. Obniżeniu ulega lęk badaczy przed oceną ich ze strony innych badały, gdyż prawdopodobieństwo tego, że ich badania zostaną przez kogoś powtó-I rzone. i że na dodatek ich wyniki będą opublikowane, jest tak niewielkie, że mogą ■n spokojnie spać nie niepokojąc się o to, że zostaną wykryte ewentualne błędy nz niedociągnięcia warsztatowe — zwłaszcza w zakresie analizy statystycznej I danych, która zawsze stanowiła piętę achillesową psychologów. Zauważmy jeszcze Rb. że przy ocenie powtórzonych wyników badań też bierze się pod uwagę kryHmm a. Rosenthal (1991d) w swoim metodologicznym wprowadzeniu do tomu ■c poświęconych tematyce replikacji badań w naukach społecznych przytacza m. 14) tabelkę decyzyjną wykorzystywaną przy ocenie sukcesu lub fiaska w powtórzeniu jakichś badań. Zauważmy, iż kryterium decyzyjnym jest znowu poziom iści statystycznej a. Zarówno pierwsze badanie (podstawowe), jak i drugie plikacja) oceniane są za pomocą dychotomicznego kryterium: „er < 0,05; a> 5". Tylko w sytuacji, gdy oba badania spełniają kryterium: a < 0,05 replikacje aje się za skuteczną. Sytuacje: (a) pierwsze badanie — a < 0,05 , drugie badanie 151
— a > 0,05 oraz (b) pierwsze badanie — a > 0,05, drugie badanie — a < 0,05 uznaje się za niepowodzenie replikacji. Podsumowując, chciałbym przekonać początkujących badaczy, a wszak do nich przede wszystkim adresowany jest niniejszy podręcznik, iż należy tak przedstawiać stronę warsztatową badania empirycznego (METODOLOGIA!), aby możliwe było dokonanie jego replikacji.
4. Podsumowanie W dwóch punktach niniejszego rozdziału skupiłem się na kilku aspektach tradycyjnie pojmowanego (a więc na wzór bardziej dojrzałych metodologicznie dyscyplin empirycznych, takich jak: fizyka czy biologia) badania empirycznego w psychologii (przede wszystkim eksperymentu — wszak z niego, z laboratorium Wundta, wzięła się cała naukowa psychologia!), które rodzą problemy natury etycznej. Ideą naczelną tego rozdziału (i w jakiejś mierze również następnego — też „etycznego") jest przekonanie badacza, głównie tego „na starcie", że równie ważne (a w moim głębokim przekonaniu — ważniejsze!) jak przestrzeganie dyrektyw metodologicznych zawartych w podręcznikach metodologii (jak choćby ten, który Czytelnik akurat przegląda) jest respektowanie dyrektyw etycznych spisanych w kodeksach etyki zawodowej psychologów czy pracowników nauki. W niniejszym rozdziale starałem się zapoznać Czytelnika z czterema takimi kodeksami. Najbardziej z nich ogólne, to dwa kodeksy — polski i amerykański — regulujące całokształt postępowania (nie tylko badawczego) psychologa. Kolejny kodeks reguluje postępowanie psychologa jako badacza względem li tylko osób badanych. Ostatni zaś z kodeksów odnosi się do postępowania „pracownika nauki" (nie tylko rzecz jasna psychologa uniwersyteckiego, ale każdego badacza związanego ze zinstytucjonalizowaną nauką). Na tle różnych kodeksów regulujących na płaszczyźnie etycznej działalność zawodową psychologów, polski Kodeks etyczno-zawodowy psychologa wyróżnia się tym — jak to podkreślił Strelau (1994, s. 113) — że „...z niespotykaną konsekwencją podkreśla godność i podmiotowość człowieka oraz jego prawo kierowania się w relacji psycholog-osoba badana, klient czy pacjent własnym systemem wartości i możliwością dokonywania wyborów. W praktyce psychologicznej uznaje priorytet klienta. (...)Zasady KEZP zmierzają w kierunku minimalizacji, co więcej, likwidacji, niesymetrycznej relacji między psychologiem-badaczem a osobą badaną, między psychologiem-praktykiem a klientem (pacjentem), a także między psychologiem-nauczycielem a studentem". Uważam, że każdy absolwent studiów psychologicznych powinien opuszczać uczelnię nie tylko z dyplomem w ręce,ale także winien być zaopatrzony w egzemplarz Kodeksu. Zaś psychologowie-nauczyciele powinni zadbać o to, aby zawarte w kodeksie regulacje nie były dla świeżo wypromowanego magistra psychologii tylko regulacjami „papierowymi". 152
Drugie ważne zagadnienie poruszone w tym rozdziale związane jest z aktywnością zawodową psychologa na forum społeczności uczonych — z pisaniem prac naukowych i wygłaszaniem referatów na konferencjach naukowych. Także i ten specyficzny rodzaj aktywności poddany jest regulacji objętej kodeksami — w polskim przypadku jest to zbiór zasad: Dobre obyczaje w nauce. Także te problemy, bezpośrednio dotykające warsztatu badacza, są kluczowe dla poprawnego funkcjonowania badacza w społeczności uczonych. Być może ich „etyczność" jest mniej [widoczna, gdyż to, co dzieje się między psychologiem-badaczem, a osobą badaną bezpośrednio dotyka tę ostatnią (wywołuje jej lęk, cierpienie, dyskomfort), a to co [wiązane z upowszechnianiem wyników badań empirycznych jest, tak naprawdę, interesujące tylko dla społeczności uczonych, jest to ich wewnętrzna sprawa. Nie można jednak oddzielać kontekstu metodologicznego badania naukowego od kontekstu etycznego po prostu. Nie można oddzielać etyki od prawdy, w służbie której I pozostaje nauka. Można tedy, jak sądzę, przytoczyć, na zakończenie, słowa prof. Bartnika, autora Hermeneutyki personalistycznej (Bartnik, 1994, s. 267): „...sama laniktura prawdy wiąże się ze strukturą dobra: bonitas veri i veritas boni, rectitudo Ymiatis i rectitudo boni; że poznanie jako czynność i proces podlega etyce; że I etyka dochodzi do głosu w samym «wnętrzu» prawdy i jest ważna przy prawdoI podobieństwach, wątpliwościach czy wahaniach, a nade wszystko przy komunikacji prawdy i jej operacjonalizacji. Etyka jest istotnym warunkiem w przekazie prawdy liinterpretacji znaku: rectitudo". Jakie lektury można polecić Czytelnikowi? Po pierwsze, chciałbym zachęcić I to uważnego przeczytania przeanalizowanych w niniejszym rozdziale kodeksów laczególnie: Kodeksu etyczno-zawodowego psychologa. Po drugie zachęcam do leI tory pracy zbiorowej pod redakcją J. Brzezińskiego i W. Poznaniaka: Etyczne \ftoblemy działalności badawczej i praktycznej psychologów. Książka zawiera 15 I opracowań pogrupowanych w następujących częściach: /. Psycholog jako twórca, H Psycholog jako diagnosta, III. Psycholog jako specjalista udzielający pomocy Wjchologicznej, TV. Psycholog jako ekspert i V. Psycholog jako nauczyciel. Warto też przeczytać książkę J. Bernarda: Od biologii do etyki. Nowe horyURn wiedzy, nowe obowiązki człowieka.
Rozdział 6. Etyczne problemy psychologii (II) między kodeksem etycznym a praktyką społeczną 1. Wprowadzenie W poprzednim rozdziale rozważana była — z etycznego punktu widzenia — działalność psychologa występującego w roli (a) osoby prowadzącej badanie empiryczne oraz (b) osoby upowszechniającej rezultaty tego badania (w formie artykułu lub innej publikacji, lub też w formie referatu wygłoszonego na konferencji naukowej). Problemy etyczne, które badacz powinien odpowiednio rozwiązać, łączą się z charakterem badania psychologicznego, przyjmującego — jak wiemy — formę społecznej interakcji. Dlatego też owe kluczowe problemy etyczne dotyczyły sposobu, w jaki badacz (psycholog!) traktuje osobę badaną — utajnianie przed nią prawdziwego celu badania (okłamywanie osób badanych), narażanie jej na cierpienie, wstyd, łęk (ogólniej, na przebywanie w sytuacji dyskomfortu fizycznego i psychicznego). Odrębnym zagadnieniem było „posługiwanie się", w charakterze osób badanych, osobami, które są w jakimś stopniu uzależnione od badacza (np. studenci od profesora prowadzącego badanie empiryczne i jednocześnie prowadzącego dla tych samych osób wykład zakończony egzaminem). Z kolei rozpatrując działalność badacza ogłaszającego wyniki swoich badań, poddającego je intersubiektywnej kontroli, zwróciliśmy uwagę na tak istotne z etycznego punktu widzenia zagadnienia, jak: ukrywanie przez badacza niedoskonałości warsztatowych, przejawianie przez niego tendencji do niernego poszerzania zakresu wnioskowania z pozyskanych danych empirycznych (problem trafności zewnętrznej badania), nastawienie na poszukiwanie (niekiedy za wszelką cenę!) danych potwierdzających hipotezę roboczą. Przedyskutowaliśmy także problem takiego informowania o szczegółach warsztatowych, aby możliwe było przeprowadzenie (przez zainteresowanych członków społeczności badaczy) replikacji badania zrealizowanego przez badacza. O ile nasza uwaga w rodziale 5. skupiona była na tym wszystkim, co dzieje się między badaczem z jednej strony, a osobami badanymi i innymi badaczami z drugiej, o tyle tutaj skupimy się na analizie etycznego kontekstu działalności badacza poza jego grupą zawodową — w kontakcie z instytucjami praktyki społecznej. To, co nas będzie interesowało szczególnie, to: (a) wykorzystywanie wiedzy 154
psychologicznej na użytek praktyki społecznej, poprawianie efektywności jej funkcjonowania oraz (b) występowanie badacza-psychologa w roli nauczyciela (pracownika uniwersytetu), który przekazuje naukową wiedzę psychologiczną studentom psychologii, a także w roli mistrza formującego młodych badaczy. Odrębnym zagadnieniem, wzbudzającym sporo emocji, jest posługiwanie się w celach diagnostycznych specyficznymi dla psychologii narzędziami, jakimi są testy psychologiczne; dlatego też w pkt. 4. spróbuję odpowiedzieć na kilka ważnych, z etycznego punktu widzenia, pytań z tym związanych.
2. Rezultat badawczy jako podstawa praktycznego działania Wróćmy do rys. 5.1., na którym ukazane zostały relacje, w jakie psycholog wchodzi prowadząc działalność badawczą sensu proprio, nauczycielską, ekspertalną i — wreszcie — podejmując rolę zawodową psychologa-praktyka. W tym punkcie będzie nas szczególnie interesowała relacja c, z reprezentantami sfery praktyki społecznej, którzy oczekują od psychologii, że rozwiąże ona problemy efektywnego funkcjonowania tej sfery. Oczekuje się tedy od psychologa, że ten, wykorzystując swoje kompetencje naukowe, opracuje „receptę" na skuteczne działanie. Wystąpiłby zatem psycholog w roli służebnej względem sfery praktyki społecznej — tak jak to /resztą pokazuje schemat obiegu informacji między obiema sferami: sferą praktyki badawczej i sferą praktyki społecznej (por. rozdz. 2., rys. 2.1.). Chciałbym i jednak wyraźnie zaznaczyć, że nie należy owej, tu metaforycznie ujętej, „służeb-S ności" pojmować zbyt dosłownie. Psycholog — i o tym będzie niżej mowa — nie [ powinien uczestniczyć w nadużywaniu wiedzy psychologicznej do celów narusza[jłcych godność człowieka. Nie powinien też, post factum, autorytetem nauki (tu: I psychologii) uwiarygodniać wątpliwych etycznie działań jakiejś instytucji ze sfery fcaktyki społecznej. Przytoczę teraz wybrane fragmenty DON (Rozdział 6. Pracownik nauki jako Hprrt) dotyczące tej sfery działalności psychologa. W KfcZP nie znalazłem zasad ■ wprost regulujących ten zakres aktywności zawodowej psychologa. I DON (pkt. 6.3): „Pracownik nauki opracowuje każdą ekspertyzę rzetelnie iodpouicdzialnie, w oparciu o aktualny stan wiedzy naukowej i pełne rozpoznanie Htotnych faktów i okoliczności"; f pkt. 6.4: „Przy opracowaniu ekspertyzy pracownik naukowy nie sugeruje się ^fcekiwaniami zleceniodawcy i nie dopuszcza, aby presja zleceniodawcy wywarła Htyw na merytoryczną zawartość eksperty/y"; pkt. 6.5: „Aby uniknąć podejrzenia o stronniczość, pracownik nauki odmawia Bacowania ekspertyzy, której część i końcowe wnioski miałyby związek / jego ■trcsem osobistym. W takim przypadku pracownik nauki powinien powiadomić Bttniodawcę o przyczynie odmowy": 155
pkt. 6.6: „Informacji uzyskanych w związku z opracowaniem ekspertyzy, pracownik nauki nie wykorzystuje na szkodę zleceniodawcy ani dla osiągnięcia niesłusznych korzyści własnych. W przypadku konfliktu interesów ekspert powinien stawiać wyżej dobro ogólne niż interes zleceniodawcy". Jakie są obszary praktycznego działania, w obrębie których psycholog-badacz może — z uwagi na domniemywane wysokie (i niezastępowalne) kompetencje naukowe — być postrzegany przez decydentów ze sfery praktyki społecznej jako osoba mogąca istotnie przyczynić się do poprawy funkcjonowania tej sfery? Są one następujące: (a) instytucje służby zdrowia, (b) szkolnictwo, (c) media, (d) wojsko, (e) przemysł, organizacja i zarządzanie, (e) sądownictwo, (f) instytucje samorządowe, (g) partie i organizacje polityczne i społeczne (h) instytucje rządowe, (i) usługi i reklama. Świadczone przez psychologów usługi ekspertalne nie rozkładają się równomiernie między wymienionych wyżej potencjalnych ich odbiorców. Jak sądzę, stosunkowo najwięcej opracowań psychologicznych zamawianych jest przez już „tradycyjnych" klientów — służbę zdrowia, szkolnictwo, wymiar sprawiedliwości. Gwałtowny rozwój prywatnego sektora przemysłowego, dynamicznie rozbudowujący się rynek usług oraz rozwój reklamy otworzył nowe możliwości (i pokusy!) przed psychologami dysponującymi wiedzą i metodami subtelnych oddziaływań na człowieka. Psycholog, który zdecyduje się przyjąć zamówienie na wykonanie specjalistycznej ekspertyzy, powinien wpierw odpowiedzieć na kilka ważnych, brzemiennych w etyczne konsekwencje, pytań. Pierwsze pytanie dotyczy kompetencji psychologa do rzetelnego wykonania powierzonego mu zadania. Możliwe jest posłużenie się przez instytucję zamawiającą ekspertyzę zewnętrzną opinią o kwalifikacjach osoby, która deklaruje gotowość realizacji zamówienia, ale wcale nie zwalnia to psychologa od przeprowadzenia krytycznej samooceny — nawet, gdy ocena zewnętrzna była pozytywna. Jeżeli psycholog uzna, że nie jest dostatecznie kompetentny, to nie powinien przyjmować zlecenia. Nie przynosi mu ujmy odstąpienie od wykonania jakiegoś zadania z powodu nieznajomości danej problematyki czy specjalistycznych metod, które powinny być zastosowane w celu rozwiązania tego zadania. Jest to zresztą wpisane w KEZP w dziale tzw. zasad ogólnych: „Psycholog jest świadomy szczególnej odpowiedzialności, wynikającej ze specyfiki wykonywanego zawodu. Powinien znać granice swoich kompetencji i nie podejmuje zadań przekraczających jego możliwości. Dokłada wszelkich starań, aby zapewnić jak najwyższy poziom wykonywanej pracy" (podkr. J, B.). Drugie pytanie dotyczy etyczności celów, w. jakich opracowanie psychologa ma być wykorzystane przez zamawiającą je instytucję. Cel instytucji nie może być sprzeczny z dobrem człowieka. Psycholog jest zobowiązany właśnie to dobro chronić, a nie przyzwalać (i to przez czynny w tym udział), aby jakaś instytucja (np. metodą psychologicznie „wzmocnionych" oddziaływań) wzbogacała się i uzależniała od siebie swoich klientów. 156
Trzecie pytanie związane jest z faktyczną — psychologiczną, ekonomiczną i zawodową — niezależnością psychologa podejmującego się wykonania jakiegoś opracowania dla instytucji zlecającej jego wykonanie. Psycholog nie może działać I w warunkach jakiejkolwiek zależności. W szczególności nie może on wykonywać swojego zadania, jeżeli pobudkami do jego wykonania były lęk, „lizusostwo", albo chęć wzbogacenia się. Psycholog nie podejmuje się współpracy z instytucją, która Mara się mu narzucić, korzystne z punktu widzenia jej interesów, swoiste „warunki brzegowe", nie pisze też „pod dyktando", ani nie „autoryzuje" nie swoich opracoj wań. I znowu odwołam się do KEZP (zasada 13.): Psycholog nie może akceptować iwanmków pracy, które ograniczają jego niezależność zawodową, a zwłaszcza takich, które uniemożliwiają stosowanie zasad etyki zawodowej. Psycholog powinien domagać się poszanowania dla własnej niezależności, bez względu na pozycję jaką I zajmuje w hierarchii zawodowej. Każdy psycholog ma obowiązek występować w I obronie niezależności swych kolegów" (podkr. J. B.). i Jak sądzę, są to najważniejsze pytania, których postawienia przed przyjęciem zlecenia na wykonanie jakiejś ekspertyzy czy innego opracowania wymagającego I wiedzy psychologicznej, żaden psycholog nie może uniknąć. Jeżeli odpowiedź na nie będzie zgodna z kodeksami etycznymi — DON i KEZP — to wówczas można I uznać, że spełnione zostały warunki etyczne umożliwiające podjęcie danego zaIdania. Czytelnika zainteresowanego bardziej szczegółowo problematyką etycznych I Kpektów działalności ekspertalnej odsyłam do następujących opracowań: Z. Rataj■k Etyka ekspertów, A. Bańki Wiarygodność i odpowiedzialność etyczna psycho^majako eksperta, J. Stanika Etyczno-zawodowe problemy biegłego sądowego psyBofoga. zamieszczonych w pracy pod redakcją J. Brzezińskiego i W. Poznaniaka. I Polecam także artykuł T. Tomaszewskiego i Z. Ratajczak Treść ekspertyz naukomch i współdziałanie eksperta z użytkownikiem.
3. Psycholog jako nauczyciel i mistrz —jedność badania I i nauczania ■ćmijmy, podobnie jak w poprzednim punkcie, od przytoczenia tych fragmentów ■feksów etycznych, które odnoszą się do zasygnalizowanej problematyki. Dodatwo przywołamy jeszcze jeden, w tym kontekście ważny dokument, a mianowicie tlką kartę uniwersytetów europejskich (w skrócie: WKUE), uchwaloną w kolebce ejskich uniwersytetów, w Bolonii, w dziewięćsetną rocznicę powołania naj-ego w Europie uniwersytetu (pełny tekst Karty znajdzie Czytelnik u Drozdo1995). WKUE (zasada 2.): „Działalność naukowa i dydaktyczna w uniwersytetach hsi być ze sobą nierozerwalnie związana, jeśli nauczanie ma sprostać zmieniająBsię warunkom, potrzebom społeczeństwa oraz postępowi wiedzy"; 157
zasada 3.: „Swoboda prowadzenia badań naukowych i kształcenia jest najbardziej fundamentalną zasadą życia uniwersyteckiego, a rządy i uniwersytety, w miarę swoich możliwości, muszą zapewnić poszanowanie dla tego podstawowego warunku. Odrzucając nietolerancję i pozostając zawsze gotowym do dialogu, uniwersytet stanowi zatem najlepsze miejsce, w którym spotykają się nauczyciele, umiejący przekazać swą wiedzę, dobrze przygotowani do rozwijania jej poprzez badania naukowe i nowatorstwo oraz studenci, którzy potrafią, chcą i są gotowi wzbogacać swe umysły tą wiedzą". DON (pkt. 4.2.): „Pracownik nauki dba o ustawiczne doskonalenie jakości nauczania. (...) Treść zajęć dydaktycznych powinna być zgodna z aktualnym stanem nauki światowej. Jeżeli treść taka byłaby niezgodna z wewnętrznym przeświadczeniem pracownika nauki, to jest on obowiązany dodać własny odrębny komentarz. W wykładach należy uzgadniać rywalizujące ze sobą teorie i interpretacje faktów". KEZP (zasada 43.): „(...) Występując w roli nauczyciela przekazującego wiedzę psychologiczną, psycholog powinien zaznaczyć, kiedy prezentuje osobisty punkt widzenia; obowiązuje go jednak znajomość i rzetelne przedstawienie innych stanowisk"; zasada 50.: „Upowszechniając wiedzę psychologiczną, psycholog dba o zgodność przekazywanych treści ze współczesnym stanem nauki, uwzględnia różnicę między hipotezami i dobrze udokumentowanymi twierdzeniami i w sposób rzetelny przedstawia praktyczne możliwości psychologii. Szczególnie starannie psycholog przedstawia te treści, które są niezgodne z obiegową wiedzą psychologiczną lub podatne na różnorakie interpretacje". Psychologia, jako kierunek studiów, prowadzona jest przez uniwersytety. Odpowiednie rady wydziałów mają uprawnienia do nadawania tytułów zawodowych magistra psychologii. Także wyższe kwalifikacje naukowe — stopnie naukowe; doktora i doktora habilitowanego nauk humanistycznych w zakresie psychologii — można uzyskać na wydziałach uniwersyteckich, ale nie wszystkich uniwersytetów; tylko tych skupiających dostatecznie silne naukowo i dydaktycznie zespoły psychologów, które (poprzez udokumentowane osiągnięcia naukowe — publikacje, prace ekspertalne, znaczące realizacje projektów badawczych itp.) gwarantują wysoką jakość nauczania — wykładów, seminariów, ćwiczeń. Już to, jakiego typu uczelnie uprawnione są do prowadzenia studiów psychologicznych (a te w Polsce realizowane są tylko na poziomie studiów magisterskich i raczej nie przewiduje się uruchamiania studiów psychologicznych typu zawodowego — na poziomie licencjackim), świadczy o tym, jak dużą wagę przywiązuje się do tego, aby studia psychologiczne prowadzone były w znaczących naukowo ośrodkach, aby psychologii nauczali specjaliści legitymujący się również dorobkiem naukowym — i to znaczącym. Zatem, przynajmniej z formalnego punktu widzenia, zadbano o to, aby cytowana 2. zasada WKUE była respektowana. Czy to tak ważne, aby przyszli psychologowie stawali się nimi właśnie w murach uniwersyteckich, aby swoją wiedzę przekazywali im właśnie kompetentni badacze, uczeni, a nie wprawieni w arkana praktycznego wykonywania zawodu — psychologowie-praktycy? Jestem głęboko przekonany, że jest to bardzo ważne. 158
Spróbuję teraz uzasadnić swoje stanowisko. Przy czym — uprzedzam — nie będę zajmował się tu problematyką nauczania psychologii jako sztuki pomagania ludziom oczekującym pomocy psychologicznej (przygotowanie do wykonywania zawodu psychologa). Tutaj interesuje mnie etyczny kontekst transferu naukowej wiedzy psychologicznej z laboratorium badacza do sali wykładowej i laboratorium studenckiego — czynniki go ułatwiające i utrudniające, ale lokowane na stosunkowo wysokim poziomie ogólności. Uniwersytet (m. in. jako to szczególne miejsce, w którym student psychologii przekształca się w psychologa) tylko wówczas jest zdolny realizować swoje zadania, kiedy zniesiona jest w nim granica dzieląca sferę badań naukowych i sferę wykładów i ćwiczeń, kiedy zniesiony jest podział na tych, którzy wyłącznie prowadzą badania naukowe i tych, którzy wyłącznie nauczają, nie angażując się w badania. Do wykładu uniwersyteckiego muszą przenikać najnowsze wyniki badań, jeszcze „gorące", jeszcze „stające się". Zaś dobrym profesorem może być tylko ten badacz, który nie ogranicza wykładu do streszczenia poglądów innych autorów, których prace może przeczytać, zanim i tak dotrą do nich ci najbardziej wytrwali iposzukujący (faktycznie studiujący!) słuchacze. Osobliwością uniwersytetu jest, jak sądzę, owa jedność dwóch procesów wzajemnie się przenikających — procesu badania naukowego, z jednej strony oraz procesu nauczania, z drugiej. Jeżeli oderwalibyśmy nauczanie od badania, to dokonalibyśmy redukcji roli profesora uniwersytetu do roli nauczyciela szkoły średniej I czy szkoły wyższej typu zawodowego, np. pedagogicznej, szkolącej przyszłych nauczycieli dla szkół szczebla średniego czy podstawowego. Zaś różnica między t nimi miałaby wyłącznie charakter ilościowy, lecz nie jakościowy. W nauczaniu uniwersyteckim nie idzie jednak o to, aby mówić więcej i językiem ezoterycznym. I Idzie natomiast o to. aby przybliżyć studentowi metodę, za pomocą której profesor I prowadząc\ wykład sam uzyskał pewne wyniki, które wspólnie ze studentami omaBk — pełen jeszcze wątpliwości i krytycyzmu co do ich rzeczywistej wartości I i relacji, w jakich pozostają one do innych wyników, uzyskanych przez innych I Eonych, stosujących inne metody. Zwracał już uwagę na ową zależność nauczania uniwersyteckiego od badania I Bukowego wybitny polski filozof, twórca filozoficznej szkoły lwowsko-warsza-I wkiej. Kazimierz Twardowski (1933), gdy w swoim wykładzie O dostojeństwie ^fKersytetu (okazją do wygłoszenia w 1932 roku tego wykładu była uroczystość Bfania mu tytułu doktora honoris causa przez senat Uniwersytetu Poznańskiego) ■owił; ..rd/eniem i jądrem pracy uniwersyteckiej jest tedy twórczość naukowa, I zarówno pod względem merytorycznym, jak i pod względem metodycznym". PodTeflił przy tym, iż „praca nauczycielska" profesora (ta zaś polegałaby na „wyrabianiu w studentach umiejętności myślenia i badania naukowego") „ma za podsta■ną pracę badawczą nauczyciela" (podkr. J. B.). „Spójnia badań i wykładu —jak pisał przed laty inny wybitny uczony, pedaHessen (1931, s. 358) — obok autonomii (w sensie niezależności uniwersytetu instytucji ekonomicznych, politycznych i kościelnych) należy do głównych 159
czynników kształtujących uniwersytet i wyróżniających go wśród innego typu szkół wyższych (typu zawodowego) czy zakładów naukowych". Podobnie widzi ten problem socjolog nauki, Goćkowski (1981), gdy formułuje szóstą ze swoich tez o uniwersytecie: „praca uniwersytecka to jedność czynności naukowych i czynności nauczycielskich". Aby można było mówić o uniwersytecie sensu proprio muszą wystąpić dwa istotne elementy — muszą w nim być profesorowie prowadzący aktywne życie naukowe i muszą w nim być studenci studiujący pod kierunkiem profesorów, przyswajający elementy ich warsztatu badawczego, uczący się samodzielnego dochodzenia, naukową drogą, do własnych wyników badawczych, których będą umieli środkami naukowymi bronić, i które będą zdolni, bez żalu, jeżeli nie wytrzymają one krytyki naukowej, odrzucić. Profesorowie zajmują w uniwersytecie szczególną pozycję, różną od tej, jaką zajmują nauczyciele w szkołach „niższych". Dobrym nauczycielem uniwersyteckim może być bowiem tylko dobry badacz. Na nic zdolności pedagogiczne, jeżeli nie są one podbudowane umiejętnościami badawczymi i znaczącym dorobkiem naukowym, który jest w jakimś sensie konsekwencją tych umiejętności. Cóż bowiem z tego, że profesor będzie wykładał porywająco i zgodnie z kanonami sztuki pedagogicznej, jeżeli nie będzie dysponował własnym, oryginalnym warsztatem badawczym. Powiedzenie o kimś, że co prawda nie prowadzi badań naukowych, nie jest czynny naukowo, ale za to jest dobrym wykładowcą, jest wewnętrznie sprzeczna. Ten ktoś może być dobrym nauczycielem w szkole średniej, ale uniwersytet stawia mu inne wymagania. Ma on być przede wszystkim czynnym badaczem, a dopiero potem dydaktykiem. Student bowiem powinien nie tyle słuchać tego, co mówi profesor, a co można i tak przeczytać, ile powinien — bo nie jest uczniem, ale jest studiosus — poznawać wiedzę w procesie jej stawania się, tworzenia w pracowni profesora. Położyłbym tedy nacisk na procesualny (dynamiczny) charakter nauki, na czynności, które należy wykonać, aby posiąść pewną wiedzę naukową, a nie na wiedzę jako rezultat działań badawczych (charakter statyczny), jako wynik procesu badawczego. Proszę zauważyć, że w taki sposób traktuję wykład metodologii ujęty w tym podręczniku. Warto w tym miejscu przytoczyć, in extenso, to co na temat jedności kontekstu badania i kontekstu nauczania na uniwersytecie pisał Hessen (1931, s. 356-358). Możemy tę wypowiedź uporządkować w kilku punktach. I tak: (1) „zadanie wykładającego w uniwersytecie polega nie na tym, żeby uczyć, lecz na tym, żeby pracować w swojej nauce, w której może kształcić tylko w miarę swej pracy badawczej"; (2) „student jest tym lepszy, im więcej okazał samodzielności w pracy nauko wej, im więcej daje nadziei jako przyszły uczony"; (3) „profesor jest tym lepszy, im więcej stoi jako uczony, (...) wielki uczony nawet przy minimum posiadanych środków wyrażenia zawsze jest lepszy jako pro fesor niż doskonały lektor, nie będący w swej dziedzinie badaczem"; (4) „profesor jest tym lepszym nauczycielem, im więcej (...) kieruje swe wy160
silki na badanie samego przedmiotu, a nie na sposoby przystępnego wyłożenia go słuchaczom"; (5) „dlatego, w odróżnieniu od nauczyciela szkolnego, wykształcenie pedagogiczne profesora wyczerpuje się jego wykształceniem naukowym. Dlatego też metodyka wykładu kursu naukowego nie tylko wspiera się na metodologii odpowiedniej nauki, lecz wprost się z nią zlewa". Pełna realizacja idei autonomii uniwersytetu oraz jedności badania i nauczania wymaga nie tylko tego, aby uczony miał pełną swobodę wyboru celu badania i środków do jego realizacji (w granicach zakreślonych przez zasady etyczne prowadzenia badań naukowych), ale aby miał także swobodę doboru treści nauczania i środków metodycznych (także w granicach zakreślonych przez etykę). Również słuchacze wykładu muszą mieć swobodę w wyborze profesora, którego wykładu zechcą wysłuchać. Nie można ich istracyjnymi środkami przypisywać do poszczególnych profesorów. Dar swobody wyboru musi być dany podmiotom procesu dydaktycznego — profesorowi i studentowi. Osobiście znany jest mi przykład uniwersytetu, w którym studentów podzielono, według porządku alfabetycznego, na dwie grupy, które słuchały dwóch różniących się pod kilkoma względami wykładów z psychologii. Władzom tego uniwersytetu chodziło zaś tylko o to, aby studenci równomiernie wypełnili obie sale wykładowe (a może chodziło o coś jeszcze?). Student zapisujący się na uniwersytet jest osobą dorosłą i wolną. Nie mamy prawa domniemywać, że nie będzie on zdolny umiejętnie wykorzystywać danego mu przez Naturę i Prawo daru wolności. Pozwólmy mu zatem, aby wybierał i zastanówmy się. dlaczego nie wybrał profesora X. Niech i profesor X spróbuje wyjaśnić sobie ów prosty fakt. Ograniczenie wyboru (jakby go „uczenie" nie tłumafcćljest pierwszym krokiem do dalszych ograniczeń. Te zaś, z istoty swej, nie fcdzą się pogodzić z ideą uniwersytetu. Ów zrodzony w warunkach swobody wy-I teru kontakt profesora i studenta, może, na wyższym etapie kształcenia, przerodzić B{w kontakt mistrza i ucznia. Aby tak się jednak stało, niezbędne jest poczucie obu stron, że wchodzą w ten układ dobrowolnie. Uniwersytet jest tym szczególnym miejscem, w którym mogą (powinny) spot}ka; się osoby o różnych orientacjach filozoficznych, przedstawiciele różnych, nieraz konkurencyjnych szkół naukowych. W dysputach naukowych rodzą się treści przyszłych wykładów i seminariów. Ich aktywny odbiór przez dociekliwych i krytycznych studentów owocuje — może nie zawsze — korektami do prcez pro I opracowywanej przez profesora nowej koncepcji. Jeżeli ten naszkicowany ■owy obr: pastelową kredką sielan-obraz chociaż w jakiejś części miałby mieć ■ony mu< znamiona rzeczywistości, speł- musi być jeden, ale zasadniczej wagi m różnor warunek. Uniwersytet musi być otwarty różnorodność. Nie może hołdować [Ograniczę jednej li tylko szkole myślenia o świecie, iczenia dyskusji, priorytetowe Wory m traktowanie pewnych teorii, nie z uwagi na ich ry merytoryczne i Lobę (os metodologiczny poziom opracowania, ale ze względu na (osoby) ich ■Dgmatyz twórcy czy szczególny przedmiot, którym się zajmują, grozi atyzmem i Mwolam oddaleniem się od ideałów bliskich „społeczeństwu nauki", że ołam się do tytułu znanej książki Zimana (1972). 161
Owa zasada wielości punktów widzenia tego samego problemu musi być zaakceptowana przez każdą osobę przekraczającą próg uniwersytetu — i to w równej mierze przez profesorów, jak i przez studentów. Ci pierwsi nie mogą domagać się (czy wręcz wymuszać) uznania przez samorząd uniwersytetu wyjątkowego traktowania „ich" teorii czy metody, niezależnie od zajmowanej pozycji w „społeczeństwie nauki". Mają natomiast prawo do swobodnego (w granicach etyki) prowadzenia badań naukowych równolegle do innych badaczy z tego samego (czy innego uniwersytetu). Zajmowana pozycja nie powinna mieć wpływu rozstrzygającego na akceptację przez społeczność uniwersytecką programu badawczego. Z kolei studenci nie mogą się domagać głoszenia przez profesora poglądów niezgodnych z aprobowanymi przez niego poglądami naukowymi. Obie strony muszą w tym przypadku akceptować odmienność swoich preferencji światopoglądowych, teoretycznych i metodologicznych. Uniwersytet jest bowiem szczególnym miejscem, w którym młody człowiek, kandydat na badacza, uczy się nie tylko biegłości instrumentalnej i nie tylko opanowuje pewien zasób wiedzy, ale uczy się — co jest ważne, jeżeli nie ważniejsze, niż opanowanie określonego zasobu wiedzy — tolerancji na odmienność, poszanowania cudzych poglądów, oraz reguł osobliwej gry zwanej krytyką naukową (por. Ziman, 1972, rozdz. VI.: Porozumiewanie się w ramach wspólnoty; Szaniawski, 1991). Jedność kontekstu badania i kontekstu nauczania wymaga stworzenia takich warunków, aby mogła się ona ujawnić w praktyce uniwersyteckiej. Owe warunki, to nie skrępowana żadnymi politycznymi, istracyjnymi i religijnymi zakazami i nakazami wolność badania i nauczania. To także poszanowanie cudzych poglądów naukowych oraz zrozumienie dla innych, niż własny, systemów wartości i przekonań. „Spójnia badań i wykładu" nastąpi wówczas, gdy wykład uniwersytecki nie będzie skrępowany żadnymi ograniczeniami istracyjnymi, gdy jego treść będzie zależała tylko od profesora, a jedyne ograniczenia wypływać będą -— jak pisze Hessen (1931, s. 360) — „z samej istoty pracy badawczej". Wolność studiowania zaś związana jest z prawem wyboru przez słuchacza tych wykładów, które odpowiadają jego zainteresowaniom. Aktualne, i to bardzo, jest stwierdzenie Hessena (tamże, s. 361-362), iż: „obecność kilku wykładających tę sama naukę i swobodny wybór nauczyciela przez słuchacza cechuje ducha nauczania uniwersyteckiego. (...) istotna zasada uniwersytecka, różniąca go od szkoły specjalnej, polega właśnie na tym, że jest on przeniknięty duchem wolności". „Zadaniem uniwersytetu jest zdobywanie prawd..." pisał Twardowski. Zadaniem prowadzących badania naukowe profesorów jest też uczenie studentów i swoich następców skutecznych metod dochodzenia do prawdy. Mówiąc inaczej, rozwijanie świadomości metodologicznej w celu znajdowania prawdy i samo jej znajdowanie na — jak to ujął w swoim wykładzie. inauguracyjnym, wygłoszonym 1 października 1981 roku na Uniwersytcie Warszawskim, logik i socjolog Klemens Szaniawski (1981, 1993) — „drodze logiki i doświadczenia, bez oglądania się na jakiekolwiek względy uboczne" jest jedynym celem działalności badawczej i nauczycielskiej profesora uniwersytetu. Universitas, to (wg Stróżewskiego, 1992, s.22) „królestwo wartości". Prawda 162
■ zaś w owym królestwie należy, obok dobra i piękna, do triady wartości najwyżI szych. Zamach na jedną z tych wartości jest równoznaczny z zamachem na dwie pozostałe. Nie ma tedy innych punktów orientacyjnych na drodze uczonego ponad prawdę i dobro osób badanych (w przypadku uczonego-psychologa). Niezależnie od tego, jak uciążliwa i długa byłaby droga dochodzenia do niej i jak silne byłyby pokusy błyskotliwego jej skrócenia, winien on trwać przy jednym — szukać tej jedynej, prawdziwej odpowiedzi na pytania badawcze. Taki też wzór postępowania winien on przekazać studentom i młodszym współpracownikom. Także oni powinni zrozumieć, iż prowadzenie badań naukowych oznacza zawsze tylko jedno — poszukiwanie prawdy. Ta zaś nie zawsze (a można zaryzykować sąd, iż raczej rzadko) jkryje się pod efektownymi rezultatami. Na ogół satysfakcją dla badacza musi być sam fakt uzyskania nowego wyniku badawczego i możliwość opublikowania go w postaci artykułu, który nie będzie miał wielu czytelników. Kolejna ważna sprawa, na którą chciałbym zwrócić szczególną uwagę Czytelinika. dotyczy charakteru badań naukowych, które podejmowane są przez ludzi unihrsytetu. Na uniwersytecie szuka się — co jest jedną z cech specyficznych tej j instytucji — odpowiedzi na pytania podstawowe, które niekoniecznie mają jakikolwiek związek z praktycznymi zastosowaniami. Praktyka społeczna, jej ulepszanie, tak ..od zaraz", nie może być jedynym kryterium działalności uniwersytetu. Jedyne co powinno krępować badacza, „człowieka uniwersytetu", to etyczność postępowa■ii badawczego i wymóg zmierzania jak najprostszą drogą ku prawdzie. Trzeba tedy odrzucić — choćby w imię autonomii uniwersytetu — wszelkie naciski fałHvych mecenasów, warunkujących sponsorowanie tylko tych badań, które dają Łod zaraz zastosować i, w konsekwencji, przyczyniają się do pomnożenia kapitału mecenasa. Jeżeli odniesiemy te uwagi do psychologii, to trzeba powiedzieć, że nie ma I DC lepszego niż dobra (także w sensie metodologicznym!) teoria. Ją bowiem należy ■nwać. a nie — jak to już pisałem w pkt. 2. rozdz. 2. — obmyślać quasi-teorie I o charakter/c czysto aplikacyjnym. Nie należy bowiem wprowadzać fałszywej opo■$: psychologia teoretyczna (czytaj: akademicka i „wydumana") versus psycho■i stosowana (czytaj: prawdziwa, bliska życiu). Ten pogląd jest zbieżny z poB|dami wyłożonymi w pracy Ellisa (1992. s. 573). który nie wid/i możliwości Bbywnych zastosowań w praktyce wiedzy psychologicznej, jeżeli na uniwersytenie będzie się, przede wszystkim, wykładało naukowych podstaw psychologii ^biologicznych, społecznych, kognitywnych, a także psychologii różnic indywiych. Do tego kanonu przedmiotów podstawowych dokłada on jeszcze zasady wania badań empirycznych, statystykę i metodologię. Nie można z użyteczpraktycznej, z wielkości dobra, które ma być pomnożone przez podjęcie lonego tematu, lub z wielkości dobra, które może być zaoszczędzone, jeżeli zygnuje z danego tematu, uczynić absolutnego kryterium doboru tematów wczych realizowanych w pracowniach uniwersyteckich. Bardzo trafnie ujął to owski (1993): „Uniwersytet jest najoczywiściej zarówno organem bieżącego społecznego, jak organem ogólnoludzkiego pędu do poznania świata. Z jednej y dochodzi do głosu w Europie (mniej może w Ameryce, gdzie najlepsze 163
uniwersytety są w większości prywatne) pokusa żądania, aby uniwersytet, przez państwo finansowany, wykazywał swoją użyteczność, a nawet niekiedy, żeby się sam finansował wykonując rozmaite zlecenia i zamówienia. Można tę tendencję tak streścić: «Każdemu wolno, jeśli chce, studiować język Hetytów, czarne dziury, różnice między św. Cyprianem a św. Augustynem w interpretacji sakramentu chrztu albo japońskie ogrody Zen, dlaczego jednak podatnik ma za to płacić? I jaki pożytek ma ów podatnik z takich zatrudnień?» Gdyby takie nastawienie zwyciężyło, oznaczałoby to zagładę uniwersytetu, a również w znacznym stopniu ruinę cywilizacji. Pytania wspomniane są niebezpieczne, ale też źle postawione. Niepodobna, w rzeczy samej, udowodnić, że każdy podatnik odnosi widoczne i wymierne korzyści z tego, że ktoś inny zna język hetycki lub japońskie ogrody; należy raczej postawić pytanie ogólniejsze: po co w ogóle istnieje kultura, która nie służy ani postępowi technicznemu, ani pomnażaniu materialnego dobrobytu? Na to pytanie jest jednakowoż tylko jedna odpowiedź: po to, by ludzkość była tym, czym była zawsze. Jeśli kultura jest luksusem, to może dlatego, że sama ludzkość jest luksusem natury". Jak sądzę, jakikolwiek komentarz jest tu zbyteczny. Jakie tedy, wobec marnej — zwłaszcza dziś! — kondycji finansowej uniwersytetu, niewolniczego niekiedy trybu pracy i konieczności ponoszenia wielu wyrzeczeń, korzyści niesie praca na uniwersytecie? Widzę ich kilka. Po pierwsze, praca nauczycielska ze studentami, z ludźmi młodymi o otwartych i chłonnych umysłach stwarza unikatową okazję konfrontowania własnych, jeszcze nie dopracowanych koncepcji i zarysów przyszłych teorii z osądem ich pierwszych słuchaczy i krytyków. Po drugie, obcowanie z młodymi ludźmi czyni profesora młodego duchem, nie pozwala mu się szybko zestarzeć. Wymusza na nim gotowość funkcjonowania intelektualnego i społecznego na „wysokich obrotach". Wreszcie po trzecie, i najważniejsze, praca uniwersytecka, między innymi przez swoją programową „apraktyczność" i wewnątrz sterowność, stwarza możność bezinteresownego dotarcia do prawd podstawowych (por. Ellis, 1992; Kołakowski, 1993). Tylko tyle i aż tyle. Powyższe uwagi są na tyle ogólne, że można je odnieść nie tylko do relacji zachodzących między profesorem psychologii a studentem psychologii, zachodzących w jednej z podstawowych instytucji kulturotwórczych, jakie kiedykolwiek ludzkość wymyśliła. Można je odnieść do innych dziedzin nauki — pedagogiki, socjologii, biologii itd. Podobnie, uwagi odnoszące się do „etyczności" relacji „badacz-osoba badana", poczynione w poprzednim rozdziale, są w jakiejś mierze trafne i dla innych dyscyplin behawioralnych. Nauka jest, tak naprawdę, jedna — niezależnie od szerokości geograficznej kraju, w którym jest uprawiana, niezależnie od płci i wieku badacza, jego wyznania czy przynależności etnicznej, niezależnie od jego upodobań życiowych. Także uniwersytet jest jeden — ponadlokalny i ponadczasowy. Jednego wszak uniwersytet nie toleruje — totalitaryzmu, ksenofobii, dogmatyzmu. Uniwersytet, i cała nauka, potrzebują wolności, autonomii, tolerancji, demokracji.
164
4. Testy psychologiczne w rękach psychologa Z trzech głównych obszarów działalności zawodowej psychologa — badawczego (psycholog w roli uczonego, odkrywcy i eksperymentatora, współkształtującego psychologię jako dyscyplinę naukową), diagnostycznego (psycholog w roli badacza indywidualnej psychiki swego klienta) oraz terapeutycznego (psycholog w roli kojącego cierpienia i przywracającego do stanu równowagi swego klienta) — najbardziej tajemniczy wydaje się być ten obszar działalności, który, posługuje się m. in. specyficznymi narzędziami badawczymi, jakimi są testy psychologiczne. Naukowo usankcjonowane i zazdrośnie strzeżone przez wyspecjalizowane agendy korporacji zawodowych (psychologicznych) stały się od momentu skonstruowania pierwszych testów inteligencji, aż po ostatnie, wyrafinowane testy osobowości i skale inteligencji, obiektem zarówno bezkrytycznej afirmacji, jak i napastliwej krytyki. Psychologowie zaś podzielili się na tych, którzy z czasem stali się jedynie „dodatkiem" do mechanicznie stosowanych testów, nie umiejąc oderwać się od wpisanych w nie szablonowych quasi-orzeczeń psychologicznych, oraz na tych, którzy w trosce (?) i o zgłębienie indywidualnej, niepowtarzalnej natury klienta, zwracającego się do nich o pomoc, odrzucili je jako mało przydatne w poznawaniu indywidualnej Osoby (uznając za grzech pierwotny wy standaryzowanie całej procedury badawczej, dyskwalifikujące test jako narzędzie pracy psychologa-humanisty). Także społeczeństwa różnych krajów co jakiś czas wypowiadały się (i wypowiadają — por. | dyskusja o testach inteligencji dobrze zrelacjonowana przez Seligmana, 1995) — I i to nie zawsze ustami czy piórami psychologów — krytycznie na temat testów. I Chyba nie ma drugiego takiego narzędzia poznania, naukowego!, na temat którego I napisano by tak dużo (w czym pokaźny udział mają niefachowcy), jak test psychologiczny. Wszystko to nie ułatwia pracy tym psychologom, którzy posługują się testami zgodnie z wypracowanymi przez samych psychologów standardami. Nie-[ sety. i oni nie są bez winy, gdyż niejednokrotnie nie przestrzegają owych swois-I tych norm postępowania zawodowego, co rodzi określone konsekwencje etyczne H>o nich będzie mowa w niniejszym punkcie. Działalność zawodową psychologa (w szerokim sensie tego pojęcia) na płaszczyźnie etycznej normują, przyjęte przez daną organizację zawodową skupia-M czynnych zawodowo psychologów w jakimś kraju, kodeksy etyczne (por. np. I APA. 1992; PTP, 1992). Każdy z nich zawiera wyodrębniony zbiór zasad dotycząHtfc praktyki posługiwania się testami psychologicznymi. W Kodeksie etyczno-zamtawym obowiązującym psychologów skupionych w Polskim Towarzystwie PsyBrtogicznym są to zasady: 4.. 12.. 20. (można je odnieść do praktyki diagnostyHKJ, posługującej się m.in. testami psychologicznymi). Są to jednak zasady tak Hfine, że z równym powodzeniem można by je odnieść do jakichkolwiek narzędzi Łfcwczych, nie tylko do testów psychologicznych. Te ostatnie są zaś niezwykle Bfcżone, jeśli oceniać ich budowę i rodowód teoretyczno-psychologiczny, oraz nieBhoznaczne, jeśli weźmie się pod uwagę to, co można sensownie z ich rezultatów ■jczytać" (mam tu na myśli zwłaszcza tzw. testy projekcyjne, a wśród nich test 165
Rorschacha — np. w Polsce stosowane są, w zależności od regionu, dwa podstawowe systemy interpretacyjne: Piotrowskiego i Klopfera, a ostatnimi laty intensywnie wprowadzany jest trzeci, „całościowy" system autorstwa Exnera — por. Exner, 1986; Stasiakiewicz, 1984). Dlatego też głównym kodeksem, czy, odwołując się do metafory, „biblią psychometryczną", są —- począwszy od wczesnych lat pięćdziesiątych — opracowane przez Amerykańskie Towarzystwo Psychologiczne Standardy dla testów stosowanych w psychologii i pedagogice. Ich pierwsze wydanie ukazało się w USA, w roku 1954, a kolejne wydania w 1966, 1974 (to, 3. wydanie stało się podstawą polskiego wydania w 1985 r.; por. APA, 1985a) i w 1985 roku. W przygotowaniu (por. Adler, 1993) jest następne, 5. wydanie. Do tych dwóch podstawowych dokumentów można (należy) też dołączyć trzeci, opracowany przez APA, Ethical principles in the conduct of research with human participants (por. APA, 1982). Ich omówienie znajdzie czytelnik w pkt. 2., rozdz. 5.
4.1. Test psychologiczny i jego użytkownik Kim jest użytkownik testu psychologicznego (ang. test )? Na to pytanie odpowiadają autorzy Standardów (APA, 1985a, s. 7): jest nim osoba, która „...dokonuje wyboru metody, interpretuje wyniki testowe lub podejmuje decyzje oparte na tych wynikach. Ci, którzy jedynie rutynowo przeprowadzają badanie testem bądź obliczają wyniki, nie są objęci tą definicją, chociaż osoby stosujące testy często wykonują również i te czynności". Z kolei od twórcy testu (ang. test developer) te same Standardy (s. 7) wymagają, aby: „...dostarczył takiej ilości informacji o teście, by jego wykwalifikowany odbiorca mógł ocenić, z jak wielkim zaufaniem może tę metodę stosować". W podanych wyżej definicjach „użytkownika testu" i „twórcy testu" milcząco zakłada się, że są oni wykwalifikowani i kompetentni. „Kompetencja — jak piszą autorzy Standardów... (s. 12) — w wypadku badania testem jest wypadkową wiedzy o zasadach psychometrycznych, wiedzy o charakterze sytuacji badania testem, umiejętności technicznych i po prostu ogólnie — zdrowego rozsądku". Uważam, iż są to sformułowania nazbyt ogólne. Także krąg potencjalnych użytkowników testu jest zbyt duży (m.in.: „nauczyciele oraz urzędnicy wybierający i interpretujący metody testowe dla potrzeb własnych instytucji" — APA, 1985a, s. 7). Myślę, że praźródłem kontrowersji etycznych związanych z konstruowaniem oraz stosowaniem różnorakich testów psychologicznych jest niezbyt precyzyjne określenie „warunków brzegowych", które muszą być spełnione przez: (1) kandydata na twórcę i użytkownika testu psychologicznego oraz (2) „kandydata" na test psychologiczny. Określenie owych standardów (i ich spełnienie) można traktować jako zdanie kolokwium wejściowego na seminarium specjalistyczne na uniwersytecie. Spróbujmy więc zastanowić się nad owymi „warunkami brzegowymi". Test psychologiczny (świadomie pomijam tu testy stosowane przez pedagogów — testy osiągnięć szkolnych, por. Niemierko, 1975; a także tzw. testy sprawdzające, stosowane w dydaktyce, por. Niemierko, 1990) musi: 166
—1
— być odniesiony do określonej teorii psychologicznej, której cjc (por. operacjonalizamuję tu. cjc (por. rozdz. 7.) w zamierzeniu jego twórcy, będzie stanowił. Oczywiście nauko w t przyj muję tu, w trybie idealizującym, iż teoria psychologiczna, o której mowa, jest
j(a)będz teorią
charakte naukową, empirycznie potwierdzoną; nmetrcn — być odniesiony do określonej teorii psychometrycznej, a to oznacza, U jego iż: będzie on skonstruowany w sposób przewidziany przez tę teorię i (b) jego cterystyki psychometryczne będą przewyższały pewne minimalne wartości pa-:trów, określające „od dołu" sensowność psychometryczną przeprowadzonego, i jego pomocą, zabiegu operacjonalizacji danej wielkości psychologicznej; — być stosowany w standardowy sposób, dokładnie opisany przez jego twór— kto może być poddany badaniu za pomocą tego testu, kto może przeprowa dzać takie badanie, jaki powinno mieć ono przebieg. Mówiąc inaczej, test musi być rozpatrywany w kontekście optymalnej dla niego sytuacji badawczej, której ele ment) muszą być jednoznacznie określone przed przystąpieniem do badania tak, aby możliwe było pełne, nieskrępowane ujawnienie się w niej zachowania testoj wego osoby badanej; — być interpretowany (a dokładniej jego rezultat czy rezultaty) w formalnych ramach narzuconych przez daną teorię psychometryczną i w ramach psychologicz nych narzuconych przez daną teorię psychologiczną, stanowiącą psychologiczny punkt wyjścia w procesie jego tworzenia. Zatem, jakieś narzędzie badawcze może być uznane za test psychologiczny ! jedynie w kontekście określonej teorii psychologicznej, której istotnym elementem jest dana wielkość psychologiczna, właśnie przez ten test operacjonalizowana, oraz w kontekście określonej teorii psychometrycznej (ta zaś zakłada jakąś teorię staty-I styczną) nadającej sens pomiarowy owemu narzędziu, właśnie jako testowi psy-I chologicznemu. W języku tej samej teorii psychometrycznej wyrażony jest wynik testu i w języku tej samej teorii psychologicznej wynik ten jest interpretowany. I Owe teorie określają też granice sensownego (i uzasadnionego!) użycia testu. Zatem nie wszystko, co z wyglądu przypomina profesjonalny test psychologiczny, jest I testem psychologicznym sensu proprio. Nie każdy zestaw tablic zawierających róż-I sokolorowe plamy atramentowe jest testem projekcyjnym d la test Rorschacha, nie I każdy zestaw pytań (jakiekolwiek „mądre" by były) jest kwestionariuszem osoboIwści itp. Także nie każdy pomysłowy rysownik czy literat może uznać swój produkt za test psychologiczny, gdy ... przypomina on swoim wyglądem znane mu Htfy psychologiczne (mówiło się kiedyś o tzw. trafności fasadowej, wedle której I kandydat na test X musiał wyglądać jak test X). Sądzę, że można już sformułować podstawową zasadę etyczną, której powinni I przestrzegać i twórcy, i użytkownicy testów psychologicznych. Mówi ona o tym, ■tomoże być twórcą i kto może być użytkownikiem testów psychologicznych. I Twórcą/użytkownikiem testu psychologicznego może być osoba, którą cechuje Wkeśłony poziom świadomości metodologicznej (w sensie nadanym temu pojęciu KL 3., rozdz. 3.) pozwalający na adekwatne posłużenie się teorią psychologicz^mi teorią psychometryczną w procesie tworzenia testu, jego stosowania i interI wyników.
[
167
Oczywiście, osoba tworząca test psychologiczny nie musi za jego pomocą prowadzić badania naukowego czy diagnostycznego, ani tym bardziej, nie musi interpretować jego wyników. Na ogół inna osoba (zespół osób) tworzy test, a inna go stosuje i interpretuje jego wyniki. Co więcej, dość mechaniczną czynność — w wypadku niektórych testów (np. prostych kwestionariuszy osobowości czy skal postaw) — przeprowadzenia samego badania i sporządzenia wstępnych obliczeń (np. zakodowanie odpowiedzi na pozycje testowe wg jednoznacznego klucza) oddziela się od niewspółmiernie bardziej złożonych i wymagających określonych kwalifikacji merytorycznych, czynności interpretowania wyników i sporządzenia raportu diagnostycznego. Uważam, iż osobą potencjalnie odpowiadającą omawianym kryteriom jest psycholog, gdyż studia psychologiczne (uniwersyteckie!) przygotowały go do rozumnego posługiwania się teorią psychologiczną oraz podstawowymi metodami statystycznymi, niezbędnymi do zrozumienia (co najmniej!) operacji statystycznych i psychometrycznych, związanych z psychometryczno-staty stycznymi podstawami interpretacji wyników testowych. Jego kwalifikacje zawodowe obejmują też umiejętności prowadzenia psychologicznych badań naukowych oraz stosowania podstawowych technik diagnostycznych (w tym głównych reprezentantów takich grup testów, jak: skale inteligencji i uzdolnień specjalnych, kwestionariusze osobowości, skale postaw i wartości, testy projekcyjne) i sporządzania diagnoz. Oczywiście mówię o modelowym absolwencie studiów psychologicznych, jak mówię o modelowym teście psychologicznym. W praktyce może się okazać (i okazuje się), że owe kompetencje (zwłaszcza w zakresie dogłębnej znajomości teorii psychologicznych i umiejętności psychometrycznych) rozłożone są zgodnie z prawem rozkładu normalnego. Pesymiści powiedzą, że jest on, niestety, silnie prawoskośny. Tak, jak bez znajomości budowy OUN i neurologii nie można oczekiwać prawidłowego odczytania tomograficznego obrazu zmienionego chorobowo mózgowia, tak też nie należy spodziewać się, iż ktoś, kto wyuczył się tylko — na podstawie lektury podręcznika testowego — poprawnego (w sensie odtworzenia krok po kroku, procedury badawczej) stosowania Skali Inteligencji WAIS/WAIS-R, będzie mógł sformułować trafną (w sensie trafności wewnętrznej i zewnętrznej — por. rozdz. 3. i 12.) hipotezę diagnostyczną dotyczącą analizowanych zaburzeń zachowania pacjenta, u którego występują objawy psychozy afektywnej, jeżeli nie zna on: (a) „zaplecza" teoretycznego i psychometrycznego zastosowanych testów psy chologicznych; (b) obrazu psychologicznego zaburzonego zachowania (tu osób cierpiących na psychozę afektywną); (c) wskaźników testowych charakterystycznych dla danego zaburzenia (tu: przede wszystkim dane z profilu WAIS-R — jego- wysokość, kształt i dyspersja). Jest to na ogół bardzo bogata literatura, na różnym poziomie ogólności (i tak jeśli chodzi na przykład o psychozy, to w wypadku zastosowania WAIS/WAIS-R można wskazać na bardzo obszerną literaturę omawiającą zastosowania w praktyce diag nostyki klinicznej skal inteligencji: WAIS i WAIS-R — por. reprezentatywną bib liografię tego problemu w: Kowalik, 1993); 168
(d) swoistych ograniczeń poszczególnych testów odniesionych do konkretnego problemu diagnostycznego. Jest bowiem na ogól tak, że test X może być czułym detektorem jakiejś dysfunkcji zachowania A i być całkowicie nieprzydatny w innym postępowaniu diagnostycznym, np. jako narzędzie diagnostyczne jakiejś dysfunkcji zachowania B. Mówiąc inaczej, chodzi o to, że nie wystarczy się wyuczyć mechanicznie „poprawnego" (tak jak roli teatralnej wg tekstu sztuki) stosowania kilku czy nawet kilkunastu testów psychologicznych, aby uważać się za osobę uprawnioną do po-| sługiwania się nimi w praktyce psychologicznej. Zbyt często wymóg standaryzacji , procedury badania za pomocą testu psychologicznego jest traktowany jako jedyny warunek poprawnego stosowania testu. A jest to tylko jeden z warunków i to wcale i me najważniejszy, a przynajmniej nie „wyposażający" osoby, która opanuje mechaniczną stronę stosowania testów, w kompetencje dyplomowanego, doświadczonego zawodowo psychologa. Zatem psycholog, i tylko psycholog odpowiednio przygotowany może w sposób odpowiedzialny przystąpić do konstrukcji oryginalnego testu psychologicznego czy do posłużenia się nim w celach: badawczym lub diagnostycznym. Wyżej starałem się dookreślić to, co rozumiem — w kontekście praktyki „testowania" — , przez zwrot: „odpowiednio przygotowany". Oczywiście, nie sposób podać szcze-, gotowej listy zagadnień, które powinien opanować psycholog (twórca czy użytkow-I nik testu), który chce skorzystać dla celów badawczych czy diagnostycznych z testu i psychologicznego. Zresztą lista ta wymagałaby, co pewien czas (tak samo zresztą I jak np. testy inteligencji —jeśli chodzi o ich trafność treściową; nawiasem mówiąc, [ treść pozycji testowych Skali Inteligencji Wechslera dla Dorosłych była moderni-I zwana w tempie: 1939 — W-B I 1955 — WAIS, 1981 — WAIS-R, a jej „kon-I kurentka" Skala Inteligencji Stanford-Bineta w tempie: 1916, 1937, 1960/1972, I 1986. natomiast cytowane tu Standardy... — 1954, 1966, 1974, 1985b) uzupełnie-I nia o nowe treści i usunięcia treści zdezaktualizowanych (jeżeli miałaby to być bardzo szczegółowa lista). Jest to problem, który ma także swój ciężar etyczny (bo I wyposażając kogoś w dyplom uniwersytecki, czy wydając mu licencję uprawniają-I cą do wykonywania zawodu, określone autorytety uznają go za specjalistę do wy-[ konywania określonych wąskospecjalistycznych czynności zawodowych), ale jego I rozwiązanie możemy pozostawić radom wydziałów, ustalającym treści programowe | studiów psychologicznych, czy specjalistycznym komisjom szkoleniowym PTP, które będą współdecydowały (z kim?) o wydawaniu odpowiednich licencji, po-I twierdzających opanowanie przez psychologa wymaganych umiejętności.
4,2. Adaptacja obcego testu Przejdźmy teraz do rozważenia kolejnego problemu, także brzemiennego w konsekwencje etyczne, a związanego z tym, że psychologowie w różnych krajach posługują się nie tylko „swoimi" testami, ale także wykorzystują w praktyce badawczej 169
i diagnostycznej testy skonstruowane w innym kraju, o niekiedy odmiennej tradycji kulturowej i innym stylu życia (pomijam tu oczywiste różnice wynikające z odmienności języka). Testy te — nawet po dokonaniu przekładu z języka oryginału na język kraju, w którym mają być użyte — nie będą przystawały do nowych warunków kulturowych, tak jak przystawały w wersji oryginalnej. Wymagają tedy, co wszyscy zaznajomieni z tematem zdają się wiedzieć, nie tylko przeprowadzenia prostych zabiegów translatorskich, ale także — czy przede wszystkim — adaptacji kulturowej treści poszczególnych pozycji testowych (zwłaszcza takich jak: test „Słownik" czy test „Wiadomości" ze Skal Inteligencji Wechslera) oraz instrukcji adresowanych do osoby badanej. Z badań przeprowadzonych przez Wolińską i Drwala (por. Drwal, 1994) nad polskimi odpowiednikami ACL (Test Przymiotnikowy) wynika, iż dobieranie przez autorów polskich adaptacji odpowiedników pozycji oryginalnych może budzić zastrzeżenia co do trafności (w sensie odpowiedniości kulturowej). Niech za przykład takiego nie trafionego doboru posłuży zaczerpnięty z przywołanej pracy cytat: „...dla niektórych przymiotników zaliczanych w oryginale do «negatywnych» wybrano polskie odpowiedniki w znaczeniu przychylnym (np: opinionated — «bezkompromisowy», rigid — «nieugięty») i odwrotnie (np. forgiving — «pobłażliwy»)" (s. 83). Można postawić pytanie: Czy lepsza (trafniejsza) jest adaptacja kulturowa obcego testu, ale nieudolnie przeprowadzona, od poprawnego, pod względem filologicznym, jedynie przetłumaczenia go z jednego języka na drugi? Nie, nie jest lepsza. Ale ta odpowiedź wcale nie oznacza aprobaty dla takiej praktyki przyswajania polskiej diagnostyce psychologicznej obcych testów, która sprowadzałaby się ii tylko do przeprowadzenia wiernego filologicznie przekładu z języka X na język polski (z oczywistymi w wypadku takich testów, jak testy inteligencji, podmianami pozycji, których treść zbyt mocno odwołuje się do kontekstu historii, literatury, geografii danego kraju, np. pytanie o kolory flagi USA w WAIS-R). Lepiej więc zamiast nieudolnością zabiegów translacyjnych sprowadzać niezasłużoną krytykę na autora testu oryginalnego, skonstruować test wg własnego pomysłu teoretycznego i konstrukcyjnego, albo też — trzecie rozwiązanie — wykorzystując koncepcję testu X zbudować jego parafrazę (w sensie występującym u Drwala, 1985, 1995). Nawiasem mówiąc, granica między poprawnie przeprowadzoną i podyktowaną przyczynami merytorycznymi trawestacją jakiegoś testu (zwłaszcza testu dotyczącego uzdolnień werbalnych) a jego parafrazą jest czasami trudna do ustalenia. Oczywiście, niezależnie od tego czy jest to tylko transkrypcja, czy aż parafraza, nie zwalnia to jej autora od przeprowadzenia, „od początku", tak jak w przypadku testu oryginalnego, wszystkich niezbędnych, i wyszczególnionych w Standardach..., operacji i obliczeń psychometrycznych i statystycznych. Dlatego też dość rozpowszechniona w Polsce (i nie tylko) praktyka polegająca na tym, iż przyswajanie obcego testu polegało na tłumaczeniu jego instrukcji, podręcznika i treści pozycji testowych (z wprowadzeniem do niego niezbędnych kulturowo odpowiedników), z zachowaniem w stanie nienaruszonym strony psychometrycznej (w tym — zachowanie oryginału norm; przykład: wersja włoska WAIS czy polska W-B I) jest niedopuszczalna. Takie bowiem postępowanie jest niezgodne z zaleceniami 170
Standardów... (APA, 1985a, standardy: Dl, D2, D4, s. 27-30; jeśli chodzi o tzw. normalizację testu to obowiązuje standard 13.4 — obowiązek sprawdzania rzetelności i trafności testu po jego przekładzie na inny język, APA, 1985b, s. 75). Takimi, niestety, pseudoadaptacjami są polskie wersje W-B I (wg: PTHP, 1972), WISC (wg: Kostrzewski, 1970), ACL (wg: Ostrowska, 1986), MMPł (wg: Plużek, 1971 — WISKAD-MMPI). I jeszcze jedno, autor adaptacji musi też zadbać o to, aby teoria, która stanowiła podstawę konstrukcji danego testu, była znana jego nowym odbiorcom. Jeżeli tak nie jest, to jest on zobowiązany do jej upowszechnienia. Nie można bowiem, lak mi się wydaje, pozostać tylko przy zaleceniu, aby psycholog-praktyk (a głównie on będzie odbiorcą nowego testu) zapoznał się z teorią i jej praktycznymi implikacjami poprzez przestudiowanie, wskazanej w podręczniku oryginalnego testu, literatury (nie dość, że obcojęzycznej, to jeszcze trudno dostępnej). Nie wystarczy tedy jedynie dokonać adaptacji kwestionariusza NEO-PI-R (Costa, McCrae, 1992), ale trzeba też przyswoić całe podłoże teoretyczne i metodologiczne związane z I teoretyczną konstrukcją tzw. wielkiej piątki (ang. Big Five). Wybrałem ten przykład, gdyż jak dotychczas na temat „wielkiej piątki" w polskiej literaturze psycho-| logicznej nie napisano prawie nic (jedynie: Jarmuż, 1995), a być może znajdzie się ktoś. kto zechce ten popularny kwestionariusz w Polsce wydać (bez „zaplecza" I teoretycznego nie będzie on wiele wart). Rozważając problem kulturowej adaptacji jakiegoś testu zagranicznego, musiI my rozpatrzyć konteksty: (1) teorii psychologicznej, (2) psychometryczny, (3) celu, 1(4) doświadczenia kulturowego osoby badanej, (5) świadomości społecznej, 116) kwalifikacji zawodowych użytkownika testu i (7) użycia (o nich szeroko w I pkt. 4.. rozdz. 20.). Jeżeli testy obcojęzyczne, na dodatek powstałe w kraju o odmiennych tradyI ejach kulturowych od kraju, w którym, po przekładzie i adaptacji, mają funkcjoI nować na równi z testami rodzimymi, wymagają tak złożonych — i nie zawsze I kończących się pełnym powodzeniem — zabiegów adaptacyjnych, to zasadne wyI daje się to. co zaproponował przed laty Cattell (1944; por. też: Kostrzewski, 1985), I1 mianowicie skonstruowanie testów, które w jak najmniejszym, jeżeli nie zeroI wym. stopniu uzależnione będą od kontekstu kulturowego. Skonstruował on testy I inteligencji, oparte na materiale niewerbalnym, graficznym (na wzór testu Matryc I Ravena). t/w. culture-free, culture-fair oraz culture-reduced test. Uważam jednak I {podobnie jak: Jensen, 1980; Matczak, 1994; por. też rozdz. 20.), że nawet CattelI Inwskie testy „neutralne kulturowo" czy „zredukowane kulturowo", nie są całkoI wicie wolne od wpływów kulturowych (reprezentuję tu stanowisko radykalnego I relatywizmu kulturowego), gdyż — jak to syntetycznie ujęła Matczak (1994, B84-26) — testy te, próbując oderwać się od jakichkolwiek realiów kulturowych, Ikgą się, dla osoby badanej, bardzo sztuczne, nie związane / rzeczywistością (ce■hoje je niski poziom realizmu życiowego), a zatem nie mierzą inteligencji, lecz BCzej „zdolność do rozwiązywania abstrakcyjnych problemów" (to pierwszy zak|. Nie da się obronić neutralności kulturowej testów Cattella, gdyż i one są w ^fcmś stopniu „łatwiejsze" dla osób. które miały już kontakt (publikacje zawiera171
jące różnorakie łamigłówki umysłowe, uprzednie doświadczenia testowe itp.) z materiałem podobnym do testowego (to drugi zarzut). Podsumowując to, co dotychczas napisałem na temat kulturowej adaptacji testów skonstruowanych z myślą o osobach władających innym językiem i dysponujących odmiennym od „naszych" badanych (i nas samych) doświadczeniem kulturowym, proponuję, aby — jeżeli przekracza to nasze możliwości — zrezygnować z pseudoadaptacji kulturowej, nawet bardziej znanych i nęcących nas testów, na rzecz albo testów w pełni naszego autorstwa, albo na rzecz dobrych parafraz. Przestrzeganie tego ważnego etycznie — nazwijmy go tak — standardu obowiązywać powinno nie tylko potencjalnego twórcę adaptacji jakiegoś testu zagranicznego (choć jego przede wszystkim), ale także jego bezpośredniego użytkownika, który powinien wiedzieć, że ma do czynienia z faktyczną adaptacją, a nie tylko z jej namiastką. Ważne jest też, aby ucząc studentów i szkoląc psychologów na kursach i studiach podyplomowych, nie prezentować im na zajęciach owych pseudoadaptacji.
4.3. Intencja twórcy testu a zakres jego rzeczywistych zastosowań Kolejnym, ważkim problemem, który związany jest ze zjawiskiem — nie zawsze kontrolowanym — rozprzestrzeniania się określonych testów (np. swoista moda na niektóre z nich w określonych latach — tak było z testami Witkina, kwestionariuszem A/W-Eysencka czy testem Rorschacha), jest zagadnienie stosowania testu zgodnie z intencją jego twórcy. Sądzę, że problem ten można sprowadzić do rozważenia trzech kontekstów: (a) celu, (b) treści i (c) generalizacji (wnioskowania). Zauważmy jeszcze, że pierwsze dwa konteksty można odnieść do dwóch rodzajów, a właściwie aspektów, trafności: kryterialnej (diagnostycznej lub prognostycznej) oraz treściowej (wewnętrznej). Trzeci zaś kontekst można powiązać z trafnością zewnętrzną. Należy sobie zdawać sprawę z tego, że „bezpiecznie" test psychologiczny może być stosowany tylko dokładnie tak, jak to zostało opisane w podręczniku testowym. Praktyka badawcza pokazuje jednak, iż stosunkowo często użycie testu wykracza (i to niekiedy znacząco) poza pole zastosowań określone przez twórcę testu. Co więcej, nowe zastosowania usuwają niekiedy w cień te, które były przypisane testowi w momencie, gdy rozpoczynał swą „karierę" diagnostyczną. Tak np, stało się ze Skalą Inteligencji Wechslera-Bellevue (W-B I), która, skonstruowana jako metoda wyznaczania II, stała się popularnym, wśród klinicystów testem osobowości, wykorzystywanym do celów diagnostyki różnicowej: norma versus różne postacie zaburzeń i chorób psychicznych oraz zaburzenie A versus zaburzenie B. Powstała też o wiele bogatsza literatura dokumentująca przydatność W-B 1 oraz WAIS/WAIS-R (podobnie WISC I WISC-R) do realizacji tych nowych celów (z punktu widzenia założeń wyjściowych, które przyjął Wechsler, chociaż i jemu nieobca była — zresztą pracował w szpitalu psychiatrycznym Bellevue w Nowym Jorku — idea klinicznego wykorzystania W-B I, por. Wechsler, 1939), że wskaże 172
te najbardziej głośne opracowania: Rapaport, 1945; Rapaport i in., 1968; Zimmerman, Woo-Sam, 1973; Frank, 1984. Drugi przykład dotyczy kwestionariusza MMPL Z wyjściowej wersji liczącej 504 pozycje powstały, liczące po kilkadziesiąt pytań, nowe kwestionariusze. Bardziej znane z nich to (por. Matkowski, 1992): Skala Lęku (A) i Skala Represji (R) i — Welsha, Skala Jawnego Niepokoju (MAS) — Taylor, Skala Statusu Społecznego (5f) — Gougha, Skala Odpowiedzialności Społecznej (Re) — Gougha, Mc Closkyego i Meehla, Skala Siły Ego (Es) — Barrona, czy Skala Represji-Uwrażliwienialfl-5) — Byrnea. Oczywiście te nowe kwestionariusze zostały prawidłowo opra-| cowane pod względem psychometrycznym oraz uzyskały teoretyczne oparcie w teoriach opracowanych przez ich twórców. Nowe zastosowania jakiegoś testu psychologicznego nie mogą być sprzeczne zjego założeniami teoretycznymi. Przy ustalaniu trafności teoretycznej (a ta zawsze I powinna być ustalana) konstruktor testu odwołał się do określonej teorii psychologicznej (zapożyczonej lub własnej). Owa teoria została wyrażona explicite (jak w I wypadku Kwestionariusza Temperamentu Strelaua — wersja podstawowa KTS i zmodyfikowana KTS-Z, por. Strelau, 1992, rozdz. 6.-8.), bądź trzeba ją odtwo[izyć. jak to zrobiła Hornowska (1993c) w przypadku skali WAIS-R, odnosząc ją | do modelu intelektu SOI Guilforda, modelu inteligencji płynnej i skrystalizowanej Callella-Horna, gdyż jak trafnie zauważył Stemberg (1985, s. 336): .....testy WeI chslera czy Stanford-Bineta nie dają należytego pojęcia o koncepcji natury inteli-I gencji przyjętej przez ich twórców". Przy testach uzdolnień, osiągnięć szkolnych czy przydatności zawodowej, sto-I sowanych w celach selekcyjnych (w szkolnictwie, przemyśle, wojsku itp.), nie-I zmiernie ważna jest analiza kontekstu treści pozycji testowych. Posłużenie się zna-I nym testem, opracowanym pod kątem określonych treści w sytuacji, która niezbyt I przystaje do owych „starych" treści, niesie z sobą niebezpieczeństwo uzyskania I przez badaną osobę wyniku obciążonego, a wielkość owego obciążenia (ang. bias) I będzie funkcją niezgodności rzeczywiście badanych za pomocą testu osiągnięć I szkolnych treści (np. aktualnie realizowanego programu nauczania matematyki w I klasie X) z treścią jego pozycji odnoszących się do programu nauczania matema-I tyki, który był aktualny wówczas, gdy test ten powstawał. Wyraźnie zostało to ujęte I w standardzie El2.3: „Jeśli w podręczniku testowym określa się związek pozycji I testowych z przedmiotem nauczania (lub innym — «źródłem treści»), należy podać, i kiedy zosta! opracowany program tego przedmiotu" oraz w standardzie E12.4: ,Je-I żeli jakiś test jest traktowany jako trafny treściowo dla określonego zawodu lub I grupy zawodów, to przedstawiając dane o jego trafności, należy również podać pełen opis czynności podejmowanych w danym zawodzie oraz informacje o ich I natężeniu i poziomie umiejętności, niezbędnych do ich wykonania" (APA, 1985a, I s.
56).
Analiza treści testu jest szczególnie ważna, gdy przystępujemy do adaptacji I narzędzia stosowanego w odmiennych warunkach kulturowych (rzecz jasna i języ^■arych) — zwłaszcza gdy chcielibyśmy adaptować któryś z testów osiągnięć I szkolnych, powstałych w warunkach całkowicie odmiennej, od naszej, organizacji 173
szkolnictwa i nasycenia programów szkolnych (nie tylko z tak kulturowo obciążonych przedmiotów, jak historia czy język i literatura) odmiennymi treściami, czy któryś z testów przydatności zawodowej. Tak samo ważne jest sprawdzenie, przed użyciem testu, czy — mimo iż jest „kulturowo dopasowany" — nie obejmuje on takiego obrazu treściowego, który już nie przystaje do aktualnych wymagań instytucji edukacyjnych albo instytucji dobierających nowych pracowników pod kątem określonych uzdolnień i sprawności. Należy upewnić się, czy aktualna operacyjna definicja jakiegoś zawodu odpowiada tej, którą posłużyli się autorzy danego testu. Przykładem dobrze przeprowadzonych prac nad konstrukcją metody, umożliwiającej międzykulturowe badanie motywacji do pracy oraz podejmowania różnych ról społecznych (z dobrze przeprowadzoną analizą treści pozycji testowych), jest polska adaptacja trzech testów wchodzących w skład Supertechniki badania ważności pracy, przeprowadzona przez Hornowską i Paluchowskiego (1993) — Kwestionariusza Preferowanych Wartości Ogólnych, Kwestionariusza Znaczenia Ról Społecznych oraz Kwestionariusza Wartości Realizowanych w Rolach. Nie można, rzecz jasna, zakazać posługiwania się testami psychologicznymi w innych, niż przewidziane podręcznikiem testowym, sytuacjach badawczych i diagnostycznych. Nie, ale zawsze w takich sytuacjach trzeba sprawdzić co najmniej trafność treściową i rzetelność testu stosowanego w niestandardowych warunkach. W skrajnych wypadkach może się okazać, iż należy skonstruować nowy test z powodu niezadowalającej trafności treściowej dotychczas stosowanego. Z psychometrycznego punktu widzenia konstrukcja rewizji danego testu nie różni się od konstrukcji testu „starego" — por. np. operacje psychometryczne przeprowadzone przy konstrukcji WA1S i WAIS-R. Śledząc rozwój polskiej diagnostyki psychometrycznej odnoszę wrażenie, iż o ile zwraca się już dostatecznie dużo uwagi na stronę formalną konstrukcji testów (analiza pozycji z punktu widzenia ich trudności i mocy dyskryminacyjnej, badania rzetelności, badania trafności kryterialnej, ale na ogół tylko diagnostycznej, konstrukcja norm z wykorzystaniem takich skal jak: centylowa, tenowa, stenowa), o tyle zbyt mało wagi przywiązuje się do analizy nowego testu w kontekście dwóch aspektów trafności — treściowego i teoretycznego. Pamiętajmy jednak, że rzetelność testu jeszcze nie wyznacza automatycznie jego trafności. Wyraźnie podkreślają to autorzy Standardów... <s. 80), gdy piszą: „...rzetelność jest koniecznym, lecz niewystarczającym warunkiem trafności. Współczynniki rzetelności są związane z trafnością w sensie negatywnym, tzn. nierzetelne wyniki nie mogą być trafne, natomiast rzetelne nie są ipso facto trafne". Przystępując do interpretacji wyniku testowego i na jego podstawie do prób uogólniania (generalizowania) wniosków, musimy rozważyć nasze postępowanie w kontekście tego kryterium, które nazywamy trafnością zewnętrzną. Trafność zewnętrzna testu informuje badacza o dopuszczalnym zakresie wniosków, które można sformułować na podstawie badania przeprowadzonego danym testem. Normy testowe pokazują psychologowi zakres dopuszczalnych wnioskowań, które może on przeprowadzić na podstawie uzyskanego przez osobę badaną wyniku. Osoba badana nie może być sensownie porównywana — z uwagi na uzyskany wynik (jego 174
wartość) lub jego strukturę, gdy przyjmuje on postać profilu, jak w MMP1, ACL czy WAIS-R i WISC-R; mówić możemy wówczas o takich jego właściwościach jak: poziom, kształt, dyspersja — z określoną grupą odniesienia, jeżeli test swoim „zasięgiem" tej grupy (populacji) nie obejmuje. I tak, przykładowo, za pomocą WAIS-R można w sposób statystycznie uzasadniony diagnozować iloraz inteligencji badanych osób, jeżeli nie wykracza on poza przedział wartości: <średnia (100) 1-3 2/3 odchyl, stand. (15); średnia (100) + 3 1/3 odchyl, stand. (15)>, czyli: 45-150. Niektórzy psychologowie, stosując metody ekstrapolacji (z wykorzystaniem równań regresji liniowej), opracowali tabele zawierające estymowane wartości II. przekraczające 150 (por. Sattler, 1988, tab. C-30, s. 845-847) oraz niższe od 45 (do 35) (por. SiWerstein, 1963). Są to jednak tylko wartości szacunkowe i jako takie powinny być traktowane z dużą ostrożnością. Osobiście uważam, iż postępowanie takie, nie liczące się z ograniczeniami trafności zewnętrznej testu, przyczynia się do wytwarzania artefaktów i jako takie powinno być zaniechane. Problem ten znalazł także swoje odzwierciedlenie w Standardach... — por. standardy: J5, J5.1 I i J5.2. W komentarzu do standardu J5.2 napisano wprost: „poważnym błędem interpretacyjnym jest ekstrapolowanie (podkr. J. B.) poziomu rozwoju poza zakresem, dla którego test został przewidziany". Ostatni problem, który chciałbym tutaj poruszyć, jest bodajże najbardziej „etyczny", gdyż wiąże się bezpośrednio z relacją, jaka zachodzi między psychologiem-! -użytkownikiem testu z jednej strony a kilentem (osobą badaną) z drugiej, w sytuacji badania psychologicznego (naukowego lub diagnostycznego) przeprowadzonego z wykorzystaniem testu psychologicznego. Jest to bardzo trudny problem, tak z psychologicznego (jednostkowego), jak i ze społecznego punktu widzenia. Nie jest on związany, rzecz jasna, ani z problemem kompetencji merytorycznych, którymi powinien się legitymować psycholog biorący do ręki test psychologiczny, ani z jakością danego testu psychologicznego jako narzędzia pomiarowego.
4.4. Prawa osoby badanej Problem ów można wyrazić w następujących szczegółowych pytaniach: 1. Czy można poddać badaniom testowym osobę bez jej zgody (lub zgody jej prawnych opiekunów)? 2. Czy osobę badaną należy poinformować o celu badania i jego ewentualnych konsekwencjach dla niej? 3. Czy osobie badanej należy udzielić, przed badaniem lub po jego zakończeniu, wyczerpujących informacji o teście, za pomocą którego przeprowadza się badanie? 4. Czy osobę badaną należy poinformować o uzyskanym przez nią wyniku? 5. Komu i w jakiej postaci psycholog może (powinien) udostępnić informacje o osobie badanej, uzyskane w wyniku przeprowadzonego badania testowego? 0 ważności tych zagadnień może zaświadczyć to, że w 4. (i jak dotychczas ■tetnim) wydaniu Standardów... wyodrębniono dotyczące tej problematyki stan175
dardy (jest ich 10) w postaci rozdziału 16., zatytułowanego: Protecting the rights oftest takers („Ochrona praw osób badanych testami"). W poprzednim, 3. wydaniu, nie było tego rozdziału; częściowo przedstawiono problem praw osoby badanej w pkt. J (standardy; J, Jl, J2.1, J2.2, J2.3). Nie ulega wątpliwości — por. standard 16.1 (APA, 1985b, s. 85) — iż psycholog jest zobowiązany, przed przystąpieniem do badania psychologicznego, w którym posłuży się on jakimś testem (nie ma znaczenia czy jest to „tylko" test badający opinię, czy też test inteligencji łub test badający jakieś aspekty zdrowia psychicznego), uzyskać zgodę potencjalnej osoby badanej na poddanie jej badaniom testowym. Psycholog nie może się powoływać na zbyt młody wiek osoby (np. dziecka), niedorozwój umysłowy czy chorobę psychiczną jako na czynniki usprawiedliwiające niepytanie się o zgodę na stosowanie testów psychologicznych. Nawet małym dzieciom można spróbować wyjaśnić, dlaczego chcielibyśmy je poddać badaniom testowym. Jeżeli dana osoba sama, mimo wszystko, nie jest zdolna do świadomego udzielenia takiej zgody, to powinna jej udzielić osoba będąca jej prawnym opiekunem lub ją reprezentująca. Według standardu 16.1 dopuszcza się trzy sytuacje, które nie wymagają uzyskania przed badaniem zgody danej osoby na poddanie się badaniu testowemu: (a) gdy stanowi ono element postępowania regulowanego odpowiednimi przepisami prawnymi, (b) gdy jest ono przewidziane jako stały element organizacji edukacji i (c) gdy zgoda na poddanie się badaniu testowemu jest jednoznacznie założona w postępowaniu danej instytucji (np. przed podjęciem pracy w określonych zawodach: pilota, kierowcy). W pozostałych przypadkach psycholog powinien poinformować daną osobę, że bez wyrażenia przez nią zgody na udział w badaniach testowych nie będzie on mógł z nią takich badań przeprowadzić. Tak więc, o udziale w badaniu testowym decyduje sama osoba (lub jej prawny opiekun), a nie psycholog. Do niej należy w tej sprawie ostatnie słowo. Takie są bowiem jej prawa. Tak jak psycholog powinien uzyskać zgodę osoby, którą zamierza poddać badaniu testowemu, tak też powinien udzielić jej wyczerpujących informacji na temat celu tego badania, jego przewidywanego przebiegu oraz tego, jaki zachodzi związek między samym badaniem a realizacją oczekiwań tej osoby. Informacja nie powinna być udzielana w języku „technicznym", ale w taki sposób, aby osoba badana (niepsycholog i niepsychometra) była w stanie ją zrozumieć. Oczywiście, informacji o samym teście, a zwłaszcza o treści jego pozycji i sposobie obliczania wyniku, należy udzielać w takim zakresie (m.in. przez dobór odpowiednich przykładów pozycji, które nie występują w danym teście, a które stanowią jedynie dobre ich ilustracje) i w taki sposób, aby nie popaść w konflikt ze standardem: 1.5. (APA, 1985a, s. 78): „Zarówno badający testami, jak i autorzy testów oraz osoby rozpowszechniające, mają obowiązek odpowiednio zabezpieczyć test". Zdaniem autorów Standardów... „osoba badana ma prawo nie tylko do informacji o celach badania, o jego konsekwencjach dla niej, ale ma także prawo do informacji o uzyskanym wyniku i jego interpretacji" (APA, 1985a, s. 80). Normuje to standard J2.1: „Badany (jego pełnomocnik lub opiekun) mają prawo poznać swoje wyniki oraz ich interpretacje. W niektórych wypadkach powinno się również udostępnić wyniki, jakie badany uzyskał w poszczególnych pozycjach testu" (s. 80). W podo176
bnym d duchu wypowiadają się standardy: 16.2 i 16.4 (APA, 1985b, s. 86). odzieler Czy ielenie informacji o teście nie stoi w sprzeczności z obowiązkiem
Lgo zabezpiecze-go (por. standard 15.)? W jakiejś mierze tak, ale — jak Jardów. piszą autorzy Stan-rdów... — „...nie ograniczając praw jednostki do która je: poznawania podstaw decyzji, i jest dla niej niekorzystna, należy jednak ■cc tesi zrobić wszystko, aby ochronić tajem-testu. Przekazanie informacji będzie ■y tajer mniej «groźne» z punktu widzenia ochro-tajemnicy testu, jeżeli lwie na wykorzysta się do tego osoby wykwalifikowane i życz-ie nastawione U takie; wobec badanych" (s. 80). Tak, czy inaczej, sposób postępowania iej hora m sytuacji musi być indywidualnie dopasowany i do charakteru informacji, [poziomi ma być przekazana, i do osoby badanej (jej charakterystyki Idasię osobowościowej, iomu inteligencji, wykonywanego zawodu, rodzaju [wadzen problemów, z którymi zwró-się do psychologa itp.). Jest to na pewno I lc rozm trudniejsze od sprawnego przepro-:nia samego badania testowego. I ustawi Pamiętajmy i o tym, że jeśli przeprowadzimy )zmowę nieudolnie, to wito te możemy wytworzyć u osoby badanej trwale negatywne ttwienie do udziału (dobrowolnego) w badaniach psychologicznych (i to nie tylko testowych). Wyniki przeprowadzonego badania powinny być udostępnione instytucji zlecającej jego przeprowadzenie (jeżeli rzecz jasna, była ona do tego upoważniona), w takiej postaci, aby osoba, która będzie zapoznawała się z nimi, potrafiła je poprawnie odczytać i podjąć adekwatne do nich decyzje dotyczące osoby badanej. Normuje to standard J2 (APA, 1985a, s. 79-80): „Informacje o wynikach testowych powinny być przekazywane jedynie osobom, które mają wystarczające kwalifikacje, aby je zinterpretować". Wyniki udostępniane należy uzupełnić takimi wyjaśnieniami, aby osoba, dla której są przeznaczone, potrafiła je poprawnie zinterpretować. Jak zapisano w Standardach...: „...ciekawość nie jest tu wystarczającym powodem. I Racje, dla których jakaś instytucja chce poznać charakterystykę psychologiczną danej osoby zapisaną w jej wynikach testowych, muszą być racjami naprawdę , merytorycznymi, a nie tylko wynikać z chęci zaspokojenia ciekawości czy zdobycia «rgumentów» przeciwko danej osobie". Nie należy tedy przekazywać surowych ■yników badania testowego II, np. badanego ucznia wychowawcy klasowemu. Na-I leży jednak, jak sądzę, przekazywać „wynik przetworzony", podany w postaci zro-Izumiałej dla odbiorcy (nie jest on przecież psychologiem!). Należy też unikać po-j shigiuania się w orzeczeniu psychologicznym pojęciami, które mają w języku co-| dziennym swoje dodatkowe znaczenia. Mówiąc inaczej, nie należy stwarzać okazji Ifc stygmatyzacji. Normuje to standard J2.3 (APA, 1985a, s. 80) i standard 16.6 HPA. 1985b. s. 86). Nie uważam, aby nauczycielowi była potrzebna informacja o I wartości II ucznia. Informacja ta może jednak — jak dowodnie wykazały wyniki I rozlicznych badań przeprowadzonych przez Rosenthala i jego współpracowników, I a także innych badaczy (por. rozdz. 4., pkt. 3.) — wywołać efekt nastawień inter-[ personalnych (dokładniej — efekt Golema), jeżeli wartość II ucznia znajduje się poniżej normy. Należy unikać pisania skrótowych diagnoz — operują nimi niektóre komputerowe wersje testów. Jest to zapewne oszczędna i wygodna forma opisu [wyników badania, ale, na ogół, staje się ona punktem wyjścia do nieuprawnionych I generalizacji ( n ie zawsze w interesie osoby badanej). „Stosowanie skrótowych ety177
kietek wiąże się zazwyczaj z wartościowaniem. Niestety, słowa, jakie są w tym wypadku używane, pochodzą często z języka potocznego i z tego powodu mogą być fałszywie interpretowane. Badający powinien precyzyjnie określić znaczenie stosowanych terminów (np. terminu «opóźniony»), chociaż nie może mieć żadnego wpływu na to, jak to samo słowo będą interpretować sędzia, nauczyciel, rodzice czy dziecko" (APA, 1985a, s.80).
4.5. Uwagi końcowe W tym punkcie starałem się przedstawić, z konieczności w postaci skondensowanej, najważniejsze (zdając sobie sprawę z tego, że jest to wybór subiektywny) etyczne aspekty związane ze stosowaniem w praktyce diagnostycznej (przede wszystkim) testów psychologicznych. O ile postępowanie badawcze psychologa jest dość szczegółowo regulowane przez kodeksy etycznozawodowe, o tyle postępowanie diagnostyczne związane z wykorzystaniem testów psychologicznych nie jest tak szczegółowo przez te kodeksy omawiane. Chcąc tedy poznać granice etycznego użycia testu psychologicznego, trzeba wyjść od specyfiki metodologicznej i psychologicznej, tego tak bardzo charakterystycznego dla psychologii (jako dyscypliny naukowej!) narzędzia poznania (jeszcze raz podkreślam — naukowego!) psychiki innego człowieka. Trzeba zatem odpowiedzieć na pytanie: co może być a co nie może być uznane za test psychologiczny — to po pierwsze. Trzeba też odpowiedzieć — to po drugie — na pytanie: kto może a kto nie może odpowiedzialnie (i sensownie) posłużyć się, świadcząc określoną pomoc innemu człowiekowi (klientowi), testem psychologicznym. Trzeba także odpowiedzieć na trzecie pytanie: jak powinno a jak nie powinno wyglądać badanie testem psychologicznym (w tym pytaniu ukryte jest dodatkowe pytanie o zakres świadomego uczestnictwa osoby badanej w owym badaniu). Posiłkując się wydanymi przez APA (1985a, 1985b) Standardami... starałem się udzielić jasnej odpowiedzi na te trzy, fundamentalne pytania.
5. Podsumowanie Jeżeli Czytelnik zechce powrócić do rys. 5.1. zamieszczonego w rozdz. 5., to zauważy — będąc już po lekturze niniejszego rozdziału — że poruszane tu zagadnienia odnosiły się do etycznego „zanurzenia" relacji psychologa z: (1) przedstawicielami różnorakich instytucji społecznych (relacja c), (2) studentami (relacja b). Odrębnym zagadnieniem poruszonym w pkt. 4. była analiza etycznego kontekstu konstruowania oryginalnych i adaptacji obcojęzycznych testów psychologicznych oraz ich stosowania (kompetencje użytkownika testów psychologicznych oraz prawa osoby badanej!). 178
Jeśli chodzi o dalsze lektury, to zalecam: do pkt. 2.: A. Brzezińska Kształcenie psychologów: pytania o relację naucza-i jej wymiar etyczny, Z. Toeplitz Etyczne dylematy nauczania psychologii; do pkt. 3,: J. Goćkowski, K. Pigoń (red.) Etyka zawodowa ludzi nauki; S. HesPodstawy pedagogiki (rozdz. XII, Szczebel kursu naukowego, czyli teoria uniwrsyietu); J. Ziman Społeczeństwo nauki; do pkt. 4.: Standardy dla testów stosowanych w psychologii i pedagogice; D. Seligman O inteligencji prawie wszystko. Kontrowersje wokół ilorazu inteligencji — dobrze, przystępnie napisana praca, skupiająca się na kontrowersjach dotyiczących testów inteligencji wykorzystywanych przez różne instytucje, głównie do leelów przesiewowych.
zmienne - problemy - hipotezy
część II
Rozdział 7. Zmienne i ich operacjonalizacja
1. Wprowadzenie Drugi etap procesu badawczego (por. rys. 1.4) związany jest z wyłonieniem przez badacza zmiennych, które tworzą obraz przestrzeni zmiennych istotnych dla Y, i o których mówi sformułowany problem badawczy oraz hipoteza badawcza. Pojęcie zmiennej (ang. variable) jest jednym z podstawowych pojęć słownika, którym posługuje się każdy psycholog-badacz. Zaczniemy tedy niniejszy rozdział od zdefiniowania tego pojęcia oraz zaproponowania nowej klasyfikacji zmiennych, która może być przydatna przy planowaniu badań empirycznych oraz analizie staRystycznej danych. Trzeba zdawać sobie sprawę z tego, iż w nauce posługujemy się dwoma językami (Carnap, 1959): językiem obserwacji (ang. observational language) i językiem teorii (ang. theoretical language). W języku obserwacji używa się terminów, które denotują obiekty fizyczne. Inaczej, dla opisu obserwowalnych rzeczy cz\ zdarzeń używa się w nim takich terminów, które oznaczają obserwowalne właściwości i relacje. Natomiast w języku teorii używa się terminów, które odnoszą I się do nieobserwowalnych aspektów jakichś obiektów czy właściwości zdarzeń. ! Nietrudno podać przykłady terminów teoretycznych typowo psychologicznych. Są Itonp. ego. popęd, ekstrawersja, lęk, frustracja, inteligencja, potrzeba, autorytaryzm, } jakość życia, dobrostan psychiczny, depresja. Jeżeli chcemy posługiwać się takimi terminami jak wyżej przytoczone, tzn. terminami teoretycznymi, przy wyjaśnianiu i przewidywaniu obserwowalnych zdarzeń, muszą one być w jakiś sposób powiązane — bezpośrednio lub pośrednio — z terminami obserwacyjnymi (etap 3. proIcesu badawczego — por. rys. 1.4). Nie będę tu przedstawiał całej złożonej problematyki stosunku języka teorii do języka obserwacyjnego, gdyż jest to zagadnienie zbyt złożone i trudne. DocieI kliwy Czytelnik może sięgnąć do propozycji Carnapa na ten temat, który w swojej pracy (1959) poświęca sporo miejsca terminom teoretycznym psychologii. Tam I Czytelnik może zapoznać się też z ewolucją stanowisk, jakie zajmowali filozofowie I w tej kwestii. Przedstawia tę sprawę także Przełęcki (1966b). Tutaj zaś zapoznam 183
Czytelnika z jedną z koncepcji metodologicznych, która podaje kryteria, jakim powinien odpowiadać dany termin teoretyczny, aby uzasadnione było jego używanie w twierdzeniach nauk empirycznych. Jest to koncepcja Kmity (1973). Przedstawiciele nauk społecznych, zwłaszcza socjologowie, przy wprowadzaniu terminów teoretycznych, posługują się wskaźnikami, po to, aby powiedzieć, po czym można poznać, jakie obserwowalne fakty i procesy należy dostrzec, aby można było orzec, czy zachodzi czy też nie zachodzi zjawisko oznaczane przez termin, jakim się posługujemy (Nowak S., 1965a, s. 245). Psychologowie budują też wskaźniki wykorzystując do tego celu specyficzne dla swojej dyscypliny naukowej narzędzia pomiarowe, jakimi są testy psychologiczne (można je traktować jako odmianę narzędzi kalibrowanych). Koncepcja operacjonalizacji zmiennych psychologicznych opracowana przez Hornowską (1986) — i nawiązująca do ustaleń Nowaka L. (1977, 1980) oraz Brzezińskiego (1976), Tuchańskiej (1990) i Gaula (1990) — odwołuje się do tej szczególnej praktyki pomiarowej. Uważam ją za bardzo przydatną dla psychologów-badaczy i dlatego będzie tu ona dość szczegółowo zreferowana.
2. Pojęcie zmiennej Weźmy jako przykład taki termin, jak: „inteligencja". Jest to pewna właściwość, przyjmująca różne wartości dla takich „obiektów", jak ludzie. Jeżeli o danej właściwości możemy powiedzieć, że przyjmuje ona różne (i co najmniej dwie) wartości, to jest to zmienna (ang. variable). Tak definiuje zmienną np. Kerlinger (1986, s. 27): .....zmienna jest właściwością, która przybiera różne wartości". Tak więc zmiennymi są na przykład: płeć, poziom wykształcenia, poziom aspiracji, poziom aktywacji, inteligencja, neurotyzm, ekstrawersja, lęk, poczucie winy. Ze względu na wielkość zbioru, z którego dana zmienna przyjmuje wartości, przyjęło się wyróżniać: (a) zmienne dwuwartościowe, inaczej: dychotomiczne (ang, dichotomous variable), (b) zmienne wielowartościowe, inaczej: politomiczne (ang. połytomous variable). Stosunkowo często psychologowie posługują się jeszcze zmiennymi, które przyjmują wartości ze zbioru trój elementowego (np. popularny system odpowiedzi na pytania kwestionariuszowe: tak, nie, nie wiem), są to: (c) zmienne trójwartościowe, inaczej: trychotomiczne (ang. trichotomous variable). Przykładem (a) może być zmienna „płeć", gdyż przyjmuje ona tylko dwie wartości: „mężczyźni" i „kobiety". Przykładem (b) jest „neurotyzm" — zmienna ta dla osób w populacji przyjmuje wiele różnych (aczkolwiek ich liczba jest ogra184
niczona) wartości. Przykładem (c) jest wspomniany już system odpowiedzi na pytania kwestonariusza osobowości. Odróżnia się zmienne dychotomiczne, które w naturalny sposób przyjmują tylko wartości ze zbioru dwuelementowego (jak wspomniana „pleć": mężczyźni-kobiety), od zmiennych de facto wielowartościowych, które jednak badacz, dla jakichś celów, sprowadził do postaci dwuwartościowej (określać je będę mianem zmiennych zdychotomizowanych). Przykładowo, mógł on w ten sposób potraktować zmienną „wzrost" przez wyróżnienie tylko dwóch jej możliwych wartości: wysoki (powyżej 170 cm) i niski (równy i poniżej 170 cm), czy II (powyżej 100 oraz 1 równe i poniżej 100). Mówimy też o: (a) zmiennych ciągłych (ang. continuous variable), (b) zmiennych dyskretnych (ang. discrete variable). Zmienna jest ciągła, jeżeli zbiór jej wartości tworzy kontinuum i jeżeli poj między dwiema sąsiednimi wartościami zmiennej możliwe jest znalezienie trzeciej wartości (Wolman, 1973, s. 400). Mówiąc inaczej dana zmienna jest ciągła, gdy dla różnych osób z populacji może ona przyjmować różne wartości, przy czym wartości te nie są ograniczone do zbioru dyskretnego (por. Nowakowska, 1975, I s. 118). W tym sensie zmienną ciągłą jest np. „wzrost". Jeżeli pomiędzy dwiema I sąsiednimi wartościami zmiennej nie występuje trzecia wartość, to jest to zmienna I dyskretna. Taką zmienną jest np. „płeć" czy „typ wykształcenia" (w sensie: medyI czne. przyrodnicze, techniczne, ekonomiczne, humanistyczne, rolnicze). Zwykło się jeszcze wyróżniać: (a) zmienne jakościowe, kategorialne (ang. qualitative, categońcal variable), I do których zaliczamy wcześniej przez nas wymienione zmienne dychotomiczne, a I także te zmienne politomiczne, które są — z punktu widzenia logiki — klasyfika-I cjami. Jak wiadomo (por. np. Ziembiński, 1993, s. 234-239), od klasyfikacji wyImga się. aby była ona: (1) podziałem wyczerpującym, a więc, aby obejmowała łszystkie elementy objęte jej zasięgiem i (2) podziałem rozłącznym, tzn. aby każdy I element znalazł się tylko w jednej klasie. Zmienna dychotomiczna „płeć" (wartości: I nyska, kobieca) jest zmienną jakościową, gdyż spełnia opisane wyżej oba warunki. Podobnie zmienna politomiczna wyznanie religijne (wartości: katolickie, prawo-| fcne, ewangelickie, inne wyznania, nie wierzący) jest zmienną jakościową, gdyż ^■żda z zapytanych przez badacza osób mieści się w jednej z wymienionych ka-I tcgorii [ (b) zmienne ilościowe (ang. quantitative variable), którymi są wyróżnione ■yżej zmienne ciągłe. W praktyce badawczej psychologowie zwykli podciągać pod I pojęcie zmiennych ilościowych — obok takich ewidentnie ilościowych zmiennych, Ht czas reakcji, wartości GSR — zmienne zoperacjonalizowane za pomocą wy^■daryzowanych testów psychologicznych, takie jak II mierzone skalami Węch■n {WPSI-R, WISC-R, WAIS-R) czy Stanford-Bineta (np. S-B FE), zmienne ^■bowościowe mierzone za pomocą skat kwestionariuszy 16 PF-Cattella, MMPl-i ■icKinleya i Hathawaya, .ACL-Gougha, itp. 185
3. Konstrukcja mnogościowa zmiennej ilościowej Załóżmy (Nowak L., 1974, s. 9-10), że dany jest zbiór przedmiotów U (np. osób). Zbiór ten jest częściowo uporządkowany przez relację 5, która jest przeciwsymetryczna i przechodnia w tym zbiorze, ale nie jest spójna. Można więc w zbiorze U wyróżnić przedmioty, między którymi relacja S nie zachodzi. Między tymi przedmiotami zachodzi natomiast relacja nieodróżnialności Q pod względem S: xQy wtedy i tylko wtedy, gdy nie jest tak, że xSy i nie jest tak, że ySx. Jeżeli chodzi o relację Q, zakłada się, iż jest ona zwrotna, symetryczna i przechodnia w zbiorze U. Jest więc Q relacją równościową w tym zbiorze. Zachodzi ona między tymi przedmiotami, pomiędzy którymi nie zachodzi wyjściowa relacja S. Jeżeli U jest na przykład zbiorem osób, to relacją częściowo porządkującą ten zbiór może być relacja S: „bycia bardziej inteligentnym niż...". Porządkuje ona zbiór osób wg stopnia, w jakim każdej osobie przysługuje cecha „inteligencji" — od osoby najmniej inteligentnej do najbardziej inteligentnej. Relacja „bycia bardziej inteligentnym niż ..." nie zachodzi pomiędzy tymi osobami, które są równointeligentne (cecha „inteligencji" przysługuje im w tym samym stopniu). Zachodzi między nimi relacja nieodróżnialności Q, która jest stosunkiem „równointeligencji"; dwie osoby x i y są równointeligentne wtedy i tylko wtedy, gdy ani osoba x nie jest bardziej inteligentna od osoby _v, ani osoba y nie jest bardziej inteligentna od osoby x. O relacji Q powiemy, że dzieli ona rozważany zbiór U na klasy abstrakcji. Klasy abstrakcji stanowią podzbiory (grupy) osób, które są równointeligentne. Między elementami każdej takiej grupy nie zachodzi wyjściowa relacja „bycia bardziej inteligentnym niż...". Ogólnie określamy pojęcie klasy abstrakcji w sposób następujący. Niech x należy do U (pamiętajmy, że jest na nim określona relacja równościowa Q). Symbolem [X] Q oznaczamy klasę abstrakcji ze względu na relację Q wyznaczoną przez element x. Mamy tedy dla każdego elementu y należącego do zbioru U: ye [x] Q =xQy\ co czytamy: y należy do klasy abstrakcji [x] Q wtedy i tylko wtedy, gdy y jest równy x-owi pod względem Q (w naszym przykładzie, gdy y jest równointeligentny z *-em). W danym zbiorze możemy wyróżnić tyle różnych klas abstrakcji, ile można w nim wyróżnić jednolitych (homogenicznych) podzbiorów elementów, którym dana cecha przysługuje w tym samym stopniu. Podzbiory te są, oczywiście, rozłączne (nie mają elementów wspólnych) i w sumie dają zbiór U. Oznaczmy symbolem A zbiór klas abstrakcji od relacji Q. Na zbiorze A dana jest relacja wyprzedzania generalnego 5'. Niech Z, i Z; są dowolnymi klasami abstrakcji. Wobec tego mamy: ZjS'Zj wtedy i tylko wtedy, gdy dla każdego x ze zbioru Z, i dla każdego y ze zbioru Zj jest: xSy. Reasumując, relacja 5 zachodzi między przedmiotami należącymi do różnych klas abstrakcji, relacja Q zachodzi między elementami należącymi do tej samej 186
7.1. Ilustracja zachodzenia na zbiorze U relacji 5' i Q
sy abstrakcji, zaś relacja 5' zachodzi między samymi klasami abstrakcji. Sche^cznie przedstawia to rys. 7.1. Niech dany będzie podzbiór R zbioru liczb rzeczywistych, który jest uporządprzez relację mniejszości (<). Funkcję określoną na zbiorze przedmiotów i przybierającą wartości w zbiorze R nazywać będziemy funkcją skalującą (s) zbiór przedmiotów U. Spełnia ona warunek: dla dowolnych x, y ze zbioru U: jeżeli x i y należą do Z, to ^(x)=5(y). Rodzinę klas abstrakcji A uporządkowaną przez relację wyprzedzania generalnego S' nazywać będziemy zmienną ilościową wtedy i tylko wtedy, gdy istnieje taki podzbiór liczb rzeczywistych R uporządkowany przez relację mniejszości < waz funkcja skalująca 5, że dla każdego x należącego do zbioru Z { i dla każdego |y należącego do zbioru Z, zachodzi: j(^)<^0') wtedy i tylko wtedy, gdy Z,S'Zj. Jest to konstrukcja wzorowana na konstrukcji wielkości podanej przez L. NoLaka (1974). Klasy abstrakcji składające się na zbiór A to wartości zmiennej, natomiast elementy pod/bioru R to miary zmiennej. Uważny Czytelnik dostrzegł zapewne, iż w przypadku zmiennych jakościowych konstrukcja mnogościowa jest bardzo prosta. O zmiennej jakościowej możemy mówić po prostu jako o rodzinie klas abstrakcji od jakiejś relacji równościowej lup. relacji „przynależności do tej samej klasy społecznej". Nie jest ona, oczywiIście. uporządkowana, gdyż nie ma to sensu. Spróbujmy bowiem uporządkować klas\ abstrakcji ze względu na relację „należenia do tej samej płci"). Przyporządkowanie liczb klasom abstrakcji musi spełniać tylko jeden warunek: różnym klasom muszą być przyporządkowane różne liczby np. klasom: Z ; , Uq,Zi. Z4 można przyporządkować następujące liczby: 71, 4, 15, 1. Zamiast liczb można im przyporządkować określone słowa lub dowolne znaki graficzne. 187
4. S. S. Stevensa klasyfikacja zmiennych: nominalne, porządkowe, interwałowe i ilorazowe Zbiór wartości zmiennej przyjmuje postać jednej z czterech skal wyróżnionych przez Stevensa (1951, 1959): (a) nominalnej, (b) porządkowej, (c) interwalowej, (d) ilorazowej (stosunkowej). Typ skali określa nam podstawowe operacje empiryczne, jakie można na zbiorze wartości danej zmiennej przeprowadzać, wskazuje dopuszczalne przekształcenia matematyczne oraz określa jakie statystyki, miary korelacji i testy statystyczne można stosować. Przyjęło się określać nazwą skali pomiarowej typ zmiennej. Oto krótka charakterystyka czterech typów zmiennych. Zmienne nominalne pozwalają nam tylko na pogrupowanie obiektów (osób) wg wartości, jakie przyjmują zmienne dla tych obiektów. Taką zmienną jest np. „płeć". Zmienna ta przyjmuje dla każdej osoby z populacji jedną z dwóch wartości, Całą populację osób można rozdzielić na tyle grup, ile wartości może dana zmienna nominalna przyjmować. Poza tym, iż możemy stwierdzić, że jakieś dwa obiekty są jednakowe, pod względem wartości jakie przyjmuje dla nich zmienna nominalna, czy też różne, nic więcej nie możemy już o nich powiedzieć. W szczególności nie miałoby sensu stwierdzanie, że osobie A dana zmienna nominalna X przysługuje w wyższym stopniu niż osobie B. Zmienne nominalne określa się mianem zmiennych jakościowych. Zmienne porządkowe pozwalają na uporządkowanie obiektów wg wartości, jakie przyjmują zmienne dla tych obiektów. Możemy zatem nie tylko stwierdzać równość lub różność obiektów pod danym względem, ale także wskazać, któremu z obiektów A i B zmienna porządkowa X przysługuje w wyższym stopniu, przy czym mogą to być dwojakiego rodzaju uporządkowania: silniejsze (całkowite) i słabsze (częściowe). Z silniejszym uporządkowaniem mamy do czynienia wtedy, gdy zbiór obiektów uporządkowany jest przez relację przeciwsymetryczną: „<", a ze słabszym, gdy jest on uporządkowany przez relację antysymetryczną „**'. Jeżeli zbiór obiektów jest np. 5-elementowy: A, B, C, D, E to mamy: uporządkowanie silniejsze (całkowite): A
nic o dystansie dzielącym dwie osoby, dla których zmienna X przyjmuje różne wartości. Jeżeli traktujemy zmienną „wzrost" jako porządkową, to skoro mamy Jana o wzroście 180 cm i Piotra o wzroście 150 cm, jedyne co możemy stwierdzić to to, iż Jan jest wyższy od Piotra. Inaczej, że Janowi zmienna „wzrost" przysługuje w większym stopniu niż Piotrowi. Większość zmiennych psychologicznych to, co najwyżej, zmienne porządkowe. Zmienne interwałowe pozwalają już na stwierdzanie o ile natężenie zmiennej X dla obiektu A jest większe (mniejsze) od natężenia zmiennej dla obiektu B. Możemy zatem powiedzieć, iż temperatura ciała A równa 40°C jest większa o 10°C od temperatury ciała B równej 30°C. Zmienne operacjonalizowane za pomocą standaryzowanych skal testowych (np. II) można traktować jako zmienne interwałowe (na ten temat patrz rozdz. 18.). Zmienne stosunkowe {iłorazowe) pozwalają dodatkowo na stwierdzenie, że natężenie zmiennej X dla obiektu A jest k razy większe niż natężenie tej zmiennej dla obiektu B. Jeżeli porównujemy ze sobą dwie osoby pod względem wieku, to możemy powiedzieć nie tylko, że jedna osoba jest starsza od drugiej, że jest starsza otyłe to a tyle lat, ale jeszcze możemy powiedzieć, że jest starsza np. 2 razy. Jest tak. gdyż zmienna „wiek" jest zmienną ilorazową. Zmienną ilorazową jest też np. czas reakcji Bardzo ważne jest zdawanie sobie sprawy z tego, z jakiego typu zmiennymi mamy do czynienia w badaniu empirycznym. Po wyłonieniu wszystkich zmiennych i ich zdefiniowaniu badacz musi określić ich typ. Musi zdecydować, jako jakiego typu będzie je traktował. To, że dana zmienna jest de facto zmienną ilorazową, jak [ np. ..wiek", nie oznacza, iż jako taka będzie występowała w badaniu. Z różnych powodów badacz może ją potraktować jako zmienną nominalną, dychotomiczną, wyróżniając dwie klasy osób: „wiek równy i poniżej 25 lat życia" i „wiek powyżej ■5 lat życia". Zmienne interwałowe i zmienne iłorazowe to zmienne ilościowe. Wrócimy jeszcze do tego zagadnienia przy omawianiu problemu operacjonalizacji zmiennych. W rozdz. 10. i 11. przy przedstawianiu różnych współczynników korelacji i testów istotności respektuję przedstawiony tu podział skal pomiarowych (por. rys. 10.3 oraz 11.1, 11.2). Więcej informacji na temat klasyfikacji skal pomiarowych wg Stevensa znajdae Czytelnik u Choynowskiego (1971a) i Blalocka (1975 — pod kątem zastosowań technik statystycznych) — że ograniczę się tylko do prac dostępnych w j. polskim.
5. Zmienne — zależne i niezależne. Klasyfikacja zmiennych ienna, która jest przedmiotem naszego badania, której związki z innymi zmiennymi chcemy określić (wyjaśnić) nosi nazwę zmiennej zależnej (ang. dependent 189
variable). Natomiast zmienne, od których ona zależy, które na nią oddziaływają noszą nazwę zmiennych niezależnych (ang. independent variables). Jeżeli pytamy: „Jaka jest zależność poziomu wykonania zadania od poziomu aktywacji organizmu?", to „poziom wykonania zadania" jest zmienną zależną, a „poziom aktywacji organizmu" zmienną niezależną. Zmienną zależną będziemy oznaczali symbolem Y, a zmienną niezależną symbolem X. Zmienne niezależne z różną siłą oddziaływają na zmienną zależną Y. Jedne silniej, inne słabiej. Można zatem uporządkować zmienne niezależne wg siły ich oddziaływania na zmienną zależną Y. Te, które najsilniej oddziaływają na Y nazywać będziemy zmiennymi niezależny mi-głównymi i oznaczać je przez X8. Natomiast te, które oddziaływają na Y słabiej, nazywać będziemy zmiennymi niezależny mi-uboczny mi i oznaczać je przez X". Wracając do powyższego przykładu możemy obok poziomu aktywacji organizmu wyróżnić jeszcze jedną zmienną niezależną-główną, a mianowicie „poziom trudności zadania". Natomiast do zmiennych niezależnych-ubocznych zaliczyć możemy takie zmienne, jak: „prawdopodobieństwo subiektywne osiągnięcia celu", „wartość nagrody otrzymanej po wykonaniu zadania" czy „pobudliwość emocjonalną". Zmienne niezależne główne i uboczne to zmienne ważne (W) dla danej zmiennej zależnej Y. Pamiętajmy jednak, iż w trakcie badania na zmienną zależną Y będą oddziaływały jeszcze inne zmienne niezależne, takie jak: nastawienie osoby badanej do badacza, wiedza osoby badanej o celu badania, temperatura pomieszczenia, sposób przeprowadzania pomiaru zmiennych przez badacza itp. Zmienne te będą miały interferencyjny wpływ na zależność, która wiąże zmienne ważne ze zmienną zależną. Określimy je mianem zmiennych niezależnych-zakłócających (Z). Zmienne zakłócające dzielą się na dwie klasy. Pierwsza obejmuje te zmienne, które są niejako „na zewnątrz" sytuacji badawczej, albo inaczej mówiąc: „nie są skorelowane" z aktem badania empirycznego. Ich wpływ na zmienną zależną jest „niespecyficzny". Są to zmienne, których oddziaływania na Y badacz nie może przewidzieć. Przykładowo, taką zmienną może być indywidualna tolerancja osób badanych na zmiany ciśnienia atmosferycznego, co może mieć wpływ na czas reakcji. Druga klasa zmiennych zakłócających obejmuje te zmienne, które są „wewnętrzne" względem sytuacji badawczej, albo inaczej: „są skorelowane" z aktem badania empirycznego. Do tych zmiennych, bodajże najbardziej charakterystycznych dla badań psychologicznych, należą zmienne kontekstu psychologicznego badania; są to zmienne będące „pochodną" wchodzenia badacza z osobą badaną w interakcję (o nich traktuje rozdz. 4.) — oczekiwania interpersonalne badacza, wskazówki sugerujące hipotezę badawczą, lęk przed oceną, status motywacyjny osoby badanej, aprobata społeczna. Jeżeli chodzi o zmienne niezależne-zakłócające, to część z nich występuje zawsze ilekroć występują pozostałe zmienne niezależne istotne dla Y. Są jednak takie zmienne niezależne zakłócające, które niekiedy występują, a niekiedy nie. Przykładem, w pierwszym przypadku, może być sposób odczytania wskazania przyrządu pomiarowego (dokładniej: chodzi tu o to, pod jakim kątem badacz patrzy 190
na skalę przyrządu — oczywiście jeżeli nie jest to przyrząd o odczycie cyfrowym). Przykładem w drugim przypadku może być zmęczenie, ból głowy osoby badanej. Pierwszy rodzaj zmiennych określamy mianem zmiennych niezależnych-zakłócających uniwersalnych, a drugie mianem zmiennych niezależnych-zakłócających okazjonalnych. Rozróżnienie dwóch rodzajów zmiennych niezależnych-zakłócających ma duże znaczenie przy eliminowaniu ich wpływów na Y. Nie jest to zresztą rozróżnienie typowe tylko dla psychologii. W fizyce mówi się o błędach systematycznych i przypadkowych (losowych), które odpowiadają naszemu podziałowi zmiennych nie zależny ch-zakłócających na uniwersalne i okazjonalne (Bohm, ■961. s. 54). Często jest tak, że badacze borykają się z problemami wynikającymi z działania I zmiennych niezależny ch-zakłócających i nie zawsze są w stanie kontrolować, w konkretnym przypadku (na skutek trudności natury technicznej), wpływ wszystkich zmiennych niezależnych-ubocznych należących do przestrzeni zmiennych niezależnych istotnych dla Y. Te zmienne niezależne-uboczne, których wpływu na Y badacz nie jest w stanie uwzględnić w danym badaniu, określać będziemy mianem zmiennych niezależnych-ubocznych nie kontrolowanych. Zmienne te wraz ze zmiennymi niezależnymi-zakłócającymi tworzą ogólniejszą klasę zmiennych niezależnych-nie kontrolowanych (AO. Natomiast zmienne niezależne-główne i pozostała część zmien-
Zmienne niezależne istotne dla Y
zakłócające
zmienne raezależne ?: /»"'6
zmienne niezależne uboczne
nie skorelowane z aktem badania empirycznego (nie kontrolowane)
kontrolowanej
kontrolowane
skorelowane z aktem badania empirycznego
nie kontrolowane uniwersalne
okazjonalne
kontrolowane
nie kontrolowane
kontrolowane
nie kontrolowane
fes. 7.2. Klasyfikacja zmiennych niezależnych istotnych dla zmiennej zależnej Y
191
nych niezależnych-ubocznych, których wpływ na Y w danym badaniu badacz uwzględnia, noszą nazwę zmiennych niezależnych-kontrolowanych (K). W sumie, zmienne niezależne-główne, zmienne niezależne-uboczne i zmienne niezależne-zakłócające tworzą zbiór zmiennych niezależnych istotnych dla Y. Omówiony wyżej podział zmiennych, dla większej przejrzystości, przedstawiony został w formie graficznej, na rys. 7.2.
6. Zasady wprowadzania terminów teoretycznych do nauk empirycznych (wg J. Kmity) Wszystkie terminy występujące w twierdzeniach nauk empirycznych (a więc i w psychologii) Kmita (1973, s. 129) dzieli na dwie klasy: (1) klasę terminów matematyczno-logicznych, (2) klasę terminów deskryptywnych. Pierwsze zaczerpnięte są z określonych dyscyplin formalnych, które też ustalają ich znaczenie. Natomiast drugie są charakterystyczne dla określonych dyscyplin empirycznych, w których języku ustala się ich znaczenie. Z kolei terminy deskryptywne dzieli się także na dwie podklasy: (2.1.) podklasę terminów jednostkowych, (2.2.) podklasę predykatów1. Jeżeli chodzi o terminy jednostkowe to muszą one (warunek sprawdzalności hipotez badawczych) denotować konkretne obiekty fizyczne. W odniesieniu do predykatów możemy wyróżnić dwa ich rodzaje: (2.2.1.) predykaty obserwacyjne, (2.2.2.) predykaty teoretyczne. Zdania zawierające predykaty obserwacyjne nie nastręczają na ogół problemów związanych z ich sprawdzaniem empirycznym. Są one sprawdzalne. Inaczej natomiast przedstawia się sprawa sprawdzalności zdań zawierających predykaty teoretyczne. Denotują one bowiem cechy bądź relacje nieobserwowalne. Nie można zatem ich wypowiadać opierając się bezpośrednio na obserwacji. .Jednakże — argumentuje Kmita (tamże, s. 129) — niektóre z predykatów teoretycznych powiązane są w taki sposób z predykatami obserwacyjnymi, że umożliwia to orzekanie predykatów teoretycznych przy pośrednim oparciu się na danych doświadczenia (...)". Wyrażenie, które wraz z n terminami jednostkowymi tworzy zdanie nazywa się predykatem. Liczba występujących terminów jednostkowych (liczba argumentów) określa nam, ilu argumentowy jest dany predykat. Przyjęto się, iż argumenty oznacza się literami: x, y, z czy też JC , x2 , JC 3.....................Tak więc, predykat występujący w zdaniu: „Kowalski jest neurotykiem" możemy zapisać jako: „x jest neurotykiem". Zapis ten wskazuje, iż mamy do czynienia z predykatem jednoargumentowym oraz wskazuje miejsce, w które należy „wpisać" dany termin jednostkowy (Kmita, 1973, s. 39).
192
Przytaczanym przez Kmitę przykładem, predykatu teoretycznego jest: tyx doznaje uczucia strachu". Czy — może ktoś zapytać — to, że podmiot doznaje uczucia strachu i zdaje sobie z tego sprawę nie wystarczy, aby uznać przytoczony tu predykat za obserwacyjny (na mocy introspekcji)? Nie, gdyż taka samoobserwacja nie spełnia warunku intersubiektywności; jest ona zrelatywizowana wyłącznie do samowiedzy danego podmiotu znajdującego się w określonym stanie psychicznym. „Otóż dzięki temu, że w ramach dyscypliny empirycznej, jaką stanowi psychologia, znane są twierdzenia, które charakteryzują sytuacje obserwowalne wywołujące uczucie strachu, z drugiej zaś strony — twierdzenia w rodzaju «A(x doznaje uczucia strachu —> u x-a występuje wzmożone bicie serca n u x-a występują przyspieszone uderzenia tętna n u x-a wilgotnieje skóra dłoni)» (w następniku występują predykaty obserwacyjne) — predykat teoretyczny «x doznaje uczucia strachu» powiązany jest z predykatami obserwacyjnymi" (tamże, s. 130). Podobnie: ,jc jest ekstrawertykiem", frx posiada duszę nieśmiertelną", „postawa i-a jest prospołeczna" itp. są predykatami teoretycznymi pierwszego rzędu. Często mamy do czynienia z predykatami teoretycznymi wyższych rzędów, czy z ich abstrakcyjnymi przekształceniami, np. „osobowość", „społeczeństwo". W przypadku, gdy dany predykat teoretyczny nie ma powiązań z predykatami obserwacyjnymi, nie można go użyć w twierdzeniach syntetycznych danej dyscypliny empirycznej, gdyż byłyby to twierdzenia niesprawdzalne. Dany predykat teoretyczny T może wystąpić w hipotezach badawczych danej dyscypliny empirycznej E tylko wtedy, gdy posiada na jej gruncie tzw. moc predyktywną (od ang. prediction — przewidywanie, prognoza). Warunek mocy predyktywnej nakładany na predykaty teoretyczne wiąże się — jak to z samej nazwy wynika — z pojęciem j przewidywania. Dla objaśnienia tych związków wróćmy do naszego przykładu pre-I dykatu teoretycznego: „x doznaje uczucia strachu". Zastosujmy oznaczenia: S(x) — predykat obserwacyjny orzekający o dowolnej osobie, że znajduje się ona w takiej obserwowalnej sytuacji, która stanowi — zgodnie z wiedzą psychologiczną — wy-j starczający warunek doznania przez nią uczucia strachu; U(x) — predykat teoretyczny .,* doznaje uczucia strachu". Przyjmujemy, że zdanie: ,,A[5(x) —> U(x)]" jest i twierdzeniem psychologii. Przez T(x) oznaczamy jeden (albo całą koniunkcję) z I predykatów obserwacyjnych: „u ;t-a występuje wzmożone bicie serca", „u x-a wilgotnieje skóra dłoni", „u x-a występuje przyspieszone tętno". Jak wiemy, są to obserwacyjne korelaty uczucia strachu. Można zatem napisać zdanie, które jest twierdzeniem psychologii: „A[U(x) -» 7"(*)]". Ze zdań: tt\[S(x) —> U(x)]" |i.Ą[(6'v) —> T(x)Y' wynika logicznie zdanie: ,,A[5(x) -> T(x)]" (tamże, s. 131), gdyż wyrażenie: A\J{x) -^ g(x)] n A[g(x) -> h(x)] —>A \J[x) —> h(x)], jest schematem tautologicznym. Jest tedy — pisze Kmita — zdanie «A[S(*) —> T(x)]» potwierdzoną hipotezą Hydrologiczną, pozwalającą twierdzić o danej osobie «a», że gdy znajdzie się ona I w sytuacji scharakteryzowanej przez predykat S(x), to doznając uczucia strachu | objawi symptomy (obserwowalne!) scharakteryzowane przez predykat T(x). Krócej: stwierdzając, że S(x) możemy przewidzieć, że 7\x). Tak więc w odniesieniu do 193
przeprowadzonego tu rozumowania dotyczącego osoby «a» przewidywanie ma następującą budowę logiczną:
albo:
Okres warunkowy: ,JS(a) -*7\a)" ma charakter syntetyczny (zakładamy, że termin jednostkowy „a" jest terminem pierwotnym oraz, że każdy obiekt indywidualny wyposażony jest w termin tego typu). Wobec tego koniunkcja (oznaczona symbolem Zv): ,,[S(a) —> U(a)] n [U(a) —> T(a)]" nie jest zdaniem analitycznym, gdyż wynikający z niej logicznie okres warunkowy: ,JS(a) -)T(a)" też musiałby być zdaniem analitycznym, a tak nie jest. Zatem jeden ze składników koniunkcji Z JJ nie jest zdaniem analitycznym. Dalej Kmita (tamże, s. 132) zauważa, iż: (1) z samego Z^nie wynika logicznie T(a), (2) gdyby z koniunkcji Z v wstawić w miejsce predykatu U(x) jakiś inny, nierównoznaczny z nim predykat U\x), to otrzymałoby się zdanie Z V : Gdyby okazało się, że z tego Z v - wynika Z v , to w świetle powyższych danych należałoby uznać, że to nie predykat U(x) ale co najwyżej predykat U'{x) stanowi niezbędne ogniwo w przewidywaniu S(a) tego, że T{a). Nie mielibyśmy więc gwarancji, iż U(x) jest niezbędny, aby przeprowadzić powyższe przewidywanie (tzn. że ma on tę właści wość, którą określać się będzie mianem mocy predyktywnej). W szczególności Z v wynikałoby z Z v - (przy nierównoznaczności predykatów U(x) i U'(x)), gdyby zda niami analitycznymi były: (1) U(a) —> U\d), (2) S(a) -> U(a), (jest to przykład czysto umowny, gdyż żadne twierdzenie psychologiczne o zapisie (2) nie może być zdaniem analitycznym). Wtedy drugi człon koniunkcji Z v wynikałby z drugiego członu koniunkcji Z v - i ze zdania (1), a pierwszy człon koniunkcji Z v wynikałby z Z v - i zdania (2). Tak więc sprawdzaniu empirycznemu podlegają tylko drugie człony koniunkcji Zu i Z V ; gdyż pierwsze są zdaniami analitycznymi. Z jednej strony, potwierdzony empirycznie okres warunkowy ,,A[U'(x) —» T(x)]" pozwala — po dołączeniu odpowiednich zdań analitycznych — na przewidywanie tego sa mego, co okres warunkowy ,J^[U(x) —*■ T(x)]'\ Z drugiej zaś strony, okres warun kowy: ,,A[U'(x) —> T(x)]" przekazuje „swą własną akceptację empiryczną" okre sowi warunkowemu: ,,A[U(x) -* 7"( JC )]". Ponieważ predykat U'(x) ma szerszą denotację niż predykat U{x), więc mamy prawo przypuszczać, że ten pierwszy ma większy zakres zastosowań przy przewidywaniu z użyciem innych niż S(x) i 1\x) predykatów od predykatu U(x). Uogólniając powyższe rozważania Kmita (tamże, s. 133-134) pisze tak: ,.Predykat teoretyczny T, występujący w języku J systemu wiedzy empirycznej E, posiada na gruncie E moc predyktywną wtedy i tylko wtedy, gdy: (1) w języku J (w którym zakładamy, że dysponuje terminami jednostkowymi nazywającymi wszelkie indywidua swego uniwersum, przy czym są to jego wyrażenia pierwotne) istnieją dwa predykaty obserwacyjne (z uwagi na E): flxi, x2 , .... JC„) oraz g(xu x2, -.-, x„) takie, że: 194
A[f (*!. x2, ..., x„) -
^ g(xu x2.................................................................. x„)]
należy do E, a przy tym: (2) dla dowolnej n-tki a u a 2 , ..., a n terminów jednostkowych denotujących obiekty obserwowalne, z koniunkcji f(a h a 2 , ..., a n ) r\ Z T gdzie Z T symbolizuje zaakceptowane w ramach E zdanie języka J zawierające predykat T, wynika zdanie \g(a h a 2 , ..., a n ) z zastrzeżeniem, że nie wynika ono z samego zdania Z T oraz — że koniunkcja/(a], a 2 , ..., a n ) n Z T nie jest zdaniem kontradyktorycznym w J; (3) nie istnieje w J taki predykat T', że spełnione byłyby jednocześnie nastę pujące warunki: a) T' jest nierównoznaczny w J z T t b) zdanie Z r powstałe z Zj przez zastąpienie w nim predykatu T predykatem T' na wszystkich pozycjach zajI mowanych przez 7", należy do E, c) z koniunkcji (niekontradyktorycznej)/(fli, a2, I.... a„) n Z T wynika g\a u a 2 , ..., a n ), d) Zj wynika z Zr. I dalej (tamże, s. 135): „Moc predyktywna predykatów teoretycznych nie tylko gwarantuje sprawdzalność hipotez, w których one występują, ale ponadto zapewnia ona ich niezbędność. Jeżeli bowiem przewidywane zdania obserwacyjne nie wynikają wyłącznie ze zdań obserwacyjnych typu:/(ai, a 2 , ..., a n ), które będziemy nazywali w dalszym ciągu I warunkami początkowymi — znaczy to, że odnośne zdanie Z T zawiera predykat teoretyczny T, komunikuje «coś więeej» niż same warunki początkowe: nie jest I z nimi równoznaczne." W przypadkach predykatów teoretycznych wyższych rzędów ich powiązanie i odpowiednimi predykatami obserwacyjnymi jest nieraz bardzo skomplikowane i uzależnione od różnych znaczeń, jakie nadaje się tym terminom. Metoda zaproponowana przez Kmitę pozwala na wyrugowanie z języka danej dyscypliny empirycznej takich terminów teoretycznych, które — gdy występują w I hipotezach badawczych — przesądzają z góry na „nie" ich sprawdzalność, gdyż I nie mają te predykaty teoretyczne odpowiednich powiązań z predykatami obserwa■Ęjnymi. Spróbujmy bowiem, na przykład, pokazać takie powiązania dla predykatu I teoretycznego: ITv ma duszę nieśmiertelną".
7. Wskaźniki 7.1. Pojęcie wskaźnika — wskaźniki rzeczowe i definicyjne Wyjdźmy od definicji zaproponowanej przez S. Nowaka (1985, s. 165): „Wskaźnik zdarzenia (własności) Z to takie zdarzenie (taka własność) W, że stwierdzenie (jej) istnienia, pojawienia się lub stopnia intensywności bądź faktycznie jest wykorzystane jako przesłanka, bądź zasadnie nadaje się na przesłankę wnioskowania, iż w określonych przypadkach z pewnością, z określonym prawdopodobieństwem lub 195
przynajmniej z prawdopodobieństwem wyższym niż przeciętne wystąpiło zdarzenie (własność) Z'. W wersji dla cech posiadanych przez jakiś przedmiot mamy następującą postać definicji (Nowak S., 1965a, s. 247): „cecha W jest wskaźnikiem posiadania cechy Z przez przedmiot P, jeżeli na podstawie tego, iż przedmiot ten posiada cechę W, możemy orzec, iż posiada on cechę Z lub też, iż cecha W pociąga za sobą określoną, lub też wyższą od przeciętnej szansę posiadania cechy Z przez nasz przedmiot". Z powyższych definicji wynika, iż wskaźnik musi być zawsze „czymś", co da się zaobserwować, natomiast zjawisko (cecha) wskaźnikowane, czyli indicatum, najczęściej jest nieobserwowalne (chociaż może być także obserwowalne). I tak, na przykład, zmienną nieobserwowalną jest neurotyzm, wskaźnikiem — charakterystyczny dla osoby obdarzonej wysokim natężeniem tej cechy, sposób udzielania odpowiedzi na pytania kwestionariusza M/Y-Eysencka (lub innego, podobnego, kwestionariusza) ujęty liczbowo w postaci sumy punktów obliczonej wg specjalnego klucza, określającego, które odpowiedzi osoby badanej uważane są za diagnostyczne (czyli ujawniające występowanie w niej cechy neurotyzmu), a które jako takie traktowane być nie mogą (na ten temat piszę w pkt. 8.). Jakieś zjawisko czy cecha może być wskaźnikiem innego zjawiska (cechy) wtedy i tylko wtedy, gdy zachodzi między nimi określony związek. Związek ten może mieć charakter bezwyjątkowej lub statystycznej regularności. Zdanie, które stwierdza zachodzenie jakiegoś związku między wskaźnikami i indicatum, T. Pawłowski (1969) nazywa zdaniem wprowadzającym wskaźnik. Określone zdanie może wprowadzać bądź jeden wskaźnik, bądź więcej. I tak — własność A jest wprowadzona przez zdanie (a) jako wskaźnik własności B. Natomiast zdanie (b) wprowadza własność A jako wskaźnik własności B i własność nie-A jako wskaźnik własności nie-B (Pawłowski T., 1969, s. 176): A[A(x) -> B(x)),
(7.1)
(co czytamy: dla każdego x, jeżeli x posiada własność A to x posiada również własność B). A[A(x) = B(x)l
(7.2)
(co czytamy: dla każdego x, jeżeli zachodzi A(x) to zachodzi B(x) i jeżeli nie zachodzi A(x) to nie zachodzi B(x), albo inaczej: dla każdego x A(x) jest równoważne B(x)). Najczęściej wskaźnikami zmiennych osobowościowych są wyniki uzyskane przez osoby badane w kwestionariuszach osobowości. T. Pawłowski (tamże, s. 177) podaje zapis zdania wprowadzającego taki wskaźnik: \{A(x)^[W(x)^C(xm.
(7.3)
Zdanie to wprowadza koniunkcję własności A i W jako wskaźnik własności C. Zdanie to czytamy: dla każdego x, jeżeli x ma własność A, to fakt, że x ma własność W pociąga za sobą to, że ma własność C. Niech dalej A(x) oznacza, że x został przebadany kwestionariuszem osobowo196
fci A. W(x) niech oznacza, że x uzyskał w tym kwestionariuszu osobowości A wynik W. Wreszcie, C(x) niech oznacza, że x ma określoną cechę osobowości C. Zdanie (7.3) nie stanowi pełnego sformułowania wskaźnika własności C Milcząco zakłada się tu wiele założeń idealizujących (w sensie, jaki występuje w: Nowak L., 1980), mówiących o tym, że osoba badana ma otwartą postawę wobec badania, że rozumie treść pytań, że cechuje ją określona samowiedza, pozwalająca zgodnie ze sianem faktycznym udzielić odpowiedzi na pytania kwestionariusza osobowości. Wprowadzenie jednak powyższych warunków do zdania (7.3) sprawiłoby, że stwierdzenie ich zachodzenia byłoby równie kłopotliwe, co stwierdzenie zachodzenia indicatum. Nie sposób niekiedy ominąć tę trudność. Stąd niska wartość pewnych wskaźników zmiennych osobowościowych, których konstrukcja nawiązuje do badań kwestionariuszowych. Praktykowane są dwa sposoby omijania wyżej sygnalizowanych trudności (tamże, s. 178). Pierwszy zaleca wprowadzenie tych dodatkowych warunków do sformułowania wskaźnika w taki sposób, który nie zmuszałby do dołączania do wskaźnika nieobserwowalnych zmiennych psychologicznych. Jest to — w pewnym stopniu — możliwe, jeżeli wprowadzi się behawiorystyczną charakterystykę tych i warunków. Nie da się jednak w ten sposób scharakteryzować wszystkich warunków. Drugi sposób zaleca zaniechanie wprowadzania owych dodatkowych warunków i traktowanie zdania (7.3) jako pełnego sformułowania wskaźnika własności C. Nie trzeba więc odwoływać się do behawiorystycznej charakterystyki warunków. i Jednak przy stosowaniu tego sposobu uzyskanie przez osobę badaną w kwestionariuszu osobowości jakiegoś wyniku jest co najwyżej wskaźnikiem probabilistycznym danej zmiennej osobowościowej. Zauważmy, że niebranie pod uwagę dodatkowych warunków zmienia częstość, z jaką wskaźnikowi towarzyszy indicatum. Związki zachodzące między wskaźnikiem a indicatum różnią się: (1) pod I względem struktury logicznej, (2) pod względem charakteru związku. Różnicom tym odpowiadają równoważne im różnice dotyczące zdań wprowadzających I wskaźniki. Zdania wprowadzające wskaźniki mogą przyjmować postać: (a) implikacji, ■b) równoważności, (c) zależności probabilistycznej. Związek łączący wskaźnik z indicatum może mieć charakter związku albo I (a) naturalnego, albo (b) umownego. W pierwszym przypadku zdanie wprowadzające wskaźnik jest twierdzeniem empirycznym (prawdziwym lub fałszywym — w I zależności od jego zgodności ze stanem faktycznym). W drugim przypadku zdanie I to jest postulatem znaczeniowym (ustala ono sens indicatum za pomocą wskaźPowróćmy jeszcze raz do zdania (7.1). Jeżeli potraktujemy je jako twierdzenie j empiryczne, to zakładamy przy tym, że sens terminu B oraz kryteria jego stosoI walności zostały wcześniej ustalone i to niezależnie od terminu A. To czy x-owi I przysługuje własność B, czy też nie, ocenia się na podstawie owego wcześniej, I niezależnie od terminu A, ustalonego kryterium stosowalności terminu B. Jeżeli I jednak zdanie (7.1) traktujemy jako postulat znaczeniowy, to termin A ustala zna■tzenie terminu B (ustala kryteria stosowalności terminu B). 197
Jeżeli zdanie wprowadzające wskaźnik jest twierdzeniem empirycznym, to sam wskaźnik T. Pawłowski (tamże, s. 181) proponuje nazwać rzeczowym. W przypadku, gdy zdanie wprowadzające wskaźnik jest ustaleniem terminologicznym, to sam wskaźnik nazywać będziemy definicyjnym. Rozróżnienie wskaźników na rzeczowe i definicyjne jest bardzo ważne. Nierespektowanie tego podziału może być źródłem wielu błędów. W cytowanej tu pracy T. Pawłowskiego Czytelnik znajdzie bardzo wnikliwą analizę przykładów obu rodzajów wskaźników.
7.2. Klasyfikacja wskaźników (wg S. Nowaka) Stefan Nowak (1965a) wyróżnił trzy typy wskaźników w zależności od charakteru indicatum oraz typu związku łączącego wskaźnik z indicatum: (a) empiryczne, (b) definicyjne, (c) inferencyjne. Oto ich krótka charakterystyka. (a) Wskaźniki empiryczne. Mówimy o nich wtedy, gdy indicatum (czyli zja wisko wskazywane Z — w terminologii S. Nowaka) jest obserwowalne. Wtedy bowiem związek łączący wskaźnik W z indicatum ma charakter związku empiry cznego. Na przykład, wskaźnikiem empirycznym stanu temperatury jakiejś osoby może być wysokość słupka rtęci w termometrze, chociaż to, czy owa osoba ma podwyższoną temperaturę można stwierdzić na podstawie tego, że ma wypieki na twarzy, że błyszczą jej oczy, ma spocone ciało itp. Zaletą tego typu wskaźników jest to, iż znacznie łatwiej stwierdzić ich występowanie niż wystąpienie obserwowalnego indicatum. Mówiąc ogólnie, wskaźniki empiryczne to takie wskaźniki „przy pomocy których teza o zachodzeniu pewnej korelacji między wskaźnikiem a zjawiskiem przezeń wskazywanym jest tezą empiryczną, rozstrzygalną na drodze obserwacyjnej" (tamże, s. 249). (b) Wskaźniki definicyjne. W niektórych przypadkach dobór wskaźników wią że się jednocześnie z podaniem definicji indicatum. W takich przypadkach S. No wak mówi o wskaźnikach definicyjnych. Wskaźnikiem jest tu definiens danego zjawiska wskazywanego Z. Tak, na przykład, liczba wyborów uzyskanych w teście socjometrycznym przez osobę badaną jest wskaźnikiem pozycji społecznej tej oso by w grupie. Jednocześnie liczba wyborów w teście socjometrycznym jest definiensem definiowanego terminu „pozycja społeczna jednostki w grupie". (c) Wskaźniki inferencyjne. O inferencyjnym wskaźniku W zjawiska Z mówi my wówczas, gdy: (1) wskaźnik W nie jest definiensem (albo inaczej: nie wchodzi do definicji) indicatum Z, którego znaczenie zostało wcześniej, niezależnie od W ustalone; 198
(2) indicatum Z nie jest obserwowalne, a o jego wystąpieniu wnioskujemy (inferujemy) z tego, iż wystąpił wskaźnik W. Indicatum jest więc jakąś ukrytą, hipotetyczną zmienną (nieobserwowalną), ale posiadającą określone, obserwowalne następstwa (tamże, s. 253). Wskaźniki empiryczne i inferencyjne S. Nowak włącza do ogólniejszej klasy wskaźników zewnętrznych wobec indicatum, gdyż nie wchodzą one do indicatum, którego są wskaźnikami. Na przykład wysoka pozycja socjometryczna nie wchodzi do treści pojęcia „wysokiej samooceny" (tamże, s. 254). Jest to przykład wskaźnika zewnętrznego. Natomiast wskaźniki definicyjne S. Nowak traktuje jako wewnętrzne, gdyż albo stanowią całość indicatum (gdy są definicjami pełnymi), albo do niego wchodzą (gdy są definicjami cząstkowymi). Stosunkowo często badacze posługują się wskaźnikami mieszanymi. Stefan Nowak wymienia cztery kategorie takich wskaźników: (a) empiryczno-definicyjne, (b) definicyjno-inferencyjne, (c) empiryczno-inferencyjne, (d) empiryczno-inferencyjno-definicyjne. Oto ich krótka charakterystyka. (a) Wskaźniki empiryczno-definicyjne. Badacze spotykają się niekiedy z taką sytuacją, w której termin będący wskaźnikiem jakiejś zmiennej jest wobec poszcze gólnych skorelowanych ze sobą elementów, składających się na tę zmienną (zmien ną syndromatyczną — gdyż jest ona określona przez syndrom składających się na nią elementów), zewnętrznym wskaźnikiem empirycznym, ale jednocześnie wobec samej zmiennej jest wewnętrznym wskaźnikiem definicyjnym (stanowi jej definicję cząstkową, tak jak pozostałe elementy tej zmiennej). Posiadanie przez x-a samo chodu jest zewnętrznym wskaźnikiem empirycznym wobec każdego z syndromu skorelowanych ze sobą elementów, składających się na taką zmienną teoretyczną, jak ..poziom konsumpcji" (tymi elementami są np. „sposób odżywiania się", „wy datki na wycieczki", „sposób ubierania się"). Jest to jednocześnie wewnętrzny wskaźnik definicyjny poziomu konsumpcji, gdyż stanowi jego definicję cząstkową (wchodzi do indicatum). (b) Wskaźniki definicyjno-inferencyjne. Zdarza się, iż wskaźnik W, z którego wystąpienia inferujemy zajście jakiegoś zjawiska wskaźnikowego Z (indicatum), wcho dzi do definicji tego zjawiska. W przypadku „czystych" wskaźników inferencyjnych termin oznaczający wskaźnik zjawiska Z nie wchodzi do jego definicji. Z zachowa nia się pacjenta wnioskujemy — na przykład — iż jest on pobudzony emocjonalnie, a jednocześnie zachowania te wchodzą do definicji terminu „pobudzenie emocjonal ne" (obok innych elementów nieobserwowalnych, jak przebieg, procesów myślo: wych. percepcja otoczenia itp.). Mamy więc do czynienia — jak pisze S. Nowak (tamże, s. 257) „z pewnym złożonym konstruktem cechującym się tym, iż: (1) pewne jego elementy mają charakter obserwowalny, zaś inne nie, przy czym te elementy obserwowalne są wskaźnikami inferencyjnymi elementów nieobserwowalnych, 199
(2) ale i jedne i drugie składają się łącznie na całość zjawiska oznaczanego przez nasz konstrukt złożony, z tym, iż elementy obserwowalne są wówczas wskaźnikami definicyjnymi tego złożonego konstruktu, jego definicjami cząstkowymi." (c) Wskaźniki empiryczno-inferencyjne. Są takie zmienne, które cechują się tym, iż mają powiązania korelacyjne z dużą liczbą innych zmiennych. Jednocześnie można na ich podstawie wnioskować o wielu innych zjawiskach. Weźmy pod uwa gę następujący przykład. Jeżeli osoba badana uzyskała wysoki wynik w Skali Po staw Wobec Kościoła Thurstone'a i Chave'a, wynik pozwalający ją określić jako bardzo wierzącą i praktykującą, to mamy prawo przypuszczać, że jest to osoba, która regularnie uczęszcza do kościoła, zdejmuje nakrycie głowy przed krzyżem itp. Wobec tych zachowań wysoki wynik w skali postaw jest, jak nietrudno zauwa żyć, wskaźnikiem empirycznym. Na podstawie wyniku uzyskanego przez tę osobę można także wnioskować — opierając się na wiedzy teoretycznej, którą dysponu jemy — o uczuciach, jakie przeżywa ona w trakcie modlitwy. Wobec tych uczuć wynik uzyskany przez tę osobę jest wskaźnikiem inferencyjnym. (d) Wskaźniki empiryczno-inferencyjno-definicyjne. Bywa, że pewne zachowa nia skorelowane z wysokimi wynikami w jakimś kwestionariuszu oraz stany, które można na jego podstawie wywnioskować, obejmuje się jednym pojęciem. Wówczas dany wskaźnik (wynik w kwestionariuszu) pełni obok funkcji empirycznych i inferencyjnych (patrz wyżej) także funkcje definicyjne (wchodzi do indicatum i sta nowi jego definicję cząstkową).
7.3. Moc rozdzielcza wskaźników empirycznych Wspomniałem już, że związki łączące wskaźnik z indicatum mogą mieć charakter albo związków bez wyjątkowych, albo związków probabilistycznych. W naukach społecznych (a więc i w psychologii) w zasadzie posługujemy się takimi wskaźnikami, które ze zmiennymi przez nie wskazywanymi łączą związki statystyczne (probabilistyczne). Doskonalenie narzędzi badawczych (piszę o tym w odniesieniu do narzędzi psychologii w pkt. 8., a także w części V) przyczynia się m. in. do podwyższenia wartości korelacji między wskaźnikiem i indicatum, a tym samym do podniesienia wartości prognostycznej wskaźnika. Spróbujmy teraz — pod tym kątem — spojrzeć na wskaźniki empiryczne. Tutaj stosunkowo łatwo jest obliczyć stopień statystycznej zależności między obserwowalnym indicatum i obserwowalnym wskaźnikiem. Stefan Nowak wyróżnia trzy rodzaje statystycznych powiązań między wskaźnikiem empirycznym i zjawiskiem przezeń wskazywanym. Owe powiązania określa on mianem mocy rozdzielczej wskaźnika. Rozpatrzmy sytuację, w której badacz zainteresowany jest tym, aby w zakresie skonstruowanego przez niego wskaźnika znalazły się tylko określone indicata. Mówiąc inaczej chodzi o to, aby np. wszystkie (lub prawie wszystkie) osoby wydzielone z populacji przez wskaźnik posiadały cechę przezeń wskazywaną, bez względu 200
Ina to, ile osób posiadających daną cechę nie wejdzie do grupy wydzielonej przez wskaźnik. Takim, z powyższego punktu widzenia, dobrym wskaźnikiem powodzenia w przyszłych studiach z danej dziedziny wiedzy jest zajęcie przez ucznia pierwszego miejsca w olimpiadzie, której przedmiotem jest ta właśnie dziedzina wiedzy, np. fizyka. Musimy przy tym zdawać sobie sprawę z faktu, iż wskaźnik ten nie wyodrębnia z populacji dużej liczby uczniów, którzy nie brali udziału w olimpia: dzie, a mogą okazać się — w przyszłości — dobrymi studentami. Taka strategia doboru wskaźników oparta jest na zasadzie maksymalizacji prawdopodobieństwa zajścia indicatum (/) ze względu na zajście wskaźnika (HO, czyli j— używając zapisu symbolicznego — na maksymalizacji: pI/W (tamże, s. 267). Ten typ mocy rozdzielczej nazywa S. Nowak mocą odrzucenia (MO) danego wskaźnika W (na podkreślenie tego, iż chodzi tu o odrzucenie wszystkich nie-/) i i zapisujemy go w postaci wzoru (7.4):
gdzie: N(IW) — liczba przedmiotów posiadających dane indicatum w ramach zakresu wyróżnionego przez wskaźnik; N(W) — liczba przedmiotów wydzielonych przez wskaźnik. Współczynnik MO przyjmuje wartość maksymalną 1,00 wtedy, gdy liczby przedmiotów: (N(IW) i N(W)) są takie same. Możemy też przy konstrukcji wskaźnika kierować się całkowicie odmienną zasadą. Można bowiem tak skonstruować wskaźnik W, aby w jego granicach znalazły się wszystkie (lub prawie wszystkie) przedmioty posiadające dane indicatum. Na przykład, badaczowi może zależeć na tym, by wyodrębnić z danej populacji wszystkie osoby neurotyczne, bez względu na to, ile osób nieneurotycznych wejdzie do grupy wyodrębnionej przez wskaźnik. Może on w tym celu skonstruować odpowiedni kwestionariusz osobowości — na przykład na wzór kwestionariusza MPl Eysencka — za pomocą którego będzie wyodrębniał osoby posiadające cechę Kurotyczności. Ponieważ nie jest to narzędzie doskonałe, więc do grupy będą także włączane osoby de facto nie posiadające cechy neurotyczności. Badacz jednak zainteresowany jest tym, by w grupie znalazło się jak najwięcej osób neurotycznych, więc już stosunkowo niewysoki wskaźnik tej cechy uzyskany przez jt-a w kwestionariuszu osobowości będzie traktował jako wskaźnik posiadania przez x-a cechy neurotyczności. Oczywiście, przy zastosowaniu takiej strategii w wyróżnionej przez badacza grupie znajdzie się dużo ;t-ów nie posiadających cechy neurotyczności. Powyższa strategia oparta jest na zasadzie maksymalizacji prawdopodobieństwa: p~I/~W. Ten typ mocy rozdzielczej nazywa S. Nowak mocą zawierania (MZ) danego wskaźnika W i zapisuje go w postaci wzoru (7.5):
i
1SP-
Często badacze są zainteresowani tym, by dany wskaźnik jedncześnie maksymalizował moc zawierania i moc odrzucania, by — mówiąc inaczej — był w maksymalnym stopniu skorelowany z indicatum. W takim przypadku mówimy po prostu o mocy rozdzielczej (MR) danego wskaźnika: 201
MR = R IW
(7.6)
gdzie: RJW — stopień korelacji indicatum ze wskaźnikiem; MR — osiąga wartość maksymalną 1,00 wtedy, gdy MO = 1,00 i MZ = 1,00. Przy dobieraniu osób badanych z populacji do dwóch grup porównawczych zależy nam na tym, by w jednej grupie znalazły się wszystkie (lub prawie wszystkie) osoby posiadające cechę C (i wyłącznie lub prawie wyłącznie te osoby), a w drugiej wszystkie (lub prawie wszystkie) osoby nie posiadające cechy C, czyli posiadające cechę ~C (i wyłącznie lub prawie wyłącznie te osoby). W takim przypadku najlepszy jest wskaźnik o maksymalnej mocy rozdzielczej MR. Tak się to przedstawia, gdy przeprowadzamy klasyfikację opierając się na jednym wskaźniku. Przy dokonywaniu klasyfikacji za pomocą dwóch wskaźników możemy postępować tak jak pisze S. Nowak (tamże, s. 296-270): „(...) możemy dobrać jeden wskaźnik o maksymalnej MZ, drugi o maksymalnej MO i tym samym uzyskać dwie grupy różniące się od siebie maksymalnie (ze względu na nasze możliwości badawcze) częstością występowania indicatum. Poza zasięgiem obu wskaźników znajdzie się wówczas pewien mniejszy lub większy zakres rzeczywistości stanowiący «obszar nieoznaczoności*, naszej baterii wskaźników (...)■ Im mniejszy jest ten obszar nieoznaczoności, tym większą moc rozdzielczą ma nasza bateria wskaźników". Można to wyrazić schematycznie, jak na rys. 7.3
Rys. 7.3. Moc rozdzielcza wskaźników empirycznych — na przykładzie dwóch wskaźników: W, oraz W2
Oczywiście, oba wskaźniki W, i W2 wskazują to samo indicatum (/). Krańcowe, nie zacieniowane prostokąty przedstawiają jednorodne grupy osób, wskazywane przez baterię wskaźników W\ i W 2 jako posiadające indicatum (/) —- lewy prostokąt i nie posiadające indicatum (—/) — prawy prostokąt. Prostokąt środkowy, mocno zacieniowany, obejmuje osoby bądź posiadające indicatum (/), bądź go nie posiadające (-/). Z zagadnieniem mocy rozdzielczej wskaźników definicyjnych i inferencyjnych Czytelnik może zapoznać się w cytowanej tu pracy S. Nowaka, w paragrafie pt: Zagadnienie mocy rozdzielczej wskaźników definicyjnych i inferencyjnych (s.
270-281). 202
8. Wyniki uzyskane na skalach narzędzi pomiarowych jako wskaźniki zmiennych ilościowych Przedstawiając problematykę doboru wskaźników do zmiennych obserwowalnych | i nieobserwowalnych, kilkakrotnie wspomniałem, iż w psychologicznej praktyce i badawczej bardzo często stosuje się wskaźniki, które są odpowiedziami w różnego (\pu testach psychologicznych — testach inteligencji (typowy przykład: Skala Inteligencji WAIS-R Wechslera czy test Matryc Ravena), kwestionariuszach osoboIwości (typowy przykład: MPł Eysencka czy 16PF Cattella), testach wiadomości. Po zakodowaniu, wg specjalnego klucza, odpowiedzi te wyrażone są w postaci I jakiegoś wyniku ilościowego. Ten zaś traktowany jest jako wskaźnik danej zmiennej. Oczywiście, takich wyników mogą nam dostarczyć nie tylko testy psychologicz-j ne ale także specjalistyczne aparaty, np. aparat do pomiaru czasu reakcji (RT) czy galwanometr do pomiaru reakcji skómo-galwanicznej (GSR). Procedura konstruowania wskaźników w przypadku zmiennych ilościo-I wych w postaci wyników uzyskanych przez osoby badane na skalach odpowied-I nich narzędzi pomiarowych wymaga bardziej szczegółowych wyjaśnień. O nich niżej.
8.1. Założenia dotyczące natury narzędzia pomiarowego n Zacznijmy od założenia dotyczącego pojęcia zmiennej w ujęciu przedstawionym w rozdz. 7. pkt. 3. Musimy też poczynić pewne założenia odnośnie do natury narzędzi badawczych. 0 danym narzędziu n służącym do pomiaru natężenia zmiennej A zakłada i\% tylko tyle, iż ma ono skalę (podziałkę). Skalę narzędzia oznaczać będziemy symbolem v(n), przy czym v(7i) jest podzbiorem właściwym zbioru wszystkich miar zmiennej A. Ponadto zbiór v(n) jest zbiorem skończonym i uporządkowanym od minimum do maksimum. Można w nim wyróżnić minimum: (m 0 ) i maksimum (m,). Przyjmuje się więc, że: istnieje takie m0 należące do zbioru v{n), że dla każdego ne v(n) mamy: n ^ m^ oraz, że istnieje takie mx należące do v(7r), że dla każdego n e v(n) mamy: n s= mx . Można wyróżnić operacyjną funkcję skalującą S/. Przyporządkowuje ona liczby ze zbioru v(n) przedmiotom należącym do zakresu zmiennej A (oznaczać go będziemy przez Z(A)). Czyli: 5/ jest określona na Z{A), a przybiera wartości ze zbioru rur). Wprowadźmy teraz pojęcie relacji nieodróżnialności narzędzia n na miarach zmiennej A. Oznaczać ją będziemy symbolem NDRn. Dla dwóch różnych przedmiotów .v. y mamy:
xNDRsy = U [Sftx) = Sfo) = q\. 203
Powyższy zapis znaczy tyle, iż narzędzie n przyporządkowuje różnym przedmiotom x i y tę samą miarę ą, czyli inaczej: narzędzie n pokazuje przedmioty x, y jako równe. Zauważmy, iż w grę mogą wchodzić dwa przypadki: (1) x i y należą do tej samej klasy abstrakcji, a więc zmienna A przyjmuje dla nich tę samą wartość i mamy wtedy:
(2) x i y należą do różnych klas abstrakcji, a więc zmienna A przyjmuje dla nich różne wartości; mamy więc: S A *(x)*S A (x)iS A «(y)*S A (y), ale o ile SA*(x) = SAn(y), o tyle SA(x) *SA(y). Relacja NDRK jest więc równością w zbiorze Z(A), tj. w zakresie zmiennej A (czyli w zbiorze U). Dzieli ona zbiór U=Z(A) na skończoną liczbę klas abstrakcji:
Nf = *„..., N r Zachodzi jedno-jednoznaczne izomorficzne odwzorowanie zbioru NA na zbiór V(TT) wg schematu: W- {N h N 2 , N 3 ,..., N p _ u N p }, V(TT) =
{qh q2, q3,..., qp_h qp},
przy czym dla każdych x, y należących do /-tej klasy abstrakcji ty zachodzi:
SfW = S/(y) = q r Oznacza to, iż dla każdego przedmiotu x, y należącego do klasy abstrakcji N, przyrząd n ustala tę samą miarę ą { .
8.2. Pojęcie funkcji operacyjnej Zdefiniujmy teraz pojęcie funkcji operacyjnej ze względu na narzędzie: f*. Otóż, funkcja operacyjna ze względu na narzędzie n przekształca zmienną A na zbiór V(TT). Ma ona postać: /„; = A -> v(n). Jej dziedziną jest zbiór A, a przeciwdziedziną zbiór miar zmiennej A wyróżnionych na skali narzędzia n czyli zbiór v(n). Zachodzi tu przekształcenie wielo-jednoznaczne (homomorficzne). 204
8.3. Pojęcie idealnego narzędzia nui Dla badacza pożądany jest taki stan, kiedy funkcja operacyjna byłaby funkcją jedDO-jednoznaczną, a więc przyporządkowywałaby poszczególnym, różnym przedmiotom z zakresu zmiennej A różne liczby (przekształcenie izomorficzne). Narzędzie n, ze względu na które funkcja operacyjna jest funkcją jedno-jednoznaczną jest narzędziem idealnym wtedy i tylko wtedy, gdy zbiór N£ jest ; identyczny ze zbiorem A. W konsekwencji mamy: v(n) jest identyczne z v(A), zaś
ffid=SA.
O narzędziu n można powiedzieć, że jest bardziej dyskryminatywne od narzędzia TC ze względu na zmienną A wtedy i tylko wtedy, gdy dla większej liczby klas abstrakcji składających się na N/ niż na A^ spełniony jest warunek: N t jest podzbiorem właściwym N',. Zatem narzędzie idealne cechuje maksymalna dyskryminatywność'. Oczywiście, dyskryminatywność narzędzi rzeczywistych jest mniejsza (niekiedy dużo mniejsza) od dyskryminatywności narzędzi idealnych. Jeżeli narzędzie n jest takie, że v(n) jest identyczne z v(A), to poza tym, że I cechuje je (1) maksymalna dyskryminatywność, jest ono jeszcze (2) narzędziem o I idealnym zakresie pomiarowym. Z takiego narzędzia można utworzyć zbiór narzę-I dzi o wszystkich możliwych podzakresach pomiarowych. Można zatem powiedzieć, iż dla każdej zmiennej istnieje narzędzie o idealnym I zakresie pomiarowym, a więc o idealnej dyskryminatywności, oraz że można utworzyć zbiór narzędzi rzeczywistych o niepełnych zakresach pomiarowych odpowia-I dających różnym podzakresom zmiennej A. Rozważmy następujący przykład. Bardzo rozpowszechnionym wśród psycho-I logów i często przez nich stosowanym w różnych badaniach narzędziem do pomiaru I poziomu inteligencji (między innymi ilorazu inteligencji — II) jest Skala Inteligencji ■ Wechslera WA1S-R. Jest ona typowym przykładem narzędzia o niepełnym zakresie I pomiarowym. Różnicuje jedynie osoby z określonego przedziału wartości II = 45 — I 150 (Skala Pełna WAIS-R; por. Brzeziński, Hornowska, 1993). Nie można za pomo-I cą tego narzędzia zmierzyć poziomu inteligencji osób, których II jest mniejszy od I minimum lub większy od maksimum skali narzędzia. Jest ono zatem zupełnie nie-I przydatne, jeżeli chodzi o badanie osób upośledzonych umysłowo w stopniu znacznym I i głębokim gdyż jego zakres nie obejmuje dolnej części zakresu badanej zmiennej. I Do tego celu należałoby użyć innego narzędzia, takiego, którego zakres pomiarowy I pokrywałby się z rozważanym podzakresem zmiennej inteligencji. Spełnia to I kryterium np. Skala Inteligencji Stanford-Bineta (S-B FE) (por. Thorndike i in., 1986). Wyżej przytoczony przykład narzędzia o niepełnym zakresie pomiarowym I można zilustrować na schemacie:
m0 45 H
mx 150 II
205
9. Nowe ujęcie problemu operacjonalizacji zmiennych psychologicznych (wg E. Hornowskiej) W latach osiemdziesiątych powstała oryginalna i ciekawa koncepcja nadawania terminom teoretycznym (w psychologii powiemy — zmiennym) sensu empirycznego. Koncepcja ta opracowana została przez psychologa, Elżbietę Hornowską (1989). Nawiązuje ona do idealizacyjnej teorii nauki (L. Nowak, 1977, 1980), a także do prac metodologicznych powstałych w kręgu Szkoły Poznańskiej, inspirowanych pracami jednego z jej twórców, Leszka Nowaka (Brzeziński, 1978b; Gaul, 1990; Kupracz, 1991; Maruszewski, 1983; Tuchańska, 1980). Wydaje się, że jest to jedna z ciekawszych propozycji metodologicznych, jakie powstały w ostatnich latach na temat operacjonalizacji zmiennych. Jest to szczególnie ciekawa propozycja dla nauk społecznych, a przede wszystkim dla psychologii.
9.1. Istota procedury operacjonalizacji Zacznijmy od ogólnej charakterystyki procedury operacjonalizacji, dokonanej przez autorkę omawianej w tym punkcie koncepcji, aby zorientować się, na co położony został w niej nacisk i aby dowiedzieć się, na jakie pytania badacz, który posłuży się tą koncepcją, może uzyskać odpowiedzi (Hornowską, 1989, s. 52-53): „W przedstawionej tu koncepcji operacjonalizacja rozumiana będzie jako procedura konstruowania sensu empirycznego terminów teoretycznych, procedura, która ma umożliwić badaczowi udzielenie odpowiedzi na następujące pytania: 1. Do jakich aspektów świata rzeczywistego odnosi się jego problem badawczy? 1. Jak dalece wybrane przez niego wielkości i istniejące między nimi powiązania dostępne są obserwacji? 3. W jakim zakresie wybrane przez niego obserwacje dostarczą mu informacji o wyjściowym problemie badawczym? Procedura ta nie jest więc tu sprowadzona wyłącznie do zabiegu doboru — dla określonej wielkości teoretycznej — jej obserwowalnych wskaźników (tak jak to zostało opisane w pkt. 7. niniejszego rozdziału — przyp. J. B.). Jeśli zabieg taki rozumiany jest jako bezpośrednie przełożenie wielkości teoretycznej na język «operacji badawczych* (tak jak to miało miejsce w operacjonizmie Bridgmana(1927), który bardzo szybko przeniknął do psychologii — przyp. J. B.) 2 , to w gruncie Stevens (1935) tak charakteryzował ten nowy sposób myślenia naukowego w psychologii: „operacjonizm polega po prostu na definiowaniu pojęć przez odnoszenie ich do konkretnych operacji, przy pomocy których zdobywamy wiedzę o rzeczach". Wyznawcy „nowej wiary" w psychologii (ale nie tylko w niej) — operacjonizmu — doprowadzili go do karykaturalnego wypaczenia. Niech przykładu dostarczy próba operacyjnego zdefiniowania terminu „inteligencja" dokonana przez znanego psychologa amerykańskiego, Boringa (cyt. za: Seligman D., 1995, s. 29): „Inteligencja, jako dająca się zmierzyć zdolność, musi od razu zostać określona jako umiejętność osiągania dobrych wyników w teście inteligencji. Inteligencja jest tym, co mierzą testy inteligencji". Ta i podobne „definicje" sprowadziły na ich autorów zasłużoną krytykę (por. „Psychol. Rev." 1945).
206
rzeczy operacjonalizacja sprowadza się do zastępowania jednych pojęć innymi. W rezultacie można oczywiście uzyskać dane empiryczne, nie można jednak zagwarantować, że analizowanie tych danych wniesie cokolwiek do wiedzy o wyjściowym problemie badawczym". 9.1.1. Czynnik — wielkość — zmienna Kluczowe dla zrozumienia istoty dokonanego przez Hornowską ujęcia procedury operacjonalizacji jest rozróżnienie znaczeniowe trzech pojęć: „czynnika", „wielkości" i „zmiennej". Zacznijmy tedy od przybliżenia tych pojęć. „Czynnik" jest pojęciem o charakterze ontologicznym, które odnosi się do opisywanej przez badacza rzeczywistości; mówi o tym, jaka jest badana rzeczywistość. Definiuje się go jako rodzinę klas abstrakcji od relacji równościowej określonej w zbiorze obiektów U (dokładniej, jest to czynnik nominalny — por. pkt 3.). Jeżeli ponadto rodzina ta uporządkowana jest przez relację generalnego uporządkowania, to mamy do czynienia z czynnikiem porządkowym. Jak definiowany jest czynnik ilościowy (interwalowy i ilorazowy) szczegółowo pokazane zostało w pkt. 3. niniejszego rozdziału. „Wielkość" i „zmienna", w odróżnieniu od pojęcia „czynnika", są pojęciami o charakterze epistemologicznym, zdającymi sprawę z tego, w jaki sposób badacz postrzega rzeczywistość, którą analizuje. „Wielkość" jest obrazem czynnika ustalonym na gruncie określonej wiedzy badacza (założeń akceptowanej przez niego teorii— por. pojęcie TBO, rozdz. 3., pkt. 3.). Z kolei „zmienna" to: „przyjęty przez badacza sposób przejawiania się wielkości na poziomie manifestacji i tiamze. s. /1 , (obserwacji)" (tamże. s. 71). Hornowska utożsamia tak rozumiane pojęcie rozumienieir I zmiennej z klasycznym rozumieniem pojęcia „wskaźnika" (w sensie T. pkt. 7. ninie Pawłowskiego i S. Nowaka — por. t. 7. niniejszego rozdziału). To roz To rozróżnienie jest ważne dla omawianego ujęcia procedury |qi, gdyż po: operacjonaliza-gdyż pozwala na wyróżnienie dwóch głównych jej I wielkości, c; etapów: (1) konstruowania clkości, czyli tworzenia obrazów czynnika I KJ. czyli bu teoretycznego i (2) tworzenia zmien-j, czyli budowania Zauwa? zoperacjonalizowanego obrazu wielkości. Zauważmy, iż Hornowska I chodząc z tr budowała swoją koncepcję operacjonalizacji wy- z tradycji, także I pa, a ściśle terminologicznych, idealizacyjnej teorii nauki. Psycholo-a ściślej jej I wym tedy p praktyka badawcza, formowana była poza tą tradycją. Podstawo-tedy I Czytelników pojęciem dla badacza-psychologa jest pojęcie zmiennej, które zostało Czytelnikowi przybliżone w pkt. 2.-5. niniejszego rozdziału. Pojęcie zmiennej używane jest z dodatkowym dookreśleniem, pozwalającym na rozróżnianie podobne óotego, które wprowadziła Hornowska posługując się w tym celu trzema pojęciami, wyżej zdefiniowanymi. Można, jak sądzę, wprowadzić następujące znaki równości: czynnik - zmienna teoretyczna, wielkość = obraz zmiennej teoretycznej, zmienna = wskaźnik. Zatem operacjonalizacja zmiennej, z grubsza rzecz ujmując, polega na: (1) tworzeniu obrazu (wielkości) zmiennej teoretycznej (czynnika) oraz (2) dobieraniu do niego wskaźników (zmiennej, jako zoperacjonalizowanego obrazu wielkości). 207
9.1.2. Podstawowe założenia Wyróżnia się czynnik 7", który jest istotny (w sensie wywierania wpływu — tak jak to ujmuje na gruncie idealizacyjnej teorii nauki L. Nowak, 1980) dla pewnych czynników tworzących zbiór WT. Ów zbiór nazywać będziemy bezpośrednim obszarem wpływu czynnika T. Inaczej mówiąc, zbiór ten obejmuje wszystkie te czynniki, które powiązane są z czynnikiem T relacją istotności. O danym czynniku S należącym do zbioru WT powiemy, że jest powiązany z czynnikiem T relacją istotnościowego następstwa Nisl_. Tak jak czynnik 5 należy do obszaru wpływu czynnika T, tak z kolei do obszaru wpływu czynnika S należy jakiś czynnik P. Mielibyśmy zatem taki ciąg czynników T, 5, P, że pomiędzy T i 5 oraz S i P zachodziłaby relacja istotnościowego następstwa. O ile czynnik S należy do bezpośredniego, pierwszego rzędu obszaru wpływu czynnika T, o tyle czynnik P należy do pośredniego, drugiego rzędu wpływu czynnika T; co oznaczać będziemy jako: WT\ WT2t ..., WT', ..., WTa. Suma zbiorów: W T \ ..., W T a tworzy przestrzeń wpływu czynnika T. Jeżeli pierwszy obszar wpływu czynnika T czyli WTl zawiera jakiś czynnik obserwowalny (czyli jego zakres obejmuje obiekty obserwowalne), to powiemy, że zawiera on identyfikator dla T, rzecz jasna, że identyfikatorów może być większa liczba. Zbiór wszystkich identyfikatorów z WTl to obszar identyfikacji pierwszego stopnia czynnika T-4j. Odpowiednio możemy mówić o obszarach identyfikacji drugiego stopnia, trzeciego stopnia itd. Obszarów identyfikacji czynnika T może być co najwyżej tyle, ile jest obszarów wpływu tego czynnika. Jeżeli w ciągu obszarów wpływów danego czynnika T istnieje taki ciąg czynników, że każdy z nich połączony jest z następnym w tym ciągu relacją istotnościowego następstwa, oraz że pierwszy czynnik jest czynnikiem głównym dla drugiego, drugi jest czynnikiem głównym dla trzeciego itd., aż do ostatniego w ciągu, który jest czynnikiem obserwowalnym, to obszar identyfikacji utworzony przez czynnik T określamy mianem obszaru mocnej identyfikacji czynnika T, a relację istotnościowego następstwa wiążącą dwa kolejne czynniki w tym ciągu określamy mianem mocnej relacji istotnościowego następstwa Nia*. Relację nie spełniającą powyższych warunków określamy z kolei mianem słabej N ist . ,,Zakłada s ię zatem — pisze Hornowska (tamże, s. 56) — że dla każdego czynnika teoretycznego istnieją takie obserwowalne stany rzeczy, które zależą mniej lub bardziej pośrednio od wartości czynnika teoretycznego. Wskazując obszar identyfikacji czynnika teoretycznego określamy tym samym kryteria stosowalności empirycznej pojęcia denotującego ten czynnik. Przyjmujemy, że związek pomiędzy czynnikiem teoretycznym a odpowiadającymi mu obserwowalnymi stanami rzeczy jest związkiem nie tylko na poziomie epistemologicznym, ale także związkiem na poziomie ontologicznym." Jakiś czynnik obserwowalny Qk może być identyfikatorem nie tylko jednego, wyróżnionego czynnika, ale może być identyfikatorem wielu czynników. Zbiór tych wszystkich czynników teoretycznych, które pozostają w relacji istotnościowego następstwa z danym czynnikiem obserwowalnym nazywać będziemy obszarem znaczeniowym (/-stopnia) danego identyfikatora — Z(QkY. Suma obsza208
rów znaczeniowych, pierwszego, drugiego i dalszych stopni, to przestrzeń znaczeniowa identyfikatora Qk. Tym samym dopuszcza się, „że dany czynnik obserwowalny (lub zbiór takich czynników) przyporządkowany jest nie jednemu czynnikowi T, lecz całej rodzinie czynników [T\, przy założeniu, że T należy do [T\. Czynnikom obserwowalnym jest zatem przypisany zbiór znaczeń; są one wieloznaczne" (tamże, s. 57). Każdy identyfikator posiada charakterystyczną dla siebie strukturę esencjalną (istotnościową). Zależy ona od rodzaju relacji istotnościowego następstwa i jest: (a) mocna (A^,*) lub (b) słaba (Nist). W przypadku (a) powiemy, że dany czynnik T ,jest czynnikiem bardziej istotnym dla danego czynnika obserwowalnego Qk niż inny czynnik B" (tamże, s. 58). W przypadku (b) powiemy z kolei, że dany czynnik T ,jest czynnikiem mniej istotnym dla Q k niż inny czynnik H" (tamże, s. 58). W przypadku (a) czynnik Qk jest trafniejszym identyfikatorem dla czynnika T aniżeli w przypadku (b). Obie struktury esencjalne będą wyglądały następująco:
T, H
H H,T
Kolejne kroki doprowadziły nas do tezy, iż „dla każdego czynnika teoretycznego, który może zostać określony na gruncie założeń teoretycznych przyjmowanych przez daną dyscyplinę empiryczną, istnieją zawsze jakieś jego obserwowalne konsekwencje" (tamże, s. 60). W pkt. 6. omówiona została koncepcja Kmity wprowadzania do nauk empirycznych terminów teoretycznych (czynników teoretycznych — wg terminologii Hornowskiej), która oparta jest na tej samej zasadzie — zasadzie empiryzmu. W sformułowaniu Hornowskiej brzmi ona: „dla każdego czynnika teoretycznego T istnieje w jego przestrzeni wpływu jakiś jego obszar identyfikacji" (tamże, s. 60). W takim sformułowaniu jest to słabsza wersja zasady empiryzmu. Jej postać mocniejsza b/zmi: „dla każdego czynnika teoretycznego istnieje w jego przestrzeni wpływu obszar jego mocnej identyfikacji" (tamże, s. 60).
9.2. Etapy procedury operacjonalizacji Procedura operacjonalizacji przeprowadzana jest w następujących po sobie etapach: (1) rekonstrukcja czynnika teoretycznego; konstrukcja wielkości; (2) konceptualizacja wielkości, dobieranie wskaźników; konstruowanie zmiennej; (3) dobór narzędzia pomiarowego i pomiar zmiennej. W trzech kolejnych punktach omówię te etapy. 9.2,1. Rekonstrukcja czynnika teoretycznego; konstrukcja wielkości Każdy badacz, przedstawiciel nauk empirycznych, a więc psycholog, socjolog czy pedagog, który zamierza dokonać operacjonalizacji — tu: wielkości psychologicznej — zaczyna od ustalenia obrazu czynnika, czyli od „odtworzenia" tego czynnika. 209
Budując obraz interesującego go czynnika T, czyli konstruując wielkość V, badacz musi określić empiryczną i numeryczną strukturę relacyjną tego czynnika (dokonuje jego rekonstrukcji). Dokonując rekonstrukcji czynnika T badacz przyjmuje, że (tamże, s. 62; także: Tuchańska 1980, s. 10): (1) czynnik T określony jest na zbiorze obiektów Z charakteryzujących się określonymi własnościami, (2) klasy abstrakcji czynnika T wyznaczone są przez jakąś relację równościo wą R, (3) zbiór Z jest podzbiorem pola relacji R. Tak jak wielkość T jest obrazem czynnika T, tak, odpowiednio, zbiór Z 1 i relacja K 1 są obrazami — zbioru Z i relacji R. Konstruując wielkość T badacz jednocześnie ustala zbiór obiektów przez tę wielkość charakteryzowanych. Równocześnie ustala on relacje M{, ..., A/mł zachodzące między obiektami wchodzącymi do tego zbioru. Relacje te są obrazami relacji A/]', ..., Mm\ które wyznaczają typ czynnika. Określone przez badacza relacje dookreślają empiryczną strukturę relacyjną wielkości T. Ona zaś jest obrazem struktury relacyjnej (czyli typu) czynnika T. Jak już wiemy, możemy mieć do czynienia z następującymi typami czynnika i wielkości — nominalnymi, porządkowymi, interwałowymi i ilorazowymi. Na tym etapie procedury operacjonalizacji dochodzi do ustalenia obrazu czynnika czyli skonstruowania wielkości. Jak pamiętamy z rozdz. 1. (pkt. 5.) wprowadziliśmy rozróżnienie między przestrzenią zmiennych istotnych dla Y (zawierającą zmienne niezależne de facto istotne dla Y) oraz jej obrazem (zawierającym zmienne, które jak się wydaje badaczowi są istotne dla Y). Konsekwencją tego rozróżi.ienia jest to, że możemy mówić o różnych stopniach nieadekwatności O(PY ) względem PY. Podobnie i tutaj, można mówić o różnych stopniach nieadekwatności ustalonego przez badacza obrazu czynnika teoretycznego T' względem czynnika T. Inaczej, można mówić o różnym stopniu trafności T' względem T. Jak pisze Hornowska: „Warunkiem trafności ustaleń badacza jest zgodność klas abstrakcji i relacji między obiektami należącymi do tych klas i określającymi czynnik T a ich odpowiednikami skonstruowanymi przez badacza. Możliwe są trzy zasadnicze przypadki nieadekwatności: (a) badacz nietrafnie rozpoznał typ czynnika T, (b) badacz nietrafnie rozpoznał klasy abstrakcji czynnika T, (c) badacz nietrafnie rozpoznał relacje między obiektami, na których określony jest czynnik T'' (tamże, s. 67). Ustalenie empirycznej struktury relacyjnej wielkości T' nie jest równoznaczne z ustaleniem, iż skonstruowana przez badacza wielkość dopuszcza pomiar czyli daje się homomorficznie (w sensie: Nowakowska, 1975 s. 204-206) odwzorować w odpowiedni liczbowy system relacyjny. Aby tak było, badacz musi udowodnić, iż możliwe jest wyróżnionym przez niego klasom abstrakcji przyporządkowywanie liczb w taki sposób, aby odzwierciedlone zostały relacje faktycznie zachodzące między obiektami, którym przypisana jest dana wielkość. Badacz musi tedy wykazać, iż odtworzona przez niego struktura relacyjna jest homomorficzna z określonym systemem relacyjnym. Jeżeli tak się stanie, to możliwe będzie rozstrzyg210
nięcie stopnia, w jakim możliwe jest jednoznaczne przyporządkowanie liczb danym obiektom. Mówiąc inaczej, rozwiązany jest problem rodzaju skali pomiarowej. „Określając — jak pisze Hornowska (tamże, s. 65) — odpowiednią skalę pomiarową, badacz jednocześnie ustala własności operacji, jakie można przeprowadzać na obiektach pomiaru. Własności skali opisują bowiem jedynie własności operacji, jakie dla danej wielkości są wykonalne, a nie własności wielkości będącej przedmiotem pomiaru. Na przykład, dwie różne skale do pomiaru neurotyzmu (np. nominalna i porządkowa) określają jedynie dwa różne zbiory operacji, jakie można «przeprowadzić» na badanych osobach, tj. w pierwszym przypadku badacz przyjmuje, że osoby badane można wyłącznie klasyfikować ze względu na posiadany stopień neurotyzmu, w drugim zaś, można je uporządkować — nie określają natomiast różnych neurotyzmów. Odmienne znaczenia nadawane temu samemu terminowi wyznaczone są bowiem nie skalą pomiarową, ale zespołem twierdzeń teoretycznych, w których pojęcie to jest uwikłane" (podkr. J. B.). 9.2.2. Konceptuałizacja wielkości, dobieranie wskaźników, konstruowanie zmiennej Na t \ m etapie procedury operacjonalizacji badacz wykonuje następujące czynności: (a) dokonuje konceptualizacji wielkości 7", która — przypominam — stanowi obraz czynnika teoretycznego T; (b) dobiera wskaźniki danej wielkości; (c) konstruuje indeks, który jest zagregowaną miarą, utworzoną z dwóch (i większej liczby) wskaźników, wielkości. Pokrótce opiszemy teraz te trzy podetapy procedury operacjonalizacji. (a) Konceptuałizacja wielkości. Podkreślony fragment wypowiedzi Hornow-, skiej. który kończy poprzedni punkt, wyraźnie wskazuje na to, że nie wystarczy j tylko ustalenie empirycznego i liczbowego systemu relacyjnego dla nadania danej I wielkości określonego sensu empirycznego. Co więcej, nie pozwala to jeszcze na dobranie najlepszego (w sensie trafności) narzędzia pomiarowego. Do tego potrzebne jest określenie relacji łączącej wielkość teoretyczną T z jej konsekwencja-I mi obserwowalnymi. I w tym miejscu rodzi się podstawowe, dla tego etapu procedury operacjonalizacji, pytanie: W jakiej dziedzinie rzeczywistości (rzecz jasna, żeobserwowalnej!) wielkość ta będzie „spełniona"? Chcąc efektywnie badać daną I wielkość (a więc i odpowiadać na powyższe pytanie) należy dokonać jej konceptu-| alizacji czyli, jak pisze Hornowska (tamże, s. 67): „zdecydować się na wybór I aparatu pojęciowego, za pomocą którego wielkość ta będzie opisywana". Doko-I nując konceptualizacji wielkości badacz „patrzy" na nią pod określonym kątem, analizuje pewne, a nie wszystkie, jej własności; zwraca uwagę tylko na pewne I związki tej wielkości z innymi wielkościami, a inne związki pomija (abstrahuje I od nich). Mówiąc krótko, badacz „mówi" innym badaczom co on rozumie przez I daną wielkość. Na tym etapie procedury operacjonalizacji dokonuje się rekonstruI keja (ale z punktu widzenia badacza!) obszarów wpływu operacjonalizowanej I wielkości. Podkreślam, iż będą to obrazy obszarów wpływu czynnika teoretycz211
nego T. Suma obszarów wpływu wielkości T jest obrazem przestrzeni wpływu czynnika T. Oczywiście nie jest tak, że „obowiązujący" jest tylko jeden obraz takiej przestrzeni. Tak naprawdę, to można mówić o całej rodzinie możliwych obrazów przestrzeni wpływu czynnika 7", rekonstruowanych przez różnych badaczy. Nie należy się tedy spodziewać, iż w literaturze przedmiotu, dotyczącej jakiegoś problemu psychologicznego, spotkamy tylko jedno rozumienie obrazu wielkości T (czyli T), obrazów obszarów wpływu T i obrazu przestrzeni wpływu czynnika T. Badacze skłonni są opowiadać się za wybranymi, określonymi teoretycznymi ujęciami badanego czynnika teoretycznego (TBO oraz TOZ w strukturze świadomości metodologicznej badacza — por. rozdz. 3., pkt. 3.). Od czego to zależy? „Jak się wydaje, podstawową rolę w tym względzie odgrywać mogą dotychczasowe tradycje danej dyscypliny naukowej, twierdzenia teorii, na gruncie której definiowana jest operacjonalizowana wielkość czy doświadczenie badacza" (tamże, s. 68). „Celem zabiegu określonego jako konceptualizacja jest wyprecyzowanie znaczenia operacjonalizowanej wielkości, a utworzony w jego efekcie łańcuch definicji tworzy jej pełną definicję. Kolejne definicje, tj. rekonstruowanie kolejnych obszarów wpływu, zmierzają do coraz precyzyjniejszego dookreślenia sensu wielkości. Formułując owe definicje, badacz świadomie rezygnuje z niektórych konotacji danej wielkości, po to, aby pozostałe uczynić bardziej precyzyjnymi i bardziej podatnymi na weryfikację" (tamże, s. 69). (b) Wskaźniki. Charakterystycznym rysem współczesnej praktyki badawczej nauk behawioralnych (a więc i psychologii) jest położenie nacisku na wielowymia rowe ujmowanie badanych zjawisk — co, jak sądzę, związane jest z dynamicznym rozwojem, w ostatnich kilkudziesięciu latach, wielowymiarowych modeli statysty cznych i psychometrycznych oraz z łatwo dostępnym oprogramowaniem kompute rowym tych modeli. Posługiwanie się nie jednym — czy nawet wieloma, ale tra ktowanymi niezależnie od siebie — wskaźnikiem, ale ich zbiorem tworzącym za gregowaną miarę wielkości (na określenie tego zbioru wskaźników Hornowska po służyła się terminem „indeks") daje najlepszą (także w sensie psychometrycznym — zbiór pomiarów jest bardziej stabilny i stanowi mniej obciążony estymator danej wielkości aniżeli pojedyncza miara) miarę wielkości. (c) Indeks. Odrębnym, metodologicznym, problemem jest udzielenie odpowie dzi na pytanie dotyczące stopnia „dobroci" indeksu jako miary wielkości. Badacz może — i jest to najefektywniejsza droga — dokonać analizy zbioru korelacji zachodzących między indeksem i pojedynczymi zmiennymi współtworzącymi ten indeks. Powinien też — analizując związki różnych indeksów z różnymi wielko ściami — określić trafność skonstruowanego przez siebie indeksu danej wielkości. Jedną z empirycznych metod badania (właśnie tym sposobem) trafności indeksu jest opisana w rozdz. 17., pkt. 4. metoda analizy macierzy „wielu cech-wielu me tod". Po wykonaniu przez badacza wszystkich opisanych wyżej czynności, mamy: zdefiniowany czynnik T, skonstruowaną wielkość T (jako obraz tego czynnika T), 212
przeprowadzoną konceptualizację wielkości /' oraz zoperacjonalizowany obraz wielkości T (zmienne — konstrukcja indeksu). 9.2.3. Dobór narzędzia pomiarowego i pomiar zmiennej Do ujętego wyżej ciągu czynności badacz musi dodać jeszcze jedną, która będzie stanowiła „ukoronowanie" procedury operacjonalizacji — przeprowadzenie pomiaru zmiennych (będących operacjonalizacją danego czynnika). „Pozwoli to — wg Hornowskiej (tamże, s. 87) — na ustalenie, do której z klas abstrakcji — wyróżnionych przez badacza na etapie rekonstrukcji tego czynnika — należy badany obiekt. Podobnie jak poprzednio i ten etap można formalnie opisać jako wyróżnianie w zbiorze badanych obiektów klas abstrakcji oraz przyporządkowywanie rodzinie takich klas liczbowego systemu relacyjnego". Przeprowadzenie pomiaru zmiennych wymaga wcześniejszego skonstruowania stosownego narzędzia pomiarowego, które umożliwi przeprowadzenie pomiaru wielkości V (a pośrednio rekonstruowanego przez badacza czynnika T) dla obiektu z. Na tym etapie operacjonalizacji badacz musi przestrzegać określonych założeń związanych z pomiarową naturą narzędzia — o nich traktuje pkt. 8. niniejszego rozdziału. Założenia te zostały przejęte przez Hornowską do jej koncepcji operacjonalizacji. Przeprowadzenie pomiaru zmiennej dla danego obiektu związane jest z przyporządkowaniem tego obiektu do określonej (tylko jednej! — zasada rozłączności) klasy abstrakcji tej zmiennej. To zaś umożliwia badaczowi wnioskowanie, do której z klas abstrakcji operacjonalizowanej wielkości V należy ten obiekt. Po dokonaniu pomiaru zmiennej Xi dla obiektu z badacz odtwarza teoretyczną wielkość V. Jego postępowanie na tym etapie jest analogiczne, jak na etapie pierwszym. Tworzy on bowiem obraz pomiarowy zmiennej. Zmienna jest — na tym etapie — przekształcana w zbiór opisujących ją wartości skalowych, których „dostarcza" narzędzie pomiarowe. Rzecz jasna, że skonstruowana przez badacza zmienna może mieć wiele obrazów pomiarowych. To, jaki obraz wybierze badacz zależy od wielu parametrów. Może on, na przykład, kierować się typem operacjonalizowanej wielkości (w sensie klasyfikacji Stevensa — nominalny, porządkowy, interwałowy czy ilorazowy). Obraz pomiarowy zmiennej musi być zgodny z założonym typem wielkości. Interpretacja wartości skalowych musi być dopuszczana przez założony przez badacza typ wielkości. Innymi słowy, jeżeli, na przykład, badacz założył, że dana wielkość jest typu porządkowego, to wartości skalowe zmiennej mogą być interpretowane jedynie jako wartości typu porządkowego, a nie i (mimo formalnej poprawności) typu interwałowego. Całą tedy operacjonalizację I możemy ująć w następujący ciąg czynności wykonywanych przez badacza: Operacjonalizacją czynnika T: czynnik T -» (1) konstrukcja wielkości T (jako obrazu czynnika T) —» (2) konceptualizacja wielkości T (zmienne — konstrukcja indeksu) —> (3) dobór narzędzia pomiarowego (wartości skalowe zmiennej). 213
9.3. Analiza przykładu Zilustrujmy etapy procedury operacjonalizacji przykładem3 ilustrującym postępowanie badawcze autorów książki The authoritarian personality (Adorno i in., 1950; cyt. wyd. 1969). Do szczegółowej analizy wybrany został czynnik teoretyczny T: „postawa (osobowość) antydemokratyczna". „Podstawowym założeniem przyjętym przez autorów było uznanie, że pojęcie postawy (osobowości) antydemokratycznej opisuje złożony syndrom przekonań oraz własności osobowości i że adekwatne narzędzie do jej pomiaru można skonstruować jedynie wtedy, gdy syndrom ten rozłoży się na jego komponenty, tak doprecyzowując znaczenie każdego z nich, by można było wskazać na te zachowania (lub inne fakty empiryczne), na podstawie których będzie można inferować istnienie takiej postawy" (Hornowska, 1989, s. 74). Omawiając ten przykład będę podawał, za Homowską, strony pracy Adorno i in., na których Czytelnik znajdzie pełne definicje pojęć. Postawa antydemokratyczna została rozbita na trzy wymiary: 1. Ideologia. 2. Właściwości indywidualne. 3. Warunki społeczne. Każdy z tych wymiarów Hornowska rozbija na wymiary bardziej szczegółowe. Zajmijmy się tu tylko wymiarem 1.: „Ideologia": 1.1. Antysemicka (s. 58). 1.2. Etnocentryczna (s. 101). 1.3. Prefaszystowska (s. 221). I znowu zajmijmy się tylko jednym wymiarem — 1.1.: „Ideologia antysemicka' : 1.1.1. Zaborczość (s. 63; tłŻydzi preferują najbardziej luksusowe, ekstrawa ganckie i zmysłowe strony życia", s. 63). 1.1.2. Zagrożenie (s. 63; „Żydów należy traktować jako negatywnie wpływa jących na kulturę i cywilizację chrześcijańską", s. 64). 1.1.3. Postawy (s. 64; „Każdy, kto zatrudnia wielu ludzi, powinien dbać, aby nie zatrudniać zbyt wysokiego procentu Żydów", s. 65). 1.1.4. Odosobnienie (s. 65; „Żydzi zbyt mocno trzymają się między sobą, za miast wyrażać właściwe zainteresowanie problemami społeczeństwa i rządu", s. 65). 1.1.5. Narzucanie (s. 65; „Żydzi posuwają się zbyt daleko w odrzucaniu włas nego pochodzenia, zmieniając zwłaszcza swoje nazwiska, prostując nosy czy imi tując chrześcijańskie maniery i zwyczaje", s. 66). W powyższym przykładzie przytoczyłem trzy obszary wpływu pierwszego rzędu (1.1.-1.3.) i jeden obszar wpływu drugiego rzędu (1.1.1.-1.1.5.) czynnika „postawa antydemokratyczna" jako ilustrację konceptualizacji wielkości. Ostatni Przykład zaczerpnięty został z cytowanej tu pracy Homowskiej, za zgodą autorki, której chciałbym podziękować za wyrażenie zgody na jego przytoczenie oraz za przeprowadzoną autoryzację dokonanego w tym punkcie, 9., streszczenia koncepcji operacjonalizacji.
214
obszar wpływu (tu: drugi) zawiera już wielkości obserwowalne czyli obszar identyfikacji operacjdializowanej wielkości. Te wielkości obserwowalne wskazują na fakty „o których autorzy założyli, że są one powiązane relacją istotnościowego następstwa z operacjonalizowaną wielkością" (tamże, s. 80). Jest to jednocześnie przykład przestrzeni znaczeniowej identyfikatora, gdyż te same stwierdzenia występują w narzędziach pomiarowych (np. stwierdzenie 1.1.5. występuje w Ogólnej Skali Antysemityzmu (ang. Total Anti-Semitism Scalę) (Adomo i in., 1969, s. 69).
10. Podsumowanie Operacjonalizacja zmiennych to bardzo złożona procedura. Wymaga ona od badacza głębokiej wiedzy zarówno w zakresie teorii badanej zmiennej (tu: teorii psychologicznej — badacz musi „uruchomić" element TBO świadomości metodologicznej), jak i teorii pomiaru psychologicznego (włączając w nią, specyficzną dla psychologii, psychometrię jako podstawę teoriopomiarową testów psychologicznych). Najbardziej dojrzałą i zalecaną przeze mnie koncepcję operacjonalizacji zaproponowała Hornowska (1989). Przedstawiłem ją w pkt. 9. tego rozdziału. Podstawowe wiadomości na temat wskaźników Czytelnik znajdzie w pracach: Nowak S. Pojęcia i wskaźniki; Nowak S. Metodologia badań społecznych (rozdz. 3.: definiowanie pojęć i dobór wskaźników w badaniach, s. 124-196); Pawłowski T. Metodologiczne zagadnienia humanistyki (rozdz. 5.: Pojęcie wskaźnika w naukach społecznych, s. 169-205); Pawłowski T. Pojęcia i metody współczesnej humanistyki (rozdz. VII: Pojęcie wskaźnika w naukach społecznych, s. 194-224); Pawłowski T. Tworzenie pojęć i definiowanie w naukach humanistycznych (rozdz. 9.: Pojęcie wskaźnika w naukach społecznych, s. 181-203). Różne koncepcje wprowadzania terminów teoretycznych do twierdzeń nauki omawia: Przelęcki M. Pojęcia teoretyczne a doświadczenie. Oryginalną koncepcję operacjonalizacji zmiennych w psychologii, do której odwoływałem się w tym rozdziale, przedstawiają: Hornowska E. Operacjonalizacja wielkości psychologicznych. Założenia-struktura-konsekwencje; Tuchańska B. tzynnik-wielkość-związek-zależność (praca ta poświęcona jest tej samej problematyce co poprzednia, aczkolwiek w warstwie przykładowej odwołuje się do socjologii. Obie zaś autorki nawiązują do koncepcji idealizacyjnej teorii nauki L. Nowaka. 1977, 1980). Problematyka teorii pomiaru w psychologii i skal pomiarowych — wg klasyfikacji Stevensa — jest dokładnie przedstawiona w języku polskim w pracach: Nowakowska M. Psychologia ilościowa z elementami naukoznawstwa. (rozdz. 4.: Wybrane zagadnienia teorii pomiaru, s. 198-263); Choynowski M. Pomiar w psychologii; Ackoff R. L. Decyzje optymalne w badaniach stosowanych (rozdz. 6.: Pomiar).
Rozdział 8. Problemy badawcze i hipotezy badawcze
1. Wprowadzenie Badanie naukowe rozpoczyna się od sformułowania problemu badawczego, który dotyczy — najogólniej mówiąc — relacji zachodzących między zmiennymi (takie rozumienie problemu znajdzie Czytelnik u Kerlingera, 1986, s. 16). Dodajmy, że chodzi tu o zmienną zależną Y (lub ich zbiór) oraz zmienne niezależne Xh .„, X„, traktowane przez badacza jako pozostające w związku przyczynowo-skutkowym ze zmienną Y. Badacza będzie zatem interesowało nie tylko to: (1) czy dana zmienna Xj rzeczywiście wpływa na Y (Xj jako przyczyna Y), ale także, czy nawet przede wszystkim, (2) jak dana zmienna A} wpływa na Y (określenie postaci związku łączącego Y z X,; w psychologii często jest to alternatywa: związek liniowy — związek krzywoliniowy; por. rozdz. 10., pkt. 2.-3.). W niniejszym rozdziale zajmiemy się pierwszym etapem procesu badawczego (wg rys. 1.4), to jest sformułowaniem problemu badawczego oraz najbardziej prawdopodobnej, na gruncie wiedzy badacza, nań odpowiedzi czyli hipotezy badawczej. Częściowo zagadnienie to było już przedmiotem naszej uwagi w rozdziale 1. Tutaj spróbujemy odpowiedzieć na pytanie o kryteria poprawnego, z punktu widzenia metodologii, formułowania problemów i hipotez badawczych przez psychologów prowadzących naukowe badania empiryczne.
2. Problem badawczy jako pytanie — cechy dobrze sformułowanego problemu badawczego W literaturze z zakresu metodologii spotykamy najczęściej rozumienie problemu badawczego jako pytania czy zbioru pytań. I tak S. Nowak, wybitny polski socjolog pisał, iż: „problem badawczy to tyle, co pewne pytanie lub zespół pytań, na które odpowiedzi ma dostarczyć badanie" (1970, s. 214); i, w ostatniej swojej monografii poświęconej metodologii badań społecznych (nie tylko socjologicznych!): „pun216
ktem wyjścia wszelkiego procesu badawczego jest sformułowanie pewnego pytania czy mniej lub bardziej uporządkowanego zbioru pytań. Pytania te czasem pojawiają się w świadomości badacza w sposób bezrefleksyjny — czasem zaś uprzytamnia on sobie mniej lub bardziej wyraźnie, dlaczego na te, a nie inne pytania izyskac chciałby uzyskać odpowiedź poprzez wyniki swoich badań" (1985, s. 26). Oc Od tego, jak dany problem badawczy będzie sformułowany zależy ego do stopień o dojrzałości. Co to znaczy? Otóż, formułując jakikolwiek problem fyznac badawczy ;naczamy jakieś ramy jego rozwiązania. Co więcej, bywa i tak, nencie że już w mo-cie jego formułowania możemy podać mniej lub bardziej ttanowi ogólną postać hipotez owiących jego przypuszczalne rozwiązania. Przy tania (E stawianiu jakiegokolwiek py-ia (a więc i problemu badawczego) cosób zakładamy pewną wiedzę, od której nie ;ób abstrahować, a która dotyczy biernie fragmentu rzeczywistości ujmowanego w pro-ie badawczym. Na mocy tej fyt wiedzy przyjmujemy określone rozstrzygnięcie co pytań bardziej a podstawowych, logicznie wcześniejszych od pytania będącego zym ■szym problemem badawczym. To z kolei eliminuje z pola naszych rozważań pewne klasy odpowiedzi na rzecz innych, sprawia, że procesy formułowania proIcmów mów badawczych i wysuwania na nie odpowiedzi (hipotez badawczych) są jemnie wza-ie ze sobą związane. Zarazem, sformułowanie problemów badawczych przesądza już, w jakimś stopniu, stosunek badacza do pytań bardziej podstawowych, np. dotyczących natury badanej rzeczywistości oraz charakteru związków w niej zachodzących (por. rozdz. 3.). Trzeba tedy zgodzić się z Suchem (1975a, s. 29), który pisze: „stopień, w którym sformułowanie problemu mieści w sobie wskazówki co do jego rozwiązania, należy uznać za jedno z kryteriów dojrzałości problemu. Zawieranie w sobie takich wskazówek jest też zapewne jednym z warunków (kryteriów) sensowności poznawczej problemu. Problem, który nie zawierałby żadnych wskazówek co do swego rozwiązania, byłby zapewne typowym pseudoproblemem. Szczególnie wczesny neopozytywizm oraz skrajny operacjonizm — głosząc tezę, że sens zdania zawiera się w metodzie jego sprawdzania — kładły nacisk na takie formułowanie problemów, które by dostarczało wyraźnych wskazówek co do sposobów ich roz-i wiązania. (...) Aczkolwiek w obu wspomnianych kierunkach występują sformułowania w sposób oczywisty przesadne (taki charakter ma na przykład teza, że «w sensie [pytania zawarte są drogi jego rozwiązania»), to jednak położenie nacisku na takie stawianie problemów, by zawierały one jak najwięcej wskazówek co do ich rozstrzygnięć, jest zaleceniem ze wszech miar użytecznym i heurystycznie płodnym". Do pierwszych sformułowań problemu dochodzi się nieraz na drodze żmudnych dociekań teoretycznych, popartych wynikami wstępnych badań eksploracyjnych. Jest rzeczą niemożliwą wskazanie Czytelnikowi jakiegoś algorytmu dochoi dzenia do ciekawych teoretycznie i płodnych w hipotezy problemów badawczych. Dużą rolę w procesie formułowania problemów badawczych odgrywa intuicja badacza. Jej rolę w twórczym wysiłku badacza podkreślają Bunge (1962) czy Selye ; (1959). Są to zagadnienia z zakresu psychologii twórczości (por. Nęcka, 1987, 1994a. 1994b; Kozielecki, 1992; Jakubowska, 1993). Zauważmy jeszcze, iż akt badania naukowego, a zaczyna się on właśnie od postawienia pytania badawczego 217
(i zależy od tego, jakie jest ono w swojej treści!), jest przede wszystkim aktem twórczym. Można go analizować w kategoriach teorii rozwiązywania problemów (Nickles, 1988; Simon, 1977). Nie zawsze jest też tak, że już pierwsze sformułowanie problemu jest na tyle precyzyjne i dojrzałe, iż zadawala badacza. Upływa pewien okres od momentu, gdy badacz sformułował pierwsze, intuicyjne i bardzo mgliste pytania do momentu, gdy problem uzyskał już zadawalający stopień dojrzałości. Mówimy więc, iż problem stopniowo „dojrzewa", tzn. że kolejne jego przeformułowania zawierają większą liczbę wskazówek co do jego rozwiązania. Z kolei wskazówki te są bardziej efektywne. Problem, który zawiera dostateczną liczbę wskazówek co do jego rozwiązania za pomocą dostępnych, na danym etapie rozwoju konkretnej dyscypliny naukowej, środków badawczych, jest problemem rozstrzygalnym (dokładniej — praktycznie rozstrzygalnym, por. Nowak S., 1985, s. 36). Oczywiście, problem nierozstrzygalny na danym etapie rozwoju nauki może stać się rozstrzygalnym na wyższym etapie jej rozwoju.
2.1. Pytania rozstrzygnięcia i pytania dopełnienia Jak już zaznaczyłem, problemy przybierają postać pytań. Spróbujmy więc określić, jakiego rodzaju mogą to być pytania. Zgodnie z najbardziej znaną klasyfikacją pytań (Ajdukiewicz, 1965; Giedymin, 1964; Cackowski, 1964) wyróżnia się dwa ich rodzaje: (a) pytania rozstrzygnięcia, (b) pytania dopełnienia. Pytania rozstrzygnięcia rozpoczynają się od partykuły pytajnej „czy" i można udzielić na niejednej z dwóch wykluczających się odpowiedzi: „tak" lub „nie". Po partykule pytajnej „czy" występuje człon będący zdaniem oznajmującym. W zależności od liczby prezentowanych przez pytanie alternatyw, wyróżniamy pytania rozstrzygnięcia o różnej liczbie członów. Stosunkowo najczęściej formułuje się dwuczłonowe pytania-rozstrzygnięcia. Oto przykład takiego pytania: „Czy dziecko w wieku trzech lal jest zdolne do myślenia abstrakcyjnego?". W odpowiedzi na to pytanie należy wybrać jedyną prawdziwą z dwóch alternatyw: „tak, dziecko w wieku 3 lat jest zdolne do myślenia abstrakcyjnego", „nie dziecko w wieku 3 lat nie jest zdolne do myślenia abstrakcyjnego". Pytania rozstrzygnięcia można zamienić na zdania oznajmujące o postaci wieloczłonowej alternatywy. Przysługuje im wtedy wartość logiczna, tak jak innym zdaniom w sensie logicznym. Tak przeformułowane pytanie jest prawdziwe, gdy jedna z alternatyw jest prawdziwa. O ile pytania rozstrzygnięcia ujawniają swoje alternatywy, o tyle pytania dopełnienia ich nie ujawniają. Podają one tylko ogólny schemat odpowiedzi. Jest nim funkcja zdaniowa. Po podstawieniu odpowiednich wartości w miejsce zmiennej (lub zmiennych) otrzymuje się każdorazowo nowe zdanie — prawdziwe lub fał218
szywe. Jest ono jedną z możliwych odpowiedzi na pytanie dopełnienia (Such, 1975a, s. 26-27). Oto odpowiedni przykład: „Od którego roku życia dziecko jest zdolne do przeprowadzania operacji formalnych?", jak widać, pytanie to nie ujawnia swoich alternatyw. Prawdziwą, bezpośrednią odpowiedzią na nie jest prawdziwa alternatywa postaci: „Dziecko jest zdolne do przeprowadzania operacji formalnych od... roku życia". W miejsce wykropkowane musimy wstawić konkretną wartość zmiennej (tu: rok życia).
O ile sformułowanie problemu w postaci pytania rozstrzygnięcia jest podaniem klasy alternatywnych hipotez, z których jedna jest jego rozwiązaniem, o tyle w przypadku problemu sformułowanego w postaci pytania dopełnienia tak nie jest. Jednak i w tym przypadku podany jest zakres możliwych hipotez jako rozwiązań problemu. Nie są tylko dokładnie wymienione poszczególne alternatywne hipotezy. Już z tego krótkiego zestawienia charakterystyk obu rodzajów pytań wynika, iż pytania rozstrzygnięcia zawierają więcej bardziej jednoznacznych wskazówek UIU£ K co do dróg ich rozstrzygania niż pytania dopełnienia. Z tego też względu blemó1 większość problemów badawczych przyjmuje postać pytań rozstrzygnięcia. kowitą Tylko one dają całkowitą pewność, że są poprawnie sformułowane. N Należy unikać zbyt szerokiego stawiania problemu badawczego, gdyż toutru może to utrudnić jego rozwiązanie. Dlatego też, jeszcze raz podkreślam, z tania n ogólnego py-należy przejść do sformułowania pytania uszczegółowionego, takich względnie kilku tich pytań, będących odrębnymi problemami nie po szczegółowymi. Jasne zdefiniowanie pojęć występujących w problemie oraz dzy ni zrozumienie relacji zachodzących między nimi znacznie ułatwi nam jące w rozwiązanie problemu. Definiując pojęcia występu-:e w problemie możemy w liiei odwołać się do już istniejących ich definicji podawanych literaturze pojęć przedmiotu, względnie wprowadzamy nowe, własne rozumienie tych s na P zasadzie definicji projektujących. sukces Poprawne sformułowanie problemu badawczego w dużej mierze przesądza świadt o tcesie badawczym. Zależy ono od kompetencji badacza, a te określone są ittyczi jego lomością metodologiczną. Pytania badawcze nie są zawieszone w Kwyc próżni teo-ycznej i metodologicznej. Literatura przedmiotu zawiera Wprz informacje o dotychcza- ustaleniach na interesujący badacza temat. Nie można się od niej odcinać! przeciwnym bowiem przypadku badacz może ■ ktć tracić czas i pieniądze (często nie :, a instytucji badania te sponsorującej) na rażąco udzielanie odpowiedzi na pytania, które już ktoś precyzyjnie nych \ odpowiedział, albo posłużyć się metodami, które ąco odbiegają pod D względem rzetelności i trafności od metod już opublikowanych w literaturze przedmiotu. Przypomnijmy tedy, kończąc te ogólne uwagi na temat problemów badawczych, kogo uważał S. Nowak (1985, s. 35) za specjalistę (tu: psychologa-badacza): „specjalista w swej dziedzinie nauki to człowiek, który nie tylko umie znajdować odpowiedzi na pytania, lecz także pytania te poprawnie formułować" (podkr. J. B.). 219
2.2. N. Belnapa klasyfikacja pytań W pracy: An analysis of ąuestions opublikowanej w 1963 r. Belnap wyłożył własną teorię pytań oraz dokonał ich klasyfikacji (przedstawiam ją za: Pawłowski T., 1969, s. 67-121). Wedle Belnapa każde pytanie przedstawia określony zbiór alternatyw. Odpowiedź natomiast dokonuje wyboru pewnego podzbioru tego zbioru. W zależności od tego, w jaki sposób wybór ten ma być przeprowadzony, z tego samego zbioru alternatyw można zbudować różne pytania. Mówiąc inaczej, to co te pytania różni między sobą, to żądanie wyboru. Weźmy jako przykład dwa następujące pytania: 1) „Który z niżej wymienionych psychologów jest twórcą psychoanalizy: E. Fromm, Z. Freud, D. Hebb, C. Huli, J. Piaget?", 2) „Którzy z niżej wymienionych psychologów są przedstawicielami psychoanalizy: E. Fromm, Z. Freud, D. Hebb, C. Hull, J. Piaget?" I w jednym i w drugim przypadku zbiór alternatyw jest taki sam. Jednakże w pierwszym pytaniu Czytelnik powinien wskazać jedno nazwisko (Z. Freuda), a w drugim wszystkie nazwiska, które spełniają warunek określony w pytaniu, tj. dwa nazwiska (E. Fromma i Z. Freuda). Pytania mogą się różnić między sobą co do żądania wyboru także i wtedy, gdy oparte są na różnych zbiorach alternatyw. Poza wymienionymi już czynnikami determinującymi typ pytania, tj. zbiorem alternatyw i żądaniem wyboru, Belnap wymienia jeszcze jeden, który nazywa żądaniem roszczenia zupełności. Określa ono, jaka część prawdziwych alternatyw zawartych w tym pytaniu znajduje się, wedle osoby odpowiadającej na to pytanie, w bezpośredniej odpowiedzi na nie. Pytania różnią się między sobą co do stopnia żądania roszczenia zupełności. Krańcowe są takie pytania, w których zawarte jest bądź maksymalne, bądź minimalne żądanie roszczenia zupełności. Przykładem pierwszego jest następujące pytanie: „Jakiego znasz przedstawiciela kierunku psychoanalitycznego?". Pytany wybierając jakąś alternatywę jako odpowiedź na to pytanie nie określa tego, jaką część alternatyw prawdziwych prezentowanych przez to pytanie stanowią alternatywy przez niego wybrane (tu: jedna alternatywa). Natomiast przykładem drugiego pytania jest takie: „Którzy z niżej wymienionych psychologów są przedstawicielami kierunku psychoanalitycznego: a) Skinner, b) Fromm, c) Freud, d) Szuman, e) Horney, 0 Thorndike?". Tutaj zadaniem badanego jest wymienienie wszystkich (tj. trzech) prawdziwych alternatyw ze zbioru prawdziwych alternatyw prezentowanych przez to pytanie. Oczywiście, pytanie o maksymalnym żądaniu roszczenia zupełności może zawierać tylko jednoelementowy zbiór prawdziwych alternatyw i w odpowiedzi na nie należy tę jedną prawdziwą alternatywę wskazać. Na przykład „Czy najważniejszym, zdaniem Pana, czynnikiem ^rzy formułowaniu diagnozy psychologicznej jest: a) wiedza klinicysty, b) doświadczenie klinicysty, c) znajomość testów psychologicznych, d) umiejętność nawiązywania kontaktu z pacjentem, e) wiek klinicysty, 0 płeć klinicysty?". O ile żądanie wyboru można zawsze ściśle liczbowo określić, o tyle żądanie roszczenia zupełności określa się za pomocą takich zwrotów, jak: „wszystkie alternatywy", „wszystkie alternatywy z wyjątkiem...", )r * procent..." itp. 220
Tylko pytania o maksymalnym żądaniu roszczenia zupełności wymagają podania wszystkich prawdziwych alternatyw. Dlaczego więc nie zawsze formułuje się właśnie takie pytania? Wiąże się to z tym, że niekiedy pytanie ma dużą liczbę alternatyw, których wymienienie byłoby bardzo uciążliwe, czy wręcz niemożliwe. Czasami wystarczy, dla celów praktycznych, podanie tylko części prawdziwych alternatyw. Zanim przystąpię do omówienia klasyfikacji pytań w ujęciu Belnapa chciałbym jeszcze poświęcić kilka słów omówieniu sposobów, w jakie formułuje się w pytaniu alternatywy. Jeden sposób polega na wymienieniu w pytaniu wszystkich alternatyw; takie pytania zaczyna się zwykle od partykuły pytajnej „czy" (takie pytanie — jak pamiętamy — Ajdukiewicz nazwał pytaniem rozstrzygnięcia). Ze względu na k alternatyw w nim zawartych nosi ono bardziej szczegółową nazwę ^-członowego pytania rozstrzygnięcia. Wyżej przedstawione pytanie: „Czy najważniejszym czynnikiem, zdaniem Pana, przy formułowaniu diagnozy psychologicznej jest: ...?" jest sześcioczłonowym pytaniem rozstrzygnięcia. Takie pytania nazywa Belnap pytaniami typu „czy". Drugi rodzaj pytań, nazywany przez Belnapa pytaniami typu „który" nie ujawnia zawartych w nich alternatyw. Można jednak zrekonstruować ich ogólną posiać. Każda alternatywa w takim pytaniu będzie podstawieniem danej funkcji zdaniowej. W sposób jednoznaczny zbiór alternatyw będzie określony przez funkcję wyznaczającą zakres podstawień w miejsce danej zmiennej. Zilustrujmy ten rodzaj ! pytań przykładem podanym przez Pawłowskiego (tamże, s. 79): ,Jaka liczba naturalna jest równa sumie 7 + 5?". Ogólna postać alternatyw „ukrytych" w tym pytaniu jest: 7 + 5 = JC. Funkcja, która wyznacza zakres podstawień pod x jest następująca: I Ji(x) = x jest liczbą naturalną". Predykat N mówiący o tym, jakie to nazwy przedmiotów należy podstawiać pod x nazywa Belnap orzecznikiem kategorialnym. Pełna [ odpowiedź bezpośrednia na powyższe pytanie brzmi: „Liczba 12 jest równa sumie 7 + 5. a nadto wszelka liczba naturalna równa sumie 7 + 5 jest identyczna z liczbą 12". Oczywiście, może być tak, że zajdzie potrzeba posłużenia się większą liczbą I orzeczników kategorialnych, których musi być dokładnie tyle, ile jest zmiennych. Kłania typu „który" w terminologii Ajdukiewicza noszą nazwę pytań dopełnienia. Formułując jakiekolwiek pytanie zakładamy jakieś twierdzenie. Na przykład I w pytaniu: „W którym roku założono pierwsze laboratorium psychologiczne na świecie?" zakładamy, iż takie laboratorium zostało w ogóle założone. Otóż, twier-I dzenie zakładane przy wypowiadaniu jakiegokolwiek pytania Belnap nazywa założeniem pytania. Wedle niego, w każdym pytaniu zawarte jest tylko jedno założenie mówiące, iż prawdziwa jest co najmniej jedna odpowiedź bezpośrednia na nie. W swojej klasyfikacji opartej na trzech cechach pytań: la) sposobie prezentowania alternatyw, (b) żądaniu wyboru, (c) żądaniu roszczenia zupełności, | Belnap wymienia sześć typów pytań. Oto ich krótka charakterystyka (bardziej szcze-I gotowe omówienie znajdzie Czytelnik u cytowanego tu Pawłowskiego T., 1969). 1. Pytanie typu „czy" o jednej alternatywie. Może to być dowolne fcczłonowe I pytanie rozstrzygnięcia żądające odpowiedzi wskazującej jedną alternatywę praw221
dziwa, przy czym ma to być jedyna alternatywa prawdziwa. Jest to więc pytanie 0 maksymalnym żądaniu roszczenia zupełności. Żądanie wyboru wymaga podania w odpowiedzi bezpośredniej jednej z alternatyw. Odpowiedź bezpośrednia na to pytanie ma postać koniunkcji, w której stwierdza się prawdziwość jednej alterna tywy i neguje pozostałe. Przykład pytania: „Czy u małego normalnego dziecka do... tygodnia życia odruch Babińskiego przyjmuje postać patologiczną?". Odpowiedź: „Tak, odruch Babińskiego przyjmuje postać patologiczną u małego, normalnego dziecka do ... tygodnia życia i nieprawda, że odruch Babińskiego nie przyjmuje postaci patologicznej u małego, normalnego dziecka do ... tygodnia życia." Zwykle formułuje się skrócone odpowiedzi, których postać automatycznie wyklucza wystą pienie innych alternatyw. Postępujemy tak zwłaszcza w pytaniu dwuczłonowym. Gdyby jednak taka skrócona odpowiedź miała wprowadzić niejasność, należy sfor mułować pełną odpowiedź. 2. Pytanie typu „który" o jednej alternatywie. Ze względu na stopień żądania roszczenia zupełności i żądania wyboru pytanie tego typu jest identyczne z typem omówionym poprzednio. Różni się jednak od niego sposobem prezentowania alter natyw. Mówiłem o tym przy okazji podawania ogólnej charakterystyki pytań typu „który". Odpowiedź bezpośrednia na takie pytanie ma postać dwuczłonową. Pier wszy człon wybiera jedną z alternatyw zawartych w pytaniu, a drugi stwierdza po prostu, że jest to jedyna prawdziwa alternatywa. Przykład takiego pytania oraz bezpośredniej odpowiedzi na nie został przedstawiony wyżej. 3. Pytanie typu „czy" o pełnej liczbie alternatyw. Ze względu na sposób prezentowania alternatyw jest ono podobne do pytania typu 1. Wymaga jednak, by w odpowiedzi bezpośredniej na nie znalazły się wszystkie prawdziwe alternatywy. Odpowiedź bezpośrednia na to pytanie ma postać koniunkcji, w której każde zdanie jest albo stwierdzeniem prawdziwości kolejnej alternatywy, albo też jej zaprzecze niem, przy czym co najmniej jedno zdanie jest stwierdzeniem prawdziwości jednej alternatywy. Przykład pytania: „Czy następujące testy istotności różnic można sto sować w przypadku, gdy pomiar zmiennej Y dokonany został na skali nominalnej: a) test chi-kwadrat, b) test Manna-Whitneya, c) test Kruskala-Wallisa, d) test McNemara?". Odpowiedź: „W przypadku, gdy pomiar zmiennej Y dokonany był na skali nominalnej można stosować test chi-kwadrat oraz test McNemara, ale nie można stosować testu Manna-Whitneya oraz testu Kruskala-Wallisa (poprawność tej odpowiedzi może Czytelnik sprawdzić na rys. 11.1 i 11.2.). 4. Pytanie typu „który" o pełnej liczbie alternatyw. Pytanie tego typu różni się od pytania typu 3. tylko sposobem prezentowania alternatyw. W odpowiedzi bezpośredniej na nie należy wymienić wszystkie prawdziwe alternatywy. Odpo wiedź taka jest dwuczłonowa; pierwszy człon jest koniunkcją wszystkich — zda niem udzielającego odpowiedzi — prawdziwych alternatyw. Drugi zawiera stwier dzenie, iż wymienione w odpowiedzi alternatywy są jedynymi prawdziwymi alter natywami (w członie tym wyrażone jest maksymalne żądanie roszczenia zupełno ści). Przykład pytania: „Kto jest twórcą kwestionariusza osobowości MMP1T. Odpowiedź: „Twórcami kwestionariusza osobowości MMPI są Starkę R. Hathaway 1 J. Charnley McKinley i są to jedyni autorzy tego kwestionariusza". 222
5. Pytanie typu „czy" o nierozłącznej liczbie alternatyw. Tego typu pytanie zawiera minimalne żądanie roszczenia zupełności, natomiast zawarte w nim żądanie wyboru wymaga, by odpowiedź bezpośrednia na nie podawała tylko jedną z praw dziwych alternatyw. Nie wyklucza to jednak prawdziwości pozostałych, nie uwzględnionych w pytaniu alternatyw. Odpowiedź bezpośrednia na nie wskazuje tylko tę jedną prawdziwą alternatywę, nie mówiąc przy tym nic o wartości logicz nej pozostałych, nie wymienionych w pytaniu alternatyw. Przykład pytania: „Czy internalizacja norm społecznych jest istotnym mechanizmem kształtowania osobo wości?". Odpowiedź: „Internalizacja norm społecznych jest istotnym mechanizmem kształtowania osobowości". Zauważmy, że w pytaniu tym nie wystąpiła chociażby taka prawdziwa alternatywa jak: mechanizm identyfikacji z osobami znaczącymi. 6. Pytanie typu „który" o nierozłącznej liczbie alternatyw. Od pytań typu 5. różni się charakteryzowany tu typ pytań tylko sposobem prezentowania alternatyw. Także od odpowiedzi bezpośredniej na takie pytanie wymaga się tylko, aby poda wała jedną prawdziwą alternatywę, nie wykluczając przy tym prawdziwości innych, nie wymienionych alternatyw. Przykład pytania: „Który z testów istotności różnic dla dwóch grup niezależnych jest właściwym testem w przypadku, gdy pomiar zmiennej zależnej dokonany został na skali porządkowej?". W odpowiedzi na to i pytanie można wskazać np. test Manna-Whitneya. Wiemy jednak, że wskazanie testu Kołmogorowa-Smirnowa czy testu Walda-Wolfowitza też byłoby odpowiedzią prawdziwą (por. rys. 11.1). * * * Przedstawiona wyżej klasyfikacja pytań jest dla badacza ważna dlatego, iż znajomość jej umożliwia mu poprawne formułowanie pytań, unikanie błędów. Zgodnie z tą klasyfikacją można wymienić trzy rodzaje wad pytań: (1) wady związane ze sposobem prezentowania przez pytanie alternatyw, (2) wady związane z zawartym w pytaniu żądaniem wyboru, (3) wady związane z żądaniem roszczenia zupełności. Szczegółową dyskusję tych i innych wad przeprowadza w cytowanej już pracy T. Pawłowski.
3. Klasyfikacja problemów badawczych W zależności od tego, czego dotyczy pytanie wyróżnia się rozmaite kategorie problemów badawczych. I tak, S. Nowak (1985, s. 41—42) wymienia dwie kategorie problemów. Pierwsza dotyczy „samych własności przedmiotów i zmian, jakim one podlegają: czy przedmioty te cechują się posiadaniem określonych własności bądź podlegają (podlegały) określonym zdarzeniom, zmianom i procesom, jakie było natę223
żenię pewnych cech o charakterze ilościowym czy intensywność przemian i procesów przedmioty te charakteryzujących" (s. 41). Ten rodzaj pytań S. Nowak określa mianem pytań o „przekrojowe lub dynamiczne własności przedmiotów lub o zdarzenia i procesy, jakim te przedmioty podlegają" (s. 41). Są to więc, uogólniając, pytania o wartości zmiennych. Druga kategoria problemów badawczych dotyczy tego, „czy zachodzą pewne relacje (zależności) między własnościami badanych przedmiotów" (s. 41). Są to więc pytania o zależności między zmiennymi — dokładniej, między zmienną zależną Y (zmiennymi zależnymi Y\,..., Ym) oraz zmienną niezależną Xj (zmiennymi niezależnymi Xi,..., X„). W tej pracy uszczegółowimy tę użyteczną klasyfikację problemów badawczych. Mamy zatem: I. Problemy dotyczące wartości zmiennych. ,Jaką wartość przyjmuje dana zmienna zależna Y, gdy zmienna niezależna Xj przyjmuje pewną wyróżnioną wartość v(Xj) = mT Lub: „Jaką wartość przyjmuje dana zmienna niezależna Xj, gdy zmienna zależna Y przyjmuje pewną wyróżnioną wartość v (Y) = w?" Często w przypadku problemów tej klasy spotykamy się z takim sformułowaniem: „Jaką wartość przyjmuje zmienna zależna Y w populacji P?". Otóż zwrot: „... w populacji P" jest równoznaczny ze zwrotem: „... gdy zmienna (lub zmienne) niezależna przyjmuje wyróżnioną wartość". Jest to oczywiste, gdyż mówiąc o jakiejś populacji mamy na myśli w miarę jednorodny — ze względu na wartości, jakie przyjmują zmienne niezależne — zbiór osób. I tak, populacja osób z wykształceniem podstawowym to taki zbiór osób, dla których zmienna „poziom wykształcenia" przyjmuje tylko jedną wartość, a mianowicie „wykształcenie podstawowe". II. Problemy dotyczące zależności między zmiennymi. 1. Problemy istotnościowe, które obejmują pytania o istotność zmiennych (nie zależnych) dla innej zmiennej (zależnej), w ramach których wyróżniamy z kolei następujące pytania szczegółowe (por. rozdz. I., pkt. 5., także: rys. 1.6): la: ,Jakie zmienne niezależne są istotne dla zmiennej 7?" Inaczej mówiąc, chcemy ustalić zbiór zmiennych niezależnych istotnych dla zmiennej zależnej Y (czyli wywierających wpływ na 10 — „Jakie zmienne wchodzą do O (P Y )^" lb: „Które ze zmiennych niezależnych są bardziej, a które mniej istotne dla danej zmiennej zależnej F?" Inaczej mówiąc, chcemy się dowiedzieć: „Jaki jest porządek istotnościowy w obrębie zmiennych zaliczonych do O (Py)?" lc: „Czy zmienne niezależne wpływają na daną zmienną zależną, każda niezależnie od pozostałych, czy też wchodzą ze sobą w interakcje?" Inaczej mówiąc, chcemy zadać pytanie: „Jaki jest rodzaj O (S ¥ )T\ 2. Problemy dotyczące „kształtu" zależności zmiennej zależnej Y od określonej zmiennej niezależnej dla niej istotnej, czyli pytania postaci: „Jaka jest zależność zmiennej Y od zmiennej niezależnej Xj7" Albo inaczej: , Jakiej postaci związek łączy zmienną zależną Y ze zmienną niezależną X/F Zilustrujmy przykładem szczegółowy problem należący do klasy I. Pytanie tej postaci sformułował Kostrzewski (1963). „Wyróżnioną wartością" zmiennej 224
zależnej była jedna z postaci niedorozwoju umysłowego wrodzonego, a mianowicie zespół Downa. Zmienną niezależną byt wiek matki w chwili urodzenia dziecka, u którego stwierdzono zespół Downa. Kostrzewski pytał o to, jaką wartość przyjmuje zmienna niezależna w badanej populacji matek, u których dzieci stwierdzono zespół Downa. Przeprowadzone badania pokazały, iż przeciętna wieku matek w badanej grupie (#=200) w chwili urodzenia dziecka z chorobą Downa wynosiła 35,08 lat. A oto przykład problemu II.2. „Jaka jest zależność między stabilnością samooceny i odpornością na stres?" (Brzezińska, Kofta, 1974). Zmienną niezależną jest tu stabilność samooceny, a zmienną zależną — odporność na stres. W problemie „ukryte" jest pytanie o postać związku łączącego obie zmienne (liniowy versus krzywoliniowy).
4. Hipoteza jako odpowiedź na pytanie badawcze — cechy dobrze sformułowanej hipotezy Z dobrze postawionego problemu powinna jasno wynikać hipoteza (lub hipotezy) badawcza, jako odpowiedź na pytanie zawarte w problemie. Dane stwierdzenie może być uznane za hipotezę naukową, jeżeli jest sprawdzalne. Hipoteza, której nie można poddać procedurze sprawdzania empirycznego nie może pretendować do miana hipotezy naukowej. Kmita (1973, s. 129) tak to ujmuje: „Aby zaproponowane do przyjęcia hipotezy mogły być sprawdzone, muszą być sprawdzalne (podkr. J. B.), tzn. muszą być powiązane (...) związkami wynikania ze zdaniami obserwacyjnymi; zdania te może obserwacja bezpośrednio potwierdzić i wtedy sprawdzane hipotezy są również potwierdzone, bądź też zdania te mogą okazać się — w świetle obserwacji — fałszywe i wtedy sprawdzane hipotezy na ogół odrzucimy. Sprawdzalność zatem zdań proponowanych na twierdzenia danej dyscypliny empirycznej, a więc sprawdzalność hipotez nakłada określone warunki na sposób ich formułowania: na dobór terminów, za pomocą których hipotezy te, a więc ostatecznie wszelkie twierdzenia syntetyczne, są budowane." Kmita chce, aby terminy teoretyczne (predykaty teoretyczne) występujące w hipotezach posiadały moc predyktywną. Była o tym mowa w rozdz. 7., pkt. 7. Jeżeli hipoteza jest „zdolna" wyjaśnić tylko :e fakty, do wyjaśnienia których została sformułowana i nie jest zdolna do przewidywania nowych faktów (prognoz zjawisk innego typu), to może ona zasługiwać jedynie na miano hipotezy ad hoc\ inaczej: doraźnej. Takie hipotezy, które — jak pisze Such (1975b, s. 105) — W odróżnieniu od tzw. hipotez pomocniczych ad hoc, których celem jest „ratowanie" zagrożonych przez nowe fakty teorii macierzystych, wyróżnia się jeszcze hipotezy samodzielne ad hoc, które służą wyjaśnieniu jakichś nowych zjwisk (Such, 1975b, s. 95 i nast.). W tekście piszę o hipotezach samodzielnych ad hoc.
225
postulują „coś" i znajdują swoje potwierdzenie wyłącznie w faktach, do wyjaśnienia których zostały powołane, noszą nazwę hipotez metodologicznie wadliwych. Bywa i tak, że to „coś" posiada tylko te cechy, które służą wyjaśnieniu faktów, ze względu na które dokonuje się wspomnianego postulowania. Wówczas możemy mówić o metodologicznym błędnym kole (tamże). Jak unikać formułowania takich hipotez ad hocl Najlepszym sposobem jest wyprowadzanie jak największej liczby różnorodnych konsekwencji empirycznych, które dadzą się skonfrontować z doświadczeniem. Jeżeli chodzi o zidentyfikowanie hipotezy ad hoc, to pomocne w tym względzie okazać się może jej określenie zaproponowane przez Sucha (tamże, s. 107): ,,(...)samodzielną hipotezę ad hoc można określić jako hipotezę, która dla swej obrony w obliczu faktów doświadczalnych nowych typów wymaga wprowadzania wciąż nowych, komplikujących ją, hipotez (które zresztą przeważnie same okazują się również hipotezami ad hoc; w ten sposób jedne hipotezy ad hoc są często notowane za pomocą innych hipotez ad hoc)". Sformułujmy dalsze kryteria poprawności formułowania hipotez naukowych (Nowak S., 1985, s. 31-37; Kerlinger, 1986, s. 17-18; Jakubowska, 1993, s. 54-58): — hipoteza musi być adekwatną odpowiedzią na problem, — hipoteza musi być najprostszą odpowiedzią na problem, gdyż im bardziej prostą przyjmie postać — tym łatwiej będzie można ją sprawdzić, — hipoteza musi być tak sformułowana, by łatwo można było ją przyjąć, względnie odrzucić, — hipoteza nie powinna przyjmować postaci szerokiej generalizacji. Musimy pamiętać też i o tym, że sprawdzona, zaakceptowana przez badacza hipoteza nie jest na stałe włączona do zbioru twierdzeń danej dyscypliny empirycznej, zawsze może być ona odrzucona przy okazji sprawdzania następnych, nowych hipotez. Owa „nietrwałość" hipotez jest rezultatem stosowania przez badaczy zasady intersubiektywnej kontrolowalności. Gdyby w świecie nauki nie obowiązywała owa zasada, raz sprawdzonej przez danego badacza hipotezie nie groziłoby, że spróbuje ją podważyć później (czy w momencie jej ogłoszenia) inny badacz (Kmita, 1973, s. 128). W odpowiedzi na problemy cząstkowe badacz formułuje takie same, cząstkowe hipotezy. Ich zaletą jest to, że wyraźniej ukierunkowują badacza, jeżeli chodzi o wyprowadzanie z nich określonych obserwowalnych konsekwencji, które — w procesie sprawdzania — badacz będzie konfrontował z faktami. Chciałbym jeszcze raz podkreślić, na zakończenie tego punktu, iż hipotezy zawsze formułuje się w postaci twierdzącej.
5. Klasyfikacja hipotez badawczych Przez analogię do przedstawionego w pkt. 3. podziału problemów proponuję następującą klasyfikację hipotez badawczych: 226
I. Hipotezy dotyczące wartości zmiennych. Jeżeli zmienna niezależna Xj przyjmuje wyróżnioną wartość: v (Xj) = m, zmienna zależna Y przyjmuje wartość v (Y) = w." Lub: „Dla danej zmiennej zależnej Y, która przyjmuje wyróżnioną wartość v(Y) = w, zmienna niezależna Xj przyjmuje wartość v (X,) = m." II. Hipotezy dotyczące zależności między zmiennymi. 1. Hipotezy istotnościowe, czyli twierdzenia postaci: la. „Zmienne niezależne X h ..., X n są istotne dla T\ Ib. ,imienne z O (Py), uporządkowane są — wg relacji bycia bardziej istotną dla Y niż... — w następujący sposób..." Albo inaczej: „Zmienna Xi jest bardziej istotna dla zmiennej zależnej Y niż zmienna X2". lc\ ,,O(Sy) jest interakcyjny — O in (PY T- Inaczej: „Zmienne niezależne X,, .... Xn wpływają na zmienną zależną Y wchodząc ze sobą w interakcje". Albo też, gdy tylko część zmiennych, wedle wiedzy badacza (przyjętych przez niego założeń teoretycznych) wchodzi ze sobą w intrakcje: „Zmienne niezależne Xi, X2 wchodzą ze sobą w interakcje, a zmienne X3, X4 nie wchodzą ze sobą, ani z pozostałymi zmiennymi w interakcje". lc" „O(SY) jest izolowany — Oiz(PY)". Inaczej: „Zmienne niezależne Xi,..., X„ wpływają na zmienną zależną Y nie wchodząc ze sobą w interakcje". 2. Hipotezy dotyczące „kształtu" zależności zmiennej zależnej Y od określonej zmiennej niezależnej Xf. „Zmienną zależną Y łączy związek funkcyjny ze zmienną niezależną Xj postaci: Y = f(Xj)". Pod / podstawiamy określony „kształt" funkcji. Przypominam, iż psychologowie ograniczają się w tym przypadku jedynie do określenia, czy jest to funkcja liniowa, czy nieliniowa. Przykładowe „techniczne" rozwiązanie problemu liniowa versus nieliniowa zależność Y od Xj przedstawione zostało w rozdz. 10., pkt. 2.-3.
6. Podsumowanie Umiejętne postawienie pytania badawczego na ogół już dostatecznie dokładnie dookreśla treść hipotezy badawczej, stanowiącej najbardziej prawdopodobną, na gruncie dotychczasowej wiedzy badacza, odpowiedź na ten problem — zwłaszcza gdy jest on wyrażony w postaci pytania rozstrzygnięcia. Niniejszy rozdział poświęcony był właśnie temu, jak najlepiej formułować pytania badawcze i odpowiedzi na nie. Jeżeli chodzi o literaturę, dostępną w języku polskim, dotyczącą omawianej tu problematyki, to polecam uwadze Czytelnika następujące prace: Cackowski Problemy i pseudoproblemy; Giedymin Problemy, założenia, rozstrzygnięcia; Such Problemy weryfikacji wiedzy (Wstęp); Ajdukiewicz Logika pragmatyczna (cz. I, rozdz. 6.); S. Nowak Metodologia badań społecznych, (rozdz. 1.). 227
Teorię pytań w ujęciu Belnapa przedstawia T. Pawłowski w Metodologicznych zagadnieniach humanistyki (rozdz. 3. Teoria pytań i jej zastosowania, s. 67-121). Sporo miejsca problematyce hipotez badawczych poświęca Hempel w pracy: Podstawy nauk przyrodniczych. Natomiast to, jakie (z uwagi na ich treści i typ formalny pytań) formułują problemy badawcze psychologowie, najlepiej poznać czytając artykuły — stanowiące sprawozdania z prowadzonych badań empirycznych — regularnie pisane przez nich samych do fachowych pism psychologicznych. W Polsce są to przede wszystkim czasopisma o zasięgu ogólnopolskim: „Czasopismo Psychologiczne" (wydawane i redagowane przez Instytut Psychologii UAM w Poznaniu), „Polish Psychological Bulletin" (wydawany przez Komitet Nauk Psychologicznych PAN, a redagowany w Katedrze Psychologii Uniwersytetu Opolskiego), „Przegląd Psychologiczny" (wydawany przez Polskie Towarzystwo Psychologiczne, a redagowany w Instytucie Psychologii UG w Gdańsku), „Studia Psychologiczne" (wydawane przez Komitet Nauk Psychologicznych PAN, a redagowane w Instytucie Psychologii PAN w Warszawie), „Psychologia Wychowawcza" (wydawana przez Związek Nauczycielstwa Polskiego, a redagowana na Wydziale Psychologii UW w Warszawie).
w stronę metod statystycznych
część III
Rozdział 9. Próba
1. Wprowadzenie Badacz stojący przed problemem doboru próby (ang. sample) do badań ma do wyboru trzy możliwe sposoby działania: (1) może on sam, lub odwołując się do opinii eksperta, wybrać określone osoby do grupy badawczej — jest to tzw. dobór celowy (ang. purposive sampling), albo inaczej: nieprobabilistyczny (ang. nonprobability sampłing); jego po pularną odmianą, zwłaszcza wśród socjologów (por. Blalock, 1975, s. 459; Nowak S., 1985, s. 301), jest dobór kwotowy (ang. ąuota sampłing), a także — absolutnie nie polecany — dobór całkowicie przypadkowy (ang. accidental sampling); (2) może skompletować próbę na podstawie zgłoszeń ochotników (ang. voknteers); (3) może pobrać próbę z populacji w sposób losowy (ang. random sampłing). Który z tych sposobów daje próbę reprezentatywną (ang. representative sample)? Dziś już nie mamy wątpliwości co do tego, iż jedynie losowy dobór jednostek (tu: osób lub złożonych z nich grup; ang. population/sample elements) gwarantuje uzyskanie próby reprezentatywnej. Jedynie na niej przeprowadzone badanie empiryczne będzie cechowała wysoka trafność zewnętrzna (por. rozdz. 3. pkt. 2.2.). Trzeba przyznać, iż istnieją takie sytuacje (np. badania prowadzone przez psychologów klinicznych na niewielkich grupach chorych psychicznie na terenie danej kliniki psychiatrycznej), w których z konieczności musimy stosować dobór celowy osób. Jednak przy dokonywaniu oszacowań opartych na tak dobranej grupie badawczej trzeba być bardzo ostrożnym w formułowaniu wniosków, które miałyby wykraczać poza naszą grupę, gdyż może ona nieadekwatnie odzwierciedlać strukturę całej populacji (w tym przypadku: populację wszystkich osób dotkniętych daną chorobą). Także odwoływanie się do opinii eksperta, np. psychiatry, w zakresie doboru osób z określonym rozpoznaniem psychiatrycznym nie rozwiązuje problemu. Diagnoza psychiatryczna daleka jest jeszcze od jednoznaczności i precyzji. Nadal można spotkać się z diagnozami, które wzajemnie się wykluczają. Z podobnych powodów niereprezentatywna może okazać się próba skompletowana na pod231
stawie ochotniczych zgłoszeń. Może najbardziej godna zaufania — z nielosowych sposobów budowy próby — jest ta, która została utworzona techniką doboru kwotowego. O każdym z tych sposobów, a o losowym najwięcej, będzie mowa w kolejnych punktach niniejszego rozdziału.
2. Dlaczego próba złożona z ochotników jest stronnicza? Tylko pozornie próba skompletowana w wyniku ochotniczych zgłoszeń do udziału w badaniach empirycznych może być reprezentatywna. W rzeczywistości jest ona w pewnym (jakim?) stopniu tendencyjna, gdyż grupa ochotników różni się tym od pozostałych osób, że wyraziła zgodę na udział w badaniach, który nie był obowiązkowy, że uważnie czytała prasę codzienną zwracając uwagę na ogłoszenia. Ochotnicy różnią się od nieochotników także pod innymi względami, a to może spowodować, że uzyskane przez nich wyniki będą nietypowe dla populacji jako całości. Zasięg naszych wniosków z badań przeprowadzonych na takich osobach byłby ograniczony tylko do pewnego fragmentu populacji. Przed błędami spowodowanymi faktem, że badaniom poddano ochotników ostrzegają m. in. Reid (1972, s. 89-90) oraz Rosenthal i Rosnow (1975, 1984, s. 187; Rosnow, Rosenthal, 1976). Zreferujmy teraz wyniki badań Rosenthala i Rosnowa, przeprowadzonych nad „portretem psychologicznym" osoby ochotniczo zgłaszającej się do udziału w badaniach psychologicznych. Dokonany przez wyżej wymienionych psychologów przegląd badań empirycznych, w których wykorzystano ochotników, doprowadził ich do sporządzenia „portretu psychologicznego" ochotnika, obejmującego 17 cech. Cechy charakterystyczne, różniące ochotników od nieochotników ujęte zostały w trzy grupy. Pierwsza grupa obejmuje 5 cech, które — jak sądzę można tak powiedzieć — są w tym portrecie najbardziej dominujące i najlepiej udokumentowane. Należą do nich: (1) wyższy poziom wykształcenia, (2) przynależność do wyższej klasy społeczno-ekonomicznej; wyższy status społeczny, (3) wyższy poziom inteligencji, (4) wyższy poziom zmiennej aprobaty społecznej (w sensie: Nederhof, 1991; Drwal, 1995 s. 57-66), (5) większe zsocjalizowanie. Druga grupa obejmuje 6 cech, średnio udokumentowanych. Są to: (6) zwiększona tendencja do poszukiwania stymulacji; widoczne jest to zwła szcza w chęci uczestniczenia w badaniach nad stresem, deprywacją sensoryczną czy hipnozą, 232
(7) zwiększona tendencja do zachowań niekonwencjonalnych (np. w sferze zachowań seksualnych), (8) ochotnikami są raczej kobiety, ale w przypadku badań nad stresem są to raczej mężczyźni, (9) niższy poziom autorytaryzmu, (10) ochotnikami są raczej wyznawcy religii żydowskiej niż protestanckiej i raczej protestanckiej aniżeli katolickiej (uwaga: badania dotyczyły populacji ame rykańskiej), (11) niższy poziom konformizmu, ale w przypadku kobiet biorących udział w badaniach o profilu klinicznym jest odwrotnie. Trzecia grupa obejmuje 6 cech najmniej udokumentowanych. Są to: (12) ochotnicy pochodzą z mniejszych miast (zwłaszcza gdy są to badania 0charakterze kwestionariuszowym), (13) zwiększone zainteresowanie religią (też raczej w badaniach kwestionariu szowych), (14) większy poziom altruizmu, (15) ochotnicy są bardziej otwarci (ang. self-discłosing), (16) w badaniach nad lekami, hipnozą czy ogólniej, w badaniach typu me dycznego ochotnicy wykazują niższy poziom przystosowania, (17) ochotnicy są młodsi, chyba że badania mają charakter laboratoryjny 1biorą w nich udział kobiety. Ilustracją błędów wynikających z doboru ochotników do badań mogą być doświadczenia z LSD, jakie przeprowadzili przed laty dwaj psychologowie amerykańscy Timothy Leary i Richard Alpert. Zainteresował ich wpływ LSD na osobowość przestępcy; zakładali, iż dzięki faktowi, że LSD wywołuje u danej jednostki specyficzne przeżycia psychiczne, można go będzie wykorzystać do lepszego poznania siebie, a tym samym do pełniejszego rozwoju osobowości. Za zgodą władz i więźniów Leary i Alpert przeprowadzili swoje badania. Wyniki potwierdziły ich przewidywania. Stwierdzili m. in. spadek recydywy po opuszczeniu więzienia przez osoby poddane działaniu LSD. Jednakże dalsze obserwacje, a także badania powtórzone w innych ośrodkach przez innych badaczy, przy zastosowaniu specjalnych metod kontroli, nie potwierdziły pierwotnych wyników. Okazało się, że czynni-i kiem powodującym spadek recydywy nie był LSD, ale cechy osób wyselekcjo-I nowanych do badań. Oparto je bowiem na ochotnikach i w ten sposób stworzono możliwość zgłaszania się przestępcom, u których szansa powtórnego trafienia do więzienia była znikoma. Wydaje mi się, że mogły to być osoby, które do więzienia trafiły przypadkowo i sam pobyt w nim był dla nich czynnikiem tak traumatyzującym, że za wszelką cenę chciały się uwolnić od niego, a tym samym uniknąć możliwości powrotu. Dlatego też zgłosiły się do badań, z którymi wiązały określo-I 1 K nadzieje. Informacje o powyższych badaniach podałem za Jankowskim (1972, s. 80-87).
Inna ilustracja. Na ochotnikach prowadzone były przed laty słynne badania grupy Kinseya (Kinsey i in., 1948, 1953). Dotyczyły one wzorców zachowań seksualnych mężczyzn i kobiet i objęły 8 tys. mężczyzn i 12 tys. kobiet. Badania miały charakter ankietowy i przeprowadzone były na osobach, które ochotniczo zgłosiły się aby wziąć w nich udział. Z wcześniej przeprowadzonych przez Masłowa (1942; por. Rosenthal, Rosnow, 1984, s. 186-187) badań nad związkiem zachowań seksualnych kobiet z poczuciem ich własnej wartości wynikało, iż osoby, które cechował wysoki poziom tej zmiennej charakteryzowała jednocześnie tendencja do podejmowania zachowań niekonwencjonalnych w sferze seksu. Z kolei późniejsze badania (Maslow, Sakoda, 1952; por. Rosenthal, Rosnow, 1984, s. 186-187), które objęły część próby Kinseya pokazały, iż ci badani plasowali się w strefie wysokich wyników skal mierzących poczucie własnej wartości. Te dane prowadzą do wniosku, że oparcie na ochotnikach badań nad wzorcami zachowań seksualnych dało w efekcie wyniki obciążone — nastąpiło błędne oszacowanie wartości badanej zmiennej. Mówiąc inaczej, społeczeństwo amerykańskie lat czterdziestych naszego stulecia nie było tak niekonwencjonalne w zachowaniach seksualnych, jakby to wynikało z badań zreferowanych przez Kinseya i jego współpracowników. Przypuśćmy, że psycholog chce przeprowadzić badania psychometryczne nad nowym testem inteligencji. Jeżeli skonstruuje próbę na podstawie zgłoszeń ochotniczych, to do finalnej wersji testu wejdą pozycje testowe zbyt trudne dla całej populacji (bo badani, którzy znaleźli się w próbie są bardziej inteligentni i lepiej wyedukowani). Nie powinniśmy tedy prowadzić takich badań na ochotnikach. Jaka jest skala wykorzystywania ochotników w badaniach psychologicznych? Rosenthal i Rosnow szacują ją na 70-90%! Przeważają studenci pierwszych lat studiów psychologicznych (dodatkowa zmienna zakłócająca). Dodajmy jeszcze, kończąc ten punkt, iż nie należy zbyt dosłownie brać tego, co opisali w swoich badaniach Rosenthal i Rosnow. Trzeba pamiętać, iż rzeczywistość ma charakter probabilistyczny i tak trzeba patrzeć na te ustalenia. Jak sądzę, najbardziej „pewne" są zmienne z pierwszej grupy. Temat stronniczości próby złożonej z ochotników podejmowany był w pracach: Kruglanski (1973; stanowisko odmienne od tego, które zajęli Rosenthal i Rosnow; replika w: Rosnow, Rosenthal, 1974), MacDonald (1979), Bell (1962; charakterystyka osobowościowa ochotników), Kohn i in. (1981), Cowles i Davis (1987).
3. Próba kwotowa Próba kwotowa (ang. ąuota sample; od łac. ąuotus — „jakiej liczby, jak wiele", por. Kopaliński 1988) jest najbardziej rozpowszechniona wśród badaczy opinii publicznej oraz wśród psychometrów standaryzujących i normalizujących nowe testy psychologiczne. Badacz, który chce posłużyć się próbą kwotową, musi znać procentowe rozkłady interesujących go zmiennych. Wiedza ta jest potrzebna po to, 234
aby procentowe rozkłady tych zmiennych odtworzyć w próbie. I tak, jeżeli rozkład jakiejś zmiennej dychotomicznej w populacji, jest: 50% do 50%, to i w próbie powinna znaleźć się równa liczba osób, dla których ta zmienna przyjmie jedną i drugą wartość, na przykład: 50% kobiet i 50% mężczyzn. Postępowanie w przypadku posłużenia się próbą kwotową jest stosunkowo proste. Badacz nie wciąga do próby konkretnej wylosowanej osoby, tak jak to ma miejsce w próbach losowych, ale „jakąś" osobę, która spełnia, wcześniej określone przez badacza, kryteria przynależności do próby. Jeżeli tymi kryteriami są, na przykład: płeć, wiek, wykształcenie miejsce zamieszkania, to układ próby (ang. sample design) wskazuje na liczby (frekwencje) osób o określonych kombinacjach wartości tych zmiennych. Badacz wie zatem, że musi przebadać, np. 5 kobiet (płeć) w wieku 30-40 lat (wiek) z wykształceniem wyższym (wykształcenie) zamieszkałych na wsi (miejsce zamieszkania), czy 13 mężczyzn (płeć) w wieku 40-50 lat (wiek) z wykształceniem średnim (wykształcenie) zamieszkałych w dużym mieście (miejsce zamieszkania) itp. Przy czym nie jest ważne, czy ową kobietą będzie Maria Kowalska czy Anna Karenina. Ważne bowiem jest tylko to, aby „zgadzał się", przewidziany układem próby rozkład procentowy zmiennych. Odwołajmy się do jeszcze jednej ilustracji. Polska adaptacja, standaryzacja i normalizacja znanej w świecie Skali Inteligencji Wechslera WAIS-R (por. Brzeziński, Hornowska, 1993b) przeprowadzona była na próbie pobranej w sposób kwo; towy. Przy czym w celu uzyskania informacji o rozkładach ważnych zmiennych oparto się na danych pochodzących z Mikrospisu Ludności przeprowadzonego w 1984 roku przez Główny Urząd Statystyczny w Warszawie. Te zmienne to: wiek, płeć. miejsce zamieszkania, wykształcenie. W tab. 5a-5c (Gaul, Zakrzewska, 1993, [s. 116-117) Czytelnik znajdzie procentowy udział osób o poszczególnych kombinacjach wartości owych czterech zmiennych w próbie standaryzacyjnej i normalizacyjnej. Socjologowie zdają sobie sprawę z tego, że nie jest to doskonały sposób konstruowania próby reprezentatywnej. Niestety trzeba się liczyć z tym, iż uzyskane wyniki badawcze mogą być obciążone błędem, którego wielkości nie da się tak precyzyjnie jak w przypadku prób losowych ustalić. Oto dwie opinie na temat wartości prób kwotowych. Według Blalocka (1975, s. 459—460): „Ankieterowi określa się w takim przypadku (próby kwotowej — J. B.), że musi przebadać: tyle i tyle kobiet w wieku powyżej 40 lat, tyle i tyle osób z dochodem mniejszym niż 3000 dolarów, lub że taki a taki ma być odsetek katolików wśród osób przez niego ankietowanych. Jednakże tylko od niego zależy, które kobiety w wieku powyżej 40 lat i którzy katolicy zostaną zbadani. A że jest on tylko człowiekiem, z pewnością będzie skłonny wybierać tych, którzy są dla niego najłatwiej dostępni. Chodząc po domach, będzie zastawał tych, którzy są w domu podczas jego odwiedzin. Nawet jeśli jest on świadom możliwości skrzywienia próby, wprowadzenie poprawki nie będzie łatwe. Wyjątkowo sumienny ankieter może nawet skrzywić próbę w odwrotnym kierunku i przebadać zbyt wiele osób, które rzadko bywają w domu lub osób z klasy niższej. Być może dałoby się wyszkolić ankieterów tak, by ich decyzje w tej materii dawały wyniki zbliżone do próby losowej. Sprawdzenie tego 235
będzie jednak bardzo trudne lub nawet niemożliwe. Jeśli grupa niedoreprezentowana lub nadreprezentowana różni się znacznie od pozostałych grup pod względem badanej zmiennej, próba może być poważnie obciążona. Co więcej, nie mamy możliwości oceny tego obciążenia". I druga opinia, S. Nowaka (1985, s. 301): ..... dla uzasadnienia pewnych uo gólnień indukcyjnych próba celowa o znanej reprezentatywności jest całkiem nie przydatna. Aby ją dobrać, musimy przecież przedtem mieć odpowiednią wiedzę o całej populacji, tymczasem zdobycie tej wiedzy o populacji (przez uogólnienie wy ników z próby na populację) jest często właśnie celem naszych badań na próbie. Jeśli pewne parametry struktury populacji — rozkładów zmiennych i związków między nimi — zostały założone w doborze próby, to byłoby bezprzedmiotowe wnioskowanie o tych rozkładach i związkach w populacji z badania tej próby właś nie. Jednak wiele badań socjologicznych realizowanych jest na próbach kwotowych. Opiera to się na założeniu, które jest na ogół — w swej generalnej tendencji — słuszne, iż jeśli próba jest reprezentatywna dla populacji w wielu jej ważnych aspek tach, to zapewne będzie ona dla niej reprezentatywna również w innych aspektach. Jednakże próba kwotowa nie daje możliwości jednoznacznego ustalenia ani stopnia jej podobieństwa do populacji pod innymi niż stanowiące kryteria doboru próby względami, ani też prawdopodobieństwa, iż będzie ona do niej zbliżona w określo nym stopniu. Do wniosków takich uprawnia natomiast losowy dobór próby".
4. Próba losowa „Losowość próby statystycznej nie tylko sprzyja uzyskiwaniu prób reprezentatywnych (tzn. charakteryzujących się rozkładem badanej cechy nieistotnie różniącym się od rozkładu populacji), ale umożliwia ponadto wnioskowanie o populacji oparte na gruncie probabilistycznym (tzn. rachunku prawdopodobieństwa, pozwalającym na ocenę dokładności wnioskowania)" (Greń, 1987, s. 96). Jakie zatem warunki musi spełniać dobór osób, by mógł być uznany za w pełni losowy, a próba w ten sposób utworzona za reprezentatywną? W kolejnych podpunktach spróbuję odpowiedzieć na to pytanie. Jak już wiemy, reprezentatywną dla danej populacji próbę uzyskuje się na drodze losowania. Zanim jednak przystąpimy do losowania próby, musimy określić charakter populacji, z której będziemy próbę tę pobierać (etap 5. procesu badawczego) i na którą będziemy uogólniać wyniki uzyskane na podstawie przeprowadzonego badania empirycznego próby, (etap 8. procesu badawczego). Statystycy dzielą populacje na: (a) skończone, (b) nieskończone. „Pojęcie populacji generalnej (zbiorowości statystycznej) utożsamia się zazwyczaj ze zbiorem pewnych rzeczywistych elementów różniących się wartością bada236
aej cechy. Tak rozumiana populacja generalna jest zwykle skończona" (Greń, 1987, s. 96). Z populacjami skończonymi (rzeczywiście istniejącymi, realnymi), obejmującymi np.: dzieci, dorosłych, pacjentów, uczniów, studentów, mieszkańców określonego regionu, osoby o wyróżnionych poglądach, postawach, cechach osobowości, mamy do czynienia w badaniach psychologicznych (a także socjologicznych czy pedagogicznych). Z kolei populacja nieskończona rozumiana jest jako „zbiór nieskończony możliwych powtórzeń pewnego eksperymentu, w którym obserwuje się wartości pewnych zmiennych" (tamże). W tym sensie taka populacja ma status hipotetyczny. Można wyróżnić — posługując się różnymi kryteriami podziału (por. Greń, 1987. s. 97) — co najmniej cztery podstawowe podziały schematów losowania próby. 1. Losowanie niezależne versus losowanie zależne. Losowanie zależne, zwane też losowaniem bezzwrotnym czy losowaniem bez zwracania, polega na tym, że raz wylosowany element populacji nie jest do niej zwracany. Nie może zatem więcej niż jeden raz pojawić się w próbie. Oznacza to, że po każdym kolejnym losowaniu liczebność populacji pomniejsza się o 1. Tak więc pierwsze losowanie odbywa się z populacji o liczebności N, drugie — z populacji o liczebności AM, trzecie — z N-2 i n-te — z populacji o liczebności N-n. Losowanie zależne jest częściej stosowane w takich przypadkach, gdy pobieramy próby z populacji skoń czonych (przeliczalnych). W badaniach psychologicznych stosujemy ten właśnie wariant losowania. Z kolei losowanie niezależne, zwane też losowaniem zwrotnym czy losowaniem ze zwracaniem, polega na tym, że każdy wylosowany z populacji element jest do niej zwracany. Tak więc, prawdopodobieństwo wylosowania pierw szego oraz ostatniego elementu (niezależnie od wielkości losowanej próby) nie ulega zmianie, jest takie samo. Tym wariantem losowania posługujemy się w przy padku populacji nieskończonych. 2. Losowanie indywidualne versus losowanie zespołowe (grupowe). Losowa nie indywidualne odnosi się do populacji obejmującej pojedyncze, nie pogrupowane elementy, np. pojedyncze osoby (uczniów, robotników, pacjentów, żołnierzy itp.). Z kolei losowanie zespołowe wymaga pogrupowania jednostek danej populacji w grupy (np. taka grupą może być klasa szkolna czy mieszkańcy budynku). Zatem jed nostką losowania jest, w określony sposób zdefiniowana, grupa. Operatem losowania zaś będzie ponumerowany wykaz grup, na które podzielona jest populacja, np. ponuI Krowany wykaz wszystkich klas szkolnych szkół podstawowych gminy czy miasta. 3. Losowanie jednostopniowe versus wielostopniowe. W przypadku losowania jednostopniowego próbę tworzą elementy populacji bezpośrednio z niej wylosowaI oe. Z kolei losowanie wielostopniowe zakłada kilka etapów (co najmniej dwa) losowania. Przykładowo, wpierw możemy losować zespoły elementów, a następnie, i każdego zespołu losujemy same elementy. Może być i tak, że kolejno losujemy I z większych zespołów mniejsze, z tych zaś jeszcze mniejsze, aż na samym końcu losujemy pojedyncze elementy. 4. Losowanie nieograniczone versus losowanie ograniczone. Losowanie nieI ograniczone odbywa się bezpośrednio z całej populacji (ma charakter jednostopniowy). 237
Losowanie ograniczone polega na tym, że próbę kompletujemy na podstawie odrębnych losowań elementów z poszczególnych części populacji, na które została ona uprzednio podzielona przez badacza; np. badacz dzieli populację na jednorodne i rozłączne podzbiory (warstwy) i następnie z każdej warstwy, odrębnie, losuje podpróby elementów, aby, po ich złożeniu, uzyskać cały zbiór-próbc. Przykład typowych warstw wykorzystywanych w socjologicznych badaniach opinii społecznej (CBOS 1995): podział dorosłych obywateli Polski wg miejsca zamieszkania na pięć podzbiorów-warstw: mieszkańców wsi, mieszkańców miast posiadających do 20 tys. osób, mieszkańców miast posiadających od 21 tys. do 100 tys., mieszkańców miast posiadających od 101 tys. do 500 tys., oraz mieszkańców miast mających 501 tys. i więcej mieszkańców. Inny przykład (zaczerpnięty z tego samego źródła) — podział Polski na regiony: region północny, region zachodni, region środkowo-zachodni, region środkowy, region wschodni, region południowo-wschodni, region południowo-zachodni. Próby losowe dzielimy jeszcze na proste i złożone. Próby proste ze skończonych populacji uzyskuje się z wykorzystaniem do tego celu losowania: (1) indywidualnego, (2) nieograniczonego, (3) niezależnego (ze zwracaniem elementów do populacji po każdym akcie losowania). Z kolei próby złożone ze skończonych populacji uzyskuje się wykorzystując bardziej zaawansowane schematy losowania (np. złożone, zależne). W badaniach społecznych (też psychologicznych) mamy najczęściej do czynienia z populacjami skończonymi, a próby z nich losowane są na ogół próbami złożonymi (uzyskanymi z posłużenia się schematami losowań zwrotnych i wielostopniowych).
4.1. Pojęcie operatu losowania i mechanizmu losowania Losowanie jednostek (osób, grup itp.) z populacji musi być oparte na pewnym mechanizmie losowym decydującym o tym, która jednostka powinna wejść do próby, a która nie. Dobry mechanizm losowania powinien przede wszystkim dawać możliwość otrzymania jednoznacznej odpowiedzi czy daną jednostkę włączyć do próby, czy też nie. Powinien też być niezbyt skomplikowany, nawet dla niefachowca nie obeznanego z metodą reprezentacyjną. Kryterium włączania jednostek do próby powinno być niezależne od postępowania eksperymentalnego (Pawłowski Z., 1972, s. 28). Takim odpowiednim mechanizmem- losowym są tablice liczb losowych. Podają je większe podręczniki statystyki, a także specjalistyczne wydawnictwa (por. np. Zieliński, 1972). Liczby losowe mogą też być generowane za pomocą specjalnego programu komputerowego. Oprócz mechanizmu losowego potrzebujemy jeszcze ponumerowanego spisu wszystkich jednostek składających się na daną populację, czyli tzw. operatu loso238
wania. Takim operatem losowania dla populacji mieszkańców Poznania byłby spis (ponumerowany) wszystkich mieszkańców tego miasta. Operatem losowania dla populacji studentów psychologii będzie ponumerowany spis studentów psychologii wszystkich lat studiów danej uczelni. Jednostką losowania niekoniecznie musi być osoba, może nią być także klasa szkolna, określony sektor z planu miasta, szpital psychiatryczny, gmina, województwo itp. Jeżeli badacza interesuje np. próba złożona z 10 szpitali w kraju, musi on posłużyć się operatem losowania, którym jest ponumerowany spis wszystkich szpitali danego typu w Polsce.
4.2. Jak posługiwać się tablicami liczb losowych Poniżej podaję fragment takich tablic liczb losowych dla zorientowania Czytelnika w ich układzie: 04433 60298 67884 89512 32653 95913
80674 47829 59651 32155 01895 15405
24520 72648 67533 51906 12506
18222 37414 68123 61662 88535
10610 75755 17730 64130 36553
13772
76638
48423
Sposób posługiwania się tymi tablicami jest bardzo prosty. Przypuśćmy, że mamy pobrać z populacji N= 1000 osób próbę o wielkości n = 100 osób. Załóżmy również, że dysponujemy odpowiednim operatem losowania, który każdej osobie z populacji przypisał kolejny numer. Aby jednak liczbie losowej „0" odpowiadał również element populacji, podstawiamy ją w miejsce liczby „1000". Największą liczbą, która identyfikuje element populacji jest „999". Po ustaleniu powyższych danych przystępujemy do odczytania z tablic liczb losowych tylu liczb, ile elementów ma liczyć próba (w naszym przykładzie — 100). Otwieramy więc tablice na dowolnej stronie i bierzemy pod uwagę dowolną kolumnę fc-cyfrową; załóżmy, iż będzie to kolumna trzycyfrowa, pierwsza z lewej w wyżej przedstawionym fragmencie tablicy liczb losowych. Jest to kolumna właśnie trzycyfrowa, gdyż numerowi ..1000" odpowiada liczba losowa „0". Przesuwając się kolejno z dołu ku górze (lub odwrotnie) odczytujemy wszystkie liczby mniejsze od N (od N-l do 0). Jeżeli w trakcie odczytywania natrafimy na liczbę, która już była zapisana, to ją po prostu pomijamy i odczytujemy następną. Po odczytaniu wszystkich liczb losowych [wdanej kolumnie przechodzimy do następnej kolumny. Procedurę tę powtarzamy tak długo, aż uzyskamy zbiór n różnych liczb losowych odpowiadających n elementom próby. W naszym przykładzie pierwsze sześć elementów próby ma następujące numery: 044. 602, 678, 895, 326, 959, ...; w przytoczonym wyżej fragmencie tablic liczb losowych zostały one wyróżnione drukiem półgrubym. 239
4.3. Odmiany schematów losowania próby Za Pawłowskim Z. (1972), Zasępą (1962), Greniem (1987) czy Blalockiem (1975) można wyróżnić następujące schematy losowania: (1) losowanie nieograniczone indywidualne, (2) losowanie systematyczne indywidualne, (3) losowanie warstwowe, (4) losowanie grupowe, (5) losowanie wielostopniowe. 4.3.1. Losowanie nieograniczone indywidualne Losowanie tego typu jest najprostszym sposobem doboru próby losowej. Jednakże jest ono mało efektywne i dlatego w praktyce badawczej stosuje się najczęściej inne rozwiązania. Decydujemy się na zastosowanie tego schematu losowania, gdy populacja, z której mamy pobrać próbę jest: (a) niezbyt duża, a jednocześnie mamy o niej mało dodatkowych informacji, (b) jest jednorodna (homogeniczna). Losowanie nieograniczone indywidualne polega na tym, iż próbę pobieramy z całej, nie podzielonej na części populacji. Jednostką losowania jest element populacji (np. osoba). Losowanie przeprowadzamy w sposób bezzwrotny, gdyż jest to sposób najbardziej korzystny. Aby zastosować ten schemat musimy dysponować rzetelnym operatem losowania. Jako mechanizmu losowania możemy użyć tablic liczb losowych. Ten schemat losowania stosujemy na ogół w ostatnim etapie losowania wielostopniowego, np. warstwowo-indywidualnego. 4.3.2. Losowanie systematyczne indywidualne Schemat losowania systematycznego indywidualnego lub, jak się go inaczej nazywa, schemat losowania co k-ty element jest równie prosty pod względem technicznym, jak wyżej omówiony. Procedura losowania systematycznego indywidualnego nie wymaga użycia tablic liczb losowych, co ułatwia pobór próby osobom nie obeznanym ze sposobem posługiwania się nimi oraz wydatnie skraca czas przeznaczony na pobór próby. Załóżmy, że mamy populację o liczebności W elementów i chcemy z niej pobrać próbę o liczebności n elementów. Pierwszy krok to ustalenie tzw. odstępu losowania — k\ jest to liczba całkowita, nie przekraczająca wartości ułamka: Nin. Drugą czynnością jest wybór losowy liczby naturalnej No odpowiadającej następującemu kryterium: 1 =£ No =£ k. Liczba NQ jednoznacznie określa pobraną próbę. Próba ta składa się ze wszystkich elementów populacji, których numery różnią się od NQ O całkowitą wielokrotność liczby k oraz z elementu o numerze No. Do próby 240
wchodzą zatem następujące elementy (Pawłowski Z., 1972, s. 153): NQ, N0 + k; NQ + 2ic,N0 + 3k;N0 + 4k; ... . Omawiany tu sposób pobierania próby jest szczególnie wygodny, gdy dysponujemy jakimś gotowym spisem elementów populacji, np. wykazem uczniów w szkole. Schemat losowania systematycznego indywidualnego musimy jednak stosować bardzo ostrożnie w sytuacjach, gdy podejrzewamy występowanie cyklicznych wahań badanej zmiennej. Może bowiem zdarzyć się tak, że długość cyklu odpowiada wielkości odstępu losowania k. Gdyby tak się stało, to każdy element próby odpowiadałby „szczytowi" albo „dołowi" wahań, czyli próba dostarczyłaby błędnych informacji o wartości zmiennej w populacji. Zakończmy omawianie schematu losowania systematycznego indywidualnego prostym przykładem. Przypuśćmy, że z N= 50-elementowej populacji chcemy pobrać próbę o liczebności n = 10. Określamy wartość k: k- N/n = 50/10 = 5. No musi spełniać nierówność: 1 ^ No *£ 5. Niech No = 3. Wobec tego do próby wchodzą elementy o numerach: 3; 3 + 5; 3+10; 3+15; 3 + 20; 3 + 25; 3 + 30; 3 + 35; 3 + 40; 3 + 45. Operatem losowania jest ponumerowana lista wszystkich elementów populacji. 433. Losowanie warstwowe Gdy populacja wykazuje duże zróżnicowanie ze względu na badaną zmienną (np. przynależność do określonych grup zawodowych mieszkańców wielkiego miasta może się przedstawiać różnie w poszczególnych dzielnicach) losowanie nieograniczone indywidualne może nam nie dać adekwatnego obrazu, gdyż pewne części populacji mogą być reprezentowane w próbie zbyt licznie, niedostatecznie. W takiej sytuacji zadawalającym schematem losowania jest taki, który uwzględniłby określone zróżnicowanie populacji przy doborze próby. Temu kryterium odpowiada schemat losowania warstwowego (ang. stratified sampling). Losowanie warstwowe polega na podzieleniu całej populacji na warstwy (ang. strata) i losowaniu w sposób niezależny z każdej warstwy określonej liczby elementów. Podział populacji na warstwy musi być przeprowadzony w taki sposób, by każdy element wchodził do jednej i tylko jednej warstwy oraz by każdy element znalazł się w jakiejś warstwie. Mówiąc inaczej, podział musi być kompletny i rozłączny. Warstwy wyodrębniamy wg takiego kryterium, które w istotny sposób 5żnicuje populację pod względem badanej zmiennej. Takim istotnym kryterium st np. podział ludności wielkiego miasta na warstwy wg wysokości dochodów, iy interesuje nas standard życia mieszkańców. Należy dążyć do takiego powarvowania populacji, by warstwy różniły się między sobą poziomem badanej zmienej, natomiast wewnątrz każdej warstwy zróżnicowanie pod względem wielkości badanej zmiennej powinno być niewielkie. Mówiąc inaczej, należy: zminimalizować wariancję wewnątrzwarstwową i zmaksymalizować wariancję międzywarstwową. Nawet gdy mamy ustaloną wielkość próby, nadal otwartym problemem pozostaje wielkość prób losowanych z warstw. Czy próby te powinny być równoliczne czy też różnoliczne? Mamy dwa sposoby określania tych wielkości, zwane: 241
(a) wariantem proporcjonalnym, (b) wariantem optymalnym. Wariant proporcjonalny. Jak sama nazwa wskazuje, przy zastosowaniu wariantu proporcjonalnego losowania warstwowego wielkość prób losowych z warstw jest proporcjonalna do wielkości samych warstw. Jeżeli przez n określimy ogólną wielkość próby, na którą składają się próby o wielkości « M losowane z warstw, a przez p w proporcję elementów z danej warstwy w całej populacji, to wielkość próby, którą powinniśmy wylosować z warstwy można obliczyć wg wzoru:
Przypuśćmy, że interesuje nas natężenie danej cechy osobowości, o której wiemy, iż jest skorelowana z płcią u osób chorych na nerwicę histeryczną. Chcąc otrzymać trafny obraz natężenia danej cechy, powinniśmy podzielić populację chorych na nerwicę histeryczną na dwie warstwy: mężczyzn i kobiet. Wielkość prób losowanych niezależnie z warstw powinna być proporcjonalna do wielkości samych warstw, czyli powinniśmy uwzględniać frakcję (proporcję) mężczyzn i kobiet chorych na nerwicę histeryczną. Obserwacje kliniczne wskazują, że na nerwicę histeryczną choruje znacznie więcej kobiet niż mężczyzn. Dobranie równolicznych prób z warstw dałoby w efekcie fałszywy obraz natężenia badanej cechy osobowości. Wariant optymalny. W wariancie optymalnym wielkość próby, która ma być wylosowana z każdej warstwy jest proporcjonalna nie tylko do wielkości samych warstw, ale także do wielkości odchylenia standardowego badanej zmiennej w określonej warstwie. Wariant ten został opracowany przez polskiego statystyka, Jerzego Spławę-Neymana w 1933 roku. Zastosowanie tego wariantu jest nieco skomplikowane technicznie, gdyż wymaga oszacowania wartości odchylenia standardowego na podstawie badania wstępnych próbek. Dlatego też nie omawiam tego dokładniej. Wariant optymalny jest jednak zawsze bardziej korzystny od wariantu proporcjonalnego w przypadku, gdy mamy oszacować tylko jeden parametr populacji. Jednakże w badaniach psychologicznych interesuje nas zazwyczaj oszacowanie więcej niż jednego parametru, a wtedy najprościej jest wybrać wariant proporcjonalny. Jest to jednocześnie najbardziej ostrożne rozwiązanie (Pawłowski Z., 1972, s. 90). Operatem losowania dla schematu losowania warstwowego jest ponumerowany spis wszystkich elementów — oddzielnie dla każdej warstwy. Mechanizmem losowania mogą być np. tablice liczb losowych. 4.3.4. Losowanie grupowe Obok schematu losowania warstwowego najczęściej stosowany w praktyce jest schemat losowania grupowego (ang. cluster sampling). Cechą charakterystyczną tego schematu jest to, że jednostkami losowania nie są poszczególne elementy populacji, ale ich skupiska, czyli tzw. grupy. Schemat ten znajduje zastosowanie tam, gdzie populacja jest bardzo liczna i jednocześnie brak rzetelnego operatu losowania. W grę mogą wchodzić również 242
względy natury ekonomicznej. Rozważmy np. taką sytuację: chcemy wylosować próbę reprezentatywną z populacji liczącej kilka milionów osób. Po pierwsze, mielibyśmy ogromne kłopoty ze sporządzeniem odpowiedniego operatu losowania i z posługiwaniem się nim. Po drugie, koszt takich badań byłby bardzo wysoki ze względu na pokrycie wydatków związanych z dotarciem do każdej osoby oddzielnie. O wiele mniej wysiłku włożymy w dobór próby, jeżeli elementy populacji połączymy w zespoły wg określonego kryterium. Taki jeden zespół, zwany grupą, stanowi jednostkę losowania. Tak więc posługując się schematem losowania grupowego, losujemy nie pojedyncze elementy, ale grupy. W zasadzie sposób tworzenia grup jest dowolny; można jednak podać pewne zasady: (a) wskazane jest, by grupy były zróżnicowane wewnętrznie, czyli zmierzamy i do zmaksymalizowania wariancji wewnątrzgrupowej; (b) należy dążyć do małego zróżnicowania między grupami, czyli zmierzać i do zminimalizowania wariancji między grupowej; jeżeli wariancja międzygrupowa jest duża, to próba powinna składać się z dużej liczby grup wylosowanych z populacji również składającej się z dużej liczby grup; gdy wariancja międzygrupowa jest mała wystarczy nam liczba wylosowanych grup; (c) od tego, jak zdefiniujemy grupę (w definicji grupy zawarte jest również określenie jej wielkości oraz liczba grup w populacji) zależy efektywność schematu losowania; należy unikać czysto mechanicznego określania charakteru grup; (d) względy natury technicznej przemawiają za tym, by za grupę uznać zespół elementów populacji tworzących naturalny (w pewnym stopniu) zespół, np. gmina, wieś. szpital, szkoła, internat, klasa szkolna, kierunek studiów, budynek mieszkalny. Operatem losowania dla schematu losowania grupowego jest ponumerowany [ spis grup, a mechanizmem losowania mogą być tablice liczb losowych. 4.3.5. Losowanie wielostopniowe i Schemat ten jest kombinacją omówionych już wyżej schematów losowania. W najI prostszej wersji jest to schemat losowania dwustopniowego. W pierwszym etapie I losowania dobieramy na podstawie odpowiedniego operatu losowania próbę złożo-I ną z k grup (etap losowania grupowego). W drugim etapie sporządzamy dla każdej I z k grup odrębny operat losowania i losujemy z każdej grupy pewną liczbę ele-I meritów (etap losowania nieograniczonego indywidualnego). Oto sposób przeprowadzenia losowania wielostopniowego: etap 1. — warstwujemy populację, etap 2. — z każdej warstwy losujemy niezależnie, wg oddzielnych operatów I losowania, pewną liczbę grup, etap 3. — z każdej grupy, w ramach każdej warstwy, oddzielnie losujemy I zależnie pewną liczbę elementów (wg schematu nieograniczonego indywidualnego Hfco systematycznego). W losowaniu wielostopniowym zakładamy, że poszczególne losowania są od I siebie niezależne. Mimo faktu, że losowanie wielostopniowe jest mniej efektywne I od losowania grupowego jednostopniowego, względy natury praktycznej (łatwiej 243
skonstruować odpowiednie operaty losowania, mniejszy koszt badania) decydują o tym, że wielu badaczy decyduje się na taki sposób doboru próby. Rozpatrzmy teraz, na przykładach, konkretne zastosowanie przedstawionego wyżej schematu losowania. Dobór uczniów klas VIII do próby z populacji uczniów tych klas szkól podstawowych dużego miasta można przeprowadzić wg schematu wielostopniowego: warstwowo-grupowo-indywidualnego. Traktujemy dzielnice miasta jako warstwy, a szkoły jako grupy. Rozporządzając spisem dzielnic w mieście, wykazem szkół w dzielnicach i spisem uczniów klas VIII, możemy na podstawie tablic liczb losowych prawidłowo przeprowadzić wylosowanie próby. Będzie to przebiegało wg następujących etapów: (1) wylosowanie z każdej dzielnicy k szkół, (2) wylosowanie z każdej szkoły np. jednej klasy VIII, (3) wylosowanie z każdej klasy VIII / uczniów. W badaniach Tyszkowej (1972, s. 127) np. wylosowano z 80 szkół podstawowych w Poznaniu 4 szkoły. Następnie z każdej wylosowanej szkoły losowano kolejno klasy, oddziały i dzieci. Według podobnego schematu dobrał próbę dzieci z klas I Rembowski (1972, s. 81). Z 73 szkół podstawowych w Gdańsku wylosował on 11, w których były łącznie 33 klasy I. Z każdej z 33 klas I losował w sposób systematyczny co trzecie dziecko, posługując się dziennikiem lekcyjnym, jako operatem losowania.
4.4. Testowanie losowości próby Po pobraniu elementów populacji do próby badacz powinien przystąpić do testowania hipotezy mówiącej o tym, że pobrana przez niego próba jest próbą losową. Mówiąc inaczej, chodzi tu o sprawdzenie, czy porządek (kolejność) w jakim poszczególne elementy były pobierane z populacji jest porządkiem losowym. Do tego celu stosuje się test serii Walda-Wolfowitza (podaję go za: Siegel, 1956, s. 52-58; wybór testów przeznaczonych do weryfikacji hipotezy, że próba ma charakter losowy zawarty jest w pracy Domańskiego, 1979, rozdz. 3.). Test ten oparty jest na teorii serii: „serią nazywamy każdy podciąg złożony z kolejnych elementów jednego rodzaju, utworzony w ciągu uporządkowanych w dowolny sposób elementów dwu rodzajów" (Greń, 1975, s. 139). Przypuśćmy, że badacz zainteresował się tym, czy wśród dzieci przebywających w przedszkolu i bawiących się w jednym pomieszczeniu występuje wyraźna przewaga jednej z płci (dziewczynek), jeżeli chodzi o zwracanie się o pomoc do wychowawczyni. W tym celu w obranym okresie notował on kolejno płeć dzieci zgłaszających się o pomoc do wychowawczyni (stosował oznaczenia: K — dziewczynki, M — chłopcy). Uzyskał ciąg złożony z 30 elementów: KKK M K MM K MM KKKK M KK MM KK MM KK M KKKK 12 3 4 5 6 7 8 9 10 11 12 13 14 15 244
Zgodnie z wyżej przytoczoną definicją serii mamy w naszym ciągu 30 elementów aż 15 (k = 15) podciągów złożonych bądź z elementów K, bądź z elemenM, czyli 15 serii. Czy ta liczba £ = 1 5 serii świadczy o losowości prezentowano tu porządku? Na to pytanie odpowiemy po zapoznaniu się z testem Waldafolfowitza. Zastosujmy następujące oznaczenia: niech «! oznacza liczbę elementów jednego rodzaju w ciągu, a n2 liczbę elementów drugiego rodzaju; nx + n2 = N. Przez t oznaczać będziemy liczbę serii. Jest ona statystyką testu Walda-Wolfowitza. W lab. la i Ib (por. Dodatek A) podano wartości krytyczne statystyki k na poziomie |fl=0,05, gdy n2 =£ 20 i «i ^ 20. Odrzucamy hipotezę o losowości próby, gdy liczba i serii jest równa lub mniejsza od wartości k leżącej na przecięciu wiersza odpowiadającego «] i kolumny odpowiadającej n2 w tab. la (zbyt mało serii), lub gdy liczba serii jest równa lub większa od wartości k" w tab. Ib (zbyt dużo serii). Jeżeli aatomiast liczba serii jest większa od k i jednocześnie mniejsza od k" to nie mamy podstaw do odrzucenia hipotezy o losowości próby. Zapiszmy to symbolicznie: (a) odrzucamy hipotezę o losowości próby:
k*XWbk»
k",
(b) nie mamy podstaw do odrzucenia hipotezy o losowości próby: k'
'
Wartość statystyki z obliczamy wg wzoru: 245
_ k-[Łk 2— _ (7fc
Odrzucamy hipotezę o losowosci próby na danym poziomie istotności statystycznej er, gdy: Z 3s Za lub Z ^ -Za
Na przykład: dla cr = O,O5, zu= 1,96, a dla er = 0,01, za = 2,58. W przypadku, gdy: Z < Z a lub Z > -Za
nie mamy podstaw do odrzucenia hipotezy o losowosci próby.
4.5. Wyznaczanie niezbędnej wielkości próby — przykład ze schematem losowania nieograniczonego indywidualnego Badacz dokonujący oszacowania nieznanej wartości jakiegoś parametru populacji (np. średniej arytmetycznej, frakcji, współczynnika korelacji) chce zazwyczaj znać odpowiedź na pytanie: „Jak wielka powinna być próba, by umożliwiała uzasadnienie twierdzeń o populacji z określonym prawdopodobieństwem i w ramach określonego przedziału ufności?" (Nowak S., 1965b, s. 534). W zależności od tego, jakim schematem losowania badacz chce się posłużyć i jaki parametr populacji chce oszacować, wzór na obliczenie niezbędnej wielkości próby przyjmuje różną postać. Ponieważ jest on stosunkowo najprostszy dla wartości frakcji elementów wyróżnionych w populacji (tzw. wskaźnik struktury) w odniesieniu do schematu losowania nieograniczonego indywidualnego, więc tylko o tym wzorze będę tu mówił. Jeżeli Czytelnik zechce poznać wzory odpowiednie dla innych schematów losowania — odsyłam go do literatury, głównie do pracy Z. Pawłowskiego (1972), Grenia (1975, 1984), Zasępy (1962) czy Steczkowskiego (1995). Należy podkreślić, iż zaprezentowane w tym rozdziale schematy losowania opierają się na losowaniu zależnym (bezzwrotnym). Dlatego też w odpowiednich wzorach na estymatory parametrów populacji czy we wzorach przedziałów ufności uwzględnić należy tzw. poprawkę na bezzwrotność losowania, która przyjmuje postać: \-n/N, gdzie n — wielkość próby, N — wielkość populacji. Jednakże, gdy próba nie przekracza 5% populacji można poprawkę tę pominąć, gdyż nie ma ona wtedy praktycznego znaczenia (Pawłowski Z. 1972, s. 59). Między niezbędną wielkością próby pobraną w sposób zwrotny (n.) z populacji o wielkości A' i niezbędną wielkością próby pobranej w sposób bezzwrotny (nfc) zachodzi następujący związek (tamże, s. 63): 246
Z powyższego wzoru wynika, iż zawsze nb < nz. Tak więc w przypadku zaslosowania przez badacza wariantu bezzwrotnego potrzebna jest mniejsza próba niż w przypadku zastosowania wariantu zwrotnego. Wzór na niezbędną wielkość próby (n h ) przy oszacowaniu frakcji elementów i wyróżnionych w populacji ma postać (J. Greń, 1975, s. 245): ______ N
gdzie: N — liczebność populacji; p — spodziewany rząd wielkości szacowanej bkcji;4=l-p; z a = 1,64 dla er = 0,10; 1,96 dla a = 0,05; 2,58 dla a = 0,01; d — dopuszczalny błąd szacunku frakcji p (podany w ułamku dziesiętnym). W odniesieniu do badanej populacji badacz nie zna frakcji elementów posiadających daną cechę, czyli nie zna wartości wyrażenia: MIN (gdzie: M — liczba elementów posiadających daną cechę). Chce jej wartość oszacować na podstawie wartości frakcji w próbie. Jeżeli nie zna rzędu wielkości szacowanej frakcji, może a iloczyn pą we wzorze na nh przyjąć jego maksymalną wartość tj. 1/4. Otrzyma redy wzór przybliżony na nb\ N
Rozważmy przykład zaczerpnięty z cytowanej już pracy Grenia (1975, s. 247): .W pewnej uczelni liczącej 5000 studentów należy za pomocą ankiety oszacować nieznany procent studentów, którzy kiedykolwiek byli za granicą. Ilu studentów tej uczelni należy wylosować niezależnie do próby, by przy współczynniku ufności 0.90 oszacować nieznany odsetek studentów, którzy byli za granicą, z maksymalnym błędem 4
nb =________ 50«0____________ - 390. 2 1 + 4(0,04) (5000-1) 1,642Do próby należy losowo pobrać z populacji 390 studentów. 247
5. Podsumowanie To, w jaki sposób dobrać próbę jest jedną z ważniejszych decyzji, które musi podjąć badacz planujący badanie empiryczne. Od reprezentatywności tej próby zależeć będzie trafność (dokładniej — trafność zewnętrzna) uzyskanych rezultatów badawczych (o czym pisałem w rozdz. 3.)- Nie należy tedy lekceważyć tego etapu procesu badawczego. Warto włożyć sporo wysiłku i zaangażować znaczne środki finansowe w przygotowanie takiego układu próby, który uczyni zasadnym (z metodologicznego punktu widzenia) uogólnienie wniosków z przeprowadzonego badania na interesującą badacza populację. Jak już Czytelnik zdążył się zorientować, rekomenduję dobór losowy próby. Nie zawsze jednak badacz może sobie pozwolić na posłużenie się jednym ze schematów takiego doboru próby. W takiej sytuacji pozostaje mu próba kwotowa, musi jednak pamiętać o jej ograniczeniach. Czytelnika, który chciałby zgłębić wiadomości na temat doboru reprezentatywnej próby z populacji odsyłam do specjalistycznych opracowań tego problemu dostępnych w języku polskim: Steczkowski J. Metoda reprezentacyjna w badaniach zjawisk ekonomiczno-spolecznych; Greń J. Statystyka matematyczna. Podręcznik programowany (rozdz. 1.-7.: Pojęcie statystycznej próby losowej); Pawłowski Z. Wstęp do statystycznej metody reprezentacyjnej; Zasępa R. Badania statystyczne metodą reprezentacyjną; Lissowski G. Z zagadnień doboru próby; Blalock H. M. Statystyka dla socjologów (rozdz. 22.: Dobór próby); Nowak S. (red.) Metody badań socjologicznych. Wybór tekstów (część IV, rozdz. XVI: Dobór próby); Nowak S. Metodologia badań społecznych, (rozdz. 5., pkt. 6.: Uogólnianie rozkładów i zależności z reprezentatywnej próby na populację. Próby celowe i losowe); Domański Cz. Statystyczne testy nieparametryczne (rozdz. 3.: Testy weryfikujące hipotezę, te próba ma charakter losowy); Zieliński R. Tablice statystyczne. (Tablica 62. Cyfry losowe; tablica zawiera 5 000 pięciocyfrowych liczb losowych)
Rozdział io. Miary siły związku między zmiennymi — wybrane zagadnienia 1. Wprowadzenie Problem badawczy wyrażony w języku psychologicznym, np. „Czy i jak poziom sprawności funkcjonowania człowieka w danej sytuacji zadaniowej zależy od poziomu aktywacji jego organizmu?", może być przeformułowany i wyrażony w języku statystyki, np. „Czy zmienna «poziom sprawności funkcjonowania* koreluje ze zmienną «poziom aktywacji»?". Ponieważ w pytaniu jest mowa o korelacji dwóch zmiennych, więc — jak to najczęściej początkującemu badaczowi się wydaje — wystarczy sięgnąć do podręcznika statystyki po ,Jakiś" wzór na współczynnik korelacji dwóch zmiennych (niejako automatycznie myśli się tu o współczynniku korelacji r-Pearsona) lub też przekazać dane do pracowni komputerowej l,.onf już będą wiedzieli jaki wzór jest dla mnie dobry!) i po uzyskaniu informacji o wartości współczynnika korelacji przystąpić do jego merytorycznej interpretacji (tu: psychologicznej). Można by takie postępowanie zaakceptować, gdyby nie fakt, że nieobojętne jest. jakiego rodzaju zależność zachodzi pomiędzy zmienną A i zmienną B. Wyrażając rzecz jeszcze dobitniej — aby zastosować jakiś współczynnik siły związku między zmiennymi, musimy wpierw sprawdzić, czy mamy do czynienia z: (a) zależnością liniową A i B, (b) zależnością krzywoliniową A i B. Współczynnik r-Pearsona jest współczynnikiem korelacji liniowej i jego użyI eie w przypadku stwierdzenia zależności nieliniowej (jak w przytoczonym na po\ czątku pytaniu badawczym stanowiącym nieco zmienione pytanie Yerkesa i DoHnna) jest — mówiąc oględnie — nadużyciem. W skrajnym przypadku możemy m- z jego pomocą — stwierdzić brak zależności, gdy w rzeczywistości ona wystęHjeito silna (por. analizę tego problemu przeprowadzoną w rozdz. 1 2 . ) . Właściwy do rozwiązywania problemów krzywoliniowych zależności między zmiennymi jest współczynnik korelacji krzywoliniowej (stosunek korelacyjny) — eta-kwadrat (?/2). Traktuje o nim np. podręcznik Guilforda (1964), czy artykuł Szartowskiego (1968). Piszę też o nim w rozdz. 13. 249
2. Związek liniowy versus związek krzywoliniowy Podstawowym zatem pytaniem, na które powinien odpowiedzieć psycholog przystępujący do oceny siły związku między zmiennymi ilościowymi (ilorazowe lub interwałowe) jest pytanie następujące: „Czy hipotetyczny związek między dwoma zmiennymi jest związkiem liniowym?". Twierdząca odpowiedź na to pytanie upoważnia badacza do posłużenia się do oceny siły tego związku współczynnikiem korelacji r-Pearsona (mierzy on jakość dopasowania prostej wyznaczonej metodą najmniejszych kwadratów do danych empirycznych — por. rozdz. 13.). Odpowiedź przecząca przekreśla powyższe rozwiązanie i badacz musi odwołać się do wspomnianego współczynnika korelacji krzywoliniowej, tj. stosunku korelacyjnego — rj2. W przypadkach niejasnych, w których trudno zdecydować czy najlepiej dopasowana do danych empirycznych będzie prosta, czy też krzywa, można przeprowadzić, z wykorzystaniem analizy wariancji, w układzie grup kompletnie zrandomizowanych (por. Brzeziński, Stachowski, 1984), badanie „liniowości" związku dwóch zmiennych. W przypadku testowania hipotezy postaci: Y-f{X) mamy do czynienia z co najmniej dwoma źródłami wariancji zmiennej Y. Jednym jest zmienna X — zdaniem badacza istotna dla Y. Drugim są zmienne pominięte przez badacza (inaczej: nie kontrolowane w danym badaniu i stanowiące o błędzie tego badania). Zatem wariancja zmiennej Y rozbija się na dwie wariancje cząstkowe: (a) wariancję „wyjaśnioną" wpływami X na Y, (b) wariancję „resztową", czyli wariancję błędu. W układzie jednoczynnikowej analizy wariancji dokonuje się podziału reprezentacyjnej dla danej populacji próby na p grup porównawczych (nie mniej niż trzy! — aby możliwe było stwierdzenie krzywoliniowości związku Y i X). Każda z grup porównawczych poddana jest „działaniu" określonej wartości zmiennej X. Mogą to być np. różne instrukcje, wywołujące zróżnicowane natężenie lęku u osób badanych. Zakłada się przy tym, przypominam, że grupy różnią się między sobą tylko co do wartości zmiennej X, a osoby wewnątrz grup nie różnią się. Mówimy, iż grupy są homogeniczne. Dlatego też przyjęło się określać wariancję zmiennej Y tłumaczoną wpływami zmiennej X mianem wariancji międzygrupowej, a pozostałą część wariancji Y mianem wariancji wewnątrzgrupowej (jest ona miarą niejednorodności grup porównawczych). Mamy zatem: varY
=
wariancja całkowita
=
var(Y\X) wariancja międzygrupowa
+ +
var(Y\błąd) wariancja wewnątrzgrupowa
Wariancja „międzygrupowa" zmiennej Y może być wprowadzona w efekcie liniowej zależności Y od X (inaczej: średnie wartości zmiennej Y w poszczególnych grupach porównawczych „układają się" na linii prostej) lub też jakiejś krzywoliniowej zależności Y od X (nie precyzując o jaką krzywą w danym przypadku 250
ihodzi). Można tedy rozbić wariancję międzygrupową na tę część, która jest wy tóniona związkiem liniowym Y i X (regresja liniowa) i tę część, którą można Jumaczyć krzywoliniowością związku Y i X (odchylenie od regresji liniowej). Od■ohijąc się do metody analizy wariancji, można obiektywnie stwierdzić, czy zarejestrowane odchylenie od regresji liniowej jest na tyle duże, że nie usprawiedliwia iznania związku Y i X za liniowy.
3. Metoda oceny „liniowości" i „odchylenia od liniowości" związku dwóch zmiennych Przedstawię teraz metodę rozstrzygania wyżej zarysowanego problemu (wg Haysa, 1973). Zakładam tutaj, że Czytelnik zna (w zakresie rozdziału pierwszego podręcznika Brzezińskiego i Stachówskiego, 1984) analizę wariancji dla układu grup kompletnie zrandomizowanych (układ jednoczynnikowy — KRG-p(n> 1)1). Zacznijmy od następującego przykładu. Grupę 50 pacjentów z danym rozpoznaniem psychiatrycznym podzielono na p = 5 równolicznych (po n = 10 pacjentów) pup. Tym, co różniło te grupy między sobą, był poziom leku X (uwzględniono 5 poziomów: .*,, x2, *3, x4, x5). Pierwsza grupa otrzymała dawkę minimalną, a każda następna dawkę powiększoną w stosunku do poprzedniej o tę samą wielkość. Tak wiec zachowano między grupami równe odstępy, jeśli chodzi o wartość (poziomy) j zmiennej X. Pacjenci po upływie określonego czasu od momentu podania leku (odcinek czasu był zawsze ten sam) rozwiązywali zadanie sprawnościowe oceniane na standardowej skali testowej (interwałowej) — zmienna Y. Pytanie brzmi: „Czy zachodzi związek między Y i X i jaka jest jego siła?". Wyniki badania prezentuje tab. 10.1. Tabela 10.1. Wyniki surowe eksperymentu n, -...- n5 = 10; p = 5. Wartości zmiennej zależnej Y w grupach porównawczych wyróżnionych ze względu na wartości zmiennej niezależnej X: x\.,...,X5 Xl
sumu średnia
8 14 10 16 13 19 17 13 12 18
24 26 29 23 30 32 25 20 14 22
7 15 1116 14 15 19 12 15 22
140
245
146
14,0
24,5
14.6
20 22 25 20 29 30 27 17 14 18 222 22,2
30 31 35 33 40 41 38 27 40 46 361
36,1
Źródło: obliczenia własne Kolumny oznaczone: xi ......*■ odpowiadają kolejnym grupom porównawczym
251
W efekcie przeprowadzenia analizy wariancji wedle układu KRG-p («> 1) I dowiedzieliśmy się, że zmienna X wywiera istotny wpływ na Y. Informuje nas o tym wartość testu F, która znacznie przewyższa wartość krytyczną F dla poziomu istotności a=0,05 (a także dla cr = O,Ol) — por. tab. 10.2. Tabela 10.2. Tabela analizy wariancji KRG-p(n = 10)1 (do danych z tab. 10.1) Wariancja
SS
df
MS
F 33,48
między grupowa
3234,68
4
808,7
wewnątrzgmpowa całkowita
1087,40 4322,08
45 49
24,15
Fa, dfu dft 0,05
0,01
2,57
3,76
Źródło: obliczenia własne
Rozbicie całkowitej sumy kwadratów (SScaja) na cząstkowe sumy kwadratów, to jest na SS^^g,. oraz SSwewnątrzgr pokazuje kolumna SS w tab. 10.2. Aby odpowiedzieć na pytanie, czy Y pozostaje w związku liniowym czy też krzywoliniowym z X, musimy dokonać rozbicia sumy kwadratów międzygrupowej na cząstkowe sumy kwadratów związane ze „składnikiem liniowym" związku Y z X oraz ze „składnikiem krzywoliniowym" związku Y z X. A zatem (10.1):
(10.1) im. Zanim przejdziemy do obliczenia wartości SSi in . regr . oraz przeprowadzimy wpierw obliczenia pomocnicze (podobnie jak przy analizie wariancji wedle układu: KRG-/? (n>l)I). Przydadzą się one do obliczenia wartości SSn n .regr- Wróćmy tedy do naszego przykładu i danych zawartych w tab. 10.1.
252
Możemy teraz przystąpić do obliczenia cząstkowych sum kwadratów. W miejsce (1) ... (5) podstawiamy do wzoru (10.2) wyliczone wartości pomocnicze: 3761, 150,22500, 550, 1114.
Stopnie swobody (df) wynoszą: 4f\in.np. - 1' ^/odchyl, lin. regr. = (P- 1) - 1 = (5- 1)- 1 = 3Tabela 10.3. Analiza wariancji KRG-p(n=10)I dla oceny liniowości związku Y i X (do danych i lab. 10.1) Fa,dJ i. df2 Wariancja SS MS F
między grupowa
3234,68
4
lin. regr. odchyl, lin.
1755,61
regr.
1479,07
wwnątrzgrupowa
1087,40
cala
4322,08
1755,61
72,69
13
493,02
20,41
45
24,15
0,05
0,01
4,06 2,82
7,24 4,26
49
Źrido: obliczenia własne Ump: wartości krytyczne F podano w przybliżeniu
Wniosek, jaki nasuwa przeprowadzona analiza wariancji jest taki, że wariancja zmiennej zależnej Y może być thimaczona po części liniową zależnością Y od X jak też, po części, nieliniową zależnością Kod X. Świadczą o tym wysokie wartości testu F, znacznie przewyższające wartości krytyczne dla poziomu a = 0,01, Oszacujmy zatem procent wariancji zmiennej zależnej, który można by tłumaczyć liniowym związkiem Y i X oraz procent wariancji zmiennej zależnej, który można by tłumaczyć jakimś nieliniowej postaci związkiem Y \ X (jakim? — aby odpowiedzieć na to pytanie, trzeba by przeprowadzić bardziej dokładną analizę tzw. składników regresyjnych, wyższych stopni niż liniowy). Oszacowanie wariancji Y będącej udziałem „składnika liniowego" związku Y i X przeprowadzamy wg wzoru (10.3):
(10.3) 253
Oszacowanie wariancji Y będącej udziałem „składnika krzywoliniowego" związku Y i X jest następujące (10.4): ^odchyl.lin.regr. ~~ \P ~
var(yiA(odchyllinregr)) =
Ogólnie związek Y z X tłumaczy następujący procent wariancji (10.5): var (HX) = var (yiX(linregr)) + var (HX(odchyI,in.regr)) = 39% + 32% = 71%. (10.5) Pozostałe: 100%-71% = 29% wariancji zmiennej Y tłumaczą wpływy na Y innych, nie kontrolowanych przez badacza, zmiennych niezależnych. Gdybyśmy nie przeprowadzili wyżej zaprezentowanej procedury i od razu przystąpili do oszacowania siły związku między zmiennymi Y i X (przy założeniu, że jest on liniowy) z pomocą współczynnika korelacji liniowej r-Pearsona, to uzyskalibyśmy następujący wynik (wg wzoru na współczynnik korelacji liniowej obliczany z danych z tabeli analizy wariancji):
Oczywiście, można wyliczyć wartość r metodą „tradycyjną" wg wzoru (10.6):
Wyrażenie z licznika: V yk xk obliczamy następująco: k=\
(8)(1) + (14) (1) + ... + (12) (1) + (18) (1) + (24) (2)+ ... + (14) (2) + (22) (2) + ... + (30) (5) + (31) (5) + ... + (40) (5) + (46) (5) = 3761.
£ft<-S+ -. + 46-1114
k=\ |
Ydxk~ 1 + ... + 1 + 2+ ... + 2 + 3 + ... + 3 + 4 + ... + 4 + 5 + ... + 5 = 150 = w -(10) (1) + (10) (2) + (10) (3) + (10) (4) + (10) (5) = 150, k=\
254
= 29142,
Jak widać, uzyskaliśmy dokładnie tę samą wartość. Z kolei współczynnik tf (stosunek korelacyjny) pokazuje nam siłę związku Krzywoliniowego) zmiennych Y i X:
Porównanie obu wyliczonych wartości r i rj pokazuje wyraźnie, że w przypadku zastosowania współczynnika korelacji liniowej popełnilibyśmy błąd (i to niemały — 0,865 versus 0,637) niedoszacowania siły związku między obiema nniennymi. Jak to już zostało wyżej powiedziane, dany związek można opisać — biorąc pod uwagę kształt krzywej — za pomocą równania typu:
[ Jeżeli wszystkie współczynniki: b2, by, ..., b^ są równe zero, a współczynniki: k i /?| są różne od zera, to uzyskujemy równanie prezentujące linię prostą, albo — inaczej — wielomian stopnia pierwszego. Jeżeli z kolei współczynniki: b^ b\, bj są różne od zera, to uzyskujemy równanie reprezentujące wielomian stopnia drugiego (parabolę), itd. Ogólnie rzecz biorąc, najwyższy wykładnik potęgi „iksa" określa nam stopień wielomianu. Wielomiany, o których tu mowa, cechuje bardzo ważna własność. Otóż stopień wielomianu informuje nas o liczbie punktów przegięcia krzywej najlepiej pasującej do danych empirycznych. Liczba ich równa się liczbie oznaczającej stopień wielomianu minus jeden. I tak, wielomian stopnia pierwszego, wyrażony równaniem: Y - b(> + b\X, ma „jeden minus jeden", czyli zero punktów przegięcia, a jego graficznym obrazem jest linia prosta. Rysunek 10.2 przestawia równania stopnia: pierwszego (e), drugiego (f), trzeciego (g) i czwartego (hl. Kropki na tych rysunkach symbolizują pojedyncze, hipotetyczne wyniki. Na tym Hunym nurniku, obok schematycznego ujęcia wielomianu danego stopnia, przedfcrkmy jest wykres odnoszący się do danych z tab. 10.1, omówionych wyżej przy ■towaniu liniowości związku Y i X oraz odchylenia od „liniowości" związku Y ■.Rysunek 10.2(a) stanowi powtórzenie rys. 10.1 i pokazuje najlepiej dopasowamfo danych empirycznych (reprezentowanych tu przez linię przerywaną łączącą 255
Po
14,0
24,5
14,6
22.2
36,1
Rys. 10.1. Dopasowanie wielomianu stopnia pierwszego (linii prostej) do danych empirycznych z tab. 10.1
średnie wartości zmiennej zależnej dla poszczególnych wartości zmiennej niezależnej) linię prostą, czyli wielomian stopnia pierwszego (linia ciągła). Kolejne rysunki: (b)-(d) ukazują najlepiej dopasowaną do danych empirycznych krzywą wielomianową stopnia drugiego, trzeciego i czwartego. Wartości współczynników: b Q , b h ..., bĄ obliczono dokonując analizy (opartej na analizie wariancji) trendu między zmiennymi. Z opisem tej skomplikowanej metody analizy trendu Czytelnik może zapoznać się u Oktaby (1980), Kirka (1982) czy Winera (1971 — 2. wyd.; Winer, Brown, Michels, 1991 — 3. wyd.). Metoda ta ujęta jest w pakiecie statystycznym SPSS PC+ oraz CSS STATISTICA. Dość często zmienna zależna operacjonalizowana jest za pomocą testu psychologicznego. Jeżeli wyników takiego testu nie można wyrazić na skali interwałowej, to na pewno można to zrobić na skali porządkowej. Zachodzi tedy potrzeba opracowania metodyki rozpoznawania krzywej obrazującej związek między zmienną Y i X, gdy ta pierwsza mierzona jest na skali porządkowej. Metodykę taką, odwołującą się do krzywych wielomianowych, opracowali Marascuilo i McSweeney (1967; omówienie z przykładami zawiera praca Brzezińskiego i Maruszewskiego, 1981).
4. Wybór optymalnej miary siły związku między zmiennymi Badacz, który chce ocenić siłę związku między zmiennymi za pomocą jakiegoś współczynnika siły związku między zmiennymi, stoi przed dość złożonym wybo256
10.2. Dopasowanie wielomianów kolejnych stopni do danych empirycznych z tab. 10.1
(a)
H
(d)
Rys. 10.3. Algorytm wyboru współczynnika siły związku między zmiennymi w zależności od liczby zmiennych i skali pomiarowej zmiennych
rem. Chcąc ułatwić Czytelnikowi podjęcie prawidłowej decyzji, podaję na rys. 10.3 algorytm wyboru optymalnego współczynnika siły związku między zmiennymi. Podane na tym rysunku bloki: (a)-(e) zawierają — rzecz jasna — najbardziej „reprezentatywne" współczynniki. Przystępując do zastosowania jakiegoś współczynnika siły związku między zmiennymi, badacz powinien wykonać następujące kroki: krok 1: zebranie informacji dotyczących: (a) liczby zmiennych — dwie lub więcej, (b) skali pomiarowej zmiennych — jedna z czterech podanych przez Stevensa, (c) wielkości próby (TV), (d) charakteru zależności — liniowa versus krzywoliniowa; krok 2: pobranie próby z populacji; krok 3: dokonanie pomiaru zmiennych u poszczególnych osób badanych; krok 4: dobór współczynników odpowiadających kryteriom ustalonym w kroku 1. — pomocny tu będzie algorytm z rys. 10.3; krok 5: porównanie wybranych współczynników pod kątem ich ograniczeń i wybranie takiego, którego użycie byłoby obciążone jak najmniejszym błędem; krok 6: wykonanie obliczeń; krok 7: przetestowanie hipotezy zerowej o braku zależności pomiędzy zmiennymi — H Q : p = 0 za pomocą odpowiedniego testu istotności. Większe podręczniki statystyki — np. Blalocka (1975) — zawierają informa-j cje o wymienionych na rys. 10.3 współczynnikach oraz o testach ich istotności. 258
5. Podsumowanie Doieważ dob< lieważ dobór odpowiedniego miernika siły związku między Bbrej orientat zmiennymi wymaga ej orientacji w różnego rodzaju współczynnikach większą liczl siły związku między dwiema rickszą liczbą zmiennych (co nie jest Kdzial ten m łatwe dla przeciętnego psychologa), więc riał ten miał ułatwić łów, które \ dokonanie takiego wyboru — zwłaszcza tych współczyn-Sw, które w Bardzo pi praktyce badawczej psychologów stosowane są najczęściej. Bardzo igo miernika przydatny może się okazać dla Czytelnika algorytm wyboru optymalKolejny \ miernika siły związku między zmiennymi, zaprezentowany na rys. pości międi 10.3. Kolejny ważny dla psychologów problem, to problem ■owy. W ni określania kształtu za-tści między zmienną zależną i zmienną pdelu analiz; niezależną — liniowy versus krzywo- W niniejszym rozdziale 1 Informacj przedstawiona została jedna metoda, oparta na elu analizy tfnik w takie I wariancji, określania kształtu związku między zmiennymi. Informacje ■ów (podręc o współczynnikach siły związku między zmiennymi znajdzie Czy-w zmiennymi dlt takich podręcznikach statystyki, jak: Blalock H. M. Statystyka dla porządkowej: , socjo-(podręcznik ten zawiera omówienie współczynników siły palski A. k związku między niennymi dla skali nominalnej: ę, C, T, V, Q, k —
m. Podstaw, Goodmana i Kruskala — skali porządkowej: rs, rK, dla skali interwałowej oynnik //:). i ilorazowej: r, R, korelacja cząstkowa); Góralski A. Metody opisu i wnioskowania statystycznego w psychologii; Guilford U1. Podstawowe metody statystyczne w psychologii i pedagogice (m. in. współ-oynnik >/:).
Rozdziału. Testy istotności różnic wybrane zagadnienia 1. Wprowadzenie Dyskusja, która toczy się — od czasu do czasu — na temat zastosowań testów istotności różnic (np. Henkel, Morrison, 1970; Cohen, 1990, 1994; Schmidt, 1995; Brzeziński, 1995c) w badaniach empirycznych w psychologii wciąga w krąg sporów najczęściej osoby reprezentujące dwa skrajne stanowiska. Z jednej bowiem strony wypowiadają się przeciwnicy wszelkiej kwantyfikacji w psychologii, uważający za bezsensowne posługiwanie się metodami statystyki przy opracowywaniu wyników badań empirycznych. Uważają oni, iż człowiek jest zbyt „skomplikowany", aby można było wyrazie jego osobowość, czy zachowanie, za pomocą jakichś tam „regułek statystycznych". Z kolei druga grupa uznaje tylko takie badania, w których wszystkie zmienne zostały skwantyfikowane, a wyniki badań poddane — niekiedy dość kunsztownej — analizie statystycznej (por. dla przykładu: Oleś, 1995). Przedstawiciele tej grupy są często zwolennikami zastosowań statystyki za wszelką cenę. Co więcej, uważają oni, że im bardziej wyrafinowanymi i skomplikowanymi testami statystycznymi (w rodzaju testów MANOVA — na przykład) posłużą się, tym bardziej „naukowy" będzie przygotowywany przez nich raport z badań empirycznych. „Naukowe" spory toczą reprezentanci wyżej scharakteryzowanych obozów, natomiast trzecia, najliczniejsza grupa badaczy, po prostu stosuje, mniej lub bardziej udolnie, te testy. Takiej, dość niefrasobliwej, praktyce służy łatwo dostępne, przyjazne oprogramowanie komputerowe dużej grupy testów (np. SPSS PC+ czy SYSTAT). I tu dopiero rodzi się problem, gdyż obok dobrych (prawidłowych) zastosowań, pojawia się dużo, w mniejszym lub w większym stopniu, złych. Biorąc powyższe pod uwagę, wydaje się celowe przedstawienie wstępnych warunków, jakie badacz musi rozpoznać (w odniesieniu do materiału empirycznego), zanim przystąpi do stosowania jakiegokolwiek testu istotności. Każdy psycholog (badacz, czy też praktyk) powinien orientować się w zagadnieniach zastosowań testów istotności na tyle, aby mógł swobodnie porozumieć się 260
z programistą czy też ekspertem od statystyki lub metodologii (bierna znajomość metodologii! — por. Wprowadzenie). Chodzi bowiem o to, aby wspólnie z nim mógł zaprogramować odpowiedni (do problemów i hipotez badawczych oraz specyfiki zebranego materiału empirycznego) tok postępowania w zakresie zastosowania metod statystycznych, a nie żeby zastępował komputer i znał różne sposoby na obliczenie wartości, np. współczynnika korelacji (i te skrócone, i te przybliżone — podawały je starsze wydania podręczników statystycznych, w okresie, gdy dostęp do komputerów miały tylko elity naukowe — por. np. Obliczanie współczynnika korelacji Pearsona z wykresu rozrzutu, Guilford, 1964, L 153157). Przy planowaniu badań empirycznych i przygotowywaniu zebranego materiału I empirycznego do przeprowadzenia jego analizy statystycznej z wykorzystaniem do tego celu testów istotności (np. istotności różnic między średnimi), należy zwrócić i uwagę na kilka punktów — nazwijmy je krytycznymi — gdyż ułatwi to badaczowi | dokonanie wyboru optymalnego rozwiązania. Postaram się teraz krótko scharakteryzować poszczególne punkty krytyczne, wskazać wzorcowe rozwiązania oraz omówić konsekwencje ich rozwiązań niewłaściwych. Dalsze moje wywody nie będą zatem miały charakteru czysto opisowego, ; ale będą miały po części charakter normatywny. Nie będzie to więc opis niewłaściwego (z metodologicznego i statystycznego punktu widzenia) postępowania psyI chologów. Będzie to natomiast próba udzielenia odpowiedzi na pytanie: jak postępować, aby postępować dobrze?
2. Warunki poprawnego stosowania testów istotności różnic w badaniach empirycznych 2.1. Respektowanie zasady randomizacji Ma ogól j Na ogół jest tak. że badacz prowadzi badania naukowe na niewielkiej grupie ■danych osób łych (próbie) stanowiących podzbiór znacznie liczniejszego zbioru lanej kat osób tej ej kategorii (populacji). Rzecz jasna, że jeżeli chce on uogólnić Wące z wnioski wyni-ijące z tego konkretnego badania na cały zbiór osób, to musi jtprezenti zagwarantować :zentatywność próby dla populacji — pisałem o tym K. 2. i \ problemie i w rozdz. 3., 2. i w rozdz. 9. Jest rzeczą dowiedzioną — że jłrozdz. przypomnę to, co już napisałem rozdz. 9. — iż jedynie dobór losowy próby pywnośt z populacji gwarantuje jej reprezen-mość. Jo/e Jeżeli nie losujemy, to w konsekwencji nie możemy uogólniać ustaleń i dokonanych ustaleń z próby na populację. Nierespektowanie pierwszej i ę (czyli zasady randomiza-ę (czyli zasady losowego doboru próby z populacji) nczne p sprawia, że badanie empi-lyczne przeprowadzone na próbie utworzonej ska irafn w sposób arbitralny cechuje ni-m trafność zewnętrzna. Po prostu wnioski są prawomocne tylko dla uczniów 261
danej szkoły, studentów danego kierunku studiów (np. psychologii), pacjentów z danego szpitala czy z danego oddziału, osób z danego przedziału wieku, danej płci itp. Przy ocenie skuteczności metod nauczania, metod psychokorekcyjnych, oddziaływania na opinię publiczną itp., powinniśmy badania przeprowadzać na co najmniej dwóch równoważnych grupach osób badanych — w celu znalezienia metody najbardziej skutecznej czy dla sprawdzenia skuteczności „nowej" metody w stosunku do „tradycyjnej". Rzecz w tym, aby decyzja o tym, jakiej metodzie oddziaływania dana osoba ma być poddana, podejmowana była przez badacza w sposób losowy (np. badania efektywności technik psychoterapeutycznych — Seligman M.E.P., 1995, s. 965; ewaluacja programów profilaktycznych — Hawkins, Nederhood, 1993, s. 41; badania edukacyjne — Jankowski, 1974); traktuje o tym druga zasada randomizacji. Ową drugą zasadę randomizacji zakładają wszystkie testy istotności różnic. W przypadku respektowania przez badacza drugiej zasady randomizacji, tzn. podzielenia losowo próby na p grup porównawczych, występowanie różnic między tymi grupami (dokładniej: między np. średnimi wartościami zmiennej zależnej) można będzie tłumaczyć w kategoriach zmiennej niezależnej-głównej (np. metody nauczania czy metody psychoterapeutycznej), przy czym badacz będzie mógł abstrahować od wpływu czynników związanych z osobami badanymi (wpływ arbitralnego doboru i rozdzielanie osób z próby na p grup porównawczych — por. rozdz. 12., pkt. 4.), czego nie mógłby zrobić w przypadku niestosowania się do zasady randomizacji. Mówiąc inaczej, badanie bez respektowania drugiej zasady randomizacji narażone jest na zakłócający trafność zewnętrzną wpływ czynnika selekcji (por. rozdz. 12., pkt. 4.). Nakaz respektowania zasady randomizacji podnoszony jest w opracowaniach takich autorów, jak: Fisher (1935), Oktaba (1966, 1980), Lehmann (1968), Basu (1980), Folks (1984) czy Johnstone (1989).
2.2. Grupy (dane) niezależne versus grupy (dane) zależne W badaniach empirycznych w psychologii (ale też w pedagogice, socjologii, psychiatrii) interesują nas dwa rodzaje porównań. Pierwszy rodzaj porównań wymaga dwóch (i większej liczby) grup, różniących się poziomami zmiennej niezależnej charakteryzującymi je w tym samym czasie. W najprostszym przypadku mamy dwie grupy: kontrolną i eksperymentalną. Drugi rodzaj porównań uwzględnia tę samą grupę osób, ale badaną wielokrotnie (co najmniej dwukrotnie) w czasie. Na przykład, badamy „wyjściowy" poziom lęku (tzw. pomiar początkowy, albo inaczej pretest) w grupie pacjentów przed przeprowadzeniem psychoterapii, następnie przeprowadzamy psychoterapię i powtórnie dokonujemy pomiaru poziomu lęku (tzw. pomiar koń262
cowy, albo inaczej posttest). Ten drugi pomiar może być pomiarem końcowym, ale może też być jednym z serii pomiarów poziomu lęku. W tego typu badaniach każda osoba badana nie jest „źródłem" tylko jednego wyniku, ale „źródłem" tylu wyników, ile pomiarów zmiennej zależnej badacz na niej przeprowadził. W przypadku pierwszego rodzaju porównań mówimy o grupach niezależnych (ang. independent groups) lub danych niezależnych (ang. independent data). Z kolei w przypadku drugiego rodzaju porównań mówimy o grupach zależnych (ang. dependent groups) lub danych zależnych (ang. dependent data). W świetle powyższych uwag możemy cały zbiór testów istotności różnic podzielić na dwa podzbiory: (a) jeden obejmujący testy przeznaczone do testowania istotności różnic mię[dzy grupami niezależnymi (testy dla danych niezależnych), (b) drugi obejmujący testy dla grup zależnych (testy dla danych zależnych).
113. Respektowanie założenia o rozkładzie zmiennej zależnej w populacji I Wiadomo już. iż pierwszym warunkiem sensownego posługiwania się testami istot-I rości różnic jest respektowanie pierwszej i drugiej (zwłaszcza) zasady randomiza-I cji. Drugim warunkiem jest respektowanie kolejnego założenia, które obowiązuje I dla części testów istotności różnic — założenia o charakterze rozkładu zmiennej I zależnej. W związku z powyższym wszystkie testy istotności różnic można podzie■ćna dwie klasy: (a) pierwszą, obejmującą te testy, które traktują o istotności różnic wartości I parametrów rozkładów zmiennej zależnej w porównywanych populacjach (średI nich. wariancji), np. najczęściej stosowany przez psychologów (i nie tylko) test I t-Siudenta, Ib) drugą, „obojętną" na wartości parametrów rozkładów zmiennej zależnej. Testy z pierwszej klasy to testy parametryczne, a pozostałe to testy nieparame-Btyczne. ■ Jeżeli więc chcemy testować istotność różnic między wartościami parametrów ■układów zmiennej zależnej dwóch populacji, np. różnicę między średnimi wartoHuini poziomu lęku po psychoterapii — grupowej i indywidualnej — za pomocą Hto parametrycznego {np. testu z), to musim) mieć gwarancję, iż rzeczywiście Bmy do czynienia z rozkładami normalnymi poziomu lęku w obu porównywa-^■h populacjach. Istnieją specjalne testy statystyczne pozwalające na ocenę. zgodności danego ■kładu empirycznego z rozkładem modelowym. Do częściej stosowanych należą: ^■t chi-kwadrat, test Kołmogorowa czy test Cramera-Smirnowa (por. Domański, 19791 Przed użyciem testu parametrycznego do testowania hipotez (postaci: H o : mk = jii H o : <Ą = o\ ) o różnicy wartości parametrów rozkładów zmiennej zależ263
nej w porównywanych populacjach niezbędne jest zbadanie, czy mamy do czynienia z rozkładami normalnymi interesujących nas cech w porównywanych populacjach.
2.4. Problem homogeniczności (jednorodności) porównywanych grup To, co zostało dotychczas napisane, może sugerować, że najlepiej — ze względu na niepewność związaną ze spełnieniem założenia o normalności rozkładów i trudności natury technicznej, jakie pociąga za sobą stosowanie testów zgodności rozkładu empirycznego z rozkładem normalnym — zrezygnować z testów parametrycznych i od razu przejść do stosowania (wyłącznego) testów nieparametrycznych. Otóż reakcja na taką sugestię musi być negatywna. Generalnie rzecz biorąc, testy nieparametryczne są w porównaniu z testami parametrycznymi mniej skuteczne, tj. mają mniejszą zdolność odrzucenia de facto fałszywych hipotez zerowych. Często mówi się o ich konserwatyzmie, czyli tendencji do nieodrzucania Ho (jej zachowania), gdy de facto jest ona fałszywa. Jeżeli skuteczność wzorcowego testu parametrycznego oznaczymy jako 100%, to niekiedy, stosując bardzo proste testy nieparametryczne, osiągamy jedynie 30-procentową skuteczność. Z drugiej strony są testy nieparametryczne, których skuteczność zbliżona jest do skuteczności testów parametrycznych. Na przykład skuteczność testu £/-Manna-Whitneya wynosi około 98% skuteczności testu t. Można tedy sformułować następujący wniosek. Gdziekolwiek to możliwe, powinno się stosować testy parametryczne (jako najskuteczniejsze), jeżeli jednak jest to niemożliwe (rozkłady nie są normalne, albo znacząco od normalności odbiegają), to wybieramy z puli testów nieparametrycznych ten test, który można w danych warunkach zastosować, i który cechuje stosunkowo najwyższa skuteczność w relacji do wzorcowego testu parametrycznego. Jeżeli chodzi o praktykę badawczą psychologii, to psycholog (zwłaszcza psycholog kliniczny czy psycholog wychowawczy) będzie miał raczej rzadkie okazje do stosowania testów parametrycznych (w rodzaju testu t). Jeżeli będzie jednak możliwe odwołanie się do testu parametrycznego (w rodzaju testu F — analizy wariancji), to należy to zrobić! Do najbardziej popularnych testów parametrycznych należą: test t i test F. W obu przypadkach wymagana jest homogeniczność wariancji rozkładów zmiennej zależnej w porównywanych populacjach. Niedopełnienie tego warunku prowadzi do obciążenia błędem rezultatów testu t i testu F. Podobnie jak w przypadku założenia normalności rozkładów zmiennej zależnej, tak i tutaj przed przystąpieniem do stosowania testu t i F musimy się upewnić, czy wariancje są homogeniczne. Do tego celu służą specjalne testy. Są to: test Hartleya, test Cochrana, test Bartletta (ich omówienie w: Brzeziński, Stachowski,
1984, rozdz. 3., pkt. 3.2.1: Testy homogeniczności wariancji — testy Hartłeya, Cochrana i Bartletta, s. 119-133). W przypadku, gdy zastosowane testy wykazały heterogeniczność wariancji, to zamiast standardowego testu t musimy posłużyć się jednym z dwóch alternatywnych testów opracowanych w tym celu: testem Cochrana i Cox lub testem Welcha Ipor. Brzeziński, 1975a; Ferguson, Takane, 1989). Możemy jeszcze posłużyć się metodą transformacji wyników surowych nowej skali eliminującej ową heterogeniczność wariancji. W znanym artykule; The use of transformation, Bartlett (1947) podał kilka podstawowych transformacji oraz określił sytuacje, w których celowe jest posłużenie się nimi. Kilka podstawowych transformacji, wraz z regułą wyboru optymalnej, z punktu widzenia struktury danych empirycznych, transformacji, zaprezentowano też w: Brzeziński, Stachowski (1984, rozdz. 3., pkt. 3.2.4.: Transformacja wyników surowych, s. 182-186).
2.5. Skala pomiarowa zmiennej zależnej Jak wiemy (por. rozdz. 7., pkt. 4.), Stevens opracował koncepcję pomiaru zmiennych w naukach społecznych oraz podał klasyfikację skal pomiarowych. Wyróżnił on cztery rodzaje skal: nominalne (przykład: różnego rodzaju klasyfikacje), porządkowe (przykład: rangi), interwałowe (przykład: skala temperatury Celsjusza, standardowe skale testów psychologicznych) i ilorazowe (przykład: skala temperatury Kehina, pomiar czasu, długości, masy). W zależności od tego, na jakiej skali wyrażony jest pomiar zmiennej zależ-i Kj. musimy wybrać test statystyczny z danej, dopuszczalnej przez dany poziom pomiaru, kategorii testów. I tak. testy parametryczne zakładają co najmniej poziom interwałowy pomiaru, a testy nieparametryczne dzielą się na dwie kla-v Jedna zakłada poziom porządkowy pomiaru zmiennej zależnej, np. test Wilcoxona. Druga klasa zakłada tylko poziom nominalny, np. test chi-kwadrat (z2). Pizy wyborze testu statystycznego właściwego dla danego zbioru wyników i hipotezy zerowej niezmiernie ważna jest więc znajomość skali pomiarowej [zależnej. zmiennej eżnej.
16. Lic; >. Liczba porównywanych grup Biorąc pc Biorąc pod uwagę liczbę porównywanych grup (niezależnych i zależnych), I mówić o: można owić o: (a)F (a) porównaniach dwóch grup, (b) F (b) porównaniach trzech i większej liczby grup. Roz\ Rozwój metodologii badań empirycznych i statystyki prowadzi od I porównań koncepcji równań dwugrupowych do koncepcji porównań ktykę hac wielogrupowych. Jednakże pra-ykę badawczą cechuje pewna inercyjność i problemy, w których de facto chodzi 265
o przeprowadzenie porównań wielu grup, badacze sprowadzają „na siłę" do problemów porównań dwugrupowych. Zamiast całościowego porównania /7-grupowego, badacze przeprowadzają — co jest nie tylko niepoprawne ze statystycznego punktu widzenia, ale także nieekonomiczne — pip- l)-2 porównań dwugrupowych. Przy podejściu „całościowym" badacz stosuje jeden test statystyczny przeznaczony do przeprowadzania tego rodzaju porównań (np. test Friedmana — skala porządkowa, dane zależne). Dodatkowo stosuje jakiś test wielokrotnych porównań (np. oparty na statystyce wspomnianego testu Friedmana — por. Brzeziński, Matuszewski, 1981) w celu wyeliminowania porównań nieistotnych. Jak zatem widzimy, już względy natury ekonomicznej przemawiają za testami przeznaczonymi dla wielu grup.
2.7. Duże N versus małe N Badania empiryczne prowadzone są na próbach o różnej liczebności. Często rodzi się pytanie, czy są ograniczenia „od dołu" wielkości grup porównawczych z uwagi na dany test istotności różnic, którym badacz chce się posłużyć. Tak, przy czym każdy test ma własne, „indywidualne" ograniczenia. Są testy, które są bardzo skuteczne dla małych grup (np. test i) i są takie, które są przeznaczone dla dużych grup (np. test z). W każdym razie w „metryczce" danego testu podana jest minimalna wielkość grup porównawczych, przy której można go poprawnie stosować. Są też takie testy, które mają kilka wariantów dla różnych przedziałów wielkości grup. Na przykład test f/-Manna-Whitneya — jeżeli n2 > «j, to mamy trzy warianty: (1) 3 =£ n2 =S 8, (2) 9 ^ « 2 ^ 20, (3) n 2 > 20. Musimy o tym pamiętać przy wyborze właściwego testu, czy też właściwego wariantu testu. * * * W punktach 2.1-2.7 przedstawione zostały kryteria wyboru testu istotności różnic adekwatnego do hipotezy badawczej i struktury danych empirycznych. Kryteria te — powtórzmy — to: (a) randomizacja I i II, (b) kształt rozkładu zmiennej, (c) homogeniczność wariancji rozkładów zmiennej zależnej, (d) skala pomiarowa zmiennej zależnej, (e) charakter grup porównawczych: niezależne versus zależne, (f) liczba porównywanych grup: 2 versus p (/? > 2), (g) wielkość grup porównawczych: duże W versus małe N. Nierespektowanie któregoś z siedmiu wyżej wymienionych kryteriów może wpędzić badacza w kłopoty metodologiczne. Warto o tym pamiętać! 266
3. Wybór optymalnego testu statystycznego — grupy (dane) niezależne 3.1. Najbardziej rozpowszechnione testy statystyczne w praktyce badawczej psychologów Nie miejsce w tak krótkim i syntetycznym opracowaniu, jak rozdział w podręczniku / zakresu metodologii badań psychologicznych, na szczegółową charakterystykę poszczególnych testów — tym bardziej, że dostępne są w języku polskim opracowania, w których testy te, w sposób przystępny, są zaprezentowane. Ograniczę się tedy do podania krótkiej charakterystyki testów, które na rys. 11.1 zgrupowane są w blokach: (a)-(h). Jednocześnie przy każdym teście podam literaturę, dostępną w języku polskim, w której można będzie znaleźć pełne informacje o danym teście. (a)-{b) Test t oraz test z- Z uwagi na fakt, że psycholog prowadzi badania empiryczne na stosunkowo małych próbach, rozpocznę omówienie testów od testu i-Studenta, jako najbardziej reprezentatywnego testu parametrycznego, bardzo chęt-j nie stosowanego przez psychologów. Test t znajduje zastosowanie w przypadku sprawdzania hipotezy o braku różnic między średnimi: y\ i y2 obliczonymi dla dwóch małych prób o liczebności n, [i fh wylosowanych z populacji o rozkładach normalnych zmiennej zależnej: ■^1,(7^), N 2 (/ł2i°2)- Wartości a\\a\ są badaczowi nie znane, ale zakłada się, k zachodzi: <Ą = cĄ (warunek homogeniczności wariancji — por. pkt. 2.4.). W ich miejsce badacz wprowadza wartości: Ą i s\ uzyskane dla dwóch małych prób. Hipoteza zerowa przyjmuje postać: Ho: fj.x -fi2= 0. Statystyka t obliczona według wzoru (11.1):
ma — przy założeniu słuszności Ho — rozkład f-Studenta o stopniach swobody: #= flj + n2 - 2. Odrzucamy H^ na danym poziomie istotności a, jeżeli: \t\ s= /^ ^ (test dwustronny), t 5= rat/j (test prawostronny), f ^ -ia^ (test lewostronny). W przypadku gdy badacz ma do czynienia z dużymi próbami, zastosowanie znajduje test z. Statystyka z dana wzorem (11.2):
z =
^rx
■
(1L2)
— przy założeniu słuszności Ho — ma rozkład normalny z // = 0 i o2 = I. Odrzucany H„ na danym poziomie istotności a, jeżeli: \z\ > Zan (test dwustronny), z 5= Za (test prawostronny), z ^ -za (test lewostronny). 267
(a)
(b)
(c)
(d)
(e)
(f)
(g)
(h)
Rys. 11.1. Algorytm wyboru testu istotności różnic — dane niezależne
Literatura: Greń (1975, 1984), Oktaba (1966, 1980), Blalock (1975), Góralski (1980). (c) Test Cochrana i Cox oraz test Welcha. Testy te zastępują standardowy test t w sytuacji, gdy pogwałcone jest założenie homogeniczności wariancji rozkładów zmiennej zależnej porównywanych populacji. 268
Literatura: Brzeziński (1975a) — test Cochrana i Cox, Oktaba (1966, 1980), Góralski (1980). (d) W tej grupie testów istotności chciałbym zapoznać Czytelnika z trzema testami. (d-1) Test U-Manna-Whitneya. Znajduje on zastosowanie w przypadku testo-ia różnic między rozkładami zmiennej zależnej w grupach o liczebności n, i n2 przypadku, gdy grupy nie są równoliczne przyjmuje się, że n,
1
!/'=», Bj + ^lli-J?,.
(11.3) £,»=„, „2 + *-*2.
(11.4)
Mniejsza z dwóch wartości: U' i U" stanowi statystykę U. Hipoteza zerowa głosi, iż dwie próby: «, i n2 pochodzą z tej samej populacji. Test U występuje w trzech wersjach:
[ W wersji (xxx) wykorzystuje się fakt, iż rozkład U z próby jest w przybliżeniu normalny, ze średnią — f.iv i wariancją — (Ąj :
(W-
I2
I Następnie oblicza się wartość statystyki z wg wzoru (11.7): U-Mu
269
Wyniki otrzymane z przebadania nx + n2 osób podlegają grupowaniu w stosunkowo wąskie przedziały — im więcej przedziałów zbuduje badacz, tym lepiej. Test Kołmogorowa-Smirnowa występuje w następujących wersjach:
Literatura: Brzeziński (1975a), Domański (1979). (d-3) Test Walda-Wolfowitza (test „serii"). Test ten służy do sprawdzania hipotezy, że dwie próby o liczebności: nx i n2 pochodzą z tej samej populacji. Test oparty jest na rozkładzie liczby serii. Wyniki nx + n2 osób porządkujemy od wyniku najmniejszego do największego. Oznaczamy symbolem a wyniki z próby n t, a symbolem b wyniki z próby n 2 . Następnie odczytujemy liczbę serii w tym ciągu. Na przykład w ciągu:
mamy k = 9 serii (nx = 10, n2 = 9). Dla «] i n2 zawartych w przedziale 2-20 znajdujemy w specjalnie skonstruowanych tablicach (w Dodatkach do niniejszego podręcznika) dla różnych poziomów istotności krytyczną liczbę serii ka. Jeżeli: k =s ka (test lewostronny), to odrzucamy H o i uznajemy, że dwie próby pochodzą z de facto różnych populacji. Uwaga: hipotezę zerową odrzucamy tylko wówczas gdy liczba serii jest zbyt mała! Dla « 2 >20 (n 2 >«i) rozkład statystyki k z próby jest w przybliżeniu normalny o średniej — fi k i wariancji — (Ą : (11-8)
(11-9) Następnie obliczamy wartość z informującą nas o rozstępie, między rzeczywistą i przewidywaną przez Ho liczbą serii, wyrażonym w jednostkach odchylenia standardowego (11.10): Z = ~^-
(11.10)
Odrzucamy //0, jeżeli: z «* -z„n.Literatura: Blalock (1975), Greń (1975, 1984), Domański (1979). Test ten omówiony jest szczegółowo w rozdz. 9., pkt. 4.4 niniejszego podręcznika jako test losowości próby. (e) W tej grupie zaprezentuję dwa bardzo popularne testy. (e-1) Test niezależności chi-kwadrat (X 2 )- Testem tym możemy posłużyć się w przypadku porównywania dwóch prób o liczebności nx in2, pobranych niezależ270
nie z właściwych im populacji, gdy zmienna zależna-normalna ma postać klasyfikacji dwu- i więcej kategorialnej. Sporządza się tabelę o liczbie kolumn odpowiaI dającej liczbie porównywanych prób (tu: dwie kolumny) i liczbie wierszy odpowiadającej liczbie kategorii zmiennej zależnej (tu: dwie i więcej). Tabela taka ma zatem wymiary: liczba wierszy (w) x liczba kolumn (p). Każda osoba badana z uwagi na przynależność do danej kategorii zmiennej zależnej i jednej z dwóch grup i porównawczych może znaleźć się tylko w jednej kratce (polu) tabeli. Po sklasyfikowaniu w wyżej opisanej tabeli wszystkich nl + n2 osób badanych otrzymamy macierz liczebności empirycznych. Oprócz niej sporządzamy macierz liczebności teoretycznych (oczekiwanych). Każdej liczebności zaobserwowanej w poszczególj nych polach macierzy liczebności empirycznych leżących na przecięciu /-tego wiersza i )-tej kolumny (O,-,-) odpowiada liczebność teoretyczna (£,-,) poszczególnych I pól. Otrzymuje się ją przez pomnożenie liczebności brzegowej /-tego wiersza OL przez liczebność brzegową y-tej kolumny (OJ) i podzielenie otrzymanego rezultatu przez ogólną liczebność: «] + n2:
Porównanie elementów obu macierzy można przeprowadzić za pomocą statyayki chi-kwadrat (j2) danej wzorem (11.11): (11.11) Odrzucamy //0, jeżeli: x2 ^ X^,df ■> gdzie: df (liczba stopni swobody = (w-1)
B-l), tu: (w-1) 2. W przypadku, gdy zmienna zależna jest dychotomiczna, mamy do czynienia i tabelą typu 2x2. Przy takich tabelach wymaga się, aby liczebności teoretyczne poszczególnych pól nie były mniejsze od 5. W przypadku tabel o liczbie pól więk-: szej niż cztery dopuszcza się — zgodnie z tym co pisze Siegel (1956, s. 110) — nie więcej niż 20% pól o liczebnościach teoretycznych od 1 do 4. Literatura: Brzeziński (1975a), Blalock (1975), Greń (1975, 1984), Guilford (1964). Góralski (1980), Domański (1979), Jaworowska, Michalićka (1978). (e-2) Test dokładnego prawdopodobieństwa Fishera. Stosujemy go do tabel topu: 2x2, gdy jakaś liczebność teoretyczna E-tj jest mniejsza od 5. Literatura: Blalock (1975). (f) Test F analizy wariancji. Ze względu na bogactwo zastosowań tego testu I w badaniach empirycznych w psychologii oraz dostępność podręcznika analizy wariancji adresowanego do psychologów odsyłam czytelnika do tej pracy (Zastoso-mmie analizy wariancji w eksperymentalnych badaniach psychologicznych, Brzeziński, Stachowski, 1984). Literatura: Brzeziński, Stachowski (1984). i (g) Test H-Kruslcala-Wallisa. Test ten znajduje zastosowanie w warunkach | badawczych podobnych do tych, w jakich znajduje zastosowanie test U Manna271
-Whitneya — z tą tylko różnicą, że przeznaczony on jest do testowania hipotezy zerowej mówiącej o pochodzeniu p (p > 2) prób z tej samej populacji. Po porangowaniu wyników — wg tych samych zasad co w teście Manna-Whitneya — obliczamy wartość statystyki H wg wzoru (11.12):
gdzie: Rt — suma rang w i-tej grupie porównawczej (/-tej kolumnie); W = nt + ... + np. Odrzucamy //0, jeżeli H 3* HajJit„ . Wartości krytyczne H dla: n(- =s 5 i fc = 3 odczytujemy ze specjalnych tablic, które podają: Jaworowska i Michalićka (1978). Dla większych n, statystyka H ma w przybliżeniu rozkład z2 ze stopniami swobody df = p~ 1. Odrzucamy Ho, jeżeli: H *» Xa,df ■ W przypadku występowania rang wiązanych stosujemy test H z odpowiednią poprawką. Literatura: Blalock (1975), Jaworowska, Michalićka (1978), Brzeziński, Maruszewski (1981), Siegel (1956), Hollander i Wolfe (1973). (h) Test niezależności chi-kwadrat f/2 ). Analogicznie jak w (e-1), z tą różnicą, że tabela wyników składa się nie z dwóch kolumn, ale z p (p > 2) kolumn o liczebnościach brzegowych: 0.i=nj, O 2 =n 2 , ... ,O p = n p . Literatura: jak w (e-1).
3.2. Algorytm wyboru optymalnego testu Przeprowadzanie badań empirycznych, w których badacz będzie dokonywał pomiaru zmiennej zależnej w grupach porównawczych różniących się poziomami zmiennej niezależnej, prowadzi do wyróżnienia dwóch rodzajów takich porównań, którym odpowiadają dwie grupy testów statystycznych: (a) obejmująca testy dla 2 grup porównawczych, (b) obejmująca testy dla p (p> 2) grup porównawczych. Odpowiedź na pytanie: „Ile jest grup porównawczych?" jest tedy pierwszą, ukierunkowującą poszukiwania testu istotności różnic, właściwego dla danej hipotezy roboczej. Pokazuje to również wyrysowany na rys. 11.1 algorytm wyboru testu istotności różnic. Niezależnie od tego, jaka będzie odpowiedź na pierwsze pytanie, psycholog musi rozstrzygnąć kwestię dotyczącą skali pomiarowej zmiennej zależnej (por. pkt. 2.5.). Rysunek 11.1 pokazuje, iż są tu trzy możliwości wyboru. Dwie z nich: skala porządkowa i skala nominalna prowadzą badacza wprost do danej klasy testów istotności: (d), (e), (g), (h) — przykładowo reprezentowanej przez najbardziej znane i najczęściej stosowane w praktyce badawczej psychologów klinicznych testy istotności. Trzecia odpowiedź: „skala ilorazowa i interwałowa" daje początek bardziej skomplikowanej drodze wyboru testu. Prowadzi ona do testów parametrycznych, a 272
te, jak wiemy z lektury pkt. 2.3. i 2.4., wymagają spełnienia przez materiał empiryczny dodatkowych założeń. Są one uwidocznione na rys. 11.1 w postaci pytań. Jedno z założeń dotyczy rozkładu w populacji analizowanej zmiennej zależnej. Jeżeli jest on normalny, to możemy zastosować test z grup: (a)-(c). Jeżeli tak nie jest, to musimy zastosować test z grupy (d). Następnie orientujemy się w liczebności grup. Jeżeli są one duże (tu za dolną granicę liczebności uznaje się: n = 30), to wybór pada na test z (przez niektórych autorów, np. Grenia (1975, 1984) określany mianem testu u). W przypadku małych grup odwołujemy się do testu f-Studenta. Ważnym założeniem, które musi być spełnione, aby posługiwanie się testem / było poprawne, jest założenie homogeniczności wariancji rozkładów zmiennej zależnej w porównywanych populacjach (por. pkt. 2.4.). To, czy wariancje są homogeniczne, a tym samym czy mamy prawo posłużyć się testem t do sprawdzenia istotności różnic między średnimi w dwóch grupach porównawczych, okazuje się po zastosowaniu pomocniczego testu jednorodności wariancji (por. pkt. 2.4). Jeżeli wariancje nie są jednorodne, to — jak pokazuje blok (c) na rys. 11.1 — posłużyć się musimy testem Cochrana i Cox lub testem Welcha. Podobnie postępujemy w przypadku większej od 2 liczby grup porównawczych.
4. Wybór optymalnego testu statystycznego — grupy (dane) zależne 4.1. Najbardziej rozpowszechnione testy statystyczne w praktyce badawczej psychologów Podobnie jak w pkt. 3. scharakteryzuję obecnie podstawowe testy statystyczne wyszczególnione na rys. 11.2, w blokach: (a)-(g). (a)-(b) Test z oraz test t-Studenta. Rozpoczynam — tak jak w pkt. 3.1 — od bardziej popularnego i częściej wykorzystywanego przez psychologów testu t. Z jego pomocą sprawdzamy hipotezę postaci: Ho: fid = 0, tzn. średnia fid w populacji różnic równa jest zero. Zakłada się tu, że z danej populacji podlega losowaniu mała próba o liczebności n. Każda osoba badana jest dwukrotnie — przed i po postępowaniu eksperymentalnym (np. psychoterapii). Dla każdej k-tej osoby badanej oblicza się różnicę: dk = yxk-y2k- Zakłada się, że rozkład wartości d w populacji jest normalny. Nieznaną wartość wariancji tego rozkładu badacz zastępuje wartością sjj obliczoną dla małej próby. Statystyka t przyjmuje postać daną wzorem (11.13): t = dj
/ n(n-l) > 2 (11.13)
gdzie: d — średnia różnic obliczona dla n par wyników; d ma — przy założeniu słuszności H o — rozkład r-Studenta o stopniach swobody df=n- 1. Odrzucamy 273
(a)
(Ł>)
(c)
(d)
(e)
(f)
(9)
Rys. 11.2. Algorytm wyboru testu istotności różnic — dane zależne
H o , jeżeli: \t\ ^ t a/2 ^f (test dwustronny), t 3" t ndf (test lewostronny).
(test prawostronny), / ^ -t^ą
W przypadku, gdy n jest duże, korzystamy z testu z dla danych zależnych. Literatura: Oktaba (1966, 1980), Blalock (1975), Guilford (1964), Greń (1984). (c) Test T-Wilcoxona. Z populacji losujemy próbę «-e!ementową. Dla każdej z n osób dokonujemy pomiaru zmiennej zależnej przed i po wprowadzeniu postępowania eksperymentalnego. Następnie obliczamy dla &-tej osoby wartość różnicy: dk - y\k - y2k- P° wyeliminowaniu z dalszych analiz par wyników, dla których dk = 0, rangujemy bezwzględne wartości różnic, tj. \dk\ od wartości najniższej do najwyższej. Następnie oddzielnie sumujemy te rangi, które zostały przypisane różnicom: d k > 0 i oddzielnie te rangi, które zostały przypisane różnicom: d k < 0. 274
Mniejsza z dwóch sum stanowi statystykę T. Hipoteza zerowa zakłada, że suma rang różnic o ujemnym znaku jest równa sumie rang różnic o znaku dodatnim, czyli T równe jest połowie całkowitej sumy rang. Im bardziej otrzymana wartość T odbiega od zakładanej przez Ho wartości 7", tym bardziej zwiększają się szansę odrzucenia HQ. Tak więc odrzucamy //0, gdy T^ Ta. Test T występuje w dwóch wariantach: (x) dla liczby par o d k*Q, która zawiera się w przedziale: 6-25. Wartości krytyczne statystyki T zawarte są w specjalnych tablicach statystycznych (por. literatura). (xx) dla liczby par o dk ^ 0, które przewyższą 25, rozkład T z próby jest w przybliżeniu normalny o średniej (i, i wariancji o\ (n > 25):
Następnie obliczamy wartość statystyki z ze wzoru (11.14):
(11.14) test
atf0 odrzucamy, gdy: \z\ *= Zan. ( dwustronny), z ^ za (test prawostronny), z ^-z„ (test lewostronny). Literatura: Brzeziński (1975a), Jaworowska, Michalićka (1978), Blalock (1975), Domański (1978). (d) Test McNemara. Test ten stosujemy w analogicznych warunkach jak test Wilcoxona, z tą tylko różnicą, że zmienna zależna mierzona jest na skali nominaloej. Dokładniej traktuje się ją jako dychotomiczną („0-1")- Każdą z n osób ocenia się dwukrotnie: przed i po (brak poprawy — poprawa) wprowadzeniu postępowania eksperymentalnego. Następnie sporządzamy tabelę typu: 2 x 2 :
Hipoteza zerowa mówi, iż połowa zmian: (a+d):2 będzie typu: 1-0, a połowa typu: 0-1. Mówiąc inaczej, oddziaływanie psychologa (np. psychoterapeuty) nie ma wpKwu na zmienną zależną. Następnie obliczamy wartość statystyki z2 wg wzoru (11.15): (11-15) Możemy korzystać z powyższego wzoru, jeżeli [(a + d): 2] 5= 5. Literatura: Brzeziński (1975a), Jaworowska, Michalićka (1978), Siegel (1956). (e) Test F — analizy wariancji. Por. pkt. 3.1 — blok (f). W przypadku jednak 275
1
(tu omawianym) grup zależnych badacz musi sprawdzić czy spełnione jest dodatkowe założenie o symetrii i równości macierzy wariancji-kowariancji (por. Brzeziński, Stachowski, 1984, s. 133-159). Gdy zastosowane testy Boxa (1950; także: Brzeziński, Stachowski, 1984, s. 146-159) dadzą wynik negatywny, to badacz powinien odwołać się do tzw. testu konserwatywnego F i dokładnego testu 7"2-Hotellinga (tamże, s. 159-164 — por. zwłaszcza rys. 3.1, s. 161). (f) Test S-Friedmana. Testem tym posługujemy się w podobnych warunkach (inna jest tylko liczba przeprowadzanych pomiarów na każdej osobie badanej) jak te, w których znajduje zastosowanie test r-Wilcoxona. Tutaj wylosowaną z populacji próbę poddajemy działaniu p (p > 2) warunków eksperymentalnych (np. p spotkań terapeutycznych kończących się pomiarem poziomu samoakceptacji lub poziomu lęku społecznego). Wyniki umieszczamy w tabeli o liczbie wierszy odpowiadającej liczbie osób i liczbie kolumn odpowiadającej liczbie przeprowadzonych na każdej osobie pomiarów zmiennej zależnej. Następnie rangujemy wyniki (dla każdej osoby oddzielnie) — od wyniku najniższego do najwyższego. W kolejnym kroku obliczamy wartość statystyki 5 wg wzoru (11.16): (11.16) gdzie: RL — suma rang w /-tym pomiarze zmiennej zależnej (/-tej kolumnie tabeli wynikowej). Odrzucamy H a , o pochodzeniu p prób z tej samej populacji, jeżeli: 5 S 5 S(a, p, ń). Wartości krytyczne statystyki S dla: (a) k = 3 i n = 2,..., 13, (b) k = 4 i n = 2,..., 8, (c) & = 5 i« = 3,..., 5, zawarte są w specjalnych tablicach, które podają Jaworowska i Michalicka (1978). Dla większych n statystyka S ma w przybliżeniu rozkład %2 ze stopniami swobody df=p- 1. Odrzucamy Ho, jeżeli S^/^ Xa,df ■ W przypadku występowania rang wiązanych stosujemy test S z odpowiednią poprawką. Literatura: Blalock (1975), Jaworowska, Michalicka (1978), Brzeziński, Maruszewski (1981). (g) Test Q-Cochrana. W przypadku testu McNemary traktowano zmienną zależną jako dychotomiezną, a jej pomiaru dokonywano dwukrotnie: „przed" i „po". Tutaj także traktuje się zmienną zależną jako „0-1" punktową, ale dokonuje się całej serii — p (p>2) — pomiarów. Wyniki zapisuje się w tabeli o liczbie wierszy odpowiadającej liczbie przebadanych osób oraz liczbie kolumn odpowiadającej liczbie pomiarów zmiennej zależnej. Wyniki wpisuje się w postaci „0-1". Wartość statystyki Q oblicza się wg wzoru (11.17):
276
gdzie: yL — suma wyników w /-tym pomiarze (/-tej kolumnie) zmiennej zależnej; p — suma wyników dla £-tej osoby badanej (£-tego wiersza). Jeżeli n nie jest zbyt małe, to Q ma w przybliżeniu rozkład z2, ze stopniami swobody df=p- 1. Odrzucamy Ho jeżeli: Q 5= x%df ■ Literatura: Jaworowska, Michalicka (1978).
4.2. Algorytm wyboru optymalnego testu W pkt. 3.1 zapoznaliśmy się z zasadami postępowania badacza w sytuacji wyboru optymalnego testu istotności różnic. To, co jednak różni opisane tam postępowanie przy dokonywaniu wyboru optymalnego, do charakteru danych empirycznych testu, od postępowania opisanego w tym punkcie, to charakter grup porównawczych. W pierwszym przypadku mówiło się bowiem o grupach (danych) niezależnych. Tutaj natomiast mówi się o grupach (danych) zależnych. Najczęstszą sytuacją badawczą, w której badacz, psycholog czy pedagog, spotyka się z danymi zależnymi, jest sytuacja empirycznej kontroli skuteczności różnorakich zabiegów psychokorekcyjnych (różne odmiany psychoterapii, oddziaływania o charakterze rehabilitacyjnym, itp.) czy edukacyjnych. Praktyka badawcza psychologii pokazuje, iż dane zależne można w opisanej wyżej sytuacji uzyskać w dwojaki sposób: (a) przez porównanie stanu „początkowego" ze stanem „końcowym" zmiennej zależnej, przy czym pomiary tej zmiennej przeprowadzane są na tej samej grupie osób badanych (albo na grupach równoważnych, uzyskanych metodą „doboru pa rami" — por. rozdz. 12., pkt. 2.2.1); (b) przez przeprowadzenie serii p(p>2) porównań stanów zmiennej zależnej: „pierwszego", „drugiego", ..., „ostatniego", przy czym pomiary te są przeprowa dzane na tej samej grupie (lub p grupach równoważnych). W efekcie takiego rozróżnienia mamy dwa podzbiory testów. Algorytm wyboru testu istotności dla danych zależnych pokazuje rys. 11.2. Jest on skonstruowany podobnie jak algorytm z rys. 11.1 (por. jego opis w pkt. 3.2).
5. Podsumowanie Psychologowie testując hipotezy statystyczne stosunkowo często sięgają po testy nieparametryczne — z uwagi na niezbyt doskonałe narzędzia pomiarowe, gwarantujące pomiar zmiennych dość często co najwyżej na poziomie skali porządkowej, a bardzo rzadko na poziomie skali interwałowej. Stąd bardzo bogata literatura dotycząca testów nieparametrycznych. Trzeba jednak pamiętać, że nie zawsze wybór testu nieparametrycznego jest wyborem trafnym. Jest to wybór nietrafny, gdy badacz może posłużyć się — bo pozwala na to natura pomiarowa zmiennej oraz 277
charakter rozkładu zmiennej zależnej w populacji — odpowiednim testem parametrycznym. Ponieważ dobór odpowiedniego testu istotności różnic nie jest zadaniem łatwym dla psychologa nie dysponującego odpowiednim doświadczeniem w tym zakresie, więc rozdział ten stanowił, w intencji autora, rodzaj przewodnika po testach istotności różnic — zwłaszcza tych, które najczęściej stosowane są w praktyce badawczej psychologów. Czytelnikowi zainteresowanemu testami nieparametrycznymi polecam książkę zawierającą bogaty ich wybór: Domański Cz. Statystyczne testy nieparametryczne. Wybór testów nieparametrycznych przedstawia też artykuł (zawierający również komplet tablic statystycznych do prezentowanych testów): Jaworowska A., Michalićka M. Zastosowanie niektórych testów nieparametrycznych w badaniach psychologicznych i pedagogicznych. Warto sięgnąć też do podręczników: Góralski A. Metody opisu i wnioskowania statystycznego w psychologii (rozdz. 10.: Testy istotności dotyczące miar położenia); Guilford J. P. Podstawowe metody statystyczne w psychologii i pedagogice. Testy parametryczne, takie jak test z i test t, przedstawione zostały — poza podręcznikami Góralskiego i Guilforda — w: Greń J. Statystyka matematyczna — modele i zadania; Blalock H. M. Statystyka dla socjologów (podręcznik ten zawiera także omówienie kilku najbardziej rozpowszechnionych testów nieparametrycznych). Analizę wariancji (test F) w zastosowaniach do eksperymentalnych badań psychologicznych przedstawiają: Brzeziński J., Stachowski R. Zastosowanie analizy wariancji w eksperymentalnych badaniach psychologicznych. Nieparametryczną analizę trendu między zmiennymi (zmienna zależna mierzona na skali porządkowej) omawiają: Brzeziński J., Maruszewski T. Nieparametryczne analizy statystyczne w protoidealizacyjnym modelu nauki.
modele sprawdzania hipotez
■
część IV
W czwartym kroku procesu badawczego (por. rozdz.l. pkt 6.) psycholog musi dokonać wyboru modelu badawczego, zgodnie z którym przeprowadzi badania empiryczne nastawione na sprawdzanie hipotezy badawczej. Jak sądzę, pierwszym, podstawowym kryterium wyróżniania różnych podejść (modeli) badawczych jest kryterium manipulacji zmienną (zmiennymi) niezależną-główną (niezależnymi-głównymi). Możemy tedy wyróżnić dwie klasy modeli badawczych: (aO zakładające manipulację co najmniej jedną zmienną niezależną, (a2 ) wykluczające manipulację zmiennymi niezależnymi. Drugim z kolei kryterium jest kryterium jednoczesności oddziaływania zmiennej X na zmienną Y oraz pomiaru skutków tego oddziaływania. I w tym przypadku wyróżnić możemy dwie odmiany modeli: (bi) zakładające równoczesność oddziaływania jednej zmiennej na drugą oraz pomiaru skutków tego oddziaływania; w momencie oddziaływania zmiennej X na zmienną Y („dziś") badacz dokonuje pomiaru skutków tego oddziaływania (także „dziś"); (b 2) zakładające przesunięcie w czasie oddziaływania zmiennej X na zmienną Y oraz pomiaru skutków tego oddziaływania. Jeśli chodzi o b 2ł to umownie przyjmujemy, iż możemy mieć do czynienia z dwiema możliwościami: (t>2-l) „wczoraj-dziś" — zmienna X oddziaływała na zmienną Y w mniej lub bardziej odległej przeszłości („wczoraj"), przez krótszy lub dłuższy okres czasu, a badacz „dziś" (tzw. posttest) próbuje dokonać identyfikacji owej zmiennej oraz określić wielkość tego oddziaływania; (t>2-2) „dziś-jutro" — zmienna X oddziałuje na zmienną Y w momencie określonym przez badacza („dziś"), który jednocześnie (bezpośrednio po, czyli Jutro" — posttest — albo także w trakcie — tzw. intertest) dokonuje pomiaru skutków tego oddziaływania; dość często badacz dokonuje także pomiaru zmiennej Y bezpośrednio przed — tzw. pretest. Model badawczy, który zakłada manipulację co najmniej jedną zmienną niezależną, czyli a|T to model eksperymentalny (będzie o nim mowa w rozdz. 12.). Modele, które owej manipulacji nie zakładają, czyli a 2 , to: model wielokrotnej regresji, też znany jako model korelacyjny (takiego określenia użył Cronbach, 1957, 1975) czy jako model wielokrotnej regresji/korelacji, MCR (wg Cohen i Cohena, 1983 — multiple regression/correlation model) — będzie o nim mowa w rozdz. 13. — oraz model ex post facto (będzie o nim mowa w rozdz. 14.). W przypadku modelu ex post facto jest to badanie typu „wczoraj-dziś" (b2-l). Z kolei model eksperymentalny mieści się w schemacie badania „dziśjutro" (b 2 -2). W przypadku modelu wielokrotnej regresji jest to badanie typu „dziś-dziś" (b(). Schematycznie owe trzy odmiany modeli badawczych wykorzystywanych w praktyce badawczej psychologów zostały przedstawione na rys. IV. 1. 280
R;s. IV.1. Odmiany modeli badawczych, wyróżnione w zależności od czasu zadziałania zmiennej Kzależnej X na zmienną zależną Y oraz czasu dokonania pomiaru skutków tego oddziaływania
Rozdział 12. Model eksperymentalny (E) 1. Wprowadzenie O dojrzałości danej dyscypliny empirycznej świadczy to, w jakim stopniu formułowane w jej obrębie hipotezy sprawdzane są na drodze eksperymentalnej. Najbardziej pod tym względem zaawansowana jest fizyka, a stosunkowo mniej psychologia. Jak pisze Kozielecki (1995, s. 284), jest ona nadal dyscypliną „rozwijającą się". Jeśli chodzi o psychologię, a zwłaszcza o niektóre jej działy, takie jak psychofizyka, psychologia uczenia się i pamięci, psychologia emocji czy psychologiczna teoria decyzji, to prawie wszystkie hipotezy wysuwane przez badaczy sprawdzane są w warunkach eksperymentu laboratoryjnego. Niemniej psycholog kliniczny czy psycholog wychowawczy jeszcze niezbyt często odwohiją się, w praktyce badawczej, do eksperymentu jako metody uzasadniania hipotez roboczych. Nadal dominującym w ich warsztacie badawczym pozostaje opisany w rozdz. 14. model ex post facto. Coraz więcej jednak psychologów sięga po eksperyment jako najbardziej efektywną metodę sprawdzania — w warunkach kontrolowanych! — hipotez badawczych. Jednym z gorących orędowników oparcia psychologii społecznej (jak się wydaje raczej „jakościowej" pod względem metodologicznym gałęzi psychologii) na systemie twierdzeń sprawdzonych w laboratorium psychologicznym jest wybitny psycholog społeczny, autor znanej i w Polsce z kilku wydań, monografii Człowiek istota społeczna (Aronson, 1995) i współedytor monumentalnego, kilkutomowego podręcznika The Handbook of social psychology (por. Lindzey, Aronson, 1968-1969). Elliot Aronson tak uzasadnił powody, dla których psychologowie społeczni prowadzą eksperymenty: aby uzyskać „definitywne dowody" na rzecz jakiegoś twierdzenia psychologicznego należy zaprojektować eksperyment, który pozwoli „...kontrolować uboczne zmienne i sprawdzić wpływ błędu na atrakcyjność' (w tym konkretnym przykładzie jest to zmienna zależna — przyp. J.B.) w mniej złożonej sytuacji. Z tego właśnie powodu psychologowie społeczni przeprowadzają eksperymenty. Chociaż niektóre eksperymenty są interesujące i fascynujące pod względem formy, jak i treści, to jednak proces projektowania i przeprowadzania eksperymentów w psychologii społecznej nie jest zabawą ani żartem. Jest to cza282
sochłonna i mozolna praca, która ponadto prawie zawsze stawia eksperymentatora w sytuacji trudnej z etycznego punktu widzenia. W dodatku eksperymentator, dążąc do zapewnienia kontroli, musi często wymyślać sytuacje mało przypominające tę sytuację ze świata rzeczywistego, z której zaczerpnął swój pierwotny pomysł. Istotnie, często wysuwa się zarzut, że eksperymenty laboratoryjne są nierealistycznymi i «wymyślonymi» imitacjami ludzkich interakcji, nie odzwierciedlają w ogóle «rzeczywistego świata». Czy jednak jest to prawdą?" (Aronson, 1995, s. 495—496). Wraz z rozwojem świadomości metodologicznej badaczy-psychologów i doskonaleniem stosowanych przez nich narzędzi pomiarowych wzrasta rola modelu eksperymentalnego w projektowaniu badań empirycznych nastawionych na kontrolę lempiryczną formułowanych przez psychologów twierdzeń naukowych (a właściwie V- odwołując się do terminologii stosowanej przez Patryasa, 1976, s. 8-9 — „twierdzeń pretendujących" do tego, aby je uznać za twierdzenia naukowe). Odwołajmy się jeszcze raz do wypowiedzi znanego psychologa, tym razem rodzimego: „Poznawcze i praktyczne znaczenie teorii w dużej mierze zależy od metod formułowania jej twierdzeń i uzasadniania. Jeśli np. twierdzenia teorii cząstek elementarnych mają większą wartość predyktywną i wyjaśniającą niż twierdzenia teoIrii dydaktycznych, to przede wszystkim dlatego, że te pierwsze zostały sformułowane i zweryfikowane za pomocą rzetelnych metod formalnych i empirycznych (eksperymentalnych — przyp. J. B.) (...) Czy psychologia współczesna ma do dysIpozycji taką «dobrą metodę»? Chociaż jest ona nauką młodą i nie osiągnęła takiego stopnia rozwoju jak nauki zaawansowane (tzw. hard sciences), to jednak w ostat[nich latach psychologowie opracowali wiele rzetelnych metod i technik badawIczych, które pozwalają na poprawne formułowanie dobrze uzasadnionych twierdzeń [naukowych. (...) O ile w pewnych naukach, np. ekonomii, eksperyment traktuje się Ijako metodę pomocniczą, o tyle w psychologii jest on bez wątpienia metodą doIninującą. Droga do poznania zachowania się człowieka prowadzi przez laboratorium' (Kozielecki, 1975, s. 20-21). Dodajmy jeszcze, że w latach, które dzielą [moment napisania tych słów od dnia dzisiejszego bardzo wzrósł dostęp przeciętnego badacza do komputera oraz do dobrych bibliotek oprogramowania statystyczne-\p. To zaś sprawiło, że praktycznie każdy badacz może — bez pomocy specjalisty I od komputerów i statystyki — samodzielnie zaprojektować badanie eksperymental-|K oparte na statystycznym modelu jednozmiennowej (w sensie uwzględnienia w lianie eksperymentalnym jednej zmiennej zależnej) analizy wariancji ANOVA czy Iwielozmiennowej (w sensie uwzględnienia wielu zmiennych zależnych) analizy waImncji MANOVA oraz, także samodzielnie, przeprowadzić skomplikowane obliczeI na statystyczne. Pisząc, wraz z kolegą, ponad 15 lat temu, pierwszy polski I podręcznik analizy wariancji adresowany do psychologów — Zastosowanie analizy wmńancji w eksperymentalnych badaniach psychologicznych (Brzeziński, StachoIwski. 1984) — nie zakładaliśmy tak gwałtownego rozwoju komputerów osobistych m związanego z tym dostępu do łatwego w użyciu oprogramowania statystycznego I m. in. ANOVA), takiego jak pakiet SPSS PC+ czy CSS STATISTICA. Dziś ■ uleżałoby ten podręcznik napisać inaczej, np. zrezygnować z podawania wzorów 283
w postaci ułatwiającej obliczanie poszczególnych składowych złożonych wzorów ANOVA za pomocą kalkulatora. Model eksperymentalny niewiele ma jednak wspólnego z rozpowszechnionym w społeczeństwie pojęciem eksperymentu. Wymaga on, i należy to wyraźnie zaakcentować, aby badacz podporządkował się określonym rygorom natury metodologicznej i techniczno-organizacyjnej. Nie można go stosować ad hoc, a wręcz przeciwnie — wymaga on dokładnego zaplanowania całego toku postępowania badawczego oraz spełnienia określonych założeń — w tym związanych z przyjętym modelem statystycznym opracowania (statystycznego) danych z badania empirycznego. Planowanie to związane jest też z wyborem adekwatnego, do sformułowanej przez badacza hipotezy badawczej, planu eksperymentalnego. Poświęcę tej problematyce w tym rozdziale sporo miejsca. Chciałbym bowiem zapoznać Czytelnika z podstawowym zestawem takich planów wraz ze wskazówkami, które mają mu ułatwić wybór tego spośród nich, który będzie najbardziej odpowiedni do sformułowanej przez badacza hipotezy badawczej.
2. Charakterystyka modelu eksperymentalnego (E) 2.1. Model eksperymentalny (E) a model quasi-eksperymentalny (qE) Zanim podam dokładną definicję modelu eksperymentalnego i jego słabszej odmiany — modelu quasi-eksperymentalnego, przytoczę jego definicje podawane przez autorów prac z zakresu metodologii badań behawioralnych (a więc — przypominam — psychologii, socjologii, pedagogiki itp.). Poprzez ich analizę spróbuję wyeksplikować taką definicję modelu eksperymentalnego, w której wystąpiłyby wszystkie jego istotne cechy. Definicje, o których mowa i które zostaną niżej przytoczone, różnią się między sobą stopniem precyzji definiowania, rozłożeniem akcentów na różne cechy modelu eksperymentalnego i, wreszcie, różnią się pominięciem niektórych (zdaniem danego autora) nieistotnych czy mniej istotnych cech, a uwzględnieniem czy uwypukleniem innych, jako istotnych. 1. W ujęciu Campbella i Stanleya (1967, s. 171) „przez eksperyment rozumie się ten typ badania, w którym manipuluje się pewnymi zmiennymi i obserwuje ich wpływ na inne zmienne". Jak nietrudno zauważyć, jest to definicja dość ogólnikowa; mówi ona bowiem ogólnie o manipulowaniu „pewnymi zmiennymi",.nie precyzując jakie to zmienne, oraz o obserwowaniu wpływów tych zmiennych na inne zmienne. Nie precyzuje jednak, na czym ta manipulacja ma polegać. 2. Podobną definicję podaje Kerlinger (1986, s. 293): „Eksperyment to ta ki rodzaj badania naukowego, w którym badacz manipuluje i kontroluje jedną lub więcej zmiennych niezależnych oraz obserwuje zmienną czy zmienne zależ284
ne z punktu widzenia tych zmian jakie towarzyszą manipulacji zmiennymi niezależnymi". 3. Z kolei Wolman (1973, s. 132) tak definiuje eksperyment: „Eksperyment to takie kontrolowane ustawienie i manipulowanie warunkami, aby w sposób sy stematyczny obserwować poszczególne zjawiska w celu określenia wpływów, ja kim podlegają i związków, w jakie wchodzą. Zmienne te i warunki w eksperymen cie stanowią zmienną eksperymentalną, którą badacz w sposób systematyczny ma nipuluje czy zmienia. Zmienna zależna to zjawisko, które ma być obserwowane i co do którego zakłada się, że zmienia się pod wpływem manipulowania zmienną eksperymentalną. Wszystkie okoliczności uboczne tak dalece, jak to możliwe utrzy muje się na stałym poziomie, aby nie zaciemniały (właściwych) rezultatów". Jednakże i ta definicja nie precyzuje istoty manipulowania zmiennymi. Mówi jedynie, co należy czynić ze zmiennymi niezależnymi-ubocznymi. 4. Równie szczegółowa jest definicja czwarta, która wylicza co badacz musi robić chcąc posłużyć się eksperymentem: „W badaniu o charakterze eksperymendnym badacz musi ( I ) ustalić wartości albo kategorie zmiennej (zmiennych) nieależnej, które mają być porównywane, (2) wyselekcjonować osoby do badań, 3) zastosować procedury, na mocy których badanym przydziela się poszczególne wartości lub kategorie zmiennej niezależnej, (4) sprecyzować — jakiego typu oberwacji czy pomiarów należy dokonać odnośnie każdego badanego" (Ferguson, fakane, 1989, s. 237). 5. Wedle Wigginsa (1968, s. 392): „Metoda eksperymentalna polega na mani)ulowaniu, przez eksperymentatora, zmiennością jednej lub większej liczby zmieniych niezależnych, a następnie dokonaniu pomiaru zmienności zmiennej lub zmien nych zależnych". Nie jest to definicja tak szczegółowa, jak obie poprzednie, ale uwzględnia ona takie istotne cechy eksperymentu, jak manipulacja i pomiar. 6. Kolejna, szósta, definicja zbliżona jest do poprzedniej: „W badaniach o cha rakterze przyczynowym (causal research) eksperyment ma dwie zalety w stosunku do badania surveyowego: po pierwsze, badacz może tak jak chce manipulować bodźcami, określając ich intensywność i czas trwania; po drugie, może decydować, wobec których badanych osób zastosuje każdy bodziec. Podejście eksperymentalne zezwala na losowe przydzielanie bodźców badanym, wyrównując różnice między nimi przed zadziałaniem bodźca" (Ross, Smith, 1968, s. 333). 7. Sułek (1979, s. 15) podał następującą definicję: „Eksperyment jest to po wtarzalny zabieg polegający na planowej zmianie przez badacza jednych czynni ków w badanej sytuacji, przy równoczesnej kontroli innych czynników, podjęty w celu uzyskania w drodze obserwacji odpowiedzi na pytanie o skutki tej zmiany". Biorąc pod uwagę wszystkie definicje jednocześnie, można sporządzić listę istotnych cech eksperymentu odróżniających go od innych modeli badawczych. Będą to zatem następujące cechy: (1) manipulacja — co najmniej jedną zmienną niezależną (wedle przyjętej w nzdz. 7., pkt. 5. klasyfikacji zmiennych, będzie to zmienna niezależna-główna);
285
(2) kontrola — zmiennych niezależnych-ubocznych i zmiennych niezależnych- zakłócających zaliczonych przez badacza do O(PY ); (3) obserwacja / pomiar — zmienności zmiennej zależnej wywołanej zamie rzonymi (intencjonalnymi) przez badacza wpływami na nią zmiennej (zmiennych) niezależnej-głównej. Sądzę, że po tych wstępnych objaśnieniach można się pokusić o skonstruowanie własnej definicji modelu eksperymentalnego. Oto ona: Model eksperymentalny (E), to taki model sprawdzania hipotez o zależnościach miedzy zmienną (zmiennymi) zależną i zmienną (zmiennymi) niezależną-główną, który zakłada: (a) manipulację co najmniej jedną zmienną niezależną-główną, (b) kontrolowanie pozostałych zmiennych, ubocznych i zakłócających uzna nych przez badacza za istotne dla zmiennej zależnej, oraz (c) dokonywanie pomiaru zmienności zmiennej (zmiennych) zależnej, spo wodowanej zamierzonym przez badacza oddziaływaniem na nią (na nie) zmiennej (zmiennych) niezależnej-głównej. Manipulowanie zmienną niezależną-główną polega na przydzielaniu poszczególnych jej wartości (ze zbioru liczącego co najmniej dwie wartości!) osobom badanym z próby pobranej przez badacza z populacji (w jaki sposób ta próba powinna być pobierana z populacji — por. rozdz. 9.) tak. aby jednej osobie przypisywana była tylko jedna wartość zmiennej lub jedna kombinacja wartości zmiennych, gdy ich liczba jest większa. Manipulowanie zmiennymi, o którym mówi model eksperymentalny, to nie jakiekolwiek przydzielanie wartości zmiennej (zmiennych) niezależnej-głównej osobom badanym. Owo przydzielanie musi się odbywać z respektowaniem zasady randomizacji, czyli przydzielania poszczególnych wartości jednej zmiennej niezależnej-głównej (lub jednej kombinacji zmiennych niezależnych, gdy ich liczba jest większa) w sposób losowy osobom badanym (więcej na ten temat w pkt. 2.3). Wymóg randomizacji jest bardzo ważny, a jego niespełnienie sprawia, że model eksperymentalny — nie odpowiadając wymogom definicyjnym — staje się modelem quasi-eksperymentalnym (qE). Podchodząc tak rygorystycznie do spełniania przez badacza wymogu randomizacji i, w konsekwencji, odmawiając statusu modelu E tym badaniom, które spełniają wymagania definicyjne, poza tym jednym, związanym z randomizacją, aprobuję tym samym, także rygorystyczne, w tej sprawie stanowisko, które zajęli Cook i Campbell (1979), wyróżniając „prawdziwe plany eksperymentalne" (true experimental designs) respektujące zasadę randomizacji i „plany quasi-eksperymentalne" {quasi-experimental designs). Przeciwnego zdania jest np. Krathwohl (1984, s. 467), który uważa, że te tzw. quasi-eksperymenty są i „popularne" i „użyteczne", a określanie mianem „prawdziwe" jedynie eksperymentów respektujących zasadę randomizacji może sugerować, że ich rezultaty nie podlegają alternatywnym wyjaśnieniom, jako że uzyskane zostały w „prawdziwym" eksperymencie. Można by się zgodzić z krytyką tego rozróżnienia, gdyby nie to, że badacz sięgający do metody eksperymentalnej zobowiązany jest — 286
0 czym Czytelnik przekona się w pkt. 4. niniejszego rozdziału — właśnie do roz patrzenia podatności uzyskanych z badania eksperymentalnego wyników na wpływ innych czynników, aniżeli te o których mówiła hipoteza badawcza, a więc do uwzględnienia wspomnianych „alternatywnych" wyjaśnień. Chciałbym tedy wyraźnie, jeszcze raz (!), podkreślić, iż w przypadku nieprzestrzegania przez badacza zasady randomizacji mieć będziemy do czynienia z pseudomanipulacją, a w konsekwencji jedynie z modelem qE! W najprostszym wariancie modelu E, badacz manipuluje jedną zmienną niezależną-główną, która — w sposób naturalny, albo wymuszony przez badacza — jest zmienną dwuwartościową („0-1")- W takim przypadku manipulowanie zmienną polega na tym, że badacz połowie osób z próby — na zasadzie losowej — przydziela wartość: „1", a drugiej połowie — wartość: „0". Stosunkowo często psychologowie decydują się na przeprowadzenie zabiegu dychotomizacji zakresu wartości zmiennej niezależnej, jeżeli, tak naprawdę, jest ona zmienną wielowartościową. Co więcej, ów zabieg dychotomizacji pojmowany jest dość specyficznie. Przyjęło się bowiem postępować według reguły: „wszystko albo nic" (ang. all-or-nothing), W jednej grupie, zwanej grupą eksperymentalną, przydziela się osobom badanym (rzecz jasna, że w sposób losowy!) określoną wartość zmiennej niezależnej-głównej, np. musi ona rozwiązywać określone zadania w „warunkach stresowych". „Warunki stresowe", to wartość „1" zmiennej niezależnejgłównej. Z kolei druga grupa, zwana grupą kontrolną, pracuje nad tymi samymi zadaniami, ale w „warunkach relaksowych". „Warunki relaksowe" to wartość „0" zmiennej niezależnej-głównej. Czytelnik zapewne zauważył, że w powyższym przykładzie posłużono się mało precyzyjnym określeniem: „warunki stresowe", czy „warunki relaksowe". Oczywiście badacz je operacyjnie doprecyzuje. Tutaj chciałem zwrócić jedynie uwagę na specyficzny sposób postępowania psychologów, który polega na tym, że „coś" się robi z osobami losowo przydzielonymi do grupy eksperymentalnej, czego nie robi się z osobami z grupy kontrolnej. Jedynie to „coś" powinno różnić między sobą osoby badane z obu grup. Określenie: „wszystko albo nic" jest bardzo trafne. 1 „Wszystko" oznacza bowiem wystawienie osób badanych z grupy eksperymentalnej na działanie warunków eksperymentalnych (np. stres, lęk, psychoterapia, hałas, środki farmakologiczne, treść instrukcji obniżającej samoocenę). Z kolei „nic" oznacza pozostawienie osób z grupy kontrolnej w warunkach komfortu psychicz nego i fizycznego, nie stresowanie ich, nie poddawanie psychoterapii, w miejsce leku podawanie im placebo itp. Od dobrze zaplanowanego eksperymentu oczekuje się, iż grupa eksperymen-t talna od grupy kontrolnej różni się jedynie co do wartości („0-1") zmiennej niezależnej-głównej. Pod każdym innym względem, uznanym przez badacza za istotny, grupy te są takie same (rzecz jasna w granicach założonego błędu). Grupy nie ; powinny się różnić pod względem płci, jeżeli ta zmienna została zaliczona, jako i zmienna niezależna-uboczna, do O(Py). Grupy mogą się różnić pod względem koloru oczu. jeżeli ta zmienna nie została uznana przez badacza za zmienną istotną I dla Y. Takie postępowanie wprost nawiązuje do kanonu (metody) różnicy, sfor287
mułowanego przez angielskiego fiłozofa i logika Johna Stuarta Milla, jako jednego z pięciu kanonów wnioskowania przyczynowego opisanych w jego wydanym w 1843 roku podstawowym dziele: System logiki dedukcyjnej i indukcyjnej (wyd. poi. 1962, t. 1 i 2). Kanon różnicy, stanowiący podstawę wnioskowania przez indukcję eliminacyjną, w oryginalnym sformułowaniu Milla brzmi następująco: „Jeżeli przypadek, w którym dane zjawisko badane zachodzi, oraz przypadek, w którym ono nie zachodzi, mają wszelkie okoliczności wspólne, wyjąwszy jedną, i przy tym ta jedna zachodzi tylko w przypadku pierwszym, to okoliczność, co do której jedynie te dwa przypadki się różnią, jest skutkiem albo przyczyną, albo nieodzowną częścią przyczyny danego zjawiska" (t. 1, s. 606). Przełóżmy pojęcia zawarte w Millowskim sformułowaniu kanonu różnicy na język, którym posługują się badacze-psychologowie. „...przypadek, w którym dane zjawisko badane zachodzi, oraz przypadek, w którym ono nie zachodzi", to wyróżnione przez badacza dwie grupy porównawcze — eksperymentalna i kontrolna — różniące się co do wartości zmiennej niezależnej-głównej (wartość „1" w grupie eksperymentalnej i wartość „0" w grupie kontrolnej). Z kolei: „...dane zjawisko badane...", to wartości zmiennej zależnej (odpowiadające wartości „1" zmiennej niezależnej-głównej), które — zgodnie z'oczekiwaniami badacza, wyartykułowanymi w hipotezie roboczej — przyjmuje ona dla osób z grupy eksperymentalnej („przypadek w którym badane zjawisko zachodzi"). Wartości zmiennej zależnej (odpowiadające wartości „0" zmiennej niezależnej-głównej) przyjmowane przez nią dla osób z grupy kontrolnej, to — wg Milla — niezachodzenie „danego zjawiska badanego". I dalej: „...okoliczności wspólne, wyjąwszy jedną...", to zmienne niezależne-uboczne i zmienne niezależne-zakłócające, zaliczone przez badacza do O(PY), które przyjmują te same (rzecz jasna w granicach dopuszczalnej przez badacza, bo uznanej za nieistotną, różnicy) wartości dla każdej osoby, tak z grupy eksperymentalnej, jak i z grupy kontrolnej. Inna sprawa, jak to, w sensie technicznym zrobić, ale o tym będzie jeszcze mowa. Ajdukiewicz (1965, s. 157-164) przeprowadził bardzo wnikliwą i krytyczną analizę wnioskowania opartego na kanonie różnicy i wykazał, iż w praktyce niemożliwe jest posłużenie się tą metodą. Słusznie bowiem zauważył on, iż: „...w rzeczywistości jednak ten, kto pragnie wykryć przyczynę jakiegoś zjawiska, nie jest tabuła rasa, nie jest wyzuty z wszelkiej teoretycznej wiedzy. Ta wiedza teoretyczna pozwala mu, gdy zaobserwuje w jakimś wypadku zjawisko B, którego przyczyny szuka, od razu wyróżnić spośród towarzyszących mu w tym wypadku zjawisk te, które mogłyby być tą przyczyną, i oddzielić je od wszystkich innych, które wprawdzie w tym wypadku również wystąpiły, ale o których wie skądinąd, że nie mogą mieć żadnego wpływu na zjawisko B. Nie zaczyna więc — jak chce Mili — od stwierdzenia, że przyczyną zjawiska B jest któreś z wyraźnie wyróżnionych spośród wszystkich zjawisk występujących w danym wypadku wraz ze zjawiskiem B, co do których przypuszcza, że mogą one mieć wpływ na zjawisko B, Zaczyna więc od razu od postawienia alternatywy, której członami nie są wszystkie zjawiska towarzyszące zjawisku B, ale niektóre z nich, wyraźnie wymienione" (s. 163-164). Zaproponowana przez Ajdukiewicza metoda wnioskowania przez indukcję eli288
minacyjną została przez niego wyartykułowana w postaci następującej praktycznej dyrektywy, która z kolei znalazła zastosowanie w wersji „wszystko albo nic" modelu E. Oto ona (Ajdukiewicz, 1965, s. 156-157): , Jeżeli chcesz znaleźć przyczynę zjawiska B, a wiadomo ci, że przyczyną tą jest zjawisko At lub A2, ..., lub An, rozwiążesz to zadanie, gdy uda ci się dla każdego ze zjawisk A u A 2 , ..., A n , z wyjątkiem jednego, znaleźć taki wypadek, w którym to zjawisko zachodzi, a nie zachodzi zjawisko B. Wtedy to jedno zjawisko, dla którego nie znalazłeś wypadku, w którym ono zachodziło, zaś brak było zjawiska B, możesz uznać za przyczynę iijawiska £". Badanie eksperymentalne zaplanowane zgodnie z powyższą dyrektywą musi być tak przeprowadzone, aby badacz miał mocną podstawę sądzić, iż — przy spełnieniu tych wymagań — rzeczywiście wykrył przyczynę obserwowanego skuti ku. Idzie bowiem o to, aby nie potraktował jako przyczyny „czegoś", co nią faktycznie nie jest. W tym miejscu warto przytoczyć przykład takiej pomyłki. Oka-j żuje się, iż w poszukiwaniu przyczyn pożarów powstających w miastach można dojść do takiego zaskakującego wniosku. Ta liczba zależy, i to bardzo wyraźnie, od ... liczby wozów bojowych, jaką dysponuje lokalna straż pożarna. Oczywiście jest to — mówiąc językiem fachowym — zależność pozorna. Gdyż, tak naprawdę, li liczba wybuchających w mieście pożarów, i liczba wozów bojowych straży poIżamej zależą od jednej rzeczywistej przyczyny, którą jest wielkość miasta wyrażana liczbą jego mieszkańców. Ktoś może powiedzieć, iż przykład jest odległy od psy-I chologii i na tyle „gruby", że żaden dostatecznie krytyczny badacz nie popełniłby I takiego jaskrawego błędu. Zapewne jest to słuszne, ale rzeczywistość, którą analilaje — z punktu widzenia psychologa — badacz jest o wiele bardziej złożona li „wykrywane" przez niego z mozołem zależności mogą mieć charakter pozorny, I tyle, że nie tak spektakularny, jak w opisanym wyżej przykładzie ze strażami pożarnymi i pożarami. Musi tedy badacz być bardzo krytyczny wobec tego co zarejes-I truje w przeprowadzonym badaniu. Współczesne, bardziej zaawansowane badania eksperymentalne nie są prowadzone wg takich prostych schematów „wszystko albo lnic1'. Jednakże są takie badania, dla których proste realizacje dyrektywy Ajdukiewi-I cza w zupełności wystarczą. Trzeba tylko krytycznie zdawać sobie sprawę z czyhaIjącego na badacza niebezpieczeństwa mówienia nie o faktach, a o artefaktach. Psychologowie dopracowali się specjalistycznej terminologii, którą posługują I się w kontekście modelu E w wersji „wszystko albo nic". I tak, zmienna niezależ-I na-główna, której wpływ na zmienną zależną starają się określić w eksperymencie, I lo postępowanie eksperymentalne (ang. experimenial treatment), albo też, ale rza-I dziej: czynnik eksperymentalny, zmienna eksperymentalna. Wartość „1" (wszystko) I zmiennej nie zależnej-głównej, to warunki eksperymentalne, a wartość „0" (nic), to ■ warunki kontrolne. Z eksperymentów farmakologicznych przejęto termin „placebo" I na określenie czegoś, co zewnętrznie przypomina lek, ale nim nie jest, np. podobna Icodo wielkości i koloru tabletka, która jest fizjologicznie obojętna dla organizmu, I ale badanemu sugeruje się, że jest to lek; podawanie placebo ma na celu wyełiI minowanie kontrwyjaśnienia, że to przekonanie (autosugestia) osoby badanej, iż ■W poddana terapii za pomocą „cudownego" leku miało status zmiennej niezależ289
nej-głównej, a nie — jak chciałby badacz — ów „cudowny lek". Czytelnik może też spotkać się z zawężeniem określenia „postępowanie eksperymentalne" do wartości „1" zmiennej niezależnej-głównej, czy jeszcze inaczej mówiąc — warunków eksperymentalnych. Oczywiście owe warunki eksperymentalne kontrastowane są z warunkami kontrolnymi, np. — odwołując się do prostej ilustracji — jeżeli mówimy, że badamy wpływ stresu psychologicznego na jakość i tempo rozwiązywania zadań umysłowych (zmienna zależna) przez kandydatów na pilotów, to tak naprawdę chcemy powiedzieć to, że badani rozwiązujący standardowy zestaw zadań w warunkach stresu psychologicznego (wartość „1" zmiennej niezależnej-głównej) byli (są) porównywani z badanymi rozwiązującymi identyczny zestaw zadań, ale w warunkach relaksu (wartość „0" zmiennej niezależnej-głównej). Zarejestrowane różnice w tempie i jakości rozwiązywania tych zadań przez obie grupy (zgodnie z dyrektywą indukcji eliminacyjnej Ajdukiewicza różniące się tylko co do nieistotnych cech, np. tu: koloru włosów czy karnacji skóry) tłumaczone będą tym, co obie grupy różniło, a różniło je, przypomnijmy, postępowanie eksperymentalne: „stres-brak stresu". Zapamiętajmy: jeżeli badacz analizuje zachowanie się tylko jednej grupy osób poddanych specyficznym oddziaływaniom, np. stresowi, to nie jest to eksperyment w wyłożonym wyżej sensie. Aby dane postępowanie badawcze mogło być uznane za eksperymentalne, niezbędne jest porównanie osób poddanych jakimś oddziaływaniom z osobami, które takim oddziaływaniom nie zostały poddane. Stąd też wymóg, aby do grupy eksperymentalnej dobrana została, ale nie w sposób całkowicie dowolny(!), grupa kontrolna. Wariant „wszystko albo nic" modelu E wymaga grupy kontrolnej, która jest tak samo ważna, jak grupa eksperymentalna. Mówienie, że przeprowadziło się badanie eksperymentalne, kiedy dysponowało się jedynie grupą eksperymentalną, jest nadużyciem. Ogólnie, w jakimkolwiek wariancie modelu E, zawsze muszą być uwzględnione co najmniej dwie grupy porównawcze, różniące się wartościami zmiennej niezależnej-głównej.
2.2. Pojęcie kontroli zmiennych niezależnych Tytułowe pojęcie kontroli, obok pojęcia manipulacji (w sensie: randomizacji) jest kluczowym pojęciem dookreśłającym model E. To „manipulacja" i „kontrola" odróżniają model E od wszystkich innych modeli badawczych, a w szczególności od modelu ex post facto (por. rozdz. 14.), którego istotną wadą jest właśnie niemożność manipulowania zmienną niezależną-główną i znacznie ograniczona kontrola zmiennych niezależnych, istotnych dla Y. Pojęciu kontroli zmiennych w kontekście modelu E będziemy nadawali dwojaki sens. Pierwszy, związany będzie z zabiegami „technicznymi", które psycholog-eksperymentator wykonuje w celu poddania kontroli zmiennych niezależnych istotnych dla Y. Podejmowane przez badacza zabiegi będą miały zróżnicowany charakter — w zależności od: 290
(a) możliwości stwarzanych przez dany plan eksperymentalny, (b) statusu pomiarowego poddanej operacjonalizacji zmiennej zależnej. Jeśli chodzi o (a), to możemy wyróżnić dwie klasy planów eksperymentalnych, które stwarzają różne możliwości kontroli zmiennych: (a-1) plany, w których badacz może analizować wpływ tylko jednej zmiennej niezależnej-giównej (ale tylko dwu wartościowej!) na zmienną Y— w odmianie „wszystko albo nic" modelu E, (a-2) plany, w których psycholog może badać wpływ dowolnej liczby zmiennych niezależnych (o dowolnej liczbie wartości) w odmianie opartej na statystycznym modelu analizy wariancji (ANOVA). Ta kontrola będzie miała ograniczony, i to znacznie, zasięg w przypadku realizacji (a-1). Będziemy ją tedy określać mianem — ograniczonej. Z kolei w przypadku (a-2) będzie ona miała charakter nieograniczony — i tak też będziemy ją określać. Przejdźmy teraz do (b), czyli do drugiego sensu terminu „kontrola". W tym przypadku jakość kontroli zmiennych niezależnych, uwzględnionych przez badacza w planie eksperymentalnym, będzie uzależniona od skali pomiarowej zmiennej zależnej Y. po przekształceniu jej w zmienną zoperacjonalizowaną (w sensie klasyfikacji Stevensa — por. rozdz. 7., pkt. 4.). Chcąc — i teraz trochę „wyprzedzam" to. o czym będzie mowa w następnym punkcie — precyzyjnie określić procentowy udział w całkowitej wariancji zmiennej zależnej Y tej jej części, która jest wyjaśniana wpływem na Y danej zmiennej niezależnej, kontrolowanej w eksperymencie przez psychologa, musimy ją poddać takiej operacjonalizacji, która będzie operowała co najmniej skalą interwałową. Musimy tedy, na przykład, określać poziom inteligencji za pomocą jakiejś standaryzowanej metody psychometrycznej — może to być wskaźnik IQ mierzony Skalą Inteligencji Wechslera WAIS-R (por. Brzeziński. Homowska, 1993b), ale nie może to być klasyfikowanie osób badanych wg ocen ekspertów na: „osoby o wysokiej inteligencji", „osoby o przeciętnej inteligen-I cji" i ..osoby o niskiej inteligencji" (tak skonstruowana zmienna ma status zmiennej nominalnej). Możemy zatem sformułować pierwsze zalecenie dla badacza. Powinien on. jeżeli zależy mu na precyzyjnym określeniu udziału każdej „kontrolowanej" zmiennej niezależnej w danym eksperymencie w wyjaśnianiu wariancji zmien-I rej zależnej, tak przeprowadzić operacjonalizację zmiennej zależnej, aby uzyskała I ona status zmiennej interwałowej lub ilorazowej. Będzie tedy możliwe posłużenie się wskaźnikami opisanymi w pkt. 7. niniejszego rozdziału. Niestety psychologia I Iw zasadzie nie dotyczy to jedynie psychofizyki, psychometrii, psychologii uczenia I Beczy psychologii podejmowania decyzji) nie jest pomiarowo i eksperymentalnie [ zaawansowana tak, jak nauki przyrodnicze i względnie często psychologowie ope-I racjonalizują zmienne zależne na poziomie skali nominalnej czy porządkowej, a to I „odcina" eksperymentatora od najprecyzyjniejszej i najbardziej eleganckiej metody I planowania eksperymentów, opartej na statystycznym modelu analizy wariancji. I Prawdę mówiąc chciałbym, aby eksperymenty przeprowadzane przez psychologów byk realizowane tylko w modelu ANOVA czy MANOVA! 291
2.2.1. Dwie metody kontroli zmiennych niezależnych, stosowane w planach jedno-jednozmiennowych, dwuwartościowych („0-1") Z klasycznym wariantem eksperymentu związane są dwie metody kontrolowania zmiennych niezależnych, które badacz zaliczył do O(PY) jako zmienne niezależne-uboczne i jako zmienne niezależne-zakłócające. Pierwsza polega na ustaleniu stałej wartości (lub stałego jej podzakresu) kontrolowanej w tej sposób zmiennej w obu grupach porównawczych — eksperymentalnej i kontrolnej. Oczywiście liczba grup, w miarę potrzeb, może być większa. Inny wariant polega na tym, że obie grupy porównawcze, eksperymentalną i kontrolną „wyrównuje się" w taki sposób, aby zagwarantować przybliżoną równość średnich i odchyleń standardowych rozkładów zmiennej zależnej w obu grupach przed wprowadzeniem manipulacji eksperymentalnej, a więc na etapie pomiaru początkowego zmiennej zależnej (pretestu). Mamy tu zatem do czynienia nie z ustalaniem stałych wartości zmiennych w obu porównywanych grupach, a jedynie z przybliżonym ustalaniem stałych wartości charakterystyk rozkładu zmiennej zależnej w obu grupach. Przyjmuje się, że jeżeli wariancje rozkładu zmiennej zależnej w grupie eksperymentalnej i w grupie kontrolnej są takie same (inaczej: są homogeniczne w sensie testu homogeniczności wariancji — Hartleya, Cochrana czy Bartletta; pierwszy z nich omawiam w pkt. 2.2.2 niniejszego rozdziału, a wszystkie trzy opisane zostały w: Brzeziński, Stachowski, 1984, rozdz. 3., s. 119-129) i średnie w obu grupach są takie same, to można uznać, iż zmienne niezależne istotne dla Y przyjmują w obu grupach zbliżone wartości, a w każdym razie ich skutki dla zmiennej zależnej Y są w przybliżeniu takie same. Ta metoda ma tę niedogodność, że w przypadku stwierdzenia nierówności średnich oraz heterogeniczności wariancji porównywanych rozkładów badacz jest zmuszony do ich „poprawienia" — poprzez, na przykład, ponowne rozlosowanie osób do porównywanych grup i ponowne przeprowadzenie testów istotności różnic między średnimi i homogeniczności wariancji. Operację tę można powtarzać, aż do uzyskania satysfakcjonującego rezultatu. Opisywana tu trudność nie wystąpi, jeżeli badacz pobierał próbę wg określonego schematu losowania (por. na ten temat: rozdz. 9.), z jednorodnej populacji. Może się też okazać, że badacz powinien, dla uzyskania pożądanego efektu, zwiększyć liczebność próby. A to wymaga dodatkowych środków, których może po prostu, zabraknąć. Druga metoda polega na tym, że badacz do każdej osoby z jednej grupy dobiera najbardziej do niej podobną (oczywiście pod względem wartości tylko tych zmiennych istotnych dla Y, które zamierza w danym badaniu w ten sposób kontrolować) osobę w drugiej grupie. Ten sposób postępowania można rozszerzyć na dowolną liczbę grup porównawczych. W przypadku tylko dwóch grup — a więc tak, jak w opisywanym tu wariancie modelu E — metoda ta jest znana pod nazwą metody doboru parami. Idealnymi osobami badanymi, z punktu widzenia tej metody kontroli zmiennych niezależnych, byłyby bliźnięta monozygotyczne. Badacz musi respektować wymóg braku wewnętrznego zróżnicowania każdej pary (minimalizacja wariancji wewnątrz par). Jednocześnie zaleca się, aby pary różniły się 292
miedzy sobą (maksymalizacja wariancji między parami). Po utworzeniu danej liczby par badacz przystępuje do losowego (!) rozdzielenia osób z poszczególnych par na dwie grupy — eksperymentalną i kontrolną. Przystępując do przeprowadzenia analizy statystycznej danych, po zakończeniu badania (wykonaniu pomiarów końcowych zmiennej Y, tzw. posttestów 10, należy pamiętać o tym, że — w terminologii statystycznej — tak utworzone grupy mają charakter grup zależnych (ang. related samples), a właściwymi testami istotności różnic między średnimi, które mogą być w tym przypadku zastosowane, są testy dla grup (danych) zależnych, np. test t dla danych zależnych. Analiza danych polega na porównywaniu wyników parami — wynik uzyskany przez osobę a, z każdej pary w grupie eksperymentalnej porównuje się z wynikiem uzyskanym przez osobę a, pochodzącą z tej samej pary, w grupie kontrolnej. Jest bardzo ważne, aby nie traktować danych z grup utworzonych za pomocą metody doboru parami jako grup niezależnych i aby posługiwać się testami adresowanymi do tych grup. Nie można, żeby się odwołać do jakiegoś przykładu, posłużyć się testem i Manna-Whitneya dla danych wyrażonych na skali porządkowej (test dla grup nie-, zależnych), ale trzeba posłużyć się jakimś jego odpowiednikiem dla grup zależnych I (takim jest test Wilcoxona). Antycypując tę trudność, podaję w pkt. 3. i 4., rozdz. 111., algorytmy wyboru optymalnego testu istotności różnic — między innymi z uwagi na kryterium: grupy niezależne/zależne. Jeżeli badacz nie uwzględni tego I wymogu jego postępowanie stanie się źródłem artefaktów. W przypadku rozszerzenia tej metody na dowolną liczbę grup porównaw-I czych mówimy o doborze wiązanym (ang. matching). Metoda ta, tylko nieco inaczej realizowana, ma zastosowanie w konstruowaniu planów eksperymentalnych I opartych na modelu ANOVA — układ bloków kompletnie randomizowanych (jego I opis w: Brzeziński, Stachowski, 1984, rozdz. 5.). W psychologii, z uwagi na niekiedy dużą złożoność teoretyczną analizowaI nych zmiennych (weźmy jako przykład taki konstrukt teoretyczny jakim jest „siła I ego" czy mniej „tajemnicza" zmienna jaką jest „doświadczenie życiowe jednostki") I może być czasem bardzo trudne czy nawet wręcz niemożliwe dobieranie par złoI żonych z różnych osób. Jeżeli założenia eksperymentu na to pozwalają, badacz I może tworzyć „pary" poprzez dwukrotne badanie tej samej osoby — raz w warunI kach eksperymentalnych (A), a raz w warunkach kontrolnych (B). lub na odwrót. I Mówiąc inaczej, każda osoba badana tworzy parę z ... samą sobą, gdyż raz znajduje I się ona w warunkach eksperymentalnych, a raz w kontrolnych. Ten sposób twoI rżenia ,,par", zalecany m. in. przez Siegeła (1956, s. 62), pozwala na skuteczniejszą I kontrolę zmiennych, niż pierwszy sposób. Mamy zatem następujące schematy polaowania: ABA. BAB. ABAB, BABA, czy nawet ABABAB, BABABA. OczyHftie, w eksperymentach, w których po każdym badaniu osoba badana nabiera I większej wprawy w wykonywaniu zadania (wskaźniki jego wykonania stanowią Btfc zmiennej zależnej) takie postępowanie nie może być zalecane. I to jest główBiłwada tej metody tworzenia par. Drugie ograniczenie związane jest z wątpliwo■oą. którą nie zawsze da się jednoznacznie rozwiązać. Jeżeli jakąś osobę najpierw Ibdamy w danych warunkach, obojętnie czy eksperymentalnych, czy kontrolnych, 293
to nasuwa się pytanie czy to, że uczestniczyła ona w badaniu (nabywając „ogłady'" laboratoryjnej) nie miało wpływu na jej zachowanie się w — zmienionych co prawda, ale w dużym stopniu podobnych (ta sama aparatura pomiarowa, ci sami eksperymentatorzy, te same testy psychologiczne itp.) — warunkach drugiego badania. Mówiąc inaczej, czy doświadczenie badawcze nie stało się nową zmienną niezależną-zakłócającą, która modyfikująco wpłynęła na wyniki pomiaru końcowego (posttestu) zmiennej zależnej Y, stając się nie kontrolowanym przez badacza dodatkowym źródłem wariancji zmiennej Yl Jest to trudne do jednoznacznego ustalenia. Rozwinięcie tej drugiej metody tworzenia par zaowocowało rozwojem planów eksperymentalnych z powtarzaniem pomiarów zmiennej zależnej, opartych na modelu ANOVA (ich opis w: Brzeziński, Stachowski, 1984, rozdz. 6., 7.). Badacz może też posłużyć się metodą kombinowaną. Może np. wyrównać obie grupy pod względem zmiennej płci (poddać badaniom tylko kobiety), a takie zmienne jak: „wiek", „miejsce zamieszkania" czy „wykształcenie" kontrolować metodą doboru parami. Przejdźmy teraz do oceny obu metod kontrolowania zmiennych niezależnych-ubocznych. Pierwsza metoda, mimo że wydaje się nieskomplikowana, ma jedną poważną wadę. która ją, poza szczególnymi sytuacjami, dyskwalifikuje jako metodę kontrolowania zmiennych niezależnych-ubocznych w poważniejszych badaniach psychologicznych. Ten sposób kontrolowania ma wpływ na zakres wniosków, które badacz jest uprawniony uogólniać (generalizować) z poziomu próby (poddanej badaniom, a próba to, w tym przypadku, grupa eksperymentalna plus grupa kontrolna) na poziom populacji (w całości nie poddanej badaniom). I tak, jeżeli zmienną niezależną-uboczną jest wiek osób badanych, to badacz może ustalić podzakres wartości tej zmiennej na, np. 20-25 lat, a jeżeli jest nią iloraz inteligencji (IQ), to może on ustalić podzakres wartości tej zmiennej na, np. IQ > 120 (wg klasyfikacji Wechslera wartości IQ przewyższające 120 charakteryzują kategorie osób o inteligencji określanej jako wysoka i bardzo wysoka; takich osób w populacji jest niecałe 9% — por. Brzeziński, Hornowska, 1993b, s. 90). Uzyskany z przeprowadzonego badania wynik stanowi podstawę do wyciągnięcia wniosków dotyczących np. wpływu zmęczenia psychicznego na oryginalność myślenia, ale nie wobec wszystkich osób w populacji o dowolnych wartościach tych dwóch zmiennych: wieku i poziomu inteligencji (wyrażonego IQ mierzonym za pomocą WAIS-R), a jedynie wobec tych osób z populacji, których wiek mieści się w granicach: 20-25, a inteligencja charakteryzuje się wskaźnikiem IQ przewyższającym wartość 120 (wg Skali Inteligencji WAIS-R). Być może badacz nie popełni błędu, jeżeli odniesie te wnioski do osób w wieku: 20-50 lat, o wartościach IQ> 115 (wartość IQ= 115 stanowi granicę jednego odchylenia statystycznego od średniej równej 100, a osób o IQ powyżej 120 jest w populacji około 16%). Mniej byłbym jednak pewien zasadności uogólnienia wyników na grupę osób w wieku powyżej 80 lat i z przedziału IQ: 85100 (wartość IQ-85 stanowi granicę jednego odchylenia standardowego od średniej równej 100, a osób z przedziału IQ = 85-100 jest w populacji około 34%). 294
Jeżeli badacz chce przeprowadzić badania na populacji określanej mianem „normalnej", to o ile stosunkowo łatwo określić tzw. normalny przedział IQ, jako ten, który odpowiada tzw. normie statystycznej, tj. IQ: 85-100 (średnia 100 +/- jedno odchylenie standardowe 15), o tyle bardzo trudne będzie określenie typowego przedziału zmiennych: doświadczenie życiowe, czy samoocena. Błąd, który popełniają badacze posługujący się tą metodą polega zatem na tym. że w fazie ósmej procesu badawczego (faza uogólniania wniosków z próby na populację) zapominają, iż wnioski mogą być prawomocne tylko dla tych osób, dla których kontrolowane zmienne przyjmują wartości z podzakresów ustalonych przez badacza. Wbrew tym ograniczeniom badacze postępują na ogól jednak tak, jak gdyby ich nie wprowadzili. Może najbardziej spektakularnym przykładem takiego nagannego postępowania jest praktyka standaryzacji (wraz z normalizacją!) nowych testów psychologicznych. Ponieważ najłatwiej dostępną populacją jest populacja studentów, a studentów psychologii pierwszego roku studiów (ci są najłatwiej dostępni dla swych starszych kolegów przygotowujących prace magisterskie) przede wszystkim, to ich właśnie wykorzystuje się do tego celu. Oczywiście, nowe narzędzie opuszcza „pracownię psychometryczną" i jest stosowane wobec różnych osób — studenci stanowią jednak znikomy procent tych, wobec których stosowany będzie nowy „test psychologiczny". Odwołując się do pojęcia, które będzie wprowadzone dopiero w pkt. 4. niniejszego rozdziału, powiemy, że takie postępowanie badacza obniża trafność zewnętrzną całego badania. Przejdźmy teraz do oceny drugiej metody. Przede wszystkim, trzeba zwrócić uwagę na to, że wcale nie jest łatwe skonstruowanie par dla zmiennych typowo psychologicznych. O ile nie nastręcza większych trudności dobieranie w pary osób takich samych z uwagi na zmienne: płeć, wiek, miejsce zamieszkania, wykształcenie, status ekonomiczny, status rodzinny itp., o tyle znacznie trudniej kompletować pary z osób o takich samych ilorazach inteligencji, takiej samej odporności na stres, takiej samej stabilności samooceny itd. W takich przypadkach metoda tworzenia par. „eksperymentalnych bliźniąt monozygotycznych" zawodzi, a nawet gdyby uda-I to się skompletować wymaganą liczbę „bliźniąt", to i tak odbyłoby się to dużym kosziem — ile trzeba by wstępnie przebadać osób, aby znaleźć dwie podobne pod | względem wyróżnionych przez badacza kryteriów (wartości, albo wąskich ich pod-I okresów, zmiennych niezależnych-ubocznych) osoby? Ominięciem tych trudności I jest posłużenie się odmianą tej metody — opisaną wyżej — polegającą na tym, że I każda osoba jest badana dwukrotnie, w zmienionych warunkach — tworzy parę I sama z sobą. Rzeczywiście jest to doskonała metoda tworzenia par, ale nie > i e o n . i nadaje I flc ona do zastosowania w tych przypadkach, w których I wyuczer wystąpić może efekt wyuczenia się czy transferu, gdy ważne jest, aby razowy osoba badana miała tylko jednorazowy kontakt z sytuacją badawczą. Ta nie poz\ metoda, podobnie jak metoda pierwsza, pozwala na ilościowe określenie I leżnej-ul procentowego udziału danej zmiennej nieza-lej-ubocznej w wyjaśnianiu Dol zmienności całkowitej zmiennej zależnej Y. Dobrze jest, aby zdawać sobie I kontroli sprawę z ograniczeń przedstawionych tu metod itroli zmiennych I modelu niezależnych-ubocznych w jedno-jednozmiennowej odmianie lelu E, ale trzeba pamiętać i o tym, że są to jedyne metody kontroli dostępne 295
badaczowi. Jeżeli nie zadowalają go, to musi zarzucić tę odmianę modelu E na rzecz odmiany opartej na statystycznym modelu ANOVA czy MANOVA. Osobiście zachęcam każdego psychologa, aby — jeżeli chce posłużyć się modelem eksperymentalnym — sięgnął po jakiś z planów ANOVA czy MANOVA, a zrezygnował z mało precyzyjnej odmiany „wszystko albo nic" modelu E. Czytelnik mógłby w tym momencie zapytać, dlaczego piszę o tak niedoskonałej odmianie modelu E, jeżeli można się posłużyć jej bardzo precyzyjną odmianą. Piszę o niej, bo jest jeszcze przez psychologów dość powszechnie stosowana i do sprawdzania mało skomplikowanych hipotez (a z takimi na ogół ma do czynienia student przygotowując pracę magisterską) przydatna. Poza tym, stosowanie jakieś metody wymaga znajomości nie tylko jej zalet, ale także — czy przede wszystkim — ograniczeń. Tych zaś metoda „wszystko albo nic" ma więcej niż zalet.
2.2.2. Statystyczny aspekt kontroli zmiennych — analiza wariancji zmiennej zależnej Nie trzeba być specjalnie bystrym obserwatorem, a już na pewno nie uczonym psychologiem, aby — obserwując otaczającą nas społeczną rzeczywistość — dojść do wniosku, że ludzie różnią się między sobą pod względem rozmaitych, mniej lub bardziej ukrytych przed okiem obserwatora właściwości. Takie ich właściwości (my powiemy — zmienne), jak: wzrost, sposób poruszania się, język, którym się miedzy sobą komunikują, sposób ubierania się, wiek itp. są dostępne bezpośredniej obserwacji. Z kolei właściwości, które przede wszystkim interesują psychologa (zmienne psychologiczne) są ukryte i aby dotrzeć do nich niezbędne jest posłużenie się specjalnymi narzędziami (psycholog dysponuje takimi „specjalnymi" narzędziami — są nimi testy psychologiczne: skale inteligencji, skale postaw, kwestionariusze osobowości, testy projekcyjne, itp.). Chcąc tedy zdobyć informacje na temat zróżnicowania interindywidualnego (zmienności) w obrębie jakiejś zbiorowości, pod względem takiej „ukrytej" cechy (zmiennej), jaką jest np. poziom inteligencji, psycholog (bo on właśnie jest predystynowany do prowadzenia takich obserwacji, z uwagi na posiadane kwalifikacje — także metodologiczne!) sięga po jakiś test inteligencji. W efekcie jego zastosowania okaże się, że część przebadanych osób uzyskała identyczne wyniki, a część uzyskała wyniki różniące się między sobą. Jeżeli z osób, które uzyskały identyczne wyniki testu inteligencji utworzymy odrębną podgrupę (wyodrębnioną z wyjściowej „dużej" grupy), to to, co ją będzie charakteryzowało, odróżniało od drugiej podgrupy obejmującej osoby o różnych wynikach testu inteligencji, można wyrazić w takim oto, kluczowym dla eksperymentatora określeniu — pierwszą podgrupę cechuje brak zróżnicowania wewnątrzgrupowego (a drugą podgrupę cechuje jakieś zróżnicowanie wewnątrzgrupowe). Oczywiście ta obserwacja jest prawdziwa tylko w odniesieniu do przebadanych osób i tylko w odniesieniu do zmiennej inteligencji. Informacja o zróżnicowaniu badanych osób z uwagi na badaną zmienną (jest nią oczywiście zmienna zależna Y) jest bodajże najważniejszą informacją dla psycho296
loga-eksperymentatora, który planuje przeprowadzenie eksperymentu! Gdyby „nasz" psycholog przeprowadził rozlegle badania nad zróżnicowaniem (zmiennością) cechy inteligencji wśród ludzi, to doszedłby do wniosku, że przy dużym zróżnicowaniu, które daje się zaobserwować w całej populacji przebadanych przez niego osób, można też zaobserwować znacznie mniejsze, a nawet zerowe, zróżnicowanie tych osób, jeżeli pogrupuje on je wedle innego, niż poziom inteligencji, kryterium (zmienna niezależna!). Takim kryterium klasyfikującym osoby badane może być, na przykład, wykształcenie. Gdyby teraz psycholog pogrupował wyniki testu inteligencji zgodnie z kryterium wykształcenia badanych osób, to okazałoby się, że zróżnicowanie wewnątrzgrupowe w każdej „podgrupie wykształceniowej" jest mniejsze od zróżnicowania całkowitego całej przebadanej grupy wyjściowej. Na tym nie koniec. Porównując, pod względem zróżnicowania, wyróżnione „podgrupy wykształceniowe" dochodzimy do konstatacji, iż także one (traktowane jako odrębne „całości") różnią się między sobą. To zróżnicowanie przyjęło się nazywać zróżnicowaniem między grupowym. Gdybyśmy, bawiąc się naszymi danymi, zaczęli zmieniać kryterium wyodrębniania podgrup, to mogłoby się okazać, iż pewne kryteria mogłyby spowodować takie przemieszczenie się osób badanych do nowych podgrup, w efekcie którego otrzymalibyśmy jeszcze większe zróżnicowanie między grupowe i mniejsze zróżnicowanie wewnątrzgrupowe. Być może takim kryterium bardziej różnicującym podgrupy i jednocześnie obniżającym ich heterogeniczność (inaczej: zwiększającym ich homogeniczność) byłoby kryterium wykonywanego zawodu. Mogłoby być i tak, że jakieś kryterium obniżyłoby zróżnicowanie międzygrupowe, a zwiększyłoby zróżnicowanie wewnątrzgrupowe. Wreszcie mogłoby się okazać, że są takie kryteria, które nie wpływają na zróżnicowanie międzygrupowe i zróżnicowanie wewnątrzgrupowe. Idąc jeszcze dalej w naszym rozumowaniu, powiemy, że te kryteria, które wyraźnie zwiększają zróżnicowanie międzygrupowe i obniżają zróżnicowanie wewnątrzgrupowe badanych osób pod względem wartości zmiennej zależnej, to są kryteria istotne z uwagi na zmienną zależną, albo, że są to zmienne niezależne istotne dla Y. Różne, wyodrębnione przez badacza zmienne niezależne będą w różnym stopniu zwiększały owo zróżnicowanie międzygrupowe zmiennej Y i zmniejszały zróżnicowanie wewnątrzgrupowe. Dociekliwy Czytelnik zapyta się w tym momencie: Czy istnieje jakaś miara owego zróżnicowania osób badanych z uwagi na interesującą badacza zmienną zależną, miara która pozwoliłaby na udzielenie odpowiedzi na następujące, bardziej szczegółowe pytania: (a) w jaki sposób oddzielić zmienne istotnie, w sensie statystycznym (będzie o tym mowa w pkt. 7. niniejszego rozdziału), od zmiennych nieistotnych? (b) w jaki sposób określić stopień całkowitego zróżnicowania (zmienności) zmiennej zależnej, wprowadzonego przez daną zmienną niezależną? Na szczęście, psycholog-eksperymentator dysponuje bardzo dobrym kryterium odpowiadającym na obydwa pytania. Jest nim wariancja. Spotkał się już z nią Czytelnik w podstawowym kursie statystyki. Niemniej odświeżmy sobie informacje na jej temat. Jak wiemy, jeżeli chcemy opisać, w sposób bardzo zwięzły jakiś, zwłaszcza duży, zbiór wyników, to możemy podać jego średnią arytmetyczną (przy 297
założeniu, że dana miara wyrażona jest na skali co najmniej interwałowej!). W ten sposób GUS informuje obywateli o zarobkach w poszczególnych gałęziach gospodarki narodowej. Wiemy też, że tę samą średnią można otrzymać, gdy wyniki są w niewielkim stopniu zróżnicowane i gdy są one znacznie zróżnicowane. Rozpatrzmy prosty przykład. Przypuśćmy, że chcieliśmy sprawdzić hipotezę mówiącą o tym, że pewna zmienna niezależna X („0-1") wyjaśnia obserwowaną w 10-osobowej grupie osób {oznaczmy ją jako Gr. C) zmienność (zróżnicowanie) zmiennej zależnej Y. Niech osoby, dla których ta zmienna X przyjęła wartość „1" tworzą grupę A. Z kolei osoby, dla których zmienna X przyjęła wartość „0" tworzą grupę B. Niech też będzie tak, że obie grupy okazały się równoliczne (n = 5; n A + n B = = N = 10). Po przeprowadzeniu badania uzyskaliśmy dwa zbiory danych: A i B: zbiór A: {5, 2, 1,4, 3}, zbiór B: {3, 3, 3, 3, 3}. Średnia w zbiorze A wynosi 3 i w zbiorze B też wynosi 3. Także w zbiorze C wynosi 3. Gdybyśmy pozostali tylko przy informacji o średniej, to oba zbiory należałoby potraktować jako identyczne, a tak przecież nie jest. Pierwszy cechuje duże zróżnicowanie wewnątrzgrupowe, a drugi brak zróżnicowania wewnątrzgrupowego. Dlatego też obok informacji o średnich powinniśmy podawać jakąś informację o wielkości owego zróżnicowania; może to być np. dyspersja wyników1. Znacznie jednak przydatniejsza okazała się miara, której obliczanie polega na przyrównywaniu każdego wyniku do średniej grupowej. Przeprowadźmy tę operacje na obu zbiorach: zbiór A: (3-5), (3-2), (3-1), (3-4), (3-3) i zbiór B: (3-3), (3-3), (3-3), (3-3), (3-3). Prostą miarą tego zróżnicowania może być suma „odległości" każdego wyniku od średniej. Rzut oka na dane nakazuje nam wycofanie się z tego „prostego" rozwiązania, gdyż suma odchyleń poszczególnych wyników od ich średniej zawsze będzie wynosiła — co łatwo obliczyć — zero. Jeżeli jednak wartość każdego odchylenia podniesiemy do kwadratu i dopiero potem dokonamy sumowania, to zlikwidujemy ową trudność. Tak, jak obliczamy średnią z wyników, tak też możemy obliczyć średnią z kwadratów odchyleń wyników od ich średniej. Jeżeli tak postąpimy, to otrzymamy nową miarę zmienności, którą nazwano wariancją (symbolicznie oznacza się ją: s2,
298
Wariancja została wybrana jako miara zróżnicowania wewnątrzgrupowego, między grupowego i całkowitego z uwagi na swą jedną ważną dla eksperymentatora właściwość. Otóż wariancję całkowitą jakiegoś zbioru wyników można rozbić na wariancje cząstkowe (składowe) odnoszące się do wyodrębnionych za pomocą jakiegoś kryterium (tu: jakiejś zmiennej niezależnej uznawanej przez badacza za istotną dla Y) podzbiorów. Zatem wariancja całkowita rozpada się na dwie wariancje cząstkowe — wariancję międzygrupową i wariancję wewnątrzgrupową. Wariancję wewnątrzgrupową (WG) liczymy jako średnią arytmetyczną poszczególnych wariancji grupowych. W naszym przykładzie mamy: var A = 2,0; rar B = 0,0 i wobec tego var wc - (2,0 + 0,0) : 2 = 1. Wariancję międzygrupową (MG) liczymy jako wariancję średnich arytmetycznych wyróżnionych grup. W naszym przykładzie mamy dwie grupy o średnich: Gr. A: 3,0 i Gr. B: 3,0. Średnia całkowita, czyli średnia grupy C, równa się 3,0. Obliczmy teraz wariancję tego dwuelementowego zbioru wyników: varMG = (3,0 I -3,0)2 + (3,0 - 3,0)2 = 0,0. Obliczenia zostały przeprowadzone w następujący sposób: (a) obliczono średnią całkowitą dla grupy C, (b) obliczono średnie dla grup, na które podzielona została grupa C, czyli dla grup: A i B, (c) każdą średnią odjęto od średniej całkowitej, czyli średniej całej grupy C, (d) otrzymane różnice podniesiono do kwadratu, a uzyskaną sumę podzielono przez liczbę grup składowych. Wariancję całkowitą obliczamy podobnie jak wariancję Gr. A i wariancję Gr. |B. Wynosi ona — var c = 1,0. Zbierzmy teraz uzyskane informacje o średnich i wariancjach z naszego fikI cyjnego przykładu: varMC = 0,0; varwc - 1.00; varc = 1,0. Zgodnie z tym, co wyżej zostało napisane, wariancja całkowita rozkłada się na dwie wariancje cząstkowe: varc = varMC + varWG. I tak jest rzeczywiście: 1,0 = 0,0 -1- 1,0. Jaka jest interpretacja tych danych o średnich i wariancjach? Jest ona, w świetle powyższych danych, jednoznaczna. Po pierwsze, widzimy, że obie grupy A i B nie różnią się między sobą jeśli weźmiemy pod uwagę ich średnie arytmetyczne; po drugie każda ze średnich składowych nie różni się od średniej całkowitej całej grupy C. Po trzecie, odpowiadająca temu zróżnicowaniu, a właściwie jego brakowi, wariancja międzygrupową jest zerowa — tłumaczy bowiem ona (0,0/1,0) x 100%= 1= Q9c wariancji całkowitej zmiennej zależnej Y. Dzieląc grupę C na dwie grupy składowe A i B nie uzyskaliśmy redukcji wariancji wewnątrzgrupowej. Z tego ; punktu widzenia wprowadzona przez nas zmienna niezależna nie kontrolowała, w najmniejszym nawet procencie, zmienności zmiennej zależnej. Po czwarte, pro! centowy udział wariancji wewnątrzgrupowej, wynoszący tu aż 100%, bo: 1(1.0/1.0) x 100% = 100%, wskazuje jednoznacznie na brak kontroli — w tym badaniu — zmiennej zależnej; cała bowiem zmienność zmiennej zależnej jest „ulokowana" wewnątrz grup, czyli jest „tłumaczona" przez jakąś jnną (jakieś inne) zmienną niezależną (zmienne niezależne). Niestety nie potrafiliśmy udzielić odpowiedzi na pytanie, jaka to zmienna czy zmienne? Generalny wniosek z tego badania , jest następujący. Hipoteza o wpływie zmiennej niezależnej X (kryterium, wg którego dokonaliśmy podziału całej grupy C na grupy składowe: A i B) nie została potwierdzona — mówi o tym stosunek wariancji składowych: var MG I var^G = 299
= 0,0/ 1,0 = 0,0. Przy mniej jednoznacznych wartościach tego stosunku badacz odwołuje się do testu F analizy wariancji (ANOVA), którego statystyka testowa taką ma właśnie postać (por. Brzeziński, Stachowski. 1984, s. 57-60). Wariancję wewnątrzgrupową zwykło się traktować jako miarę precyzji eksperymentu. Pamiętajmy, że najlepsza grupa, to taka, którą tworzą osoby idealnie do siebie podobne, np. stworzone techniką klonowania (Czytelnik zechce mi wybaczyć ten żart genetyczny), a najlepszy eksperyment to taki, w którym porównuje się grupy idealnie homogeniczne (varWG = 0). Wówczas całą obserwowaną zmienność zmiennej zależnej można tłumaczyć wpływem na nią zmiennej niezależnej, kontrolowanej przez badacza, a będącej źródłem wariancji międzygrupowej (ang. between-groups variance) (varMG = 1,0). W związku z tym wariancję międzygrupową określa się też mianem wariancji kontrolowanej, a wariancję wewnątrzgrupową (ang. within-groups variance) określa się mianem wariancji błędu, wariancji resztowej (ang. error variance, residual variance). Badacz powinien zmierzać do tego, aby minimalizować wielkość wariancji wewnątrzgrupowej i maksymalizować wielkość wariancji międzygrupowej. Jest to oczywiście niemożliwe w eksperymentach typu „wszystko albo nic". Tak naprawdę, to jedynie analiza wariancji (ANOVA) daje taką możliwość. W analizowanym w tym punkcie eksperymencie możliwe jest poddanie takiej, jak wyżej opisana, kontroli tylko jednej zmiennej niezależnej (jest nią zmienna główna). Chcąc zminimalizować wielkość wariancji wewnątrzgrupowej możemy jedynie odwołać się do „starego" Milla — z wyżej opisanymi konsekwencjami dla trafności zewnętrznej wniosków. Wariancję międzygrupową można rozbić na dowolną liczbę wariancji składowych, których źródłami są hipotetyczne zmienne niezależne istotne dla Y. Ten sposób postępowania prowadzi do zmniejszenia wariancji wewnątrzgrupowej (nie kontrolowanej przez badacza) na rzecz zwiększenia wariancji międzygrupowej (kontrolowanej przez badacza). Eksperyment — zaplanowany zgodnie z logiką modelu ANOVA — staje się w ten sposób eksperymentem dwuzmiennowym, trójzmiennowym, itd. (w terminologii ANOVA mówi się o „eksperymentach czynnikowych"). Przeanalizujmy jeszcze jeden, nie tak jednoznaczny w wymowie, przykład. Powiążemy go bezpośrednio z kontrolą jednej zmiennej niezależnej (jednej, bo takie są możliwości odmiany „wszystko albo nic" modelu E). Oczywiście, to czy jest to tylko jedna zmienna, czy jest ich, powiedzmy, dziesięć nic zasadniczo nie zmienia (por. Brzeziński, Stachowski, 1984). Zasada jest ta sama, a jedynie wzrasta pracochłonność obliczeń, ale kto dziś, w erze komputerów osobistych, przeprowadza takie skomplikowane obliczenia „na piechotę"? Nawiasem mówiąc dobre oprogramowanie analizy wariancji (ANOVA) adresowane na IBM PC zawiera popularny w środowisku psychologów pakiet statystyczny SPSS PC+ (por. Noruśis, 1992). W pewnym eksperymencie psycholog postanowił sprawdzić hipotezę mówiącą o wpływie zmiennej niezależnej-głównej X na zmienną zależną Y. W tym celu poddał badaniom 10 osób — 5 osób tworzyło grupę eksperymentalną (zmienna Y 300
dla tych osób przyjmowała wartość „1"), a 5 osobo grupę kontrolną (zmienna Y dla tych osób przyjmowała wartość „0"). Osoby do obu grup porównawczych wyznaczone były losowo (badacz respektował zasadę randomizacji!). Jeżeli zmienna niezależna X kontroluje zmienność zmiennej Y, to wariancja kontrolowana zmiennej Y (wariancja między grupowa) powinna przewyższać wariancję nie kontrolowaną zmiennej Y (wariancję wewnątrzgrupową). Wnikliwy Czytelnik zapyta, w jaki sposób uznawać, że ów stosunek jest wystarczająco duży? Oczywiście musi to być isób akceptowany przez całą społeczność psychologów. Takim akceptowanym sposobem" jest posłużenie się testem F analizy wariancji (ANOVA). Uznajemy, dana zmienna X istotnie kontroluje zmienność Y, jeżeli wartość statystyki testorej testu F obliczona dla danych uzyskanych z przeprowadzonego badania eksperymentalnego przewyższa (albo jest równa) wartość progową ustaloną dla określonego poziomu istotności statystycznej a, czyli: F^F^ Przejdźmy teraz do wykonania niezbędnych obliczeń. Odpowiednie dane zawiera tab. 12.1a oraz tab. 12.1b. Tabela 12.1a. Wyniki hipotetycznego badania obejmującego dwie grupy porównawcze — eksperymentalną (nE = 10) oraz kontrolną (nK = 10) (0)
(1)
Lp.
(3)
(4)
(5)
Yik
Grupa kontrolna (K) Y2i-Y2.
2
0,1
2
0.1
3
1,1
3
1.1
Grupa eksperymentalna (E) Y\k
Yli-Yy
2
6 6
-0,8 -0.8
3
8
1.2
4
5 6
7 6 6
7
6
0,2 -0.8 -0,8 -0,8 1,2
1
8
8
I
(21
9
O O
1,2
10
7 68
0.2
(Yu-Y2? 0,64 0,64 1,44 0,04 0,64 0,64 0,64 1,44 1,44 0,04 7,60
2
0,1
1 1
-0,9 -0,9 -0,9
2
0,1
2
0,1
1
19
(6)
0.01 0,01 1,21 1.21 0.01 10,81 10,81 10,81 0,01 0,01 4,90
Y2.= \,9
Zacznijmy od obliczenia wartości średnich arytmetycznych — w Gr. E, Gr. Koraz łącznie w Gr. C (Gr. E + Gr. K). Wynosząone odpowiednio: w Gr. E: 6,8; wGr. K: 1,9 oraz w Gr. C: 4,35. Z kolei wariancje — varMG = 6,0025; varWG = 0,625; vflrc = 6,63. Aby obliczyć wariancję wewnątrzgrupową musieliśmy wpierw obliczyć wariancje w obu grupach porównawczych: varE = 0,76; varK = 0,49. Następnie obliczyliśmy średnią z obu wariancji, która jest wariancją wewnątrzgrupową: (0,76 + 0,49): 2 = 0,625. Z kolei wyznaczenie wariancji międzygrupowej wymaga wpierw obliczenia odchyleń średnich obu grup (E i K) od ich średniej: 6,8-4,35; 1,9-4.35. Następnie obliczamy sumę kwadratów odchyleń. Po jej podzieleniu przez 301
Tabela 12.lb. Wyniki hipotetycznego badania obejmującego łącznie 2 grupy (n c = «E + n K = 20)
(0)
Lp. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
I
(1)
U 6 6 8 7 6
6 6 8 8 7 2 2 3 2 1 1 1 2 2 3 87
(2) Yik-y1,65 1,65 3,65 2,65 1,65 1.65 1,65 3,65 3,65 2,65 -2,35 -2,35 -1,35 -2,35 -3,35 -3,35 -3,35 -2,35 -2,35 -1,35
(3) 2
(Yik-Y..)
2,7225 2,7225 13,3225 7,0225 2,7225 2,7225 2,7225 13.3225 13,3225 7,0225 5,5225 5,5225 1,8225 5,5225 11,2225 11,2225 11,2225 5,5225 5,5225 1,8225 132,5440
(4) Grupa
Gr. E
Gr. K
?..= 4,35
liczbę grup (tu: 2) otrzymujemy wariancję między grupową: (6,0025 + 6,0025): 2 = = 6,0025. Wariancja całkowita to suma obu wariancji składowych: var WG + + ra/MG = 0,625 + 6,0025 = 6,6275 (w zaokrągleniu: 6,63). Jak widzimy, obliczona w ten sposób wartość var c równa jest wartości obliczonej wprost z danych surowych (132,5440/20 — dane z tab. 12.1b). Spróbujmy teraz zinterpretować uzyskane informacje o wariancji zmiennej Y. Po pierwsze, aż 90,5% całkowitej wariancji zmiennej Y jest kontrolowane przez zmienną X. Mówiąc inaczej, zmienność zmiennej Y w 90,5% zależy od zmienności zmiennej X, która została w sposób planowy wprowadzona przez badacza do eksperymentu. Po drugie stosunek: varMG I varWG = 6,0025/0,625 = 9,6 jest dodatkowym potwierdzeniem istotności zmiennej X dla zmiennej Y. Po trzecie, 100% — 90,5% = 9,5% zmienności Y tłumaczone jest zróżnicowaniem wewnątrzgrupowym, które, jak to już powiedzieliśmy, jest traktowane jako miara precyzji eksperymentu. Badaczowi zostało do wyjaśnienia — innymi wpływami na Y aniżeli zmienna X — tylko 9,5% wariancji całkowitej zmiennej zależnej (myślę, że stało się teraz jasne, dlaczego wariancję wewnątrzgrupową określa się też mianem wariancji resztowej). Gdyby to nie był „biedny" eksperyment jednozmiennowy, a eksperyment wielozmiennowy, oparty na modelu ANOVA, to badacz zapewne nie ograniczyłby 302
się — w fazie planowania badania eksperymentalnego — do uwzględnienia tylko jednego źródła wariancji wyjaśnionej (kontrolowanej) zmiennej Y, a — zmierzając do minimalizacji wariancji resztowej (wewnątrzgrupowej) — uwzględniłby więcej źródeł wariancji między grupowej w postaci zmiennych niezależnych wbudowanych w plan eksperymentalny. Te dwie, ważne z punktu widzenia metodyki prowadzenia nowoczesnego eksperymentu w psychologii, wariancje składowe są wykorzystywane przez badaczy jako: (a) miara stopnia kontroli zmienności zmiennej zależnej przez wprowadzoną do eksperymentu zmienną niezależną X — wariancja międzygrupowa (inaczej: wariancja kontrolowana), (b) miara precyzji przeprowadzonego eksperymentu czy, inaczej mówiąc, miara wielkości błędu popełnionego przez badacza kontrolującego zmien ność zmiennej zależnej Y za pomocą zmiennej niezależnej X — wariancja wewnątrzgrupowa (inaczej: wariancja nie kontrolowana). Jeżeli przełożyć to, co wyżej napisałem na temat statystycznego sensu terminu „kontrola zmiennych", na język dyrektyw adresowanych do psychologa-eksperymentatora, to, jak sądzę, możliwe jest sformułowanie dwóch wzajemnie się uzupełniających dyrektyw: Dyrektywa A. Dobieraj osoby do grup porównawczych tak, aby zminimalizować wariancję wewnątrzgrupowa. D yr ek tywa B. Ta k man ipu lu j daną zm ienną n ieza le żną, aby ztnaksymalizować wariancję międzygrupowa. Zaprezentowane wyżej podejście do kontroli zmiennych w eksperymencie — polegające na kontroli wariancji zmiennej zależnej Y przez intencjonalnie wprowa-j dzone przez badacza do planu eksperymentalnego zmienne niezależne zakwalifi-I kowane przez tegoż badacza do O(P Y ) — zdominowało praktykę badawczą psychologii. Tytułem przykładu mogę odesłać Czytelnika do tak reprezentatywnych nonografii jak: Kirk (1982), Winer, Brown, Michels (1991), Kerlinger (1986) J \. / rodzimej literatury przedmiotu, Paszkiewicz (1985b, zwłaszcza pkt. 2.: Pro\c ts badawczy jako proces kontroli wariancji), Brzeziński, Stachowski (1984). łestety, w jedno-jednozmiennowej odmianie modelu E możliwe jest kontrolowanie zmienności tylko jednej zmiennej zależnej przez tylko jedną zmienną niezależną.
2.3. Znaczenie randomizacji Jednym z ważniejszych czynników zakłócających trafność wewnętrzną planu eksperymentalnego jest — jak dowiemy się w pkt. 4.1. niniejszego rozdziału — selekcja osób do grup porównawczych: eksperymentalnej i kontrolnej (w skrócie — selekcja). Badacz nie jest w stanie kontrolować — w sposób opisany w poprzednim punkcie — wpływów wszystkich możliwych zmiennych zakłócających. Nierówno303
mierne rozłożenie tych wpływów w obu grupach może doprowadzić do tego, że postępowanie eksperymentalne (zmienna niezależna X) trafi na bardziej podatny „grunt" w grupie eksperymentalnej niż w grupie kontrolnej, a to może zaowocować „nachyleniem" rozkładu zmiennej zależnej Y (przeszacowanie lub niedoszacowanie wartości średniej zmiennej zależnej). Jeżeli złożyło by się tak, iż do grupy, w której psycholog sprawdzałby skuteczność nowej techniki terapeutycznej opartej na hipnozie weszłyby osoby o zwiększonej (w porównaniu z osobami z grupy kontrolnej) podatności na hipnozę, to mógłby on, w efekcie, przeszacować skuteczność owej nowej techniki terapeutycznej. Można też wyobrazić sobie sytuację odwrotną, gdy w grupie eksperymentalnej znalazłyby się osoby o „właściwościach" antagonistycznych względem postępowania eksperymentalnego; wówczas psycholog nie doszacowałby skuteczności oddziaływania eksperymentalnego. Tak, czy inaczej, obie sytuacje nie są korzystne z metodologicznego punktu widzenia (chociaż, podświadomie, psycholog mógłby być zadowolony z „korzystnego" dla jego hipotezy roboczej „współdziałania" zmiennych zakłócających z postępowaniem eksperymentalnym). Aby uniknąć takich kłopotliwych sytuacji i równie kłopotliwego posądzenia o tendencyjne przydzielanie osób do obu grup porównawczych (wg kryterium: osoby „lepsze" do grupy eksperymentalnej, a „gorsze" do grupy kontrolnej!) należy przydzielać osoby do grup w sposób losowy. O tym właśnie mówi zasada randomizacji (od ang. random — losowy). Przywołajmy tu jeszcze raz psychologa społecznego, Aronsona, którego zdaniem najważniejszą cechą odróżniającą badanie typu eksperymentalnego od innego rodzaju badań empirycznych jest to: „...że badanych można w sposób losowy przydzielić do różnych grup eksperymentalnych. Oznacza to, że każdy badany ma równe szansę znaleźć się w każdej z przewidzianych sytuacji eksperymentalnych. W gruncie rzeczy losowe przydzielanie badanych do poszczególnych grup stanowi decydującą różnicę między metodą eksperymentalna a metodami nieeksperymentalnymi. Wielką zaletą tego sposobu postępowania jest to, że wszelkie zmienne, które nie podlegają dokładnej kontroli, niemal na pewno zostaną rozdzielone losowo pomiędzy różne sytuacje. Znaczy to, że jest niezwykle mało prawdopodobne, aby te czynniki mogły wpływać systematycznie na nasze wyniki" (Aronson, 1995, s. 500-501). I jeszcze raz przypomnijmy, że pojęcie randomizacji jest nierozerwalnie związane z pojęciem manipulacji zmienną niezależną-główną (zmiennymi), które występuje w definicji modelu E i zgodnie z którym badacz jest zobowiązany do losowego przydzielania osób badanych do grup — eksperymentalnej i kontrolnej (ogólniej: porównawczych).
2.4. Rola instrukcji maskujących cel eksperymentu w psychologii („decepcja") Jedną z charakterystycznych cech eksperymentowania w psychologii jest utajnianie przed osobami badanymi prawdziwego celu eksperymentu. Psychologowie posłu304
gują się w tym celu tzw. instrukcjami maskującymi ów cel. Stosując „kalkę" w tłumaczeniu stosownego terminu z fachowej literatury psychologicznej moglibyśmy, nieczuli na poprawność językową, powiedzieć, że psychologowie posługują się „decepcją" (od ang. deception — „oszukaństwo; oszukiwanie; szachrajstwo; podstęp; wprowadzenie w błąd; okłamanie/ywanie", Stanislawski, 1968). Terminem deception posługuje się, na przykład, Aronson i in. (1994, s. 65). Józef Radzicki tłumacz polskiego, PWN-owskiego wydania jego bardzo znanej pracy The social animal (poi. wyd.: Człowiek istota społeczna, 1995), przełożył ten termin jako „wprowadzanie w błąd" (s. 508). Osobiście wolę określenie: instrukcja maskująca ..., i nim będę się posługiwał, a nie „kalką" — „decepcja". Aronson (1995, s. 508) tak uzasadnia odwołanie się do tej, jak Czytelnik zorientuje się z lektury rozdz. 5., mało etycznej procedury: „...często konieczne jest ukrycie prawdziwego celu badań. Stawia to eksperymentatora-psychologa społecznego w pozycji reżysera filmowego, który ustala scenerię akcji, lecz nie mówi aktorowi, o czym jest cały film. Taka oprawa nosi nazwę historyjki fasadowej (ang. cover story — J. B.) i ma na celu zwiększenie realizmu eksperymentalnego (ostatnio Aronson i in., 1994, używają określenia realizm psychologiczny — por. pkt. 2.5.) przez stworzenie sytuacji, w której badany może zachowywać się w sposób naturalny, gdyż nie wiedząc, jaki właściwie aspekt jego zachowania jest przedmiotem badania, nie jest zahamowany w swych reakcjach." Większość znanych eksperymentów, zwłaszcza z zakresu psychologii społecznej, odwoływała się do instrukcji maskujących. Bez nich psychologowi nie udałoby się uzyskać zamierzonego efektu. Dość wspomnieć tu chociażby tak znane eksperymenty, jak Ascha nad konformizmem (uleganie naciskowi grupowemu) czy Milgrama nad posłuszeństwem (podporządkowywanie się autorytetowi). Eksperymenty te nie ujawniłyby tak spektakularnych wyników, gdyby osoby badane były poinformowane o prawdziwym celu oraz znały prawdziwy scenariusz eksperymentu. Badani, którzy wiedzieliby, że — jak w eksperymencie Ascha opisanym przez niego w pracy Opinie i nacisk społeczny (por. Asch, 1969; omówienie także w: Aronson, 1995, s. 34-39) — cztery osoby porównujące długość odcinków i zgodnie zeznające inaczej niż to widzi osoba badana wcześniej zostały poinstruowane przez badacza, że tak właśnie, niezgodnie ze stanem faktycznym mają postępować, nie przejmowałyby się tym ani trochę i mówiłyby to, co widzą „naprawdę" (wszak pozostałe cztery osoby badane też widzą to samo, a jedynie eksperymentator kazał im mówić „coś innego"). Utajnienie przed „prawdziwą" osobą badaną rzeczywistego statusu osób wspólnie z nią oceniających długość narysowanych odcinków doprowadziło do tego, że aż 35% osób badanych ulegało naciskowi grupowemu i podawało odpowiedzi zgodne z odpowiedziami współpracowników eksperymentatora, a niezgodne ze stanem faktycznym. Można zatem powiedzieć, że okłamując osoby badane Asch uzyskał bardzo ciekawy wynik informujący o psychologicznych mechanizmach nacisku grupowego. Pomysłowość badacza pozwoliła, stosunkowo niewielkimi kosztami („koszty" psychologiczne obciążające tego rodzaju eksperymenty są dyskutowane w rozdz. 5., pkt. 2.1. — Okłamywanie osób badanych) i za 305
pomocą prostych środków technicznych, wymodelować „kawałek" rzeczywistości psychologicznej. Jak Czytelnik już zdążył się zorientować, pomysłowość badacza połączona z łatwowiernością osoby badanej dały — uzyskane przez Ascha, Milgrama, Zimbardo i innych psychologów — te, tak ciekawe i bulwersujące wyniki. Mogą one być, i faktycznie są, zachętą do nieograniczonego odwoływania się do tych, co prawda nieetycznych, ale pozwalających na spektakularne eksperymentowanie, procedur maskujących cel badania. Czy jednak tylko względy natury etycznej powinny powstrzymywać psychologów przed bezrefleksyjnym stosowaniem instrukcji maskujących cel badana? Nie, nie tylko. Są jeszcze względy natury metodologicznej. O nich teraz kilka słów. Podstawą stosowania instrukcji maskujących jest przyjęcie założenia, że znajomość prawdziwych celów badania eksperymentalnego uniemożliwiłaby osobom badanym spontaniczne zachowanie się w sytuacji eksperymentalnej. W konsekwencji tego stanu rzeczy badacze nie mogliby wysuwać trafnych wniosków z przeprowadzonych badań. Można jednak zapytać psychologów-eksperymentatorów: skąd brać „nieskażonych" udziałem w badaniach psychologicznych badanych, którzy, na dodatek, powinni być tak naiwni, że uwierzą w to wszystko, co im psycholog-eksperymentator powie (por. instrukcje stosowane przez Milgrama)? Na pewno nie spełniają tych kryteriów studenci, a studenci psychologii (a z nich rekrutują się na ogół badani) w szczególności. Osoby badane, niezależnie od stopnia pomysłowości badaczy włożonej w takie sformułowanie instrukcji maskujących, by badani nie domyślili się prawdziwego celu badania, i tak starają się dociec tego prawdziwego celu (pomocne są tu odczytywane przez nich oczekiwania badacza, wskazówki, których dostarczają elementy sytuacji badawczej itp. — por. rozdz. 4.), a ich zachowanie się w sytuacji badawczej modyfikowane jest także przez tak silnie działającą zmienną jaką jest lęk przed oceną. Myślę tedy, że realistyczne będzie przyjęcie założenia, iż osoba badana raczej nie ufa eksperymentatorowi i stara się sama odkryć prawdziwy cel eksperymentu. Może to wyzwalać u osób badanych dwojaką tendencję: (a) poznania oczekiwań badacza i zachowania się zgodnego z nimi oraz (b) poznania oczekiwań badacza i zachowania się niezgodnego z nimi, na przekór badaczowi. Dla zachowania w tajemnicy prawdziwego celu eksperymentu (treści hipotezy badawczej) psycholog nie może objaśnić wszystkich elementów procedury badawczej, a i instrukcja maskująca, nawet najbardziej pomysłowa, też nie jest w stanie ich objaśnić w sposób nie budzący, zwłaszcza u inteligentnej osoby badanej, żadnych wątpliwości. Sytuacja badawcza staje się więc w pewnym stopniu dwuznaczna, a u osoby badanej wyzwala się szczególna motywacja do rozwikłania tej dwuznaczności. Kieruje się ona przy tym własną interpretacją celu badania, w którym bierze udział (zakładam tu, że ten udział jest całkowicie dobrowolny!), co wprowadza dodatkowe źródło zmienności zmiennej zależnej (dodatkową wariancję cząstkową Y). Konkludując, nierealistyczne jest przyjęcie założenia, że osoba badana jest uległa, łatwowierna i postrzega sytuację badawczą tak, jak to założył sobie eksperymentator. Przyjęcie takiego założenia świadczyłoby bowiem o naiwności bada306
cza, który snując bardzo subtelne wywody teoretyczne stara się nie dopuszczać do świadomości faktu (bo tak mu wygodnie!), że „potężnym" źródłem wariancji błędu w badaniach psychologicznych jest interakcja, która zawiązuje się między badaczem i osobą badaną, że osoba badana nie jest tylko „dwunożnym" szczurem laboratoryjnym, posłusznie i nabożnie reagującym tak, jak tego sobie życzy psycholog-eksperymentator. Niestety, to źródło wariancji błędu nie zawsze jest przez psychologów kontrolowane na zadowalającym poziomie. Zdają się oni bowiem zapominać o wskazanych przez Rosenzweiga (1933) osobliwościach badania psychologicznego. W badaniach tego typu, co opisane badanie Ascha, należałoby zawsze wyjaśnić uzyskany wynik nie tylko w ramach danej teorii psychologicznej, ale, co nie mniej ważne, także próbować wyjaśnić go w kategoriach zmiennych kontekstu psychologicznego przeprowadzonego badania — wskazówek sugerujących osobie badanej treść hipotezy badawczej, oczekiwań badacza, statusu motywacyjnego osoby badanej, jej lęku przed oceną, nastawienia kooperacyjnego itp. Względy natury etycznej i metodologicznej nakładają na badacza szczególny obowiązek dokładnego przeanalizowania instrukcji maskującej, którą zamierza się posłużyć. Z tą dyrektywą związana jest treść rozdz. 5. i następnego punktu niniejszeso rozdziału.
2.5. Realizm życiowy i realizm psychologiczny Nie jest łatwą sztuką zaplanować i przeprowadzić eksperyment z udziałem ludzi w charakterze obiektów badanych. W poprzednim punkcie starałem się pokazać, jakie Jdopoty" metodologiczne (pominąłem „kłopoty" etyczne) ma psycholog, który chce skutecznie zamaskować przed osobą badaną prawdziwy cel badania eksperymentalnego. Obmyślenie prawdopodobnej „historyjki fasadowej" (cover story), w którą osoba badana byłaby skłonna „bez reszty" uwierzyć, nie jest wcale łatwe i — jak sądzę — niewiele jest wartościowych (w sensie: nie prowadzących do trywialnych rezultatów w rodzaju: „różni ludzie w różnych sytuacjach zachowują się różnie") badań eksperymentalnych opartych na instrukcjach maskujących cel badania, które nie budziłyby wątpliwości metodologicznych krytycznie usposobionego psychologa. W pkt. 2.2 sporo miejsca poświęciłem na objaśnienie bardzo ważnego w psychologii empirycznej pojęcia kontroli zmiennych niezależnych istotnych dla danej Y. Idealny eksperyment to taki, w którym psycholog kontroluje wszystkie wpływy, jakim podlega osoba badana — i te, pochodzące od intencjonalnie wprowadzonych do planu eksperymentalnego zmiennych niezależnych (tzw. postępowanie eksperymentalne), o wpływie których na Y traktują hipotezy badawcze, i te, związane ze zmiennymi niezależnymi-ubocznymi, i wreszcie te, których źródłem są wszelkiego aju zmienne niezależne-zakłócające (w tym, bodajże najważniejsze dla psychoza, zmienne kontekstu psychologicznego). Rzecz jasna idealne eksperymenty istnieją tylko w wyobraźni badacza. W rzeczywistości musi on często dokonywać wyborów kompromisowych. 307
Jeden z kompromisów związany jest z wyborem między dobrze kontrolowanymi, ale za to dalece odbiegającymi od sytuacji życiowej, warunkami prowadzenia badania eksperymentalnego (maksymalizacja kryterium metodologicznego), a dobrą imitacją sytuacji życiowej (maksymalizacja kryterium psychologicznego), ale, niestety, ubogą kontrolą zmiennych ważnych i zakłócających dla Y. Mówiąc jeszcze inaczej, jest to wybór między kontrolą a wiernością imitacji warunków życiowych przez warunki stworzone przez badacza w laboratorium psychologicznym. Niestety, nie da się zapewnić jednocześnie wysokiego stopnia kontroli zmiennych i równie wysokiego stopnia odtworzenia warunków życiowych w sytuacji eksperymentalnej. Teraz kilka słów o wierności imitowania przez warunki sytuacji eksperymentalnej, wytworzonej sztucznie w laboratorium, rzeczywistych warunków życia. I znowu odwołam się do Aronsona (por. Aronson i in., 1994, s. 58) i jego koncepcji „realistyczności" eksperymentu. Aronson mówi, iż każdy eksperyment może być realistyczny dwojako. Po pierwsze, można na niego patrzeć pod kątem jego podobieństwa do sytuacji, którą „wymyśla" życie. Można wówczas mówić o realizmie życiowym (ang. mundane realism). Nie sądzę, aby eksperymenty Milgrama nad uległością cechował wysoki stopień realizmu życiowego. Po drugie, eksperyment, jak dobry film, powinien „wciągać" osobę badaną. Powinna ona wczuć się w swoją rolę, tak jak gdyby rzeczywiście była strażnikiem czy więźniem (eksperyment Zimbardo), rzeczywiście karała, występując w roli nauczyciela, nieposłusznego ucznia, aplikując mu elektrowstrząsy do wysokości 450 V (eksperyment Milgrama). Identyfikowanie się osoby badanej z narzuconą jej, przez scenariusz badania eksperymentalnego, rolą oraz utożsamianie warunków eksperymentalnych z warunkami życiowymi, określa realizm psychologiczny (ang. psychological realism). Jeżeli spojrzymy, z tego punktu widzenia, na eksperymenty Milgrama i Zimbardo, to możemy powiedzieć, że cechował je wysoki stopień realizmu psychologicznego. Milgram jeszcze po roku spotykał się z częścią osób badanych w celach konsultacji ich udziału w jego badaniach. Z kolei Zimbardo był zmuszony przerwać swoje badania już po sześciu dniach, gdyż stopień identyfikacji osób badanych z rolami „strażników" i „więźniów" był tak wysoki, że przeraził eksperymentatorów: „... niektórzy chłopcy («strażnicy») traktują pozostałych jak nędzne zwierzęta, znajdując przyjemność w okrucieństwie, podczas gdy inni chłopcy («więźniowie») stali się służalczymi, odczłowieczonymi robotami, myślącymi jedynie o ucieczce, o swym własnym, indywidualnym przetrwaniu i o swej wzrastającej nienawiści do strażników" (cyt. za: Aronson, 1995, s. 25). Zapewniając planowanemu eksperymentowi wysoki stopień realizmu życiowego i psychologicznego, a zwłaszcza tego ostatniego, powinniśmy (o czym dokładnie w rozdz. 5.) zwracać uwagę na konsekwencje etyczne udziału osób badanych w takim badaniu (Zimbardo!). Badacza powinna cechować bogata wyobraźnia, powinien przewidzieć różnorakie, przykre dla osoby badanej, konsekwencje (także te długofalowe) udziału w eksperymencie. Myślę o zmianach samooceny, mniej lub bardziej trwałych zaburzeniach psychicznych, cierpieniach, wstydzie itp. Troska 308
0 zapewnienie wysokiego stopnia kontroli zmiennych oraz wysokiego stopnia rea lizmu nie powinna „znieczulać" badacza (psychologa!) na problemy etyczne. Udział w eksperymentach nad stresem — na przykład — które będzie cechował wysoki stopień realizmu psychologicznego, w których osoby badane narażone będą na szczególnie intensywne przeżywanie negatywnych emocji, może nie być obojętny dla ich późniejszego funkcjonowania poza laboratorium, po zakończeniu badania. Ponadto — tak sądzę — psycholog-eksperymentator nie powinien nakłaniać osoby badanej do udziału w takim badaniu eksperymentalnym, w którym byłaby ona zmuszona do podejmowania działań, oględnie mówiąc, nieetycznych. Z tego punktu widzenia eksperymenty Milgrama i Zimbardo były takimi, niedopuszczalnymi etycznie badaniami. Wysoki stopień ich realizmu psychologicznego (vide przytoczona wyżej wypowiedź Zimbarda na temat zachowania się „strażników" 1 „więźniów") sprawił, że zadawanie cierpień „na niby" wcale takim, w odbiorze osób badanych, nie było. Odwrotnie, było ono jak najbardziej realistyczne. Jeżeli jednak założymy, że osoby badane tak naprawdę nie uwierzyły w realność tej sytuacji (no bo czy jest współcześnie możliwe, w cywilizowanym kraju, aby można było „torturować" — eksperyment Milgrama — uczniów za to, że nie wykonywali w sposób zadowalający poleceń osób badanych znajdujących się pod ogólnym nad zorem badacza-psychologa, pracownika uniwersytetu?), to stawiamy pod znakiem zapytania realistyczność (w sensie: realizmu życiowego) tego badania. I następne — będące konsekwencją przeczącej odpowiedzi na pierwsze — pytanie: Jaki jest zakres generalizowalności wniosków z tak przeprowadzonego badania? Na to py tanie spróbujemy odpowiedzieć w pkt. 4.
3. Pojęcie planu eksperymentalnego i quasi-eksperymentalnego Postępowanie badawcze w modelu E prowadzone jest wg określonego schematu postępowania, zwanego przez psychologów planem eksperymentalnym (ang. expeńmental design). Mówiąc krótko, jest to wystandaryzowany sposób postępowania badawczego, a także — jak to ma miejsce w przypadku współczesnych eksperymentów — określony sposób postępowania w zakresie analizy statystycznej danych eksperymentalnych (np. model analizy wariancji, ANOVA i MANOVA — por. Brzeziński, Stachowski, 1984; Winer, Brown, Michels, 1991; Kirk, 1982; Timm, 1975; Noruśis, 1992). Schemat postępowania badawczego w przypadku modelu qE nosi, odpowiednio, nazwę planu ąuasi-eksperymentalnego. Zgodnie z planem eksperymentalnym psycholog: (1) rozdziela osoby badane do co najmniej dwóch grup porównawczych: eksperymentalnej i kontrolnej, stosując się do zasady randomizacji (czyli manipuluje, co najmniej jedną, zmienną niezależną-główną); 309
(2) dokonuje pomiarów zmiennej zależnej Y (pretesty Y i posttesty Y); (3) kontroluje zmienne niezależne — uboczne i zakłócające. Najbardziej rozpowszechnione są wśród psychologów takie plany E, w których zmienna niezależna-główna (postępowanie eksperymentalne) przyjmuje tylko dwie wartości — jedną w grupie eksperymentalnej i jedną w grupie kontrolnej. Najczęściej badacz stwarza takie warunki, by w grupie eksperymentalnej zmienna ta po prostu mogła wywierać wpływ na zmienną zależną, a w grupie kontrolnej nie wywierała wpływu. Przyjęło się mówić o takich planach E, jako o planach: zerojedynkowych, dwuwartościowych (bo zmienna X przyjmuje tylko dwie wartości), albo planach typu „wszystko albo nic" (ang. alł-or-nothing type). Jeżeli zmienna niezależna-główna nie jest ze swej natury zmienną dychotomiczną (np. płeć), ale wielowartościową (np. natężenie hałasu), to znacznie efektywniejsze od planów zero-jedynkowych są takie plany, w których postępowanie eksperymentalne przyjmuje więcej niż dwie wartości (mamy zatem w takich planach wiele grup porównawczych różniących się wprowadzonymi do nich wartościami zmiennej niezależnej-głównej). Zastosowanie już tylko trzech grup porównawczych w miejsce tradycyjnych dwóch grup — eksperymentalnej i kontrolnej — pozwala na określenie kształtu zależności między zmiennymi: zależną i niezależną-główną (liniowa versus nieliniowa — „U-kształtna" — por. rozdz. 11., pkt. 6.). Pozostając przy dwóch grupach porównawczych „skazujemy się" na testowanie hipotez traktujących o zależności liniowej między zmienną zależną Y i zmienną X. Oczywiście, jeżeli mamy mocne teoretyczne podstawy aby zakładać liniowy charakter hipotetycznego związku, to nie ma potrzeby zwiększania liczby tych grup. Jeżeli jednak w grę może wchodzić związek wyższego, niż liniowy, rzędu, to wówczas niezbędne jest zbudowanie planu eksperymentalnego o większej, niż dwie, liczbie grup porównawczych. Rozważmy teraz przypadek, w którym dana zmienna niezależna-główna X jest zmienną ciągłą. Jeżeli badacz tak zaplanował badanie eksperymentalne, by przebiegało ono według planu „0-1", to zmienna X — w wyniku przeprowadzonego przez niego zabiegu dychotomizacji — przyjmować będzie tylko dwie wartości: m oraz n. Badacz przydziela w sposób losowy wyróżnione wartości zmiennej niezależnej grupie eksperymentalnej (wartość: m) i grupie kontrolnej (wartość: «). Po przeprowadzeniu posttestu Y i uśrednieniu uzyskanych z obu grup wyników uzyskaliśmy przedstawiony na rys. 12.1, obraz zależności Y od X. Jak widzimy jest to —- wedle wiedzy badacza — zależność liniowa. Tak naprawdę — co zaznaczono linią przerywaną — zależność Y od X ma charakter krzywoliniowy. Niefortunny wybór tylko dwóch wartości zmiennej X (m oraz n) i tylko z lewego krańca kontinuum wartości, zaowocował tym nietrafnym obrazem zależności" Y od A". W efekcie badacz zaakceptuje hipotezę mówiącą o związku liniowym obu zmiennych (linia ciągła), a przecież, tak naprawdę, jest on krzywoliniowy (linia przerywana). Także nietrafny obraz zależności wiążącej zmienną Y ze zmienną X wytworzy badacz, gdy dobierze dwie wartości zmiennej X, ale leżące w prawej części kontinuum wartości X (tak jak na rys. 12.2) 310
Rys. 12.1. Nietrafny obraz (linia ciągła) rzeczywistej (linia przerywana) zależności Y od X — badacz ustalił, iż zależność Y od X ma charakter liniowy, gdy de facto ma ona charakter krzywoliniowy
p. 12.2. Nietrafny obraz (linia ciągła) rzeczywistej (linia przerywana) zależności Y od X — badacz Ralił, iż zależność Y od X ma charakter liniowy, gdy de facto ma ona charakter krzywoliniowy
Kolejny nietrafny obraz zależności (a w tym przypadku — braku zależności) badacz ustali, gdy pod uwagę weźmie też tylko dwie wartości zmiennej X, ale tak rozłożone, że zarówno wartości m, jak i wartości s będą odpowiadały te same Modnie wartości Y, a to oznacza brak zależności między zmiennymi (linia prosta ównoległa do osi X — rys. 12.3.).
311
y y
Rys. 12.3. Nietrafny obraz (linia ciągła) rzeczywistej (linia przerywana) zależności yodX — badacz ustalił, iż zależność Y od X ma charakter liniowy, gdy de facto ma ona charakter krzywoliniowy
m
n
Grupa 1.
Grupa 2.
r Grupa 3.
s Grupa 4.
Rys. 12.4. Trafny obraz (linia ciągła) rzeczywistej (linia przerywana) zależności Y od X — badacz ustalił, iż zależność Y od X ma charakter krzywoliniowy i de facto ma ona charakter krzywoliniowy
Gdy jednak badacz wyróżni większą liczbę grup porównawczych (co najmniej jednak trzy!), np. cztery, którym przypisane będą wartości X: m, n, r, s:
312
to uzyska trafny obraz hipotetycznej zależności — por. rys. 12.4. Linia przerywana ilustruje faktyczną zależność, a linia ciągła — obraz tej zależności ustalony przez badacza. Ważne tu jest jeszcze jedno. Wartości zmiennej X, wyróżnione przez badacza powinny być równomiernie rozłożone wzdłuż kontinuum wartości X. Do jakiego wniosku prowadzi nas analiza tego przykładu? Jeżeli zmienna X, o której wpływie na Y traktuje hipoteza badawcza, jest zmienną de facto wielowartościową i postulowany w hipotezie związek Y z X jest związkiem krzywoliniowym, to nie należy prowadzić badania eksperymentalnego opartego na porównaniu tylko dwóch grup (dwie wartości zmiennej X), gdyż może to nas doprowadzić do Inych wniosków (por. rys. 12.1-3). Należy natomiast zadbać o to, aby wybrane tości X rozłożone były równomiernie wzdłuż całego kontinuum wartości zmień-ej X (tak, jak to pokazuje rys. 12.4.)-
L Trafność planu eksperymentalnego i czynniki ją zakłócające Każdy ly plan E i qE należy rozpatrywać w kontekście (Campbell, Stanley, Cook, 1967; )k, Campbell, 1979): (a (a) trafności wewnętrznej, (b) trafności zewnętrznej. Omówię teraz oba rodzaje trafności oraz czynniki je zakłócające.
4.1. Trafność wewnętrzna i czynniki ją zakłócające Trafność wewnętrzna planu eksperymentalnego jest warunkiem niezbędnym, bez spełnienia którego wyniki uzyskane na podstawie przeprowadzonego badania eksperymentalnego nie mogą być interpretowane w kategoriach jakiejś koncepcji psychologicznej, z której została wywiedziona testowana przez badacza hipoteza traktująca o zależności zmiennej zależnej Y od zmiennej niezależnej-głównej X ipor. TBO w świadomości metodologicznej — rozdz. 3., pkt. 3.). Pytanie o trafność wewnętrzną planu E czy qE, to pytanie o to, czy dana zmienna niezależna X rzeczywiście zadziałała na Y w badaniu realizowanym wg tego planu? Jeżeli na to pytanie ma paść odpowiedź twierdząca, to: (1) plan musi być adekwatny do danej hipotezy (i tak, na przykład, plany J0-1" nie są adekwatne do testowania hipotez zakładających zależność krzywoli niową zmiennej Y od zmiennej X); (2) badacz powinien kontrolować wszystkie czynniki mogące mieć — poza zmienną X (o części z nich mowa będzie niżej) — wpływ na zachowanie się (także to niespecyficzne) osób badanych w trakcie badania eksperymentalnego; (3) badacz powinien efektywnie manipulować zmienną X czyli powinien stwo-
313
rzyć takie warunki badania, które zapewnią maksymalizację wariancji zmiennej Y wyjaśnionej oddziaływaniem na tę zmienną postępowania eksperymentalnego X (efekty jego wpływu na Y można będzie oddzielić od szumu pochodzącego z nie kontrolowanych przez badacza źródeł). Najkrócej ujmując, plan trafny wewnętrznie to taki plan, który pozwala wyeliminować alternatywne — do ujętych w hipotezie badawczej — wyjaśnienia zaobserwowanej zmienności zmiennej Y. Jest to podstawowa funkcja planu eksperymentalnego (Czytelnik zwrócił zapewne w tym momencie uwagę na zbieżność idei trafności wewnętrznej z Ajdukiewicza metodą wnioskowania przez indukcję eliminacyjną — por. pkt. 2.1). Owe „alternatywne" wyjaśnienia zmienności Y związane są z czynnikami odnoszącymi się do sposobu organizacji, przebiegu samego badania eksperymentalnego realizowanego według danego planu, niespecyficznymi zachowaniami się osób badanych w sytuacji badania eksperymentalnego oraz wpływem czynników z otoczenia fizycznego i społecznego sytuacji badawczej. Do czynników zakłócających trafność wewnętrzną planu eksperymentalnego czy planu quasi-eksperymentalnego należą (Cook, Campbell, 1979, rozdz. 2. Validity, s. 37-94): 1. Historia (ang. history). Im dłuższy czas dzieli pretest Y i posttest Y, tym bardziej prawdopodobne staje się to, że na osoby badane, poza postępowaniem eksperymentalnym (w grupie eksperymentalnej), zadziały jakieś zmienne z konteks tu zewnętrznego, w którym „zanurzone" jest prowadzone badanie. Mogą to być dokonujące się właśnie ważne przemiany społeczne, które mogą oddziaływać wzmacniając (albo osłabiając) wpływ zmiennej X na zmienną zależną. Sułek (1979 s. 73) podaje przykład badań rynkowych, w których oceniana jest skuteczność reklamy określonego towaru. Nie przewidziane przez badacza pojawienie się na rynku bardzo atrakcyjnego, nowego towaru, o tym samym przeznaczeniu co towar reklamowany, może spowodować spadek zainteresowania pierwszym towarem, a badacz może dojść do błędnego wniosku, iż reklama okazała się mało skuteczna. Czynnik historii może mieć duży, aczkolwiek ukryty, wpływ na uczniów w bada niach nad skutecznością oddziaływań wychowawczych i nauczających; w tego typu badaniach na ogół pretest Y przeprowadza się na początku roku szkolnego, a post test Y na końcu tego roku. Od wpływu tego czynnika wolne są na ogół ekspery menty laboratoryjne, prowadzone w dobrze kontrolowanych warunkach (m. in. za pewniona jest izolacja osób badanych od wpływów zewnętrznych, pozalaboratoryjnych). Niestety, prowadząc badania w warunkach naturalnych (klasa szkolna, szpi tal, rodzina, fabryka), nie możemy, najczęściej, pozwolić sobie na taki „luksus". Musimy tedy radzić sobie inaczej — np. przez wybór takiego planu eksperymen talnego, w którym możliwa jest kontrola czynnika historii. 2. Dojrzewanie (ang. maturation). Działanie tego czynnika jest podobne do działania czynnika historii, z tą jednak różnicą, że źródłem zakłóceń jest sam or ganizm osoby badanej. W długim okresie dzielącym pretest Y'\ posttest Y zachodzić mogą naturalne zmiany związane z dojrzewaniem fizjologicznym i psychicznym osób badanych, których oddziaływanie na Y może albo wzmacniać, albo osłabiać efekty X. Co więcej, efekty tego czynnika mogą być niekiedy mylnie utożsamiane 314
z efektami postępowania eksperymentalnego. Szczególnie narażone na oddziaływanie tego czynnika mogą być badania prowadzone na dzieciach. 3. Selekcja (ang. selection). Stronniczy dobór osób do grup — eksperymen talnej i kontrolnej — może zwiększać prawdopodobieństwo potwierdzenia hipotezy badawczej. Wystarczy, że — na przykład — badacz dobierze do grupy ekspery mentalnej osoby o zdecydowanych poglądach antyaborcyjnych (np. członków ruchu na rzecz obrony życia poczętego), a do grupy kontrolnej osoby z ruchu feministy cznego, aby uzyskać silny efekt oddziaływania eksperymentalnego, polegającego na kształtowaniu postaw antyaborcyjnych. „Odwracając" grupy, możemy uzyskać silny efekt postępowania eksperymentalnego polegającego na kształtowaniu postaw proaborcyjnych. W badaniach szkolnych dobór uczniów uzdolnionych do grupy eksperymentalnej „ułatwi" potwierdzenie hipotezy mówiącej o większej skuteczno ści nowego programu nauczania. Jedynym antidotum na działanie tego czynnika jest randomizacja. Wszystkie badania, które nie są prowadzone wg planów zakła dających randomizację (a więc wg planów qE), czyli losowe rozdzielanie osób z też losowo (a przynajmniej kwotowo) pobranej próby, podlegają wpływom tego czynnika. 4. Testowanie (ang. testing). Aby poznać „wyjściowy" poziom zmiennej za leżnej w obu grupach, eksperymentalnej i kontrolnej, przed wprowadzeniem do grupy eksperymentalnej postępowania eksperymentalnego X badacz dokonuje po miaru zmiennej Y (pretest Y). Takie pomiary, jak czas reakcji RT czy reakcja skórno-galwaniczna GSR nie mają wpływu na to, jak osoba badana „przyjmie" postępowanie eksperymentalne, ani na wyniki pomiaru końcowego zmiennej Y (posttest Y). Mówiąc inaczej, pomiary te nie uwrażliwiają osób badanych, a więc nie stanowią dodatkowego źródła wariancji zmiennej Y. Nie wchodzą też w inter akcję ze zmienną X, Inaczej jednak przedstawia się sprawa z pomiarem ilorazu inteligencji IQ za pomocą np. Skali Inteligencji WAIS-R, z pomiarem opinii i po staw za pomocą kwestionariuszy i skal postaw czy też z pomiarem wiadomości za pomocą standaryzowanych testów wiadomości. Może być bowiem tak, że to nie postępowanie eksperymentalne jest głównym (czy jedynym) źródłem zmienności Y, a fakt poddania pretestowi zmiennej Y osób z grup porównawczych lub (i) inter akcja pretestu Y ze zmienną X. Sułek (1979, s. 76) zwraca też uwagę na to, że: „...sam fakt bycia badanym zmienia ludzi pod tymi względami, które są przedmio tem badania. Przede wszystkim aktywizuje ich poznawczo: zwraca ich uwagę na pewne sprawy, skłania do szukania nowych o nich informacji, zachęca do myślenia o rzeczach, o których dotąd być może nawet nie myśleli, ukazuje nowe możliwości patrzenia na jakieś zagadnienia". Ponieważ badacz, na ogół, nie chce (i moim zdaniem — nie powinien!) rezygnować z przeprowadzenia pretestu Y, więc musi przeprowadzić badanie w taki sposób, aby nie rezygnując z pretestu Y, kontrolować jego wpływ na Y. Jest to w pełni możliwe jedynie wówczas, jeżeli badanie będzie przeprowadzone wg planu Solomona (plan 4.). Problemy metodologiczne, które rodzi stosowanie w badaniach psychologicznych (i nie tylko) pretestu Y zostały szczegółowo przedyskutowane w pracy autora (Brzeziński, 1989b): Eksperymentalne badanie zmian — metodologiczne problemy stosowania pretestu zmiennej zależnej. 315
5. Instrumentacja (ang. instrumentatioń). Wpływ tego czynnika związany jest z różnorakimi zmianami narzędzi pomiarowych, procedury ich stosowania i obli czania wyników (w mniejszym stopniu dotyczy to testów psychologicznych, któ rych istotą jest standaryzacja warunków ich stosowania — o ile, rzecz jasna, badacz nie złamie konwencji psychometrycznej), ze zwiększeniem doświadczenia (większa wprawa) osób stosujących te narzędzia, zmianą osób dokonujących pomiarów za pomocą owych narzędzi itp. Zmiany te obejmują okres dzielący pretest Y od posttestu Y. Oczywiście należy skrupulatnie przestrzegać standaryzacji warunków sto sowania pretestu Y oraz posttestu Y. Nie należy dokonywać zmian osób kodujących wyniki w pierwszym i drugim badaniu. Niestety nie da się uniknąć (może z wy łączeniem starannie wy standaryzowanych testów psychologicznych, jak np. skale inteligencji: WISC-R, WAIS-R; test Matryc Ravena; kwestionariusze osobowości: MMPI, 16 PF, STAI; kwestionarusz temperamentu FCZ-KT Strelaua i Zawadzkie go) wpływu czynnika nabywania wprawy z badania na badanie. Można jednak zminimalizować jego wpływ poprzez przeprowadzenie z osobami, które będą do konywać pomiarów, intensywnego treningu — na wzór opisanego w rozdz. 14. treningu sędziów kompetentnych. 6. Regresja statystyczna (ang. statistical regression). Zjawisko regresji staty stycznej związane jest z tendencją do podwyższania, w postteście Y, skrajnie ni skich i obniżania skrajnie wysokich wyników uzyskanych przez osoby badane w preteście Y. Wyniki mają tendencję do uśredniania się. Objaśnijmy do na przykła dzie zjawiska regresji do średniej, której podlegają ilorazy inteligencji dzieci wzglę dem ilorazów inteligencji ich rodziców: „Zgodnie z tą regułą, dziecko rodziców o inteligencji wyższej niż przeciętna będzie najprawdopodobniej miało II trochę niższy od nich, ale cały czas wyższy od równej 100 średniej dla populacji. Innymi słowy, iloraz inteligencji dziecka «ulega regresji», zbliżając się do średniej wartości II całej populacji. Gdyby poziom inteligencji rodziców był niższy od przeciętnego, wówczas ich dziecko miałoby II wyższy niż oni, ale jednak cały czas niższy od 100. W obu wypadkach można powiedzieć, że najlepszą prognozą dla dziecka jest liczba mieszcząca się w przedziale między średnią II jego rodziców a średnią po pulacji wynoszącą 100" (Seligman D., 1995, s. 101). W przypadku badań prowa dzonych na osobach, które zostały rozdzielone do grup porównawczych z uwagi na swe skrajnie niskie/wysokie wyniki uzyskane w preteście Y można się spodzie wać, że przynajmniej niektóre z tych osób podwyższą/obniżą wyniki posttestu Y nie na skutek zastosowanej przez badacza manipulacji eksperymentalnej, ale na skutek zadziałania czynnika regresji statystycznej. Efekt regresji statystycznej może nałożyć się na efekt postępowania eksperymentalnego, co z kolei może doprowa dzić do przeszacowania wielkości tego ostatniego. Rada dla badacza: nie należy prowadzić badań na osobach o skrajnie niskich/wysokich wynikach w preteście Y (np. uczniowie „dwójkowi" czy „szóstkowi"; osoby manifestujące skrajnie ni skie/wysokie nasilenie postaw). 7. Utrata osób badanych (ang. mortality). Jeżeli eksperyment prowadzony jest przez dłuższy czas (np. okres jednego roku szkolnego), to należy liczyć się z tym, iż liczebność próby ulegnie zmniejszeniu. Jeżeli z grupy eksperymentalnej, podda316
nej intensywnemu oddziaływaniu eksperymentalnemu, ubędą osoby, które mogłyby uzyskać w postteście Y wyniki bardzo się różniące od wyników pretestu Y, to średni wynik pomiaru końcowego zmiennej Y w porównaniu ze średnim wynikiem pretestu będzie w jakimś stopniu zaniżony. Podobnie, gdy ubędą z grupy eksperymentalnej (np. klasy szkolnej, w której prowadzony jest „eksperyment pedagogiczny") osoby uzyskujące słabe oceny (np. uczniowie „dwójkowi"), to będzie to miało wpływ na średni wynik posttestu Y\ w konsekwencji tego pomyślnego dla hipotezy badawczej biegu zdarzeń różnica między średnimi wynikami posttestu w grupach, eksperymentalnej i kontrolnej, będzie zawyżona. Przy dużych ubytkach osób o skrajnie niskich/wysokich wynikach pretestu Y może dojść do znaczących zafalszowań końcowych rezultatów, w świetle których badacz przyjmie lub odrzuci hipotezę badawczą. 8. Interakcja selekcji z (ang. interactions with selection): (8-a) historią, (8-b) dojrzewaniem, (8-c) instrumentacją. W tym przypadku mamy do czynienia z nie korzystnym zbiegnięciem się wpływów czynnika selekcji, który wchodzi w inter akcję z, kolejno, historią, dojrzewaniem i instrumentacją. Dobór dzieci o zróżnico wanym tempie rozwoju umysłowego do grup porównawczych i prowadzenie badań przez dłuższy okres (np. jednego roku) może być źródłem różnicy wzrostu wyni ków w posttestach zmiennej zależnej Y. Podobne efekty interakcyjne wystąpić mo gą w przypadku dwóch pozostałych czynników — historii i instrumentacji. 9. Przenikanie informacji związanych z postępowaniem eksperymentalnym Z grupy do grupy, albo imitowanie postępowania eksperymentalnego (ang. diffusion OT imitation of treatment). Niemożność fizycznego odseparowania grup, ekspery mentalnej i kontrolnej, od siebie i — tym samym — umożliwienie osobom z grupy eksperymentalnej nawiązania kontaktów z osobami z grupy kontrolnej (i na odwrót) może być niepożądanym źródłem dodatkowej wariancji zmiennej Y. Osoby z jednej grupy mogą uczyć się „prawidłowego" zachowania się, którego, ich zdaniem, ocze kuje od nich badacz. W konsekwencji owej nie chcianej przez badacza komunikacji osób z obu grup, zatarciu (lub pomniejszeniu) mogą ulec różnice (zaplanowane przez badacza!) między obiema grupami, które — w intencji badacza — mają laczyć zmienność zmiennej Y. Ten czynnik może być szczególnie trudny do tontrolowania w tzw. eksperymentach terenowych, prowadzonych w warunkach naturalnych, w których możemy, na przykład, porównywać skuteczność różnych akcji profilaktycznych (odnośnie palenia papierosów czy używania narkotyków). Jeżeli w sąsiadujących ze sobą gminach, czy nawet województwach, prowadzimy badania nad konkurencyjnymi programami społecznymi, to informacje o nich będą zapewne przenikać do osób, do których nie są one (zgodnie z planem badania) adresowane. Oczywiście, badania typu laboratoryjnego, w których mamy możliwość izolowania osób, do których kierowane są różne instrukcje oraz oddziaływajnia eksperymentalne, wolne są od tego typu zakłóceń. 10. Kompensujące, programowe zróżnicowanie grup porównawczych, wyrów nanie ich traktowania (ang. compensatory eąualization of treatments). Znowu, jak w pkt. 9., czynnik ten dotyczy przede wszystkim badań prowadzonych w warunkach naturalnych. Jeżeli, w szeroko zakrojonych badaniach terenowych, grupa ekspery317
mentalna potraktowana została przez badacza w sposób postrzegany przez społeczność jako „wyróżniający" jej członków (np. specjalny program wsparcia społecznego obejmujący dzieci pochodzące ze środowisk kulturowo zaniedbanych), to społeczność lokalna może nie zaaprobować owej „dyskryminacji" osób nie objętych „specjalnym" programem adresowanym jedynie do członków grupy eksperymentalnej i będzie podejmować inicjatywy mające na celu zniesienie różnic międzygrupowych, wprowadzonych przez eksperymentatora. 11. Kompensowanie mniej pożądanych warunków i spowodowane nim rywalizacyjne zachowanie się osób badanych (ang. compensatory rivałry by respondents receiving less desirable treałments). Także i ten czynnik występuje w badaniach prowadzonych w warunkach naturalnych — zwłaszcza gdy prowadzone są one na „scenie społecznej", gdy budzą szczególne zainteresowanie społeczne. Jeżeli postę powanie eksperymentalne postrzegane jest jako atrakcyjne i wyróżniające osoby z grupy eksperymentalnej, to może to wywołać u osób z grupy kontrolnej zacho wania rywalizacyjne (nie muszę, rzecz jasna, dodawać, że nie są one pożądane z punktu widzenia eksperymentatora), których celem jest pokazanie badaczowi, że są one równie dobre, jak osoby z grupy eksperymentalnej i też zasługują na takie, „lepsze" traktowanie. W efekcie, zmniejszone będą (a w skrajnym wypadku nawet zniesione) różnice między grupami — eksperymentalną i kontrolną. 12. Obrażanie się osób badanych, które znalazły się w mniej pożądanych warunkach (ang. resentful demoralization of respondents receiving less desirable treatments). Osoby z grupy kontrolnej, które znalazły się w „gorszych" — w po równaniu z grupą eksperymentalną — warunkach, mogą demonstrować swoją nie chęć wobec eksperymentatora i zachowywać się specjalnie gorzej, poniżej swoich możliwości; jest to reakcja na pozbawienie ich pożądanych wartości, które dostępne są, za sprawą eksperymentatora (tak to postrzegają osoby z grupy kontrolnej!), osobom z grupy eksperymentalnej. Takie zachowanie się osób z grupy kontrolnej powiększy różnice dzielące grupę eksperymentalną i kontrolną i będzie stwarzało korzystniejsze warunki akceptowania hipotezy badawczej (przeszacowanie wielko ści efektu eksperymentalnego). Efekt działania tego czynnika wystąpi wówczas, gdy nie ma możności zablokowania informacji o grupie eksperymentalnej dociera jących do grupy kontrolnej, a więc w badaniach prowadzonych w warunkach tere nowych, a nie laboratoryjnych. Tyle, jeśli chodzi o krótką charakterystykę czynników zakłócających trafność wewnętrzną planu eksperymentalnego i quasi-eksperymentalnego. Przejdźmy teraz do omówienia drugiego rodzaju trafności — trafności zewnętrznej oraz czynników ją zakłócających.
4.2. Trafność zewnętrzna i czynniki ją zakłócające Trafność zewnętrzna planu eksperymentalnego (czy planu quasi-eksperymentalnego) związana jest z pytaniem o zakres wniosków, które badacz sformułował na 318
podstawie wyników uzyskanych z badania eksperymentalnego. Mówiąc inaczej, dotyczy ona zakresu generalizacji (uogólniania) tych wniosków. Przeanalizujmy teraz warunki od których zależy trafność zewnętrzna planu E czy qE. Po pierwsze, badacz chce (i powinien) wiedzieć, czy uzyskane wyniki mogą być podstawą do formułowania uogólnień na większą zbiorowość osób, na całą populację, czy też mogą być potraktowane jedynie jako podstawa do sporządzenia psychologicznego portretu osób z przebadanych grup — eksperymentalnej i kontrolnej. Czytelnik wie już, że badanie na stosunkowo mało licznych grupach nie jest prowadzone po to, aby dowiedzieć się „czegoś" o specyfice psychologicznej tych grup, ale po to, aby dowiedzieć się czegoś o specyfice całej zbiorowości (populacji), z której te osoby zostały wyłonione, i które można traktować jako typowe dla tej zbiorowości. Oczywiście najlepszym rozwiązaniem jest posłużenie się próbą losową, albo — jeżeli losowy dobór próby przekracza możliwości ekonomiczne i techniczne badacza — próbą kwotową. Po drugie, problem trafności zewnętrznej, to nie tylko problem reprezentatywności próby, na której przeprowadzone było badanie empiryczne, ale to także problem reprezentatywności warunków, w których przeprowadzono badanie. Inaczej mówiąc, jest to problem typowości warunków badania dla warunków pozaeksperymentalnych, na które będą uogólniane wyniki przeprowadzonego badania. Trochę to przypomina Aronsonowskie (por. pkt. 2.5) pojęcie realizmu życiowego. Prowadząc badanie w laboratorium imitującym, na przykład, klasę szkolną i uzyskując jakieś wyniki, badacz musi się zastanowić nad tym, na ile możliwe będzie uzyskanie takich samych (czy maksymalnie zbliżonych) wyników gdy — na podstawie opublikowanych przez niego rezultatów badawczych — „prawdziwy" nauczyciel będzie prowadził lekcje w „prawdziwej" klasie szkolnej, w której ławkach siedzieć będą .,wylosowani przez życie uczniowie". Warunki, w których sprawdzano skuteczność jakiejś manipulacji eksperymentalnej, np. nowego programu terapeutycznego czy nowego programu reklamowego, nie powinny odbiegać od tych, w jakich będzie — już poza laboratorium — stosowany dany program terapeutyczny, edukacyjny czy reklamowy wobec osób, które z przeprowadzonymi przez badacza badaniami nie miały nic wspólnego. Osoby, wobec których badacz stosuje określone pomiary (posługując się aparaturą, testami, obserwacją, rozmową) nabywają nowego doświadczenia związanego z uczestniczeniem w badaniach naukowych, zgraniem roli osoby badanej. To zaś może mieć wpływ na sposób ich zachowania się w sytuacji eksperymentalnej. To zachowanie wcale nie musi być takie samo | {i na ogół nie jest) w przypadku osób, które nie będą miały żadnego kontaktu ani z badaczem, ani ze stosowanym przez niego instrumentarium. Mówiąc krótko, jeżeli wyniki eksperymentu mają być przeniesione poza laboratorium, doświadczenie eksperymentalne osób badanych nie powinno mieć żadnego wpływu na wielkość stwierdzanego przez badacza efektu eksperymentalnego lani na jego kierunek). Niestety wiele badań prowadzonych przez psychologów, pedagogów czy socjologów nie jest wolnych od owych wpływów ograniczających — niekiedy drastycznie — zakres formułowanych przez badacza wniosków. I jeszcze jedno, w dużych badaniach eksperymentalnych prowadzonych w wa319
runkach naturalnych badacz korzysta z pomocy wielu współpracowników, których zadaniem jest prowadzenie pomiarów, ocenianie skuteczności postępowania eksperymentalnego (sędziowie kompetentni) czy prowadzenie zabiegów eksperymentalnych (np. zabiegów terapeutycznych czy lekcji w eksperymentalnych klasach szkolnych). Osoby te są specjalnie przygotowane do pełnienia wyznaczonych im przez scenariusz badania ról. Ich kompetencje będą zapewne wyższe od kompetencji „zwykłych" terapeutów czy nauczycieli. Zatem należy się spodziewać, że sposób prowadzenia programów oraz oceny ich skuteczności będą się różniły od tych, które będą stosowane w praktyce. Po trzecie, o trafności zewnętrznej traktuje też następujące pytanie: czy uzyskiwane przez badacza wartości zmiennych zoperacjonalizowanych (z uwagi na określone narzędzie pomiarowe) nie zniekształcają rzeczywistych wartości zmiennych przysługujących osobom z populacji, które nie będą — w warunkach „życiowych" — przed wprowadzaniem określonego postępowania, wzorowanego na postępowaniu eksperymentalnym, poddawane pretestom F? Wyobraźmy sobie następującą sytuację, w której badacz przystępuje do operacjonalizacji zmiennej „lęk". Można ją przeprowadzić na trzy sposoby. Po pierwsze, można przyjąć, iż odmienne instrukcje słowne udzielane osobom badanym będą wywoływały lęk o różnym natężeniu. Po drugie, można założyć, iż zagrożenie uderzeniem prądem elektrycznym (jak w badaniach Miłgrama) o różnym napięciu będzie wywoływało u osób badanych proporcjonalne do napięcia prądu natężenie lęku. Wreszcie po trzecie, można dobrać osoby tak, by różniły się stopniem natężenia lęku, przy czym każdej wartości tej zmiennej odpowiadałaby pewna liczba punktów uzyskana przez nie w teście psychologicznym (np. STAI) przeznaczonym do pomiaru lęku. Rodzi się zaraz pytanie: czy trzy, wyżej przedstawione metody operacjonalizacji zmiennej „lęk" są równoważne? Psycholog-specjalista od problematyki osobowości i różnic indywidualnych odpowie, że nie. Zwłaszcza trzeci sposób wyraźnie odstaje od pozostałych. Ten problem pociąga za sobą kolejne pytania. Który z wyżej przedstawionych sposobów operacjonalizacji jest najlepszy? Czy przedstawione sposoby są w ogóle poprawne? Czy istnieje jakiś inny sposób i dopiero on jest poprawny? Jak widać są to trudne pytania. Niełatwo na nie udzielić jednoznacznej odpowiedzi. Po czwarte, z trafnością zewnętrzną związany jest też problem czasu, w którym badacz przeprowadził badanie. Między czasem, w którym przeprowadzono badanie i czasem, w którym dokonano generalizacji wyników z tego badania oraz ich ewentualnej aplikacji może występować długa przerwa. Może ulec zmianie cały kontekst historyczny, w którym osadzone było badanie. Zwłaszcza badania świadomości społecznej są wrażliwe na tego typu zmiany. Próbę, na której prowadzone były badania może cechować inne doświadczenie historyczne, niż populację, na którą będą uogólniane wyniki tego badania. Do czynników zakłócających trafność zewnętrzną planu eksperymentalnego czy planu quasi-eksperymentalnego należą (Cook, Campbell, 1979, s. 73-74): 1. Interakcja selekcji z postępowaniem eksperymentalnym (ang. interaction of selection and treatment). Nierespektowanie zasady randomizacji doprowadzić mo320
że do tego, że w grupie eksperymentalnej znajdą się osoby bardziej podatne na postępowanie eksperymentalne niż w populacji, o której zakładamy, że z niej pochodzi badana próba. Z kolei w grupie kontrolnej znajdą się osoby znacząco mniej podatne na postępowanie eksperymentalne niż populacja, na którą badacz ma zamiar uogólnić wnioski z badania. Wystąpi wówczas efekt interakcji selekcji osób do obu grup porównawczych ze zmienną X. Przykładowo, nowa metoda nauczania może dać bardzo dobre rezultaty w jednej grupie, a w drugiej nie, gdyż w pierwszej (eksperymentalnej) były dzieci o wysokim poziomie inteligencji, a w igiej (kontrolnej) poziom inteligencji dzieci był niższy od przeciętnej w populacji. 2. Interakcja warunków badania z postępowaniem eksperymentalnym (ang. interaction of setting and treatment). Badania prowadzone w „cieplarnianych" wa runkach, tj. na przykład, w tzw. szkołach eksperymentalnych stale współpracu jących z opiekującymi się nimi uniwersytetami (na ogół pracują w takich szko łach lepiej przygotowani profesjonalnie nauczyciele, szkoły są lepiej wyposażone, a i uczniowie różnią się od uczniów z typowych szkół) dadzą wyniki, które — można spodziewać się tego — będą obciążone. Podobnie, prowadzenie badań w uczelnianych klinikach psychiatrycznych może dać rezultaty inne od tych, które uzyskać można gdy badania prowadzone są w dużych, prowincjonalnych szpitalach psychiatrycznych. 3. Interakcja historii z postępowaniem eksperymentalnym (ang. interaction of history and treatment). Prowadzenie badań w okresie historycznym szczególnie brzemiennym w wydarzenia absorbujące osoby badane (np. w okresie transfor macji ustrojowej) może „sprzyjać" hipotezie badawczej. Gdyby powtórzyć ta kie badanie w innych, „spokojniejszych" warunkach historycznych, to mogłoby się okazać, że wyniki tego drugiego badania nie pokrywają się z wynikami po przednimi. Ważnym czynnikiem zakłócającym trafność zewnętrzną planu eksperymentalnego, wyróżnionym w innych opracowaniach (por. Campbell, Stanley, 1967; Rosenthal, Rosnow, 1984), który, jak sądzę, warto wyraźnie wyodrębnić, zwłaszcza gdy się rozważa praktykę badawczą takich nauk, jak psychologia, socjologia czy pedagogika jest: 4. Interakcja pretestu Y z postępowaniem eksperymentalnym (ang. interaction ofpretesting and treatment). Wiele stosowanych w naukach behawioralnych narzę dzi pomiarowych (w szczególności testów inteligencji, testów wiadomości, skal postaw) uwrażliwia osoby badane, które zostały poddane pretestowi Y. Są to osoby „inaczej" podatne na oddziaływanie zmiennej X, niż osoby, które nie są (nie będą) poddawane procedurze pretestu Y. Populacja, na którą badacz będzie chciał uogól nić wnioski z badania, oczywiście nie będzie poddawana pretestowi Y przed zasto sowaniem wobec niej określonych zabiegów opartych na wynikach wcześniej prze prowadzonych badań eksperymentalnych, poprzedzonych przeprowadzeniem prete stu Y. W rezultacie wystąpienia efektu interakcji pretestu Y ze zmienną X może okazać się, że wyniki uzyskane z końcowego badania grupy osób poddanych pre testowi Y będą niereprezentacyjne dla populacji, która nie będzie podlegała testo321
waniu, a z której pobrano próbę do badania. Na przykład, samo badanie postaw przed wprowadzeniem postępowania eksperymentalnego, którego celem jest wywołanie ich zmian, może przyczynić się do tego, że osoby badane zaczną zwracać uwagę na pewne obiekty w swoim otoczeniu, zaczną analizować swoje zachowanie w stosunku do pewnych osób, postępowań itp., mimo iż dotychczas tego nie robiły. To uwrażliwienie może zwiększyć podatność osób badanych na postępowanie eksperymentalne, a w konsekwencji zmiany postaw będą głębsze. Jednakże nie możemy spodziewać się zmian o takiej samej wielkości w przypadku całej populacji, która przecież — powtarzam — nie będzie poddana procedurze pretestu Y.
4.3. Statystyczny kontekst trafności Trafność planu eksperymentalnego musi być też rozpatrywana w kontekście stosowanej przez badacza analizy statystycznej danych pozyskanych z przeprowadzonego badania. W przypadku odmiany jedno-jednozmiennowej badacz posługuje się testami istotności różnic — parametrycznymi (test t) i nieparametrycznymi (np. test chi-kwadrat czy test Wilcoxona). Z kolei plany eksperymentalne jedno-wielozmiennowe i wielo-wielozmiennowe oparte są na statystycznym modelu jednowymiarowej analizy wariancji (ANOVA) i wielowymiarowej analizy wariancji (MANOVA). Posłużenie się jakimś testem statystycznym zakłada respektowanie określonych założeń tworzących jego model statystyczny. W przypadku bardzo popularnego testu t są to: (a) założenie o normalności rozkładu zmiennej Y w porównywanych populacjach oraz (b) założenie o homogeniczności wariancji rozkładów zmiennej Y w porównywanych populacjach. Pogwałcenie przez badacza owych założeń doprowadzić może do nietrafnych decyzji odnośnie testowanych hipotez. Pamiętać też należy o tym, że badacz dokonuje zabiegu operacjonalizacji zmiennych. Zatem porównywane przez niego wyniki (zmiennej Y); posttestów Y, pretestów Y czy posttestu Y z pretestem Y w różnych kombinacjach grup porównawczych będą w jakiejś mierze obciążone realną rzetelnością narzędzi pomiarowych (np. testów psychologicznych, za pomocą których badacz określa początkowy i końcowy poziom zmiennej Y w porównywanych grupach — przed wprowadzeniem i po zakończeniu postępowania eksperymentalnego). Problem ten zgłębiam w pracy: Brzeziński (1989b). Tam też zwracam uwagę na problemy metodologiczne, jakie rodzą się, gdy badacz zechce ocenić wielkość efektu eksperymentalnego na podstawie tzw. wyników różnicowych („posttest Y — pretest Y" ■— w grupie eksperymentalnej i kontrolnej, odpowiednio) — m.in. analizuję paradoks pomiarowy występujący przy pomiarze zmian, a opisany przez Overalla i Woodwarda (1975). Nie będę tu więcej pisał na ten temat, gdyż problemy związane ze stosowaniem testów statystycznych w badaniach eksperymentalnych omawiam w pkt. 6. niniejszego rozdziału oraz w rozdz. 11. (zwłaszcza pkt. 2.-4.). 322
4.4. Odniesienie do teorii To wszystko co badacz przeprowadził przygotowując dane badanie eksperymentalne, a więc: (a) sformułowanie hipotezy badawczej (por. rozdz. 8.)> (b) zdefiniowanie zmiennych oraz ich operacjonalizacja (por. rozdz. 7.), (c) wybór adekwatnego do hipotezy planu eksperymentalnego (por. pkt, 5. tego rozdziału), (d) dobór próby z populacji oraz jej podział na grupy porównawcze (por. rozdz. 9.), ma swoje uzasadnienie w teorii psychologicznej, która stanowi rację dla zaplanowanego i przeprowadzonego przez badacza badania eksperymentalnego. Eksperyment rozpatrywany poza kontekstem teorii (tak jak to chciał przed laty Skinner, gdy formułował słynne pytanie: „Czy teorie uczenia się są niezbędne?" i odpowiadał na nie przecząco — por. Skinner B.F., 1950) stanowi jedynie pustą atrapę. Czytelnik zechce wrócić do rozdz. 3., pkt. 3., w którym omówiona została struktura świadomości metodologicznej badacza oraz zwrócić — jeszcze raz! — uwagę na podstawowy jej element TBO (Teoria badanego obiektu). Wyjście z określonej teorii psychologicznej (TBO), i powrót do niej, w celu zinterpretowania uzyskanych w eksperymencie (trafność wewnętrzna!) wyników przed ich uogólnieniem (trafność zewnętrzna!) na daną populację i warunki „życiowe", przesądza o naukowości podejmowanego przez badacza badania eksperymentalnego. Poza teorią psychologiczną nie ma eksperymentu psychologicznego, chyba, że przestaniemy traktować psychologię jako naukę empiryczną.
5. Odmiany planów eksperymentalnych 5.1. Plany jedno-jednozmiennowe, dwuwartościowe („0-1") i W tym punkcie przedstawię cztery najbardziej rozpowszechnione plany eksperymentalne (plany: 1.—4.) oraz dwa mniej typowe, które mają zobrazować Czytelnikowi możliwości konstruowania nowych planów w zależności od konkretnych poj trzeb (plany: 5. i 6.). Nie będę tu natomiast omawiał planów qE, gdyż można je stworzyć przez pogwałcenie założeń definicyjnych planu E (np. nierespektowanie I zasady randomizacji czy nieuwzględnianie grupy kontrolnej, jak to ma miejsce w I planach jednogrupowych). Wygodnie będzie, jeżeli wpierw objaśnię oznaczenia, które wystąpią przy prezentacji poszczególnych planów. X — zmienna niezależna-główna (inaczej: postępowanie eksperymentalne); zmienna X przyjmuje dwie wartości — w grupie eksperymentalnej przyjmuje war323
tość „1" (po prostu oddziałuje na zmienną Y; osoby badane są poddane jej wpływowi); ~X — zmienna niezależna-główna przyjmuje, w grupie kontrolnej, wartość „0" (nie oddziałuje ona na zmienną Y; osoby z tej grupy nie są poddane jej wpływowi); czasami osobom z grupy kontrolnej podaje się tzw. placebo, czyli np. jeżeli osoby z grupy eksperymentalnej otrzymują jakiś lek, to osoby z grupy kontrolnej otrzymują „coś", co łudząco przypomina ten lek, ale nie zawiera żadnych substancji aktywnych chemicznie (idzie o to, aby wyeliminować, jako potencjalne źródło wyjaśnienia zaobserwowanej zmienności Y, zarówno samą czynność podawania leku, jak i świadomość jego otrzymywania czy wiarę w jego skuteczność); Y — zmienna zależna; Yp — pomiar początkowy zmiennej zależnej Y (inaczej: pretest Y), czyli pomiar zmiennej Y przeprowadzony na początku badania — przed wprowadzeniem postępowania eksperymentalnego do grupy eksperymentalnej oraz przed wprowadzeniem placebo do grupy kontrolnej (jeżeli badacz nie przewiduje wprowadzania placebo do grupy kontrolnej, to jedynie przeprowadza pretest Y w tym samym czasie co w grupie eksperymentalnej); obok symbolu p będzie występowało też oznaczenie grupy, np. Yi p należy odczytać jako: „pomiar początkowy zmiennej Y w grupie drugiej"; Yk — pomiar końcowy zmiennej zależnej Y (inaczej: posttest Y), czyli pomiar zmiennej zależnej Y przeprowadzony po zakończeniu badania — po wprowadzeniu do grupy eksperymentalnej zmiennej X (postępowania eksperymentalnego); obok symbolu k będzie występowało też oznaczenie grupy, np. Yik należy odczytać jako: „pomiar końcowy zmiennej Y w grupie pierwszej"; R — randomizacja czyli losowe rozdzielenie osób badanych do grup porównawczych; > — w przypadku hipotez kierunkowych (jednostronnych — prawostronnych czy lewostronnych) przeciętna wartość zmiennej zależnej w danej grupie powinna być „lepsza" (tzn. albo wyższa, albo niższa — w zależności od „kierunku" różnicy) od przeciętnej wartości zmiennej zależnej w drugiej grupie, z którą ta pierwsza jest porównywana; „lepsza", tzn. albo wyniki pierwszej grupy przewyższają wyniki grupy drugiej (np. wyższy wynik w teście wiadomości z matematyki, wyższy iloraz inteligencji w skali inteligencji WAIS-R), albo są od wyników drugiej grupy niższe (np. niższy wynik w kwestionariuszu objawów depresyjnych BDI, niższy wynik w kwestionariuszu lęku STAI); jeżeli badacz testuje hipotezy bezkierunkowe (dwustronne), to powinien wykazać jedynie, że porównywane grupy różnią się (znak „>" należy zastąpić znakiem „*"). Poszczególne plany omawiane będą wg tego samego porządku: (a) graficzny schemat planu, (b) przebieg badania — kolejne kroki, które badacz musi wykonać, (c) warunki potwierdzenia hipotezy badawczej, (d) kontrola czynników zakłócających trafność wewnętrzną i zewnętrzną planu, (e) zastosowania planu. 324
5.1.1. Plan 1. — z grupą kontrolną, z pomiarem początkowym i końcowym zmiennej zależnej (a)
Plan 1. Plan z grupą kontrolną, z pomiarem początkowym i końcowym zmiennej zależnej
(b) Badanie wg tego planu przebiega w trzech etapach. Pierwszy — przepro wadzenie pretestu Y w grupie 1. i 2. Drugi — wprowadzenie do grupy 1. (ekspe rymentalnej) zmiennej X (postępowania eksperymentalnego) oraz pozostawienie w warunkach nie zmienionych (lub podanie placebo) grupy 2. (kontrolnej). Trzeci — przeprowadzenie posttestu Y w obu grupach. (c) Aby potwierdzić hipotezę badawczą, powinno się wykazać, iż: — Spełniony jest warunek wstępny, bez czego nie można przejść do dalszych analiz: V
— V
Warunek wstępny mówi, iż grupy powinny „startować" z tego samego poziomu zmiennej Y. Gdyby tak nie było, to trudno byłoby — po zakończeniu całego badania — ocenić wielkość rzeczywistego (czystego) przyrostu lub obniżenia wartości zmiennej Y wskutek oddziaływania na nią zmiennej X. Jeżeli wyjściowy poziom zmiennej Y w grupie eksperymentalnej byłby wyższy od wyjściowego poziomu tej zmiennej w grupie kontrolnej (i byłoby to zgodne z kierunkiem różnicy zakładanym w hipotezie), to hipoteza badawcza znalazłaby się w korzystniejszej sytuacji testowej. Końcowe porównanie wartości zmiennej Y w obu grupach byłoby przeszacowane (na „korzyść" hipotezy badawczej). — Spełnione są następujące warunki potwierdzenia hipotezy;
jeżeli nie zakładamy, iż w grupie kontrolnej też powinny wystąpić zmiany w danym kierunku (np. klasa szkolna nauczana wg tradycyjnego programu nauczania czy pacjenci leczeni tylko farmakologicznie, bez wspomagania psychoterapeutycznego), to powinniśmy dodatkowo oczekiwać, iż: W przypadku sprawdzania hipotez mówiących o względnej efektywności (naKzania, terapii, modyfikacji zachowania itp.) dwóch różnych programów oddziaływania, warunek potwierdzenia hipotezy badawczej najlepiej wyrazić w postaci następującego porównania: D\ > D2, gdzie: Dx = Ylk - Ylp, D2 = Y^ - Y2p. Zauważmy, że absurdalne jest założenie, iż O, * D 2 , gdyż w takiej sytuacji oba wyniki (£>i > D2 oraz Di < D2) uznane byłyby przez badacza za równie „do325
bre". To zaś, po przełożeniu na język praktyki oznaczałoby, iż nowa metoda może być albo „lepsza" od tradycyjnej (przyjęcie takiego założenia teoretycznego i praktycznego czyni zasadnym całe badanie), albo „gorsza" (!) od niej (czego raczej trudno oczekiwać od sensownie myślącego badacza, gdyż zakłada on, w najgorszym przypadku, iż okaże się ona co najmniej równie dobra co metoda tradycyjna; oczywiście trudno taki wynik uznać za sukces badacza). Ważne jest to, nie tylko w kontekście tego planu, iż badacz musi dostosować warunki potwierdzenia hipotezy („<", „>", „^") do kierunku różnicy, lub jego braku, założonego w hipotezie badawczej. W przeciwnym przypadku będzie się stosowało kryteria bezkierunkowe („^") wobec hipotez de facto kierunkowych („>'\ „<")■
(d) Randomizacja i przeprowadzenie w obu grupach zarówno pretestu Y, jak i posttestu Y sprawia, że kontrolowane są wszystkie czynniki zakłócające trafność — z wyjątkiem interakcji pretestu Y z postępowaniem eksperymentalnym X, zakłó cającej trafność zewnętrzną. Jeżeli badacz podejrzewa, że zastosowana przez niego metoda pomiaru zmiennej Y (jak np. skala postaw, test wiadomości) może uwra żliwić osoby badane, to powinien, bezwzględnie, zrezygnować z tego planu — najlepiej na rzecz planu 4. (e) Jest to podstawowy plan E i — jak się Czytelnik przekona — wchodzi on w skład bardziej rozbudowanych planów, np. planu 4. Zawodzi on w przypadku posługiwania się przez badacza metodami, które wprowadzają tzw. efekt pretestu i są dodatkowym, nie kontrolowanym przez badacza źródłem wariancji zmiennej Y. 5.1.2. Plan 2. — z grupą kontrolną, bez pomiaru początkowego zmiennej zależnej
(a)
Plan 2. Plan z grupą kontrolną, bez pomiaru początkowego zmiennej zależnej
(b) Badanie przeprowadzone wg tego planu przebiega w dwóch etapach. W pierwszym badacz wprowadza do grupy eksperymentalnej zmienną X. Grupa kontrolna pozostaje w tym czasie w nie zmienionych warunkach, albo otrzymuje placebo. W drugim etapie badacz przeprowadza w obu grupach posttest Y. (c) Hipoteza badawcza może być uznana za potwierdzoną, jeżeli: 2ł
Ylt> Y (d) Problem uwrażliwiającego wpływu na osoby badane pretestu Y został rozwiązany w najprostszy z możliwych sposobów — został on przez badacza wyeli326
minowany. Randomizacja pozwala zakładać, iż grupa eksperymentalna i kontrolna rzeczywiście „startują" z tego samego poziomu zmiennej Y. Jeżeli jednak grupy te są mało liczne, badacz może nie uzyskać równomiernego rozłożenia wszystkich zmiennych, nie kontrolowanych metodą ustalania stałego ich poziomu w obu grupach. Ponadto dość często chcielibyśmy poznać wyjściowy poziom zmiennej f, aby móc — po zakończeniu badania — poznać wielkość zmiany (przyrostu, albo spadku wartości zmiennej 10 jaka została wywołana zamierzonym postępowaniem eksperymentalnym (takie właśnie postępowanie badawcze zalecane jest w badaniach ewaluacyjnych — por. Hawkins, Nederhood, 1994, rozdz. 4.: Schemat ewaluacji, s. 39-56). Dlatego też, nie traktowałbym tego planu jako najlepszej metody radzenia sobie z uwrażliwiającym wpływem pretestu Y. Inne czynniki zakłócające trafność planu są kontrolowane. (e) Plan stosowany jest jako prosty sposób na wyeliminowanie efektu pretestu. 5.1.3. Plan 3. — z pomiarem początkowym i końcowym zmiennej zależnej w różnych grupach (a)
(b) Badanie według tego planu przebiega w trzech kolejnych krokach. Pier wszy sprowadza się do przeprowadzenia pretestu Y w grupie 2. (kontrolnej). Drugi polega na wprowadzeniu do grupy 1. (eksperymentalnej) zmiennej X oraz pozosta wieniu grupy 2. (kontrolnej) w nie zmienionych warunkach lub podaniu jej placebo. Wreszcie trzeci krok polega na wykonaniu posttestu Y w grupie 1. (eksperymen talnej). (c) Hipotezę można uznać za potwierdzoną, jeżeli: Ytk > *V (d) Plan ten stanowi inne, niż przyjęte w planie 2., rozwiązanie problemu uwrażliwiającego wpływu pretestu Y. Trafność wewnętrzna tego planu jest za chwiana przez wpływ czynnika dojrzewania i historii. Randomizacja zapewnia kon trolę czynnika selekcji. (e) Plan ten może być stosowany wówczas, gdy okoliczności nie pozwalają | na równoległą obserwację — zarówno grupy eksperymentalnej, jak i grupy kon trolnej — oraz na przeprowadzenie, na tej podstawie, posttestu Y. Plan ten — w wersji qE (nierespektowanie zasady randomizacji) bywa wykorzystywany w bada niach edukacyjnych — „... musi być czasem stosowany, gdy działanie eksperymen talne nakierowane jest na całą zbiorowość (np. szkoła lub kilka szkół) i jego re327
zultaty powinny przynieść widoczne skutki u wszystkich osób będących obiektem eksperymentu" (Janowski, 1974, s. 212-213). 5.1.4. Plan 4. — czterogrupowy, Solomona (a) R
Yip
X
Y\k
Grupa 1.
R R R
V*
•~X
Y2k
X
fti Ku
Grupa 2. Grupa 3. Grupa 4.
■~x
Plan 4. Plan czterogrupowy, Solomona
(b) Czterogrupowy plan zaproponowany przez Solomona (1949; Solomon, Lessac, 1968) — stąd jego oryginalna nazwa: Solomon's four group design — traktowany jest przez wielu metodologów nauk behawi oralnych jako swoisty ideał w tej grupie planów eksperymentalnych, tj. planów „0-1" (por. Campbell, Stanley, 1967; Rosenthal, Rosnow, 1984; Janowski, 1974; Walton, Braver, Braver t 1988; Helmstadter, 1970). Plan ten, a zwłaszcza statystyczna analiza danych empirycz nych uzyskanych z badania przeprowadzanego zgodnie z jego wymaganiami, był przez lata doskonalony (por. zwłaszcza: Walton, Braver, Braver, 1988; Huck, Sandler, 1973; Oliver, Berger, 1980; Brzeziński, 1989b). Jak nietrudno zauważyć, plan Solomona składa się z dwóch planów do siebie „dodanych" — planu 1. i planu 2. Jego główną zaletą, która mu przysporzyła takiej popularności w środowisku psychologów, socjologów, psychiatrów i pedagogów jest możliwość kontrolowania efektu pretestu bez rezygnowania z przeprowadzenia pomiaru początkowego zmiennej Y. Badanie wg tego planu przebiega w trzech etapach. Pierwszy etap, to przeprowadzenie w pierwszej grupie eksperymentalnej (grupa 1.) oraz w pierwszej grupie kontrolnej (grupa 2.) pretestu Y. W drugim etapie badacz wprowadza do obu grup eksperymentalnych (grupy: 1. i 3.) postępowanie eksperymentalne, a obie grupy kontrolne (grupy: 2. i 4.) pozostawia bez zmian lub wprowadza do nich placebo. Etap trzeci, kończący badanie, wymaga wykonania przez badacza posttestu Y w obu grupach eksperymentalnych (grupy: 1. i 3.). (c) Analizę wyników w planie Solomona można przeprowadzić na dwa spo soby — elementarny i zaawansowany. Zacznijmy od pierwszego. Elementarna analiza wyników. Dla uzyskania potwierdzenia hipotezy badawczej należy przeprowadzić następujące porównania:
D, > D 2 , 328
gdzie: Y lk - Y Xp , Y^ - Y 2p;
kontrola efektu pretestu — wymagane jest aby:
Jeżeli warunki eksperymentu zakładają, że w grupie kontrolnej nie powinny wystąpić celowe zmiany, to dodatkowo badacz musi wykazać, iż:
Zaawansowana analiza wyników. Ten sposób analizy, zalecany przez wielu metodologów (por. Walton, Braver, Braver, 1988; Huck, Sandler, 1973; Oliver, Berger, 1980; Brzeziński, 1989b) odwołuje się do tak zaawansowanych wielowymiarowych modeli statystycznych, jak analiza wariancji ANOVA, analiza kowariancji ANCOVA czy analiza regresji wielokrotnej MR. Dostępność dobrego i stosunkowo prostego w obsłudze oprogramowania statystycznego, adresowanego m. in. do środowiska psychologów, socjologów i pedagogów (np. SPSS PC+, CSS STATISTICA) sprawia, iż badacz powinien przejść na ten bardziej złożony, ale dostarczający znacznie więcej informacji sposób analizy danych zebranych zgodnie z planem Solomona. Tutaj ograniczę się jedynie do pokazania korzyści wnikających z zastosowania modelu ANOVA. Zastosowanie znajdzie tu model dwuczynnikowej ANOVA w układzie grup )mpletnie zrandomizowanych (na ten temat por. Brzeziński, Stachowski, 1984, idz. 4., pkt. 4.3. — Plan eksperymentu dwuczynnikowego KRG-pq (n > 1)1, 190221). W przyjętym statystycznym modelu opracowania danych zakłada się, że badacz ma do czynienia z dwoma czynnikami, każdym występującym na dwóch poziomach: (1) postępowanie eksperymentalne X („1" — występuje, „0" — nie występuje), (2) pretest Y („1" — występuje, „0" — nie występuje). Analizę wariancji przeprowadza się na wynikach posttestów Y, przeprowadzonych we wszystkich czterech grupach. Wyniki wprowadzamy do tabeli, takiej, jak lab. 12.3. Tabela 12.3. Tabela wyników 2 x 2 przygotowana do przeprowadzenia analizy wariancji wyników z eksperymentu przeprowadzonego wg planu Solomona
X
~x
występuje pretest Y
nie występuje pretest Y
yu
Yu Y«
Wariancję Y można rozbić na wariancje cząstkowe (składowe): (a) wariancję wprowadzoną przez zmienną X (postępowanie eksperymental ne) — badacz zainteresowany jest jej maksymalizacją, rar^ (b) wariancję wprowadzoną przez pretest Y — badacz zainteresowany jest jej minimalizacją, varn pretest; 329
(c)
wariancję wprowadzoną przez interakcję zmiennej X z pretestem Y — badacz zainteresowany jest jej minimalizacją, vary\ xpretcsii (d) wariancję wprowadzoną przez inne, nie kontrolowane przez badacza zmienne (tzw. wariancja resztowa) — badacz zainteresowany jest jej mi nimalizacją, varYiKS7Xa. Za pomocą odpowiednich wskaźników (wyrażonych procentowo) badacz może określić procentowy udział poszczególnych wariancji cząstkowych w wariancji całkowitej Y. Zaś za pomocą testu F-ANOWA może on określić istotność: (a) zmiennej X, (b) pretestu Y, (c) interakcji X z pretestem Y. Dla pełnej trafności zewnętrznej wymaga się, aby istotna okazała się jedynie zmienna X (postępowanie eksperymentalne). Z możliwych do wykorzystania proponuję następujące wskaźniki (Brzeziński, I985b, 1989b): (p - 1) (MSX MSreszta) (a) vary]X (b)
n pą gdzie: p -— liczba poziomów zmiennej X (tu: 2); ą — liczba poziomów zmiennej pretest Y (tu: 2); n — liczba osób w jednej grupie (zakłada się, że grupy są równoliczne); MS — średni kwadrat (wzięty z sumarycznej tabeli ANOVA). Przemnażając poszczególne wartości wariancji składowych przez 100% otrzymamy procentowe udziały poszczególnych wariancji cząstkowych w wariancji całkowitej Y. Po dodaniu do siebie wariancji (a), (b), (c) i odjęciu otrzymanej sumy od 100% otrzymamy procentowy udział wariancji resztowej w wariancji całkowitej Y. W przypadku otrzymania ujemnej wartości danego wskaźnika, podstawiamy za nią zero, a wariancję cząstkową traktujemy jako zerową. Więcej informacji na temat zaawansowanej analizy danych uzyskanych z badania eksperymentalnego przeprowadzonego wg planu Solomona Czytelnik znajdzie w innej mojej pracy (Brzeziński, 1989b). (d) Plan Solomona pozwala na kontrolę wszystkich czynników zakłócających jego trafność wewnętrzną i zewnętrzną, a zwłaszcza bardzo dolegliwego wpływu czynnika testowania. (e) Plan Solomona znajduje zastosowania szczególnie w badaniach: nad efek tywnością psychoterapii (Czabała i in., 1973), nad zmianą postaw i opinii (Lana, 1969; Brzeziński, 1989b), edukacyjnych (Janowski, 1974), nad rozwojem (Lessac, Solomon, 1969). Zatrzymajmy się jeszcze chwilę — dla ilustracji możliwości wykorzystaniaplanu Solomona w praktyce badawczej — przy problematyce oceny efektywności technik zmian postaw. 330
Przy badaniu efektywności jakichkolwiek technik zmian postaw, gdyby je przeprowadzać wg planu 1., badacz musi odpowiedzieć na pytanie: czy zaobserwowane efekty rzeczywiście są skutkiem zastosowania w stosunku do osób z grupy eksperymentalnej danej techniki zmian postaw? Mimo, iż w planie 1. wpływ ważnych czynników zakłócających trafność wewnętrzną i zewnętrzną został wyeliminowany (z wyjątkiem jednego), to jednak otwartą sprawą pozostaje problem reaktywności pretestu Y przeprowadzanego w obu grupach za pomocą jakiejś skali postaw. W takiej sytuacji badawczej problem uwrażliwienia osób badanych ma kapitalne znaczenie, jeżeli chodzi o określenie rzeczywistego wpływu danej zmiennej niezależnej X (tu: techniki zmian postaw) na zmienną Y. Mamy prawo przypuszczać, że wstępny pomiar może zwrócić uwagę osób badanych na pewne obiekty w ich otoczeniu, co doprowadzić może do tego, że zaczną analizować swoje zachowanie w stosunku do pewnych osób, postępowań itp., mimo, iż dotychczas tego nie czyniły. Może to również doprowadzić do zmian postaw osób badanych. Z drugiej strony, po sprawdzeniu skuteczności danej techniki zmian postaw na określonej próbie (rzecz jasna, że reprezentatywnej!) musimy odpowiedzieć na kolejne pytanie: czy po zastosowaniu danej techniki zmian postaw do dowolnych osób z interesującej badacza populacji należy spodziewać się takich samych efektów, jak zaobserwowane w badanej próbie? Udzielając odpowiedzi na to pytanie musimy sobie zdawać sprawę z faktu, że zaobserwowane zmiany postaw w badanej próbie mogły (chociaż nie musiały) być rezultatem działania dwóch czynników: samej techniki zmian postaw i zastosowanego narzędzia pomiaru postaw (pretestu Y). Jeżeli nie potrafimy oddzielić zmian spowodowanych zastosowaniem określonej techniki zmian postaw od zmian wywołanych aktem pomiaru postaw, to nie możemy udzielić twierdzącej odpowiedzi na wyżej sformułowane pytanie. Jest tak, gdyż populacja nie będzie przecież, przed zastosowaniem określonej techniki zmian postaw, testowana (nie będzie wobec niej stosowany pretest Y). Oczywiście, może być i tak, że pomiar początkowy Y wchodzi w interakcję z techniką zmian postaw — a tym samym zmiany postaw osób badanych mogą być tłumaczone: (a) zadziałaniem techniki zmian postaw (postępowanie eksperymentalne X), (b) uwrażliwiającym osoby badane wpływem na nie pretestu Y, (c) interakcją postępowania eksperymentalnego X z pretestem Y, (d) innymi, nie kontrolowanymi przez badacza, zmiennymi, które stanowią źródło wariancji resztowej. Najbardziej optymalnym — z metodologicznego punktu widzenia — rozwiązaniem jest znalezienie takiej metodyki eksperymentalnej, która pozwoliłaby na dokładne określenie stopnia wpływu wymienionych czynników na zmienną Y, oraz określenie „czystego" wpływu danej techniki zmian postaw na postawy osób badanych. Cele te badacz może osiągnąć — jak Czytelnik bez trudu się domyślił — przez odwołanie się do planu Solomona i zastosowanie zaawansowanej analizy danych (ANOVA). 331
5.1.5. Plan 5. — trzygrupowy, z podwojonym pomiarem początkowym i jednym pomiarem końcowym zmiennej zależnej (a)
Plan
5. Plan trzygmpowy, z podwójnym pomiarem początkowym i jednym pomiarem końcowym zmiennej zależnej
(b) Plan 5. obejmuje dwie grupy kontrolne i jedną grupę eksperymentalną. Badanie eksperymentalne przeprowadzone wg tego planu wymaga od badacza aby: (1) przeprowadził pretest Y w grupie 3., (2) przeprowadził pretest Y w grupie 2., (3) wprowadził postępowanie eksperymentalne do grupy I. (eksperymentalna), a obie grupy kontrolne (grupa 2. i 3.) pozostawił w nie zmienionych warunkach lub wprowadził do nich placebo, (4) przeprowadził posttest Y w grupie 1. Odstępy czasu dzielące Y ip i Y 2p oraz Y^ i Y ik powinny być równe. (c) W celu potwierdzenia hipotezy badawczej badacz musi wykazać, iż: Jeżeli zaś między pomiarami Y nie zachodzi ta relacja, to nie można wykluczyć, iż zaobserwowana różnica Y ik - Y^ została wywołana przez czynnik dojrzewania. (d) Kontrola czynników zakłócających trafność planu jest podobna jak w pla nie 3. — z wyjątkiem czynnika dojrzewania, który w tym planie jest poddany szczególnej kontroli. (e) Planem tym posługujemy się wówczas, gdy jesteśmy szczególnie zaintere sowani sprawdzeniem tego, czy obserwowana zmiana Y nie została, tak naprawdę, wywołana czynnikiem dojrzewania, a nie manipulacją eksperymentalną. Plan 5. znajduje zastosowanie w badaniach edukacyjnych. 5.1.6. Plan 6. — czterogrupowy, z pomiarem początkowym i końcowym zmiennej zależnej w różnych grupach (a) R
X
R R R
X
Plan
Grupa 1.
Yit X YĄp
YM
~X
Grupa 2. Grupa 3. Grupa 4.
6. Plan czterogrupowy, z pomiarem początkowym i końcowym zależnej w różnych grupach
332
Jeżeli nie zadziałał czynnik dojrzewania, to:
zmiennej
(b) Plan ten powstał przez podwojenie planu 3. Zauważmy jeszcze, że pomiar końcowy Y w grupie 1. przeprowadzany jest w tym samym czasie co pomiar po czątkowy Y w grupie 4. Można zatem powiedzieć, że zakończenie pierwszej części badania (realizowanego zgodnie z planem 3.) zbiega się w czasie z rozpoczęciem części drugiej badania (też realizowanej wg planu 3.). W miarę potrzeb plan ten może być rozbudowany o kolejną część, też obejmującą dwie grupy — piątą i szóstą. Badanie przeprowadzone wg tego planu przebiega w pięciu etapach. W pierwszym etapie przeprowadza się pretest Y w grupie 2. (kontrolna 1,). W drugim — wprowadza się do grupy 1. (eksperymentalna 1.) postępowanie eksperymentalne; grupę 2. pozostawia się w nie zmienionych warunkach, albo wprowadza do niej placebo. W trzecim etapie przeprowadza się, równolegle, w grupie 1. i 4. (kontrolna 2.) pomiar końcowy Y (grupa 1.) oraz pretest Y (grupa 4.). Etap czwarty, to kolejne wprowadzenie postępowania eksperymentalnego, ale tym razem do grupy 3. (eksperymentalna 2.); grupę 4. pozostawia się w nie zmienionych warunkach, albo aplikuje się jej placebo. Badanie kończy się etapem piątym — przeprowadzeniem pomiaru końcowego zmiennej Y w grupie 3. (eksperymentalnej 2.). (c) W celu potwierdzenia hipotezy badawczej badacz musi wykazać, iż: Y lk > Y 2p oraz Y 3k > Y 4p .
Jeżeli nie zadziałał czynnik historii, to różnica: Ylt- Y^, nie powinna być większa (albo mniejsza) od różnicy: Y3k- YĄp. (d) Pian ten skonstruowany został z myślą o uzyskaniu potwierdzenia, iż w badaniu nie wystąpił efekt czynnika historii. (e) Plan znajduje zastosowanie w badaniach edukacyjnych i socjologicznych, prowadzonych w warunkach braku stabilności społecznej i politycznej, gdy w oto czeniu osób badanych zachodzą ważne wydarzenia mogące mieć wpływ na „od biór" przez nie postępowania eksperymentalnego.
5.2. Ograniczenia planów „0-1" Ograniczenia, w zakresie testowania hipotez badawczych, planów „0-1" można sprowadzić do kilku punktów. Oto one: 1. Jedno badanie — jedna zmienna. 2. Niemożność testowania hipotez o wpływie na zmienną zależną interakcji między zmiennymi niezależnymi. 3. Konieczność badania wpływu na Y tylko zmiennych dwuwartościowych. 4. Testowanie wyłącznie zależności liniowych między zmiennymi: Y i X. Teraz, pokrótce, je scharakteryzuję. 1. Jedno badanie —jedna zmienna. Niestety najpoważniejszym ograniczeniem planów „0-1" jest to, że nadają się one jedynie do testowania hipotez mówiących o związku jednej zmiennej zależnej z też jedną zmienną niezależną. Zgodnie z definicją klasycznego eksperymentu opartą na zasadzie indukcji eliminacyjnej (Ajdukiewicza), każdy taki plan zakłada manipulowanie tylko jedną zmienną niezależną333
-główną (postępowanie eksperymentalne) i dodatkowo nakłada na badacza nieprzyjemne ograniczenie, polegające na tym iż pozostałe zmienne istotne dla Y muszą być utrzymane na stałym poziomie. Chcąc tedy testować hipotezy mówiące o związku zmiennej Y z większą liczbą zmiennych niezależnych, badacz musi sięgnąć po plany oparte na statystycznym modelu ANOVA. 2. Niemożność testowania hipotez o wpływie na zmienną zależną interakcji między zmiennymi niezależnymi. To ograniczenie jest konsekwencją wyżej omówio nego. O interakcji można mówić wówczas, gdy rozpatrujemy co najmniej dwie zmienne niezależne. Badanie jej istotności też zakłada równoczesne oddziaływanie na zmienną Y co najmniej dwóch zmiennych niezależnych: X\ i X 2 , a to umożli wiają jedynie tzw. plany czynnikowe (ang. factorial designs), oparte na statystycz nym modelu analizy wariancji ANOVA (na ich temat: Brzeziński, Stachowski, 1984, rozdz. 4.: Plan eksperymentu wiełoczynnikowego w grupach kompletnie zrandomizowanych; a zwłaszcza pkt. 4.3.2. Pojęcie i istota interakcji, s. 192-197). Jak sądzę, rzeczywistość nas otaczająca ma naturę „interakcyjną" i poza prostymi eks perymentami analizującymi wpływ pojedynczych zmiennych na inną zmienną, je dynie eksperymenty oparte na modelu ANOVA, czy opisane w rozdz. 13. badania oparte na modelu wielokrotnej regresji MR, umożliwiają dotarcie do niej. 3. Konieczność badania wpływu na Y tylko zmiennych dwuwartościowych. Od miana modelu eksperymentalnego „wszystko albo nic" wymusza na badaczu stoso wanie wobec zmiennych de facto wielo wartościowych zabiegu dychotomizacji. Musi on, arbitralnie, zadecydować co to znaczy, że zmienna X przyjmie dla grupy ekspe rymentalnej wartość „1". Jeżeli osoby z grupy eksperymentalnej mają pracować w warunkach określonego obciążenia psychicznego, to jak określić jego wartość? Naj lepiej, gdyby badacz mógł wprowadzić różne wartości tego obciążenia do grup porów nawczych. To jednak w przypadku tych planów nie jest możliwe. Badacz może bowiem do jednej grupy wprowadzić określoną (jaką?) wartość tego obciążenia, a dru gą — kontrolną — pozostawić w warunkach standardowych czy relaksowych. Nie fortunny dobór wartości zmiennej X — gdy faktyczna zależność Y od X ma charak ter krzywoliniowy — może doprowadzić do uzyskania wyników dających nietrafny obraz tej zależności; por. przeprowadzoną w pkt. 3. analizę takiego przypadku. 4. Testowanie wyłącznie zależności liniowych między zmiennymi Y i X. Ponie waż badacz porównuje jedynie dwie grupy różniące się wartościami wprowadzonej do nich zmiennej X, więc może on testować takie hipotezy, które dopuszczają jedy nie związek liniowy zmiennych Y i X. Do czego to może doprowadzić? — por. pkt. 3.
5.3. Plany jedno-wielozmiennowe, wielowartościowe — kilka uwag wprowadzających Omówionych w pkt. 5.2 ograniczeń pozbawione są plany eksperymentalne jedno-wielozmiennowe, oparte na statystycznym modelu ANOVA. W szczególności pozwalają one na testowanie, w , jednym badaniu", złożonych hipotez traktujących o: 334
(a) wpływie na Y dowolnej liczby zmiennych niezależnych X { , X 2 , X 3 , ... (oczywiście owa liczba jest, realistycznie podchodząc do tego zagadnienia, ograni czona możliwościami technicznymi badacza czy pojemnością oprogramowania sta tystycznego, którym on dysponuje); (b) wpływie na Y interakcji zmiennych niezależnych, co pozwala na rozbicie efektu interakcji, powiedzmy, dwóch zmiennych, X { i X 2 na tzw. efekty proste pokazujące wpływ zmiennej Xi na Y przy poszczególnych wartościach zmiennej X2: bh ...,bj,..., bq, czyli: Xt\bj oraz wpływ zmiennej X2 na Y przy poszczególnych wartościach zmiennej Xi: au ..., a{,..., Op, czyli: X2\a,. Mówiąc inaczej, rozbijając efekt interakcji na poszczególne efekty proste otrzymujemy precyzyjną informację 0 wpływie na Y jednej zmiennej niezależnej (poprzez wszystkie wartości jakie ona przyjmuje w danym badaniu), gdy druga zmienna niezależna przyjmuje wpierw wartość pierwszą, następnie drugą itd. (na ten temat por. pkt. 4.3.2.: Pojęcie i istota interakcji p x q oraz pkt. 4.3.2.: Pojęcie efektu prostego w: Brzeziński, Stachowski, 1984, s. 192-199). W możliwości testowania hipotez o wpływie na Y interakcji zmiennych niezależnych istotnych dla Y upatruję główny walor tej odmiany modelu E. Tak naprawdę, rzeczywistość nas otaczająca ma charakter „interakcyjny" i traf nym obrazem PY jest taki, który zakłada interakcje (liczba mnoga!) między zmien nymi istotnymi dla rozważanej przez badacza zmiennej zależnej Y, a więc: Oin(Py). Badając tedy wpływ jakichś układów zmiennych niezależnych na Y rozsądnie bę dzie, na początek, przyjąć hipotezę istotnościową, zakładającą O,n{PY). Bardzo prze konującym przykładem może być stanowisko w sprawie udziału czynnika środo wiska i genotypu w formowaniu inteligencji człowieka — ani wpływ jedynie śro dowiska, ani wpływ jedynie genetycznego wyposażenia człowieka, lecz ich inter akcja przesądza o ukształtowaniu się inteligencji — i pod względem struktury, 1 pod względem poziomu (por. Seligman D., 1995; Strelau, 1987). Zastosowanie modelu ANOVA do badań nad rolą obu czynników w kształtowaniu inteligencji, a zwłaszcza do badania wpływu ich interakcji na inteligencję, zostało bardzo grunItownie przedstawione w artykule Wahlstena: Insensitivity of the analysis of variance to heredity-environment interaction (1990). Bardzo zachęcam, bardziej dociekli wego Czytelnika, do jego lektury oraz zawartej w tym samym numerze czasopisma 3ehavioral and Brain Sciences" obszernej dyskusji nad jego treścią; (c) wpływie na Y zmiennych, które mogą być wielowartościowe, ale nie ciągfc; wielowartościowe zmienne niezależne muszą być sprowadzone do zmiennych dyskretnych — np. kontinuum poziomu hałasu musi być podzielone na interwały wyznaczone co «-ty decybel; oczywiście tym nowym wartościom zmiennej mogą i być przypisane określające je „etykietki": skrajnie niski poziom, niski, niższy od przeciętnego, przeciętny, ponadprzeciętny, wysoki, skrajnie wysoki; (d) zależnościach nie tylko liniowych, ale także krzywoliniowych — por. pkt. [2.-3.. rozdz. 10; (e) dynamice zmian zmiennej zależnej Y pod wpływem wielokrotnego stoso[ wania. na tej samej grupie (grupach) osób postępowania eksperymentalnego; każ dorazowo dokonywane są pomiary zmiennej Y (wielokrotnie stosowany wobec tej samej grupy osób posttest Y) — umożliwiają to plany eksperymentów jednoczyn335
nikowych i wieloczynnikowych z powtarzaniem pomiarów zmiennej zależnej (por. Brzeziński, Stachowski, 1984, rozdz. 6.: Plany eksperymentów jednoczynnikowych i wieloczynnikowych z powtarzanymi pomiarami zmiennej zależnej, s. 278-319, rozdz. 1:. Eksperymenty wieloczynnikowe z częściowym powtarzaniem pomiarów zmiennej zależnej, s. 320-372). Są to tedy, jak Czytelnik widzi, znacznie większe możliwości jeśli chodzi o treść hipotez, które badacz chciałby poddać empirycznej kontroli. Nic dziwnego tedy, że nowoczesne eksperymentowanie w psychologii rozwinęło się w ścisłym powiązaniu z modelem statystycznym AN0VA. Dodajmy jeszcze, że bardziej złożony strukturalnie model MANOVA pozwala badać nie jedną zmienną Y, ale większą ich liczbę. Można tedy, zmienną zależną: „inteligencja" wyrażać nie za pomocą jednego wskaźnika, ilorazu inteligencji (IQ), ale za pomocą 11 wskaźników, odpowiadających wynikom przeliczonym 11 testów składających się na Skalę Inteligencji WAIS-R. Znacznie powiększa to możliwości operacyjne badacza i stanowi zdecydowane odejście od ubogiego modelu „wszystko albo nic". Stosowanie planów E opartych na modelu ANOVA wymaga od badacza spełnienia dość restryktywnych założeń. Jak wiadomo, stosowany w analizie wariancji test F-Snedecora ma swój rodowód w teście f-Studenta. Obowiązują też podobne założenia, z których dwa najważniejsze dotyczą (por. rys. 11.1): (a) normalności rozkładów zmiennej zależnej Y w porównywanych populacjach, (b) homogeniczności wariancji rozkładów zmiennej zależnej Y w porównywa nych populacjach. W „specjalnych" planach, takich jak plany z powtarzaniem pomiarów zmiennej zależnej Y, wymagane jest jeszcze respektowanie dodatkowych założeń o (por. rys. 11.2): (c) symetrii macierzy wariancji-kowariancji, (d) równości macierzy wariancji-kowariancji. Zakłada się też, iż: (e) pomiar zmiennej zależnej Y dokonywany jest na poziomie co najmniej skali interwałowej (w sensie Stevensa; por. rys. 11.1-11.2). Wreszcie, co jednak nie różni postępowania badacza odwołującego się do modelu ANOVA od postępowania w przypadku „klasycznego" modelu E: (f) wartości zmiennej X (lub kombinacje wartości wielu zmiennych: X t , X2, X 3 , ...) przydzielane są do grup porównawczych losowo — zasada randmizacji! W rozdz. 3. (Założenia ANOVA i metody ich sprawdzania) pracy Brzezińskiego i Stachowskiego (1984, s. 112-186) Czytelnik znajdzie szczegółowe omówienie tych założeń wraz z metodami sprawdzania ich spełnienia w danym eksperymencie. W przypadku modelu MANOVA uwzględniona musi być informacja dotycząca wielkości interkorelacji między zmiennymi zależnymi: Ylt Y2, Y3, ... (na ten temat por. Cole i in., 1994). Czytelnika zainteresowanego gruntownym opanowaniem planowania eksperymentów w psychologii i dyscyplinach pokrewnych, opartego na modelu AN0VA, 336
mogę odesłać do trzech, moim zdaniem najbardziej kompetentnie (i z troską o czytelnika-psychologa) napisanych monografii — Edwardsa (1972), Kirka (1982) oraz zwłaszcza do niej! — Winera, Browna i Michelsa (1991; wcześniejsze, 2. wydanie: Winer 1971).
6. Ocena istotności zmiennych niezależnych w modelu eksperymentalnym 6.1. Poziom istotności statystycznej a a faktyczna istotność zmiennej X (postępowania eksperymentalnego) dla danej zmiennej zależnej } 6.1.1. Jak liczne powinny być grupy: eksperymentalna i kontrolna? Duża próba versus mała próba Zacznę od prowokacyjnego pytania, zaczerpniętego ze znanego w kręgach psychologów, głównie jednak amerykańskich, podręcznika statystyki autorstwa Haysa (Hays, 1973, s. 422): „Czy wielkość próby może być zbyt duża?". Odpowiedź na to pytanie sformułowana przez Haysa jest jednoznaczna. Pokazuje on bowiem, jak myślenie o „dobroci" danego badania w kategoriach liczby (jak największej!) osób, które badacz powinien przebadać, aby uprawdopodobnić wystąpienie sukcesu badawczego — potwierdzenie hipotezy badawczej o związku zmiennej Y z postępowaniem eksperymentalnym X — prowadzi go faktycznie na manowce, gdyż każdą, nawet błahą zależność uznaje on za doniosłą teoretycznie. Zdaniem Haysa: „Trywialne związki mogą być ukazane jako istotne wówczas, gdy wielkość próby będzie bardzo duża" (s. 424). Ponieważ badacz nie chciałby być autorem trywialnych rezultatów badawczych {zresztą, kto by mu je opublikował?), więc powinien zmienić swoje myślenie na ten temat. Takie, jak Haysa, spojrzenie na wielkość próby zdaje się przeczyć wymaganiom metody reprezentatywnej, o czym pisałem w rozdz. 9. Wszak duża próba daje gwarancję jej reprezentatywności (próba nie może być zbyt mała). Spróbujmy tedy wskazać drogę właściwego postępowania badawczego, które — nie wchodząc w kolizję z założeniami procedur statystycznych (m. in. tych związanych z wielkością próby, a tym samym i grup — eksperymentalnej i kontrolnej) — uchroni psychologa przed ośmieszającymi go pseudowynikami naukowymi (artefaktami). Każdy psycholog, a także dojrzały naukowo student, kandydat na psychologa-badacza wie, że aby opublikować w czasopiśmie naukowym, np. „Przeglądzie Psychologicznym", artykuł przedstawiający sprawozdanie z przeprowadzonych badań eksperymentalnych, albo uzyskać akceptację promotora i recenzenta dla pracy magisterskiej referującej wyniki badań eksperymentalnych, powinien wykazać, iż zastosowany przez niego test istotności „nakaże" mu odrzucenie HQ (na rzecz Hx) 337
o braku różnicy między średnimi wartościami Y w porównywanych grupach — eksperymentalnej i kontrolnej. Wie on, iż kryterium istotności, które musi być spełnione, aby można było uznać różnicę między średnimi czy korelację między zmiennymi za istotne, jest poziom istotności statystycznej — „magiczna" (Cohen, 1994, mówi: „...święte kryterium 0,05") er = 0,05! Przy czym, tak naprawdę, niekoniecznie jest on zainteresowany oszacowaniem rzeczywistej wielkości owej różnicy, czy współczynnika korelacji, ale chciałby, aby wartość statystyki testowej „nakazywała" mu odrzucenie Ho na poziomie p < a. Im bardziej wartość p będzie odbiegała od wartości a= 0,05, tym większa będzie radość badacza z dokonanego ustalenia. I tak, p = 0,001 jest „lepsze", niż p = 0,005. Najlepiej zaś, gdy komputer wyświetli na ekranie wartość: ,,0.0000"(!). Skądinąd wiadomo, że im większa próba, tym łatwiej odrzucić hipotezę zerową. Wystarczy tedy przebadać dostatecznie dużą próbę, aby odpowiedni test statystyczny zdołał odrzucić hipotezę zerową. Bakan (cyt. za Henkel i Morrison, 1970, s. 423-437) przeprowadził za pomocą testów istotności różnic różnorakie porównania intergrupowe 60 tys. osób przebadanych baterią testów psychologicznych. Wszystkie z przeprowadzonych porównań okazały się istotne statystycznie na bardzo „wyśrubowanych" poziomach istotności. Wśród tych „istotnych" porównań znalazły się i takie „kwiatki": osoby mieszkające na wschód od rzeki Missisipi versus osoby mieszkające na zachód od tej rzeki, osoby ze stanu Maine versus osoby z pozostałych stanów, osoby mieszkające na Północy versus osoby mieszkające na Południu, itp. Także Cohenowi (1990) „udało się" wykazać, bardzo istotną statystycznie korelację, zachodzącą między wzrostem i ilorazem inteligencji w grupie 14 tys. dzieci w wieku szkolnym. 6.1.2. Nastawienie na kontrolę błędu I lub II rodzaju Badacz przystępujący do testowania jakiejś hipotezy statystycznej może podjąć jedną z czterech decyzji, z których dwie są obarczone błędem — odpowiednio, błędem 1 rodzaju oraz błędem II rodzaju. Ilustruje to tabela decyzyjna (tab. 12.4). Tabela 12.4. Błąd I rodzaju a błąd II rodzaju Decyzja
odrzucenie Ho
nieodrzucenie Ho
^\^^
Ho prawdziwa
HQ fałszywa
błąd I rodzaju
decyzja poprawna
decyzja poprawna
błąd II rodzaju
Prawdopodobieństwo popełnienia błędu I rodzaju równe jest a czyli stawia się znak równości między prawdopodobieństwem popełnienia błędu I rodzaju i pozio338
mem istotności statystycznej. Z kolei prawdopodobieństwo popełnienia błędu II rodzaju równe jest fi. Z pojęciem błędu U rodzaju związane jest pojęcie mocy testu, którą definiuje się jako prawdopodobieństwo odrzucenia //0, gdy w rzeczywistości jest ona fałszywa, czyli: moc testu = 1 ~fi. Utrzymując na stałym poziomie błąd I rodzaju badacz może zmniejszyć błąd II rodzaju dokonując stosunkowo prostego zabiegu, a mianowicie zwiększaEjąc liczebność próby. Co jednak zrobić, gdy taki „prosty" zabieg z różnych powodów nie jest możliwy do przeprowadzenia (np. badacza na to nie stać)? Wówczas badacz powinien dobrać taki test, który zagwarantuje kompromis między wielkością błędu I rodzaju i wielkością błędu II rodzaju. Pomocna w tym jest znajomość mocy testu oraz jego efektywności (jak praktycznie korzystać z obu tych narzędzi statystycznych — por. Brzeziński, Stachowski, 1984, s. 20, 61-64). Ten i krótki wgląd w naturę podejmowania decyzji statystycznych ukazuje złożoność ; procesu decyzyjnego. Pokazuje też, że badacz powinien nie tylko umieć sprawnie obsługiwać pakiet statystyczny (to o wiele za mało!), ale powinien (i znowu wracamy do świadomości metodologicznej, a dokładniej do jej elementu — TBE/TS) stosunkowo dobrze orientować się w warunkach brzegowych stosowania poszczególnych testów (w pakietach ujęte zostały tylko te, które są najczęściej I w stosowane ;w najczęściej spotykanych warunkach). Uważam, że najeżę ważniejsza jest nie tyle zna- IOŚĆ „techniczna" pakietu statystycznego, ile jomość , znajomość „ducha" testowania. cie bowiem o to, aby psycholog nie stał Idzie bo1 się tylko „dodatkiem" do komputera. Niestety lektura wielu tekstów Niestety skłania mnie raczej do pesymistycznej opinii na ten temat — psycholog ten tema chce nie tyle zrozumieć, to, co „oferuje" mu dany pakiet statystyczny (np. statysty c SPSS PC+), ile, za wszelką cenę (przy czym niezrozumienie sensu sensu mt merytorycznego dokonywanej obróbki statystycznej danych jest stosunkowo I najniższy najniższą ceną, którą jest skłonny zapłacić za przekroczenie progu magiczn; wyznaczonego magiczną liczbą a =0,05), chce odrzucić H o. Zilustrujmy nasze rozważania jakimiś stosunkowo prostymi, a Zi l ! nymi spektakularnymi przykładami. prz Prz\lctad pierwszy. Aby odrzucić H o : p-0 na a = 0,05 (test Prv jednostronny) wystarczy, aby obliczona wartość współczynnika korelacji wystarcz wynosiła r = 0,497, przy ńelkości próby «=10, i tylko r = 0,164, przy wielkość n=100. Jeżeli jednak psycholog chciałby poznać wielkość wariancji zechciałt wspólnej wyjaśnianej przez związek obu liennych, to powinien obliczyć zmiennyt wartość tzw. współczynnika determinacji — r. naszym przykładzie mamy: 2 IW nasz} (0,164) = 0,027, czyli wspólna wariancja obu liennych (ujmując ją zmiennył procentowo) wynosi tylko 2,7%; oczywiście współczynnik ilacji okazał się korelacji istotny! Pr: Przykład drugi (dane liczbowe z: Hays, 1973, s. 417-418) — z mem tesi zastosowa-2m testu istotności różnic między średnimi, testu t (dwie próby I 1 = n 2 -- .niezależne). Przy = n2 = 30 badacz uzyskał następujące wartości średnich grupach arytmetycznych w obu Jpach porównawczych: Gr. 1: M x =65,5; Gr.2: |= 28,96. M 2 ~69; var x - 20,69 i var 2 = 28,96. Wartość statystyki testowej testu t wyniosła: t = -2,71; df=n i + n 2 -2 = 58. Przy założeniu poziomu istotności a = 0,05 (test dwustronny) badacz miał stawy do odrzucenia H o : fti =/f 2 (na rzecz H t : n ^//2 ), bo: r o ,o5;58 " -1,67. Co 339
więcej, uzyskany poziom istotności statystycznej okazał się lepszy od a = 0.001! Czy to oznacza, że badacz odkrył czynnik o dużym „wpływie" na interesującą go zmienną? Niestety nie (por. pkt. 6.2, w którym kontynuowany jest ten przykład).
6.2. Wskaźniki istotności zmiennej X (postępowania eksperymentalnego) Aby sprowadzić bujającego w obłokach badacza na ziemię, powinniśmy przejść na jakąś miarę ukazującą rzeczywisty udział tego hipotetycznego czynnika (zmiennej X) w wyjaśnianiu wariancji całkowitej danej zmiennej (zależnej). Jeżeli zastosowaliśmy test r-Studenta, to możemy odwołać się do propagowanej przez Haysa jego własnej miary, tzw. wskaźnika omega-kwadrat (co2). Po przemnożeniu jego wartości przez 100% uzyskujemy procentowo wyrażoną tę część wariancji całkowitej zmiennej zależnej, która tłumaczona jest przez zmienną niezależną .X. Dla danych z naszego, z pkt. 6.2, przykładu mamy: co2 = 0,096, a więc 9,6% całkowitej wariancji zmiennej tłumaczy dany czynnik. To raczej niedużo i sądzę, że przeciętny psycholog spodziewałby się uzyskać (na podstawie informacji, iż p < < 0,001) wyższe oszacowania wariancji wyjaśnionej danej zmiennej. Dla kontrastu, zobaczmy, jaki jest udział hipotetycznego czynnika w wyjaśnianiu wariancji całkowitej danej zmiennej, gdy różnica między średnimi jest taka sama, jak w poprzednim przykładzie, ale liczebność porównywanych grup jest znacznie mniejsza: nx = = n2= 10; varx = 5,55 i var2 =7,78 (Czytelnik zapewne zauważył, że grupy są teraz bardziej homogeniczne, co wpływa na wielkość mianownika stosunku t\); / = -3,04 (przy df = 18 mamy: f
W odmianie jedno-wielozmiennowej modelu E zastosowanie znajdują wskaźniki informujące badacza o wielkości wariancji całkowitej zmiennej Y wyjaśs. 417): 340
nionej przez poszczególne zmienne X}, X2, X3, ... oraz ich interakcje. Dla planów jedno-, dwu- oraz trój czynnikowych, w modelu efektów stałych, losowych i mieszanych ANOVA gotowe wzory obliczeniowe znajdzie Czytelnik w innej mojej pracy (Brzeziński, 1985b). Tam też zostały podane reguły konstruowania takich wzorów dla planów E o dowolnej liczbie zmiennych niezależnych i ich interakcji. Ten sposób oceniania stopnia istotności poszczególnych zmiennych niezależnych w planach opartych na modelu statystycznym ANOVA uważam za najlepszy. Znane też są inne wskaźniki, wykorzystywane w planach jednoczynnikowych (omega-kwadrat czy, dla zależności nieliniowych, eta-kwadrat) i dwuczynnikowych (np. omega-kwadrat i in.) — na ich temat por. Brzeziński, Stachowski (1984, s. 76-82).
7. Podsumowanie Stosunkowo dużo miejsca, a i tak zbyt mało dla pełnej prezentacji, poświęciłem tu na omówienie podstaw eksperymentowania w psychologii, ze szczególnym zwróceniem uwagi na plany typu „wszystko albo nic" (odmiana jedno-jednozmiennowa modelu E), które — wywiedzione z kanonu jedynej różnicy J. S. Milla (z „poprawką" K. Ajdukiewicza — wnioskowanie przez indukcję eliminacyjną) — stanowią swoisty „wstęp" do nowoczesnego eksperymentowania w psychologii i naukach pokrewnych, opartego na statystycznym modelu jednowymiarowej (jedna zmienna zależna Y — czyli odmiana jedno-wielozmiennowa modelu E) lub wielowymiarowej (wiele zmiennych zależnych Yx, Y2t... — czyli odmiana wielo-wielozmiennowa modelu E) analizy wariancji ANOVA. Uważam, iż psycholog powinien — niezależnie od tego czy zechce w przyszłości posłużyć się modelem E, tym mniej skomplikowanym (o którym przede wszystkim pisałem w tym rozdziale), czy tym bardziej zaawansowanym, odwołującym się do ANOVA i MANOVA — gruntowanie poznać podstawy eksperymentowania w psychologii. Wszak takie, eksperymentalne (poczynając od Wundta, Ebbinghausa, a w Polsce od Heinricha), są korzenie psychologii naukowej. Jeśli chodzi o sugestie dotyczące lektury, to polecam sięgnięcie po monografię Ajdukiewicza: Logika pragmatyczna w zakresie logicznych podstaw eksperymentu. Z kolei praca Sułka: Eksperyment w badaniach społecznych daje bardzo dobry wgląd w zastosowania modelu E w naukach społecznych. W pkt. 5.2 nie mogłem szczegółowo opisać odmiany wielo-wielozmiennowej modelu E nawiązującej do ANOVA. Wspólnie z R. Stachowskim zrobiłem to w monografii (Zastosowanie analizy wariancji w eksperymentalnych badaniach psychologicznych) poświęconej v całości szczegółowej prezentacji, wraz z omówieniem możliwych zastosowań, analizy wariancji. Z kolei wprowadzenie w problematykę MANOVA daje praca Aronowskiej: Elementy zastosowań modelu wielowymiarowej analizy wariancji (MANOVA) w badaniach psychologicznych. Czytelnik zainteresowany bardzo dobrym opanowaniem sztuki eksperymento341
wania opartej na modelach ANOVA i MANOVA powinien jednak sięgnąć po anglojęzyczne opracowania tej problematyki. Do najbardziej znanych w świecie należą książki: Edwardsa (1972. 4. wyd.), Scheffe'a (1959), Kirka (1982, 2. wyd.), Winera, Browna i Michelsa (1991, 3. wyd.), Timma (1975). Problematyka oceny wielkości efektu eksperymentalnego (polegająca na rozbiciu wariancji całkowitej Y na wariancje składowe, których źródłem są poszczególne zmienne niezależne X b X 2 , X 3 ,„.) została gruntownie wyłożona w mojej pracy: Ocena efektu eksperymentalnego w układach eksperymentalnych analizy wariancji. Przeglądu popularnych wskaźników stosowanych do oceny istotności zmiennych niezależnych dokonała Paszkiewicz: O zastosowaniu mierników wielkości efektu eksperymentalnego. Chciałbym jeszcze zwrócić uwagę Czytelnika na jedno. Otóż dobre opanowanie modelu E wymaga równie dobrego opanowania zasad wnioskowania statystycznego wraz ze znajomością ANOVA, MANOVA oraz klasycznych, parametrycznych i nieparametrycznych testów istotności. Zakładam, że Czytelnik zapoznał się, przed lekturą tego rozdziału, z rozdz. 10. i 11. Zwłaszcza bardzo przydatne mogą okazać się dwa schematy, które prowadząc „za rękę", pozwolą dokonać optymalnego wyboru testu istotności różnic w analizowanych, w danym planie, porównań — por. rys. 11.1, dla grup (danych) niezależnych oraz rys. 11.2, dla grup (danych) zależnych. Z podręczników wprowadzających psychologów, socjologów i pedagogów w zagadnienia statystyki polecić mogę, przede wszystkim, PWN-owskie wydanie bardzo dobrego, adresowanego właśnie do psychologów i pedagogów opracowania pióra Fergusona i Takaneego (w przygotowaniu; oryg. wyd. 1989), a także PWNowskie wydanie znanego w środowisku socjologów podręcznika Blalocka (Statystyka dla socjologów). Podręcznik prowadzący Czytelnika „za rękę", od problemu do problemu, napisany jako tzw. „podręcznik programowany", to — także wydana przez PWN — praca polskiego statystyka Grenia: Statystyka matematyczna. Podręcznik programowany. Polecam także opracowanie tegoż autora: Statystyka matematyczna — modele i zadania. W dzisiejszej dobie nie sposób pracować bez obsługi komputerowej. Dla naszych celów szczególnie przydatne będą dwa pakiety statystyczne — SPSS PC+ oraz CSS STATIST1CA — zawierające moduły MANOVA, ANOVA, testy istotności różnic: parametryczne i nieparametryczne.
Rozdziało. Model wielokrotnej regresji (MR)
1. Wprowadzenie — model analizy wariancji (ANOVA) a model wielokrotnej regresji (MR) lodel RM, obok modelu ANOVA, należy do najczęściej stosowanych przez psyjlogów wielozmiennowych modeli statystycznych. Tak jak na temat modelu JOVA napisano wiele monografii i podręczników (por. np. Scheffe, 1959; Winer, fl; Winer i in„ 1991; Oktaba, 1971, 1980; Edwards, 1972; Krishnaiah, 1980; :ziński, Stachowski, 1984), tak i na temat modelu MR — zwłaszcza w latach ;mdziesiątych i osiemdziesiątych — powstało wiele publikacji (por. zwłaszcza ;sowane do przedstawicieli nauk behawioralnych: Kerlinger, Pedhazur, 1973; lazur, 1982; Tukey, Mosteller, 1977; Lindeman, Merenda, Gold 1980; Cohen, len. 1975, 1983; Gunst, Mason, 1980; Aiken, West, 1991). Dominujące w latach iśćdziesiątych i pierwszych latach siedemdziesiątych podejście ANOVA do plaawania badań psychologicznych (zwłaszcza eksperymentalnych) zostało wyraźnie zdominowane w ostatnich latach przez podejście MR. W dużym stopniu do spopularyzowania modelu korelacyjno-regresyjnego, jako podstawy planowania badań i analizy danych w psychologii, przyczyniły się, często cytowane przez psychologów, artykuły Cohena (1968)1 i Darlingtona (1968). Godne uwagi są też artykuły: Overalla i Spiegla, (1969), czy Woodwarda i Overalla (1975). Jak czytelnikowi zapewne wiadomo, jednym z ważnych i, niestety, często „blokujących" psychologa założeń modelu MR jest założenie o co najmniej interwałowym (w sensie przedIflawionym przez Stevensa, 1951) poziomie pomiaru zmiennych niezależnych (predyktorów), wprowadzonych przez badacza do modelu MR. Psychologia jest dyscypliną nauk behawioralnych, której poziom rozwoju osiągnął taki etap, że jeszcze | wiele badań empirycznych prowadzonych jest na zmiennych, których operacjona-lizacja zakłada nominalną skalę pomiaru (tzw. zmienne jakościowe). Ważną rolę w L takich badaniach odgrywają też zmienne „z natury" jakościowe, jak: płeć, pochodzenie środowiskowe, rodzaj zaburzeń zachowania, wzorzec reagowania, typ tem-
Artykuł J.Cohena (1968) znalazł się na liście 100 najczęściej cytowanych artykułów z zakresu nuk społecznych, w latach 1969-1977. Lista ta była opublikowana przez E.Garfielda w „Current Coments: Social and Behavioral Sciences" (1978, 32, s. 5-14) i przedrukowana w ..Zagadnieniach j saokoznawstwa" przez J.Daszkowskiego (1980, 2, s. 170-182).
343
choli \NC Brze •.ale adredh Coht sześć nem; i
THIATT
peramentalny itp. Poziom świadomości metodologicznej przeciętnego psychologa jest taki, że wie on, iż zmienne jakościowe (dwu- i wielokategorialne) stosunkowo łatwo może wbudować w plan eksperymentalny modelu ANOVA (jedno z założeń dopuszcza nominalny charakter zmiennych niezależnych). Jeżeli możemy się posługiwać dobrym i wypróbowanym modelem ANOVA, to po co szukać innych, równoległych rozwiązań statystycznych? Myślę, że racje dla takiego poszukiwania są następujące (por. m.in. Overall i Klett, 1972; Pedhazur, 1982): 1. O ile w przypadku jednej zmiennej niezależnej, takiej jak np. „pleć", przyj mującej dla poszczególnych osób badanych jedną z dwóch wartości: „mężczyzna-kobieta", koszt badania (liczony w stosunku do liczby osób badanych) jest wiel kością nieznaczącą, o tyle wzrasta on zdecydowanie przy kolejnym dołączaniu nowych zmiennych (nawet wyłącznie dwu wartościowych). Jeżeli minimalna, zało żona przez badacza, liczebność grupy porównawczej wynosi n = 10 osób, co i tak jest liczbą niewielką z punktu widzenia zagwarantowania rezultatom badania nie za niskiej trafności zewnętrznej — wszak chcemy uzyskać wyniki reprezentacyjne dla danej populacji, także w sensie ilościowym (próba reprezentatywna nie może być zbyt mała; por. Pawłowski Z., 1972) — to badanie obejmujące trzy zmienne niezależne dwuwartościowe wymaga: W = n - 2 - 2 - 2 = 80 osób. Dołączenie czwar tej zmiennej zwiększa nam ogólną liczbę osób badanych do N= 2 ■ 80 = 160 osób. Z kolei dołączenie piątej zmiennej daje już nam N = 320 osób itd. Jeżeli przeba danie każdej osoby jest kosztowne i na dodatek trudno daną osobę pozyskać do badania (np. pacjenci o nietypowych wzorach osobowości), to oczywiste jest szu kanie modeli mniej „kapitałochłonnych" od modelu ANOVA. 2. Chcąc posłużyć się modelem AN0VA musimy dość często rezygnować z mierzenia danej zmiennej niezależnej na poziomie skali interwałowej czy nawet ilorazowej, i w sposób sztuczny — via procedura operacjonalizacji — sprowadzać ją na poziom pomiaru skali nominalnej. Na przykład zmienna „poziom inteligencji" zoperacjonalizowana za pomocą Skali Inteligencji WAIS-R (wskaźnik IQ wyrażony na skali interwałowej) sprowadzona jest do postaci trójkategorialnej: „IQ poniżej normy — IQ w normie — IQ powyżej normy" lub — co gorsza — do postaci dwukategorialnej: „IQ poniżej mediany lub równe medianie — IQ powyżej media ny". Najbardziej „kosztowne", jeżeli chodzi o utratę informacji, są zabiegi dychotomizacji zakresu wartości zmiennej ilościowej (Cohen, 1983). Zresztą zabieg dychotomizacji został bardzo spopularyzowany przez socjologów, między innymi za sprawą pracy Lazarsfelda Algebra systemów dychotomicznych (1968). 3. Często jest tak, że część zmiennych niezależnych jest ze swej natury jako ściowa (np. płeć), a część ilościowa, i ze względów podniesionych przez cytowa nego wyżej Cohena niewskazane byłoby upieranie się przy modelu ANOVA jako podstawie analizy danych. Najkorzystniej zatem byłoby odwołać się do takiego modelu, który pozwalałby na zachowanie natury pomiarowej zmiennej, tzn. nie wymuszałby zabiegu sprowadzania skali interwałowej (czy ilorazowej) do skali nominalnej. 4. Jak wiadomo, analiza wariancji wykorzystywana jest przez psychologów w wariancie ortogonalnym — w przeważającej części przypadków — który za344
kładą równą lub proporcjonalną liczebność grup porównawczych („kratek"). Z jednej strony taki, jak wyżej wspomniany, układ liczebności grup porównawczych sprawia, że test F-Snedecora jest najbardziej czuły, a warunki utrzymania założeń (zwłaszcza założenia o homogeniczności wariancji pochodzących ze źródeł nie kontrolowanych przez badacza — por. Brzeziński, Stachowski, 1984, rozdz. 3.) są optymalne. Z drugiej strony, technika obliczeń jest o wiele prostsza w wariancie o równym n, od techniki obliczeń wymuszonej przez wariant nieortogonalny (por. Winer, 1971; Kirk, 1982). W przypadku planów eksperymentalnych wieloczynnikowych, technika obliczeniowa jest skomplikowana, żmudna i niezbyt efektywna. 5. Trafność zewnętrzna planu eksperymentalnego (w sensie przedstawionym w rozdz. 12.) wymaga, aby badanie przeprowadzone było na próbie reprezentatyw nej dla całej populacji. Rozkład liczebności w poszczególnych grupach porównaw czych, odpowiadających wartościom danej zmiennej niezależnej (nominalnej) po winien pokrywać się z analogicznym rozkładem liczebności w populacjach porów nawczych. Nie można tedy prowadzić badania w wariancie ortogonalnym ANOVA, jeżeli populacje porównawcze nie mają takich samych rozkładów liczebności. Jeżeli na przykład w populacji ogólnej jest znacząca przewaga liczebności jednej płci w stosunku do drugiej, a płeć jest zmienną istotną dla zmiennej zależnej, to ta prze waga musi być również utrzymana w próbie. W przeciwnym przypadku nie można tej próby uznać za reprezentatywną. Wyrównanie liczebności — ze względów czy sto technicznych — może prowadzić do ustalenia przez psychologa artefaktów. Trzeba zatem poszukać takiego modelu statystycznego, w którym nierówna liczeb ność grup porównawczych traktowana będzie nie jako „zło konieczne", ale jako jeszcze jeden wyróżnik danego badania. 6. Kolejny ważny punkt, którego nie sposób pominąć, to problem dychotomii: „liniowość versus krzywoliniowość" związku Y i X. W modelu ANOVA postać związku Y i X określona jest za pomocą metody wielomianów ortogonalnych (tzw. j analiza trendu między zmiennymi — por. Oktaba, 1971; 1980; Winer, 1971; Edwards, 1972; a także rozdz. 10. pkt 2.-3.). Aby jednak posłużyć się tą metodą, niezbędne jest przeprowadzenie zabiegu ułatwiającego obliczenia (w przeciwnym I przypadku obliczenia stają się bardzo żmudne), to jest pogrupowanie osób badaI nych w przedziałach odpowiadających kolejnym podzbiorom wartości zmiennej niezależnej, ilościowej (por. wyżej, pkt. 2. i 3.). 7. Nie sposób określić, w modelu AN0VA, efektów interakcyjnych dwóch czynników, z których jeden ma charakter ilościowy, a drugi jakościowy, bez uprzedniego sprowadzenia tego pierwszego też do postaci jakościowej. Może się jednak okazać, że jest to zabieg niemożliwy do przeprowadzenia. Wyżej przytoczona lista ograniczeń stosowania w badaniach psychologicznych 'zwłaszcza nieeksperymentalnych, a takich jest w psychologii najwięcej) modeli | AN0VA jest jednocześnie swoistą listą zalet modelu MR, rekomendującą go do I zastosowań psychologicznych. W niniejszym rozdziale nie będzie — zgodnie z jego tytułem — mowy I o wszystkich problemach związanych z wykorzystaniem modelu MR w praktyce 345
badawczej psychologii. Trzeba by na to całej książki. Skupię się jedynie na zagadnieniach stosunkowo najmniej znanych polskiemu psychologowi, zwłaszcza temu. który nie sięga po specjalistyczne obcojęzyczne opracowania z dziedziny statystyki. Chciałbym mianowicie uprzystępnić problematykę — ważną dla psychologa operującego na terenie Jakościowych" działów psychologii, jak na przykład psychologii klinicznej — wprowadzenia do modelu MR zmiennych jakościowych. Omówię więc także zagadnienie jednej zmiennej jakościowej w modelu MR i na tym przykładzie wykażę, iż oba modele, to jest ANOVA i MR, są strukturalnie tożsame, to znaczy prowadzą do dokładnie takich samych rezultatów. Następnie na przykładzie dwóch zmiennych jakościowych omówię zagadnienie wprowadzenia do modelu MR ich interakcji. Wpierw jednak wprowadzę podstawowe pojęcia i wzory obliczeniowe związane z odmianą ilościową modelu MR (gdy badacz operuje predyktorami ilościowymi — na poziomie skali interwałowej i ilorazowej).
2. Zmienne (niezależne) ilościowe w liniowym modelu MR 2.1. Podstawowe odmiany MR Zagadnienia związane z budową (i zastosowaniem) modelu MR najlepiej wyłożyć wyodrębniając jego dwie odmiany, z uwagi na liczbę zaliczonych przez badacza do obrazu przestrzeni zmiennych istotnych dla zmiennej zależnej Y, tj. O(P Y l zmiennych niezależnych. W pierwszej odmianie modelu MR mamy tylko jedną zmienną niezależną, istotną dla Y. Nazwijmy tę odmianę jednozmiennową. Druga odmiana, którą nazwiemy wielozmiennową, obejmuje dwie (i większą liczbę) zmienne niezależne istotne dla Y. W przypadku obu odmian możemy rozpatrywać przypadek prostej operacjonalizacji zmiennej zależnej Y oraz przypadek operacjonalizacji złożonej. Jeżeli w efekcie operacjonalizacji zmiennej zależnej (np. z użyciem Skali Inteligencji WAIS-R Wechslera w celu pomiaru IQ osób badanych) uzyskamy dla W-osobowej grupy badanej wektor wyników o wymiarach „N • 1", to będzie to przypadek operacjonalizacji prostej. O tak zoperacjonalizowanej zmiennej zależnej powiemy, że jest ona jednowymiarowa. Rzeczywistość jest jednak, jak wiemy, bardziej złożona niżby sobie tego życzył badacz i nie zawsze prosta operacjonalizacja zmiennej zależnej prowadzi do zadowalających rezultatów. Dlatego też powstaje konieczność uwzględnienia kilku kryteriów operacyjnych dla jednej zmiennej zależnej. Nie otrzymamy wtedy dla iV-osobowej grupy badanej jednego wektora wyników, ale macierz wyników o wymiarach: N ■ r (r — liczba zastosowanych przez badacza kryteriów operacyjnych dla danej zmiennej zależnej; np. oceny struktury inteligencji danej osoby można dokonać na podstawie przeprowadzonego badania za pomocą wyżej 346
już wspomnianej skali WAIS-R Wechslera, która składa się z 11 testów; w takim przypadku dla N-osobowej grupy badanej uzyskamy macierz wyników o wymiaich: ,jVx 11"). Zmienna zależna operacjonalizowana za pomocą wielu kryteriów to zmienna wielowymiarowa. Uwzględniając wyżej zaproponowane podziały, otrzymamy cztery odmiany lodelu MR: (a) odmiana jedno-jednozmiennowa (zmienna zależna jednowymiarowa oraz jedna zmienna niezależna), (b) odmiana jedno-wielozmiennowa (zmienna zależna jednowymiarowa oraz wiele zmiennych niezależnych), (c) odmiana wielo-jednozmiennowa (zmienna zależna wielowymiarowa oraz jedna zmienna niezależna), (d) odmiana wielo-wielozmiennowa (zmienna zależna wielowymiarowa oraz wiele zmiennych niezależnych). Jeśli chodzi o postać zależności wiążącej zmienną Y ze zmiennymi dla niej istotnymi, to znowu możemy mówić o dwóch odmianach modelu MR. Najczęściej psychologowie formułują twierdzenie orzekające zależność liniową Y oó Xj — zwłaszcza wtedy, gdy są analizowane wielozmiennowe uwarunkowania Y (podobnie postępują też ekonomiści — por. Hellwig, 1960; Goldberger, 1975). Rzadziej — a w przypadku odmian jedno-wielozmiennowej oraz wielo-wielozmiennowej modelu MR bardzo rzadko — psychologowie mówią o zależnościach krzywoliniowych (tzn. dających się opisać wielomianami wyższych niż liniowy stopni). Mamy ! więc: (1) odmianę liniową MR, (2) odmianę krzywoliniową MR.
11.1. Model liniowy: jedno-jednozmiennowy Każdy podstawowy kurs statystyki d!a psychologów, pedagogów i socjologów obejmuje problematykę opisu statystycznego szeregu dwucechowego (dwuzmiennowego) oraz problematykę regresji liniowej jednej zmiennej ilościowej (w sensie skali interwałowej i ilorazowej) względem drugiej zmiennej, też ilościowej. Kurs taki obejmuje też zagadnienie korelacji liniowej (wedle Pearsona) dwóch zmiennych ilościowych. Wobec powszechnej dostępności opracowań dydaktycznych podejmujących zagadnienie korelacji (regresji dwóch zmiennych ilościowych), przytoczę tylko podstawowe założenia modelu statystycznego odmiany jedno-jednozmiennowej oraz podstawowe wzory, które będą stanowiły punkt wyjścia do prezentowania bardziej skomplikowanych odmian modelu MR. Przypomnijmy, że w przypadku jednej zmiennej zależnej Y względem X t , Wrażanej przez badacza za istotną dla Y, równanie regresji liniowej Y względem I Xj przyjmuje postać: r = b¥lXl + a,
(13.1) 347
gdzie: T — przewidywane wyniki zmiennej zależnej Y; bY] — współczynnik regresji; a — stała regresji. Współczynnik b mówi nam o kącie nachylenia linii regresji względem osi odciętych układu współrzędnych, zaś współczynnik a wskazuje punkt przecięcia linii regresji z osią rzędnych. Schematycznie pokazuje to rys. 13.1. Pojedyncze punkty nad i pod linią regresji przedstawioną na rys. 13.2 obrazują wyniki uzyskane przez poszczególne osoby: a-tą, i-tą, c-tą itd., w teście przezna-
Rys. 13.1. Linia regresji wyznaczona równaniem: ł" = b yl X\ + a 80
75
c•
e
70
65
Zmienna
v=
0,6708X(- 11,25
60 55
50
0
135
100
105
120
125
130
b 110
115
Zmienna X, Rys. 13.2. Ilustracja zastosowania metody najmniejszych kwadratów do wyznaczania linii regresji (na podstawie danych z lab. 13.1)
348
czonym do pomiaru zmiennej X{ (oś odciętych). Jeżeli każdy punkt pomiarowy połączymy odcinkiem prostopadłym do osi odciętych (zmienna Xt ) z linią regresji, lo dla każdej osoby badanej otrzymamy odległości: Y-Y'. Linia regresji została „ulokowana" w układzie współrzędnych tak, że spełnione jest:
k=i
Stąd nazwa tej linii regresji: linia najmniejszych kwadratów. Tabela 13.1 pokazuje wzorcowo przygotowane dane do wyznaczenia linii najmniejszych kwadratów, która została wykreślona na rys. 13.2. Ostatnia kolumna tej tabeli zawiera wyniki przewidywane: Y' uzyskane z równania regresji (13.1). Tabela 13.1. Tabela wyników do wyznaczenia równania regresji zmiennej Y (poziom osiągnięć w czytaniu) względem zmiennej X} (iloraz inteligencji — II) (1)
(2)
Osoby
Y
badane a bc
d e f g h i j k 1 m n 0
P r s , Suma
66 . 50 , 73 69 72 54 74 70 65 62 65 63 67 59 60 59 70 57 1155
(3)
(4)
118 99 118 121 123 98 131 121 108 111 118 112 113 III 106 102 113 101 2024
(5) Y2
Xi 13 924 9 801 13 924 14641 15 129 9604 17 161 14 641 11664 12 321 13 924 12544 12 769 12 321 11 236 10404 12 769 10 201 228 978
4 356 2 500 5 329 4 761 5 184 2916 5 476 4 900 4 225 3 844 4 225 3 969 4 489 3 481 3 600 3 481 4 900 3 249 74 885
(6) XiY 7 788 4 950 8 614 8 349 8 856 5 292 9 694 8 470 7 020 6 882 7 670 7 056 7 571 6 549 6 360 6 018 7 910 5 757 130 806
(7) T 68 55 68 70 71 54 77 70 61 63 68 64 65 63 60 57 65 57 1 156
Uto na podstawie lab. 8.1 (Ferguson. Takane, 1989, s. 120)
Współczynniki b n oraz a najprościej można obliczyć według wzorów, do których dane zawiera tab. 13.1. (13.2)
(13.3) 349
gdzie: £x h £ Y — suma X r ów i Y-ów (kolumny: 2. i 3. tab. 13.1); Xx,y— suma iloczynów X rów i Y-ów (kolumna 6. tab. 13.1); Z*X 2 — suma X?-ów (kolumna 4. tab. 13.1); X,, Y— średnie X r ów i Y-ów, Z^Y 2 — suma Y 2 -ów (koi. 5. tab. 13.1). Wstawiając do wzorów (13.2) i (13.3) dane z tabeli 13.1, otrzymamy równanie regresji Y względem X t o następującej postaci: r = 0,6708X,- 11,25. „Dobroć" dopasowania linii najmniejszych kwadratów do punktów empirycznych (por. rys. 13.2) określamy za pomocą współczynnika determinacji (przemnożonego przez 100%), obliczonego według wzoru: r\
x 100%,
gdzie: rY \ — współczynnik korelacji według momentu iloczynowego (Pearsona). Jak pamiętamy, współczynnik r-Pearsona jest współczynnikiem korelacji dwóch zmiennych ilościowych. Jego użycie jest uzasadnione jeżeli: 1) zależność między dwiema zmiennymi jest liniowa. Dla typowych funkcji nieliniowych opracowano metody transformacji danych wyjściowych, które pozwa lają na otrzymywanie nowych funkcji liniowych (por. Hellwig, 1960); 2) rozkłady obu zmiennych są symetryczne. Jeżeli nie są one symetryczne, tzn. albo są lewoskośne, albo prawoskośne, to ważne jest, aby oba rozkłady cecho wała ta sama skośność (albo oba były lewoskośne, albo oba prawoskośne). Współczynnik korelacji r przyjmuje wartość od -1 do +1. W przypadku, gdy linia najmniejszych kwadratów idealnie pokrywa (tak jak na rys. 13.3a) wszystkie punkty empiryczne (w liczbie N) otrzymamy: r- 1 (albo 1), a współczynnik determinacji będzie równy: (l,0)2 ■ 100% = 100%. Oznacza to, że wspólna wariancja obu zmiennych: Y i X, wynosi 100%, czyli, że zmienna X, wyjaśnia całkowitą zmienność Y. Mówiąc jeszcze inaczej, zmienna X\ jest jedynym (bo wyjaśniającym 100%) źródłem wariancji zmiennej Y. Jeżeli punkty empiryczne są losowo rozrzucone wokół linii najmniejszych kwadratów, tak jak na rys. 13.3b, to r = 0,0, a współczynnik determinacji jest równy (0,0) 2 ■ 100% = 0%, co oznacza, że wspólna wariancja obu zmiennych wynosi 0%. Inaczej: zmienna X\ nie jest źródłem zmienności Y, czyli nie wchodzi ona do przestrzeni zmiennych istotnych d!a Y. Wreszcie, gdy mamy do czynienia z takim usytuowaniem linii najmniejszych kwadratów względem punktów empirycznych, jak na rys. 13.2 (por. też rys. 13.3c), to współczynnik r przyjmuje wartość z przedziału: (0,0; 1,0), a współczynnik determinacji przyjmuje wartość z przedziału: (0%,100%). Oznacza to, że zmienna Y ma wspólną wariancję ze zmienną X h ale także z jakąś inną (innymi) zmienną. Wyrażenie: (1 - rfy) ■ 100% określa procentowy udział innych wpływów na Y stanowiących dodatkowe źródło zmienności Y. Całą wariancję Y można podzielić na dwie części: (a) część wyjaśnioną wpływem na Y zmiennej Xi (czyli wariancja wyjaśniona 10, (b) część pozostałą, stanowiącą efekt oddziaływania na Y zmiennych niezależ350
(13.4)
Zmienna Y
varX,
Rys. 13.3. Geometryczna ilustracja: (a) maksymalnej dodatniej korelacji między dwiema zmiennymi: Y i X\ odpowiadającej wartości r= 1,0; (b) braku odpowiadającej wartości r=0,0 oraz (c) umiarkowanej dodatniej korelacji odpowiadającej wartości r zawartej w przedziale: 0,0
nych, których badacz nie uwzględnił w O(PY ); określamy ją mianem wariancji resztowej Y (ang. residua! variance). Rzecz jasna, badaczowi zależy na tym, aby zmaksymalizować część (a) a tym samym zminimalizować część (b). Osiąga on to w ten sposób, że do modelu MR wprowadza nowe zmienne, które „podejrzewa" o to, że wywierają wpływ na Y, a tym samym mają ze zmienną Y wspólną wariancję. O tym jednak później, gdy będziemy omawiać odmianę wielozmiennową modelu MR. Przypominam, że wartość r najprościej obliczyć według wzoru, do którego wprowadzamy dane z tab. 13.1:
(13.5) Często spotykaną praktyką, zwłaszcza w opracowaniu problemów wielozmiennowych, jest zastępowanie wyjściowej skali wyników surowych, innej dla każdej zmiennej (np. IQ wyrażone jest w skali o średniej = 100 i odchyleniu standardowym = 15; zmienne kliniczne mierzone za pomocą MMP1 są wyrażone na skali o średniej = 50 i odchyleniu standardowym = 10; zmienne osobowościowe mierzone za pomocą 16PF są wyrażone na skali o średniej = 5,5 i odchyleniu standardowym = 2,0), jakąś skalą standardową. Umożliwia to bezpośrednie porównywanie wyników uzyskanych za pomocą różnych narzędzi pomiarowych. Wyżej wskazałem na trzy typowe skale standardowe: IQ, tenową i stenową (szerzej na ten temat — por. rozdz. 18.). To, co jest dla nich wspólne, to założenia parametrów standardowego rozkładu normalnego. Tak więc każdą zmienną można przekształcić na zmienną standaryzowaną. Zatem wynikom Xx i Y dwóch zmiennych odpowiadają wyniki standaryzowane: Z#, i ZY:
gdzie: XUY — średnie arytmetyczne; sx* s¥ — odchylenae standardowe (będziemy się posługiwać zapisem skrótowym: zamiast Z X{ - Z h a zamiast: 5x | -5 1 ). Zmienna standaryzowana ma rozkład normalny o średniej równej 0 i odchyleniu standardowym równym 1. Współczynnik korelacji r dwóch zmiennych standaryzowanych przyjmuje postać:
Uwaga: mianownik wzoru (13.7) przyjmuje postać: N- 1, jeżeli uwzględnimy wzór na odchylenie standardowe zmiennej X x w postaci:
Jeżeli jednak przyjmiemy, że wzór na s ma postać: 352
to wówczas w mianowniku wzoru (13.7) wstawiamy wyrażenie W; s obliczone według wzoru pierwszego stanowi nieobciążony estymator er, a s obliczone według wzoru drugiego stanowi obciążony estymator a. Związek między współczynnikiem regresji bYX i współczynnikiem korelacji rYX jest następujący:
(13.8)
bn = -łrn■>]
Gdy dwie zmienne są wystandaryzowane według wzoru (13.6), to: sY = sx = 1, a współczynnik regresji bn = rY{. W takiej sytuacji przyjęło się w miejsce współczynnika bn, mówić o wadze beta — J5Y\ lub fix. Tutaj: J$YX = rYX. Waga beta ifi) jest standaryzowanym współczynnikiem regresji. Mówi nam ona o tym, o ile zmieni się Y wskutek standaryzowanej zmiany zmiennej X x (tj. o 1 odchylenie standardowe). Z kolei równanie regresji liniowej Y względem X x przyjmuje postać: Z\=rZx lub Z't =fi\Zx .
(13.9)
W przypadku gdy r = 11,01, kąt między linią regresji a osią K-ów wynosi 45°. Dla r = 0,0 kąt wynosi 0°, czyli linia regresji pokrywa się z osią Y-ów. Gdy siła związku pomiędzy dwoma zmiennymi wystandaryzowanymi ZY i Zx jest wyrażona współczynnikiem korelacji r o wartości leżącej między zerem oraz 11,01, to kąt między linią regresji oraz osią Y-ów jest większy od 0°, ale mniejszy od 45°. W każdym z wyżej rozpatrzonych przypadków linia regresji przechodzi przez początek układu współrzędnych (por. rys. 13.4). Załóżmy, że otrzymaliśmy równanie regresji zmiennej Y względem zmiennej \XX. 0 „dobroci" dopasowania linii najmniejszych kwadratów do punktów empirycznych mówi nam wskaźnik r2 (100%), który — załóżmy — jest większy od 0%. Pytanie, czy można uznać zmienną X x za istotną dla Y, ponieważ 7^(100%) >0? Tak. jeżeli r 2 „znacząco" odbiega od zera. Aby się przekonać czy wartość r 2 j (100%), albo prościej wartość r „znacząco" odbiega od zera, trzeba przeprowadzić testowanie istotności współczynnika r. Testujemy Ho: pn =0 przeciwko Hx: py\* 0. Zastosowanie znajduje tu test t.:
Z^f N-2.
(13.10)
Odrzucamy H o na rzecz H b jeżeli:
Zauważmy, że ze wzrostem wielkości próby (N) maleje wartość r, która na danym poziomie a stanowi granicę istotności danej Xx dla Y. Aby więc odrzucić ffQ na a- 0,01, przy N = 20, potrzeba r s* 0,537, ale przy W= 100 wystarczy już, aby r ^ 0,254. Dlatego też test istotności (tutaj t) służy nam jedynie jako kryterium decyzyjne na etapie 6. procesu badawczego (por. rys. 1.4, roz. 1.). W celu oceny 353
z'y=1,0z,
Z.
równanie regresji
Irl
zV=O,Oz, z'y=rz,
1,0 (0,0-1,0)
45' (O'-45-)
z',= 1,0z,
0,0
0'
kąt między osią z. a linią regresji
Rys. 13.4. Usytuowanie linii regresji w przypadku zmiennych wystandaryzowanych wg wzoru 13.6, odpowiadające trzem różnym wartościom współczynnika korelacji między nimi
stopnia istotności danej zmiennej niezależnej dla Y (uwaga: nie mylić z istotnością statystyczną!) odwołamy się do innego wskaźnika, np. ^(100%), który pokaże nam procentowy udział tej zmiennej w wyjaśnieniu zmienności Y. Z dwóch zmiennych Xj i Xj ta jest bardziej istotna dla Y, dla której wskaźnik 7^(100%) przyjmuje wyższą wartość. Można również wskazać o ile jest ona bardziej istotna. W przypadku wskaźnika t (czy też w przypadku samego r) nie jest możliwe udzielenie odpowiedzi na to pytanie! 2.1.2. Model liniowy: jedno-wielozmiennowy W odmianie jedno-wielozmiennowej MR badacz rozpatruje zależność zmiennej Y od wielu (2 i większej liczby) zmiennych niezależnych. Dla przejrzystości wykładu charakterystyka tej odmiany modelu MR będzie tutaj przeprowadzona na przykła354
dzie dwóch zmiennych niezależnych: Xx i X 2. Podam też proste wzory obliczeniowe dla trzech zmiennych niezależnych. Większa liczba zmiennych niezależnych wymaga już odwołania się do pomocy elektronicznej techniki obliczeniowej. W tym celu opracowano różne strategie budowy modelu MR (por. Draper, Smith, 1973). Równanie regresji liniowej w przypadku dwóch zmiennych niezależnych X x X2 przyjmuje postać: (13.11)
r=byl.2Xl + by2AX2 + a,
de: b Y]2 , byiA — cząstkowe współczynniki regresji; a — stała regresji. Modelem geometrycznym nowego równania jest płaszczyzna, otrzymana letodą najmniejszych kwadratów (podobnie jak w przypadku odmiany jedno-jed)zmiennowej modelem geometrycznym była prosta najmniejszych kwadratów), :żąca w przestrzeni trójwymiarowej (liczba wymiarów tej przestrzeni jest okrelona przez liczbę zmiennych niezależnych, wprowadzonych do modelu, plus denna zależna, a więc: 2 + 1 ) — por. rys. 13.5. Wokół tej płaszczyzny (oznaczonej literami ABCD) skupiają się punkty empiryczne (reprezentujące wyniki uzyskane przez poszczególne osoby badane w X 1? X 2 i Y). Jeżeli — tak jak w naszym przypadku — wszystkie korelacje pomiędzy zmiennymi są dodatnie, tj. r Y \ > 0, r Y 2 > 0, r, 2 > 0, to punkty reprezentujące wyniki będą leżały wzdłuż przekątnej OZ. Odległość OA jest równoważna stałej regresji a i pokazuje miejsce przecięcia płaszczyzny najmniejszych kwadratów z osią Y. Linie: AD i AB, to linie najmniejszych kwadratów o równaniach: Y' = b]X t +a oraz Y' = b2X2+a. Jeżeli zmienne wy standaryzuje my, wedle wzoru (13.6), to równanie (13.11) przyjmie postać wystandaryzowaną, analogiczną do (13.9): (13.12)
Z'=J3n.2Zl+J3Y2AZ2,
fini-. finA — standaryzowane cząstkowe współczynniki regresji, w skrócie: [„wagi beta". Związek między wagami beta a cząstkowymi współczynnikami regresji jest [ następujący: ■cl
S
2
fiY\.2= by\.2 j". finA = ^K>.1 JI ■
(13.13)
Cząstkowe współczynniki regresji obliczamy według stosunkowo prostych wzorów (Kerlinger, Pedhazur, 1973, s. 34):
355
O
X,
Rys. 13.5. Płaszczyzna najmniejszych kwadratów wyznaczona równaniem regresji 13.11
(13.15)
— obliczamy analogicznie. Xh X2, Y to wyniki surowe zawarte w tabeli 13.2, która obejmuje dane pochodzące z badań nad związkiem między poziomem osiągnięć w czytaniu (Y) oraz liniową kombinacją zmiennych: zdolności werbalne (Xi) i motywacja osiągnięć (X2). 356
(1) Osoby badane 1 2
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Suma Średnia
Tabela 13.2 Tabela wyników do wyznaczania równania regresji zmiennej Y ( poziom osiągnięć w czytaniu) oraz Xi (motywacja osiągnięć) (2) (3, (4) (5) (6)
Y 2 1 1 1 5 4 7 6 7 8 3 3 6 6 10 9 6 6 9
10 110 5,50
Xx
Xi
1"
2 2 1 1 3 4 5 5 7 6 4 3 6 6 8 9 10 9 4 4 99 4,95
4 4 4
3,0305 3,0305 2,3534 1,9600 4,4944 5,1715 4,6684 5,0618 6,0226 5,3455 4,7781 4,1010 7,7059 7,3125 7,8799 8,9504 8,8407 8,1636 5,5649 5,5649
3 6 6 3 4 3 3 5 5 9 8 6 7 5 5 7 7 104 5,20
Y-y -1,0305 -2,0305 -1,3534 -0,9600 0,5056 -1,1715 2,3316 0,9382 0,9774 2,6545 -1,7781 -1,1010 -1,7059 -1,3125 2,1201 0,0496 -2,8407 -2,1636 3,4351 4,4351
Źródło: na podstawie lab. 3.1 (Kerlinger. Pedhazur, 1973, s. 33)
Kolumny: (2)-(4) obejmują wyniki surowe zmiennych: Y, X lt X 2 . Kolumna (5) zawiera przewidywane wyniki zmiennej Y, czyli Y' otrzymane na podstawie równania regresji 13.11. Jeżeli oś rzędnych będzie reprezentowała wyniki zmiennej Y, a oś odciętych byniki przewidywane zmiennej Y, czyli Y\ to poszczególne punkty układające się izdłuż przekątnej reprezentują pary wyników (Yt, Y' k ), k~\ .......N. W przypadku ■zyskania idealnego dopasowania płaszczyzny najmniejszych kwadratów do daj Dych. owe punkty będą się układały dokładnie w linii prostej leżącej pod kątem 145° względem osi odciętych i wychodzącej z początku układu współrzędnych przypadek dokładnej korelacji zmiennej Y z liniową, w sensie najmniejszych kwaIfcatów, kombinacją zmiennych: X( i X2). W odniesieniu do danych z tab. 13.2 Ilustruje to rys. 13.6. Za pomocą, współczynnika korelacji wielokrotnej RYn określamy siłę związku Jniowego) między zmienną Y oraz zmiennymi X\ i X 2 (traktowanymi łącznie). 357
/?,„(max)=1,00 Y 12
11 10 9 8 7 6 5 4 3 2 1 O
1
2
3
4
5
6
7
8
9
10
11
12
r
Rys. 13.6. Usytuowanie par punktów odpowiadających wartościom: Y i Y' — na podstawie danych z tab. 13.2 (równanie 13.11)
Współczynnik R, w odróżnieniu od r przyjmuje wartość z przedziału: <0,0; l,0>. Z kolei współczynnik wielokrotnej determinacji: R2 przemnożony przez 100 procent informuje nas o procencie wariancji zmiennej Y wyjaśnianej przez liniową (w sen-
sie najmniejszych kwadratów) kombinację zmiennych Xi i X2. Jest on interpretowany podobnie jak współczynnik determinacji — Ą} ( i = 1,...,&). Z kilku możliwych sposobów obliczania wartości Ry.n zalecam ten, który „wychodzi" od standaryzowanego równania regresji:
(13.16) ogólniej: 358
y.
(13.17)
Jeżeli korelacje między zmiennymi niezależnymi (tu: X, i X2) są zerowe, tzn. jeżeli zmienne niezależne są nieskorelowane (ri2 = 0), to Ryu można obliczyć według wzoru:
R 2 YU = rJi + rfe.
(13.18)
Test istotności dla R przyjmuje postać:
I
^(I-^AL-.)-
(1319)
przy stopniach swobody: dla licznika — dfi = k (liczba zmiennych niezależnych); dla mianownika — df 2 = N-k-l. Odrzucamy Ho: R = 0 jeżeli: F 5* Fa/y.jfc Często badacza nie zadowala znajomość tylko procentowej wartości wariancji zmiennej Y wyjaśnianej przez liniową kombinację zmiennych niezależnych występujących w równaniu regresji (w naszym przypadku: Xi i X 2). Chce on jeszcze poznać udział (procentowy) każdej zmiennej oddzielnie w wyjaśnianiu wariancji zmiennej Y. Nie można do tego celu użyć prostych współczynników korelacji: r n l r I R.' gdyż najczęściej obie zmienne niezależne w jakimś stopniu ze sobą korelują. | Mówiąc inaczej mają wspólną wariancję. Określając tedy wspólną wariancję zmiennej Y oraz zmiennej X b musimy uwzględnić fakt, że jakaś część owej wariancji jest również wspólna ze zmienną X2. Zależności te najlepiej widać, gdy wariancje zmiennych przedstawimy graficznie w postaci zachodzących na siebie kół, tak jak to prezentuje rys. 13.7. Do oceny „czystego" wpływu danej zmiennej niezależnej, „uwolnionego" od I związków tej zmiennej z pozostałymi zmiennymi występującymi w równaniu regresji, zostały opracowane dwa rodzaje współczynników. Jeżeli chcemy poznać „czystą" wariancję wspólną zmiennej Y oraz zmiennej X\ („uwolnioną" od wpłyI wów na Xi zmiennej X 2 ), to musimy się posłużyć współczynnikiem determinacji I semicząstkowej (w skrócie: Ą(\2) lub sĄ). Współczynnik determinacji semicząstkowej dla /-tej zmiennej możemy obliI czyć według wzoru (Cohen, Cohen, 1975, s. 96), z którego można wywieść szcze| gotowe wzory na współczynniki poszczególnych rzędów: pierwszego (kontrola jedI nej zmiennej niezależnej), drugiego (kontrola dwóch zmiennych niezależnych) itd. I Dany współczynnik determinacji semicząstkowej otrzymujemy przez porównanie I dwóch współczynników determinacji wielokrotnej — jednego obliczonego dla k zmiennych niezależnych (a więc obejmującego także daną /-tą zmienną), tj. I flfi .. ,....i. oraz drugiego, obliczonego dla k-l zmiennych niezależnych (a więc lnie obejmującego /-tej zmiennej), tj. RyA ........ (o,.... t(13.20) U) — oznacza tu zmienną wykluczoną ze zbioru k zmiennych stanowiących łąc/ne źródło (w sensie liniowej kombinacji) wariancji wyjaśnionej Y. 359
Rys. 13.7. Geometryczna ilustracja korelacji między zmiennymi: Y oraz A', i X2 — z wykorzystaniem współczynnika korelacji wielokrotnej, cząstkowej i semiczastkowej
W przypadku dwóch zmiennych niezależnych (por. rys. 13.7) mamy: (13.21) (13.22) \, R\.2 = Oczywiście: y\ = Ry.\ = Ą\, R\.2 Z kolei chcąc poznać „czystą" wariancję wspólną zmiennej Xx odniesioną procentowo do tej części wariancji zmiennej Y, która nie jest związana z pozostałymi zmiennymi niezależnymi (tu: X2), musimy się odwołać do współczynnika determinacji cząstkowej (w skrócie Ą\_i lub: pĄ). W odróżnieniu od współczynnika determinacji semiczastkowej, tutaj eliminujemy zmienną X2 zarówno z wariancji zmiennej Xi, jak i z wariancji zmiennej Y. Stosując oznaczenia z rysunku mamy: (13.23) (13.24) Współczynniki determinacji cząstkowej dla każdej z k zmiennych niezależnych oddzielnie można obliczyć przez porównanie dwóch współczynników determinacji 360
wielokrotnej, jednego wykluczającego daną i-tą zmienną R\\ ..... (,-),.„,* oraz drugie go, obejmującego i-tą zmienną R\x ........k (wg Ezekiela i Foxa, 1959, s. 193-194): (13.25) (0 — oznacza tu zmienną wykluczoną ze zbioru k zmiennych stanowiących łączne źródło (w sensie liniowej kombinacji) wariancji wyjaśnionej Y. W przypadku dwóch zmiennych niezależnych — jak w naszym przykładzie — mamy: (13.26) (13.27) Rzecz jasna, że. R\\ = Ą\ i R\ 2 = Ąi • Test istotności dla współczynników korelacji cząstkowej (lub semicząstkowej) jest następujący: (13.28) przy stopniach swobody: dla licznika: df} = 1; dla mianownika: df2 = AWfc-1. Uznajemy współczynnik r n 2 za istotny na danym poziomie ot, jeżeli: F
\ > Fa,dfltdf2 -
Możemy też zastosować wzór alternatywny: (13.29) Uznajemy współczynnik za istotny na danym poziomie a, jeżeli: t\ > t^ą. Wyżej opisałem jedynie współczynniki korelacji cząstkowej, odnoszące się do statystycznej kontroli zmiennych niezależnych „zamazujących" wpływ jednej zmiennej niezależnej na Y, Takie współczynniki noszą nazwę współczynników korelacji cząstkowej rzędu pierwszego, rzędu drugiego, trzeciego itd. W zależności od liczby zmiennych niezależnych, które chcemy kontrolować możemy też mówić o współczynnikach wielokrotnej determinacji cząstkowej. Na przykład „czysty" wpływ liniowej kombinacji zmiennych: X\t X2 i X3 na zmienną zależną Y przy jednoczesnej kontroli zmiennych niezależnych: XĄ i X5 można oznaczyć za pomocą współczynnika: ^123.45). Szerzej na ten temat piszą: Cohen i Cohen (1975). Kończąc rozważania na temat odmiany jedno-wielozmiennowej MR, chciałbym jeszcze podać Czytelnikowi (zwłaszcza temu, który jeszcze na co dzień ma kontakt tylko z kalkulatorem) proste wzory obliczeniowe dla wersji modelu z trzema zmiennymi niezależnymi (wg Aikena, 1974): (13.30)
361
(13.31) (13.32)
Po obliczeniu wartości j8n 23, wartości jffnn oraz J3y}i2 można obliczyć następująco: (13.35) (13.34)
Współczynnik R YAH obliczamy według wzoru (13.17). Test na istotność Ry_\Xi przedstawia wzór (13-19). Gdybyśmy chcieli wyliczyć wartość R 2 wprost z macierzy korelacji zmiennych, to pomocny będzie wzór:
(13.35) Chcąc poznać czysty wpływ poszczególnych zmiennych niezależnych na Y oddzielony od wpływów dwóch pozostałych zmiennych niezależnych, możemy się odwołać do współczynnika determinacji cząstkowej. Wychodząc z wzoru (13.25) mamy: (13.36) (13.37) (13.38) Możemy też wyjść ze współczynnik determinacji
wzoru (13.20) i obliczyć semicząstkowej.
2.2. Wprowadzanie interakcji zmiennych ilościowych do modelu MR W modelu MR możliwe jest wprowadzenie nie tylko nowych zmiennych niezależnych, ale także składnika interakcji dwóch i większej liczby zmiennych niezależnych. Konieczność wprowadzenia do równania regresji iloczynu predyktorów (tak określa się w terminologii MR pojęcie interakcji zmiennych niezależnych) zachodzi 362
wtedy, gdy nie jest spełnione założenie, że korelacja między jedną zmienną Xh a zmienną zależną Y jest taka sama dla wszystkich wartości drugiej zmiennej X 2 (zwanej — variabłe). Mówiąc inaczej, zachodzi zależność: rYl=g(X2 ). W takim przypadku wyjściowy model addytywny postaci (13.11) musimy zastąpić modelem nieaddytywnym postaci: (13.39) lub (gdyż iloczyn: ,XiX2" można traktować jako nową zmienną: X3): (13.40) Można też to zapisać w postaci standaryzowanej: (13.41) Wykorzystując wzory: (13.30)—(13.32) oraz (13.13) można stosunkowo prosto wyznaczyć wartości wag beta lub cząstkowych współczynników regresji oraz równanie postaci (13.41) lub (13.40). Za pomocą współczynnika determinacji wielokrotnej Ky.123 (100%) oceniamy procent wariancji wyjaśnionej zmiennej Y, wprowadzony przez zmienne X t i Xi oraz ich interakcję. Wartość współczynnika korelacji wielokrotnej znajdujemy na podstawie wzoru (13.17). Prześledźmy teraz jak wygląda od strony numerycznej wprowadzenie nowego składnika (tu: interakcji: X\X2) do równania regresji. Nie jest ono wcale skomplikowane i każdy psycholog może tę interakcję sam opracować. Przypuśćmy, że od 3 osób (N = 3) uzyskano wyniki dla dwóch zmiennych niezależnych: X\ i X2 oraz zmiennej Y:
Oczywiście powyższe zestawienie powinno mieć tyle kolumn, ile składników występuje w danym równaniu regresji. Problematyka wprowadzenia do równania regresji interakcji zmiennych została bardzo szczegółowo omówiona przez Aiken i Westa (1991).
3. Zmienne jakościowe w modelu MR — konstruowanie zmiennych instrumentalnych 3.1. Jedna zmienna dwukategorialna — analiza przykładu: test t, test F, współczynnik korelacji r Najprostsze badanie eksperymentalne polega — zgodnie z podstawowym jego schematem — na przebadaniu dwóch równoważnych losowo grup, z których jedna. 363
zwana eksperymentalną, obejmuje te osoby, wobec których psycholog stosuje określony zabieg eksperymentalny (podaje im lek, stosuje wobec nich psychoterapię, wyzwala u nich silne emocje itp.), a druga, zwana kontrolną, obejmuje te osoby, które badacz pozostawia w nie zmienionych warunkach (placebo, tradycyjne leczenie, relaks itp.). Mówiąc inaczej, w takim badaniu zmienna niezależna (nawet de facto ilościowa) traktowana jest jako zmienna jakościowa (dychotomiczna), przyjmująca wartości ze zbioru: (0,1). Jeżeli zmienna zależna ¥ mierzona jest na skali interwałowej lub ilorazowej i jeżeli jej rozkład w populacji ma znamiona rozkładu normalnego, to hipotezę zerową postaci: Ho: pi\ =/i2 można zweryfikować za pomocą testu t dla dwóch grup niezależnych. Można też dojść do identycznego rezultatu inną drogą, stosując model ANOVA w układzie jednoczynnikowym: ANOVA-KRG-p(n > 1)T — por. Brzeziński, Stachowski (1984, s. 65-69) — gdzie: p (liczba poziomów zmiennej niezależnej X) = 2. Można też, co jest już mniej znane przeciętnemu „konsumentowi" statystyki, dojść do tego samego rezultatu porzucając paradygmat eksperymentalny i model AN0VA (test Z7 jest, jak wiadomo, analogonem testu t, opracowanym z myślą o porównywaniu większej niż dwie liczby średnich arytmetycznych) i przechodząc na obszar paradygmatu nieeksperymentalnego, przez zastosowanie modelu MR, tu w najprostszej jego odmianie jedno-jednozmiennowej. Problem jest tylko jeden. W jaki sposób wprowadzić zmienną zece-jedynkową do modelu MR? Dochodzimy zatem do tytułowego problemu. Prześledźmy teraz postępowanie badacza — na fikcyjnym przykładzie — w ramach wymienionych wyżej dwóch paradygmatów: (a) eksperymentalnego (test / i test F) oraz (b) nieeksperymentalnego (korelacyjno-regresyjnego — współczynnik korelacji według momentu iloczynowego r). /: test t Wylosowano z populacji (według zasady randomizacji I) N= 10 osób badanych i rozdzielono losowo (według zasady randomizacji II) na dwie równoliczne (m = n2 = n = 5) grupy. W pierwszej grupie (eksperymentalnej) psycholog zastosował manipulację eksperymentalną polegającą na stworzeniu osobom badanym stymulacyjnych warunków pracy. Z kolei drugiej grupie (kontrolnej) stworzone zostały relaksowe warunki pracy. Zatem zmienna niezależna, eksperymentalna X jest dwuwartościowa: „warunki stymulacyjne (1) — warunki relaksowe (0)". Oceniano, za pomocą odpowiedniej skali standaryzowanej, poziom funkcjonowania osób badanych (zmienna zależna Y mierzona na skali dziesięciopunktowej, stenowej, na której kraniec 1 oznaczał złe funkcjonowanie, a kraniec 10 dobre funkcjonowanie). Oczekiwano, iż przeciętne funkcjonowanie osób z grupy eksperymentalnej będzie lepsze (średnia bliższa będzie górnemu krańcowi skali) od przeciętnego funkcjonowania osób z grupy kontrolnej (średnia bliższa będzie dolnemu krańcowi skali). Tabela 13.3 zawiera wyniki umieszczone w dwóch kolumnach odpowiadających grupie eksperymentalnej (kolumna 1.) i grupie kontrolnej (kolumna 2). Wzory:
y l k = Y- F L ,
yjk = Y & - F 2 , 364
Tabela 13.3. Dane do przykładu (n\=ni = n = 5) (0) (1) (2) Lp. Grupa Grupa eksperymentalna kontrolna 12 34 5
Suma (Y.) Średnia (F,) Suma kwadratów odchyleń (SS)
6 5 78 7
32 11 2
33 6.6 5.2
9 1.8 2.8
k=\
(13.42) Sumy kwadratów odchyleń (SS):
(13.43) Testujemy hipotezę zerową Ho: fi\=fii przeciwko hipotezie roboczej (jednostronnej) H{: fi\ >fit . Załóżmy, że spełnione zostały wszystkie warunki stosowania testu t. Podstawiając dane z tabeli 13.3 do wzoru na statystykę t otrzymujemy: (13.44)
365
Dla a = 0,05 i stopni swobody df= 8 (prawostronny obszar odrzuceń Ho) wartość krytyczna statystyki testowej wynosi: /o,05;8- 1,680. Ponieważ t> 1,860, więc mamy podstawy do odrzucenia H o i przyjęcia H Y . Wniosek, przeciętny poziom funkcjonowania grupy eksperymentalnej okazał się lepszy od przeciętnego funkcjonowania grupy kontrolnej. /'; test F Tabelę 13.3 możemy potraktować jako tabelę danych właściwą dla planu ANOVA-KRG-2 (n = 5)I — por. Brzeziński, Stachowski (1984, s. 65-69). W analizowanym przykładzie całkowitą sumę kwadratów (SScala) można rozbić na dwie składowe: (a) sumę kwadratów między grupami (SS^^y), odnoszącą się do zmienności wyników wynikającej z różnic w traktowaniu osób z porównywanych dwóch grup i (b) sumę kwadratów wewnątrz grup, lub inaczej resztową (SSwewniilrz)t odnoszącą się do zmienności, której źródłem są nie kontrolowane przez badacza różnice indywidualne występujące w każdej z dwóch grup. Inaczej: błąd eksperymentalny. Mamy zatem: (13.45)
(13.46)
(13.47)
(13.48)
(13.49) (13.50) (13.51)
(13.52) Wyniki przeprowadzonej analizy wariancji zebrane zostały w tabeli 13.4. Dla a-0,01 i stopni swobody: ^/między- ' ' ^/wewnątrz = 8 wartość krytyczna statystyki testowej wynosi: ^0,05; i; 8 = 5,32. Ponieważ F>Fa, więc mamy podstawy do odrzucenia HQ i przyjęcia Ht. 366
Tabela 13.4. Analiza wariancji do danych z przykładu 1. (0) Źródło wariancji Y Między Wewnątrz Cala
(1)
(4)
(2)
(3)
SS
df
MS
F
57.6 8
1 8
57.6 1
57.6**
65.6
9
Obliczmy jeszcze procent wariancji wyjaśnionej zmiennej Y, tłumaczonej wpływem na Y czynnika X. Do tego celu możemy użyć wskaźnika n2 pomnożonego przez 100% (Kirk, 1982, s. 162): SS 100% = „™czy x 100% , tj 1 Y X x 100% - ^ 100% - 87,80% . Zatem rozbicie wariancji całkowitej Y na wariancje składowe wygląda następująco: variY) = vaĄY\X) + var(^reszta), 100% = 87,80%+12,20%. Wniosek: jak w I. Czy rzeczywiście wartość statystyki F jest identyczna z wartością statystyki /? Przypomnijmy, iż między statystyką t i statystyką F zachodzi związek (Brzeziński, Stachowski, 1984, s. 71): t2(df) = F(l, df2).
(13.54)
Zatem statystyka F ze stopniami swobody: dfx ~ 1 i df2 równa jest kwadratowi statystyki t ze stopniami swobody df= df2. W naszym przypadku zachodzi równość:
Doszliśmy zatem do tego samego rezultatu. //: współczynnik r Aby dostosować dane do wymogów modelu MR musimy w odniesieniu do czynnika X przeprowadzić zabieg kodowania. Ponieważ czynnik X w analizowanym przykładzie jest czynnikiem dychotomicznym, więc użyjemy tu kodu zero-jedynkowego. Zasada kodowania jest następująca. Każda osobą należąca do grupy eksperymentalnej otrzyma współczynnik 1, a każda osoba należąca do grupy kontrolnej otrzyma współczynnik 0. Tak więc wektor X będzie się składał z samych jedynek i zer. Zmodyfikujemy teraz tabelę 13.3 tak, aby odpowiadała ona nowym wymaganiom. Po modyfikacji obejmuje ona (por. tab. 13.5) wektor wyników zmiennej zależnej Y (kolumna 2.) i wektor wyników czynnika X (kolumna 3). 367
(13.53)
Tabela 13.5 Dane do przykładu 1. przystosowane do obliczania współczynnika korelacji ryx (na podstawie tabeli 13.3.) (0) Lp.
(1)
(2)
Grupy
1 23 4 5
grupa eksperymentalna
6 78 9 10
grupa kontrolna
Zmienna zależna Y 6 57 87
3 21 1 2
Suma Średnia Suma kwadratów odchyleń (SS) Suma iloczynów (SP)
(3) X
1 1 1 1 1 0 00 0 0 5 0.5 2.5
42
4.2 65.6 12
Wzory: — sumy kwadratów odchyleń (por. wzór 13.43), — suma iloczynów (SP):
(13.55)
N
N
(ir *# CL **) — sumy kwadratów: (13.56) CC — CC _ CC -'^poza regresją (reszta) ^^cała ^^
(13.57)
— współczynniki regresji:
(13.58)
. a= Y.-by^., — równanie regresji liniowej: y' —
368
1,
(13.59)
(13.60) V 1
sv
— Dyx^ + O,
— współczynnik korelacji liniowej (wedhig Pearsona):
ssr. cala
lub: N
N
N
'%/=' AT H
(=1
W
.
(13.62)
/V (=1
— test istotności współczynnika r: f
rvy: m
-(i-^):(y--i)-
(1363)
= m, dfi — N-m- 1, m — liczba wektorów czynnika X (tu: 1), lub:
369
Ąx x 100% = (O,937O)2 ■ 100% = 87,80%. Współczynnik ryx x 100% mówi nam — przypominam — o procencie wariancji zmiennej Y wyjaśnionej wpływem na nią zmiennej X (inaczej: współczynnik ten informuje badacza o wielkości wariancji wspólnej zmiennych Y i X). Z kolei wskaźnik (l-ryx)x 100% mówi o wielkości wariancji resztowej (poza regresją). W naszym przykładzie wynosi ona 12,20%. Zauważmy, iż uzyskaliśmy analogiczny wynik, jak w przypadku wskaźnika //yy x 100% obliczonego w I*. Na koniec pozostało nam jeszcze testowanie hipotezy zerowej, która w przypadku współczynnika korelacji przyjmuje postać Ho: PYX=®- Hipoteza robocza będzie miała w naszym przykładzie postać kierunkową //,: pyx>0. Do tego celu możemy wykorzystać bądź test f, bądź test F. Mamy zatem:
I znowu uzyskaliśmy wyniki identyczne z tymi, które otrzymaliśmy w pkt. / i /'. Jeżeli możliwe jest — via zabieg kodowania — włączenie jednej zmiennej niezależnej dwukategorialnej do modelu MR, to zapewne możliwe jest też włączenie do tego modelu jednej zmiennej niezależnej wielokategorialnej (odpowiednik modelu: ANOVA-KRG-/>), a także wielu zmiennych niezależnych wielokategorialnych, na przykład dwóch zmiennych (odpowiednik modelu ANOVA-KRG-p#r). Tak, jest to możliwe, tyle tylko, że zabieg kodowania, który musi być przeprowadzony w odniesieniu do tych zmiennych jakościowych, jest już bardziej skomplikowany. Jest też bardziej pracochłonny, co zależy od wybranego przez badacza systemu kodowania. W literaturze przedmiotu omawiane są trzy systemy kodowania zmiennych jakościowych i one będą tu zaprezentowane i zilustrowane przykładami jednej i dwóch zmiennych jakościowych, wielokategoriainych.
3.2. Jedna zmienna wielokategorialna 3.2.1. Analiza przykładu z wykorzystaniem kodowania zero-jedynkowego System kodowania, który teraz zostanie przedstawiony w wersji uogólnionej na dowolną liczbę kategorii, jest najbardziej rozpowszechniony. Ujęty jest on również w znanych bibliotekach programów statystycznych, na przykład w SPSS PC+ czy CSS STATISTICA. Z wcześniejszych publikacji propagujących ten system kodowania na uwagę Czytelnika zasługują artykuły: Suitsa (1957), Warda (1969), Cohena (1968) oraz Overalla i Spiegla (1969), a także monografie z zakresu analizy korelacyjno-regresyjnej: Drapera i Smitha (1973), Cohen i Cohena (1975, 1983), Pedhazura (1982). 370
Objaśnię teraz, na czym polega zabieg kodowania zero-jedynkowego (ang. dummy coding) p-kategorialnej zmiennej jakościowej. Kodowanie polega na utworzeniu m (gdzie m = p- 1) nowych zmiennych (wektorów) instrumentalnych 2 . Te nowe zmienne powstają w ten sposób, że osobom z danej /-tej kategorii (/-tej grupy porównawczej) przypisujemy jedynki, a osobom z pozostałych kategorii przypisujemy zera. Ostatnia kategoria p (p-ta grupa porównawcza) reprezentowana jest we wszystkich m wektorach przez same zera. Zilustrujmy to przykładem. Przykład 1. Przypuśćmy, że badacz chce zakodować zmienną jakościową „miejsce zamieszkania" o p = 4 kategoriach: „wieś — małe miasto — średnie miasto — duże miasto". Tabela 13.6 przedstawia rezultaty kodowania. W kolumnie (1) mamy wpisane poszczególne kategorie (grupy porównawcze), w kolumnie (2) należałoby wpisać wyniki poszczególnych osób badanych, których jest po n w każdej kategorii (na przykład n = 3), a w kolumnach (3)-(5) mamy p-\ = m~41 = 3 zmienne (wektory) instrumentalne: Ti, T 2 , T 3 . Tabela 13.6 Kodowanie zero-jedynkowe zmiennej jakościowej X („miejsce zamieszkania") o p = 4 kategoriach, n = 3
(1)
(0) Lp.
Kategorie
(2)
(3)
Zmienna zależna Y
zmiennej X 1
wieś
Yn
2
«i
Ya Kl3
1
4
małe miasto
5
«2
6
.
(5)
Zmienne instrumentalne
T\ 1 1
3
(4) T2
I\
0
(.)
0
0
n
0
Y2l
0
1
0
Y22
0
1
0
Y13
0
1
0
7 8 9
średnie miasto
Ya
a3
Y)2
0 0
0
1
Y33
0
0
1
10
duże miasto
0
1
Yu
0
11
YA2
0
0 0
12
YA3
0
0
0
Y..
3
3
3
Suma
0
W polskim tłumaczeniu książki Drapera i Smitha (1973) terminy dummy vectors, dummy wuibles oddano jako „wektory ślepe", „zmienne ślepe". Podobnie w polskim tłumaczeniu pracy War-da 11969) użyto terminów: „zmienne dwójkowe", „zmienne binarne", „kodowanie dwójkowe", „wekto-IV predyktorowe". Z kolei Słownik naukowo-techniczny angielsko-polski (1983) tłumaczy termin dum-m \ariables jako „zmienne fikcyjne" (s. 247), a Słownik angielsko-polski dla informatyków (Marci-nUk. Szaniawski 1992, s. 83) wprowadza jeszcze inny polski odpowiednik — ..zmienne formalne". Wydaje mi się jednak, że terminy „wektory instrumentalne", „zmienne instrumentalne" lepiej oddają intuicje związane z zabiegiem kodowania zero-jedynkowego. Nowo utworzone zmienne mają charakter mucm) i jedynie pośredniczą między zmienną Y i faktyczną zmienną X. Mają tedy właśnie charakter instrumentalny
371
Równaniu regresji: Y' = byxX + &■> dla zmiennej X, ilościowej, odpowiada równanie regresji3 dla zmiennej jakościowej czterokategorialnej: Y'=bn.23^\ + *K.13Z2 + 6*3.12*3 + a.
(13.66)
Gdy zmienna X jest zmienną jakościową, p = 4-kategorialną, wtedy współczynnik determinacji wielokrotnej Ry.m (wyrażony procentowo) informuje badacza o „dobroci" dopasowania hiperpłaszczyzny najmniejszych kwadratów do punktów empirycznych rozmieszczonych w przestrzeni ( 3 + l)-wymiarowej. Z kolei wykorzystany już w poprzednim przykładzie test F (por. wzór (13.63)) służyć może do testowania hipotezy zerowej postaci: H o : R = 0 (przeciwko H x : R>0). Zabieg kodowania zero-jedynkowego ułatwia — i to znacznie — przeprowadzanie obliczeń. I tak współczynnik korelacji między dwiema zmiennymi instrumentalnymi: Z*j i 7} dany jest wzorem (Cohen, Cohen, 1975 s. 180): (13.67) gdzie: W — ogólna liczebność badanej próby; n„ n, — liczba osób odpowiednio w /-tej i /-tej grupie porównawczej (dla /-tej i /-tej kategorii zmiennej X); pi% Pj — proporcja osób odpowiednio w /-tej i y-tej grupie. Gdy «i = ... = n p = n, to wzór (13.67) upraszcza się do postaci:
W przypadku tabeli 13.6 mamy /-,, = -0,3333. Także i współczynniki korelacji między zmienną zależną Y i zmienną instrumentalną w (w= 1,..., ni) można wyrazić za pomocą uproszczonego wzoru , gdyż N
N
w liczniku wzoru (13.62) wyrażenie V Y,Xj można zastąpić wyrażeniem: V Y** (tj. suma Y w grupie, której przypisano jedynki); wyrażenie _£ Xwk = ^ %wk = n-> czy^ k=]
k=\
równe jest liczbie osób w grupie, której przypisano jedynki. Zilustrujmy to, co dotychczas zostało powiedziane na temat kodowania zero-jedynkowego, przykładem wprowadzenia do modelu MR jednej zmiennej jakościowej o p = 3 kategoriach. Rozważymy wpierw ten przykład w układzie ANOVA-KRG-p(n = 5)1, a następnie w układzie MR (odmiana jedno-wielozmiennowa). Przykład 2. Próbę N= 15 osób wylosowano z populacji i, także na drodze losowej, rozdzielono ją na 3 grupy o liczebności n{ = n2 ~ n$ = n = 5. Osoby badane rozwiązywały standardowe zadanie, w trzech różnych warunkach (A = {ax, a2, a?,}). Pomiaru zmiennej zależnej Y dokonano na skali ilorazowej (czas wykonania zadania). Wyniki badania zestawiono w tabeli 13.7. W celu uproszczenia zapisów, współczynniki regresji: bn .23, byz 13 itp. będziemy dalej pisać w postaci skrótowej: 6 n , byi itp.
372
Tabela 13.7. Dane do przykładu 2. (n\ = m = ni = n = 5) (0) (1) (2) (3) Osoby Zmienna A O] a2 a3 1 4 4 3 2 3 3 4 3 2 5 7 4 3 6 8 5 2 6 9 Suma 14 24 31 Średnia 2,8 4,8 6.2
Wyliczamy teraz ze wzorów (13.47)-(13.49) wartości sum kwadratów: (i) ^~ 6^ = 317,4, (ii)42 + ... + 92 = 383, (iii) ^ (142 +242 +312) = 346,6, = 346,6 - 317,4 = 29,2, wewnątrz
df= 3 - 1 = 2, df= 3(5-1) = 12,
= 383 - 346,6 = 36,4,
SS SScała = 383 - 317,4 = 65,6,
df= 3 ■ 5 - 1 = 14.
Wyniki przeprowadzonej analizy wariancji zawiera tabela 13.8. Tabela 13.8. Analiza wariancji do danych z przykładu 2. (0) (1) (2) (3) (4) Źródło wariancji Y SS MS df F 4,813* Między 29,2 2 14,600 Wewnątrz 36,4 12 3,033 Cala 65,6 14 *p<0,05, Fa0S;2. 12 = 3,89, **/7
Ponieważ F>FOIQ5. 2; 12. więc mamy podstawy do odrzucenia HQ (Ho\ £^=0, dla wszystkich z), a zatem słuszna jest Hx (Hx: a*Q dla pewnych *)■ Jaki procent wariancji Y wyjaśniony jest wpływem na Y zmiennej A? Odpowiedzi na to pytanie można udzielić odwołując się do wskaźnika rjyA (por. wzór ■3.53)):
Zatem rozbicie wariancji całkowitej zmiennej Y na wariancje składowe wygląda następująco:
373
Zanalizujmy teraz ten sam przykład w paradygmacie korelacyjno-regresyjnym. Zacznijmy od utworzenia, na drodze kodowania „zero-jedynkowego", m=p- 1 = 3 — 1 — 2 , nowych zmiennych instrumentalnych: T\, T2. Przekształćmy zatem tabelę (13.7) w tabelę (13.9). Tabela 13.9, Zakodowane (kodowanie zero-jedynkowe) dane do przykładu 2. (1) (2) (3) (4) (0) LpKategorie Zmienna Zmienne instrumentalne T, zmiennej A zależna Y 1
4
1
0
2
3
1
0
3
2
1
0
4
3
1
0
5
2
1
0
6
4
1
7 8
3 5
0 0 0
a2
1 1
9
6 6
0 0
1
10 11
3
0
0
12
4
0
0
7
1
8
0 0
0
14 15
9
0
0 5,0 0,333 0,4879
13
o3
Suma Średnia Odchylenie standardowe
69,0 4,6
2,1646
5,0
0,333 0,4879
0
Równanie regresji przyjmuje postać: (13.69) lub postać standaryzowaną: (13.70) Obliczenia pomocnicze: — sumy kwadratów (ze wzoru (13.43)): 374
— sumy iloczynów (ze wzoru (13.55)):
— cząstkowe współczynniki regresji:
(13.71)
(13.72)
(13.73)
— przekształcenie współczynników: bn i byi na wagi JSYw: (13.74)
(13.75) 375
gdzie:
(13.76) podobnie obliczamy s T i s Tr Wagi fi posłużą nam teraz do obliczenia wartości współczynnika korelacji wielokrotnej RYAI(13.77)
Jak wielki jest procent wariancji zmiennej Y wyjaśnionej przez liniową (w sensie najmniejszych kwadratów) kombinację zmiennych 7] i 7"2? Na to pytanie znajdujemy odpowiedź obliczając wartość współczynnika determinacji wielokrotnej (wyrażonego procentowo) RyA2 x 100%:
Zauważmy, że uzyskana wartość pokrywa się dokładnie z wyliczoną wcześniej — w modelu ANOVA — wartością rjy A x 100%. Ostatni krok analizy to testowanie istotności współczynnika korelacji wielokrotnej. Odwołamy się tu do już stosowanego w przykładzie 1. testu F: (13.78)
I tutaj obliczona wartość statystyki F pokrywa się z podaną w tabeli 13.8 wartością statystyki F. Jakie informacje niosą współczynniki a, bY\, bn, gdy równanie regresji oparte jest na zmiennej niezależnej, jakościowej, poddanej zabiegowi kodowania zero-jedynkowego? Napiszmy równanie regresji:
Współczynnik a równy jest średniej wartości zmiennej zależnej Y w grupie a3 (dokładniej: średnia ta wynosi 6,2, a nie 6,19, niewielki błąd powstał w wyniku zaokrąglania danych): (13.79) Osoby badane z tej grupy miały przypisane w obu wektorach 7\ i T 2 wyłącznie zera. To, że akurat grupa a3 była tą, której przypisano we wszystkich wektorach 376
same zera (oczywiście równie dobrze można było jako ostatnią wykorzystać grupę a, czy a2, co jest bez znaczenia dla dalszych obliczeń!), wymusza sposób postępowania przy interpretowaniu współczynników b Y \ i by2 - Otóż średnią wartość Y każdej pozostałej grupy będziemy porównywać ze średnią wartością Y właśnie grupy a3. Mamy zatem: Fl. - P3. = 2,8 - 6,2 = -3,4 = bn.,
(13.80)
>2. - *3. = 4,8 - 6,2 = -1,4 = bn,
(13.81)
Czytelnik mógłby — w formie ćwiczenia — ułożyć nową tabelę danych (na wzór tabeli 13.9), w której porządek grup porównawczych byłby następujący: a3 , a b a 2 . Okazałoby się, że współczynnik a byłby równy: Y 2 ,, a współczynniki b Y \ i b n równe różnicy średnich: grup a 3 i a2 oraz grup a] i a 2 . I podobnie przy przestawieniu kolejności grup według schematu: a2ł a3, a^ Współczynnik a równy będzie: *Y, a współczynniki b Y \ i b n będą równe różnicy średnich grupowych: a2 i a! oraz a3 i ai. Gdyby czytelnik chciał na podstawie przedstawionego wyżej równania regresji dowiedzieć się, jakie są średnie grupowe (w alt a2, a3), to: — średnią grupową a 3 wyznacza wartość współczynnika a (tu 6,19), — średnią grupową a2 wyznacza wartość współczynnika byi, (tu 6,19 + (-1,4)), — średnią grupową a] wyznacza wartość współczynnika bY\ (tu 6,19 + (-3,4)). Test t współczynnika regresji b Yn (wartość statystyki t dla współczynników fcya jest standardowo podawana w wydrukach komputerowych programów na regresję wielokrotną) jest w tym przypadku testem istotności różnic między średnią danej grupy (tej, której przypisano jedynki w wektorze instrumentalnym w) a średnią grupy, której przypisano zera we wszystkich wektorach (ostatnia, p-ta grupa w tabeli), czyli jest to — w naszym przykładzie — test istotności różnic I Ł-^3. oraz F>.-F 3 .. Ponieważ układ grup, jak to już wyżej powiedzieliśmy, może być dowolny (nie zależy nam na konkretnym układzie), więc informacje, , których dostarcza test istotności współczynnika regresji, są dla nas mało istotne I i jako takie nie będą dalej przedstawiane. Nas przecież interesuje tylko związek dwóch zmiennych: Y i A, jego istotność i siła, a operacje pośredniczące mają wyłącznie charakter pomocniczy. Cechą najbardziej charakterystyczną, odróżniającą kodowanie zero-jedynkowe I od pozostałych systemów kodowania, jest traktowanie jednej z grup (obojętnie której) jako grupy odniesienia czy swoistej grupy kontrolnej. Owa grupa kontrolna wyróżniona jest w ten sposób, że jej członkowie, we wszystkich utworzonych zmiennych instrumentalnych, otrzymują wyłącznie zera. Interpretowanie danych i polega na porównywaniu każdej pozostałej grupy („eksperymentalnej") z tą właśnie grupą. Przypomina to postępowanie w znanym teście wielokrotnych porównań (kontrastów) — teście porównań każdej średniej grupowej ze średnią jednej grupy I kontrolnej (por. Edwards, 1972, s. 149-150). Przykład, który został wyżej opisany, miał służyć wyłącznie celom poglądowym. Chodziło bowiem o pokazanie, że ta sama zmienna jakościowa może być 377
wprowadzana bądź do modelu ANOVA, bądź do modelu MR. Specjalnie wybrałem do tego celu zmienną trójkategorialną, gdyż po przekształceniu jej, na drodze kodowania zero-jedynkowego, w dwie zmienne instrumentalne, możliwe było wyznaczenie równania regresji liniowej za pomocą wzorów ułatwiających przeprowadzenie obliczeń za pomocą zwykłego kalkulatora (nawiasem mówiąc też tu wykorzystywanego). W przypadku gdy psycholog chciałby zakodować zmienną niezależną o większej liczbie kategorii, otrzyma więcej niż dwie zmienne instrumentalne. W przypadku większej liczby zmiennych niezależnych (predyktorów) obliczenia stają się skomplikowane. Nie stosuje się wtedy zapisu tradycyjnego, ale wykorzystuje się do tego celu algebrę macierzy. W pewnym sensie zapis macierzowy jest o wiele prostszy i bardziej elegancki. Rozpowszechnienie techniki EMC, zwłaszcza w postaci mini- i mikrokomputerów, likwiduje barierę techniczną, która na ogół odgradzała psychologa (zwłaszcza tego, który nie miał dostępu do profesjonalnych ośrodków elektronicznej techniki obliczeniowej) od bardziej zaawansowanego stosowania modelu MR (zwłaszcza jego odmiany jedno-wielozmiennowej i wielo-wielozmiennowej). Wystarczy tedy albo dysponować jakimkolwiek gotowym programem na wielokrotną regresję liniową, albo samemu posiąść umiejętność pisania takich programów i mieć dostęp do komputera osobistego, aby — po wcześniejszym zakodowaniu danej zmiennej jakościowej — wprowadzić dane do jego pamięci. Jeżeli wprowadzamy zmienne: zależną Y i instrumentalne: 7"i,..., 7"m, to — niezależnie od formy wydruku — powinniśmy zebrać następujące informacje: (1) wartość współczynnika korelacji wielokrotnej R oraz wartość współczyn nika determinacji wielokrotnej R 2 (ang. R, multiple correlation; R 2 , R square\ (2) wartości sum kwadratów dla poszczególnych źródeł zmienności (ang. SS, sums of sąuares): regresja (ang. regression), reszta, odchylenie od regresji, poza regresją (ang. residual, deviation from regressioń), (3) wartości średnich kwadratów dla poszczególnych źródeł zmienności (ang. MS, mean sąuares), (4) wartość testu F (ang. F, F value, value of analysis of variance), (5) wartości cząstkowych współczynników regresji (ang. B, regression coefficients), (6) wartość współczynnika regresji a (ang. intercept, constant — w programie SPSS), (7) wartości średnich (ang. means\ (8) wartości odchyleń standardowych (ang. standard deviations), (9) macierz korelacji (ang. correlation matrix), a zwłaszcza wartości współ czynników korelacji zmiennej Y ze zmienną instrumentalną w, (10) wartości tzw. reszt, tj. różnic: Y~Y' (ang. residuais). W uzyskanych z komputera wydrukach mogą się też znaleźć dodatkowe informacje, które jednak w przypadku interesującego nas problemu związku zmiennej Y ze zmienną jakościową nie mają dla nas znaczenia, co wcale nie oznacza, że są one obojętne w przypadku rutynowego stosowania modelu wielokrotnej regresji liniowej. Te dodatkowe informacje obejmują m. in. wartości błędów stan378
dardowych poszczególnych współczynników regresji, oceny istotności (via test /) współczynników regresji. Podany wyżej podstawowy zestaw informacji „obowiązuje" także dla dwóch pozostałych systemów kodowania, o których będzie mowa dalej. 32.2. Analiza przykładu z wykorzystaniem kodowania quasi-eksperymentalnego Czytelnik, który opanował już zasady kodowania zero-jedynkowego, bez trudu poradzi sobie z kodowaniem ąuasi-eksperymentalnym. Różnica między obydwoma systemami kodowania — w sensie technicznym — sprowadza się do tego, że w kodowaniu zero-jedynkowym osobom z ostatniej grupy (p-tej) przypisano we wszystkich m wektorach instrumentalnych same zera, natomiast w kodowaniu tu omawianym miejsce zer zajmują współczynniki -1. Ta zamiana pociąga za sobą jednak dość istotne zmiany właściwości kodowania. Zacznijmy od przeprowadzenia zabiegu kodowania quasi-ekspery mentalnego na zmiennej — tej samej co w punkcie 3.2.1 — „miejsce zamieszkania". Tabela 13.10 (Czytelnik zechce porównać ją z tabelą 13.6) prezentuje rezultaty kodowania quasi-eksperymentalnego. Tabela Kodowanie quasi-eksperymentalne zmiennej jakościowe A („miejsce o p = 4 kategoriach, n = 3
(0) Lp.
(1)
Kategorie zmiennej A wieś
1 2 3 4 5 6
<*\
(2) Zmienna Y Yu Yl2 Yi3
małe miasto °2
7
średnie miasto
8 9 10 11 12
Suma
Fii
zamieszkania
(3) <4) Zmienne instrumentalne T2 r, 1 0 1 0 1 0 0 1
(5) 7"3
0 0 0 0
Y22
0
1
0
Yn
0
1
r3l
0
0
0 1 1 1
Yi2
0
0
^33
0
0 -1 -1 -1 0,0
duże miasto
*41
-i
YA2
~i
aĄ
1-43
-1
K.
0,0
-1 -I -1 0,0
W przypadku kodowania zero-jedynkowego współczynnik korelacji między zmiennymi instrumentalnymi dany był wzorem (13.68) — tu /■,,= 0,50, i>j. Inną leż interpretację nadajemy cząstkowym współczynnikom regresji a oraz bYw. Zachodzi tu ścisła analogia z interpretacją modelu jednoczynnikowego ANOVA (model efektów stałych): ANOVA-KRG-/7 (n > 1)1. Przypomnijmy, iż struktura pojedynczego wyniku £-tej osoby badanej należącej do i-tej grupy porównawczej wygląda następująco (Brzeziński, Stachowski, 1984, s. 39—41):
379
(13.82) gdzie: Yik — wynik fc-tej (&= 1 ....... n) osoby pochodzącej z /-tej ( i= 1,...,/?) grupy porównawczej; // — średni wynik zmiennej Y w populacji; a\ — efekt oddziałyp wania na zmienną zależną Y poziomu i (wartości) czynnika A: Ta,- = 0; e^ — i=l
błąd eksperymentalny, którego rozkład w populacji jest normalny, ze średnią 0 i odchyleniem standardowym ae. Oszacowaniem parametrów modelu (13.82) są: (13.83) (13.84) (13.85)
(13.86) Zwróćmy uwagę na podkreślony element równania (13.86). Jest to efekt /-tego poziomu postępowania eksperymentalnego, zdefiniowany jako różnica średniej z danej grupy porównawczej i średniej ogólnej. Zapamiętajmy to. Przekształcając (13.82) lub (13.86) możemy wyznaczyć eik:
lub (13.87)
(13.88) Wróćmy teraz do pytania o sens empiryczny nadawany współczynnikom a i byw w równaniu regresji otrzymanym dla zmiennych instrumentalnych skonstruowanych via kodowanie quasi-eksperymentalne. Otóż a to tyle, co średnia ogólna zmiennej zależnej: (13.89) natomiast współczynniki bYw równają się odchyleniu danej średniej grupowej, dla której zmienna instrumentalna przyjmuje wartości +1, od średniej ogólnej. Zatem dla grupy a t (por. tab. 13.17) mamy: (13.90) dla grupy a2: dla grupy a3:
380
(13.91)
(13.92)
Porównajmy zapisy (13.90) — (13.92) z podkreślonym elementem równania (13.86). Są identyczne4. Zatem współczynnik bYl to tyle, co efekt eksperymentalny pierwszego poziomu czynnika A(a\), byi to tyle, co efekt eksperymentalny drugiego poziomu czynnika A{ai) itd. W jaki sposób jednak określić wielkość efektu eksperymentalnego czwartego poziomu czynnika A (OĄ), gdy w równaniu regresji występują jedynie p- \ = 4-\ = 3 zmienne instrumentalne? Efekt czwartego poziomu (odpowiadający grupie porównawczej, dla osób której wszystkie zmienne instrumentalne przyjmują wartości: -1) czynnika A (ogólnie p-tego poziomu) wyznaczamy korzystając ze wzoru:
Zatem: Ogólnie efekt eksperymentalny poziomu p czynnika A równy jest: ~%at.
(13-95)
Sumując, wynik każdej osoby badanej Yik można rozbić na trzy składowe: (a) ogólną średnią Y.. = a, (b) efekt (-tego poziomu czynnika A, rozumianego jako odchylenie /-tej śred niej grupowej od średniej ogólnej FL-7..; w równaniu regresji otrzyma nym metodą kodowania quasi-eksperymentalnego kolejnym efektom po ziomów czynnika A, od pierwszego do (p-\) odpowiadają wartości współczynników regresji bY\,..., bYp_\, a efektowi poziomu p czynnika A •-i
odpowiada wyrażenie: -A (c) resztę, czyli Yik-Yt\ resztę z równania regresji wyznaczamy przez odję cie wyniku zaobserwowanego &-tej osoby z /-tej grupy porównawczej (Yik) od wyniku otrzymanego z równania regresji {Y',i): Y ik- Y\ 4
Zrozumiałe teraz staje się określenie: kodowanie quasi-eksperymentalne. Oddaje ono po prostu wą analogię między pojęciem współczynnika regresji bYw i pojęciem „efektu eksperymentalnego" w ■alizie wariancji. Ponieważ osoby do grup porównawczych są wyznaczane nie losowo (podobnie jak tprocedurze quasi-eksperymentalnej), więc nie użyłem tu określenia „...eksperymentalne", ale „...quKkbperymentalne". Wydaje mi się, że jest to stosunkowo najlepszy polski odpowiednik terminu fflgieUkiego effect coding (pełniejszym określeniem byłoby treatment effect coding). Nie wydało mi ac szczęśliwe, z językowego punktu widzenia, tłumaczenie go jako „kodowanie efektowe". W dostę! pt] mi literaturze polskiej nie spotkałem polskiego odpowiednika effect coding. Zdecydowałem się H^ na termin „kodowanie quasi-eksperymentalne".
381
Całkowitą sumę kwadratów (SS cala ) możemy rozbić na sumę kwadratów dla regresji (SSregresja) oraz na resztową sumę kwadratów (SSreszta): 'regresja
ssr
Zatem: (13.96)
(13.97) Spróbujmy teraz to, co dotychczas zostało powiedziane na temat właściwości kodowania quasi-eksperymentalnego, zilustrować konkretnym przykładem. Przykład 3. Psychologa interesuje związek zmiennej zależnej Y (skala pomiaru — interwałowa) ze zmienną niezależną A. Zmienna A jest zmienną jakościową, czterokategoriałną: A={ax, a2, a3, a4}. Każda grupa porównawcza (a,) liczy po n =3 osoby. Razem przebadano: p ■ n = 4 ■ 3 = 12 osób. Wyniki zawiera tabela 13.11. Tabela 13.11. Dane do przykładu 3. (nt = n2 = «3 =n4 - n = 3) (0)
(1)
Lp. di
12 3 Suma Średnia
(3) (2) Zmienna A
(4|
a,
aA
18 19 19
25 28 30
a7
8 10 12
2 32 7
30
2,33333
10.00000
56
83
18,66666
27,66666
= 4, /i = 3, N = pn=\2, y..-176,0, Y..= 14,66667.
Przeprowadzając analizę wariancji według układu: ANOVA-KRG^ł (n = 3)1 dowiedzieliśmy się, że związek Y z A jest istotny statystycznie na poziomie a- 0,01. Tabela 13.12 prezentuje rezultaty przeprowadzonej analizy wariancji (otrzymane w sposób opisany w pkt. 3.2.1, przykład 2.). Procent wariancji zmiennej Y wyjaśnionej przez czynnik A obliczamy odwołując się do wskaźnika łf (por. wzór 13.53):
Zatem rozbicie wariancji całkowitej Y na wariancje składowe przedstawia się następująco: var{Y) = vaĄY\A) + var(Mreszta), 100% = 98%+ 2%. 382
Tabela 13.12. Analiza wariancji do danych z przykładu 3. (0) (1) (3) (2) Źródło wariancji Y Między Wewnątrz
* p<0,05 ** p<0,01 Cala
(4)
SS
df
MS
F
1076,6667
3
130,505**
22
8
358,889 2,75
1098,6667
11
fo.O5;3;8=4,O7, o.oi; i; 8 = 7,59.
F
Chcąc dane z tabeli 13.11 opracować w modelu MR, musimy wpierw przeprowadzić zabieg kodowania quasi-eksperymentalnego. Wyniki5 zmiennej Y, wyniki kodowania przeprowadzonego na zmiennej A oraz niektóre obliczenia statystyczne (średnie, r y , Ry.m) przedstawione są w tabeli 13.13. Tabela 13.13. Zakodowane (kodowanie quasi-eksperymentalne) dane do przykładu 3.
12 3
Ol
45 6
a2
7 8 9 1011
a
a4
12 Suma Średnia s 1
i
(2) Zmienna zależna Y 2 3 2 8 10 12 18 19 19 25 28 30 176
14,66667 9.99394
*YM,
(4)
(3)
(5)
Zmienne instrumentalne 1 1 1 1 c o o
(1) Grupy
(0) Lp.
00 0 -1 -1 1 0.0 0,0
0.73855 -0,93606 0,87621
2
0
0
0
1 1 1 00 0
3 00 0 00 0
-1 1 -1
1 1 1 -1 1 -1
0.0 0.0
0,0 0,0
0,73855 -0,65278 0,42612
0,73855 -0,33255 0,11059
Ifcl2. p=4, n=3. Wartość współczynnika korelacji wielokrotnej (Rym) oraz wartość współczynnika determinacji wielokrotnej (^.123) równa jest: R7.123 = 0,98994,
R2YA23 = 0,97998,
rl2= ru = r23 = 0,50000. Przy prezentowaniu niniejszego przykładu wykorzystuję część danych z wydruku programu ML1TIPLE REGRESSION [dzięki uprzejmości p. dra Cz. Noworola (UJ)], pochodzącego z biblioteki SSP zastosowanego do przeprowadzenia obliczeń statystycznych na zbiorze danych zawartych w tabeli 13.1? lwektor Y oraz wektory instrumentalne T,, T2, T3). Układ tabel: 13.13, 13.14, 13.15 — własny.
383
Wartość współczynnika korelacji rYw obliczamy korzystając z uproszczonego wzoru:
(13.98)
gdzie: w- 1,..., m. Wyrażenie w mianowniku wzoru (13.98) przyjmuje stałą wartość dla poszczególnych współczynników korelacji: rn,..., rYm- Wystarczy tedy raz obliczoną jego wartość, dla danego zbioru zmiennych instrumentalnych reprezentujących zmienną niezależną A, podstawić do mianownika wzoru na współczynnik korelacji zmiennej zależnej Y z kolejnymi wektorami instrumentalnymi T\,..., T m . Rezultaty przeprowadzonej analizy wariancji dla regresji Y względem zmiennej A przedstawiono w tabeli 13.14. Pokrywają się one z wynikami analizy wariancji zawartymi w tabeli 13.12 (podobnie, w przykładzie 2. uzyskaliśmy identyczne rezultaty, przeprowadzając analizę statystyczną danych, raz w paradygmacie ANOVA, a drugi raz w paradygmacie MR), Współczynnik korelacji wielokrotnej można obliczyć ze wzoru: (13.99) Tabela 13.14. Analiza wariancji dla regresji Y względem A - do danych z przykładu 3. (tab. 13.13)
(0)
(O
(2)
(3)
Źródło wariancji Y
SS
MS
F
Regresja (/f2)
1076,66663
358,88889
130,505** '
Odchylenie od regresji (reszta) Cała
22,00000
df 3 8
(4)
1098,66663
11
2,75
Po podstawieniu danych z tabeli 13.14 mamy:
Czytelnik obeznany z modelem ANOVA wie, iż test F, wykazując istotność zmiennej niezależnej dla Y, nie informuje o tym,- czy wszystkie średnie grupowe istotnie różnią się między sobą, czy też tylko jedna średnia grupowa istotnie różni się od jakiejś innej średniej grupowej. Odrzucenie tedy H Q : n x =fi2 =... =fip na rzecz H\. Mi^Mr, gdzie j* f nie informuje badacza, które to grupy: i, V różnią się istotnie. Aby rozwiać tę wątpliwość, musimy odwołać się do jakiegoś testu wielokrot384
nych porównań (kontrastów) między średnimi. Najbardziej znane testy tego typu, to testy: Tukeya, Scheffćgo, Duncana (na ich temat por. Kirk, 1982, rozdz. 3.). Tutaj pokażę zastosowanie testu Tukeya, jako testu o stosunkowo największej efektywności — na przykład w porównaniu z najbardziej konserwatywnym testem Scheffego — pozwalającego na wykrycie największej liczby istotnych różnic między średnimi grupowymi. Test Tukeya przeznaczony jest dla grup o równej liczebności, a tylko o takich tutaj mówimy. W przypadku nierównej liczebności grup należy posłużyć się testem Scheffego. Dokładny opis testu Tukeya znajdzie czytelnik u Brzezińskiego i Stachowskiego (1984, s. 71-76). Przejdę tedy od razu do zastosowania testu Tukeya wobec danych z naszego przykładu. W analizowanym przykładzie mamy cztery grupy porównawcze (p=4). Zatem wszystkich możliwych różnic między dwiema średnimi grupowymi jest p(p-\):2=6. Tabela 13.11 podaje wartości średnich grupowych. Sześć możliwych porównań to (po ich uporządkowaniu): D l = Y 4 _-7 L = 25,33333, D 2 = F4.-F2. =17,66666, Z)3 = F4 _ f3 = 9,00000, D4 = F3. - 72. = 8,66666, D 5 = F 3 . - F L = 16,33333, D 6 = F 2 .-Fi. = 7,66667. Obliczamy teraz wartość statystyki 0 testu Tukeya dla każdego porównania: Q-
i
Y -Y }, ,/■
.,
(13.100)
2,75 (por. tab. 13.14).
n_
_ 25,33333 =ofi.Afi.
n. - i«
AS
n,-Qin
04 = 9,05, Q5 = 17,06, Q6 = 8,00. Kolejny krok polega na znalezieniu wartości krytycznej statystyki Q o stopniach swobody: dfv/ewn^tTZ = p (n - 1) = 8. Drugi parametr, od wartości którego uzależniona jest wartość statystyki Q, to liczba porównywanych średnich (tu 4). Przyjmując poziom istotności a = 0,05 mamy:
Uznajemy dane porównanie (różnicę między średnimi dwóch grup) za istotne nadanym poziomie a, gdy 101 s* <2«- W analizowanym przykładzie 101 >4,53. Ponieważ każde z sześciu porównań spełnia ten warunek, więc możemy powiedzieć, iż wszystkie możliwe różnice między średnimi dwóch grup są istotne, co najmniej na poziomie a = 0,05. Wróćmy jednak do modelu MR. Otrzymaliśmy następujące wartości współczynników regresji: a= 14,66667, b n =-12,33333, &„ =-4,66667, b Yi = 4,00000. 385
Łatwo sprawdzić, iż te same wartości współczynników regresji można otrzymać przyjmując za punkt wyjścia właściwości kodowania quasi-eksperymentalnego. I tak: a= Y..= 14,66667, b n = F L - ?.. = -12,33333, b n = Y 2 . -Y..= -4,66667, b n = F 3 . - F.. = 4,00000. Równanie regresji przedstawia się zatem następująco: Y'= -12,33333^ - 4,666677 2 + 4,00000r 3 + 14,66667. Poszczególne efekty eksperymentalne możemy oszacować na podstawie: a, = 6n= -1233333, a1 = bY1 = -4,66667, a3 = />„ = 4,00000, a, = A -12,33333 - 4,66667 + 4,00000) = 13,00000 W jaki sposób korzystać z zapisanego wyżej równania regresji? Najlepiej pokazać to na przykładzie. Weźmy pod uwagę wynik osoby nr 1, tj. Y u (osoba z grupy ax). W poszczególnych wektorach instrumentalnych Tu T2, ^uzyskała ona wyniki 1, 0, 0 (por. tab. 13.13). Po podstawieniu tych wyników do równania regresji mamy: r„ --12,33333(1)-4,66667(0) + 4,00000(0) + 14,66667 = 2,33333,
ru-2,0, Y x ! - r, i - 2,0 - 2,33333 = -0,33333. Weźmy teraz wynik osoby nr 9, tj. y33 (osoba z grupy a3). W poszczególnych wektorach instrumentalnych Tu T 2 , T$ uzyskała ona wyniki 0, 0, 1. r33 = -12,33333(0) - 4,66667(0) + 4,00000(1) + 14,66667 = 18,66667, Y33 = 19,0, y 33 _ T 33 = 19,0- 18,6666= 0,33333. Postępując analogicznie z każdym wynikiem, otrzymamy tabelę reszt (por. tab. 13.15). Sumy kolumn (3), (4), (5) w tabeli 13.15 to odpowiednie sumy kwadratów (por. wzór (13.96)) — ich wartości zawiera także tabela 13.14 (kolumna 1.). 386
Tabela 13.15. Tabela reszt — do przykładu 3. — przystosowana do obliczeń sum kwadratów: SSr
(0 (1)
LP
(2)
1* 2 3 2 8 10 12 18 19 19 25 28 30
1
2 3 4
5 6 7 8 9 10 11 12
ra 2,33333 2,33333 2,33333 10,00000 10,00000 10,00000 18,66667 18,66667 18,66667 27,66667 27,66667 27,66667 Suma
(3)
(Ytt-7..? 160,44453 136,11119 160,44453 44,44449 21,77781 7,11113 11,11109 18,77775 18,77775 106,77771 177,77769 235,11101 1098,66670
(4)
(rlk-7..f
(5)
152,11128
0,11111
152,11128
0,44445
152,11128
0,11111
21,77781
4,00000
21,77781
0,00000
21,77781
4,00000
16,00000
0,44445
16,00000
0,11111
16,00000
0,11111
169,00000
7,11113
169,00000
0,11111
169,00000
5,44443
1076.66730
22,00001
ss Z kolei: (13.103) W ten sposób doszliśmy do wyników, które zawiera tabela 13.14. Wyżej powiedzieliśmy, iż wynik każdej osoby badanej składa się z trzech części. Weźmy tedy — tytułem przykładu — jeszcze raz pod uwagę dwa wyniki h i
Y„. Dla Yn części składowe są następujące: (a)F.. = a = 14,66667, (b) F,.-F.. = bn =-12,33333, (c) yn-Ft.^rn-rn = -0,33333, Yu = 2,00001 387
Dla Y33 części składowe są następujące: (a) Y.. = a = 14,66667, (b) ?y - 7.. = bY3 = 4,00000, (c) y33 - Yy = y33 - Y33 = 0,33333, y33 = 19,00000. W przypadku zmiennej jakościowej dwu i trójkategorialnej, przy obliczaniu wartości współczynników regresji możemy korzystać z uproszczonych wzorów bądź wprost na współczynniki bYw , bądź na wagi fi. Korzystaliśmy z nich przy analizie przykładu 2. Także zmienna czterokategorialna może być „opracowana" — z wykorzystaniem uproszczonych wzorów (Aiken, 1974, a także wzory 13.3013.34 w niniejszym rozdziale) — za pomocą kalkulatora. Zmienne o większej liczbie kategorii najlepiej „opracowywać" wykorzystując do tego celu komputer lub mikrokomputer i dowolny program komputerowy na wielokrotną regresję. Takie gotowe programy zawierają podstawowe biblioteki oprogramowania statystycznego każdego komputera oraz specjalne biblioteki programów statystycznych adresowanych do przedstawicieli nauk empirycznych, takie jak: SPSS, SPSS PC+, BMD, BMDP, SSP, SPP, CSS STATISTICA. Praca Marka i Noworola (1985) zawiera gotowy program na wielokrotną regresję liniową napisany w języku FORTRAN IV. Rzecz jasna standardowy wydruk któregoś z wymienionych tu programów na wielokrotną regresję liniową zawiera obok informacji dla nas użytecznych, również informacje nieużyteczne, gdy rozpatrujemy jedynie kodowanie zmiennej jakościowej, a programy te pisane były z myślą o zmiennych ilościowych. Tak naprawdę, to niezbędny jest wydruk informacji zawartych w tabeli 13.14 (tabela analizy wariancji dla regresji), wartości współczynników regresji, wartości współczynników korelacji rYw i wartość współczynnika korelacji wielokrotnej Ry.m..., a także wartości średnich arytmetycznych i odchyleń standardowych. Dla pełnej interpretacji równania regresji wskazany jest wydruk wartości reszt Y ik - Y ik . 3.2.3. Analiza przykładu z wykorzystaniem kodowania ortogonalnego Trzeci system kodowania jest szczególnie przydatny, gdy nie mamy dostępu do komputera, a dysponujemy jedynie dobrym kalkulatorem. Szczególne właściwości kodowania ortogonalnego (ang. orthogonal coding) powodują, iż prowadzenie obliczeń statystycznych (zwłaszcza wagjff) jest maksymalnie uproszczone. Kodowanie ortogonalne polega bowiem, mówiąc ogólnie, na skonstruowaniu nowych, instrumentalnych zmiennych (wektorów), które nie są między sobą skorelowane. Współczynnik korelacji między dwoma wektorami instrumentalnymi równy jest zero, jeżeli spełniają one kryterium porównań ortogonalnych. Wyjaśnijmy najpierw, co to znaczy, że dwa porównania są ortogonalne. Jeżeli mamy p grup porównawczych, to możemy przeprowadzić p - 1 (liczba grup minus jeden) porównań ortogonalnych. Liczba takich porównań równa jest 388
liczbie wektorów instrumentalnych, które można utworzyć za pomocą kodowania. Każdej grupie w wektorze instrumentalnym przypisany jest jakiś współczynnik. W poprzednio omówionych systemach kodowania były to współczynniki: 1 i 0 (kodowanie zero-jedynkowe) oraz 1, 0 i -1 (kodowanie quasi-eksperymentalne). W przypadku omawianego w tym punkcie systemu kodowania, doborem współczynników rządzi zasada porównań ortogonalnych. Dwa porównania uznajemy za ortogonalne, gdy suma iloczynów współczynników odpowiadających im elementów dwóch wektorów jest równa zero. Jeżeli na przykład p = 3, to mamy trzy średnie: Y lt 7 2 ., Y$. Utwórzmy dwa porównania. W pierwszym Yt skontrastowane jest z Y2.- W drugim Yx i Y2 łącznie (czyli średnia arytmetyczna z Y x i Y 2 ) skontrastowane jest z Yy, co możemy zapisać w postaci: (i) (l)F,. + (-l)r 2 . + (0)F 3 ,
(13.104)
(ii) (-jJFL + f-ijIL + CDlŁ.
(13.105)
Jeżeli po przemnożeniu współczynników w (i) i (ii) i zsumowaniu kolejnych iloczynów otrzymamy sumę zerową, to owe porównania możemy uznać za ortogonalne. W naszym przykładzie mamy: (i) x (ii)
(1) (4) + (-1X4) + <°X O = 0.
Zatem porównania (i) i (ii) są ortogonalne. Zauważmy, że suma współczynników w każdym wektorze instrumentalnym równa jest zero:
, 1\
/ 1>
(ii) (-|)+(-|)+(i)=a Porównania ortogonalne — poprzez odpowiedni dobór współczynników przy średnich grupowych — tworzymy kierując się: (a) hipotezą roboczą lub (b) regułą ułatwiającą przeprowadzenie obliczeń związanych z analizą wielokrotnej regresji liniowej. Rozpatrzmy wpierw przypadek (a). Załóżmy, że badacza interesuje porównanie przeciętnego poziomu agresywności chłopców należących do jednej z trzech grup porównawczych: ax — chłopcy pozbawieni rodziców i wychowywani w domu dziecka, a 2 — chłopcy pozbawieni ojców i wychowywani przez matki i a 3 — chłopcy wychowywani przez rodziców. Badacz może potraktować grupę a3 jako swoistą grupę odniesienia („kontrolną") dla dwóch pozostałych grup. Może on tedy I utworzyć dwa porównania ortogonalne (bo: 3-1=2). W pierwszym, skontrastuje on średni poziom agresywności chłopców z grupy at (Y]) ze średnim poziomem agresywności chłopców z grupy a2 (Y2). W drugim porównaniu skontrastuje on łącznie średni poziom agresywności chłopców z grupy a x i a 2 (FL oraz Y 2 ) ze Średnim poziomem agresywności chłopców z grupy a^Ts). 389
Przypadek (b) będzie tu szczegółowo omówiony jako reguła konstruowania zmiennych instrumentalnych, gdyż kodowanie ortogonalne zalecane tu jest jako sposób ułatwiający przeprowadzanie obliczeń. Dla wygody obliczeń nie używamy współczynników w postaci ułamków, ale — przemnażając każdy współczynnik przez stałą — doprowadzamy je do postaci liczb całkowitych. W przypadku porównania (ii) — wzór (13.105) — zamiast pisać:
piszemy, po przemnożeniu każdego współczynnika przez 2, tj. przez wartość mianownika współczynnika przy Yx i 72: (-l)F l + (-l)F 2 . + (2)F 3 , W przykładzie z czterema grupami i tworzenia porównania przez skontrastowanie średniej z trzech pierwszych grup ze średnią z czwartej grupy zamiast:
(j) t + tf^L+ff) II+ (1) F4.,
(13.106)
(1) f,. + (I) F2. + (1)F3. + (-3) F4,
(13.107)
piszemy:
Przejdźmy teraz, zgodnie z zapowiedzią, do omówienia zasady konstruowania zmiennych (wektorów) instrumentalnych. Podana tu zasada ma na celu ułatwienie badaczowi przeprowadzenia obliczeń. Nie będzie on więc interpretował merytorycznie porównań, gdyż przy ich tworzeniu nie kierował się hipotezami roboczymi (takimi, jak w analizowanym wyżej przykładzie porównań średniego poziomu agresywności chłopców wychowywanych w różnych warunkach). Kodowanie p-kategorialnej zmiennej jakościowej A o wartościach: at, a2, ..., ap prowadzi do utworzenia m = p-\ wektorów instrumentalnych: T,, T2, ..., Tm. Wektor 1. powstaje przez skontrastowanie średniej z grupy ax (Yx) ze średnią z grupy a2 (Y2). Osobom z grupy a, przypisujemy współczynniki 1, a osobom z grupy a2 przypisujemy współczynniki -1. Osobom z pozostałych grup przypisujemy współczynniki 0. Wektor 2. powstaje jako rezultat łącznego skontrastowania średnich grup: flj i a2 (Y{ i Y2) ze średnią grupy 03(13). Osobom z grup a, i a2 przypisujemy współczynniki 1, osobom z grupy a^ przypisujemy współczynniki -2, a osobom z pozostałych grup przypisujemy współczynniki 0. Wektor 3. powstaje przez łączne skontrastowanie średnich grup: ax, a2, a3, (F^, F2, F$), ze średnią grupy a4(Y4). Osobom z grup: ax, a2, a3, (Yi/t Y2.,'Y^), przypisujemy wspóczynniki 1. Osobom z grupy a4 współczynniki -3. Osobom z pozostałych grup przypisujemy współczynniki 0. Wektor m (ostatni) tworzymy przez łączne skontrastowanie średnich grup: at, a2, ..., a^,, (Ji., *2.» ---'^-l) ze średnią grupy ap {Yp). Osobom z grup: a,, a2, ..., ap_i przypisujemy współczynniki 1, a osobom z grupy ap współczynniki 390
równe -m (przykładowo, gdy mamy p = 4 grupy, to m = p- 1 = 4 - 1 = 3, a zatem będzie to współczynnik -3). Kierując się tą zasadą, zakodowano metodą kodowania ortogonalnego zmienną jakościową, czterokategorialną: „miejsce zamieszkania". Kodowanie zero-jedynkowe tej zmiennej przedstawione jest w tabeli 13.6, a kodowanie ąuasi-eksperymentalne w tabeli 13.10. Z kolei rezultaty kodowania ortogonalnego prezentuje tabela 13.16. Tabela 13.16. Kodowanie ortogonalne zmiennej jakościowej A („miejsce zamieszkania") o p = 4 tegonach, n = 3 ka(0)
(1)
(2)
Lp.
Kategorie zmiennej A
Zmienna zależna Y
1
wieś
Yu Yn Yn
Ol
23
małe miasto a2
4
(4) Zmienne instrumentalne Tt T2
1 1 1 1 1 !
Yii Yi2 Yn
00 0
-2 2 -2
1
YAI Y42
00 0
00 0
-3 33
0,0
0,0
0,0
23
średnie miasto
9
duże miasto
1011 12 Suma
h
1 1 1 1 1 1
Y 2 2 J-
78
(5)
1 1 1 -1 1 -1
ftl
56
(3)
Y..
1 1
Kodowanie ortogonalne cechują następujące właściwości: (1) Zmienne instrumentalne Tu ..., Tm nie są skorelowane, tj. (13.108) (2) z uwagi na (1) mamy: (13.109) (3) z uwagi na (1) mamy: (13.110) (4) sumy wyników zmiennych 7,, ..., Tm równe są zero, (13.111) (5) średnie wyników zmiennych 7",, ..., Tm równe są zero, (13.112) (6) sumy kwadratów odchyleń (SS) zmiennych T x , ..., T m równe są sumom kwadratów poszczególnych wyników, np. dla zmiennej T x SS] - 6, (13.113) 391
sprawdzić, iż rzeczywiście — niezależnie od metody kodowania — otrzymamy te same rezultaty. Gdyby na tych samych danych przeprowadzić kodowanie zero-jedynkowe, też otrzymalibyśmy te same rezultaty (z dokładnością do błędu zaokrąglenia obliczeń na którymś miejscu po przecinku). Czytelnik mógłby, tytułem ćwiczenia, zakodować dane metodą zero-jedynkową i przeprowadzić analogicznie, do tutaj przeprowadzonych, obliczenia. W tabeli 13.17 powtórzony został wektor Y z tabeli 13.13 (przykład 3.). Kolumny (3)-(5) to wektory instrumentalne skonstruowane metodą kodowania „ortogonalnego". Pięć ostatnich wierszy tabeli 13.17 zawiera niezbędne dane do zbudowania równania regresji liniowej, obliczenia współczynnika determinacji wielokrotnej ln23 oraz do obliczenia wartości statystyki testowej F. Korzystając z właściwości li kodowania ortogonalnego (r^ = 0, i >j) możemy obliczyć wartość J?y 123 (korzytając z właściwości (3) — wzór (13.110)): tfy.123 = 0,08025 + 0,28444 + 0,61528 = 0,97997. Tabela 13.17. Zakodowane dane (kodowanie ortogonalne) do przykładu 4. — dane takie same jak * tabeli 13.11 (0) Lp.
1 2 3
(1)
(2)
Grupy
Zmienna zależna Y
78 9 10 1112 Suma Średnia s
(5)
2
3
1 1 1 -1 -1 1 00 0 00 0
1 1 1 1 1 1 -2 22 0 00
1 1 1 1 1 1 1 1 1 -3 33
176
0.0
0,0
0,0
14,66667 9,99394
0,0
0,0
0,0
23 2 8 10 12 18 19 19 25 28 30
6
(4)
Zmienne instrumentalne 1
Ol
45■
(3)
&
0,73855 0.28328 0.08025
1,27920 -0,53333 0,28444
1,80907 -0,78440 0,61528
=0,
= 0,97997,
= 0,98993
Wyrażając wartość Ry_\2i procentowo, otrzymujemy procent wariancji zmiennej ł wyjaśnionej przez liniową kombinację zmiennych instrumentalnych Tu T2, T3: 1
x
100% = 98% = vaĄYIA). 393
Z kolei wariancja resztowa wynosi: (1 - R2Yxri) x 100% = 2% = var(yireszta). Istotność współczynnika J?y.i23 testujemy za pomocą testu F (wzór (13.78)) na poziomie istotności a = 0,05: (0,97997): (3) F = = 130,664. (1 0,97997): ( 1 2 - 3 - 1 ) Ponieważ F > Fo,05;3;8> więc możemy odrzucić Ho: Ry 122 = 0 na rzecz Przeprowadzone wyżej obliczenia kończymy zebraniem ich wyników w sumarycznej tabeli (por. tabela 13.18). Tabela 13.18. Analiza wariancji dla regresji Y względem A — do danych z przykładu 3. (tab. 13.15) (0) (2) (3) (5) (1) (4) Lp. Źródło wariancji Y Proporcja wariancji df F Proporcja Y wyjaśnionej przez df dane źródło 3 0,32666 130,644** 1 regresja (R2) wektor 1 0,97997 8 2 (Ąt) wektor 2 {r^) 0,08025 0,28444 3 wektor 3 (rfy reszta (10,61528 0,02003 4 5 R2) 6
cała
1.00000
11
*p<0,05, Fo.05;3;8 = 4,07, m , 3 . 9 = 7,59
Współczynniki regresji: a = Y.. = 14,66667 (na podstawie właściwości 9.) — wzór (13.116),
(na podstawie właściwości 10.) — wzory (13.117) — (13.122). 394
Możemy też przekonać się, że poszczególne współczynniki regresji by\, byi-, by$ rzeczywiście odzwierciedlają dane porównania ujęte w wektorach instrumentalnych 7/„ T2, 73 (z wzorów (13.117) — (13.119)): by\ = -3,83333:
-17,33333--17,33332. Jak widzimy, aby obliczyć wartość Ry.m wystarczy obliczyć wartość współczynników korelacji zmiennej zależnej Y z kolejnymi wektorami instrumentalnymi. Współczynniki te możemy obliczyć z uproszczonego wzoru na rYw: N
N
j przyjmuje stałą wartość dla poszczegółnych współczynników korelacji rn, rn, ..., i L- Wystarczy tedy, raz obliczoną jego wartość podstawiać kolejno do wzoru na 395
Możemy też wykorzystać gotowy program na obliczanie macierzy korelacji lub wagjS (bo rYyv=fiYv). Kodowanie ortogonalne prowadzi nas zatem najprostszą drogą do równania regresji liniowej.
3.3. Dwie zmienne wielokategorialne — zagadnienie interakcji między zmiennymi jakościowymi Jeżeli mamy do czynienia z co najmniej dwiema zmiennymi niezależnymi wielokategorialnymi, to w miejsce zmiennych Xx i X2 należy wprowadzić nowe zmienne (wektory) instrumentalne. Przemnażając kolejno wektory instrumentalne (wszystkie) odnoszące się do Xi, najpierw przez pierwszy wektor instrumentalny, następnie przez drugi wektor instrumentalny itd., odnoszące się do zmiennej X2 otrzymujemy nowe wektory odnoszące się do iloczynu XlX2. Jeżeli na przykład mamy dwie zmienne jakościowe X\ = {alf a2, a$} i X2- {bx, b2, b3}, to w ich miejsce utworzymy dwa wektory instrumentalne odpowiadające zmiennej X x (wektory 1 i 2), dwa wektory instrumentalne odpowiadające zmiennej X2 (wektory 3 i 4) oraz cztery wektory instrumentalne odpowiadające interakcji zmiennych Xt i X2 (wektory 1 x 3, 1 x 4, 2 x 3, 2 x 4). Tabel 13.19. Kodowanie ortogonalne dwóch zmiennych jakościowych: a (0) (1) (2) (3) (4) (6) (5) Zmienna Zmienna A Zmienna B Grupy Lp. zależna Y 1 3 4 2 1
axbx
2 3
axb2
4 5 6 7 8 9 10
afa a2b}
afa
11 12 13 14
«A
15 16
a3b2
17 18
O3frj
1
1
1
1
I
1
1
1
1
1
I
1 !
1
1
-1
1
-1
1
-1
1 ;
1
1
-1
1
-1
1
-1
Kl3i
1
1
0
-2
0
-2
0
11
Ym Ym
1 -1
1
0
-1
-2 -1
Y2i2
-1
1
1 1
-2 1
0
1
1
-1
-1
1 1
1 1
Ym
-1
1
1
1
-1 -1
-1
-1
1 1
1
YZ22
-1 -1
-1
! 1
1 1
0 0
0 0
2 2
0 0
-2 -2 -2 -2
I 1
-2 -2 1 1
0 0
0 0
-2 -2
-1 -1
-1 -1
0 0
0 0
-2 -2 2 -2 2 -2
0 0
-2 -2
0 0
0 0
0 0
Y231
-1
Ym
-1
Ym Ym Ym
0 0
T322
Ym f332
=3, n = 2
396
Km Ym Yizi Ym
A i B ich interakcji i (7) (8) (9) (10) Interakcja AB 5 6 7 8 1x3 1x4 2x3 2x4 1 1 1 1 ;
0 0 0 0
-2
-2
-2 0 -2
-2 -2
4 4
Zasady kodowania ortogonalnego dwóch zmiennych jakościowych i ich interakcji łatwiej będzie zrozumieć, jeżeli odwołamy się do prostej ilustracji. Niech A = {alt a2, 03}, B = {£,, b2, £3}, n = 2, N = 3 x 3 x 2 = 18. Mamy zatem dziewięć grup porównawczych, którym odpowiadają następujące kombinacje wartości zmiennych A i B: a\b\, axb2, a,63t a2bu a2b2, a2b3, a3b\, a$b2, (*$■$. Tabela 13.19 zawiera wektor Y (kolumna 2.), wektory instrumentalne: 1,2 (kolumny 3.,4.), wektory instrumentalne: 3,4 (kolumny 5.,6.), a także wektory instrumentalne odpowiadające interakcji zmiennych A i B: wektory 5, 6, 7, 8 (kolumny 7., 8., 9., 10.). Objaśnijmy teraz, w jaki sposób utworzyliśmy wektory 1,2 (zmienna A), 3,4 (zmienna B), Obowiązuje tu ta sama zasada, co przy kodowaniu jednej zmiennej jakościowej. Wektor 1 powstaje w ten sposób, że osobom z grupy, której przyporządkowano wartość «, przypisujemy współczynnik 1. Grupę tę kontrastujemy z grupą o wartości a2 zmiennej A i przypisujemy jej współczynnik -1, a trzeciej grupie, o wartości a3 zmiennej A, przypisujemy współczynnik 0. Jeżeli teraz dodamy do siebie współczynniki, to powinniśmy otrzymać zero. I taką też sumę otrzymaliśmy. Wektor 2 powstaje jako efekt łącznego skontrastowania grup o wartościach zmiennej A: a h a 2 z grupą o wartości a 3 zmiennej A. Zatem osobom z dwóch pierwszych grup przypisujemy współczynniki 1, a trzeciej grupie (a3) przypisujemy współczynniki -1, gdyż obowiązuje nas warunek: suma współczynników musi równać się zero (tu suma jedynek i minus jedynek równa się zero). Ponieważ zmienna A ma tylko trzy wartości, więc suma potrzebnych wektorów wynosi: 3 - 1 = 2 . Z kolei zmienna B też jest trójwartościowa, a więc musimy również utworzyć dwa wektory instrumentalne: wektor 3 i 4 (bo 3 - 1 = 2). Wektor 3 tworzymy w ten sposób, że kontrastujemy grupę o wartości bx zmiennej B z grupą o wartości b2 zmiennej B. Zatem osobom z grupy B\ przypisujemy współczynniki 1, a osobom z grupy b2 - współczynniki -1. Osobom z grupy b$ przypisujemy współczynniki 0. Wektor 4 tworzymy podobnie, jak wektor 2, tzn. kontrastujemy łącznie grupy b x i b 2 z grupą by Przypisujemy zatem osobom z grup b x i b 2 współczynniki 1. a osobom z grupy b3 - współczynniki 2 (suma współczynników musi równać się zero!). Teraz możemy przejść do wektorów reprezentujących interakcję AB. Postępujemy tu analogicznie, jak w przypadku zmiennych ilościowych (por. pkt. 2.2), tzn. mnożymy wartości wektorów odnoszących się do czynnika A i wektorów odnoszących się do czynnika B według kolejności: wektor 1 x wektor 3, wektor 1 x wektor 4, wektor 2 x wektor 3, wektor 2 x wektor 4. Dane zawarte w tabeli 13.19 można opracować bądź za pomocą analizy wariancji w układzie czynnikowym (model efektów stałych — I): ANOVA-33 (n = 2) I. bądź za pomocą modelu MR (odmiana nieaddytywna — równanie (13.39)). W równaniu tym musimy uwzględnić 8 predyktorów (wektory: 1, 2, 3, 4, 5, 6, 7, 8): Y'= bY,Tx + by{r2 + bnT2 + bY4T4 + bysT5 + bY6T6 + byiT-, + bnTs + a.
(13.123)
Mając opanowane zasady kodowania zero-jedynkowego i quasi-eksperymentalnego jednej zmiennej jakościowej, Czytelnik z łatwością — wzorując się na tabeli 13.19 — przeprowadzi kodowanie większej liczby zmiennych jakościowych (i ich interakcji). Tabele 13.20 i 13.21 służyć mają jako pomoc. 397
Tabel 13.20. Kodowanie zero-jedynkowe dwóch zmiennych jakościowych: A i B i ich interakcji a (0) (1) (3) (4) (5) (6) (7) (8) (9) (10) (2) Lp. Grupy Zmienna Zmienna A Zmienna B Interakcja AB zależna Y 3 4 7 8 5 1x3 6 1x4 2x3 2x4 1 a,fe, 0 1 0 1 0 0 0 Ku 1 a,b 7 1 0 0 1 0 1 0 0 2 K„ 3 1 0 0 0 0 0 0 0 aM K aj>\ 4 0 1 0 0 0 1 1 0 K„ a-,b-> 1 0 1 0 0 0 1 5 0 K K23. 0 1 0 0 0 0 0 0 6 afo a&i 7 0 0 1 0 0 0 0 0 ftl. 8 y32. 0 0 1 0 0 0 0 0 aiłn aibi 9 0 0 0 0 0 0 0 0 ' i
„ „
JV=3x3xn, p =
r33
Tabel 13.21. Kodowanie quasi-eksperymentalne dwóch zmiennych jakościowych: A 1 B i ich a interakcji (01 (1) (3) (4) (5) (6) (7) (8) (9) (10) (2) Grupy Zmienna Zmienna A Zmienna B Interakcja AB Lp. zależna Y 1 2 3 4 6 7 2x3 8 2x4 5 1x4 1x3 a]b] Ku. 1 0 1 0 0 0 0 1 1 a\b2 1 0 0 1 1 0 0 2 Ku 0 3 a\bi 1 0 -1 -1 0 0 -1 -1 Yn. O2b\ 4 0 1 1 0 0 1 0 0 Yu. Y22. 5 0 1 0 1 0 0 0 1 O2bj 6 K». 0 1 -1 0 0 -1 -1 -1 K31. 7 aib\ -1 -1 1 0 -1 0 -1 0 8 a^bi -1 -1 0 0 -1 0 -1 Ku 1 O3&3 9 Yu. -1 -1 -1 1 1 1 1
N=3x3xn,p = 3, q =
3.3.1. Analiza przykładu z wykorzystaniem kodowania ortogonalnego Przeanalizujemy teraz przykład z wykorzystaniem kodowania ortogonalnego jako — moim zdaniem — bardzo przydatnego (zwłaszcza dla użytkowników kalkulatorów) w praktyce obliczeniowej i prostego w zastosowaniu. Przykład 5. Badacza interesuje związek poziomu osiągnięć szkolnych uczniów pierwszej klasy szkoły podstawowej z takimi czynnikami, jak: stosowana przez nauczyciela metoda nauczania (czynnik A) oraz doświadczenie dydaktyczne nauczyciela (czynnik B). Badacz chciałby też uzyskać odpowiedź na pytanie, czy nie jest tak, że najkorzystniejszy (jeśli chodzi o wielkość wariancji wyjaśnionej zmiennej Y) jest pewien układ wartości czynnika A i czynnika B, tzn. najwyższy przeciętny poziom osiągnięć szkolnych możliwy będzie do otrzymania wówczas, gdy czynnik A będzie przyjmował wyróżnioną wartość ah i czynnik B będzie przyjmował także wyróżnioną wartość by Jest to zatem pytanie o istotność interakcji czynnika A 398
z czynnikiem B dla zmiennej Y. Badaniom poddane zostały dwie grupy (każda licząca 12 osób) nauczycieli o długim (b{) i krótkim (b2) doświadczeniu dydaktycznym. Z kolei nauczyciele każdej z grup przygotowani zostali do prowadzenia zajęć według jednej z trzech metod (po 8 nauczycieli na jedną metodę): a} — metoda problemowa-indywidualna, a2 — metoda problemowa-zespołowa, a3 — metoda nauczania programowanego. Wyróżniono tedy 3 ■ 2= 6 grup porównawczych, charakteryzowanych kombinacją afy poziomów czynników. Liczebność każdej grupy wynosiła: 3 ■ 2 ■ 4 = 24 osoby. Zauważmy jeszcze, iż czynnik A jest „czynnikiem randomizowalnym" (AR), a czynnik B jest „czynnikiem nierandomizowalnym". Cały analizowany układ jest „układem częściowo randomizowalnym" (w sensie: Brzeziński, Stachowski, 1984, s. 113). Wyniki badania zawiera tabela 13.22 kolumna 2. (grupy porównawcze — kolumna 1. — i odpowiadające im wyniki ułożone zostały w sposób ułatwiający przeprowadzenie zabiegu kodowania czynników A i B). Tabelaa 13.22. Zakodowane dane (kodowanie ortogonalne) do przykładu 5. (4) (7) (0) (1) (2) (3) (5! (6) Lp. Grupy Zmienna Zmienna A Zmienna B Interakcja AB 1 2 4 zależna Y 3 5 2x3 1x3 1 25 1 1 1 1 1 2 a\b\ 1 1 1 1 22 1 3 19 1 1 1 1 1 4 1 1 1 1 23 1 5 18 -1 -1 1 1 -1 6 a\łn 16 1 1 -1 -1 -1 7 14 1 -1 -1 -1 1 8 15 1 1 -1 -1 -1 9 24 1 1 -1 1 -1 10 azb\ 20 -1 1 1 1 -1 11
12 13 14
aifri
15 16 17
18 19 20 21 22 24 Suma Średnia
a}b\
aiin
16 21 18 14 10 15 14 12 10 li 20 18 16 17
408,0000 17,0000 4,2324
-1 -1 -1 -1 -1 -i
1 1 1 1 1 1
0
-2
0 0 0
-2 -2
1 1 -1 -1 -1 -1 1 1 1 1
-2
-1
0
-2
0
-2
-1 -1 -1 0,0 0,0
0
-2
0 0,0 0,0
-2 0,0
-1
1
-1
1
J 1 1 1 0 0 0
-1 -1 -1
-1 -2 -2 -2
0 0
-2 2
0 0 0
2
0,8340 0,1724
0,0 1,1795 0,3840
1,0215 0,2614
0,0 .0,0 0,8340 0,0246
0,0297
0,1475
0,0683
0,0006
2 2 0,0 0,0
1,1795 0,6969 0,4857
tf=24.p = 3, q = 2, n=4, m = 5
399
Z tabeli 13.22 najważniejszy jest dla nas wiersz: Ąw . Zawiera on wartości kolejnych współczynników determinacji. Jak wiemy (wzór (13.110)): m
/&123 = zl *$m gdy zmienne są ortogonalne, tj. Ty = 0 (i>j). Ten warunek, dzięki zabiegowi kodowania ortogonalnego spełniają wszystkie wektory instrumentalne (1 - 5) podane w kolumnach (3) - (7) tabeli 13.22. A zatem: tfr.12345 = 0,0297 + 0,1475 + 0,0683 + 0,0006 + 0,4857 = 0,7318. Wyrażając wartość fly.12345 procentowo, otrzymujemy procent wariancji zmiennej Y wyjaśnionej przez liniową kombinację wszystkich wektorów: tfy.12345 x 100% = 85,55%. Z kolei wariancja resztowa wynosi: (1 - ^.12345) x 100% = 26,82% = var(yireszta). Dodając do siebie wartości współczynników Ą\ i Ą2 oraz Ą Ą ' Ą5 otrzymujemy — po przemnożeniu przez 100% — procentowe wielkości wariancji składowych Y wyjaśnionych przez czynnik A i interakcję AB: 7^ + ^2 = 0,0297 + 0,1475= 0,1772, Ą A + 4s = 0,0006 + 0,4857 = 0,4863, (4i + frz) x 100% = 17,72% = var(Y\A), ($4 + rre) x 100% = 48,63% = vaĄY\B). Współczynnik r^ x 100% = 0,0683 x 100% = 6,83% = var{Y\B). Przeprowadzone wyżej rozbicie wariancji całkowitej Y na poszczególne wariancje składowe — w postaci skondensowanej — przedstawione jest w tabeli 13.23. W kolumnie (3) tabeli 13.23 podano liczbę stopni swobody obliczoną według reguł: df dla /?KI2345 równe jest m, czyli ogólnej liczbie wektorów (m = 5); d/dla A równe jest p- 1, czyli liczbie wektorów odnoszących się do czynnika A (p-l) = = 3-1 = 2); df dla B równe jest q - 1, czyli liczbie wektorów odnoszących się do czynnika B (4- 1 = 2- 1 = 1); df dla reszty równe jest pq(n- 1), tu 3x2(4-1) = = 18; df dla całkowitej wariancji Y równe jest pqn ~ 1, tu 3 x 2 x 4 - 1 = 23. Kolumna (4) tabeli 13.23 zawiera wartości ilorazów powstałych przez podzielenie wielkości proporcji wariancji Y wyjaśnionej danym źródłem zmienności (tu A, B, AB, reszta) przez odpowiadającą mu liczbę stopni swobody (tu dfA, dfB, dfj^, ^/reszta)-
Wreszcie, kolumna (5) tabeli 13.23 zawiera wartości statystyki F otrzymane przez podzielenie wartości ilorazów: 400
J*
dla regresji, A, B, AB przez wartość
Tabel 13.23. Analiza wariancji a 13.22) lab.
JfiL Lp.
(2)
(3)
(4,
Proporcja wariancji Y wyjaśnionej przez dane źródło 0,7318 0,1772 0,0297 0,1475 0,0683 0,0683 0,4863 0,0006 0,4857 0,2682 1,0000
df
proporcja df
(11
Źródło wariancji Y
Regresja (R2) 2 czynnik A 3 wektor 1 (Dr^) 4 wektor 2 (r^) 5 czynnik B 6 wektor 3 (r^,) 7 interakcja AB 8 wektor 4 (ĄA) 9 wektor 5 (Ą5) 10 reszta (1 - R2) 11 cała 1
*p<0,05,
5
2
(5) F
0,1464 0,0886
9,825** 5,946*
0,0683
4,583*
0,2431
16,315*
1 1
1 1
2 1
1 18
0,0149
23
** /7<0,01,
; 1; 18 =' B;2; 18 = 3,55, ..5;
18 = 277,
ttazu:
dla regresji względem A, B i interakcji AB do danych z przykładu
f"o.oi i; 18 =8,29, ^0,01; 2; IS
=
6,01,
^0,01; 5; 18 =4,25.
proporcja
dla reszty (czyli dzielimy wiersze tabeli 13.23: 1:10, 2:10, 5:10, 7:10). Podana w kolumnie (5) w wierszu 1. wartość statystyki F informuje nas i istotności związku zmiennej Y z liniową kombinacją A, B, AB. Pod tabelą podane istały wartości krytyczne statystyki F dla dwóch poziomów istotności a tj. a= 0,05 io = 0,01. Możemy stwierdzić, iż zachodzi istotne powiązanie zmiennej Y z liniową ibinacją wszystkich źródeł zmienności rozważanych w badaniu (na a = 0,01). przypadku czynników A i B możemy odrzucić H o na poziomie er = 0,05, a w spadku AB na poziomie er = 0,01. Jaki nasuwa się tu wniosek merytoryczny, jeśli poważnie potraktować dane zaprezentowane w niniejszym przykładzie? Otóż, według wielkości wariancji skłaI dowych Y możemy utworzyć obraz struktury przestrzeni zmiennych istotnych dla Htu poziom osiągnięć szkolnych uczniów). Wygląda on następująco: O(SY): AB
df
AB,A AB, A, B
48,63%, 48,63%, 17,72%, 48,63%, 17,72%, 6,83%.
Zatem najbardziej istotna dla Y okazała się kombinacja stosowanej przez nauczyciela metody nauczania z jego doświadczeniem dydaktycznym. W dalszej kolejności istotna była metoda nauczania, a stosunkowo najmniej istotne było doświadczenie dydaktyczne nauczyciela. Stosunkowo wysoki udział wariancji resztowej. bo aż 26,82% wariancji Y, i przewyższający udział wariancji składowych A \B powinien zmusić badacza do krytycznej refleksji i do zastanowienia się nad
401
dodatkowymi źródłami wariancji Y, a tym samym nad wprowadzeniem do modelu MR nowych, dodatkowych zmiennych niezależnych i ich interakcji. Do tych samych rezultatów można dojść też za pomocą wymienionego wcześniej układu ANOVA. Przeprowadzone — według reguł podanych przez Brzezińskiego i Stachowskiego (1984, s. 190-221) — obliczenia doprowadziły nas do sumarycznej tabeli analizy wariancji (tabela 13.24). Tabela 13.24. Analiza wariancji dla układu ANOVA-KRG-Pg(n > 1)1 dla danych z przykładu 5. (0)
Źródło wariancji Y A B AB Reszta
Cała
* p < 0,05,= M1.05: 1; 18 ^0.05: 2; 18
=
4,41, 3,55,
(1) SS
73,0000 28,1667 200,3333 110,5000 412,0000 F
(2)
df 21 2 18
(3) MS
36,5000 28,1667 100,1666 6,1389
(4) F
5,946** 4,588* 16,317**
23
** p<0,01,
0.01
■;«= 8-
^0.01; 2:18 29 =
6,01, wartościami statystyki F, na trzecim miejscu po przecinku, powstały (Uwaga: różnice między na skutek ..zaokrąglania" obliczeń.)
Gdyby Czytelnik zechciał zapisać równanie regresji, to powinien przekształcić wartością? na cząstkowe współczynniki regresji bYw, pamiętając o tym, że w przypadku kodowania ortogonalnego mamy r Yw =fiYw (wartości r Yw zawiera tabela 13.22) i że bYw =j3yv(s/O; wartości sw też zawiera tabela 13.22. Współczynnik a, to tyle co ?... Jeszcze raz chciałbym przypomnieć, iż pojedyncza zmienna instrumentalna, np. T5, nie ma żadnego odniesienia do rzeczywistości. Także równanie regresji badacz może interpretować jedynie w kategoriach informacji pomocniczych, jakie niosą poszczególne współczynniki bYv. czy fi, a nie w kategoriach rzeczywistych (literalnych) powiązań między zmiennymi, którym one zostały przypisane, a zmienną zależną Y. Dlatego też niecelowe jest wypisywanie całego równania regresji (niekiedy obejmującego kilkadziesiąt zmiennych instrumentalnych) w przypadku rozwiązywania — za pomocą kodowania ortogonalnego w wersji ułatwiającej przeprowadzanie obliczeń (a taka tu została zaprezentowana) — problemu zwanego w modelu ANOVA układem czynnikowym (tu dwuczynnikowym) lub m-way classification (tu m = 2). 3.3.2 Analiza przykładu z wykorzystaniem kodowania quasi-eksperymentalnego Prezentowany w niniejszym punkcie sposób kodowania dwóch zmiennych jakościowych, w celu wprowadzenia ich (a także ich interakcji) do równania regresji liniowej, nie prowadzi tak prostą i stosunkowo łatwą (w sensie operacji obliczeniowych) drogą do informacji o wartościach liczbowych współczynników regresji, współczynnika korelacji wielokrotnej i statystyki testowej testu F, jak to było w przypadku omówionego w poprzednim punkcie kodowania ortogonalnego. Zalecam te402
dy kodowanie quasi-eksperymentalne przede wszystkim w tych przypadkach, w których można skorzystać z pomocy komputera osobistego. Sam sposób kodowania quasi-eksperymentalnego omówiony już został w pkt. : 3.2.2, a tabela 13.21 zawiera współczynniki przypisywane poszczególnym grupom porównawczym (o liczebności n) w kolejnych wektorach instrumentalnych Tu ..., Tg, za pomocą których można opracować w modelu MR układ dwuczynnikowy: 3x3; można go też opracować za pomocą modelu analizy wariancji jako układ: ANOVA-33(« > 1)1. I tak, wektory 1 i 2 reprezentują czynnik A = {ax, a2, aj}, wektory 3 i 4 reprezentują czynnik B= {bt, b2, b3}, a wektory 5, 6, 7, 8 reprezentują interakcję czynników A i B. Przykład 6. Przeanalizujemy jeszcze raz te same dane, co w przykładzie 5. Zatem wektor Y w tabeli 13.25 (kolumna 2.) będzie powtórzeniem tego samego wektora z tabeli 13.22. Tabel a
13.25. Zakodowane
JO dane(1) Lp. 1 : ; 4
Grupy a\b\
5 h
a\bi
~
aib\
(2)
Zmienna zależna Y 25 22 19 23 18 16 14 15
24 20 16 21
i:
18 14
a\bi
1 15 Ifi ■-
]8
mbi
W :: :: ;? '_>:*■ .i
■dni;
aibi
14 10 15 14 12 10 11 20 18 16 17
408,0000 17,0000 4,2324
(kodowanie (3)
liiasi-eksperymentalne) do przykładu 6. (4)
Zmiennna A
(5)
(6)
Zmienna B
1
2
3
1 1 1 1 1 1 1 1 0 0 0 0 0 0 0
0 0 0 0 0 0
1 1 1 1 -1 -1 -1 -1 I 1
0 -1 -1 -1 -1
0 0 1 1 1 1
1
1 1 -1
1 1 1
-1 -1 -1
-1 -1
1
(71
Interakcja AB 4 5 2x) 1 x3 1 1 1 1 -1 -1 -1 -1 0 0 0 0 0 0 0 0 -1 -1 -1 -1 1 1 1 1
0 0 0 0 0 0 0 0 1 1 1 1 -1 -1 -1 -1 -1 -1 -1
-1 -1 -1 0.0 0.0
-1 -1 -1 -1 0,0 0,0
1 1 1 -1 -1 -1 -1 0,0 0,0
0,0
1 1 1 1 0,0 0,0
0,83406 0,41876
0,83406 0,24633
1,02151 0,26147
0,83406 0,61583
0,83406 0,59120
0,17536
0,06068
0,06837
0,37925
0,34952
-1 _j
" 0,0
-1
=14. p=3,
403
Współczynniki regresji są następujące: bn = 2,00000, bYĄ = 2,16667,
a = 17,00000, bn= 1,08333,
^y.12345 = 0,73179,
bn = 0,25000, 6^=1,91667.
/?ri2345 = 0,85545.
Tabela 13.26 zawiera wyniki analizy wariancji z uwzględnieniem dwóch podstawowych źródeł wariancji Y: zmiennych pozostających w związku liniowym ze zmienną Y (regresja) i zmiennych poza regresją (reszta). Tabela 13.26. Analiza wariancji dla regresji Y względem A, B \ AB dla danych z przykładu 6. (tab. 13.25) (0) Źródło wariancji Y
(1)
(2)
(3)
(4)
SS
df
MS
F 9,823**
Regresja (R )
301,50000
5
Reszta {1-R 2 )
110,50000
18
412,00000
23
1
60,30000 6,13889
* p<0,05, Cała 0.05; 5; 18
** p<0,0\.
= 4,25. 0.01; 5 18
= 2,77,
Czytelnik zechce wrócić do tabeli 13.23 (wiersz 1.), aby przekonać się, że otrzymaliśmy tam — inną drogą — tę samą wartość statystyki testowej F. Wartość F mówi nam jedynie, że zarejestrowany związek Y z liniową kombinacją wektorów 1, 2, 3, 4, 5, reprezentujących czynniki A i B oraz ich interakcję AB, jest istotny statystycznie na danym poziomie er. Na tej jednak informacji nie możemy poprzestać. Chcemy wszak dowiedzieć się, czy istotny jest związek Y z A, Y z B i Y z AB, a także, jak wielki jest procent wariancji zmiennej Y wyjaśnionej przez poszczególne źródła zmienności. Musimy tedy dojść do takiej samej tabeli, jak tabela 13.23. Jednak w przypadku kodowania quasi-eksperymentalnego nie jest to tak proste, jak w przypadku kodowania ortogonalnego. Aby otrzymać informacje o procencie wariancji zmiennej Y wyjaśnionej przez poszczególne wektory instrumentalne 7"b ..., T5, musimy wyjść od następującego wzoru na #£.123..., który ujmuje wartość R2 jako sumę współczynników6: (a) determinacji Ąi oraz (b) determinacji semicząstkowej pozostałych wektorów r? -l-r2 -1-r2 * Xl ' ' I\Ł.\) ' ' I(i.ll)
j- r ......... ' I\m. i£.5.,Jfl—i)
D2
_ -2
I
-2
1 _2
_i_ j. *
f ] 3 124)
Drugi sposób obliczania wartości współczynnika determinacji semicząstkowej sprowadza się do porównania dwóch współczynników determinacji wielokrotnej — Czytelnik zechce zwrócić uwagę na fakt, iż wektory instrumentalne są w przypadku kodowania quasi-eksperymentalnego skorelowane w stopniu r = 0,50. Chcąc tedy poznać „czysty" wpływ zmiennej A (lub B) na Y, nie możemy odwołać się, jak w przypadku kodowania ortogonalnego (rfO, i>j), do porównania wielkości dwóch współczynników determinacji: KYA i KYB. Musimy tu oprzeć się na współczynnikach determinacji semicząstkowej — r Y(A.B) i ^Y{B.Ay
404
jednego obliczonego dla m wektorów (a więc obejmującego także dany, /-ty wektor), tj. /?Ki2...i...m» oraz drugiego, obliczonego dla m-1 wektorów (a więc nie obejmującego /-tego wektora), tj. V?
gdzie ((> wektor wykluczony ze zbioru m wektorów stanowiących łączne źródło (w sensie liniowej kombinacji) wariancji Y. Przystępując do obliczania proporcji wariancji zmiennej Y wyjaśnionej przez kolejne wektory instrumentalne — według pierwszego sposobu — musimy zwrócić uwagę na jedną ważną właściwość kodowania quasi-eksperymentalnego. Otóż wektory reprezentujące ten sam czynnik (tu A i B) oraz interakcję (tu AB) nie są ortogonalne (są skorelowane w stopniu r = 0,50). Natomiast wektory reprezentujące różne czynniki (np. jeden reprezentujący czynnik A i drugi reprezentujący czynnik B) nie są skorelowane (są ortogonalne!). Odwołując się do naszego przykładu
otrzymujemy: ru = r45 = 0,50, Tj3 — 7*23
=
^"\4 ~ ^"l5
=
^*24 ~~ ^25 ~~ ^"34 "" ^35 ~~ ">*-"■'-
Przejdźmy teraz do obliczenia proporcji wariancji zmiennej Y wyjaśnionej
przez kolejne wektory i czynniki. Krok a:
= 4i =0,17536, rn-Wn r Y ( 2 ,, = — n21) Vl-r? 2
(13.125)
ńnA*
0 , 2 4 6 3 3 - ( 0 , v4 1 8 7 6 X 0 . 5 0 0 0 0 ) _Ł n _ . _ . _ = —------z^r------- = 0,04267, Vi -(0,50000)^
03.126)
var{Y\we\aoT 2) = (0,04267)2 = 0,00182. Wektory 1 i 2 składają się na czynnik A. Zatem proporcja wariancji zmiennej y wyjaśnionej przez czynnik A jest sumą proporcji wariancji Y wyjaśnionej przez wektory 1 i 2, tj.: vaHY\A) = R2YA2 =Ąl + r^2A) = 0,17536 + 0,00182 = 0,17718
(13.127)
(por. kolumna (2), wiersz 2., tab. 13.23 — kodowanie ortogonalne danych z analizowanego przykładu). Krok b: vaK>1wektor 3) = r^ = 0,06837
.
(13.128)
Ponieważ wektor 3 jest jedynym wektorem reprezentującym czynnik B, więc: var(Y\B) = Ąi = 0,06837
(13.129)
(por. kolumna (2), wiersz 5., tab. 13.23 — kodowanie ortogonalne danych z analizowanego przykładu). 405
Krok c: vart U wektor 4) = Ą4 = 0,37925,
(13.130)
var(Y\wektor 5) — por. wzór (13.126),
(13.131)
_ ryg - r Y4 r 45 _ 0,59120 - (0,61583)(0,50QOO) _-„_-, r
Yd 41 ""
' '
(-------- T— ~~
~ 0,32711,
i--------------------- T
2
Vi-4
Vi-(0,5oooo)
4(5.4) = (0,32711)2 = 0,10700. Wektory 4 i 5 składają się na interakcję AB. Zatem proporcja wariancji zmiennej Y wyjaśnionej przez interakcję AB jest sumą proporcji wariancji zmiennej Y wyjaśnionej przez wektory 4 i 5, tj.: var\Y\AB) = R2YA5 = Ą4 + Ą{5A) = 0,37925 + 0,10700 = 0,48625
(13.132)
(por. kolumna (2), wiersz 7., tab. 13.23 — kodowanie ortogonalne danych z analizowanego przykładu). Krok d: var(ł1reszta) = 1 - tfy.12345 = 1 - 0,73179 = 0,26821
(13.133)
(por. kolumna (2), wiersz 10., tab. 13.23 — kodowanie ortogonalne danych z analizowanego przykładu). Postępując dalej analogicznie jak w przypadku kodowania ortogonalnego, tj. wykonując operacje z kolumn: (3)-(5) tabeli 13.23, otrzymamy identyczne rezultaty, jeśli chodzi o testowanie istotności poszczególnych czynników (A i B) oraz ich interakcji (AB), jak te, które zawiera tabela 13.23. Nie będę tedy przepisywał tych samych danych. Znając proporcje wariancji zmiennej Y wyjaśnionej przez poszczególne wektory instrumentalne, można obliczyć sumę kwadratów regresji dla każdego wektora instrumentalnego, a w konsekwencji i dla każdego czynnika i interakcji czynników. Mnożąc każdą proporcję wariancji wyjaśnionej zmiennej Y przez całkowitą sumę kwadratów (SSca|a), otrzymamy sumę kwadratów regresji dla każdego wektora. Przypominam, że SSca]a = 412,00. Zatem: SSregr(i) = SScdax var(>1wektor 1) = (412)(0,17536) = 72,24832,
(13.134)
SSreg.,2, = SScała x var(Y\we)aor 2) = (412)(0,00182) - 0,74984,
(13.135)
SSregr _iA) = SSregr(1) + SSrcgr<2) = 72,24832 + 0,74984 = 72,99816,
(13.136)
/
SSregr.(3) = SScataxvar(l lwektor 3) = (412)(0,06837) = 28,16844,
(13.137)
SSregr(B) = SSregr(3) = 28,16844,
(13.138)
.
SSregr.(4) = SScatax var(Mwektor4) = (412)(0,37925) = 156,25100, SS^ x vaĄY\wektor 5) = (412)(0,10700) = 44,08400,
(13.139) (13.140)
= SSregn(4) + SSregr.(5) = 156,25100 + 44,08400 - 200,33500, (13.141) SSreszta = SScalaxvar(ł1reszta) = (412)(0,26821) =110,50252. 406
(13.142)
Dzieląc poszczególne sumy kwadratów (SS^.^,, SSregr.w, S przez odpowiadające im liczby stopni swobody (obliczone tak samo, jak w tab. 13.23), otrzymujemy średnie kwadraty. Dzieląc średnie kwadraty dla A, B, AB przez MSreształ otrzymujemy wartości statystyk testu F. Są one takie same jak te, które zawiera tabela 13.23. Zatrzymajmy się jeszcze krótko przy drugim sposobie obliczania współczynników determinacji jako mierników proporcji wariancji zmiennej Y wyjaśnionej przez poszczególne wektory instrumentalne (a w konsekwencji i przez czynniki A, B oraz ich interakcję AB). Wykorzystany wyżej program komputerowy na regresję MULTIPLE REGRESSION, pochodzący z biblioteki SSP nie jest w tym przypadku przydatny, gdyż wykazuje on tylko jedną wartość współczynnika determinacji wielokrotnej, a mianowicie wartość /?y. 12345* 0- dla wszystkich predyktorów łącznie. Stosując jednak jakiś program na „regresję krokową", np. STEP-W1SE MULTIPLE REGRESSION z tej samej biblioteki SSP, otrzymujemy, po wykonaniu każdego kroku — polegającego na dodaniu nowego predyktora (tu wektora instrumentalnego 7"H.) do zbioru predyktorów już ujętych w modelu — wartość współczynnika tfy.i23..- Kolejne kroki w odniesieniu do naszego przykładu wyglądają następująco: krok /.: wektor 1 —^ krok 2.: wektor 1 + wektor 2 —^ Rl krok 3.: wektory 1, 2 + wektor 3 —^ ^y.i23< krok 4.: ff2 wektory I, 2, 3 + wektor 4 —^ "K1234* krok 5.: Y. 12345 • wektory 1, 2, 3, 4 + wektor 5 —^ A'Odejmując wartość ^KI23...H'+I uzyskaną w kroku w+\ od wartości uzyskanej w kroku w, otrzymujemy wartość proporcji wariancji zmiennej Y wyjaśnionej przez wektor instrumentalny wprowadzony do równania regresji liniowej w kroku w+ 1. Równa jest ona oczywiście wartości współczynnika determinacji semicząstkowej dla wektora wprowadzonego w kroku vv+ I, wskazującego „czystą" wariancję wspólną zmiennej Y i wektora wprowadzonego w kroku vv+ 1, „uwolnioną" od wpływów na Y tych predyktorów instrumentalnych, które były wprowadzone do równania regresji w kroku poprzednim: (w). Odwołując się do naszego przykładu spróbujmy porównać krok 1. i krok 2.: — w kroku 1. wprowadziliśmy wektor Ą\ =0,17536 (por. tab. 13.25), — w kroku 2. wprowadziliśmy wektor R\_\2 = 0,17718. Wykonując odejmo wanie mamy: -rh = 0,17718 - 0,17536 - 0,00182= Ą(2A). 407
Najlepiej dane z takiej analizy porównawczej przedstawić w tabeli sumarycznej, wzorowanej na tabeli 13.27. Tabela 13.27. Analiza porównawcza wartości współczynników determinacji w kolejnych krokach wprowadzania zmiennych instrumentalnych do równania regresji liniowej — do przykładu 6. (0) Lp.
Krok 1. Krok 2. Krok 3. Krok 4. Krok 5.
(1)
(2) P2
Wektory uwzględnione w kolejnym kroku
(3)
Różnica ^r.l2...u'+l ~RY.\2...W
1
rfc-0
1+2 1, 2 + 3 1, 2, 3, + 4 1, 2, 3, 4, + 5
K
Rfx23 ~ R-YM
^K.1234
"K.1234
^y. 12345
"K.12345 ~ *MM234
Y 123
+n
A
KI2'
(5.1234)
Proporcja wariancji zmiennej Y wyjaśnionej przez czynnik a (wektory: 1 + 2) równa jest Ry.n- Proporcja analogicznej wariancji wyjaśnionej przez czynnik B (wektor 3) równa jest r^ (gdyż tylko jeden wektor reprezentuje czynnik B\). Z kolei proporcja wariancji zmiennej Y wyjaśnionej przez czynniki A i B pozostające w interakcji (wektory: 4 + 5) równa jest ^,45. Takie „dzielenie" wariancji zmiennej Y usprawiedliwione jest wyżej podaną właściwością kodowania quasi-eksperymentalnego mówiącą, iż wektory reprezentujące poszczególne czynniki i ich interakcje są wzajemnie ortogonalne, czyli wektory należące do zestawów reprezentujących różne czynniki i interakcje nie są skorelowane, a wektory należące do tego samego zestawu reprezentującego ten sam czynnik są skorelowane w stopniu r = 0,50. Poszczególne współczynniki determinacji wielokrotnej możemy testować w dwojaki sposób. Bądź tak, jak pokazano w tabeli 13.23 (wiersze: 2., 5., 7., 10.), bądź też odwołując się do tzw. częściowego testu F p za pomocą którego ocenia się istotność zabiegu rozszerzania modelu regresji liniowej o nowe predyktory: (13.143)
^/licznik = Wl - W2,
4/tmanownik = N~W l -\,
W] — liczba wektorów dla współczynnika RY .\23... ° większej wartości, w 2 — liczba wektorów dla współczynnika ^.123... o mniejszej wartości. Chcąc dla przykładu testować istotność czynnika A, musimy obliczyć: (13.144) Ry. 12345 - ('T3 + Ry.45)*
WI = 5, 408
w2 = 3,
*'
(0,73179 - (0,06837 + 0,48625)): (5 - 3) (1-0,73179): (24-5-1)
^
X
Dla oceny istotności czynnika B musimy dokonać obliczenia: #.12345 -(«K12 + J#43), W\ = 5,
(13-145)
^2 = 4. Dla oceny
istotności interakcji AB musimy dokonać obliczenia: #12345" (#..2 + ^X
(13.146)
Czytelnik może — tytułem przykładu — obliczyć wartości statystyki F dla czynnika B i interakcji AB. Będą one takie same (z dokładnością do błędu wynikającego z zaokrąglania obliczeń po przecinku) jak te, które zawiera tabela 13.23. Przejdźmy teraz do omówienia reguł interpretacji równania regresji w przypadku wprowadzenia do niego obok czynników, także ich interakcji. W punkcie 3.2.2 przedstawiona została interpretacja równania regresji w przypadku wprowadzenia do niego jednej zmiennej jakościowej (w postaci m wektorów instrumentalnych). Przeprowadziliśmy wówczas analogię z interpretacją modelu liniowego jednozmienoowej analizy wariancji (model efektów stałych): ANOVA-KRG-/?(n > 1)1. W przykładzie aktualnie rozważanym nasuwa się analogia z modelem liniowym dwuczynnikowej analizy wariancji (model efektów stałych): ANOVA-KRG-/7^(n > 1)1. Struktura wyniku &-tej osoby badanej należącej do y-tej grupy porównawczej przedstawia się następująco (Brzeziński, Stachowski, 1984, s. 191): Yij^p + ai+Ą + aĄ + eąj),
(13.147)
gdzie: Y iJk — wynik fc-tej osoby badanej (k= 1,...,«) pochodzącej z y-tej grupy porównawczej (i=l .... p, j= 1,..., q)\ [i — średni wynik zmiennej zależnej w populacji; a, — efekt oddziaływania na zmienną zależną Y poziomu / czynnika A: Lai
=
0; fij — efekt oddziaływania na zmienną zależną Y poziomu j czynnika B:
=
^:
a
$j — efekt interakcji /-tego i j-tego poziomu czynników A i B:
Z X aifij= 0' eA(y) — Wąd eksperymentalny, którego rozkład w populacji jest norI =i i= i
I malny, ze średnią 0 i odchyleniem standardowym aE. W tabeli 13.28 podano — dla ułatwienia — zestawienie średnich i efektów tt
układzie dwuczynnikowym AxB. Oszacowaniem parametrów modelu 13.147
są: 409
T a b e l a 1 3 . 2 8 . Ś r e d n i e „k r a t k o we " , „w i e r s z o we " i „ k o l u mn o we " o r a z efekty główne czynników A i B w układzie dwuczynnikowym 3 x 2
A/B
y,-y
Ol
F,i
F,2.
«2
F2i.
F22.
«3
P31
F32.
f± Y,-Y
fi.
ri.-r.
F,.-r. h h
F2.-F. F*-F
7 F2.-F.
Możemy tedy (13.147) zapisać w postaci (13.153): Yijk = Y+ (%_ - 7) +
(Yj_ - F) + (fy - Ę.. - Yj_ + 7) + (F
(13.153)
Tak jak w przypadku pojedynczej zmiennej jakościowej wprowadzonej do równania regresji liniowej za pomocą kodowania ąuasi-eksperymentalnego, tak i tutaj współczynniki regresji 6n, byi, ... równe są efektom eksperymentalnym poszczególnych poziomów czynników A i B. Dokładniej, współczynniki bYU by^ równe są odchyleniu danej średniej grupowej (Y\ , Y2X dla której wektor instrumentalny (wektor 1 i 2) przyjmuje wartość 1, od średniej ogólnej Y, współczynnik bn równy jest odchyleniu średniej grupowej YA , dla której wektor instrumentalny (wektor 3) przyj(13.148) (13.149) (13.150) (13.151) (13.152) muje wartość 1, od średniej ogólnej Y . Jeśli chodzi o wielkość efektów eksperymentalnych /Mego poziomu czynnika A (tu trzeciego — a^) i
Podstawiając dane z naszego przykładu do tabeli 13.29, otrzymujemy tabelę średnich grupowych („kratkowych"), średnich brzegowych („kolumnowych" — dla p poziomów czynnika A i „wierszowych" — dla ą poziomów czynnika B) oraz efektów głównych: czynnika A, czynnika B (por. tab. 13.29). Tabela 13.29. Średnie „kratkowe", „wierszowe" i „kolumnowe" oraz efekty główne czynników A i B dla danych z przykładu 6. A/B b, Yj - ?.. F, 22,25 15.75 19,00 2,00
410
Mamy tedy: i, = *>„=* 2,
(13.154) £ 2 = ^ = 0,25,
(13.155)
a3 - -(a, + a2) = -(2 + 0,25) = -2,25,
(13.156)
^!=ftj3 = 1,08333,
(13.157)
$2 = -$! =-1,08333.
(13.158)
Wyznaczmy teraz wielkości efektów interakcji (-tego poziomu czynnika A ij-tego poziomu czynnika B. Stosując wzór (13.151) otrzymujemy:
możemy wyznaczyć poszczególne efekty interakcyjne. Zostały one zestawione w tabeli 13.30. Na przykład aj&, = 22,25 - 19 - 18,08333 + 17 = 2,16666.
A/B a\ Ol
Suma
Tabela 1330. Efekty interakcyjne: t$J, (i = 1, 2, 3,7-1,2) dla danych z przykładu 6. Suma b2 h 2,16667 1,91667 4,08333 0,00001
-2,16667 1,91667 4,08333 -0,00001
0,0 0,0 0,0
Gdyby różnica między średnią grupową (ł^) i średnią ogólną (F__) równa była sumie efektów /-tego i j-tego poziomu czynników A i B, znaczyłoby to, że nie występuje interakcja /-tego i j-tego poziomu czynników A i B. Przeanalizowanie tabeli 13.30 upoważnia do stwierdzenia, że żaden efekt interakcyjny nie jest zerowy. A zatem każdy wynik indywidualny musi być wyrażony w postaci sumy następujących składowych: ogólnej średniej, efektów głównych A i B, efektów interakcyjnych i reszty (błędu). W równaniu regresji interakcja AB reprezentowana jest przez dwa wektory: 4 i 5. Wektor 4 otrzymany zosta! przez pomnożenie wektora 1 przez wektor 3, a wektor 5 przez pomnożenie wektora 2 przez 3 (por. tab. 13.25). Wektor I przyjmuje wartości 1 dla grupy b\. Zatem współczynnik regresji bYA (związany z wektorem 4) związany jest z grupą a^b^ a dokładniej: = 2,16667.
(13.159)
Wektor 2 przyjmuje wartości 1 dla grupy a 2 , a wektor 3 przyjmuje wartości I dla grupy &,. Zatem współczynnik regresji bY5 (związany z wektorem 5) związany jest z grupą a2bu a dokładniej: = 1,91667.
(13.160)
411
Równanie regresji wygląda następująco: r = 2,0r I
+
0,25r 2 + l,08333r 3 + 2,16667r 4 + 1,91667^ + 17.
Po podstawieniu wyników każdej osoby do powyższego równania, otrzymujemy wyniki przewidywane (¥'). Na przykład osoba nr 5 z grupy a x b 2 o wyniku y121 = 18 (por. tab.24): r = 2,0(1) + 0,25(0) + l,08333(-l) + 1,91667(0) + 17, Y'i2i = 15,75,
Yl2l = 18, K121 - Y'Ui ■ 18 - 15,75 = 2,25.
Wynik każdej osoby badanej można rozbić na następujące składowe: (a) średnią ogólną, (b) efekt Mego poziomu czynnika A, (c) efekt ./-tego poziomu czynnika B, (d) efekt interakcji (-tego poziomu czynnika A i j-tego poziomu czynnika B, (e) resztę (Y - Y'). Na przykład wynik osoby nr 5 (Y U \ = 18) ma następujące składowe:
Y12i = 18,00. Analizę danych naszego przykładu można zakończyć skonstruowaniem tabeli reszt (wzorując się na tab. 13.15 — por. tab. 13.31). Wykorzystując tabelę 13.31, tabelę 13.29 (ostatnia kolumna i ostatni wiersz zawierają wielkości poszczególnych efektów czynnika A i B) i tabelę 13.30 (tabelę efektów interakcji /-tego i y-tego poziomu czynnika A i B) można przeprowadzić rozbicie każdego wyniku na jego składowe: (a) - (e) — tak jak wyżej przeprowadzone rozbicie wyniku osoby nr 5. Poszczególne wyniki Y^ wyrażone w postaci składowych modelu liniowego zamieszczone zostały w tabeli 13.32. Gdyby w naszym przykładzie okazało się, że istotne są tylko efekty główne czynników A i B, wtedy można by analizę statystyczną danych zakończyć na przeprowadzeniu testu wielokrotnych porównań (test Tukeya na przykład) średnich grupowych (dla czynnika A: Yx , F2 , F3 ; dla czynnika B: YA, Y2). Najistotniejsze jednak okazały się efekty interakcyjne: afij. To interakcja AB tłumaczy aż 48,6% wariancji zmiennej zależnej Y, gdy pozostałe czynniki wyjaśniają relatywnie mniejszy procent wariancji zmiennej Y— czynnik A tłumaczy bowiem 17,7%, a czynnik B jedynie 6,8%. Przeanalizowanie poszczególnych wierszy tabeli 13.32 pozwala nam na podkreślenie, iż spośród trzech składowych pojedynczego wyniku, tj.
poszczególnych poziomów czynnika B (B: bx, b2) i na odwrót, musimy analizować wpływ czynnika B na Y w kontekście poszczególnych poziomów czynnika A (A: ah a2, a?). Inna bowiem może być ocena wpływu na Y czynnika A, gdy czynnik B przyjmuje poziom b\, a inna, gdy czynnik B przyjmuje poziom 62- Podobnie rzecz może się przedstawiać z oceną istotności wpływu B na Y. Czytelnikowi obeznanemu z modelem ANOVA nieobce jest pojęcie interakcji czynników. Dobrze byłoby, aby Czytelnik zechciał w tym miejscu przypomnieć sobie te wiadomości, zaglądając np. do Brzezińskiego i Stachowskiego (1984, pkt. 4.3.2 Pojęcie i istota interakcji pxq, s. 192-218). Tabela 13.31. Tabela reszt do przykładi (0) (1) (2) Y ijk Lp. Grupy
6. (3)
1
25
2 3
22 19
64 25 4
4
23
36
5
18
1
6
16
1 9
7
14
8
15
4
9
24
49
1 10
20
9
11
16
1
n
21
16
1?
18
1
14
14
9
15
10
49
16
15
4
i
17 18
a3bx
14
9
12
25
12019
10
49
11
36
:.
20
9
18
1
;;
16
1
24
17
0
408
412
22
Suma
<*ib2
(4)
(YUk-yy 22,25 22,25 22,25 22,25 15,75 15,75 15,75 15,75 20,25 20,25 20,25 20,25 14,25 14,25 14,25 14,25 11.75 11,75 11,75 11,75 17,75 17,75 17,75 17,75
(5)
(6)
(Y'ijt-Y.J2
o^-IV2
27,5625 27,5625 27,5625 27,5625 1,5625 1,5625 1,5625 1,5625 10,5625 10,5625 10,5625 10,5625 7,5625 7,5625 7,5625 7,5625 27,5625 27,5625 27,5625 27,5625 0,5625 0,5625 0,5625 0,5625 301,5000
7,5625 0,0625 10,5625 0,5625 5,0625 0,0625 3,0625 0,5625 14,0625 0,0625 18,0625 0,5625 14,0625 0,0625 18,0625 0,5625 5,0625 0,0625 3,0625 0,5625 5,0625 0,0625 3,0625 0,5625 110,500
tumy kolumn (3), (S), (6) to odpowiednie sumy kwadratów SS,«.. SS^iajŁ SSmni (analogicznie jak w tab. 13.26)
Zanim przejdziemy do analizy efektów interakcyjnych afij, zobaczmy wpierw, jaka jest konfiguracja średnich grupowych Tg. Została ona przedstawiona na rys. |3.8ai 13.8b. 413
Tabela 13.32. Składowe wyniku (0) Y (1) (2) Lp.
jk
(według modelu liniowego) do przykładu 6. (3)
(4)
Grupy
Yijk
T...
A
17
axbx
25 22
17
2 2
3
19
17
2
4
23
17
2
5
18
17
2
16
17
2
7
14
17
8
15
9
24 20
11
(5)
(6)
A1,08333
(7)
r*-rm 1
1,08333
2,16667 2,16667
1,08333
2,16667
-3,25
1,08333
2,16667
0,75
-1,08333
-2,16667
2,75
2
-1,08333 -1,08333
-2,16667 -2,16667
0,25 -1,75
17
2
-1,08333
-2,16667
-0,75
17 17
0,25 0,25
1,08333 1,08333
1,91667 1,91667
3,75 -0,25
16
17
0,25
1,08333
1,91667
-4,25
12
21
17
0,25
1,08333
1,91667
0,75
13
18
17
0,25
-1,08333
-1,91667
3,75
14
17
0,25
-1,08333
-1,91667
-0,25
15
10
17
15
17
-1,08333 -1,08333
-1,91667 -1,91667
-425
16
0,25 0,25
17
14
17
18
12
17
-2,25 -2,25
1,08333 1,08333
4,08333 4,08333
2,75 0,25
19
10
17
-2,25
1,08333
4,08333
-1,75
20
11
17
-2.25
1,08333
4,08333
-0.7?
21
20
17
22
18
17
-2.2? -2,25
-1,08333 -1,08333
-4,08333 ^,08333
2,75 0,25
23
16
17
-2,25
-1,08333
^,08333
-1,75
24
17
17
-2.25
-1,08333
^,08333
-0,75
1
2
6
10
14
axb2
a2b}
a2b2
73
n
2,75 -0,25
0.7?
28 ] 664 n
■ Z «? ■ '°- Łfij " X (W = 200,33328
- X
Już tylko pobieżny rzut oka na rysunek 13.8 umacnia nas w przekonaniu, że nie można interpretować efektów głównych czynnika A bez względu na to, jakie wartości przyjmuje czynnik B. Mówiąc inaczej, chcąc interpretować — bez zafałszowania opisanej w danych z badania psychologicznego rzeczywistości — efekty główne czynnika A, musimy „rozbić" naszą interpretację na tyle „części", ile poziomów liczy czynnik B (tu 2 poziomy). Musimy tedy postępować tak, jak gdyby to były dwa badania z pojedynczą zmienną niezależną (tu A) — jedno przeprowadzone w warunkach bh a drugie przeprowadzone w warunkach b2. Średnie grupowe: Fu, Y2\., F3i połączone jedną linią oznaczoną jako bx tworzą profil wpływu czynnika A na Y, gdy czynnik B występuje na poziomie b 2 . Podobnie wykreślono profile obrazujące wpływ czynnika B na Y przy ustalonych poziomach czynnika A: a t , a 2 , a 3 . Gdyby wykreślone na rys. 13.8 profile 414
(a)
(b)
Rys. 13.8. Profile efektów prostych: (a) A I bf, (b) B I o,
miały przebiegi równoległe, wtedy byłoby to oznaką braku interakcji A x B. „Przebiegi" nierównoległe czy wręcz krzyżujące się (jak w naszym przypadku) obrazują występowanie efektów interakcji czynników A i B. Spójrzmy na przykład na rys. 13.8 b. Jeżeli czynnik B przyjmuje wartość £>,, to osoby badane uzyskują najniższą średnią wyników Y w warunkach a3. Znacznie lepsze wyniki osoby badane osiągają f warunkach a2\ ax. Jeżeli jednak czynnik B występuje na poziomie b2, to okazuje się. że warunki a3 nie tyJko nie są najgorsze, ale są ... najlepsze. W następnej kolejności występują warunki ax i a2. Także rozstęp między średnimi grupowymi na poziomie b2 jest dużo mniejszy niż na poziomie b{. Gdyby uporządkować waritości A ze względu na wysokość średnich grupowych K«, raz na poziomie b t czynnika B, a drugi raz na poziomie b2 czynnika B, wtedy mielibyśmy dwa odmienne uporządkowania: dla b\ — a^, a3 oraz dla b2 — a3, ax, a2. Podobnie rzecz się przedstawia w przypadku efektów czynnika B na poszczególnych poziomach ;z\nnika A. I tak, jeśli chodzi o poziom ah to mamy uporządkowanie: fci, b2, aalogicznie jest w przypadku poziomu a2, ale już na poziomie a3 mamy uporządhwanie odmienne: b2, bx. Zamiast tedy zatrzymywać się na analizie efektów głów-kh czynników A i B, musimy w analizie statystycznej danych pójść jeszcze krok (dalej i dokonać oceny efektów czynnika A na poszczególnych poziomach czynnika 415
B, tj. A/bi, A/b 2 oraz oceny efektów czynnika B na poszczególnych poziomach czynnika A, tj. Blax, Bia2, Bla^. Używając terminologii analizy wariancji, będziemy mówili o efektach prostych: A/bj oraz Bla,. Profile przedstawione na rys. 13.8a i 13.8b stanowią graficzny obraz efektów prostych. Poprzednio dokonaliśmy rozbicia całkowitej sumy kwadratów (SS ca[a ) na dwie części składowe: SSregresja i SSreszta SSregresja możemy rozbić na trzy składowe: sumę kwadratów dla czynnika A (SS^), sumę kwadratów dla czynnika B (SSS) oraz sumę kwadratów dla interakcji (SSAfi). Tabela 13.24 pokazuje owe rozbicie dokonane w ramach modelu ANOVA. Rzecz jasna, iż rozbicie dokonane w ramach modelu MR musi doprowadzić do tych samych rezultatów. Najprościej sumy kwadratów można otrzymać z danych zawartych w tabeli 13.32. Podnosząc poszczególne wielkości efektów: cc,, fij, a,-jy,- do kwadratu i następnie sumując, otrzymujemy wartości odpowiednich sum kwadratów. Zostały one zapisane u dołu tabeli 13.32 w postaci wyrażeń:
£ (13.162)
(13.163) Można też odpowiednie sumy kwadratów uzyskać metodą już wyżej pokazaną, tj. mnożąc SScała przez proporcję wariancji zmiennej Y wyjaśnioną przez poszczególne wektory instrumentalne. Otrzymane w ten sposób sumy kwadratów dla kolejnych wektorów instrumentalnych dodajemy do siebie (1 + 2, 3,4 + 5) i otrzymujemy sumy kwadratów dla poszczególnych czynników i ich interakcji. Czytelnik dokona wyboru metody według własnego uznania. Ponieważ efekty interakcyjne afij są istotne statystycznie, więc dokonamy kolejnego rozbicia SSregreSja — tym razem na sumy kwadratów SS^ i SSgia.. Sumarycznie, rozbicie całkowitej sumy kwadratów przedstawione jest na rys. 13.9. Wartości sum kwadratów SSA)fe. oraz SS^ obliczono na podstawie danych zawartych w tabelach 13.33 i 13.34.
(0)
(1)
b2
BA fli
Suma
416
Tabela 13.33. Dane pomocnicze do obliczania wartości: SS^ \b, — do przykładu 6. (2)
69,44456 18,77784 160,44428 248,66668
0,11112 11,11116 13,44440 24,66668
(13.161)
(412)
Rys. 13.9. Rozbicie całkowitej sumy kwadratów na cząstkowe sumy kwadratów — dane z przykładu 6.
Obliczenia, których rezultaty zostały zawarte w tabeli 13.33, wykonane zostały na podstawie danych z tabeli 13.32 (kolumny (4) i (6)). Na przykład dla kombinacji fli^i mamy:
4(2 = 2,16667)2 = 4(17,36114) = 69,44456. Dla sprawdzenia:
f
(13.164)
248,66668 + 24,66668 = 73 + 200,33328, 273,33336 = 273,33328. 417
(0)
Tabela 13.34. Dane pomocnicze do obliczania wartości SSĄS&J — do przykładu 6. (2) (3)
(1)
AB
*$, + a,jł,)2
h
42,25 42,25
Suma
84,50
*i
*$, + &? b2
36 36 72
36 36 72
Obliczenia, których rezultaty zostały zawarte w tabeli 13.34, wykonane zostały na podstawie danych z tabeli 13.32 (kolumny (5) i (6)). Na przykład dla kombinacji a,b t mamy: 4(1,08333 + 2,16667)2 = 4(10,5625) = 42,25. Dla sprawdzenia: (13.165) 84,5 + 72 + 72 = 28,1664 + 200,33328, 228,5 = 228,49968. Stopnie swobody dla poszczególnych efektów prostych równe są stopniom swobody dla poszczególnych czynników — odpowiednio dla A i B. I tak dfjjb = 2, dfB/a = 1. Dzieląc sumy kwadratów przez odpowiadające im liczby stopni swobody, otrzymujemy średnie kwadraty dla efektów prostych. Średni kwadrat dla reszty (MSreszta) jest taki sam, jak w tabeli 13.26, tj. MSreszla= 110,5 : 18 = 6,13889. Wyniki analizy wariancji efektów prostych zawiera tabela 13.35. Wartości statystyki testowej testu F zamieszczono w kolumnie (4) tabeli 13.35. Informują one o tym, iż wszystkie efekty proste Bia{ są istotne, chociaż — jak to pokazują profile wykreślone na rys. 13.8 b — kierunek różnic między średTabela 1335. Analiza wariancji efektów prostych A\bj i (0) Źródło wariancji Y
(1)
(2)
SS
dane z przykładu 6. (3)
(4)
df
MS
Mb,
248,66668
2
124,33334
20,25**
A\b2
24,66668 84,50000 72,00000 72,00000 110,50000
2
12,33334 84,50000 72,00000 72,00000 6,13889
2,01 13,76** 11,73** 11,73**
«a, B\a3
Reszta * ^0,05; 1; 18 ^0,05; 2; 18
418
= 4,41, = 3,55,
**p<0,01 fO.Ol;2;18-6,Ol.
1 1 1 18
F
nimi na poziomach czynnika A: ax i a2 jest odmienny od kierunku różnicy między średnimi na poziomie czynnika A:
Fii. rel="nofollow"> fia.,
F21. > F22,
ale: F 3I . > F 32 ,
(a,/>i) (axb2) (a2b,) (a2b2) (a3bt) (a3b) Natomiast w przypadku efektów prostych A\bj istotny statystycznie jest tylko efekt prosty A\b}. Kierunek różnic między średnimi {por. rys. 13.8 a) na poziomie czynnika B: bx jest następujący: u. > Y2L > F31 Różnica Tn^ — T21. J est najmniejsza (2 pkt.). Różnica 7 n -F 31 jest największa (10,5 pkt.). Różnica Y21, —Y31. Jest pośrednia (8,5 pkt.). Rodzi się kolejne pytanie: Które z przytoczonych trzech różnic między średnimi „kratkowymi" są istotne na danym poziomie er? Czy pierwsza, czy druga, czy też trzecia? Może wszystkie, może dwie, a może tylko jedna z nich? Aby na to pytanie — już ostatnie w analizie danych — odpowiedzieć, musimy odwołać się do jakiegoś testu wielokrotnych porównań między średnimi „kratkowymi". Zastosujmy znany już nam test Tukeya (por. pkt 3.2.2). Do porównania mamy trzy średnie FM, Y2\,, F31,: D, = (1)FU. + (-1)F31 = 22,25 - 11,75 = 10,5, D2 = (1 )F2L + (-I)F3L = 20,25 - 11,75 = 8,5, Di = (1)F1L + (-1)F2L = 22,25 - 20,25 - 2,0. Wartość statystyki Q-Tukeya obliczamy ze wzoru (Kirk, 1982, s. 116):
Jil~Yn- >
(13.166)
gdzie: MSre;,zto = 6,13889 (z tab. 13.35); n — liczebność /-tej grupy porównawczej (tu n = 4). Krytyczną wartość statystyki Q znajdujemy w tab. D — Brzeziński, Stachowski. 1984, s. 416-417. Wyznaczają ją dwa parametry: (1) liczba porównywanych frednich równa: pq = 3 x 2 = 6 oraz (2) liczba stopni swobody równa: dfvcszVi , tj. W < n l ) = 1 8 . Przyjmując poziom istotności a=0,05, otrzymamy następującą wartość krytyczną Q: ; l 8 =4,49. Uznajemy daną różnicę między dwiema średnimi za istotną na poziomie a = 0,05,
W 121 ^ QaPrzeprowadźmy teraz niezbędne obliczenia: -2,0, 419
4 (6,13889)
Decyzje dotyczące porównań: 10,1 > 4,49, \Q2\ > 4,49, \Q3\ < 4,49. Wniosek: na poziomie istotności a = 0,05 zarejestrowano istotne różnice między średnimi YXL i F31 oraz 72X i Y*$x. Za pomocą testu Tukeya można testować istotność różnic między średnimi brzegowymi, tj. między średnimi wartościami zmiennej zależnej w grupach o różnych wartościach czynnika A, a następnie w grupach o różnych wartościach czynnika B. W naszym przykładzie byłyby to porównania: \Si)
U-$ — I\ — i 2 , LJ 2 = i 2 — /3 , LJ X = 11 — /3 ,
(b) D = 7A-Y2. Porównania (a) i (b) testujemy tylko wówczas, gdy główne efekty czynnika A i B są istotne i nie stwierdzono istotności efektów interakcyjnych. Konstrukcja wzoru na Q nie ulega zmianie w przypadku porównań typu (a) i (b). Odpowiednie wzory mają postać (Kirk, 1982, s. 364-365): ad. (a): Yj..-Yr.. Q~ ' =» df-pq(n-1), liczba średnich =p; (13.167) nq ad. (b): _ Yj-Yf.. Q~ ■ ' df=pq(n- 1), liczba średnich = ^. (13.168) V tl-p
MS
reszta
Uznajemy daną różnicę między dwiema średnimi brzegowymi za istotną na danym poziomie a, jeżeli \Q\ s* Qa Mimo, iż stosowaliśmy test Tukeya do porównań średnich „kratkowych" (analiza istotnego prostego efektu A\b\, gdyż istotne okazały się efekty interakcyjne afij — por. tab. 13.35), to jednak — tytułem ćwiczenia — przeprowadzimy obliczenia Q dla porównań średnich brzegowych czynników A i B: — dla porównań typu (a): Di = 19-14,75 = 4,25, D2= 17,25 - 14,75 = 2,5 D} = 19- 17,25 = 1,75, 01 = (6,13889)
00,05; 3; 18 ~ 3,61.
420
Decyzje dotyczące porównań: IQ,I>3,61, I
2 16
' =3,02, /3 (6,13889) 00,05; 2; 18 = 2,97.
Decyzje dotyczące porównania: \Q\ > 2,97. Wniosek: z poszczególnych porównań między średnimi brzegowymi: D_) ^2..' *3,. istotna statystycznie okazała się tylko jedna różnica, tj. 7^ - F3 . Z kolei porównanie Y\_ - Y.2. także okazało się istotne na poziomie ct= 0,05. Czytelnik zechce sam sprawdzić, że przy a =0,01 żadne porównanie w obrębie czynnika A i czynnika B nie jest istotne. Do tego samego wniosku prowadzi lustracja kolumny (4) w tab. 13.24. Wartości krytyczne FOiOi dla efektów głównych przewyższają wartości F efektów głównych, a zatem nie można uznać tych efektów za istotne na poziomie a = 0,01. Interpretacja wyników przykładu. Spróbujmy teraz podsumować otrzymane w kolejnych krokach analizy informacje o wpływie czynników: „stosowana przez nauczyciela metoda nauczania" (czynnik A: ax — metoda problemowa-indywidualna, a2 — metoda problemowa-zespołowa, a3 — metoda nauczania programowanego), „doświadczenie dydaktyczne nauczyciela" (czynnik B: bt — długoletnie doświadczenie, piętnastoletnie, b2 — krótkie doświadczenie, pięcioletnie) i ich interakcja na poziom osiągnięć szkolnych uczniów pierwszej klasy szkoły podstawowej (zmienna zależna Y). Ponieważ współczynnik determinacji wielokrotnej /?y. 12345 jest istotny statystycznie na a = 0,01 (/r>F0,oi — por. tab. 13.26), więc możemy powiedzieć, iż zachodzi powiązanie zmiennej Y z liniową kombinacją czynników A i B oraz interakcji AB. Aż 73% wariancji zmiennej Y (osiągnięć szkolnych) wyjaśnia liniowa i kombinacja: A, B, AB. Dalsza analiza pokazała, iż istotne na poziomie er =0,05 okazały się oba czynniki: A i B, a na poziomie cr=0,01 — interakcja tych czynników (por. tab. 13.23 lub tab. 13.24 — te same wyniki uzyskane za pomocą JOVA). Rozbijając całkowitą wariancję zmiennej zależnej na wariancje składo-I dowiedzieliśmy się, iż największy jej procent (bo aż 48,6) wyjaśnia interakcja )sowanej przez nauczyciela metody nauczania z jego doświadczeniem dydaktylym. Natomiast czynnik stosowanej metody wyjaśnia 17,5% wariancji poziomu siągnięć szkolnych uczniów, a czynnik doświadczenia dydaktycznego nauczyciela 421
wyjaśnia zaledwie 6,8% wariancji Y. Pozostałe 26,8% wariancji Y nie zostało w tym, tylko dwuczynnikowym, badaniu wyjaśnione. Powinno to zdopingować badacza do powtórzenia badania wzbogaconego o trzecią, a może i o czwartą zmienną niezależną, aby zminimalizować owe 26,8% wariancji resztowej zmiennej zależnej. Ponieważ istotne są efekty interakcyjne (afij) — i to znacznie bardziej istotne niż efekty główne czynników (a^pj) — więc nie można poprzestać na analizie wyżej przeprowadzonej. Można bowiem domniemywać, iż to, jaki jest wpływ stosowanej przez nauczyciela metody nauczania na wyniki osiągnięć szkolnych uczniów, uzależnione jest od tego, jak długim stażem pracy dydaktycznej legitymuje się nauczyciel. Nie będziemy tedy poprzestawać na interpretacji efektów głównych, ale musimy przeprowadzić interpretację efektów prostych. Mówiąc inaczej, musimy zobaczyć, jaka jest charakterystyka wpływu czynnika A na zmienną zależną, raz przy wartości bf czynnika B, a drugi raz przy wartości b2 tego czynnika. Podobnie musimy przeanalizować wpływ czynnika B na Y. Aby ułatwić przeprowadzenie tej analizy, na rys. 13.8 a i b wykreślono profile efektów prostych: Alty oraz fila,-. Wykreślono je opierając się na tabeli 13.29. Ocena istotności poszczególnych efektów prostych (via test F) upoważnia nas do stwierdzenia, że istotnie różne wyniki osiągnięć szkolnych uzyskano w grupach uczniów nauczanych przez nauczycieli o długim stażu pracy (B: b t ); przy czym najkorzystniejszy — z punktu widzenia zmiennej zależnej — okazał się układ wartości a^b], tj. połączenie metody nauczania problemowej-indywidualnej z długoletnim doświadczeniem dydaktycznym nauczyciela, a najmniej korzystny okazał się układ wartości a3bh tj. połączenie metody nauczania programowanego z długoletnim doświadczeniem dydaktycznym. Także korzystny, ale nieco mniej, okazał się układ wartości a2bh tj. połączenie metody nauczania problemowo-zespołowej z długoletnim doświadczeniem dydaktycznym. W świetle wyniku testu F efektu prostego A\b2, obserwowane na rys. 13.8a zróżnicowanie wewnątrzprofilowe jest pozorne. Nie można powiedzieć, że grupy nauczane przez nauczycieli o tym samym krótkim doświadczeniu dydaktycznym (B: b2) różnią się pod względem przeciętnego poziomu osiągnięć szkolnych w zależności od stosowanej przez nauczyciela metody nauczania (a, lub a2 lub a3). Zostańmy jednak jeszcze przy interpretacji efektu prostego A\b\. Co to znaczy, że grupy uczniów nauczane trzema różnymi metodami przez nauczycieli o tym samym doświadczeniu dydaktycznym różnią się, jeśli chodzi o poziom osiągnięć szkolnych? Musimy odpowiedzieć na już ostatnie pytanie: Czy istotnie różni się średni poziom osiągnięć szkolnych uczniów z grupy a\bx od średniego poziomu osiągnięć uczniów z grupy a2bt, czy istotnie różnią się średnie grup axb\ i a3fc], czy też średnie grup a2b\ i aijb{t. W przypadku większej od dwóch liczby poziomów czynnika A (u nas trzy) informacje, że efekt prosty A\b} jest istotny na danym poziomie a są niewystarczające. „Istotny" może tu bowiem znaczyć, że „istotne" jest jedno porównanie, albo że „istotne" są dwa porównania, albo też, że „istotne" są wszystkie trzy porównania. Przeprowadzona, za pomocą testu wielokrotnych porównań między średnimi Yn , Y2\., Y^, analiza porównań wykazała, że istotnie różnią się (zarówno na poziomie a = 0,05, jak i na poziomie a -0,01) średnie „kratkowe" Pn. i F31 oraz Y2\_ i Yi} . Zatem nie zarejestrowano istotnych różnic między średnimi 422
wynikami osiągnięć szkolnych uczniów nauczanych przez nauczycieli o krótkim doświadczeniu dydaktycznym, stosujących metodę nauczania problemowego-indywidualnego i problemowego-zespołowego. Jednak każda z tych dwóch grup istotnie różni się od trzeciej grupy, w której nauczyciele stosowali metodę nauczania programowanego. Analiza rys. 13.8b pokazuje, iż najlepsze wyniki osiągali uczniowie nauczani przez nauczycieli o długoletnim doświadczeniu dydaktycznym stosujących metody: problemową-indywidualną i problemową-zespolową (por, profile at i a2 ) — przy czym lepsze wyniki dydaktyczne osiągają nauczyciele bardziej doświadczeni (B: bx), Z kolei lepsze rezultaty dydaktyczne osiągają nauczyciele mniej doświadczeni [B: a 2 ) w przypadku stosowania metody nauczania programowanego (por. profil fl3). W przypadku nauczycieli bardziej doświadczonych stosowane przez nich metody nauczania można uporządkować według efektywności następująco: problemowa-indywidualna, problemowa-zespołowa i nauczanie programowane; przy czym ta ostatnia metoda mocno „odbiega" od dwóch pozostałych. Natomiast porządek metod w przypadku nauczycieli mniej doświadczonych dydaktycznie jest odmienny: nauczanie programowane, problemo we-indy widualne, problemo we-zespołowe. Zróżnicowanie efektywności stosowanych metod jest tu nieistotne (por. wyżej przeprowadzoną analizę efektów prostych: A\bj). Bardziej dociekliwy Czytelnik może jeszcze zająć się interpretacją poszczególnych indywidualnych wyników pod kątem składowych, na które można je rozbić, tzn. względnego udziału w nich składowych odpowiadających poszczególnym efektom (Xj,Ą,aĄ i reszcie (por, tab. 13.32).
3.3.3. Interakcja miedzy zmiennymi jakościowymi a kodowanie zero-jedynkowe Pozostało nam jeszcze omówienie trzeciego systemu kodowania, kodowania zero-jedynkowego w kontekście wprowadzania do modelu MR interakcji zmiennych jakościowych. Kodowanie zero-jedynkowe jest najbardziej uciążliwe, jeśli chodzi o kodowanie interakcji. Nie ułatwia obliczeń tak znacznie, jak kodowanie ortogonalne, a równanie regresji tą metodą otrzymane nie jest tak bliskie — w sensie interpretacyjnym — modelu ANOVA, jak równanie regresji otrzymane za pomocą kodowania quasi-eksperymentalnego. Najważniejszym powodem, dla którego system kodowania zero-jedynkowego nie jest rekomendowany w przypadku analizowania układów czynnikowych, jest skorelowanie wektorów reprezentujących czynniki z wektorami reprezentującymi interakcję czynników (Pedhazur, 1982, s. 369). Jak pamiętamy, w przypadku kodowania ortogonalnego wszystkie wektory były nieskorelowane, a w przypadku kodowania quasi-eksperymentalnego skorelowane były tylko wektory czy to w obrębie czynnika, który reprezentowały, czy też w obrębie interakcji, którą reprezentowały. Nie występowała natomiast korelacja między wektorami reprezentującymi różne czynniki, czy wektorami reprezentującymi czynniki i interakcję. W przypadku kodowania zero-jedynkowego nieskorelowane są tylko wektory reprezentujące różne czynniki, ale już wektory reprezentujące jakiś czynnik i interakcję są skorelowane. 423
O ile w przypadku kodowania quasi-eksperymentalnego można było napisać (żeby pozostać przy naszym poprzednim przykładzie): ^ K12345
= R
Y.12 + 'T.?
+
^1 Y45-
(13.169)
o tyle kodowanie zero-jedynkowe nie upoważnia nas do tego. Jest bowiem: Ry.12345 * Ry.n + H3 + RYA5*
(13.170)
co wynika stąd, że między wektorami 1, 2 oraz 3 i między wektorami 4, 5 zachodzi korelacja (nie występowała ona, gdy wektory były skonstruowane metodą kodowania quasi-ekspery mentalnego). Chcąc tedy obliczyć wartości współczynników determinacji, musimy postępować tak, aby uwolnić się od wspomnianej interkorelacji między wektorami. I tak, wartości współczynników determinacji obliczamy jak niżej:
Podobnie musimy postąpić w przypadku układu dwuczynnikowego (A: alt a2, a3; B: bu b2, b3), przedstawionego w tabeli 13.20. Czynnik A jest tam reprezentowany przez wektory 1 i 2, czynnik B przez wektory 3 i 4, a interakcja AB reprezentowana jest przez poszczególne jej źródła; musimy postąpić jak wyżej: czynnik A: czynnik B:
«K12i
interakcja AB:
^y.12345678 ~ (^K12 + ^YMX
reszta: A, B, AB:
*K34,
1
-^y.12345678'
^K.12345678-
Oczywiście, to co przedstawia trudność dla badacza posługującego się skromnymi środkami z zakresu techniki obliczeniowej, nie stanowi problemu dla badacza dysponującego komputerem. Trzeba jedynie pamiętać o tej niedogodności związanej z kodowaniem zero-jedynkowym. Pozostałe właściwości kodowania zero-jedynkowego są takie same — w przypadku układu czynnikowego — jak opisane w pkt. 3.2.1. Nie będę tutaj jeszcze raz przeliczał tego samego przykładu, gdyż otrzymalibyśmy i tak te same wyniki. Czytelnik mógłby — tytułem ćwiczenia — sam opracować dane z przykładu 5. w systemie kodowania .zero-jedynkowego7 . Dla ułatwienia pracy podaję wartości współczynników korelacji zmiennej Y z poszczególnymi wektorami instrumentalnymi oraz wartości współczynników regresji: r n = 0,34133, r K = 0,04267, r n = 0,26147, r Y 4 = 0,56667, r n = 0,35080; b n = -2,0, b n = -3,5, b n = -6,0, b Y Ą = 12,49999, b n = 11,99999; a =17,75.
424
3.4. Kodowanie interakcji wielu zmiennych jakościowych Rzecz jasna, do równania regresji liniowej można wprowadzić więcej niż dwie zmienne niezależne. Jeżeli mamy trzy zmienne (czynniki) jakościowe, to powstaje problem zakodowania interakcji: (a) trzech interakcji pierwszego rzędu AB, AC, BC i (b) jednej interakcji drugiego rzędu ABC. Rozpatrzmy przykład układu trójczynnikowego, w którym każdy czynnik będzie przyjmował trzy wartości: A = {aXt a2, 03}, B={b h b 2 , b$}, C={c\, c 2 , c 3 }. Układ taki można opracować za pomocą analizy wariancji jako układ: ANOWA~pqri_n > 1)1 albo w ramach modelu MR. Liczba niezbędnych wektorów instrumentalnych, które trzeba skonstruować, aby możliwe było opracowanie tego układu za pomocą regresji liniowej, równa jest sumie liczby stopni swobody dla czynników i ich możliwych interakcji albo inaczej pqr-\: źródło wariancji:
liczba wektorów:
df
Razem
26
Poszczególne interakcje kodujemy w ten sposób, że mnożymy wektory repre;ntujące jeden czynnik przez wektory reprezentujące drugi czynnik wchodzący tym pierwszym w interakcję. Na przykład interakcja AB reprezentowana jest iz wektory: czynniki: A B AB we k t o ry :
12
34
1x3
1x4
2x3
2x4,
interakcja ABC reprezentowana jest przez wektory: czynniki: A
B
wektory: 12
C
34
ABC
56
1x3x5 1x4x6 2x4x5
1x3x6 1x4x5 2x3x5 2x3x6 2x4x6.
Zatem układ trój czynnikowy 3 x 3 x 3 reprezentowany jest przez równanie re:sji liniowej obejmujące 26 wektorów instrumentalnych: źródło wariancji A B C AB AC BC ABC
wektory 1, 2 3, 4 5, 6 7, 8, 9, 10 11, 12, 13, 14 15, 16, 17, 18 19, 20, 21, 22, 23, 24, 25, 26. 425
Można owe wektory instrumentalne uzyskać za pomocą jednego z przedstawionych w niniejszej pracy systemów kodowania. Rekomendujemy jednak tutaj w pierwszej kolejności kodowanie quasi-eksperymentalne, a w drugiej kolejności kodowanie ortogonalne (z uwagi na łatwość przeprowadzania obliczeń). Kończąc te krótkie uwagi o wprowadzaniu do równania regresji liniowej większej liczby interakcji, zachęcam Czytelnika do zakodowania, według systemu kodowania quasi-ekspery mentalnego, układu trójczynnikowego 3x3x3.
4. Ustalenie porządku istotnościowego w obrębie zmiennych niezależnych wprowadzonych do modelu MR W momencie, w którym badacz zakończył proces wprowadzania nowych zmiennych niezależnych do modelu, ocenił ich istotność, określi! charakter modelu (addytywny — nieaddytywny, liniowy — krzywoliniowy) oraz ocenił jego „dobroć" (poprzez test F współczynnika Ry.\t), powinien on ustalić porządek istotnościowy w obrębie zmiennych niezależnych uznanych za istotne dla Y. Tę operację empiryczną przeprowadza się na podstawie wskaźników istotności zmiennych. Chciałbym teraz spróbować udzielić odpowiedzi na pytanie: na podstawie jakiego wskaźnika dokonać owego uporządkowania? Najbardziej dostępną miarą istotności danej zmiennej niezależnej (także w sensie standardowych strategii budowy modelu MR via komputer) jest przyrost wariancji wyjaśnionej zmiennej zależnej „spowodowany" wprowadzeniem do mo delu tej zmiennej. Aby dokonać oceny procentowo wyrażonego przyrostu wariancji wyjaśnionej zmiennej X, spowodowanego rozszerzeniem „wyjściowego" modelu MR (obejmującego k2 zmiennych niezależnych) o nową zmienną (tym samym mo del będzie obejmował k2 + 1 zmiennych), musimy zacząć od wyznaczenia wartości dwóch współczynników: R\ A tl^y.i...... *,. (&i > k2). Różnica wartości procentowej dwóch współczynników wielokrotnej determinacji jest wskaźnikiem „udziału" nowej zmiennej w wyjaśnianiu wariancji zmiennej zależnej Y, bowiem: (a) wskaźnik: R\ A ......... ki (100%) określa nam „dobroć" modelu wyjściowego o k2 zmiennych niezależnych, (b) wskaźnik R\ A......... t| (100%) określa nam „dobroć" modelu rozszerzonego o nową zmienną A}, obejmującego k{ zmiennych niezależnych (kx > k2 ), (c) różnica R2YA.......... k] (100%) ~R2YA ............ ky (100%) = vaĄYIXj) mówi nam o przy roście wariancji wyjaśnionej zmiennej Y, spowodowanym rozszerzeniem „wyjścio wej" wersji (&2-składnikowej) modelu do „ostatecznej" wersji modelu (^-składni kowej). Rodzi się jednak pytanie: czy każdy przyrost wariancji wyjaśnionej zmiennej 426
y(np. \%) można uznać za wystarczający do uzasadnienia zaliczenia tej zmiennej do 0{Py). Aby odpowiedź nie miała charakteru czysto arbitralnego, odwołujemy się do pomocy tzw. częściowego testu /■}; jest to — jak Czytelnik zapewne pamięta — już wyżej omawiany wzór (13.143). Nawiasem mówiąc, za pomocą tego testu możemy ocenić każdy zabieg rozszerzenia modelu.
przy stopniach swobody: dla licznika: df i =k i -k 2i w przypadku rozszerzenia modelu o jedną zmienną niezależną df t = l; dla mianownika: df 2 =N-k t - 1; k t — liczba zmiennych niezależnych o większej wartości R2; k2 — liczba zmiennych niezależnych o mniejszej wartości R2. Uznajemy rozszerzenie modelu za istotne na danym a jeżeli:
Wyżej opisany sposób nie jest jedynym, jeśli chodzi o stosowanie współczynnika determinacji wielokrotnej jako wskaźnika wariancji wyjaśnionej zmiennej Y przez daną zmienną niezależną. Obliczenie „przyrostu" lub „spadku" wartości fl:(100%) jest punktem wyjścia do dokonania uporządkowania zbioru zmiennych niezależnych zaliczonych do modelu MR wedle procentowo wyrażonej wartości owego „przyrostu" (lub „spadku") wariancji wyjaśnionej zmiennej Y, spowodowanego bądź wprowadzeniem do modelu nowej zmiennej, bądź wycofaniem z modelu zmiennej już w nim obecnej. Generalnie rzecz biorąc Hope (1968, s. 157) pokazał, że wskaźnika i?2(100%) używa się w praktyce badawczej na 1 z 5 sposobów: (1) najpierw obliczamy wartość K2(100%) dla Y i X,, potem dla Y oraz X{ i X2 itp. Analiza kończy się w momencie, gdy dodanie następnej zmiennej niezależnej do modelu nie daje już pożądanego przyrostu wartości R2 (\00%); (2) najpierw obliczamy wartość R 2 (\QO%) dla Y oraz wszystkich zmiennych niezależnych: X t , ...,X k włączonych do modelu MR, potem dla Y oraz X\t ...,X k _ l , następnie dla Y oraz X\, ..., Xk_2. Analiza kończy się z chwilą, gdy spadek wartości fi;(100%) przewyższy kryterium przyjęte przez badacza; (3) najpierw obliczamy wartość K 2 (100%) dla Y oraz zmiennej o najwyższej wartości prostego współczynnika korelacji ze zmienną Y (R2 = r2), następnie doda jemy zmienną niezależną, która daje największy przyrost wartości R2(\0G%). Ana liza kończy się, gdy przyrost wartości R2(\00%) przestaje spełniać dane kryterium; (4) obliczamy wartości /? 2(100%) dla w dowolny sposób wybranych podzbio rów (być może krzyżujących się) zmiennych niezależnych i zmiennej Y, aby wybrać ten podzbiór zmiennych niezależnych, który daje najwyższą wartość ^?2(100%); (5) najpierw obliczamy wartość R 2 (l00%) dla Koraz zmiennych niezależnych m..... X k , potem dla Y oraz zmiennych X u X 2 , X 4 , X 5 ,...,X k itd. Ze zbioru zmien nych niezależnych X1,...,Xlt eliminujemy tę zmienną, której opuszczenie daje naj większy spadek wartości ^2(100%); Ze współczynnikiem determinacji wielokrotnej wiąże się — jak to widać we 427
wzorach 13.20 i 13.25 — współczynnik determinacji semicząstkowej oraz determinacji cząstkowej. Pisałem już o nich wyżej. Także wedle ich wartości (zwłaszcza wedle wartości współczynnika determinacji cząstkowej) badacz może uporządkować zbiór zmiennych począwszy od zmiennej, która wyjaśnia największy procent wariancji Y, a kończąc na zmiennej wyjaśniającej najmniejszy procent wariancji Y. Darlington (1968) omawia wskaźnik fiYjfyj, wedle wysokości którego można uporządkować zbiór zmiennych włączonych do modelu MR. Czytelnik zechce zauważyć, że wskaźnik ten jest składnikiem wzoru (13.17). Suma takich iloczynów składa się na RYA ........ *. Trzeba jednak pamiętać, że wskaźnik ten jest rzetelny, jeżeli interkorelacje zmiennych niezależnych są zerowe. Zerowe korelacje między zmiennymi niezależnymi występują jednak w badaniach psychologicznych bardzo rzadko, stąd i niewielka przydatność tego wskaźnika. Mamy tu podobną sytuację, jak w przypadku wskaźnika, ry,{100%), j= 1, ..., gdzie także musi być spełnione założenie: r,j = 0 (i * j). Na koniec jeszcze o jednej metodzie wyznaczania porządku istotnościowego w obrębie 0{PY ). Jest to metoda współczynników wyodrębnionej determinacji (coefficients of separate determinatioń) Ezekiela (1946, s. 498). Rozpatrzmy następujący przykład: niech O(P Y ) = (X lt X 2 , X 3 ). Aby wyznaczyć względną ważność zmiennej X) dla Y, przy ustalonych wpływach na Y pozostałych zmiennych X2 i ^3 musimy wyznaczyć wartość współczynnika wyodrębnionej determinacji ^n.2.3 : (13.172)
gdzie: »y.i.23
-
(13.173) «.' "'-
^'AT+Jt+l
^H23 — nieobciążony 2 estymator ^.123; ^y — suma kwadratów, ^yx\ — suma iloczynów (obliczona jak przy wzorach: 13.14, 13.15). Suma poszczególnych współczynników wyodrębnionej determinacji równa jest wartości współczynnika wielokrotnej determinacji Ry.mJeżeli między zmiennymi niezależnymi występuje wysoka korelacja, to współczynniki wyodrębnionej determinacji mogą być obarczone błędami. Ponadto współczynniki wyodrębnionej determinacji mają taką wadę, że są mniej stabilne i bardziej niż inne miary istotności narażone na wpływy czynników zakłócający ch-okazjonalnych (tzw. błędy losowe). Dla większej przejrzystości — przy ustalaniu porządku istotnościowego w obrębie O(PY) — można poszczególne współczynniki wyrażać jako procent ogólnej sumy wartości wszystkich współczynników.
428
5. Podsumowanie W niniejszym rozdziale pokazano — odwołując się do strukturalnej tożsamości modeli: analizy wariancji i wielokrotnej korelacji-regresji (Cohen, 1968) — w jaki sposób badacz, operując pomiarem zmiennych niezależnych (czynników wyjaśniających) na poziomie skali nominalnej, może podstawowe układy ANOVA, jednoczynnikowy i wieloczynnikowe, opracować w modelu wielokrotnej regresji liniowej. Aby jednak możliwe było wprowadzenie zmiennych jakościowych (A, B, C, ...) do równania regresji liniowej, należy wpierw owe zmienne poddać zabiegowi kodowania. Efektem zabiegu kodowania jest utworzenie nowych zmiennych — zwanych zmiennymi instrumentalnymi (7*t,..., Tm). W literaturze przedmiotu (np. Kerlinger, Pedhazur, 1973; Pedhazur, 1982; Cohen, Cohen, 1975, 1983; Draper, Smith, 1973; Ward, 1969; Ferguson, Takane, 1989) wyróżnione zostały trzy systemy kodowania zmiennych jakościowych: (a) zero-jedynkowy, (b) ąuasi-eksperymentalny, (c) ortogonalny. Każdy z tych systemów został tu szczegółowo zaprezentowany i zilustrowany dokładnie zanalizowanymi przykładami jednej i dwóch zmiennych jakościowych. Każdy też przykład rozwiązywany był dwukrotnie: raz w modelu analizy wariancji, a raz w modelu wielokrotnej regresji liniowej. Procedura obliczeniowa, którą tu pokazano, nie wymaga znajomości aparatu algebry macierzy. Wszystkie obliczenia można przeprowadzić za pomocą kalkulatora — chociaż mogą być one bardzo żmudne. Idealnym rozwiązaniem byłoby posłużenie się komputerem. W wielu miejscach tego rozdziału pokazano, więcej niż jedną drogę dochodzenia do danego rezultatu (np. do sum kwadratów, do wartości współczynnika korelacji wielokrotnej). Chodziło bowiem o to, aby Czytelnik sam wybrał wzór najbardziej mu odpowiadający pod względem techniki obliczeniowej, którą zechce wykorzystać w swoich badaniach. Przedstawienie trzech systemów kodowania (prowadzących do identycznych rezultatów) miało na celu pozostawienie Czytelnikowi swobody wyboru także w tym zakresie. Zarekomendowano ko-i dowanie quasi-eksperymentalne, uzasadniając ten wybór tym, że rozwiązywanie układu czynnikowego, właśnie w ten sposób zakodowanego, najbardziej przy-I pominą rozwiązywanie układu czynnikowego w modelu analizy wariancji (model efektów stałych). Z kolei Czytelnikowi zainteresowanemu prostotą i ułatwieniami technicznymi przy przeprowadzaniu obliczeń zalecono kodowanie ortogonalne. Stosunkowo najmniej napisano o kodowaniu zero-jedynkowym, jako że uważa się je — w porównaniu z dwoma pozostałymi systemami — za najmniej użyteczne. Trzeba na koniec powiedzieć również o ograniczeniach, które zostały na ten rozdział nałożone. Po pierwsze, przyjęto założenie o równej liczebności grup porównawczych (równe n). Po drugie, nie podjęto analizy trendu między zmiennymi — zależną i niezależną. Przeanalizowanie tych zagadnień na poziomie szczegółowości przyjętej w niniejszej pracy wymagałoby znacznego zwiększenia i lak już pokaźnej objętości. Po trzecie, przyjęto, że zmienna zależna Y mierzona jest na
429
poziomie skali co najmniej interwałowej. Po czwarte, że zmienna zależna jest jednowymiarowa (nie czyniono tedy analogii między modelem MR i modelem ANOVA). Podstawowe wiadomości o modelu ANOVA i modelu MR nie wykraczają poza zakres pracy Brzezińskiego i Stachowskiego: Zastosowanie analizy wariancji w eksperymentalnych badaniach psychologicznych (rozdz. 1.4).
Rozdział 14. Model ex post facto (EPF) 1. Wprowadzenie Stosowanie przez badaczy-psychologów modelu EPF w badaniach empirycznych (zwłaszcza w psychologii klinicznej, psychologii wychowawczej czy psychologii osobowości) powodowane jest tym, że nie zawsze możliwe jest używanie, bez ograniczeń, mocniejszego — alternatywnego do modelu EPF — modelu E. Badacz wyznający pogląd: „iż droga do poznania zachowania się człowieka prowadzi przez laboratorium" (Kozielecki, 1975, s. 21) zapewne postawiłby pod znakiem zapytania rezultaty badawcze uzyskane przez psychologów stosujących model EPF. Czy należałoby się z nim zgodzić? Moim zdaniem — nie. W każdym razie nie zawsze. W przeciwnym bowiem razie trzeba by umieścić część dyscyplin psychologicznych (w tym i te wyżej wymienione) poza granicami „prawdziwej nauki". Zgadzam się zatem z poglądem, iż tam, gdzie to możliwe, powinno się stosować w badaniach naukowych model eksperymentalny. Jednakże model EPF pozwala badaczom na udzielenie odpowiedzi na takie pytania, które musiałyby pozostać nadal otwarte w przypadku uznania przez nich modelu eksperymentalnego jako jedynej rzetelnej metody uzasadniania hipotez naukowych w psychologii. Odpowiedzi te są, co prawda, mniej precyzyjne, gdyż są obciążone większym (i to niekiedy bardzo dużym) błędem. Są to jednak odpowiedzi na takie pytania, na które — ze względów natury estetycznej, ekonomicznej i technicznej — nie sposób udzielić odpowiedzi | na drodze eksperymentalnej. Są to niekiedy kwestie badawcze tak ważne, iż nie I nożna pozostawić ich bez odpowiedzi w oczekiwaniu na wypracowanie przez psy, chologię bardziej precyzyjnych metod o charakterze eksperymentalnym. Jeżeli już uprawomocniamy słabszy od eksperymentalnego model badawczy w psychologii, zastanówmy się nad tym, jak zwiększyć jego moc eksplanacyjną [waz jak zmniejszyć, dość duży nieraz, margines błędów występujących w badanach nieeksperymentalnych. Spróbuję zatem przedstawić model EPF w takiej postaci, która zapewniałaby minimalizację wariancji błędu.
2. Model eksperymentalny a model EPF Rysunek 14.1 schematycznie przedstawia to, co różni model EPF od modelu E. lak widać, model EPF stanowi jak gdyby odwrócenie — w stosunku do modelu 431
eksperymentalnego — kolejności czynności badawczych, które muszą być wykonane przez psychologa. Przykładu dostarczają tu znane badania Bandury i Waltersa nad agresją występującą u chłopców w okresie dorastania (1968), czy też badania nad osobowością autorytarną przeprowadzone przez zespół Adorno (por. Adorno i in., 1950, 1969).
Rys. 14.1. Model eksperymentalny a model ex post facto
O ile w modelu E chodziło o to, by poprzez manipulację co najmniej jedną zmienną niezależną-główną wywołać obserwowalne zmiany zmiennej zależnej, 0 tyle w modelu EPF badacz usiłuje zidentyfikować nie znane mu zmienne nieza leżne, które spowodowały, iż zmienna zależna przyjęła określone wartości dla osób z badanych populacji. Ponieważ nie znane badaczowi zmienne niezależne już za działały, niekiedy bardzo dawno, na daną zmienną zależną, zatem jedyne co mu pozostało, to próba ich identyfikacji drogą analizy ex post. W zależności od stopnia wiedzy badacza na temat danej zmiennej zależnej Y 1 jej uwarunkowań, wyróżniam dwie odmiany modelu ex post facto, tj.: (a) odmianę eksploracyjną (w skrócie: EPF-E), (b) odmianę konfirmacyjną (w skrócie: EPF-K).
3. Dwie odmiany modelu EPF 3.1. Odmiana eksploracyjna (EPF-E) Odmianę EPF-E badacze stosują w przypadku rozwiązywania problemów istotnościowych, które przyjmują postać następujących kwestii: „Jakie zmienne niezależne są istotne dla danej zmiennej zależnej?" Aby rozwiązać tego typu problem, za pomocą badania typu ex post badacz powinien wykonać kroki przedstawione na rys. 14.2. 432
1. Operacjonalizacja zmiennej zależnej i dobór grup porównawczych. Na etapie formułowania problemu naukowego wyłonione przez badacza zmienne mają status zmiennych teoretycznych. Dlatego też przed przystąpieniem do badań powinno się ustalić kryteria empiryczne ich stosowalności, tzn. należy je zoperacjonalizować. W tym celu badacz musi użyć gotowych narzędzi psychologicznych bądź też skonstruować nowe, specjalnie dostosowane do rozwiązywania danego problemu naukowego. Załóżmy, że dana zmienna zależna jest zmienną de facto ciągłą (wielowartościową). Niech będzie to na przykład „poziom samooceny". Zmienna ta może być zoperacjonalizowana ze względu na narzędzie (np. kwestionariusz samooceny), na którego skali wyróżniono punkt minimum (m 0 ) i punkt maksimum (m x ). Można tedy na kontinuum wartości zmiennej Y (zoperacjonalizowanej) wyróżnić określoną liczbę podzbiorów wartości tej zmiennej. Musi być ich tyle, ile grup porównawczych planuje utworzyć badacz; powinny być jednak co najmniej dwie takie grupy. Dla osób z pierwszej grupy (grupa A) zmienna Y przyjmuje wartości z pierwszego podzbioru wartości, a dla drugiej grupy (grupa B) zmienna Y przyjmuje wartości z drugiego podzbioru wartości. Na ogół oba podzbiory wartości zajmują krańce kontinuum wartości zmiennej Y (zoperacjonalizowanej). Środkowy obszar kontinuum pozostaje nie wykorzystany. Postępuje się tak dlatego, że przy przeprowadzaniu porównań skrajnych grup łatwiej będzie wychwycić zmienne niezależne istotne dla Y, których wpływ na tę zmienną nie jest zbyt silny. Najniższa wartość, jaką zmienna Y przyjmuje dla osób z grupy B jest większa od pewnej arbitralnie przez badacza ustalonej wartości krytycznej m s . Najniższa wartość, jaką zmienna Y przyjmuje dla osób z grupy A jest mniejsza od pewnej wartości krytycznej m r . Ilustruje to poniższy schemat:
grupa A
grupa B
i ---------------ft ------------------------tr --------------- 1 m0
mr
ms
mx
Y
(a)
Bardziej korzystne jest jednak dobranie większej liczby grup porównawczych, np. trzech — co ilustruje poniższy schemat:
grupa A
grupa B
grupa C
i ------------ ir ------------- ir ------------- 1 m0
ni/
rni
mx
Y (b)
W przypadku doboru grup porównawczych wedle schematu (a) wykorzystane są tylko krańcowe odcinki kontinuum wartości zmiennej Y — zoperacjonalizowanej. W przypadku (b) wykorzystane jest całe kontinuum wartości zmiennej Y — grupy porównawcze rozmieszczone zostały równomiernie wzdłuż kontinuum wartości. Jeżeli zmienna 7 jest zmienną dychotomiczną, przyjmuje ona dla osób z grupy A wartość „0", a dla osób z grupy B wartość „1". Dość często spotykane jest następujące postępowanie. Badacze mając do czynienia ze zmienną Y de facto ciągłą poddają ją zabiegowi dychotomizacji (np. w punkcie mediany). W ten spo434
sób zmienna zależna y-zdychotomizowana przyjmuje dla osób z jednej grupy wartość „0", a dla osób z drugiej grupy wartość „1". Oto kilka przykładów: samoocena stabilna i niestabilna, zachowanie agresywne i nieagresywne, osobowość efektywna i nieefektywna. Stosując zabieg dychotomizacji musimy pamiętać o tym, że tracimy przez to informacje o stopniu zróżnicowania wpływów poszczególnych zmiennych niezależnych (identyfikowanych ex post) na zmienną zależną, w zależności od tego, jakie wartości przyjmują one ze zbiorów wartości tych zmiennych. 2. Określenie populacji, na których będą prowadzone badania. W tej fazie badacz decyduje się na to, jakie populacje mają być poddane badaniom. Inaczej, ustala zakres generalizowalności wniosków z badań. Po określeniu interesującej go populacji, badacz kontroluje wpływ tych zmiennych niezależnych, które opisują badaną populację (tzw. zmienne metryczkowe). Kontrola ta jest przeprowadzana za pomocą procedury ustalania stałego podzakresu wartości (lub danej wartości) zmiennych kontrolowanych (opis w rozdz. 12.). Konsekwencje tego postępowania są takie, iż badacz musi w fazie generalizowania wniosków z badanej próby na populację opatrzyć je klauzulą: „... tylko w odniesieniu do osób, dla których zmienna X} przyjmuje wartości z podzakresu...". Jeżeli badania mają charakter pionierski w danej dziedzinie psychologii, to zdarza się, iż nie poddaje się kontroli (pojmowanej jak wyżej) żadnej zmiennej. Dopiero w następnych z kolei badaniach będzie się stosowało odpowiednie procedury kontrolne. 3. Opracowanie schematów wywiadów i systemu kodowania danych. Zidentyfi kowanie potencjalnych zmiennych niezależnych istotnych dla zmiennej zależnej mo żliwe jest w modelu EPF jedynie drogą wywiadów (najlepiej ustrukturowanych) prze prowadzanych z osobami z grup porównawczych oraz z osobami z ich otoczenia. Dlatego też ta faza badania jest niezmiernie ważna. Od dobrego opracowania schema tów wywiadów w dużym stopniu zależy powodzenie całego badania. Uzyskane z wy wiadów informacje mają na ogół charakter jakościowy. Dlatego też należy nadać im charakter ilościowy, dzięki czemu możliwe będzie przeprowadzenie porównań inter- i intraindywidualnych. Możliwe będzie także określenie stopnia istotności dla danej zmiennej zależnej zidentyfikowanych post factum zmiennych niezależnych. Dane z wywiadów mogą być kategoryzowane za pomocą skal szacunkowych. Wywiady winny być prowadzone przez specjalnie do tego celu przygotowane osoby, a kodowanie rezultatów powinno być wykonane przez co najmniej dwie inne osoby, także odpowiednio przeszkolone. Osoby dokonujące przekładu danych z języka „jakościowego" na „ilościowy" mają status sędziów kompetentnych. Stosujemy trening sędziów (o czym dokładniej w pkt. 4.2) by zapewnić sobie wysoki stopień ich kompetencji (trafność sądów) oraz równie wysoki stopień ich zgodności (rzetelność sądów). 4. Analiza danych: odpowiedź na pytanie 1. Po przeprowadzeniu wywiadów i zakodowaniu danych badacz przystępuje do udzielenia odpowiedzi na pierwsze pytanie w ramach analizy danych. Celem tej analizy jest wyszukanie potencjalnych zmiennych niezależnych istotnych dla Y. Za takie zmienne badacz uznaje w pierw szej fazie te zmienne, które przyjmują różne wartości w porównywanych grupach. Różnice te jednak muszą być dostatecznie duże, by można było uznać wstępnie 435
daną zmienną Xj za istotną dla zmiennej Y. Stosuje się w tym celu odpowiednie porównania frekwencyjne, a oceny siły związku między zmiennymi Y i X} dokonuje się za pomocą odpowiednich wskaźników (mierników siły związku). Jeżeli wartość danego wskaźnika przekracza arbitralnie przez badacza ustaloną wartość krytyczną, która jest tym wyższa im większe są koszty społeczne pomyłki, to dana zmienna Xj zostaje zakwalifikowana do dalszej analizy. Jeżeli jest odwrotnie, zmienna ta zostaje wyeliminowana. Tak więc w pierwszej fazie analizy danych badacz musi odpowiedzieć na pytanie: „Czy wartość danego wskaźnika siły związku między zmiennymi Y i Xj przekracza wartość krytyczną £?". Wskaźniki siły związku oblicza się z tabel wielopolowych. Gdy zmienna X, jest dychotomiczna lub zdychotomizowana, w zależności od liczby grup porównawczych analizuje się tabelę typu: 2x2, 3x2, 4x2 itd. Na rys. 14.2, na którym przedstawiono schematycznie model EPF-E, pokazano zastosowanie tabel typu 3 x 2 do badania siły związku między zmiennymi. Natomiast jako wskaźnika siły związku użyto wskaźnika lambda-Goodmana i Kruskala. Tak więc ogólnie sformułowane pytanie pierwsze można sprowadzić do następującej postaci szczegółowej: „Czy Am jest większa od wartości progowej c?". Jeżeli także zmienna yjest dychotomiczna (lub zdychotomizowana), oceny siły związku między zmiennymi można dokonać na podstawie analiz tabel typu 2x2, tak jak to pokazał Lazarsfeld (1968). W pola takiej tabeli czteropolowej wpisuje się częstości występowania poszczególnych kombinacji wartości zmiennej Y (grupy A i B) i wartości zmiennej X} — „zero-jedynkowej". Ponieważ rozkład brzegowy zmiennej zależnej jest ustalony przez dane narzędzie pomiarowe, ze względu na które zmienna ta została zoperacjonalizowana, zatem odpowiednim wskaźnikiem siły związku między zmiennymi jest współczynnik Q-Kendalla. Jego istotność testujemy za pomocą testu chi-kwadrat, przy df= 1. Czytelnik mógłby zapytać, dlaczego jako wskaźnik siły związku między zmiennymi proponuję współczynnik lambda-Goodmana i Kruskala, a nie jakiś' współczynnik oparty na rozkładzie /2? Otóż współczynniki opracowane przez Goodmana i Kruskala oparte są na całkowicie odmiennej zasadzie niż takie współczynniki, jak C-Pearsona, V-Cramera czy 7"-Czuprowa. Są one oparte na zasadzie optymalnej predykcji. Co to znaczy? Przypuśćmy, iż lambda = 0,86. Oznacza to, że dysponując informacją o zróżnicowaniu osób badanych według wartości zmiennej Xj popełniamy 86% mniej błędów niż przy przewidywaniu zróżnicowania osób badanych tylko wedle wartości zmiennej Y. Przy obliczaniu lambda korzystamy z następującego wzoru:
gdzie: n — wielkość próby; Ą — liczebność zaobserwowana w polu /'-tej kolumny i j-tego wiersza; max/-, — największa liczebność zaobserwowana w /-tej kolumnie; j max/^ — największa liczebność brzegowa w ./-tym wierszu. j
436
Z kolei badacz musi ustalić wartość progową (krytyczną) dla wskaźnika siły związku między zmiennymi Y i X$. Jest ona funkcją wagi społecznej rozwiązywanego problemu. Jest to jednocześnie pierwsze sito selekcyjne. Do drugiego etapu analizy przechodzą tylko te zmienne niezależne, których wskaźniki lambda przewyższają wartość progową f. Im wyższą badacz ustali wartość progową f, tym bardziej surowe będzie kryterium wstępnej selekcji i tym więcej zmiennych niezależnych zostanie na pierwszym etapie analizy wyeliminowanych. Chciałbym wyraźnie podkreślić, że nie można poprzestać tylko na tym etapie analizy danych (niezależnie od stopnia jej metodologicznej poprawności!). Niezbędne jest także przeanalizowanie każdego dostatecznie silnego związku między zmiennymi Y i X} w kontekście określonego paradygmatu teoretycznego (TBO w strukturze świadomości metodologicznej — por. rozdz. 3.), a także w celu wyeliminowania tych zmiennych niezależnych, dla których związek ze zmienną zależną ma charakter związku pozornego (w sensie, jaki nadał temu terminowi Lazarsfeld). Jest to jednak przedmiotem drugiej fazy analizy danych. 5. Analiza danych: odpowiedź na pytanie 2. W tej fazie analizy danych badacz dokonuje selekcji zmiennych, które pomyślnie przeszły test pierwszej fazy. Zmienne te mają dostatecznie wysokie wskaźniki siły związku ze zmienną Y. Chodzi teraz tylko o to, by wychwycić te zmienne niezależne, które weszły w związki pozorne ze zmienną zależną. Dlatego też pytanie drugie brzmi: „Czy zależność Y od A} jest zależnością rzeczywistą, a nie pozorną?". Odpowiedni zespół reguł selekcyjnych zastosowany w tej fazie analizy powinien ułatwić badaczowi wyeliminowanie tych zmiennych niezależnych, które weszły w pozorne związki ze zmienną zależną. Na zespół reguł selekcyjnych składają się z jednej strony prawa i twierdzenia uznanych na danym etapie rozwoju psychologii koncepcji teoretycznych (zaakceptowanych przez badacza wraz z TBO w strukturze świadomości metodologicznej) oraz uznane wyniki wcześniej przeprowadzonych badań empirycznych, a z drugiej strony określone reguły eliminowania zależności pozornych. Reguły takie podał S. Nowak U965b, 1985). W najprostszej postaci eliminowanie zależności pozornych między zmienną Y I i Xj polega na wprowadzeniu do analizowanego układu trzeciej zmiennej Z} i zbadaniu, jak ten układ się zachowa. O danej zależności powiemy, że jest zależnością I pozorną, gdy znajdziemy zależności między zmiennymi pierwotnymi (Y i Xj) — między którymi zachodzić powinna wedle hipotezy badacza zależność rzeczywista I—oraz trzecią zmienną, kontrolną (Z,) (Jahoda, Deutsch, Cook, 1965b, s. 563): (a) — zależność między zmienną Z, i zmienną X, (odgrywa ona rolę przyczyny I w analizowanym układzie), przy czym zmienna Z; poprzedza czasowo zmienną Xp (b) — zależność między zmienną Zj i zmienną Y (odgrywa ona rolę skutku w I analizowanym układzie), przy czym zmienna Zj poprzedza czasowo zmienną Y, oraz: (c) — znika zależność między zmienną X; i zmienną Y w podgrupach wyróżnioI nych ze względu na wartości, jakie przyjmuje dla osób z tych podgrup zmienna Z,. Różni autorzy podkreślają dużą rangę analiz zależności pozornych w podejściu I a post facto. Przykładowo, Jahoda, Deutsch i Cook (1965b, s. 562) piszą: „...tam, 437
gdzie zależność lub związek między dwiema zmiennymi został ustalony w toku analizy ex post facto (tj. na podstawie operacji nie podyktowanych z góry planem eksperymentu kontrolowanego), tam w pewnym sensie wykonano zaledwie pierwszy krok. Zanim będzie można orzec zachodzenie związku przyczynowego, należy stwierdzić, czy zależność nie ma charakteru zależności pozornej oraz określić jednoznaczne następstwo w czasie badanych zmiennych. Analiza ex post facto zbliża się do warunków eksperymentu kontrolowanego poprzez wprowadzanie metod kontroli w toku samej analizy, a nie w fazie gromadzenia materiału". 6. Analiza danych: odpowiedź na pytanie 3. Po wyeliminowaniu tych zmien nych niezależnych, które wchodziły w związki pozorne ze zmienną zależną Y badacz może udzielić odpowiedzi na pytanie trzecie: „Które ze zmiennych Xu ...,XW należą do obrazu przestrzeni zmiennych istotnych dla zmiennej YT\ Odpowiedź na to py tanie jest stosunkowo prosta. Do O(P Y ) wchodzą te zmienne, których wskaźniki różnicowania wyróżnionych grup porównawczych — np. lambda — przewyższały wartość c i jednocześnie nie wchodziły one w zależności pozorne ze zmienną Y. 7. Analiza danych: odpowiedź na pytanie 4. Ostatnie pytanie, na które badacz musi udzielić odpowiedzi przyjmuje postać następującej kwestii: „Które ze zmien nych z O(P Y ) są bardziej, a które mniej ważne dla YT*. Odpowiedź na to pytanie wymaga uporządkowania zmiennych niezależnych według wysokości wskaźników różnicowania (np. lambda czy Q). Z dwóch zmiennych niezależnych Xr i Xz zmien na X r jest bardziej istotną (ważniejszą) dla Y od zmiennej X z , jeżeli: ż, Y /x >'-m. (lub: Qr > Qz). Zbiór zmiennych niezależnych istotnych dla Y uporządkowany wedle relacji „bycia ważniejszą dla K' stanowi O(S Y )-
3.2. Odmiana konfirmacyjna (EPF-K) Tok postępowania badawczego jest tu bardzo zbliżony do odmiany modelu EPF przedstawionej wyżej. Różnica między nimi jest taka, iż tu badacz formułuje hipotezę, która mówi, że zmienna X} wpływa na zmienną Y. W związku z tym jest on nastawiony na udzielenie rozstrzygającej odpowiedzi (o ile takiej może udzielić w modelu EPF): albo zmienna Xj jest zmienną istotną dla Y, albo też nie jest. Schematycznie wersję konfirmacyjną modelu EPF przedstawia rys. 14.3. W celu sprawdzenia danej hipotezy badacz musi wykonać kroki przedstawione na rysunku: 1. Operacjonalizacja zmiennej zależnej i dobór grup porównawczych. Przy dobieraniu grup porównawczych badacz kieruje się takimi samymi zasadami, jak w wersji eksploracyjnej modelu EPF. 2. Określenie populacji, na których prowadzone będą badania. Postępowanie badacza przebiega podobnie jak w EPF-E, przy czym szczególny nacisk położony jest tu na kontrolę tych zmiennych, które jego zdaniem mogłyby zaciemniać obraz wpływów zmiennej Xj (o której mówi sprawdzana hipoteza badawcza) na zmienną Y. Spośród różnego typu procedur kontrolnych, które „nakazują" badaczowi mani pulowanie w określony sposób zmiennymi niezależnymi tu znajduje zastosowanie 438
Rys. 14.3. Odmiana konfirmacyjna modelu ex post facto
procedura ustalania stałego podzakresu (lub konkretnej wartości) danej zmiennej (lub zmiennych) niezależnej. Bandura i Walters (1968) kontrolowali, w sposób wyżej podany, wpływ na zmienną zależną następujących zmiennych: poziom inteligencji, zmienne charakteryzujące środowisko rodzinne badanych chłopców, pochodzenie etniczne: „Badanie ograniczyło się do chłopców o przeciętnej lub ponadprzeciętnej inteligencji, pochodzących z rodzin — z punktu widzenia prawnego — pełnych (nie rozbitych przez trwałą rozłąkę, rozwód czy śmierć jednego z rodziców), posiadających rodziców o stałym zatrudnieniu i mieszkających w środowisku sąsiedzkim, w którym nie występowało ani upośledzenie materialne, ani też wysoki stopień przestępczości młodzieży. Chłopcy murzyńscy i pochodzenia meksykańskiego zostali wyłączeni (...)" (tamże, s. 19). Tym samym badacze zgodzili się na to, że wnioski, które wysuną na podstawie badań będą ograniczone do populacji osób, dla których wyżej wymienione zmienne przyjmują ustalone wartości. 3. Uszczegółowienie hipotezy badawczej- Uszczegółowienie hipotezy badaw czej polega na dokładnym zdefiniowaniu zmiennych, o których ona mówi. Przy jej uszczegóławianiu należy także zwrócić uwagę na to, by podać zestaw informacji, które należy zebrać, a które mogą być istotne przy określaniu stopnia potwierdzenia się danej hipotezy. W badaniach Szustrowej (1972) sprawdzano następującą hipotezę: „oczekuje się, że rozwój osobowościowych przesłanek dla regulacji nieegocentrycznej uwarunkowany jest przez stosunek emocjonalny rodziców do dziecka. W doświadczeniu osób o egocentrycznych właściwościach zachowania, częściej niż w doświadczeniu osób o nieegocentrycznych właściwościach zachowania, wystąpiły przypuszczalnie z jednej strony wrogość i odrzucenie oraz małe zainteresowanie ich fizycznymi i emocjonalnymi potrzebami, a z drugiej strony nierna czułość i opiekuńczość". Była to, jak widać, hipoteza dość szczegółowa. Jednakże autorka tych badań sporządziła jeszcze listę informacji dotyczących: „— częstości okazywania przez rodziców ujemnych i dodatnich uczuć, — stopnia akceptacji dziecka przez rodziców, — relatywnego poziomu okazywanych uczuć i okazywanego zainteresowa nia jego potrzebami (w porównaniu do rodzeństwa), — współdziałania z dziećmi (udziału w zabawie i pomocy w rozwiązywaniu problemów)". 4. Zoperacjonalizowanie hipotezy badawczej. Polega ono na podaniu kryteriów operacyjnych (w skrajnym przypadku, gdy testowana hipoteza jest bardzo szczegó łowa i wąska — jednego), których stopień różnicowania grup porównawczych bę dzie przesądzał o stopniu potwierdzenia danej hipotezy. Takimi kryteriami mogą być np. pozycje (lub ich wiązki) w specjalnie opracowanym kwestionariuszu wy wiadu. Oczywiście dane z wywiadów podlegają procedurze kodowania przez co najmniej dwóch niezależnych sędziów. 5. Analiza danych: odpowiedź na pytanie 1. W pierwszej fazie analizy danych badacz musi ustalić odpowiedź na pytanie: „Czy dane kryterium K} różnicuje grupy 440
porównawcze, tzn. czy A^K > £?". Dla oceny stopnia zróżnicowania badacz stosuje albo wskaźniki lambda-Goodmana i Kruskala, albo — gdy zmienna Fjest dwuwartościowa — wskaźnik 0-Kendalla. Kryteria, których wskaźniki różnicowania przewyższają wartość progową, ustaloną arbitralnie w zależności od wagi społecznej rozwiązywanego problemu, £ przechodzą do drugiej fazy analizy. 6. Analiza danych: odpowiedź na pytanie 2. W drugiej fazie analizy danych badacz wyłapuje te kryteria, które pomyślnie przeszły przez pierwszą fazę analizy, a których wskaźniki ky\x (lub Q) wcale nie pokazują faktycznego zróżnicowania grup porównawczych. Chodzi zatem, podobnie jak w wersji eksploracyjnej, o wyeliminowanie zależności pozornych. Znajdą tu zastosowanie te same metody, co opisane wyżej. 7. Podjęcie decyzji dotyczącej hipotezy badawczej. Na koniec badacz musi odpowiedzieć na pytanie: „W jakim stopniu hipoteza badawcza została potwierdzojna?". Odpowiedź na to pytanie jest uzależniona od liczby kryteriów, które pomy ślnie przeszły przez obie fazy analizy danych. Im więcej kryteriów okaże się istot nych, tym wyższy będzie stopień potwierdzenia hipotezy badawczej. W przypadku, gdy tylko część ich uzyska potwierdzenie, hipotezę można będzie uznać za tylko częściowo potwierdzoną. Jeżeli natomiast istotnych będzie tylko kilka mało waż nych kryteriów, trudno będzie daną hipotezę uznać za potwierdzoną. Należy pa miętać o tym, że silne potwierdzenie jakiejś hipotezy można uzyskać jedynie w wa runkach dobrze kontrolowanego eksperymentu. Głośne i do dziś powszechnie cytowane badania, przeprowadzone w latach czterdziestych naszego wieku w USA przez Frenkel-Brunswik, J^eymsona i Sanforda(cyt. poi. wyd. 1962) w ramach szerszego programu badawczego nad tzw. osobowością autorytarną, kierowanego przez Adorno (por. Adorno i in., 1950, 1969), mogą posłużyć jako dobra ilustracja zastosowania modelu EPF (raczej w wersji K niż E, chociaż trudno tu o precyzyjne rozdzielenie). Badacze ci tak naszkicowali problem badawczy: „Myślą przewodnią tych badań była koncepcja jednostki, której poglądy na człowieka i na społeczeństwo i można określić jako antydemokratyczne, przy czym źródłem tych poglądów są I najgłębsze tendencje emocjonalne danej jednostki. Czy można pokazać, że taka osobowość istnieje? Jeżeli tak, jak wygląda ona dokładniej? Co sprzyja myśli antydemokratycznej? Jakie siły działają na jej rzecz w obrębie osobowości? Jeśli osobowość taka istnieje, jaki jest stopień jej rozpowszechnienia w naszym społeczeństwie (amerykańskim — J. B.)? I jakie czynniki powodowały jej rozwój?" (tamże, s. 303). Autorzy wyróżnili w obrębie osobowości antydemokratycznej „ideologię" i .,glębsze potrzeby osobowościowe" (przy czym przez „ideologię" rozumieli „zespól powiązanych ze sobą poglądów, postaw i wartości"; s. 303). Wnikliwą analizę Betodologiczną założeń teoretycznych przyjętych przez Adorno i in. przeprowadziIłaHomowska (1989, s. 74-80; por. także rozdz. 7., pkt. 9.3.). Przyjęcie założenia, iż tendencje antydemokratyczne opierają się na strukturze osobowości, pociągnęło za sobą pytanie o przebieg rozwoju tej struktury. Autorzy skłaniali się do przyjęcia założenia, że rozwój w pewnym stopniu uzależniony jest 441
od przebiegu wychowania dziecka w rodzinie (chodzi tu o szeroki kontekst społeczny, a więc uwzględnia się wpływ takich czynników, jak: status ekonomiczny rodziców, ich przynależność etniczną, religijną itp.). Nie będę dalej szczegółowo omawiał koncepcji teoretycznych wyłożonych przez badaczy, ale przejdę od razu do charakterystyki podejścia badawczego, wiążącego się z interesującym nas problemem. Punktem wyjścia było skonstruowanie odpowiedniego narzędzia pomiarowego, które pozwoliło badaczom na wyselekcjonowanie z populacji grupy osób o poglądach antydemokratycznych (zwracam uwagę na celowy, a nie losowy, dobór osób!). Był to kwestionariusz wywiadu, który zawierał grupę pytań dotyczących różnych faktów z życia danej osoby badanej, grupę tzw. pytań projekcyjnych oraz zestaw skal do pomiaru poglądów i postaw. Skale te zawierały różne opinie antydemokratyczne, a więc: antysemickie, etnocentryczne, reakcyjne, profaszystowskie, do których osoby badane musiały się ustosunkować. Za pomocą tego kwestionariusza wyodrębniono dwie grupy osób — w wysokim i w niskim stopniu aprobujące te poglądy (osoby badane nie były selekcjonowane do grup porównawczych zgodnie z zasadą randomizacji — jak w modelu eksperymentalnym!). Następnie badacze zajęli się problematyką antysemityzmu {podobnie, jak wyżej, za pomocą skali mierzącej „gotowość osobnika do poparcia lub odrzucenia całokształtu ideologii antysemickiej" — Skala AS — wyróżniono dwie skrajne grupy osób, które poddano dalszym badaniom) oraz etnocentryzmu (za pomocą skali etnocentryzmu — Skali E, podobnej do Skali AS — zmierzono stosunek osób badanych do „swoich" i do „obcych"). Materiał empiryczny zebrany za pomocą wywiadów klinicznych był oceniany w ramach około 100 wcześniej ustalonych kategorii operacyjnych (kryteriów). Tak więc potencjalne zmienne niezależne zostały wstępnie zawężone do tych, które mogą przejawiać się w owych 100 kategoriach, stanowiących jak gdyby obszar penetracji badawczej autorów. Z kolei każdą kategorię rozpatrywano pod kątem możliwości uzyskania trzech informacji: (a) czy wywiad, w kontekście danej kategorii, ujawnił postawy odpowiadające niskim i wysokim wynikom w skali E, (b) czy można wyraźnie rozstrzygać o różnicach w kontekście danej kategorii, (c) czy materiału jest zbyt mało, by dokonać wyraźnego rozstrzygnięcia. W rezultacie przeprowadzonych porównań odrzucono niektóre kategorie, jako nie różnicujące osób o niskim i o wysokim stopniu etnocentryzmu, gdyż: „wypowiedzi o wysokiej i niskiej punktacji wystąpiły równie często w wywiadach osób zakwalifikowanych wysoko i nisko na podstawie kwestionariusza, albo dlatego, że był duży procent odpowiedzi neutralnych" (tamże, s. 318). Wśród kategorii, które najbardziej różnicowały osoby o niskim i o wysokim stopniu etnocentryzmu, znalazły się między innymi: tendencja do „idealizowania" rodziców, tendencja do „moralnego potępiania" innych ludzi, autogloryfikacja, nacisk na konwencjonalną moralność. Nieistotne okazały się między innymi: liczba rodzeństwa, kolejność urodzenia osób badanych, śmierć lub rozwód rodziców w okresie dzieciństwa osób badanych. Kategorie uznawano za istotne lub nieistotne na podstawie porównań względnej częstości występowania kryterium w jednej i drugiej grupie osób badanych. 442
4. Zbieranie i opracowywanie danych empirycznych pochodzących z wywiadów [lak to już zostało powiedziane, psycholog decydujący się na posłużenie się modelem EPF „skazuje się" na dość ograniczony wybór, jeśli chodzi o metody zbierania mnych empirycznych. W zasadzie jest to wywiad, przeprowadzany z osobami baWanymi oraz osobami, które mogą dostarczyć ważnych informacji o aktualnym ■nkcjonowaniu osób badanych oraz o ich funkcjonowaniu w przeszłości, np. przed [chorobą alkoholową, przed zawałem serca, w dzieciństwie itp. Wywiad (szkolny, kliniczny) nie jest rzetelnym źródłem informacji i stwarza wiele kłopotów związa■ych L merytorycznym przygotowaniem osób go przeprowadzających oraz z psyItbologicznymi mechanizmami blokującymi dostęp — zarówno u osoby przeprowaIfeającej wywiad, jak i u osoby jemu poddanej (np. lęk, mechanizmy obronne, Iprobata społeczna, nastawienia) — do istotnych informacji o przyczynach okre■onego funkcjonowania osoby badanej (ucznia, pacjenta, osoby zachowującej się Igresywnie itp.) (por. Wallen, 1964, rozdz. V i VI; Gerstmann, 1972; Brzeziński, Kowalik, 1993b, część II, rozdz. 7.; Meehl, 1960; Johnson, 1991). Ponieważ psycholog nie może zrezygnować z tego, niezbyt pewnego, źródła ■formacji, więc jedyne co mu pozostaje, to spróbować je ulepszyć. Przede wszyIfikim powinien: (a) opracować schemat zbierania danych za pomocą wywiadu, , (b) przeszkolić osoby, które będą prowadzić wywiad, (c) przeszkolić osoby, które wystąpią w roli sędziów kompetentnych przenoŁących dane z wywiadu na skale szacunkowe, (d) opracować zestaw skal szacunkowych, którymi będą posługiwać się sęMziowie kompetentni, (e) wypracować kryteria, zgodnie z którymi psycholog będzie uznawał skale lizacunkowe za rzetelne źródło skwantyfikowanych informacji pochodzących i przeprowadzonych wywiadów. Omówmy teraz, pokrótce, wyszczególnione problemy techniczne.
4.1. Opracowanie schematu zbierania danych za pomocą wywiadu Podstawowym źródłem informacji o uwarunkowaniach (zmiennych niezależnych Błotnych) zmiennej zależnej Y jest wywiad. Od jego rzetelności zależeć będzie netelność zebranych przez psychologa informacji o hipotetycznych uwarunkowaniach zmiennej zależnej. Wywiad przeprowadzany jest, przede wszystkim z osoba■i badanymi (np. z chłopcami przejawiającymi antyspołeczne zachowania oraz (Mopcami takich zachowań nie przejawiającymi — badania Bandury i Waltersa; I osobami głoszącymi poglądy antysemickie i osobami głoszącymi poglądy demo■tyczne — badania Adorno i jego współpracowników), a także z osobami znaczącymi dla osób badanych (np. z ich rodzicami — badania Bandury i Waltersa). 443
Wywiad, zwłaszcza zaś gdy sięga do odległej przeszłości, nie jest narzędziem, które jest tak rzetelne jak wy standaryzowany test psychologiczny — zwracał na to uwagę Johnson w swoim bardzo pouczającym opracowaniu Pułapki w badaniu: wywiad jako model przykładowy (1991). Trzeba o tej słabości podstawowego w modelu EPF narzędzia badawczego pamiętać. Przed przystąpieniem do przeprowadzania wywiadu należy wpierw sporządzić — na podstawie dostępnej wiedzy psychologicznej — listę istotnych (z punktu widzenia interesującej badacza zmiennej zależnej Y) kryteriów, które — jeżeli będą różnicowały osoby o wysokim i niskim natężeniu zmiennej zależnej — będą mogły być uznane za wskaźniki zmiennych niezależnych istotnych dla Y, czyli wchodzących do jej O(PY ). Następnie kryteria te badacz obudowuje szczegółowymi pytaniami, które mają umożliwić dotarcie osobie prowadzącej wywiad do informacji, na podstawie których można będzie podjąć decyzję co do stopnia istotności każdego kryterium. Zalecaną formą prowadzenia wywiadu jest ta, która pozwoli uzyskać od wszystkich osób, z którymi przeprowadzany będzie wywiad, informacje na temat wyróżnionych wcześniej kryteriów. Będzie tedy taki wywiad bardziej podobny do kwestionariusza osobowości, aniżeli do swobodnej rozmowy klinicznej. Mówiąc dobitnie, opowiadam się za standaryzowaną formą wywiadu. Podzielam tym samym opinię (por. Macoby, Macoby, 1954), iż wywiad standaryzowany jest bardziej odpowiedni w sytuacjach, w których badacz musi dokonywać porównań interindywidualnych; w takich bowiem przypadkach ważne jest, aby wszystkie uzyskiwane przez osobę prowadzącą wywiad odpowiedzi były ze sobą porównywalne. Co więcej, jednoznaczność pytań zadawanych przez różne osoby prowadzące wywiady sprzyja minimalizacji wariancji międzyosobowej — a o to m. in. chodzi. Im mniej ustrukturalizowana postać wywiadu, tym większe prawdopodobieństwo wystąpienia błędów związanych z osobami prowadzącymi wywiady (np. różnice doświadczenia w posługiwaniu się wywiadem). Każda osoba prowadząca wywiad powinna być zaopatrzona w bardzo szczegółowy kwestionariusz, w którym będzie zapisywała (niezależnie od nagrania magnetofonowego) wszystkie informacje uzyskane od osoby, z którą go przeprowadziła. Przykładowo, kwestionariusze wywiadu z rodzicami oraz chłopcami zastosowane przez Bandurę i Waltersa (1968, por. Aneks A i B, s. 349-367) zawierały odpowiednio 43 i 40 pytań. Przytoczmy, dla ilustracji, treść pkt. 17. z wywiadu przeprowadzonego z rodzicami badanych chłopców (Bandura, Walters, 1968, s. 352): „17. Czy odnosi Pan(i) wrażenie, iż spędza Pan(i) z....... tak samo dużo czasu jak inni ojcowie (inne matki), czy może jeszcze więcej? a. Kiedy Pan(i) przebywa z nim sam(a), co wówczas robicie? b. Czy często zabiera go Pan(i) idąc po zakupy, na przedstawienie, itp.? (Jak często?) c. Czy w takich wypadkach żona (mąż) towarzyszy wam również, czy też raczej Pan(i) idzie wyłącznie z .......? 444
T
d. Czy ...... ma jakieś hobby? Jakiego rodzaju? Chodzi o rzeczy, które by go interesowały i zajęły, kiedy jest w domu. e. Czy znajduje Pan(i) czas na pomaganie mu w tych zajęciach, na pokazy wanie mu jak się te rzeczy robi? Co Pan(i) sam potrafi w tym zakresie? f. A w okresie gdy chodził on jeszcze do szkoły podstawowej, jakiego rodzaju rzeczy robił Pan(i) z nim wspólnie i ile czasu Pan(i) z nim wówczas spędzał? Czy teraz jest inaczej? g. Czy, ogólnie rzecz biorąc, lubi Pan(i), kiedy ...... przebywa razem z Panem(nią), czy też woli Pan(i) raczej, aby gdzieś wyszedł z kolegami? h. A jak Pan(i) sądzi, czy ....... lubi spędzać czas z Panem(nią) na jakichś wspólnych zajęciach lub wychodzić gdzieś razem? i. Czy może zdarzało się kiedykolwiek, że przesadnie chciał spędzać każdą chwilę z Panem(nią)? Jak ta sprawa wyglądała kiedy był młodszy? Co Pan(i) wówczas robił(a)?"
4.2. Przeszkolenie osób prowadzących wywiady oraz sędziów kompetentnych Jedno z ważniejszych przykazań, które powinno być bardzo sumiennie przestrzegane przez każdego badacza sięgającego po wywiad jako narzędzie badawcze (a nie jako metoda diagnostyczno-terapeutyczna stosowana przez klinicystów), brzmi następująco: Badacz znający treść problemów i hipotez badawczych nie może sam prowadzić wywiadu. Dlaczego? Odpowiedź na to pytanie zawarta jest w rozdz. 4., w pkt. 3.: Nastawienie badacza na potwierdzenie hipotezy badawczej — efekt oczekiwań interpersonalnych badacza OIB (wg R. B. Rosenthala). Piszą też o tym przywoływani już Johnson (1991) czy Barber (1991). Badacz pozostający pod wpływem określonego paradygmatu teoretycznego będzie „mimo woli" zwracał większą uwagę na jedne treści wypowiedzi osoby badanej, a inne będzie lekceważył, jako nieistotne z punktu widzenia wyznawanego paradygmatu (np. inna będzie technika prowadzenia wywiadu przez zwolennika paradygmatu behawiorystycznego, a inna przez zwolennika paradygmatu psychoanalitycznego, por. Johnson, 1991, s. 434-435; Barber, 1991, s. 401^03). Kolejne ważne przykazanie: Osoba prowadząca wywiad nie może jednocześnie dokonywać kwantyfikacji odpowiedzi osób badanych. I w tym przypadku uzasadnienie ograniczenia jest takie samo jak wyżej przytoczone. W celu zobiektywizowania zabiegu kwantyfikacji danych jakościowych („surowe" odpowiedzi osób badanych) należy wyeliminować tak poważne źródło wariancji błędu, jakim jest osoba prowadząca wywiad. Gdybyśmy w jej rękach pozostawili zamianę odpowiedzi zapisanych w kwestionariuszu ankiety na dane 445
numeryczne (np. kategorie skal szacunkowych), to musielibyśmy się pogodzić i z tym, że będzie ona skłonna faworyzować pewne osoby poprzez nadawanie większego znaczenia określonym odpowiedziom, bo — jak może racjonalizować swoje postępowanie — jej doświadczenie (np. kliniczne), intuicja i dobry wgląd w osobę badaną „upoważniają" ją do korzystania nie tylko z tego co usłyszała i zapisała w protokole (i co jedynie jest intersubiektywnie komunikowalne!), ale też z danych niewerbalnych. Aby uniknąć takich sytuacji „podrasowywania" danych należy oddzielić funkcję osoby jedynie zbierającej dane od funkcji osoby dane te przetwarzającej. Kolejne przykazanie odnosi się do troski o rzetelność danych ilościowych uzyskiwanych w rezultacie przełożenia odpowiedzi na pytania ankiety (dane jakościowe) na dane liczbowe, które mogą już być przez badacza wykorzystane w porównaniach interindywidualnych (Jaś versus Małgosia) oraz intergrupowych (osoby uprzedzone versus osoby nie uprzedzone): Przekładu danych z wywiadu na dane ilościowe powinny dokonywać, niezależnie, co najmniej dwie osoby o statusie sędziów kompetentnych; nie powinien to być sam badacz, ani też osoby przeprowadzające wywiady. Doszliśmy teraz do bardzo ważnego punktu związanego z takim przeszkoleniem osób dokonujących owego przekładu (a także osób prowadzących wywiady), aby zminimalizować wariancję międzyosobową. Mówiąc inaczej, zanim badacz skieruje swoich współpracowników w teren, aby przeprowadzili wywiady i zanim przekaże zebrane protokoły i taśmy magnetofonowe sędziom kompetentnym, aby dokonali kwantyfikacji danych z tych wywiadów, wpierw musi zadbać o to, aby osoby te były rzeczywiście — a nie tylko z nazwy — kompetentne i do przeprowadzania skomplikowanego wywiadu, i do jego kodowania. Aby uzyskać zadowalający poziom kompetencji tych dwóch kategorii „pomocników" badacz musi przeprowadzić z nimi tzw. trening sędziów kompetentnych. Na konkretnym przykładzie zilustruję na czym polega taki trening. Ryans (1960) w swojej pracy Characteristics of teachers opisał szkolenie sędziów kompetentnych w zakresie posługiwania się skalami szacunkowymi wykorzystywanymi w przekładzie danych z obserwacji pracy nauczyciela w klasie szkolnej na dane ilościowe. Oczywiście, zamiast danych z obserwacji mogą wystąpić dane z wywiadu. Opisany przez niego trening grupowy przyszłych sędziów kompetentnych przebiegał w następujących etapach: (a) instruktor omawia z osobami poddawanymi treningowi podstawowe zagad nienia związane z przeprowadzaniem obserwacji (czy wywiadu), zapoznaje je z różnymi kwestionariuszami wywiadu i arkuszami obserwacyjnym, a także z róż nymi odmianami skal szacunkowych; (b) kandydaci na sędziów kompetentnych sami zapoznają się z budową róż nych skal, kwestionariuszy i arkuszy; (c) wspólnie z instruktorem przeprowadzają próbne obserwacje i niezależnie od siebie dokonują oszacowań; (d) następuje porównanie oszacowań, dyskusja, wyjaśnianie trudności itp.; (e) ponowna wspólna obserwacja, porównywanie oszacowań i dyskusja; 446
(f (f) w końcowej fazie treningu sędziowie kompetentni oraz instruktor
wadzaj przeprowadzają obserwację (Ryans stosował obserwację 45-minutową) tych I badany I samych osób idanych (u Ryansa — nauczycieli), ale w różnym czasie (w
— w t; I I I I I I I I I I I
poprzednich etapach w tym samym czasie) i dokonuje się porównania otrzymanych oszacowań. tora i c Podczas trwania treningu oblicza się korelacje między oszacowaniami uzyski\instruk-)ra i osób poddawanych treningowi. Ryans, po przeprowadzeniu Ja całego treningu, zyskiwał zgodność ocen instruktora i osób szkolonych w Jcomptprzedziale: 0,80-0,90. cowań.Jak już wspominałem, sędziowie kompetentni (co zresztą sugeruje dzą z c określenie: tompetentni") muszą mieć dobre rozeznanie w przedmiocie gowie :dokonywanych osza-jwari. Muszą to być doświadczeni psychologowie na poc.kliniczni, jeżeli badania pocho-z obszaru uwarunkowań zaburzeń (w sen:psychicznych, czy doświadczeni psychologie szkolni, jeżeli badania pytaniadotyczą determinant niepowodzeń szkolnych uczniów początkowym etapie szacunlnauczania szkoły podstawowej. Muszą przecież rozumieć sensie / \ k . i i psychologicznym!) relacje między treścią uzyskiwanych odpowiedzi na lia kwestionariusza wywiadu a treścią opisów poszczególnych punktów skal icunkowych, którymi muszą się posłużyć w trakcie dokonywania przekładu z języka .jakościowego" na język „ilościowy".
4.3. Przygotowanie skal szacunkowych i ich akceptowanie przez badacza Nie mniej ważnym, niż przeszkolenie osób przeprowadzających wywiady i sędziów kompetentnych oraz przygotowanie kwestionariusza wywiadu(-ów), jest opracowanie zestawu skal szacunkowych, na których sędziowie kompetentni będą dokonywać oszacowań. W literaturze przedmiotu przyjął się następujący podział skal szacunkowych (Brzeziński, 1978a, cz. II., rozdz. 4.: Skale szacunkowe, s. 204-220): (a) skale numeryczne, (b) skale graficzne, (c) skale z wymuszonym wyborem, (d) skale skumulowanych ocen. Moim zdaniem, najbardziej przydatne dla naszego celu są dwie pierwsze kategorie skal szacunkowych. Skalę numeryczną stanowi pewien zbiór kategorii opisujących poszczególne punkty określonego kontinuum zmiennej (np. postawy demokratycznej, jak w badaniach Adorno i in.). Kategoriom tym przypisywane są liczby, w określonym porządku sugerującym bądź spadek natężenia danej cechy (zmiennej), bądź jego wzrost. Implicite przyjmuje się, że odległości psychologiczne między wyróżniony| mi kategoriami są równe. Z kolei skalę graficzną stanowi odcinek, poziomy lub pionowy. Krańcom tego odcinka przyporządkowane są pewne kategorie opisowe. Odcinek ten może być [podzielony na pewną liczbę równych części, a punktom podziału mogą być (i zazwyczaj są) przypisane kategorie opisowe. Skale numeryczne i skale graficzne można podzielić na dwie kategorie ze względu na stopień dokładności opisu kategorii krańcowych: 447
(a) punkty krańcowe (zakotwiczenia) są bardzo dokładnie opisane, np. przez podanie próbek określonego zachowania się osób badanych, które, zdaniem bada cza, odpowiada punktom minimum i maksimum na skali; (b) punkty krańcowe są opisane za pomocą takich par słów, jak: „występuje — nie występuje", „brak lęku — duży lęk", lub też, po prostu, jeden kraniec skali oznaczony jest liczbą odpowiadającą minimalnemu natężeniu cechy, a drugi liczbą odpowiadającą jej maksymalnemu natężeniu. Niekiedy badacze posługują się skalami z dokładnie opisanymi wszystkimi punktami. Tego rodzaju skale stosuje się wówczas, gdy zachodzi konieczność zakodowania informacji uzyskanych z wywiadu. I ten sposób postępowania rekomenduję jako najbardziej odpowiedni w przypadku stosowania modelu EPF. Zaczerpnijmy ilustrację z badań Bandury i Waltersa. Wyżej przytoczyłem punkt 17. z kwestionariusza wywiadu z rodzicami. Informacje uzyskane w tym punkcie były przekładane na język ilościowy za pomocą następujących skal szacunkowych: skala 27.: „Ilość czasu spędzanego przez chłopca w towarzystwie ojca (matki) — według oceny ojca (matki)"; skala 28.: „Permisywność ojca (matki) wobec spędzania przez chłopca czasu w jego (jej) towarzystwie"; skala 29.: „Punitywność ojca (matki) wobec chęci chłopca do spędzania czasu w jego (jej) towarzystwie"; skala 30.: „Opór chłopca wobec spędzania czasu z rodzicami." Poniżej dokładnie przedstawiam skalę 29.: „Skala 29. Punitywność ojca (matki) wobec chęci chłopca do spędzania czasu w jego (jej) towarzystwie. (Pyt. 16., 17.). 1. Nie występuje. 2. Raz lub dwa wyłajał(a) lub ośmieszał(a) chłopca z tego powodu. 3. Wypowiedzi świadczą o tym, że chłopiec był w pewien sposób karany za taki rodzaj zachowania dawniej lub w ostatnich latach. 4. Wyraźna wypowiedź świadcząca o tym, że dawniej lub obecnie ojciec (mat ka) sporadycznie karci, wyśmiewa i szydzi («Czy naprawdę nie masz żadnych swoich kolegów?»). 5. Ojciec (matka) w wielu wypadkach stosuje (lub stosował(a) poprzednio) wyżej opisane sposoby karania chłopca. Ewentualnie stosował(a) bardziej surowe kary, kiedy chłopiec był młodszy". Rzetelność każdej skali szacunkowej sprawdzamy w ten sposób, że niezależnych oszacowań na niej dokonuje co najmniej dwóch sędziów. Miarą zaś rzetelności skali jest stopień zgodności niezależnych oszacowań dokonanych przez sędziów kompetentnych. Jeżeli są to tylko dwaj sędziowie, to miarą ich zgodności jest współczynnik korelacji (np. r-Kendalla, por. Brzeziński, 1978a, s. 108-113). Jeżeli natomiast jest ich trzech (i więcej), to należy posłużyć się współczynnikiem zgodności sędziów W-Kendalla (por. rozdz. 15., pkt. 10.). Te skale, dla których współczynnik zgodności jest niski, należy odrzucić. Jaka wysokość współczynników z czy W jest wymagana? Jak najwyższa. W badaniach Bandury i Waltersa (1968), żeby znowu odwołać się do jakiegoś przykładu, dwóch sędziów dokonywało oszacowań materiału empirycznego, uzyskanego z trzech ro448
dzajów wywiadów, na pięciopunktowych skalach szacunkowych. Wartości trzech współczynników korelacji leżały w przedziałach: — dla wywiadu z matkami: 0,67-0,98 (mediana = 0,91), — dla wywiadu z ojcami: 0,64—1,00 (mediana = 0,82), — dla wywiadu z chłopcami: 0,81-0,96 (mediana = 0,83). Przywoływany już Ryans (1960) akceptował zgodność wyrażoną wartością korelacji równą 0,80.
5. Ocena istotności zmiennych w modelu EPF Pewne uwagi na temat empirycznych kryteriów rozstrzygnięcia o istotności zmiennych niezależnych dla danej zmiennej zależnej Y poczyniłem już przy okazji opisywania kolejnych etapów stosowania dwóch wersji modelu EPF. Była tam mowa 0 wskaźniku g-Kendalla i wskaźniku lambda-Goodmana i Kruskala. Tutaj chciał bym, podobnie jak to uczyniłem w przypadku modelu E czy modelu MR, pokazać, jakie testy statystyczne mogą stosować badacze oraz jakie stosują procedury — niekiedy „słabe" — uzasadniania hipotez istotnościowych. W przypadku modelu EPF testem statystycznym, który najczęściej jest stosowany (o ile spełnione są założenia objęte modelem statystycznym tego testu) jest test chi-kwadrat (/2 ). Jeżeli wartość statystyki /2 wpada w obszar odrzuceń hipotezy zerowej, uznaje się daną zmienną za istotną dla zmiennej Y. Natomiast jako wskaźnika stopnia, w jakim dana zmienna Xj jest istotna dla Y, używa się współczynnika korelacji punktowo-czteropolowej (
się procent tych dzieci, które przejawiają trudności w nauce szkolnej; także w grupie dzieci, u których we wczesnym dzieciństwie nie stwierdzono wystąpienia urazów czaszkowych oblicza się procent tych dzieci, które przejawiają trudności w nauce szkolnej. Z kolei oblicza się różnicę między tymi procentami. Różnica przekraczająca arbitralnie przez badacza ustaloną wartość progową jest wskaźnikiem istotności zmiennej Xj dla zmiennej Y. Trudno taką praktykę uznać za modelową, gdyż musielibyśmy odpowiedzieć na pytanie: „Jaka powinna być ta minimalna różnica, by uznać zmienną Xj za istotną dla JT\ Nie jest to pytanie łatwe. Odpowiedź dość popularna wśród badaczy-psychologów stosujących model EPF: „dostatecznie duża" niczego, tak naprawdę, nie rozwiązuje.
6. Wady i zalety modelu EPF Zacznę od wad. Poważną wadą modelu ex post facto jest brak możliwości manipulowania (na drodze randomizacji) zmiennymi niezależnymi istotnymi, gdyż zadziałały już one na zmienną Y w jakiejś chwili th nieraz bardzo odległej od chwili, w której badacz dokonuje pomiaru zmiennej zależnej Y. Tak więc dana zmienna Xj zadziałała na zmienną Y w przeszłości. Mogło to być oddziaływanie jednorazowe, krótkotrwałe, lub też długotrwałe czy wielokrotne, rozłożone w czasie, w pewnym jego interwale. Natomiast badacz może tylko zaobserwować efekty tych oddziaływań po upływie określonego czasu, przy czym zawsze trzeba dopuszczać ewentualność, iż nie będzie to „czysty" obraz wpływów danej zmiennej X } na zmienną Y. Mogło być przecież tak, że na wpływy zmiennej Xj nałożyły się późniejsze wpływy innej zmiennej X„ względnie zmienna X} weszła w interakcję ze zmienną X, i w rzeczywistości badacz obserwuje efekty interakcji zmiennych Xj i X„ a nie wyłącznie efekt oddziaływania zmiennej Xj. Metody zbierania danych i ich opracowywania (wywiady i skale szacunkowe) są dość „grubymi" metodami, wprowadzającymi dużą wariancję błędu. Stosując je badacz może pominąć pewne zmienne de facto istotne dla Y, gdyż niedokładnie spenetrował materiał badawczy. Wreszcie, może on za potencjalną zmienną niezależną istotną dla Y uznać zmienną X„, która de facto nie jest istotna, ale jest obserwowalnym korelatem zmiennej rzeczywiście dla Y istotnej. Metody eliminowania zależności pozornych mogły się w tym wypadku okazać zawodne. Trzeba wreszcie powiedzieć o pewnych niedogodnościach natury praktycznej. Otóż model ex post facto wymaga celowego doboru grup porównawczych (brak możliwości odwołania się do zasady randomizacji przy rozdziale osób do grup porównawczych!). Osoby właściwe z punktu widzenia problemu badawczego i zastosowanej procedury operacjonalizacji trzeba wybrać niekiedy z bardzo dużej, wstępnie przebadanej grupy osób — co zniechęca, zwłaszcza młodych, niecierpliwych badaczy i prowadzi do stosowania „grubych" metod selekcji i analizy danych. Po tych wszystkich uwagach krytycznych dotyczących modelu EPF trzeba, 450
gwoli sprawiedliwości, powiedzieć o jego zaletach. Bywa, iż względy natury etycznej czy technicznej (nie można umieszczać np. dzieci losowo pobranych z populacji w warunkach skrajnej izolacji społecznej, by sprawdzić eksperymentalnie hipotezę traktującą o upośledzającym rozwój psychiczny dziecka wpływie przebywania przez długi okres w warunkach takiej izolacji) nie pozwalają badaczowi na zastosowanie modelu eksperymentalnego do rozwiązania danego problemu badawczego. Trzeba zatem w podobnych sytuacjach zastosować model EPF, zdając sobie iwę z jego niedoskonałości lub też zaniechać badań. Rzecz jasna, opowiemy się za pierwszą propozycją. Krytyczną analizę kontroli zmiennych niezależnych-ubocznych w planach badawczych wywiedzionych z modelu EPF zawiera praca Meełila (1970). Kończąc omawianie modelu EPF przytoczę jeszcze jego ocenę sformułowaną przez Kerlingera w pierwszym wydaniu jego bardzo znanego podręcznika metodologii badań behawioralnych Foundations of behavioral research (1964, s. 372-373 — rozdz. 20.: Ex post facto research; w ostatnim, trzecim wydaniu tej pracy z 1986 r. Kerlinger usunął ten rozdział i rozbudował znacząco rozdziały poświęcone modelowi eksperymentalnemu i wielokrotnej regresji, a problematykę badań ex post przedstawił w rozdz. 22.: Nonexperimental research): „...w psychologii, socjologii i pedagogice podejmuje się wiele badań typu ex post facto — pomimo ich wad — ponieważ sporo problemów badawczych w naukach społecznych i pedagogicznych nie nadaje się do badań eksperymentalnych. Refleksja nad niektórymi ważnymi w badaniach pedagogicznych zmiennymi — jak np. inteligencja, zdolności, doświadczenie, wychowanie w rodzinie, osobowość nauczyciela, atmosfera w szkole — pokazuje, iż są to zjawiska niemanipulowalne. Badanie kontrolowane jest tu oczywiście możliwe, ale prawdziwe eksperymentowanie — nie (...). Nawet gdybyśmy chcieli uniknąć badań typu ex post facto, jest to niemożliwe. Można nawet powiedzieć, iż badania typu ex post facto są ważniejsze niż badania eksperymentalne (nie podzielam tej oceny — J.B.). Nie jest to, oczywiście, obserwacja metodologiczna. Oznacza to raczej, iż większość ważnych problemów badawczych z zakresu nauk społecznych i pedagogicznych nie nadaje się do rozwiązywania na drodze eksperymentalnej, chociaż na wiele z nich można odpowiedzieć poprzez kontrolowane badanie typu ex post facto (...)".
7. Podsumowanie Przedstawiony w tym rozdziale model EPF należy do „najuboższych" modeli badawczych. Niestety nie zawsze jest możliwe odwołanie się do mocnego modelu eksperymentalnego, że jednak możliwe jest uzyskiwanie nawet w przypadku tak słabego metodologicznie modelu użytecznych naukowo informacji, pokazują badania przeprowadzone przez Bandurę i Waltersa oraz Adorno, Frenkel-Brunswik, Le451
vinsona i Sanforda. Czytelnika zachęcam do zapoznania się z monografią: Bandura A., Walters R. H. Agresja w okresie dorastania. Wiadomości na temat wywiadu, podstawowego narzędzia zbierania informacji w modelu EPF, Czytelnik znajdzie w następujących pracach: Brzeziński J., Kowalik S. Charakterystyka wybranych metod diagnozy klinicznej; Gerstmann S. Rozmowa i wywiad w psychologii; Johnson R. F. Q. Pułapki w badaniu: wywiad jako model przykładowy; Nowak S. (red.) Metody badań socjologicznych. Wybór tekstów (rozdz. III.: Wywiad, s. 61-97; rozdz. IV: Problemy budowy kwestionariusza, s. 98-139); Szustrowa T. (red.) Swobodne techniki diagnostyczne. Wywiad i obserwacja; Wallen R. Psychologia kliniczna (rozdz. 5.: Wywiad: dane obserwacyjne, s. 115-132; rozdz. 6.: Przeprowadzanie wywiadu: nawiązywanie kontaktu, s. 133-156).
podstawy konstrukcji testów psychologicznych i interpretacji ilościowej danych testowych
część V
Rozdział 15. Rzetelność i błąd standardowy
1. Wprowadzenie Testy psychologiczne1 należą do najczęściej stosowanych przez psychologów narzędzi pomiarowych. Budzą też — także wśród samych psychologów — skrajne opinie. Zwłaszcza złą „sławą" cieszą się testy inteligencji (pisze o tym m. in. D. Seligman, 1995). Ich konstruktorzy i użytkownicy są krytykowani (co ciekawe, głównie przez osoby nie obeznane z problematyką psychometryczną)2. Testy psychologiczne mają swoich zagorzałych zwolenników, a także równie zagorzałych przeciwników. W Polsce do takich zwolenników i propagatorów testów psychologicznych należał Choynowski, autor pierwszego, ogłoszonego po wojnie artykułu na temat podstaw psychometrycznych testów psychologicznych — Elementy teorii testów psychologicznych (Choynowski, 1959; por. także: Choynowski, 1971b). Zaś krytycznie na temat testów psychologicznych wypowiadał się Kreutz w swoim, dziś niesłusznie zapomnianym, podręczniku: Metody współczesnej psychologii (1962 — rozdz. 10.: Metoda testów psychologicznych, rozdz. 11.: Tjnienność rezultatów testów, rozdz. 12.: Metody badania wiarygodności testów). Uważam, że dziś, po latach rozwoju testów psychologicznych nie ma podstaw do odrzucenia tych specyficznych narzędzi pomiarowych. Trzeba natomiast eliminować z „obiegu" złe testy czy wytwory działalności pseudopsychometrów, którzy bez opamiętania produkują różne „potworki" psychometryczne udające prawdziwe testy sychologiczne. ' Przypomnijmy, iż pojęcie testu psychologicznego zostało wprowadzone do psychologii I przez chologa amerykańskiego, ucznia Wilhelma Wundta, Jamesa McK. Cattella w pracy: I psychok Meniai test and surements (J. McK. Cattell, 1890). Opisał on w niej 10 testów służących rmsiire do pomiaru zdolności nysłowych; były to takie próby, na przykład, jak: szybkość ruchów, czas reakcji czy czas nazywania jw (por.: Strelau, 1987, s. 35). I kolorów 2 Na ten temat pisali m.in. D. Seligman (1995), Nowakowska (1975), Matczak (1994). 2 1 Wiele ntrowersji wywołała praca psychologa Herrnsteina i socjologa Murraya The beli curye. kontrowi której autorzy ykazali. iż rozkłady IQ w badanych grupach białych i czarnych Amerykanów nykazal przesunięte są wzglę-i
455
Trzeba też wskazywać na poprawne zastosowania testów w praktyce badawczej i diagnostycznej, a także — co może jeszcze ważniejsze — na ich nadużycia (a tych wcale niemało). W podręczniku metodologii badań psychologicznych, adresowanym do studentów i doktorantów, nie powinno zabraknąć miejsca na tę ważną problematykę (poświęciłem jej pkt. 4. w rozdz. 6.). Idzie bowiem o to, aby kształtować — zgodnie z przyjętym w tej pracy normatywnym pojmowaniem metodologii — praktykę konstruowania i stosowania testów psychologicznych oraz nie doprowadzić do powstawania artefaktów. Rzecz jasna tematyka psychometryczna jest bardzo rozległa i, tak naprawdę, wymagałaby odrębnej i obszernej monografii (takiej jak prace: Gulliksena, 1950; Lorda i Novicka, 1968; Cronbacha i in., 1972; Cronbacha, 1990; Anastazi, 1982 czy Nunnallyego, 1978). W przypadku włączania treści psychometrycznych do podręcznika metodologii niezbędne jest dokonanie daleko idącej ich redukcji. Nie sposób, i to jeszcze szczegółowo, poruszyć wszystkich zagadnień psychometrycznych. Trzeba dokonać jakiejś selekcji materiału. Kierując się własnym doświadczeniem dydaktycznym i doświadczeniem związanym z konstruowaniem testów psychologicznych postanowiłem, w tym i następnych rozdziałach, skupić się na węzłowych problemach pomiaru testowego tak, aby Czytelnik mógł samodzielnie i poprawnie skonstruować (lub dokonać adaptacji kulturowej) prosty test psychologiczny oraz poprawnie zinterpretować wyniki badania takim testem. Dociekliwy Czytelnik, któremu nie wystarczy niniejszy wykład, będzie mógł sięgnąć po bardziej specjalistyczne opracowania, dostępne także w języku polskim (jak np. Magnusson, 1991; Brzeziński, 1988; Machowski, 1993). Można także rozdziały w tej części podręcznika (15.-20.) potraktować jako przewodnik bibliograficzny po specjalistycznych opracowaniach z zakresu psychometrii. Jedynie psycholog jest przygotowany merytorycznie i uprawniony do posługiwania się testami psychologicznymi, a także do ich konstrukcji czy adaptacji kulturowej. Mówiąc inaczej, to psycholog jest kompetentną3 osobą, która może odpowiedzialnie posłużyć się testem psychologicznym w praktyce badawczej i — w szczególności! — diagnostycznej. Nie wystarczy bowiem wyuczenie się procedury, znowu nie tak skomplikowanej, stosowania jakiegoś testu oraz kilku „szablonowych" interpretacji wyniku testowego. Wynik testowy musi być wkomponowany w określoną teorię psychologiczną, która legła u podstaw konstrukcji testu oraz zakreśla ramy interpretacyjne jego wyniku (por. strukturę świadomości metodologicznej — rozdz. 3., pkt. 3.). Co więcej, taki wynik testowy na ogół współwystępuje z wynikami innych testów psychologicznych czy innych narzędzi pomiarowych, a na badaczu (psychologu!) spoczywa obowiązek integracji teoretycznej tych różnych wyników. Użytkownik musi znać ograniczenia formalne danego testu i uwzględnić je w interpretacji (ostrożnej) teoretycznej. Zatem znajomość teorii W Standardach... (APA, 1985b, s. 12) czytamy: „kompetencja w przypadku badania testem jest wypadkową wiedzy o zasadach psychometrycznych, wiedzy o charakterze sytuacji badania testem, umiejętności technicznych i po prostu ogólnie — zdrowego rozsądku".
456
psychologicznej i teorii psychometrycznej stanowi warunek konieczny sensownego posługiwania się testami psychologicznymi. W sześciu rozdziałach niniejszej części będzie mowa o wybranych zagadnieniach (wywiedzionych z teorii psychometrycznej) odnoszących się do konstrukcji „prawdziwego" testu psychologicznego oraz formalnej interpretacji jego wyniku. 0 danej teorii psychologicznej, w terminach której formalnie zinterpretowany wynik będzie poddany interpretacji, np. klinicznej czy rozwojowej, Czytelnik musi się dowiedzieć ze specjalistycznych opracowań prezentujących określone teorie psychologiczne. Zaś o jego profesjonalizmie świadczyć będzie to, jak udatnie połączy on w jedną „całość" obie interpretacje. Wszelkie wątpliwości związane z psychometrycznymi wymogami stawianymi testom Czytelnik będzie mógł rozstrzygnąć sięgając do „biblii" psychometrycznej — Standardów dla testów stosowanych w psychologii i pedagogice (APA, 1985a). Testy psychologiczne definiowane jako: „zbiory pytań lub sytuacje, służące do badania własności jednostek lub grup ludzkich przez wywoływanie u nich określonych obserwowalnych reakcji werbalnych lub niewerbalnych, będących w miarę możności reprezentatywnymi próbkami ich zachowania się" (Choynowski, 1971b, s. 66) muszą spełniać określone kryteria (APA, 1985a, 1985b). Dwa z nich są podstawowe:4 (a) rzetelność (por. rozdz. 15.), (b) trafność (por. rozdz. 17.). Z rzetelnością testu związany jest: błąd standardowy (por. rozdz. 15., pkt. 3.), który powinien być jak najmniejszy. Od testu wymaga się też, aby był: (c) obiektywny (por. rozdz. 18., pkt. 2.), (d) wystandaryzowany (por. rozdz. 18., pkt. 2., (e) znormalizowany (por. rozdz. 18., pkt. 3.-5.). Pozycje składające się na dany testy musi cechować: moc dyskryminacyjna (wysoka)(por. rozdz. 16.). Badanie przeprowadzone za pomocą jakiegokolwiek testu psychologicznego musi odpowiedzieć na następujące pytania (Choynowski, 1959): (1) Co można powiedzieć o całym, tego samego typu, możliwym zachowaniu się osoby badanej w tym samym czasie? Przykład. Co można powiedzieć o zasobie słownikowym danej osoby, jeżeli podała ona prawidłowe znaczenie 80% słów w teście „Słownik" WAIS-R? (2) Co można powiedzieć o innego typu możliwym zachowaniu się osoby badanej w tym samym czasie? 4 Standardy... (APA, 1985a, s. 8) włączają je do definicji testu psychologicznego: „test jest specyficzną procedurą diagnozowania. Może on być zbiorem zadań lub pytań, które — w standardowych warunkach — mają wywoływać określone rodzaje zachowań i dostarczać wyników o pożądajiych właściwościach psychometrycznych tj. posiadających wysoką rzetelność i trafność" (podkr. —
IB.)
457
Przykład. Co można powiedzieć o zręczności manualnej dziecka, jeżeli badanie go testem polegało na nawlekaniu koralików na drut? (3) Co można powiedzieć o przynależności osoby badanej do jakiejś wyróż nionej, za pomocą innego niż wynik testowy kryterium, grupy? Przykład. Czy rzeczywiście osoba badana, zgodnie ze wskazaniem wyniku testowego, jest osobą depresyjną, uzdolnioną matematycznie, o wysokiej odporności na stres itp.? (4) Co można powiedzieć o pewnych procesach fizjologicznych zachodzących w organizmie osoby badanej? Przykład. Co można powiedzieć o pobudliwości emocjonalnej osoby badanej, jeżeli obrysowuje ona figurę testową drżącą kreską? (5) Co można powiedzieć o zachowaniu się osoby badanej w przyszłości? Przykład. Co można powiedzieć o przyszłych sukcesach w nauce szkolnej badanego ucznia, jeżeli uzyskał on bardzo wysoki wynik w teście uzdolnień matematycznych?
2. Założenia klasycznej teorii rzetelności testów psychologicznych Nie ma nic odkrywczego w stwierdzeniu, że pomiar dokonywany za pomocą jakiegokolwiek testu psychologicznego jest obarczony jakimś błędem. Zatem rzetelność można potraktować jako miarę dokładności pomiaru dokonywanego za pomocą testu. Im wyższa tedy rzetelność testu, tym większa dokładność, z jaką mierzy on daną zmienną i mniejszy błąd pomiaru. Najbardziej rozpowszechnionym wśród psychometrów i jednocześnie najstarszym modelem psychometrycznym testu, który rozwiązuje problem rzetelności testu jest model, zwany klasycznym, zaproponowany przez Gulliksena (1950). Model ten, mimo upływu wielu już lat i opracowania nowszych, bardziej zaawansowanych od strony formalnej i statystycznej modeli (rekonceptualizacja modelu Gulliksena dokonana przez Lorda i' Novicka, 1968; teoria wyników generycznych i teoria uniwersalizacji — por. Cronbach i in., 1972; Item Response Theory — por. Lord, 1980; Hulin, Drasgow, Parsons, 1983; model Mokkena, 1971, także: Machowski, 1993) stanowi podstawę wszystkich liczących się w świecie psychologicznym testów, że wspomnę tylko kilka z nich: wechslerowskie skale inteligencji, MMP1, ACL, 16 PF, kwestionariusze Eysencka, STAI, kwestionariusze temperamentu Strelaua. Dlatego też, a także dlatego, że nowe modele wymagają dobrej znajomości zaawansowanego aparatu statystyki wielowymiarowej (a to znacznie wykracza poza ramy niniejszego podręcznika, który, przypominam, nie jest monografią psychometryczną) ograniczę wykład podstaw psychometrycznych testów psychologicznych do przedstawienia zrębów teorii gulliksenowskiej. Bardziej wnikliwą jej prezentację znajdzie Czytelnik w specjalistycznych pracach dostępnych w języku polskim — 458
por. Magnusson (1991), Nowakowska (1975), Brzeziński (1988), Machowski (1993). Nowakowska (1975) przedstawia też zarys dwóch kolejnych modeli — Lorda i Novicka oraz Cronbacha i in. Przejdźmy zatem do przedstawienia zrębów teorii rzetelności w ujęciu klasycznego modelu testów. Podstawowe równanie Gulliksena teorii testów psychologicznych mówi, iż na wynik otrzymany (X,) składają się (por. równanie 15.1): (a) wynik prawdziwy (XM), (b) składnik błędu (Xe): (15.1)
X, = X„ + X e .
Czym jest, wg Gulliksena, wynik prawdziwy? Otóż jest to „granica, do jakiej zmierza przeciętna wyników /-tej osoby w danej liczbie testów, jeżeli ta liczba testów równoległych (K) wzrasta nieograniczenie" (Gulliksen, 1950, s. 28). Co można zapisać następująco (15.2):
Z* Xig X*= lim ?I V~-
(15-2>
Według Guilforda (1954, w: Brzeziński, 1988, s. 21) „składnik prawdziwy Xoa (inaczej wynik prawdziwy) bywa definiowany w różny sposób. Jednym z nich jest przyjęcie, iż X jest wynikiem osoby badanej otrzymanym w idealnych warunkach lub za pomocą idealnego narzędzia pomiarowego. Innym — że Xoo jest średnim wynikiem danej osoby uzyskanym w nieskończenie wielu niezależnych badaniach tym samym testem. Chociaż praktycznie badanie takie nie jest możliwe, to jednak owo potencjalne podejście eksperymentalne dostarcza podstaw do sformułowania ąuasi-operacyjnej definicji wyniku prawdziwego. Składnik błędu (inaczej: błąd) jest wartością dodatnią lub ujemną będącą funkcją warunków testowania konkretnej osoby w konkretnym badaniu. Źródeł błędu jest wiele i choć niektóre z nich można zidentyfikować, to jednak większość z nich jest nieznanym źródłem zmienności". Taka interpretacja wyniku prawdziwego jako wyniku uzyskanego w idealnych warunkach badania za pomocą idealnego narzędzia bliska jest idei operacjonalizacji zmiennych teoretycznych przedstawionej w rozdz. 7. Równanie 15.2 oparte jest na trzech założeniach (Gulliksen, 1950, s. 6-7): Założenie 1. Średnia arytmetyczna błędów wynosi zero (jxe = 0). Założenie 2. Korelacja wyniku prawdziwego i składnika błędu jest zerowa (/W = 0). Założenie 3. Korelacja składników błędu dwóch równoległych testów jest zerowa {peU2 = 0). Ponieważ średnia sumy nieważonych składników równa jest sumie średnich więc i średnia wyników otrzymanych (X,) równa jest średniej wyników prawdziwych (X„), co jest prostą konsekwencją założenia 1.: X, = X„ + Xe = XM.
(15.3)
Oczywiście w przypadku krótkiej serii pomiarów X e * 0 i X, * X*, ■ 459
Ponieważ wariancja sumy nieważonych składników równa jest sumie wariancji, o ile składniki te nie są skorelowane (a o tym mówi założenie 2.), a zatem wariancja otrzymana (var,) równa jest sumie wariancji prawdziwej (var„) i wariancji błędu (yare): var, = var„ + var e .
(15.4)
Rzetelność (r„) jest to stosunek wariancji prawdziwej do wariancji otrzymanej: r„ = var„lvare.
(15.5)
var„ = var, - var e .
(15.6)
Z równania 15.4 wiemy, iż:
Zatem, po podstawieniu do wzoru (15.5) — w miejsce wyrażenia var M — prawej strony równania (15.6) otrzymamy nowy wzór na r ft : r„ = [var, - vare] I vare = 1 - vare I varP
(15.7)
Stosując statystyczny model analizy wariancji ANOVA można wyliczyć, na podstawie przebadania danym testem jakiejś grupy osób, wartości vare i vart i, po ich podstawieniu do wzoru (15.7), uzyskać wartość r„. Taką metodykę postępowania przy obliczaniu wartości współczynnika rzetelności zastosował Hoyt a ja omawiam ją w pkt. 8.3. Czytelnik zechce zapoznać się z tą metodą. Badacz powinien przestrzegać następującej reguły maksyminowej: var, —> max oraz vare —» min.
(15.8)
Należy zatem, konstruując test tak postępować, aby jak największą proporcję obserwowanej zmienności wyników testu można było wytłumaczyć w kategoriach różnic indywidualnych, a jak najmniejszą proporcję w kategoriach błędu badacza (ten zaś spowodowany jest m. in. wadliwą konstrukcją testu, np. niejasnością sformułowań pozycji testowych, która prowadzi do różnych odpowiedzi na te pozycje nie dlatego, że mierzona cecha przyjmuje dla nich de facto różne wartości, ale dlatego, że dana pozycja nie jest jednoznacznie rozumiana przez wszystkie osoby badane). Dysponując niezależną metodą empirycznego oszacowania wartości rn można wyliczyć, po dokonaniu przekształceń, z wzoru (15.7) wartość var e : rnvart = vare = var e = var,(\ - r n ).
var, var,
-
vare, rnvarn (15.9)
Jeżeli wyciągniemy pierwiastek z lewej i prawej strony równania (15.9), to otrzymamy wzór na błąd standardowy pomiaru (SEM — ang. standard error of measuremenf):
460
SEM = SD, Vl-r„ ,
(15.10)
gdzie: SD, — odchylenie standardowe rozkładu wyników testowych (X,) w badanej próbie; rn — współczynnik rzetelności testu obliczony jedną z metod opisanych w pkt. 5.-10. niniejszego rozdziału. SEM, mimo że jest najczęściej obliczanym przez psychologów błędem, to nie jest jedynym możliwym do oznaczenia, w ramach klasycznej teorii testów, błędem standardowym. Jest on natomiast stosowany w procedurach estymacji przedziałowej wartos'ci wyniku prawdziwego, mimo że nie zawsze jest to merytorycznie uzasadnione. Warto tedy, aby psychologowie przystępujący do konstrukcji jakiegoś testu psychologicznego przynajmniej zdawali sobie sprawę z tego, że obliczenie SEM nie wyczerpuje wcale możliwości estymacji wyniku prawdziwego. Różne odmiany błędu standardowego omawiam w następnym punkcie.
3. Odmiany błędu standardowego W praktyce pomiarowej opartej na klasycznej teorii testów (por. równanie 15.1 i 15.4) najczęściej wykorzystywany jest tylko jeden z błędów standardowych, a mianowicie błąd standardowy pomiaru SEM, którego wyprowadzenie przedstawiłem w pkt. 2. niniejszego rozdziału. Jest on określany wzorem (15.10). Różne odmiany błędu standardowego (oraz wskazanie sensownego ich wykorzystania w praktyce pomiarowej) zostały kompetentnie przedstawione w pracy Machowskiego (1993). Jest to jedyne w polskiej literaturze psychometrycznej opracowanie problemu błędów standardowych. Zauważmy jeszcze, że popularny wykład psychometrii w pracy Magnussona (1991) zawiera omówienie tylko SEM. Prezentując różne rodzaje błędów standardowych i omawiając zakres ich sensownego wykorzystania w praktyce szacowania wartości X„ opierałem się na monografii Machowskiego (1993, s. 26-37): Rzetelność testów psychologicznych. Dwa ujęcia modelowe. Omawia on następujące rodzaje błędów standardowych: (1) błąd pomiaru wyniku otrzymanego, (2) błąd estymacji wyniku prawdziwego, (3) błąd pomiaru wyniku prawdziwego, (4) błąd prognozy, (5) błąd zastąpienia.
3.1. Błąd pomiaru wyniku otrzymanego Ten rodzaj błędu został przedstawiony w pkt. 2. i określony jest wzorem (15.10) a SEM jest definiowany jako odchylenie standardowe rozkładu różnic: Xt - Xoa. 461
3.2. Błąd estymacji wyniku prawdziwego Estymacji wyniku prawdziwego dokonuje się wg wzoru ( 1 5 . 1 1 ) :
X'„ = rIIXl+(]-r„)Xl.
(15.11)
Błąd estymacji wyniku prawdziwego SEE dany jest wzorem (15.12): (15.12) gdzie: SEM — błąd pomiaru wyniku otrzymanego dany wzorem (15.10). SEE jest różnicą między estymowaną przez badacza wartością wyniku prawdziwego a jego rzeczywistą wartością: trY'„ -XJ\ Jest to błąd powstały na skutek niedokładności odtworzenia faktycznej wartości wyniku prawdziwego. SEE jest odchyleniem standardowym rozkładu z próby różnicy „A"„-X„".
3.3. Błąd pomiaru wyniku prawdziwego Dokonując pomiaru testowego uzyskujemy określone wartości wyniku otrzymanego (X,). Na tej podstawie możemy dokonywać estymacji wartości wyników prawdziwych (X„). W rzeczywistości jest jednak tak, że osoby o identycznych wynikach prawdziwych (A"*„) mogą otrzymywać różne estymowane wyniki prawdziwe (X'„), gdyż uzyskały one różne wyniki otrzymane (X,). Owa rozbieżność zachodząca między estymowanymi wynikami prawdziwymi (A"^) uzyskanymi przez osoby o identycznych wynikach prawdziwych (X*„), to właśnie błąd pomiaru wyniku prawdziwego SEM^ (15.13): SEM^ = r„SEM,
(15.13)
gdzie: SEM — błąd pomiaru wyniku otrzymanego dany wzorem (15.10). SEM„ jest odchyleniem standardowym rozkładu z próby różnic: )t X'„-X*„". X*cok to k-ta średnia estymowanych wyników prawdziwych osób badanych, które uzyskały ten sam wynik prawdziwy. Między tymi dwoma wynikami zachodzi następujący związek: Y*
— r Y
+ {} — r ~\Y
f 1 *5 141
3.4. Błąd prognozy SEP związany jest z formułowaniem prognozy wyniku testu równoległego (X*,) na podstawie wyniku danego testu (Xrl). Ten błąd, to różnica owych dwóch wyników: SEP dany jest wzorem (15.15): 462
rtt,
(I5.i 5 )
gdzie: SEM — błąd standardowy pomiaru wyniku otrzymanego dany wzorem (15.10).
3.5. Błąd zastąpienia Z błędem zastąpienia SES mamy do czynienia wówczas, gdy dokonując prognozy wyniku otrzymanego w jednym teście równoległym na podstawie wyniku otrzymanego w drugim teście zakładamy, że wynik w teście równoległym (Xt) jest równy wynikowi w drugim teście (X,). SES jest więc różnicą: ,JC, - 1T"- Jesl on odchyleniem standardowym rozkładu z próby owych różnic (15.16): SES = SEM-l2,
(15.16)
gdzie: SEM — błąd standardowy pomiaru wyniku otrzymanego dany wzorem (15.10).
3.6. Analiza porównawcza błędów Czytelnik zechce zapewne zadać teraz pytanie o konkretne sytuacje, w których sensowne jest oparcie się na wartości danego błędu przy szacowaniu wartości wyniku prawdziwego. Już na pierwszy rzut oka widać, że w zależności od przyjętego błędu otrzymamy różne wartości oszacowania wyniku prawdziwego. Rzecz jasna, w warunkach idealnych wszystkie błędy są sobie równe i mają lę samą wartość, tzn. zero. Przeprowadzona przez Machowskiego (1993, s. 33-36) symulacja pokazała, że w sytuacji gdy r„< 1,0 błędy można uporządkować wg ich wielkości (15.17): SEM^ < SEE < SEM < SEP < SES.
(15.17)
Trzy błędy: SEM, SEP i SES monotonicznie rosną w miarę spadku wartości współczynnika r„. Pozostałe dwa zachowują się dość osobliwie. Początkowo, wraz ze spadkiem rzetelności testu do wartości rtt = 0,5, SEE wzrasta i przyjmuje największą wartość dla r„=0,5. Następnie także i jego wartość spada wraz ze spadkiem rzetelności testu. W przypadku błędu SEM^ ten punkt przegięcia znajduje się w r„ = 0,6 - 0,7. Przeprowadzona symulacja pokazała także, że: „podział testów na «gorsze», tj. o rzetelności mniejszej niż 0,5 i «lepsze», tj. o rzetelności większej niż 0,5, nie opiera się na przypisywaniu jakiegoś magicznego znaczenia wartości rzetelności wynoszącej akurat połowę maksymalnej wartości, ale że ów podział ma bardzo dobre uzasadnienie teoretyczne i jest ważny z praktycznego punktu widzenia (...) Z tych powodów rzetelność równa 0,5 powinna być traktowana jako dolna dopuszczalna granica rzetelności" (Machowski, 1993, s. 36). 463
Wybór właściwego błędu ma wpływ na dokładność przedziałowej estymacji wyniku prawdziwego — o czym traktuje następny punkt.
3.7. Punktowa i przedziałowa estymacja wyniku prawdziwego Psycholog może skorzystać z dwóch metod estymacji wyniku prawdziwego: (a) estymacja punktowa, (b) estymacja przedziałowa. Estymacja punktowa przeprowadzona jest z wykorzystaniem modelu regresji liniowej. Aby dokonać takiej estymacji niezbędna jest znajomość trzech elementów: wyniku otrzymanego w teście (X,), współczynnika rzetelności testu (r„), średniej wyników otrzymanych w teście z próby (X,) (por. Choynowski, 1971b, s. 111): X'„ = X,+ r„(XI-X,) = rnXt + (1 -r„)X,.
(15.18)
Zauważmy, że w przypadku testu o idealnej rzetelności, tj. gdy r„= 1,0, A"» = X,. Także wariancja prawdziwa będzie równa wariancji otrzymanej. Z kolei w przypadku testu idealnie nierzetelnego, tj. gdy r„ = 0,0, X'„ = Xti a wariancja prawdziwa będzie równa zero. Gdy 0,0
< 1,0, to: (a) estymowany wynik prawdziwy będzie wyższy od otrzymanego — gdy wynik otrzymany będzie niższy od średniej, (b) estymowany wynik prawdziwy będzie niższy od otrzymanego — gdy wynik otrzymany będzie wyższy od średniej. Dokonując jednak, w praktyce, estymacji punktowej wyniku prawdziwego, nie wiemy ani tego czy uzyskany wynik jest niższy czy wyższy od faktycznego wyniku prawdziwego, ani tego o ile jest on różny od wyniku prawdziwego. Z tego też powodu większym uznaniem cieszy się druga metoda. Estymacja przedziałowa oparta jest na idei przedziałów ufności budowanych przez statystyków z myślą o estymacji wartości parametrów populacji na podstawie znajomości wartości statystyk z próby, takich jak średnia arytmetyczna, odchylenie standardowe itp. (por. np. Greń, 1987). Aby zbudować przedział ufności, który obejmowałby nie znaną wartość wyniku prawdziwego, psycholog powinien znać: wynik otrzymany, współczynnik rzetelności testu, błąd standardowy. Mimo krytycznych uwag psychometrów (por. Nunnally, 1978, s. 218; Choynowski, 1971b, s. 112; Machowski, 1993, s. 37) prawie powszechna stała się praktyka budowania przedziału ufności symetrycznego względem wyniku otrzymanego (wychodząc od błędu standardowego pomiaru wyniku otrzymanego SEM — por. wzór 15.10), a nie względem estymowanego wyniku prawdziwego (wychodząc od błędu standardowego estymacji wyniku prawdziwego SEE — por. wzór 15.12). Nunnally (1978), G. Fisher (1974), Machowski (1993) rekomendują budowanie przedziału ufności opartego na estymowanym wyniku prawdziwym. Jakie są dla owej rekomendacji racje? Po pierwsze, estymowane wyniki prawdziwe są na pewno bliższe faktycznym wynikom prawdziwym, aniżeli wyniki otrzymane. Po drugie, „w grupie osób z wysokimi wynikami przeważają dodatnie błędy pomiaru, u osób 464
zaś z niskimi wynikami — ujemne, skutkiem czego wysokie wyniki otrzymane skupiają się powyżej wyników prawdziwych, a niskie poniżej" (Choynowski, 1971b, s. 112). Przedstawię jednak obie metody przedziałowej estymacji wyniku prawdziwego, aby Czytelnik mógł dokonać samodzielnego wyboru jednej z nich. Przedział ufności symetryczny wokół wyniku otrzymanego Jego konstrukcja jest następująca: X„e <Xt-ZaaSEAf] X, + ZanSEM>y
(15.19)
gdzie: z^ — wartość statystyki z rozkładu normalnego dla danego poziomu ufności (l-a)100%. I tak, np. dla cr=O,O5 mamy 95% przedział ufności o zo.os/2 = 1»96. SEM dany jest wzorem 15.10. Tę metodę budowania przedziału ufności wykorzystano w rozdz. 19. pkt. 3. w procesie analizy intraprofilowej. Przedział ufności symetryczny wokół estymowanego wyniku prawdziwego Jego konstrukcja jest następująca: X„ e < X'„ - Zrt/SEE; X'„ + z^SEE >,
(15.20)
ponieważ (por. 15.11): X'„, = r„X,+ (1 - r„)X„ więc wzór (15.20) można przekształcić we wzór (15.21): X. € < r„X, + (1 - rn)X, - ZatiSEE; rtJXt + (1 - r„)X, + zdlSEE >.
(15.21)
Budowę przedziału ufności wg wzoru (15.21) zaleca się (np. Machowski, 1993, s. 37) dla wyników testów o r„>0,5. Czy popełnia się duże „przestępstwo" odstępując od budowania przedziału ufności wg wzoru (15.21)? Zdaniem Choynowskiego (1971b, s. 112) — nie. Według niego bowiem: „ściśle rzecz biorąc, do estymacji przedziału powinniśmy stosować nie błąd standardowy pomiaru s B {w naszej terminologii: SEM — przyp. ].B.) lecz błąd standardowy estymacji s E (w naszej terminologii: SEE — przyp. 7.B.), wszakże nie czynimy tego, aby uniknąć skomplikowania nie mającego wielkiego znaczenia praktycznego, gdyż różnica liczbowa między tymi dwoma błędami nie jest duża". Ta różnica wyraża się wzorem (15.22): SEE = SEM V^.
(15.22)
Choynowski (1971b, s. 112) obliczył 95% przedział ufności dla Skali Neurotyczności kwestionariusza MPI Eysencka (r„ = 0,88; SEM = 4; X,= 24,31, X, = 30). Przedział ufności, symetryczny względem wyniku otrzymanego, wynosił od 22 j do 37 pkt.: przedział ufności, symetryczny względem estymowanego wyniku prawdziwego, wynosił od 22 do 38 pkt. Jak widać różnica była nieznaczna. Jest ona tym mniejsza, im mniej wyniki otrzymane odbiegają od średniej. Na co zwracamy uwagę przy budowaniu przedziału ufności? Przede wszystkim, na poziom ufności. Im bardziej jest on „wyśrubowany", tym bardziej wzrasta nasza pewność (ufność), że zbudowany przedział (symetrycznie wokół albo wyniku otrzymanego, por. wzór 15.20, albo wyniku prawdziwego, por. wzór 15.21) będzie 465
pokrywał nie znaną, a poszukiwaną przez nas wartość wyniku prawdziwego. „Decydują" o tym wyrażenia: łTzaQ5£Mtł we wzorze 15.20 i „^SEE" we wzorze 15.22. Jeżeli bowiem przejdziemy od wyższego poziomu ufności P = S5% (zo.isn1,44) do niższego P = 99% (zool/2;=2,58), to granice przedziału wydłużą się, gdyż stałą wartość błędu standardowego będziemy przemnażać — przy obliczaniu wartości jego dolnej i górnej granicy — nie przez 1,44, ale przez 2,58. Zatem ceną, jaką musimy „zapłacić" za wzrost pewności jest spadek precyzji estymacji (zamiast „krótkiego" otrzymujemy „długi" przedział ufności). Z kolei, gdy chcemy uzyskać precyzyjniejszą estymację wyniku prawdziwego (krótszy przedział ufności), to musimy wstawić do wzoru na przedział ufności wartość z„n. jak najniższą — zamiast Z = 2,58 dla P = 99%, wartość z= 1,0 dla P = 68%. Jednak co z tego, że będziemy dysponowali krótkim przedziałem ufności, dającym precyzyjną estymację wyniku prawdziwego, gdy zaufanie do uzyskanego wyniku jest niskie? No cóż, badacz musi znaleźć złoty środek między precyzją estymacji i stopniem zaufania do niej. Nie można podać jednej prostej reguły postępowania. Można jednak sformułować w miarę ogólną dyrektywę. Może ona brzmieć następująco: jeżeli wynik prowadzonego badania nie będzie miał groźnych dla osoby badanej następstw lub gdy prowadzone przez nas badania mają charakter pilotażowy, to wybierajmy krótsze przedziały ufności (oparte na niskich wartościach statystyki tan). Jeżeli zdecydujemy się — w takich sytuacjach badawczych, które nie są groźne w ewentualne przykre konsekwencje dla osoby badanej — na wybór poziomu ufności (rekomendowanego przez np. Choynowskiego, 1971, s. 111) f-68%, to zbudowanie przedziału ufności sprowadzi się do prostej operacji odjęcia i dodania do wyniku otrzymanego wartości błędu standardowego, gdyż Zoj2/2=1.O- Interpretacja przedziału ufności jest bardzo prosta. Mówimy, że przedział ufności obejmuje (zawiera w sobie), z prawdopodobieństwem 1-a, szacowany wynik prawdziwy testu. Rekomendowane przez statystyków i psychometrów poziomy ufności 1 - a, to: 0,68 (z = 1.0); 0,85 (z= 1,44); 0,90 (z= 1,64); 0,95 (z= 1,96); 0,99 (z = 248); 0,999 (2 = 3,29) (Greń, 1987, s. 302; Choynowski, 1971, s. 111; Brzeziński, Gaul, 1993, s. 112). Przytoczmy jeszcze, na koniec, zalecenie Standardów... (1985a, s.80): standard J.2.2. „Interpretując wyniki testowe trzeba brać pod uwagę raczej ich przedziały ufności niż ich wartości absolutne".
4. Sześć empirycznych metod estymacji rzetelności testu psychologicznego Wyróżniam sześć empirycznych metod estymacji rzetelności testu psychologicznego (co obejmuje, z grubsza, metody wymieniane w opracowaniach z zakresu psychometrii, np. Guilford, 1954; APA, 1985a, 1985b; Nunnally, 1978; Magnusson. 1991; Choynowski, 1971). Metodom tym poświęcone są punkty 5.-10. niniejszego rozdziału. 466
Stosunkowo najwięcej miejsca przeznaczam na omówienie metody wykorzystującej statystyczny model analizy wariancji ANOVA, gdyż uważam (podobnie: Winer, 1971; Machowski, 1993 czy Cronbach i in., 1972), iż umożliwia ona dokonanie najpełniejszego wglądu we właściwości statystyczne samego testu, jak i jego „składowych" czyli poszczególnych pozycji (ang. items). Powszechna (prawie) dostępność do łatwego w użyciu oprogramowania komputerowego przeznaczonego dla komputerów osobistych klasy IBM sprawia, że metodę tę można spokojnie rekomendować każdemu psychologowi, który posiadł umiejętność korzystania z jakiegoś pakietu statystycznego, np. SPSS PC+. Sześć wspomnianych metod to: 1. Metody oparte na porównaniu dwukrotnych badań tym samym testem (ang. test-retest reliability). Te metody są bardzo zawodne (na co zwracali już uwagę: Kreutz, 1962 czy Nowakowska, 1975), gdyż trudno (o ile w ogóle jest to możliwe) spełnić założenie 0 „równoległości" warunków badania „testu" i „retestu". 2. Metody oparte na porównaniu form alternatywnych (równoległych) testu (ang. alternate-forms method; parallel-tests method; equivalent forms method). 3. Metody oparte na porównaniu części (połówek itp.) tego samego testu (ang. split-half reliability). Najczęściej połówki tworzy się w ten sposób, iż jedna składa się z pozycji testowych o numeracji nieparzystej (1, 3, 5, ...; ang. odd-numbered test items), a druga z pozycji testowych o numeracji parzystej (2, 4, 6, ...; ang. even-numbered test items) — stąd inna, skrótowa, angielska nazwa tej metody: odd-even reliability. 4. Metody oparte na analizie właściwości statystycznych pozycji testowych (ang. internal reliability). W tej bardzo rozbudowanej grupie metod mieści się metoda Cronbacha (a), ale także metoda Kudera i Richardsona (wzory: K-R 20. i K-R 21.), Hoyta, Winera, Brzezińskiego. Oczywiście nie są to metody całkowicie równoległe, mimo że zaliczone do tej samej grupy metod. W zależności od charakteru testu należy dobrać najbardziej odpowiednią (w sensie spełniania przez dane testowe i warunki stosowania testu odpowiednich założeń, np. testy szybkości versus testy mocy) metodę. Osobiście polecam z tej grupy metod: metodę Winera (Winer, 1971) czy własną (por. Brzeziński, 1984b; także Machowski, 1993). 5. Metody oparte na analizie związku pozycji testowych z ogólnym wynikiem testu. W tej grupie metod godna polecenia jest metoda Spearmana-Brówna. Oczywiście, dane narzędzie z założenia traktowane jest jako jednorodne, np. czynnikowe 6. Grupa metod oparta na badaniu stopnia zgodności sędziów kompetentnych 1 oceniających odpowiedzi testowe. Polecam dwie metody z tej grupy: współczynnik zgodności sędziów W-Ken_ dalia oraz metodę analizy wariancji (por. Brzeziński, Maruszewski, 1978a). Tyle, jeśli chodzi o, w pewien sposób usystematyzowany, przegląd metod badania rzetelności testu. 467
Nie ma jednej, uniwersalnej metody estymacji współczynnika rzetelności, która zawsze będzie odpowiednia. Pogłębione badanie rzetelności testu wymaga zastosowania kilku, wzajemnie się uzupełniających metod (podobnie jak badanie trafności). Chciałbym jeszcze zaznaczyć, że to, co będę tu pisał na temat metod estymacji rzetelności testu odnosić się będzie do tzw. klasycznego modelu testu Gulliksena, o którym pisałem w pkt. 2. i 3. niniejszego rozdziału. Zatem, aby zbadać rzetelność jakiegoś testu nie wystarczy wprowadzić uzyskanych z badania próby standaryzacyjnej wyników do komputera i dostępnym programem psychometrycznym obliczyć wartość dowolnego, dostępnego w oprogramowaniu współczynnika (w przypadku SPSS PC+ jest to współczynnik Cronbacha).
5. Metody oparte na porównaniu dwukrotnego badania tym samym testem Dwukrotne przeprowadzenie badania tej samej grupy osób tym samym testem należy do najbardziej rozpowszechnionych metod badania jego rzetelności. Badanie może być przeprowadzone na dwa sposoby: (a) między badaniem pierwszym (test) oraz drugim (retest) — stąd popularna nazwa metody: test-retest — mija jakiś czas (procedura nie przewiduje określone go, standardowego odstępu czasu), np. 1 tydzień; (b) badanie drugie następuje zaraz po zakończeniu badania pierwszego. W pierwszym przypadku mówimy o estymacji stabilności bezwzględnej testu (używana jest też nazwa - stałość testu), zaś w drugim (np. Choynowski, 1971b. s. 84) o estymacji wiarygodności testu. Badanie wiarygodności testu cechuje w zasadzie więcej wad, aniżeli zalet. Dlatego nie jest on nazbyt często stosowaną miarą rzetelności. W pełni tedy zgadzam się z dokonaną przez Choynowskiego (tamże, s. 89) oceną tej metody: „na wariancję błędu przy dwukrotnym badaniu raz po raz w ciągu tej samej sesji składają się przede wszystkim chwilowe oscylacje funkcji, wszakże nie można całkowicie pominąć stanu organizmu, niewątpliwie bowiem należy się liczyć z takimi czynnikami, jak pamięć poprzedniego badania i nabyta przy nim wprawa (które zresztą w różnych testach grają różną rolę), a także zapewne zmęczenie lub zmiany w motywacji (nie mówiąc o losowej reszcie błędu)". Tą metodą badania rzetelności testu możemy się posłużyć, gdy jesteśmy pewni, że czynnik pamięci nie miał wpływu na wyniki retestu, np. w badaniu czasu reakcji jako wskaźnika wykonania testu. Generalnie rzecz biorąc, nie polecam tej metody badania rzetelności testu, a omawiam ją tutaj tylko dlatego, że jeszcze spotyka się opracowania testów, w których właśnie w ten sposób badano rzetelność. Jako miarę wiarygodności testu przyjmuje się współczynnik korelacji dwóch 468
zbiorów wyników, pochodzących z dwukrotnego (test i retest) badania tej samej grupy osób. Badanie stabilności bezwzględnej (inaczej stałości) testu przypomina badanie jego wiarygodności. Jedyna różnica związana jest z przerwą, która dzieli pierwsze badanie (test) od drugiego (retest). Jest to też najpoważniejsze źródło kłopotów metodologicznych. Otóż nie określono jednolitych wymagań co do długości przer wy oddzielającej jedno badanie od drugiego. Musimy sobie zdawać sprawę z tego, że im krótszy będzie ten odcinek czasu, tym wyższego należy się spodziewać współczynnika korelacji między dwoma zbiorami wyników. Będzie to szczególnie drastycznie widoczne w tych testach, w których dużą rolę odgrywa czynnik pamię ci, np. w teście „Wiadomości" WAIS-R. Załóżmy, że w teście tym znajduje się pozycja (której tak naprawdę w tym teście nie ma!) o następującej treści: „W któ rym roku Cronbach opublikował artykuł na temat współczynnika rzetelności er?" Przeciętny student psychologii badany tym testem zapewne nie odpowie na to py tanie. Ale, dręczony swą niewiedzą, po powrocie do domu zajrzy do podręcznika psychometrii, albo do niniejszego podręcznika i dowie się, że chodzi o rok 1951. Zapytany o to samo w trakcie powtórnego badania, odpowie prawidłowo, jeżeli badanie to będzie miało miejsce po upływie niezbyt długiego czasu (np. 2 tygodni) od badania pierwszego. Być może znowu na nie nie odpowie, jeżeli badania dzieliła dłuższa przerwa, np. 2 miesiące. Ponadto niebagatelną rolę odgrywają tu różnice indywidualne w zakresie pamięci osób badanych. Ale co to za metoda (naukowa!), jeżeli zależna jest od dwóch czynników subiektywnych: (a) czynnika związanego z osobą badacza — bo to badacz decyduje kiedy powtórzyć badanie i (b) czynnika związanego z osobą badaną — bo to stan pamięci osoby badanej także wpływa na wysokość wyniku ogólnego drugiego badania. W grę wchodzi jeszcze trzeci czyn nik zakłócający związany z niemożnością pełnego odtworzenia warunków, w któ rych przebiegało pierwsze badanie. Zgadzam się tedy z tym, co pisze Nowakowska (1975, s. 38): ...... możliwy wpływ różnych czynników ubocznych, takich jak zapa miętywanie, uczenie się, ewentualne różnice w warunkach badania itp. stawiają pod znakiem zapytania adekwatność założenia równoległości". I jeszcze jedna opinia na temat tej metody (APA, 1985a, s. 58-59): „Ograniczenia natury praktycznej oraz teoretycznej sprawiają, że nie jest to pożądana technika oceniania rzetelności. Dzie je się tak dlatego, że badani odpowiadając po raz drugi mogą pamiętać swoje poprzednie odpowiedzi. W ten sposób pamięć staje się systematycznym źródłem wariancji. W efekcie korelacja między dwoma zbiorami wyników może okazać się : wyższa niż korelacja dwóch zbiorów wyników otrzymanych dzięki użyciu paralelaych wersji testu (...) w technice test-retest na uzyskany rezultat wpływa nie tylko j zmienność wynikająca z losowego odpowiadania i zmian w cechach i funkcjach i osób badanych, lecz również różnice w badaniu testem (zwłaszcza wprowadzone przez różne osoby badające za pierwszym i drugim razem)".
469
6. Metody oparte na porównaniu form alternatywnych (równoległych) testu Jeżeli psycholog, konstruujący test i badający jego rzetelność, nie jest w stanie dopełnić warunku równoległości testu i retestu — z powodów wyłożonych w poprzednim punkcie — to może on postąpić inaczej, a mianowicie może skonstruować dwa identyczne testy. Określa się je mianem testów równoległych, paralelnych (ang. parallel tests, alternate forms of test). Jakie testy możemy określić mianem testów równoległych? Otóż takie, które spełniają następujące kryteria (Gulliksen, 1950; Guilford, 1954): (a) równość średnich wyników badania jednym i drugim testem, (b) równość wariancji, (c) równość interkorelacji pozycji każdego z obu testów. Dodatkowo należałoby wprowadzić jeszcze jedno kryterium (Yaremko i in., 1982, s. 169) — (d) tej samej korelacji wyniku ogólnego z kryterium zewnętrznym (aspekt trafności). Zdaniem Gulliksena, dla określenia równoległości testów najlepiej wyjść od trzech form równoległych i w wyniku przeprowadzonych analiz (zwłaszcza analiz trzech par macierzy interkorelacji — AB, AC, BC) wybrać dwie najbardziej równoległe formy tego samego testu. Technika badania rzetelności przypomina bądź badanie wiarygodności testu (badanie drugą formą testu następuje bezpośrednio po badaniu pierwszą formą), bądź badanie stabilności bezwzględnej testu (badanie drugą formą testu oddziela od badania formą pierwszą pewien czas). Łączy zatem badanie prowadzone za pomocą form równoległych cechy badania wiarygodności i stabilności bezwzględnej. Choynowski (1971b, s. 96) określa tę metodę estymacji rzetelności testu mianem stabilności bezwzględnej. Zauważmy, że w przypadku badania rzetelności metodą testów równoległych badacz musi uwzględnić dodatkowe źródło wariancji, którego nie musiał brać pod uwagę, gdy badał wiarygodność lub stabilność bezwzględną testu. To dodatkowe źródło wariancji związane jest z treścią pozycji, która przecież nie jest identyczna w obu testach. W efekcie nie można oczekiwać, że testy te będą dawały identyczne wyniki prawdziwe. Tak naprawdę, to pozycje do obu wersji powinny być niezależnie wylosowane z jakiejś dużej populacji pozycji, a tego przecież na ogół psychologowie nie robią. Autorzy Standardów... (APA, 1985a, s. 63) wyraźnie akcentują: „...jeżeli jednak zastosuje się (w miejsce techniki losowania pozycji — przyp. J.B.) technikę dopasowywania pozycji do pozycji lub jeśli druga forma będzie tworzona jedynie przez zmianę frazeologii (stylu) pierwszej, to otrzymane podobieństwo między formami testu będzie w sposób sztuczny zawyżone. Współczynnik rzetelności tak tworzonych form będzie również zawyżony, ponieważ nie będzie uwzględniał błędu wynikającego z losowania pozycji z uniwersum pozycji testowych". Badanie stabilności względnej prowadzi do ustalenia dolnej granicy rzetelności testu. Współczynnik r„ ustalony tą metodą będzie najniższy z wszystkich możliwych do ustalenia, za pomocą innych metod, współczynników rzetelności. Jest to więc —jak pisze Choynowski (1971b, s. 97) — „metoda nąjostrożniejsza".
470
7. Metody oparte na porównaniu części (np. połówek) tego samego testu Test można podzielić na pewną liczbę części. W skrajnych przypadkach będą to: (a) dwie części — inaczej: połówki, (b) n części — inaczej: pojedyncze pozycje testu. Szczególną uwagę psychometrów zwrócił podział na dwie części, a metoda obliczania rzetelności na podstawie oddzielnego badania wpierw jedną połówką testu, a zaraz potem drugą nosi nazwę metody połówkowej (ang. split-half reliability). Współczynnik korelacji między wynikami obu połówek testu nosi nazwę współczynnika równoważności międzypołówkowej (Choynowski, 1971b, s. 97). Nie każdy jednak podział na połówki spełnia kryteria metody. Dobry podział, to taki, który gwarantuje włączenie do każdej połówki pozycji jak najbardziej do siebie podobnych nie tylko pod względem parametrów statystycznych (takich jak trudność, wariancja), ale także równoważnych pod względem treściowym. Połówki zaś traktowane są tak, jak testy równoległe opisane w poprzednim punkcie. Nie można tedy tą metodą obliczać współczynnika rzetelności testów szybkości5, gdyż nie wszystkie osoby badane odpowiedzą, przy założonym limicie czasu, na tę samą liczbę pozycji. W macierzy wyników testowych będą puste pola, odpowiadające pozycjom testu nie rozwiązanym przez osoby badane. Można tedy badać nią jedynie rzetelność testów mocy. Nie można też tą metodą posłużyć się wówczas, gdy test nie jest pod względem treściowym testem homogenicznym. Najbardziej znanym sposobem przepołowiania testu jest, po uporządkowaniu I pozycji wg stopnia ich trudności, wyodrębnienie podzbioru pozycji o numeracji nieparzystej (1, 3, 5, 7, itd.) oraz podzbioru pozycji o numeracji parzystej (2, 4, 6, 8. itd.). Stąd wzięła się angielska nazwa metody — odd-even reliability. Jeżeli pozycje nie są jednolite pod względem treściowym — test jest heterogeniczny — to pozycje porządkujemy parami, kierując się trudnością i treścią pozycji zaliczonych do tej samej pary. Zwracam uwagę Czytelnika, iż nie wolno przepołowiać testu w ten sposób, że osoba badana najpierw odpowiada na pierwsze 50% pozycji, a następnie na drugie 50% pozycji. Nie można tak postąpić, gdyż w pierwszej połowie mogą się | znaleźć pozycje o niższej trudności, aniżeli w drugiej połowie. Podział testu na I dwie połówki: pierwsze 50% i drugie 50% pozycji stosuje się tylko wówczas, gdy Imamy do czynienia z testami mocy. Wtedy, tak pojęte połówki traktujemy jako I odrębne testy i badamy nimi, z zachowaniem tego samego limitu czasu rozwiązania ■stu, raz po razie daną grupę osób. Po dokonaniu podziału testu na dwie połówki, np. parzyste-nieparzyste, postęIpujemy w następujący sposób: Przyjęło się rozróżniać testy szybkości (ang. speed lests), z wprowadzonym limitem czasu na wykonanie testu, oraz testy mocy czy wydolności (ang. power tests), bez ograniczeń czasowych.
471
(a) obliczamy współczynnik korelacji między wynikami ogólnymi obu testów „połówkowych", (b) dokonujemy oszacowania rzetelności testu korzystając ze wzoru Spearmana-Browna (15.23): 1r r tt = , ,°1 , (15.23) 1
T" 9 t-,a
oe
gdzie: roe — współczynnik korelacji wyników dwóch połówek: nieparzystej (o) i parzystej (e). Rulon (1939; por. Magnusson, 1991, s. 165) przy podziale pozycji testu na dwie połówki — parzystą i nieparzystą — nie założył równości wariancji w obydwu połówkach. Przyjął on, że wariancja rozkładu różnic wyników ogólnych obu połówek (vard) stanowi podstawę do dokonania oszacowania rzetelności całego testu (15.24): rn = 1 - vard lvarc,
(15.24)
gdzie: vard — wariancja rozkładu różnic w wynikach ogólnych, jednej i drugiej połówki, obliczanych dla poszczególnych osób badanych: dj = XOi-Xei; i= l,...,N; varc— wariancja rozkładu wyników w całym teście X (X = XO + Xe). Czasem wygodniej posłużyć się modyfikacją wzoru Rulona (15.25):
(15.25)
gdzie: N — liczba osób w próbie; dj — różnica wyników ogólnych i-tej osoby badanej w nieparzystej i parzystej połówce testu; varc — wariancja rozkładu wyników w całym teście X (X = X0 + Xe). Inny wzór na współczynnik rzetelności podał Guttman (1945; por. Choynowski, 1971b, s. 101)(15.26): varn + vare r„= 2 [l --------------- -], " varc
(15.26)
gdzie: varo, vare — wariancje rozkładu wyników w obu połówkach; varc — wariancja rozkładu wyników w całym teście X (X = X0 + Xc). Według Cronbacha (1951), który dokonał analizy 5 wzorów na współczynnik rn liczony metodą połówkową, wzory: Rulona oraz Guttmana dają najlepsze oszacowanie rzetelności testu.
472
8. Metody oparte na analizie właściwości statystycznych pozycji testowych Metody opisane w tym oraz w następnym punkcie są, z uwagi na swą prostotę, brak uciążliwości związanej bądź z dwukrotnym badaniem tym samym testem, bądź z koniecznością konstruowania dwóch testów (równoległych), a także z powodu swojej formalnej elegancji, chętnie stosowane przez psychometrów. Mało tego, bywa, że ograniczają oni badanie rzetelności testu tylko do wyboru jednej z metod spośród opisanej niżej bardzo licznej grupy różnych wzorów. Za pomocą metod analizujących właściwości statystyczne pozycji testowych i ich związek z ogólnym wynikiem testu bada się zgodność wewnętrzną testu (ang. inłernal consistency) czyli stopień w jakim „...test jest czystą miarą mierzonej zmiennej i w jakim stopniu odpowiedzi na poszczególne pytania mierzą to samo co wynik w całym teście" (Choynowski, 197 lb, s. 103). Od czego zależy wysokość współczynnika wewnętrznej zgodności testu? Na to pytanie odpowiada Guilford (1964, s. 461): .... gdy 1. Korelacje między zadaniami są największe. 2. Wariancja zadań jest największa; jest ona największa wówczas, gdy proporcja tych, którzy rozwiązali zadanie, wynosi 0,50. 3. Zadania są jednakowej trudności; wówczas korelacje między zadaniami są największe". Standardy... (APA, 1985a, s. 63) zalecają obliczanie współczynnika zgodności wewnętrznej dla każdego testu (oczywiście nie dla testów szybkości), ale jednocześnie ich autorzy przestrzegają psychologa: „...miar zgodności wewnętrznej nie należy traktować jako substytutów innych typów miar".
8.1. Wzory K-R 20 i K-R 21 Kudera i Richardsona W latach trzydziestych Kuder i Richardson (por. Kuder, Richardson, 1937) opracowali serię wzorów pozwalających na oszacowanie rzetelności testu na podstawie właściwości statystycznych poszczególnych pozycji, z których składa się test. Punktem wyjścia do konstrukcji nowych wzorów była krytyka, której poddali oni, [opisaną w pkt. 7., metodę połówkową. Aby uzyskać połówki testu, można go, jak wiadomo, podzielić na wiele sposobów. Każdy taki podział na połówki daje inne oszacowanie rzetelności testu. Aby uniknąć, Kuder i Richardson zaproponowali podział testu składającego się z pozycji (zadań) na ...n części (zatem, jedna jego część, to jedna pozycja). Pod-[ Kawowym założeniem, na którym opiera się pomysł jest założenie o równoległości azycji testowych. Mówiąc inaczej, przyjmuje się, że pozycje są jednolite czynni)wo. Dla pozycji ocenianych 0 lub 1 i o równej trudności, tzn. gdy frakcja odsiedzi zgodnych z kluczem (p) równa jest frakcji odpowiedzi z kluczem nieęodnych (q) uzyskujemy maksymalną wartość wariancji /-tej pozycji testowej: var i =p i ą i \ q,= \ - p t .
(15.27) 473
Nietrudno zauważyć, iż wariancja pozycji jest największa, gdy pi = qi=0,5G (gdyż: 0,50x0,50 = 0,25). Najbardziej znane wzory opracowane przez tę dwójkę psychometrów to K-R 20 oraz KR 21. Oto one:
(15.28)
n
var c -np q
gdzie: varc — wariancja całkowita wyników całego testu; pflj — wariancja i-tej pozycji testu; n — liczba pozycji w teście; p — średnia wartość p w zbiorze n pozycji testu; q — średnia wartość q w zbiorze n pozycji testu. Wzór K-R 21 znajduje zastosowanie w sytuacji, gdy psycholog nie zna stopnia trudności poszczególnych, składających się na dany test, pozycji testowych. Jeżeli zaś możemy przyjąć, iż trudność poszczególnych pozycji jest do siebie zbliżona, n
to wówczas wyrażenie ze wzoru (15.28): „^ p t qf możemy zastąpić wyrażeniem: i=t
,jipq". Dokonując niewielkich przekształceń we wzorze K-R 21 możemy otrzymać jego wygodną do obliczeń postać (15.30): (15.30)
Jakie są słabości K-R 20, albo mówiąc inaczej, jakie odstępstwa od wyjściowych założeń mają zauważalny wpływ na dokładność obliczonego tą metodą współczynnika r„l Na to pytanie usiłował odpowiedzieć Brogden (1946; podaję za: Guilford, 1954, s. 383). Manipulując średnimi wartościami p (od 0,3 do 0,97), wartościami interkorelacji pozycji testowych (od 0,2 do 0,8) oraz liczbą pozycji w teście (od 9 do 153) i zakładając jedną z trzech postaci rozkładu p — rozkład normalny, rozkład prostokątny oraz rozkład skośny — Brogden doszedł do wniosku, iż metoda ta daje obciążone wartości r„ w przypadku testów krótkich (9-18 pozycji) i o wysokich interkorelacjach pozycji testowych (0,60-0,0,80). Guilford podkreśla, że nie powinno się stosować, ani K-R 20, ani K-R 21 w przypadku badania z ograniczeniem czasu (testy szybkości). Kuder i Richardson opracowali swoje wzory dla testów o pozycjach punktowanych „0-1". Ferguson (1951) zaadaptował wzór K-R 20 do pozycji m-kategorialn
nych. W miejsce wyrażenia V p i q i we wzorze (15.28) zaproponował on wstawic-
i e 474
nienowego wyrażenia, uwzględniającego ważenie odpowiedzi, np. „+1", „0", „— 1" czy „0", „1", „2", „3", „4". Wariancję /-tej pozycji w teście, wymagającej udzielenia przez osobę badaną jednej z m kategorii odpowiedzi, Ferguson proponuje obliczać wg wzoru (15.31): m
Wi = £wj
P k -(£
1=1
w k p k ) 2 , k= l,...m; i = = 1,...,«.
(15.31)
t=i
Po zsumowaniu wszystkich n wariancji pozycji testowych otrzymaną sumę n
wstawia się do wzoru (15.28) w miejsce wyrażenia
^ p■ g i ". j=i
Dla stosunkowo często używanych testów składających się z pozycji trójkategorialnych (tak — „1", nie wiem — „0", nie — „-1") wzór (15.31) przyjmuje uproszczoną postać (15.32): w, = p2-p22 + 4pip3,
(15.32)
gdzie: />( — proporcja osób, które udzieliły odpowiedzi o wadze „+1"; p-i — Pro~ porcja osób, które udzieliły odpowiedzi o wadze „0"; p$ — proporcja osób, które udzieliły odpowiedzi o wadze „-1"; w k — waga A-tej (i = l,...,m) odpowiedzi na f-ta pozycję testu. Po zsumowaniu wszystkich wariancji obliczonych wg wzoru (15.32), obliczon
ną sumę wstawiamy do wzoru (15.28) w miejsce wyrażenia:
^^p t qi"-
8.2. Wzór Cronbacha Cronbach (1951) podał wygodny w użyciu wzór (15.33) na współczynnik rzetelności, stanowiący uogólnienie wzoru K-R 20 dla pozycji ocenianych w dowolny sposób, tj. nie tylko „0-1". Wzór ten bywa stosowany do obliczania współczynnika rzetelności skal postaw i kwestionariuszy osobowości, których pozycje wymagają wyboru jednej z kilku możliwych kategorii odpowiedzi (np. „tak", „nie wiem", ijiie"; „zgadzam się", „raczej zgadzam się", „raczej nie zgadzam się", „nie zga[dzam się").
var c (15.33) gdzie: varc — wariancja całkowita wyników całego testu; varj ■— wariancja /-tej pozycji testu; n — liczba pozycji w teście. Spróbujmy teraz podsumować to, co powiedzieliśmy o metodach Kudera-Richardsona (por. pkt. 8.1) oraz Cronbacha. Przypomnijmy, od czego zależy wariancja całkowita testu? Jeżeli test składa się z n pozycji, to jego wariancja całkowita wyraża się wzorem: 475
(15.34) Wyrażenie: ^T^SZ^SZ)* to kowariancja /-tej i &-tej pozycji testu (covarik), a SDit SD k to odchylenia standardowe i-tej i &-tej pozycji testu. Z punktu widzenia wzoru na wariancję całkowitą testu (15.34), wartość skonstruowanego przez psychologa testu zależy od: (a) wariancji poszczególnych pozycji testu oraz od korelacji między nimi; (b) od iloczynu: p t x ą t , gdy pozostałe warunki utrzymane są na stałym po ziomie; (c) od korelacji pozycji testowych rik (i * k), gdy pozostałe warunki utrzymane są na stałym poziomie. Spełnienie wymienionych wyżej założeń jest szczególnie ważne, jak pokazały to cytowane wyżej wyniki badań Brogdena, w przypadku testów o małej liczbie pozycji. Podsumowując, podejście Kudera-Richardsona-Cronbacha można rekomendować jedynie w przypadku gdy: (a) test ma strukturę jednoczynnikową, tzn. zakłada się, że pozycje testu mie rzą tę samą zmienną; (b) test zbudowany jest z pozycji równoległych. W takiej sytuacji omawiane podejście daje najlepsze oszacowanie wewnętrznej zgodności testu. Jego wartość będzie zatem tym większa, im bardziej jednorodna będzie próbka pozycji tworzących test, pobrana z populacji pozycji. Psycholog, który sięga po tę stosunkowo łatwą w stosowaniu i interpretacji miarę rzetelności testu musi o tym pamiętać. Nie jest ona bowiem ani miarą uniwersalną (nie bada wszystkich aspektów rzetelności), ani też nie jest wolna od ograniczeń. O tych ostatnich psycholog najczęściej zdaje się zapominać. Warto może zwrócić uwagę na jeszcze jedną właściwość współczynnika aCronbacha. Może on z powodzeniem zastąpić, w przypadku obliczania rzetelności baterii testów, współczynnik Mosiera (1943; por. Guilford, 1954, s. 393) — por. Cronbach (1951, s. 321-323).
8.3. Podejście Hoyta Myśl posłużenia się analizą wariancji przy badaniu rzetelności testu nie jest nowa. Jako jeden z pierwszych podjął się takiej próby Hoyt (1941). Zdaniem Choynowskiego (1971b, s. 107) analiza wariancji daje najlepszą („najbardziej bezpośrednią") estymację zgodności wewnętrznej testu psychometrycznego. I ja tę opinię podzielam. Hoyt oparł badanie wewnętrznej zgodności testu (rzetelności) na dwuczynnikowej analizie wariancji w układzie krzyżowym, z liczebnością kratki: n = 1. Pokażę teraz istotę tej metody. Referował ją będę w kategoriach zastosowanego przez Hoyta planu analizy wariancji, aby wskazać na błędy i ograniczenia tej metody analizy rzetelności testu. Nie będzie to więc streszczenie pracy Hoyta, a 476
przeanalizowanie konsekwencji wynikających z przyjętego przez niego punktu widzenia. Jednym czynnikiem jest tu: „grupa osób" (w postaci próby reprezentacyjnej dla danej populacji). Ma on tyle poziomów, ile osób liczy ta grupa, a więc: A = (au ..., ah .... ap). Z kolei drugim czynnikiem jest: „test psychologiczny" o liczbie poziomów równej liczbie pozycji. Mamy tedy: B-{b x , ..., bj, ..., bq ). Wyjściowa tabela wyników składa się z p wierszy i ą kolumn, a w każdej kratce 1=1. Odpowiedzi osoby badanej punktowane są: „0", „I"6. Dopuszczając nieaddytywny model dwuczynnikowej analizy wariancji postaci (15.35): (15.35) gdzie: pi — ogólna średnia
populacyjna; at — efekt
zadziałania /-tego poziomu czynnika, który jest stały dla wszystkich osób z /-tej populacji, tzn. 2/*, = 0; fii — efekt zadziałania ./-tego poziomu czynnika, który jest stały dla wszystkich osób z /tej populacji, tzn. 2J$j = 0; aĄ — efekt, który przedstawia nieaddytywnośc efektów: a, ijij, albo inaczej, efekt interakcji /-tego i ./-tego poziomu czynnika A i B, . IJtfi}= 0 > ZJtfij - 0; £fc
1, tzn. liczebność każdej kratki w tabeli wyników surowych jest równa, co najmniej, 2. Jest tak, ponieważ chcąc oszacować wariancję błędu za pomocą wyrażenia: „MSb)cdu" musimy dysponować liczbą stopni swobody równą: df= (n - \)pq — równą co | Bajmniej 1 (liczba stopni swobody wchodzi do mianownika wzoru na MS). Aby jednak można było przeprowadzić analizę wariancji w przypadku: n = 1 musimy zrezygnować z modelu postaci (15.35) na rzecz modelu addytywnego, postaci H15.36): yijk = H + ot +fij + em.
(15.36)
W przypadku modelu (15.36), wobec niemożności wyliczenia wartości: pVdu przyjmuje się, iż oszacowaniem wariancji błędu będzie wyrażenie: MS^^, li więc s'redni kwadrat dla interakcji czynników A i B. A zatem: MSAS —> <Ą . W późniejszych pracach Hoyt (Hoyt, Stunkard, 1951; Hoyt, Krishnaiah, 1960) zrezygnował z ntożenia o dychotomicznej postaci pozycji testowych, tj. takich, które wymagają od badanego udziebia jednej z tylko dwóch możliwych odpowiezi: „tak" lub „nie". Zauważmy, iż metoda Hoyta, przy pyjęciu tego założenia jest tożsama z metodą zaproponowaną przez Kudera i Richardsona (tzw. wzór W. Jeżeli zrezygnujemy z założenia o „zero-jedynkowej" postaci pozycji, to metoda Hoyta daje takie ■me rezultaty co metoda Cronbacha (wzór a).
477
Model addytywny można jednak przyjąć tylko wówczas, gdy interakcja AB nie niesie istotnych dla badacza informacji7. Mówiąc inaczej, gdy wariancja cząstkowa, której interakcja AB jest źródłem może być potraktowana jako składowa wariancji resztowej (błędu). Aby nie przesądzać „na oko" o tym, który model — addytywny czy nieaddytywny — można dla danego zestawu wyników przyjąć, należy posłużyć się specjalnym testem addytywności opracowanym przez Tukeya. Z jego wykorzystaniem do wyżej opisanego celu można zapoznać się w pracy Brzezińskiego i Stachowskiego (1984). Rezultaty przeprowadzonej analizy wariancji zawieramy w tabeli wzorowanej na tab. 15.1. Tabela 15.1. Tabela dwuczynnikowej analizy wariancji («= I) Źródło wariancji
SS
A (osoby) B (pozycje) AB = reszta Cala
SSB SS \B SSoia
df
MS
F
p~\
MSA
FA
q - \ (p-
MSB
FB
D(q-D
MSAB
pqn-\
Wariancję całkowitą wyników danego testu psychologicznego iyar c ) można rozbić na trzy wariancje cząstkowe: varA{osoby), varB(pozycje), varR(reszta). Rzetelność testu można wyrazić jako stosunek wariancji prawdziwej do wariancji otrzymanej. Zakładając, że oszacowaniem varA jest wyrażenie MSA, a oszacowaniem varR wyrażenie: MSfl mamy: (15.37) Taką też formułę podaje Hoyt. Prześledźmy teraz zastosowanie metody Hoyta przeliczając „krok po kroku" dane zaczerpnięte z pracy Guilforda (1954, s. 381). Reprezentacyjną próbę (A) liczącą p= 10 osób poddano badaniom za pomocą testu psychologicznego (R) liczącego 12 pozycji. Odpowiedzi były punktowane wg klucza: „1" — odpowiedź poprawna, „0" — odpowiedź zła. Tabela 15.2 zawiera wyniki surowe. Z krytyką metody Hoyta wystąpi! także Lu (1971). Krytyka ta dotyczyła tego, że w założonym przez Hoyta addytywnym modelu ANOVA przyjmuje się, iż oszacowaniem wariancji błędu jest wyrażenie MS^g. Zdaniem Lu rozwiązanie przyjęte przez Hoyta prowadzi do przeszacowania wartości wariancji błędu, a tym samym do niedoszacowania wartości współczynnika rzetelności. Nie wchodząc w szczegóły techniczne modyfikacji zaproponowanej przez Lu, polegające, z grupsza rzecz biorąc, na przyjęciu innego modelu analizy wariancji jako schematu statystycznej analizy testu psychometrycznego, przytoczę tylko wniosek jaki sformułowali Schuyler. Chuang i Ranney (1981) na końcu artykułu, w którym poddali wnikliwej i krytycznej analizie rozważanie podane przez Lu. Otóż ich zdaniem rozwiązanie to nie jest wolne od przeszacowania wartości wariancji błędu.
478
Tabela 15.2. Wyniki surowe 10 osób przebadanych testem składającym się z 12 pozycji Osoby (A) Pozycje (B) 1
2
3
4
5
6
7
8
9
10
11
12
Suma
1
1
0
1
0
0
0
0
0
0
0
0
0
2
2
1
1
1
0
0
1
0
0
0
0
0
0
4
3
1
1
1
1
0
0
0
0
0
0
0
0
4
4
1
1
0
1
1
0
0
1
0
0
0
0
5
5
1
1
1
1
1
0
0
0
0
0
0
0
5
6
1
1
1
0
1
1
1
0
0
0
0
0
6
7
1
1
1
1
1
1
1
0
0
0
0
0
7
8
1
1
1
1
0
1
1
1
1
1
0
0
9
9
1
1
1
1
1
1
1
1
1
1
1
0
11
10
1
1
1
1
1
1
1
1
1
1
1
1
12
Suma:
10
9
9
7
6
6
5
3
3
3
2
1
65
(Guilford. 1954, s. 381)
Zródlo wariancji
SS
4f
MS
F
Osob\ 1.1)
7,875
9
0,875
6,94 6,84
Pozycje (fi)
9,492
11
0,863
Reszta (R)
12,425
99
0,126
Cała
29,792
119
obliczenia własne 1 ] ; 4 = 1,92
479
Po podstawieniu danych do wzoru (15.37) uzyskujemy poszukiwaną wartość
r
«
_ 0,875 -0,126 0,875 " u'8:)' *
Obliczona tą metodą wartość r„ stanowi dolną granicę rzetelności danego testu. Mówiąc inaczej, metoda ta wykazuje tendencję (zwłaszcza w przypadku „krótkich" testów) do niedoszacowywania rzetelności testu. Przejdźmy teraz do uwag krytycznych, które można zawrzeć w dwóch punktach: 1. Pierwsze i najpoważniejsze zastrzeżenie wiąże się z tym, iż /-ta osoba odpowiada kolejno na wszystkie c-pozycje, a zastosowany tu układ analizy warian cji zakłada, że każda kombinacja poziomów czynników A i B (czyli kombinacja: „(-ta osoba — ./-ta pozycja") występuje tylko raz. Jest to więc nieprzydatny dla analiz psychometrycznych układ analizy wariancji, gdyż każda osoba jest badana całym testem, składającym się z ą pozycji, a nie tylko jedną pozycją. 2. Drugie zastrzeżenie związane jest z wykorzystaniem testu dla celów diagnozy różnicowej. Tak prowadzone badanie rzetelności testu uniemożliwia udzielenie pozytywnej odpowiedzi na pytanie o reprezentatywność próby, na której chcemy przeprowadzić to badanie, np. w zakresie: „norma — różne po staci patologii".
8.4. Podejście Lorda i Novicka oraz Cronbacha, Gleser, Nandy i Rajaratnama O ile Hoyt pokazywał zastosowanie analizy wariancji do obliczania współczynnika rzetelności testu psychologicznego, to wymienieni w tytule tego punktu autorzy wykorzystują analizę wariancji jako metodę planowania eksperymentów, za pomocą których usiłują dokonać oceny wpływu różnych czynników na zmienność wyników testowych. Rozbijając całą wariancję na wariancje składowe można, przez porównanie, ocenić ważność poszczególnych czynników stanowiących źródła owych wariancji składowych. Dlatego też Lord i Novick mówią o analizie składowych wariancji (ang. analysis of variance components). Jest to podstawowa metoda dla autorów teorii wyników generycznych oraz teorii uniwersalizacji (Lord, Novick, 1968; Cronbach i in., 1972; por. omówienie obu teorii: Nowakowska, 1975). Nie wchodząc w szczegóły obu teorii zwróćmy uwagę na zastosowanie analizy wariancji przez wspomnianych badaczy. Badają oni — przede wszystkim — dwa rodzaje czynników wyznaczających wariancję wyników testowych. Jednym jest czynnik: „osoby badane", występujący na tylu poziomach, ile osób liczy badana próba, tzn. 1, 2, ..., N. Drugi to czynnik: „wersje testu", występujący na tylu 480
poziomach, ile wersji „równoległych" badacz skonstruował, tzn. 1, 2, ..., n. Wreszcie, bada się łączny wpływ obu czynników w jednym eksperymencie. Łatwo się zorientować, że znajdują tu zastosowanie plany analizy wariancji jedno- i dwuczynnikowe. Dodatkowo Cronbach i in. propagują plany gniazdowe (ang. nested design). Poziomy czynników, albo są arbitralnie przez badaczy ustalane, np. 5 wersji równoległych testu, które (wszystkie) są wykorzystywane w jednym eksperymencie, i wówczas mówi się o modelu efektów stałych (model I), albo też badacz losuje określoną liczbę poziomów czynnika ze znacznie większej puli poziomów, np. puli możliwych wersji równoległych testu, i wówczas mówi się o modelu efektów losowych (model II). W badaniach Lorda i Novicka oraz Cronbacha ze współpracownikami przeważa zastosowanie modelu II. Zanim zaprezentuję podstawowe plany eksperymentów znajdujące zastosowanie w praktyce psychometrycznej inspirowanej przez cytowane tu prace, chciałbym wyjaśnić jeszcze jedno. Otóż autorzy mówią przy analizowaniu planów analizy wariancji, że albo dany plan zakłada powtórzenia (replikacje), albo też ich nie zakłada; dana kombinacja poziomów czynnika (czy też dany poziom czynnika w planie jednoczynnikowym) występuje tylko raz, w odniesieniu do jednej osoby (r=l) t albo też występuje wielokrotnie (r>2). Należy przy tym odróżnić eksperyment, który jest r(r > 2) razy powtarzany na niezależnych losowych próbach pobranych z populacji — przy czym na każdą „kratkę" przypada w jednym powtórzeniu jedna osoba (lub więcej osób: r > 2) — od eksperymentu niepowtarzalnego, w którym na jedną „kratkę" przypada jedna osoba | ( n = l ) lub więcej osób (r>2). W pierwszym przypadku mówimy o r(r>2) powtórzeniach eksperymentu o liczebności kratki: «=1, a w drugim przypadku o r= 1 wykonaniu eksperymentu o liczebności kratki: r > 2 (Winer, 1971, s. 391). Ogólna liczba osób biorących udział w eksperymencie będzie w obu przypadkach taka sama. Na przykład, w eksperymencie dwuczynnikowym (wedle klasyfikacji krzyżowej): p ■ q ■ n ■ r. Jakie są tedy powody, dla których znajdują zastosowanie eksperymenty o r>2? Otóż zdarza się, że nie można przeprowadzić eksperymentu (na danej liczbie osób) w jednym miejscu i w tym samym czasie. Wyjście z tego technicznie trudnego problemu jest takie, że badacz przeprowadza w danym miejscu (lub czasie) ekspe| ryment na próbie pomniejszonej do tego stopnia, że nie zachodzi obawa, iż został naruszony warunek ,jedności miejsca i czasu". Mówiąc inaczej, liczebność kratki I w danym r-tym powtórzeniu eksperymentu wynosi: n : r. Porównajmy jeszcze źródła wariancji i stopnie swobody w eksperymencie I dwuczynnikowym (krzyżowym) — powtarzanym r razy i nie powtarzanym. Niech [tedy czynnik A występuje na p poziomach, a czynnik B na q poziomach i niech r oznacza liczbę powtórzeń, a n liczebność kratki, na którą przypada dana y-ta kombinacja poziomów czynników A i B.
481
Eksperyment bez powtórzeń o liczebności Eksperymenty o rkratki: n>\ powtórzeniach i o liczebności kratki: (« : r)
Można dokonać jeszcze jednego, alternatywnego rozbicia wariancji i stopni swobody: źródło wariancji między grupowe
stopnie swobody pq-\
źródło wariancji międzygrupowe:
stopnie swobody pqr-\
czynniki powtórzenia
pq-\ r-1
czynniki x wewnątrzgrupowe
pqin - 1)
powtórzenia
(pq-\)(r-\)
wewnątrzgrupowe
pąĄin : r ) l]
Ponieważ kroki w eksperymentach powtarzanych są na ogół bardziej jednorodne, więc i wariancja wewnątrzgrupowa (wariancja błędu) jest mniejsza od analogicznej wariancji w eksperymentach bez powtórzeń. Po zapoznaniu się z punktem widzenia teorii eksperymentu można przejść do „specyficznego" rozumienia terminu: „replikacja" przez Lorda i Novicka. Otóż — wbrew temu, co wyżej zostało powiedziane — Lord i Novick (1968) oraz Cronbach i in. (1972) traktują powtórzenia jako r-krotne testowanie tej samej osoby w y-tych warunkach („replicate measurements are those obtained by retesting either with the same form or with parallel forms" -— Lord, Novick, 1968, s. 160). Podobnie rozumie powtarzanie Nowakowska (1975, s. 69):. „(.-■) każda osoba odpowiada r razy na każdą z n wersji testu". Widzimy zatem, iż nie o powtarzanie eksperymentu tu chodzi, ale o wielokrotne testowanie tych samych osób. Powinno się tedy wykorzystywać eksperymenty zakładające powtarzanie pomiarów zmiennej zależnej w obrębie jednego lub większej liczby czynników. Opis takich planów analizy wariancji, w których zakłada się wielokrotne powtarzanie pomiarów zmiennej zależnej
482
tych samych osobach, znajdzie Czytelnik u Winera (1971, rozdz. 4. i 7.) pod nazwą: single-factor (multifactor) expeńment(s) having repeated measures on the same elements", u Kirka (1982, rozdz. 11.) pod nazwą: ^plit-plot factońal design: design with group-treatment confounding" oraz u Brzezińskiego i Stachowskiego (1984. rozdz. 6. i 7.) pod nazwą: „eksperymenty z powtarzanymi pomiarami zmiennej zależnej...". Tak więc podstawowy zarzut, który można tu sformułować, jest bądź odmianą zarzutu I stawianego metodzie Hoyta, gdy analizujemy plany eksperymentów z powtórzeniami, bądź jest on taki sam jak zarzut I, gdy analizujemy układy bez powtórzeń. W obu przypadkach analiza statystyczna oparta jest na niewłaściwych układach analizy wariancji. W efekcie wyliczone z danych otrzymanych na podstawie przeprowadzonych eksperymentów średnie kwadraty (MS) dla czynników, ich interakcji oraz błędu są obciążonymi estymatorami odpowiednich wariancji składowych. Oto podstawowe plany eksperymentów wykorzystywane przez cytowanych tu psychometrów: Plan 1. —jednoczynnikowy (Lord, Novick, 1968, s.160) czynnik: „osoby badane" na W poziomach, Ąr > 2) powtórzeń {w sensie r-testowania każdej osoby w kratce) źródło wariancji: stopnie swobody: między osobami N- 1 powtórzenia N (r - 1) cała Nr - 1 Plan 2. —jednoczynnikowy (tamże, s. 168) czynnik: „wersje testu" na n poziomach, bez powtarzania (r= 1) — ale każdą wersję testu rozwiązuje N osób źródło wariancji: stopnie swobody: między testami n-1 wewnątrz testów n(N-l) cała nN - 1 Plan 3. — dwuczynnikowy (tamże, s. 163) czynnik A: „osoby badane" na N poziomach, czynnik B: „wersje testu" na n poziomach, r(r>2) powtórzeń (w sensie r-testowania każdej osoby w kratce) źródło wariancji: stopnie swobody: między osobami N- 1 między testami n-1 interakcja (N - I)(n - 1) powtórzenia nN(r - 1) cała nNr- 1 483
Plan 4. — dwuczynnikowy (tamże, s. 168) czynniki A \ B — jak w planie 3., bez powtarzania (r= 1) — jak u Hoyta (1941) źródło wariancji: stopnie swobody: między osobami N-1 między testami n-1 interakcja {N - l)(n -1) cała nN~ 1 Oprócz planów wyżej przedstawionych Cronbach i in. (1972, rozdz. 2. i n.) przedstawiają plany trójczynnikowe, a także gniazdowe — z tymi samymi uchybieniami. Wszystkie wyżej przedstawione plany rozważane są w ramach modelu II (efektów losowych).
8.5. Podejście Winera W swojej propozycji Winer za punkt wyjścia przyjmuje macierz wyników o n wierszach odpowiadających osobom badanym i p kolumnach odpowiadających pozycjom testowym. Jest to więc taka sama tabela jak u Hoyta (por. tab. 15.2). To co różni ujęcie (problemu rzetelności testu psychometrycznego analizowanego via analiza wariancji) Hoyta od ujęcia Winera, to wybór planu analizy wariancji. U Hoyta — jak pamiętamy — był to plan dwuczynnikowy typu: „osoby x pozycje" (n= 1). Z kolei u Winera jest to plan jednoczynnikowy z wielokrotnym powtarzaniem pomiarów zmiennej zależnej u każdej osoby badanej. Jeżeli test składa się z p pozycji, to każda z n osób udziela p odpowiedzi (odpowiednio na pierwszą, drugą, ..., p-tą pozycję). Nie stosuje się zatem do rozwiązania zaproponowanego przez Winera uwaga I do metody Hoyta, ale nadal w mocy pozostaje uwaga II. Przejdźmy teraz do prezentacji planu analizy wariancji, zgodnie z którym Winer proponuje rozwiązać problem rzetelności testu. Prześledźmy kolejny przykład. Niech próba losowa n osób będzie badana za pomocą testu A składającego się z losowej próby p pozycji. Przez yik oznaczmy odpowiedź fc-tej osoby na i-tą pozycję. Uzyskane dane umieszczamy w tab. 15.4. Tabela 15.4. Schemat tabeli wyników surowych do przeprowadzenia analizy wariancji Osoby 1 ...
i...
p
1k
yn
n
y\k
yn y*
y*\ ypk
yi
484
Pozycje (A)
yin
yin
>i.
yt
ypn
y„.
y.k y.i y.k
ń ń
y.n
ń
y..
y2
Struktura wyniku yajest następująca: K,>
(15.38)
gdzie: \i — ogólna średnia populacyjna (średnia wszystkich możliwych wyników testowych w populacji); a, — efekt zadziałania i-tego poziomu czynnika A, który jest stały dla wszystkich elementów z /-tej populacji, tzn. £ a,; = 0 ; n k — stała i=i
związana z k-tą osobą; ek(i) — błąd eksperymentalny. W dalszych rozważaniach mogą być brane pod uwagę dwa warianty wyjściowego modelu (15.38). Pierwszy zakłada brak interakcji: „osoby x pozycje" i przyjmuje postać (15.38). Drugi z kolei zakłada występowanie interakcji: „osoby x pozycje" i przyjmuje postać (I5.38a): y ik = fi + a, + n k + a^ + £ m ,
(15.38a)
Możemy założyć, że rozkład n k w populacji jest normalny ze średnią zero i leją (j£. Wewnątrz każdej populacji związanej z /-tą pozycją rozkład e^ jest też ze średnią zero i wariancją (Ą , a więc: (Ą X = G I = ... = (Ą.= ... = al wariancje błędu są homogeniczne. Dokładniejszą charakterystykę statystyczną tego planu podają w naszej literapsychologicznej Brzeziński i Stachowski (1984, rozdz. 6.). 485
Całą wariancję wyników testowych w badaniu zaplanowanym i przeprowadzonym zgodnie z sugestią Winera można rozbić na wariancje składowe (Winer, tamże, s. 266) przedstawione na rys. 15.1.
Rys. 15.1. Podział całej wariancji na składowe w planie jednoczynnikowej analizy wariancji z powtarzanymi pomiarami zmiennej zależnej
Rezultaty przeprowadzonej analizy wariancji zamieszczamy w tabeli wzorowanej na tabeli 15.5. Tabela 15.5. Tabela jednoczynnikowej analizy wariancji z powtarzanymi pomiarami zmiennej zależnej w obrębie jednego czynnika Źródło wariancji Między osobami Wewnątrz osób A
SS cc ■J"J między "-" "wewnątrz
n - \ n(p-\) p - l (nl)(p-l)
Błąd Cała
df
SSbtod SScała
nk - 1
MS US A MS
bład
F FA
Źródło wariancji
SS
df
Między osobami
7,872
9 110 1199
Wewnątrz osób
21,920
Pozycje testowe (A)
9,492
Błąd Cała
12,428 29,792
MS
F
0,874 0,863 0,125
6,904
119
=
F OJO * II .« 1.92
Do rezultatów przeprowadzonej analizy wariancji jeszcze wrócimy. Obecnie zajmiemy się wyprowadzeniem formuły na rzetelność testu składającego się z p pozycji. Patrząc na problem rzetelności testu z punktu widzenia klasycznej teorii testów (Gulliksen, 1950) można wynik uzyskany przez &-tą osobę odpowiadającą na e-tą pozycję wyrazić jako całość składającą się z dwóch części składowych: (a) prawdziwej, nieobserwowalnej części wyniku zaobserwowanego — n k , (b) składowej błędu — nik:
(15.39) W zastosowanym tu planie analizy wariancji średni wynik &-tej osoby badanej pyli średnia wierszowa) wyraża się jako: (15.40) Oszacowania wariancji w modelu (15.39) wyglądają następująco: — wariancja „między osobami" (MSmosob) : £(MSmosob.) = c — wariancja „wewnątrz osób" (MSwosob) : E(MSwosob) = a^. MSmosob. jest definiowany jako: MS miW , =
n
"*_
,
-.
(15.41)
n-\
487
px jest współczynnikiem rzetelności pojedynczego pomiaru. Zauważmy, że tak definiowany jest w modelu II (ANOVA) współczynnik korelacji wewnątrzklasowej. Wedle znanej formuły Spearmana-Brówna na rzetelność testu p razy „dłuższego" od wersji wyjściowej mamy — w kategoriach (15.47):
488
r
A,
A
oraz: r p
489
Z kolei nieobciążony estymator 0 dany jest wzorem: pni .. , gdzie: m =
(n-l)(p-l) /y \
Chcąc uzyskać obciążony lub nieobciążony estymator pp będziemy wsławiali do wzoru na r p lub r' p wartość & wyliczoną wg wzoru (15.60) lub wartość 0' wyliczoną wg wzoru (15.61). W ten sposób wydzieliliśmy z wariancji „wewnątrz osób" tę jej część, która wprowadzona jest przez różnice między pozycjami testowymi składającymi się na test. W efekcie unikniemy niedoszacowania jego rzetelności. Kończąc prezentację podejścia Winera do problemu rzetelności testu zakończmy obliczenia z przykładu. Korzystając z danych zawartych w tab. 15.6 i ze wzorów (15.60) i (15.61) mamy:
12 - 0,499 ri2 1 + 12 ■ 0,499 gdzie: 0' = 0,499. 490
.6. Podejście Brzezińskiego S.l. Uwagi krytyczne o dotychczasowych ujęciach problemu rzetelności testu punktu widzenia jednak jednej z zasad prowadzenia badań empirycznych, zasaholizmu, celowe jest opracowanie całościowego podejścia do analizy testu psy>logicznego. Moim zdaniem szansę takiego całościowego podejścia — co w )przednich punktach: 8.3-8.5 zostało pokazane — do badania testu psychologicz20 stwarza analiza wariancji. Trzeba jednak jeszcze raz spojrzeć na możliwości tosowania tej analizy w psychometrii i na korzyści, jakie z tego zastosowania Przypomnijmy, że psycholog konstruujący jakiś test psychologiczny musi — opracowaniu określonej jego koncepcji teoretycznej — wykonać następujące
Id: (a) pobrać z populacji próbę (reprezentatywną), która będzie przebadana „wyjlową" wersją testu, (b) zanalizować moc dyskryminacyjną poszczególnych pozycji testu oraz ^selekcjonować z wyjściowej puli pozycji te, które spełniają określone kryterium )broci testu i ułożyć z nich ostateczną wersję testu, (c) określić rzetelność testu, (d) określić trafność testu. Spróbuję obecnie wykazać trudności, jakie rodzi tradycyjny sposób konstruolia testów psychometrycznych. Dla większej przejrzystości wywodu uwagi te )grupuję według wyżej przedstawionego schematu: (a)-(d). a-b. Na jakiej próbie przeprowadzać analizę mocy dyskryminacyjnej pozycji tstowych ? Myślę, że pierwsza, spontaniczna odpowiedź, jaka nasunie się każdemu psylologowi, a która będzie brzmiała: „analizę mocy dyskryminacyjnej pozycji naprzeprowadzić na reprezentatywnej dla danej populacji próbie" (por. rozdz. 16.), pozornie tylko sugeruje, iż pytanie było trywialnie proste. Klasyczny sposób iejścia do analizy pozycji sprawia, iż pytanie to nie tylko nie jest proste, ale co więcej — może pozostać bez konstruktywnej odpowiedzi. Jak wiadomo. )bra pozycja, to taka, która różnicuje osoby o różnym natężeniu cechy, do poliaru której jest ona przez psychologa przeznaczona. Pozycję taką, mówimy, cemje wysoka moc dyskryminacyjna. Tę ostatnią ujmuje się — o czym piszę doadnie w rozdz. 16. —jako stopień korelacji danej pozycji z ogólnym wynikiem stu (rozumianym jako suma punktacji wszystkich odpowiedzi uznanych za diag491
nostyczne, czy inaczej, odpowiedzi zgodnych z kluczem dołączonym do testu), do którego ta pozycja została przez psychologa włączona. Niezależnie od tego, jakim współczynnikiem korelacji posłuży się konstruktor testu, analiza mocy dyskryminacyjnej polega na: (a) przebadaniu całej próby (ale jakiej?) wyjściową wersją testu, (b) obliczeniu wstępnego, ogólnego wyniku testu dla każdej osoby (pytanie: skąd badacz wie, że wolno mu wyniki cząstkowe dodawać do siebie?), (c) uszeregowaniu osób od „najgorszych" do „najlepszych" według wysokości wyników ogólnych, (d) wyłonieniu dwóch równolicznych grup osób o skrajnych wynikach, „ni skich" i „wysokich" liczących po, np. 10%, 25%, 50% liczebności całej próby, (e) obliczeniu frakcji w obu grupach osób, które odpowiedziały diagnostycznie na kolejną pozycję, (f) obliczeniu wartości współczynnika korelacji, stanowiącego operacyjną mia rę mocy dyskryminacyjnej. Jeżeli test przeznaczony jest przez psychologa do formułowania diagnozy różnicowej, na przykład: „psychoza — norma" czy: „psychoza — nerwica — norma", to badanie mocy dyskryminacyjnej tradycyjną metodą korelacyjną komplikuje się. Rzecz w tym, iż nie bardzo teraz wiadomo, dla jakiej populacji winna być reprezentatywna próba, na której będzie przeprowadzane badanie standaryzacyjne. Czy mają to być — na przykład — psychotycy? A może normalni? A może też po części psychotycy, a po części normalni? Lista pytań wydłuży się, jeżeli pozycja ma różnicować nie dwie, lecz kilka grup diagnostycznych. Z uwagi na wyżej sformułowane pytania nie wydaje mi się poprawne rozwiązanie, które przyjął Choynowski (1968, s. 51-95) standaryzując polską adaptację znanego testu Eysencka — MPI — na populacji studentów. To, że studenci, normalni (rzecz jasna w jakimś stopniu neurotyczni), odpowiedzieli w jakiś sposób na daną pozycję, wcale nie musi sugerować, że neurotycy — na przykład — będą odpowiadać w sposób odmienny. Ze statystycznego punktu widzenia z jednorodnej populacji powinno się pobrać równie jednorodną próbę. Jeżeli jednak populacja jest heterogeniczna, to należy wpierw podzielić ją na jednorodne warstwy (podpopulacje) — w sposób opisany w rozdz. 9., pkt. 4.3.3. — uwzględniając jedną i większą liczbę zmiennych, takich jak: płeć, wiek, rodzaj choroby czy zaburzenia psychicznego itp., a następnie wylosować z tych warstw jednorodne podgrupy, łącznie składające się na próbę. Jest to postępowanie zgodne z zasadą: minimalizacji wariancji intragrupowej-maksymalizacji wariancji intergrupowej. Tak więc, jeżeli możemy założyć z góry, że będziemy mieli do czynienia nie z jedną, jednorodną populacją, ale że będą to dwie (i więcej) populacje, to postępowanie standaryzacyjne powinno uwzględniać ten fakt. Mówiąc krótko, należy je przeprowadzać na dwóch (i więcej) jednorodnych grupach (grupy te będę nazywać grupami kryterialnymi, czy też grupami diagnostycznymi). Takie postępowanie wymaga jednak zmiany klasycznej techniki analizy mocy dyskryminacyjnej pozycji. Nie można tedy mówić o jednym, ogólnym wyniku testowym osoby z próby, wedle 492
wysokości którego będziemy szeregować osoby badane (należące przecież do różnych populacji, a tym samym i do różnych grup kryterialnych). Nie ma wszak sensu dodawanie do siebie punktów z odpowiedzi na pozycje testowe uzyskane raz od psychotyka, raz od neurotyka, a raz od osoby normalnej. W pkt. 8.6.2 pokażę inną — jak się wydaje wolną od powyższych zarzutów — metodę analizy mocy dyskryminacyjnej pozycji testowych. ; c. W jaki sposób bada się rzetelność testu ? Z dotychczas stosowanych metod badania rzetelności testu psychologicznego Dr. poprzednie punkty niniejszego rozdziału) bodajże największą popularnością /śród psychologów cieszą się dwie techniki: badanie stabilności bezwzględnej )r. pkt. 5.) oraz metoda oparta na analizie niektórych właściwości statystystyczlych pozycji testowych — zwłaszcza wzór Cronbacha (por. pkt. 8.2) i Spearma-łBrowna (por. pkt. 9.1). Krytyczne uwagi dotyczące pierwszej metody koncentrują się głównie na tym, że nie można spełnić warunku równoległości pierwszego i drugiego badania tym samym testem tej samej grupy osób, a także na tym, że nie jest ściśle określony standardowy okres, jaki winien dzielić jedno badanie od drugiego. Jeśli chodzi o drugą metodę, to dotyczą jej sygnalizowane trudności metodologiczne związane z reprezentatywnością próby — w przypadku konstruowania testu przeznaczonego do diagnozy różnicowej. Nowa metoda badania rzetelności testu psychometrycznego powinna być wolna od tych ograniczeń. d. W jaki sposób bada się trafność testu? Najczęściej stosowane podejścia do badania trafności testu sprowadzają się do wyznaczenia wartości procentowej, tzw. wariancji wspólnej, nowego i już uznanego przez psychologów testu. Procedura ta nosi nazwę ustalania trafności diagnostycznej (piszę o niej w rozdz. 17., pkt. 2.2.1). Pojęcie trafności powinno się jednak odnosić nie tylko do testu jako pewnej „całości" złożonej z części (pozycji), ale także do owych części składowych (pozycji). Wszak nie zawsze jest usprawiedliwione obliczanie wyniku ogólnego jako sumy punktów uzyskanych przez osobę badaną w odpowiedzi na poszczególne pozycje. Taka, uwzględniająca poszczególne pozycje testu, analiza jego trafności związana jest z procedurą analizy czynnikowej (por. rozdz. 17., pkt. 5.2). Uważam też, że należy połączyć dwie — dotychczas różne — procedury: ustalania mocy dyskryminacyjnej pozycji i ustalania trafności (nie całego testu, ale jego składowych!) w jedną procedurę, którą można by określić mianem procedury ustalania dobroci pozycji testowych. W niżej opisanej procedurze właśnie tak się postępuje. 8.6.2. Wskaźnik DT Jak się wydaje, prezentowane w niniejszym punkcie plany analizy wariancji w zastosowaniach psychometrycznych usuwają ostatni zarzut, jaki można było jeszcze postawić koncepcji Winera, czyli zarzut pokazujący nieadekwatność takiego podejścia w przypadku konstruowania testów do diagnozy różnicowej (pytanie o repre493
zentatywność n-elementowej próby). Jednocześnie prezentowane tu plany umożliwiają „całościowe" zbadanie dobroci testu, a wiec tego, co określone jest mianem rzetelności, trafności i dyskryminatywności. Opisane niżej podejście do badania dobroci testu psychologicznego oparte jest na wykorzystaniu planu dwuczynnikowego analizy wariancji z częściowym powtarzaniem pomiarów zmiennej zależnej w obrębie jednego czynnika. Plan, który będzie tu omówiony, należy do tej samej klasy planów analizy wariancji, co omówiony — za Winerem — w punkcie poprzednim. Także i tu jedynym czynnikiem powtarzanym jest czynnik: „test psychologiczny". W celu wyeliminowania zróżnicowania w obrębie próby osób badanych dzieli się ją na warstwy (grupy kryterialne, porównawcze) odpowiadające poszczególnym poziomom czynnika. W ten sposób minimalizujemy (a o to przecież m. in. chodzi) wariancję wewnątrzgrupową. Takimi grupami kryterialnymi mogą być grupy: „norma — nerwica — psychoza", grupy, w stosunku do których stosuje się różne instrukcje, grupy osób o różnym wykształceniu, o różnym stażu pracy na danym stanowisku (np. operatora dźwigu) itp. Struktura wyniku >■,-,* jest następująca: (15.62)
gdzie: Vjjk — odpowiedź udzielona przez A-tą osobę badaną losowo pobraną z /-tej populacji na j-tą pozycję; fi — ogólna średnia populacyjna; a, — efekt /-tego poziomu czynnika A (przynależności osoby badanej do i-tej populacji), który jest stały dla wszystkich osób badanych pochodzących z /-tej populacji; $ — efekt jtego poziomu czynnika B (udzielona odpowiedź na /-tą pozycję testu), który jest stały dla wszystkich osób badanych pochodzących z /-tej populacji; n^ — stała związana z £-tą osobą badaną, dla której czynnik A występuje na /-tym poCAŁA WARIANCJA
wariancja
wariancja
między osobami
wewnątrz osób
wariancja
wariancja
wariancja
wariancja
wariancja
wprowadzona przez czynniki
wprowadzona przez błąd A
wprowadzona przez czynnik 6
wprowadzona przez interakcje A\B
wprowadzona przez błądB
Rys. 15.2. Podział całej wariancji na wariancje składowe w planie dwuczynnikowej analizy wariancji z powtarzanymi pomiarami zmiennej zależnej w obrębie czynnika B
494
ziomie; aĄ — efekt, który przedstawia nieaddytywność efektów a, oraz fy albo inaczej efekt interakcji /-tego i ./-tego poziomu czynnika A i B\ fijK^ — efekt, który przedstawia nieaddytywność efektów; Ek(i) — błąd eksperymentalny o rozkładzie normalnym ze średnią równą zero i odchyleniem standardowym równym <Ą. Założenia, przy których uzasadnione jest posługiwanie się tym planem to: założenie normalności rozkładów zmiennej zależnej w porównywanych populacjach, założenie homogeniczności wariancji porównywanych populacji, założenie równości q{q-\):2 kowariancji z p poziomów czynnika A, Metody sprawdzania tego, czy owe założenia są spełnione przez dany materiał empiryczny przedstawione są u Brzezińskiego i Stachowskiego (1984, rozdz. 3.). Całą wariancję wyników testu można rozbić na wariancje składowe, tak jak to zostało pokazane na rys. 15.2. Dane uzyskane z badania n osób (w każdej z p grup kryterialnych) testem złożonym z ą pozycji zamieszczamy w tabelach wzorowanych na tab. 15.7 i 15.8. Tabela 15.7. Schemat wyjściowej tabeli do analizy danych z przebadania c-itemowym testem psychometrycznym p-grup kryterialnych
Tabela 15.8. Schemat pomocniczej tabeli do analizy danych (do tab. 15.7)
495
Po przeprowadzeniu analizy wariancji jej rezultaty umieszczamy w tabeli wzorowanej na tab. 15.9. Tabela 15.9. Schemat tabeli analizy wariancji według planu dwuczynnikowego z powtarzanymi pomiarami zmiennej zależnej w obrębie czynnika B Zródlo wariancji
Suma kwadratów SS
Stopnie swobody df
Średni kwadrat MS
Stosunek F
Między osobami A Osoby w gr. (błąd A) Wewnątrz osób B AB B-osoby w gr. (bładB)
Cała
Przed przystąpieniem do obliczenia wartości SS-ów musimy wyliczyć wartości pomocnicze:
'osoh.w.gr.' . o ■ JB. osob.w.gr.
Następny etap to analiza efektów prostych: A w by Efekty proste informują badacza o tym, czy dana pozycja różnicuje grupy kryterialne. Jest to więc metoda analizy trafności pozycji. Po jej przeprowadzeniu możemy wyeliminować te pozycje, dla których stosunek F A w bj przyjmował wartości z obszaru odrzuceń H o. Mówiąc inaczej, test F dla czynnika A informował nas tylko o tym, czy grupy kryterialne różnią się na danym poziomie istotności statystycznej. Nie informował nas jednak — w przypadku stwierdzenia istotności różnic — czy różnice te zachodzą w obrębie wszystkich pozycji, czy też w obrębie części z nich. O tym informuje nas test F efektów prostych. W przypadku większej od dwóch liczby grup 496
fcryterialnych trzeba by jeszcze odwołać się do pomocy testu istotności różnic między średnimi wartościami zmiennej zależnej poszczególnych grup kryterialnych dla j-tej pozycji. W ten sposób dowiemy się dokładnie, które pary grup kryterialnych różnicuje j-ta pozycja. Sumy kwadratów dla efektów prostych czynnika A na poszczególnych poziomach czynnika B obliczamy wg wzorów:
r=l
r
Suma kwadratów efektów prostych A w ty równa jest: S Po wyliczeniu wartości SS-ów kolej na średnie kwadraty, które obliczamy dzieląc poszczególne sumy kwadratów przez stopnie swobody, których liczba równa się: df= p - 1. Przy testowaniu istotności efektów prostych A w ty, jako oszacowania wariancji błędu używamy wyrażenia: ^osoby.w.gr. ~ ^Bosoby.w.gr.
Wyrażenie (15.64) przedstawia połączone błędy dla A i B. Uznajemy efekty proste A w ty za istotne na danym poziomie a, jeżeli: Rezultaty analizy wariancji efektów prostych zaprezentowane są w tab. 15.13 zawierającej dane z kolejnego przykładu (jest to zarazem wzór tego typu tabeli). Ze wstępnej wersji eliminujemy te pozycje, które w świetle testu F-efektów prostych A w ty okazały się nieistotne na danym poziomie a. Po tym zabiegu „oczyszczającym" test z pozycji niedy skry minujących grupy kryterialne przeprowadzamy powtórnie analizę wariancji w celu oszacowania składowych wariancji ostatecznej wersji testu. 0 psychometrycznej wartości testu informuje nas wskaźnik DT, który proponuję, obliczać wg wzoru (15.65):
S^-MSb
497
., c ... —
Wskaźnik Dl* pokazuje stosunek czystej wariancji między osobami do całej wariancji między osobami wyrażony procentowo. Prześledźmy teraz — na kolejnym przykładzie — zastosowanie omawianego wyżej planu analizy wariancji do następujących danych. Wyjściową wersją testu (traktowaną jako czynnik E) zawierającą 17= 10 pozycji przebadano osoby z p = 2 grup kryterialnych o różnych rozpoznaniach klinicznych (traktowanych tu jako czynnik A), po n = 5 osób w każdej grupie. Zgodnie z hipotezą badacza test ten powinien różnicować osoby należące do obu grup. Uzyskane wyniki przedstawione są w tab. 15.10 i 15.11. Tabela 15.10. Wyjściowa tabela wyników do analizonego Grupy Pozvcie 1 3 4 5 6 2 7 6 8 7 1 7 8 2 7 7 6 7 7 8 8 8 7 9 8 7 a, 3 4 8 6 8 8 7 6 9 9 6 9 7 5 9 3 3 3 2 6 3 4 4 4 3 4 6 7 1 1 4 4 3 2 a, 8 9 4 4 4 1 5 1 4 5 3 4 5 4 10
przykładu Suma
7 9 9
8 7 9
9
8
3
8 4
8 7
6 2 1
5
8
5 1 2 3
9 6 7 8 9 7
10 7 7 8 7 7
5
5
9
10 36 15 51
4 1 2 2
72 74 80 75 78 36 40 21 31 38
2 3 2 3
Tabela 15.11. Pomocnicza tabela wyników do analizowanego przykładu Grupy a, a-> Suma
1 38 16 55
2 39 16 55
3 33 21 54
4 38 14 52
Pożycie 6 39 36 18 17 57 53
Suma
5
7
42 20 62
8 40 15 55
37 14 51
319 166 545
Po wykonaniu pomocniczych obliczeń — (1) = 2970,25, (2) = 3541,00, (3) = = 3423,94, (4) = 2979,90, (5) = 3445,80, (6) = 3451,10 — przeprowadzamy analizę wariancji (por. tab. 15.12). Tabela 15.12. Tabela analizy wariancji do analizowanego przykładu Zródlo wariancji Między osobami A Osoby w. gr. Wewnątrz osób B AB B-osobv w er. Cała
SS 480,85 453,695 27,16 89.90 9,65 12,21 68,04 570.75
df 9 1 8 90 9 9 72 99
MS
F
453,695 3,395
133.634
1.072 1.356 0.945
1,134 1,435
Machowski (1993, s. 50-54) zaproponował obliczanie nieobciążonego estymatora mojego wskaźnika dobroci testu. Daje on wyniki „lepsze", aczkolwiek tylko nieznacznie różniące się (wyższe) od wartości wskaźnika liczonej wg wzoru (15.65).
498
Następnie analizujemy efekty proste A w bj. Rezultaty analizy wariancji tych efektów przedstawia tab. 15.13. Tabela 15.13. Tabela analizy wariancji dla efektów prostych: A w bj do analizowanego przykładu Źródło wariancji
SS
df
MS
F
bt
52,9 52,9 14,4 57,6 44,1 36,1 48,4 62,5 52,9 44,1
1
52,9 52,9 14,4 57,6 44,1 36,1 48,4 62,5 52,9 44,1
44,45 44,45 12,10 48,40 37,05 30,33 40,67 52,52 44,45 37,05
h h
b* b5
h bn
h b9 b\o
MSHqd = 1,19
1 1 1 1 1 1 1 1
^0,05:1 ;80 ~ 2,00
Okazuje się, że wszystkie pozycje różnicują — na założonym przez nas poziomie istotności a - 0,05 — grupy kryterialne. Tak więc ostateczna wersja testu równa jest wersji wyjściowej. Po podstawieniu danych z tab. 15.12 do wzoru (15.65) mamy: nr= UŁ
453,69 -89,90 453.69
100% = 80,18%.
Można wobec tego przyjąć, iż zaprojektowany przez nas test psychologiczny jest narzędziem dobrym, pomocnym w formułowaniu diagnozy różnicowej w zakresie różnicowania grup kryterialnych: at i a2.
9. Metody oparte na analizie związku pozycji testowych z ogólnym wynikiem testu 9.1. Wzór Spearmana-B równa Niejako ubocznym produktem analizy pozycji testowych (badanie ich mocy dyskryminacyjnej pojmowanej jako korelacja pozycji testowej z ogólnym wynikiem testu — por. rozdz. 16.) jest zbiór współczynników korelacji (punktowo-dwyjnej) każdej pozycji z wynikiem ogólnym testu. Możemy też obliczyć średnią tych korelacji — r„. Zachodzi związek między średnią interkorelacją pozycji testowych (r„) i średnią korelacją pozycji z ogólnym wynikiem testowym (r„): r ir = r„2 . 499
Współczynnik Spearmana-Browna oblicza się wg wzoru (15.66a, 15.66b):
/",> =
(15.66a)
gdzie: rif — średnia korelacja (punktowo-dwyjna) pozycji testowych z ogólnym wynikiem testu; n — liczba pozycji w teście, lub: (15.66b) gdzie: r a — średnia interkorelacja pozycji testowych; n — liczba pozycji w teście.
9.2. Wzór Gulliksena Gulliksen (1950, s. 378) zaproponował wzór (15.67) na r,„ wykorzystujący zarówno informacje o wariancjach poszczególnych pozycji testowych, jak i o korelacjach poszczególnych pozycji z ogólnym wynikiem testu (traktowanym jako suma odpowiedzi na poszczególne pozycje):
(15.67)
gdzie: vart — wariancja (-tej pozycji testowej; ru — współczynnik korelacji punktowo-dwyjnej pozycji z ogólnym wynikiem testu; s, — odchylenie standardowe i-tej pozycji. Zdaniem Guilforda (1954, s. 386) wzór (15.67) ma tendencje do niedoszacowywania rzetelności testu.
10. Metody oparte na badaniu stopnia zgodności sędziów kompetentnych (współczynnik W-Kendalla) W tym punkcie zapoznam Czytelnika ze sposobem oceny stopnia zgodności wydawanych przez sędziów kompetentnych ocen, dotyczących odpowiedzi osób badanych na poszczególne pozycje testu psychologicznego (ale dotyczy to także jakiejkolwiek innej metody diagnostycznej). Metoda badania zgodności ocen sędziów kompetentnych bywa też wykorzystywana do oceny rzetelności zestawów kryteriów ocen jakiejś formy zachowania się osób badanych. Takimi sędziami mogą być 500
doświadczeni klinicyści, oceniający na specjalnie opracowanych skalach szacunkowych postępy pacjenta poddanego psychoterapii, wychowawcy w zakładach penitencjarnych oceniający zachowanie się więźniów, nauczyciele oceniający wytwory uczniów itp. W takich i innych przypadkach, gdzie mamy do czynienia z wieloma zbiorami ocen, a każdy taki zbiór pochodzi od innej osoby, interesuje nas stopień zbieżności tych ocen. Mówiąc inaczej, interesuje nas stopień korelacji między k zbiorami ocen dotyczących n obiektów. Miarą tej współzależności jest współczynnik zgodności (ang. coefficient of concordance) W-Kendalla (1961). Współczynnik ten znajduje także zastosowanie przy rozdzielaniu pozycji do różnych kategorii (wymiarów) g-sortu. Współczynnik W przyjmuje wartości od „0" (brak zgodności) do „+1" (całkowita zgodność). Jest on wyrażony na skali porządkowej. Wysoki istotny wynik W interpretujemy jako fakt zgodności sędziów co do kryteriów, którymi posługiwali się przy ocenianiu danych obiektów. Musimy zdawać sobie sprawę z faktu, iż obliczanie współczynnika W ma sens tylko wtedy, gdy sędziowie umieją posługiwać się w sposób rzetelny pewnym kryterium oceny i gdy każdy z nich dokonuje tej oceny niezależnie od drugiego. Trzeba także podkreślić, iż wysoka wartość współczynnika W wcale nie oznacza, że ocena określonych obiektów jest poprawna. Może być tak, że sędziowie posługując się fałszywym kryterium (z punktu widzenia kryterium zewnętrznego) doszli do zgodnych opinii. Zatem wysoka zgodność sędziów wcale nie oznacza wysokiej trafności kryterium, którym posługiwali się dokonując swoich niezależnych ocen. Przykładowo, Kowalik (1981) badał wpływ systemów rehabilitacyjnych na kształtowanie się osobowości upośledzonych umysłowo. Badania były przeprowadzone na obozie letnim. Trzech sędziów kompetentnych oceniało stopień ukształtowania się pięciu cech osobowości u 14 osób upośledzonych umysłowo. Postępowanie badawcze wyglądało następująco: „każdemu z sędziów kompetentnych dokładnie scharakteryzowano cechy osobowości, ze względu na które mieli oni ocenić upośledzonych. Następnie każdy z sędziów otrzymał 14 karteczek z nazwiskami badanych, które należało uszeregować ze względu na stopień rozwoju u osób upośledzonych umysłowo badanych cech osobowości" (Kowalik, 1981, s. 151). Poniższe zestawienie pokazuje stopień zgodności ocen sędziów dla każdej cechy osobowości (tamże, s. 152): (1) (2) (3) (4) (5)
Cecha osobowości: inicjatywa ..................................... stabilność zadaniowa ..................... współdziałanie ................................ wytrwałość ..................................... inteligencja ....................................
Wartość W: 0,80 .......................... 0,78 .......................... 0,85 .............: ........... 0,95 ........................... 0,75 ..........................
a: 0,01 0,01 0,01 0,01 0,05
Współczynnik W jest współczynnikiem obliczanym dla danych wyrażonych na skali porządkowej i wymaga uprzedniego porangowania wyników podanych przez 501
sędziów. Ponieważ z praktyki dydaktycznej wiem, iż studenci nie zawsze wiedzą jak rangować wyniki powtarzające się w zbiorze wyników, więc zanim przystąpię do omówienia metody Kendalla, zapoznam Czytelnika z zasadami rangowania. Zasady rangowania Rangowanie polega na przypisywaniu uporządkowanemu zbiorowi wyników surowych liczb naturalnych tzw. rang. Możemy uporządkować wyniki surowe od najmniejszego do największego lub też w kolejności odwrotnej. Załóżmy że mamy zbiór składający sie z pięciu wyników: /. wyniki: 8, 3, 10, 11, 9. Najpierw musimy zbiór ten uporządkować, np. w kolejności rosnącej: //. wyniki: 3, 8, 9, 10, 11. Kolejnym krokiem jest przyporządkowanie każdemu wynikowi, począwszy od najmniejszego, kolejnych liczb całkowitych: 1, 2, 3, ... Są to tzw. rangi: ///. wymkt. 3, 8, 9, 10, 11, rangi:
1,2, 3, 4, 5.
Bardziej skomplikowane jest rangowanie w przypadku występowania kilku takich samych wyników, jak w poniższym przykładzie - dla zbioru 10 wyników surowych: /. wyniki: 10, 10, 50, 30, 100, 100, 100. 100, 100, 70. Po uporządkowaniu wyników, np. w kolejności malejącej, i przypisaniu każdemu z nich (począwszy od największego) kolejnych liczb całkowitych uzyskujemy dwa ciągi liczb: //. wyniki: 100, 100, 100, 100, 100, 70, 50, 30, 10, 10, liczby:
1,
2,
3,
4,
5, 6, 7,
8, 9, 10.
Powtarzają się tutaj: dwukrotnie wynik 10 i pięciokrotnie wynik 100. Dla tych samych wyników należy obliczyć wspólne rangi, tzw. rangi wiązane (ang. ties). Oblicza się je w ; ten sposób, iż dzieli sie sumę liczb przyporządkowanych tym samym wynikom przez liczbę tych samych wyników, np. dla wyniku 10 mamy: (9 + 10): 2 = 9,5. Po przeprowadzeniu tych operacji mamy: ///. wyniki: 100, 100, 100, 100, 100, 70, 50, 30, 10, 10, liczby: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 3,
rangi:
6,
7, 8,
9,5.
Po skasowaniu środkowego wiersza otrzymujemy: IV. wyniki: 100, 100, 100, 100, 100, 70, 50, 30, 10, 10, rangi:
3;
3;
3;
3;
3;
6; 7; 8; 9,5; 9,5.
Technika obliczania współczynnika W. Przed przystąpieniem do obliczania współczynnika W musimy porangować k zbiorów ocen. Rangując obiekty, rangę I przypisujemy obiektowi „najlepszemu" pod danym względem, rangę N obiektowi „najgorszemu". Następnie sporządzamy tabelę obliczeniową o k (liczba sędziów) wierszach i W (liczba ocenianych obiektów) kolumnach, czyli tabelę k x N. W pola tabeli wpisujemy rangi ocen poszczególnych obiektów. Sporządźmy taką tabelę fikcyjnych ocen dokonanych przez 3 sędziów dla 10 osób. Już porangowane dane zawiera tab. 15.14. 502
Tab. 15,14. Tabela pomocnicza do obliczania współczynnika W; wg tabeli 9.13 (Siegel, 1956, s. 234). Tabela zawiera wyniki już porangowane 3 5 8 9 10 12 11 1 2 4 6 7 2 4 8 9 10 1 3 5 6 7 Osoby
I
Sędziowie^^. W
\ A B C
Rj
\R,-M\ iRrM)2
1 2,5 2 5.5 11 121
4,5 1 2 1 2,5 4.5 6,5 10 100
9.0 7,5
4,5 4.5 4,5 13,5
3 56,25 9
3.0 4,5 4,5 12 4,5
7,5 8 4,5 20 3,5
6 9 8
23 6.5
9 6,5 7,5 10 8 8
10 6,5 10
23,5 7
26.5
165
10 100
591
20,25 12,25 42,25 49 Oznaczenia Rj — suma rang przypisanych przez sędziów y-tej osobie; I
25,5 9 81
N
V R: — suma sum cząstkowych Rf, M = (^ R} : N); N — liczba ocenianych osób; k — liczba sędziów.
Po wpisaniu rang w pola tabeli obliczamy sumę rang dla poszczególnych ocenionych osób i wpisujemy ją w wiersz oznaczony Rj. Następnie dodajemy wszystkie sumy cząstkowe, a otrzymany wynik dzielimy przez ogólną liczbę ocenionych obiektów. W naszym przykładzie mamy: 165/10= 16,5. W kolejny wiersz wpisujemy wynik odejmowania poszczególnych Rj od średniej czyli od
Rj/N P . U nas:
odejmujemy dziesięć razy R} od 16,5. W ostatnim wierszu tabeli zamieszczamy kwadraty otrzymanych różnic. Suma kwadratów tych różnic daje wartość oznaczoną symbolem S. Tutaj: 5-591. Uzyskane dane: k = 3, N= 10, 5= 591 wstawiamy do wzoru (15.70) na W — po przeprowadzeniu jeszcze jednej operacji, a mianowicie obliczeniu tzw. poprawki na rangi wiązane (o ile takie występują) wg wzoru:
503
Po podstawieniu odpowiednich danych do wzoru (15.70) mamy:
Aby ocenić procent ogólnej wariancji ocen wydanych przez sędziów tłumaczonej przez daną wartość W musimy obliczyć wg wzoru (15.72) średnią korelację rangową ocen (por. Ferguson, Takane, 1989, s. 423):
- _ kW- 1 rr~
k
_
l
,
,1CJJ
(15.72)
gdzie: r T — średnia korelacja rangowa ocen, inne oznaczenia — jak wyżej. Po podniesieniu wartości r r do kwadratu i przemnożeniu przez 100% uzyskamy procent wariancji ogólnej ocen tłumaczonej przez daną wartość W. Pozostały procent wariancji tłumaczą różnice indywidualne w sposobie oceny obiektów przez sędziów itp. Po podstawieniu danych z naszego przykładu do wzoru (15.72) mamy: _ _ 3 x 0,828 - 1 Tr 3-1 Cr r f = (0,742) 2 - 0,55 x 100% = 55%. Tak więc wartość W= 0,828 tłumaczy około 55% wariancji ocen (jest to wariancja wspólna ocen). Resztę, tj. 45% tłumaczą różnice indywidualne w sposobie oceny badanych osób przez sędziów (jest to wariancja resztowa). Testowanie istotności W. Nie wystarczy tylko obliczyć wartość W, należy także przekonać się czy jest ona statystycznie istotna na danym poziomie a. A . W p r zy p a d k u , g dy : ( 1) 3 < f c< 2 0 i ( 2 ) 3< N < 7 i s t o t n o ś ć w s p ó ł czy n n i k a W sprawdzamy w tablicach zamieszczonych w Dodatku. Tablice te podają wartości dla a =0,05 i a =0,01. Korzystanie z nich jest bardzo proste. Na przecięciu kolumny odpowiadającej liczbie ocenianych osób (obiektów) i wiersza odpowiadają504
cego liczbie sędziów znajdujemy krytyczną wartość S, z którą porównujemy otrzymaną wartość S. Jeżeli S > Sa to przyjmujemy, że współczynnik W jest istotny na tym poziomie a. B. W przypadku, gdy N > 7 dokonujemy aproksymacji rozkładu W do rozkładu chi-kwadrat ze stopniami swobody df=N- 1 wg wzoru: > k(N\)W
(15.73)
Sprawdzamy zatem istotność W poprzez istotność chi-kwadrat. Ponieważ w naszym przykładzie N = 10 więc musimy zastosować sposób testowania opisany w punkcie B. Mamy zatem po podstawieniu do wzoru (15.73) naszych danych: / = 3 x (10 - 1) x 0,828 = 22,356; df= 10 - 1= 9. Tablice krytycznych wartości %2 (tablice te zawiera każdy podręcznik statystyki) pokazują, że /2 = 22,356 przy df~ 9 jest istotne na poziomie a = 0,01. Gdybyśmy chcieli wybrać „najlepszy" obiekt powinniśmy kierować się wielkością Rj jako kryterium. „Najlepszym" obiektem jest ten, który uzyskał najmniejszą wartość Rj. W naszym przykładzie jest to osoba nr 1. „Najgorsza" jest osoba nr 10.
11. Podsumowanie Problematyka rzetelności i błędu standardowego, nawet ograniczona do prezentacji tylko jednego modelu, tj. modelu klasycznego, przedstawionego w podstawowej monografii Gulliksena Theory ofmental tests (1950), znacznie wykracza poza ramy jednego rozdziału podręcznika metodologii badań psychologicznych. Z tego też powodu można w nim było zaprezentować jedynie zarys tej problematyki. Podstawowym kryterium selekcji materiału oraz sposobu jego ujęcia było dla mnie przedI stawienie podstaw, umożliwiających, z jednej strony zrozumienie istoty teorii rze[telności testów psychologicznych, a z drugiej samodzielne skonstruowanie testu, Iktóry odpowiadałby standardom psychometrycznym (przede wszystkim tym, które ■cytożone są w podstawowym opracowaniu APA, 1985a). Omawiając różne podejścia do badania rzetelności starałem się zaakcentować I zarówno „plusy", jak i „minusy" każdego z nich. Wielość podejść do badania rzetel-I oości nie oznacza, że Czytelnik może swobodnie wybrać sobie jedno z nich i całe I badanie rzetelności „swojego" testu ograniczyć tylko do tego jednego podejścia, np. I badania wewnętrznej zgodności testu. Takie postępowanie należy uznać za niepełne. ■ Otóż. w zależności od charakteru testu, jego przeznaczenia, psycholog powinien zbadać Iróżne aspekty rzetelności testu, związane z różnymi źródłami wariancji błędu (podobliBejest zresztą w przypadku badania trafności testu, o czym piszę w rozdz. 17.). Tak samo powinno się analizować różne estymatory błędu standardowego, a nie ■ograniczać się jedynie do określania błędu pomiaru wyniku prawdziwego (ESM) przy 505
konstruowaniu przedziału ufności dla wyniku prawdziwego. Takim alternatywnym rozwiązaniem jest posłużenie się błędem estymacji wyniku prawdziwego (SEE). Czytelnik, który dotarł, za autorem, aż do tego miejsca, zapewne się zapyta, jaka minimalna rzetelność testu uprawnia jego użytkownika do posłużenia się nim w celach badawczych czy diagnostycznych? Otóż odpowiedź na to pytanie jest jednocześnie prosta i złożona. Można bowiem odpowiedzieć krótko — jak najwyższa! Taka odpowiedź nie może jednak zadowolić Czytelnika, który konstruując test na ogół nie spodziewa się, że jego rzetelność będzie wynosiła, powiedzmy, r„ = 0,95. Spróbujmy tedy udzielić tej drugiej, bardziej złożonej odpowiedzi. Ogólnie uważa się, że do oceny indywidualnej zupełnie wystarczy, gdy r„ = 0,80, a zdaniem Davisa (por. Choynowski, 1971b, s. 114) nawet 0,75. Im subtelniej szych chcemy dokonać rozróżnień między osobami badanymi za pomocą danego testu, tym większą rzetelnością powinien charakteryzować się test i tym mniejszy powinien być błąd standardowy, a w konsekwencji zbudowany przez psychologa przedział ufności będzie stosunkowo „krótki". Problematyka poruszona w tym rozdziale jest przedstawiona także w następujących opracowaniach: Guilford J.P. Teoria testów psychologicznych; Guilford J.P. Rzetelność i trafność pomiarów, Machowski A. Rzetelność testów psychologicznych. Dwa ujęcia modelowe; Magnusson D. Wprowadzenie do teorii testów (rozdz. 5.: Rzetelność, s. 92-118; rozdz. 6.: Standardowy błąd pomiaru, s. 119-134); Niemierko B. Testy osiągnięć szkolnych. Podstawowe pojęcia i techniki obliczeniowe (rozdz. V: Rzetelność testu, s. 220-280); Nowakowska M. Psychologia ilościowa z elementami naukometrii (rozdz. 1.: Zarys współczesnej teorii testów, s. 16-83). Alternatywne, do metody Kendalla, podejście do badania zgodności sędziów kompetentnych z wykorzystaniem analizy wariancji omówione jest w: Brzeziński J., Maruszewski T. Metoda sędziów kompetentnych i jej zastosowanie w badaniach pedagogicznych; Guilford J.P. Rzetelność i trafność pomiarów (s. 81-85).
Rozdział 16. Moc dyskryminacyjna pozycji testowych 1. Wprowadzenie Moc dyskryminacyjna danej pozycji danego testu (ang. iłem) mówi nam o tym, w jakim stopniu różnicuje ona daną populację pod względem cechy (zmiennej), której dotyczy. W ujęciu operacyjnym moc dyskryminacyjna wyraża się współczynnikiem korelacji między pozycją i wynikiem ogólnym testu, traktowanym jako suma odpowiedzi zgodnych z kluczem (np. suma odpowiedzi poprawnych na 29 pytań testu „Wiadomości" Skali Inteligencji WAIS-R Wechslera — por. Brzeziński, 1993c). Zagadnienie oszacowania mocy dyskryminacyjnej poszczególnych pozycji testu można więc sprowadzić do kwestii doboru odpowiedniego współczynnika korelacji między pozycją i wynikiem testu. Najczęściej jako miary mocy dyskryminacyjnej używa się jednego z trzech współczynników korelacji: (a) współczynnika korelacji punktowo-dwyjnej (rphi), (b) współczynnika korelacji dwyjnej (rbi)t (c) współczynnika korelacji punktowo-czteropolowej (ę). Wymienione współczynniki można obliczyć bezpośrednio z odpowiednich wzorów lub też znaleźć w tablicach. Oczywiście można też skorzystać z gotowego oprogramowania komputerowego, np. SPSS PC+. Zapoznam teraz Czytelnika ze sposobem obliczania wyżej wymienionych współczynników korelacji oraz z technicznymi aspektami obliczania mocy dyskryminacyjnej.
2. Trzy wskaźniki mocy dyskryminacyjnej pozycji testowych 2.1. Współczynnik korelacji punktowo-czteropolowej — korzystanie z tablic Jurgensena Posłużenie się współczynnikiem ę jest najmniej pracochłonną metodą obliczania mocy dyskryminacyjnej. Przed przystąpieniem do obliczania jego wartości musimy 507
uporządkować — od najwyższego wyniku do najniższego (bierzemy pod uwagę wynik ogólny) — wszystkie osoby badane i podzielić całą próbę na dwie grupy: (a) dolną połowę, (b) górną połowę. W każdej z obu grup obliczamy proporcję osób, które odpowiedziały na daną pozycję testu zgodnie z kluczem. Uzyskane wartości wstawiamy do wzoru (Jurgensen t 1968, s. 193): (16.1) gdzie: fg — proporcja osób odpowiadających zgodnie z kluczem w górnej połowie próby; fd — proporcja osób odpowiadających zgodnie z kluczem w dolnej połowie próby; p — proporcja osób odpowiadających zgodnie z kluczem w całej próbie (p=fg +fd)', q — proporcja osób odpowiadających niezgodnie z kluczem w całej próbie (q= 1 -p). Współczynnik ę jest przydatny szczególnie wtedy, gdy dysponujemy mało liczną próbą. Im liczniejszą próbą osób się posłużymy, tym niższa wartość współczynnika ę jest statystycznie istotna. I tak, na przykład, na poziomie a= 0,05, przy liczebnościach grup: 25, 50, 100, 200, krytyczne wartości ę wynoszą odpowiednio: 0,39; 0,28; 0,20; 0,14. Trzeba o tym pamiętać i nazbyt entuzjastycznie nie zawierzać podawanym, czasami, przez badaczy informacjom tylko o istotności statystycznej (wysokiej!) współczynników mocy dyskryminacyjnej. W przypadku, gdy badana próba jest bardzo liczna wygodniej jest przeanalizować tylko pewną jej część, a mianowicie skrajne grupy: dolną i górną, z odrzuceniem grupy środkowej. W tym celu musimy uporządkować osoby badane, pod względem ogólnego wyniku uzyskanego w teście — od najwyższego do najniższego wyniku ogólnego. Następnie „odcinamy" dwie równoliczne grupy: (a) górną (z wysokim ogólnym wynikiem), (b) dolną (z niskim ogólnym wynikiem) i poddajemy je dalszej analizie. Środkowa grupa nie interesuje nas. Jak liczne powinny być dwie skrajne grupy? Kelley (por. Thomdike, 1961, s. 240) wykazał, że stosunek otrzymanej różnicy między średnimi do jej błędu standardowego jest maksymalny wtedy, gdy każda ze skrajnych grup zawiera w przybliżeniu 27% badanej próby. W ten sposób możemy otrzymać najbardziej dogodny układ pozycji uporządkowanych od największej do najmniejszej mocy dyskryminacyjnej. Kiedyś autorzy różnych testów posługiwali się próbą o liczebności 370 osób, gdyż 27% z 370 daje w przybliżeniu 100 (por. np. Choynowski, 1968). a to — w epoce braku dostępu do komputerów — znacząco ułatwiało przeprowadzenie obliczeń. Oczywiście, dziś ten argument techniczny stracił rację bytu, chyba że ktoś konstruuje jakiś bardzo prosty i niezbyt „długi" test, a dysponuje jedynie dobrym kalkulatorem. Edwards i Kilpatrick (por. Edwards, 1957) analizowali skrajne grupy liczące po 25% osób z całej próby. Ja obliczałem moc dyskryminacyjną pozycji Kwestio-
508
nariusza Kontroli Emocjonalnej, KKE, biorąc pod uwagę grupy liczące po 27% osób z 200-osobowej próby. U podstaw powyższej procedury analizowania pozycji testu leży założenie, że związek między ogólnym wynikiem testu a daną pozycją ma charakter liniowy, ten. że wraz ze wzrostem procentu odpowiedzi zgodnych z kluczem na daną pozycję zwiększa się ogólny wynik testu. Przy obliczaniu współczynników mocy dyskryminacyjnej na podstawie analizy ekstremalnych grup korzystamy — jak to już zaznaczyłem — zazwyczaj z gotowych tablic lub programu komputerowego. Korzystanie z tablic jest bardzo proste; musimy tylko obliczyć proporcję osób odpowiadających zgodnie z kluczem na daną pozycję testu w dolnej i górnej grupie. Wstawiając te dane do „boczku" i „główki" odpowiedniej tabeli otrzymamy na przecięciu danego wiersza i danej kolumny szukaną wartość współczynnika korelacji. Tablice do obliczania współczynnika
gdzie: fg , fd — proporcja osób odpowiadających zgodnie z kluczem w grupach «ómej i dolnej składających się z dowolnego procentu osób z całej próby, np. po
pO*, 25% czy 50%.
2,2. Współczynnik korelacji punktowo-dwyjnej Ten typ współczynnika korelacji jest szczególnie przydatny w takich sytu[icjach, gdy jedna ze zmiennych, de facto polinomiczna, została zdychotomizowana, jak np. w przypadku analizowania wyników testu uzdolnień, które ocenia się jako Iprawidłowe" lub „nieprawidłowe". W przypadku kwestionariusza osobowości, ■soby. które odpowiedziały na daną pozycję, możemy podzielić na dwie klasy: Lodpowiedź zgodna z kluczem" i „odpowiedź niezgodna z kluczem". Następnie w każdej z dwóch wyróżnionych klas obliczamy średni wynik ogólny uzyskany przez ■oby z tej klasy w całym kwestionariuszu. Współczynnik korelacji punktowo-dwufcyjnej obliczamy wg wzoru (Guilford, 1954 s. 427):
(16.3) ■ie: M p — Średni wynik ogólny osób, które udzielały odpowiedzi zgodnej z Ihczem na daną pozycję; Mq — średni wynik ogólny osób, które udzielały odpo■edzi niezgodnej z kluczem na daną pozycję; s — odchylenie standardowe wyIflraw kwestionariusza w całej badanej próbie; p — proporcja osób, które odpo-
509
wiedziały zgodnie z kluczem na daną pozycję; ą — proporcja osób, które odpowiedziały niezgodnie z kluczem na daną pozycję (q = \ -p). Współczynnik rphi przyjmuje wartości z przedziału: <-l,+l>. Zaletą tego współczynnika jest to, że może on być stosowany nawet wtedy, gdy rozkłady wyników znacznie odbiegają od kształtu rozkładu normalnego. Na podstawie średniej korelacji punktowo-dwyjnej obliczonej między poszczególnymi pozycjami testu i wynikiem ogólnym można dokonać estymacji rzetelności kwestionariusza wg wzoru Spearmana-Brówna tak, jak to zaleca Guilford (tamże, s. 459). Jest on opisany w rozdz. 15., pkt. 9.1. Jednakże współczynnik korelacji punktowo-dwyjnej ma znacznie więcej wad niż zalet. Po pierwsze, jego wartość zależy od trudności pozycji testu. Tak więc zmiana trudności pozycji testu na kontinuum: 0,0-1,0 począwszy od 0,50 w obu kierunkach, powoduje spadek największej możliwej wartości współczynnika (Hubbard i Clemans, 1972, s. 61). Po drugie, w warunkach, w których można stosować współczynnik rw — współczynnik rpbi da znacznie niższe od rhl oszacowanie współczynnika r-Pearsona, nawet w sytuacji, gdy zmienna nie ma rozkładu normalnego. Opisanych wad nie ma trzeci z wymienionych wyżej współczynników korelacji — rw.
2.3. Współczynnik korelacji dwyjnej — korzystanie z tablic Flanagana (metoda dolnych i górnych 27% próby) Współczynnik korelacji dwyjnej stosuje się w takich samych sytuacjach, co omówiony poprzednio współczynnik, tzn., gdy jedna ze zmiennych została sprowadzona do dwóch klas, przy czym zmienna ta ma w rzeczywistości rozkład normalny (wymaganie rozkładu normalnego odnosi się do kształtu rozkładu w populacji, a nie w próbie). Przed przystąpieniem do obliczania wartości rbl dla /-tej pozycji musimy podzielić badaną próbę na dwie grupy: tych którzy odpowiedzieli na i-tą pozycję zgodnie z kluczem i tych, którzy odpowiedzieli na i-tą pozycję niezgodnie z kluczem. Następnie obliczamy średnie ogólne wyniki w teście w obu grupach i odchylenie standardowe rozkładu wyników testu w całej próbie. Uzyskane dane podstawiamy do wzoru (Guilford, 1954, s. 427):
(16.4) gdzie: M p , M q , s, p, ą -— oznaczenia jak we wzorze (16.3); y — rzędna rozkładu normalnego odpowiadająca punktowi p (np. Guilford, 1964, Tablica G., s. 548-549). Współczynnik rbi przyjmuje wartości z przedziału <-l, +1>, gdy rozkład wyników nie odbiega od normalnego. 510
W sytuacji analizy dwóch grup skrajnych (liczących po 27% liczebności całej próby) można posłużyć się specjalnie do tego celu opracowanymi przez Flanagana (w: Thorndike, 1961, s. 345-351) tablicami. Zostały one zamieszczone w Dodatku B, tablica 9. Korzystanie z nich jest bardzo proste — do „boczku" i „główki" tablicy wstawiamy proporcje odpowiedzi zgodnych z kluczem, odpowiednio w dolnej i górnej grupie próby standaryzacyjnej. Wspólną zaletą omówionych wyżej dwóch współczynników korelacji: rpbi i rbi jest to, że można ich wartości przeliczać na wartości z-Fishera wg wzoru:
lub korzystając ze specjalnej tabeli, którą Czytelnik znajdzie w Dodatku B, tab. 7. Przekształcenie z-Fishera upoważnia do wykonywania działań pozwalających oszacować różnice między współczynnikami korelacji. Ma to znaczenie, gdy konstruujemy kwestionariusz wielowymiarowy i interesuje nas stopień korelacji pozycji z i każdym czynnikiem (skalą) kwestionariusza oddzielnie, przy czym daną pozycję I włączamy do tego wymiaru (skali), z którym ona najwyżej koreluje. Poza tym współczynnik korelacji pozycji ze skalą, do której ta pozycja została włączona powinien znacznie różnić się od współczynnika korelacji tej pozycji z pozostałymi skalami kwestionariusza. Powyższych ocen dokonujemy korzystając z wartości z, gdyż na „czys-| tych" współczynnikach korelacji nie można wykonywać działań arytmetycznych. Przekształceniem z posłużył się Choynowski (1968) przy wstępnym roz-i dzielaniu pozycji oryginalnej wersji A/P/-Eysencka do trzech skal wersji adaptacyjnej (skali neurotyczności, skali ekstrawersji i skali kłamstwa) oraz przy obliczaniu różnic w wartościach z pozycji dla jednej skali z wartościami z dla dwóch pozostałych skal. Obliczone wartości różnic pozwoliły Choynowskiemu I na dobór do poszczególnych skal tylko tych pozycji, dla których różnice w [wartościach z były największe. Kryterium włączenia pozycji do danej skali kwestionariusza było uzależnione od rozpiętości uzyskanych różnic w wartościach h. Do danej skali włączono tylko pozycje o najwyższych wartościach z uporządkowanego szeregu wartości z. Omówiona procedura zapewnia utrzymanie pewnej niezależności poszczególI nych wymiarów kwestionariusza.
2.4. Sprowadzanie pozycji wielokategorialnej do postaci dwukategorialnej (metoda Edwardsa-Kilpatricka) Dotychczasowe rozważania dotyczyły obliczania mocy dyskryminacyjnej tych poŁycji testu, które miały postać dwukategorialną („0-1"), tzn. takich, na które odpowiedzi zgodne z kluczem były oceniane jako 1 pkt., a odpowiedzi niezgodae z kluczem jako 0 pkt. Problem komplikuje się, gdy chcemy obliczyć moc dysbminacyjną pozycji wielokategorialnych, jak np. w skalach postaw typu Likerta. 511
Zapoznajmy się teraz z regułą, wg której można sprowadzić pozycję wielokategorialną do postaci dwukategorialnej — zero-jedynkowej, która umożliwi zastosowanie powyższych technik obliczania mocy dyskryminacyjnej. Jest to reguła podana przez Edwardsa i Kilpatricka (Edwards, 1957, s. 213). Tabela 16.1. przedstawia hipotetyczne rozkłady odpowiedzi na (-tą pozycję testu w dolnej i górnej grupie 27% całej próby. Tabela 16.1. Pozycja 20. ze Skali Kontroli Antycypacyjnej KKE — rozkłady odpowiedzi w dolnej i górnej grupie 27% (n = 200) Kategorie odpowiedzi
Punkty
nigdy
3 2
rzadko często zawsze suma
1 0
Dolna grupa 27%
Górna grupa 27% 8
]3.
23 31 15
54
18 5
54
Aby sprowadzić pozycję do postaci zero-jedynkowej musimy przeprowadzić linię podziału między kategoriami. Nasuwa się pytanie: między którymi kategoriami przeprowadzić tę linię? Można ją przeprowadzić między punktami 3 i 2, albo między 2 i 1 lub też między 1 i 0. Nasza decyzja co do przeprowadzenia tej linii nie może być arbitralna; musi ona opierać się na jakiejś zasadzie, regule. Jest nią właśnie reguła Edwardsa-Kilpatricka, która mówi: linia podziału musi być przeprowadzona w takim miejscu, aby całkowita suma wyników nad linią w dolnej grupie i pod linią w grupie górnej była najniższa z możliwych sum. W naszym przykładzie będą to trzy sumy: — między punktami 3 i 2: (0) + (23 + 18 + 5) = 46, — między punktami 2 i 1: (0 + 8) + (18 + 5) = 31, — między punktami 1 i 0: (0 + 8 + 31) + (5) = 44. Suma=31 pokazuje nam, iż linię podziału należy przeprowadzić między punktami 2 i 1, jak przedstawia tabela 16.1. Kategoriom nad linią podziału przypisujemy 1 pkt, a kategoriom pod linią — 0 pkt. Dodajemy teraz do siebie liczebności nad linią podziału w dolnej i górnej grupie i otrzymujemy: — w dolnej grupie: 0 + 8 = 8, — w górnej grupie: 8 + 23 = 31. Obliczamy proporcję powyższych sum w dolnej i górnej grupie. Proporcje te wynoszą odpowiednio: 8/54 = 0,14 i 31/54 = 0,57..Wartości 0,14 i 0,57 wstawiamy do „boczku" i „główki" jednej z czterech tablic Flanagana i otrzymujemy poszukiwaną wartość współczynnika korelacji dwyjnej, która wynosi w naszym przykładzie 0,475. W przypadku obliczania współczynnika ę z powyższych danych, wartości 0,14 i 0,57 musimy wstawić do „boczku" i „główki" jednej z tablic Jurgensena. 512
Sporządzając dla każdej pozycji z eksperymentalnej wersji testu tabelkę podobną do tabeli 16.1, sprowadzamy każdorazowo pozycję testu do postaci zero-jedynkowej, możemy więc obliczyć dla wszystkich pozycji wskaźniki mocy dyskryminacyjnej. Istnieje pewne powiązanie między mocą dyskryminacyjną pozycji testu i jego rzetelnością. Widać to wyraźnie na przykładzie wzoru Spearmana-Brówna (por. rozdz. 15., pkt. 9.1), wg którego dokonuje się estymacji rzetelności testu ze średniej korelacji pozycji z ogólnym wynikiem testu. Im wyższe są wskaźniki mocy dyskryminacyjnej, tym wyższa jest rzetelność testu (w sensie jego jednolitości).
3, Podsumowanie Czytelnika zainteresowanego pogłębieniem wiadomości na temat mocy dyskryminacyjnej pozycji testowych odsyłam do następujących publikacji dostępnych w języku polskim: Brzeziński J. (red.) Problemy teorii, rzetelności, konstrukcji i analizy [wyników testów psychologicznych, tom II (rozdz. 3.: Tworzenie testu, s. 104-175); Magnusson D.E. Wprowadzenie do teorii testów (rozdz. 14.: Analiza zadań, |s. 292331).
Rozdział 17. Trafność 1. Wprowadzenie Jednym z podstawowych problemów nurtujących psychologiczną praktykę badawczą i diagnostyczną jest pytanie o to, co tak naprawdę mierzą testy psychologiczne, za pomocą których psychologowie pozyskują dane empiryczne. O ile psychologowie — i ci prowadzący badania naukowe, i ci prowadzący badania o charakterze użytkowym (diagnostyczne i selekcyjne) — starają się zwracać uwagę na takie parametry testu jak rzetelność {por, rozdz. 15.) czy biąd standardowy pomiaru (por. rozdz. 16.), to ich zainteresowanie kolejnym ważnym parametrem jakim jest trafność jest (tak to wygląda z mego punktu obserwacyjnego) nazbyt słabe (wbrew zaleceniom zawartym w standardach obowiązujących i konstruktora, i użytkownika testu — por. APA., 1985a, 1985b). W Standardach... (1985a, s. 33) czytamy: „Pytanie o trafność to pytanie o to, co można poprawnie wywnioskować na podstawie wyniku testowego. Pojęcie trafności dotyczy poprawności wniosków wyprowadzanych na podstawie wyników testowych lub innych form badania. Wszelkie potencjalne pytania o trafność dadzą się sprowadzić do dwóch: a) jakie wnioski można wyciągnąć na temat tego, co jest mierzone przez test; oraz b) jakie wnioski można sformułować o innych (pozatestowych) zachowaniach? Pytanie pierwsze dotyczy istoty pomiaru jako takiego. Test — będący tu instrumentem pomiarowym można bowiem traktować jako definicję operacyjną określonej dziedziny zdolności, bądź też cechy stanowiącej przedmiot zainteresowania autora testu lub jego użytkownika. W tym wypadku podstawowym zagadnieniem jest ustalenie, jak wiernie wyniki testu odzwierciedlają tę dziedzinę; stąd owo pytanie jest pytaniem o trafność pomiaru. Pytanie drugie dotyczy użyteczności pomiaru jako wskaźnika jakiejś innej zmiennej, jako elementu umożliwiającego przewidywanie zachowań. Teraz naczelną kwestią jest ustalenie, w jakim stopniu wyniki testowe są powiązane z innymi zachowaniami, a zatem mamy tu do czynienia z pytaniem o siłę związku między zmiennymi." 514
Psycholog, z większym lub mniejszym zaufaniem, interpretuje — odwołując się do jakiejś teorii psychologicznej — uzyskany wynik testowy. Chciałbym wyraźnie podkreślić, iż wynik testowy istnieje tylko w kontekście określonej teorii psychologicznej (pisałem o tym, jak się wydaje bardzo wyraźnie, w rozdz. 3., pkt. 3.). Co prawda, niektórzy psychologowie sądzą, że możliwe jest skonstruowanie wartościowego testu psychologicznego bez odwołania się do teorii psychologicznej, ale takie podejście jest niezgodne z „duchem" procedury operacjonalizacji zmiennych teoretycznych (por. rozdz. 7.). Przykładowo, Jakubowski (1983, s. 226) wskazuje na skalę F MMPl1 jako taką, która nie jest powiązana z żadną teorią, gdyż składa się z twierdzeń „na które 90% próbki normalizacyjnej odpowiadało tak samo: treść twierdzeń nie była brana pod uwagę". Uważam jednak, że u podstaw skali F leżą określone założenia teoretyczne (ukryte) dotyczące stylu udzielania odpowiedzi na pytania kwestionariuszowe. Można je „wydobyć" z opisu skali i zaI sad interpretacji jej wyników przedstawionych w podręczniku Matkowskiego (1992. s. 26-28). Można też, na przykład, odwołać się do modelu udzielania odpowiedzi na pytania kwestionariuszowe opracowanego przez Nowakowską (1975, s. 154). a empirycznie zilustrowanego danymi z badania kwestionariuszem 16 PF ICatłella. Także Cronbach i Meehl (1955) zauważyli, iż możliwe jest powiązanie [wyników poszczególnych skal MMPl z jakąś teorią psychologiczną: „...chociaż I MMPl powstał na podstawie empirycznego różnicowania między grupami pacjenItów i tak zwanymi normalnymi (trafność diagnostyczna), późniejsze badania pró[bowały stworzyć podstawę dla opisu osobowości związanej z każdym układem i cech. Takie interpretacje pozwalają klinicyście na przewidywanie funkcjonowania I ze względu na kryteria, które dotychczas nie były stosowane w empirycznych bai daniach nad trafnością". Jeżeli owa interpretacja ma być sensowna (sensowna na gruncie określonej, wbudowanej w świadomość metodologiczną psychologa, teorii psychologicznej — ■por. rozdz. 3., pkt. 3.), to psycholog musi wpierw odpowiedzieć na podstawowe [pytanie: co tak naprawdę mierzy ten test psychologiczny, a dokładniej: (a) jego wynik ogólny, (b) wyniki cząstkowe, powstałe po pogrupowaniu tych pozycji, które uznane I zostały za podobne pod jakimś względem (np. o wysokich ładunkach czynnikofcych na tym samym czynniku), (c) odpowiedzi na poszczególne, pojedyncze pozycje (zadania testu inteligencji ■y pytania kwestionariusza osobowości)? Przykładem dobrej, pod tym względem, roboty psychometrycznej są analizy I poszczególnych pozycji testów wchodzących w skład Skali Inteligencji W-B Wejchslera przeprowadzone przez Rapaporta (1945). Pytanie o trafność testu jest pytaniem dla psychologa-empiryka podstawowym. I Bez udzielenia na nie jasnej, jednoznacznej odpowiedzi nie sposób poważnie (w „Skalę F tworzą 64 twierdzenia, na które jedynie niewielki procent ludzi (10% i mniej) odpowiada zgodnie z kluczem. Zadaniem tej skali miało być wykrywanie nietypowych i dewiacyjnych ■osobów odpowiadania na pytania testu" (Matkowski, 1992, s. 26).
515
zgodzie z obowiązującymi psychologa standardami psychometrycznymi) interpretować rezultatów badania testowego.
2. Cztery aspekty trafności W psychometrii wyodrębnia się cztery podstawowe, można powiedzieć: „kanoniczne", aspekty (rodzaje) trafności (APA, 1985a, 1985b; Loevinger 1957; Jakubowski, 1982; Curreton, 1951; Cronbach, 1971; Campbell, 1960; Messick, 1980, 1989, 1995; Magnusson, 1991; Niemierko, 1975). O trzech z nich (trafności: diagnostycznej, prognostycznej i treściowej) będzie mowa w pkt. 2., a o czwartym, trafności teoretycznej (wg.: Cronbach, Meehl 1955) — jako w mojej opinii najważniejszym — i dwóch głównych metodach analizy tego aspektu trafności traktować będą trzy punkty 3., 4. i 5. Trudno powiedzieć, dlaczego utrwaliło się wśród psychologów przekonanie, że oprócz tzw. Holy Trinity (por. Guion, 1980), tj.: (1) trafności kryterialnej — diagnostycznej i prognostycznej (ang. criteńon oriented validity — concurrent validity i predictive validity), (2) trafności treściowej (ang. content validity), (3) trafności teoretycznej (ang. construct validity), wyróżnia się jeszcze czwarty rodzaj „trafności", a właściwie pseudotrafności: (4) trafność fasadową (ang. face validity). „Trafność fasadową" (celowo używam cudzysłowu, aby podkreślić, iż mamy w tym przypadku do czynienia z pseudotrafnością) określił przed wielu laty Guilford (1954, s. 400; też: Guilford, 1988, s. 88): „termin trafność fasadowa ma wiele znaczeń i stosowany jest nader swobodnie. Najczęściej wiąże się go z faktem, że test wydaje się trafny i to szczególnie tym osobom, które nie posiadają profesjonalnego wykształcenia w dziedzinie badań testowych. To, że test wydaje się trafny, nie jest jeszcze oczywiście żadną gwarancją rzeczywistej trafności tego testu (...) i nawet doświadczony psycholog powinien być bardzo ostrożny wobec tego typu informacji. Niektórzy mówiąc o zasadach akceptacji niektórych testów twierdzą żartobliwie, że są one stosowane na zasadzie wiary w trafność (faith validity)". Inny wybitny psychometra, Mosier (1947; cyt. za: Guilford, 1988a, s. 88) poddając krytycznej analizie pojęcie „trafności fasadowej" zwrócił uwagę na tzw. trafność na mocy założenia (ang. validity by assumption), co Guilford skomentował następująco: „istnieją takie miary (np. wyniki testu osiągnięć), których trafność przyjmowana jest na mocy umowy. Innymi słowy zakładamy, że wyniki testowe rzeczywiście mierzą to, co chcemy aby mierzyły. (...) trafność niektórych testów (innych niż testy osiągnięć) również przyjmowana jest na mocy umowy. (...) Prawdziwym przeżyciem poznawczym jest praca nad testem, który tak dobrze wydaje się mierzyć daną cechę, że z całą pewnością nie może chybiać, a po zastosowaniu analizy korelacyjnej okazuje się mierzyć zupełnie inne czynniki". Błąd tkwi w 516
przekonaniu, że: „dwie rzeczy, mające tę samą nazwę (...) są skutkiem tego tym samym" (Bechtoldt, 1968, s. 37). I jeszcze jeden cytat. Tym razem zaczerpnięty ze Standardów... (APA, 1985a, s. 34): „Tak zwana trafność fasadowa będąca tylko pozorem trafności, nie jest właściwą podstawą wniosków wyprowadzanych z wyników testowych". Ten rodzaj pseudotrafności upowszechnił się w Polsce, jak sądzę, za sprawą Choynowskiego, który opublikował, skądinąd ważny i wartościowy artykuł Bechtoldta, specjalisty (nawiasem mówiąc krytyka trafności teoretycznej — por. Bechtoldt. 1959) od zagadnień trafności testów psychologicznych, pt.: Teoretyczne pod\stawy metod testowych: trafność i prognoza (Bechtoldt, 1968). To w tym artykule czytamy m. in.: „termin trafność fasadowa dotyczy sposobu, w jaki badani reagują na wygląd testu i na metodę testowania — niektóre testy są dla badanych bardziej strawne niż inne. Bardziej ogólnym terminem oddającym to, o co tu chodzi, jest kontakt stworzony między badanym a badającym przez instrukcję i postępowanie przy testowaniu" (s. 41). Uważam, że nie należało tu odwoływać się do terminu „trafność". Dla psychologów społecznych, posługujących się narzędziami „docierającymi" I do opinii i postaw osób badanych, czy dla psychologów szkolnych, badających strukturę i poziom zdolności i umiejętności uczniów, niezmiernie ważne jest też zapewnienie wysokiej trafności treściowej. Jej znajomość jest szczególnie ważna gdy psycholog „...jest zainteresowany oceną zachowania badanego we wszystkich sytuacjach, które test (z założenia) ma reprezentować" i gdy chce wykazać, że „...zachowania demonstrowane w badaniu testowym są reprezentatywną próbą zachowań ujawniających się w interesującej badacza sferze" (APA, 1985a, s. 36). W ostatnich latach znacznie rozwinęła się teoria trafności (por. np. Messick, 1995; Wainer, Braun, 1988) i dziś już nie wystarczy ogiosić, iż test psychologiczny, a właściwie kandydat do miana testu, koreluje z jakimś kryterium zewnętrznym Inp. innym, podobnym testem psychologicznym), aby uznać sprawę określenia trafności testu za pozytywnie załatwioną.
2.1. Trafność kryterialna Na ogół pojęcie trafności kojarzy się psychologom z procedurą ustalania korelacji między wynikami nowego testu i jakimś zewnętrznym kryterium. I znowu, najczępciej owym kryterium jest inny test psychologiczny o uznanej już trafności. Rzadziej jest to kryterium nie-testowe, np. diagnoza psychiatryczna (por. np. Zawadzki, B970. s. 217-218; APA, 1985a, standard E4.4.2, E4.4.3, s. 44), kryteria wypracowane przez sędziów kompetentnych {np. APA, 1985a, standard E4, s. 43), miary fizjologiczne, np. wskaźniki wyłonione ze struktury zapisu EEG, EKG czy GSR Mnp. Strelau, 1992, rozdz. 9.: Wskaźniki psychofizjolgiczne i psychofizyczne w badaniach nad diagnozą temperamentu/osobowości i nad pomiarem trafności teorewanej kwestionariuszy, s. 160-176; Sosnowski, Zimmer, 1993). 517
Należy byc bardzo ostrożnym w przyjmowaniu (akceptacji) danych dotyczących trafności jakiegoś nowego testu, jeżeli w jego „metryczce psychometrycznej" istnieje informacja, że trafność kryterialną tego testu ustalono przez skorelowanie jego wyników z wynikami innego testu. Być może, gdybyśmy zadali sobie trud zajrzenia do „metryczki psychometrycznej" testu-kryterium, okazałoby się, że jego trafność ustalono identycznie itd. Ustalanie trafności kryterialnej metodą test by test świadczy raczej o ubóstwie warsztatowym diagnostyki psychometyrycznej, niż o jej wyrafinowaniu i chęci pozostawania w bliskości z rzeczywistością, która ma przecież charakter nietestowy. Moim zdaniem (także: Drwal, 1995, s. 27; APA, 1985b, pkt. 1. Validity\ s. 16 — Standards 1.8-1.10), każdy nowy test powinien być wprowadzany po wykazaniu jego zbieżności (aspekt zbieżny trafności) nie tylko z innymi testami, ale — przede wszystkim — z kryteriami faktycznie zewnętrznymi (a więc nietestowymi!), wg których można dokonanać oceny tej samej zmiennej. Ponadto należy wykazać brak zbieżności testu (aspekt różnicowy trafności) z podobnymi miarami testowymi i nietestowymi, ale przeznaczonymi do oceny innych zmiennych. Mówiąc krótko. idzie o to, aby badanie trafności testu przeprowadzić metodą Campbella i Fiskego (1959), którą szczegółowo prezentuję w pkt. 4. Jak już napisałem wyżej, jeżeli kryterium jest zastosowane równolegle w czasie do testu, to mówimy o trafności diagnostycznej, a jeżeli na podstawie wyników testu chcemy przewidzieć wystąpienie zachowania opisanego przez kryterium, to mówimy o trafności prognostycznej. Na co należy zwracać uwagę przy ustalaniu trafności kryterialnej za pomocą pojedynczego wskaźnika, np. współczynnika korelacji? Na to pytanie odpowiadają Standardy... (APA, 1985a, s. 35-36). Po pierwsze, podobnie jak to ma miejsce przy ustalaniu rzetelności testu metodą test-retest (stabilność bezwzględna), może okazać się, że warunki w jakich przeprowadzono pierwsze badanie (za pomocą testu), w procesie ustalania trafności prognostycznej, będą istotnie odbiegać od warunków końcowych, w jakich dokonano pomiaru kryterium (zakłada się, że warunki początkowe i końcowe będą zasadniczo do siebie podobne). Po drugie, mimo przyjęcia założenia o trafności samego kryterium (np. ocen szkolnych, diagnozy psychiatrycznej czy innego testu), w rzeczywistości jego trafność może pozostawiać wiele do życzenia. Wcale nie tak łatwo dobrać trafne kryterium. Bardzo tedy kusząca jest droga walidowania testu poprzez wykazanie jego wysokiej korelacji z ... innym testem. Po trzecie, zakłada się, że próba jest de facto reprezentatywna, a w rzeczywistości obejmuje ona osoby, które były stosunkowo łatwo dostępne badaczowi (np. studentów psychologii uczęszczających na wykład autora testu i zdających u niego egzamin — jak w tej sytuacji student może „bezpiecznie" odmówić udziału w takich badaniach i w jakim stopniu studenci psychologii są podobni do reszty społeczeństwa?). Po czwarte, nie należy prowadzić badań na zbyt mało licznych próbach, gdyż będą kłopoty z trafnością zewnętrzną (por, rozdz. 3., pkt. 2.2). Na kłopoty metodologiczne, jakie sprawia posługiwanie się pojedynczym wskaźnikiem kryterium (na polu selekcji) zwraca uwagę Dunnete (1963). 518
Wymagania związane z ustalaniem trafności krytenalnej podane zostały w Standardach... (APA, 1985a, standardy: E3-E10, s. 42-55). I jeszcze jedno, ustalanie trafności kryterialnej związane jest z koniecznością posługiwania się poprawką na obniżenie (rozcieńczenie) trafności (ang. correction for attenuation)2 (Guilford, 1988, s. 89). Jest ona związana z nierzetelnością (odbiegającą od rzetelności idealnej, wyrażającej się współczynnikiem r„=l,0) tak samego testu, jak i kryterium. Chcąc tedy poznać faktyczną korelację testu z kryterium musimy, przy jej obliczeniu, uwzględnić wartości obu współczynników rzetelności. Sam wzór (17.1) na taką „poprawioną" korelację wygląda następująco:
gdzie: rTK — poprawiona korelacja wyników testu i kryterium; r„ — współczynnik izetelności testu; rkk — współczynnik rzetelności kryterium. Otrzymana wartość korelacji testu z kryterium po uwzględnieniu wartości współczynników rzetelności będzie wyższa, aniżeli wartość tej korelacji obliczona bez uwzględnienia wartości współczynników rzetelności testu i kryterium. Więcej, bardziej szczegółowych informacji na temat trafności kryterialnej znajdzie Czytelnik u Magnussona (1991), Niemierki (1975) i Guilforda (1964, 1988)3.
2.2. Trafność treściowa (wewnętrzna) Trafność treściowa (wewnętrzna) jest — jak mi się wydaje — zaniedbywana przez (psychologów. Skupiają oni swoją uwagę raczej na trafności kryterialnej. Większą wagę do analizy trafności treściowej przykładają pedagodzy, którzy [konstruując testy osiągnięć są zainteresowani tym, aby zbiór zadań tworzących test iowił rzeczywiście reprezentatywną próbę dla uniwersum pozycji, które jest uzalnione przez oficjalne programy nauczania. Niemierko (1975, s. 172) pisze: „traf-BĆ wewnętrzna testu osiągnięć szkolnych polega na zgodności treści testu z pro-lem nauczania. Ustalamy ją porównując czynności wykonywane przez ucznia celu rozwiązania zadań testu z czynnościami, których opanowanie jest wymagaTrafność treściowa jest szczególnie ważna dla testów uzdolnień, umiejętności, siągnięć szkolnych i wiadomości, dla kwestionariuszy osobowości, skal postaw i pinii oraz dla arkuszy obserwacyjnych. Standardy... (APA, 1985a, s. 36-37) tak mówią o badaniu trafności treściowej: y potwierdzić trafność treściową zbioru wyników otrzymanych w teście należy , Tłumacz pracy Magnussona (1991. s. 218-222) przetłumaczył angielski termin jako „poprawkę i nierzetelność". - Guilford (1988, s. 90) przestrzega przed „pokładaniem zbył wielkiej wiary we współczynnik awiony ze względu na obniżenie trafności". Czytelnik zechce się zaznajomić z argumentami Guil-
519
wykazać, że zachowania demonstrowane w badaniu testowym są reprezentatywną próbą zachowań ujawniających się w interesującej badacza sferze. Określenie tej sfery, określenie realizowanych przez badacza celów oraz metody dobierania próby jest szczególnie ważne w wypadku trafności treściowej. W badaniu trafności treściowej wymaga się, aby autor testu lub jego użytkownicy sprecyzowali stawiane przez siebie cele oraz dokładnie zdefiniowali — w świetle tych celów — badaną sferę zachowań. Aby można było określić stopień, w jakim poszczególne zadania składają się na całą sferę zachowań, jej definicja powinna być sformułowana raczej w terminach efektów uczenia się niż procesów (autorzy omawiają zagadnienie trafności treściowej odnosząc się w warstwie przykładowej do testów osiągnięć — przyp. J.B.), dzięki którym uczenie się jest i wystarczająco szczegółowe i zorganizowane". Chciałbym przestrzec Czytelnika, przed utożsamianiem ustalania trafności treściowej testu z ustalaniem tzw. trafności fasadowej, gdyż ta ostatnia związana jest jedynie z powierzchowną oceną tego, czy test X sprawia wrażenie testu określonego typu, czy wygląda jak „prawdziwy" test. Z kolei ustalanie trafności treściowej wymaga, aby badacz zdefiniował uniwersum pozycji i aby wykazał, że pozycje włączone do testu stanowią faktycznie reprezentatywną dla tego uniwersum ich próbę. W celu określenia stopnia reprezentatywności próby pozycji psycholog powinien się odwołać do ekspertów. Z kolei do oceny stopnia zgodności ich sądów należy wykorzystać np. współczynnik zgodności sędziów kompetentnych W-Kendalla, opisany w rozdz. 15., pkt. 10.1.
3. Trafność teoretyczna (wg L. J. Cronbacha i P. E. Meehla) Według mnie najważniejszym aspektem (czy rodzajem) trafności jest trafność teoretyczna (w sensie: Cronbach, Meehl, 1955; także: Campbell, 1960; APA, 1985a, 1985b; Frederiksen, 1986; Messick, 1995), pokazująca związek narzędzia pomiarowego z konstruktem teoretycznym (zmienną teoretyczną) zaczerpniętym z danej teorii psychologicznej, a najlepszym operacyjnym podejściem do jej badania jest opracowana przez Campbella i Fiskego (1959; por. pkt. 4. niniejszego rozdziału) metoda analizy macierzy „wielu cech — wielu metod" (por. też Angoff, 1988, s. 26). Zdaniem zaś Guiona (1980) do trafności teoretycznej można sprowadzić zarówno trafność treściową, jak i trafność kryterialną. W miejsce tedy „triadowej" koncepcji trafności Guion proponuje unitarną koncepcję trafności — rzecz jasna ma to być koncepcja trafności teoretycznej (w oryginale występuje opozycja: trinitarian doctrine of validity vs unitarian doctrine of validity; trinitarian — od trinitas, łac. trójca; Trójca Św.). „Określenie trafności teoretycznej występuje wtedy, kiedy test ma być interpretowany jako miara pewnego atrybutu lub pewnej właściwości, które nie są zde520
I
finirtii-i
finiowane operacyjnie. Problem, w obliczu którego stoi badacz, przedstawia się następująco: «Jakie konstrukty4 wyjaśniają wariancję wyników rozwiązywanego testu?*" (Cronbach, Meehl, 1955). Dla lepszego zrozumienia istoty ustalania trafności teoretycznej testu odwołajmy się do dwóch przykładów — jednego zaczerpniętego wprost od Cronbacha i Meehla (1955) oraz drugiego (Hornowska, 1993c), pokazującego w jaki sposób można dokonać rekonstrukcji założeń teoretycznych testu, który, pozornie, wprost danej teorii nie zakładał. Przykład 1 „Załóżmy, ze miara X koreluje na poziomie 0,50 z Y czyli wielkością zmiany elektrycznego przewodnictwa skóry pojawiającego się wtedy, kiedy informujemy studenta, że oblał egzamin z psychologii. Współczynnik ten trafnie opisuje trafność prognostyczną X dla Y dla danej próbki i danych warunków. Gdyby ktoś miał zapytać «Czy nie istnieje być może inny sposób interpretowania tej korelacji?» albo •Jakie inne rodzaje danych mógłbyś dostarczyć dla potwierdzenia tej interpretacji?» z trudem zrozumielibyśmy, czego dotyczy pytanie, ponieważ nie podaje się korelacji jako dowodu na to, że «test X mierzy skłonność do lęku». Możliwe są interpretacje alternatywne; być może test mierzy np. aspiracje akademickie i w tym przypadku oczekiwalibyśmy odmiennych rezultatów, kiedy wywołalibyśmy zmianę elektrycznego przewodnictwa skóry za pomocą zagrożenia ekonomicznego. Czy zatem jest sensowne poszukiwanie innych rodzajów dowodów? Połączmy te fakty z danymi z późniejszych badań. Test X koreluje na pozioimie 0.45 z oceną napięcia podaną przez innych studentów. Test X koreluje na poziomie 0,55 z wielkością dezorganizacji intelektualnej wywołanej przez bolesny szok elektryczny, a na poziomie 0,68 z wynikiem Skali Lęku Objawowego MAS Talor. Średnia X obniża się w czterech grupach diagnostycznych w następującej kolejności: stany lękowe, depresja reaktywna, normalni oraz osobowość psychopatyczna. I wreszcie elektryczne przewodnictwo skóry przy zagrożeniu niepowodzeniem w przypadku psychologii koreluje na poziomie 0,60 z przewodnictwem w przypadku zagrożenia niepowodzeniem w zakresie matematyki. Wyniki negatywne eliminują konkurencyjne wyjaśnienia wyniku X; tak więc, stwierdzenie nieistotnych korelacji między X i klasą społeczną, celami zawodowymi i orientacją na wartości usprawiedliwiają bezpieczne odrzucenie sugestii, że test X mierzy aspiracje akademickie. Możemy mieć zatem znaczne zaufanie do tego, że X mierzy skłonność do 4 „Konstrukt jest pewną postulowaną właściwością ludzi, o której zakłada się, że ujawnia się Boa w rozwiązywaniu testu. Podczas procedury określenia trafności testu konstniktem jest atrybut, na tonai którego wypowiadamy pewne twierdzenia interpretując test. Oczekujemy — piszą Cronbach i Meehl (1955) — że osoba w dowolnym momencie czasowym posiada, bądź też nie posiada pewnej ■laściwości jakościowej (amnezja) albo struktury albo też posiada pewien poziom właściwości ilościowej. Konstrukt posiada też pewne skojarzenia, przenoszone przez twierdzenia o charakterze ogólnym: Wzie, którzy posiadają tę właściwość będą w sytuacji X działać w sposób Y (z określonym prawdopoiobieństwem). Dążymy do wyszczególnienia, jak bronić proponowanej interpretacji testu; nie rekomenŁjemy żadnego określonego rodzaju interpretacje
521
lęku, jeśli aktualna teoria lęku może obejmować wszystkie zależności, które doprowadziły do pojawienia się korelacji dodatnich oraz nie przewidywać korelacji, które nie zostały wykryte". Chciałbym — uprzedzając to, co jest napisane w kolejnym, 4. pkt. — powiedzieć, że przeprowadzona w drugiej części przykładu I analiza korelacji prowadzona jest w „duchu" kilka lat później ogłoszonej przez Campbella i Fiskego (1959) metody analizy macierzy WCWM. Przykład II Bodajże najbardziej rozpowszechniona w świecie testowa miara inteligencji, jaką jest Skala Inteligencji Wechslera (począwszy od W-B I/II przez WAIS do WA1S-R) nie miała wyraźnie określonych przez swego autora podstaw teoretycznych. Wechsler nie skonstruował „dużej" teorii inteligencji, z której logicznie wyprowadziłby 11 składających się na tę skalę testów. Krytyczna analiza będącej wówczas w powszechnym użyciu Skali Inteligencji Stanford-Bineta (z 1916 n), opartej na stemowskim rozumieniu ilorazu inteligencji IQ (piszę o tym szczegółowo w: Brzeziński, 1993a) zakładającym pojęcie „wieku umysłowego" (ang. mental age) zaczerpniętego od Bineta, konstruktora pierwszego testu inteligencji (Wechslerowi znana była krytyka pojęcia „wieku umysłowego" przeprowadzona przez Thurstone'a, 1926) oraz doświadczenie kliniczne zdobywane w pracy z pacjentami dużego szpitala psychiatrycznego Bellevue w Nowym Jorku skłoniły Wechslera do odrzucenia dotychczas „panujących" poglądów na naturę inteligencji i zaproponowania takiej definicji inteligencji, która nie oddzielałaby jej od „reszty osobowości". Zatem: „Inteligencja jest to zagregowana (ogólna) zdolność jednostki do podejmowania działań celowych, racjonalnego myślenia i do efektywnego radzenia sobie we własnym środowisku. Jest ona globalna, ponieważ charakteryzuje zachowanie jednostki jako całości, jest zagregowana, gdyż składa się z elementów (zdolności), które chociaż nie są całkowicie niezależne, ale są jakościowo odróżnialne (...) Inteligencja nie jest jednakże tożsama z prostą sumą owych zdolności. Składają się na to trzy przyczyny: 1) efekty końcowe zachowań inteligentnych nie są wyłącznie funkcją liczby zdolności lub ich poziomu, lecz również sposobu ich kombinacji, a więc zależą od ich konfiguracji; 2) czynniki inne niż zdolności intelektualne, np. popęd czy podniety są także składową inteligentnych zachowań; 3) wreszcie gdy różne klasy inteligentnych zachowań mogą wymagać zdolności intelektualnych o różnym poziomie, to nadwyżka każdej ze zdolności może stosunkowo niewiele przyczyniać się do zwiększenia efektywności zachowania jako całości" (Wechsler, 1993, s. 16). Wychodząc od tej definicji i innych twierdzeń Wechslera na temat natury inteligencji i możliwości dokonywania jej pomiaru poprzez pomiar określonych zdolności, Homowska dokonała rekonstrukcji mierzonych przez 11 testów skali funkcji intelektualnych: (1) sprawność funkcji poznawczych, (2) zakres posiadanej wiedzy, (3) zdolność do koncentracji i (4) umiejętność koordynacji wzrokowo-ruchowej. Następnie każdy z wymiarów został rozbity na — łącznie — 10 podwymiarów. Tym zaś zostały przyporządkowane wechslerowskie testy (1, 2, 3, a nawet 5 testów do każdego podwymiaru) (Homowska, 1993c, tab. 1., s. 27). Nie poprze522
stając na rekonstrukcji poglądów Wechslera, Hornowska dokonała analizy testów składających się na Skalę Inteligencji Wechslera z punktu widzenia takich ważnych teorii inteligencji, jak: (1) teoria czynnika ogólnego g Spearmana, (2) teoria inteligencji płynnej i skrystalizowanej Cattella-Horna, (3) teoria struktury intelektu SOI Guilforda. Czytelnik, który będzie sięgał po Skalę Inteligencji Wechslera powinien wpierw zapoznać się z tą bardzo ważną — dla rozumnego posługiwania się którąś ze skal wechslerowskich — pracą ustalającą trafność teoretyczną tej skali. Przejdźmy teraz do udzielenia odpowiedzi na pytanie: W jaki sposób można ustalić trafność teoretyczną testu? Czy tak, jak w przypadku trafności kryterialnej, można posłużyć się jednym współczynnikiem korelacji (na wzór korelacji: test-kryterium)? Już zapoznanie się z przytoczonymi wyżej przykładami daje odpowiedź na drugie pytanie, iż raczej nie jest możliwe sprowadzenie zadania ustalenia trafności teoretycznej testu do ustalenia wysokości jednego współczynnika, np. współczynnika korelacji. Podobnie piszą autorzy Standardów... (APA, 1985a, s. 38): „Ocena trafności teoretycznej nie sprowadza się do przeprowadzenia jednego badania: wymaga raczej kumulacji wyników badań. Zbieranie danych potrzebnych do określenia trafności teoretycznej rozpoczyna się od formułowania hipotez o właściwościach osób uzyskujących wysokie wyniki testowe w przeciwieństwie do osób uzyskujących niskie wyniki. Zbiór hipotez tego typu tworzy wstępną teorię dotyczącą istoty konstruktu, który test z założenia ma mierzyć. W pełnym programie badań nad trafnością teoretyczną test może być traktowany raz jako zmienna zależna, a innym razem jako zmienna niezależna. Niektóre hipotezy mogą być «kontrtópotezami» wynikającymi z konkurencyjnej teorii lub interpretacji. Hipotezy tego typu lub twierdzenia teoretyczne umożliwiają przewidywanie zachowań, jakie osoby uzyskujące określone wyniki w teście będą ujawniać w niektórych innych testach czy w niektórych sytuacjach. Jeżeli teoria badacza o tym, co test mierzy jest zasadniczo poprawna, to większość przewidywań powinna zostać potwierdzona. Jeżeli tak się nie stanie, badacz winien zrewidować bądź definicję, bądź test, by stanowił lepszą miarę konstruktu. Dzięki sukcesywnej weryfikacji, modyfikacji i eliminacji hipotez badacz zaczyna coraz lepiej rozumieć istotę Icech mierzonych przez test. Potwierdzając lub odrzucając kolejne hipotezy, dokonując rewizji testu oraz przeprowadzając nowe badania ze zrewidowanym narzędziem — badacz zwiększa użyteczność testu jako miary danego konstruktu. Należy zaznaczyć, że dane badanie trafności teoretycznej odnosi się do konkretnego testu i może okazać się nieadekwatne w stosunku do innych testów o tej samej nazwie". Cronbach i Meehl (1955) zaproponowali pięć procedur ustalania trafności teoretycznej testu5. Procedury te spotkały się z powszechnym przyjęciem i są omawiane przez różnych autorów opracowań na temat trafności teoretycznej (np. Jakumowski, 1983; Magnusson, 1991). Oto ich krótka charakterystyka: Jak sami piszą, zaakceptowali oni wyodrębnione przez Macfarlane'a (1942) procedury stosonne do oceny trafności metod projekcyjnych.
523
1. Analiza różnic między grupowych (ang. group differenceś). Jeżeli w świetle teorii psychologicznej wynik testowy powinien stanowić podstawę do dokonywania prognoz mówiących, iż osoby o wysokim wyniku testowym powinny zachowywać się w określony sposób i osoby o niskim wyniku też powinny zachowywać się w określony, ale odmienny od pierwszego, sposób, to test można uznać za trafny. Cronbach i Meehl podają przykład Skali Postaw Wobec Kościoła Thurstone'a i Chave'a. Badacze ci określali trafność swojej skali poprzez wykazanie różnic w wynikach uzyskiwanych przez osoby chodzące i niechodzące do kościoła. Inny przykład znajdujemy u Jakubowskiego (1983, s. 234): „dla sprawdzenia czy skala Es [skala Siły Ego Barrona z MMPI; «... osoby z wysokimi wynikami w tej skali są lepiej przystosowane psychologicznie, znacznie lepiej radzą sobie z codziennymi problemami życiowymi, lepiej też rokują w psychoterapii (...) jeżeli w ogóle szu kają pomocy psychologicznej to najczęściej powodem tego jest określona presja sytuacyjna. (...) osoby z niskimi wynikami są znacznie gorzej przystosowane psy chologicznie, nie są też przygotowane do radzenia sobie ze stojącymi przed nimi problemami. Czują się bezwartościowe, zagubione i nierzadko wyolbrzymiają przed otoczeniem swoje problemy po to, aby uzyskać pomoc z zewnątrz», Matkowski, 1992, s. 64 — przyp. J.B.] mierzy siłę ego, możemy wyodrębnić dwie grupy osób: do jednej wejdą te, które zgłaszają się po pomoc do psychologa, a do drugiej te, które nie zgłaszają się po pomoc do psychologa i nigdy takiej potrzeby nie czuły. O trafności teoretycznej testu będą świadczyły istotnie wyższe wyniki, uzyskane przez drugą grupę, ponieważ to przewidujemy na podstawie konstruktu określają cego, co to jest «siła ego»". 2. Analiza macierzy korelacji i analizo czynnikowa (ang. correlation matrices and factor analysis). Najodpowiedniejszą metodą będzie ta, którą zaproponowali Campbell i Fiske (1959), znana pod nazwą analizy macierzy „wielu cech - wielu metod". Metodę tę opisuję w pkt. 4. niniejszego rozdziału. Z kolei w pkt. 5. po krótce charakteryzuję metody analizy czynnikowej, która też jest proponowana jako metoda sprawdzania trafności teoretycznej testu (najlepsze opracowanie tej problematyki w polskojęzycznej literaturze daje praca Zakrzewskiej, 1994). 3. Analiza struktury wewnętrznej testu (ang. studies of interna! structure). Zdaniem Cronbacha i Meehla (1955) jeżeli dana teoria zakłada, że pozycje jakiegoś testu powinny wysoko ze sobą korelować, albo powinny wysoko korelować z ogól nym wynikiem testu (mówiąc inaczej —jeżeli będą stanowiły homogeniczną grupę pozycji), to taki test będzie trafny. Także teoria może zakładać występowanie uje mnych współczynników korelacji określonych pozycji z ogólnym wynikiem testu (wówczas, gdy nie są one związane z danym konstruktem i służą jako zmienne tłumiące). 4. Analiza zmian nieprzypadkowych wyników testu (ang. studies of change over occasions). Jak wiemy (por. rozdz. 15., pkt. 5.) dwukrotne badanie, w jakimś odstępie czasu, tym samym testem, przeprowadzone na tej samej grupie osób dostarcza empirycznej miary rzetelności testu zwanej stabilnością bezwzględną. Wadą takiego postępowania jest to, że między pierwszym (test) i drugim badaniem (retest) dzieje się „coś", co na ogół nie jest kontrolowane przez badacza. Dlatego 524
leż Cronbach i Meehl proponują, aby po pierwszym badaniu wprowadzić do badanej grupy jakąś manipulację eksperymentalną, która powinna — o czym mówi teoria psychologiczna! — wywołać określone zmiany zachowania osób badanych; zmiany te zaś powinny być wychwycone przez test psychologiczny — osoby badane powinny uzyskać wyniki, które będą się istotnie różniły (w zakładanym przez teorię kierunku) od wyników pierwszego badania. „Można wysunąć hipotezę, że efekt Zeigamik jest miarą zaangażowania ego, tj. że wskutek zaangażowania ego człowiek przypomina sobie więcej zadań niedokończonych. Aby potwierdzić taką interpretację, eksperymentator będzie próbował wywołać zaangażowanie ego w pewnym zadaniu za pomocą odpowiednich wskazówek i będzie porównywał przypominanie badanych z przypominaniem w innych zadaniach, kiedy udzielał wskazówek przeciwstawnych" (Cronbach, Meehl, 1955). 5. Analiza procesu rozwiązywania testu (ang. studies of process). Zdaniem Cronbacha i Meehla jedną z najlepszych metod badania przyczyn zmienności wyników testu jest przeanalizowanie procesu rozwiązywania testu przez osoby badane. Pozwala to na poprawienie konstrukcji samego testu. Taka procedurę analizy odpowiedzi na pytania kwestionariusza 16 PF Cattella zastosowała Nowakowska (1975), posługując się specjalnie skonstruowanym przez siebie kwestionariuszem, który osoby badane musiały wypełniać w stosunku do każdego pytania 16 PF.
4. Aspekt zbieżny (konwergentny) i różnicowy (dyskryminatywny) trafności — analiza macierzy „wielu cech — wielu metod" D. T. Campbella i D. W. Fiskego 4.1. Aspekt zbieżny i aspekt różnicowy trafności Idąc za sugestią Angoffa (1988, s. 26), iż pomysł Campbella i Fiskego (1959) na analizę macierzy korelacji występujących między różnymi miarami testowymi różnych cech (macierzy WCWM) można wykorzystać do badania trafności teoretycznej testu, chciałbym w niniejszym punkcie przedstawić właśnie tę metodę — poczynając od analizy opisanej przez jej autorów, a kończąc na wskazaniu rozwiązań odwołujących się do wielowymiarowych modeli statystycznych. Stosunkowo często (zbyt często!) psychologowie ograniczają badanie trafności testu do ustalenia jej tylko w jednym z aspektów, a mianowicie w aspekcie kryterialnym, a dokładniej — diagnostycznym. Co więcej, posługują się oni w procesie ustalania trafności testami, których trafność ustalana była podobnie, tzn. przez wykazanie wysokiej korelacji z innym testem! Podobną procedurę można by jeszcze zaakceptować, gdyby owym kryterium zewnętrznym (które, rzecz jasna, też musi się cechować wysoką trafnością!) w przypadku metod „papierowych" nie była po525
dobna metoda, np. aby kwestionariusz temperamentu nie był „walidowany" za pomocą innego kwestionariusza temperamentu, ale za pomocą wskaźników uzyskanych z eksperymentu laboratoryjnego, albo z danych obserwacyjnych. Owe nastawienie na szukanie, za wszelką cenę, zbieżności wyników jednego testu z jakimś innym testem (nawet bez zatroszczenia się o to, czy został on wywiedziony z tej samej teorii psychologicznej) stało się swoistym „standardem" postępowania psychologów. Trzeba się tedy zgodzie z krytycznym osądem praktyki badawczej, którego dokonał Drwal (1995, s. 27): „...trafny test pewnej cechy powinien silniej korelować z innymi testami tej samej cechy niż z testami, które mają mierzyć coś innego. Wysoka korelacja między testami tej samej cechy świadczy o trafności zbieżnej (TZ), natomiast niska korelacja z testami innych cech świadczy o trafności różnicowej (TR). W psychologii dominują nadal badania nad trafnością zbieżną i często się zdarza, że twórca nowego testu jest zadowolony z każdej istotnej korelacji, jaką może podać, nie zważając, że niektóre w gruncie rzeczy kompromitują trafność jego testu (przykłady łatwo znaleźć również w publikacjach z ostatnich lat)". Wymaganie badania — w przypadku każdego testu, a zwłaszcza takiego o złożonej strukturze teoretycznej — nie tylko aspektu zbieżnego (i to za wszelką cenę!), ale także aspektu różnicowego trafności zostało ujęte w najnowszym wydaniu Standards... (APA, 1985b, pkt. 1. Validity, s. 16 — standardy 1.8-1.10.). Analiza trafności teoretycznej przeprowadzona metodą analizy macierzy „wielu cech — wielu metod", WCWM (wg: Campbell, Fiske, 1959), umożliwiająca nie tylko zbadanie aspektu zbieżnego, ale także zanalizowanie aspektu różnicowego, jest — według mnie — jedyną sensowną metodą kompleksowego badania trafności teoretycznej testu psychologicznego. Do realizacji tego celu zaleca się dziś posłużenie się konfirmacyjną analizą czynnikową CFA (na ten temat por. Kenny, Kashy, 1992) przeprowadzoną za pomocą programu komputerowego z rodziny LISREL (np. LISREL VII — por. Jóreskog, Sórbom, 1989). Podejście WCWM do badania trafności jest wykorzystywane w zaawansowanych badaniach trafności baterii złożonych z wielu testów czy zestawów testów stanowiących operacjonalizację tego samego konstruktu teoretycznego. I tak, przykładowo. Drwal (1995, cz. I, rozdz. 3.: Trafność zbieżna i różnicowa czterech inwentarzy agresji, s. 36-53) poddał analizie trafność następujących inwentarzy agresji: ( 1 ) Inwentarz Bussa-Durkee w dwóch, w Polsce znanych wersjach — (la) Skala Agresji Bussa-Durkee SABD oraz (lb) Nastroje i Humory NH, (2) Wielowymiarowy Inwentarz Agresji Interpersonalnej Chłopców WIAICH Olweusa, (3) Inwentarz Psychologiczny Syndromu Agresji IPSA Gasia, a także: (4) skale poczucia winy zaczerpnięte z SABD, NH i WIAICH oraz Kwestionariusz Poczucia Winy KPW Kofty, Ignaczaka i Brzezińskiego; ponadto uwzględnione zostały: (5) skale aprobaty społecznej — skala K zaczerpnięta z WIAiCH i Kwestionariusz Aprobaty Społecznej KAS Drwala i Wilczyńskiej, (6) Próbki Zachowań PZ („technika typu socjometrycznego przeznaczona do pomiaru agresji w ocenie rówieśników"). 526
4.2. Metoda klasyczna analizy macierzy WCWM Źródłem systematycznej wariancji wyników testowych może być zróżnicowanie osób badanych pod względem danej cechy oraz zróżnicowanie tych samych josób z uwagi na właściwości metody zastosowanej do pomiaru danej cechy. Badaczowi zależy na tym, aby móc precyzyjnie oddzielić od siebie te dwie wariancje składowe. Zasługą Campbella i Fiskego (1959) było pokazanie, jak stosunkowo prosto można dokonać analizy zmienności wyników testowych w kategoriach właściwości cechy i właściwości metody. Nie wchodząc w szczegóły uzasadnienia takiego rozumowania (na ten temat por. Gaul, 1989) przejdę od razu do scharakteryzowania samej macierzy WCWM oraz podstawowych warunków, jakie muszą być j spełnione przez ujęte w niej interkorelacje, aby — zdaniem Campbella i Fiskego i (dalej będę używał skrótowego określenia: metoda C-F) — test można było uznać za trafny z uwagi na oba aspekty: zbieżny oraz różnicowy. Aby przeprowadzić pełne badanie trafności należy uwzględnić co najmniej dwie cechy mierzone przez co najmniej dwie niezależne metody. Tabela 17.1. pokazuje macierz WCWM utworzoną z interkorelacji zachodzących między 3 metodami zastosowanymi do pomiaru 3 cech. Ponieważ jest ona symetryczna, więc zaprezentowane zostały jedynie dane znajdujące się w jej dolnej połowie. Uogólniając, macierz zawiera korelacje pochodzące z zestawienia wyników pomiaru j-tej (j=l,...,q) cechy za pomocą /-tej metody ( / = 1,...,/?). Zatem dwa pierwsze indeksy przy r (symbol współczynnika korelacji), to indeksy metod, a dwa dalsze indeksy, po kropce, to indeksy cech. Na przykład r3123 należy czytać jako: korelacja cechy 2. mierzonej za pomocą metody 3. z cechą 3. mierzoną za pomocą metody 1. W macierzy ujęte zostały następujące grupy współczynników korelacji: (a) przekątne współczynników rzetelności, po jednej dla każdej metody (uło żone są wzdłuż głównej przekątnej całej macierzy) —jedna cecha, jedna metoda \KJM\ dla wyróżnienia współczynniki te zostały zapisane kursywą; (b) przekątne współczynników trafności — jedna cecha, różne metody JCRM, po jednej dla każdej kombinacji dwóch metod; dla wyróżnienia współczynniki te zostały zapisane czcionką półgrubą; (d) trójkąty różnych cech, jednej metody RCJM, po jednym dla każdej meto dy: dla wyróżnienia oznaczono je linią ciągłą; (e) trójkąty różnych cech, różnych metod RCRM, po dwa przylegające do każdej przekątnej trafności; dla wyróżnienia oznaczono je linią przerywaną. Zauważmy, że wartości współczynników korelacji leżące w trójkątach RCRM nie muszą być identyczne — dla przykładu: r 3]2 i niekoniecznie musi być takie samo jak r31 J2, gdyż w pierwszym przypadku za pomocą metody 3. dokonano ipomiaru cechy 1. i za pomocą metody 1. dokonano pomiaru cechy 1., a w drugim przypadku za pomocą metody 3. przeprowadzono pomiar cechy 2. i za pomocą [metody 1. przeprowadzono pomiar cechy 2. Campbell i Fiske w macierzy WCWM wyodrębniają: 527
(a) blok jednej metody JM — składają się na niego: przekątna rzetelności JCJM oraz przylegający do niej jeden trójkąt RCJM; (b) blok różnych metod RM — składają się na niego: przekątna trafności JCRM oraz przylegające do niej dwa trójkąty RCRM. Test można uznać za w pełni trafny (w obu aspektach — zbieżnym i różnicowym), jeżeli (Campbell, Fiske, 1959, s. 82-83): (1) wartości współczynników leżące na przekątnej trafności JCRM są istotnie wyższe od zera (i wystarczająco wysokie) — jest to podstawowy warunek, którego spełnienie czyni sensowną dalszą analizę macierzy WCWM; w ten sposób dokonuje się oceny aspektu zbieżnego trafności (w rzeczywistości psychologowie zwykli poprze stawać na tym kroku — por. ocenę trafności diagnostycznej i prognostycznej); (2) wartość jakiegoś współczynnika leżąca na przekątnej trafności JCRM jest wyższa od wartości współczynników leżących w tym samym wierszu i kolumnie trójkątów RCRM (trójkąt obwiedziony linią przerywaną); oznacza to, że wartość danego współczynnika z przekątnej trafności, czyli JCRM powinna być wyższa od wartości współczynnika korelacji tej cechy z innymi cechami, ale mierzonymi in nymi metodami; (3) wartość jakiegoś współczynnika leżąca na przekątnej trafności JCRM jest wyższa od wartości odpowiednich współczynników leżących w trójkątach RCJM (trójkąt obwiedziony linią ciągłą); innymi słowy: dana cecha powinna wyżej kore lować z niezależnymi pomiarami tej samej cechy JCRM, aniżeli z pomiarami in nych cech uzyskanymi za pomocą tej samej metody RCJM; (4) konfiguracja wartości współczynników korelacji występująca w trójkątach IRC (zarówno w bloku JM, jak i w blokach RM) jest taka sama — mimo, rzecz jasna, różnic w poziomie wartości współczynników Spełnienie warunku pierwszego związane jest z aspektem zbieżnym trafności, a spełnienie warunków drugiego, trzeciego i czwartego z aspektem różnicowym trafności. Zwykło się utożsamiać stwierdzenie występowania zbyt niskich wartości I współczynników korelacji leżących na przekątnej trafności JCRM z brakiem trafności (w aspekcie zbieżnym). Trzeba jednak pamiętać — na co szczególnie silny i nacisk położyli właśnie Campbell i Fiske — że mogą też być nietrafne gdyż zbyt silnie korelują z innymi testami przeznaczonymi do pomiaru innych cech (aspekt różnicowy). Informują o tym wartości współczynników leżące w trójkątach RCRM [zestawione z wartościami współczynników z przekątnej trafności oraz wartości z I trójkąta RCJM zestawione z wartościami współczynników z przekątnej rzetelności. Metoda C-F bardzo szybko się upowszechniła, chociaż bardziej wśród psychometrów badających jej ograniczenia i możliwości (por. Alwin, 1974) niż wśród iychologów konstruujących nowe testy. W Polsce, poza teoretyczną pracą Gaula 989) pokazującą zastosowanie modelu analizy ścieżek (w sensie: Werts i in., 8) do danych z macierzy WCWM, odnotowałem tylko jedną próbę pełnego (i krytycznego) posłużenia się metodą C-F przez Drwala (1995). Jeszcze raz oka-olo się. że standardy „wymyślane" przez „prokuratorów" psychometrów-metodofcgów sobie, a codzienna, szara praktyka diagnostyczna sobie. 529
Posługiwanie się klasyczną metodą C-F jest żmudne i nie zawsze daje jednoznaczne rezultaty. „Kryteria Campbella i Fiskego to proste reguły, intuicyjnie bardzo trafne, ale w praktyce bardzo pracochłonne, bowiem już macierz trzech cech i trzech metod (jak tab. 17.1. — J.B.) wymaga dokonania ponad stu porównań. Co może ważniejsze, nie uzyskujemy jasnych i jednoznacznych odpowiedzi. Nie wiadomo, które kryteria są ważniejsze, jakie odstępstwa można tolerować, jak porównywać stopień trafności w różnych macierzach MTMM (angielski ospowiednik WCWM — przyp. red.) itd." (Drwal, 1995, s. 30). Przed przejściem do następnego punktu, w którym przedstawię bardziej złożone, kompleksowe metody analizy macierzy WCWM warto jeszcze na chwilę zatrzymać się przy wskazówkach o charakterze technicznym, które sformułowali Campbell i Fiske (tamże, s. 103-104) dla potencjalnych użytkowników ich metody. Po pierwsze, każda z metod powinna być wyprowadzona z tej samej teorii psychologicznej, której elementem jest analizowana cecha (trafność teoretyczna!); mówiąc inaczej, można rozpatrzyć alternatywne procedury operacjonalizacji tej samej cechy. Po drugie, należy starać się, aby wybrane do analizy metody były w jak największym stopniu niezależne; mówiąc językiem technicznym: idzie o to, aby wariancja wspólna metod była zerowa (aby wartości współczynników w trójkątach RCRM zmierzały do zera). Od siebie mogę dodać, że z uwagi na elastyczność aplikacji różnych modeli wielozmiennowych wymiary macierzy WCWM nie powinny być mniejsze niż 3 x 3 (metoda C-F dopuszcza macierze o wymiarach 2 x 2).
4.3. Wykorzystanie wielowymiarowych modeli statystycznych do analizy macierzy WCWM Jak to już zaznaczyłem, idea „podwójnego" badania trafności testu psychologicznego (jej aspektu zbieżnego i różnicowego) spotkała się ze zrozumieniem w środowisku psychologów zainteresowanych konstrukcją testów psychologicznych. Zwrócenie uwagi na nielosowe źródła wariancji wyniku testowego — na wariancję metody — a zwłaszcza ich uwzględnienie w planie analizy trafności testu jest niewątpliwie zasługą Campbella i Fiskego. Pisali oni: „każde psychologiczne narzędzie pomiarowe zawiera określone bodźce, czy właściwości wprowadzone specyficznie dla reprezentacji cechy, którą owo narzędzie ma w intencji mierzyć. Ma także inne właściwości, które są charakterystyczne dla stosowanej metody, właściwości, które mogłyby również występować przy próbach pomiaru innych, całkiem odmiennych cech. Test, skala szacunkowa lub inne narzędzie pomiaru prawie zawsze ujawniają wariancję systematyczną odpowiedzi, związaną zarówno z pierwszą, jak i drugą grupą właściwości. W takim stopniu, w jakim ta niespecyficzna wariancja metody kształtuje otrzymane wyniki, są one nietrafne" (tamże, s. 84). Analiza macierzy WCWM ma na celu właśnie określenie względnego udziału w wariancji całkowitej wyniku testowego jej głównych części składowych — wa530
riancji wspólnej analizowanych zmiennych (konstruktów teoretycznych) oraz wariancji wspólnej (i kowariancji) metod ujętych w macierzy WCWM. W sposób najbardziej systematyczny nowe ujęcia analizy macierzy WCWM, wolne od pewnej arbitralności (metoda C-F opierała się wyłącznie na ocenie porównawczej układów korelacji, co w przypadku większych macierzy musiało prowadzić do uproszczeń i błędnych rozstrzygnięć) w określaniu stopnia, w jakim analizowane metody wprowadzają do wariancji wyniku testowego wariancję metody, po raz pierwszy przedstawił Alwin (1974). On też wskazał na słabe punkty metody C-F. Najbardziej interesujące — wg Gaula (1989) — okazały się trzy nurty wykorzystania modeli wielozmiennowych do analizy macierzy WCWM (Stanley, 1961; Alwin, 1974; Jackson, 1969; Boruch i in., 1970; Werts i in., 1970, 1978; Schmitt, Stults, 1986; Kenny. Kashy, 1992; Drwal, 1995): (a) zastosowanie analizy wariancji ANOVA (por. Stanley, 1961), (b) zastosowanie analizy czynnikowej (zwłaszcza w jej odmianie konfirmacyjnej CFA — por. Rezmowic, Rezmowic, 1981; Marsh, Hocevar, 1983; Cole, 1987; Marsh. 1990; Kenny, Kashy, 1992), (c) zastosowanie analizy równań strukturalnych; ta grupa modeli obejmuje (Gaul. 1989, s. 436): analizę ścieżek, analizę kauzalną, systemy równań jednoczes nych, liniowe schematy przyczynowe oraz analizę zależności (por. Kalleberg, Kluegel. 1975; Schwarzer, 1983; zwłaszcza polecam pracę Gaula, 1989 — zawiera ona j pełną interpretację macierzy WCWM, o wymiarach 3 x 3 , w modelu analizy ścieżek: por. ryc. 2., s. 439 przedstawiającą diagram ścieżek dla trzech cech mierzonych za pomocą trzech metod). W moim przekonaniu najbardziej owocną analizę macierzy WCWM można przeprowadzić bądź za pomocą analizy równań strukturalnych z odwołaniem się do specjalistycznego oprogramowania — najlepiej do programu LISREL 7 i 8 (por. Jóreskog, Sórbom, 1989, 1995) lub EQS (por. Bentler, 1985 — co najlepiej w polskiej literaturze przedmiotu przedstawił Gaul, 1989; ostatnia wersja z 1995 roku to EQS 5), bądź za pomocą konfirmacyjnej analizy czynnikowej CFA (por. na lemat CFA: Zakrzewska, 1994 — z odwołaniem się do programu LISREL 7). Starsze odmiany analizy czynnikowej (np. podejście zaproponowane przez [Jacksona, multimethod factor analysis MFA, 1969, a także późniejsza wersja, reloWMFA: Jackson, 1975; por. dla ich krytycznej analizy: Drwal, 1995. s. 31-32) Iczy wykorzystanie analizy wariancji (np. wg Stanleya, 1961 czy Borucha i in. 11970) nie są już spotykane w literaturze przedmiotu. W Polsce ta metoda całościowego badania trafności testu była dotychczas zbyt [mało spopularyzowana (chociaż pierwsze informacje na ten temat pojawiły się już [wcześniej — por. Choynowski, 1968 s. 273-276; Brzeziński, 1978a, s. 193-196, [Magnusson, 1991, s. 199-204). Być może swoistą przeszkodę"stanowił fakt, że I „profesjonalne" posłużenie się tą metodą wymaga znajomości złożonych modeli statystycznych oraz odwołania się do pomocy komputera. Przed laty była to rzeczywista przeszkoda dla polskiego psychologa. Jednakże dziś, przy dość powszechnym dostępie i do dobrych komputerów, i do bogatego oprogramowania, przestało I być problemem poprawne zanalizowanie macierzy WCWM. Dlatego też, przy braku 531
wspomnianych technicznych ograniczeń, warto tę metodę popularyzować, gdyż jest to najlepszy sposób badania trafności testu — zwłaszcza trafności teoretycznej (w sensie: Cronbach i Meehl, 1955; też: Angoff, 1988).
5. Badanie trafności z wykorzystaniem modelu analizy czynnikowej (tzw. trafność czynnikowa) Spopularyzowanie pakietów statystycznych w rodzaju SPSS PC+, CSS STATISTICA czy LISREL 7 i 8 (por. Jóreskog, Sorbom, 1989, 1995) zwiększyło zainteresowanie psychologów zastosowaniami modelu analizy czynnikowej (FA — od ang. factor anałysis) w psychometrii, do badania tzw. trafności czynnikowej. Analiza czynnikowa bywa jednak stosowana niezgodnie z jej założeniami i z charakterem danych empirycznych uzyskiwanych za pomocą różnorakich testów psychologicznych. FA może być stosowana w jednej z dwóch odmian: (1) eksploracyjnej EFA, (2) konfirmacyjnej CFA. Psycholog, który decyduje się na zastosowanie modelu FA postępuje tak, aby zastąpić dotychczasowy opis badanej rzeczywistości przeprowadzony za pomocą wielu (kilkunastu, kilkudziesięciu czy nawet kilkuset) „wyjściowych" zmiennych (mniej lub bardziej złożonych — np. mogą to być albo pojedyncze słowa, albo pojedyncze testy ułożone w jakąś baterię diagnostyczną czy skalę, jak WAIS-R). Redukując „wyjściowy" zbiór zmiennych do znacznie mniejszej liczby „nowych" zmiennych (czynników) badacz postępuje ekonomicznie, ale też dowiaduje się czy ów „wyjściowy" układ zmiennych był homogeniczny (i w jakim stopniu), czy też stosunkowo łatwo dał się rozbić na pewną liczbę dobrze wyodrębnionych „nowych" zmiennych. Tak np. postąpiło wielu badaczy prowadzących badania nad rzeczywistą strukturą Skali Inteligencji W-B l/H, WAIS czy WAIS-R (Leckliter i in., 1986), wyodrębniając najczęściej trzy czynniki łącznie grupujące 11 testów. Jeżeli konstruujemy nowe narzędzie, to też chcemy dowiedzieć się czy owe kilkadziesiąt czy kilkaset pozycji tworzących wstępną wersję narzędzia mierzy jeden konstrukt teoretyczny X (jednolity, homogeniczny) czy też da się go podzielić na kilka, a może nawet kilkanaście jednolitych podzbiorów, z których każdy dotyczy innego konstruktu. Takie, jak wyżej opisane, wykorzystanie modelu FA (odmiana eksploracyjna, EFA) znane jest od początku jej stosowania. Poddawane też było krytyce za arbitralność podejmowanych przez niego decyzji, które w znaczącym stopniu zależą od poczynionych przez badacza założeń wyjściowych (pisała na ten temat przed laty Nowakowska, 1975, a całkiem niedawno bardzo pogłębioną analizę FA przeprowadziła Zakrzewska, 1994 — por. rozdz. 4. Decyzje arbitralne w analizie
czynnikowej, s. 52-77). Podstawowe decyzje, które musi podjąć badacz związane są z: (1) selekcją zmiennych; pomocne wskazówki na temat liczby zmiennych, ich pomiaru, współ532
czynników korelacji wykorzystanych w budowie macierzy korelacji ważne z punktu widzenia poprawnego użycia FA podaje Zakrzewska (tamże, s. 52-56); (2) doborem osób badanych; liczba osób badanych powinna dwu-trzykrotnie przewyższać liczbę poddanych analizie zmiennych, a jej minimalna wielkość nie powinna być, wg różnych szacunków, mniejsza niż 100-200; (3) wyborem metody szacowania zasobu zmienności wspólnej, czyli tej części wariancji całkowitej danej zmiennej, która jest wspólna z pozostałymi zmiennymi badanymi przez psychologa; zasób zmienności wspólnej, to po prostu suma kwadratów ładunków czynnikowych danej zmiennej (z wymienionych przez Zakrzewska sześciu metod osobiście polecam metodę obliczania kwadratu korelacji wielokrotnej danej zmiennej z pozostałymi zmiennymi ujętymi w macierzy korelacji); (4) liczbą czynników, które badacz zamierza ująć w strukturze czynnikowej badanego fenomenu (także i tu mamy do wyboru wiele różniących się metod; trzeba być naprawdę dobrym specjalistą, aby dokonany wybór był trafny — niestety pakiety statystyczne tego nie uczą, a zresztą nie są one adresowane do nieprofesjonalistów!); (5) wyborem kryterium rotacji czynników; nie wchodząc w szczegóły tego bardzo złożonego problemu powiem [tylko tyle, że badacz musi wybierać między rotacją ortogonalną, a rotacją ukośną, czyli między strukturą obejmującą czynniki ze sobą nieskorelowane (wzajemnie niezależne), a strukturą złożoną z czynników, które mogą (ale nie muszą!) być w [jakimś stopniu skorelowane (wzajemnie zależne). Stosunkowo dużo nieporozumienia narosło wokół tego ostatniego problemu. Zacznijmy od pytania podstawowego: jaka jest rzeczywistość, którą ma modelowo odwzorować stworzona przez badacza jej struktura czynnikowa? Czy jest ona, jak chciał Guilford, dobrze interpretowana przez układ wzajemnie niezależnych czyn-I ników teoretycznych — wówczas należy stosować rotację ortogonalną (także prostszą pod względem obliczeniowym i łatwiejszą do interpretacji) — oddaje ją uk czy też lepiej oddaje ją układ czynników w jakimś stopniu jako że i op skorelowanych (to pogląd Cattella), to że i opisywana, i waga rotacji interpretowana rzeczywistość jest też „skorelowana". Przewaga niejako z g( rotacji ukośnej nad ortogonalną przejawia się i w tym, że o ile ta okośna z gói druga liejako z góry przesądza, że czynniki nie będą ze sobą Icm może b; skorelowane, to rotacja kośna z góry nie zakłada występowania Z wielu dosl korelacji między czynnikami (jej rezulta-może być struktura oparty na te< ortogonalna). I jeszcze jeden, bardziej techniczny problem, wielu wanej w 19: dostępnych programów komputerowych największą sławę zdobył obliczeniowy program na technice rotacji ortogonalnej VARIMAX (do prostej iowane jako struktury), opraco-lej w 1958 roku przez Kaisera (1958). Mimo do prostej s późniejszych rozwinięć technik liczeniowych związanych z Pierwsza mi modelem FA, kryterium VARIMAX jest często sto-owane jako czynnikowy! jedyne, niestety, znane badaczowi kryterium. Drugą techniką rotacji ijaśnienia zm prostej struktury jest QUARTIMAX. Nie dają one identycznych [czynnikowej rezultatów, /sza minimalizuje liczbę zmiennych, które cechują się ,chnikę QU^ wysokimi ładunkami ynnikowymi. Druga z kolei minimalizuje liczbę Idawiają bad czynników niezbędnych do wyśnienia zmienności jakiejś zmiennej. Gdyby psycholog zakładał, iż w strukturze likowej powinien znaleźć się czynnik ogólny, to powinien on sięgnąć po tece QUARTIMAX. Niestety obie techniki „kreowania" struktury czynnikowej awiają badacza przed faktami dokonanymi, bez możliwości zweryfikowania tego, 533
czy adekwatna jest struktura z czynnikiem ogólnym, czy bez niego. Jeżeli z wiedzy badacza nie wynika w sposób oczywisty, że owa struktura jest taka, a nie inna, to powinien on raczej zrezygnować z tego rozwiązania i sięgnąć po jedną z technik rotacji ukośnej, albo posłużyć się modelem CFA (wg komputerowego rozwiązania ujętego w pakiecie LISREL 7 czy LISREL 8 — najlepszy w polskiej literaturze psychologicznej opis CFA znajdzie Czytelnik u Zakrzewskiej, 1994). Zdaniem Zakrzewskiej (tamże, s. 75) najlepszymi technikami rotacji ukośnej są: PROMAX oraz OBLIMIN. W każdym razie zawsze „bezpieczniej" jest posłużyć się techniką rotacji ukośnej (np. OBLIMIN), aniżeli techniką rotacji ortogonalnej (np. VARIMAX). Zarówno technika VARIMAX, jak i technika OBLIMIN dostępne są w pakiecie SPSS PC+. Z kolei inny popularny pakiet CSS STATIST1CA oferuje jedynie kilka technik rotacji ortogonalnej (w tym VARIMAX i QUARTIMAX). Jak Czytelnik zdołał już się przekonać, nie jest obojętne jaką posłuży się techniką rotacji w celu uzyskania struktury czynnikowej zgodnej z przyjętymi przez niego założeniami teoretycznymi.
6. Podsumowanie Problematyka ustalania trafności testu psychologicznego jest tak samo ważna, jak problematyka ustalania jego rzetelności. Mimo tego, znacznie więcej opracowań poświęcono precyzji pomiaru (rzetelność), aniżeli jego adekwatności (trafność). Zwykło się zaglądać w metryczkę testu głównie po to, aby dowiedzieć się jaka jest wysokość jego współczynnika rzetelności oraz wielkość jakiegoś błędu standardowego. Nie można jednak tak jednostronnego „faworyzowania" jednego kryterium psychometrycznej dobroci testu akceptować. Stosownie do większego zainteresowania problematyką rzetelności w literaturze zagranicznej, także i w polskiej literaturze psychometrycznej znacznie bardziej rozbudowana jest problematyka rzetelność i owa. Do jakich zatem pozycji polskojęzycznych mógłbym odesłać Czytelnika? Sądzę, że warto zarekomendować kilka opracowań. I tak, dobre wprowadzenie w problematykę trafności (głównie treściowej, wewnętrznej — co ma kapitalne znaczenie dla pedagogów konstruujących testy wiadomości i osiągnięć szkolnych) daje praca: Niemierko B. Testy osiągnięć szkolnych. Podstawowe pojęcia i techniki obliczeniowe (rozdz. IV. Trafność testu. s. 169-219). Uwypuklenie problematyki klasyfikacji i selekcji osób w kontekście trafności zawiera praca: Magnusson D. Wprowadzenie do teorii testów (cz. III. Zagadnienia trafności — rozdz. 10. Trafność, rozdz. 11. Rzetelność przewidywania, rozdz. 12. Prognoza indywidualna. Klasyfikacja i selekcja — s. 181-263). Ponadto Czytelnik może sięgnąć do następujących opracowań: Guilford J.P. Podstawowe metody statystyczne w psychologii i pedagogice (rozdz. XVIII: Trafność pomiarów, s. 466-490); Jakubowski J.S. Elementy klasycznej teorii trafności 534
testów psychologicznych; Bechtoldt H.P. Teoretyczne podstawy metod testowych: trafność i prognoza. Nade wszystko jednak, Czytelnik powinien zaznajomić się ze standardami wyznaczonymi dla testów psychologicznych, w zakresie ich trafności, przez „biblię psychometryczną", tj. American Psychological Association, APA Standardy dla testów stosowanych w psychologii i pedagogice (E. Trafność, s. 33-58).
.
Rozdział 18. Standaryzacja — obiektywność — normalizacja
1. Wprowadzenie W celu ujednolicenia postępowania badawczego osobom badanym podaje się instrukcję, z którą muszą się one zapoznać zanim przystąpią do rozwiązywania testu psychologicznego. W instrukcji powinno znaleźć się wyjaśnienie dotyczące sposobu udzielania odpowiedzi na poszczególne pozycje testu. Powinno z niej jasno wynikać, czy na wszystkie pozycje należy odpowiadać kolejno, czy też kolejność nie jest obowiązkowa. Jeżeli osoba badana ma udzielać odpowiedzi na specjalnym arkuszu, musi ona umieć się nim posługiwać. Test psychologiczny zakłada też ujednolicony, niezależny od kompetencji osoby przeprowadzającej badanie, sposób oceniania odpowiedzi osoby badanej. Kolejnym kryterium, które musi uwzględnić badacz konstruujący test jest jego normalizacja. Normalizację testu przeprowadzamy na reprezentatywnej dla danej populacji próbie (w tej sprawie por. rozdz. 9.). Po przebadaniu całej próby danym narzędziem przeliczamy otrzymany zbiór wyników surowych na wyniki jednej ze skal standardowych. Ta procedura ma na celu zorientowanie psychologa posługującego się znormalizowanym testem co do miejsca badanej osoby w grupie, dla której obliczono tzw. normy. W najprostszym przypadku normalizacja testu będzie polegała nie na transformacji wyników surowych na wyniki skal standardowych, lecz na obliczeniu średnich i odchyleń standardowych dla różnych grup. Mogą to być grupy kliniczne, zawodowe, wiekowe, terytorialne itd. Dla psychologa klinicznego bardzo przydatny będzie zestaw norm dla różnych grup klinicznych. Porównanie wyników uzyskanych przez pacjenta z charakterystycznymi średnimi wynikami różnych grup klinicznych ułatwi przyporządkowanie go do jednej z nich.
536
2. Standaryzacja i obiektywność testu Pierwsza właściwość dobrego testu psychologicznego wiąże się z jego wystandaryzowaniem. Przy czym przez standaryzację rozumie się, najczęściej, ujednolicony sposób posługiwania się testem. Ma on zminimalizować zależność wyników testu od wpływów czynników ubocznych, takich jak: (a) zachowanie się osoby przeprowadzającej badanie, (b) warunki, w których to badanie jest przeprowadzane. Rzadziej spotyka się szersze rozumienie standaryzacji testu, jako ogółu czynności związanych z jego opracowaniem (por. Kostrzewski, 1970, s. 11). W tym rozdziale przyjęto pierwsze, węższe rozumienie tego pojęcia. Zatem, dobrze wystandaryzowany test posiada: (1) instrukcję, którą podajemy w dosłownym brzmieniu, w sposób ściśle okre[ ślony przez autora testu, (2) klucz czyli określone zasady, wg których ocenia się odpowiedzi na poszcze gólne pozycje testu i interpretuje się wyniki; najczęściej zamieszcza się go w tzw. podręczniku testowym dołączonym przez konstruktora testu do właściwego testu. Ze standaryzacją wiąże się drugie kryterium — obiektywność. Test jest obiettywny, jeżeli dwie różne osoby opracowujące jego wyniki dochodzą do tego samego rezultatu. Dlatego też należy podawać jednoznacznie brzmiące reguły przeliczania wyników surowych na wyniki określonej skali standardowej, w której wyrażone są normy dla danego testu. Test zaopatrzony w jasną instrukcję, odpowiednio sporządzony arkusz odpowiedzi i należycie opracowany klucz, wg którego ocenia się odpowiedzi, to warun;ki spełnienia kryterium standaryzacji i obiektywności. A oto przykład instrukcji dla osoby badanej (Kwestionariusz Kontroli Emojcjonalnej — J. Brzezińskiego): Instrukcja. Za chwilę zostaną odczytane różne stwierdzenia dotyczące Pani (Pana) jachowania się. Cechuje je różny stopień ogólności. Jedne z nich dotyczą zachowania się w różnych specyficznych sytuacjach, np. podczas egzaminu, inne opisują bardziej ogólnie achowanie się człowieka. Oczywiście, nie u każdego człowieka określone zachowanie opisywane przez dane flaierdzenie występuje z równą częstotliwością. Dlatego więc przy każdym stwierdzeniu laleźy skreślić tylko jedną z czterech podanych możliwości — mówiących o częstości Występowania tego zachowania, fak więc ma Pani (Pan) do wyboru następujące możliwości odpowiedzi: — zawsze — często — rzadko — nigdy Proszę skreślić tę, która Pani (Pana) zdaniem najlepiej charakteryzuje dane Sierdzenie odnośnie do Pani (Pana) zachowania się. Proszę odpowiadać kolejno na każde stwierdzenie i żadnego nie opuszczać.
537
'
Tyle o instrukcji, zajmiemy się teraz arkuszem odpowiedzi i kluczem. Arkusz odpowiedzi powinien zawierać ponumerowane wiersze, w liczbie odpowiadającej liczbie pozycji w teście. Kolejnej pozycji w teście musi odpowiadać kolejny wiersz na arkuszu odpowiedzi. W każdym wierszu piszemy wszystkie możliwe odpowiedzi, z których badany ma wybrać tę, z którą się zgadza. Większość testów ma dwukategorialny system odpowiedzi: „tak", „nie"; „zgadzam się", „nie zgadzam się". Niekiedy dochodzi jeszcze trzecia kategoria: „nie wiem"; „?". Nawiasem mówiąc kategoria „nie wiem" stwarza wiele problemów natury interpretacyjnej. Bo, co tak naprawdę oznacza to, że osoba badana na pytanie kwestionariusza osobowości czy skali postaw odpowiada „nie wiem"? Czytelnika zachęcam do zapoznania się z gruntowną analizą tej kategorii odpowiedzi, którą przeprowadził Sułek (1993). W testach uzdolnień np. prosi się osobę badaną o udzielenie lub o wskazanie prawidłowej odpowiedzi (jako jednej z kilku do wyboru — w testach wielokrotnego wyboru), która jest ściśle przez autora testu określona; prawidłową odpowiedź ocenia się 1 pkt., a nieprawidłową — 0 pkt. Taki system dwukategorialny jest bardzo wygodny, ale — w przypadku testów osobowości, np. kwestionariuszy — większą rzetelność zapewnia wielokategorialny system odpowiadania (por. Guilford, 1954, s. 289-291). Optymalna liczba kategorii odpowiedzi zawarta jest w granicach 3-7. Badania przeprowadzone przez Komoritę i Grahama (1965) pokazały, iż należy zwiększać liczbę kategorii odpowiedzi w krótkich kwestionariuszach osobowości oraz wtedy, gdy interesuje nas kierunek i intensywność odpowiedzi. Ponadto wprowadzenie większej liczby kategorii odpowiedzi w pewnym stopniu eliminuje występującą u badanych tendencję do zgadzania się, która zniekształca wynik kwestionariusza. Przez odpowiednie rozłożenie kategorii odpowiedzi w poszczególnych wierszach arkusza odpowiedzi można stworzyć bardzo prosty w użyciu schemat obliczania wyników ogólnych testu. Na koniec jeszcze jedna uwaga natury technicznej. Przy formułowaniu pozycji postępujemy tak, aby około połowa z nich była oceniana inaczej niż druga połowa. Przykładowo, w systemie odpowiedzi dwukategorialnych odpowiedzi „tak" raz przypisujemy 1 pkt., a raz 0. Można to osiągnąć przez sformułowanie pozycji w postaci przeczącej lub przez opis zachowania świadczącego o braku danej cechy. Utrudnia to w pewnym stopniu odruchowe podkreślanie kategorii tylko w jednej kolumnie, a tym samym zmusza badanych do sumiennego wypełniania arkusza odpowiedzi (pisała o tym Marody, 1974). 538
3. Skale standardowe oparte na modelu rozkładu normalnego .1. Skala tenowa (T) Jedną z i faą z najbardziej rozpowszechnionych skal standardowych jest skala tenowa opracow; (T) icowana przez McCalla, a spopularyzowana przede wszystkim przez mriusz A kwestio-riusz MMPI, którego normy opracowane zostały zgodnie z Jej parar założeniami tej skali. :j parametry są następujące: średnia = 50, skala 1O( odchylenie standardowe = 10. Jest to la 100-punktowa, odpowiadająca nieszcza. zakresowo rozkładowi normalnemu wyników nieszczącemu się w Sandardt granicach od -5 odchyleń standardowych do +5 odchyleń idardowych. Ma pomnij m ona największy zakres ze znanych skal standardowych. Przy-ńjmy, że w ■owierzc granicach ±3 odchylenia standardowego mieści się około 99,74%
Łlodch wierzchni pod krzywą normalną. Jedna jednostka (ten) skali tenowej
,ibyteczn odpowiada ,1 odchylenia standardowego. Zdaniem Guilforda (1964, s. Wyników 504) jest to niekiedy teczna dokładność, zwłaszcza, gdy odchylenie larzędzi; standardowe rozkładu surowych lików jest o wiele mniejsze niż 10. Takie iwować v wtedy, gdy błąd standardowy danego da jest tak duży, że najmniejsza padność rzeczywista różnica, którą można zaobser-)wać wynosi 0,5 odchylenia
L 504-51 standardowego. W takiej sytuacji wystarczającą do-lność zapewnia skala Tab. i la stenowa, albo zaproponowana przez Guilforda (tamże, 504-507) 11każde
punktowa skala C. Tabela 18.1. podaje procent powierzchni pod krzywą normalną przypadający każde 10 jednostek skali T (por. też — rys. 18.1).
la 18.1. Procent powierzchni pod krzywą normalną dla skali T 40-50 50-60 0-20 20-30 30-40 T %
0,13
2,14
13,59
34.13
34,13
60-70 13,59
70-80 2,14
80-100 0,13
Gdy rozkład wyników surowych jest normalny, skala T odpowiada skali Z, iżającej się formułą: = Wz
50,
(18.1)
de: z — wynik standaryzowany odpowiadający danemu wynikowi surowemu, z = [ X - X \ : s,
ik: X — wynik surowy; X — średnia wyników surowych w-próbie normaliyjnej; s — odchylenie standardowe wyników surowych w próbie normalizalej.
Jednak wyniki Z pochodzące z dwóch lub więcej rozkładów wyników mogą ze sobą porównywane tylko wtedy, gdy rozkłady te tylko nieznacznie różnią kształtem od „dzwonowatego" kształtu rozkładu normalnego (o czym decyduje 539
wielkość odchylenia standardowego — platykurtyczność lub leptokurtyczność rozkładu — oraz jego symetryczność — prawoskośność lub lewoskośność). Przeliczenie wyników surowych na wyniki skali T — wedle niżej opisanej procedury — normalizuje rozkład wyników i umożliwia przeprowadzenie takich porównań. Jako przykładem posłużymy się Skalą Kontroli Ekspresji, Kwestionariusza Kontroli Emocjonalnej Brzezińskiego, KKE, którą przebadano 200 osób. Wyniki zawiera tab. 18.2.
Tabela 18.2. Normy tenowe dla Skali Kontroli Ekspresji KKE (n = 200) (1)
w
(2)
(3)
f J
27 26 25 24
1 3
cf "w
200
23
5
199 196 193 189
22 21 20 19 18 17 16 15 14 13 12 11 10
12 17 19 16 18 15 24 12 16 9 10 7 5 2
184 172 155 136 120 102 87 63 51 35 26 16 9 4
0
2 2
9 8 7
4
1
6
0
5
0 1
4
1 1 1
(4)
cf poniżej danego wiersza + 0,5/ dla danego wiersza 199,5 197,5 194,5 191
186,5 178
163,5 145,5 128 111
94.5 75 57 43 30,5 21
12,5 6,5 3 2
W
1 1 0,5
(5) D
(6)
(7)
z
T
r
0,9975 0,9875 0,9725 0.9520 0.9325 0,8900 0,8! 75 0,7275 0.6400 0,5520 0.4725 0,3750 0,2850 0,2150 0,1525 0,1050 0.0625 0,0325 0.0150 0,0100 0,0075 0,0050 0,0050 0,0025
2,81 2,24 1,92 1,66 1,49 1,23 0.91 0.61 0,36 0,13 -0,07 -0,32 -0.60 -0,79 -1.03 -1,25 -1,53 -1,85 -2,17 -2,33 -2,43 -2,57 -2,57 -2,81
78 72 69 67 65 62 59 56 54 51 50 47 44 42 40 38 35
32
28 27
26 24 24 22
W kolumnie 1. tabeli przeliczeniowej zamieszczamy albo uporządkowane wyniki surowe, albo środki przedziałów wyników pogrupowanych w klasy. W naszym przypadku są to uporządkowane wyniki surowe. Kolumna 2. zawiera liczebności wyników surowych, a kolumna 3. liczebności skumulowane. W kolumnie 4. dla każdego wiersza obliczamy następującą wartość: skumulowana liczebność poniżej danego wyniku (lub środka przedziału klasowego) plus połowa liczebności dla danego wyniku (środka przedziału). W kolumnie 5. mamy proporcję (p) poszczegól540
nych wartości kolumny 4. W kolumnie 6. wpisujemy wartości z odpowiadające wartościom: (cf- l/N) z kolumny 4. Znajdujemy je w tablicach zawierających wartości dystrybuanty rozkładu normalnego. Podaje je, z wymaganą dokładnością do 0,01, Greń (1987, s. 505-508, Tablica 3.; u Grenia symbol z zastąpiony został symbolem u; też przedruk tych tablic w Dodatku — tablica 2.). W ostatniej kolumnie, 7. wpisujemy wyniki T obliczone wg formuły: T= \0z+ 50. Wyniki kwestionariuszy osobowości takich jak: MMPI, WISKAD, I, ACL przekraczające 707" traktuje się jako istotnie wyższe i przekraczające granice normy (Wallen, 1964, s. 290; Płużek, 1971, s. 161). Zdaniem Płużek (tamże, s. 12) idealny profil osobowości powinien być płaski i zawierać się między 50 a 707". Czy jednak nie jest to ten sam „mit płaskiego profilu", który opisał Kaufman w odniesieniu do profilu psychometrycznego Skal Inteligencji dla Dzieci Wechslera (por. rozdz. 19., pkt. 2.3). Wyniki poniżej 307 traktuje się jako istotnie zaniżone. Taką interpretację wyników skali tenowej przyjęto także w przypadku norm dla KKE Brzezińskiego.
3.2. Skala stenowa Zapoznajmy się teraz ze sposobem przekształcenia zbioru wyników surowych testu na wyniki skali stenowej. Skalę stenową (od ang. standard ten — standardowa dziesiątka) cechują następujące parametry: średnia = 5,5, odchylenie standardowe = = 2,0. Składa się ona z 10 jednostek — stenów. Jedna jednostka równa się 0,5 odchylenia standardowego. Każdej jednostce skali odpowiada pewien procent powierzchni pod krzywą normalną rozkładu wyników, tak jak to przedstawia tab. 18.3. Tabela 18.3. Powierzchnie pod krzywą normalną odpowiadające poszczególnym stenom (Choynowski, 1966, s. 133) (1)
(2)
(3)
Steń
Wyniki standaryzowane z
Procent powierzchni pod krzywą normalną (w przybliżeniu)
109 87 65 43 21
+2,00 do +°° + 1,50 do+1,99 + 1,00 do +1,49 +0,50 do +0,99 +0,00 do +0,49 0,50 do -0,01 1,00 do -51 1,50 do -1,01 2,00 do -1,51 ~> do -2,01
25 9 15 19 19 15 \ 2
541
Wyniki z przedziału: 5-6 sten traktuje się jako przeciętne, wyniki z przedziału: 7-10 sten uważa się za wysokie, a wyniki z przedziału: 1—4 sten za niskie. Omówienie podstaw teoretycznych skali stenowej znajdzie Czytelnik u Canfielda (1951). Tabela 18.4. Normy stenowe dla Kwestionariusza Poczucia Winy (KPW) — dla mężczyzn, n - 200 (wg Kofty, Brzezińskiego i Ignaczaka, 1977, s. 107) (1) Wyniki 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
Razem:
542
(2)
f 1 1 5 3 0 1 6 9 6 7 7 4 9 7 4 9 8 5 8 7 11 6 7 4 11 5 5 7 3 6 7 0 5 2 2 4 1 3 2 2 0 0 0 200
(33 cf 200 199 198 193 190 190 189 183 174 168 161 154 150 141 134 130 121 113 108 100 93 82 76 69 65 54 49 44 37 34 28 21 21 16 14 12 8 7 4 2 0 0 0
(4) cf- i/n 1,000 0,995 0.990 0.965 0,950 0,950 0,945 0,915 0,870 0,840 0,805 0,770 0,750 0,705 0.670 0,650 0,605 0,565 0,540 0,500 0.465 0,410 0.380 0,345 0,325 0,270 0,245 0,220 0,185 0,170 0,140 0,105 0,105 0,080 0,070 0,060 0,040 0,035 0,020 0,010 0,000 0,000 O.(KH)
(5) Sten 10 10 10 9 9 9 9 8 8 7 7 7 7 7 6 6 6 6 6 5 5 5 5 5 5 4 4 4 4 3 3 3 3 3 2 2 2 1 1 1 1 1
Sposób przejścia od wyników surowych do stenów przedstawia tab. 18.4., w której zawarte są wyniki surowe uzyskane przez grupę n = 200 mężczyzn w kwestionariuszu KPW (Kwestionariusz Poczucia Winy; por. Kofta, Brzeziński, Ignaczak, 1977). Tabela 18.4. zawiera uporządkowane wyniki surowe w kolumnie 1., ale można także zamieścić tu wyniki pogrupowane w klasy, których liczba nie powinna być mniejsza niż 12 (najlepiej: 15-20). W kolumnie 2. wpisujemy liczebności wyników, a w kolumnie 3. — skumulowane liczebności. Skumulowane liczebności przemnażamy w poszczególnych wierszach tabeli przez wyrażenie: l/n i zamieszczamy w kolumnie 4. W kolumnie 5. wpisujemy steny odpowiadające wynikom surowym na podstawie wielkości wyrażenia (cf- l/n). Zakresy wielkości i tego wyrażenia dla poszczególnych stenów zawiera tabela 18.5. Procedurę przeliczania wyników surowych na wyniki skali stenowej przytoczyłem za Dobruszkiem (1971. s. 92-94). Tabela 18.5. Tabela zakresu wartości wyrażenia: cf- i/n dla poszczególnych stenów (Dobniszek, 1971, s. 94) (1)
(2)
(3)
(4)
Steń
Zakres wartości wyrażenia: cf- l/n 0,978-1,000 0,934 - 0,977 0,842 - 0,933 0.693-0,841 0,501-0,692
Steń
Zakres wartości wyrażenia: cf- l/n 0,309 - 0,500 0,160-0,308 0,068-0,159 0,024-0,067 0,000 - 0,023
10 9 8 7 6
5. 4 3 2 1
4. Porównanie skal standardowych Porównajmy teraz najbardziej rozpowszechnione skale standardowe oparte na modelu rozkładu normalnego — z odniesieniem do tegoż modelu. Takie ych sk;? zestawienie och skal zostało ujęte na rys. 18.1. Poza on Poza omówionymi wyżej skalami — tenową i stenową — przedstawione także d\ zostały także dwie skale standardowe, które wykorzystał Wechsler w całej hteligei rodzinie Skal Inteligencji — W-B I/Il, WAIS, WAIS-R, WISC, WISC-R, Brzezin* WPPSI, WPPSI-R (por. Eziński, 1993a). Te skale to: (a) skala wyników kach: śi przeliczonych WP o parame-h: średnia=\0 i odchylenie standardowej iorazów (rozpiętość: 1-19 pkt.), (b) skala ów inteligencji IQ o parametrach: (rozpięte średnia=\00 i odchylenie standardowe= 15 izpiętość: 45-150). Be; Bezpośrednio pod rysunkiem krzywej normalnej podane zostały K proct „skumulowa-procenty". Jak korzystać z tej informacji? Jeżeli, Wagę \ przykładowo weźmiemy pod igc wartość 97,7%, to informuje ona lyniki i badacza o tym, iż 97,7% populacji ma równe i niższe od wyniku kynik v uzyskanego przez osobę badaną (która uzyskała w teście odpowiadający, jak pokazuje to rys. 18.1, 70 jednostkom w skali 543
0,13%
2.14%/13,59% 34.13% 34,13% 13,59%\2,14%
+2C
0,13% procent przypadków
+3
+4a
0.1%
2,3%
15,9%
50%
84,1% 97,7% 99,9%
skumulowane procenty
■42
-3z
-2z
-1z
0
*U
+2z
+3z
+4 z
10
20
30
40
50
60
70
80
90
3 4
5 6
7 8 9
85
100
115
[ T ] teny
steny
1
2
10
IQ -
55
70
130
145
WP-WAIS-R 10 16 19 ■
13 Rys. 18.1. Charakterystyka najbardziej rozpowszechnionych skal standardowych opartych na modelu rozkładu normalnego
tenowej czy 133 pkt. w skali IQ WAIS-R czy też 16 pkt. w skali wyników przeliczonych WP jakiegoś z jedenastu testów wchodzących w skład WAIS-R). Jeśli zaś chodzi o to, poniżej jakiego wyniku w skali stenowej znajduje się 97,7 % populacji, to — jak widzimy z rys. 18.1 — jest to wynik odpowiadający wartości wyniku standaryzowanego z = +2. Z kolei po zajrzeniu do tab. 18.3 dowiadujemy się, iż wartościom z > +2,00 odpowiada 10 sten. Czytelnik zainteresowany bardziej szczegółowym przeliczeniem wyników uzyskanych przez osobę badaną w skalach standardowych zastosowanych w Skalach Inteligencji Wechslera WP i IQ powinien skorzystać z tab. 18.6 (przeliczenie WP na centyle czyli procenty osób z populacji o wynikach równym i niższych danemu WP) oraz z tab. 18.7 (przeliczenie IQ na centyle czyli procenty osób z populacji o wynikach, równym i niższych danemu IQ). W pracy Brzezińskiego (1993a) można znaleźć dokładne omówienie obu skal. Czytelnikowi, który chce sensownie po544
służyć się którąś ze Skal Inteligencji Wechslera zalecałbym, jako obowiązkową, lekturę tej pracy, oczywiście przed przystąpieniem do interpretacji statystycznej wyników uzyskanych przez osobę badaną w 11 testach oraz 3 skalach (Pełnej, Słownej i Bezsłownej) WAIS-R (czy innej skali należącej do rodziny „Wechslerowskiej"). Tabela 18.6. Wyniki przeliczone Centyle Wyniki przeliczone WP
(WP) testów WAIS-R i odpowiadające im centyle Z Ocena jakościowa Procent populacji
19 18 17 16
99,9 99,6 99 98
+3 +2 2/3 +2 1/3 +2
bardzo wysoki poziom
1514
95 91
wysoki poziom
13
84
+ 1 2/3 + 1 1/3 +1
12 1110 98
+2/3 + 1/3 0 1/3 2/3
7
75 63 50 37 25 16
6 5
9 5
-1 1/3 1 2/3 -2 -2 21/3 -2 2/3 -3
43 21
21 0,4 0.1
-1
poziom powyżej przeciętnej przeciętny poziom
J
95,44
99,72
68,26
poziom poniżej przeciętnej niski poziom bardzo niski poziom
Źrfdto: na podstawie: Wcchsicr, 1981, s. 151, tab. 22.; Sattler. 1988, s. 855, lab. C-41.; Jensen, s. 85, ryc. 4„ 15.
5. Podsumowanie )blematyka, której poświęcony byl niniejszy rozdział jest bardzo ważna — zwła:za dla psychologów konstruujących testy psychologiczne do celów diagnostycz-. Jednolity system stosowania testu i punktacji odpowiedzi osób badanych na jszczególne pozycje (zadania, pytania, stwierdzenia itp.) — inaczej standaryzacja obiektywność testu — sprawia, że wyniki są intersubiektywnie porównywalne, że jżliwe jest powtarzanie testu wobec nowych osób ze świadomością tego, że wa- A badania oraz zasady punktacji odpowiedzi testowych (inaczej: ocena specyfi-
545
Tabela 18.7. Tabela ilorazów inteligencji (IQ) w WAIS-R (a także WPPSI i WISC-R) oraz odpowiadających im centylów
IQ 155 154 153 152 151 150 149 148 147 146 145 144 143 142 141 140 139 138 137 136 135 134 133 132 131 130 129 128
Centyle 99,99 99,98 99,98 99,97 99,97 99,96 99,95 99,93 99,91 99,89 99,87 99,83 99,79 99,74 99,69 99,62 99,53 99 99 99 99 99 99 98 98 98 97 97
IQ 127 126 125 124 123 122 121 120 119 118 117 116 115 114 113 112 111 110 109 108 107 106 105 104 103 102 101 100
Centyle 96 96 95 95 94 93 92 91 90 88 87 86 84 82 81 79 77 75 73 70 68 66 63 61 58 55 53 50
IQ 99 98 97 96 95 94 93 92 91 90 89 88 87 86 85 84 83 82 81 80 79 78
77 76 75 74 73 72
Centyle 47 45 42 39 37 34 32 30 27 25 23 21 19 18 16 14 13 12 10 9 8 7 6 5 5 4 4 3
IQ 71 70 69 68 67 66 65 64 63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45
Centyle 3 2 2 2 1 1 1 1 1 1 0,47 0,38 0,31 0,26 0,21 0,17 0,13 0,11 0,09 0,07 0,05 0,04 0,03 0,03 0,02 0,02 0,01
Źródło: Sattler,_________ 1988. lab. BC-1
cznego zachowania testowego osoby badanej) nie stanowią dodatkowego źródła wariancji błędu. Test psychologiczny musi być wy standaryzowany — i to go odróżnia od innych technik diagnostycznych, jak np. tzw. eksperyment psychopatologiczny w ujęciu Zeigamik (1969, 1978) i Rubinsztejn (1967, 1979), w którym brak standaryzacji postępowania diagnostycznego podniesiony został do rangi zasady (por. Brzeziński 1993). Musi też być zaopatrzony w jasny, nie budzący wątpliwości użytkownika, klucz. Nie mniej ważna jest normalizacja testu. Także z punktu widzenia celów porównań interindywidualnych (zwłaszcza: „osoba — grupa odniesienia" — np. w WAIS-R: „osoba — dana grupa wiekowa"). Współczesna praktyka konstruowania i normalizacji testów oparta jest na transformacjach surowych wyników testowych na wyniki przeliczone skal znormalizowanych, tj. takich, które zakładają model 546
rozkładu normalnego wyników w populacji. Z dwiema najbardziej rozpowszechnionymi skalami, zwłaszcza wśród użytkowników kwestionariuszy osobowości, zapoznałem Czytelnika w pkt. 3. (skale: tenowa i stenowd). Za ich stosowaniem przemawiają takie racje, jak czytelna interpretacja wyniku danej osoby odnosząca się do jej miejsca w populacji pod względem natężenia cechy mierzonej danym testem. Czytelnika zainteresowanego pogłębieniem wiadomości na temat normalizacji testu oraz na temat innych skal, niż dwie omówione w niniejszym rozdziale, odsyłam do następujących pozycji dostępnych w języku polskim: Magnusson D. 'Wprowadzenie do teorii testów (rozdz. 16.: Skale, przekształcenia i normy, s. 342364); Niemierko B. Testy osiągnięć szkolnych. Podstawowe pojęcia i techniki obliczeniowe (rozdz. 3.: Skale testowe, pkt. Normy empiryczne, s. 136-168; zwracam uwagę Czytelnika na bardzo dobre omówienie skali centylowej, s. 137-144); Ricks J.H. Jr, Normy lokalne — kiedy i dlaczego?; Matuszewski A. Interpretacja formalna wyników w testach psychologicznych (w tym artykule Czytelnik może zapoznać się z właściwościami skali tetronowej — średnia=\0, odchylenie standardowe=A, rozpiętość: 0-21 pkt. — oraz centylowej — rozpiętość: 0-100 pkt. — opartej na rozkładzie równomiernym, a nie jak omawiane w niniejszym rozdziale skale stenowa i tenowa, które są oparte na rozkładzie normalnym); Guilford J.P. Podstawowe metody statystyczne w psychologii i pedagogice (w rozdz. XIX: Skale i normy tesiowe, s. 491-510, Czytelnik znajdzie omówienie skał: T i Q.
Rozdział 19. Analiza profilów psychometrycznych — porównania intraindywidualne i interindywidualne
1. Wprowadzenie Celem niniejszego rozdziału jest zademonstrowanie metody umożliwiającej psychologowi dokonanie całościowej analizy profilu psychometrycznego, stanowiącego graficzną prezentację wyników badań wielowymiarowymi bateriami testów inteligencji czy wielowymiarowymi kwestionariuszami osobowości. Psychologowie przykładają dużą wagę do poziomu i kształtu profilu — jego intraindywidualnej zmienności (por. np. Cronbach, Gleser, 1988; Cronbach, 1988; Nunnally, 1988; Brzeziński, Maruszewski, 1978 b; Brzeziński, Gaul, 1993). Interesuje ich jednak nie tylko zmienność intraindywidualna (inaczej: inłraprofiłowa) wyników, ale również zmienność interindywidualna (inaczej: interprofilowa). Przy czym, ta druga analiza odnosi się nie tylko do porównań profilu osoby A z profilem osoby B, ale także do przeprowadzania porównań grup profilów (dwu i większej liczby grup). Praktyka postępowania psychologów, w tym zakresie, w Polsce miała raczej charakter intuicyjny, jakościowy i nie była poparta analizą psychometryczną i statystyczną, a jeżeli już takową przeprowadzano, to sprowadzała się ona do wykorzystania jakiegoś testu istotności różnic między średnimi (np. testu / — por. Płużek, 1971) do przeprowadzenia porównań między grupowych. Dobrą ilustrację tej praktyki stanowią analizy wyników Skali Wechslera-Bellevue i WISC oraz kwestionariuszy WISKAD-MMPl 16 PF czy ACL (por. Sęk, 1969; Kowalik, 1984, 1993; Kostrzewski, 1970, 1976; Płużek, 1971). Poza ten utarty tryb postępowania wyszedł Kostrzewski, który propagował w Polsce jedną z metod analizy intraprofilowej WISC (Kostrzewski, 1976). Utarły się w świadomości psychologów pewne mity co do, na przykład, kształtu profilu normalnej, przystosowanej osoby. Mam na myśli mit „płaskiego profilu" (ang. flat profile), w myśl którego normalny profil to profil „płaski", o niskiej zmienności wewnętrznej. Jak jednak pokazują liczne analizy psychometryczne (por. zwłaszcza: Kaufman, 1976a, 1976b), „płaski profil" wcale nie jest profilem najczęściej występującym w populacji osób badanych. Jak podaje cytowany autor — w odniesieniu do profilów psychometrycznych WISC-R w populacji dzieci 548
imerykańskich — przeciętna rozpiętość profilu w Skali Pełnej WISC-R wynosiła 7 pkt » skali wyników przeliczonych'. Takie mity mogą być rozbite za pomocą jedynie uiaściwie dobranych metod analizy danych profilowych (np. Kaufman, 1976b). Na ogół studenci psychologii znają przynajmniej kilka podstawowych metod oceny siły związku między zmiennymi mierzonymi na różnych skalach pomiarowych (w sensie Stevensa). Zresztą „korelowanie zmiennych" jest ulubionym zajęciem psychologów. Gdyby jednak zapytać przeciętnego studenta o to, w jaki sposób można by ocenić stopień podobieństwa dwóch osób: Jana i Wojciecha, scharaktelyzowanych za pomocą profilów psychometrycznych, np. profilu MMPI czy WAtS-R, to raczej nie udzieliłby on nam odpowiedzi na to pytanie. Niewykluczone, że zdziwiłby się, iż można „wyliczyć" współczynnik podobieństwa dwóch konkretnych osób. Zdziwienie to uzasadnione jest niepodejmowaniem tej problematyki przez aktualnie dostępne studentom psychologii opracowania z zakresu analizy dalych testowych. Uważam tedy, że warto o tym pisać. Co więcej, trzeba ten temat fiotraktować na tyle obszernie, aby Czytelnicy wynieśli z jego lektury korzyści przede wszystkim natury praktycznej. Chodzi bowiem o to, aby studenci — przyszli diagności i badacze — posługiwali się tymi metodami w swojej codziennej pacy. Z bogatej literatury przedmiotu (dostępnej w języku angielskim) wybrałem do zaprezentowania Czytelnikom tylko te metody, które wydawały mi się najbardziej jprzydatne i w miarę proste w zastosowaniu. Z tego punktu widzenia nieprzydatne są, na przykład, te metody, które albo wymagają skomplikowanych rachunków (z iżyciem EMC włącznie), albo zakładają znajomość złożonego aparatu matematykznego. Z drugiej strony, przy doborze metod kierowałem się potrzebami psychojlogów operujących różnorodnym (także pod względem formalnym) materiałem badawczym i w różnym celu go wykorzystujących. Czytelnik zainteresowany bardziej nawansowanymi metodami może sięgnąć po dostępne, także w języku polskim, (publikacje podane w Podsumowaniu do niniejszego rozdziału.
2, Analiza intraprofilowa U. Wykaz stosowanych oznaczeń i wzorów pomocniczych W tym punkcie zgrupuję oznaczenia, symbole statystyczne i psychometryczne, któ-R będę wykorzystywał do przedstawienia opisanych tu procedur analizy intrapro■owej. I tak: Dokładniejsze dane na temat częstości występowania w populacji profilów psychometrycznych ■różnej rozpiętości (w Skalach Inteligencji Weschslera: WA1S-R, WISC-R oraz WPPSI) znajdzie CzyŁk u Brzezińskiego i Gaula (1993, tab. l-12b, s. 118-128).
549
1.
7.
(1 -p) 100% — tt-procentowy poziom ufności; Zan — wartość statystyki : rozkładu normalnego dla danego a. Przyjmujemy do wyboru cztery poziomy wartości er: a) 0,01 : (1,0 - 0,01) 100% = 99%; zo.01/2 = 2,58; b) 0,05 : (1,0 - 0,05) 100% ■ 95%; Zo.05/2 = 1,96; c) 0,10 : (1,0 - 0,10) 100% = 90%; Zo.10/2 * 1*64; d) 0,15 : (1,0 - 0,15) 100% = 85%; 2b. IM = 1,44. Za Davisem (Davis, 1959, s. 162) chciałbym polecić 85% poziom ufności, jako w zupełności wystarczający do przeprowadzenia większości analiz intraprofilowych w codziennej praktyce diagnostycznej, a także w przypadku badań eksploracyjnych i pilotażowych. Parametry skali pomiarowej, w której wyrażone są wyniki testów tworzących baterię. W przypadku Skali Inteligencji WAIS-R, której profilem psychometrycznym będę się, m. in., posługiwał jako przykładem zastosowania analizy intraprofiłowej, będą to wyniki przeliczone testów Skali Inteligencji oraz IQ (ilorazu inteligencji): a —skala wyników przeliczonych dla testów: średnia (M) — 10, odchylenie standardowe (SD) = 3; b — skala IQ: średnia (M) = 100, odchylenie standardowe (SD) = 15. Liczba wymiarów (testów) profilu — m. Przykładowo: dla WAIS-R będą to: mi = 11, Skala Pełna (F); m2 = 6, Skala Słowna (V); m3 = 5, Skala Bezsłowna (P); m = 2, Skale IQ (VIQ, PIQ). Dla 16 PF. m = 16. Skrajne wyniki profilu: D — wynik najniższy (dolny), G — wynik najwyższy (górny). T, — wynik osoby badanej w /-tym teście. ST — suma wyników we wszystkich testach składających się na dany profil uzyskany przez OB. P — przeciętny (średnia arytmetyczna) profil uzyskany przez OB:
8. 9.
EVTj — wariancja błędu pomiaru testu 7" ;. EVST — wariancja błędu pomiaru sumy m testów:
2.
3.
4. 5. 6.
lOa. SEMD^-p) in — błąd standardowy pomiaru różnicy między średnią wyników m testów (inaczej: średnim profilem, P) i wynikiem i-tego testu (77) — wynik testu uwzględniony przy obliczaniu średniej: (19.2) lOb. SEMD(T _^ex — błąd standardowy pomiaru różnicy między średnią wyników 550
m testów (inaczej: średnim profilem, P) i wynikiem /-tego testu (F,-) — wynik testu nie uwzględniony przy obliczaniu średniej:
Wyprowadzenie obu wzorów: lOa i lOb znajdzie Czytelnik w pracy Davisa (Davis, 1959). 11. r„ — współczynnik rzetelności testu. 12. SD T — odchylenie standardowe rozkładu wyników testu 7", w danej grupie (np. w WAIS-R: SD T = 3 dla skali wyników przeliczonych oraz 15 dla IQ; w kwestionariuszu MM/7, I, ACL: SD T= 10). 13. SEMT — błąd standardowy pomiaru testu T t: SEMT. = SDT Vl-r„ .
(19.4)
14. SEMD{T_ r) — błąd standardowy pomiaru różnicy między wynikiem w teście T i wynikiem w teście T':
IX Wykreślenie profilu otrzymanego (P), profilu górnych (P-g) i dolnych (P-d) granic przedziałów ufności Jak już zaznaczyłem, poszczególne kroki analizy intraprofilowej będą ilustrowane za pomocą profilu inteligencji uzyskiwanego w badaniu Skalą Inteligencji WAIS-R. Oczywiście, Czytelnik, który skonstruuje własną baterię obejmującą m testów, będzie mógł przeprowadzić taką sama analizę — uwzględniając wszystkie jej aspekty, albo też, ograniczając się do tylko jednego aspektu. Wykorzystany przeze mnie mzykład WAIS-R ma jedynie ułatwić zrozumienie całej procedury. Punktem wyjścia do przeprowadzenia analizy profilu psychometrycznego (inteligencji) otrzymanego za pomocą WAIS-R jest dokonanie zamiany wyników airowych testów wchodzących w skład baterii na wyniki przeliczone oraz obliczenie wartości trzech wskaźników IQ (ilorazów inteligencji). Wyniki surowe 11 testów przeliczane są na wyniki skali standardowej — skali wyników przeliczonych. Sumy wyników przeliczonych: 11, 6 i 5 testów transformowane są na wyniki skali standardowej — skali IQ. Możemy też wykreślić odpowiednie profile: a) profil pełny—F; b) profil słowny — V; c) profil bezsłowny — P; I) profil IQ — IQ(V, P). Przykładowy profil przedstawiony został na rys. 19.1. Naniesiono też na nim śedni profil uzyskany przez dodanie do siebie 11 wyników przeliczonych uzyskanych przez osobę badaną w testach WAIS-R i podzielenie otrzymanej sumy przez ■ezbę testów w baterii, tj. przez 11. 551
WAIS-R R
6
8
12
10
12
12
a=0,05 P,=10 P-Q P-d
8 4
10 6
przedział wieku: 16-17 j
PP=5,6 13 11
12 8
14 10
Pf=8 14 10
9 3
8 2
7 3
8 2
9 5
Rys. 19.1 Profil psychoraeiryczny wraz z zaznaczonymi przedziałami ufności
Testy wchodzące w skład WAIS-R różnią się między sobą pod względem wartości współczynników rzetelności (r„) i błędów standardowych pomiaru (SEMT). Dlatego też wyniki otrzymane przez osobę badaną w poszczególnych testach WAIS-R informują nas, z różną dokładnością, o prawdopodobnej wartości wyniku prawdziwego. Jedną z powszechnie stosowanych metod oszacowania, na podstawie znajomości wyniku otrzymanego 71, przez osobę badaną w teście, nieznanej wartości wyniku prawdziwego (TSJ) jest metoda przedziału ufności (por. J^ord, Novick, 1968). Przedział ufności dla wyniku prawdziwego Ts t oszacowanego na poziomie ufności (1 -p) 100% z wyniku otrzymanego T t ma postać:
(19.6)
Przykład: Jan Kowalski (wiek: 25 lat) w teście „Słownik" WAIS-R otrzymał następujący wynik przeliczony: T= 10. Parametry psychometryczne testu „Słownik" są następujące: r„ = 0,96; SEMT=0,61 (por. Wechsler, 1981, s. 30, 33). Przyjmijmy: /J = 0,15. Zatem możemy zbudować 85% przedział ufności dla Ts testu „Słownik": 552
Tse <10-(l,44)(0,67); 10+(l,44)(0,67)>, Tse (9,04; 10,96), w zaokrągleniu:
Tse{9; 11).
Otrzymaliśmy zatem przedział ufności o dolnej granicy 9 pkt. i górnej granicy równej 11 pkt. Interpretacja otrzymanego rezultatu jest następująca. Otóż, z prawdopodobieństwem 0,85, przedział ufności o granicach: 9 i 11 pkt. pokrywa nieznaną wartość wyniku prawdziwego Ts w teście „Słownik" WAIS-R. Czyli, mówiąc jeszcze inaczej, Jan Kowalski mógł równie dobrze otrzymać w tym teście wynik równy 9 pkt. jak i równy 11 pkt. Rzecz jasna mógł też otrzymać wynik jeszcze j bardziej skrajny — mniejszy od 9 pkt. albo większy od 11 pkt. ale prawdopodo[bieństwo tego jest równe 0,15. Przeprowadzając powyższą operację dla każdego testu danej baterii testów Eymamy m wartości górnych granic, które połączone linią dadzą tzw. profil 5mych granic (P-g) oraz otrzymamy m wartości dolnych granic, które połączone linią dadzą tzw. profil dolnych granic (P~d). Zatem na jednym wykresie będziemy lieli trzy profile — profil otrzymany przez osobę badaną oraz profil dolnych i afil górnych granic przedziałów ufności (por. rys. 19.1). Wynik każdego testu baterii musimy interpretować biorąc pod uwagę możliwą dolną i górną granicę. Rys. 19.2 pokazuje profile wykreślone przy danym )ziomie istotności er =0,05.
\. Analiza dyspersji profilu — wskaźnik: G-D ^mując do interpretacji psychologicznej jakiś profil psychometryczny musimy — zaczniemy go interpretować — wpierw odpowiedzieć na pytanie o unikatowość Jednie typowość) uzyskanego kształtu profilu. Mówiąc inaczej, musimy zorientosię, na ile uzyskany przez osobę badaną profil jest nietypowy (co do kształtu), )iegający od kształtu tzw. profilu normalnego, typowego dla danej populacji. Jednym z dość rozpowszechnionych wskaźników rozpiętości profilu psychomeycznego takich baterii jak: WAIS-R, WISC-R, WPPSI (por. Kaufrnan, 1976b; Reyolds. Gutkin, 1981; Silverstein, 1987, 1988) jest wielkość różnicy między wynikiem ąjwyższym (górnym — G) i najniższym (dolnym — D) profilu: „G-D". ykład. Jan Kowalski uzyskał następującą sekwencję wyników przeliczonych w ISC-R (wersja 10-testowa): W 10 10
R 00 00
WISC-R 1 Skala Pełna (F) ISkala Słowna (V) | Skala Bezsłowna (P)
A 7 7
P 12 12
S 8 8
BO 10 10
PO K 9
15
U
sc
11
9
9 15 11 9 Wartości wskaźnika „G-D" dla poszczególnych skal są następujące: F:(G- D)=15 -7 = 8, V : (G-D)= 12-7 = 5, P : (G-D)= 15-9 = 6. 553
WAIS-R
WAIS-R
(b)
Rys. 1<>2 . Przykładów;! uuOiu tr/ech profilów WAIS-R: (a) Pv, (b) Pv, (c) PF
WAIS-R
(c)
2.4. Analiza odchyleń wyników poszczególnych testów (71,) od średniego profilu (P) — wskaźnik Tt - P: 2.4.1. Średnia obliczona z uwzględnieniem testu 7", [Psychologiczna interpretacja odchyleń wyniku uzyskanego przez osobę badaną w [jakimś teście WAIS-R od przeciętnego wyniku wszystkich testów, tj. od średniego [profilu, musi mieć swoje statystyczne uzasadnienie. Możemy o nim mówić wówrezas, gdy wynik danego testu w sposób statystycznie istotny (na przyjętym poziomie istotności) odchyla się (in plus lub in minus) od średniej uzyskanej dla wszy[stkich testów wchodzących w skład Skali — Słownej czy Bezsłownej. Zacznijmy od analizy dwóch przeciętnych profilów — jednego dla Skali Słownej (Pv ) i jednego dla Skali Bezsłownej (PP ) WAIS-R. Przy ocenie statystycznej istotności różnicy: Ti~P v , Ti-P P czy Tj-P F korzystać będziemy z metody przedziału ufności, wykorzystywanego tu w roli testu [istotności różnic. Aby daną różnicę Tj-P uznać za istotną, jej wartość bezwzględna powinna spełnić na danym poziomie istotności p następujące kryterium: (19.7)
\Ti-F\±zpn$EMih-?).
Wartości SEMD lT ^-p i SEMD^-p,,) dla poszczególnych skal inteligencji — |ffA/S-# — zostały obliczone przez Brzezińskiego i Gaula (1993, tab. 13a, s. 129— 130) i tu przedrukowane w tab. 19.1. Przykład. Pokażemy teraz technikę obliczeń wartości SEMD(T _~p^ dla oceny istotności różnicy między wynikiem uzyskanym przez Annę Kowalską (wiek: 40 pt) w teście „Wiadomości" WAIS-R oraz przeciętnym profilem skali słownej (Pv ). Osoba badana uzyskała następujące wyniki przeliczone w sześciu testach Skali Słownej WAIS-R: Osoba badana:
14
10
13
12
13
10
Korzystając ze wzorów przytoczonych w pkt. 9. i 10. zestawienia oznaczeń obliczamy wartość SEMD (7, - Pv): = (0,91)2 + (1,21)2 + (1,19)2 + (1,22)2 + (1,27)2 = 7,2065, .2 =
(0,9ir = 0,8673, Zo.o5/2SEMD{Ti.pv) - (1,96X0,8673) = 1,6999, TWiad-Pw=\4-\2 = 2. 555
Tabela 19.1. WAIS-R. Błędy standardowe pomiaru różnicy między danym testem (T-) a średnim profilem Skali Słownej — SEMD(T _-pvy Skali Bezsłownej — SEMDfj_-ppy oraz Skali Pełnej — SEMDlT..pF) (0)
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
Przedziały wiekowe 16-17
18-19
20-24
25-34
35^14
45-54
55-64
65-69
70-74 ;
SEMD(Ti-PV)
w
0,82
0,82
0,88
0,92
0,87
0,99
0,84
0,90
0,88
PC
1,26
1,26
0,92
0,92
1,08
1,13
1,12
1,12
1,13
s
0,61
0,61
0,70
0,70
0,68
0,70
0,68
0,64
0,71
A
1,08
1,02
1,06
1,08
1,07
1,03
0,92
0,97
1,01
R
1,05
1,04
1,17
1,11
1,09
1,05
1,08
1,00
1,06
P
1,15
1,02
1,23
1,15
1,13
1,09
1,03
1,11
1,07
SEMD(Ti-p BO
1,29
1,25
1,15
1,08
1,15
1,15
1,17
0,99
0,97
PO
1,32
1,33
1,34
1,30
1,26
1,20
1,26
1,17
0,97
K
1,00
0,99
0,98
0,97
0,97
1,03
0,97
0,87
0,84
U
1,62
1,36
1,38
1,45
1,29
1,23
1,26
1,19
1,20
sc
1,36
1,34
1,04
1,04
1,12
1,11
1,12
1,09
1,08
SEMD{T,-PF)
w
0,86
0,85
0,91
0,97
0,90
1,04
0,88
0,94
0.90
PC
1,36
1,36
0,96
0,96
1,15
1,20
1,20
1,20
1,20
s
0,59
0,60
0,70
0,71
0,68
0,69
0,69
0,63
0,70
A
1,09
1,09
1,12
1,15
1,14
1,09
0,97
1,02
1,06
R
1,12
1,12
1,25
1,19
1,16
1,11
1,16
1,05
1,12
P
1,23
1,09
1,32
1,23
1,20
1,15
1,10
1,18
1,13
BO
1,35
1,31
1,21
1,12
1,21
1,22
1,24
1,04
1,01
PO
1,39
1,42
1,45
1,41
1,35
1,28
1,36
1,27
1,01
K
0,96
0,96
0,98
0,97
0,97
1,07
0,97
0,86
0,86
U
1,77
1,45
1,50
1,60
1,40
1,33
1,36
1,29
1,31
SC
1,44
1,43
1,06
1,06
1,18
1,17
1,17
1,16
1,16
Źródło: Brzeziński, Gaul (1993, lab. 13a, s. 129-130). Pomocnicze wartości: SEMr: oraz EVT, zawiera tab. 19.2.
Tabela 19.2. WAIS-R. Błędy standardowe pomiaru dla testów (a — SEMT) i wariancje błędu pomiaru testów (b — (0) (1) (2) (3) (4) (5) (8) (9) (6) (7) Testy W
a b
PC
a b
s
a
A
a
b b
R
a b
P
a b
BO
a b
PO
a b
K
a b
U
a b
SC
a b
16-17 0,84 0,71 1,44 2,07 0,49 0,24 1,20 1,44 1,16 1,35 1,29 1,66 1,39 2,93 1,51 2,28 0,98 0,96 1,55 3,40 1,53 2.34
18-19 0,85 0,72 (1,44) (2,07) 0,52 0,27 1,13 1,28 1,16 1,35 1,16 1,28 1.39 1,93 1,51 2,28 0,98 0,96 1,55 2,40 (1.53) (2,34)
20-24 0,85 0,72 (0,44) (0,07) 0,52 0,27 1,13 1,28 1,16 1,35 1,13 1,28 1,27 1,61 1,55 2,40 1,00 1,00 1,61 2,59 (1,10) (1,21)
Przedziały wiekowe 25-34 35^4 45-54 0,99 0,91 1,08 0,98 0,83 1.17 0,98 1,21 1,27 0,96 1,46 1,61 0,67 0,63 0,63 0,45 0,40 0,42 1,21 1,19 1,14 1,46 1,42 1,30 1,25 1,22 1,16 1.56 1,49 1,35 1,30 1,27 1,21 1,69 1,61 1,46 1,17 1,28 1,29 1,37 1,64 1,66 1,50 1,44 1,36 2,25 2,07 1,85 0,99 1,00 1,11 0,98 1,00 1,23 1,49 1,41 1,71 2,92 2,22 1,99 1,10 1,24 1,23 Ul 1,54 1,51
55-64 0,89 0,79
(UD
65-69 0,97 0,94 (1,27) (1,61) 0,65 0,34 1,06 1,12 1,10 1,21 1,25 1,56 1,08 1,17 1,35 1,82 0,88 0,77 1,37 1,88 (1,23) (1,51)
70-74 0,93 0,86 (1,27) (1,61) 0,68 0,46 1,11 1,23 1,18 1,39 1,19 1,42 1,06 1,12 1,07 1,14 0,87 0,76 1,40 1,96 (1,23) (1.51)
W nawiasach podano wartości aproksymowane Źrtdlo: Brzeziński, Gaul (1993. fcb. 14a, s. 132)
Aby można uznać różnicę: r Wiad. -P\ = 2 pkt. za istotną statystycznie na poziomie a = 0,05 musi ona przewyższać (lub być co najmniej równa) wartość MD(T.p v ) ■ Ponieważ tak właśnie jest, gdyż przewyższa ona wartość tego rterium, więc otrzymana różnica 2 pkt. może być uznana za statystycznie istotną poziomie a = 0,05.
.4.2. Średnia obliczona bez uwzględnienia testu Ti Mad. Pokażemy teraz technikę obliczeń wartości SEMD^ -p) dla oceny istotności ucy między wynikiem uzyskanym przez Annę Kowalską (wiek: 40 lat) w teście „Wiadomości" WAIS-R oraz przeciętnym profilem skali słownej (Pv). Tym razem jedwynik testu nie był uwzględniany przy obliczaniu średniej. Osoba badana uzyskała stepujące wyniki przeliczone w sześciu testach w Skali Słownej WAIS-R: 557
Aby można uznać różnicę: rWiad. -Pv = 2 pkt. za istotną statystycznie na poziomie «=0,05 musi ona przewyższać (lub być co najmniej równa) wartość Zo,05n.SEMD(T _ pv). Ponieważ tak właśnie jest, gdyż przewyższa ona wartość tego kryterium, więc otrzymana różnica 2 pkt. może być uznana za statystycznie istotną na poziomie « = 0,05. Wyłączenie wyniku testu „Wiadomości" z obliczania wielkości różnicy 7W --P v dało więc, w tym konkretnym przypadku, ten sam rezultat co w przypadku, gdy wynik tego testu „wchodził" do średniej. Stało się tak, gdyż obie średnie nie różniły się znacząco — 12 (6 testów) i 11,6 (5 testów).
2.5. Ocena istotności różnic wyników dwóch testów: Ti \Tj — wskaźnik: d(Ti - Tj) Ostatnim krokiem w analizie intraindywidualnej profilu pojedynczej osoby badanej będzie dokonanie porównań każdego testu z każdym (7" z 7"). Chodzi bowiem o to, aby ocenić różnice między wynikami poszczególnych testów wg zasady: „każdy z każdym". Trzeba oddzielić te pary testów, których wyniki uzyskane przez osobę badaną różniły się istotnie (na danym a) od tych par testów, których wyniki nie różniły się istotnie. Dalszej, psychologicznej interpretacji poddajemy tylko te różnice, które były istotne statystycznie. Zastosowana tu będzie ta sama procedura statystyczna, co w przypadku wykreślania profilów dolnych i górnych granic przedziałów ufności dla danego, otrzymanego przez osobę badaną, profilu psychometrycznego. Będzie to zatem sygnalizowana już metoda przedziału ufności. Przedział ufności dla różnicy dwóch wyników- prawdziwych : „T-Ts", na danym poziomie ufności: (1 -er) 100%, ma postać: (Ts-Ts') € ((T- T ' ) - z B/2 ^MD (7 ._ r . ) ; (T- T') + ^SEMD,,-.^). (19.8) Jak interpretujemy przedział ufności dla różnicy: „Ts- Ts ntł Aby różnicę wyników: T i 7" uznać za istotną na danym poziomie a, musi ona (jej wartość 558
bezwzględna) przewyższać (lub być co najmniej równa) wartość połprzedziału ufności: „z^SEMD^.j-)". Albo inaczej: jeżeli dolna granica przedziału ufności będzie liczbą ujemną, to będzie to oznaczało, iż dana różnica: T- 7" nie jest istotna statystycznie, a zaobserwowana różnica: T- T' nie będzie podlegała psychologicznej interpretacji. Ten sposób oceny istotności różnic wyników dwóch testów wchodzących w skład baterii testów rekomendują Lord i Novick (1968, rozdz. 7.), Magnusson (1991, rozdz. 7.), Brzeziński i Noworol (1984). Przykład. Genowefa Nowak (lat: 45) uzyskała w teście „Wiadomości" (7"|) i w teście „Arytmetyki" (T2) WAIS-R następujące wyniki: T t = 15,
T2 = 13.
Współczynniki rzetelności obu testów, dla przedziału wieku: 45-54 są następujące (por. Wechsler, 1981, tab. 10, s. 30): r m) = 0,87 (T, : Wiad.), r w2> = 0,84 (T 2 : Arytm.). Korzystając ze wzoru (por. punkt 14. w wykazie oznaczeń) na SEMD (T _ r j mamy:
Czy zaobserwowana różnica: „15 - 13 = 2 pkl." może być uznana za statystycznie istotną na poziomie a = 0,05? Aby odpowiedzieć na to pytanie musimy zbudować półprzedział ufności: Ponieważ różnica 7", - T2 = 2 pkt. jest mniejsza od wartości półprzedziału ufności równej 3 pkt. więc nie można jej uznać za istotną statystycznie. Aby owa różnica mogła być uznana za istotną, musiałaby wynosić co najmniej 3 pkt.
3. Analiza interprofilowa 3.1. Współczynnik G-Holleya i Guilforda — testy dychotomiczne („0,1") Bardzo często w swojej praktyce badawczej psycholog, a zwłaszcza psycholog praktyk, np. klinicysta, musi dokonać oceny funkcjonowania ucznia czy pacjenta na skalach szacunkowych, na których koduje się bądź obserwacje zachowania ucz-, nia w klasie szkolnej czy pacjenta na oddziale szpitalnym, bądź uzyskane w wywiadzie informacje o jego funkcjonowaniu {np. w rodzinie), bądź też on sam wypełnia proste kwestionariusze samoobserwacyjne. W swej najprostszej postaci skale szacunkowe przybierają postać skal dwubiegunowych, zero-jedynkowych. Możemy 559
bowiem punktować „postępy w uczeniu się" jako 1 pkt, a „brak postępów" jako 0 pkt. Możemy stwierdzać występowanie objawów wchodzących w skład syndromu objawów klinicznych (1 pkt) lub też możemy nie stwierdzić ich występowania (0 pkt). Osoba badana może udzielić odpowiedzi „diagnostycznej" (1 pkt) lub „niediagnostycznej" (0 pkt). Skale szacunkowe mogą być zebrane w jedną baterię ze względu na pewne kryteria, np. dotyczą różnych aspektów funkcjonowania osoby badanej (jak np. w badaniach Bandury i Waltersa, 1968). Taka bateria może zawierać od kilku do kilkudziesięciu (a nawet przeszło stu) skal dwupunktowych. „Wynik" osoby badanej to seria zer i jedynek (łącznie zer i jedynek będzie tyle, ile skal liczy bateria). Jestem przeciwny dodawaniu do siebie wyników cząstkowych w celu uzyskania jednego wyniku ogólnego, gdyż prowadzi to jedynie do utraty informacji o owych charakterystycznych cechach funkcjonowania, o których informują psychologa pojedyncze skale szacunkowe. Dlatego też proponuję, aby w przypadku baterii &-skalowej zapisać wynik osoby badanej w postaci sekwencji k zer i jedynek. Mówiąc inaczej, chodzi o to, by posługiwać się profilem, czyli krzywą łączącą, odpowiadające osobie badanej, punkty na odcinkach reprezentujących poszczególne skale. Przykładowo, w 10-skalowej baterii samoobserwacyjnej osoba badana może uzyskać następujący wynik: skała: I wynik: 0
II 0
ni i
IV i
V 0
VI 1
VII 0
VII 1
IX 0
X 0
To samo możemy przedstawić graficznie jako profil — por. rys. 19.3. Skale: 1
oJ Rys. 19.3. Przykładowy utworzony ze zmiennych
II
IV
profil (skal)
dychotomicznych
Dla każdej z badanych osób możemy wykreślić profil (taki, jak na rysunku 19.3) lub też wypisać sekwencję zer i jedynek. Jeżeli mamy w grupie badanej 10 osób, to możemy dokonać 45 porównań — każdej z każdą — a z otrzymanych wskaźników podobieństwa osób badanych względem siebie utworzyć macierz podobieństwa postaci: 560
Osoby: Oi
0, —
O„_i
02
O2
o„
G,2
G13
Ci.,-1
—
G23
G2^t-1
Gin
—
G 3 , «- l
Gin
—
G n - l.n
O3
Gin
—
O„_;
o„
—
Główna przekątna tej macierzy jest nie wypełniona, gdyż na niej musiałyby znaleźć się współczynniki podobieństwa danej osoby z ... nią samą. Poza główną przekątną mamy wskaźniki podobieństwa we wszystkich parach osób badanych. Macierz jest symetryczna (podobieństwo: O[ i O2 jest takie samo jak O2 i Oi!) i dlatego nie została wypełniona poniżej głównej przekątnej. Pozostaje jeszcze pytanie, w jaki sposób obliczyć miarę podobieństwa profilów dwóch osób badanych, która w macierzy oznaczona jest literą G. Użyteczną i i statystycznie poprawną miarę podobieństwa zaproponowali Holley i Guilford 4964: Guliford, Fruchter, 1978). Wskaźnik G — bo o nim mowa — wyraża się wzorem (19.9): (19.9)
a + o-tc + a Test istotności współczynnika G skonstruował Vegelius (1981). Oblicza się podobnie jak współczynnik $ — Youla, na podstawie danych częstościowych wartych w tabeli typu: 2 x 2 postaci:
„1" Osoba k:
..V
„0"
Osoba k':
a c
„0" b d
Pola tej tabeli: a, b, c, d zawierają liczbę skal, na których porównywane osoby wypadły następująco: Me
'ba k: 1 1 0 0
Osoba k 1 0 1 0
Wyniki: (1) — zgodne niezgodne niezgodne (0) — zgodne
\ Osoby badane o profilach takich samych (całkowicie, tj. bądź „1-zgodnych", Mi ,.0-zgodnych") uzyskują wskaźnik podobieństwa G=l,00. Osoby o G< l są ■ różnym stopniu niepodobne. yrykład. Osoba Oj i osoba O2 uzyskały w 10-skalowej baterii samoobserwacyjnej ■stepujące wyniki: (por. rys. 19.4) 561
Skale:
Rys. 19.4. Profile osób badanych 1. i 2. w zestawie zmiennych (skal) dychotomicznych
Skale: I Osoba 1: 1 Osoba 2: 1
II 1 1
ni 0 i
IV 1 0
V 1 0
VI 0 0
VII 0 0
VIII 1 0
IX 1 1
X 1 1
Po podstawieniu danych do tabeli czteropolowej mamy:
+ c + d = 4 + 3+ 1 + 2= 10. Z kolei po podstawieniu danych do wzoru (19.9) mamy: _(4 + 2 ) - ( 3 + l ) _ 6-4 - ~ 4 + 3 + 2+1 10 "°' 2 °-
Gl 2
Widzimy, iż podobieństwo obu osób badanych, z uwagi na konfigurację wyników w 10 skalach dychotomicznych, jest raczej niskie.
3.2. Współczynnik Gr-Vegeliusa — testy trychotomiczne
(,,-i,o,+n Wiele kwestionariuszy osobowości obok odpowiedzi typu „tak" i „nie" dopuszcza jeszcze trzeci typ odpowiedzi: „?", „nie wiem", „nie mam zdania". A zatem osoba badana ma do dyspozycji trzy sposoby zareagowania na każde pytanie. Odpowiedziom przypisujemy następującą punktację: „+1'\ „0", „—1". Inaczej: odpowiedź zgodna z kluczem (kryterium) uzyskuje punktację „+1", odpowiedź niezgodna z kluczem (kryterium) uzyskuje punktację „-1", a odpowiedź neutralna — „0". 562
Chcąc ocenić stopień podobieństwa dwóch osób: k i k' musimy wprowadzić wyniki uzyskane przez nie na skalach szacunkowych (czy punktację odpowiedzi na Mania kwestionariusza) do tabeli wzorowanej na tabeli skonstruowanej przez Holcva i Guilforda do obliczania wskaźnika G: Osoba k': Osoba fc
+1
0
-1
+1
k
i
m
0
D
o
P
-1
q
r
s
Vegelius (1979) zaadaptował współczynnik G do systemu punktacji trychotomicznej (wzór 19.10):
(19.10) Litery: k, m itd. oznaczają liczby skal, na których porównywane osoby badane uzyskały następujące oceny: Pole: k 1 m
Osoba k: +1 +1 +1
Osoba k' +1
n
0
+1
0
0
0 -1
P q
0 -1 i-
s
-1
-1
0 -1
+1 0 -1
Wyniki: (+1) — zgodne niezgodne niezgodne niezgodne (0) — zgodne niezgodne niezgodne niezgodne (-1) — zgodne
Najwyższą zgodność dwóch profilów reprezentuje wskaźnik: Cr=l,00. Rozpatrzmy kolejny przykład.
Rys. 19.5. Profile osób badanych: 1. i 2. w zestawie zmiennych (skal) irychotomicznych
563
Przykład. Rysunek 19.5 pokazuje odpowiedzi dwóch osób badanych: O! i O2 na dziesięć wybranych skal z Mapy Osobowości B. Zawadzkiego (o punktacji: +1, 0, 1) zapisane w postaci profilów. Po podstawieniu danych do tabeli dziewięciopolowej mamy: Osoba k': Osoba k:
Gr(l,2) =
,,+r
„0"
,,+r
3
1
i
„0"
1
2
0
,,-r
0
1
i
3-1-0+1 V3 + 1 + 1 + 0 + 1 + 1 V3 + 1 + 1 + 0 + 0 + 1
35 6 477
'
= 0,463.
W tym przypadku podobieństwo profilów (a tym samym i pacjentów) jest przeciętne.
3.3. Współczynnik TBP- Vegeliusa — dla testów o wynikach wyrażonych na skali dwubiegunowej Psychologom, zwłaszcza zaś psychologom klinicznym znana jest Mapa Osobowości B. Zawadzkiego. Jej charakterystyczną cechą jest konstrukcja składających się na nią skal. Oto jeden przykład: łatwo zniechęcający się -3
-2
wytrwały, uparty
-1
O
+1
+2
+3
Jak widać, skala zawiera punkt neutralny, od którego, na lewo i na prawo, wzrasta natężenie cechy, aby osiągnąć swoje maksimum na krańcach. Jest to więc skala porządkowa o charakterze dwubiegunowym. Aby obliczyć współczynnik podobieństwa dwóch osób badanych, przebadanych zestawem skal dwubiegunowych, musimy wykonać następujące kroki (zilustrujemy je przykładem z rys. 19.6). Przykład: Posłużmy się danymi przedstawionymi na rys. 19.6 Krok 1.: dla pierwszej (Oi) i drugiej (O2) osoby wypisujemy bezwzględne wartości (punkty), jakie otrzymały one na poszczególnych skalach. W naszym przykładzie mamy:
O,: O2: 564
1 1
1
2
1
2
0 2
1 2
1 2
2 1
2 1
2 1
[
Skale: +3 +2 +1 -
l -
t » z
c
\
\
1 —
G *
—>
V *
/
\
r
[ V
\
/ »
-
■
i
1-**
■•
_
2-
osoba 1
_
--2
osoba 2.
Rys. 19.6. Profile osób badanych: 1. i 2. dla wybranych zmiennych (skala) dwubiegunowych-trzypunktowych Mapy Osobowości Zawadzkiego
Krok 2.: rangujemy wartości skalowe dla każdej osoby, począwszy od zera, które otrzymuje rangę „1", Wracając do przykładu mamy: O,: O2:
4 2,5
7
2,5
2,5
2,5
Krok 3.: poszczególnym rangom przypisujemy te znaki (+ lub -), które przysługiwały oryginalnym wartościom skalowym. W miejsce rangi przypisanej wartości skalowej „0" wpisujemy, tak jak to jest w profilu, zero. W przykładzie mamy: O,: O2 :
4 ^ - 4 -2,5 -7 -7
0 4 -7 7
4 - 8 - 8 8 7 2,5 2,5 -2,5
Krok 4.: obliczamy wartość współczynnika rBP wg wzoru (19.11) (Vegelius, 1976, s. 25):
gdzie: j, k — symbol osoby 1. i osoby 2.; r{i — ranga i-tej wartości skalowej dla osoby j; r ik — ranga (-tej wartości dla osoby k; n — liczba skal w zestawie. 565
Współczynnik rBP interpretujemy podobnie jak współczynnik korelacji rangowej, tzn. najwyższą zgodność uporządkowań (w tym samym kierunku) oznacza współczynnik rflP=l,0. Przy całkowitym braku zgodności uporządkowań współczynnik uzyskuje wartość „0".
3.4. Wykorzystanie współczynnika korelacji rangowej (rs-Spearmana lub r^-Kendalla) dla testów wielopunktowych Przykład. Psychologa interesuje podobieństwo dwóch osób: O! i O2 przebadanych za pomocą dyferencjału semantycznego. Może to być — na przykład — dyferencjał, którym posłużyła się Skarżyńska (1976) do oceny postrzegania badacza przez osobę badaną. Dane zapisane w postaci profilów zawiera rys. 19.7. Widzimy na nim dwa profile przechodzące przez punkty skal zakreślone przez osoby badane. Ponieważ skale wchodzące w skład dyferencjału mają naturę porządkową (osoba badana dysponuje siedmioma stopniowalnymi kategoriami do umiejscowienia własnej pozycji na skali), można więc uporządkować skale od tej. na której pozycja badanego oznacza maksymalne natężenie cechy (przez przyporządkowanie jej rangi 1) do tej, na której pozycja badanego oznacza minimalne natężenie cechy (przez przyporządkowanie jej rangi najniższej). Jeżeli: n = liczba skal w zestawie, r, = ranga /-tej skali, to mamy (19.12): suma rang = X r <
= --------
?— '
(19.12)
Zasady rangowania (w tym tworzenie rang wiązanych) podaję w rozdz. 15.. pkt. 10, s. 502. W celu wyliczenia stopnia podobieństwa obu profilów pochodzących od osób O, i O2 można skorzystać ze współczynnika r^Spearmana (albo r^-Kendalla). Wartość tego współczynnika równa +1,00 oznacza najwyższą zgodność profilów (w 566
nieżyczliwa brzydka nieodpowiedzialna wroga nierozsądna nietaktowna nieinteligentna zaniedbana głupia niezgrabna bez ambicji niesympatyczna
Rys. 19.7. Profile osób badanych: 1. i 2. przebadanych za pomocą dyferencjału semantycznego (wg układu Skarżyń.skicj. 19781
j sensie zgodności obu rangowań w tym kierunku). W przypadku dokładnego odwrócenia kierunków rangowania współczynnik rs będzie wynosił -1,00. Wartość 0 oznacza brak jakiegokolwiek podobieństwa uporządkowań. Pomocna w przeprowadzeniu obliczeń wartości r s będzie tabela — por. tab. 19.3. Wzór na r s jest następujący (19.13): n
2
wfw _ W
567
Tabela 19.3. Tabela obliczeniowa do współczynnika podobieństwa profilów (skale porządkowe) rys. 19.7 Wyniki surowe
Osoba 1 I II III IV V VI VII
vm IX X
XI
xn
Osoba 2
Rangi Osoba 1
Osoba 2
Różnica rang di -5,5 -2,5
6 5 5 4 5 4
2 2 3 2 3 2
2 5 5 9 5 9
7,5 7,5 2 7,5 2 7,5
3 3 4
2 2 1 2
11,5 11,5 9 5
7,5 7,5 12 7,5
4 4 -3
3
5 1
2 7,5
3
5 5 7
2
3 1,5 3 1,5
-2,5
do
30,25 6,25 9
2,25 9
2,25 16 16 9
6,25 9
-6,5
4225
0,0
157,50
Źródło: obliczenia własne
3.5. Współczynnik rc-Cohena — dla wyników testowych wyrażonych na skalach standardowych 3.5.1. Wyniki testowe wyrażone na jednolitej skali standardowej Wielowymiarowe kwestionariusze osobowości (np. ACL, MMP1, 16 PF> I) czy skale inteligencji (np. WAIS-R, WISC-R, WPPSI-R) znormalizowane są za pomocą takich skal standardowych, jak np. skala tenowa, stenowa, skala wyników przeliczonych WAIS-R i skala IQ. Skale te są skalami interwałowymi (w sensie klasyfikacji Stevensa). Wynik w kwestionariuszu 16 PF, to profil ukazujący konfigurację natężeń 16 czynników osobowości osoby badanej. Chcąc ocenić stopień podobieństwa osób badanych, możemy skorzystać ze współczynnika {wzór 19.14) zaproponowanego przez Cohena (1988, s. 243):
(19.14)
568
gdzie: n — liczba cech (wymiarów, czynników) występujących w analizowanych profilach; m — punkt środkowy skali, na której wyrażony jest profil; i skali stenc tak: dla skali stenowej m = 5,5 tj. (1 + 10): 2; dla skali tenowej m = 50, tj. skali wyni (0 + 100): 2; dla skali wyników przeliczonych WAIS-R m= 10, tj. (1 + skali wch( 19) :2; Ą — wynik w i-tej skali wchodzącej w skład profilu osoby A; #, w skiad p — wynik w /-tej skali wchodzącej skład profilu osoby B. Punk Punktem wyjścia przeprowadzenia analizy porównawczej jest danych w umieszczenie danych w tabeli sporządzonej wg wzoru tabeli 19.4. przykladz analizowanej w poniższym | przykładzie. i Obok porównań typu: „profil osoby A — profil osoby B" można także Obok przeprowadzać porównania typu: „przeciętny profil grupy diagnostycznej prowadza A — przeciętny profil grupy diagnostycznej 5", czy: „profil osoby A — ć ny profil przeciętny profil grupy stanowiącej dla osoby A układ odniesienia". i stanowiąc* \Przykład. W pracy Nowakowskiej (1970) nad polską adaptacją
Kwestionariusza jbowości 16 PF Cattella zawarta jest uwaga, iż test ten dobrze różnicuje popu-cje: neurotyków i zdrowych. Jeżeli tak jest, to Osobowo przeciętne profile obu grup winno chować niskie podobieństwo. Rys. ś beje: 19.8 przedstawia takie profile, zaczerpnięte z )wanej tu pracy Nowakowskiej. Dane liczbowe zawarte zostały w tab. 19.4. Tabela 19.4. Przeciętne profile grupy „zdrowych" i „neurotyków" w kwestionariuszu 16 PF Cattella
Skale 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Suma:
A 5 5 6 5 4 6 5 6 5 6 5 6 5 6 6 5 86
B 4 5 3 4 4 6 4 7 6 6 5 8 6 5 5 8
A2 25 25 36 25 16 36 25 36 25 36 25 36 25 36 36 25
B2 16 25 9 16 16 36 16 49 36 36 25 64 36 25 25 64
AB 20 25 18 20 16 36 20 42 30 36 25 48 30 30 30 40
Źródło, obliczenia własne
Po podstawieniu danych z tab. 19.4 do wzoru (19.14) uzyskaliśmy następującą 3Ść współczynnika rc:
569
zdrowi
neurotycy
Rys. 19.8. Przeciętne profile „zdrowych" oraz „neurotyków" uzyskane na podstawie badania Kwestionariuszem Osobowości 16 PF Cattella (dane z pracy Nowakowskiej, 1970)
466 + (16)(5,5)2 - (5,5X86 + 86) V[468 + (16)(5,5)2 - (2)(5,5)(86)] [494 + (16)(5,5)2 - (2)(5,5)(86)] = 0,289 . A zatem współczynnik podobieństwa profilów (przeciętnych) grupy osób zdrowych i grupy osób neurotycznych jest — zgodnie z oczekiwaniami — niski.
3.5.2. Wyniki testowe wyrażone na różnych skalach standardowych Zdarza się czasem, iż psycholog posługuje się baterią testów znormalizowanych na różnych skalach standardowych. Na przykład, może on wykorzystać kilka skal z kwestionariusza MMPI (wyniki w 100-punktowej skali tenowej) i kilka skal z testu 16 PF-Cattella (wyniki w 10-punktowej skali stenowej). W takim przypadku profile nie są porównywalne. Chcąc je jednak ze sobą porównać, możemy skorzystać z adaptacji współczynnika rc— Cohena przeprowadzonej przez Vegeliusa (1976, 3132). Jeżeli mamy kilka (kilkanaście) skal o różnej liczbie punktów, to musimy zacząć od tego, że dokonamy transformacji każdego wyniku wyrażonego w „starej" skali na wyniki „nowej" skali wg wzoru (19.15):
(19.15) gdzie: w, — przekształcony i-ty wynik w r-punktowej „starej" skali, r — liczba punktów „starej" skali; C — maksymalny wynik w „nowej", wspólnej dla wszyjstkich testów skali; C/2 — „nowy" punkt środkowy standardowej skali. Najlepiej prześledzić zabieg przekształcenia wyników ze skal o różnej liczbie inktów na kolejnym przykładzie. układ. Niech w baterii 5-testowej znajdują się: — 2 testy o 10-punktowych skalach, — 2 testy o 20-punktowych skalach, — 1 test o 30-punktowej skali. Wyniki osoby A i osoby B są następujące: I
II
ni
iv
3 4 10
6 6 10
12 10 20
1 1 20
Skale: Osoba A: Osoba B:
r.
30
Kolejne kroki analizy danych: Krok 1.: znajdujemy taką liczbę C, która dzieli się bez reszty przez liczby iowiące maksymalne punkty „starych" skal testowych wchodzących do baterii, przez liczbę r dla każdej skali, a także przez liczbę 2r. W naszym przykładzie ny: 571
572
1.9. Profile osób badanych: A i B
łbliczamy najpierw wartości licznika wzoru na rc: X (A; - % {Bt - f ) - (30 - 60)(42 - 60) + (66 - 60)(66 - 60) + ... + 573
Obliczaniu teraz wartości wyrażeń w mianowniku:
i
/
"
p
__________________________________
X (B(— ^r)2 = V(42- 60)2 + ... + (57 -60)2 + (34 - 60)2 = 32,46 ,
Podstawiając powyższe dane do wzoru (19.16) na r c mamy: rc
< A B t " 43,88-32,46 "
'■ Jak
widać, podobieństwo pacjentów A i B jest wysokie. Przedstawione w niniejszym punkcie współczynniki podobieństwa profilowego dla skal reprezentujących różny poziom pomiaru (w sensie klasyfikacji Stevensa) nie wyczerpują, rzecz jasna, całości problematyki. Pokazałem tylko te współczynniki, które dzięki swojej prostocie, mogą być stosowane zarówno przez studenta opracowującego wyniki badań zrealizowanych w ramach pracy magisterskiej, jak i przez psychologa-praktyka prowadzącego niewielkie badania empiryczne o charakterze eksploracyjnym.
4. Podsumowanie W praktyce badawczej, a zwłaszcza diagnostycznej, zwiększa się udział nowoczesnych baterii testowych złożonych z kilku, często nawet kilkunastu, testów. Także znane w całym świecie kwestionariusze osobowości, takie jak A/MP/, 16 PF, ACl czy skale inteligencji, jak WAIS-R, WISC-R, WPPSI czy S-B FE to, tak naprawdę,
baterie składające się z wielu pojedynczych testów. To, co łączy te tak różne przecież narzędzia poznania psychiki człowieka, to postać „wyniku", którym jest profil psychometryczny. Ten zaś wymaga od psychologa —jeżeli chce on spożytkować wszystkie zawarte w nim informacje — zastosowania specjalnych metod analizy, tzw. analizy profilowej. O niej (a, tak naprawdę, o niektórych jej metodach) była mowa w tym rozdziale. Literatura na temat analizy profilowej, dostępna w języku polskim, nie jest bogata. Niemniej warto do niej sięgnąć. Pisząc o porównaniach średnich profilów dla dwóch grup, podałem współczynnik rc-Cohena jako stosunkowo prostą i szybką metodę zanalizowania podobieństwa dwóch przeciętnych profilów. Znacznie bardziej zaawansowane i rekomendowane przeze mnie są metody oparte na statystycznym modelu ANOVA i MANOVA. Umożliwiają one przeprowadzenie porównań k grup (k średnich profi574
lów) pod względem zróżnicowania intergrupowego oraz intragrupowego. Wymagają jednak odwołania się do specjalistycznego oprogramowania komputerowego, np. SPSS PC+. W przypadku, gdy grupy są mało liczne można sobie poradzić dyspoDując dobrym kalkulatorem (metoda oparta na ANOVA). W przystępny sposób metody te opisane zostały — wraz z ilustracją wykorzystującą wyniki Skali Inteligencji Wechslera-Bellevue — w artykule: Brzeziński J., Maruszewski T. Metoda I badania zgodności profilów psychometrycznych. Jeśli zaś chodzi o zagadnienia metodologiczne związane z analizą profilową, to uwagę Czytelnika chciałbym skierować na cztery prace zamieszczone w zredagowanym przeze mnie zbiorze: pt. Problemy teorii, rzetelności, konstrukcji i anam wyników testów psychologicznych: Cronbach L.J., Gleser G.C. Szacowanie podobieństwa profilów; Cronbach L.J. Propozycje analitycznego podejścia do ocen zyskiwanych w percepcji społeczne]; Nunnally J. Analiza danych profilowych; Cohen J. Współczynnik rc jako miara podobieństwa profilów niezmienna względem odwracania zmiennych.
Rozdział 20. Problemy adaptacji
kulturowej testów
1. Wprowadzenie Praktyka badawcza i diagnostyczna psychologii nasycona jest w znacznym stopniu testami psychologicznymi — począwszy od prostych, jednowymiarowych kwestionariuszy osobowości (na przykład Kwestionariusz Aprobaty Społecznej Drwala i Wilczyńskiej), a na złożonych skalach inteligencji (na przykład WAIS-R czy WISC-R Wechslera) czy wielowymiarowych kwestionariuszach osobowości (na przykład 16 PF Cattella czy MMPf) kończąc. Większość znaczących w światowej psychologii i będących w obiegu diagnostycznym testów, to testy „importowane", konstruowane i rozpowszechniane w jednym kraju (kraju o specyficznym języku, systemie szkolnictwa, religii, tradycji kulturowej, systemie politycznym itp.) a stosowane w innym kraju (o odmiennej kulturze, języku itp.). Mówiąc krótko chcę zwrócić uwagę na fakt, że: test psychologiczny nie może być interpretowany poza kontekstem kulturowym, dla którego (w którym) został skonstruowany. To banalne i oczywiste na pierwszy rzut oka stwierdzenie jest jednak niebanalne w swoich konsekwencjach dla potencjalnych użytkowników wywodzących się spoza owej kultury. W niniejszym rozdziale poddam analizie wspomniane konsekwencje posłużenia się testem psychologicznym, rodowodem z jednego kontekstu kulturowego, przez użytkownika z innego kontekstu kulturowego.
2. Czy testy psychologiczne powstałe w warunkach innej kultury powinny być poddane adaptacji kulturowej? Jak Czytelnik zapewne się domyśla, odpowiedź na to pytanie brzmi — „tak, ale...". Otóż warto poddawać adaptacji kulturowej (a jest to procedura bardzo żmudna i trudna) tylko takie testy, których albo nie warto dublować ich polskimi odpowied576
! nikami, gdyż prościej będzie je właśnie zaadaptować (np. testy niewerbalne, jak Test Matryc Ravena), albo testy o uznanej już pozycji w piśmiennictwie światowym (jak np. Skala Inteligencji WAIS-R Wechslera) — wówczas jesteśmy zainteresowani przeprowadzaniem porównań interkulturowych oraz korzystaniem z wyników zebranych już za pomocą danego testu przez innych badaczy, w innych krajach
2.1. Dystynkcja: emic - etic Przystępując do adaptacji jakiegoś testu zagranicznego musimy odpowiedzieć wpierw na pytanie dotyczące różnic kontekstów kulturowych — kontekstu kultury, w której test oryginalny został stworzony i w której spełnia określone zadania diagnostyczne i badawcze oraz kontekstu kultury, w której będzie, niejako na nowo, konstruowany (adaptowany) i w której będzie spełniał jakieś zadania (niekoniecznie te same). Mówiąc o możliwych porównaniach kultur musimy brać pod uwagę następujące zestawienia (Ciechanowicz, 1990a, s. 12): (a) jedna kultura współczesna versus druga kultura współczesna, ale ukształ towana w innym miejscu geograficznym. Przykładowo, Test „Wiadomości" WA1S■R dla populacji kanadyjskiej musiał być częściowo zmieniony mimo bliskości geograficznej i społecznej obu krajów. Rzecz jasna wymagał bardzo daleko idących zmian w adaptacji chińskiej (por. Brzeziński, 1993b); (b) jedna kultura współczesna versus druga kultura, ukształtowana w tym sa mym miejscu tyle, że wcześniej. Porównania mogą dotyczyć odmienności recepcji treści pozycji testu związanych z różnicami pokoleniowymi, albo też różnic stylu życia kształtowanego przez kulturę „wniesioną w posagu" przez ludność napływo wą. Przykładowo, niektóre pozycje testu „Wiadomości" W-B z 1939 r. miały inny wskaźnik trudności w ówczesnej próbie normalizacyjnej, aniżeli w próbie normali zacyjnej WAIS z 1955 r. czy WAIS-R z 1981 r. (Brzeziński, 1993b — por. tab. 2., , s. 145, w której podane zostały wskaźniki trudności dla poszczególnych pozycji testu „Wiadomości" w WAIS i WAIS-R). Inne pozycje trzeba było usunąć, gdyż nie były reprezentatywne dla współczesnego zasobu wiedzy Amerykanów. Przykładem odmienności kulturowego zaplecza osób współegzystujących na tym samym terenie może być Śląsk Opolski, który zamieszkuje ludność rdzenna oraz ludność napływowa z dawnych kresów II Rzeczpospolitej; (c) jedna kultura współczesna versus druga kultura wcześniejsza ukształtowana w innym geograficznie miejscu. Adaptacja kulturowa testów wiąże się z przeprowadzeniem albo porównań | typu (a), albo porównań typu (b). Szukanie tego co w różnych kulturach wspólne i tego co odmienne znalazło odzwierciedlenie w rozpowszechnionym w kręgach badaczy zajmujących się badaniami międzykulturowymi (także psychologią międzykulturową czy „cross-kulturo577
wą") wprowadzeniu dystynkcji: emic — etic. Etnie określa to co specyficzne dla porównywanych kultur, etic — to co wspólne (Berry i in., 1992, s. 232; Ciechanowicz, 1985, 12; Drwal, 1995, s. 22)1. Bardzo trudno skonstruować kwestionariusz osobowości, którym będziemy chcieli posłużyć się nie tylko w warunkach jednej kultury, ale za pomocą którego będziemy także chcieli dokonywać porównań międzykulturowych. Za Brishlinem (1976), Ciechanowicz (1990a, s. 13-14) zwraca uwagę na groźne następstwa niefrasobliwego nieuwzględniania odmienności porównywanych kultur podczas stosowania badań testowych. Otóż bywa tak (i to wcale nierzadko), że badacz stosuje test opracowany psychometrycznie w warunkach kultury B do przeprowadzenia określonych pomiarów w innej kulturze A. Co gorsza niekiedy próbuje formułować na podstawie tak przeprowadzonego badania pewne wnioski odnośnie kultury A (normy opracowane były w kulturze B!). Ktoś może powiedzieć, że dziś już tak się nie postępuje. Niestety jeszcze tak się postępuje. W powszechnym bowiem użyciu (a piszę ten tekst w 1996 roku) w poradniach i szpitalach występuje polska pseudoadaptacja Skali Inteligencji Wechsler-Bellevue (W-B I) z 1939 roku. To, że jest to wersja już bardzo przestarzała, to jeden problem — problem trafności treściowej (zwłaszcza testów ze Skali Słownej). Znacznie poważniejszym problemem jest to, że psychologowie (z dyplomami uniwersyteckimi!) posługują się normami typowymi dla społeczeństwa amerykańskiego lat trzydziestych. Opierając się na tych normach wydają orzeczenia dla różnych instytucji — także dla sądu. Jeszcze do niedawna, przed wprowadzeniem polskiej adaptacji Skali Inteligencji WISC-R (autorstwa Matczak, Piotrowskiej i Ciarkowskiej, 1991) posługiwano się, analogicznie jak w przypadku W-B /, amerykańskimi normami z 1949 r. do Skali Inteligencji WISC (por. Kostrzewski, 1970). Posługiwanie się amerykańskimi normami do kwestionariusza WISKAD (polska wersja MMPI) zaleca Płużek (1971 — na nieodpowiedniość takiego postępowania zwraca uwagę Drwal, 1995, s. 21). Jak tedy postępować, gdy planujemy wykorzystanie naszej adaptacji testu X do porównań międzykulturowych? Sądzę, że odpowiednia jest propozycja zgłoszona przez Drwala (1985, s. 22): „W badaniach międzykulturowych zwykle pragniemy wykazać istnienie pewnych uniwersalnych elementów różnych kultur (aspekty «etikalne», eties) i elementów specyficznych dla każdej kultury (aspekty «emikalne», emies, por. Berry, 1969, 1980; Brishlin, 1976). Zbyt daleko posunięte starania o uzyskanie pełnej równoważności mogą doprowadzić do eliminacji wariancji zależnej od kultury i — paradoksalnie — do nieprzydatności testu do badań międzykulturowych. Optymalnym rozwiązaniem jest zbudowanie testu, który (dla dwóch kultur) będzie składał się z trzech typów zadań: emikalnych dla kultury A, emikalnych dla kultury B, etikalnych dla obu kultur". Dystynkcja emic — etic wprowadzona została po raz pierwszy —jak podają Berry i in. (1992, s. 232) — w 1967 r. przez Pike'a, który wzorował się na przyjętym na gruncie lingwistyki rozróżnieniu: fonemiki (zajmującej sie analizą cech charakterystycznych, specyficznych dla danego języka) i fonetyki (zajmującej się analizą cech wspólnych, niespecyficznych dla danego języka; ang. phonemies — phoneties).
578
2.2. Czy możliwe jest skonstruowanie testu neutralnego kulturowo — problem testów: culture-free, culturefair oraz culture-reduced Psychologowie chcąc się uniezależnić od wpływów kulturowych na: (a) treść pozycji testowych (kontekst kultury X, w której test został skonstruo wany), (b) ich odczytanie przez osoby badane (kontekst kultury Y, w której test jest [stosowany), (c) interpretację uzyskanych wyników (kontekst kultury X lub Y w zależności od tego, kto dokonuje tej interpretacji), (d) rezultaty przeprowadzonych porównań międzykulturowych (te zaś mogą być prowadzone albo z „pozycji" kultury autora oryginalnego testu, albo z „pozytji" kultury stosowania przekładu testu), postanowili stworzyć takie testy, które byłyby jednakowo odbierane i przez osoby je stosujące, i przez osoby poddane I badaniom. Mówiąc inaczej, postanowili stworzyć testy, które nie wymagałyby żadnych I założeń dotyczących kontekstu kulturowego i które można by swobodnie stosować I zarówno wobec osób zamieszkujących kraj A, jak i wobec osób z kraju B (mimo Idzielących je różnic geograficznych, ustrojowych, językowych, religijnych itp. — Inp. USA-Australia, USA-Połska, USA-Chiny — żeby wskazać na różne wersje Itestu „Wiadomości" WAIS-R stosowane w tych krajach; por. Brzeziński, 1993b), I wobec osób mieszkających na wsi i w mieście (autorzy chińskiej adaptacji WAIS-R j musieli sporządzić odrębne normy dla populacji miejskiej i dla populacji wiejskiej I— por. Brzeziński 1993b, s. 154), wobec osób odmiennej płci, osób o różnej przynależności etnicznej (bardzo „gorący" w USA problem testowania Murzynów Iza pomocą tradycyjnych, „wymyślonych przez Białych", testów inteligencji — por. JHemstein, Murray, 1994; Jensen, 1980; D. Seligman, 1995; Hornowska, 1995). Bodajże pierwszym psychologiem, który pokusił się o stworzenie takiego wolIsego od wpływów kulturowych testu był Cattell. On to w 1940 roku użył sformuI kiwania „test wolny od uwarunkowań kulturowych" (ang. culture-free intelligence I to/) (por. Kostrzewski, 1985, s. 49). Od 1971 roku Cattell posługuje się określęIniami culture-fair test oraz culture-reduced test: „test inteligencji fair pod wzglęIdcm kulturowym (culture-fair), lub wolny od uwarunkowań kulturowych (culture-\free), lub też o ograniczonym uwarunkowaniu kulturowym (culture-reduced) jest 1 to taki test, który bazuje na materiale i uwzględnia nawyki wspólne wszystkim Ikulturom, i który stara się zminimalizować wpływ specjalnych, kulturowo uwarunkowanych sprawności w ujmowaniu złożonych relacji. Nie wymaga eliminacji różImc rasowych i klasowych, jeśli takie różnice istnieją realnie" (Cattell, 1971, s. 513 I-cyt. za: Kostrzewski, 1985, s. 50). Mówiąc inaczej, w nawiązaniu do treści I poprzedniego punktu, testy o ograniczonym uwarunkowaniu kulturowym, to testy, Ihóre stworzone zostały w konwencji „etikalnej". Cattell (a także Jensen, 1980, jiozdz. 14.: Culture-reduced tests and techniques, s. 635-714) jest przekonany, że 579
posługiwanie się takimi testami, jak testy wchodzące w skład trzech Cattellowskich serii CFI (ang. Culture Fair łntelligence tests) testów typu „papier i ołówek", stosowanych z ograniczeniem czasowym (testy szybkości) wobec osób w różnym wieku (skala 1.: 4-8 lat; skala 2.: 8-13 lat; skala 3.: powyżej 8 lat), testy labiryntów opracowane przez Porteusa (ang. Porteus Maże Test), test Rysunku Postaci Ludzkiej Goodenough-Harrisa (por. Homowska, Paluchowski, 1987) czy Test Matryc Ravena znoszą kulturowe blokady w stosowaniu testów psychologicznych (w szczególności testów inteligencji) wobec osób wychowanych i żyjących w odmiennych warunkach kulturowych. Czy możliwe jest jednak pełne zrealizowanie pomysłu Cattella? Nie sądzę, aby to było możliwe. Nawet gdy ograniczymy się tylko do badania inteligencji za pomocą testów bezsłownych (takich jak wyżej wymienione, czy wchodzące do Skali Bezsłownej WAIS-R i WISC-R), to i tak wnikliwa analiza poszczególnych pozycji testów wydobywa ukryte odniesienia do określonych doświadczeń kulturowych; np. dzieci poddane badaniom inteligencji za pomocą takich testów jak „Klocki" i „Układanki" WISC-R czy Test Matryc Ravena, wersja Kolorowa, które od dzieciństwa bawią się zabawkami typu klocki Lego czy układankami typy puzzle, będą w lepszej sytuacji „startowej" od dzieci, które takich zabawek nie znały. Myślę, że testy culture-reduced są pewną idealizacją i jako takie nie uwolnią badaczy od bardzo realnego problemu emic-etic w badaniu testowym osób z jednej kultury prowadzonym za pomocą testu wywodzącego się z innej kultury. Podzielam tedy krytyczną opinię o testach neutralnych kulturowo, którą wypowiedzieli Kostrzewski (1985, s. 55): "każde dziecko ludzkie przychodzi na świat w określonym miejscu danego kraju, który należy do określonego kręgu kulturowego, charakteryzuje się określonym poziomem rozwoju kultury materialnej i duchowej. Rodzice dziecka (a w razie ich braku — rodzice zastępczy lub wychowawcy) opanowali określony język, przyjęli określone wzorce zachowań, normy społeczno-moralne oraz zdobyli określony poziom wykształcenia. Celem wychowania i nauczania jest przekazywanie dorobku kulturowego. Żaden test — ze swej istoty — nie może więc być wolny od uwarunkowań kulturowych, bowiem żadna osoba nie działa w próżni kulturowej (...) testy inteligencji nie są nimi w pewien abstrakcyjny, wolny od uwarunkowań kulturowych sposób. Mierzą one zdolność funkcjonowania intelektualnego jednostki przy pomocy wiedzy i umiejętności nabytych w tej kulturze, z której pochodzą" oraz Matczak (1994, s. 25-26): „neutralności kulturowej testów Cattella i Ravena, czy ewentualnych ich przyszłych modyfikacji, nie da się obronić chociażby w świetle faktu, że analogiczne do cattellowskich i ravenowskich zadania od dłuższego już czasu coraz częściej pojawiają się na łamach czasopism w działach «rozrywek umysłowych», a nawet są odrębnie publikowane (...); oczywiste jest, że uprzedni kontakt potencjalnych badanych z tego rodzaju wydawnictwami jest w znacznym stopniu warunkowany kulturowo. Wreszcie, pomijając nawet sprawę znaności-nowości materiału zadań j wymaganych operacji, nie sposób nie przyznać, że na wyniki testu wpływa stopień obeznania rozwiązującego je z typem sytuacji, jaką tworzy samo «bycie osobą badaną» — stopień, w jakim zna on sytuacje testowe, czy — szerzej: egzaminacyjne, z wcześniejszych 580
doświadczeń. Nikogo nie trzeba przekonywać, że zależy to od poziomu rozwoju psychologii w kraju, z którego się pochodzi, od roli przypisywanej potrzebie osiągnięć intelektualnych w kręgu kulturowym, do którego się przynależy, itd. Tak więc, idea neutralności kulturowej wydaje się utopią; niemożliwe jest skonstruowanie testu w zupełności pozbawionego specyfiki kulturowej (podkr. — JB). Uważam też, że testy culture-reduced obciążone są wpływami kulturowymi, którym podlegał ich autor i że faworyzują one osoby badane pochodzące z tej samej co ich autor kultury. W przypadku testów z serii CFI jest to kultura amerykańska.
2.3. Znaczenie back translation Przygotowując polskie wersje takich testów „słownych", jak kwestionariusze osobowości, skale postaw i opinii, skale wartości powinno się — co od kilkunastu już lat stało się standardem postępowania translatorskiego w takich przypadkach (por. Hulin i in., 1983, s. 190; Drwal, 1985, s. 17; Costa, McCrae2) — dokonywać nie tylko tłumaczenia z języka oryginału na język polski (co jest rzecz jasna oczywiste), ale także tłumaczenia, retranslacji, polskiej wersji testu na język oryginału {back translation). Dopełnieniem tej procedury jest przeprowadzenie badań porównawczych dokonywanych za pomocą obu wersji językowych — wersji w języku X oraz wersji w języku polskim. Owe badania powinny być przeprowadzone na osobach, których językami ojczystymi są dwa języki, np. angielski i polski, na osobach które wychowywały się w obu środowiskach językowych, np. dzieci małżeństw mieszanych (o takich osobach mówimy, że są bilingwalne (ang. bilingual subjects). Ponieważ nie tak łatwo skompletować próbę złożoną z takich osób, więc badacze często prowadzą badania na studentach filologii obcych. Jest to jednak tylko rozwiązanie połowiczne, gdyż władanie, nawet biegłe, danym językiem obcym nie jest równoznaczne z przejęciem nawyków kulturowych oraz określonym odbiorem subtelnych znaczeń kulturowych właściwych dla osób, które całe lata spędziły w danym kraju, i Można też prowadzić badania na osobach, które już jako dorosłe przyjechały do danego kraju i zdążyły się w nim zadomowić (np. przez małżeństwa z obcokrajowcami). Przygotowanie retranslacji wcale nie jest łatwe. W dużej mierze związane jest z poziomem kwalifikacji zawodowych osób jej dokonujących. Oczywiście można Dzięki uprzejmości p. prof. J. Siuty (Inst. Psychol. UJ) mogłem zapoznać się z wymaganiami jiie stawiają wymienieni autorzy tym, którzy chcą dokonać adaptacji ich kwestionariuszy osobowości dotyczących pomiaru tzw. Wielkiej Piątki (ang. Big Five) — NEO-PI-R ((kwestionariusz zawierający 140 pozycji) oraz NEO-FFI (kwestionariusz zawierający 60 pozycji) (por. Costa i por. Costa P McCrae, 1992) — ■or. Costa P.T., McCrae R.R. (1995), Information for potential mmalily lnvt translators of the Revised NEO Per-f Inventory and NEO Five-Factor Inventory ■oprowadź (maszynopis). Podstawowe wymaganie dotyczy wadzenia retranslacji {back translation) z Lfci tego tł j. polskiego na j. angielski i skrupulatnej oceny ja-tego tłumaczenia (także przez autorów oryginalnego testu!).
581
powierzyć tłumaczenie testu tłumaczowi o najwyższych kwalifikacjach. Jednakże i takie tłumaczenie wykonane przez profesjonalnego tłumacza nie będzie wolne od odstępstw od języka oryginału związanych z wieloznacznością tłumaczonych słów i zwrotów. Dlatego też, najczęściej, ani tłumaczeń z języka oryginału, ani retranslacji nie powierza się jednej osobie, ale zamawia się niezależne tłumaczenia u kilku tłumaczy równocześnie. Wybór ostatecznej wersji tłumaczenia powierza się ekspertom, o statusie sędziów kompetentnych, którzy dokonują wnikliwej analizy poszczególnych wersji tłumaczenia danej pozycji kwestionariusza i wybierają tę, którą uważają za najbardziej odpowiednią. Drwal (1995, s. 17) podaje przykład bliskoznacznych zwrotów, które tłumaczom mogą stwarzać problemy: ,^nyślę, że...", „uważam, że...", „czuję, że...", „w mojej opinii...", „boję się..." niepokoję się..", yjnartwię się..". Cytowani już Costa i McCrae wymagają dostarczenia sobie wykonanej retranslacji, którą po opatrzeniu uwagami odsyłają do poprawienia psychologowi występującemu o prawa do przeprowadzenia adaptacji ich kwestionariusza. Wymiana wersji trwa tak długo, aż uznają oni kolejną wersję za spełniającą kryteria dobrego tłumaczenia. Ułatwieniem w przygotowaniu dobrej wersji testu w nowym języku (tu: języku polskim) jest przeprowadzenie analizy porównawczej wszystkich dostępnych wersji językowych danego testu. Jeżeli jest to test tak popularny jak np. MMPI, to tych wersji językowych wcale nie jest mało. Takie postępowanie zalecane jest przez Drwala, który sam dokonał analizy wersji francuskiej i angielskiej Skali Irytacji oraz Skali Wrażliwości Emocjonalnej Caprary (w języku włoskim). W tym celu posłużył się on trzema dwujęzycznymi tłumaczami (z języków: włoskiego, francuskiego i angielskiego). Następnie korektę i wybór ostatecznej polskiej wersji poszczególnych pozycji kwestionariusza powierzono dwom zespołom sędziów kompetentnych. Cała procedura jest szczegółowo opisana w pracy Drwala (1995, cz. II, rozdz. 7.) i do niej odsyłam Czytelnika, który chciałby postąpić (co zalecam!) podobnie w pracy nad adaptacją jakiegoś nie znanego jeszcze w Polsce kwestionariusza osobowości. Procedura porównywania tłumaczeń z różnych języków, na które dokonany został przekład określonego testu, na język polski „Stwarza dobrą okazję do dokonania pewnej decentracji polskiej adaptacji i sprzyja wierniejszemu tłumaczeniu. Można bowiem założyć, że to, co okaże się wspólne w niezależnych tłumaczeniach różnojęzycznych wersji tego samego pytania, najlepiej oddaje jego intencje i podstawową treść. Łatwo też wykryje się ewentualne pomyłki tłumaczy. Podobne porównywanie wielu dostępnych tłumaczeń nieraz doprowadziło do rozszyfrowania prawdziwego znaczenia oryginalnego tekstu w badaniach biblistów i historyków. Wydaje się to bardzo obiecujące w badaniach międzykulturowych, przezwycięża bowiem niektóre ograniczenia back translation i tłumaczenia zbiorowego. Stwarza szansę na to, że uzyskana wersja .polska będzie w tym samym stopniu podobna do wszystkich wykorzystanych wersji zagranicznych, nie tylko do tej, z której dokonano by jednego tłumaczenia" (Drwal, 1995, s. 17-18). Po przeprowadzeniu back translation należy sprawdzić, czy pozycje obu wersji językowych w równym stopniu wysoko korelują z ogólnym wynikiem całego testu oraz czy obie wersje językowe testu wysoko korelują ze sobą. Costa i McCrae 582
wymagają, aby takie badanie „wstępne" retranslacji przeprowadzić na próbie 100 osób, a każdą pozycję ich kwestionariusza, która nie koreluje istotnie z wynikiem ogólnym poddać szczegółowej analizie i, być może, powtórnemu tłumaczeniu. W przypadku badania osób bilingwalnych, przeprowadzonego za pomocą obu wersji językowych testu, należy wykazać jak najwyższy stopień korelacji ich wyników. Zbyt niski poziom korelacji stanowi dla psychologa sygnał, że tłumaczenie testu nie zostało wykonane dostatecznie dobrze, że zawiera ono kulturowe dwuznaczności, których back translation nie zniosło. Problemy warsztatowe związane z tłumaczeniem zagranicznych kwestionariuszy osobowości wnikliwie analizuje Pawłowska (1983).
2.4. Transkrypcja — translacja — trawestacja — parafraza — rekonstrukcja Przygotowanie polskiej wersji jakiegoś testu może doprowadzić do powstania narzędzia, które w większym lub mniejszym stopniu będzie odbiegało od testu oryginalnego. Drwal próbował — i jak sądzę z powodzeniem — uporządkować i dookreślić możliwe wersje testu oryginalnego, jakie psycholog może opracować w efekcie podjętych czynności adaptacyjnych. Oto propozycje Drwala (1995, s. 15-20). Najbliżej testu oryginalnego jest transkrypcja, którą cechuje maksymalna wierność tłumaczenia i formy (materiał, grafika, itp.), co może później sprawiać niemałe kłopoty badaczowi, który zechce ją wreszcie zastosować w konkretnym badaniu. Duże obciążenie czynnikiem kulturowym adaptowanego testu może sprawić, iż niektóre sformułowania pozycji testowych będą albo niezrozumiałe dla osoby badanej, albo będą interpretowane niezgodnie z intencją twórcy testu i wzorcem odpowiedzi populacji, z której pobierana była próba standaryzacyjna i normalizacyjna. Im bardziej test oryginalny jest emikalny, tym mniejsza przydatność diagnostyczna jego transkrypcji dla nowych warunków stosowania. Nie należy też oczekiwać, iż transkrypcja osiągnie wysoką rzetelność i trafność (tamże, s. 15). Odejście od rygoryzmu jeśli chodzi o zachowanie wierności testowi oryginalnemu cechuje translację. Dopuszczalne odstępstwa dotyczą wprowadzenia w miejsce nieprzetłumaczalnych czy trudno przetłumaczalnych sformułowań oryginału polskich równoważników językowych. Nie będzie tedy translacja wiernym przekładem testu oryginalnego. Jeszcze większe odejście od oryginału, swobodniejsze podejście do języka sformułowań oryginalnych pozycji testu cechuje trawestacja. W tym przypadku dopuszcza się — jak pisze Drwal — tak dalece idącą modyfikację językową wyjściowej wersji danej pozycji testu (np. pytania kwestionariusza osobowości), aż uzyska się zadowalające jej parametry psychometryczne; będzie tedy szło o uzy-| skanie nie tyle równoważności fasadowej i wierności tłumaczenia danej pozycji testu, ile o uzyskanie jej równoważności psychometrycznej (piszę o tych formach równoważności w następnym punkcie). 583
Stosunkowo najwięcej w Polsce mamy parafraz albo jednego testu zagranicznego, albo kilku testów. Parafraza jest —jak pisze Drwal (tamże, s. 16) — „opracowaniem nowego testu, nawiązującego do koncepcji teoretycznej i pewnych rozwiązań z wzoru zagranicznego". Taką parafrazą jest Kwestionariusz Poczucia Winy KPW Kofty, Brzezińskiego i Ignaczaka (1977). Rozpowszechniony w Polsce kwestionariusz Delta do pomiaru poczucia kontroli jest wykonaną przez Drwala (1978, 1981) parafrazą oryginalnego narzędzia opracowanego przez Rottera (1966). Rekonstrukcja, ostatnia z omawianych przez Drwala form adaptacji testu, polega na zbudowaniu, od początku, nowego testu jedynie wzorowanego na danym teście zagranicznym. Odwzorowanie dotyczy tu kolejnych kroków, które wykonał twórca testu oryginalnego oraz zastosowanych przez niego procedur psychometrycznych. Taką typową rekonstrukcją jest zbudowanie przez Hornowską (1993a, s.170-172, 178-180) polskiej adaptacji testu „Słownik" WAIS-R nie przez tłumaczenie oryginalnej listy słów i ewentualne stosowanie równoważników kulturowych, ale przez odwzorowanie procedury losowania słów ze słownika języka polskiego, który odpowiadał stopniem reprezentatywności zawartych w nim słów, słownikowi użytemu przez Wechslera. W przypadku testu oryginalnego był to słownik Fun and Wagnafs Standard (school) Dicńonaries. W przypadku polskiej adaptacji był to trzytomowy Słownik języka polskiego pod redakcja M. Szymczaka, wydany w 1978 r. Procedura losowania haseł z obu słowników była identyczna.
3. Sprawdzanie równoważności testów (wg R. Ł. Drwala) Moim zdaniem, najbardziej kompletne zestawienie kryteriów równoważności (różnie pojmowanej) testu i jego adaptacji (na przykładzie kwestionariusza osobowości) zostało sporządzone przez Drwala (1995, s. 20). Przytaczam je tu in extenso (por. tab. 20.1). Pierwsze kryterium — może najmniej istotne — związane jest z wyglądem testu, z jego równoważnością fasadową. W przypadku pełnej (idealnej) równoważności fasadowej adaptowany test powinien w jak najmniejszym stopniu różnić się (nie różnić się) od testu oryginalnego. Taką pełną równoważność fasadową ma np. Test Matryc Wersja Standard Ravena, opracowany dla polskiego użytkownika przez Jaworowską i Szustrową (1990). W przypadku testów „słownych" o taką pełną równoważność fasadową znacznie trudniej, chociaż jest to wykonalne w przypadku mniej skomplikowanych kwestionariuszy osobowości. Jeśli zaś chodzi o złożone testy inteligencji typu skal wechslerowskich, to pełnej równoważności fasadowej nie udało się uzyskać (np. w przypadku adaptacji WAIS-R). Z punkt widzenia kryteriów „dobroci" testu ważne jest respektowanie równoważności psychometrycznej adaptowanego testu względem testu oryginalnego, chociaż, gdy możliwe jest poprawienie parametrów psychometrycznych adaptowanego testu można wprowadzić nowocześniejsze rozwiązania techniczne. Na przykład 584
Tabela 20.1. Kryteria równoważności kwestionariuszy (wg R.Ł. Drwala) Równoważność fasadowa — forma graficzna testu (pytania, arkusz odpowiedzi) — liczba i kolejność pytań — format pytań (twierdzenia, pytania, pary z wymuszonym wyborem) — liczba i sformułowanie kategorii odpowiedzi — instrukcja i przykłady — obliczanie wyników (klucze, wzory, poprawki) _______ Równoważność psychometryczna — równość średnich wyników (pytań, skali) — równość wariancji (pytań, skali) — kształt psychometrycznej funkcji pytań — korelacja między wersjami — korelacja wersji z innymi testami i kryteriami — interkorelacja pytań (skal) i ich struktura czynnikowa — moc dyskryminacyjna pytań ___ — rzetelność (stabilność, zgodność wewnętrzna itd.) _____ Równoważność funkcjonalna — test mierzy tę samą zmienną — test przydatny do tych samych celów — test podatny (odporny) na działanie podobnych czynników zakłócających (aprobata _______ społeczna, symulacja, potakiwanie) _____________________________________ Wierność tłumaczenia — treść pytań — stopień aprobaty społecznej opisywanych stanów i zachowań — struktura gramatyczna pytań — podobieństwo leksykalne pytań — stopień trudności słów i zdań (długość, konkretność, metaforyczność itd.) _________ Wierność rekonstrukcji — powtórzenie etapów konstrukcji testu (pierwotna pula pytań, sposoby selekcji pytań) — sposoby sprawdzania rzetelności i trafności — podobieństwo grup standaryzacyjnych i normalizacyjnych — procedura badań (anonimowe, zbiorowe, selekcyjne) rodzaj norm __ — rodzaj norm ________________________________________________________ x Drwal (1995, s. 20)
lożna posłużyć się konfirmacyjną analizą czynnikową w miejsce rozwiązań mniej :cyzyjnych, które były stosowane w czasach tworzenia testu oryginalnego. Przyładowo, WAIS był opracowywany w początkowych latach pięćdziesiątych i publikowany w 1955 r., a WAIS-R został opublikowany w roku 1981; dopiero lata siemdziesiąte przyniosły nowe rozwiązania statystyczne i aplikacje psychometrykonfirmacyjnej analizy czynnikowej — m. in. model LISREL Jóreskoga i Jórboma (w ramach którego można przeprowadzić konfirmacyjną analizę czynni)wą WAIS-R), którego kolejne wersje były publikowane właśnie w latach osiemriesiątych (wersja LISREL 7 i 8 w 1989; por. Jóreskog, Sórbom, 1989, 1995).
585
Można też, odstępując od ideału pełnej równoważności psychometrycznej, ale uzyskując w zamian lepszy wgląd we właściwości psychometryczne pozycji testu, odwołać się do modelu łtem Response Theory (por. Hullin i in., 1983) czy modelu Mokkena (por. Mokken, 1971; także: Machowski, 1993 — tak postąpiono w przypadku polskiej adaptacji WA1S-R) w procesie analizy pozycji przygotowywanej polskiej wersji testu oryginalnego. Z równoważnością psychometryczną związana jest wierność rekonstrukcji. Dobrą ilustracją dochowania tej ostatniej jest wyżej opisane postępowanie Hornowskiej (1993a), która przeprowadziła adapatcję testu, „Słownik" WAIS-R, powtarzając oryginalne etapy jego tworzenia przez Wechslera, a nie dokonując wiernego tłumaczenia poszczególnych pozycji testu (czyli nie dochowując wierności tłumaczenia). Uważani, że każdy psycholog, zanim przystąpi do prac adaptacyjnych powinien dokładnie przestudiować „scenariusz" postępowania autora oryginalnego testu i starać się powtórzyć go podczas tworzenia polskiej adaptacji. Wierność tłumaczenia ma szczególnie duże znaczenie w przygotowywaniu adaptacji testów „słownych", a więc kwestionariuszy osobowości i skal postaw. Pracując nad tłumaczeniem testu oryginalnego psycholog będzie zmuszony „lawirować" między transkrypcją, translacją, a nawet trawestacją (być może najczęściej). Im bardziej oryginalny test jest nasycony czynnikiem emikalnym tym trudniej będzie o translację (o transkrypcji nawet nie warto wspomnieć w takim przypadku), a łatwiej będzie tworzyć trawestację. Oczywiście dobra adaptacja powinna dochowywać ostatniego z omawianych tu kryteriów równoważności testu adaptowanego z testem oryginalnym, a mianowicie — równoważności funkcjonalnej. Test stanowiący adaptację testu oryginalnego musi mierzyć tę samą zmienną (układ zmiennych), a zatem powinna go cechować, tak samo badana, trafność teoretyczna (w sensie Cronbacha i Meehla). Powinna go też cechować podobna użyteczność praktyczna. Jeżeli oryginalny test pozwala dobrze różnicować normę i określoną postać patologii, to i jego adaptacja powinna się cechować tą samą właściwością.
4. Konteksty adaptacji kulturowej testów Oceniając dany test psychologiczny (czy to oryginalny, czy stanowiący adaptację kulturową innego testu) powinniśmy brać pod uwagę następujące konteksty: 1. Kontekst teorii psychologicznej. Test nabudowany jest na jakiejś teorii psychologicznej, stanowi jej operacjonaltzację (por. rozdz. 7.). Nawet najlepiej, w sensie technicznego spełnienia wymogów psychometrycznych, skonstruowany test nie będzie wiele wart, jeżeli leżąca u jego podstaw teoria nie będzie odpowiadała metodologicznym kryteriom dobrej teorii. Przykładem negatywnego spełnienia powyższego kryterium może być tzw. test Szondiego. Jest on tyle wart, co „teoria" opracowana przez Szondiego, tzn. niewiele. 586
2. Kontekst psychometryczny. Test zbudowany jest w określonej konwencji psychometrycznej. Godząc się na pewien model formalny teorii testów, musimy tak pokierować konstrukcją testu, aby nie tylko nie były pogwałcone podstawowe założenia określonej teorii testów, ale aby równocześnie zmaksymalizować „do broć" testu w ramach założonego modelu. 3. Kontekst celu. Test opracowany jest z myślą o określonym użytkowniku. Jest on na ogól pomyślany jako zaspokajający określone zapotrzebowanie społeczne i stosowany w celu rozwiązania określonego problemu badawczego czy diagnosty cznego. Z tego też punktu widzenia analizowane będą jego charakterystyki psychometryczne. Jeżeli wykorzystujemy test do innego, niż założony przez konstruktora, celu, musimy zdawać sobie sprawę z możliwości popełnienia większych czy mniej szych nadużyć interpretacyjnych. 4. Kontekst doświadczenia kulturowego osoby badanej. Test będzie stosowany wobec osób, które posługują się określonym językiem, które obowiązuje określony system szkolnictwa, którym — mówiąc krótko — nieobce są określone doświad czenia kulturowe. 5. Kontekst świadomości społecznej. Test będzie stosowany w określonym społeczeństwie, które dysponuje jakąś wiedzą na temat testowania psychologiczne go, jego zalet i wad, możliwych nadużyć. Jest to po części wiedza rzetelna (dużą rolę w jej kształtowaniu i upowszechnianiu spełniają sami psychologowie), a po części obejmująca informacje nierzetelne, nie sprawdzone, prawdy obiegowe. Test może wyzwalać określone skojarzenia, nawiązywać do określonych stereotypów. Społeczeństwo może też aktywnie przeciwstawiać się stosowaniu testów psycholo gicznych w praktyce społecznej. Na ten temat toczyła się w USA burzliwa dysku sja, której atmosferę oddają prace zawarte w specjalnym numerze pisma: „Ameri can Psychologist" (1965; por. także: Jensen, 1980; kontrargumenty w: D. Seligman, 1995. rozdz. 15.). 6. Kontekst kwalifikacji zawodowych użytkownika testu. Test adresowany jest do psychologa, któremu nie tylko nieobce powinny być teorie psychologiczne, ale — co więcej — który będzie umiał je w codziennej praktyce diagnostycznej wy korzystać (szerzej piszę o tym w rozdz. 6., pkt. 4.). Od psychologa-użytkownika oczekuje się też, że posiadł on odpowiednie kwalifikacje psychometryczne, które pozwalają mu na poprawne pod względem psychometrycznym interpretowanie wy ników testu. 7. Kontekst użycia. Ważne jest, aby test stosowany był zgodnie z zaleceniami autora wersji oryginalnej. Wszelkie odstępstwa od oryginalnego scenariusza muszą być dokładnie sprawdzone pod kątem równoległości nowych warunków stosowania do warunków oryginalnych. Ważne jest też, w jaki sposób test będzie przedstawio ny osobie badanej. Sposób ten nie może być sprzeczny z jej dotychczasowymi doświadczeniami, ani też na tyle nowy, aby stanowił dla osoby badanej dodatkową barierę (czasem nie do pokonania). W kolejnych punktach spróbuję bliżej scharakteryzować poszczególne konteksty, pamiętając o tym, że przedmiotem naszych zainteresowań nie jest test oryginalny, ale jego adaptacja. Zatem owe siedem kontekstów (a zarazem siedem okazji 587
do popełnienia grzechu!), to konteksty adaptacji testu już gdzieś funkcjonującego. Dla prostoty wywodu przyjmuję założenie idealizujące, o prawidłowym osadzeniu w owych siedmiu kontekstach testu oryginalnego, będącego obiektem zabiegów adaptacyjnych.
4.1. Kontekst teorii psychologicznej Psycholog konstruujący test powinien przejść drogę podobną do tej, która została opisana w rozdz. 1., pkt. 5., będącej drogą postępowania badawczego psychologa, który prowadzi badanie naukowe (empiryczne). Nie musi on jednak, najczęściej, konstruować teorii psychologicznej objaśniającą całą sferę zachowania człowieka, gdyż może się odwołać do teorii już funkcjonującej i sprawdzonej pod względem metodologicznym. To, co jednak musi przeprowadzić bardzo rzetelnie, to jej zoperacjonalizowanie, czyli — inaczej mówiąc — opracowanie takiego planu testu i sformułowanie takiej listy pozycji, które mieściłyby się w ramach pojęciowych przyjętej w punkcie wyjścia teorii, i które nie zmieniałyby sensu założeń konstytuujących teorię i nie byłyby sprzeczne z jej twierdzeniami i postulatami. Wśród psychologów rozpowszechnił się też model „ateoretyczny" konstruowania testów, zwłaszcza kwestionariuszy osobowości (por. Edwards, 1970; też: Paluchowski, 1991). Typowym przykładem zestawu skal „empirycznych" (żeby odwołać się do nazwy nadawanej skalom kwestionariusza osobowości konstruowanego jedynie na bazie kryterium empirycznego różnicowania osób o określonych właściwościach) jest kwestionariusz MMPl (por. Matkowski, 1992), chociaż później usiłowano nadać sens teoretyczny jego poszczególnym skałom (Cronbach, Meehl, 1955). Sądzę jednak, że owa „ateoretyczność" jest tylko czysto deklaratywna, gdyż zakłada się jakąś teoretyczną koncepcję (może być ona głęboko ukryta) selekcji pozycji do zbioru pozycji tworzących daną skalę. Niemniej jednak mówienie o skalach „empirycznych" (w opozycji do „apriorycznych") jest nieudolną próbą maskowania braku teorii, która mogłaby być fundamentem danego testu psychologicznego. Jest to swoisty behawioryzm psychometryczfiy. Nie możemy uznać za modelowe takiego rozwiązania, które rezygnuje z nadania testowi psychologicznemu rzetelnych podstaw teoretycznych. Test psychologiczny, jako narzędzie naukowego poznania psychiki człowieka, ma bowiem wartość tylko wówczas, gdy powiązany jest z określoną teorią psychologiczną. Poza kontekstem owej teorii jest on tylko zestawem pytań, zbiorem obrazków czy łamigłówek na wzór tych, które chętnie publikują popularne tygodniki i miesięczniki jak: „Przekrój" czy „Twój Styl". Wnioskowanie o charakterystyce psychologicznej człowieka, który w określony sposób udzielił odpowiedzi na taki zestaw pozycji nie różni się od tego, co mówi nam osoba biegła w sztuce wróżenia z kart. Dlatego też tak ważne jest ustalenie trafności teoretycznej, o której była mowa w rozdz. 17. Nawiasem mówiąc, wśród różnych rodzajów trafności omawianych w literaturze psychometrycznej ta jest najważniejsza, o ile nie jest to jedyna 588
sensowna (z punktu widzenia celów nauki) próba sprawdzenia rzeczywistej trafności testu (por. też Cronbach, Meehl, 1955, także: rozdz. 17. pkt. 3.). Przystępując do adaptacji obcego testu psychologicznego musimy najpierw zapytać o jego zaplecze teoretyczne. Nawet najbardziej obiecująco wyglądający test nie będzie wart więcej, niż warta jest Jego" teoria psychologiczna. Zatem adaptację testu powinniśmy rozpoczynać od przyswojenia danej teorii (o ile nie jest ona znana). Zakładam, że zasługuje ona na to! Jeżeli autor testu nie podaje wprost powiązań tego testu z teorią, to należy zmierzać do ich rekonstrukcji, jeżeli chcemy ten test zaadaptować. Jak to się robi pokazała — w odniesieniu do rekonstrukcji podstaw teoretyczncych Skali Inteligencji WAIS-R — Hornowska (1993c). Zatem, dobrze zaadaptowany test, to test: (1) którego związki z teorią psychologiczną są w sposób czytelny dla użyt kownika testu opisane w podręczniku testowym, (2) którego możliwe do uzyskania przez osobę badaną wyniki poddane zostały interpretacji w terminach owej teorii (też powinien o tym informować podręcznik testowy).
4.2. Kontekst psychometryczny W poprzednim punkcie mówiliśmy o związkach testu z teorią psychologiczną. Przy czym teoria ta odnosiła się jedynie do interesującego psychologa wycinka rzeczywistości. Była to zatem Teoria badanego obiektu (TBO — por. rozdz. 3., rys. 3.4). Nie jest to jednak jedyny rodzaj teorii, który musi respektować psycholog poważnie Iraktujący naukowe badanie czy diagnozowanie psychologiczne. Drugim rodzajem teorii zakładanej przez psychologa jest Teoria operacjonalizacji zmiennych (TOZ — !por. rozdz. 3., rys. 3.4). Teorie tak swoistych narzędzi pomiarowych, jakimi są testy psychologiczne, to teorie psychometryczne. Adaptując dany test musimy respektować jego założenia modelowe. Jeżeli, przykładowo, oryginalny test został skonstruowany w modelu Gulliksena (por. rozdz. 15.), to nie jest to informacja nieistotna dla psychologa, gdyż model pomiaru testowego: (1) dookreśla nam kryteria dobroci samego testu, mówi przy jakich warto ściach owych kryteriów test jest godny zaufania, (2) nakreśla ramy formalne dla przyszłej interpretacji treściowej (psychologi cznej) wyniku testowego. Na gruncie klasycznej teorii testów kryteriami dobroci testu są: rzetelność (r„), błąd standardowy (SEM), korelacja pozycji z wynikiem ogólnym {jednolitość), trafność (zwłaszcza trafność teoretyczna). Z kolei znajomość wielkości błędu standardowego pozwala, m. in., na wyznaczenie minimalnych, istotnych na danym poziomie istotności statystycznej a, różnic między wynikami testów tworzących i skalę (np. taką, jaką jest WAIS-R Wechslera), które mogą być interpretowane jako znaczące diagnostycznie. Uzyskana przez osobę badaną różnica punktów dwóch 589
testów, np. testu „Wiadomości" i testu „Klocki", WAIS-R, aby mogła być interpretowana merytorycznie musi ową minimalną wielkość przekraczać. Rzecz jasna, im wyższe będą błędy standardowe porównywanych testów (a więc im niższa będzie ich rzetelność), tym większa będzie owa minimalna wielkość różnicy zezwalająca na jej sensowną interpretację. Adaptacja testu powinna być przeprowadzona tak, aby uzyskane wartości parametrów psychometrycznych nie były gorsze niż w wersji oryginalnej. To jednak narzuca psychologowi kolejne wymaganie. Brzmi ono: nie podejmuj się adaptacji testu, jak kusząco by on nie wyglądał, jak interesujących perspektyw interpretacyjnych by nie oferował, jeżeli nie znasz wartości kryteriów jego dobroci. Może się zdarzyć tak, że dla potrzeb jednego projektu badawczego psycholog „X" konstruuje namiastkę testu w postaci, np. listy pytań, którą szumnie określa mianem „kwestionariusza osobowości" i publikuje w jakimś piśmie psychologicznym. Z kolei psycholog „Y", w innym kraju (np. w Polsce) mozolnie tłumaczy te listę pytań i publikuje ją z informacją, że jest to kwestionariusz osobowości „X-a" w tłumaczeniu i adaptacji „Y-a". Z kolei jeszcze inny psycholog „Z", zafascynowany „urodą" tego „kwestionariusza osobowości" stosuje go w swojej praktyce diagnostycznej, w jakiejś poradni zdrowia psychicznego w mieście „N". Ta quasi-adaptacja, quasi-testu psychologicznego rozpoczyna swój własny żywot. Psycholog uzyskuje jakiś wynik za pomocą tego testu, nadaje mu jakąś interpretację (na tyle mądrą, że oszałamia ona pacjenta) i ... nic się nie dzieje. Zły test, to nie zły, toksyczny lek. Zły test nie zabija i pozwala psychologowi na spokojną egzystencję zawodową. Unikajmy pseudoadaptacji, pseudotestów. Lepiej poprzestać na dobrej rozmowie klinicznej z pacjentem, na dobrze przeprowadzonym wywiadzie środowiskowym, niż stwarzać pozory ścisłości i naukowości posługując się metodami pseudonaukowymi. Na koniec jeszcze jeden problem. W powszechnym użyciu znajdują się wielowymiarowe kwestionariusze osobowości powstałe za pomocą analizy czynnikowej, np. 16 PF Cattella. Dostępność bogatego oprogramowania statystycznego adresowanego na komputery osobiste (np. SPSS/PC+, L1SREL 7/8) spowodowała, że nastąpił renesans analizy czynnikowej. W jej ramach można założyć bądź model czynników ortogonalnych (są one wtedy nie skorelowane), bądź też model czynników ukośnych (które są wówczas w jakimś stopniu skorelowane). Stosując adaptację jakiegoś testu „czynnikowego" musimy dostosować model zastosowanej przez nas analizy czynnikowej do modelu przyjętego przez autora testu (piszę o tym w rozdz. 17., pkt. 5.). Dla interpretacji wyników testowych nie jest zaś obojętne, wedle której odmiany modelu analizy czynnikowej zostały one otrzymane.
4.3. Kontekst celu Przy podejmowaniu zabiegów adaptacyjnych niezmiernie ważna jest znajomość celu danego testu, jaki określił jego autor. Test adaptowany powinien realizować ten sam cel, co test oryginalny. Odejście od tego wymogu może doprowadzić do tego. że posługiwanie się testem powodować będzie powstawanie artefaktów. 590
Jeżeli mówimy o celu, to mamy na myśli nie tylko jego aspekt treściowy (np. test neurotyczności, test inteligencji, test dojrzałości emocjonalnej), ale także aspekt psychometryczny. Inaczej bowiem przebiega konstruowanie testu przeznaczonego do oceny poziomu jakiejś pojedynczej zmiennej w jednolitej populacji (np. ocena poziomu neurotyzmu w populacji studentów), a inaczej testu przeznaczonego do różnicowania między osobami należącymi do różnych populacji (np. różnicowanie zdrowych i psychotyków). Rozpoznając intencje twórcy testu, ich aspekt treściowy i psychometryczny, musimy uwzględnić zakres zastosowania testu. Możemy, jak się wydaje, możliwe | zakresy zastosowań testu psychologicznego sprowadzić do dwóch zakresów: (a) badawczego (naukowego), (b) diagnostycznego (praktycznego). Jeżeli chcemy dokonać zmiany zakresu zastosowania adaptowanego testu, z badawczego na diagnostyczny, to wymagać to będzie od nas znacznie większych wysiłków, niż w przypadku prostego przeniesienia, w ramach tego samego zakresu. Test przeznaczony do celów wyłącznie badawczych nie jest poddawany normalizacji. Z pomocą takiego testu nie będziemy przeprowadzać porównań typu: „osoba X — grupa odniesienia", gdyż nie mamy owej „grupy odniesienia" (takiej jak, na przykład, grupy wiekowe w WAIS-R). Zakres uogólniania uzyskanych za jego pomocą wyników jest określony przez trafność zewnętrzną całego badania. Chcąc tedy z narzędzia badawczego zrobić narzędzie diagnostyczne (w sensie standardów: JAPA, 1985a, 1985b), możemy przejąć od autora teorię psychologiczną, której test jest operacjonalizacją, ogólną ideę konstrukcyjną, model psychometryczny i reguły interpretacji wyników testowych. Czy jednak tak daleko idąca interwencja może być jeszcze nazwana adaptacją? Czy będzie to nadal test „X'\ czy też będzie to jego parafraza? Uważam, że w takich przypadkach możemy mówić o nowym teście opartym na idei testu „X". Taka formuła pozwala na dość swobodne postępowanie 2 oryginalnym testem. Trzeba jednak wziąć odpowiedzialność za taki test przyznając się do autorstwa jego nowej wersji, ale też zaznaczając autorstwo idei psychologicznej i konstrukcyjnej, która nas zainspirowała. Dokonując zmian w aspekcie treściowym, konstrukcyjnym, czy w zakresie zastosowania testu przestajemy mówić o adaptacji testu, a zaczynamy mówić o jego parafrazie (por. pkt. 2.4). Ta zaś może nas zaprowadzić nawet dość daleko od idei wyjściowej, tj. od testu oryginalnego. Z kolei adaptacja musi nas utrzymywać w jak najbliższej więzi z testem oryginalnym. Czy zatem parafraza jest mniej wartościowa niż adaptacja? Nie, ale trzeba wyraźnie zaznaczyć, że mamy do czynienia właśnie z parafrazą, że odeszliśmy (i jak daleko) od oryginału, a nie podszywać się pod nazwę oryginalną. Może być i tak. że pełna adaptacja oryginalnego testu do warunków innego kraju nie miałaby sensu, a właśnie parafraza, uwzględniająca daną specyfikę kulturową może dać bardzo wartościowe narzędzie psychometryczne. Bądźmy tedy elastyczni w wyborze formuły przekładu testu oryginalnego na test dostosowany do warunków danego kraju — niech to będzie albo adaptacja, albo parafraza. Podsumujmy to, co wyżej zostało powiedziane. Dokonując adaptacji testu powinniśmy być wierni jego celom założonym przez autora. Wierność ta musi się 591
odnosić zarówno do aspektu treściowego, jak i do aspektu psychometrycznego celu, a także do zakresu zastosowania testu. Odstępując od ścisłości przekładu, odstępujemy od idei adaptacji, zastępując ją ideą parafrazy. Formuła parafrazy pozwala nam na dość swobodne traktowanie materiału wyjściowego. Niemniej nie może w wyniku zabiegów parafrazyjnych powstać potworek psychometryczny, o którego współautorstwo będzie obwiniany także autor oryginalnego testu.
4.4 Kontekst doświadczenia kulturowego osoby badanej Mówiąc o kontekście doświadczenia kulturowego osoby badanej za pomocą jakiegoś testu psychologicznego mam na uwadze: (a) specyfikę doświadczenia językowego osoby badanej (ważne dla wszystkich testów słownych, które odwołują się do znajomości języka pisanego i czytanego — przykład: Skala Słowna WAIS-R czy MMPl, dotyczy to także wszystkich instru kcji testowych); (b) specyfikę wykształcenia osoby badanej i zasób wiadomości typu „szkol nego", przez nią przyswojony. W związku z tym należy uwzględnić specyfikę rodzimego systemu oświatowego (ważne dla testów słownikowych, testów badają cych zasób wiadomości, rozumienie, zainteresowania, uzdolnienia specjalne — przykład: testy: „Słownik", „Rozumienie", „Wiadomości", „Arytmetyka" z baterii WAIS-R czy WISC-R); (c) trening niespecyficzny w zakresie umiejętności objętych dziedziną pomiaru danego testu. Dziecko — dla przykładu — które bawi się klockami Lego, czy układankami typu puzzle jest w korzystniejszej sytuacji „startowej" w badaniu za pomocą testu operującego układankami czy klockami, od dziecka takiego doświad czenia nie posiadającego {ważne dla testów niewerbalnych — przykład: test Kohsa, test Ravena, test „Klocków" w WAIS-R); (d) dotychczasowe doświadczenia życiowe — typowe dla danej kultury, da nego kraju. Test nie powinien obejmować pozycji oryginalnych nawiązujących do specyficznych doświadczeń kulturowych, czy do tych treści ról pełnionych w da nym społeczeństwie, które są odmienne od treści ról społecznych pełnionych przez uczestników rodzimego życia społecznego. Znajomość realiów w zakresie doświad czenia życiowego osoby badanej jest ważna dla testów inteligencji, skal dojrzałości społecznej, skal badających wartości (przykład: test ,3raki w Obrazkach" WAIS-R). Kontekst doświadczenia kulturowego osób, które będą badane za pomocą testu stanowiącego adaptację jakiegoś testu oryginalnego, jest czasem tak odmienny od kontekstu doświadczenia kulturowego osób, do których był adresowany test oryginalny, że treści pozycji testowych testu stanowiącego adaptację będą znacząco odbiegały od treści pozycji testu oryginalnego. Czy zatem będzie to nadal adaptacja testu, a nie jego parafraza? Myślę, że będzie to jednak dobra adaptacja, gdyż zmiany w obrębie treści poszczególnych pozycji testu (wprowadzenie ich równoważników kulturowych — na przykład: zastąpienie w eksperymentalnej polskiej adaptacji 592
tego testu pytania oryginalnego z testu „Wiadomości" WAIS-R: „Kim był Martin Luter King?" pytaniem „Kim był Ojciec Maksymilian Kolbe?") nie naruszają jego idei konstrukcyjnej, a pozycje testowe (mimo, że różne w treści) odwołują się do podobnych kontekstów znaczeniowych. Nie chodzi zatem — w dobrej adaptacji — o to, aby dokonać literalnego przekładu językowego treści pozycji testowych (jeżeli oczywiście rozpatrujemy test słowny), ale o to, aby pozycje polskiej wersji testu odwoływały się do analogicznych doświadczeń kulturowych, co pozycje testu oryginalnego. Mówiąc krótko, chodzi o to, aby były one równoważne pod względem przekazywanych treści kulturowych.
4.5. Kontekst świadomości społecznej Posługując się testami psychologicznymi w praktyce diagnostycznej musimy pamiętać, że ich wyniki będą w jakimś stopniu decydowały o losach osoby badanej. Decyzje społeczne podejmowane wobec osoby badanej na podstawie wyników testowania mogą w znacznym stopniu zaważyć na jej dalszej drodze życiowej (np. skierowanie dziecka do szkoły specjalnej, uznanie oskarżonego za niezdolnego do pełnego rozeznania skutków czynu, który popełnił). Społeczeństwo dysponuje określoną, schematyczną wiedzą na temat testów psychologicznych, ich wartości, możliwości popełnienia za ich pomocą nadużyć interpretacyjnych. Mówiąc inaczej, w społeczeństwie funkcjonuje pewien określony stereotyp psychologa posługującego się testami. Na ogół jest on negatywny. Wprowadzenie tedy do obiegu informacji między sferą praktyki społecznej i sferą praktyki diagnostycznej jeszcze jednego testu, zapożyczonego z obcych nam warunków kulturowych, musi uwzględniać także owe społeczne koszty jego wykorzystania w diagnostyce psychologicznej. Musimy odpowiedzieć na pytanie, czy aby test ten nie będzie ułatwiał wyzwalania efektu stygmatyzacji (naznaczenia). Trzeba zatem zadbać o to, aby test przez swoją formę zewnętrzną nie sprzyjał powstawaniu takich negatywnych nastawień — zarówno u osoby badanej (przez wyzwolenie u niej silnego lęku przed oceną), jak i w społeczeństwie (przez łatwość zidentyfikowania go jako nadającego się do etykietowania ludzi). Nie powinniśmy przyswajać testów, które zbyt mocno osadzone są we wzorach postępowania, nie aprobowanych w naszym społeczeństwie. Udział w badaniach przeprowadzanych za ich pomocą będzie budził opór osób badanych, a także osób będących ich prawnymi opiekunami (np. opór rodziców wobec badania dzieci za pomocą testów zbyt szczegółowo wnikających w życie rodzinne, w stosowane praktyki wychowawcze, w życie religijne, zakres uświadomienia seksualnego itp.). Przed przystąpieniem do złożonych, pracochłonnych i kosztownych zabiegów adaptacyjnych, zastanówmy się więc, czy aby przewidziany do adaptacji test przyjmie się w nowych warunkach społecznych, czy uzyska akceptację społeczną. Z kolei decydując się na adaptację jakiegoś testu powinniśmy nadać mu taką formę (pamiętając o tym, aby nie przekroczyć zakresu zmian dopuszczalnych w ramach adaptacji), aby był on stosunkowo mało ,jatrogenny". 593
4.6. Kontekst kwalifikacji zawodowych użytkownika testu Przyswajając nowy test musimy pamiętać o tym, że wraz z nim będziemy przyswajać określoną teorię psychologiczną, która stanowi jego podbudowę teoretyczną, a także określoną koncepcję psychometryczną, która legła u podstaw jego konstrukcji i zakreśla formalne granice podejmowania określonych, merytorycznych interpretacji uzyskanych za jego pomocą wyników. I tak, prawie wszystkie testy konstruowane są wedle standardów klasycznej teorii testów. Więcej natomiast uwagi trzeba poświęcić sprawie przyswojenia teorii psychologicznej — jeżeli jest ona psychologom danego kraju nie znana — stanowiącej bazę teoretyczną testu. Nie będzie przedstawiał większej wartości taki test, który posługuje się teorią psychologiczną znaną jedynie psychologowi, który podjął się jego adaptacji. Jeżeli nie przyswoimy wcześniej oryginalnych prac teoretycznych, albo przynajmniej dobrego ich omówienia, to nie wolno upowszechniać nowego testu.
4.7. Kontekst użycia Na koniec rozważań o możliwych kontekstach, które trzeba brać pod uwagę przy przeprowadzaniu adaptacji obcego testu psychologicznego zwróćmy jeszcze uwagę na to, w jaki sposób test będzie używany (często mówi się w takim przypadku o „istracji" testu). Opracowując adaptację testu powinniśmy także przestrzegać zaleceń jego autora odnośnie tego, w jaki sposób test ten powinien być podawany osobie badanej. I tak, test może być przeznaczony do badań grupowych lub indywidualnych, może mieć ograniczenie czasowe lub nie mieć takiego ograniczenia, może być stosowany jako skala obserwacyjna lub jako skala samoobserwacyjna (przykładowo z dwóch kwestionariuszy przeznaczonych do pomiaru nasilenia objawów depresyjnych u chorych, kwestionariusz BDI Becka — Beck Depression Inventory — jest skalą samoobserwacyjna, a skala HDS — Hamilton Depression Scalę — Hamiltona jest skalą obserwacyjną); może też być przewidziany specjalny sposób ekspozycji pozycji testowych (zaznaczanie odpowiedzi na specjalnie przygotowanych arkuszach odpowiedzi, stosowanie sortera, jak w technice Q-sort, drukowanie pozycji testowych na odrębnych fiszkach lub wydrukowanie testu w postaci zeszytu). Warunki podania testu w pewien sposób wpływają na „zachowanie się testowe" osoby badanej, a w konsekwencji są odrębnym, ważnym źródłem wariancji składowej końcowego rezultatu badania. Niekiedy — wbrew intencjom autora testu — zmienia się warunki użycia testu. Jako przykład może posłużyć bardzo w Polsce popularny Test Matryc Ravena — wersja Standard. Otóż jest on stosowany także z ograniczeniem czasowym (wbrew temu, co zaleca autor oryginalnego podręcznika testowego, por. Raven, Court, Raven, 1985; też: Jaworowska, Szustrowa, 1991, s. 8). Upowszechnianie się komputerów osobistych ma wpływ także na diagnostykę psychologiczną (por. Paluchowski, 1991; Terelak, Cieciura, Terelak, 1991). Psy594
etiologowie zafascynowani tą nową techniką i możliwościami, jakie ona stwarza, zaczęli opracowywać komputerowe wersje znanych testów, posługując się komputerem jako środkiem ekspozycji pozycji testowych. Byłbym bardzo ostrożny w mechanicznym „przepisywaniu" pozycji testowych z kartki papieru na ekran monitora gdyż dla osoby badanej są to jednak odmienne warunki testowania. Udzielanie odpowiedzi nie przez pisanie na arkuszu odpowiedzi, ale przez naciskanie klawiszy klawiatury komputera może być nowym źródłem wariancji błędu — zwłaszcza w przypadku osób, które nie posługują się techniką komputerową na co dzień. W każdym razie, przed stosowaniem wersji komputerowej danego testu należałoby sprawdzić jej równoważność względem wersji „papierowej" (dla danej populacji). Nagminnie popełnianym przez psychologów grzechem jest stosowanie niepełnych adaptacji testów. Przy czym to, czego im brakuje, to normy adresowane do specyficznych populacji. Jest to szczególnie istotne, gdy takim testem chcemy posłużyć się do celów diagnostycznych (por. np. polska adaptacja WISC czy Skala Inteligencji Wechsler-Bellevue, W-B stosowane z normami amerykańskimi). Wydaje się oczywiste, że nie można odnosić wyników osoby badanej uzyskanych w teście stanowiącym adaptację testu oryginalnego do przeciętnych wyników uzyskiwanych przez osoby badane żyjące w odmiennych warunkach kulturowych. Mimo oczywistości tego spostrzeżenia są psychologowie, którzy negują konieczność opracowywania lokalnych norm w trakcie adaptacji danego testu. Sumując, test adaptowany powinien być stosowany zgodnie z zasadami, jakie podał autor wersji oryginalnej. Odstępstwa od tych reguł — np. odmienne sposoby ekspozycji pozycji testowych — muszą być za każdym razem sprawdzone pod kątem równoległości nowych warunków testowania do warunków oryginalnych. To, co jednak musi być nowe w przypadku testu adaptowanego, to normy, które powinny obejmować wyniki uzyskane przez osoby żyjące na terenie użycia adaptacji testu.
5. Podsumowanie W niniejszym rozdziale zwróciłem uwagę Czytelnika na najistotniejsze problemy, które rodzi zabieg adaptacji testów powstałych w warunkach jednej kultury do warunków drugiej kultury. Za szczególnie ważne uznałem zwrócenie uwagi na błędy, jakie może popełnić psycholog wprowadzający do powszechnego użytku nowy test. Jak starałem się wykazać, zabieg adaptacji nie jest wcale tak łatwy, jak to się wydaje. Znacznie łatwiej można sporządzić dobrą parafrazę, niż dobrą (tzn. dobrze osadzoną w siedmiu wyżej przytoczonych kontekstach) adaptację testu. Jeżeli i my, i — przede wszystkim — społeczeństwo mamy poważnie traktować orzeczenia psychologiczne napisane na podstawie wyników przeprowadzonych 595
badań testowych, to musimy w miarę szybko uporządkować tę sferę działalności psychologicznej. W miejsce importowanych, a adaptowanych w duchu naiwnego relatywizmu kulturowego, testów musimy wprowadzić testy prawidłowo adaptowane (w pełnej adaptacji), stanowiące dobre parafrazy testów oryginalnych i — wreszcie — oryginalne, zbudowane w warunkach danego kraju, testy psychologiczne. Czytelnikowi polecam następujące opracowania problematyki adaptacji kulturowej testów: Ciechanowicz A. (Ed.) Kulturowa adaptacja testów, a szczególnie 4 teksty: Ciechanowicz A. Adaptacja kulturowa testów (s. 9-30); Jaworowska A., Szustrowa T. Ogólne problemy kulturowej adaptacji testów (s. 31-47); Kostrzewski J. Testy inteligencji culture-fair (s. 49-58); Jurkowski A. Adaptacja testów słownikowych (s. 77-91). Ponadto: Drwal Ł.R. Adaptacja kwestionariuszy osobowości (zwłaszcza rozdz. 1. Problemy adaptacji kulturowej kwestionariuszy osobowości, s. 12-26). Matczak A. Diagnoza intelektu (rozdz. 1., pkt. 1.1. Testy neutralne kulturowo (zredukowane kulturowo), s. 17-26). Pożyteczne może też być zapoznanie się z procedurą polskiej adaptacji kulturowej Skali Inteligencji WAIS-R Wechslera opisaną w: Brzeziński J., Hornowska E. (Eds.) Skała Inteligencji Wechslera WAIS-R. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (część III Adaptacja kulturowa i charakterystyka 11 testów, s. 131-293). Problemy warsztatu tłumacza kwestionariuszy osobowości omawia: Pawłowska B. w: Zasady lingwistycznej adaptacji metod kwestionariuszowych.
'
Podziękowania
I
Na ostateczny kształt niniejszej książki miało wpływ kilka osób, którym chciałbym w tym miejscu bardzo serdecznie podziękować. I tak, pierwotną wersję konspektu czytali, i opatrzyli konstruktywnymi uwagami, Recenzenci — Ksiądz Profesor Zdzisław Chlewiński (KUL) i Pan Profesor Czesław Nosal (Politechnika Wrocławska). Zgodnie z ich sugestiami dokonałem zmian w treści kilku rozdziałów. Pierwszym Czytelnikiem maszynopisu była Pani Doktor Marzenna Zakrzewska, która od ponad dziesięciu lat prowadzi ćwiczenia do mojego wykładu z metodologii dla studentów psychologii UAM. Czytała ona maszynopis, patrząc nań pod kątem jego dydaktycznej przystępności i utwierdzając mnie w słuszności określonych rozwiązań natury dydaktycznej, związanych z formą prezentacji niektórych treści programowych. Korzystałem także z Jej pomocy w trakcie dyskusji nad pewnymi szczegółowymi zagadnieniami natury statystycznej i komputerowej. Wszystkie rysunki w tej książce zostały wykonane, w technice komputerowej, przez Panią Marię Lu-tomską. Jej profesjonalne umiejętności w tym zakresie pozwoliły na nadanie im bardzo komunikatywnego kształtu. Wreszcie, winien jestem szczególne podziękowania Pani Redaktor Małgorzacie Kasprzewskiej z Wydawnictwa Naukowego PWN w Warszawie. Jej cierpliwość i wyrozumiałość oraz wysokie kompetencje zawodowe pozwoliły na uniknięcie wielu błędów, których po prostu nie zauważy-mimo uważnej —jak mi się wydawało — lektury maszynopisu książki. Idea tej książki rodziła się w trakcie od prawie dwudziestu lat prowadzonych *ykładów z metodologii badań psychologicznych na Uniwersytecie im. Adama ickiewicza w Poznaniu (przede wszystkim dla studentów psychologii, ale także przez kilka lat — dla studentów pedagogiki). Bez tych doświadczeń dydakty-ych nie powstałaby Metodologia badań psychologicznych, ani — tym bardziej jej poprzedniczka, też wydana przez PWN, pt.: Elementy metodologii badań etiologicznych (kolejne wydania — 1978, 1981, 1984). Rzecz jasna tylko autor nosi odpowiedzialność za treść książki. Jerzy Brzeziński aznań, w czerwcu 1996 roku
Nota bibliograficzna
W 1978 roku ukazało się w Państwowym Wydawnictwie Naukowym pierwsze wydanie mojego podręcznika metodologii, pt.: Elementy metodologii badań psychologicznych, adresowanego, przede wszystkim, do studentów psychologii, ale także, w stosunkowo dużym zakresie treściowym, do studentów pedagogiki i socjologii. W 1980 i 1984 roku ukazały się kolejne wydania — łącznie kilkanaście tysięcy egzemplarzy. Książka ta, jak wiem, jest wykorzystywana nie tylko przez studentów, ale także, przynajmniej część rozdziałów, przez początkujących badaczy i doktorantów oraz psychologów-praktyków. Wykorzystując własne doświadczenia dydaktyczne i powstałe w późniejszych latach (po 1976 roku) autorskie opracowania dotyczące metodologii badań psychologicznych, diagnostyki psychologicznej i psychometrii, napisałem nową wersję podręcznika. Z Elementów metodologu badań psychologicznych, obejmujących 21 rozdziałów ujętych w dwóch częściach, wykorzystałem, po niezbędnych aktualizacjach, tylko sześć rozdziałów — i to nie w całości. Przy pisaniu poszczególnych rozdziałów nowej książki wykorzystałem — w całości lub tylko we fragmentach (i każdorazowo dokonując niezbędnych eliminacji treści, które uznałem za zdeaktualizowane, a także uzupełnień i przeredagowań) — niektóre z moich wcześniejszych prac, które publikowałem w czasopismach oraz książkach zbiorowych, dziś już trudno dostępnych. W wykazie literatury zamieszczonym na końcu książki znajdzie Czytelnik dane bibliograficzne tych prac, które wykorzystałem przy pisaniu — rozdziałów lub tylko niektórych ich punktów — Metodologii.... Są to: r. 1., pkt. 2.-4.: Brzeziński (1978a, cz. I, r. 1.); r. 2.: Brzeziński (1989a, 1991); r. 3.: Brzeziński (1994a); r. 4., pkt. 3.-4.: Brzeziński (1978b, r. 3.), Brzeziński, Kowalik (1993a, pkt. 5.2-5.4 — za zgodą współautora); r. 5.-6.: Brzeziński (1994b, 1994c, 1994d); r. 7., pkt. 3., 6.-8.: Brzeziński (I978a, cz. I, r. 2., 3.); r. 8.: Brzeziński (1978a, cz. I, r. 5.); r. 9., pkt. 4.: Brzeziński (1978a, cz. I, r. 10.); r. 10.-11: Brzeziński (1985c); r. 13.: Brzeziński (1978b, r. 2., pkt. 2.3.4, 1985a, 1987b); r. 14.: Brzeziński (1978b, r. 2., pkt. 2.2); r. 15.: Brzeziński (1984b, 1995d); r. 16.: Brzeziński (1978a, cz. II, r. 1., pkt. 1.3); r. 17., pkt. 4.: Brzeziński (1995b); r. 18.: Brzeziński (1978a, cz. II, r. 1., pkt. 1.2, 1.4); r. 19., pkt. 2.: Brzeziński, Gaul (1993, pkt. 2.-6. — za zgodą współautora), pkt. 3.: Brzeziński (1985c); r. 20., pkt. 4.: Brzeziński (1990). 598
Dodatek A. Jak pisać raport z badań psychologicznych? Po zakończeniu badań empirycznych, które zostały przeprowadzone zgodnie z wyłożonymi w niniejszym podręczniku zasadami metodologicznymi i które przebiegały wg etapów badania naukowego ukazanych na rys. 1.4. (s. 38), badacz powinien uzyskane rezultaty (wraz z ich psychologiczną interpretacją) zakomunikować społeczności badaczy — innym psychologom, kolegom-studentom studiującym wraz z nim na tym samym, albo innym uniwersytecie, specjalistom, którzy są zainteresowani przełożeniem jego ustaleń badawczych na działania praktyczne. Przyjętą formą takiego komunikatu-sprawozdania jest raport z badań. Może on przyjąć formę: referatu wygłoszonego na konferencji, tzw. plakatu (posteru) prezentującego w skrótowej i wizualnej postaci ustalenia badawcze, komunikatu z badań, artykułu i wreszcie monografii naukowej. Student psychologii spotyka się, najczęściej, z dwiema formami prac, które zawierają sprawozdanie z przeprowadzonych badań empirycznych: (a) pracą seminaryjną (b) pracą magisterską. Są to obowiązkowe zadania, od których wykonania uzależnione jest zaliczenie danego przedmiotu (w przypadku a) lub uzyskanie dyplomu ukończenia studiów psychologicznych (w przypadku b). W literaturze psychologicznej proponuje się nadanie raportowi z badań określonej struktury. Dwie najbardziej — wg mnie — interesujące propozycje wyszły od: ( 1 ) Kerlingera (1986 — w sumie trzy wydania), autora bardzo popularnego podręcznika metodologicznych podstaw badań w naukach behawioralnych (psychologii, socjologii, pedagogice itp.) oraz (2) autorów podręcznika ułatwiającego przygotowanie artykułu do publikacji w czasopiśmie psychologicznym wydawanym pizez American Psychological Association (APA, 1994). Zalecenia dotyczące forImalnej struktury pracy przygotowywanej do druku, jej języka, systemu cytowania literatury przedmiotu i sporządzania bibliografii, układu tabel, rysunków oraz wydruków powtarzane są przez niektóre opracowania z zakresu metodologii (np. Rosenthal, Rosnow, 1984, 1991; Craig, Metze, 1986). Nawiasem, mówiąc, zasady odwoływania się do literatury przedmiotu oraz sporządzania wykazu cytowanej w książce literatury były przestrzegane przez autora niniejszego podręcznika. Nie będę ich tu omawiał, bo wystarczy zapoznać się z zamieszczonym na końcu książki wykazem literatury. Z myślą o studentach i młodych, początkujących, badaczach publikowane są różne poradniki omawiające podstawowe zagadnienia związane 599
z przygotowywaniem „wypracowania" psychologicznego (por. np. Sternberg, 1995; Nęcka, Stocki, 1991). Zanim opiszę własną propozycję ustrukturowania pisemnego raportu z badań, przedstawię Czytelnikowi dwie, wyżej wspomniane, propozycje zaczerpnięte z literatury przedmiotu — Kerlingera (1986) oraz American Psychological Association (APA, 1994). Wedle Kerlingera (1986, s. 646) raport z badań powinien składać się z następujących elementów: „I. Problem 1. Teoria, hipotezy, definicje 2. Dotychczas przeprowadzone badania, literatura przedmiotu II. Metodologia-wyniki 1. Próba i opis metody doboru próby z populacji 2. W jaki sposób sprawdzano hipotezy (metodologia), procedury eks perymentalne, narzędzia pomiarowe 3. Pomiar zmiennych 4. Metody analizy wyników, statystyka 5. Wstępne badania oraz badania pilotażowe III. Rezultaty badawcze. Interpretacja. Wnioski." Z kolei wg Amerykańskiego Towarzystwa Psychologicznego, APA (1994, s. 4-22, 258-268) raport powinien obejmować cztery główne punkty (1-4) ujęte w następującym porządku: Strona tytułowa (ang. title page)(tyta\, imię i nazwisko autora/-ów, miejsce pracy) Streszczenie (ang. abstract) 1. Wprowadzenie (ang. introductioń) — problem i jego uzasadnienie, cel badania 2. Metoda (ang. method) — opis metod użytych w celu przeprowadzenia badania 2.1. Osoby badane (ang. participants) 2.2. Materiał (ang. materials) 2.3 Plan i przebieg badania (ang. design and procedurę) 2.4. Wyniki (ang. scoring) 3. Rezultaty (ang. resultś) — analiza danych empirycznych 4. Dyskusja (ang. discussioń) — interpretacja i analiza porównawcza uzy skanych wyników z wynikami referowanymi przez literaturę przedmio tu; konsekwencje teoretyczne, metodologiczne i praktyczne ustaleń ba dawczych 5. Literatura (ang. references) 6. Załączniki (ang. appendixes) — np. instrukcje, schematy oryginalnej aparatury, teksty oryginalnych testów 7. Uwagi autorskie (ang. author notę) (miejsce aktualnego zatrudnienia autora (-ów), adres do korespondencji, podziękowania, źródło finanso wania badań, itp.) 600
8. Przypisy (ang. footnoteś) 9. Tabele (ang. tableś) 10. Podpisy pod rysunkami (ang. figurę captions) 11. Rysunki (ang. figures). Pisanie kolejnych punktów rozpoczynamy od nowych stron: strona tytułowa, streszczenie, 1, 5, 6, 7, 8, 9, 10, 11. Numerację stron zaczynamy od strony tytułowej (w prawym górnym rogu). Każdą stronę opatrujemy (w prawym górnym rogu, na lewo od numeru strony) w kilkuwyrazowy skrót tytułu pracy (ang. run-ning head).
Zasadniczy tekst artykułu (pkt. 1-4) powinien być pisany w określonym standardzie; przyjęty w Polsce (np. „Czasopismo Psychologiczne"), stawia autorom następujące wymagania: „tekst powinien być napisany czcionką maszynową (np. courier) 12 pkt., na podwójnej interlinii, 31 wierszy na stronie i 65 znaków w wierszu, z marginesem 4 cm z lewej strony". Czytelnika zachęcam do lektury całego opracowania APA, gdyż zawiera ono wiele użytecznych informacji dotyczących profesjonalnego przygotowania tekstu i pracy w celu jego opublikowania w formie artykułu. W polskiej literaturze psychologicznej brak analogicznego opracowania. Moja propozycja ustrukturowania raportu z badań empirycznych jest następująca: 1. Problem Przegląd podstawowej literatury przedmiotu związanej z problemem — ważniejsze ustalenia badawcze — kontrowersje, sprzeczne wyniki, niejasne interpretacje Sformułowanie problemu i hipotezy/-ez — zdefiniowanie zmiennych — uzasadnienie 2. Metoda 2.1. Osoby badane 2.2. Pomiar zmiennych Pomiar zmiennych zależnych Pomiar zmiennych niezależnych 2.3. Przebieg badania 2.4. Model statystyczny badania np. model AN0VA, MANOVA wielokrotnej regresji, testy nieparametryczne, analiza czynnikowa, analiza skupień, analiza ścieżek, kontrola zmiennych niezależnych: ubocznych i zakłócających (np. dobór parami, ustalanie stałego podzakresu wartości zmiennych, korelacja cząstkowa, semicząstkowa, analiza kowariancji) 3. Wyniki 3.1. Opis statystyczny wyników (średnie, odchylenia standardowe, wykre sy itp.) 3.2. Testowanie hipotezy (hipotez) — z wykorzystaniem testów opisanych w pkt. 2.4) 601
4. Dyskusja Jak ustalenia badawcze mają się do ustaleń innych badaczy, zreferowanych w literaturze przedmiotu? Konsekwencje dla teorii psychologicznej Wnioski dla praktyki społecznej (np. edukacyjnej) Co można powiedzieć o „plusach" i „minusach" zastosowanej procedury badawczej? Wnioski dla przyszłych badań — nowe obszary penetracji teoretycznej, modyfikacje warsztatowe. W trakcie pisania raportu i przygotowywania go do publicznej prezentacji (np. artykuł w piśmie psychologicznym, ale także praca magisterska!) należy pamiętać o „dobrych obyczajach w nauce" {por. Komitet Etyki w Nauce, 1994) związanych z prawami autorskimi do napisanego tekstu. Sporządzony przez wyżej wymieniony Komitet Zbiór zasad i wytycznych w dwóch punktach normuje tę kwestię (s. 10): „2.1. Pracownik nauki uznaje wyniki twórczości naukowej za osobiste dobro twórcy. Pracownik nauki przestrzega przyjętych w skali międzynarodowej i skonkretyzowanych w prawie państwowym przepisów prawa autorskiego. Z prac opublikowanych drukiem może korzystać pod warunkiem wskazania źródła i wyraźnego rozgraniczenia osiągnięć własnych i cudzych. Dosłowne zaczerpnięcie fotografii, rysunków, wykresów tablic oraz dłuższych fragmentów tekstu wymaga uprzedniej zgody autora lub wydawcy. Zaczerpnięć takich należy unikać, jeżeli nie są one dostatecznie umotywowane potrzebami naukowymi. Przytaczanie cytatów z cudzych dziei naukowych jest dopuszczalne tylko w granicach wyznaczonych potrzebą dokładnego i zwięzłego poinformowania o cudzej myśli naukowej. Materiały na prawach rękopisu mogą być wykorzystane za pisemną zgodą i ze wskazaniem źródła. Istotne sugestie lub rady wypowiedziane ustnie lub korespondencyjnie są intelektualną własnością autora i mogą być wykorzystane pod warunkiem wskazania ich pochodzenia. 2.2. Pracownik nauki dba o to, aby uznanie za osiągnięcia naukowe przypadło temu, komu uznanie to rzeczywiście się należy. Tylko rzeczywisty udział twórczy uzasadnia wystąpienie w roli autora pracy naukowej. Pomoc redakcyjna lub techniczna, powinny być pokwitowane imiennym podziękowaniem. Odstąpienie autorstwa pracy naukowej innej osobie, przyjęcie odstąpionego autorstwa, a zwłaszcza żądanie odstąpienia autorstwa są niedopuszczalne. Zaoferowanie nie uzasadnionego współautorstwa, przyjęcie takiego współautorstwa, a zwłaszcza domaganie się takiego współautorstwa — są niedopuszczalne. Tylko rzeczywisty autor dzieła ma prawo figurować jako taki i prawo to jest niezbywalne". Także Kodeks Etyczno-Zawodowy (PTP, 1992, s. 13-14) normujący, od strony etycznej, funkcjonowanie zawodowe polskich psychologów podnosi kwestię autorstwa prac: 602
„38. Psychologa obowiązuje prawdziwe i wyczerpujące informowanie o źródłach, z których korzystał. Psycholog nie zataja, że korzystał w swoich publikacjach lub pracach badawczych z materiałów innych autorów oraz z pomocy i konsultacji innych osób. 39. Uczestnicząc w pracach zespołowych, psycholog respektuje prawa autor skie innych członków zespołu i dba o ochronę własnych praw autorskich. Zasada [ta jest szczególnie ważna przy prowadzeniu badań interdyscyplinarnych. 40. Psycholog nie firmuje swoim nazwiskiem żadnych publikacji lub prac, w jktórych nie brał udziału, ani nie przedstawia swojego udziału w sposób niezgodny z rzeczywistym wkładem wniesionym w te prace." Literatura zalecana: American Psychological Association, APA Publication manuał of the American Psychological Association (wyd. 4.); Nęcka E., Stocki R. Jak pisać prace naukowe z psychologii?
'
Dodatek B. Tablice statystyczne i psychometryczne Tablica 1. Tablica 2. Tablica 3. Tablica 4. Tablica 5. Tablica 6a. Tablica 6b. Tablica 7. Tablica 8. Tablica 9. Tablica 10. Tablica lla. Tablica llb.
Liczby losowe Dystrybuanta rozkładu normalnego Wartości krytyczne rozkładu t Studenta Wartości krytyczne rozkładu %2 Wartości krytyczne rozkładu F Snedecora Wartości krytyczne statystyki k' testu serii Walda-Wolfowitza Wartości krytyczne statystyki k" testu serii Walda-Wolfowitza Wartości z odpowiadające danym wartościom r Krytyczne wartości r Współczynniki r bi — tablice Flanagana Współczynniki
Źródła tablic Tablica 1. Brzeziński J., Stachowski R. (1984), Zastosowanie analizy wariancji w eksperymentalnych badaniach psychologicznych, Warszawa, PWN, Tablica A. s . 403^08. Tablica 2. Zieliński R. (1972), Tablice statystyczne, Warszawa, PWN, Tablica 2., s. 106. Tablica 3. Zieliński R. (1972), Tablice statystyczne, Warszawa, PWN, Tablica 5., s. 112. Tablica 4. Zieliński R. (1972), Tablice statystyczne. Warszawa PWN. Tablica 7., s. 114-117. Tablica 5. Zieliński R. (1972), Tablice statystyczne, Warszawa, PWN, Tablica 8., s. 118-122. 604
Tablica 6a i 6b. Brzeziński J. <1978a), Elementy metodologu badań psychologicznych, Warszawa, PWN, Załącznik la, Ib, s. 323; reprodukowane za: Siegel S. (1956), Nonparametric statistics for the behavioral sciences, New York, McGraw-Hill, Table F, s. 252-253. Tablica 7, Blalock H. M. (1975), Statystyka dla socjologów, Warszawa, PWN, Tablica J, s. 505-506. Tablica 8. Zieliński R. (1972), Tablice statystyczne, Warszawa, PWN, Tablica >., s. 211. Tablica 9. Brzeziński J. (1978a), Elementy metodologii badań psychologicznych, Warszawa, PWN, Załącznik II, s. 324-325; reprodukowane za: Thorndike R. L. (1961), Personnel selection. Test and measurement techniąues (s. 348-351), New York, J. Wiley. Tablica 10. Brzeziński J. (1978a), Elementy metodologii badań psychologicznych, Warszawa, PWN, Załącznik III, s. 326-332; reprodukowane za: Jurgensen t C. E. (1968), Tablice współczynników
Tablica 1. Liczby losowe 10097 37542
32533 04805
76520 64894
13586 74296
34673 24805
54876 24037
80959 20636
09117 10402
39292 00822
74945 91665
08422
68953
19645
09303
23209
02560
15953
34764
35080
33606
99019
02529
09376
70715
38311
31165
88676
74397
04436
27659
12807
99970
80157
36147
64032
36653
98951
16877
12171
76833
74717
34072
76850
36697
36170
65813
39885
11199
29170
31060
10805
45571
82406
35303
42614
86799
07439
23403
09732
85269
77602
02051
65692
68665
74818
73053
85247
18623
88579
63573
32135
05325
47048
90553
57548
28468
28709
83491
25624
73796
45753
03529
64778
35808
.34282
60935
20344
35273
88435
98520
17767
14905
68607
22109
40558
60970
93433
50500
73998
11805
05431
39808
27731
50725
68248
29405
24201
52775
68851
83452
99634
06288
98083
13746
70078
18475
40610
68711
77817
88685
40200
86507
58401
36766
67951
90364
76493
29609
11062
99594
67348
87517
64969
91826
08928
93785
61368
23478
34113
65481
'17674
17468
50950
5X047
76974
73039
57186
40218
16544
66065
80124
35635
17727
08015
45318
22374
21115
78253
14385
53763
74350
99817
77402
77214
43236
00210
45521
64237
96286
02655
69916
26803
66252
29148
36936
87203
76621
13990
94400
56418
09893
20505
14225
68514
46427
56788
96297
78822
54382
14598
91499
14523
68479
27686
46162
83554
94750
89923
37089
20048
80336
94598
26940
36858
70297
34135
53140
33340
42050
82341
44104
81949
85157
47954
32979
26575
57600
40881
22222
06413
12550
73742
11100
02040
12860
74697
96644
89439
28707
25813
63606
49329
16505
34484
40219
52563
43651
77082
07207
31790
61196
90446
26457
47774
51924
33729
65394
59593
42582
60527
§
15474 94557 42481 23523
45266 28573 16213 78317
95270 67897 97344 73208
79953 54387 08721 89837
59367 54622 16868 68935
83848 44431 48767 91416
82396 91190 03071 26252
101 18 45592 12059 29666
3321 I 92927 25701 05522
59466 45973 46670 82562
04493 00549 35963 59808 46058
52494 97654 15307 08391 85236
75246 64051 26898 45427 01390
33824 88159 09354 26842 92286
45862 96119 33351 83609 77281
51025 63896 35462 49700 44077
61962 54692 77974 13021 93910
79335 82391 50024 24892 83647
65337 23287 90103 78565 70617
12472 29529 39333 20106 42941
32179 69234 19565 45155 94864
00597 61406 41430 14938 31994
87379 20117 01758 19476 36168
25241 45204 75379 07246 10851
05567 15956 40419 43667 34888
07007 60000 21585 94543 81553
86743 18743 66674 59047 01540
17157 92423 36806 90033 35456
85394 97118 84962 20826 05014
11838 96338 85207 69541 51176
98086 33185 80951 79752 18633
24826 16232 00406 49140 32537
45240 41941 96382 71961 98145
28404 50949 70774 28296 06571
44999 89435 20151 69861 31010
08896 48581 23387 02591 24674
39094 88695 25016 74852 05455
73407 41994 25298 20539 61427
35441 37548 94624 00387 77938
31880 73043 61171 59579 91936
74029 54178 11664 48324 69074
43902 45611 49883 77928 94138
77557 80993 52079 31249 87637
32270 37143 84827 64710 91976
97790 05335 59381 02295 35584
17119 12969 71539 36870 04401
52527 56127 09973 32307 10518
58021 19255 33440 57546 21615
80814 36040 88461 15020 01848
51748 90324 23356 09994 26938
09188 90045 73189 75768
20097 85497 50207 76490
32825 51981 47677 20971
39527 50654 26269 87749
04220 94938 62290 90429
86304 81997 64464 12272
83389 91870 27124 95375
87374 76150 67018 (15871
64278 68476 41361 93823
58044 64659 82760 43178
O
54016
44056
66281
31003
00682
27398
20714
53295
07706
17813
08358 28306 53840 91757 89415
69910 03264 86233 53741 92694
78542 81333 81594 61613 00397
42785 10591 13628 62269 58391
13661 40510 51215 50263 12607
58873 07893 90290 90212 17646
04618 32604 28466 55781 48949
97553 60475 68795 76514 72306
31223 94119 77762 83483 94541
08420 01840 20791 47055 37408
77513 19502 21818 51474 99559
03820 37174 59313 66499 68331
86864 69979 93278 68107 62535
29901 20288 81757 23621 24170
68414 55210 05686 94049 69777
82774 29773 73156 91345 12830
51908 74287 07082 42836 74819
13980 75251 85046 09191 78142
72893 65344 31853 08007 43860
55507 67415 38542 45449 72834
33713 85274 84133 56732 65138
48007 86893 89640 16234 56806
93584 11303 44035 17395 87648
72869 22970 52166 96131 85261
51926 28834 73852 10123 34313
64721 34137 70091 91622 65861
58303 73515 61222 85496 45875
29822 90400 60561 57560 21069
93174 71148 62327 81604 85644
93972 43643 18423 18880 47277
38001 37402 97125 21826 73135
02176 96397 40348 41134 42742
81719 01304 87083 47143 95719
11711 77586 31417 34072 09035
71602 56271 21815 64638 85794
92937 10086 39250 85902 74296
74219 47324 75237 49139 08789
64049 62605 62047 06441 88156
65584 40030 15501 03856 64691
49698 37438 29578 54552 19202
07638 60528 83596 10850 39820
77929 83441 35655 62746 98952
03061 07954 06958 99599 43622
18072 19814 92983 10507 63147
96207 59175 05128 13499 64421
44156 20695 09719 06319 80814
23821 05533 77433 53075 43800
99538 52139 53783 71839 09351
04713 61212 92301 06410 31024
66994 04455 50498 19362 73167
59580 35508
06478 07341
75569 23793
78800 48763
88835 90822
54486 97022
23768 17719
06156 04207
04111 95954
08408 49953
-1CKW2
7
94ftSH
lf.127
56196
KIKWI
K2(K>7
63400
05462
69200
65443 27267
95659 50264
18288 13192
27437 72294
49632 07477
24041 44606
08337 17985
65676 48911
96299 97341
90836 30358
91307 68434 48909 06913 10455
06991 94688 15877 45197 16019
19072 84473 54745 42672 14210
24210 13622 24591 78601 33712
36699 62126 35700 11883 91342
53728 98408 04754 09528 37821
28825 12843 83824 63011 88325
35793 82590 52692 98901 80851
28976 09815 54130 14974 43667
66252 93146 55160 40344 70883
12883 21778 19523 67245 60584
97343 30976 59515 52670 47377
65027 38807 65122 35583 07500
61184 36961 59659 16563 37992
04285 31649 86283 79246 45134
01392 42096 68258 86686 26529
17974 63281 69572 76463 26760
15077 02023 13798 34222 83637
90712 08816 16435 26655 41326
26769 47449 91529 90802 44344
53853 24637 83080 16444
41377 38736 12451 24334 18157
36066 74384 38992 36151 57178
94850 89342 22815 99073 65762
58838 52623 07759 27493 11161
73859 07992 51777 70939 78576
49364 12369 97377 85130 45819
73331 18601 27585 32552 52979
96240 03742 51972 54846 65130
43642 83873 37867 54759 04860
03
"l 38555 17546 32643 69572
10461 95554 73704 52861 68777
93716 32886 92052 95819 39510
16894 59780 46215 06831 35905
66083 08355 55121 00911 14060
24653 60860 29281 98936 40619
84609 29735 59076 76355 29549
58232 47762 07936 93779 69616
88618 71299 27954 80863 33564
19161 23853 58909 00514 60780
24122
66591
27699
06494
14845
46672
61958
77100
90899
75754
61m
3O23
92962 10274 75867 85783
61773 12202 20717 47619
41839 39685 74416 53152
55382 23309 53166 67433
17267 10061 35208 35663
70943 68829 33374 52972
78038 55986 87539 16818
70267 66485 08823 60311
60790
30532 03788 |
48228
1 21704 97599 63379
g
60365 83799 32960 19322 11220
94653 42402 07405 53845 94747
35075 56623 36409 57620 07399
33949 34442 83232 52606 37408
42614 34994 99385 66497 48509
29297 41374 41600 68646 23929
01918 70071 11133 78138 27482
28316 14736 07586 66559 45476
98953 09958 15917 19640 85244
73231 18065 06253 99413 35159
31751 88492 30934 22888 78212
57260 99382 47744 48893 16993
68980 14454 07481 27499 35902
05339 04504 83828 98748 91386
15470 20094 73788 60530 44372
48355 98977 06533 45128 15486
88651 74843 28597 74022 65741
22596 93413 20405 84617 14014
03152 22109 94205 82037 87481
19121 78508 20380 10268 37220
41849 46352 11087 52701 57275
84547 33049 96294 08337 36898
46850 69248 14013 56303 81304
52326 93460 31792 87315 48585
34677 45305 59747 16520 68652
58300 07521 67277 69676 27376
74910 61318 76503 11654 92852
64345 31855 34513 99893 55866
19325 14413 39663 02181 88448
81549 70951 77544 68151 03584
20857 15633 92694 77613 38688
73156 84924 48297 19019 32486
70284 90415 39904 88152 45134
24326 93614 02115 00080 63545
79375 33521 59589 20554 59404
95220 26665 49067 91409 72059
01159 55823 66821 96277 43947
63267 47641 41575 48257 51680
10622 86225 49767 50816 43852
48391 31704 04037 97616 59693
25163 65251 36815 64397 04515
01889 07629 43625 11692 25624
70014 37239 18637 05327 95096
15021 33295 37509 82162 67946
41290 05870 82444 20247 48460
67312 01119 99005 81759 85558
71857 92784 04921 45197 15191
15957 26340 73701 25332 18782
68971 18477 14707 83745 16930
11403 65622 93997 22567 33361
83761 14387 51321
60873 06345 92246
43253 80854 80088
84145 09276 77074
60833 43529 88722
25983 06318 56736
01291 38384 66164
41349 74761 49431
20368 41196 66919
07126 37480 31678
Os £
72472 05466
OOOO8 55306
80890 93128
18(X)2 18464
94813 74457
319O0 90561
54155 72848
83436 11834
35352 79982
54131 68416
39528 81616 07586 90787 40188
72484 18711 16120 04235 28193
82474 53342 82641 13574 29593
25593 44276 22820 17200 88627
48545 75122 92904 69902 94972
35247 11724 13141 63742 11598
18619 74627 32392 78464 62095
13674 73707 19763 22501 36787
18611 58319 61199 18627 00441
19241 15997 67940 90872 58997
34414 63439 67049 79495 91704
82157 75363 09070 04146 30552
86887 44989 93399 52162 04737
55087 16822 45547 90286 21031
19152 36024 94458 54158 75051
00023 00867 74284 34243 93029
12302 76378 05041 46978 47665
80783 41605 49807 35482 64382
32624 65961 20288 59362 99782
68691 73488 34060 95938 93478
94015 74108 62880 11748 17944
46874 88222 87873 12102 05600
32444 88570 95160 80580 60478
48277 74015 59221 41867 03343
59820 25704 22304 17710 25852
96163 91035 90314 59621 58905
64654 01755 72877 06554 57216
25843 14750 17334 07850 39618
41145 48968 39283 73950 49856
42820 38603 04149 79552 99326
66067 54244 30945 69170 08345
42792 91030 57589 37403 88975
95043 45547 31732 86995 35841
52680 70818 57260 90307 85771
46780 59849 47670 94304 08105
56487 96169 07654 71803 59987
09971 61459 46376 26825 87112
59481 21647 25366 05511 21476
37006 87417 94746 12459 14713
22186 17198 49580 91314 71181
27767 13025 80217 10875 54127
43584 14338 36292 62004 57326
85301 54066 98525 90391 26629
88977 15243 24335 61105 19087
29490 47724 24432 57411 24472
69714 66733 24896 06368 88779
73035 47431 43277 53856 30540
41207 43905 58874 30743 27886
74699 31048 11466 08670 61731
09310 56699 16082 84741 75454
42824
37301
42678
45990
43242
17374
52003
70707
70214
60311
g
49739 78626 66692 44071
71484 51594 13986 28091
92003 16453 99837 07362
98086 94614 00582 97703
76668 39014 81232 76447
73209 97066 44987 42537
59202 83012 09504 98524
11973 09832 96412 97831
02902 25571 90193 65704
33250 77628 79568 09514
41468 94559 41615 50273 41396
85149 37559 70360 93113 80504
49554 49678 64114 41794 90670
17994 53119 58660 86861 08289
14924 70312 90850 24781 40902
39650 05682 64618 89683 05069
95294 66986 80620 55411 95083
00556 34099 51790 85667 06783
70481 74474 11436 77535 28102
06905 20740 38072 99892 57816
25807 06170 60808 80940 19516
24260 97965 54444 44893 90120
71529 88302 74412 10408 46759
78920 98041 81105 36222 71643
27682 21443 01176 80582 13177
07385 41808 28838 71944 55292
90726 68984 36421 92638 21036
57166 83620 16489 40333 82808
98884 89747 18059 67054 77501
08583 98882 51061 16067 97427
49386 06312 60942 92329 77936
54480 88940 00307 98932 63574
23604 15995 11897 78284 31384
23554 69321 92674 46347 51924
21785 47458 40405 71209 85561
41101 64809 68032 92061 29671
91178 98189 96717 39448 58137
10174 81851 54244 93136 17820
29420 29651 10701 25722 22751
90438 84215 41393 08564 36518
38101 39641 84054 47468 43321
77756 69457 40455 03577 31370
11657 91339 99396 57649 28977
13897 22502 63680 63266 23896
95889 92613 67667 24700 76479
57067 89719 60631 71594 68562
47648 11947 69181 14004 62342
13885 56203 96845 23153 07589
70669 19324 38525 69249 08899
93406 20504 11600 05747 05985
64281 66847 72461 21032
61826 70495 33230 91050
18555 32350 21529 13058
64937 02985 53424 16218
13173 86716 92581 12470
33365 38746 02262 56500
78851 26313 78438 15292
16499 77463 66276 76139
87064 55387 18396 59526
13075
72681 73538 52113
£
95362
67011
06651
16136
01016
00857
55018
56374
35824
71708
49712 58275 89514 15472 12120
97380 61764 11788 50669 86124
10404 97586 68224 48139 51247
55452 54716 23417 36732 44303
34030 50259 73959 46874 60883
60726 46345 76145 37088 52109
75211 87195 30342 73465 21437
10271 46092 40277 09819 36786
36633 26787 11049 58869 49226
68424 60939 72049 35220 77837
19612 39141 64756 92901 03551
78430 77400 80457 51878 90070
11661 28000 08747 56441 09483
94770 64238 12836 22998 94050
77603 73258 03469 29718 45938
65669 71794 50678 38447 18135
86868 31340 03274 06453 36908
12665 26256 43423 25311 43321
30012 66453 66677 07565 11073
75989 37016 82556 53771 51803
98884 27369 59066 91647 83605
66209 86882 75974 93783 92419
06830 53473 63335 64169 39542
53656 07541 20483 49022 07772
14663 53633 43514 98588 71568
56346 70863 37481 09495 75673
71430 03748 58278 49829 35185
04909 12822 26967 59068 89759
19818 19360 49325 38831 44901
05707 49088 43951 04838 74291
24895 35720 14141 27416 82071
88530 26556 53410 75670 07429
70774 95596 38649 92176 81007
35439 20094 06343 72535 47749
46758 73750 57256 93119 40744
70472 85788 61342 56077 56974
70207 34264 72709 06886 23336
92675 01703 75318 18244 88821
91623 46833 90379 92344 53841
61275 65248 37562 31374 10536
21445 72513 71479 83210 68749
82793 76400 45027 51466 95148
24831 52225 76160 09088 94897
93241 92348 57411 50395 78636
14199 62308 13780 26743 96750
76268 98481 13632 05306 09024
70883 29744 52308 21706 94538
68002 33165 77762 70001 91143
03829 33141 88874 99439 96693
17443 61020 33697 80767 61886
05184 13651
75763 62546
47075 96892
88158 25240
05313 47511
53439 58483
14908 87342
08830 78818
60096 07855
21551 39269
£
00566 50958 57621
21220 17695 64547
00292 58072 46850
24069 68990 37981
25072 60329 38527
29519 95955 09037
52548 71586 64756
54091 63417 03324
21282 35947 04986
21296 67807 83666
09282 23394 05280 95491 78521
25844 94206 37470 97976 00104
79139 93432 93622 38306 18248
78435 37836 04345 32192 75583
35428 94919 15092 82639 90326
43561 26846 19510 54624 50785
69799 02555 18094 72434 54034
63314 74410 16613 92606 66251
12991 94915 78234 23191 35774
93516 48199 50001 74693 14692
96345 77963 07520 38423 02463
44579 31151 11294 02309 65533
85932 32364 23238 70703 21199
44053 91691 01748 85736 60555
75704 47357 41690 46148 33928
20840 40338 67328 14258 01817
86583 23435 54814 29236 07396
83944 24065 37777 12152 89215
52456 08458 10057 05088 30722
73766 95366 42332 65825 22102
15880 71926 64425 79782 35337
92261 00819 28108 23924 74538
17292 59144 16554 49440 44553
88190 00224 16016 30432 64672
61781 30570 00042 81077 90960
48898 90194 83229 31543 41849
92525 18329 10333 95216 93865
21283 06999 36168 64865 44608
88581 26857 65617 13658 93176
60098 19238 94834 51081 34851
05249 56463 96296 98380 52567
29329 99380 33121 36269 64350
19715 38793 54196 60014 16315
94082 85774 34108 07201 53969
14738 19056 75814 62448 80395
86667 13939 85986 46385 81114
43708 46062 71171 42175 54358
66354 27647 15102 88350 64578
93692 66146 28992 46182 47269
25527 63210 63165 49126 15747
78498 49553 32151 11314 12364
90830 24241 07075 50363 71210
25955 08150 83155 26860 87052
99236 89535 10252 27799 50241
43286 08703 73100 49416 90785
91064 91041 88618 83534 97889
99969 77323 23891 19187 81399
95144 81079 87418 08059 58130
64424 45127 45417 76677 64439
77377 93696 20268 02110 05614
Tablica 2. Dystrybuanta rozkładu normalnego z
os
M l/l
0,00 ______ 001 _______ 0£2 _______ 0j03 _______ 0^04_______ 0,05________0,06 _______ OJH _______ 008 ________0,09
z
0,0 0,1 0,2 0,3 0,4
0,500 000 ,539828 ,579260 ,617 911 ,655 422
0,503 989 ,543795 ,583 166 ,621720 ,659 097
0,507 978 ,547 758 ,587 064 ,625 516 ,662 757
0,511 966 ,551717 ,590954 ,629 300 ,666 402
0,515 953 ,555 670 ,594 835 ,633 072 ,670 031
0,519 939 ,559618 ,598 706 ,636 831 ,673 645
0,523922 ,563 559 ,602 568 ,640 576 ,677 242
0,527 903 ,567495 ,606420 ,644 309 ,680 822
0,531 881 ,571424 ,610261 ,648 027 ,684 386
0,535 856 ,575 345 ,614092 ,651732 ,687 933
0,0 0,1 0,2 0,3 0,4
0,5 0,6 0,7 0,8 0,9
0,691 462 ,725 747 ,758 036 ,788 145 ,815 940
0,694 974 ,729 069 ,761 148 ,791030 ,818 589
0,698 468 ,732 371 ,764 238 ,793 892 ,821214
0,701944 ,735 653 ,767 305 ,796 731 ,823 814
0,705 401 ,738 914 ,770 350 ,799 546 ,826 391
0,708 840 ,742154 ,773 373 ,802 337 ,828 944
0,712 260 ,745 373 ,776 373 ,805 105 ,831472
0,715 661 ,748 571 ,779 350 ,807 850 ,833 977
0,719 043 ,751748 ,782 305 ,810 570 ,836 457
0,722 405 ,754903 ,785 236 ,813 267 ,838 913
0,5 0,6 0,7 0,8 0,9
1.0 1.1 1.2 1.3 1.4
0,841 345 ,864 334 ,884 930 ,903 200 ,919243
0,843 752 ,866 500 ,886 861 ,904 902 ,920730
0,846136 ,868 643 ,888 768 ,906 582 ,922 196
0,848 495 ,870 762 ,890 651 ,908 241 ,923641
0,850 830 ,872 857 ,892 512 ,909 877 ,925 066
0,853 141 ,874 928 ,894 350 ,911492 ,926471
0,855 428 ,876 976 ,896165 ,913 085 ,927 855
0,857 690 ,879000 ,897 958 ,914 657 ,929219
0,859 929 ,881000 ,899 727 ,916 207 ,930563
0,862143 ,882 977 ,901475 ,917 736 ,931888
1,0 1,1 1,2 1,3 1,4
1.5 1.6 1.7 1.8 1.9
0,933 193 ,945 201 ,955 435 ,964070 , ,971283
0,934 478 ,946 301 ,956 367 ,964852 ,971933
0,935 745 ,947 384 ,957 284 ,965 620 ,972571
0,936 992 ,948 449 ,958 185 ,966 375 ,973 197
0,938 220 ,949 497 ,959 070 ,967 116 ,973 810
0,939 429 ,950 529 ,959 941 ,967 843 ,974412
0,940 620 ,951 543 ,960 796 ,968 557 ,975002
0,941792 ,952 540 ,961636 ,969 258 ,975581
0,942 947 ,953 521 ,962 462 ,969 946 ,976 148
0,944 083 ,954 486 ,963 273 ,970621 ,976705
1,5 1,6 1,7 1,8 1,9
2.0 2.1 2.2 2,3
0,977 250 0,977 784 ,982 136 ,982 571 ,986 097,986 447,986 791 ,989 276,989 556,989 830
0,978 308 ,982 997 ,987 126 ,990 097
0,978 822 ,983 414 ,987 455 ,990 358
0,979 325 ,983 823 ,987 776 ,990613
0,979 818 ,984 222 ,988 089 ,990 863
0,980 301 ,984 614 ,988 396 ,991106
0,980 774 ,984 997 ,988 696 ,991344
0,981 237 ,985 371 .988 989 ,991576
0,981691 ,985 738 2,2 2,3
2,0 2,1
z 2.4
0,00______ 0,01________ 0,02 _______ 0,03 ,991802 ,992 024 ,992 240 ,992 451
0,04 ______0^05 _______ 0,06 _______ 0^07 _______0^08 _______ 0.09 ,992 656 ,992 857 ,993 053 ,993 244 ,993 431 ,993 613
z 2,4
2.5 2.6 2.7 2.8 2.9
0,993 790 ,995 339 ,996 533 ,997 445 ,998134
0,993 963 .995 473 ,996 636 ,997 523 ,998 193
0,994 132 ,995 604 ,996 736 ,997 599 ,998 250
0,994 297 ,995 731 ,996 833 ,997 673 ,998 305
0,994 457 ,995 855 ,996 928 ,997 744 ,998 359
0,994 614 ,995 975 ,997 020 ,997 814 ,998411
0,994 766 ,996 093 ,997110 ,997 882 ,998462
0,994 915 ,996 207 ,997 197 ,997 948 ,998511
0,995 060 ,996 319 ,997 282 ,998 012 ,998 559
0,995 201 ,996 427 ,997 365 ,998 074 ,998605
2,5 2,6 2,7 2,8 2,9
3.0 3.1 3.2 3.3 3.4
0,998 650 ,93O 324 ,933 129 ,935 166 ,936631
0,998 694 ,9*0 646 ,9*3 363 ,9*5 335 ,936 752
0,998 736 ,9*0 957 ,9*3 590 ,9*5 499 ,9*6 869
0,998 777 ,931 260 ,933 810 ,935 658 ,936 982
0,998 817 ,931553 ,934 024 ,935 811 ,937 091
0,998 856 ,9*1 836 ,9*4 230 ,9*5 959 ,9*7 197
0,998 893 ,932112 ,934 429 ,936103 ,937 299
0,998 930 ,9*2 378 ,9*4 623 ,9*6 242 ,937 398
0,998 965 ,932 636 ,934 810 ,936 376 ,937 493
0,998 999 ,932 886 ,9*4 991 ,9*6 505 ,937 585
3,0 3,1 3,2 3,3 3,4
3.5 3.6 3.7 3.8
0,9*7 674 0,9*7 759 ,938 409 ,9*8 469 ,938922 ,938964 ,9*2 765,9*3 052 ,9*3 327 ,945 190,945 385 ,945 573
0,937 842 ,^8 527 ,940039 ,943 593 ,945 753
0,937 922 ,938 583 ,940426 ,943 848 ,945 926
0,937 999 ,938 637 ,9*0799 ,9*4 094 ,9*6 092
0,938 074 ,938 689 ,941 158 ,944 331 ,946 253
O,938 146 ,938 739 ,941504 ,9*4 558 ,9*6 406
0,938 215 ,938 787 ,9*1858 ,944 777 ,946 554
0,9*8 282 ,938 834 ,942 159 ,9*4 988 ,9*6 696
0,9*8 347 ,938 879 ,942468 3,8 3,9
3,5 3,6 3,7
0,9*6 964 ,9*8 022 ,9*8 723 ,9* 1 837 ,9*4 831
0,947 090 ,9*8 106 ,9*8 778 ,9*2 199 ,9*5 065
0,9*7 211 ,948 186 ,948 832 ,952 545 ,955 288
0.94? 327 ,9*8 263 ,948 882 ,952 876 ,955 502
0,9"? 439 ,9*8 338 ,9*8 931 ,9*3193 ,955 706
0,9*7 546 ,9*8 409 ,948 978 ,953 497 ,955 902
0,947 649 ,9*8 477 ,9*0 226 ,953 788 ,9*6 089
0.94? 748 ,948 542 ,950 655 ,934 066 ,956 268
0,947 843 ,9*8 605 & 1 066 ,9*4 332 ,9*6 439
4,0 4,1 4,2 4,3 4,4
0,9*6 759 ,957 987 ,9*8 761 ,9*2 453 ,965 446
0,956 908 ,9*8 081 ,&S 821 ,962 822 ,965 673
0,957 051 ,958 172 ,958 877 ,9*3 173 ,9*5 889
0,957 187 ,9S8 258 ,938 931 ,9*3 508 ,966 094
0,957 318 ,9*8 340 ,9*8 983 ,963 827 ,966 289
0,957 442 ,938 419 ,9*0 320 ,964 131 ,966 475
0,957 561 ,9*8 494 ,960 789 ,964 420 ,966 652
0,9*7 675 ,958 566 ,961 235 ,964 696 ,966 821
0,957 784 ,9*8 634 ,961 661 ,9*4 958 ,966 981
4,5 4,6 4,7 4,8 4,9
39 4
'° 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9
0,946 833 ,9*7 934 ,948 665 ,951460 ,954 587 0,956 602 ,957 888 ,958 699 ,9^ 067 ,965 208
n\a
0,2
0,1
0,05
1 2 3 4 5
1,0000 0,8165 ,7649 ,7407 ,7267
3,0777 1,8856 ,6377 ,5332 ,4759
6,3138 2,9200 ,3534 ,1318 ,0150
12,7062 4,3027 3,1824 2,7764 ,5706
31,8205 6,9646 4,5407 3,7469 ,3649
63,6567 9,9248 5,8409 4,6041 ,0321
127,3213 14,0890 7,4533 5,5976 4,7733
318,3088 22,3271 10,2145 7,1732 5,8934
636,6192 31,5991 12,9240 8,6103 6,8688
6
0,7176 ,7111 ,7064 ,7027 ,6998
1,4398 ,4149 ,3968 ,3830 ,3722
1,9432 ,8946 ,8595 ,8331 ,8125
2,4469 ,3646 ,3060 ,2622 ,2281
3,1427 2,9980 ,8965 ,8214 ,7638
3,7074 ,4995 ,3554 ,2498 ,1693
4,3168 ,0293 3,8325 ,6897 ,5814
5,2076 4,7853 ,5008 ,2968 ,1437
5,9588 ,4079 ,0413 4,7809 ,5869
0,6974 ,6955 ,6938 ,6924 ,6912
1,3634 ,3562 ,3502 ,3450 ,3406
1,7959 ,7823 ,7709 ,7613 ,7530
2,2010 ,1788 ,1604 ,1448 ,1314
2,7181 ,6810 ,6503 ,6245 ,6025
3,1058 ,0545 ,0123 2,9768 ,9467
3,4966 ,4284 ,3725 ,3257 ,2860
4,0247 3,9296 ,8520 ,7874 ,7328
4,4370 ,3178 ,2208 ,1405 ,0728
0,6901 ,6892 ,6884 ,6876 ,6870
1,3368 ,3334 ,3304 ,3277 ,3253
1,7459 ,7396 ,7341 ,7291 ,7247
2,1199 ,1098 ,1009 ,0930 ,0860
2,5835 ,5669 ,5524 ,5395 ,5280
2,9208 ,8982 ,8784 ,8609 ,8453
3,2520 ,2224 ,1966 ,1737 ,1534
3,6862 ,6458 ,6105 ,5794 ,5518
4,0150 3,9651 ,9216 ,8834 ,8495
22 23 24 25
0,6864 ,6858 ,6853 ,6848 ,6844
1,3232 ,3212 ,3195 ,3178 ,3163
1,7207 ,7171 ,7139 ,7109 ,7081
2,07% ,0739 ,0687 ,0639 ,0595
2,5176 ,5083 ,4999 ,4922 ,4851
2,8314 ,8188 ,8073 ,7969 ,7874
3,1352 ,1188 ,1040 ,0905 ,0782
3,5272 ,5050 ,4850 ,4668 ,4502
3,8193 ,7921 ,7676 ,7455 ,7251
22 23 24 25
26
0,6840
1,3150
1,7056
2,0555
2,4786
2,7787
3,0669
3,4350
3,7066
26
7 8 9 10 11
12 13 14 15 16
17 18 19 20 21
0,02 _____ 0,01
0,005_____ 0,002 _____0,001
a/n
0,5
l
2 3 4 5 6
7 8 9 10 n
12 13 14 15 16
17 18 19 20 21
ON <X
n\a ____ 05______02 _____ OJ ____ 005______ 002 ____ OOJ_____ O005 ____ 0,002 ____0001 _____ a/n 27 28 29 30
,6837 ,6834 ,6830 ,6828
,3137 ,3125 ,3114 ,3104
.7033 ,7011 ,6991 ,6973
,0518 ,0484 ,0452 ,0423
,4727 ,4671 ,4620 ,4573
,7707 ,7633 ,7564 ,7500
,0565 ,0469 ,0380 ,0298
,4210 ,4082 ,3962 ,3852
.6896 ,6739 ,6594 ,6460
27 28 29 30
32 34 36 38 40
0,6822 ,6818 ,6814 ,6810 ,6807
1,3086 ,3070 ,3055 ,3042 ,3031
1,6939 ,6909 ,6883 ,6860 ,6839
2,0369 ,0322 ,0281 ,0244 ,0211
2,4487 ,4411 ,4345 ,4286 ,4233
2,7385 ,7284 ,7195 ,7116 ,7045
3,0149 ,0020 2,9905 ,9803 ,9712
3,3653 ,3479 ,3326 ,3190 ,3069
3,6218 ,6007 ,5821 ,5657 ,5510
32 34 36 38 40
42
0,6804 ,6801 ,6799 ,6796 ,6794
1,3020 ,3011 ,3002 ,2994 ,2987
1,6820 ,6802 ,6787 ,6772 ,6759
2,0181 ,0154 ,0129 ,0106 ,0086
2,4185 ,4141 ,4102 ,4066 ,4033
2,6981 ,6923 ,6870 ,6822 ,6778
2,9630 ,9555 ,9488 ,9426 ,9370
3,2960 ,2861 ,2771 ,2689 ,2614
3,5377 ,5258 ,5150 ,5051 ,4960
42
0,6790 ,6786 ,6783 ,6780 ,6776
1,2971 ,2958 ,2947 ,2938 ,2922
1,6730 ,6706 ,6686 ,6669 ,6641
2,0040 ,0003 1,9971 ,9944 ,9901
2,3961 ,3901 ,3851 ,3808 ,3739
2,6682 ,6693 ,6536 ,6479 ,6387
2,9247 ,9146 ,9060 ,8987 ,8870
3,2561 ,2317 ,2204 ,2108 ,1953
3,4764 ,4602 ,4466 ,4350 ,4163
100 120 150 200
0,6772 ,6770 ,6765 ,6761 ,6757
1,2910 ,2901 ,2886 ,2872 ,2858
1,6620 ,6602 ,6577 ,6551 ,6525
1,9867 ,9840 ,9799 ,9759 ,9719
2,3685 ,3642 ,3578 ,3515 ,3451
2,6316 ,6259 ,6174 ,6090 ,6006
2,8779 ,8707 ,8599 ,8492 ,8385
3,1833 ,1737 ,1595 ,1455 ,1315
3,4019 ,3905 ,3735 ,3566 ,3398
100 120 150 200
250 300 400
06755 ,6753 .6751
1,2849 ,2844 ,2837
1,6510 ,6499 ,6487
1,9695 ,9679 .9659
2,3414 ,3388 ,3357
2,5956 ,5923 ,5882
2,8322 ,8279 ,8227
3,1232 ,1176 ,1107
3,3299 ,3233 ,3150
250 300 400
-6750
,2832
,6479
.9647
,3338
.5857
,8195
,1066
,3101
500
44 46 48 50 55
60 65 70 80 90
son
44 46 48 50 55
60 65 70 80 90
Tablica 4. Wartości krytyczne rozkładu z2 d^\
3N I—
0,9995
0,999 5
0,9950,99 4
0,975 3
1 2 3 4 5
0,0^93 0,02100 0,0153 0,0639 0,158
0,0 157 O.O^OO 0,0243 0,0908 0,210
0,0 393 0,0100 0,0717 0,207 0,412
O,O 157 0,0201 0,115 0,297 0,554
6 7 8 9 10
0,299 0,485 0,710 0,972 1,265
0,381 0,598 0,857 1,153 1,479
0,676 0,989 1,344 1,735 2,156
11 12 13 14 15
1,587 1,934 2,305 2,697 3,108
1,834 2,214 2,617 3,041 3,483
16 17 18 19 20
3,536 3,980 4,439 4,912 5,398
21 22 23 24
5,896 6,404 6,924 7,453
0,95 _______________ 0,90 3
2
0,0 982 0,0506 0,216 0,484 0,831
0,0 393 0,103 0,352 0,711 1,145
0,872 1,239 1,646 2,088 2,558
1,237 1,690 2,180 2,700 3,247
2,603 3,074 3,565 4,075 4,601
3,053 3,571 4,107 4,660 5,229
3,942 4,416 4,905 5,407 5,921
5,142 5,697 6,265 6,844 7,434
6,447 6,983 7,529 8,085
8,034 8,643 9,260 9,886
0,80_______ 0/7(1 ______ 0,60
a / df
0,0158 0,211 0,584 1,064 1,610
0,0642 0,446 1,005 1,649 2,343
0,148 0,713 1,424 2,195 3,000
0,275 1,022 1,869 2,753 3,655
1 2 3 4 5
1,635 2,167 2,733 3,325 3,940
2,204 2,833 3,490 4,168 4,865
3,070 3,822 4,594 5,380 6,179
3,828 4,671 5,527 6,393 7,267
4,570 5,493 6,423 7,357 8,295
6 7 8 9 10
3,816 4,404 5,009 5,629 6,262
4,575 5,226 5,892 6,571 7,261
5,578 6,304 7,042 7,790 8,547
6,989 7,807 8,634 9,467 10,307
8,148 9,034 9,926 10,821 11,721
9,237 10,182 11,129 12,079 13,030
11 12 13 14 15
5,812 6,408 7,015 7,633 8,260
6,908 7,564 8,231 8,907 9,591
7,962 8,672 9,390 10,117 10,851
9,312 10,085 10,865 11,651 12,443
11,152 12,002 12,857 13,716 14,578
12,624 13,531 14,440 15,352 16,266
13,983 14,937 15,893 16,850 17,809
16 17 18 19 20
8,897 9,542 10,196 10,856
10,283 10,982 11,688 12,401
11,591 12,338 13,091 13,848
13,240 14,041 14,848 15,659
15,445 16,314 17,187 18,062
17,182 18,101 19,021 19,943
18,768 19,729 20,690 21,652
21 22 23 24
3v
O
25
0,99950,999 0,9950,99 7,991 8,649 10,520
26 27 28 29 30
8,538 9,093 9,656 10,227 10,804
9,222 9,803 10,391 10,986 11,588
11,160 11,808 12,461 13,121 13,787
12,198 12,879 13,565 14,256 14,953
13,844 14,573 15,308 16,047 16,791
15,379 16,151 16,928 17,708 18,493
17,292 18,114 18,939 19,768 20,599
19,820 20,703 21,588 22,475 23,364
21,792 22,719 23,647 24,577 25,508
23,579 24,544 25,509 26,475 27,442
26 27 28 29 30
31 32 33 34 35
11,389 11,979 12,576 13,176 13,788
12,196 12,811 13,431 14,057 14,688
14,458 15,134 15,815 16,501 17,192
15,655 16,362 17,073 17,789 18,509
17,539 18,291 19,047 19,806 20,569
19,281 20,072 20,867 21,664 22,465
21,434 22,271 23,110 23,952 24,797
24,255 25,148 26,042 26,938 27,836
26,440 27,373 28,307 29,242 30,178
28,409 29,376 30,344 31,313 32,282
31 32 33 34 35
36 37 38 39 40
14,401 15,020 15,644 16,273 16,906
15,324 15,965 16,661 17,262 17,916
17,887 18,586 19,289 19,996 20,707
19,233 19,960 20,691 21,426 22,164
21,336 22,106 22,878 23,654 24,433
23,269 24,075 24,884 25,695 26,509
25,643 26,492 27,343 28,196 29,051
28,735 29,635 30,537 31,441 32,345
31,115 32,053 32,992 33,932, 34,872
33,252 34,222 35,192 36,163 37,134
36 37 38 39 40
41 42 43 44 45
17,544 18,186 18,832 19,482 20,137
18,575 19,238 19,905 20,576 21,251
21,421 22,138 22,859 23,584 24,311
22,906 23,650 24,398 25,148 25,901
25,215 25,909 26,785 27,575 28,366
27,326 28,144 28,965 29,787 30,612
29,907 30,765 31,625 32,487 33,350
33,251 34,157 35,065 35,974 36,884
35,813 36,755 37,698 38,641 39,585
38,105 39,077 40,050 41,022 41,955
41 42 43 44 45
46 47 48 49 50
20,794 21,456 22,121 22,789 23,461
21,929 22,610 23,295 23,983 24,674
25,041 25,775 26,511 27,249 27,991
26,657 27,416 28,177 28,941 29,707
29,160 29,956 30,755 31,555 32,357
31,439 32,268 33,098 33,930 34,764
34,215 35,081 35,949 36,818 37,689
37,795 38,708 39,621 40,534 41,449
40,529 41,474 42,420 43,366 44,313
42,968 43,942 44,915 45,889 46,864
46 47 48 49 50
d ^\
0,975 11,524
0,95 ____________________ 0^90_______(Mit) ______ 0,700,60 o /Ę 13,120 14,611 16,473 18,940 20,867 22,616
25
<3\ M M
„\"
0,9995
O.wy
0,995
0,990,975
0,95
0,90
0,80
0,700,60
51 52 53 54 55
24,136 24,814 25,495 26,179 26,866
25,368 26,065 26,765 27,468 28,173
28,735 29,481 30,230 30,981 31,735
30,475 31,246 32,018 32,793 33,570
33,162 33,968 34,776 35,586 36,398
35,600 36,437 37,276 38,116 38,958
38,560 39,433 40,308 41,183 42,060
42,365 43,281 44,199 45,117 46,036
45,261 46,209 47,157 48,106 49,054
47,838 48,813 49,788 50,764 51,739
51 52 53 54 55
56 57 58 59 60
27,555 28,248 28,943 29,640 30,340
28,881 29,592 30,305 31,020 31,738
32,490 33,248 34,008 34,770 35,535
34,350 35,131 35,913 36,698 37,485
37,212 38,027 38,844 39,662 40,482
39,801 40,646 41,492 42,339 43,188
42,937 43,816 44,696 45,577 46,459
46,955 47,876 48,797 49,718 50,641
50,005 50,956 51,906 52,857 53,809
52,715 53,691 54,667 55,643 56,620
56 57 58 59 60
61 62 63 64 65
31,043 31,748 32,455 33,165 33,877
32,459 33,181 33,906 34,633 35,362
36,301 37,068 37,383 38,610 39,383
38,273 39,063 39,855 40,649 41,444
41,303 42,126 42,950 43,776 44,603
44,038 44,889 45,741 46,595 47,450
47,342 48,226 49,111 49,996 50,883
51,564 52,487 53,412 54,336 55,262
54,761 55,714 56,666 57,619 58,573
57,597 58,574 59,551 60,528 61,506
61 62 63 64 65
66 67 68 69 70
34,591 35,307 36,025 36,745 37,467
36,093 36,826 37,561 38,298 39,036
40,158 40,935 41,713 42,494 43,275
42,240 43,038 43,838 44,639 45,442
45,431 46,261 47,092 47,924 48,758
48,305 49,162 50,020 50,879 51,739
51,770 52,659 53,548 54,438 55,329
56,188 57,115 58,042 58,970 59,898
59,527 60,481 61,436 62,391 63,346
62,484 63,461 64,440 65,418 66,396
66 67 68 69 70
71 72 73 74 75
38,192 38,918 39,646 40,376 41,107
39,777 40,520 41,264 42,010 42,757
44,058 44,843 45,629 46,417 47,206
46,246 47,051 47,858 48,666 49,475
49,592 50,428 51,265 52,103 52,942
52,600 53,462 54,325 55,189 56,054
56,221 57,113 58,006 58,900 59,795
60,827 61,756 62,686 63,616 64,547
64,302 65,258 66,214 67,170 68,127
67,375 68,353 69,332 70,311 71,290
71 72 73 74 75
76
41,841
43,507
47,997
50,286
53,782
56,920
60,690
65,478
69,084
72,270
76
a /df
3N
rf/\
g
11 78 79 80
0,9995 42,576 43,313 44,051 44,791
0,9990,995 44,258 45,010 45,764 46,520
48,788 49,582 50,376 51,172
0,99 51,097 51,910 52,725 53,540
0,9750,95 0,90 0,80 0,70 0,60 a /df 54,623 57.786 61,586 66,409 70,042 73,249 55,466 58,654 62,483 67,341 70,999 74,228 56,309 59,522 63,308 68,274 71,957 75,208 57,153 60,391 64,278 69,207 72,915 76,188
77 78 79 80
81 82 83 84 85
45,533 46,276 47,021 47,767 48,515
47,277 48,036 48,796 49,557 50,320
51,969 52,767 53,567 54,368 55,170
54,357 55,174 55,993 56,813 57,634
57,998 58,845 59,692 60,540 61,389
61,261 62,132 63,004 63,876 64,749
65,176 66,076 66,976 67,876 68,777
70,140 71,074 72,008 72,943 73,878
73,874 74,833 75,792 76,751 77,710
77,168 78,148 79,128 80,108 81,089
81 82 83 84 85
86 87 88 89 90
49,264 50,015 50,767 51,521 52,276
51,085 51,850 52,617 53,386 54,155
55,973 56,777 57,582 58,389 59,196
58,456 59,279 60,103 60,928 61,754
62,239 63,089 63,941 64,793 65,647
65,623 66,498 67,373 68,249 69,126
69,679 70,581 71,484 72,387 73,291
74,813 75,749 76,685 77,622 78,558
78,670 79,630 80,590 81,550 82,511
82,069 83,050 84,031 85,012 85,993
86 87 88 89 90
91 92 93 94 95
53,032 53,790 54,549 55,309 56,070
54,926 55,698 56,472 57,246 58,022
60,005 60,815 61,625 62,437 63,250
62,581 63,409 64,238 65,068 65,898
66,501 67,356 68,211 69,068 69,925
70,003 70,882 71,760 72,640 73,520
74,196 75,101 76,006 76,912 77,818
79,496 80,433 81,371 82,309 83,248
83,472 84,433 85,394 86,356 87,317
86,974 87,955 88,396 89,917 90,899
91 92 93 94 95
96 97 98 99 100
56,833 57,597 58,362 59,128 59,896
58,799 59,577 60,356 61,136 61,918
64,063 64,878 65,694 66,510 67,328
66,730 67,562 68,396 69,230 70,075
70,783 71,642 72,501 73,361 74,222
74,400 75,282 76,164 77,046 77,929
78,725 79,633 80,541 81,449 82,358
84,187 85,126 86,065 87,005 87,945
88,279 89,241 90,204 91,166 92,129
91,881 92,862 93,844 94,826 95,808
96 97 98 99 100
r\£
o-.UJ
/T
0,40
0,30
0,20
0,10
0,05
0,025
0,01
0,005
0,010
0,0005
0,455 1,386 2,366 3,357 4,351
0,708 1,833 2,946 4,045 5,132
1,074 2,408 3,665 4,878 6,064
1,642 3,219 4,642 5,989 7,289
2,706 4,605 6,251 7,779 9,236
3,841 5,991 7,815 9,488 11,070
5,024 7,378 9,348 11,143 12,832
6,635 9,210 11,345 13,277 15,086
7,879 10,597 12,838 14,860 16,750
10,828 13,816 16,266 18,467 20,515
12,116 15,202 17,730 19,997 22,105
2 3 4 5
6 7 8 9 10
5,348 6,346 7,344 8,343 9,342
6,211 7,283 8,351 9,414 10,473
7,231 8,383 9,524 10,656 11,781
8,558 9,803 11,030 12,242 13,442
10,645 12,017 13,362 14,684 15,987
12,592 14,067 15,507 16,919 18,307
14,449 16,013 17,535 19,023 20,483
16,812 18,475 20,090 21,666 23,209
18,548 20,278 21,955 23,589 25,188
22,458 24,322 26,125 27,877 29,588
24,103 26,018 27,868 29,666 31,420
6 7 8 9 10
11 12 13 14 15
10,341 11,340 12,340 13,339 14,339
11,530 12,584 13,636 14,685 15,733
12,899 14,011 15,119 16,222 17,322
14,631 15,812 16,985 18,151 19,311
17,275 18,549 19,812 21,064 22,307
19,675 21,026 22,362 23,685 24,996
21,920 23,336 24,735 26,119 27,488
24,725 26,217 27,688 29,141 30,578
26,757 28,300 29,819 31,319 32,801
31,264 32,909 34,528 36,123 37,697
33,136 34,821 36,478 38,109 39,719
11 12 13 14 15
16 17 18 19 20
15,338 16,338 17,338 18,338 19,337
16,780 17,824 18,868 19,910 20,951
18,418 19,511 20,601 21,689 22,775
20,465 21,615 22,760 23,900 25,038
23,542 24,769 25,989 27,204 28,412
26,296 27,587 28,869 30,144 31,410
28,845 30,191 31,526 32,852 34,170
32,000 33,409 34,805 36,191 37,566
34,267 35,718 37,156 38,582 39,997
39,252 40,790 42,312 43,820 45,315
41,308 42,879 44,434 45,973 47,498
16 17 18 19 20
21 22 23 24 25
20,337 21,337 22,337 23,337 24,337
21,991 23,031 24,069 25,106 26,143
23,858 24,939 26,018 27,096 28,172
26,171 27,301 28,429 29,553 30,675
29,615 30,813 32,007 33,196 34,382
32,671 33,924 35,172 36,415 37,652
35,479 36,781 38,086 39,364 40,646
38,932 40,289 41,638 42,980 44,314
41,401 42,796 44,181 45,558 46,928
46,797 48,268 49,728 51,179 52,618
49,010 50,511 52,000 53,479 54,947
21 22 23 24 25
1 2 3 4 5
0,50
a
1
\^
0,50
0,40
0,30
0,20
26 27 28 29 30
25,336 26,336 27,336 28,336 29,336
27,179 28,214 29,249 30,283 31,316
29,246 30,319 31,391 32,461 33,530
31 32 33 34 35
30,336 31,336 32,336 33,336 34,336
32,349 33,381 34,413 35,444 36,475
36 37 38 39 40
35,336 36,336 37,335 38,335 39,335
41 42 43 44 45 46 47 48 49 50
r
/r
0,10
0,05
0,025
0,01
0,005
0,010
0,0005
31,795 32,912 34,027 35,139 36,250
35,563 36,741 37,916 39,087 40,256
38,885 40,113 41,337 42,557 43,773
41,923 43,194 44,461 45,722 46,979
45,642 46,963 48,278 49,588 50,892
48,290 49,645 50,993 52,336 53,672
54,052 55,476 56,892 58,301 59,703
56,407 57,858 59,300 60,735 62,162
26 27 28 29 30
34,598 35,665 36,731 37,795 38,859
37,359 38,466 39,572 40,676 41,778
41,422 42,585 43,745 44,903 46,059
44,985 46,194 47,400 48,602 49,802
48,232 49,480 50,725 51,966 . 53,203
52,191 53,486 54,776 56,061 57,342
55,003 56,328 57,648 58,964 60,275
61,098 62,487 63,870 65,247 66,619
63,582 64,995 66,402 67,803 69,199
31 32 33 34 35
37,505 38,535 39,564 40,593 41,622
39,922 40,984 42,045 43,105 44,165
42,879 43,978 45,076 46,173 47,269
47,212 48,363 49,513 50,660 51,805
50,998 52,192 53,384 54,572 55,758
54,437 55,668 56,895 58,120 59,342
58,619 59,892 61,162 62,428 63,691
61,581 62,882 64,181 65,476 66,766
67,985 69,346 70,703 72,055 73,402
70,588 71,972 73,351 74,725 76,095
36 37 38 39 40
40,335 41,335 42,335 43,335 44,335
42,651 43,679 44,706 45,734 46,761
45,224 46,282 47,339 48,396 49,452
48,363 49,456 50,548 51,639 52,729
52,949 54,090 55,230 56,369 57,505
56,942 58,124 59,304 60,481 61,656
60,561 61,777 62,990 64,201 65,410
64,950 66,206 67,459 68,709 69,957
68,053 69,336 70,616 71,893 73,166
74,745 76,084 77,419 78,749 80,077
77,459 78,820 80,176 81,528 82,876
41 42 43 44 45
45,335 46,335 47,335 48,335 49,335
47,787 48,814 49,840 50,866 51,892
50,507 51,562 52,616 53,670 54,723
53,818 54,906 55,993 57,079 58,164
58,641 59,774 60,907 62,038 63,167
62,830 64,001 65,171 66,339 67,505
66,617 67,821 69,023 70,222 71,420
71,201 72,443 73,683 74,919 76,154
74,437 75,704 76,969 78,231 79,490
81,400 82,720 84,037 85,351 86,661
84,220 85,560 86,897 88,231 89,561
46 47 48 49 50
a
r
U)
\f
0,50
0,40
0,30
0,20
0,10
0,05
0,025
0,01
0,005
0,010
0,0005
n/r
5 1 52 53 54 55
50,335 51,335 52,335 53,335 54,335
52,917 53,942 54,967 55,992 57,016
55,775 56,827 57,879 58,930 59,980
59,248 60,332 61,414 62,496 63,577
64,295 65,422 66,548 67,673 68,796
68,669 69,832 70,993 72,153 73,311
72,616 73,810 75,002 76,192 77,380
77,386 78,616 79,843 81,069" 82,292
80,747 82,001 83,253 84,502 85,749
87,968 89,272 90,573 91,872 93,167
90,881 92,211 93,531 94,849 96,163
51 52 53 54 55
56 57 58 59 60
55,335 56,335 57,335 58,335 59,335
58,040 59,064 60,088 61,111 62,135
61,031 62,080 63,129 64,178 65,226
64,658 65,737 66,816 67,894 68,972
69,918 71,040 72,160 73,279 74,397
74,468 75,624 76,778 77,931 79,082
78,567 79,752 80,936 82,117 83,298
83,513 84,733 85,950 87,166 88,379
86,994 88,236 89,477 90,715 91,952
94,460 95,751 97,039 98,324 99,607
97,475 98,784 100,090 101,394 102,695
56 57 58 59 60
61 62 63 64 65
60,335 61,335 62,335 63,335 64,335
63,158 64,181 65,204 66,226 67,249
66,274 67,322 68,369 69,416 70,462
70,049 71,125 72,201 73,276 74,351
75,514 76,630 77,745 78,860 79,973
80,232 81,381 82,529 83,675 84,821
84,476 85,654 86,830 88,004 89,177
89,591 90,802 92,010 93,217 94,422
93,186 94,419 95,649 96,878 98,105
100,888 102,166 103,442 104,716 105,988
103,993 105,289 106,583 107,875 109,164
61 62 63 64 65
66 67 68 69 70
65,335 66,335 67,334 68,334 69,334
68,271 69,293 70,315 71,337 72,358
71,508 72,554 73,600 74,645 75,689
75,425 76,498 77,571 78,643 79,715
81,086 82,197 83,308 84,418 85,527
85,965 87,108 88,250 89,391 90,531
90,349 91,519 92,688 93,856 95,023
95,626 96,828 98,028 99,227 100,425
99,330 100,554 101,776 102,996 104,215
107,258 108,526 109,791 111,055 122,317
110,451 111,736 113,018 114,299 115,578
66 67 68 69 70
71 72 73 74 75
70,334 71,334 72,334 73,334 74,334
73,380 74,401 75,422 76,443 77,464
76,734 77,778 78,822 79,865 80,908
80,786 81,857 82,927 83,997 85,066
86,635 87,743 88,850 89,956 91,061
91,670 92,808 93,945 95,081 96,217
96,189 97,353 98,516 99,678 100,839
101,621 102,816 104,010 105,202 106,393
105,432 106,648 107,862 109,074 110,286
113,577 114,835 116,092 117,346 118,599
116,854 118,129 119,402 120,673 121,942
71 72 73 74 75
r\^
0,50
0,40
0,30
0,20
0,10
0,05
0,025
0,01
0,005
0,010
0,0005
a//
T
76 77 78 79 80
75,334 76,334 77,334 78,334 79,334
78,485 79,505 80,526 81,546 82,566
81,951 82,994 84,036 85,078 86,120
86,135 87,203 88,271 89,338 90,405
92,166 93,270 94,374 95,476 96,578
97,351 98,484 99,617 100,749 101,879
101,999 103,158 104,316 105,473 106,629
107,582 108,771 109,958 111,144 112,329
111,495 112,704 113,911 115,117 116,321
119,850 121,100 122,348 123,594 124,839
123,209 124,475 125,739 127,001 128,261
76 77 78 79 80
81 82 83 84 85
80,334 81,334 82,334 83,334 84,334
83,586 84,606 85,626 86,646 87,665
87,161 88,202 89,243 90,284 91,325
91,472 92,538 93,604 94,669 95,734
97,608 98,780 99,880 100,980 102,079
103,010 104,139 105,267 106,395 107,522
107,783 108,937 110,090 111,242 112,393
113,512 114,695 115,876 117,057 118,236
117,524 118,726 119,927 121,126 122,325
126,082 127,324 128,565 129,804 131,041
129,520 130,778 132,033 133,288 134,540
81 82 83 84 85
86 87 88 89 90
85,334 86,334 87,334 88,334 89,334
88,685 89,704 90,723 91,742 92,761
92,365 93,405 94,445 95,484 96,524
96,799 97,863 98,927 99,991 101,054
103,177 104,275 105,372 106,469 107,565
108,648 109,773 110,898 112,022 113,145
113,544 114,693 115,841 116,989 118,136
119,414 120,591 121,767 122,942 124,116
123,522 124,718 125,913 127,106 128,299
132,277 133,512 134,745 135,978 137,208
135,792 137,041 138,290 139,537 140,782
86 87 88 89 90
91 92 93 94 95
90,334 91,334 92,334 93,334 94,334
93,780 94,799 95,818 96,836 97,855
97,563 98,602 99,641 100,679 101,717
102,117 103,179 104,241 105,303 106,364
108,661 109,756 110,850 111,944 113,038
114,268 115,390 116,511 117,632 118,752
119,282 120,427 121,571 122,715 123,858
125,289 126,462 127,633 128,803 129,973
129,491 130,681 131,871 133,059 134,247
138,438 139,666 140,893 142,119 143,344
142,027 143,269 144,511 145,751 146,990
91 92 93 94 95
96 97 98 99 100
95,334 96,334 97,334 98,334 99,334
98,873 99,892 100,910 101,928 102,946
102,755 103,793 104,831 105,868 106,906
107,425 108,486 109,547 110,607 111,667
114,131 115,223 116,315 117,407 118,498
119,871 120,990 122,108 123,225 124,342
125,000 126,141 127,282 128,422 129,561
131,141 132,309 133,476 134,642 135,807
135,433 136,619 137,803 138,987 140,169
144,567 145,789 147,010 148,230 149,449
148,228 149,465 150,700 151,934 153,167
96 97 98 99 100
Tablica 5. Wartości krytyczne rozkładu F Snedecora er = 0,10 2
3
4
5
6
7
8
9
10
15
20
30
50
100
39,9 49,5 8,53 9,00 5,54 5,46 4,54 4,32 ,06 3,78
53,6 9,16 5,39 4,19 3,62
55,8 9,24 5,34 4,11 3,52
57,2 9,29 5,31 4,05 3,45
58,2 9,33 5,28 4,01 3,40
58,9 9,35 5,27 3,98 ,37
59,4 9,37 5,25 3,95 ,34
59,9 9,38 5,24 3,94 ,32
60,2 9,39 5,23 3,92 ,30
61,2 9,42 5,20 3,87 ,24
61,7 9,44 5,18 3,84 ,21
62,3 9,46 5,17 3,82 ,17
62,7 9,47 5,15 3,80 ,15
63,0 9,48 5,14 3,78 ,13
63,2 9,49 5,14 3,77 ,12
63,3 9,49 5,14 3,76 ,11
63,3 9,49 5,13 3,76 ,10
1 2 3 4 5
~ dfT ^^ L __1 1 2 3 4 5
200500
Śfc^Tfa
6 7 8 9 10
3,78 ,59 ,46 ,36 ,28
3,46 ,26 ,11 ,01 2,92
3,29 ,07 2,92 ,81 ,73
3,18 2,96 ,81 ,69 ,61
3,11 2,88 ,73 ,61 ,52
3,05 2,83 ,67 ,55 ,46
3,01 2,78 ,62 ,51 ,41
2,98 ,75 ,59 ,47 ,38
2,96 ,72 ,56 ,44 ,35
2,94 ,70 ,54 ,42 ,32
2,87 ,63 ,46 ,34 ,24
2,84 ,59 ,42 ,30 ,20
2,80 ,56 ,38 ,25 ,16
2,77 ,52 ,35 ,22 ,12
2,75 ,50 ,32 ,19 ,09
2,73 ,48 ,31 ,17 ,07
2,73 ,48 ,30 ,17 ,06
2,72 ,47 ,29 ,16 ,06
6 7 8 9 10
11 12 13 14
3,23 ,18 ,14 ,10
2,86 ,81 ,76 ,73
2,66 ,61 ,56 ,52
2,54 ,48 ,43 ,39
2,45 ,39 ,35 ,31
2,39 ,33 ,28 ,24
2,34 ,28 ,23 ,19
2,30 ,24 ,20 ,15
2,27 ,21 ,16 ,12
2,25 ,19 ,14 ,10
2,17 ,10 ,05 ,01
2,12 ,06 ,01 1,96
2,08 ,01 1,96 ,91
2,04 1,97 ,92 ,87
2,00 1,94 ,88 ,83
1,99 ,92 ,86 ,82
1,98 ,91 ,85 ,80
1,97 ,90 ,85 ,80
11 12 13 14
15
,07
,70
,49
,36
,27
,21
,16
,12
,09
,06
1,97
,92
,87
,83
,79
,77
,76
,76
15
16 17 18 19 20
3,05. 2,67 ,03 ,64 ,01 ,62 2,99 ,61 ,97 ,59
2,46 ,44 ,42 ,40 ,38
2,33 ,31 ,29 ,27 ,25
2,24 ,22 ,20 ,18 ,16
2,18 ,15 ,13 ,11 ,09
2,13 ,10 ,08 ,06 ,04
2,09 ,06 ,04 ,02 ,00
2,06 ,03 ,00 1,98 ,96
2,03 ,00 1,98 ,96 ,94
1,94 ,91 ,89 ,86 ,84
1,89 ,86 ,84 ,81 ,79
1,84 ,81 ,78 ,76 ,74
1,79 ,76 ,74 ,71 ,69
1,76 ,73 ,70 ,67 ,65
1,74 ,71 ,68 ,65 ,63
1,73 ,69 ,67 ,64 ,62
1,72 ,69 ,66 ,63 ,61
16 17 18 19 20
22 24
2,95 ,93
2,35 ,33
2,22 ,19
2,13 ,10
2,06 ,04
2,01 1,98
1,97 ,94
1,93 ,91
1,90 ,88
1,81 ,78
1,76 ,73
1,70 ,67
1,65 ,62
1,61 ,58
1,59 ,56
1,58 ,54
1,57 ,53
22 24
2,56 ,54
^dfT~~~^L 1 2 3 26 ,91 ,52 ,31 ,17 28 30
,89 ,88
,50 ,49
40 50 60 80 100
2,84 ,81 ,79 ,77 ,76
2,44 ,41 ,39 ,37 ,36
200 500 oo
2,73 ,72 .71
2,33 ,31 .30
,29 ,28
4 ,08
,16 ,14
56 ,01
7 ,96
8 ,92
9 ,88
,84 ,82
15 ,76
20 30 50 ,71,65 ,59
,74 ,72
,69,63 ,67,61
,06 ,05
,00 1,98
,94 ,93
,90 ,88
2,23 2,09 ,20 ,06 ,18 ,04 ,15 ,02 ,14 ,00
2,00 1,97 ,95 ,92 ,91
1,93 ,90 ,87 ,85 ,83
1,87 ,84 ,82 ,79 ,78
1,83 1,79 1,76 ,80 ,76 ,73 ,77 ,74 ,71 ,75 ,71 ,68 ,73 ,70 ,66
1,66 ,63 ,60 ,57 ,56
2,11 ,10 .08
1,88 ,86 .85
1,80 1,75 ,79 ,73 .77 .72
1,70 1,66 ,68 ,64 .67 .63
1,97 ,96 .94
,87 ,85
10 ,86
1,63 ,61 .60
,57 ,55
100 ,55
200500 ,53 ,51
,50
l&^dŹ 26
,53 ,51
,50 ,48
,49 ,47
,48 ,46
28 30
1,61 1,54 1,48 ,57,50 ,44 ,54,48 ,41 ,51,44 ,38 ,49,42 ,35
1,43 ,39 ,36 ,32 ,29
1,41 ,36 ,33 ,28 ,26
1,39 ,34 ,31 ,26 ,23
1,38 ,33 ,29 ,24 ,21
40 50 60 80 100
1,52 1,46 1,38 1,31 ,50 ,44,36 ,28 .49 .42.34 .26
1,24 ,21 .18
1,20 ,16 .13
1,17 ,12 .08
1,14 ,09 .00
200 500 °o
a = 0,05 df2~~~~~J$L\ 1
3
4
5
6
7
8
9
10
1 2 3 4 5
161 18,5' 10,1 7,71 6,61
200 19,0 9,55 6,94 5,79
2
216 19,2 9,28 6,59 5,41
225 19,2 9,12 6,39 5,19
230 19,3 9,01 6,26 5,05
234 19,3 8,94 6,16 4,95
237 19,4 8,89 6,09 4,88
239 19,4 8,85 6,04 4,82
241 19,4 8,81 6,00 4,77
242 19,4 8,79 5,96 4,74
244 19,4 8,74 5,91 4,68
12
14 16 245 19,4 8,71 5,87 4,64
246 19,4 8,69 5,84 4,60
18 20
247 19,4 8,67 5,82 4,58
248 19,4 8,66 5,80 4,56
1 2 3 4 5
6 7 8 9 10
5,99 ,59 ,32 ,12 4,96
5,14 4,74 ,46 ,26 ,10
4,76 ,35 ,07 3,86 ,71
4,53 ,12 3,84 ,63 ,48
4,39 3,97 ,69 ,48 ,33
4,28 3,87 ,58 ,37 ,22
4,21 3,79 ,50 ,29 ,14
4,15 3,73 ,44 ,23 ,07
4,10 3,68 ,39 ,18 ,02
4,06 3,64 ,35 ,14 2,98
4,00 3,57 ,28 ,07 2,91
3,96 ,53,49 ,24,20 ,03 2,86,83
3,92 3,90 ,47 ,17 2,99 2,% ,80
3,87 ,44 ,15 2,94 ,77
6 7 8 9 10
11 12
4,84 .75
3,98 ,89
3.59 ,49
3,36 ,26
3,20 ,11
3,09 ,00
3,01 2,91
2,95 ,85
2,90 ,80
2,85 ,75
2,79 ,69
2,74 ,64,60
2,70 ,57
2,65 ,54
11 12
IŚfr^ZŹ
2,67
4f2~~~~4&J 13 14 15
A
1 ,67 ,60 ,54
2 ,81 ,74 ,68
3 .41 ,34 ,29
4 ,18 ,11 ,06
5 6 ,03 2,92 2,96 ,85 ,90 ,79
7 ,83 ,76 ,71
8 ,77 ,70 ,64
9 ,71 ,65 ,59
10 ,67 ,60 ,54
12 ,60 ,53 ,48
14 ,55 ,48 ,42
16 ,51 ,44 ,38
18 ,48 ,41 ,35
20 ,46 ,39 ,33
jfl^^jff, 13 14 15
16 17 18 19 20
4,49 ,45 ,41 ,38 ,35
3,63 ,59 ,55 ,52 ,49
3,24 ,20 ,16 ,13 ,10
3,01 2,96 ,93 ,90 ,87
2,85 ,81 ,77 ,74 ,71
2,74 ,70 ,66 ,63 ,60
2,66 ,61 ,58 ,54 ,51
2,59 ,55 ,51 ,48 ,45
2,54 ,49 ,46 ,42 ,39
2,49 ,45 ,41 ,38 ,35
2,42 ,38 ,34 ,31 ,28
2,37 ,33 ,29 ,26 ,22
2,33 ,29 ,25 ,21 ,18
2,30 ,26 ,22 ,18 ,15
2,28 ,23 ,19 ,16 ,12
16 17 18 19 20
21 22 23 24 25
4,32 ,30 ,28 ,26 ,24
3,47 ,44 ,42 ,40 ,39
3,07 ,05 ,03 ,01 2,99
2,84 ,82 ,80 ,78 ,76
2,68 ,66 ,64 ,62 ,60
2,57 ,55 ,53 ,51 ,49
2,49 ,46 ,44 ,42 ,40
2,42 ,40 ,37 ,36 ,34
2,37 ,34 ,32 ,30 ,28
2,32 ,30 ,27 ,25 ,24
2,25 ,23 ,20 ,18 ,16
2,20 ,17 ,15 ,13 ,11
2,16 ,13 ,11 ,09 ,07
2,12 ,10 ,07 ,05 ,04
2,10 ,07 ,05 ,03 ,01
21 22 23 24 25
26 27 28 29 30
4,23 ,21 ,20 ,18 ,17
3,37 ,35 ,34 ,33 ,32
2,98 ,96 ,95 ,93 ,92
2,74 ,73 ,71 ,70 ,69
2,59 ,57 ,56 ,55 ,53
2,47 ,46 ,45 ,43 ,42
2,39 ,37 ,36 ,35 ,33
2,32 ,31 ,29 ,28 ,27
2,27 ,25 ,24 ,22 ,21
2,22 ,20 ,19 ,18 ,16
2,15 ,13 ,12 ,10 ,09
2,09 ,08 ,06 ,05 ,04
2,05 ,04 ,02 ,01 1,99
2,02 ,00 1,99 ,97 ,96
1,99 ,97 ,96 ,94 ,93
26 27 28 29 30
32 34 36 38 40
4,15 ,13 ,11 ,10' ,08
3,29 ,28 ,26 ,24 ,23
2,90 ,88 ,87 ,85 ,84
2,67 ,65 ,63 ,62 ,61
2,51 ,49 ,48 ,46 ,45
2,40 ,38 ,36 ,35 ,34
2,31 ,29 ,28 ,26 ,25
2,24 ,23 ,21 ,19 ,18
2,19 ,17 ,15 ,14 ,12
2,14 ,12 ,11 ,09 ,08
2,07 ,05 ,03 ,02 ,00
2,01 1,99 ,98 ,96 ,95
1,97 ,95 ,93 ,92 ,90
1,94 ,92 ,90 ,88 ,87
1,91 ,89 ,87 ,85 ,84
32 34 36 38 40
42 44 46 48
4,07 ,06 ,05 ,04
3,22 ,21 ,20 ,19
2,83 ,82 ,81 ,80
2,59 ,58 ,57 ,57
2,44 ,43 ,42 ,41
2,32 ,31 ,30 ,29
2,24 ,23 ,22 ,21
2,17 ,16 ,15 ,14
2,11 ,10 ,09 ,08
2,06 ,05 ,04 ,03
1,99 ,98 ,97 ,96
1,93 ,92 ,91 ,90
1,89 ,88 ,87 ,86
1,86 ,84 ,83 ,82
1,83 ,81 ,80 ,79
42 44 46 48
OJ O
^~~~~^L 50
1 ,03
2 ,18
3 ,79
4 ,56
5 ,40
6 ,28
7 .20
8 ,13
9 ,07
10 .03
12 ,95
14 ,89
16 ,85
18 ,81
20 ,78
l$^^dŹ 50
60 80 100 125 150
4,00 3,96 ,94 ,92 ,90
3,15 ,11 ,09 ,07 ,06
2,76 ,72 ,70 ,68 ,66
2,53 ,49 ,46 ,44 ,43
2,37 ,33 ,31 ,29 ,27
2,25 ,21 ,19 ,17 ,16
2,17 ,13 ,10 ,08 ,07
2,10 ,06 ,03 ,01 ,00
2,04 ,00 1,97 ,96 ,94
1,99 ,95 ,93 ,91 ,89
1,92 ,88 ,85 ,83 ,82
1,86 ,82 ,79 ,77 ,76
1,82 ,77 ,75 ,72 ,71
1,78 ,73 ,71 ,69 ,67
1,75 ,70 ,68 ,65 ,64
60 80 100 125 150
200 300 500 1000 co
3,89 ,87 ,86 ,85 ,84
3,04 ,03 ,01 ,00 ,00
2,65 ,63 ,62 ,61 ,60
2,42 2,26 ,40 ,24 ' ,39 ,23 ,38 ,22 ,37 ,21
2,14 ,13 ,12 ,11 ,10
2,06 ,04 ,03 ,02 ,01
1,98 ,97 ,96 ,95 ,94
1,93 ,91 ,90 ,89 ,88
1,88 ,86 ,85 ,84 ,83
1,80 ,78 ,77 ,76 ,75
1,74 ,72 ,71 ,70 ,69
1,69 ,68 ,66 ,65 ,64
1,66 ,64 ,62 ,61 ,60
1,62 ,61 ,59 ,58 ,57
200 300 500 1000 °°
a = 0,05 4/t---4ftJ 22~
24
26
28
30
35
40
45
50
60
80
~100
200
500
~
\dIi^^3k
1 2 3 4 5
249 249 19,5 - 19,5 8,65 8,64 5,79 5,77 4,54 4,53
249 19,5 8,63 5,76 4,52
250 19,5 8,62 5,75 4,50
250 19,5 8,62 5,75 4,50
251 19,5 8,60 5,73 4,48
251 19,5 8,59 5,72 4,46
251 19,5 8,59 5,71 4,45
252 19,5 8,58 5,70 4,44
252 19,5 8,57 5,69 4,43
252 19,5 8,56 5,67 4,41
253 19,5 8,55 5,66 4,41
254 19,5 8,54 5,65 4,39
254 19,5 8,53 5,64 4,37
254 19,5 8,53 5,63 4,37
1 2 3 4 5
6 7 8 9 10
3,86 ,43 ,13 2,92 ,75
3,84 ,41 ,12 2,90 ,74
3,83 ,40 ,10 2,89 ,72
3,82 ,39 ,09 2,87 ,71
3,81 ,38 ,08 2,86 ,70
3,79 ,36 ,06 2,84 ,68
3,77 ,34 ,04 2,83 ,66
3,76 ,33 ,03 2,81 ,65
3,75 ,32 ,02 2,80 ,64
3,74 ,30 ,01 2,79 ,62
3,72 ,29 2,99 ,77 ,60
3,71 ,27 2,97 ,76 ,59
3,69 ,25 2,95 ,73 ,56
3,68 ,24 2,94 ,72 ,55
3,67 ,23 2,93 ,71 ,54
6 7 8 9 10
11 12
2,63 ,52
2,61 .51
2,59 .49
2,58 ,48
2,57 ,47
2,55 ,44
2,53 ,43
2,52 ,41
2,51 ,40
2,49 ,38
2,47 ,36
2,46 ,35
2,43 ,32
2,42 ,31
2,40 ,30
11 12
dł^^L 22 13 ,44 14 ,37 15 ,31
OJ —
24 ,42 ,35 ,29
26 ,41 ,33 ,27
28 ,39 ,32 ,26
30 ,38 ,31 ,25
35 ,36 ,28 ,22
40 ,34 ,27 ,20
45 ,33 ,25 ,19
50 ,31 ,24 ,18
60 ,30 ,22 ,16
80 ,27,26 ,20,19 ,14,12
100 ,23 ,16 ,10
200 ,22 ,14 ,08
500 ,21 ,13 ,07
~
JG-—-gą 13 14 15
16 17 18 19 20
2,25 ,21 ,17 ,13 ,10
2,24 ,19 ,15 ,11 ,08
2,22 ,17 ,13 ,10 ,07
2,21 ,16 ,12 ,08 ,05
2,19 ,15 ,11 ,07 ,04
2,17 ,12 ,08 ,05 ,01
2,15 ,10 ,06 ,03 1,99
2,14 ,09 ,05 ,01 1,98
2,12 ,08 ,04 ,00 1,97
2,11 ,06 ,02 1,98 ,95
2,08 2,07 2,04 ,03 - ,02 1,99 1,991,98 ,95 ,93 ,96,94 ,91 ,89 ,92,91 ,88 ,86
2,02 1,97 ,92 ,88 ,84
2,01 1,96
16 17 18 19 20
21 22 23 24 25
2,07 ,05 ,02 ,00 1,98
2,05 ,03 ,00 1,98 ,96
2,04 ,01 1,99 ,97 ,95
2,02 ,00 1,97 ,95 ,93
2,01 1,98 ,96 ,94 ,92
1,98 ,96 ,93 ,91 ,89
1,96 ,94 ,91 ,89 ,87
1,95 ,92 ,90 ,88 ,86
1,94 ,91 ,88 ,86 ,84
1,92 ,89 ,86 ,84 ,82
1,89 ,86,85 ,84,82 ,82,80 ,80,78
1,88 ,82 ,79 ,77 ,75
1,84 ,80 ,77 ,75 ,73
1,82 ,78 ,76 ,73 ,71
1,81
21 22 23 24 25
26 27 28 29 30
1,95 ,95 ,93 ,92 ,91
1,95 ,93 ,91 ,90 ,89
1,93 ,91 ,90 ,88 ,87
1,91 ,90 ,88 ,87 ,85
1,90 ,88 ,87 ,85 ,84
1,87 ,86 ,84 ,83 ,81
1,85 ,84 ,82 ,81 ,79
1,84 ,82 ,80 ,79 ,77
1,82 ,81 ,79 ,77 ,76
1,80 ,79 ,77 ,75 ,74
1,78 ,76,74 ,74,73 ,73,71 ,71,70
1,76 ,71 ,69 ,67 ,66
1,73 ,69 ,67 ,65 ,64
1,71 ,67 ,65 ,64 ,62
1,69
26 27 28 29 30
32 1,88 34 ,86 36,85 ' ,82 38 ,83 40 ,81
1,86 ,84
1,85 ,82 ,81 ,79 ,77
1,83 ,80 ,79 ,77 ,76
1,82 ,80 ,78 ,76 ,74
1,79 ,77 ,75 ,73 ,72
1,77 ,75 ,73 ,71 ,69
1,75 ,73 ,71 ,69 ,67
1,74 ,71 ,69 ,68 ,66
1,71 ,69 ,67 ,65 ,64
1,69 ,66,65 ,64,62 ,62,61 ,61,59
1,67 ,61 ,59 ,57 ,55
1,63 ,59 ,56 ,54 ,53
1,61 ,57 ,55 ,53 ,51
1,59
32 34 36 38 40
42 44,79 46,78 48,77
1,78
1,76 ,75 ,74 ,73
1,74 ,73 ,72 ,71
1,73 ,72 ,71 ,70
1,70 ,69 ,68 ,67
1,68 ,67 ,65 ,64
1,66 ,65 ,64 ,62
1,65 ,63 ,62 ,61
1,62 ,61 ,60 ,59
1,59 ,58,56 ,57,55 ,56,54
1,57 ,52 ,51 ,49
1,53 ,49 ,48 ,47
1,51 ,48 ,46 ,45
1,49
42 44 46 48
1,80 ,77 ,76 ,75
,81 ,79
& OJ
r #T-—<&] 50
22~ 24
,76
26
,74
28
,72
,70
30
35
40
45
50
60
80
100
,69
,66
,63
,61
,60
,58
,54
,52
200500 ,48
,46
,44
50
1,39 ,32 ,28 ,25 ,22
60 80 100 125 150
Śfr^^dk
60 80 100 125 150
1,72 ,68 ,65 ,63 ,61
1,70 ,65 ,63 ,60 ,59
1,68 ,63 ,61 ,58 ,57
1,66 ,62 ,59 ,57 ,55
1,65 ,60 ,57 ,55 ,53
1,62 ,57 ,54 ,52 ,50
1,59 ,54 ,52 ,49 ,48
1,57 ,52 ,49 ,47 ,45
1,56 ,51 ,48 ,45 ,44
1,53 ,48 ,45 ,42 ,41
1,50 ,45 ,41 ,39 ,37
1,48 ,43 ,39 ,36 ,34
1,44 ,38 ,34 ,31 ,29
1,41 ,35 ,31 ,27 ,25
200 300 500 1000
1,60 ,58 ,56 ,55 ,54
1,57 ,55 ,54 ,53 ,52
1,55 ,53 ,52 ,51 ,50
1,53 ,51 ,50 ,49 ,48
1.52 ,50 ,48 ,47 ,46
1,48 ,46 ,45 ,44 ,42
1,46 ,43 ,42 ,41 ,39
1,43 ,41 ,40 ,38 ,37
1,41 ,39 ,38 ,36 ,35
1,39 ,36 ,34 ,33 ,32
1,35 ,32 ,30 ,29 ,27
1,32 ,30 ,28 ,26 ,24
1,26 ,23 ,21 ,19 ,17
1,22 1,19 ,19 ,15 ,16 ,11 ,13 ,08 ,11,00 °o
00
200 300 500 1000
a = 0,01 ~dfr-~~$L
12
1 2 3 4 5
405 500 98,5 ' 99,0 34,1 30,8 21,2 18,0 16,3 13,3
6 7 8 9 10
13,7 12,29,55 11,3 10,6 ,07,56
11 12
9,657,21 ,336,93
3
4
540 99,2 29,5 16,7 12,1
563 99,2 28,7 16,0 11,4
5
10,9 9,78 9,158,75 8,45 7,85 7,46 8,65 7,59 0,16,63 ,02 6,99 6,42,06 ,55 5,99 5,64 6,22 5,95
5,67 5,32 ,41 ,06
6 576 99,3 28,2 15,5 11,0
78 586 99,3 27,9 15,2 10,7
593 99,4 27,7 15,0 10,5
8,47 7,19 6,37 5,80 ,39
8,268,10 6,996,84 ,18,03 5,615,47 ,20,06
5,07 4,82
4,894,74 ,64,50
9 598 99,4 27,5 14,8 10,3
10 602 99,4 27,3 14,7 10,210,1
7,98 6,72 5,91 ,35 4,94
1214 606 611 99,4 99,4 27,2 27,1 14,5 14,4 9,899,77
16 614 99,4 26,9 14,2 9,68
18
20
617 99,4 26,8 14,2 9,61
619 99,4 26,8 14,1 9,55
jfr-^-^f 621 99,4 26,7 14,0
1 2 3 4 5
7,87 6,62 5,81 ,26 4,85
7,727,60 6,476,36 5,675,56 ,11,00 4,714,60
7,52 6,27 5,48 4,92 ,52
7,45 6,21 5,41 4,86 ,46
7,40 6,16 5,36 4,81 ,41
6 7 8 9 10
4,63 4,54 ,39 ,30
4,404,29 ,16,05
4,21 3,97
4,15 3,91
4,10 3,86
11 12
d^^^_^T 13 ,07 14 8,86 15 ,68
ON OJ
,70 ,51 ,36
3_ ,74 ,56 ,42
4 ,21 ,04 4,89
5 4,86 ,70 ,56
67 ,62 ,46 ,32
__8 .44 ,28 ,14
,30 ,14 ,00
__?_ ,19 ,03 3,89
10 ,10 3,94 ,80
12 3,96 ,80 ,67
14 3,86 ,70 ,56
16 .78 3,62 3,49
18 ,72 ,56 ,42
20 ,66 ,51 ,37
^Ł--^5fe 13 14 15
3,78 ,68 ,60 ,52 ,46
3,69 ,59 ,51 ,43 ,37
3,55 ,46 ,37 ,30 ,23
3,45 ,35 ,27 ,19 ,13
3,37 ,27 ,19 ,12 ,05
3,31 ,21 ,13 ,05 2,99
3,26 ,16 ,08 ,00 2,94
16 17 18 19 20
3,31 ,26 ,21 ,17
3,17 ,12 ,07 ,03 2,99
3,07 ,02 2,97 ,93 ,89
16 17 18 19 20
8,53 ,40 ,29 ,18 ,10
6,23 ,11 ,01 5,93 ,85
5,29 ,18 ,09 ,01 4,94
4,77 ,67 ,58 ,50 ,43
4,44 ,34 ,25 ,17 ,10
4,20 ,10 ,01 3,94 ,87
4,03 3,93 ,84 ,77 ,70
3,89 ,79 ,71 ,63 ,56
21 22 23 24 25
8,02 7,95 ,88 ,82 ,77
5,78 ,72 ,66 ,61 ,57
4,87 ,82 ,76 ,72 ,68
4,37 ,31 ,26 ,22 ,18
4,04 3,99 ,94 ,90 ,86
3,81 ,76 ,71 ,67 ,63
3,64 ,59 ,54 ,50 ,46
3,51 3,40 ,45 ,35 ,41 ,30 ,36 ,26 ,32,22 ,13
2,99 ,94 ,89 ,85 ,81,75
2,93 ,88 ,83 ,79 ,70
2,88 ,83 ,78 ,74
21 22 23 24 25
26 27 28 29 30
7,72 ,68 ,64 ,60 ,56
5,53 ,49 ,45 ,42 ,39
4,64 ,60 ,57 ,54 ,51
4,14 ,11 ,07 ,04 ,02
3,82 ,78 ,75 ,73 ,70
3,59 ,56 ,53 ,50 ,47
3,42 ,39 ,36 ,33 ,30
3,29 3,18 3,09 2,96 2,86 2,78 ,26,15 ,06 ,93 ,82 ,75 ,68 ,23,12 ,03 ,90 ,79 ,72 ,65 ,20,09 ,00 ,87 ,77 ,69 ,63 ,17 ,07 2,98 ,84 ,74 ,66,60
2,72 ,63 ,60 ,57 ,55
2,66
26 27 28 29 30
32 34 36 38 40
7,50 ,44 ,40 ,35 ,31
5,34 ,29 ,25 ,21 ,18
4,46 ,42 ,38 ,34 ,31
3,97 ,93 ,89 ,86 ,83
3,65 ,61 ,57 ,54 ,51
3,43 ,39 ,35 ,32 ,29
3,26 ,22 ,18 ,15 ,12
3,13 3,02 2,93 2,80 2,70 2,62 ,092,98 ,89 ,76 ,66 ,58 ,51 ,05,95 ,86 ,72 ,62 ,54 ,48 ,02,92 ,83 ,69 ,59 ,51 ,45 2,99,89 ,80 ,66 ,56 ,48 ,42
2,55 ,46 ,43 ,40 ,37
2,50
32 34 36 38 40
42 44 46 48
7,28 ,25 ,22 ,19
5,15 ,12 ,10 ,08
4,29 ,26 ,24 ,22
3,80 ,78 ,76 ,74
3,49 ,47 ,44 ,43
3,27 ,24 ,22 ,20
3,10 ,08 ,06 ,04
2,97 2,86 2,78 2,64 2,54 2,46 ,95,84 ,75 ,62 ,52 ,44 ,37 ,93,82 ,73 ,60 ,50 ,42 ,35 ,91,80 ,72 ,58 ,48 ,40 ,33
2,40 ,32 ,30 ,28
2,34
42 44 46 48
12 ,56
14 ,46
16 ,38
18 ,32
20 .27
2,82
2,72
2,63
2,50
2,39
2,31
2,25
2,20
,74 .69 ,66 ,63
,64 ,59
,95 .92
,87 ,82 ,79 ,76
,53
,55 ,50 ,47 ,44
,42 ,37 ,33 ,31
,31 .26 ,23 ,20
,23 ,19 ,15 ,12
,17 ,12 ,08 ,06
,12 ,07 ,03 ,00
3,11
2,89
2,73
2,60
2,50
2,41
2,27
2,17
2,09
2,02
1,97
,08 ,05 ,04 ,02
,86 ,84 ,82 ,80
,70 ,68 ,66 ,64
,57 ,55 ,53 ,51
,47 ,44 ,43 .41
,38 ,36 ,34 ,32
,24 ,22 ,20
,14 .12 ,10 ,08
,06
1,99 ,97 ,95
,94 ,92 ,90 ,88
60
7,08
4,98
4,13
3,65
3,34
3,12
2,95
80
6,96
,94 ,92
,56 ,51 ,47 ,45
,26 ,21 ,17 ,14
,04
,90 ,84 ,81
,88 ,82 ,78 ,75
,04
100 125 150 200 300 500
6,76
4,71
3,88
3,41
,68
,85 ,82 ,80 ,78
,38 ,36 ,34 ,32
1000 oo
.65 ,63 ,61
3,98
9
10 ,70
2 ,06
,72 ,69 ,66 ,63
3 4 ,20 ,72
,79
50
1 ,17
5 .41
6 7 ,19 ,02
2,99
8 ,89
.55
,18 Liczby w pierwszym wierszu (dfi = 1) należy pomnożyć przez 10
,04
,02 ,00
50
60 80 100 125 150 200 300 500 1000 oo
A. ,\ I \'i :
i 2 3
4 5 6 7 8
CT = 0,01
22 ■ 24 622 623
26 624
99,5 26,6 14,0 9,51
99,5 26,6 13,9 9,43
99,5 26,6 13,9 9,47
9 10
7,35 6,11 5,32 4,77 ,36
7,31 6,07 5,28 4,73 ,33
7,28 6,04 5,25 4,70
11
4,06
4,02
3,99
,30
28 625 99,5 26,5 13,9 9,40 7,25 6,02 5,22 4,67
,27 3,96
30 626
35 628
40 629
45 630
50 630
60 631
80 633
100 633
200 635
500 oo 636 637
1
99,5 26,5 13,8 9,38
99,5 26,5 13,8 9,33
99,5 26,4 13,7 9,29
99,5 26,4 13,7 9,26
99,5 26,4 13,7 9,24
99,5 26,3 13,7 9,20
99,5
99,5
99,5
26,3
26,2
26,2
13,6
13,6
13,5
99,5 26,1 13,5 9,04
99,5 26,1 13,5 9,02
2 3 4 5
7,23 5,99
7,18 5,94
7,14 5,91
7,11 5,88
7,09 5,86
7,06 5,82
6,90 5,67 4,88
6,88 5,65 4,86
6 7 8 9 10 11
,20 4,65
,25 3.94
,15 4,60
.2 3,89 0
9,16
9,13
9,08
7,01
6,99
6,93
5,78
5,75
5,70
4,96
4,91
,03 4,99 4,57 4,54 4,52 4,48 ,4 ,04 .17 ,14 .12 ,0 3,86 3,83 3,81 3,78 3,73 8 ,12
.09
,07
,42 ,01 3,71
,36
,3
,31
3,96
3,93
3,91
3,66
3,62
3,60
//, df\ I 22 12 1 3.82"" 13 ,62 14 46 15 ,33 16 3,22 17 ,12 18 ]o3 19 2,96 20 ,90 21 2,84 22 ,78 23 ,74 24 ,70 25 ,66 26 2,62 27 ,59 28 ,56 29 ,53 30 $\,47 32 2.46 34 .42,38 36 ,38,35 38 35 ' 40 33,29
5
42 44 46 48
2.30 ,28 .26 ^24
24 3,78 ,59 43 ,29 3,18 ,08 ,00 2,92 ,86 2,80 ,75 ,70 ,66 ,62 2,58 ,55 ,52 ,49 ,44 2,42 ,35 ,32 ,32\l% ^26
26 ,75 ,56 ,40 ,26 3,15 ,05 2,97 ,89 ,83 2,77 ,72 ,67 ,63 ,59 2,55 ,52 ,49 .46 ,41,39 2,39 ,32,30 .29,26 ,26,23 ,23,20
28 30 35 40 45 50 ,72,70 ,65 ,62 ,59 ,57 ,53,51 ,46 ,43 ,40 ,38 ,37,35 ,30 ,27 ,24 ,22 ,24,21 ,17 ,13 ,10 ,08 3,12 3,10 3,05 3,02 2,99 2,97 ,03 ,00 2,96 2,92 ,89 ,87 2,942,92 ,87 ,84 ,81 ,78 ,87.84 ,80 ,76 ,73 ,71 ,80,78 ,73 ,69 ,67 ,64 2,74 2,72 2,67 2,64 2,61 2,58 ,69,67 ,62 • ,58 ,55 ,53 ,64,62 ,57 ,54 ,51 ,48 ,60.58 ,53 ,49 ,46 ,44 .56,54 ,49 ,45 ,42 ,40 2,53 2,50 2,45 2,42 2,39 2,36 ,49,47 ,42,38 ,35 ,33 ,29 ,46,44 ,39,35 ,32 ,30 ,26 ,44.41 ,36,33 ,30 ,27 ,23 ,34,30 ,27 .25 ,21 ,16 2,36 2,34 2.29 2,25 2,22 2,20 ,25,21 ,18 ,16 ,12 ,07 ,21,17 ,14 ,12 ,08 ,03 ,18,14 ,11 ,09 ,05 ,00 ,15,11 ,08 ,06 ,02 1,97
60 .54 ,34 ,18 ,05 2,93 ,83 ,75 ,67 ,61 2,55 ,50 ,45 ,40 ,36 2,33
2,26 ,24 ,22 [20
2,23 .21 ,19 .17
2,20 2,18 2,13 2,09 2,06 2,03 ,18,15 ,10,06 ,03 ,01 ,97 ,16,13 ,08 ,04 ,01 1,99 ,14.12 ,06 ,02 1,99 .97
1,99
,13 2,16 ,04 ,00 1,97 ,94
,95 ,93
80 ,49 ,30 ,14 ,00 2,89 ,79 ,70 ,63 ,56 2,50 ,45 ,40 ,36 ,32 2,28 ,25 ,22 .19 ,07 2,11 1,98 ,94 ,90 ,87
100 ,47 ,27 ,11 2,98 2,86 ,76 ,68 ,60 ,54 2,48 ,42 .37 ,33 .29 2,25 ,22 ,19 ,16 ,03 2.08 ,94 ,90 ,86 .83
200 .41 ,22 ,06 2,92 2,81 ,71 ,62 ,55 ,48 2,42 ,36 ,32 ,27 ,23 2,19 ,16 ,13 ,10 ,01 2,02 ,91 ,87 .84 ,80
500~ ,38 ,19 3,03 2,89 2,78 ,68 ,59 ,51 ,44 2.38 ,33 ,28 ,24 ,19 2,16 ,12 ,09 ,06 30 1.98 34 36 38 40
ffi-^^Ł ,36 12 -.17 13 ,00 14 2,87 15 2,75 16 ,65 17 ,57 18 ,49 19 ,42 20 2,36 21 ,31 22 ,26 23 ,21 24 ,17 25 2,13 26 ,10 27 ,06 28 ,03 29 1,96
32
1,94 ,92 ,90 ,88
1,91 ,89 ,86 ,84
1,85 ,82 ,80 .78
1,80 ,78 .75 ,73
1,78 .75 ,73 ,70
42 44 46 48
Os
50 60 80 100 125 150 200 300 500 1000 oo
22 ,22
24 ,18
2,15 ,07 ,02 1,98 ,% 1,93 ,89 ,87 ,85 ,83
2,12 ,03 1,98 ,94 ,92 1,89 ,85 ,83 ,81 ,79
26 ,15 2,08 ,00 1,94 ,91. ,88 1,85 ,82 ,79 ,77
,76
28 ,12
30 ,10
35 ,05
40 ,01
45 ,97
50 ,95
60 ,91
80 ,86
100 ,82
200 ,76
500 ,71
2,05 1,97 .92 ,88 ,85 1,82 ,79 ,76 ,74 ,72
2,03 1,94 ,89 ,85 .83 1,79 .76 ,74 ,72 ,70
1,98 ,89 ,84 ,80 ,77 1,74 ,71 ,68 ,66 ,64
1,94 ,85 ,80 ,76 ,73 1,69 ,66 ,63 ,61 ,59
1,90 ,81 ,76 ,72 ,69 1,66 ,62 ,60 ,57 ,55
1,88 ,79 ,73 ,69 ,66 1,63 .59 ,56 ,54 ,52
1,84 ,75 ,69 ,65 ,62 1,58 ,55 ,52 ,50 ,47
1,78 ,69 ,63 ,59 ,56 1,52 ,48 ,45 ,43 ,40
1,75 ,66 ,60 ,55 ,52 1,48 ,44 ,41 ,38 ,36
1,68 ,58 ,52 ,47 ,43 1,39 ,35 ,31 ,28 ,25
1,63 ,53 ,47 ,41 ,38 1,33 ,28 ,23 ,19 .15
Liczby w pierwszym wierszu (dfł = 1) należy pomnożyć" przez 10 "[I
' ' ' ■ ;
oo
,68
50
1,60 ,49 ,43 ,37 ,33 1,28 22 ,16 ,11 ,00
60 80 100 125 150 200 300 500 1000 oo
Tablica 6a. Wartości krytyczne statystyki k* testu serii Walda-Wolfowitza 2 2 3 4 5 6 7 8 9 10
11 12
13 14 15 16 17 18 19 20
2 2 2 2 2 2 2 2 2
3
2 2 2 2 2 2 2 2
2 3 3 3 ,3 3 3
4
2 2 2 3 3 3 3 3 3 3 3 4
4 4
4 4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
2 2
2 3
2 3 3
2 3
2 3 4
2 3 4
3
4
4 5 6 6 7 7 8
4 5 6 6
2 3 4 4 5 6 7 7 8 9 9 10 10 11
2 3 4 5 5
2 3 4 5
2 3 4 5
4 5 6 6 7 7 7 8 8 8 9 9 9 10 10
2 2 3 4 5 5
2 3
4
2 2 3 4 5 5 6 6 7
2 3
2
2 2 3
6
6
6 7
6 6 7 8 9 9 10
2 3 3 3 3 3 4 4 4 4 4
4 4 5 5 5
3 3 4 4 4
4 5 5 5 5 5 5 6 6 ACWii".
2 3 3 3 4 4 5 5
5 5 5 6 6
6 6
6 6
3 3 4 4 5 5 5 6 6 6 6 6 7
4
4 5 5 5 6 6 6 7 7
3 4 5 5 5 6 6 7 7
7
5 5 6 6 7
7 7 8 8 8 9 9 9 9
7 8 8
9 9
6
7 7 8 8 9 9 9 10 10 10 11
8 9 9 10 10 11 11 11
7 8 9 8 7 10 8 7 8 10 8 7 8 10 9 7 8 10 11 12 AfeiAjrt-c-, 1 , **■- . -!*ui A * ■" I -/iM t fi. 1 . ( S - 5
7
7 8 8 9 9 10 10 11 11 11 12 12
11 11 12 12 13
7 8
8 9
9 10 10 11 11 12 12 13 13
8 8 9 10 10 11
11 12
12 13 13 13
10 11 12 12 13 13 13 14
Tablica 6b. Wartości krytyczne statystyki k" testu serii Walda-Wolfowitza 2 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
3
-
4
5
6
9 9 9
10 10 11 11
9 It) 11 12 12
7
8
9
10
11
12
13
14
15
16
17
18
19
20
11 12
II
13 13
13
13 14 15 16 16 17
13 14 15 16 17 17
17 IS 19
17 18 19
17 18 19
17 18
20 21
20 21
20
21
18
15 16 17 18 19 19
15 16
17
13 14 16 16 17 18 19
15
14 15 15
13 14 14 15 16 16
21
18 18
19 19
20
20 20
21
21 22
22 23 23 24 25
22 23
25 25
22 23 23 24 25
15
25 26
26 26
17 18 20 21 22 23 24 25 25 26 27 27
25
26
27
12
14
16
13
14
13 13
14
14
13
14
16
16
15
17
15
lf) 16
15
16
18
IM
20
21
22
17
18 18
L9
21
18
19
21
21 22
22 23
23
17
2(1 20
17
(
19
17 18 19
IS
18 19
20
20
20
21 22 22 2.1
17 17
IS
l> 20
20
21
22
23
18
21
22
2.1
24 24
17
18
20
21
22
23 23
24
25
23 23 24 25
24
20
26 26
27 27
28
Tablica 7. Wartości z odpowiadające danym wartościom r r
O.(KH)
0,001
0,002
0,003
0,004
0,005
0,006
0,007
0,008
0,009
0,000
0,0000
0,0010
0,0020
0,0030
0,0040
0,0050
0,0060
0,0070
0,0080
0,0090
0,010 0,020 0,030 0,040
0,0100 0,0200 0,0300 0,0400
0,0110 0,0210 0,0310 0,0410
0,0120 0,0220 0,0320 0,0420
0,0130 0,0230 0,0330 0,0430
0,0140 0,0240 0,0340 0,0440
0,0150 0,0250 0,0350 0,0450
0,0160 0,0260 0,0360 0,0460
0,0170 0,0270 0,0370 0,0470
0,0180 0,0280 0,0380 0,0480
0,0190 0,0290 0,0390 0,0490
0,050
0,0501
0,0511
0,0521
0,0531
0,0541
0,0551
0,0561
0,0571
0,0581
0,0591
0,060 0,070 0,080 0,090
0,0601 0,0701 0,0802 0,0902
0,0611 0,0711 0,0812 0,0912
0,0621 0,0721 0,0822 0,0922
0,0631 0,0731 0,0832 0,0933
0,0641 0,0741 0,0842 0,0943
0,0651 0,0751 0,0852 0,0953
0,0661 0,0761 0,0862 0,0963
0,0671 0,0771 0,0872 0,0973
0,0681 0,0782 0,0882 0,0983
0,0691 0,0792 0,0892 0,0993
0,100
0,1003
0,1013
0,1024
0,1034
0,1044
0,1054
0,1064
0,1074
0,1084
0,1094
0,110 0,120 0,130 0,140
0,1105 0,1206 0,1308 0,1409
0,1115 0,1216 0,1318 0,1419
0,1125 0,1226 0,1328 0,1430
0,1135 0,1236 0,1338 0,1440
0,1145 0,1246 0,1348 0,1450
0,1155 0,1257 0,1358 0,1460
0,1165 0,1267 0,1368 0,1470
0,1175 0,1277 0,1379 0,1481
0,1185 0,1287 0,1389 0,1491
0,1195 0,1297 0,1399 0,1501
0,150
0,1511
0,1522
0,1532
0,1542
0,1552
0,1563
0,1573
0,1583
0,1593
0,1604
0,160 0,170 0,180 0,190
0,1614 0,1717 0,1820 0,1923
0,1624 0,1727 0,1830 0,1934
0,1634 0,1737 0,1841 0,1944
0,1644 0,1748 0,1851 0,1954
0,1655 0,1758 0,1861 0,1965
0,1665 0,1768 0,1872 0,1975
0,1676 0,1779 0,1882 0,1986
0,1686 0,1789 0,1892 0,1996
0,1696 0,1799 0,1903 0,2007
0,1706 0,1810 0,1913 0,2017
0,200
0,2027
0,2038
0,2048
0,2059
0,2069
0,2079
0,2090
0,2100
0,2111
0,2121
0,210 0,220 0,230
0,2132 0,2237 0,2342
0,2142 0,2247 0,2353
0,2153 0,2258 0,2363
0,2163 0,2268 0,2374
0,2174 0,2279 0,2384
0,2184 0,2289 0,2395
0,2194 0,2300 0,2405
0,2205 0,2310 0,2416
0,2215 0,2321 0,2427
0,2226 0,2331 0,2437
A O
--------------. ------------------------------------------- . ------------- . ----------------------------------------------------------- . ---------------------------r
0,000
0,001
0.002
0,003
0,004
0,005
0,006
0,007
0,008
0,009
0,240
0,2448
0,2458
0,2469
0,2480
0,2490
0,2501
0,2511
0,2522
0,2533
0,2543
0,250 0,260 0,270 0,280 0,290
0,2554 0,2661 0,2769 0,2877 0,2986
0,2565 0,2672 0,2779 0,2888 0,2997
0,2575 0,2682 0,2790 0,2898 0,3008
0,2586 0,2693 0,2801 0,2909 0,3019
0,2597 0,2704 0,2812 0,2920 0,3029
0,2608 0,2715 0,2823 0,2931 0,3040
0,2618 0,2726 0,2833 0,2942 0,3051
0,2629 0,2736 0,2844 0,2953 0,3062
0,2640 0,2747 0,2855 0,2964 0,3073
0,2650 0,2758 0,2866 0,2975 0,3084
0,300 0,310 0,320 0,330 0,340
0,3095 0,3206 0,3317 0,3428 0,3541
0,3106 0,3217 0,3328 0,3439 0,3552
0,3117 0,3228 0,3339 0,3451 0,3564
0,3128 0,3239 0,3350 0,3462 0,3575
0,3139 0,3250 0,3361 0,3473 0,3586
0,3150 0,3261 0,3372 0,3484 0,3597
0,3161 0,3272 0,3384 0,3496 0,3609
0,3172 0,3282 0,3395 0,3507 0,3620
0,3183 0,3294 0,3406 0,3518 0,3632
0,3195 0,3305 0,3417 0,3530 0,3643
0,350 0,360 0,370 0,380 0,390
0,3654 0,3769 0,3884 0,4001 0,4118
0,3666 0,3780 0,3896 0,4012 0,4130
0,3677 0,3792 0,3907 0,4024 0,4142
0,3689 0,3803 0,3919 0,4036 0,4153
0,3700 0,3815 0,3931 0,4047 0,4165
0,3712 0,3826 0,3942 0,4059 0,4177
0,3723 0,3838 0,3954 0,4071 0,4189
0,3734 0,3850 0,3966 0,4083 0,4201
0,3746 0,3861 0,3977 0,4094 0,4213
0,3757 0,3873 0,3989 0,4106 0,4225
0,400 0,410 0,420 0,430 0,440
0,4236 0,4356 0,4477 0,4599 0,4722
0,4248 0,4368 0,4489 0,4611 0,4735
0,4260 0,4380 0,4501 0,4623 0,4747
0,4272 0,4392 0,4513 0,4636 0,4760
0,4284 0,4404 0,4526 0,4648 0,4772
0,4296 0,4416 0,4538 0,4660 0,4784
0,4308 0,4429 0,4550 0,4673 0,4797
0,4320 0,4441 0,4562 0,4685 0,4709
0,4332 0,4453 0,4574 0,4697 0,4822
0,4344 0,4465 0,4587 0,4710 0,4835
0,450 0,460 0.470 0,480 0,490
0,4847 0,4973 0,5101 0,5230 0,5361
0,4860 0,4986 0,5114 0,5243 0,5374
0,4872 0,4999 0,5126 0,5256 0,5387
0,4885 0,5011 0,5139 0,5279 0,5400
0,4897 0,5024 0,5152 0,5282 0,5413
0,4910 0,5037 0,5165 0,5295 0,5427
0,4923 0,5049 0,5178 0,5308 0,5440
0,4935 0,5062 0,5191 0,5321 0,5453
0,4948 0,5075 0,5204 0,5334 0,5466
0,4961 0,5088 0,5217 0,5347 0,5480
—
r
0,000
0,0010,002
0,003
0,004
0,005
0,006
0,007
0.008
0,500 0,510 0,520 0,530 0,540
0,5493 0,5627 0,5763 0,5901 0,6042
0,5506 0,5641 0,5777 0,5915 0,6056
0,5520 0,5654 0,5791 0,5929 0,6070
0,5533 0,5668 0,5805 0,5943 0,6084
0,550 0,560 0,570 0,580 0,590
0,6184 0,6328 0,6475 0,6625 0,6777
0,6198 0,6343 0,6490 0,6640 0,6792
0,6213 0,6358 0,6505 0,6655 0,6807
0,600 0,610 0,620 0,630 0,640
0,6931 0,7089 0,7250 0,7414 0,7582
0,6947 0,7105 0,7266 0,7431 0,7599
0,650 0,660 0,670 0,680 0,690
0,7753 0,7928 0,8107 0,8291 0,8480
0,700 0,710 0,720 0,730 0,740 0,750
0,(XW
0,5547 0,5681 0,5818 0,5957 0,6098
0,5560 0,5695 0,5832 0,5971 0,6112
0,5573 0,5709 0,5846 0,5985 0,6127
0,5587 0,5722 0,5860 0,5999 0,6141
0,5600 0,5736 0,5874 0,6013 0,6155
0,5614 0,5750 0,5888 0,6027 0,6170
0,6227 0,6372 0,6520 0,6670 0,6823
0,6241 0,6387 0,6535 0,6685 0,6838
0,6256 0,6401 0,6550 0,6700 0,6854
0,6270 0,6416 0,6565 0,6715 0,6869
0,6285 0,6431 0,6579 0,6731 0,6885
0,6299 0,6446 0,6594 0,6746 0,6900
0,6314 0,6460 0,6610 0,6761 0,6916
0,6963 0,7121 0,7283 0,7447 0,7616
0,6978 0,7137 0,7299, 0,7464 0,7633
0,6994 0,7153 0,7315 0,7481 0,7650
0,7010 0,7169 0,7332 0,7497 0,7667
0,7026 0,7185 0,7348 0,7514 0,7684
0,7042 0,7201 0,7364 0,7531 0,7701
0,7057 0,7218 0,7381 0,7548 0,7718
0,7073 0,7234 0,7398 0,7565 0,7736
0,7770 0,7946 0,8126 0,8310 0,8499
0,7788 0,7964 0,8144 0,8328 0,8518
0,7805 0,7981 0,8162 0,8347 0,8537
0,7823 0,7999 0,8180 0,8366 0,8556
0,7840 0,8017 0,8199 0,8385 0,8576
0,7858 0,8035 0,8217 0,8404 0,8595
0,7875 0,8053 0,8236 0,8423 0,8614
0,7893 0,8071 0,8254 0,8442 0,8634
0,7910 0,8089 0,8273 0,8461 0,8653
0,8673 0,8872 0,9076 0,9287 0,9505
0,8693 0,8892 0,9097 0,9309 0,9527
0,8712 0,8912 0,9118 0,9330 0,9549
0,8732 0,8933 0,9139 0,9352 0,9571
0,8752 0,8953 0,9160 0,9373 0,9594
0,8772 0,8973 0,9181 0,9395 0,9616
0,8792 0,8994 0,9202 0,9417 0,9639
0,8812 0,9014 0,9223 0,9439 0,9661
0,8832 0,9035 0,9245 0,9461 0,9684
0,8852 0,9056 0,9266 0,9483 0,9707
0,9730
0,9752
0,9775
0,9799
0,9822
0,9845
0,9868
0,9892
0,9915
0,9939
E
r
0,000
0,001
0,002
0,003
0,004
0,005
0,006
0,007
0,008
0,009
0,760 0,770 0,780 0,790
0,9962 1,0203 1,0454 1,0714
0,9986 1,0228 1,0479 1,0741
1,0010 1,0253 1,0505 1,0768
1,0034 1,0277 1,0531 1,0795
1,0058 1,0302 1,0557 1,0822
1,0082 1,0327 1,0583 1,0849
1,0106 1,0352 1,0609 1,0876
1,0130 1,0378 1,0635 1,0903
1,0154 1,0403 1,0661 1,0931
1,0179 1,0428 1,0688 1,0958
0,800 0,810 0,820 0,830 0,840
1,0986 1,1270 1,1568 1,1870 1,2212
1,1014 1,1299 1,1599 1,1913 1,2246
1,1041 1,1329 1,1630 1,1946 1,2280
1,1070 1,1358 1,1660 1,1979 1,2315
1,1098 1,1388 1,1692 1,2011 1,2349
1,1127 1,1417 1,1723 1,2044 1,2384
1,1155 1,1447 1,1754 1,2077 1,2419
1,1184 1,1477 1,1786 1,2111 1,2454
1,1212 1,1507 1,1817 1,2144 1,2490
1,1241 1,1538 1,1849 1,2178 1,2526
0,850 0,860 0,870 0,880 0,890
1,2561 1,2934 1,3331 1,3758 1,4219
1,2598 1,2972 1,3372 1,3802 1,4268
1,2634 1,3011 1,3414 1,3847 1,4316
1,2670 1,3050 1,3456 1,3892 1,4366
1,2708 1,3089 1,3498 1,3938 1,4415
1,2744 1,3129 1,3540 1,3984 1,4465
1,2782 1,3168 1,3583 1,4030 1,4516
1,2819 1,3209 1,3626 1,4077 1,4566
1,2857 1,3249 1,3670 1,4124 1,4618
1,2895 1,3290 1,3714 1,4171 1,4670
0,900 0,910 0,920 0,930 0,940
1,4722 .1,5275 1,5890 1,6584 1,7380
1,4775 1,5334 1,5956 1,6659 1,7467
1,4828 1,5393 1,6022 1.6734 1,7555
1,4883 1,5453 1,6089 1.6811 1,7645
1,4937 1,5513 1,6157 1,6888 1,7736
1,4992 1,5574 1,6226 1,6967 1,7828
1,5047 1,5636 1,6296 1,7047 1,7923
1,5103 1,5698 1,6366 1,7129 1,8019
1,5160 1,5762 1,6438 1,7211 1,8117
1,5217 1,5825 1,6510 1,7295 1,8216
0,950 0,960 0,970 0,980 0,990
1,8318 1,9459 2,0923 2,2976 2,6467
1,8421 1,9588 2,1095 2,3223 2,6996
1,8527 1,9721 2,1273 2,3507 2,7587
1,8635 1,9857 2,1457 2,3796 2,8257
1,8745 1,9996 2,1649 2.4101 2,9031
1,8857 2,0140 2,1847 2,4426 2,9945
1,8972 2,0287 2,2054 2,4774 3,1063
1,9090 2,0439 2,2269 2,5147 3,2504
1,9210 2,0595 2,2494 2,5550 3,4534
1,9333 2,0756 2,2729 2,5988 2,8002
0,9999 0,99999
4,95172 6,10303
Tablica 8. Krytyczne wartości r ~—~-~Jl_ _________ O11__________________ 005 ________________ 002 ________________ 0!01 _________________0001________
df 1 2 3 4 5
0,98769 ,90000 ,8054 ,7293 ,6694
0,99692 ,95000 ,8783 ,8114 ,7545
0,999507 ,980000 ,93433 ,8822 ,8329
0,999877 ,990000 ,95873 ,91720 ,8745
0,9999988 ,99900 ,99116 ,97406 .95074
6 7 8 9 10
0,6215 ,5822 ,5494 ,5214 ,4973
0,7067 ,6664 ' ,6319 ,6021 ,5760
0,7887 ,7498 ,7155 ,6851 ,6581
0,8343 ,7977 ,7646 ,7348 ,7079
0,92493 ,8982 ,8721 ,8471 ,8233
11 12 13 14 15
0,4762 ,4575 ,4409 ,4259 ,4124
0,5529 ,5324 ,5139 ,4973 ,4821
0,6339 ,6120 , ,5923 ,5742 ,5577
0,6835 ,6614 ,6411 ,6226 ,6055
0,8010 ,7800 ,7603 ,7420 ,7246
16 17 18 19 20
0,4000 ,3887 ,3783 ,3687 ,3598
0,4683 ,4555 ,4438 ,4329 ,4227
0,5425 ,5285 ,5155 ,5034 ,4921
0,5897 ,5751 ,5614 ,5487 ,5368
0,7084 ,6932 ,6787 ,6652 ,6524
0,3233 ,2960 ,2746 ,2573
0,3809 ,3494 ,3246 ,3044
0,4451 ,4093 ,3810 ,3578
0,4869 ,4487 ,4182 ,3932
0,5974 ,5541 ,5189 ,4896
25 30 35 40
,
-U
4f
~——«_
0,1
0,05
0,02
0,01
0,001
45
,2428
,2875
,3384
,3721
,4648
50
0,2306
0,2732
0,3218
0,3541
0,4433
60 80 90
,2108 ,1954 ,1829 ,1726
,2500 ,2319 ,2172 ,2050
,2948 ,2737 ,2565 ,2422
,3248 ,3017 ,2830 ,2673
,4078 ,3799 ,3568 ,3375
100
0,1638
0,1946
0,2301
0,2540
0,3211
70
Tablica 9. Współczynniki rti — tablice Flanagana Proporcja odpowiedzi zgodnych z kluczem w górnej grupie 27% 1
01
01 0
02 04 06 08 10
11 23 30 35 ^
12 14 16 18 20
0 04 ^t -34 -23 -15 -09 -04 3 - -37 -26 -19 -13 -08 -04 0
22 24 26 28 30 32 34 36 38 40 42
44
46 ^9 51 53 55 57 59 61 62 63 65 66 67 68 -
02 11
04 23
06 30
08 35
10 40
12 43
14 46
16 49
18 51
20 22 53 •55
24 26 57 59
28 61
30 62
32 63
34 65
36 66
38 67
40 68
42 69
44 46 70 71
48 72
50 72
0 12 19 25 -12 0 08 14 -19 -08 0 06 -25 -14 -06 0 -30 -19 -11 -05
30 19 11 05 0
34 23 15 09 04
37 26 19 13 08
40 30 23 17 12
43 33 26 20 15
46 36 29 23 18
48 38 31 25 21
50 40 33 28 23
51 42 36 30 26
53 44 38 32 28
55 46 40 35 30
56 58 48 49 42 44 37 38 32 34
59 51 45 40 36
61 53 47 42 38
62 54 48 44 40
63 56 50 45 41
64 57 52 47 43
66 58 53 49 45
67 60 55 51 47
68/ 61 56 52 48
07 11 03 07 ^0 -30 -23 -17 -12 -07 -03 0 03 ^3 -33 -26 -20 -15 -11 -07 -03 0 ^6 -36 -29 -23 -18 -13 -10 -06 -03
13 10 06 03 0
16 12 09 06 03
19 15 12 08 06
21 18 14
24 20 17 13 11
26 22 19 16 13
28 25 21 18 15
30 27 24 20 17
32 29 26 23 19
34 31 28 25 22
36 33 30 27 24
38 34 31 28 26
39 36 33 30 27
41 38 35 32 29
43 40 37 34 31
45 42 39 36 33
03 0
06 08 03 05 0 02 -38 -32 -28 -24 -20 -17 -13 -11 -08 0 - -02 ^40 -35 -30 -26 -22 -19 -16 -13 -10 -08 -05 -02
10 08 05 02 0
12 10 07 04 02
15 12 09 07 04
17 14 12 09 07
19 16 14 11 09
21 18 16 13 11
23 20 18 15 13
25 22 20 17 15
27 24 22 19 17
29 26 24 21 19
31 28 26 23 21
0 02 04 07 -02 0 02 04 -04 -02 0 02 -07 -04 -02 0 -09 -06 -04 -02
09 06 04 02 0
11 13 15 09 11 13 06 08 11 04 06 08 02 04 06
17 15 13 11 08
19 17 15 13 10
06 04
08 06
^8 -50 -51 -53 -55
-38 -40 -42 -44 ^16
0 - -25 -21 -16 -12 -09 -06 -03 31 -33 -28 -23 -19 -15 -12 -08 -06 -03 -36 -30 -26 -21 -18 -14 -11 -08 -
-56 -58 -59 -61 -62
-48 ^9 -51 -53 -54
-42 -4A -45 -47 ^48
-37 -32 -28 -38 -34 -30 ^t -36 -32 ^42 -38 -34 ^44 ^40 -36
-25 -27 -29 -31 -33
-21 -24 -26 -28 -30
-18 -20 -23 -25 -27
-15 -17 -19 -22 -24
-12 -10 - -12 -17 -14 -19 -16 -21 -18
U 08
-07 -09 -12 -14 -16
-04 -07 -09 -11 -13
-02 -04 -07 -09 -11
-63 -56 -50 ^45 ^41 -38 -34 -31 -28 -26 -23 -20 -18 -15 -13 -11 -09 -06 -04 -02 0 69 - -64 -57 -52 -41 - -39 -36 -33 -30 -27 -25 -22 -20 -17 -15 -13 -11 -08 -06 -04 -02
02 04 0 02
er -46 48 50
01 -71 -72 -72
02 04 06 08 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 -66 -58 -53 -49 -45 -41 -38 -35 -32 -29 -27 -24 -22 -19 -17 -15 -13-11-08-06-04-02 0 02 -67 -60 -55 -51 -47 -43 -40 -37 -34 -31 -29 -26 -24 -21 -19 -17 -15 -13 -11 -08-06-04-02 0 -68 -61 -56 -52 -48 -45 -42 -39 -36 -33 -31 -28 -26 -23 -21 -19 -17 -15 -13 -10-08-06-04-02
52 54 56 58 60
-73 -74 -75 -76 -77
-69 _70 -71 -72 -73
-62 -63 -64 -66 -67
-57 -59 -60 -61 -62
-53 -55 -56 -58 -59
-50 -51 -53 -54 -56
-46 -48 -49 -51 -52
-43 -45 -41 -48 -50
-40 -42 -44 -45 -47
-38 -39 -41 -43 -45
-35 -37 -39 -40 -41
-33 -34 -36 -38 -40
-30 -32 -34 -36 -37
-28 -30 -32 -33 -35
-26 -27 -29 -31 -33
-23 -25 -27 -29 -31
-21 -23 -25 -27 -29
-19 -21 -23 -25 -27
-17 -19 -21 -22 -25
-15 -16 -18 -20 -22
-12 -14 -16 -18 -21
-10-08-06-04-02 -12 -10 -08 -06 -04 -14 -12 -10 -08 -06 -16 -14 -12 -10 -08 -18 -16 -14 -12 -10
62 64 66 68 70
-78 -78 -79 -80 -81
-73 -74 -75 -76 -77
-68 -69 -70 -71 -72
-64 -65 -66 -67 -68
-60 -61 -63 -64 -65
-57 -58 -60 -61 -63
-54 -55 -57 -58 -60
-51 -53 -54 -56 -57
-49 -50 -52 -53 -55
-47 -48 -49 -51 -53
-44 -46 -47 -49 -51
-41 -41 -45 -47 -49
-39 ~4\ -43 -45 -46
-37 -39 -41 -42 -44
-35 -37 -39 -40 -42
-33 -35 -37 -38 -40
-31 -33 -35 -37 -38
-29 -31 -33 -35 -37
-27 -29 -31 -33 -35
-25 -27 -29 -31 -33
-22 -25 -27 -29 -31
-20 -22 -25 -27 -29
-18 -21 -23 -25 -27
-16 -19 -21 -23 -25
-15 -17 -19 -21 -23
-13 -15 -17 -19 -21
72 74 76 78 80
-82 -82 -83 -83 -84
-78 -79 -80 -80 -81
-73 -74 -75 -Id -77
-70-66-64-61 -71 -68 -65 -63 -72 -69 -67 -64 -73 -70 -68 -66 -74 -72 -70 -67
-59 -60 -62 -63 -65
-57 -58 -60 -61 -63
-54 -56 -58 -60 -61
-52 -54 -56 -57 -60
-50 -52 -54 -56 -57
-48 -50 -52 -54 -56
-46 -48 -50 -52 -54
-44 -46 -48 -50 -52
-42 -44 -46 -49 -51
-40 -42 -45 -47 -49
-39 -41 -41, -45 -41
-37 -39 -41 -43 -46
-35 -37 -39 -42 -44
-33 -35 -37 -40 -42
-31 -33 -36 -38 -40
-29 -32 -34 -36 -39
-27 -30 -32 -34 -37
-26 -28 -30 -33 -35
-23 -26 -28 -31 -33
82 84 86 88 90
-85 -86 -87 -87 -88
-82 -83 -84 -85 -86
-78 -80 -81 -82 -83
-76 -77 -78 -80 -81
-73 -75 -76 -77 -79
-71 -72 -74 -76 -77
-69 -70 -72 -73 -76
-67 -68 -70 -72 -74
-65 -67 -68 -70 -72
-63 -65 -67 -69 -71
-61 -63 -65 -67 -70
-60 -61 -63 -66 -68
-58 -60 -62 -64 -67
-56 -58 -60 -63 -65
-54 -57 -59 -4y\ -64
-53 -55 -57 -60 -63
-51 -53 -56 -58 -61
-49 -52 -54 -57 -60
-48 -50 -53 -55 -58
-47 -49 -51 -54 -57
-45 -47 -50 -52 -56
-43 -45 -48 -51 -54
-41 -44 -41 -49 -53
-39 -42 -45 -48 -51
-38 -40 -43 -46 -50
-36 -39 -42 -45 -48
92 94 96 98 99
-89 -90 -91 -92 -93
-87 -88 -90 -91 -92
-84 -86 -88 -90 -91
-82 -84 -86 -88 -90
-81 -82 -84 -87 -89
-79 -81 -83 -86 -88
-77 -80 -82 -85 -87
-76 -78 -81 -84 -87
-75 -77 -80 -83 -86
-73 -76 -78 -82 -85
-72 -74 -77 -81 -84
-70 -73 -76 -80 -83
-69 -72 -75 -80 -83
-68 -71 -74 -79 -82
-66 -70 -73 -78 -82
-65 -64 -63 -61 -60 -68-67-66-65-64 -72 -71 -70 -69 -68 -77 -76 -75 -74 -73 -81 -80 -79 -78 -78
-59 -62 -67 -73 -77
-58 -61 -66 -72 -76
-56 -60 -64 -71 -75
-55 -59 -63 -70 -74
-53 -57 -62 -69 -73
-52 -56 -61 -68 -72
U
K !
13
i M
I
!
50 04 02 0
Proporcja odpowiedzi zgodnych z kluczem w gómej grupie
52 27%
54
56
58
60
72
76
78
80
82
84
86
82
83
83
84
85
86
87
87
88
78 73 70 66 64
79 74 71 68 65
90 BO 81 82 83 75 76 77 . 78 80 69 70 72 67 68 70
76 73 71
77 75 72
84 81 78 76 74
85 82 80 77 76
67
69
70
72
63 65 60 61 63 58 60 61
68 67 65 63
62
64
66
68
70
78
79
80
81
82
74
75 70 66 63 60
76 71 67 64 61
77 72 68 65 63
74
90
92
94
96
98
99
89
90
91
92
93
86 83 81 79 77
87 84 82 81 79
88 86 84 82 81
90
84 83
91 90 88 87 86
91 91 90 89 88
73
76
77
80
82
85
87
70 68 67 65
72 70 69 67
74 72 71 70
76 75 73 72
78
77
81 80
76 74
78 77
84 83 82
Sl
87 86 85 84
76
80
83
75
80 79 78 77
83 82 82 81
73
74
75
76
77
78
69 62 57 53 50
70 63 59 55 51
71 64 60 56 53
72 66 61 58 54
73 67 62 59 56
73 68
57
69 65 61 58
46
48
49
51
52
54
55
57
58
60
61
63
64
43 40 38 35
45 42 39 37
47 44 41 39
48 45 43 40
50 47 45 42
51
44
53 50 48 46
54 52 49 47
56 53 51 49
57 55 53 51
59 57 54 52
60 58 56 54
62
49 47
57
60
67 65 63 61
33
34
36
38
40
42
43
45
47
49
50
52
54 56
57
60
61
63
66
68
70
73
30 28 26 23
32 30 27 25
34 32 29 27
36 33 31 29
37 35 33 31
39 37 35 33
41 39 37 35
43 41 39 37
45 42 40 38
46 44 42 40
48 46 44 42
50 48 46 44
52
49
58 56 54 53
60 58 57 55
62 60 59 57
64 63 61 60
67 65 64 63
69 68 66 65
72 71
48 46
56 54 52 51
68
74 73 72
21
23
25
27
29
31
33
35
37
38
40
42
45
47
49
51
53
56
58
61
64
67
71
76
80
19 17 15 12
21 19 16 14
23 21 18 16
25 22 20 18
27 25 22 21
29 27 25 22
31 29 27 25
33 31 29 27
35 33 31 29
37 35 33 31
39 37 35 33
41 39 37 35
45 47 4.1 46 39 42 44 37 40 42
49 48
52 50 47 49 45 47
54 53 51 50
57 55 54 52
60 58 57 56
63 61 60 59
66
70
65
m
79 78 78 77
647
10
12
14
16
08 06 04
10 08 06
12 10 08
14 12 10
64 Ml
18 20 22 25 16 18 21 23 14 16 19 21 12
15
17
19
72
56
73
66
54
50 52 50
74
41
70
88 86
62
67
75 74 73 73
66
72
76
64
71 70 69
75 74 73
64
68
27
29
31
33
36
IX
40
43
45
48
51
54
58
61
25 23 21
27 25 23
29 27 26
32 30 28
34 36
39 37 35
41 39 38
44 42 40
47 45 43
49 48 46
53 51 50
56
60
55
59 63
53
57
32 30
14 33
62
52
56
58
60
62
64
66
68
70
72
74
76
78
80
82
84
86
88
90
92
94
96
98
99
06
08
10
13
15
17
19
21
23
26
28
31
33
36
39
42
45
48
52
56
61
68
72
0 02 04 06 -02 0 02 04 -04-02 0 02 -06-04-02 0 -08-06-04-02
08 06 04 02 0
11 08 06 04 02
13 11 08 06 04
15 13 11 09 06
17 15 13 11 09
19 17 15 13 11
21 19 17 15 13
24 22 20 18 16
26 24 22 20 18
29 27 25 23 21
31 29 27 26 24
34 32 30 28 27
37 35 33 31 30
40 38 36 34 33
43 41 39 38 36
47 45 43 41 40
51 49 47 45 44
55 53 52 50 48
60 58 57 56 54
67 66 64 63 62
72 71 70 69 68
-11-08-06-04-02 0 02 04 07 _13 -1] -08 -06 -04 -02 0 02 04 _15 _13 _ n _09 _06 -04 -02 0 02 -17 -15 -13 -11 -09 -07 -04 -02 0 -19 _17 _15 _i3- H - 0 9 - 0 7 - 0 4 - 0 2
09 07 04 02 0
11 09 07 04 02
14 12 09 07 05
16 14 12 10 08
19 17 15 12 10
22 19 17 15 13
25 23 20 18 16
28 26 24 21 19
31 29 27 25 22
34 32 30 28 26
38 36 34 32 30
42 40 38 37 35
47 45 44 42 40
53 51 49 48 46
61 59 58 56 55
67 66 65 63 62
08 06 03 0
11 08 06 03 0
13 11 08 06 03
17 14 12 09 06
20 18 15 12 10
24 21 19 16 13
28 26 23 21 18
32 30 28 25 23
38 36 33 31 29
44 42 40 38 36
53 51 50 48 46
61 59 57 55 53
11 07 04 0
15 12 08 04 0
20 17 13 09 05
26 23 19 15 11
33 30 26 23 19
43 40 37 34 30
51 49 46 43 40
14 25 08 19 0 12 -12 0 -23 -11
35 30 23 11 0
02
54 04
-21 -24 -26 _29 -31
-19 -22 -24 -27 -29
-17 -20 -22 -25 -27
-15 -18 -20 -23 -26
-13- 1 1 - 0 9 - 0 7 - 0 4 - 0 2 0 02 05 -16 -14 -12-09-07-05-02 0 03 -18 -16 -14 -12 -10 -08 -05 -03 0 -21 -19 -17 -15 -12 -10 -08 -06 -03 -24 -22 -19 -17 -15 -13- 1 1 - 0 8 - 0 6 - 0 3
-34 -37 -40 -43 _47
-32 -35 -38 -41 _45
-30 -28 -33 -31 -36 -34 -39 -38 _43 -Ą\
-27 -30 -33 -36 _40
-25 -28 -31 -34 -38
-23 -26 -29 -32 -36
-20 -24 -27 -30 -34
-18 -16 -13 -11 -08 -06 -03 0 03 07 -21 -19 -17 -14 -12-09-06-03 0 03 -25 -22 -20 -18 -15 -12 -10 -07 -03 0 -28 -26 -24 -21 -19 -16 -13- 1 1 - 0 7 - 0 4 -32- 3 0 - 2 8 - 2 6 - 2 3 - 2 1 - 1 8 - 1 5 - 1 2 - 0 8 - 0 4
_5I _49 -47 -45 -55 -53 -52 -50 -60 -58 -57 -56 -67-66-64-63 -72 -71 -70 -69
-44 -48 -54 -62 -68
-42 -47 -53 -61 -67
-40 -45 -51 -59 -66
-38 -44 -49 -58 -65
-37 -42 -4% -56 -63
1 D" N
|
I ! r-J
-35 -40 -46 -55 -62
-32 -38 -4A -53 -61
-30 -36 -41 -51 -59
-28 -33 -40 -50 -57
-25 -31 -38 -48 -55
-23 -29 -36 -46 -53
-20 -26 -33 -43 -51
-17 -23 -30 -40 -49
-13-09-05 0 06 -19 -15-11-06 0 -26 -23 -19 -14 -08 -37 -34 -30 -25 -19 -46 -43 -40 -35 -30
#
Tablica 10. Współczynniki
01
100
1(XX) 990
99 98 97 96 95 94 93 92 91 90
990 980 970 961 951 942
932 923 914 905
980 970 960 950 941 931 922 912 903 894
89 88 87 86 85 84 83 82 81 80
895 886 877 869 860 851 842 834 825 816
884 875 866 857 848 839 831 822 813
79 78 77 76 75
808 800 791 783 775
796 788 779 771 762
805'
1)
98 0 97 0 96 0 95 0 94 0 93 920 1 91 1 90 2 89 2 88 3 87 4 86 4 85 5 84 6 83 7 82 8 81 81 B00
03 04 970 961
05 951
06 07 942 932
08 923
960
941 930 920 910 900 890 880 870 861 851
931 921 910 900 890 880 870 860 850 841
922 911 901 890 880 870 860 850 840 830
912 902 891 881 870 860 850 840 830 820
863 852 842 853 843 832 844 833 823 835 824 813 826 815 804 817 806 795 808 797 786 799 788 777 790 779 768 7X1 770 759
831 821 812 803 793 784 775 766 756 747
821 810 811 801 801 791 792 781 783 772 773 762 764 753 755 744 745 734 736 725
950 940 930 920 910 901 891 882 872
950 940 930 920 910 900 890 881 871 862
79 7X 3 773 761 750 73H 4 77 6 76 7 75
764 752 741 729 755 744 732 720 747 735 723 712 9 738 726 714 703 75
727
716
718 707 709 698 700 689 691 680
09
12 10
91 4
90 S<)2 3 SH 2 S7 I 86 1 85
0 84 0 83 0 82 SI 0 O
so o T9 78 77 1 1 76 1 75 2 74 2 73 72 3 4 71 4
70 3 $9 6X 7 67
8 66
13
14
15 16
II
82
790 780
877 866 855 844 833 823 812 801 791 781 770
780 770 760 750 741 731 721 712 702
770
760
0 78 0 77 0 76 1 75 74 1 1 73 2 72 2 71.1
IM) 721 711 701 692 70 693 662 694 683 673 4
720 710 710 700 701 690 691 681 681 671 672 661 662 652
68
674
65.1
0 60 642 632 621 611 600 0 59
643 634 625
633 623 614
676 665
66 7 65
656 646
760 750 740
663 654 645 635
842 834 831 822 819 810 808 799 797 788 786 777 775 766 764 755 753 744 742 733 732 722
19
886 875 864 853 843 832 821 811 SOI
851 839 828 817 806 795 784 773 762 752 741
18
895 884 874 863 852 842 831 821 810 800 790
89 4 88 3 87 2 86 2 85 1 84 1 83 0 82 0 81 0 80 0 79
869 860 857 848 846 837 835 826 824 815 813 804 803 793 792 783 781 772 771 761 761 751
17
81 3 80 79 2 0 77<>
76 75 74 6 5 73 72 4 4 71 3 70 2
750 741 731 721 712 750 740 730 721 711 701 69 740 730 720 710 701 691 2 68 67 730 720 710 700 690 681 1 700 690 680 670 661 651 641
690 680 670 660 650 641 631
680 670 660 650 640 630 620
670 660 650 640 630 620 610
1 66 1 65
622
612 601 602 591 592 582
591
5X
612 603
0 64 0 6.10 62 0 61
0 581 57 571 1 56
Ul
~^74 73 72 71 70
00 766 758 750 742 734
01 754 746 737 729 721
02 742 733 725 717 708
03 730 721 713 704 696
04 718 709 700 692 684
05 706 697 688 680 671
06 694 685 677 668 659
07 682 674 665 656 647
08 671 662 653 644 636
09 ________ 10 660~~ 648 651 639 642 630 633 621 624 612
1112 637 628 619 610 601
13 626 615 617 606 608 597 599 588 590 578
14 604 595 586 577 567
15 594 584 575 566 556
16 ~583~ 573 564 555 545
69 68 67 66 65 64 63 62 61 60
726 718 710 702 694 686 678 670 662 655
713 705 697 689 681 673 665 657 649 641
700 692 684 676 667 659 651 643 635 627
688 679 671 663 654 646 638 630 622 614
675 667 658 650 642 633 625 617 608 600
663 654 646 637 629 621 612 604 595 587
651 642 634 625 616 608 600 591 583 574
639 630 621 613 604 596 587 579 570 561
627 618 609 601 592 583 575 566 557 549
615 606 597 589 580 571 563 554 545 536
603 595 586 577 568 559 550 542 533 524
592 583 574 565 556 547 539 530 521 512
581 572 563 554 545 536 527 518 509 500
569 560 551 542 533 524 515 506 497 488
558 549 540 531 522 513 503 494 485 476
547 538 529 519 510 501 492 483 474 465
59 58 57 56 55 54 53 52 51 50
647 639 631 624 616 608 600 593 585 577
633 625 617 609 601 593 586 578 570 562
619 611 603 595 587 579 571 563 555 547
605 597 589 581 573 565 557 549 541 532
592 584 576 567 559 551 543 535 526 518
579 570 562 554 546 537 520 521 512 504
566 557 549 541 532 524 515 507 498 490
553 544 536 527 519 510 502 493 485 476
540 532 523 514 506 497 489 480 471 463
528 519 510 502 493 484 476 467 458 450
515 507 498 489 480 472 463 454 445 436
503 494 486 477 468 459 450 441 432 424
491 482 473 464 456 447 438 429 420 411
479 470 461 452 443 434 425 416 407 398
467 458 449 440 431 422 413 404 395 386
49 48 47
570 562 554
554 546 530
539 531 523
524 516 508
510 502 493
496 482 487 473 479 464
468 459 450
454 445 437
441 432 423
428 419 410
415 406 397
402 389 393 380 384 371
O
1718 572 563 553 544 535
19 562 55~f~ 552 542 543 532 533 523 524 513
536 527 518 508 499 490 481 472 462 453
525 516 507 497 488 479 469 460 451 442
514 505 496 486 477 468 458 449 440 431
504 494 485 475 466 457 447 438 429 419
456 447 438 428 419 410 401 392 383 374
444 435 426 417 408 398 389 380 371 362
433 423 414 405 396 387 377 368 359 350
421 412 403 394 384 375 366 356 347 338
410 401 391 382 373 364 354 345 335 326
377 364 368 355 358 346
452 343 334
340 331 322
328 317 319 307 310 298
Ul
46 45 44 43 42 41 40
00 547 539 531 523 516 508 500
01 02 531 523 515 507 499 491 483
03 515 507 499 491 483 475 466
500~ 492 483 475 467 459 450
04 ~485 477 468 460 451 443 435
05 470 462 453 445 436 428 419
06 456 447 439 430 421 413 404
07 442 433 424 416 407 398 389
08 428414 419 410 402 393 384 375
39 38 37 36 35 34 33 32 31 30
492 484 476 469 461 453 445 436 428 420
475 467 459 451 442 434 426 418 409 401
29 28 27 26 25 24 23 22 21 20
412 403 395 387 378 369 360 352 343 333
19
324
09 405 397 388 379 370 360
458 450 442 433 425 416 408 399 391 382
442 433 425 416 408 399 390 382 373 364
426 417 409 400 391 382 373 364 355 346
410 402 393 384 375 366 357 348 338 329
395 386 377 368 359 350 341 331 322 312
380 371 362 353 344 334 325 315 306 296
366 356 347 338 329 319 310 300 290 280
392 383 375 366 357 348 229 329 320 310
373 364 355 346 337 327 317 308 298 288
355 345 336 327 317 307 297 287 277 266
337 327 318 308 298 288 278 268 257 246
319 310 300 290 280 270 259 249 238 227
303 293 283 273 262 252 241 231 219 208
286 276 266 256 245 235 224 213 202 190
300
277 256
235
215
197
178
10 392 383 374 365 356 346
1112 388 379 370 360 351 342 333
13 375 362 366 353 356 343 347 334 338 325 329 315 319 306
14 349 340 331 321 312 302 293
15 337 327 318 309 299 290 280
16 324 315 306 296 286 277 267
1718 312 303 293 284 274 264 255
19 300 288~ 291 279 281 269 271 259 262 250 252 240 242 230
351 342 333 323 314 304 295 285 275 265
337 328 318 309 299 290 280 270 260 250
323 314 304 295 285 275 266 256 246 235
310 300 291 281 271 261 251 241 231 221
296 287 277 267 258 248 238 228 217 207
283 274 264 254 244 234 224 214 204 193
270 261 251 241 231 221 211 200 190 180
258 248 238 228 218 208 198 187 177 166
245 235 225 215 205 195 185 174 164 153
233 223 213 203 193 182 172 162 151 140
220 210 200 190 180 170 160 149 139 128
270 260 250 240 229 218 207 196 185 173
255 245 234 224 213 202 191 180 168 156
240 229 219 208 197 186 175 164 152 140
225 215 204 193 182 171 160 148 136 124
211 200 189 178 167 156 145 133 121 109
196 186 175 164 153 142 130 118 106 094
183 172 161 150 139 127 116 104 092 080
169 158 147 136 125 114 102 090 078 066
156 145 !34 123 111 100 088 076 064 052
143 132 121 110 098 087 075 063 051 039
130 109 108 097 085 074 062 050 038 025
117 106 095 084 072 061 049 037 025 013
161
144
128
112
097 082
067
053
039
026013
" 40T
0
Ul
18 17 16 15 14 13 12 11 10 09 08 07 06 05 04 03 02 01 00
0001 ~3I4 305 295 285 274 264 253 241 229
267 256 245 233 221 209 1% 183 168
03 245 233 222 210 197 184 171 157 142
04 224 212 200 188 175 161 147 133 118
05 204 192 179 167 153 140 125 111 095
06 185 172 160 147 133 119 105 090 074
07 166 154 141 128 114 100 085 070 054
08 149 136 123 110 096 082 067 051 035
09 132 119 106 092 078 064 049 033 017
10 11 12 13 14 15 16 17 18 19 115 099 084 069 055 040 027 013 0~~ 102 086 071 056 041 027 013 O 089 073 068 043 028 028 O 076 059 044 029 014 O 062 045 030 015 O 047 031 015 O 032 016 O 016 O O
217 184 154 126 101 078 057 037 018 O 204 169 138 110 084 061 039 019 O 190 153 121 092 066 042 020 O 176 136 102 072 046 022 O 160 117 082 051 024 O 143 096 059 027 O 123 071 032 O 101041 O 07. 0. O ______________________________________________________________________________________________ 00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19
_____ 20 100 99 98 97 96 95
02 290 280 269 258 247 235 223 211 197
816 805 793 781 770 759
21 22 808 796 784 773 761 750
800 788 776 764 752 741
23
24
25
26
27
28
29 _______ 3 0
31
32
33
34
35
36
37
38
39
791 779 767 755 744 732
783 771 759 747 735 723
775 762 750 738 726 714
766 754 742 730 718 706
758 746 733 721 709 697
750 737 725 713 700 688
742 729 717 704 692 680
726 713 700 688 675 663
718 705 692 679 667 654
710 697 684 671 658 646
702 689 676 663 650 637
694 681 667 654 642 629
686 673 659 646 633 621
678 665 651 638 625 612
670 657 643 630 617 604
662 649 635 622 608 595
734 721 708 696 684 671
94 93 92 91 90
20 747 736 725 714 704
21 738 727 716 705 694
22 729 718 707 696 685
23 720 709 698 687 676
24 712 700 689 678 667
25 703 691 680 669 657
26 694 682 671 660 648
27 685 674 662 651 639
28 677 665 653 642 630
29 668 656 644 633 621
30 659 647 636 624 612
31 651 639 627 615 603
32 642 630 618 606 595
33 634 621 609 597 586
34 625 613 601 589 577
35 616 604 592 580 568
36 608 596 583 571 559
37 600 587 575 563 550
38 591 579 566 554 542
39 583 570 557 545 533
89 88 87 86 85 84 83 82 81 80
693 682 672 661 651 641 630 620 610 600
683 673 662 652 641 631 620 610 600 590
674 663 653 642 632 621 611 600 590 580
665 654 643 633 622 612 601 591 580 570
656 645 634 623 612 602 591 581 571 560
646 635 625 614 603 592 582 571 561 551
637 626 615 604 594 583 572 562 551 541
628 617 606 595 584 573 563 552 542 531
619 608 597 586 575 564 553 543 532 522
610 599 588 577 566 555 544 533 523 512
601 590 578 567 556 545 535 524 513 503
592 581 569 558 547 536 525 514 504 493
583 572 560 549 538 527 516 505 494 483
574 563 551 540 529 518 507 496 485 474
565 554 542 531 519 508 497 486 475 465
556 545 533 522 510 499 488 477 466 455
547 536 524 513 501 490 479 468 457 446
539 527 515 503 492 481 469 458 447 436
530 518 506 494 483 472 460 449 438 427
521 509 497 485 474 462 451 440 429 418
79 78 77 76 75 74 73 72 71 70
590 580 570 560 551 541 531 522 512 503
580 570 560 550 540 531 521 511 502 492
570 560 550 540 530 520 511 501 491 482
560 550 540 530 520 510 500 491 481 471
550 540 530 520 510 500 490 480 471 461
540 530 520 510 500 490 480 470 460 451
531 520 510 500 490 480 470 460 450 440
521 511 500 490 480 470 460 450 440 430
511 501 491 480 470 460 450 440 430 420
502 491 481 471 460 450 440 430 420 410
492 482 471 461 451 440 430 420 410 400
482 472 461 451 441 431 420 410 400 390
473 462 452 441 431 421 411 400 390 380
463 453 442 432 421 411 401 390 380 370
454 443 433 422 412 401 391 381 370 360
444 434 423 413 402 392 381 371 361 350
435 424 414 403 392 382 371 361 351 341
425 415 404 393 383 372 362 351 341 331
416 405 394 384 373 363 352 342 331 321
407 396 385 374 364 353 342 332 322 311
69 68
493 483
482 473
472 462
461 452
451 441
441 431
431 421
420 410 411 400
400 390
390 380
380 370
370 360
360 350
350 340 340 330
330 320
321 310
311 301
301 291
o-
_____ 20 67 66 65 64 63 62 61 60
474 465 455 446 436 427 418 408
21 463 454 444 435 425 416 407 397
22 453 443 434 424 415 405 396 386
23 442 433 423 414 404 394 385 375
24 432 422 413 403 393 384 374 365
25 421 412 402 392 383 373 364 354
26 411 401 392 382 372 363 353 343
27 401 391 381 371 362 352 342 333
28 390 381 371 361 351 342 332 322
29 __________30 380 370 370 360 361 350 351 341 341 331 331 321 322 311 312 302
31 360 350 340 330 321 311 301 291
32 350 340 330 320 310 301 291 281
33 340 330 320 310 300 290 281 271
34 330 320 310 300 290 280 270 260
35 320 310 300 290 280 270 260 250
36 310 300 290 280 270 260 250 240
37 300 290 280 270 260 250 240 230
38 290 280 270 260 250 240 230 220
39 281 270 260 250 240 230 220 210
59 58 57 56 55 54 53 52 51 50
399 390 380 371 361 352 343 333 324 314
388 378 369 360 350 341 331 322 313 303
377 367 358 349 339 330 320 311 301 292
366 356 347 338 328 319 309 300 290 280
355 346 336 327 317 308 298 288 279 269
344 335 325 316 306 297 287 277 268 258
334 324 315 305 295 286 276 267 257 247
323 314 304 294 285 275 265 256 246 236
313 303 293 284 274 264 255 245 235 226
302 292 283 273 263 254 244 234 225 215
292 282 ■ 272 263 253 243 233 224 214 204
281 272 362 252 242 233 223 213 203 194
271 261 252 242 232 222 212 203 193 183
261 251 241 231 222 2!2 202 192 182 173
251 241 231 221 211 201 192 182 172 162
240 231 221 211 201 191 181 171 162 152
230 220 211 201 191 181 171 161 151 141
220 210 200 190 181 171 161 151 141 131
210 200 190 180 170 161 151 141 131 121
200 190 180 170 160 150 140 131 121 III
49 48 47 46 45 44 43 42 41
305 296 286 276 267 257 248 238 258
294 284 274 265 255 246 236 226 216
282 273 263 253 244 234 224 214 205
271 261 252 242 232 222 213 203 193
260 250 240 231 221 211 201 191 181
249 239 229 219 210 200 190 180 170
238 228 218 208 199 189 179 169 159
227 217 207 197 188 178 168 158 148
216 206 196 186 177 167 157 147 137
205 195 185 176 166 156 146 136 126
194 185 175 165 155 145 135 125 115
184 174 164 154 144 134 124 114 104
173 163 153 144 134 124 114 104 093
163 153 143 133 123 113 103 093 083
152 142 132 122 113 I03 092 082 072
142 132 122 112 102 092 082 072 062
131 122 112 102 092 082 072 062 051
121 111 101 091 081 071 061 051 1)41
111 101 091 081 071 061 051 041 031
101 091 081 071 061 051 041 031 020
_____ 20_ 21 40
218
206
22 195
23 183
24 172
25 160
26 149
27 138
28 127
29 ______30 116 105
31 094
32 083
33 073
34 062
35 052
36 041
37 031
38 021
39 010
39 38 37 36 35 34 33 32 31 30
208 198 188 178 168 158 147 137 126 115
196 186 176 166 156 146 135 125 114 103
185 175 164 154 144 134 123 113 102 091
173 163 153 143 132 122 III 101 090 079
161 151 141 131 121 110 100 089 078 068
150 140 130 119 109 099 088 078 067 056
139 129 118 108 098 087 077 066 055 045
128 117 107 097 086 076 065 055 044 033
117 106 096 086 075 065 054 044 033 022
106 095 085 075 064 054 043 033 022 011
084 074 063 053 043 032 021 011 0
073 063 053 042 032 021 011 0
063 052 042 032 021 011 0
052 042 031 021 011 0
041 031 021 010 0
031 021 010 0
021 010 O
010 0
O
29 28 27 26 25 24 23 22 21
105 094 083 071 060 048 037 025 012
092 081 070 059 048 036 024 012 0
080 069 058 047 035 024 012 0
068 057 046 035 023 012 0
057 046 034 023 012 0
045 034 034 023 023 011 011 0 0
022 011 0
011 0
0
095 084 074 064 053 043 032 022 011 0
-20__ °-___ ,_________________________________________________________________________ 20
_____ 40 100 99 U"
655 641
21
22
23
24
25
26
27
28
29
41
42
43
44
45
46
47
48
49 ______5 0
647 633
639 625
631 617
624 609
616 601
608 593
600 586
593 578
585 570
30
577 562
31 51 570 554
32 52 562 546
33 53 554 539
34
35
54
55
547 531
539 523
36 56 531 515
37 57 523 507
38
39
58
59
516 499
508 491
er40
41
42
43
44
45
46
47
48
49
51
52
53
54
55
56
57
58
59
98 97 96 95 94 93 92 91 90
627 614 600 587 574 561 549 536 524
619 605 592 579 566 553 540 528 515
611 597 584 570 557 544 532 519 507
603 589 576 562 549 536 523 510 498
595 581 567 554 541 527 514 502 489
587 573 559 546 532 519 506 493 480
579 565 551 537 524 510 497 484 472
571 557 543 529 515 502 489 476 463
563 549 535 521 507 493 480 467 454
555 541 526 512 498 485 471 458 445
50 547 532 518 504 490 476 463 450 436
539 524 510 4% 482 468 454 441 428
531 516 502 487 473 459 445 432 419
523 508 493 479 464 450 437 423 410
515 500 485 470 456 442 428 414 401
507 492 477 462 447 433 419 405 392
499 483 468 453 439 424 410 397 383
491 475 460 445 430 416 402 388 374
483 467 451 436 421 407 393 379 365
475 459 443 428 413 398 384 370 356
89 88 87 86 85 84 83 82 81 80
512 500 488 476 465 453 442 431 419 408
503 491 479 467 456 444 433 421 410 399
494 482 470 458 447 435 423 412 401 390
486 473 461 449 438 426 414 403 391 380
477 464 452 440 428 417 405 394 382 371
468 456 443 431 419 408 396 384 373 361
459 447 434 422 410 398 387 375 364 352
450 438 425 413 401 389 377 366 354 343
441 429 416 404 392 380 368 356 345 333
432 420 407 395 383 371 359 347 335 324
424 411 398 386 374 362 350 338 326 314
415 402 389 377 364 352 340 328 317 305
406 393 380 368 355 343 331 319 307 296
397 384 371 358 346 334 322 310 298 286
388 375 362 349 337 324 312 300 288 276
379 366 353 340 327 315 303 291 279 267
370 356 343 331 318 306 293 281 269 257
360 347 334 321 309 296 284 271 259 248
351 338 325 312 299 286 274 262 250 238
342 329 315 302 290 277 264 252 240 228
79 78 77 76 75 74 73 72
397 386 375 365 354 343 333 322
388 377 366 355 344 334 323 313
378 367 356 346 335 324 314 303
369 358 347 336 325 315 304 293
360 349 338 327 316 305 294 284
350 339 328 317 306 295 285 274
341 330 319 308 297 286 275 264
331 320 309 298 287 276 265 255
322 311 300 288 277 267 256 245
313 301 290 279 268 257 246 235
303 292 280 269 258 247 236 226
294 282 271 260 249 238 227 216
284 273 261 250 239 228 217 206
274 263 252 240 229 218 207 196
265 253 242 231 219 208 197 186
255 244 232 221 210 199 188 177
246 234 222 211 200 189 178 167
236 224 213 201 190 179 168 157
226 214 203 191 180 169 158 147
216 205 193 181 170 159 148 137
s
71 70
40 41 312 302 302 292
42 292 282
43 283 272
44 273 263
45 263 253
46 254 243
47 244 233
48 234 224
49 225 214
50 215 204
51 205 194
52 195 185
53 185 175
54 55 176 166 165 155
69 68 67 66 65 64 63 62 61 60
291 281 271 260 250 240 230 220 210 200
281 271 261 251 240 230 220 210 200 190
272 261 251 241 231 220 210 200 190 180
262 252 241 231 221 211 200 190 180 170
252 242 231 221 211 201 190 180 170 160
242 232 222 211 201 191 181 170 160 150
233 222 212 201 191 181 171 161 150 140
223 212 202 192 181 171 161 151 140 130
213 203 192 182 171 161 151 141 131 120
203 193 182 172 162 151 141 131 121 110
194 183 173 162 152 141 131 121 111 100
184 173 163 152 142 131 121 111 101 091
174 163 153 142 132 122 111 101 091 081
164 153 143 132 122 112 101 091 081 071
154 144 133 122 112 102 091 081 071 061
59 58 57 56 55 54 53 52 51 50
190 180 170 160 150 140 130 120 110 100
180 170 160 150 140 130 120 110 100 090
170 160 150 140 130 120 110 100 090 080
160 150 140 130 120 110 100 090 080 070
150 140 130 120 110 100 090 080 070 060
140 130 120 110 100 090 080 070 060 050
130 120 110 100 090 080 070 060 050 040
120 110 100 090 080 070 060 050 040 030
110 100 090 080 070 060 050 040 030 020
100 090 080 070 060 050 040 030 020 010
090 080 070 060 050 040 030 020 010 0
080 070 060 050 040 030 020 010 0
070 060 050 040 030 020 010 0
060 050 040 030 020 010 0
050
49 48 47 46 45
091 081 071 061 051
080 070 060 050 040
070 060 050 040 030
060 050 040 030 020
050 040 030 020 010
040 030 020 010 0
030 020 010 0
020 010 0
010 0
O
56 156 145
57 58 59 146 136 126 135 125 1 1 5
144 134 124 134 124 114 123 113 103 113 103 092 102 092 082 092 082 072 081 071 061 071 061 051 061 051 041 051 041 030 040 040
030 030 030
020 020 020 020
114 104 093 082 072 062 051 041 031 020 010 010 010 010 010
104 093 083 072 062 051 041 031 020 010 0 0 0 0 0 0
40
CC
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
~~44 041 030 020 010 0~~ 43 030 020 010 0 42 020 010 0 41010 0 40 0______________________________________________________________________________________________ 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
61
62
63
64
65
66
67
68
69 ________ 70
71
72
73
74
75
76
77
78
79
100 99 98 97 96 95 94 93 92 91 90
500 483 466 450 435 419 404 389 375 360 346
492 475 458 442 426 410 395 380 366 351 337
484 467 450 433 417 402 386 371 356 342 328
476 459 442 425 409 393 377 362 347 333 318
469 451 433 416 400 384 368 353 338 323 309
461 442 425 408 391 375 359 344 329 314 299
453 434 416 399 382 366 350 334 319 304 290
445 426 408 390 373 357 341 325 310 295 280
436 418 399 382 364 348 331 315 300 285 270
428 409 391 373 355 338 322 306 290 275 260
420 401 382 364 346 329 312 2% 280 265 250
412 392 373 355 337 319 303 286 270 255 240
403 383 364 345 327 310 293 276 260 245 229
395 375 355 336 318 300 283 266 250 234 219
387 366 346 327 308 290 273 256 240 224 208
378 357 337 317 298 280 262 245 229 213 197
369 348 327 307 288 270 252 235 218 202 186
360 339 317 297 278 259 241 224 207 191 175
352 329 308 287 268 249 231 213 196 180 164
343 320 298 277 257 238 219 202 185 168 152
89 88 87 86 85 84 83 82
333 319 306 293 280 267 255 242
323 310 2% 283 270 258 245 233
314 300 287 274 261 248 235 223
304 291 277 264 251 238 225 213
295 281 267 254 241 228 215 203
285 271 258 244 231 218 205 193
275 261 248 234 221 208 195 182
266 251 238 224 211 198 185 172
256 241 228 214 200 187 174 162
246 231 217 204 190 177 164 151
235 221 207 193 180 166 153 140
225 211 196 183 169 156 143 130
215 200 186 172 158 145 132 119
204 189 175 161 147 134 121 108
193 178 164 150 136 123 110 097
182 167 153 139 125 111 098 085
171 156 142 127 114 100 087 074
161 145 130 116 102 088 075 062
148 133 118 104 090 076 063 050
136 121 106 092 078 064 051 038
m Ot
81 80
60 230 218
61 220 208
62 210 198
63 200 188
64 190 178
65 180 168
66 170 158
67 160 147
68 149 137
69 139 126
70 71 72 73 128 117 106 095 1 1 5 105 094 083
79 78 77 76 75 74 73 72 71 70
206 195 183 172 160 149 138 127 116 105
196 185 173 161 150 139 128 117 106 095
186 175 163 151 140 129 117 106 095 084
176 164 153 141 130 118 107 096 085 074
166 154 143 131 119 108 097 086 075 064
156 144 132 121 109 098 086 075 064 053
146 134 122 110 099 087 076 065 054 043
135 123 111 100 088 077 065 054 043 032
125 113 101 089 078 066 055 044 033 022
114 102 090 078 067 055 044 033 022 011
103 092 081 070 059 048 036 024 012 0 091 080 069 058 047 035 024 012 0 079 068 057 046 035 023 012 0 068 057 046 034 023 012 0 056 045 034 023 011 0 045 034 023 011 0 033 022 011 O 022 011 0 011 0 0
69 68 67 66 65 64 63 62 61 60
094 083 073 062 052 041 031 021 010 0 60
084 073 063 052 041 031 021 010 0
074 063 052 042 031 021 010 0
063 053 042 031 021 010 0
053 042 032 021 010 0
043 032 021 011 0
032 021 011 0
021 011 0
011 0
0
80
81
82
83
84
85
86
87
88
89
90
333 310
324 300
314 290
305 280
295 269
285 258
274 247
264 235
253 223
241 211
229 217 204 190 176 160 143 123 101 071 0 197 184 169 153 136 117 096 071 041 0
100 99
61
74 084 071
75 072 060
76 061 048
77 049 037
78 037 025
79 025 012
______________________________________________________________________________________________ 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 91
92
93
94
95
96
97
98
99 100
_____ 80
81 82 277 256 235 215 197 178 161 144 128
83 267 245 224 204 185 166 149 132 115
256 233 212 192 172 154 136 119 102
84 245 222 200 179 160 141 123 106 089
85 233 210 188 167 147 128 110 092 076
86 221 197 175 153 133 114 096 078 062
87 209 184 161 140 119 100 082 064 047
88 89 ________ 90 91 92 93 94 95 96 97 196 183 168 154 138 121 102 082 059 032 171 157 142 126 110 092 072 051 027 0 147 133 118 101 084 066 046 024 0 125 1 1 1 095 078 061 042 022 0 105 090 074 057 039 020 0 085 070 054 037 019 0 067 051 035 018 0 049 033 017 0 032 016 0
98 0
99
100
98 97 96 95 94 93 92 91 90
288 266 246 227 208 190 173 156 140
89 88 87 86 85 84 83 82 81 80
124 112 099 086 073 059 045 031 016 0 109 097 084 071 058 044 030 015 0 094 082 069 056 043 029 015 0 080 067 055 041 028 014 0 066 053 040 027 014 0 052 039 027 013 0 039 026013 0 025 013 ,0 013 0 0 ___________________________________________________________________________________________________ 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100
Tablica 1 la. Wartości krytyczne 5 współczynnika zgodności W Kendalła a = 0,05
Tablica 11 b. Wartości krytyczne 5 współczynnika zgodności W Kendalła a = 0,01
N L
K
3 4 5 6 8 9 10 12 14 15 16 18 20
3
48.1 54,0 60,0 71,9 83,8 89,8 95,8 107,7 119,7
4
5
49,5 62,6 75,7 101,7 — 127,8 — — 192,9 — — 258,0
64,4 84,4 112,3 136,1 183,7 — 231,2 — — 349,8 — — 468,5
N 6
7
103,9 157,3 143,3 217,0 182,4 276,2 221,4 335,2 299,0 453,1 — — 376,7 571,0 — — — — 570,5 864,9 — — — — 764,4 1158,7
Ł
K
3 4 5 6 8 9 10 12 14 15 16 18 20
3
66,8 75,9 85,1 103,5 121,9 131,0 140,2 158,6 177,0
4 61,4 80,5 99,5 137,4 — 175,3 — — 269,8 — — 364,2
5
6
7
75,6 122,8 185,6 109,3 176,2 265,0 142,8 229,4 343,8 171,1 282,4 422,6 242,7 388,3 579,9 — — — 309,1 494,0 737,0 — — — — — — 475,2 758,2 1129,5 — — — — — — 641,2 1022,2 1521,9
Literatura
Abell P. (1975). Modele w socjologii. Warszawa, PWN. Ackoff R. L. (1969), Decyzje optymalne w badaniach stosowanych. Warszawa, PWN. Adler T. (1993), APA, two other groups to revise test standards, "The APA Monitor", 24 (9), 24-25. Adorno T. W., Frenkel-Bninswik E., Levinson D. J., Sanford R. N. (1950), The authoritorian personality, New York, Norton Library. Adorao T. W., Frenkel-Brunswik E., Levinson D. J., Sanford R. N. (1969), The authoritorian personality, New York, Norton Library. Aebli H. (1982), Dydaktyka psychologiczna (wyd. 2.), Warszawa, PWN. Aiken L. R. (1974), Some simple computational formulas for multipie regression, ..Educational and Psychological Measurement", 34, 767-769. Aiken L. S. West S. G. (1991), Multipie regression: Testing and interpreting interactions, Newbury Park, CA, Sagę Ajdukiewicz K. (1965), Logika pragmatyczna. Warszawa, PWN. Alwin D. F. (1974), Approaches to the interpretation of relationships in the mułtitrait-tnultimethod matrix, w: H. L. Costner (red.), Sociological methodology 1973-1974 (s. 106-127), San Francisco: Josey-Bass. American Psychologica! Association (1973), Ethical principles in the conduct of research with human pariicipants, Washington.DC, Author. American Psychological Association, APA (1992), Ethical principles of psychologist and code of conduct, .^merican Psychologist", 47, 1597-1611. American Psychological Association, APA (1985a), Standardy dla testów stosowanych w psychologii i pedagogice („Biblioteka Psychologa Praktyka", T. I.), Warszawa, Poi. Tow. Psychol. American Psychological Association, APA (1985b), Standards for educational and psychological testing, (wyd. 4.) Washington, DC, APA. American Psychological Association, APA (1994), Publication manuał of the American psychological Association (wyd. 4.), Washington, DC, Author. American Psychologist (1965), Special issue: Testing and public policy, 20, No.ll. Amsterdamski S. (1983a), Między historią a metodą. Warszawa, PIW. Amsterdamski S. (1983b), Nauka a porządek świata, Warszawa, PWN. Anastasi A. (1982), Psychological testing (wyd. 5.), New York, Macmillan. Anderson G. L. (1971), Istota i metody psychologii wychowawczej, w: Ch. E. Skinner (red.). Psychologia wychowawcza (s. 11-47), Warszawa, PWN. Angoff W. H. (1988), Validity: An evolving concept, w: H. Wainer, H. I. Braun (red.). Test validity (s. 19-32). Hillsdale, NJ, L. Erlbaum. Aranowska E. (1987), Elementy zastosowań modelu wielowymiarowej analizy wariancji (MANOVA) w
662
badaniach psychologicznych, w: J. Brzeziński (red.), Wielozntiennowe modele statystyczne w badaniach psychologicznych (s. 115-151), Warszawa-Poznań, PWN. Aronson E. (1995), Człowiek istota społeczna. Warszawa, Wyd. Nauk. PWN. Aronson E., Carlsmith J. M. (1968), Experimentation in social psychology, w: G. Lindzey, E. Aronson (red.), The handbook of social psychology, t- 2 (s. 1-79). Reading.MA, Addison-Wesley. Aronson E., Wilson T. D., Akert R. M. (1994), Social psychology. The heart and the mind, New York, Harper Collins. Arystoteles (1956), Etyka Nikomachejska, Warszawa, PWN. Arystoteles (1983), Metafizyka, Warszawa, PWN. Asch S. E. (1952), Social psychology, New York. Prentice-Hali. Asch S. E. (1969). Opinie i nacisk społeczny, w: K. Jankowski (red.). Środowisko a życie psychiczne (s. 288-302), Warszawa, PWN. Babad E. Y. (1993), Pygmalion — 25 years after interpersonal expectations in the classroom, w: P. D. Blanek (red.), (1993), Interpersonal expectations. Theory, research, and applications (s. 125-153). Cambridge, Cambridge University Press. Babad E. Y.. Inbar J., Rosenthal R. (1982), Pygmalion, Galatea, and the Golem: Investigations of biased and unbiased teachers, .Journal of Educational Psychology", 74, 459-474. Bakan D. (1966), The test of significance in psychołogical research, „Psychołogical Bulletin", 66, 423^37. Bandura A., Walters R. H. (1968), Agresja w okresie dorastania. Warszawa, PWN. Bańka A. < 1994), Wiarygodność i odpowiedzialność etyczna psychologa jako eksperta, w: J. Brzeziński, W. Poznaniak (red.). Etyczne problemy działalności badawczej i praktycznej psychologów (s. 185-196), Poznań, Wyd. Fundacji Humaniora. Barber T. X. (1976), Pitfalls in human research: Ten pivotal points, New York, Pergamon Press. Barber T. X. (1991), Pułapki w badanich: dziewięć rodzajów wpływów związanych z osobami badacza i eksperymentatora, w: J. Brzeziński, J. Siuta (red.). Społeczny kontekst badań psychologicznych i pedagogicznych. Wybór tekstów (s. 399-431), Poznań, Wyd. Nauk. UAM. Barber T. X.. Silver M. (1968), Fact, fietion, and the experimenter bias effect, „Psychołogical Bulletin. Monograph Supplement", 70 (nr 6, cz. 2), 1-29. Bartiett M. S. (1947), The use of transformations, „Biometrics," 3, 39-52. Bartnik C. S. (1994), Hermeneutyka personalistyczna, Lublin, Katolicki Uniwesytet Lubelski. Basu D. (1980). Randomization analysis of experimental data: The Fisher randomization test (with discussion), .Journal of the American Statistical Association", 75, 575-595. Batog T. (1994), Podstawy logiki, Poznań, Wyd. Nauk. UAM. Bechtoldt H. P. (1959), Construct validity: A critiąue, „American Psychologist", 14, 619-629. Bechtoidt H. P. (1968), Teoretyczne podstawy metod testowych: trafność i prognoza, w: M. Choynowski (red.), ,3iuletyn Psychometryczny", T. II (s. 7-49). Wrocław, Ossolineum. Bell C. R. (1962), Personality characteristies of rolunteers for psychołogical studies, „British Journal of Social and Clinical Psychology", 1, 81-95. Belnap (1963), An analysis of questions; Preliminary report, Califomia. Bentler T. M. (1985), Theory and implementation of EQS: A structural eąuation program. Los Angeles.CA, BMDP Statistical Software. Bernard J. (1994), Od biologii do etyki. Nowe horyzonty wiedzy, nowe obowiązki człowieka. Warszawa, Wyd. Nauk. PWN. Berry J. (1969), On cross-cultural comparability, „International Journal of Psychology", 4, 199— -128. Berry J. (1980). Introduction to methodology, w: H. C. Triandis, J. W. Berry (red.), Handbook of cross-cultural psychology, t. 2, Methodology (s. 1-28), Boston, Allyn. Bacon. Berry J. W., Poortinga Y. H., Segall M. H., Dasen P. R. (1992), Cross-cultural psychology: Research and applications, Cambridge, Cambridge Univerity Press. Berscheid E.. Baron R. S., Dermer M., Lebman M. (1973), Anticipating informal consent: An empirical approach „American Psychologist". 28, 913-925. Beveridge W. J. B. (1963). Sztuka badań naukowych. Warszawa, PZWL. Bielą A. (1992), Skalowanie wielowymiarowe jako metoda badań naukowych, Lublin, Tow. Nauk. KUL.
663
Bielą A. (1995), Skalowanie wielowymiarowe w analizach ekonomicznych i behawioralnych, Lublin, Norbertinum. Blalock H. M. (1975), Statystyka dla socjologów. Warszawa, PWN. Blanek P. D. (Ed.)(1993), Interpersonal expectations. Theory, research, and applications, Cambridge, Cambridge University Press. Bohm D. (1961), Przyczynowość i przypadek w fizyce współczesnej. Warszawa, KiW. Borenstein M., Cohen J. (1988), Statistical power analysis: A computer program, Hilsdale, NJ, L. Erlbaum. Bortz J. (1984), Lehrbuch der empirischen Forschung, Berlin, Springer-Verlag Boruch R. R, Larkin J. D., Wolins L„ MacKinney A. C. (1970), Altemative methods of analysis. Multitrait-multimethod data, „Educational and Psychological Measurement", 30, 833-853. Box G. E. P. (1950), Problems in the analysis of growth and wear curves, „Biometrics", 6, 362-389. Brehm J. W., Cohen A. R. (1962), Explorations in cognitive dissonance, New York, J. Wiley. Brishlin R. W. (1976), Comparative research methodology: Cross-cultural studies, ,Jnternational Journal of Psychology", 11, 215-229. Brogden H. E. (1946), Variation in test validity with variation in the distńbuiion of item difficulties, number of items, and degree of their intercorrelation, „Psychometrika", 11, 197-214. Brophy J. E. (1983), Research on the self-fulfilling prophecy and teacher expectation, ,Joumal of Educational Psychology", 75, 631-661. Brophy J. E. (1985), Teacher-student interaction, w: J. Dusek (red.), „Teacher expectancies" (s. 303-328). Hillsdale, NJ, L. Erlbaum. Brzezińska A. (1994), Kształcenie psychologów: pytania o relację nauczania i jej wymiar etyczny, w: J. Brzeziński, W. Poznaniak (red.), Etyczne problemy działalności badawczej i praktycznej psychologów (s. 241-268), Poznań, Wyd. Fundacji Humaniora. Brzezińska A., Kofla M. (1974), Stability of self-image, tolerance to stres, and awciety, „Polish Psychological Bulletin", 5, 3-10. Brzeziński J. (1975a), Metody badań pschologkznych w zarysie, Poznań, Wyd. Nauk. UAM. Brzeziński J. (1975b), Eksperymentalna kontrola skuteczności zabiegów psychokorekcyjnych,, J*rzegląd Psychologiczny", 18 (4), 557-565. Brzeziński J. (1976), Struktura procesu badawczego w naukach behawioralnych, Warszawa-Poznań, PWN. Brzeziński J. (1978a), Elementy metodologii badań psychologicznych, Warszawa, Wyd. Nauk. PWN. Brzeziński J. (1978b), Metodologiczne i psychologiczne wyznaczniki procesu badawczego w psychologii, Poznań, Wyd. Nauk. UAM. Brzeziński J. (1983), Wartość eksperymentu patopsychologicznego dla diagnostyki psychologicznej, w: W. J. Paluchowski (red.), Z zagadnień diagnostyki osobowości (s. 93-106), Wrocław, Ossolineum. Brzeziński J. (red.)(1984a), Wybrane zagadnienia z psychometrii i diagnostyki psychologicznej, Poznań, Wyd. Nauk. UAM Brzeziński J. (1984b), Badanie testu psychometrycznego metodą analizy wariancji, w: J. Brzeziński (red.), Wybrane zagadnienia z psychometrii i diagnostyki psychologicznej (s. 9-45), Poznań, Wyd. Nauk. UAM. Brzeziński J. (1985a), Liniowy model korelacyjno-regresyjny w badaniach psychologicznych. Wybrane zagadnienia, w: E. Paszkiewicz, T. Szustrowa (red.), Materiały do nauczania psychologii, seria Ul, t. 4 (s. 9-38), Warszawa, Wyd. Nauk. PWN. Brzeziński J. (1985b), Ocena efektu eksperymentalnego w układach eksperymentalnych analizy wariancji, w: E. Paszkiewicz, T. Szustrowa (red.). Materiały do nauczania psychologii, seria III, t. 4. (s. 89-99), Warszawa, Wyd. Nauk. PWN. Brzeziński J. (1985c), Zasady statystycznego opracowania danych w psychologii klinicznej, w: B. Waligóra (red.), Elementy psychologii klinicznej (s. 107-160), Poznań, Wyd. Nauk. UAM. Brzeziński J. (1985d), Metodologiczny program psychologii interakcyjnej, „Roczniki Filozoficzne", t. XXXIII, z. 4: Psychologia, 53-66. Brzeziński J. (Ed.) (1987a), Wielozmiennowe modele statystyczne w badaniach psychologicznych. Warszawa, PWN. Brzeziński J. (1987b), Zmienne jakościowe w psychologicznych zastosowaniach modelu wielokrotnej
664
regresji liniowej, w: J. Brzeziński (red.), Wielozmiennowe modele statystyczne w badaniach psychologicznych <s. 12-81). Warszawa, Wyd. Nauk. PWN. Brzeziński J. (red.) (1988), Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (,3iblioteka Psychologa Praktyka", t. II), Warszawa, Wyd. Poi. Tow. Psychol. Brzeziński J. (1989a), O związkach teorii z praktyką społeczną. Na przykładzie związków teorii psychologicznych z praktyką społeczną, w: J. Brzeziński, K. Łastowski (red.). Filozoficzne i metodologiczne podstawy teorii naukowych (s. 287-305 )(„Poznańskie Studia z Filozofii Nauki", t. 11), Warszawa-Poznań, PWN. Brzeziński J. (1989b), Eksperymentalne badanie zmian — metodologiczne problemy stosowania pretestu zmiennej zależnej, „Przegląd Socjologiczny", 37, 113-139. Brzeziński J. (1990), O adaptacji kulturowej testów psychologicznych, w: A. Ciechanowicz (red.) Kulturowa adaptacja testów (s. 185-202), Warszawa, Poi. Tow. Psychol.; Lab. Technik Diagn. Brzeziński J. (1991), Zewnętrzne i wewnętrzne uwarunkowania procesu badawczego w psychologii, „Przegląd Psychologiczny", 34 (2), 329-364. Brzeziński J. (1993a), Standardowe skale wyników WAIS-R: skala dewiacyjnych ilorazów inteligencji i skala wyników przeliczonych, w: J. Brzeziński, E. Hornowska (red.). Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 84-99), Warszawa, Wyd. Nauk. PWN. Brzeziński J. (1993b), Wiadomości, w: J. Brzeziński, E. Hornowska (red.), Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 131-164), Warszawa, Wyd. Nauk. PWN. Brzeziński J. (Ed.) (1993c), Psychologiczne i psychometryczne problemy diagnostyki psychologicznej, Poznań, Wyd. Nauk. UAM. Brzeziński J. (1994a), Proces badawczy w psychologii w kontekście świadomości metodologicznej badacza, w: A. Falkowski, P. Francuz (red.). Model, badanie, eksperyment, analiza danych („Psychologia Matematyczna VI")(s. 5-30), Kraków, Wyd. UJ. j Brzeziński J. (1994b), Etyczny kontekst badań naukowych w psychologii, J. Brzeziński, W. Poznaniak (red.). Etyczne problemy działalności badawczej i praktycznej psychologów (s. 11-38), Poznań, Wyd. Fundacji Humaniora. Brzeziński J. (1994c), Testy psychologiczne i ich użytkownicy — analiza kontekstu etycznego, J. Brzeziński, W. Poznaniak (red.), Etyczne problemy działalności badawczej i praktycznej psychologów (s. 83-101), Poznań, Wyd. Fundacji Humaniora. eziński J. (1994d), Rozważania o uniwersytecie, w: J. Brzeziński, L. Witkowski (red.), Edukacja wobec zmiany społecznej (s. 23-47), Toruń, Edytor. sziński J. (1994e), Problemy metodologiczne związane z ustalaniem trafności zewnętrznej badań empirycznych nad zachowaniem się człowieka w warunkach ekstremalnych, ,.Ergonomia", 17, 181-193. eziński J. (1994f). Metodologiczny i etyczny kontekst badań nad jakością życia, w: A. Bańka, R. Derbis (red.), Psychologiczne i pedagogiczne wymiary jakości życia (s. 11-18), Poznań. Inst. Psychol. UAM. :ziński J. (red.) (1995a), Z zagadnień diagnostyki psychologicznej, Poznań, Wyd. Fundacji Humaniora. eziński J. (1995b), Całościowe badanie trafności testu psychologicznego metodą analizy macierzy wielu cech — wielu metod, w: A. Bielą, J. Brzeziński, T. Marek (red.). Społeczne, eksperymentalne i metodologiczne konteksty procesów poznawczych człowieka (s. 375-387), Poznań, Wyd. Fundacji Humaniora. ;ziński J. (I995c), Metodologiczne źródła artefaktów w badaniach psychologów społecznych inspirowanych socjologicznymi badaniami opinii publicznej, w: B. Wojciszke (red.). Jacy są Polacy? Badania opinii społecznej jako źródło wiedzy psychologicznej, („Kolokwia Psychologiczne", L 4Xs. 83-111), Warszawa, Wyd. Inst. Psychol. PAN. :ziński J. (1995d), Rzetelność i trafność testów psychologicznych — jak jest i jak być powinno, w: J. Brzeziński (red.), Z zagadnień diagnostyki psychologicznej (s. 109-123), Poznań, Wyd. Fundacji Humaniora. [Brzeziński J. (1996), Jaki uniwersytet? „Humaniora", Biuletyn, 4, (s. 49-59), Poznań, Wyd. Fundacji Humaniora zeziński J., Gaul M. (1993), PROFINT 1.0: komputerowy program interpretacji profilu psychometrycznego Skal Inteligencji D. Wechslera (WPPSI, WISC-R, WAIS-R), w: J. Brzeziński, E. Hor-
665
nowska (red.), Z psychometrycznych problemów diagnostyki psychologicznej (s. 111-150), Poznań, Wyd. Nauk. UAM. Brzeziński J., Hornowska E. (red.)(1993a), Z psychometrycznych problemów diagnostyki psychologicznej, Poznań, Wyd. Nauk. UAM. Brzeziński J., Hornowska E. (red.)(1993b). Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej. Warszawa, Wyd. Nauk. PWN. Brzeziński J., Kowalik S. (1993a), Modelujący wyniki badania psychologicznego (diagnostycznego) wpływ osoby badanej (pacjenta) i badacza (klinicysty), w: H. Sęk (red.), Społeczna psychologia kliniczna (s. 269-302), Warszawa, Wyd. Nauk. PWN. Brzeziński J., Kowalik S. (1993b), Charakterystyka wybranych metod diagnozy klinicznej, w: H. Sęk (red.), Społeczna psychologia kliniczna (s. 314—364), Warszawa, Wyd. Nauk. PWN. Brzeziński J., Maruszewski T. (1978a), Metoda sędziów kompetentnych i jej zastosowanie w badaniach pedagogicznych, „Kwartalnik Pedagogiczny", 23 (1), 569-587. Brzeziński J., Maruszewski T. (1978b), Metoda badania zgodności profilów psychometrycznych, „Przegląd Psychologiczny", 11 (3), 569-587. Brzeziński J., Maruszewski T. (1981), Nieparametryczne analizy statystyczne w protoidealizacyjnym modelu nauki, „Kwartalnik Pedagogiczny", 26 (1), 59-75. Brzeziński J., Noworol C. (1984), Analiza porównań interprofilowych w wielowymiarowych kwestionariuszach (zastosowanie programów komputerowych w języku BASIC oraz FORTRAN IV), „Przegląd Psychologiczny", 27, 501-517. Brzeziński J., Poznaniak W. (red.)(1994). Etyczne problemy działalności badawczej i praktycznej psychologów, Poznań, Wyd. Fundacji Humaniora. Brzeziński J., Siuta J. (red.)(1991). Społeczny kontekst badań psychologicznych i pedagogicznych. Wybór tekstów, Poznań, Wyd. Nauk. UAM. Brzeziński J., Stachowski R. (1984), Zastosowanie analizy wariancji w eksperymentalnych badaniach psychologicznych (wyd. 2), Warszawa, PWN. Brzeziński J., Witkowski L. (red.)(1994). Edukacja wobec zmiany społecznej, Toruń, Edytor. Bunge M. (1959), Metascientific Queries, Springfield, IL, Ch. C. Thomas, Pubiisher. Bunge M. (1962), Intuition and science, Englewood Cliffs. NJ, Prentice-Hall. Bunge M. (1967), Scientific Research I. The search for system, Berlin, Springer-Verlag. Cackowski Z. (1964), Problemy i pseudoproblemy. Warszawa, KiW. Campbell D. T. (1957), Factor releyant to the validity of experiment in social settings, „Psychological BulletirT, 54, 297-312. Campbell D. T.. Stanley J. C. (1967), Experimentai and quasiexperimental designs for research on teaching, w: N. L. Gage (red.), Handbook of research on teaching (s. 171-246), Chicago.IL, Rand McNally. Campbell D. T. (1960), Recommendations for APA test Standardsregarding consiruct, trait, or discriminant validity, „American Psychologist", 15, 546-553. Campbell D. T. (1969), Prospective: Artifaci and control, w: R. Rosenthal, R. L. Rosnow (red.), Artifact in behavioral research (s. 351-381), New York, Academic Press. Campbell D. T., Fiske D. W. (1959), Convergent and discriminant validation by the multitrait-multimethod matrix, „Psychological Bulletin", 56, 81-105. Canfield A. A. (1951), The „ten" scalę — a modified C-scale, „Educational and Psychological Measurement", 11, 295-297. Camap R. (1959), The methodoiogtcal character of theoretical concepts, w: H. Feigel, M. Scriven (red.), Minnesota Studies in the Philosophy of Sciences, t. I (s. 38-76) Minneapolis,MN, University of Minnesota Press. Carson R. C. (1970), Interaction concepts ofpersonality, London, G. Allen & Unwin Ltd. Cattell J. McK. (1890), Mentol tests and measurements, „Mind", 15, 373-381. Cattel R. B. (1971), Abilities: Their structre, growth, and action. Boston, Houghton Mifflin. Cattell R. B., Eber H. W., Tatsuoka M. M. (1970), Handbook for the Sucteen Personality Factor Questionnaire (16 PF), Champaign,IL, Institute for Personality and Ability Testing. CBOS (1995), Serwis Informacyjny, nr 1, Warszawa, Centrum Badania Opinii Społecznej. Chów S. L. (1988), Significance test or effect size? „Psychological Bulletin", 52, 105-110.
666
Choynowski M. (1959), Elementy teorii testów psychologicznych, „Przegląd Psychologiczny", 3, 151-170. Choynowski M. (1966), Opracowanie zestawu testów dla prognozy powodzenia w podoficerskich szkołach Milicji Obywatelskiej, Wrocław, Ossolineum. Choynowski M. (1971a), Pomiar w psychologii, w: J. Kozielecki (red.), Problemy psychologii matematycznej (s. 15-42), Warszawa, PWN. Choynowski M. (1971b), Podstawy i zastosowania teorii rzetelności testów psychologicznych, w: J. Kozielecki (red.), Problemy psychologii matematycznej (s. 65-118), Warszawa, PWN. Choynowski M. (red.) (1968), „Biuletyn Psychometryczny", t. II, Wrocław, Ossolineum. Choynowski M., Dobruszek Z., Kottas A., Leszczyńska E.. Manturzewska M., Markowska B., Nowakowska M.. Skrzypek E., Strzalecki A. (1968), Rozwój, założenia i dorobek Pracowni Psychometrycznej PAN. Opracowanie testów, w: Choynowski M. (red.). „Biuletyn Psychometryczny", t. II (s. 205-264), Wrocław, Ossolineum. Chwalisz P., Kowalik R. Nowak L., Stefański M. (1976), Osobliwości badań praktycznych, w: L. Nowak (red.). Teoria a rzeczywistość (s. 189-213) („Poznańskie Studia z Filozofii Nauki", t. 1). Warszawa-Poznań. PWN. Cialdmi R. B. (1994), Wywieranie wpływu na ludzi, Gdańsk, Gdańskie Wydawnictwo Psychologiczne. Ciechanowicz A. (1990a), Adaptacja kulturowa testów, w: A. Ciechanowicz (red.), Kulturowa adaptacja testów (s. 9-30), Warszawa, Poi. Tow. Psychol.; Lab. Technik Diagn. Ciechanowicz A. (red.)(1990b). Kulturowa adaptacja testów. Warszawa, Poi. Tow. Psychol.; Lab. Technik Diagn. Cohen J. (1968), Multiple regression as a generał data-analytic system, „Psychological Bulletin", 70, 426-443. Cohen J. (1969), Profile similarity coefficient invariant over \ariable reflection, „Psychological Bulletin", 71, 281-284. Cohen J. (1983), The cost of dichotomization, .Applied Psychological Measurement", 7, 249-253. Cohen J. (1988), Statistical power analysis for the behavioral sciences (wyd. 2), Hillsdale. NJ, L. Erlbaum. Cohen J. (1988), Współczynnik rcjako miara podobieństwa profilów niezmienna względem odwracania zmiennych, w: J. Brzeziński (red.), Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 240-247) („Biblioteka Psychologa Praktyka", t. II), Warszawa, Wyd. Poi. Tow. Psychol. Cohen I. (1990), Things I have learned {so far), .American Psychologist", 45, 1304-1312. Cohen J. (1992), A power primer, „Psychological Bulletin", 112. 155-159. Cohen J. (1994), The Earth is round (p < .05), „American Psychologist", 49, 997-1003. Cohen J., Cohen P. (1975). Applied multiple regression/correlation analysis for the behavioral science, Hillsdale, NJ, L. Erlbaum. Cohen J., Cohen P. (1983). Applied multiple regression/correlation analysis for the behavioral science (wyd. 2). Hillsdale, NJ: L. Erlbaum. Cole D. A. (1987), Utility of confirmatory factor analysis in test validation research, .Joumal of Consulting and Clinical Psychology", 55, 584-594. Cook T. D., Campbell D. T. (1979). Quasi-experimentation. Design and analysis issues for field settings. Boston, Houghton Mifflin Co. Coombs. C. H., Dawes R. M., Tversky A. (1977). Wprowadzenie do psychologii matematycznej. Warszawa, PWN. Cooper H. M. (1979), Pygmalion grows up: A model for teacher expectation communication and performance influence, .,Review of Educational Research", 49, 389-410. Cooper H. M. (1985), Models for teacher expectation communication, w: J. Dusek (red.), Teacher expectancies (s.135-158), Hillsdale,NJ, L. Erlbaum. Cooper J. (1976), Deception and role-playing: On telling the good guysfrom the bad guys, .American Psychologist", 31, 605-610. Costa P. T„ Jr., McCrae R. R. (1992), NEO-PI-R. Professional Manuał, Odessa, FL, Psychological Assessment Resources. Cowles M., Davis C. (1987), The subject matter of psychology: Volunteers, „The British Joumal of Social Psychology", 26, cz. 2, 97-102.
667
Craig J. R., Metze L. P. (1986), Methods of psychological reseaarch (wyd. 2.), Monterey, CA, Brooks/Cole Pubt. Cronbach L. J. (1951), Coefficient alpha and the internal structure oftests, „Psychometrika", 16, 297-334. Cronbach L. J. (1957), The two disciplines of scientific psychology, .American Psychologist", 12, 671-684. Cronbach L. J. (1971), Test validation, w: R. L. Thomdike (Ed.), Educational measurement (wyd. 2.)(s. 443-507), Washington, DC, American Council of Educalion. Cronbach L. J. (1975), Beyond the two disciplines of scientific psychology, .American Psychologist", 30, 116-127. Cronbach L. J. (1988), Propozycje analitycznego podejścia do ocen uzyskiwanych w percepcji społecznej, w: J. Brzeziński (red.), Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 197-227)(„Biblioteka Psychologa Praktyka", t. II), Warszawa, Wyd. Poi. Tow. Psychol. Cronbach L. J. (1990), Essentials of psychological testing (wyd. 5.), New York, Harper and Row. Cronbach L. J., Gleser G. C. (1988), Szacowanie podobieństwa profilów, w: J. Brzeziński (red.), Problemy teońi, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 179— -196)(„Biblioteka Psychologa Praktyka", t. II). Warszawa, Wyd. Poi. Tow. Psychol. Cronbach L. J., Meehl P. E. (1955), Construct validity in psychological tests, „Psychological Bulletin", 52, 281-302. Cronbach L. J., Rajaratnam L., Nanda H., Gleser G. C. (1972), The dependability of behavioral measurements: Theory of generalizability for scores and profiles, New York, J. Wiley. Crown D. P., Marlowe D. (1964), The approval motive: Studies in evaluative dependence, New York, J. Wiley. Cureton E. E. (1950), Validity, w: E. F. Lindquist (red.), Educational measurement (s. 621-694), Washington, DC, American Council of Education. Czabała C, Leder S., Pohorecka A. (1973), Badania nad psychoterapią grupową, w: H. Wardaszko-Łyskowska (red.), Terapia grupowa w psychiatrii (s. 181-209), Warszawa, PZWL. Czapiński J. (1994), Uziemienie polskiej duszy, „Kultura i Społeczeństwo", 38 (3), 17-37. Czapiński J., Górecki, B., Gucwa-Leśny E., Tyszka T. (1994), Polski generalny sondaż jakości Życia, Warszawa, Instytut Studiów Społecznych. Damaser E. C, Shor R. R., Orne M. T. (1963), Physiological ejfects during hypnotically-reąuested emotions, „Psychosomatic Medicine", 25, 334-343. Darley J. M., Oleson K. C. (1993), Introduction to research on interpersonal expectations, w: P. D. Blanek (red.), Interpersonal expectations. Theory, research, and applications (s. 45-63), Cambridge, Cambridge University Press. Darlington R. B. (1968), Multiple regression in psychological research and practice, „Psychological Bulletin", 69, 161-182. Daszkowski J. (1980), Analiza częstości cytowań publikacji (na przykładzie nauk społecznych), „Zagadnienia Naukoznawstwa", 2 (62), 170-182. Davis F. (1959), Interpretation of differences among averages and individual test scores, , Journal of Educational Psychology", 50, 162-170. Di Nuovo S. (1992), La sperimentazione in psicologia applicata. Probierni di metodologia e analisi dei dali, Milan, FrancoAngeli. Dobruszek Z. (1971), Dobór pracowników, w: J. Okoń (red.). Psychologia przemysłowa (s. 28-98), Warszawa, PWN. Domański C. (1979), Statystyczne testy nieparametryczne, Warszawa, PWE. Draper N. R., Smith H. (1973), Analiza regresji stosowana. Warszawa, WNT. Drozdowicz Z. (1995), Excellentia universitas. Szkice o uniwersytecie, Poznań, Wyd. Fundacji Humaniora. Drwal R. Ł. (1978), Poczucie kontroli jako wymiar osobowości — podstawy teoretyczne, techniki badawcze i wyniki badań, w: E. Paszkiewicz (red.), Materiały do nauczania psychologii, seria III, t. 3 (s. 307-345), Warszawa, PWN. Drwal R. L. (1981), Osobowość wychowanków zakładów poprawczych. Badania nad funkcjami podkultury zakładowej, Wrocław, Ossolineum. Drwal R. Ł. (1990), Problemy kulturowej adaptacji testów kwestionariuszy osobowości, w: A. Ciecha-
668
nowicz (red.). Kulturowa adaptacja testów (s. 115-138), Warszawa, Poi. Tow. Psychol.; Lab. Technik Diagn. Drwal R. Ł. (1995), Adaptacja kwestionariuszy osobowości. Warszawa, Wyd. Nauk. PWN. Duncan S. D., Rosenthal R. (1969), Vocal emphasis in experimenters instruction reading as unintendent determinant of subjects responses, ,.Language and Speech", 11, 20-26. Duncan S. D., Rosenberg M. J., Finkelstein J. (1969), The paralanguage of experimenter bias, „Sociometry", 32, 207-219. Dunnette M. D. (1963), A notę on the criterion, „Joumal of Applied Psychology", 47, 251-254. Edwards A. L. (1957), Techniąues of attitude scalę construction, New York, Appleton-Century-Crofts Inc. Edwards A. L. (1970), The measurement of personality traits by scales and inventories, New York, Holt, Rinehart and Winston. Edwards A. L. (1972), Experimental design in psychological research (wyd. 4), New York, Holt, Rinahart and Winston. Edwards W., Lindman H., Savage L. J. (1963), Bayesian statistical inferences for psychological research, „Psychological Review", 70, 193-242. EUis H. C. (1992), Graduate education in psychology. Past, present, and future, .American Psychologist", 47, 570-576. Ellison D. G., Davis R. C, Saltzman I. J., Burkę C. J. (1952), A report on research on detecńon of deception, Bloomington, IN, Dept. of Psychol., Indiana University. Encyklopedia fizyki, t. 1. (1972), Warszawa, PWN. Endler N. S. (1983), Interactionism: A personality model, but not yet a theory, w: M. M. Page (red.), Nebraska Symposium on Motivation 1982: Personality — current theory and research, Lincoln, NE, University of Nebraska Press. Exner J. E. (1986), The Rorschach: A comprehensive system, t. 1, Basic foundations (wyd. 2), New York, J. Wiley. Eysenck H., Eysenck M. (1996), Podpatrywanie umysłu. Dlaczego ludzie zachowują się tak, jak się zachowują?, Gdańsk, Gdańskie Wydawnictwo Psychologiczne. Ezekiel M. (1945), Methods of correlation analysis, New York, J. Wiley. Feingold A. (1995), The additive effects of differences in central tendency and variability are important in comparisons between grups, „American Psychologist", 50, 5-13. Ferguson G. A. (1951), A notę of Kuder-Richardson formuła, „Educational and Psychological Measurement", 11, 612-615. Ferguson G. A. (1976), Statistical analysis in psychology and education (wyd. 4), New York, McGrawHill. Ferguson G. A., Takane Y. (1989), Statistical analysis in psychology and education (wyd. 6), New York, McGraw-Hill. Feyerabend P. K. (1979), Jak być dobrym empirystą? Warszawa, PWN. Fisher G. (1974), Einflihrung in die Theorie psychologischer Test, Bern, Verlag Hans Huber. Fisher R. A. (1925), Statistical methods for research workers, London, Oliver and Boyd. Fisher R. A. (1935), The design of experiments, Edinburgh, Oliver and Boyd. Folks J. L. (1984), Use of randomization in experimental research, w: K. Hinkelmann (red.), Experimental design, statistical models, and genetic statistics: Essays in Honor of Oscar Kempthome (s. 17-32), Marce! Dekker. Frank G. (1984), Wechsler enterprise, Oxford, Pergamon Press. Franus E. (1992), Struktura i ogólna metodologia nauki ergonomii, Kraków, Universitas. Fraczek A. (1979), Czynności agresywne jako przedmiot studiów eksperymentalnej psychologii społecznej, w: A. Fraczek (red.), Studia nad psychologicznymi mechanizmami czynności agresywnych (s. 9-32), Wrocław, Ossolineum. Frederiksen N. (1986), Construct validity and construct similarity: Methods for use in test development and test validation, „Multivariate Behavioral Research", 21, 3-28. Freedman J. L. (1969), Role playing: Psychology by consensus, .Joumal of Personality and Social Psychology", 13, 107-114.
669
Frenkel-Brunswik E., Levinson D. J., Sanford R. N. (1962), Osobowość autorytarna, w: A. Malewski (red.). Zagadnienia psychologii społecznej (s. 303-322), Warszawa, PWN. Freund J. (1971), Podstawy nowoczesnej statystyki. Warszawa, PWE. Garfield E. (1978), The 100 books most cited by social scientist, 1969-1977, „Current Contenls: Behavioral and Social Sciences", 37, 5-16. Gaul M. (1989), Ocena trafności testu za pomocą modeli równań strukturalnych, „Przegląd Psychologiczny", 32 (2), 435^149. Gaul M. (1990) Idealizacyjne modele poznania naukowego w psychologii, Warszawa-Poznań, PWN. Gaul M. (1993a), Podobieństwa, w: J. Brzeziński, E. Homowska (red.). Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 205-224), Warszawa, Wyd. Nauk. PWN. Gaul M. (1993b), Braki w Obrazkach, w: J. Brzeziński, E. Homowska (red.). Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 225-240), Warszawa, Wyd. Nauk. PWN. Gaul M. (1993c), Porządkowanie Obrazków, w: J. Brzeziński, E. Hornowska (red.). Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (g. 2241-254), Warszawa, Wyd. Nauk. PWN. Gaul M.. Machowski A. (1987), Elementy analizy ścieżek, w: J. Brzeziński (red.), Wielozmiennowe modele statystyczne w badaniach psychologicznych (s. 82-112), Warszawa-Poznań, PWN. Gaul M., Zakrzewska M. (1993), Charakterystyka amerykańskiej i polskiej próby standaryzacyjnej i normalizacyjnej, w: J. Brzeziński, E. Hornowska (red.) Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 107-118). Warszawa, Wyd. Nauk. PWN. Gerslmann S. (1972), Rozmowa i wywiad w psychologii. Warszawa. PWN. Giedymin J. (1962), Hipotezy, metodologia opisowa, wyjaśnianie, „Kwartalnik historyczny". LXIX, z. 4, 917-922. Giedymin J. (1964), Problemy, założenia, rozstrzygnięcia, Poznań, PTE. Gilly M. (1987), Nauczyciel-uczeń. Role instytucjonalne a reprezentacje. Warszawa, PWN. Gockowski J. (1981), Tezy o uniwersytecie, „Teksty", 2, 5-37. Gockowski J., Kisiel P. (red.)(1994). Patologia i terapia życia naukowego, Kraków, Universitas. Gockowski J., Pigoń K. (red.)(1991). Etyka zawodowa ludzi nauki, Wrocław, Ossolineum. Goldberger A. S. (1975), Teoria ekonometrii. Warszawa, PWE. Góralski A. (1980), Metody opisu i wnioskowania statystycznego w psychologii i pedagogice (wyd. 2), Warszawa, PWN. Greenwald A. G., Pratkanis A. R., Lieppe M. R., Baumgardner M. H. (1986). Under what conditions does theory obstruct research progress?, „Psychological Review", 93, 216-229. Greenwood J. D. (1991), Granie roli jako strategia eksperymentalna w psychologii społecznej, w: J. Brzeziński, J. Siuta (red.), Społeczny kontekst badań psychologicznych i pedagogicznych. Wybór tekstów (s. 183-209), Poznań, Wyd. Nauk. UAM. Greń J. (1975), Statystyka matematyczna. Modele i zadania. Warszawa, PWN. Greń J. (1984), Statystyka matematyczna. Modele i zadania. Warszawa, PWN. Greń J. (1987), Statystyka matematyczna. Podręcznik programowany. Warszawa, PWN. Guilford J. P. (1954), Psychometric methods (wyd. 2.), New York, McGraw-Hill. Guilford J. P. (1964), Podstawowe metody statystyczne w psychologii i pedagogice (wyd. 2.), Warszawa, PWN. Guilford J. P. (1988), Teoria testów psychologicznych. Rzetelność i trafność pomiarów. Tworzenie testu. w: J. Brzeziński (red.). Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych („Biblioteka Psychologa Praktyka", t. II), Warszawa, Wyd. Poi. Tow. Psychol. Guilford J. P., Fruchter B. (1978), Fundamental statistics in psychology and education, New York, McGraw-Hill. Guion R. M. (1980), On trinitarian doctrines ofvalidity, „Professional Psychology", 11, 385-398. Gulliksen H. (1950), Theory of mental tests, New York, J. Wiley. Gunst R. F., Mason R. L. (1980), Regression analysis and its application. A data oriented approach, New York, Marcel Dekker.
670
Gustafson L. A., Orne M. T. (1965), Effects of perceived role and role success on the detection of deception, .Journal of Applied Psychology", 49, 412-417. Gultman L. (1945), A basie for analyzing test-retest reliability, „Psychometrika", 10, 255-282. Guttman L. (1950), Rozdziały: 2, 3, 6, 8, 9 w: A. Stouffer (red.)- Measuremenl andpredietion. Studies in social psychology in World War II, t. 2, Princeton.NJ, Princelon University Press. Guzzo R. A., Jackson S. E., Katzell R. E. (1986), Meta-analysis analysis, w: L. L. Cummings, B. M. Staw (red.), Research in organizational behavtor, t. 9, Greenwich, CT, JA1 Press. Harris M. J. (1993), Issues in studying the mediation of e.tpectancy effects: A taxonomy of expectancy situations, w: P. D. Blanek (red.), Interpersonal expectations. Theory, research, and applications (s. 350-378), Cambridge, Cambridge University Press. Harris M. J., Rosenthal R. (1985), The mediation of interpersonal expectancy effects: 31 meta-analyses, .Psychological Bulletin", 97, 363-386. Hathaway S. R., J. C. McKinley (1963), Minnesota Muhiphasic Personality Inventory — Manuał, New York, The Psychological Corporation. Hawkins J. D., Nederhood B. (1994), Podręcznik ewaluacji programów profilaktycznych. Nadużywanie substancji uzależniających i inne problemy społeczne, Warszawa-Olsztyn, Poi. Tow. Psychol.. Pracownia Wydawnicza. Hays W. L. (1973), Statistics for social sciences (wyd. 2.), New York, Holt, Rinehart and Winston. Hays W. L. (1981), Statistics (wyd. 4.), New York, Holt, Rinehart and Winston. Hedderson J. (1991), SPSS/PC+ madę simple, Belmont, CA, Wadsworth Hellwig Z. (1960), Regresja liniowa i jej zastosowanie w ekonometrii. Warszawa, PWE. Helmstadter C. (1970). Research concept in human behavior: Education, psychology, sociology, New York, Appleton-Century-Crofts. Hempel C. G. (1968), Podstawy nauk przyrodniczych. Warszawa, WNT. Henkel R. E., Morrison D. E. (red.)(1970), The significance test controversy, London, Butterworths. Hermstein R. J., Murray Ch. (1994), The belle curve. Intelligence and elass structure in American life, New York, Free Press. Hessen S. (1931), Podstawy pedagogiki. Warszawa, Nasza Księgarnia. Hollander M., Wolfe D. A. (1973), Nonparametric statistical methods, New York, J. Wiley. Holley J. W., Guilford J. P. (1964), A notę on the G index of agreement. „Educational and Psychological Measurement", 24, 749-753. Hope K. (1968), Methods of multivariate analysis, London, University of London Press. Hornowska E. (1989), Operacjonalizacja wielkości psychologicznych. Założenia — struktura — konsekwencje, Wrocław, Ossolineum. Homowska E. (1993a), Słownik, w: J. Brzeziński, E. Homowska (red.). Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 168-182), Warszawa, Wyd. Nauk. PWN. Hornowska E. (I993b). Rozumienie, w: J. Brzeziński, E. Homowska (red.). Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 192-204), Warszawa, Wyd. Nauk. PWN. Homowska E. (1993c), Skala Inteligencji Davida Wechslera w świetle teorii inteligencji, w: J. Brzeziński, E. Homowska (red.). Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 21-48), Warszawa, Wyd. Nauk. PWN. Hornowska E. (1995), Stronniczość testów psychologicznych — mit czy rzeczywistość? w: A. Bielą, J. Brzeziński, T. Marek (red.). Społeczne, eksperymentalne i metodologiczne konteksty procesów poznawczych człowieka (s. 359-374), Poznań, Wyd. Fundacji Humaniora. Hornowska E., Paluchowski W. J. (1987). Rysunek postaci ludzkiej według Goodenough-Harrisa (DAMT). Wyniki badań dzieci polskich. Poznań, Wyd. Nauk. UAM. Homowska E., Paluchowski W. J. (1993), Technika badania ważności pracy, w: J. Brzeziński (red.). Psychologiczne i psychometryczne problemy diagnostyki psychologicznej (s. 105-119). Poznań. Wyd. Nauk. UAM. Hoshmand L. T., Polkinghome D. E. (1992), Redefining the science-practice relationships and professional training, „American Psycholog i st", 47, 55-66. Hoyt C. (1941), Test reliability estimated by analysis of variance, „Psychometrika", 6, 153-160.
671
Hoyt C, Stunkard C. L. (1951), Estimation of test reliability for unrestricted itetn scoring metnods, ..Educational and Psychological Measurement", 12, 756-758. Hoyt C, Krishnaiach P. R. (1960), Estimation of test reliability by analysis of variance, „Journal of Experimental Education", 28, 17-24. Hubbard J. P., Clemans W. V. (1972), Metodyka egzaminów testowych w kształceniu lekarzy. Warszawa, PZWL. Huck S., Sandler H. M. (1973), A notę on the Solomon 4-group design. Appropriate statistical analysis, „Joumal of Experimental Education", 42, 54-55. Hulin C. L., Drasgow F., Parsons C. K. (1983), Item response theory. Application to psychological measurement, Homewood,IL, Dow Jones-Irwin. Hultsch D. F., Hickey T. (1978), External validity in the study ofhuman devełopment: Theoretical and methodologized issues, „Human Development", 21, 76-91. Hunter J. E., Schmidt F. L. (1990), Methods of meta-analysis. Correcting error and bras in research findings, Newbury Park, CA, Sagę. Jóreskog K. G., Sórbom D. (1989), LJSREL 7 s reference guide, Mooresville, IN Scientific Software, Inc. Jóreskog K. G., Sórbom D. (1995), 8; Structural eąuation modeling with the SIMPLJS command language. Chicago, IL, SSI, Scientific Software International and Groningen, The Netherlands, ProGAMMA. Jackson D. N. (1969), Multimethod factor analysis in the evaluation of convergent and discriminant validity, „Psychological Bulletin", 72, 30-49. Jackson D. N. (1975), Multimethod factor analysis: A reformulation, „Multivariate Behavioral Research", 10, 259-275. Jahoda M., Deutsch M., Cook S. W. (1965a), Skale nominalne, porządkowe, interwałowe i ilorazowe, w: S. Nowak (red.). Metody badań socjologicznych. Wybór tekstów (s. 274-278), Warszawa, PWN. Jahoda M., Deutsch M., Cook S. W. (1965b), Ustalanie związków przyczynowych w badaniach nieeksperymentalnych, w: S. Nowak (red.), Metody badań socjologicznych. Wybór tekstów (s. 561-571), Warszawa, PWN. Jakubowska U. (1993), Czynności badawcze w psychologii i pedagogice. Zarys problematyki, Bydgoszcz, Wyd. WSP. Jakubowski J. S. (1983), Elementy klasycznej teorii trafności testów psychologicznych, w: W. J. Paluchowski (red.), Z zagadnień diagnostyki osobowości (s. 223-247), Wrocław, Ossolineum. Jamieson D.W., Lydon J. E., Stewart G., Zanna M. P. (1987), Pygmalion revisited: New evidence for student expectancy effects in the classroom, ,Journal of Educational Psychology", 79, 461-466. Jankowski K. (1972), Hipisi w poszukiwaniu ziemi obiecanej, Warszawa, KiW. Janowski A. (1974), Eksperyment badania zjawisk wychowawczych jako technika, w: R. Wroczyński, T. Pilch (red.). Metodologia pedagogiki społecznej (s. 183-217), Wrocław, Ossolineum. Jaworowska A., Michalićka M. (1978), Zastosowanie niektórych testów nieparametrycznych w badanich psychologicznych i pedagogicznych, w: L. Wołoszynowa (red.), Materiały do nauczania psychologii, seria III, t. 3 (s. 749-753), Warszawa, PWN. Jaworowska A., Szustrowa T. (1990), Ogólne problemy kulturowej adaptacji testów, w: A. Ctechanowicz (red.)(1990). Kulturowa adaptacja testów (s. 31-47). Warszawa, Poi. Tow. Psychol.; Lab. Technik Diagn. Jaworowska A., Szustrowa T. (1991), Podręcznik do Testu Matryc Ravena. Wersja Standard (1956). Polska standaryzacja 1989 (5;ll-15;ll), Warszawa, Pracownia Testów Psychologicznych Poi. Tow. Psychol. Jensen A. R. (1980), Bias in mental testing, New York, Free Press. Johnson R. F. Q. (1991), Pułapki w badaniu: wywiad jako model przykładowy, w: J. Brzeziński, J. Siuta (red.), Społeczny kontekst badań psychologicznych i pedagogicznych. Wybór tekstów (s. 433-450), Poznań, Wyd. Nauk. UAM. Johnstone D. J. (1989), On the necessity for rondom sampling, „The British Journal for the Philosophy of Science", 40, 443-457. Jurgensen C. E. (1968), Tablice współczynników phi, w: Choynowski M. (red.). Biuletyn Psychometfyczny, t. II (s. 189-202), Wrocław, Ossolineum. 672
Jurkowski A. (1990), Adaptacja testów słownikowych, w: A. Ciechanowicz (red.)( 1990), Kulturowa adaptacja testów (s. 77-91), Warszawa, Poi. Tow. Psychoi.; Lab. Technik Diagn. Jussim L. (1986), Self-fuifiłling prophiecies: A theoretical and integrative review, „Psychological Review", 93, 429-445. Kaiser H. F. (1958), The varimax cńteńon for analytic rotation in factor analysis, „Psychometrika", 23, 187-200. Kalleberg A. L., Kluegel J. R. (1975), Analysis ofthe multitrait-mulńmethod matrix: Some limitations and an alternative, „Journal of Applied Psychology", 60, 1-9. Kamiński S. (1992), Nauka i metoda. Pojęcie nauki i klasyfikacja nauk, Lublin, Tow. Nauk. KUL. Kaufman A. S. (1976a), Do normal children have flat profiles? „Psychology in the schools", 13, 284-285. Kaufman A. S. (1976b), A new approach to the interpretation of test scatter on the W1SC-R, ,Joumal of Learning Disabilities", 9, 160-168. Kaufman A. S. (1976c), Verbal-Performance IQ discrepancies on the W1SC-R, ,Journal of Consulting and Clinical Psychology", 44, 739-744. Kelman H. C. (1967), Human use ofhuman subjects: The problem of deception in social psychological experiments, „Psychological Bulletin", 67, 1-11. Kendall M. G. (1970), Rank correlation methods (wyd. 4.), London, Ch. Griffin. Kenny D. A., Kashy D. A. (1992), Analysis ofthe multitrait-multimethod matrix by confirmatory factor analysis, „Psychological Bulletin", 112, 165-172. Kerlinger F. N. (1964), Foundations of behavioral resarch, New York, Holt, Rinehart & Winston. Kerlinger F. N. (1986), Foundations ofbehavioral research (wyd. 3.), New York, Holt, Rinehart and Winston. Kerlinger F. N., Pedhazur E. (1973), Multiple regression in behavioral research, New York, Holt, Rinehart and Winston. Kimble G. A. (1984), Psychology's two cultures, „American Psychologist", 39, 833-839. Kinsey A. C, Pomeroy W. B., Martin C. E. (1948), Sexual behavior in the human małe, Philadelphia. Saunders. Kinsey A. C, Pomeroy W. B., Martin C. E., Gebhard P. H. (1953), Sexual behavior in the human femałe, Philadelphia, Saunders. Kirk R. E. (1968), Experimentał design: Procedures for the behavioral sciences, Belmont, CA, Brooks Kirk R. E. (1982), Experimental design: Procedures for the behavioral sciences (wyd. 2.), Belmont, CA, Brooks. Kmita J. (1973), Wykłady z logiki i metodologii nauk. Warszawa, PWN. Kmita J. (1976), Szkice z teorii poznania naukowego. Warszawa, PWN. Kofta M. (1979), Samokontrola a emocje. Warszawa, PWN. Kofta M., Malak B. (1983), Psychologiczne przesłanki podatności na manipulację, „Nowiny Psychologiczne", 3(10), 6-18. Kofta M., Brzeziński J., Ignaczak M. (1977), Analiza psychometryczna Kwestionariusza Poczucia Winy, „Studia Psychologiczne", 15, z. 1, 93-113. Kohn P. M., Hunt R. W., Davis C. A., Cowles P. M. (1981), Wolunteering in principle, volunteering infact, and experience seeking, „The Psychological Record", 32, 205-213. Komorita S. S., Graham W. K. (1965), Number of scalę points and the reliability of scalęs, „Educational and Psychological Measurement", 25, 987-995. Kołakowski L. (1993), Po co uniwersytet? Tekst wykładu wygłoszonego na konferencji „Dylematy szkolnictwa wyższego", zorganizowanej przez Institut fur Wissenschaften vom Menschen (w Wiedniu) w Warszawie, w czerwcu 1993 roku. Komitet Etyki w Nauce PAN (1994), Dobre obyczaje w nauce. Zbiór zasad ^wytycznych. Warszawa, PAN. Kopaliński W. (1988), Słownik wyrazów obcych i zwrotów obcojęzycznych (wyd. 16.), Warszawa, Wiedza Powszechna. Kosnarewicz A. (1989), Kilka uwag o dystynkcji kontekst odkrycia — kontekst uzasadniania, w: J. Brzeziński, K. Łastowski (red.), Filozoficzne i metodologiczne podstawy teorii naukowych (s. 275-285) („Poznańskie Studia z Filozofii Nauki", t. 11), Warszawa-Poznań, PWN.
673
Kostrzewski J. (1963), Wiek obojga rodziców a choroba L. Downa, „Polski Tygodnik Lekarski", 18, 1175-1180. Kostrzewski J. (1970), Wprowadzenie do Skali Inteligencji D. Wechslera dla Dzieci od 5 do 15 lat. Warszawa-Łódź, Wyd. PTHP. Kostrzewski J. (1976), Użyteczność badań psychologicznych dla rewalidacji, w: J. Kostrzewski (red.). Z zagadnień psychologii dzieci umysłowo upośledzonych, t. 1 (s. 77-103), Warszawa. Wyższa Szkoła Pedagogiki Specjalnej. Kostrzewski J. (1985), Testy inteligencji culture-fair, w: A. Ciechanowicz (red.). Kulturowa adaptacja testów (s. 49-75), Warszawa, Poi. Tow. Psychol.; Lab. Technik Diagn. Kotarbiński T. (1972), Pojęcia i zagadnienia metodologii, „Studia Filozoficzne", 1(74), 5-12. Kowalik S. (1981), Upośledzenie umysłowe a rozwój społeczny. Warszawa, PWN. Kowalik S. (1984), Zasady interpretacji skali Wechslera w praktyce diagnostycznej, w: J. Brzeziński (red.). Wybrane zagadnienia z psychometrii i diagnostyki psychologicznej (s. 151-180). Poznań. Wyd. Nauk. UAM. Kowalik S. (1989), Upośledzenie umysłowe. Teoria i praktyka rehabilitacji. Warszawa, PWN. Kowalik S. (1993), Kliniczna interpretacja Skal Inteligencji: W-B, Uli, WA1S, WAIS-R, w: J. Brzeziński, E. Homowska (red.). Skala Inteligencji WAtS-R Wechslera. Polska adaptacja, standaryzacja. normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 386-462), Warszawa. Wyd. Nauk. PWN. Kowalik S., Sęk H. (1993), Psychologia kliniczna i psychologia społeczna —pojęcia, przedmiot i wzajemne związki, w: H. Sek (red.), Społeczna psychologia kliniczna (wyd. 2.) (s. 17-33). Warszawa, Wyd. Nauk. PWN. Kozielecki J. (1972a), Osobliwości procesu myślenia a twórczość naukowa, „Zagadnienia Naukoznawstwa", 8, 311-322. Kozielecki J. (1972b), Struktura myślenia krytycznego w nauce, „Zagadnienia Naukoznawstwa", 8, 486-497. Kozielecki J. (1975), Psychologiczna teoria decyzji. Warszawa, PWN. Kozielecki J. (1976), Metodologiczne niepokoje, „Przegląd Psychologiczny", 19 (4), 543-556. Kozielecki J. (1995), Koncepcje psychologiczne człowieka (wyd. 5.), Warszawa, Wyd. Żak. Kozielecki J. (Ed.)(1971). Problemy psychologii matematycznej. Warszawa, PWN. Krajewski Wł. (1979). Ideał izacyjna koncepcja rozwoju nauki, w: A. Klawiter, L. Nowak (red.). Odkrycie, abstrakcja, prawda, empiria, historia a idealizacja (s. 203-210), Warszawa-Poznań. PWN. Krathwohl D. R. (1984), Experimental deigns, w: R. J. Corsini (red.). Encyclopedia of psychology. t. 2 (s. 466-470), New York, J. Wiley. Kreutz M. (1962), Metody współczesnej psychologii, Warszawa, PWN. Krishnaiah P. R. (1980). Handbook of statistics, t. 1, Analysis ofvańance. Amsterdam, North-Holland. Kruglanski A. (1973), Much ado about the volunteer artifacts, .Journal of Personality and Social Psychology", 28, 348-354. Kruglanski A.. Kroy M. (1975), Outcome validity in experimental research: A re-conceptualization, .Journal of Representative Research in Social Psychology", 7, 18-178. Kuder G. F.. Richardson M. W. (1937), The theory of the estimation of test reliability, „Psychometrika", 2, 151-160. Kuhn T. S. (1968), Struktura rewolucji naukowych. Warszawa, PWN. Kuhn T. S. (1971), Notes on Lakatos, w: R. Buck, R. S. Cohen (red.), In memory of Rudolf Carnap („Boston Studies in the Philosophy of Sciences", t. 8). Dordrechi. D. Reidel. Kuhn T. S. (1985), Dwa bieguny. Tradycja i nowatorsko w badaniach naukowych. Warszawa, PIW. Kupracz A. (1991), O dwóch ujęciach metody idealizacji w naukach empirycznych. Próba analizy porównawczej, Poznań, Ośrodek Wydawnictw Naukowych. Lakatos I. (1995), Pisma z filozofii nauk empirycznych. Warszawa. Wyd. Nauk. PWN. Lamal P. A. (1991), On the importance of replication, w: Neuliep J. W. (red.), Replication research in the social sciences (s. 31-35), Newbury Park. CA. Sagę. Lana R. E. (1969), Pretest sensitization, w: W: R. Rosenthal, R. L. Rosnow (red.), Artifact in behavioral research (s. 121-140), New York, Academic Press.
674
Lazarsfeld P. F. (1968), Algebra systemów dychotomicznych. Zastosowania matematyki w badanich socjologicznych. Warszawa, PWN. Leckliter I. N., Matarazzo J. D. (1986), A literaturę review offactor analytic studies of the WA1S-R, Journal of Clinical Psychology", 42, 332-342. Lehmann E. L. (1968), Testowanie hipotez statystycznych, Warszawa, PWN. Lessac M. S., Solomon R. L. (1969), Effects of early isolation on the later adaptive behavior of beagles, „Developmental Psychology", /, 14-25. Lindeman R. H., Merenda P. F., Gold R. Z. (1980), Introduction to bivariate and multivariate analysis, Glenview,IL, Scott, Foresman and Co. Linder D. E., Cooper J., Jones E. E. (1967), Decision freedom as a determinant of the role of incenttve magnitude in attitude change, „Joumal of Personality and Social Psychology", 6, 244-254. Lindzey G., Aronson E. (red.) (1968-1969), The handbook of social psychology, Reading, MA, Addison-Wesley. Lissowski G. (1968), Z zagadnień doboru próby, w: K. Szaniawski (red.), Metody statystyczne w socjologii (s. 11-69), Warszawa, PWN. Loevinger J. (1957), Objective tests as instruments of psychological theory, „Psychological Reports", 3, 635-694. Lord F. M. (1980), Introduction to item response theory, Hillsdale, NJ, L. Erlbaum. Lord F. M., Novick M. R. (1968), Statistical theories of mentol test scores, Reading, MA, Addison-Wesley. Lu K. H. (1971), Statistical control of impurity in the estimation of test reliability, „Educational and Psychological Measurement", 31, 641-655. Maccoby E. E., Maccoby N. (1954), The interview: A tool for social science, w: G. Lindzey (red.), Handbook of social psychology, t. 1 (s. 449-487), Cambridge, MA, Addison-Wesley. MacDonald M. L. (1979), Social psychology of psychologist: Wolunteer vs. nonvolunteer therapists, „Psychological Report", 44, 311-314. Machowski A. (1993), Rzetelność testów psychologicznych. Dwa ujęcia modelowe, Warszawa-Poznań, Wyd. Nauk. PWN. Magnusson D. (1991), Wprowadzenie do teorii testów (wyd. 2.), Warszawa, Wyd. Nauk. PWN. Magnusson D. (1992), Back to phenomena: Theory, methods, and statistics in psychological research, „European Joumal of Personality", 6, 1-14. Magnusson D. (red.)(1981), Toward a psychology of situations. An interactional perspective, Hillsdale, NJ, L. Erlbaum. Magnusson D., Endler N. S. (red.)(1977), Personality at the crossroads: Current issues in interactional psychology, Hillsdale, NJ, L. Erlbaum. Marasculio L. A., McSweeney M. (1967), Nonparametric post hoc comparisons for trend, „Psychological Bulletin", 67, 401—412. Marciniak M., Szaniawski J. (1992), Słownik angielsko-polski dla informatyków (wyd. 2.), Warszawa, WNT. Marciszewski W. (red.)(1988), Mała encyklpedia logiki, Wrocław, Ossolineum. Marek T. (1989), Analiza skupień w badaniach empirycznych. Metody SAHN, Warszawa, PWN. Marek T., Noworol C. (1985), Wprowadzenie do wielozmiennowej analizy regresji, Kraków, Wyd. UJ. Marek T, Noworol C. (1987), Analiza sekwencyjna w badaniach psychologicznych. Warszawa, PWN. Marody M. (1974), Response-style — za i przeciw, „Studia Socjologiczne", 52, 141-158. Marsh H. W. (1990), Confirmatory factor analysis of multitrait-mullimethod data: The construct validation of multidimensional self-concept responses, .Journal of Personality", 58, 661-692. Marsh H. W., Hocevar D. (1983), Confirmatory factor analysis of multitrait-muttimethod matrices, .Journal of Educational Measurement", 20, 231-248. Maruszewski T. (1983), Analiza procesów poznawczych jednostki w świetle idealizacyjnej teorii nauki, Poznań, Wyd. Nauk. UAM. Maslow A. H. (1942), Self-esteem (dominance feelings) and sexuality in women, ,Journal of Social Psychology", 16, 259-293. Maslow A. H., Sakoda J. M. (1952). Volunteer-error in the Kinsey study, .Joumal of Abnormal and Social Psychology", 47, 259-262.
675
Matarazzo J. D. (1987), There is only one psychology, no specialties, but many applications, .American Psychologist", 42, 893-903. Matczak A. (1994), Diagnoza intelektu. Warszawa, Wyd. Inst. Psychol. PAN. Matczak A., Piotrowska A., Ciarkowska W. (1991), Skala inteligencji D. Wechslera dla Dzieci — wersja zmodyfikowana ~ WISC-R. Podręcznik, Warszawa, Pracownia Testów Psychologicznych Poi. Tow. Psychol. Matkowski M. (1992), MMPł: badanie — opracowanie — interpretacja, Poznań, Pracownia Terapii i Rozwoju Osobowości. Matuszewski A. (1984), Interpretacja formalna wyników w testach psychologicznych, w: J. Brzeziński (red.), Wybrane zagadnienia z psychometrii i diagnostyki psychologicznej (s. 47-71), Poznań, Wyd. Nauk. UAM. McDermott M. (1995), Okrucieństwo, etyka i eksperymenty. Portret Philipa G. Zimbardo, „Nowiny Psychologiczne", 4, 5-12. Meehl P. E. (1960), Clinical versus statistical prediction. A theoretical analysis and review of the evidence, Minneapolis, MN, University of Minnesota Press. Meehl P. E. (1970), Nuisance variables and the ex post facto design, w: M. Radner, S. Winokur (red.), Minnesota Studies in Philosophy of Science, t. 4 (s. 373-402), Minneapolis, MN, University of Minnesota Press. Melton A. W. (1962), Editorial, Journal of Experimental Psychology", 64, 553-557. Messick S. (1980), Test validity and the ethics of assessment, „American Psychologist", 35, 1012-1027. Messick S. (1989), Validity\ w: R. L. Linn (red.), Educational measurement (wyd. 3.Ks. 13-103), New York, Macmillan. Messick S. (1995), Validity of psychological assessment. Validation of inferences from persons responses and performances as scientific iąuiry into score meaning, „American Psychologist", 50, 741-749. Milgram S. (1963), Behavioral study of obedience, ,Joumal of Abnormal and Social Psychology", 67, 371-378. Milgram S. (1970), The individual in a social world: Essays and experiments, Reading, MA, Addison-Wesley. Mili J. S. (1962), System logiki dedukcyjnej i indukcyjnej, t. 1-2. Warszawa, PWN. Miller A. G. (1972), Role-playing: An alternative to deception? „American Psychologist", 27, 623-636. Mokken R. J. (1971), A theory and procedurę of scalę analysis, Paris, Mouton. Morrison D. F. (1970), Multivariate statistical methods (wyd. 3.), New York, McGraw, Hill. Morrison D. F. (1990), Wielowymiarowa analiza statystyczna. Warszawa, Wyd. Nauk. PWN. Mosier C. I. (1943), On the reliability of a weighted composite, „Psychometrika", 8, 161-168. Mosier C. I. (1947), A critical examination of the concepts offace validity, ,Psychometrika". 7, 191-205. Muszyński H. (1971), Wstęp do metodologii pedagogiki. Warszawa, PWN. Muszyński H. (1976), Zarys teorii wychowania. Warszawa, PWN. Nagel E. (1970), Struktura nauki. Warszawa, PWN. Nederhof A., J. (1991), Metody korygowania zniekształcającego wpływu zmiennej aprobaty społecznej; przegląd badań, w: J. Brzeziński, J. Siuta (red.). Społeczny kontekst badań psychologicznych i pedagogicznych. Wybór tekstów (s. 33-59), Poznań, Wyd. Nauk. UAM. Neuliep J. W. (red.)(1991), Replication research in the social sciences, Newbury Park, CA, Sagę. Newberry B, H. (1973), Truth telling in subjects with information about erperiments: Who is being deceived? .Journal of Personality and Social Psychology", 25, 364-374. Nęcka E. (1987), Proces twórczy i jego ograniczenia, Kraków, Wyd. UJ. Nęcka E. (1994a). Inteligencja i procesy poznawcze, Kraków, Oficyna Wydawnicza Impuls. Nęcka E. (1994b), TROP... Twórcze rozwiązywanie problemów, Kraków, Oficyna Wydawnicza „Impuls". Nęcka E., Stocki R. (1991), Jak pisać prace naukowe z psychologii, Kraków. Uniwersitas. Nickles T. (1988), Questioning and problems in philosophy of science: Problem solving versus directly truth-seeking epistemologies, w: M. Meyer (red). Questions and questioning (s. 43-67), Berlin. Walter de Gruyter. Nickles T. (1989), Justification and experiment, w: D. Gooding, T. Pinch, S. Schaffer (red.), The use ofexperiment: Studies of experiment in the natural sciences (s. 299-333), Cambridge. Cambridge University Press.
676
Niemierko B. (1975), Testy osiągnięć szkolnych. Podstawowe pojęcia i techniki obliczeniowe. Warszawa, WSiP. Niemierko B. (1990), Pomiar sprawdzający w dydaktyce. Teoria i zastosowania. Warszawa, PWN. Norusis M. J. (1992). SPSS / PC +; Base system ss guide. Version 5.0: Professional statistics: Advanced statistics; Trends for time series anahsis, Chicago,IL, SPSS INC. Nosal C. S. (1977), Psychologia pracy. Organizacja psychiki i działania człowieka, Wrocław, Wyd. Nauk. Politechniki Wrocławskiej. Nosal C. S. (1987), Interpretacja zależności między zbiorami zmiennych w ramach modelu analizy kanonicznej, w: J. Brzeziński (red.), Wielozmiennowe modele statystyczne w badaniach psychologicznych (s. 152-170), Warszawa-Poznań, PWN. Nowak L. (1974). Zasady marksistowskiej filozofii nauki. Warszawa, PWN. Nowak L. (1977), Wstęp do idealizacyjnej teorii nauk. Warszawa, PWN. Nowak L. (1980), The structure of idealization. Dordrecht, D. Reidel. Nowak S. (1965a). Pojęcia i wskaźniki, w: S. Nowak (red.), Studia z metodologii nauk społecznych (s. 245-281), Warszawa, PWN. Nowak S. (red.)(1965b). Metody badań socjologicznych. Wybór tekstów. Warszawa, PWN. Nowak S. (1968). Przyczynowe interpretacje zależności statystycznych w nieeksperymentalnych badaniach socjologicznych, w: K. Szaniawski (red.), Metody statystyczne w socjologii (s. 91-182), Warszawa. PWN. Nowak S. (1970), Metodologia badań socjologicznych. Warszawa, PWN. Nowak S. (1985), Metodologia badań społecznych. Warszawa, PWN. Nowakowska M. (1970), Polska adaptacja 16-czynnikowego Kwestionariusza Osobowości R. B. Cattella, „Psychologia Wychowawcza", 13, 478-500. Nowakowska M. (1975), Psychologia ilościowa z elementami naukometrii. Warszawa, Wyd. Nauk. PWN. Nunnally J. C. (1978), Psychometric theory (wyd. 2.), New York, McGraw-Hill. Nunnally J. C. (1988), Analiza danych profilowych, w: J. Brzeziński (red). Problemy teorii, rzetelności, konstrukcji i analizy wyników testów psychologicznych (s. 228-239) (Biblioteka Psychologa Praktyka, T. II), Warszawa, Wyd. Poi. Tow. Psychol. Nuttin J. M.,Jr. (1982). Kontrowersje wokół zmiany postaw. W kierunku teorii perswazji opartej na rozprzestrzenianiu się reakcji, Warszawa, PWN. Oktaba W. (1966). Elementy statystyki matematycznej i elementy doświadczalnictwa. Warszawa, PWN. Oktaba W. (1971), Metody statystyki matematycznej w doświadczalnictwie. Warszawa, PWN. Oktaba W. (1980), Metody statystytki matematycznej w doświadczalnictwie (wyd. 3.), Warszawa, PWN. Oleś P. (1995), Kryzys polony życia u mężczyzn. Psychologiczne badania empiryczne, Lublin, Katolicki Uniwersytet Lubelski. Oliver R. L., Berger P. K. (1980), Advisability ofpretest designs in psychological research, „Perceptual and Motor Skills", 51, 463-471. Ome M. T. (1959a), The demand characteristics of an experimental design and their implications. Paper read at American Psychological Association. Cincinnati. Ome M. T. (1959b), The naturę of hypnosis: Artifact and essence, ,Journal of Abnormal and Social Psycholog/'. 58, 277-299. Orne M. T. (1962), On the social psychology of the psychological experiment: With particular reference to demand characteristics and their implication, „American Psychologist", 17, 776-783. Orne M. T. (1969), Demand characteristics and the concept of ąuasi-controls, w: R. Rosenthal, R. L. Rosnow (red.). Artifact in behai-ioral research (s. 143-179), New York, Academic Press. Ome M. T. (1970). Hypnosis, motivation, and the ecological validity of the psychological experiment. w: W. J. Arnold, M. M. Page (red.), Nebraska Symposium on Motivation (s. 187-265), Lincoln. NE. University of Nebraska Press. Orne M. T. (1973), Communication by the total experimental situation: Why it is important, how it is evaluated, and its significance for ecological ralidity of findings, w: P. Pliner, L. Krames. T. Alloway (red.), Communication and effect (s. 157-191), New York, Academic Press. Orne M. T. (1991), Eksperyment psychologiczny z punktu widzenia psychologii społecznej ze szczególnym uwzględnieniem wpływu zmiennych sugerujących hipotezę i ich implikacji, w: J. Brzeziński,
677
J. Siuta (red.). Społeczny kontekst badań psychologicznych i pedagogicznych. Wybór tekstów (s. 15-32), Poznań, Wyd. Nauk. UAM. Orne M. T. (1993), Komunikowanie się w sytuacji eksperymentalnej: dlaczego jest istotne, jak jest oceniane i jakie ma znaczenie dla trafności ekologicznej, w: J. Brzeziński (red.). Psychologiczne t psychometryczne problemy diagnostyki psychologicznej (s. 3-68), Poznań, Wyd. Nauk. UAM. Orne M. T., Scheibe K. E. (1964), The contribution of non-deprivation factors in the production of sensory deprivation effects: The psychology ofthe panie button, ,Joumal of Abnormal nad Social Psychology", 68, 3-12. Ostrowska K. (1986), Test Przymiotnikowy H. Gougha i A. Heilbruna. Opracowanie psychometryczne. Warszawa, Akademia Teologii Katolickiej. Overall J. E., Klett C. J. (1972), Applied multivariate analysis, New York, McGraw-Hill. Overall J. E., Spiegel D. K. (1969), Concerning least sąuares analysis of experimental data, „Psychelogical Bulletin", 72, 311-322. Overall J. E., Woodward J. A. (1975), Unreliability of difference scores: A paradox for measurement ofchange „Psychological Bulletin", 82, 85-86. Paluchowski Wl. J. (red.)(1983), Z zagadnień diagnostyki osobowości, Wrocław, Ossolineum. Paluchowski Wł. J. (1991), Diagnozowanie osobowości. Testowanie — interpretacja — interwencja, Poznań, Wyd. Nauk. UAM i Nakom. Paluchowski Wl. J. (red.)(1992). Współczesne techniki badawcze w psychologii klinicznej. Warszawa. Poi. Tow. Psychol. Lab. Technik Diagnostycznych, („Biblioteka Psychologa Praktyka", tom 2.). Paszkiewicz E. (1977), The context of discovery and the context of justification — an opposition or a complementarity? „Poznań Studies in the Philosophy of the Sciences and the Humanities", 3, 256-264. Amsterdam, B. R. Gruner. Paszkiewicz E. (1983), Struktura teorii psychologicznych. Warszawa, PWN. Paszkiewicz E. (1985a), O zastosowaniu mierników wielkości efektu eksperymentalnego, w: E. Paszkiewicz, T. Szustrowa (red.). Materiały do nauczania psychologii, seria III, t. 4 (s. 100-108), Warszawa, Wyd. Nauk. PWN. Paszkiewicz E. (1985b), Podstawy procesu badawczego w psychologii, w: E. Paszkiewicz, T. Szustrowa (red.). Materiały do nauczania psychologii, seria III, t. 4 (s. 128-164), Warszawa, Wyd. Nauk. PWN. Paszkiewicz E., Szustrowa T. (red.)(1985), Metody badań psychologicznych. Materiały do nauczania psychologii, seria III, tom 4, Warszawa. PWN. Patryas W. (1976), Eksperyment a idealizacja, Warszawa-Poznań, PWN. Pawlowska B. (1983), Zasady lingwistycznej adaptacji metod kwestionariuszowych, w: Wt. J. Paluchowski (red.) Z zagadnień diagnostyki osobowości (s. 291-300), Wrocław, Ossolineum. Pawłowski T. (1969). Metodologiczne zagadnienia humanistyki. Warszawa, PWN. Pawłowski T. (1986), Tworzenie pojęć i definowanie w naukach humanistycznych. Warszawa, PWN Pawłowski Z. (1972), Wstęp do statystycznej metody reprezentacyjnej. Warszawa, PWN. PBS (1995), Ogólnopolska próba losowo-udziałowa, Sopot, Pracownia Badań Społecznych (maszynopis). Pedhazur E. (1982), Multiple regression in behavioral research, Explanation and predietion, (wyd. 2.), New York, Holt, Rinehart and Winston. Petrażycki L. (1939), Nowe podstawy logiki i klasyfikacji umiejętności. Warszawa. Philips L. D. (1973), Bayesian statisties for social sciences, London, Nelson. Płużek Z. (1971), Wartość testu WISKAD-MMPl dla diagnozy różnicowej w zakresie nozologii psychiatrycznej, Lublin, Katolicki Uniwersytet Lubelski. Podgórecki A. (1957), Założenia polityki prawa. Warszawa, PWN Podgórecki A. (1962), Charakterystyka nauk praktycznych. Warszawa, PWN. Polkinghorne D. E. (1991), Two conflkting calls for methodological reform, „The Counseling Psychologist", 19, 103-114. Polskie Towarzystwo Higieny Psychicznej, PTHP (1972). Instrukcja do Skali Inteligencji D. Wechslera dla młodzieży i dorosłych. Warszawa, PTHP. Polskie Towarzystwo Psychologiczne, PTP (1992), Kodeks etyczno-zawodowy psychologa, Warszawa, PTP. Popper K. R. (1977), Logika odkrycia naukowego, Warszawa, PWN.
678
Popper K. R. (1992), Wiedza obiektywna. Ewolucyjna teoria epistemologiczna. Warszawa, Wyd. Nauk. PWN. Poznaniak W. (1991), Dylematy etyczne w psychologii, w: J. Goćkowski, K. Pigori (red.). Etyka zawodowa ludzi nauki (s. 131-144), Wrocław, Ossolineum. Przełęcki M. (1966a), Operacjonizm, w: T. Pawiowski (red.), Logiczna teoria nauki (s. 122-129), Warszawa, PWN. Przełęcki M. (I966b), Pojęcia teoretyczne a doświadczenie, w: T. Pawłowski (red.). Logiczna teoria nauki (s. 449-504), Warszawa, PWN. „Psychol. Rev." (1945), Symposium on operationism, 52 (5), cały numer. Rapaport D. (1945), Diagnostic psychological testing, t. 1, Chicago, IL, Yearbook Publ. Rapaport D., Gili M. M., Schafer R. (1968). Diagnostic psychological testing (wyd. zm.), New York, International Universities Press. Ratajczak Z. (1994), Etyka ekspertów, w: J. Brzeziński, W. Poznaniak (red.). Etyczne problemy działalności badawczej i praktycznej psychologów (s. 175-183), Poznań, Wyd. Fundacji Humaniora. Raven J. C, Court H. J., Raven J. (1985), Manuał for Ravens Progressive Matrices and Vocabulary Scales. cz. 1, r. 1, General overview, London, H. K. Lewis and Co (polski przekład: Warszawa, Poi. Tow. Psychol., 1991). Reichenbach H. (1960), Powstanie filozofii naukowej, Warszawa, PWN. Reid D. D. (1972), Metody epidemiologiczne w badaniu zaburzeń psychicznych. Warszawa, PZWL. Rembowski J. (1972), Więzi uczuciowe w rodzinie, Warszawa, PWN. Reynolds C. R., Gutkin T. B. (1981), Test scatter on the WPPSI: Normative analyses of the standardization sample, ,Joumal of Leaming Disabilities". 14, 460-464. Rezmowic E., L., Rezmowic V. (1981), A confirmatory factor analysis approach to construct validation, „Educational and Psychological Measurement", 41, 61-72. Ricks J. H., Jr. (1993), Normy lokalne — kiedy i dlaczego? w: J. Brzeziński, E. Homowska (red.), Z psychometrycznych problemów diagnostyki psychologicznej (s. 49-58), Poznań, Wyd. Nauk. UAM. Riecken H. (1962), A program for research on experiments in social psychology, w: N. F. Washbume (red.), Decisions, values and groups, t. II (s. 25-41), EImsford, NY, Pergamon Press. Rokeach M. (1960), The open and closed mind, New York, Basic Books. Rosenberg M. J. (1965), When dissonance fails: On eliminating evaluation apprehension from attitude measurement, .Journal of Personalny and Social Psychology", 1, 28-42. Rosenberg M. J. (1991a). Gdy dysonans zawodzi: o eliminowaniu lęku przed oceną z pomiaru postaw, w: J. Brzeziński, J. Siuta (red.), Społeczny kontekst badań psychologicznych i pedagogicznych. Wybór tekstów (s. 33-59), Poznań, Wyd. Nauk. UAM. Rosenberg M. J. (1991b), Warunki powstawania oraz konsekwencje lęku przed oceną, w: J. Brzeziński. J. Siuta (red.), Społeczny kontekst badań psychologicznych i pedagogicznych. Wybór tekstów (s. 61-135), Poznań, Wyd. Nauk. UAM. Rosenthal R. (1966), Experimenter effects in behavioral research, New York, Appleton-Century-Crofts. Rosenthal R. (1969), Interpersonal expectations, w: R. Rosenthal, R. L. Rosnow (red.), Artifact in behavioral research (s. 181-277), New York, Academic Press. Rosenthal R. (1973), The mediation of Pygmalion effects: A four-factor theory, „Papua New Guinea Journal of Education", 8, 95-116. Rosenthal R. (I991a), Oczekiwania interpersonalne. Skutki przyjętej przez badacza hipotezy, w: J. Brzeziński, J. Siuta (red.), Społeczny kontekst badań psychologicznych i pedagogicznych. Wybór tekstów (s. 235-339), Poznań, Wyd. Nauk. UAM. Rosenthal R. (1991b), O społecznej psychologii samospełniającego się proroctwa. Dalsze dane potwierdzjące istnienie efektów Pigmaliona i mechanizmów pośredniczących w ich występowaniu, w: J. Brzeziński, J. Siuta (red.), Społeczny kontekst badań psychologicznych i pedagogicznych. Wybór tekstów (s. 341-387). Poznań, Wyd. Nauk. UAM. Rosenthal R. (1991c), Meta-analytic procedures for social research (wyd. 2.), Newbury Park,CA, Sagę. Rosenthal R. (1991d), Repiication in behavioral research, w: J. W. Neuliep (red.), Replication research in the social sciences (s. 1-30), Newbury Park, CA, Sagę. Rosenthal R. (1993), Interpersonal expectations: Some antecedents and some conseąuences, w:
679
P. D. Blanek (red.), Interpersonal expectations. Theory. research, and applications (s. 3-24). Cambridge, Cambridge University Press. Rosenthal R. (1994a). Science and ethics in condueting, analyzing, and reporting psxchological research, „Psychological Science", 5, 127-139. Rosenthal R. (1994b), On being ones own study: Expeńmenter effects in behaiioral research — 30 years later, w: W. R. Shadish, S. Fuller (red.), The social psychology of science (s. 214-229). New York, The Guilford Press. Rosenthal R.. Jacobson L. (1968), Pygmalion in the elassroom, New York, Holt, Rinehart and Winslon. Rosenthal R.. Jacobson L. (1992), Pygmalion in the elassroom (wyd. zm.), New York. Holi, Rinehart and Winston. Rosenthal R.. Rosnow R. L. (1984), Essentials oj behavioral research. Methods and data analysis. New York, McGraw-Hill. Rosenthal R., Rubin D. B. (1978), Interpersonal expectancy effects: The first 345 studies, „Behavioral and Brain Sciences", 3, 377-386. Rosenthal R., Rosnow R. L. (1975), The volunteer subject, New York, Wiley-Inlerscience. Rosenthal R.. Rosnow R. L. (1984), Essentials of behaviorai research. Methods and data anahsis. New York, McGraw-Hill. Rosenthal R., Rosnow R. L. (1991), Essentials of behavioral research. Methods and data analysis (wyd. 2.), New York, McGraw-Hill. Rosenzweig S. (1933), The experimental situation as a psychological problem, „Psychological Review", 40, 337-354. Rosnow R. L., Rosendial R. (1974), Taming of the volunteer problem: On coping with artifacts by benign neglect, .Journal of Personality and Social Psychology", 30, 188-190. Rosnow R. L., Rosenthal R. (1976), The rolunteer subject revisited, „Australian Joumal of Psychology", 28, 97-108. Ross J., Smith P. (1968), Orthodox expeńmental designs, w: H. M. Blalock, Jr., A. B. Blalock (red.), Methodology in social research, New York, McGraw-Hill. Rotter J. B. (1966), Generalized expectancies for interna! versus external control of reinforcement, „Psychological Monographs", 80, cały numer. Rubinsztejn S. J. (1979), Metody patopsychologii eksperymentalnej. Podręcznik metodyczny. Warszawa. PAWL. Rudniański J. (1975), Fazy rozwiązywania problemów naukowych, ..Zagadnienia Naukoznawstwa", 11, 19^15. Rulon P. J. (1939), A simplified procedurę for determining the reliability of a test by split-halves, „Harvard Educational Review", 9, 99-103. Ryans D. G. (1960), Characteristics of teachers, Washington, DC, American Council of Education. Saltler J. M. (1988). Assessment of children (wyd. 3.), San Diego, CA, Author. Scheffe H. (1959), The analysis ofvańance, New York, J. Wiley. Schmidt F. L. (1995), Co naprawdę oznaczają dane? Wyniki badawcze, metaanaliza i wiedza kumulatywna w psychologii, „Czasopismo Psychologiczne", 1 (1-2). 1931 Schmitt N.. Stults D. M. (1986), Methodological review: Analysis of mulńtraii-multimelhod matrices, ,Applied Psychological Measurement", 10, 1-22. Schuyler W. H., Chuang I., Ranney G. (1981), An empirical iinestigation of Lus method of reliability estimation, „Educational and Psychological Measurement", 41, 23-34. Schwarzer R. (1983), The evaluation of convergent and discriminant validity b\ use of structural eąuauons, ..Arch. Psychol.", 135, 219-243. Seligman D. (1995). O inteligencji prawie wszystko. Kontrowersje wokół ilorazu inteligencji. Warszawa, Wyd. Nauk. PWN. Seligman M. E. P. (1995), The effectiveness of psychoterapy. The consumer reports study. „American Psychologist", 50. 965-974. Selye H. (1967), Od marzenia do odkrycia naukowego. Warszawa. PZWL. Seul S. (1995). Oczekiwania nauczyciela a wyniki nauczania. Szczecin. Wyd. Uniwersytetu Szczecińskiego. Sęk H. (1969), Zadania psychologa w klinice psychiatrycznej, w: A. Lewicki (red.), Psychologia kliniczna (s. 157-383), Warszawa, PWN.
680
Sherif M., Sherif C. (1953), Groups in harmony and tension, New York, Harper. Sieber J. E. (1982), Deception in sociał research I: Kinds of decepłion and the wrongs they max involve, ,JRB: A Review of Human Subjects Research", 4 (9), 1-6. Siegel S. (1956), Nonparametric statistics for the behavioral sciences, New York, McGraw-Hill. Sietnianowski A. (1976), Poznawcze i praktyczne funkcje nauk empirycznych. Warszawa, PWN. Sigall H., Aronson E., Van Hoose T. (1970), The cooperative subject: Myth or reałity? .Journal of Experimental Social Psychology", 6, 1-10. SiWerstein A. B. (1963), WISC and WAIS IQs for the mentally retarded, „American Joumal of Mental Deficiency", 67, 617-618. Silverstein A. B. (1987),' Two indices of subtest scatter on Wechslers intelltgence scales: Estimated vs. empirical values, .Joumal of Clinical Psychology", 43, 409-414. Silverstein A. B. (1988), Estimated vs. empirical values of scałed-score ranges on Wechslers intelligence scales: A correction, „Joumal of Clinical Psychology", 44, 259-261. Simon H. A. (1977), Models of discovery and other topics in the methods of science, Dordrecht, D. Reidel. Skarżyńska K. (1976), Postawy interpersonalne a karanie i nagradzanie, w: S. Mika (red,). Studia nad postawami interpersonalnymi (s. 15-78), Wrocław, Ossolineum. Skinner B. F. (1950), Are theories of learning necessary?, „Psychological Review", 57, 193-216. Skinner Ch. E. (red.)(l971). Psychologia wychowawcza. Warszawa, PWN. Stoma J. (1983), Psychological experiment as experimental theater, „Polish Psychological Bulletin", 14, 159-169. Słownik naukowo-techniczny angielsko-polski (1983), Warszawa, WNT. Solomon R. L. (1949), An extension of control group design, .psychological Bulletin", 46, 137-150. Solomon R. L., Lessac M. S. (1968), A control group design for experimental studies of developmental processes, „Psychological Bulletin", 70. 145-150. Sosnowski T., Zimmer K. (red.)(1993). Metody psychofizjologiczne w badaniach psychologicznych. Warszawa, Wyd. Nauk. PWN. Stachowski R. (1976), Sprawdzalność empirycznej trafności ilościowych praw psychologii jako funkcja trafności skali pomiarowej, „Studia Metodologiczne", 13, 133-142. Stanik J. (1994), Etyczno-zawodowe problemy biegłego sądowego psychologa, w: J. Brzeziński, W. Poznaniak (red.), Etyczne problemy działalności badawczej i praktycznej psychologów (s. 197-226), Poznań, Wyd. Fundacji Humaniora. Stanislawski J. (1968), Wielki słownik angielsko-polski. Warszawa, Wiedza Powszechna. Stanley J. C. (1961), Analysis of unreplicated three way classifications with applications to rater btas and trail independence, „Psychometrika", 26, 205-219. Stasiakiewicz M. (1984), Podmiotowe i sytuacyjne wyznaczniki badania testem Rorschacha, Poznań, Wyd. Nauk. UAM. Steczkowski J. (1995). Metoda reprezentacyjna w badaniach zjawisk ekonomiczno-społecznych. Warszawa, Wyd. Nauk. PWN. Sterling T. D. (1959), Publication decisions and their possible effects on inferences drawn from tests of significance — or vice versa, .Joumal of the American Statistical Association", 54, 30-34. Sternberg R. J. (1985), Beyond IQ. A triarchic iheory of human intelligence, Cambridge, Cambridge Universily Press. Sternberg R. J. (1995), The psychologists companion. A guide to scientific writing for students and researchers (wyd. 3.). Cambridge, MA, Cambridge University Press. Stevens S. S. (1935), The operational basis of psychology, „American Joumal of Psychology", 47, 323-330. Stevens S. S. (1951), Mathematics, measurement andpsychophysics, w: S. S. Stevens (red.), Handbook of experimental psychology (s. 1-49), New York, J. Wiley. Stevens S. S. (1959), Measurement, psychophysics and utility, w: C. W. Churchman, Ph. Ratoosh (red.). Measurement. Definitions and theories (s. 18-63), New York, J. Wiley. Stonert H. (1967), Charakterystyka twierdzeń nauk praktycznych w aspekcie metodologicznym, „Prakseologia", 28, 21-71. Straś-Romanowska M. (1992), Los człowieka jako problem psychologiczny. Podstawy teoretyczne, Wrocław, Wyd. Uniwersytetu Wrocławskiego. Strelau J. (1985). Temperament — osobowość — działanie. Warszawa, PWN.
681
Slrelau J. (1987), O inteligencji człowieka, Warszawa, Wiedza Powszechna. Strelau J. (1992), Badania nad temperamentem. Teoria, diagnoza, zastosowania, Wrocław, Ossolineum. Strelau J. (1994), Kodeks etyczno-zawodowy psychologa. Wybrane refleksje na jego tle, „Nauka", 4, 109-114. Stróżewski W. (1991), Kilka uwag o prawdzie, w: J. Goćkowski, K. Pigoń (red.), Etyka zawodowa ludzi nauki (s. 65-72), Wrocław, Ossolineum. Stróżewski W. (1992), O idei uniwersytetu, w: W. Stróżewski, W kręgu wartości (s. 7-26), Kraków, Wyd. Znak. Strzyżewski W., Brzeziński J. (1979), Metodyczne aspekty doboru grup chorych do badań leków psychotropowych, „Psychiatria Polska", 13, 161-164. Such J. (1973), Wstęp do metodologii ogólnej nauk, Poznań, Wyd. Nauk. UAM. Such J. (1975a), Problemy weryfikacji wiedzy. Warszawa, PWN. Such J. (1975b), Pojęcie hipotezy ad hoc, „Studia Filozoficzne", 118, 95-110. Suits D. (1957), Use ofdummy variables in regression eąuations, .Journal of the American Statistical Association", 52, 548-551. Sułek A. (1979), Eksperyment w badaniach społecznych. Warszawa, PWN. Sułek A. (1993), Jak działa filtr „nie wiem"? O perspektywie poznawczej w metodologii badań sondażowych, „Kultura i Społeczeństwo", 37 (3), 31-44. Szaniawski K. (1991), Etyka krytyki naukowej, w: J. Goćkowski, K. Pigoń (red.), Etyka zawodowa ludzi nauki (s. 167-175), Wrocław, Ossolineum. Szaniawski K. (1993), Plus ratio ąuam vis (prwdr. 1981), w: K. Szaniawski, O nauce, rozumowaniu i wartościach. Pisma wybrane (s. 523-530), Warszawa, Wyd. Nauk. PWN. Szarkowski A. (1968), O miernikach zależności między zmiennymi losowymi, W: K. Szaniawski (red.). Metody statystyczne w socjologii (s. 183-231), Warszawa, PWN. Szustrowa T. (1972), Zdolność do działania na rzecz celów pozaosobistych a niektóre właściwości rodzinnego treningu wychowawczego, w: J. Reykowski (red.), Studia z psychologii osobowości (s. 12-80), Warszawa, Wyd. UW. Szustrowa T. (red.)(1987), Swobodne techniki diagnostyczne. Wywiad i obserwacja. Warszawa, Wyd. Uniw. Warszawskiego. Terelak J., Cieciura M., Terelak H. (1991), Warszawski system testów psychologicznych „PSYCHOKOMP": założenia psychologiczne i informatyczne, „Przegląd Psychologiczny", 34, 647-656, Thorndike R. L. (1961), Personnel selection. Test and measurement techniąues, New York, J. Wiley. Thorndike R. L., Hagen E. P., Sartler J. M. (1986), The Stanford-Binet Intelligence Scalę: Fourth Edition, Chicago, Riverside. Thurstone L. L. (1926), The Mental-age concept, „Psychological Review", 33, 268-278. Timm N. H. (1975), Multivariate analysis with applications in education and psychology, Monterey, Brooks/Cole Pub. Co. Toeplitz Z. (1994), Etyczne dylematy nauczania psychologii, w: J. Brzeziński, W. Poznaniak (red), Etyczne problemy działalności badawczej i praktycznej psychologów (s. 227-239), Poznań, Wyd. Fundacji Humaniora. Tomaszewski T. (1963), Wstęp do psychologii. Warszawa, PWN. Tomaszewski T. (red.)(1975), Psychologia, Warszawa, PWN. Tomaszewski T. (red.)(1992). Psychologia ogólna (t. 1.: Kozielecki J. Percepcja, myślenie, decyzje; t. 2.: Reykowski J. Emocje, motywacja, osobowość; t. 3: Kurcz I.: Pamięć, uczenie się, język; t. 4.: Strelau J. Temperament, inteligencja). Warszawa, PWN. Tomaszewski T., Ratajczak Z. (1988), Treść ekspertyz naukowych i współdziałanie eksperta z użytkownikiem, w: Z. Ratajczak (red.), Ekspertyzy naukowe a praktyka społeczna (s. 11-23), Katowice, Wyd. Nauk. UŚ1. Topolski J. (1983), Teoria wiedzy historycznej, Poznań, Wyd. Poznańskie. Topolski i. (1984), Metodologia historii (wyd. 3.), Warszawa, PWN. Torgerson W. S. (1958), Theory and methods of scaling, New York, J. Wiley. Townsend J. C. (1953), Introduction to experimental method, New York, McGraw-Hill. Tuchańska B. (1980), Czynnik — wielkość— związek — zależność, WarszawaPoznań, PWN. Tukey J. W., Mosteller F. (1977), Data analysis and regressionr A second course in statistics, Reading, MA, Addison-Wesley.
682
Twardowski K. (1933), O dostojeństwie Uniwersytetu, Poznań, Uniwersytet Poznański, Rolnicza Drukarnia i Księgarnia Nakładowa. Tyszkowa M. (1972), Zachowanie sie dzieci szkolnych w sytuacjach trudnych, Warszawa. PWN. Vegelius J. (1976). On various G \ndex generalizations and tlieir applicability within Ihe clinical domain, „Studia Psychologica Uppsaliensia", 4 Upsala, Acta Universitatis Uppsaliensis. Vegelius J. (1979), A G index generalization for trichotomized data, „Educational and Psychological Measurement", 39, 23-27. Vegelius J. (1981), Significance tests for the GTindex, „Educational and Psychological Measurement". 41, 99-108. Wahlsten (1990). Insensitivity of the analysis of variance to heredity-emironment interaction, „Behavioral and Brain Sciences", 13. 109-161. Wainer H.. Braun H. I. (1988), Test validit\, Hillsdale,NJ, L. Erlbaum. Wald A. (1947), Seąuential analysis, New York, J. Wiley. Wallen R. (1964), Psychologia kliniczna, Warszawa, PWN. Walton Braver M. C, Braver S. L. (1988), Statistical treatment of the Solomon four-group design: A meta-analytic approach, „Psychological Bulletin", 104, 150-154. Ward J. H.. Jr. (1969). Modele wielokrotnej regresji liniowej, w: H. Borko (red.), Maszyny cyfrowe w badaniach naukowych (s. 72-104), Warszawa, WNT. Walson J. B. (1919), Psychology from standpoint of a behayiorist, Philadelphia, Lippicott. Watson J. B. (1990), Behawioryzm oraz Psychologia, jak widzi ją behawiorysta. Warszawa, PWN. Wechsler D. (1939), The measurement of adult intelligence, Baltimore, Wiliams and Wilkins. Wechsler D. (1981), Wechsler Adult Intelligence Scale-Rerised. WAIS-R manuał, New York, The Psychological Corporation. Wechsler D. (1993), Definicja i natura inteligencji, w: J. Brzeziński, E. Hornowska (red.). Skala Inteligencji WAIS-R Wechslera. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 15-20), Warszawa, Wyd. Nauk. PWN. Werts C. E„ Linn R. L. (1970), Path analysis: Psychologica! examples, „Psychological Bulletin", 74, 193-212. Werts C. E.. Linn R. L., Joreskog K. G. (1978), Estimating the parameters of path models involving unmeasured variables, w: H. M. Blalock (red.). Causa! models in the social sciences (s. 400-409), Chicago, Aldine. Wieczorkówska-Siarkiewicz G- (1987). Skalowanie wielowymiarowe jako metoda badania percepcji. Warszawa, Wyd. Uniwersytetu Warszawskiego. Wiggins i. S. (1968), Personality and prediction: Principles of personality assessment, Reading, MA, Addison-Wesley. Winer B. J. (1971), Statistical principles in experimental design (wyd. 2.). New York, McGraw-Hill. Winer B. J.. Brown D. R.. Michels K. M. (1991), Statistical principles in expenmental design (wyd. 3.), New York, McGraw-Hill. Wolman B. B. (1973), Dictionary of behavioral science, New York, Van Nostrand Reinhold. Woodward J. A. Overall J. E. (1975), Multivariate analysis ofvariance by multipłe regression methods, „Psychological Bulletin", 82, 21-32. Wundt W. (1908). Grundzuge der physiologischen Psychologie, Leipzig, Engelmann. Wywiał J. (1994), Przykłady wnioskowania statystycznego za pomocą komputerowego pakietu SPSS. Warszawa. Wydawnictwo PLJ. ■
Yaremko R. M., Harari H., Harrison R. C, Lynn E. (1982). Reference handbook ofresearch and statistical methods in psychology: For students and professionals, Cambridge, MA, Harper and Row. Zakrzewska M. (1993), Analiza czynnikowa wyników: W-B I, WAIS, WAIS-R, w: J. Brzeziński, E. Hornowska (red.). Skala Inteligencji Wechslera WAISR. Polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagnostyce psychologicznej (s. 295-326), Warszawa, Wyd. Nauk. PWN. Zakrzewska M. (1994), Analiza czynnikowa w budowaniu i sprawdzaniu modeli psychologicznych, Poznań, Wyd. Nauk. UAM.
683
Zakrzewska M. (1995), Konfirmacyjna analiza czynnikowa polskiej adaptacji Skali Inteligencji Wechslera — WAIS-R(PL). Wyniki wstępne, w: J. Brzeziński (red.), Z zagadnień diagnostyki psychologicznej (s. 53-74), Poznań, Wyd. Fundacji Humaniora. Zamiara K. (1974), Metodologiczne znaczenie sporu o status poznawczy teorii. Warszawa, PWN. Zamiara K. (1995), Dynamika pojęć i programów psychologicznych. Szkice metodologiczne. Szczecin, Wyd. Fundacja im. Kazimierza Ajdukiewicza na rzecz Rozwoju Nauk Filozoficznych. Zasępa R. (1962), Badania statystyczne metodą reprezentacyjną. Warszawa, PWN. Zawadzki B. (1970), Wstęp do teorii osobowości. Warszawa, PWN. Zeigarnik B. W. (1969), Patologia myślenia. Warszawa, PWN. Zeigarnik B. W. (1978), Podstawy patopsychologii klinicznej. Warszawa, PWN. Zieliński R. (1972), Tablice statystyczne. Warszawa, PWN. Ziembiński Z. (1993), Logika praktyczna (wyd. 16.), Warszawa, Wyd. Nauk. PWN. Ziembiński Z. (1995), Logika praktyczna (wyd. 17.), Warszawa, Wyd. Nauk. PWN. Ziemski T., (1973), Problemy dobrej diagnozy. Warszawa, Wiedza Powszechna. Ziman J. (1972), Społeczeństwo nauki, Warszawa, PIW. Zimbardo P. G. (1973), On the ethics of intervention in human psychological research: With special reference to the Stanford Prison Experiment, „Cognition", 2, 243-256. Zimbardo P. C, Ruch F. L. (1994), Psychologia i życie (wyd. 2.), Warszawa, Wyd. Nauk. PWN. Zimmerman I. L., Woo-Sam J. M. (1973), CUnical interpretation of the Wechsler Adult Intelligence Scalę, New York, Griine and Stratton.
i ■
684
Jerzy Brzeziński (ur. 1947) jest profesorem zwyczajnym Instytutu Psychologii Uniwersytetu im. Adama Mickiewicza w Poznaniu, a także Szkoły Wyższej Psychologii Społecznej w Warszawie oraz członkiem korespondentem PAN. Opublikował w Polsce i za granicą wiele prac poświęconych metodologii nauk behawioralnych, filozofii nauki, psychometrii, diagnostyce psychologicznej, zastosowaniom metod statystycznych w badaniach społecznych oraz etyce badań naukowych. Jest redaktorem naukowym serii wydawniczych: Nowe tendencje w psychologu oraz Wykłady z psychologu.
Najczęściej polecany podręcznik do metodologii badań psychologicznych! Omawia strukturę procesu badawczego, dobór prób, modele eksperymentalne i inne ważne zagadnienia metodologii. Umożliwia poznanie podstaw konstrukcji testów psychologicznych oraz interpretacji danych testowych. Zawiera liczne przykłady, schematy, tabele, tablice statystyczne i psychometryczne, pomagające w lepszym zrozumieniu prezentowanych treści i zdobyciu uporządkowanej wiedzy Podręcznik przeznaczony dla studentów oraz osób prowadzących badania empiryczne w psychologii, a także pedagogice, socjologii i innych naukach społecznych. ISBN fl3-Dl-11DM
www.pwn.pl
9 788301
140410