Poziom istotności

Zobacz też: wartość p i wnioskowanie częstościowe.

Przy mocy ok. 70% rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej w znacznej części nie pokrywają się — Rozkłady prawdopodobieństwa dla statystyki testowej w hipotezie zerowej i alternatywnej, w dwustronnym teście t dla dwóch grup niezależnych. W tym idealizowanym przypadku relatywnie duża wielkość efektu d=0,5 przekłada się na znaczną różnicę położenia obu rozkładów, a relatywnie obszerna wielkość próby N=100 na ich węższą wariancję. Te dwa parametry oraz jednostronne α=0,05 wyznaczają razem oczekiwany poziom β≈0.3 (moc statystyczną ok. 70%), ponieważ determinują jaka część obu rozkładów leży po niewłaściwie je klasyfikującej stronie krytycznych wartości testowych. W wielu powtórzeniach losowania z takich rozkładów należy oczekiwać, że ok. 30% prób z hipotezy alternatywnej i 5% z zerowej zostanie zaklasyfikowanych błędnie.

Poziom istotności (α) – przyjęte z góry dopuszczalne ryzyko popełnienia błędu I rodzaju (uznania prawdziwej hipotezy zerowej za fałszywą), pozwalające określić, powyżej jakich odchyleń zaobserwowanych w próbie test rozstrzygnie na korzyść hipotezy alternatywnej. Stosowany przy weryfikacji hipotez statystycznych i estymacji przedziałowej w podejściu częstościowym w statystyce^[1]^[2].

Zakłada trafność przyjętego modelu statystycznego, spełnienie jego wymagań (np. o doborze próby, homoskedastyczności i braku współliniowości), oraz przestrzeganie algorytmu wnioskowania częstościowego. Łamanie tych założeń nazwano P-hackingiem; zrywa ono gwarancję, że oczekiwana częstość błędów będzie zgodna z przyjętym ryzykiem. Najczęściej stosowane testy opierają się na modelu liniowym (np. test chi-kwadrat, analiza wariancji czy test t Studenta), czasem doprecyzowanym na tyle, aby rozluźnić część jego ogólnych założeń^[3]^[4].

Determinuje, ceteris paribus, ryzyko błędu II rodzaju (β: nieodrzucenia fałszywej hipotezy zerowej; jego dopełnieniem, 1–β, jest moc testu). W tym stopniu, w jakim rozkłady statystyki dla porównywanych hipotez pokrywają się, im surowszy poziom istotności, tym niższa moc testu i większe ryzyko β. Na moc statystyczną wpływ ma także m.in. wielkość efektu i rozmiar próby^[5].

W zgodzie z pierwotną propozycją Fishera oraz Neymana i Pearsona, wybór wartości α zależy od badacza, natury problemu i od tego, jak dokładnie chce on weryfikować swoje hipotezy. Jak opisuje Gigerenzer, często „bezmyślnie” przyjmuje się dwustronne α=0,025+0,025=0,05^[1].

Wartość założonego poziomu istotności jest porównywana z wyliczoną na podstawie testu statystycznego wartością p (lub jego ekwiwalentem). Jeśli wartość p jest większa, rezultaty badania są niekonkluzywne. W propozycji Neymana–Pearsona, należy w tej sytuacji postępować tak jakby prawdziwa była hipoteza zerowa H₀ (która zwykle postuluje brak efektu lub różnic), nie daje to jednak samodzielnych podstaw do przekonania, że tak rzeczywiście jest. Brak istotności testu w jednym badaniu nie oznacza samo w sobie, że sfalsyfikowano hipotezę badawczą. Wysokie p może wynikać również na przykład z niskiej mocy testu^[2]^[6].

Jeśli wartość p jest niższa, można postępować tak jakby prawdziwa była hipoteza alternatywna, i o ile założenia modelu i algorytmu były dochowane, powinno to prowadzić do błędu w długim okresie tylko w odsetku realizacji testu równym α. To również nie daje samodzielnych podstaw do rozstrzygnięcia o prawdziwości hipotez. Zjawiska o bliskiej zeru wielkości efektu i bez praktycznego znaczenia mogą przekroczyć próg istotności statystycznej, np. jeśli test ma wysoką moc – np. w dużych próbach. Wykrycie korelacji nie świadczy również automatycznie o istnieniu związku przyczynowego; wnioskowanie przyczynowe wymaga odrębnego, specyficznego modelowania i realizacji testów szczegółowych hipotez zgodnych z jego przewidywaniami^[2]^[6].

Zobacz też

Przypisy

↑ ^a ^b GerdG. Gigerenzer GerdG., Mindless statistics, „The Journal of Socio-Economics”, 33 (5), 2004, s. 587–606, DOI: 10.1016/j.socec.2004.09.033 [dostęp 2019-03-31] (ang.).
↑ ^a ^b ^c RaymondR. Hubbard RaymondR. i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR: 30037265 [dostęp 2017-01-15] .
↑ Earl Babbie: Badania społeczne w praktyce. Warszawa: Wydawnictwo Naukowe PWN, 2007, s. 508.
↑ W.J.W.J. Conover W.J.W.J., Ronald L.R.L. Iman Ronald L.R.L., Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, „The American Statistician”, 35 (3), 1981, s. 124, DOI: 10.2307/2683975, JSTOR: 2683975 [dostęp 2019-04-03] .
↑ JacobJ. Cohen JacobJ., The earth is round (p < .05)., „American Psychologist”, 49 (12), 1994, s. 997–1003, DOI: 10.1037/0003-066X.49.12.997, ISSN 1935-990X [dostęp 2019-03-31] (ang.).
↑ ^a ^b ValentinV. Amrhein ValentinV., SanderS. Greenland SanderS., BlakeB. McShane BlakeB., Scientists rise up against statistical significance, „Nature”, 567 (7748), 2019, s. 305–307, DOI: 10.1038/d41586-019-00857-9, ISSN 0028-0836 [dostęp 2019-04-03] (ang.).

Bibliografia

Mieczysław Sobczyk, Statystyka. Podstawy teoretyczne, przykłady, zadania, Wyd. UMCS, ISBN 83-227-1153-0 ..

[:1-1] GerdG. Gigerenzer GerdG., Mindless statistics, „The Journal of Socio-Economics”, 33 (5), 2004, s. 587–606, DOI: 10.1016/j.socec.2004.09.033 [dostęp 2019-03-31] (ang.).

[:2-2] RaymondR. Hubbard RaymondR. i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR: 30037265 [dostęp 2017-01-15] .

[ReferenceA-3] Earl Babbie: Badania społeczne w praktyce. Warszawa: Wydawnictwo Naukowe PWN, 2007, s. 508.

[4] W.J.W.J. Conover W.J.W.J., Ronald L.R.L. Iman Ronald L.R.L., Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, „The American Statistician”, 35 (3), 1981, s. 124, DOI: 10.2307/2683975, JSTOR: 2683975 [dostęp 2019-04-03] .

[5] JacobJ. Cohen JacobJ., The earth is round (p < .05)., „American Psychologist”, 49 (12), 1994, s. 997–1003, DOI: 10.1037/0003-066X.49.12.997, ISSN 1935-990X [dostęp 2019-03-31] (ang.).

[:0-6] ValentinV. Amrhein ValentinV., SanderS. Greenland SanderS., BlakeB. McShane BlakeB., Scientists rise up against statistical significance, „Nature”, 567 (7748), 2019, s. 305–307, DOI: 10.1038/d41586-019-00857-9, ISSN 0028-0836 [dostęp 2019-04-03] (ang.).

[1]

[2]

[3]

[4]

[5]

[6]