Statistična pomembnost rezultata (p-vrednost) je ocenjena mera zaupanja v njegovo »resničnost« (v smislu »reprezentativnosti vzorca«). Bolj tehnično rečeno, je p-vrednost mera, ki se spreminja v padajočem vrstnem redu z zanesljivostjo rezultata. Višja p-vrednost ustreza nižji stopnji zaupanja v razmerje med spremenljivkami, najdenimi v vzorcu. Natančneje, p-vrednost predstavlja verjetnost napake, povezane s posploševanjem opazovanega rezultata na celotno populacijo. Na primer, p-vrednost 0,05 (tj. 1/20) pomeni, da obstaja 5-odstotna verjetnost, da je razmerje med spremenljivkami, najdenimi v vzorcu, samo naključna značilnost vzorca. Z drugimi besedami, če določeno razmerje ne obstaja v populaciji in podobne poskuse izvajate večkrat, potem bi v približno eni od dvajsetih ponovitev poskusa pričakovali enako ali močnejšo povezavo med spremenljivkami.

V številnih študijah se p-vrednost 0,05 šteje za "sprejemljivo mejo" za stopnjo napake.

Nikakor se ne moremo izogniti samovolji pri odločanju, katera raven pomembnosti se resnično šteje za "pomembno". Izbira določene ravni pomembnosti, nad katero so rezultati zavrnjeni kot napačni, je precej poljubna. V praksi je končna odločitev običajno odvisna od tega, ali je bil rezultat napovedan a priori (tj. pred izvedbo poskusa) ali odkrit posteriori kot rezultat številnih analiz in primerjav, opravljenih na različnih podatkih, pa tudi na tradicija študijskega področja. Običajno je na mnogih področjih rezultat p 0,05 sprejemljiva meja za statistično pomembnost, vendar je treba zapomniti, da ta raven še vedno vključuje precej veliko mejo napake (5 %). Rezultati, pomembni pri ravni p 0,01, se na splošno štejejo za statistično pomembne, rezultati z ravnjo p 0,005 ali p 0,001 pa se na splošno štejejo za zelo pomembne. Vendar je treba razumeti, da je ta klasifikacija stopenj pomembnosti precej poljubna in je le neformalen dogovor, sprejet na podlagi praktičnih izkušenj na določenem področju raziskav.

Kot že omenjeno, obseg odnosa in zanesljivost predstavljata dve različni značilnosti razmerij med spremenljivkami. Vendar pa ni mogoče reči, da so popolnoma neodvisni. Na splošno velja, da večja kot je velikost razmerja (razmerja) med spremenljivkami v vzorcu normalne velikosti, bolj zanesljiv je.

Če predpostavimo, da med pripadajočimi spremenljivkami v populaciji ni povezave, je najverjetneje pričakovati, da tudi v proučevanem vzorcu ne bo povezave med temi spremenljivkami. Torej, močnejša kot je povezava v vzorcu, manjša je verjetnost, da povezava ne obstaja v populaciji, iz katere je vzeta.


Velikost vzorca vpliva na pomembnost razmerja. Če je opazovanj malo, potem je ustrezno malo možnih kombinacij vrednosti za te spremenljivke, zato je verjetnost, da po naključju odkrijemo kombinacijo vrednosti, ki kaže močno povezavo, relativno visoka.

Kako se izračuna stopnja statistične pomembnosti. Predpostavimo, da ste že izračunali mero odvisnosti med dvema spremenljivkama (kot je razloženo zgoraj). Naslednje vprašanje, s katerim se soočate, je: "kako pomemben je ta odnos?" Na primer, ali je 40 % pojasnjene variance med dvema spremenljivkama dovolj, da se razmerje šteje za pomembno? Odgovor: "odvisno od okoliščin." Pomembnost je namreč odvisna predvsem od velikosti vzorca. Kot že pojasnjeno, bodo v zelo velikih vzorcih tudi zelo šibke povezave med spremenljivkami pomembne, medtem ko v majhnih vzorcih niti zelo močne povezave niso zanesljive. Za določitev stopnje statistične pomembnosti torej potrebujete funkcijo, ki predstavlja razmerje med "magnitudo" in "pomenom" razmerja med spremenljivkami za vsako velikost vzorca. Ta funkcija bi vam natančno povedala, "kako verjetno je pridobiti razmerje dane vrednosti (ali več) v vzorcu dane velikosti, ob predpostavki, da v populaciji ni takega razmerja." Z drugimi besedami, ta funkcija bi podala raven pomembnosti (p-vrednost) in s tem verjetnost napačne zavrnitve predpostavke, da dano razmerje ne obstaja v populaciji. To »alternativno« hipotezo (da v populaciji ni razmerja) običajno imenujemo ničelna hipoteza. Idealno bi bilo, če bi bila funkcija, ki izračuna verjetnost napake, linearna in bi imela samo različne naklone za različne velikosti vzorcev. Na žalost je ta funkcija veliko bolj zapletena in ni vedno popolnoma enaka. Vendar je v večini primerov njegova oblika znana in se lahko uporablja za določanje stopenj pomembnosti v študijah vzorcev dane velikosti. Večina teh funkcij je povezanih z zelo pomembnim razredom porazdelitev, imenovanim normalne.

Oglejmo si tipičen primer uporabe statističnih metod v medicini. Ustvarjalci zdravila kažejo, da poveča diurezo sorazmerno z odmerkom. Da bi preverili to hipotezo, dajo petim prostovoljcem različne odmerke zdravila.

Na podlagi rezultatov opazovanja se izriše graf diureze v odvisnosti od odmerka (slika 1.2A). Odvisnost je vidna s prostim očesom. Raziskovalci drug drugemu čestitajo za odkritje, svetu pa za nov diuretik.

Pravzaprav nam podatki omogočajo le zanesljivo trditev, da so pri teh petih prostovoljcih opazili od odmerka odvisno diurezo. Dejstvo, da se bo ta odvisnost pokazala pri vseh ljudeh, ki jemljejo drogo, ni več kot domneva.
ZY

z

življenje Ne moremo reči, da je neutemeljeno - sicer, zakaj izvajati poskuse?

Toda zdravilo je šlo v prodajo. Vse več ljudi ga jemlje v upanju, da bodo povečali izločanje urina. Kaj torej vidimo? Vidimo sliko 1.2B, ki kaže na odsotnost kakršne koli povezave med odmerkom zdravila in diurezo. Črni krogi označujejo podatke iz prvotne študije. Statistika ima metode, ki nam omogočajo, da ocenimo verjetnost, da dobimo tak »nereprezentativen« in dejansko zmeden vzorec. Izkazalo se je, da bi v odsotnosti povezave med diurezo in odmerkom zdravila nastalo "odvisnost" opazili v približno 5 od 1000 poskusov. Torej, v tem primeru raziskovalci preprosto niso imeli sreče. Tudi če bi uporabili najnaprednejše statistične metode, jim to še vedno ne bi preprečilo napak.

Navedli smo ta izmišljen, a prav nič daleč od realnosti primer, ne da bi opozarjali na nekoristnost
statistike. Govori o nečem drugem, o verjetnosti njenih sklepov. Z uporabo statistične metode ne dobimo končne resnice, temveč le oceno verjetnosti posamezne predpostavke. Poleg tega vsaka statistična metoda temelji na svojem lastnem matematičnem modelu in njeni rezultati so pravilni do te mere, da ta model ustreza realnosti.

Več na temo ZANESLJIVOST IN STATISTIČNA POMEMBNOST:

  1. Statistično značilne razlike v kazalnikih kakovosti življenja
  2. Statistična populacija. Računovodske značilnosti. Koncept kontinuiranega in selektivnega raziskovanja. Zahteve za statistične podatke in uporabo računovodskih in poročevalskih listin
  3. POVZETEK. ŠTUDIJA ZANESLJIVOSTI TONOMETRSKIH INDIKACIJ ZA MERITEV INTRAOKULARNEGA TISKA SKOZI VEKO 2018, 2018

Glavne značilnosti katere koli povezave med spremenljivkami.

Opazimo lahko dve najpreprostejši lastnosti razmerja med spremenljivkami: (a) velikost razmerja in (b) zanesljivost razmerja.

- Magnituda . Velikost odvisnosti je lažje razumeti in izmeriti kot zanesljivost. Na primer, če ima kateri koli moški v vzorcu vrednost števila belih krvnih celic (WCC) višjo kot katera koli ženska, potem lahko rečete, da je razmerje med dvema spremenljivkama (spol in WCC) zelo visoko. Z drugimi besedami, lahko predvidevate vrednosti ene spremenljivke iz vrednosti druge.

- Zanesljivost (»resnica«). Zanesljivost soodvisnosti je manj intuitiven koncept kot obseg odvisnosti, vendar je izjemno pomemben. Zanesljivost razmerja je neposredno povezana z reprezentativnostjo določenega vzorca, na podlagi katerega se sklepa. Z drugimi besedami, zanesljivost se nanaša na to, kako verjetno je, da bo razmerje ponovno odkrito (z drugimi besedami potrjeno) z uporabo podatkov iz drugega vzorca, vzetega iz iste populacije.

Ne smemo pozabiti, da končni cilj skoraj nikoli ni preučevanje tega posebnega vzorca vrednot; vzorec je zanimiv le toliko, kolikor daje informacije o celotni populaciji. Če študija izpolnjuje določene specifične kriterije, potem je mogoče zanesljivost ugotovljenih odnosov med vzorčnimi spremenljivkami količinsko opredeliti in predstaviti z uporabo standardne statistične mere.

Velikost odvisnosti in zanesljivost predstavljata dve različni značilnosti odvisnosti med spremenljivkami. Vendar pa ni mogoče reči, da so popolnoma neodvisni. Večja kot je velikost razmerja (povezave) med spremenljivkami v vzorcu normalne velikosti, bolj zanesljiv je (glej naslednji razdelek).

Statistična pomembnost rezultata (raven p) je ocenjena mera zaupanja v njegovo »resničnost« (v smislu »reprezentativnosti vzorca«). Bolj tehnično gledano, je p-raven ukrep, ki se spreminja v padajočem vrstnem redu z zanesljivostjo rezultata. Višja p-raven ustreza nižji stopnji zaupanja v razmerje med spremenljivkami, najdenimi v vzorcu. P-nivo namreč predstavlja verjetnost napake, povezano s porazdelitvijo opazovanega rezultata na celotno populacijo.

na primer p-raven = 0,05(tj. 1/20) pomeni, da obstaja 5 % verjetnost, da je razmerje med spremenljivkami, najdenimi v vzorcu, samo naključna lastnost vzorca. V številnih študijah se p-raven 0,05 šteje za "sprejemljivo mejo" za stopnjo napake.

Nikakor se ne moremo izogniti samovolji pri odločanju, katera raven pomembnosti se resnično šteje za "pomembno". Izbira določene ravni pomembnosti, nad katero so rezultati zavrnjeni kot napačni, je precej poljubna.



V praksi je končna odločitev običajno odvisna od tega, ali je bil rezultat napovedan a priori (tj. pred izvedbo poskusa) ali odkrit posteriori kot rezultat številnih analiz in primerjav, opravljenih na različnih podatkih, pa tudi na tradicija študijskega področja.

Na splošno je na mnogih področjih rezultat p 0,05 sprejemljiva meja za statistično pomembnost, vendar ne pozabite, da ta raven še vedno vključuje precej veliko mejo napake (5 %).

Rezultati, ki so pomembni na ravni p .01, se na splošno štejejo za statistično pomembne, medtem ko se rezultati na ravni p .005 ali p .00 na splošno štejejo za statistično pomembne. 001 kot zelo pomemben. Vendar je treba razumeti, da je ta razvrstitev stopenj pomembnosti precej samovoljna in le neformalen dogovor, sprejet na podlagi praktičnih izkušenj. na določenem študijskem področju.

Jasno je, da večje število analiz, ki jih izvedemo na celoti zbranih podatkov, večje število pomembnih (na izbrani ravni) rezultatov bo odkritih povsem naključno.

Nekatere statistične metode, ki vključujejo veliko primerjav in imajo tako veliko možnost ponovitve te vrste napake, naredijo posebno prilagoditev ali popravek za skupno število primerjav. Vendar številne statistične metode (zlasti enostavne raziskovalne metode analize podatkov) ne ponujajo nobenega načina za rešitev tega problema.

Če je razmerje med spremenljivkami »objektivno« šibko, potem ni drugega načina za testiranje takega razmerja, razen preučevanja velikega vzorca. Tudi če je vzorec popolnoma reprezentativen, učinek ne bo statistično značilen, če je vzorec majhen. Podobno, če je razmerje »objektivno« zelo močno, potem ga je mogoče zaznati z visoko stopnjo pomembnosti tudi v zelo majhnem vzorcu.

Čim šibkejše je razmerje med spremenljivkami, večja je velikost vzorca, ki je potrebna za smiselno odkrivanje.

Veliko različnih merila razmerja med spremenljivkami. Izbira določenega merila v posamezni študiji je odvisna od števila spremenljivk, uporabljenih merilnih lestvic, narave odnosov itd.

Večina teh ukrepov pa sledi splošnemu načelu: poskušajo oceniti opazovano razmerje tako, da ga primerjajo z "največjim možnim razmerjem" med zadevnimi spremenljivkami. Tehnično gledano je običajen način za izdelavo takšnih ocen, da pogledamo, kako se vrednosti spremenljivk spreminjajo, in nato izračunamo, koliko celotne razpoložljive variacije je mogoče razložiti s prisotnostjo "skupne" ("skupne") variacije v dve (ali več) spremenljivk.

Pomembnost je odvisna predvsem od velikosti vzorca. Kot že pojasnjeno, bodo v zelo velikih vzorcih tudi zelo šibke povezave med spremenljivkami pomembne, medtem ko v majhnih vzorcih niti zelo močne povezave niso zanesljive.

Za določitev stopnje statistične pomembnosti je torej potrebna funkcija, ki bi predstavljala razmerje med »magnitudo« in »pomembnostjo« razmerja med spremenljivkami za vsako velikost vzorca.

Takšna funkcija bi natančno pokazala, "kako verjetno je pridobiti odvisnost dane vrednosti (ali več) v vzorcu dane velikosti, ob predpostavki, da v populaciji ni takšne odvisnosti." Z drugimi besedami, ta funkcija bi dala raven pomembnosti
(p-raven), in s tem verjetnost napačne zavrnitve predpostavke o odsotnosti te odvisnosti v populaciji.

Ta "alternativna" hipoteza (da v populaciji ni razmerja) se običajno imenuje ničelna hipoteza.

Idealno bi bilo, če bi bila funkcija, ki izračuna verjetnost napake, linearna in bi imela samo različne naklone za različne velikosti vzorcev. Na žalost je ta funkcija veliko bolj zapletena in ni vedno popolnoma enaka. Vendar je v večini primerov njegova oblika znana in se lahko uporablja za določanje stopenj pomembnosti v študijah vzorcev dane velikosti. Večina teh funkcij je povezanih z razredom distribucij, imenovanim normalno .

Stopnja pomembnosti v statistiki je pomemben kazalnik, ki odraža stopnjo zaupanja v točnost in resničnost pridobljenih (predvidenih) podatkov. Koncept se pogosto uporablja na različnih področjih: od izvajanja socioloških raziskav do statističnega testiranja znanstvenih hipotez.

Opredelitev

Stopnja statistične pomembnosti (ali statistično značilnega rezultata) kaže verjetnost, da se proučevani indikatorji pojavijo naključno. Celotna statistična pomembnost pojava je izražena s koeficientom p-vrednosti (p-nivo). Pri vsakem poskusu ali opazovanju obstaja možnost, da so bili pridobljeni podatki posledica napak pri vzorčenju. To še posebej velja za sociologijo.

To pomeni, da je statistično značilna vrednost tista vrednost, katere verjetnost naključnega pojava je izredno majhna ali se nagiba k skrajnosti. Za ekstrem v tem kontekstu se šteje stopnja, do katere statistika odstopa od ničelne hipoteze (hipoteze, ki se preizkuša glede skladnosti s pridobljenimi vzorčnimi podatki). V znanstveni praksi je stopnja pomembnosti izbrana pred zbiranjem podatkov in je praviloma njen koeficient 0,05 (5%). Za sisteme, kjer so natančne vrednosti izjemno pomembne, je lahko ta številka 0,01 (1%) ali manj.

Ozadje

Koncept stopnje pomembnosti je uvedel britanski statistik in genetik Ronald Fisher leta 1925, ko je razvijal tehniko za testiranje statističnih hipotez. Pri analizi katerega koli procesa obstaja določena verjetnost določenih pojavov. Težave nastanejo pri delu z majhnimi (ali neočitnimi) odstotki verjetnosti, ki spadajo pod koncept "merilne napake".

Pri delu s statističnimi podatki, ki niso dovolj specifični za njihovo testiranje, se znanstveniki soočajo s problemom ničelne hipoteze, ki »preprečuje« operiranje z majhnimi količinami. Fisher je za takšne sisteme predlagal določitev verjetnosti dogodkov pri 5 % (0,05) kot priročen rez vzorčenja, ki omogoča zavrnitev ničelne hipoteze v izračunih.

Uvedba fiksnih kvot

Leta 1933 sta znanstvenika Jerzy Neumann in Egon Pearson v svojih delih priporočila, da se določena stopnja pomembnosti določi vnaprej (pred zbiranjem podatkov). Primeri uporabe teh pravil so jasno vidni med volitvami. Recimo, da sta dva kandidata, od katerih je eden zelo priljubljen, drugi pa malo znan. Očitno je, da bo na volitvah zmagal prvi kandidat, možnosti drugega pa se nagibajo k ničli. Prizadevajo si – a niso enakovredni: vedno obstaja možnost višje sile, senzacionalnih informacij, nepričakovanih odločitev, ki lahko spremenijo napovedane rezultate volitev.

Neyman in Pearson sta se strinjala, da je Fisherjeva stopnja pomembnosti 0,05 (označena z α) najprimernejša. Vendar je Fischer sam leta 1956 nasprotoval določitvi te vrednosti. Menil je, da je treba raven α nastaviti glede na posebne okoliščine. Na primer, v fiziki delcev je 0,01.

vrednost p-ravni

Izraz p-vrednost je prvič uporabil Brownlee leta 1960. P-raven (p-vrednost) je indikator, ki je obratno sorazmeren z resničnostjo rezultatov. Najvišji koeficient p-vrednosti ustreza najnižji stopnji zaupanja v vzorčeno razmerje med spremenljivkami.

Ta vrednost odraža verjetnost napak, povezanih z interpretacijo rezultatov. Predpostavimo, da je p-raven = 0,05 (1/20). Kaže petodstotno verjetnost, da je razmerje med spremenljivkami, najdenimi v vzorcu, le naključna lastnost vzorca. Se pravi, če te odvisnosti ni, potem lahko ob ponovnih podobnih poskusih v povprečju v vsaki dvajseti študiji pričakujemo enako ali večjo odvisnost med spremenljivkami. P-nivo se pogosto obravnava kot "marža" za stopnjo napake.

Mimogrede, p-vrednost morda ne odraža dejanskega razmerja med spremenljivkami, ampak prikazuje le določeno povprečno vrednost v okviru predpostavk. Zlasti končna analiza podatkov bo odvisna tudi od izbranih vrednosti tega koeficienta. Pri p-ravni = 0,05 bo nekaj rezultatov, pri koeficientu 0,01 pa bodo različni rezultati.

Preizkušanje statističnih hipotez

Stopnja statistične pomembnosti je še posebej pomembna pri testiranju hipotez. Na primer, pri izračunu dvostranskega testa se območje zavrnitve enakomerno razdeli na oba konca porazdelitve vzorčenja (glede na ničelno koordinato) in izračuna se resničnost dobljenih podatkov.

Recimo, da se pri spremljanju določenega procesa (pojava) izkaže, da nove statistične informacije kažejo majhne spremembe glede na prejšnje vrednosti. Hkrati so odstopanja v rezultatih majhna, niso očitna, a pomembna za študijo. Specialist se znajde pred dilemo: ali res prihaja do sprememb ali gre za napake pri vzorčenju (netočnost meritev)?

V tem primeru uporabijo ali zavrnejo ničelno hipotezo (vse pripišejo napaki ali pa spremembo sistema prepoznajo kot fait accompli). Postopek reševanja problema temelji na razmerju med splošno statistično značilnostjo (p-vrednost) in stopnjo pomembnosti (α). Če p-ravni< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Uporabljene vrednosti

Stopnja pomembnosti je odvisna od materiala, ki ga analiziramo. V praksi se uporabljajo naslednje fiksne vrednosti:

  • α = 0,1 (ali 10 %);
  • α = 0,05 (ali 5 %);
  • α = 0,01 (ali 1 %);
  • α = 0,001 (ali 0,1 %).

Bolj kot so potrebni natančni izračuni, nižji je koeficient α. Seveda zahtevajo statistične napovedi v fiziki, kemiji, farmaciji in genetiki večjo natančnost kot v politologiji in sociologiji.

Mejne vrednosti pomembnosti na določenih področjih

Na področjih z visoko natančnostjo, kot sta fizika delcev in proizvodnja, je statistična pomembnost pogosto izražena kot razmerje med standardnim odklonom (označenim s koeficientom sigma - σ) glede na normalno porazdelitev verjetnosti (Gaussova porazdelitev). σ je statistični indikator, ki določa disperzijo vrednosti določene količine glede na matematična pričakovanja. Uporablja se za načrtovanje verjetnosti dogodkov.

Glede na področje znanja se koeficient σ zelo razlikuje. Na primer, pri napovedovanju obstoja Higgsovega bozona je parameter σ enak pet (σ = 5), kar ustreza p-vrednosti = 1/3,5 milijona. V študijah genoma je lahko stopnja pomembnosti 5 × 10 -. 8, kar ni redkost za ta območja.

Učinkovitost

Upoštevati je treba, da koeficienta α in p-vrednost nista natančni karakteristiki. Ne glede na stopnjo pomembnosti v statistiki preučevanega pojava ni brezpogojna osnova za sprejetje hipoteze. Na primer, manjša kot je vrednost α, večja je možnost, da je postavljena hipoteza pomembna. Vendar pa obstaja nevarnost napake, ki zmanjša statistično moč (pomembnost) študije.

Raziskovalci, ki se osredotočajo samo na statistično pomembne rezultate, lahko pridejo do napačnih zaključkov. Hkrati pa je njihovo delo težko dvakrat preveriti, saj uporabljajo predpostavke (kar so pravzaprav vrednosti α in p). Zato je vedno priporočljivo poleg izračuna statistične pomembnosti določiti še en indikator - velikost statističnega učinka. Velikost učinka je kvantitativno merilo moči učinka.

Kaj misliš, da je tvoja »druga polovica« posebna in pomembna? Je to povezano z njeno/njegovo osebnostjo ali z vašimi občutki, ki jih imate do te osebe? Ali morda s preprostim dejstvom, da ima hipoteza o naključnosti vaše simpatije, kot kažejo študije, manj kot 5-odstotno verjetnost? Če menimo, da je zadnja izjava zanesljiva, potem uspešna spletna mesta za zmenke načeloma ne bi obstajala:

Ko izvajate deljeno testiranje ali katero koli drugo analizo vašega spletnega mesta, lahko napačno razumevanje "statistične pomembnosti" povzroči napačno interpretacijo rezultatov in s tem nepravilna dejanja v procesu optimizacije konverzije. To velja za tisoče drugih statističnih testov, ki se izvajajo vsak dan v vseh obstoječih panogah.

Da bi razumeli, kaj je »statistična pomembnost«, se morate potopiti v zgodovino izraza, spoznati njegov pravi pomen in razumeti, kako vam bo to »novo« staro razumevanje pomagalo pravilno interpretirati rezultate vaše raziskave.

Malo zgodovine

Čeprav človeštvo statistiko uporablja za reševanje različnih problemov že dolga stoletja, se je sodobno razumevanje statistične pomembnosti, preverjanja hipotez, randomizacije in celo načrtovanja eksperimentov (DOE) začelo oblikovati šele v začetku 20. stoletja in je neločljivo povezano z ime Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher je bil evolucijski biolog in statistik, ki je imel posebno strast do proučevanja evolucije in naravne selekcije v živalskem in rastlinskem kraljestvu. V svoji veličastni karieri je razvil in populariziral številna uporabna statistična orodja, ki jih uporabljamo še danes.

Fisher je s tehnikami, ki jih je razvil, razložil procese v biologiji, kot so dominanca, mutacije in genetska odstopanja. Ista orodja lahko danes uporabljamo za optimizacijo in izboljšavo vsebine spletnih virov. Dejstvo, da se ta orodja za analizo lahko uporabljajo za delo s predmeti, ki v času njihovega nastanka sploh niso obstajali, se zdi precej presenetljivo. Enako presenetljivo je, da so ljudje včasih izvajali zapletene izračune brez kalkulatorjev ali računalnikov.

Da bi rezultate statističnega poskusa opisal kot tiste, ki imajo veliko verjetnost, da so resnični, je Fisher uporabil besedo "pomen".

Poleg tega lahko enega najbolj zanimivih Fisherjevih dosežkov imenujemo hipoteza o "seksi sinu". Po tej teoriji imajo ženske raje spolno promiskuitetne moške (promiskuitetne), ker bodo tako sinovi, rojeni tem moškim, imeli enako nagnjenost in ustvarili več potomcev (upoštevajte, da je to le teorija).

Toda nihče, niti briljantni znanstveniki, ni imun na napake. Fisherjeve napake še danes pestijo strokovnjake. Toda spomnite se besed Alberta Einsteina: "Kdor ni nikoli naredil napake, ni nikoli ustvaril ničesar novega."

Preden preidete na naslednjo točko, si zapomnite: statistična pomembnost je, ko je razlika v rezultatih testa tako velika, da je ni mogoče razložiti z naključnimi dejavniki.

Kakšna je vaša hipoteza?

Da bi razumeli, kaj pomeni "statistična pomembnost", morate najprej razumeti, kaj je "testiranje hipotez", saj sta izraza tesno prepletena.
Hipoteza je le teorija. Ko boste razvili teorijo, boste morali vzpostaviti postopek za zbiranje dovolj dokazov in dejansko zbiranje teh dokazov. Obstajata dve vrsti hipotez.

Jabolka ali pomaranče - kaj je bolje?

Ničelna hipoteza

Tu se praviloma veliko ljudi srečuje s težavami. Upoštevati je treba, da ničelne hipoteze ni nekaj, kar je treba dokazati, kot če dokažete, da bo določena sprememba na spletnem mestu povzročila povečanje konverzij, ampak obratno. Ničelna hipoteza je teorija, ki pravi, da se ne bo zgodilo nič, če naredite kakršne koli spremembe na spletnem mestu. In cilj raziskovalca je ovreči to teorijo, ne pa dokazati.

Če pogledamo izkušnje pri reševanju kaznivih dejanj, kjer si preiskovalci postavljajo tudi hipoteze o tem, kdo je zločinec, dobi nična hipoteza obliko tako imenovane domneve nedolžnosti, koncepta, po katerem obtoženec velja za nedolžnega, dokler mu krivda ni dokazana. na sodišču.

Če je ničelna hipoteza, da sta dva predmeta enaka v svojih lastnostih, in poskušate dokazati, da je eden boljši (na primer, A je boljši od B), morate zavrniti ničelno hipotezo v korist alternative. Na primer, primerjate eno ali drugo orodje za optimizacijo konverzij. V ničelni hipotezi imata oba enak učinek (ali nobenega učinka) na tarčo. Druga možnost je, da je učinek enega od njih boljši.

Vaša alternativna hipoteza lahko vsebuje številčno vrednost, kot je B - A > 20 %. V tem primeru imata lahko ničelna hipoteza in alternativa naslednjo obliko:

Drugo ime za alternativno hipotezo je raziskovalna hipoteza, ker je raziskovalec vedno zainteresiran za dokazovanje te določene hipoteze.

Statistična značilnost in vrednost p

Vrnimo se spet k Ronaldu Fisherju in njegovemu konceptu statistične pomembnosti.

Zdaj, ko imate ničelno hipotezo in alternativo, kako lahko dokažete eno in ovržete drugo?

Ker statistika po svoji naravi vključuje preučevanje določene populacije (vzorca), nikoli ne morete biti 100% prepričani o dobljenih rezultatih. Dober primer: rezultati volitev se pogosto razlikujejo od rezultatov predhodnih anket in celo izhodnih skupin.

Dr. Fisher je želel ustvariti ločnico, ki bi vam povedala, ali je bil vaš poskus uspešen ali ne. Tako se je pojavil indeks zanesljivosti. Verodostojnost je raven, na kateri povemo, kaj se nam zdi "pomembno" in kaj ne. Če je "p", indeks pomembnosti, 0,05 ali manj, so rezultati zanesljivi.

Ne skrbite, pravzaprav ni tako zmedeno, kot se zdi.

Gaussova verjetnostna porazdelitev. Ob robovih so manj verjetne vrednosti spremenljivke, v sredini so najbolj verjetne. P-rezultat (zeleno osenčeno območje) je verjetnost, da se opazovani izid zgodi po naključju.

Normalna verjetnostna porazdelitev (Gaussova porazdelitev) je predstavitev vseh možnih vrednosti določene spremenljivke na grafu (na zgornji sliki) in njihovih frekvenc. Če svojo raziskavo izvedete pravilno in nato vse svoje odgovore narišete na graf, boste dobili točno to porazdelitev. Glede na normalno porazdelitev boste prejeli velik odstotek podobnih odgovorov, preostale možnosti pa se bodo nahajale na robovih grafa (tako imenovani "repi"). To porazdelitev vrednosti pogosto najdemo v naravi, zato jo imenujemo "normalna".

Z uporabo enačbe, ki temelji na vašem vzorcu in rezultatih testa, lahko izračunate tako imenovano "testno statistiko", ki bo pokazala, koliko vaši rezultati odstopajo. Prav tako vam bo povedal, kako blizu ste temu, da je ničelna hipoteza resnična.

Da bi se lažje razumeli, uporabite spletne kalkulatorje za izračun statistične pomembnosti:

En primer takih kalkulatorjev

Črka "p" predstavlja verjetnost, da je ničelna hipoteza resnična. Če je število majhno, bo kazalo na razliko med testnimi skupinami, medtem ko bi bila ničelna hipoteza, da sta enaki. Grafično bo videti, kot da bo vaša testna statistika bližje enemu od repov vaše zvončaste porazdelitve.

Dr. Fisher se je odločil, da bo prag pomembnosti postavil na p ≤ 0,05. Vendar je ta izjava sporna, saj vodi do dveh težav:

1. Prvič, dejstvo, da ste dokazali napačno ničelno hipotezo, ne pomeni, da ste dokazali alternativno hipotezo. Ves ta pomen samo pomeni, da ne morete dokazati ne A ne B.

2. Drugič, če je p-rezultat 0,049, bo to pomenilo, da bo verjetnost ničelne hipoteze 4,9 %. To lahko pomeni, da so rezultati vašega testa lahko hkrati resnični in napačni.

P-rezultat lahko uporabite ali pa tudi ne, vendar boste morali izračunati verjetnost ničelne hipoteze za vsak primer posebej in se odločiti, ali je dovolj velika, da vam prepreči spremembe, ki ste jih načrtovali in testirali. .

Najpogostejši scenarij za izvedbo statističnega testa danes je nastavitev praga pomembnosti p ≤ 0,05 pred izvajanjem samega testa. Ko preverjate svoje rezultate, natančno preglejte vrednost p.

Napaki 1 in 2

Minilo je že toliko časa, da so napake, ki se lahko pojavijo pri uporabi metrike statistične pomembnosti, dobile celo svoja imena.

Napake tipa 1

Kot je navedeno zgoraj, p-vrednost 0,05 pomeni, da obstaja 5 % verjetnost, da je ničelna hipoteza resnična. Če tega ne storite, boste naredili napako številka 1. Rezultati pravijo, da je vaše novo spletno mesto povečalo vaše stopnje konverzije, vendar obstaja 5-odstotna verjetnost, da ni.

Napake tipa 2

Ta napaka je nasprotje napake 1: sprejmete ničelno hipotezo, ko je napačna. Rezultati testa vam na primer povedo, da spremembe spletnega mesta niso prinesle nobenih izboljšav, spremembe pa so bile. Posledično zamujate priložnost za izboljšanje svoje uspešnosti.

Ta napaka je pogosta pri testih z nezadostno velikostjo vzorca, zato si zapomnite: večji kot je vzorec, zanesljivejši je rezultat.

Zaključek

Morda noben izraz med raziskovalci ni tako priljubljen kot statistična pomembnost. Kadar se ugotovi, da rezultati testa niso statistično pomembni, se posledice razlikujejo od povečanja menjalnih razmerij do propada podjetja.

In ker tržniki uporabljajo ta izraz, ko optimizirajo svoje vire, morate vedeti, kaj v resnici pomeni. Pogoji testiranja se lahko razlikujejo, vendar sta velikost vzorca in merila uspeha vedno pomembna. Zapomni si to.



Ta članek je na voljo tudi v naslednjih jezikih: tajska

  • Naprej

    Najlepša HVALA za zelo koristne informacije v članku. Vse je predstavljeno zelo jasno. Zdi se, da je bilo z analizo delovanja trgovine eBay vloženega veliko dela

    • Hvala vam in ostalim rednim bralcem mojega bloga. Brez vas ne bi bil dovolj motiviran, da bi posvetil veliko časa vzdrževanju te strani. Moji možgani so tako zgrajeni: rad se poglabljam, sistematiziram razpršene podatke, preizkušam stvari, ki jih še nihče ni naredil ali pogledal s tega zornega kota. Škoda, da naši rojaki zaradi krize v Rusiji nimajo časa za nakupovanje na eBayu. Kupujejo pri Aliexpressu iz Kitajske, saj je tam blago veliko cenejše (pogosto na račun kakovosti). Toda spletne dražbe eBay, Amazon, ETSY bodo Kitajcem zlahka dale prednost pri ponudbi blagovnih znamk, vintage predmetov, ročno izdelanih predmetov in različnih etničnih izdelkov.

      • Naprej

        V vaših člankih je dragocen vaš osebni odnos in analiza teme. Ne opustite tega bloga, sem pogosto. Takšnih bi nas moralo biti veliko. Pošlji mi e-pošto Pred kratkim sem prejel e-pošto s ponudbo, da me bodo naučili trgovati na Amazonu in eBayu.

  • In spomnil sem se vaših podrobnih člankov o teh poslih. območje
    Še enkrat sem vse prebral in ugotovil, da so tečaji prevara. Ničesar še nisem kupil na eBayu. Nisem iz Rusije, ampak iz Kazahstana (Almaty). Ampak tudi dodatnih stroškov še ne potrebujemo.