Den statistiske signifikans af et resultat (p-værdi) er et estimeret mål for tillid til dets "sandhed" (i betydningen "prøvens repræsentativitet"). Mere teknisk set er en p-værdi et mål, der varierer i faldende størrelsesorden med resultatets pålidelighed. En højere p-værdi svarer til en lavere grad af tillid til sammenhængen mellem variable fundet i stikprøven. Specifikt repræsenterer p-værdien sandsynligheden for fejl forbundet med at generalisere det observerede resultat til hele populationen. For eksempel indikerer en p-værdi på 0,05 (dvs. 1/20), at der er 5 % chance for, at forholdet mellem variabler fundet i stikprøven blot er et tilfældigt træk ved stikprøven. Med andre ord, hvis en given sammenhæng ikke eksisterer i en population, og du udfører lignende eksperimenter mange gange, så ville du i cirka hver tyve gentagelser af eksperimentet forvente det samme eller stærkere forhold mellem variablerne.

I mange undersøgelser betragtes en p-værdi på 0,05 som en "acceptabel margin" for fejlniveauet.

Der er ingen måde at undgå vilkårlighed ved at beslutte, hvilket niveau af betydning der virkelig skal betragtes som "betydeligt". Valget af et vist signifikansniveau, over hvilket resultater afvises som falske, er ret vilkårligt. I praksis afhænger den endelige beslutning normalt af, om resultatet blev forudsagt a priori (dvs. før eksperimentet blev udført) eller opdaget a posteriori som et resultat af mange analyser og sammenligninger udført på en række data, såvel som på tradition for studieretningen. På mange områder er et resultat på p 0,05 typisk en acceptabel grænse for statistisk signifikans, men det skal huskes, at dette niveau stadig indeholder en ret stor fejlmargin (5%). Resultater, der er signifikante på p 0,01-niveauet, anses generelt for statistisk signifikante, og resultater med et p 0,005- eller p 0,001-niveau anses generelt for at være meget signifikante. Det skal dog forstås, at denne klassificering af betydningsniveauer er ret vilkårlig og kun er en uformel aftale vedtaget på grundlag af praktisk erfaring inden for et bestemt forskningsområde.

Som allerede nævnt repræsenterer størrelsen af ​​sammenhængen og reliabiliteten to forskellige karakteristika ved relationerne mellem variable. Det kan dog ikke siges, at de er helt uafhængige. Generelt gælder det, at jo større sammenhængen (forholdet) mellem variabler i en stikprøve af normal størrelse er, jo mere pålidelig er den.

Hvis vi antager, at der ikke er nogen sammenhæng mellem de tilsvarende variable i populationen, så er det højst sandsynligt at forvente, at der i stikprøven, der undersøges, heller ikke vil være nogen sammenhæng mellem disse variable. Jo stærkere en sammenhæng er fundet i en stikprøve, jo mindre sandsynlig er det, at sammenhængen ikke eksisterer i den population, den er trukket fra.


Stikprøvestørrelsen påvirker betydningen af ​​sammenhængen. Hvis der er få observationer, så er der tilsvarende få mulige kombinationer af værdier for disse variable, og dermed er sandsynligheden for ved et uheld at opdage en kombination af værdier, der viser en stærk sammenhæng, relativt høj.

Hvordan niveauet af statistisk signifikans beregnes. Lad os antage, at du allerede har beregnet et mål for afhængighed mellem to variable (som forklaret ovenfor). Det næste spørgsmål, du står over for, er: "hvor betydningsfuldt er dette forhold?" For eksempel, er 40 % forklaret varians mellem to variable tilstrækkelig til at betragte sammenhængen som signifikant? Svaret: "afhængigt af omstændighederne." Signifikansen afhænger nemlig hovedsageligt af stikprøvestørrelsen. Som allerede forklaret vil selv meget svage sammenhænge mellem variable være signifikante i meget store stikprøver, mens selv meget stærke sammenhænge i små prøver ikke er pålidelige. For at bestemme niveauet af statistisk signifikans skal du således bruge en funktion, der repræsenterer forholdet mellem "størrelsen" og "signifikansen" af forholdet mellem variabler for hver stikprøvestørrelse. Denne funktion vil fortælle dig nøjagtigt "hvor sandsynligt det er at opnå et forhold af en given værdi (eller mere) i en stikprøve af en given størrelse, forudsat at der ikke er et sådant forhold i populationen." Med andre ord ville denne funktion give signifikansniveauet (p-værdi), og derfor sandsynligheden for fejlagtigt at afvise antagelsen om, at en given sammenhæng ikke eksisterer i populationen. Denne "alternative" hypotese (at der ikke er nogen sammenhæng i befolkningen) kaldes normalt nulhypotesen. Det ville være ideelt, hvis funktionen, der beregner sandsynligheden for fejl, var lineær og kun havde forskellige hældninger for forskellige stikprøvestørrelser. Desværre er denne funktion meget mere kompleks og er ikke altid helt den samme. Men i de fleste tilfælde er dens form kendt og kan bruges til at bestemme signifikansniveauer i undersøgelser af prøver af en given størrelse. De fleste af disse funktioner er forbundet med en meget vigtig klasse af fordelinger kaldet normal.

Lad os overveje et typisk eksempel på anvendelsen af ​​statistiske metoder i medicin. Skaberne af lægemidlet foreslår, at det øger diuresen i forhold til den indtagne dosis. For at teste denne hypotese giver de fem frivillige forskellige doser af stoffet.

Baseret på observationsresultaterne plottes en graf over diurese versus dosis (fig. 1.2A). Afhængighed er synlig med det blotte øje. Forskere lykønsker hinanden med opdagelsen og verden med det nye vanddrivende middel.

Faktisk giver dataene os kun mulighed for pålideligt at fastslå, at en dosisafhængig diurese blev observeret hos disse fem frivillige. Det faktum, at denne afhængighed vil manifestere sig hos alle mennesker, der tager stoffet, er ikke mere end en antagelse.
ZY

Med

liv Det kan ikke siges, at det er grundløst - ellers, hvorfor udføre eksperimenter?

Men stoffet blev sat til salg. Flere og flere mennesker tager det i håb om at øge deres urinproduktion. Så hvad ser vi? Vi ser figur 1.2B, som indikerer fraværet af enhver sammenhæng mellem dosis af lægemidlet og diurese. Sorte cirkler indikerer data fra den oprindelige undersøgelse. Statistik har metoder, der giver os mulighed for at estimere sandsynligheden for at opnå en sådan "urepræsentativ" og faktisk forvirrende prøve. Det viser sig, at i fravær af en forbindelse mellem diurese og dosis af lægemidlet, ville den resulterende "afhængighed" blive observeret i cirka 5 ud af 1000 eksperimenter. Så i dette tilfælde var forskerne simpelthen uheldige. Selv hvis de havde brugt de mest avancerede statistiske metoder, ville det stadig ikke have forhindret dem i at lave fejl.

Vi gav dette fiktive, men slet ikke langt fra virkeligheden eksempel, for ikke at påpege ubrugeligheden
statistikkens karakter. Han taler om noget andet, om den sandsynlige karakter af hendes konklusioner. Som et resultat af at anvende den statistiske metode opnår vi ikke den ultimative sandhed, men kun et skøn over sandsynligheden for en bestemt antagelse. Derudover er hver statistisk metode baseret på sin egen matematiske model og dens resultater er korrekte i det omfang denne model svarer til virkeligheden.

Mere om emnet PÅLIDELIGHED OG STATISTISK BETYDNING:

  1. Statistisk signifikante forskelle i livskvalitetsindikatorer
  2. Statistisk population. Regnskabsmæssige karakteristika. Begrebet kontinuerlig og selektiv forskning. Krav til statistiske data og brug af regnskabs- og rapporteringsbilag
  3. ABSTRAKT. UNDERSØGELSE AF PÅLIDELIGHED AF TONOMETERINDIKATIONER TIL MÅLING AF INTRAOKULÆRT TRYK GENNEM ØJELÅGET 2018, 2018

Hovedtrækkene i ethvert forhold mellem variabler.

Vi kan bemærke de to enkleste egenskaber ved forholdet mellem variable: (a) størrelsen af ​​sammenhængen og (b) pålideligheden af ​​sammenhængen.

- Størrelse . Afhængighedsstørrelsen er lettere at forstå og måle end pålidelighed. For eksempel, hvis en mand i prøven havde en værdi for antallet af hvide blodlegemer (WCC) højere end nogen kvinde, så kan man sige, at forholdet mellem de to variable (Køn og WCC) er meget højt. Med andre ord kan du forudsige værdierne af en variabel ud fra værdierne af en anden.

- Pålidelighed ("sandhed"). Pålideligheden af ​​gensidig afhængighed er et mindre intuitivt koncept end størrelsen af ​​afhængighed, men det er ekstremt vigtigt. Relationens pålidelighed er direkte relateret til repræsentativiteten af ​​en bestemt prøve, på grundlag af hvilken konklusioner er draget. Med andre ord refererer reliabilitet til, hvor sandsynligt det er, at et forhold vil blive genopdaget (med andre ord bekræftet) ved hjælp af data fra en anden stikprøve fra den samme population.

Det skal huskes, at det endelige mål næsten aldrig er at studere denne særlige prøve af værdier; en stikprøve er kun af interesse i det omfang, den giver information om hele populationen. Hvis undersøgelsen opfylder visse specifikke kriterier, kan pålideligheden af ​​de fundne sammenhænge mellem stikprøvevariabler kvantificeres og præsenteres ved hjælp af et standard statistisk mål.

Afhængighedsstørrelse og pålidelighed repræsenterer to forskellige karakteristika for afhængigheder mellem variable. Det kan dog ikke siges, at de er helt uafhængige. Jo større sammenhængen (forbindelsen) mellem variabler i en stikprøve af normal størrelse er, jo mere pålidelig er den (se næste afsnit).

Den statistiske signifikans af et resultat (p-niveau) er et estimeret mål for tillid til dets "sandhed" (i betydningen "prøvens repræsentativitet"). Mere teknisk set er p-niveauet et mål, der varierer i faldende størrelsesorden med resultatets pålidelighed. Et højere p-niveau svarer til et lavere niveau af tillid til sammenhængen mellem variabler fundet i stikprøven. P-niveauet repræsenterer nemlig sandsynligheden for fejl forbundet med fordelingen af ​​det observerede resultat til hele populationen.

f.eks. p-niveau = 0,05(dvs. 1/20) indikerer, at der er 5 % chance for, at forholdet mellem variabler fundet i stikprøven blot er et tilfældigt træk ved stikprøven. I mange undersøgelser betragtes et p-niveau på 0,05 som en "acceptabel margin" for fejlniveauet.

Der er ingen måde at undgå vilkårlighed ved at afgøre, hvilket niveau af betydning der virkelig skal betragtes som "betydeligt". Valget af et vist signifikansniveau, over hvilket resultater afvises som falske, er ret vilkårligt.



I praksis afhænger den endelige beslutning normalt af, om resultatet blev forudsagt a priori (dvs. før eksperimentet blev udført) eller opdaget a posteriori som et resultat af mange analyser og sammenligninger udført på en række data, såvel som på tradition for studieretningen.

Generelt er et resultat på p .05 på mange felter en acceptabel cutoff for statistisk signifikans, men husk på, at dette niveau stadig indeholder en ret stor fejlmargin (5%).

Resultater signifikante på p.01-niveau anses generelt for statistisk signifikante, mens resultater på p.005- eller p.00-niveau generelt betragtes som statistisk signifikante. 001 som meget væsentlig. Det skal dog forstås, at denne klassificering af betydningsniveauer er ret vilkårlig og kun er en uformel aftale vedtaget på grundlag af praktisk erfaring inden for en bestemt studieretning.

Det er klart, at jo større antal analyser, der udføres på helheden af ​​de indsamlede data, desto større vil antallet af signifikante (på det valgte niveau) resultater blive opdaget rent tilfældigt.

Nogle statistiske metoder, der involverer mange sammenligninger, og dermed har en betydelig chance for at gentage denne type fejl, foretager en særlig justering eller korrektion for det samlede antal sammenligninger. Mange statistiske metoder (især simple eksplorative dataanalysemetoder) tilbyder imidlertid ikke nogen måde at løse dette problem på.

Hvis forholdet mellem variabler er "objektivt" svagt, så er der ingen anden måde at teste et sådant forhold på end at studere en stor stikprøve. Selvom prøven er perfekt repræsentativ, vil effekten ikke være statistisk signifikant, hvis prøven er lille. Ligeledes, hvis et forhold er "objektivt" meget stærkt, så kan det påvises med en høj grad af signifikans selv i en meget lille stikprøve.

Jo svagere forholdet mellem variablerne er, jo større er stikprøvestørrelsen, der kræves for at detektere det meningsfuldt.

Mange forskellige forholdsmål mellem variabler. Valget af et bestemt mål i en bestemt undersøgelse afhænger af antallet af variable, de anvendte måleskalaer, karakteren af ​​sammenhængene osv.

De fleste af disse mål følger imidlertid et generelt princip: de forsøger at estimere et observeret forhold ved at sammenligne det med det "maksimalt tænkelige forhold" mellem de pågældende variable. Teknisk set er den sædvanlige måde at lave sådanne estimater på at se på, hvordan værdierne af variablerne varierer og derefter beregne, hvor meget af den samlede variation, der er til stede, der kan forklares ved tilstedeværelsen af ​​"fælles" ("fælles") variation i to (eller flere) variable.

Betydningen afhænger hovedsageligt af stikprøvestørrelsen. Som allerede forklaret vil selv meget svage sammenhænge mellem variable være signifikante i meget store stikprøver, mens selv meget stærke sammenhænge i små prøver ikke er pålidelige.

For at bestemme niveauet af statistisk signifikans er det således nødvendigt med en funktion, der repræsenterer forholdet mellem "størrelsen" og "signifikansen" af forholdet mellem variabler for hver stikprøvestørrelse.

En sådan funktion ville indikere nøjagtigt "hvor sandsynligt det er at opnå en afhængighed af en given værdi (eller mere) i en stikprøve af en given størrelse, forudsat at der ikke er en sådan afhængighed i befolkningen." Denne funktion ville med andre ord give et signifikansniveau
(p-niveau), og derfor sandsynligheden for fejlagtigt at afvise antagelsen om fraværet af denne afhængighed i befolkningen.

Denne "alternative" hypotese (at der ikke er nogen sammenhæng i befolkningen) kaldes normalt nulhypotese.

Det ville være ideelt, hvis funktionen, der beregner sandsynligheden for fejl, var lineær og kun havde forskellige hældninger for forskellige stikprøvestørrelser. Desværre er denne funktion meget mere kompleks og er ikke altid helt den samme. Men i de fleste tilfælde er dens form kendt og kan bruges til at bestemme signifikansniveauer i undersøgelser af prøver af en given størrelse. De fleste af disse funktioner er forbundet med en klasse af distributioner kaldet normal .

Signifikansniveauet i statistik er en vigtig indikator, der afspejler graden af ​​tillid til nøjagtigheden og sandheden af ​​de opnåede (forudsagte) data. Konceptet er meget udbredt inden for forskellige områder: fra at udføre sociologisk forskning til statistisk test af videnskabelige hypoteser.

Definition

Niveauet af statistisk signifikans (eller statistisk signifikant resultat) viser sandsynligheden for forekomsten af ​​de undersøgte indikatorer tilfældigt. Den overordnede statistiske signifikans af et fænomen er udtrykt ved p-værdi-koefficienten (p-niveau). I ethvert forsøg eller observation er der en mulighed for, at de opnåede data skyldtes prøveudtagningsfejl. Dette gælder især for sociologi.

Det vil sige, at en statistisk signifikant værdi er en værdi, hvis sandsynlighed for tilfældig forekomst er ekstremt lille eller tenderer til det ekstreme. Det ekstreme i denne sammenhæng er den grad, hvormed statistik afviger fra nulhypotesen (en hypotese, der testes for overensstemmelse med de opnåede stikprøvedata). I videnskabelig praksis vælges signifikansniveauet før dataindsamling, og som regel er dets koefficient 0,05 (5%). For systemer, hvor præcise værdier er ekstremt vigtige, kan dette tal være 0,01 (1%) eller mindre.

Baggrund

Begrebet signifikansniveau blev introduceret af den britiske statistiker og genetiker Ronald Fisher i 1925, da han udviklede en teknik til at teste statistiske hypoteser. Når man analyserer en proces, er der en vis sandsynlighed for visse fænomener. Der opstår vanskeligheder, når man arbejder med små (eller ikke indlysende) procenter af sandsynligheder, der falder ind under begrebet "målefejl".

Når man arbejder med statistiske data, der ikke er specifikke nok til at teste dem, står forskerne over for problemet med nulhypotesen, som "forhindrer" at arbejde med små mængder. Fisher foreslog sådanne systemer at bestemme sandsynligheden for hændelser ved 5 % (0,05) som et bekvemt stikprøveudsnit, hvilket gør det muligt at afvise nulhypotesen i beregninger.

Introduktion af faste odds

I 1933 anbefalede forskerne Jerzy Neumann og Egon Pearson i deres værker, at et vist niveau af betydning blev etableret på forhånd (før dataindsamling). Eksempler på brugen af ​​disse regler er tydeligt synlige under valg. Lad os sige, at der er to kandidater, hvoraf den ene er meget populær, og den anden er lidt kendt. Det er indlysende, at den første kandidat vinder valget, og chancerne for den anden har en tendens til nul. De stræber - men er ikke lige: Der er altid mulighed for force majeure, opsigtsvækkende information, uventede beslutninger, der kan ændre de forudsagte valgresultater.

Neyman og Pearson var enige om, at Fishers signifikansniveau på 0,05 (angivet med α) var mest passende. Fischer selv modsatte sig dog i 1956 at fastsætte denne værdi. Han mente, at niveauet for α skulle indstilles efter specifikke omstændigheder. For eksempel er det i partikelfysik 0,01.

p-niveau værdi

Udtrykket p-værdi blev først brugt af Brownlee i 1960. P-niveauet (p-værdi) er en indikator, der er omvendt relateret til resultaternes sandhed. Den højeste p-værdikoefficient svarer til det laveste konfidensniveau i det stikprøvede forhold mellem variable.

Denne værdi afspejler sandsynligheden for fejl forbundet med fortolkningen af ​​resultaterne. Lad os antage p-niveau = 0,05 (1/20). Det viser fem procents sandsynlighed for, at forholdet mellem variabler fundet i stikprøven blot er et tilfældigt træk ved stikprøven. Det vil sige, at hvis denne afhængighed er fraværende, så kan man med gentagne lignende eksperimenter i gennemsnit i hver tyvende undersøgelse forvente den samme eller større afhængighed mellem variablerne. P-niveauet ses ofte som en "margin" for fejlprocenten.

I øvrigt afspejler p-værdi måske ikke det reelle forhold mellem variable, men viser kun en vis gennemsnitsværdi inden for antagelserne. Især vil den endelige analyse af dataene også afhænge af de valgte værdier af denne koefficient. Ved p-niveau = 0,05 vil der være nogle resultater, og ved en koefficient lig med 0,01 vil der være forskellige resultater.

Test af statistiske hypoteser

Niveauet af statistisk signifikans er især vigtigt, når man tester hypoteser. For eksempel, når man beregner en tosidet test, deles afvisningsområdet ligeligt i begge ender af prøveudtagningsfordelingen (i forhold til nulkoordinaten), og sandheden af ​​de resulterende data beregnes.

Antag, at når man overvåger en bestemt proces (fænomen), viste det sig, at nye statistiske oplysninger indikerer små ændringer i forhold til tidligere værdier. Samtidig er uoverensstemmelserne i resultaterne små, ikke tydelige, men vigtige for undersøgelsen. Specialisten står over for et dilemma: sker der virkelig ændringer, eller er disse stikprøvefejl (målunøjagtighed)?

I dette tilfælde bruger eller afviser de nulhypotesen (tilskriver alt en fejl, eller anerkender ændringen i systemet som et fait accompli). Problemløsningsprocessen er baseret på forholdet mellem overordnet statistisk signifikans (p-værdi) og signifikansniveau (α). Hvis p-niveau< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Brugte værdier

Signifikansniveauet afhænger af det materiale, der analyseres. I praksis bruges følgende faste værdier:

  • a = 0,1 (eller 10%);
  • a = 0,05 (eller 5%);
  • a = 0,01 (eller 1%);
  • α = 0,001 (eller 0,1%).

Jo mere nøjagtige beregningerne er påkrævet, desto lavere anvendes α-koefficienten. Naturligvis kræver statistiske prognoser inden for fysik, kemi, lægemidler og genetik større nøjagtighed end i statskundskab og sociologi.

Betydningsgrænser på specifikke områder

I højpræcisionsfelter som partikelfysik og fremstilling udtrykkes statistisk signifikans ofte som forholdet mellem standardafvigelsen (angivet med sigma-koefficienten - σ) i forhold til en normal sandsynlighedsfordeling (gaussisk fordeling). σ er en statistisk indikator, der bestemmer spredningen af ​​værdierne af en vis mængde i forhold til matematiske forventninger. Bruges til at plotte sandsynligheden for begivenheder.

Afhængigt af vidensområdet varierer koefficienten σ meget. For eksempel, når man forudsiger eksistensen af ​​Higgs-bosonet, er parameteren σ lig med fem (σ = 5), hvilket svarer til p-værdi = 1/3,5 million I genomstudier kan signifikansniveauet være 5 × 10 -. 8, hvilket ikke er ualmindeligt for dette område.

Effektivitet

Det skal tages i betragtning, at koefficienterne α og p-værdi ikke er nøjagtige karakteristika. Uanset betydningsniveauet i statistikken for det undersøgte fænomen, er det ikke et ubetinget grundlag for at acceptere hypotesen. For eksempel, jo mindre værdien af ​​α er, jo større er chancen for, at hypotesen, der etableres, er signifikant. Der er dog risiko for fejl, som reducerer undersøgelsens statistiske styrke (signifikans).

Forskere, der udelukkende fokuserer på statistisk signifikante resultater, kan komme til fejlagtige konklusioner. Samtidig er det svært at dobbelttjekke deres arbejde, da de anvender antagelser (som faktisk er α- og p-værdierne). Derfor anbefales det altid, sammen med beregning af statistisk signifikans, at bestemme en anden indikator - størrelsen af ​​den statistiske effekt. Effektstørrelse er et kvantitativt mål for styrken af ​​en effekt.

Hvad tror du gør din "anden halvdel" speciel og meningsfuld? Er det relateret til hendes/hans personlighed eller til dine følelser, du har for denne person? Eller måske med det simple faktum, at hypotesen om tilfældigheden af ​​din sympati, som undersøgelser viser, har en sandsynlighed på mindre end 5%? Hvis vi anser det sidste udsagn for at være pålideligt, ville succesrige datingsider i princippet ikke eksistere:

Når du udfører splittest eller anden analyse af dit websted, kan misforståelser af "statistisk signifikans" føre til fejlfortolkning af resultaterne og derfor forkerte handlinger in. Dette gælder for de tusindvis af andre statistiske test, der udføres hver dag i alle eksisterende brancher.

For at forstå, hvad "statistisk signifikans" er, skal du dykke ned i begrebets historie, lære dets sande betydning og forstå, hvordan denne "nye" gamle forståelse vil hjælpe dig med at fortolke resultaterne af din forskning korrekt.

Lidt historie

Selvom menneskeheden har brugt statistik til at løse forskellige problemer i mange århundreder, begyndte den moderne forståelse af statistisk signifikans, hypotesetestning, randomisering og endda Design of Experiments (DOE) først at tage form i begyndelsen af ​​det 20. århundrede og er uløseligt forbundet med navnet på Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher var en evolutionsbiolog og statistiker, som havde en særlig passion for studiet af evolution og naturlig udvælgelse i dyre- og planteriget. I løbet af sin berømte karriere udviklede og populariserede han mange nyttige statistiske værktøjer, som vi stadig bruger i dag.

Fisher brugte de teknikker, han udviklede, til at forklare processer i biologi som dominans, mutationer og genetiske afvigelser. Vi kan bruge de samme værktøjer i dag til at optimere og forbedre indholdet af webressourcer. At disse analyseværktøjer kan bruges til at arbejde med objekter, der ikke engang eksisterede på det tidspunkt, de blev oprettet, virker ret overraskende. Det er lige så overraskende, at folk plejede at udføre komplekse beregninger uden lommeregnere eller computere.

For at beskrive resultaterne af et statistisk eksperiment som havende en høj sandsynlighed for at være sande, brugte Fisher ordet "signifikans".

Også en af ​​Fishers mest interessante udviklinger kan kaldes "sexet søn"-hypotesen. Ifølge denne teori foretrækker kvinder seksuelt promiskuøse mænd (promiskuøse), fordi dette vil tillade sønner født af disse mænd at have samme disposition og producere flere afkom (bemærk at dette kun er en teori).

Men ingen, selv geniale videnskabsmænd, er immune over for at begå fejl. Fishers fejl plager stadig specialister den dag i dag. Men husk Albert Einsteins ord: "Den, der aldrig har lavet en fejl, har aldrig skabt noget nyt."

Før du går videre til næste punkt, skal du huske: statistisk signifikans er, når forskellen i testresultater er så stor, at forskellen ikke kan forklares med tilfældige faktorer.

Hvad er din hypotese?

For at forstå, hvad "statistisk signifikans" betyder, skal du først forstå, hvad "hypotesetestning" er, da de to udtryk er tæt sammenflettet.
En hypotese er blot en teori. Når du har udviklet en teori, skal du etablere en proces for at indsamle nok beviser og faktisk indsamle disse beviser. Der er to typer hypoteser.

Æbler eller appelsiner - hvad er bedre?

Nulhypotese

Som regel er det her, mange oplever vanskeligheder. En ting at huske på er, at en nulhypotese ikke er noget, der skal bevises, som at du for eksempel beviser, at en bestemt ændring på en hjemmeside vil føre til en stigning i konverteringer, men omvendt. Nulhypotesen er en teori, der siger, at hvis du foretager ændringer på siden, vil der ikke ske noget. Og målet for forskeren er at tilbagevise denne teori, ikke bevise den.

Ser vi på erfaringerne med at opklare forbrydelser, hvor efterforskere også opstiller hypoteser om, hvem den kriminelle er, tager nulhypotesen form af den såkaldte uskyldsformodning, det begreb, hvorefter den anklagede formodes uskyldig, indtil det modsatte er bevist. i en domstol.

Hvis nulhypotesen er, at to objekter er ens i deres egenskaber, og du forsøger at bevise, at den ene er bedre (for eksempel er A bedre end B), skal du forkaste nulhypotesen til fordel for alternativet. For eksempel sammenligner du et eller andet konverteringsoptimeringsværktøj. I nulhypotesen har de begge samme effekt (eller ingen effekt) på målet. Alternativt er effekten af ​​en af ​​dem bedre.

Din alternative hypotese kan indeholde en numerisk værdi, såsom B - A > 20%. I dette tilfælde kan nulhypotesen og alternativet have følgende form:

Et andet navn for en alternativ hypotese er en forskningshypotese, fordi forskeren altid er interesseret i at bevise netop denne hypotese.

Statistisk signifikans og p-værdi

Lad os vende tilbage til Ronald Fisher og hans begreb om statistisk signifikans.

Nu hvor du har en nulhypotese og et alternativ, hvordan kan du så bevise den ene og modbevise den anden?

Da statistikker i sagens natur involverer undersøgelse af en bestemt population (stikprøve), kan du aldrig være 100 % sikker på de opnåede resultater. Et godt eksempel: valgresultater adskiller sig ofte fra resultaterne af foreløbige meningsmålinger og endda exit-puljer.

Dr. Fisher ønskede at skabe en skillelinje, der ville fortælle dig, om dit eksperiment var en succes eller ej. Sådan fremstod pålidelighedsindekset. Troværdighed er det niveau, vi tager for at sige, hvad vi anser for "betydeligt", og hvad vi ikke gør. Hvis "p", signifikansindekset, er 0,05 eller mindre, er resultaterne pålidelige.

Bare rolig, det er faktisk ikke så forvirrende, som det ser ud til.

Gaussisk sandsynlighedsfordeling. Langs kanterne er de mindre sandsynlige værdier af variablen, i midten er de mest sandsynlige. P-score (grønt skraveret område) er sandsynligheden for, at det observerede resultat opstår ved en tilfældighed.

Den normale sandsynlighedsfordeling (gaussisk fordeling) er en repræsentation af alle mulige værdier af en bestemt variabel på en graf (i figuren ovenfor) og deres frekvenser. Hvis du laver din research rigtigt og derefter plotter alle dine svar på en graf, får du præcis denne fordeling. I henhold til normalfordelingen vil du modtage en stor procentdel af lignende svar, og de resterende muligheder vil være placeret i kanterne af grafen (de såkaldte "haler"). Denne fordeling af værdier findes ofte i naturen, hvorfor den kaldes "normal".

Ved hjælp af en ligning baseret på din prøve og testresultater kan du beregne, hvad der kaldes en "teststatistik", som vil indikere, hvor meget dine resultater afviger. Det vil også fortælle dig, hvor tæt du er på, at nulhypotesen er sand.

For at hjælpe dig med at få hovedet omkring det, brug online-beregnere til at beregne statistisk signifikans:

Et eksempel på sådanne lommeregnere

Bogstavet "p" repræsenterer sandsynligheden for, at nulhypotesen er sand. Hvis tallet er lille, vil det indikere en forskel mellem testgrupperne, hvorimod nulhypotesen ville være, at de er ens. Grafisk vil det se ud til, at din teststatistik vil være tættere på en af ​​halerne af din klokkeformede fordeling.

Dr. Fisher besluttede at sætte signifikansgrænsen til p ≤ 0,05. Denne udtalelse er dog kontroversiel, da den fører til to vanskeligheder:

1. For det første betyder det faktum, at du har bevist nulhypotesen falsk, ikke, at du har bevist den alternative hypotese. Al denne betydning betyder bare, at du ikke kan bevise hverken A eller B.

2. For det andet, hvis p-score er 0,049, vil det betyde, at sandsynligheden for nulhypotesen vil være 4,9%. Det kan betyde, at dine testresultater kan være både sande og falske på samme tid.

Du kan muligvis bruge p-score, men så skal du beregne sandsynligheden for nulhypotesen fra sag til sag og beslutte, om den er stor nok til at forhindre dig i at foretage de ændringer, du har planlagt og testet. .

Det mest almindelige scenarie for at udføre en statistisk test i dag er at sætte en signifikansgrænse på p ≤ 0,05, før selve testen køres. Bare sørg for at se nøje på p-værdien, når du tjekker dine resultater.

Fejl 1 og 2

Der er gået så lang tid, at fejl, der kan opstå ved brug af den statistiske signifikansmetrik, endda har fået deres egne navne.

Type 1 fejl

Som nævnt ovenfor betyder en p-værdi på 0,05, at der er 5% chance for, at nulhypotesen er sand. Hvis du ikke gør det, begår du fejl nummer 1. Resultaterne siger, at din nye hjemmeside har øget dine konverteringsrater, men der er 5 % chance for, at det ikke gjorde det.

Type 2 fejl

Denne fejl er det modsatte af fejl 1: du accepterer nulhypotesen, når den er falsk. For eksempel fortæller testresultater dig, at ændringerne på siden ikke medførte nogen forbedringer, mens der var ændringer. Som et resultat går du glip af muligheden for at forbedre din præstation.

Denne fejl er almindelig i tests med en utilstrækkelig stikprøvestørrelse, så husk: jo større stikprøven er, jo mere pålideligt er resultatet.

Konklusion

Måske er intet udtryk så populært blandt forskere som statistisk signifikans. Når testresultater ikke viser sig at være statistisk signifikante, spænder konsekvenserne fra en stigning i konverteringsrater til en virksomheds sammenbrud.

Og da marketingfolk bruger dette udtryk, når de optimerer deres ressourcer, skal du vide, hvad det egentlig betyder. Testbetingelserne kan variere, men prøvestørrelse og succeskriterier er altid vigtige. Husk dette.



Denne artikel er også tilgængelig på følgende sprog: Thai

  • Næste

    TAK for den meget nyttige information i artiklen. Alt er præsenteret meget tydeligt. Det føles som om der er blevet gjort meget arbejde for at analysere driften af ​​eBay-butikken

    • Tak til jer og andre faste læsere af min blog. Uden dig ville jeg ikke være motiveret nok til at dedikere megen tid til at vedligeholde denne side. Min hjerne er struktureret på denne måde: Jeg kan godt lide at grave dybt, systematisere spredte data, prøve ting, som ingen har gjort før eller set fra denne vinkel. Det er en skam, at vores landsmænd ikke har tid til at shoppe på eBay på grund af krisen i Rusland. De køber fra Aliexpress fra Kina, da varer der er meget billigere (ofte på bekostning af kvalitet). Men online-auktioner eBay, Amazon, ETSY vil nemt give kineserne et forspring inden for rækken af ​​mærkevarer, vintageartikler, håndlavede varer og forskellige etniske varer.

      • Næste

        Det, der er værdifuldt i dine artikler, er din personlige holdning og analyse af emnet. Giv ikke op denne blog, jeg kommer her ofte. Sådan burde vi være mange. Email mig Jeg modtog for nylig en e-mail med et tilbud om, at de ville lære mig at handle på Amazon og eBay.

  • Og jeg huskede dine detaljerede artikler om disse handler. areal Jeg genlæste alt igen og konkluderede, at kurserne er et fupnummer. Jeg har ikke købt noget på eBay endnu. Jeg er ikke fra Rusland, men fra Kasakhstan (Almaty). Men vi har heller ikke brug for ekstra udgifter endnu.
    Jeg ønsker dig held og lykke og vær sikker i Asien.