En tilsvarende tilgang til fortolkning af testresultater ville være at antage, at nulhypotesen er sand, vi kan beregne hvor stor sandsynlighedt- et kriterium lig med eller større end den reelle værdi, som vi beregnede ud fra de tilgængelige stikprøvedata. Hvis denne sandsynlighed viser sig at være mindre end et tidligere accepteret signifikansniveau (for eksempel P< 0.05), мы вправе отклонить проверяемую нулевую гипотезу. Именно такой подход сегодня используется чаще всего: исследователи приводят в своих работах P-значение, которое легко рассчитывается при помощи статистических программ. Рассмотрим, как это можно сделать в системе R.

Antag, at vi har data om det daglige energiindtag fra mad (kJ/dag) for 11 kvinder (eksempel taget fra bogen Altman D. G. (1981) Practical Statistics for Medical Research, Chapman & Hall, London):


Gennemsnittet for disse 11 observationer er:


Spørgsmål: Er dette prøvegennemsnit forskelligt fra den etablerede norm på 7725 kJ/dag? Forskellen mellem vores prøveværdi og denne standard er ret signifikant: 7725 - 6753,6 = 971,4. Men hvor stor er denne forskel statistisk set? En enkelt prøve vil hjælpe med at besvare dette spørgsmål. t-prøve. Ligesom andre muligheder t-test, en t-test med én prøve udføres i R ved hjælp af funktionen t.test():


Spørgsmål: Er disse gennemsnit statistisk forskellige? Lad os tjekke hypotesen om, at der ikke er nogen forskel ved at bruge t-prøve:

Men hvordan kan vi i sådanne tilfælde vurdere tilstedeværelsen af ​​en effekt fra en intervention statistisk? Generelt kan Elevens test repræsenteres som

Elevens t-test er en generel betegnelse for en klasse af metoder til statistisk test af hypoteser (statistiske test) baseret på Student-fordelingen. Den mest almindelige brug af t-testen involverer test af ligheden af ​​middel i to prøver.

1. Historie om udviklingen af ​​t-testen

Dette kriterium blev udviklet William Gossett at vurdere kvaliteten af ​​øl i Guinness-selskabet. På grund af forpligtelser over for virksomheden vedrørende hemmeligholdelse af forretningshemmeligheder blev Gossets artikel publiceret i 1908 i tidsskriftet Biometrics under pseudonymet "Student".

2. Hvad bruges Elevens t-test til?

Elevens t-test bruges til at bestemme den statistiske signifikans af forskelle i middelværdier. Kan bruges både i tilfælde af sammenligning af uafhængige prøver ( for eksempel grupper af diabetikere og raske grupper), og når man sammenligner relaterede populationer ( for eksempel gennemsnitlig puls hos de samme patienter før og efter indtagelse af et antiarytmisk lægemiddel).

3. I hvilke tilfælde kan Elevens t-test bruges?

For at anvende Student t-testen er det nødvendigt, at de originale data har normalfordeling. I tilfælde af at der anvendes et kriterium med to stikprøver for uafhængige prøver, er det også nødvendigt at opfylde betingelsen lighed (homoskedasticitet) af varianser.

Hvis disse betingelser ikke er opfyldt, bør lignende metoder anvendes ved sammenligning af prøvegennemsnit. ikke-parametrisk statistik, blandt hvilke de mest kendte er Mann-Whitney U-test(som en to-stikprøve test for uafhængige prøver), og tegn kriterium Og Wilcoxon test(bruges i tilfælde af afhængige prøver).

4. Hvordan beregner man Elevens t-test?

For at sammenligne gennemsnitsværdier beregnes Elevens t-test ved hjælp af følgende formel:

Hvor M 1- aritmetisk gennemsnit af den første sammenlignede population (gruppe), M 2- aritmetisk gennemsnit af den anden sammenlignede population (gruppe), m 1- gennemsnitsfejl af det første aritmetiske middelværdi, m 2- gennemsnitsfejl af det andet aritmetiske gennemsnit.

5. Hvordan tolker man Elevens t-test værdi?

Den resulterende Students t-testværdi skal fortolkes korrekt. For at gøre dette skal vi kende antallet af emner i hver gruppe (n 1 og n 2). At finde antallet af frihedsgrader f efter følgende formel:

f = (n 1 + n 2) - 2

Herefter bestemmer vi den kritiske værdi af Elevens t-test for det påkrævede signifikansniveau (for eksempel p = 0,05) og for et givet antal frihedsgrader f ifølge tabellen ( se nedenfor).

Vi sammenligner de kritiske og beregnede værdier af kriteriet:

  • Hvis den beregnede værdi af Elevens t-test lige eller større kritisk, fundet fra tabellen, konkluderer vi, at forskellene mellem de sammenlignede værdier er statistisk signifikante.
  • Hvis værdien af ​​den beregnede Elevs t-test mindre tabel, hvilket betyder, at forskellene mellem de sammenlignede værdier ikke er statistisk signifikante.

6. Eksempel på udregning af Elevens t-test

For at studere effektiviteten af ​​et nyt jernpræparat blev to grupper af patienter med anæmi udvalgt. I den første gruppe fik patienterne et nyt lægemiddel i to uger, og i den anden gruppe fik de placebo. Herefter blev hæmoglobinniveauet i perifert blod målt. I den første gruppe var det gennemsnitlige hæmoglobinniveau 115,4±1,2 g/l, og i den anden gruppe - 103,7±2,3 g/l (data præsenteres i formatet M±m), de populationer, der sammenlignes, har en normalfordeling. Antallet af den første gruppe var 34, og den anden - 40 patienter. Det er nødvendigt at drage en konklusion om den statistiske signifikans af de opnåede forskelle og effektiviteten af ​​det nye jernpræparat.

Løsning: For at vurdere betydningen af ​​forskelle bruger vi Students t-test, beregnet som forskellen i middelværdier divideret med summen af ​​kvadrerede fejl:

Efter at have udført beregningerne viste t-testværdien sig at være 4,51. Vi finder antallet af frihedsgrader som (34 + 40) - 2 = 72. Vi sammenligner den resulterende Students t-testværdi på 4,51 med den kritiske værdi ved p = 0,05 angivet i tabellen: 1,993. Da den beregnede værdi af kriteriet er større end den kritiske værdi, konkluderer vi, at de observerede forskelle er statistisk signifikante (signifikansniveau p<0,05).

Metoden giver dig mulighed for at teste hypotesen om, at gennemsnitsværdierne for to generelle populationer, hvorfra de sammenlignede er udvundet afhængig valg adskiller sig fra hinanden. Antagelsen om afhængighed betyder oftest, at karakteristikken måles på samme prøve to gange, for eksempel før interventionen og efter den. I det generelle tilfælde tildeles hver repræsentant for en prøve en repræsentant fra en anden prøve (de kombineres i par), således at de to dataserier er positivt korrelerede med hinanden. Svagere typer af prøveafhængighed: prøve 1 - mænd, prøve 2 - deres koner; prøve 1 - et-årige børn, prøve 2 består af tvillinger af børn i prøve 1 osv.

Testbar statistisk hypotese, som i det foregående tilfælde, H 0: M1 = M2(middelværdierne i prøve 1 og 2 er ens). Hvis det forkastes, accepteres den alternative hypotese, at M 1 mere (mindre) M 2.

Indledende antagelser til statistisk testning:

Hver repræsentant for en stikprøve (fra en generel population) er forbundet med en repræsentant for en anden stikprøve (fra en anden generel population);

Dataene fra de to prøver er positivt korrelerede (form par);

Fordelingen af ​​den undersøgte karakteristik i begge prøver svarer til normalloven.

Kildedatastruktur: der er to værdier af den undersøgte funktion for hvert objekt (for hvert par).

Begrænsninger: fordelingen af ​​karakteristikken i begge prøver bør ikke afvige væsentligt fra normalen; dataene fra to målinger svarende til den ene og den anden prøve er positivt korreleret.

Alternativer: Wilcoxon T-test, hvis fordelingen for mindst én prøve afviger signifikant fra normalen; t-Student test for uafhængige prøver - hvis dataene for to prøver ikke korrelerer positivt.

Formel for den empiriske værdi af Elevens t-test afspejler det faktum, at analyseenheden for forskelle er forskel (skift) attributværdier for hvert par observationer. Følgelig beregnes forskellen først for hvert af de N par af attributværdier d i = x 1 i - x 2 i.

hvor M d er den gennemsnitlige forskel af værdier; σ d - standardafvigelse af forskelle.

Regneeksempel:

Lad os antage, at hver af de 8 medlemmer af gruppen under test af træningens effektivitet blev stillet spørgsmålet "Hvor ofte falder din mening sammen med gruppens mening?" - to gange, før og efter træningen. En 10-trins skala blev brugt til svar: 1 - aldrig, 5 - halvdelen af ​​tiden, 10 - altid. Hypotesen blev testet, at som et resultat af træningen ville deltagernes selvværd af konformitet (ønsket om at være som andre i gruppen) stige (α = 0,05). Lad os lave en tabel til mellemberegninger (tabel 3).


Tabel 3

Det aritmetiske middelværdi for forskellen M d = (-6)/8 = -0,75. Træk denne værdi fra hver d (den næstsidste kolonne i tabellen).

Formlen for standardafvigelse adskiller sig kun ved, at d vises i den i stedet for X. Vi erstatter alle de nødvendige værdier, vi får:

σd = = 0,886.

Trin 1. Beregn den empiriske værdi af kriteriet ved hjælp af formel (3): gennemsnitlig forskel Md= -0,75; standardafvigelse σ d = 0,886; t e = 2,39; df = 7.

Trin 2. Ved hjælp af tabellen over kritiske værdier for t-Student-kriteriet bestemmer vi p-niveauet af signifikans. For df = 7 ligger den empiriske værdi mellem de kritiske værdier for r= 0,05 og p — 0,01. Derfor, r< 0,05.

df R
0,05 0,01 0,001
2,365 3,499 5,408

Trin 3. Vi træffer en statistisk beslutning og formulerer en konklusion. Den statistiske hypotese om lighed mellem gennemsnitsværdier afvises. Konklusion: indikatoren for selvevaluering af deltagernes konformitet efter træningen steg statistisk signifikant (på signifikansniveau s< 0,05).

Parametriske metoder omfatter sammenligning af varianser af to prøver i henhold til kriteriet F-Fisher. Nogle gange fører denne metode til værdifulde meningsfulde konklusioner, og i tilfælde af sammenligning af midler til uafhængige prøver, er sammenligning af varianser obligatorisk procedure.

At beregne F em du skal finde forholdet mellem varianserne af de to stikprøver, og således at den største varians er i tælleren, og den mindre er i nævneren.

Sammenligning af afvigelser. Metoden giver dig mulighed for at teste hypotesen om, at varianserne af de to generelle populationer, som de sammenlignede prøver er trukket fra, adskiller sig fra hinanden. Testet statistisk hypotese H 0: σ 1 2 = σ 2 2 (variansen i prøve 1 er lig med variansen i prøve 2). Hvis den forkastes, accepteres den alternative hypotese, at den ene varians er større end den anden.

Indledende antagelser: to prøver udtages tilfældigt fra forskellige populationer med en normalfordeling af den egenskab, der undersøges.

Kildedatastruktur: den karakteristika, der undersøges, måles i objekter (fag), som hver tilhører en af ​​de to prøver, der sammenlignes.

Begrænsninger: fordelingen af ​​egenskaben i begge prøver afviger ikke signifikant fra normalen.

Alternativ metode: Levenes test, hvis brug ikke kræver kontrol af antagelsen om normalitet (brugt i SPSS-programmet).

Formel for den empiriske værdi af Fisher's F-testen:

(4)

hvor σ 1 2 stor spredning, og σ 2 2 - mindre spredning. Da det ikke er kendt på forhånd, hvilken spredning der er størst, så bruges det til at bestemme p-niveauet Tabel over kritiske værdier for ikke-retningsbestemte alternativer. Hvis F e > F Kp for det tilsvarende antal frihedsgrader, altså r< 0,05 и статистическую гипотезу о равенстве дисперсий можно отклонить (для α = 0,05).

Regneeksempel:

Børnene fik almindelige regneopgaver, hvorefter en tilfældigt udvalgt halvdel af eleverne fik at vide, at de havde dumpet testen, og resten fik at vide det modsatte. Hvert barn blev derefter spurgt, hvor mange sekunder det ville tage dem at løse et lignende problem. Eksperimentatoren beregnede forskellen mellem den tid barnet ringede og resultatet af den udførte opgave (i sekunder). Det var forventet, at beskeden om svigt ville forårsage en vis utilstrækkelighed i barnets selvværd. Den testede hypotese (på α = 0,005 niveau) var, at variansen af ​​det samlede selvværd ikke afhænger af rapporter om succes eller fiasko (H 0: σ 1 2 = σ 2 2).

Følgende data blev indhentet:

Trin 1. Beregn den empiriske værdi af kriteriet og antallet af frihedsgrader ved hjælp af formler (4):

Trin 2. Ifølge tabellen over kritiske værdier af Fisher f-kriteriet for ikke-retningsbestemt alternativer, vi finder den kritiske værdi for df nummer= 11; df ved= 11. Der er dog kun en kritisk værdi for df nummer= 10 og df ved = 12. Et større antal frihedsgrader kan ikke tages, så vi tager den kritiske værdi for df nummer= 10: For r= 0,05 F Kp = 3,526; For r= 0,01 F Kp = 5,418.

Trin 3. At træffe en statistisk beslutning og en meningsfuld konklusion. Da den empiriske værdi overstiger den kritiske værdi for r= 0,01 (og endnu mere for p = 0,05), så i dette tilfælde s< 0,01 и принимается альтернативная гипо-теза: дисперсия в группе 1 превышает дисперсию в группе 2 (s< 0,01). Følgelig, efter en besked om fiasko, er utilstrækkeligheden af ​​selvværd højere end efter en besked om succes.

Elevens t-testfor uafhængige prøver

Elevens t-test ( t-Studentprøve eller bare " t-test") bruges, hvis du skal sammenligne kun to grupper kvantitative karakteristika med normalfordeling (et særligt tilfælde af variansanalyse). Bemærk: dette kriterium kan ikke bruges ved sammenligning af flere grupper i par i dette tilfælde, skal der anvendes variansanalyse. Fejlagtig brug af Elevens t-test øger sandsynligheden for at "afsløre" forskelle, der ikke eksisterer. For eksempel, i stedet for at anerkende flere behandlinger som lige effektive (eller ineffektive), er en af ​​dem erklæret bedre.

To begivenheder kaldes uafhængige, hvis forekomsten af ​​den ene af dem ikke på nogen måde påvirker forekomsten af ​​den anden. På samme måde kan to samlinger kaldes uafhængige, hvis egenskaberne for den ene af dem på ingen måde er relateret til den andens egenskaber.

Eksempel på udførelse t-test i STATISTICA programmet.

Kvinder er i gennemsnit kortere end mænd, dog er det ikke et resultat af, at mænd har nogen indflydelse på kvinder – det er et spørgsmål om genetiske karakteristika ved kønnet. Ved at bruge t- Testen skal kontrollere, om der er en statistisk signifikant forskel mellem de gennemsnitlige højdeværdier i grupperne af mænd og kvinder. (Til uddannelsesformål antager vi, at højdedata følger en normalfordeling og derfor t- test er relevant).

Figur 1. Eksempel på dataformatering til udførelse t-

Vær opmærksom på, hvordan dataene er formateret i figur 1. Som når du konstruerer grafer som f.eksWhisker plot eller Box-whisker plot, er der to variable i tabellen: en af ​​dem er gruppering (Grupperingsvariabel) ("Køn") - indeholder koder (mand og kone), der gør det muligt for programmet at bestemme, hvilke af højdedataene, der tilhører hvilken gruppe; den anden - den såkaldte afhængig variabel (Afhængig variabel) ("Vækst") - indeholder de faktiske data, der analyseres. Dog ved udførelset-test for uafhængige prøver i STATISTICA-programmet, en anden designmulighed er mulig - data for hver af grupperne ("Mænd" og "Kvinder") kan indtastes i separate kolonner (Figur 2).

Figur 2. En anden mulighed for formatering af data til udførelse t- uafhængige prøver test

At optræde t-For en uafhængig prøvetest skal du gøre følgende:

1-a. Start modul t- dej fra menuen Statistik > Grundlæggende statistik/tabeller > t-prøve, uafhængig, af grupper(hvis der er en grupperingsvariabel i datatabellen, se figur 3).

ELLER

1-b. Start modul t- dej fra menuen Statistik > Grundlæggende statistik/tabeller > t-test, uafhængig, ved variable(hvis dataene er indtastet i uafhængige kolonner, se figur 4).

Nedenfor er en version af testen, hvor der er en grupperingsvariabel i datatabellen.

2. Klik på knappen i det vindue, der åbnes Variabler og fortæl programmet hvilken af ​​tabelvariablerne Regneark er gruppering, og som er afhængig (figur 5-6).

Figur 5. Valg af variabler til at inkludere i t-prøve

Figur 6. Vindue med ind udvalgte variabler til at udføre t-prøve

3. Tryk på knappenOpsummering: T-test.

Figur 7. Resultater t-test for uafhængige prøver

Som et resultat vil programmet producere en projektmappeArbejdsbog, der indeholder en tabel med resultaternet-test (Figur 7 ). Denne tabel har flere kolonner:

  • Betyde(mand) - gennemsnitlig højde i "Mænd"-gruppen;
  • Betyde(kvinde) - gennemsnitlig højde i "Kvinder" -gruppen;
  • t- værdi: værdi beregnet af programmet t-Elevens test;
  • df- antal frihedsgrader;
  • P- sandsynligheden for gyldighed af hypotesen om, at de sammenlignede gennemsnitsværdier ikke adskiller sig. Faktisk er dette det vigtigste resultat af analysen, da det er værdien P fortæller, om den hypotese, der testes, er sand. I vores eksempel er P > 0,05, hvorfra vi kan konkludere, at der ikke er statistisk signifikante forskelle mellem mænds og kvinders højde.
  • Gyldig N(mand) - prøvestørrelse "Mænd";
  • Gyldig N(kvinde) - prøvestørrelse "Kvinder";
  • Std. dev. (han) - standardafvigelse for "Mænd"-prøven;
  • Std. dev. (kvinde) - standardafvigelse for "Kvinde"-prøven;
  • F-forhold, Varianser- værdien af ​​Fishers F-test, ved hjælp af hvilken hypotesen om variansens lighed i de sammenlignede prøver testes;
  • P, Afvigelser- sandsynligheden for validitet af hypotesen om, at varianserne af de sammenlignede stikprøver ikke er forskellige.

Statistisk hypotesetestning giver os mulighed for at drage stærke slutninger om egenskaberne ved en population baseret på stikprøvedata. Der er forskellige hypoteser. En af dem er hypotesen om gennemsnittet (matematisk forventning). Dens essens er at drage en korrekt konklusion, kun baseret på den tilgængelige prøve, om, hvor det generelle gennemsnit kan være placeret eller ikke (vi vil aldrig kende den nøjagtige sandhed, men vi kan indsnævre søgningen).

Den generelle tilgang til at teste hypoteser er blevet beskrevet, så lad os gå direkte til sagen. Lad os først antage, at stikprøven er trukket fra en normal population af tilfældige variable X med generelt gennemsnit μ og varians σ 2(Jeg ved, jeg ved, at dette ikke sker, men afbryd mig ikke!). Det aritmetiske gennemsnit af denne prøve er naturligvis i sig selv en tilfældig variabel. Hvis du udtrækker mange sådanne prøver og beregner deres gennemsnit, så vil de også have en matematisk forventning μ Og

Derefter den tilfældige variabel

Spørgsmålet opstår: vil det generelle gennemsnit med 95 % sandsynlighed ligge inden for ±1,96? s x̅. Med andre ord er fordelingen af ​​tilfældige variabler

tilsvarende.

Dette spørgsmål blev først stillet (og løst) af en kemiker, der arbejdede på Guinness ølfabrik i Dublin (Irland). Kemikerens navn var William Seely Gossett, og han tog prøver af øl til kemisk analyse. På et tidspunkt begyndte William tilsyneladende at blive plaget af vag tvivl om fordelingen af ​​gennemsnit. Det viste sig at være lidt mere udtværet end en normalfordeling burde være.

Efter at have indsamlet det matematiske grundlag og beregnet værdierne af den distributionsfunktion, han opdagede, skrev Dublin-kemikeren William Gosset en note, der blev offentliggjort i marts 1908-udgaven af ​​Biometrics magazine (chefredaktør - Karl Pearson). Fordi Guinness forbød strengt at give bryggehemmeligheder væk. Gossett skrev under med pseudonymet Student.

På trods af at K. Pearson allerede havde opfundet fordelingen, dominerede den generelle idé om normalitet stadig. Ingen skulle tro, at fordelingen af ​​stikprøvescore måske ikke var normal. Derfor forblev W. Gossets artikel praktisk talt ubemærket og glemt. Og kun Ronald Fisher satte pris på Gossets opdagelse. Fischer brugte den nye distribution i sit arbejde og gav den navnet Elevens t-fordeling. Kriteriet for at teste hypoteser blev derfor Elevens t-test. Sådan opstod en "revolution" i statistikken, som trådte ind i æraen med prøvedataanalyse. Dette var en kort udflugt i historien.

Lad os se, hvad W. Gosset kunne se. Lad os generere 20 tusinde normale prøver fra 6 observationer med et gennemsnit ( ) 50 og standardafvigelse ( σ ) 10. Derefter normaliserer vi prøvemidlet vha generel varians:

Vi vil gruppere de resulterende 20 tusinde gennemsnit i intervaller med længden 0,1 og beregne frekvenserne. Lad os på diagrammet afbilde den faktiske (Norm) og teoretiske (ENorm) frekvensfordeling af prøvemiddelværdier.

Punkterne (observerede frekvenser) falder praktisk talt sammen med linjen (teoretiske frekvenser). Dette er forståeligt, fordi dataene er taget fra den samme generelle population, og forskellene er kun stikprøvefejl.

Lad os lave et nyt eksperiment. Vi normaliserer gennemsnittet vha prøvevarians.

Lad os tælle frekvenserne igen og plotte dem på diagrammet i form af punkter og efterlade en linje med standardnormalfordelingen til sammenligning. Lad os betegne den empiriske frekvens af gennemsnittet, f.eks. med bogstavet t.

Det ses, at fordelingerne denne gang ikke falder ret meget sammen. Tæt på, ja, men ikke det samme. Halerne er blevet mere "tunge".

Gosset-Student havde ikke den nyeste version af MS Excel, men det er præcis den effekt, han bemærkede. Hvorfor sker dette? Forklaringen er, at den stokastiske variabel

afhænger ikke kun af stikprøvefejlen (tæller), men også af standardfejlen for middelværdien (nævneren), som også er en tilfældig variabel.

Lad os se lidt på, hvilken fordeling sådan en tilfældig variabel skal have. Først skal du huske (eller lære) noget fra matematisk statistik. Der er Fishers sætning, som siger, at i en prøve fra en normalfordeling:

1. medium og prøvevarians s 2 er uafhængige mængder;

2. forholdet mellem stikprøve og populationsvarians, ganget med antallet af frihedsgrader, har en fordeling χ 2(chi-kvadrat) med samme antal frihedsgrader, dvs.

Hvor k– antal grader af frihed (på engelsk grader af frihed (d.f.))

Mange andre resultater i statistikken for normale modeller er baseret på denne lov.

Lad os vende tilbage til fordelingen af ​​gennemsnittet. Opdel udtrykkets tæller og nævner

σ X̅. Vi får

Tælleren er en standard normal tilfældig variabel (vi betegner ξ (xi)). Lad os udtrykke nævneren fra Fishers sætning.

Så vil det oprindelige udtryk tage formen

Dette er hvad det er i generel form (Student relation). Du kan udlede dens distributionsfunktion direkte, fordi fordelingen af ​​begge stokastiske variable i dette udtryk er kendt. Lad os overlade denne fornøjelse til matematikerne.

Student t-fordelingsfunktionen har en formel, der er ret svær at forstå, så det nytter ikke noget at analysere den. Ingen bruger det alligevel, fordi... sandsynligheder er angivet i specielle tabeller over Student-fordelinger (nogle gange kaldet tabeller over Student-koefficienter), eller er inkluderet i PC-formler.

Så bevæbnet med denne nye viden kan du forstå den officielle definition af Student-distributionen.
En tilfældig variabel underlagt Elevfordelingen med k frihedsgrader er forholdet mellem uafhængige stokastiske variable

Hvor ξ fordelt efter den almindelige normallov, og χ 2 k adlyder distribution χ 2 c k frihedsgrader.

Elevens t-testformel for det aritmetiske gennemsnit

Der er et særligt tilfælde af elevforholdet

Af formlen og definitionen følger det, at fordelingen af ​​Students t-test kun afhænger af antallet af frihedsgrader.

k> 30 t-test adskiller sig praktisk talt ikke fra standard normalfordelingen.

I modsætning til chi-square kan t-testen være en- eller to-halet. Normalt bruger de to-sidet, idet det antages, at afvigelsen kan forekomme i begge retninger fra gennemsnittet. Men hvis problemets tilstand kun tillader afvigelse i én retning, er det rimeligt at bruge et ensidigt kriterium. Dette øger effekten lidt, fordi... ved et fast signifikansniveau nærmer den kritiske værdi sig en smule nul.

Betingelser for brug af Students t-test

På trods af at Students opdagelse på et tidspunkt revolutionerede statistik, er t-testen stadig ret begrænset i sine anvendelsesmuligheder, fordi selv kommer fra antagelsen om en normal fordeling af de originale data. Hvis dataene ikke er normale (hvilket normalt er tilfældet), så vil t-testen ikke længere have en Student-fordeling. Men på grund af virkningen af ​​den centrale grænsesætning opnår gennemsnittet selv for unormale data hurtigt en klokkeformet fordeling.

Overvej for eksempel data, der er tydeligt skæve til højre, såsom en chi-kvadratfordeling med 5 frihedsgrader.

Lad os nu oprette 20 tusinde prøver og observere, hvordan fordelingen af ​​gennemsnit ændrer sig afhængigt af deres volumen.

Forskellen er ret mærkbar i små prøver på op til 15-20 observationer. Men så forsvinder det hurtigt. Således er ikke-normalitet af fordelingen selvfølgelig ikke god, men ikke kritisk.

Mest af alt er t-testen "bange" for outliers, dvs. unormale afvigelser. Lad os tage 20 tusinde normale prøver på hver 15 observationer og tilføje en tilfældig afviger til nogle af dem.

Billedet viser sig at være dystert. De faktiske frekvenser af gennemsnittet er meget forskellige fra de teoretiske. At bruge t-distributionen i en sådan situation bliver en meget risikabel virksomhed.

Så i ikke meget små prøver (fra 15 observationer) er t-testen relativt modstandsdygtig over for ikke-normal fordeling af de originale data. Men outliers i dataene forvrænger i høj grad fordelingen af ​​t-testen, hvilket igen kan føre til fejl i statistisk inferens, så unormale observationer bør elimineres. Ofte fjernes alle værdier, der falder inden for ±2 standardafvigelser fra middelværdien, fra prøven.

Et eksempel på test af en hypotese om matematisk forventning ved hjælp af Students t-test i MS Excel

Excel har flere funktioner relateret til t-distributionen. Lad os se på dem.

STUDENT.DIST – “klassisk” venstresidet Student t-fordeling. Inputtet er t-kriterieværdien, antallet af frihedsgrader og en mulighed (0 eller 1), der bestemmer, hvad der skal beregnes: tæthed eller funktionsværdi. Ved output får vi henholdsvis tætheden eller sandsynligheden for, at den stokastiske variabel vil være mindre end t-kriteriet angivet i argumentet.

STUDENT.DIST.2X – to-vejs distribution. Argumentet er den absolutte værdi (modulo) af t-testen og antallet af frihedsgrader. Som et resultat opnår vi sandsynligheden for at opnå den samme eller endnu større t-kriterieværdi, dvs. faktisk signifikansniveau (p-niveau).

STUDENT.DIST.PH – højresidet t-fordeling. Så, 1-ELEV.FORDELING(2;5;1) = STUDENT.FORDELING.PH(2;5) = 0,05097. Hvis t-testen er positiv, er den resulterende sandsynlighed p-niveau.

STUDENT.INR – bruges til at beregne den venstrehalede inverse af t-fordelingen. Argumentet er sandsynligheden og antallet af frihedsgrader. Ved udgangen får vi t-kriterieværdien svarende til denne sandsynlighed. Sandsynlighedstællingen er til venstre. Derfor kræver venstre hale selve signifikansniveauet α , og for den rigtige 1 - α .

STUDENT.OBR.2X – den omvendte værdi for den tosidede Student-fordeling, dvs. t-testværdi (modulo). Signifikansniveauet leveres også til inputtet α . Kun denne gang udføres tællingen fra begge sider samtidigt, så sandsynligheden er fordelt i to haler. Så STUDENT.ARV(1-0,025;5) = STUDENT.ARV.2X(0,05;5) = 2,57058

STUDENT.TEST er en funktion til at teste hypotesen om ligheden af ​​matematiske forventninger i to stikprøver. Erstatter en masse beregninger, fordi Det er nok kun at angive to områder med data og et par flere parametre. Udgangen er p-niveau.

CONFIDENCE.STUDENT – beregning af konfidensintervallet for gennemsnittet under hensyntagen til t-fordelingen.

Lad os overveje dette træningseksempel. Hos virksomheden pakkes cement i 50 kg sække. På grund af tilfældighed er en vis afvigelse fra den forventede masse tilladt i en enkelt pose, men det generelle gennemsnit bør forblive 50 kg. Kvalitetskontrolafdelingen vejede tilfældigt 9 poser og opnåede følgende resultater: gennemsnitsvægt ( ) var 50,3 kg, standardafvigelse ( s) – 0,5 kg.

Er dette resultat i overensstemmelse med nulhypotesen om, at den generelle middelværdi er 50 kg? Med andre ord, er det muligt at opnå et sådant resultat ved en ren tilfældighed, hvis udstyret fungerer korrekt og giver en gennemsnitlig fyldning på 50 kg? Hvis hypotesen ikke afvises, så passer den resulterende forskel ind i rækken af ​​tilfældige udsving, men hvis hypotesen afvises, så var der højst sandsynligt en fejl i indstillingerne af maskinen, der fylder poserne. Det skal kontrolleres og konfigureres.

En kort tilstand i almindeligt accepteret notation ser sådan ud.

H0: μ = 50 kg

H1: μ ≠ 50 kg

Der er grund til at antage, at fordelingen af ​​posefyld følger en normalfordeling (eller ikke er meget forskellig fra den). Det betyder, at for at teste hypotesen om den matematiske forventning, kan du bruge Student t-testen. Tilfældige afvigelser kan forekomme i alle retninger, hvilket betyder, at en tosidet t-test er nødvendig.

Først vil vi bruge antediluvianske midler: manuelt beregne t-kriteriet og sammenligne det med den kritiske tabelværdi. Beregnet t-test:

Lad os nu bestemme, om det resulterende tal overstiger det kritiske niveau på signifikansniveauet α = 0,05. Lad os bruge Elevens t-fordelingstabel (tilgængelig i enhver statistik lærebog).

Søjlerne viser sandsynligheden for højre side af fordelingen, og rækkerne viser antallet af frihedsgrader. Vi er interesseret i en tosidet t-test med et signifikansniveau på 0,05, hvilket svarer til t-værdien for halvdelen af ​​signifikansniveauet til højre: 1 - 0,05/2 = 0,975. Antallet af frihedsgrader er stikprøvestørrelsen minus 1, dvs. 9 - 1 = 8. I skæringspunktet finder vi tabelværdien af ​​t-testen - 2,306. Hvis vi brugte standard normalfordelingen, så ville det kritiske punkt være 1,96, men her er det større, fordi T-fordelingen i små prøver har et mere fladt udseende.

Lad os sammenligne den faktiske (1,8) og tabelværdien (2,306). Det beregnede kriterium viste sig at være mindre end det opstillede. De tilgængelige data modsiger derfor ikke hypotesen H 0 om, at det generelle gennemsnit er 50 kg (men beviser det heller ikke). Det er alt, hvad vi kan lære ved hjælp af tabeller. Du kan selvfølgelig også forsøge at finde p-niveauet, men det vil være omtrentligt. Og som regel er det p-niveauet, der bruges til at teste hypoteser. Derfor går vi næste gang til Excel.

Der er ingen færdiglavet funktion til at beregne t-testen i Excel. Men det er ikke skræmmende, for Elevens t-testformel er ret enkel og kan nemt bygges direkte i en Excel-celle.

Vi fik den samme 1.8. Lad os først finde den kritiske værdi. Vi tager alfa 0,05, kriteriet er tosidet. Vi har brug for den inverse t-fordelingsfunktion til den tosidede hypotese STUDENT.OBR.2X.

Den resulterende værdi afskærer det kritiske område. Den observerede t-test falder ikke ind i den, så hypotesen afvises ikke.

Dette er dog den samme måde at teste en hypotese ved hjælp af en tabelværdi. Det ville være mere informativt at beregne p-niveau, dvs. sandsynligheden for at opnå den observerede eller endnu større afvigelse fra gennemsnittet på 50 kg, hvis denne hypotese er korrekt. Du skal bruge elevfordelingsfunktionen til den tosidede hypotese STUDENT.FORDELING.2X.

P-niveauet er 0,1096, hvilket er større end det acceptable signifikansniveau på 0,05 – vi afviser ikke hypotesen. Men nu kan vi bedømme bevisgraden. P-niveauet viste sig at være ret tæt på niveauet, da hypotesen forkastes, og det leder til forskellige tanker. For eksempel, at prøven var for lille til at detektere en signifikant afvigelse.

Efter nogen tid, lad kontrolafdelingen igen beslutte at kontrollere, hvordan posefyldningsstandarden opretholdes. Denne gang blev der valgt ikke 9, men 25 poser for større pålidelighed. Det er intuitivt klart, at spredningen af ​​gennemsnittet vil falde, og derfor bliver chancerne for at finde en fejl i systemet større.

Lad os sige, at de samme værdier af middelværdien og standardafvigelsen for prøven blev opnået som første gang (henholdsvis 50,3 og 0,5). Lad os beregne t-testen.


Den kritiske værdi for 24 frihedsgrader og α = 0,05 er 2,064. Billedet nedenfor viser, at t-testen falder inden for området for hypoteseafvisning.

Vi kan konkludere, at med en konfidenssandsynlighed på mere end 95 %, afviger det generelle gennemsnit fra 50 kg. For at være mere overbevisende, lad os se på p-niveauet (den sidste linje i tabellen). Sandsynligheden for at opnå et gennemsnit med samme eller endnu større afvigelse fra 50, hvis hypotesen er korrekt, er 0,0062 eller 0,62 %, hvilket er praktisk talt umuligt med en enkelt måling. Generelt afviser vi hypotesen som usandsynlig.

Beregning af et konfidensinterval ved hjælp af elevens t-distribution

En anden statistisk metode er tæt forbundet med hypotesetestning - beregning af konfidensintervaller. Hvis det resulterende interval indeholder en værdi svarende til nulhypotesen, så svarer dette til, at nulhypotesen ikke er forkastet. Ellers forkastes hypotesen med det tilsvarende konfidensniveau. I nogle tilfælde tester analytikere slet ikke hypoteser i den klassiske form, men beregner kun konfidensintervaller. Denne tilgang giver dig mulighed for at udtrække endnu mere nyttig information.

Lad os beregne konfidensintervaller for middelværdien for 9 og 25 observationer. For at gøre dette vil vi bruge Excel-funktionen CONFIDENT.STUDENT. Her er alt mærkeligt nok ret simpelt. Funktionsargumenterne skal kun angive signifikansniveauet α , prøvestandardafvigelse og prøvestørrelse. Ved udgangen får vi halvbredden af ​​konfidensintervallet, det vil sige den værdi, der skal placeres på begge sider af gennemsnittet. Efter at have udført beregningerne og tegnet et visuelt diagram, får vi følgende.

Som du kan se, falder værdien 50 med en stikprøve på 9 observationer inden for konfidensintervallet (hypotesen er ikke forkastet), og med 25 observationer falder den ikke inden for konfidensintervallet (hypotesen forkastes). Desuden kan det i et forsøg med 25 poser konstateres, at med en sandsynlighed på 97,5 % overstiger det generelle gennemsnit 50,1 kg (den nedre grænse for konfidensintervallet er 50,094 kg). Og dette er ret værdifuld information.

Således løste vi det samme problem på tre måder:

1. Ved at bruge en gammel tilgang, sammenligne de beregnede og tabelformede værdier af t-testen
2. Mere moderne, ved at beregne p-niveauet, tilføje en grad af sikkerhed ved afvisning af hypotesen.
3. Endnu mere informativ ved at beregne konfidensintervallet og opnå minimumsværdien af ​​det generelle gennemsnit.

Det er vigtigt at huske, at t-testen refererer til parametriske metoder, fordi er baseret på en normalfordeling (den har to parametre: middelværdi og varians). Derfor, for dens vellykkede anvendelse, er i det mindste den omtrentlige normalitet af de indledende data og fraværet af afvigere vigtige.

Til sidst foreslår jeg, at du ser en video om, hvordan man udfører beregninger relateret til Student t-testen i Excel.



Denne artikel er også tilgængelig på følgende sprog: Thai

  • Næste

    TAK for den meget nyttige information i artiklen. Alt er præsenteret meget tydeligt. Det føles som om der er blevet gjort meget arbejde for at analysere driften af ​​eBay-butikken

    • Tak til jer og andre faste læsere af min blog. Uden dig ville jeg ikke have været motiveret nok til at dedikere megen tid til at vedligeholde denne side. Min hjerne er struktureret på denne måde: Jeg kan godt lide at grave dybt, systematisere spredte data, prøve ting, som ingen har gjort før eller set fra denne vinkel. Det er en skam, at vores landsmænd ikke har tid til at shoppe på eBay på grund af krisen i Rusland. De køber fra Aliexpress fra Kina, da varer der er meget billigere (ofte på bekostning af kvalitet). Men online-auktioner eBay, Amazon, ETSY vil nemt give kineserne et forspring inden for rækken af ​​mærkevarer, vintageartikler, håndlavede varer og forskellige etniske varer.

      • Næste

        Det, der er værdifuldt i dine artikler, er din personlige holdning og analyse af emnet. Giv ikke op denne blog, jeg kommer her ofte. Sådan burde vi være mange. Email mig Jeg modtog for nylig en e-mail med et tilbud om, at de ville lære mig at handle på Amazon og eBay.

  • Og jeg huskede dine detaljerede artikler om disse handler. areal Jeg genlæste alt igen og konkluderede, at kurserne er et fupnummer. Jeg har ikke købt noget på eBay endnu. Jeg er ikke fra Rusland, men fra Kasakhstan (Almaty). Men vi har heller ikke brug for ekstra udgifter endnu.
    Jeg ønsker dig held og lykke og vær sikker i Asien.