Denne side beskriver et standardeksempel på at finde varians, du kan også se på andre problemer for at finde den

Eksempel 1. Bestemmelse af gruppe, gruppegennemsnit, intergruppe og total varians

Eksempel 2. Find variansen og variationskoefficienten i en grupperingstabel

Eksempel 3. Find varians i en diskret serie

Eksempel 4. Følgende data er tilgængelige for en gruppe på 20 korrespondancestuderende. Det er nødvendigt at konstruere en intervalserie af fordelingen af ​​karakteristikken, beregne gennemsnitsværdien af ​​karakteristikken og studere dens spredning

Lad os bygge en intervalgruppering. Lad os bestemme området for intervallet ved hjælp af formlen:

hvor X max er den maksimale værdi af grupperingskarakteristikken;
X min – minimumsværdi for grupperingskarakteristikken;
n – antal intervaller:

Vi accepterer n=5. Trinet er: h = (192 - 159)/ 5 = 6,6

Lad os oprette en intervalgruppering

For yderligere beregninger vil vi bygge en hjælpetabel:

X"i – midten af ​​intervallet. (f.eks. midten af ​​intervallet 159 – 165,6 = 162,3)

Vi bestemmer den gennemsnitlige højde for elever ved hjælp af den vægtede aritmetiske gennemsnitsformel:

Lad os bestemme variansen ved hjælp af formlen:

Formlen kan omdannes således:

Af denne formel følger det varians er lig med forskellen mellem gennemsnittet af kvadraterne af mulighederne og kvadratet og gennemsnittet.

Spredning i variationsserier med lige store intervaller ved hjælp af metoden for momenter kan beregnes på følgende måde ved hjælp af den anden egenskab for spredning (dividere alle muligheder med værdien af ​​intervallet). Bestemmelse af varians, beregnet ved hjælp af momentmetoden, ved hjælp af følgende formel er mindre arbejdskrævende:

hvor i er værdien af ​​intervallet;
A er et konventionelt nul, for hvilket det er praktisk at bruge midten af ​​intervallet med den højeste frekvens;
m1 er kvadratet af første ordensmoment;
m2 - moment af anden orden

Alternativ trækvarians (hvis i en statistisk population en karakteristik ændres på en sådan måde, at der kun er to gensidigt udelukkende muligheder, så kaldes en sådan variabilitet alternativ) kan beregnes ved hjælp af formlen:

Ved at erstatte q = 1-p i denne dispersionsformel får vi:

Typer af varians

Total varians måler variationen af ​​en karakteristik på tværs af hele befolkningen som helhed under indflydelse af alle faktorer, der forårsager denne variation. Det er lig med middelkvadraten af ​​afvigelserne af individuelle værdier af en karakteristisk x fra den samlede middelværdi af x og kan defineres som simpel varians eller vægtet varians.

Inden for gruppen varians kendetegner tilfældig variation, dvs. en del af variationen, der skyldes påvirkning af ikke-redegjorte faktorer og ikke afhænger af den faktor-attribut, der danner grundlag for gruppen. En sådan spredning er lig med middelkvadraten af ​​afvigelserne af individuelle værdier af attributten inden for gruppe X fra gruppens aritmetiske middelværdi og kan beregnes som simpel spredning eller som vægtet spredning.



Således, inden for gruppe variansmålinger variation af en egenskab inden for en gruppe og bestemmes af formlen:

hvor xi er gruppegennemsnittet;
ni er antallet af enheder i gruppen.

For eksempel viser intragruppe-varianser, der skal bestemmes i opgaven med at studere indflydelsen af ​​arbejdernes kvalifikationer på niveauet af arbejdsproduktivitet i et værksted, variationer i output i hver gruppe forårsaget af alle mulige faktorer (udstyrets tekniske tilstand, tilgængelighed af værktøjer og materialer, arbejdernes alder, arbejdsintensitet osv. .), bortset fra forskelle i kvalifikationskategori (inden for en gruppe har alle arbejdere de samme kvalifikationer).

Sandsynlighedsteori er en særlig gren af ​​matematik, der kun studeres af studerende fra højere uddannelsesinstitutioner. Kan du lide beregninger og formler? Er du ikke bange for udsigterne til at stifte bekendtskab med normalfordelingen, ensembleentropi, matematisk forventning og spredning af en diskret stokastisk variabel? Så vil dette emne være meget interessant for dig. Lad os stifte bekendtskab med flere af de vigtigste grundbegreber i denne videnskabsgren.

Lad os huske det grundlæggende

Selvom du husker de enkleste begreber af sandsynlighedsteori, så forsøm ikke artiklens første afsnit. Pointen er, at uden en klar forståelse af det grundlæggende, vil du ikke være i stand til at arbejde med formlerne diskuteret nedenfor.

Så der opstår en tilfældig begivenhed, et eller andet eksperimenter. Som et resultat af de handlinger, vi foretager, kan vi få flere udfald – nogle af dem forekommer oftere, andre sjældnere. Sandsynligheden for en hændelse er forholdet mellem antallet af faktisk opnåede udfald af én type og det samlede antal mulige. Kun ved at kende den klassiske definition af dette begreb kan du begynde at studere den matematiske forventning og spredning af kontinuerlige tilfældige variabler.

Aritmetisk middelværdi

Tilbage i skolen, under matematiktimerne, begyndte du at arbejde med det aritmetiske gennemsnit. Dette koncept er meget udbredt i sandsynlighedsteori, og kan derfor ikke ignoreres. Det vigtigste for os i øjeblikket er, at vi vil støde på det i formlerne for den matematiske forventning og spredning af en tilfældig variabel.

Vi har en talfølge og ønsker at finde det aritmetiske middelværdi. Det eneste, der kræves af os, er at opsummere alt tilgængeligt og dividere med antallet af elementer i rækkefølgen. Lad os have tal fra 1 til 9. Summen af ​​elementerne vil være lig med 45, og vi deler denne værdi med 9. Svar: - 5.

Spredning

I videnskabelige termer er spredning det gennemsnitlige kvadrat af afvigelser af de opnåede værdier af en karakteristik fra det aritmetiske gennemsnit. Det er angivet med et stort latinsk bogstav D. Hvad skal der til for at beregne det? For hvert element i sekvensen beregner vi forskellen mellem det eksisterende tal og det aritmetiske middelværdi og kvadrerer det. Der vil være præcis lige så mange værdier, som der kan være resultater for den begivenhed, vi overvejer. Dernæst opsummerer vi alt modtaget og dividerer med antallet af elementer i sekvensen. Hvis vi har fem mulige udfald, så divider med fem.

Dispersion har også egenskaber, som skal huskes for at kunne bruges, når man løser problemer. For eksempel, når en tilfældig variabel øges med X gange, øges variansen med X i anden kvadrat (dvs. X*X). Det er aldrig mindre end nul og afhænger ikke af at flytte værdier op eller ned i lige store mængder. Derudover, for uafhængige forsøg, er variansen af ​​summen lig med summen af ​​varianserne.

Nu skal vi bestemt overveje eksempler på variansen af ​​en diskret tilfældig variabel og den matematiske forventning.

Lad os sige, at vi kørte 21 eksperimenter og fik 7 forskellige resultater. Vi observerede hver af dem henholdsvis 1, 2, 2, 3, 4, 4 og 5 gange. Hvad vil variansen være lig med?

Lad os først udregne det aritmetiske middelværdi: summen af ​​elementerne er selvfølgelig 21. Divider det med 7 og få 3. Træk nu 3 fra hvert tal i den oprindelige rækkefølge, kvadrerer hver værdi, og læg resultaterne sammen. Resultatet er 12. Nu skal vi bare dividere tallet med antallet af elementer, og det ser ud til, at det er alt. Men der er en fangst! Lad os diskutere det.

Afhængighed af antallet af eksperimenter

Det viser sig, at når man beregner varians, kan nævneren indeholde et af to tal: enten N eller N-1. Her er N antallet af udførte eksperimenter eller antallet af elementer i sekvensen (hvilket i det væsentlige er det samme). Hvad afhænger dette af?

Hvis antallet af test måles i hundreder, så skal vi sætte N i nævneren Hvis i enheder, så N-1. Forskere besluttede at tegne grænsen ret symbolsk: i dag passerer den gennem tallet 30. Hvis vi udførte mindre end 30 eksperimenter, vil vi dividere mængden med N-1, og hvis mere, så med N.

Opgave

Lad os vende tilbage til vores eksempel på løsning af problemet med varians og matematisk forventning. Vi fik et mellemtal 12, som skulle divideres med N eller N-1. Da vi udførte 21 eksperimenter, hvilket er mindre end 30, vil vi vælge den anden mulighed. Så svaret er: variansen er 12/2 = 2.

Forventning

Lad os gå videre til det andet koncept, som vi skal overveje i denne artikel. Den matematiske forventning er resultatet af at lægge alle mulige udfald ganget med de tilsvarende sandsynligheder. Det er vigtigt at forstå, at den opnåede værdi, såvel som resultatet af beregningen af ​​variansen, kun opnås én gang for hele problemet, uanset hvor mange udfald der betragtes i det.

Formlen for matematisk forventning er ret enkel: vi tager resultatet, multiplicerer det med dets sandsynlighed, tilføjer det samme for det andet, tredje resultat osv. Alt relateret til dette koncept er ikke svært at beregne. For eksempel er summen af ​​de forventede værdier lig med den forventede værdi af summen. Det samme gælder for arbejdet. Ikke enhver størrelse i sandsynlighedsteori giver dig mulighed for at udføre så simple operationer. Lad os tage problemet og beregne betydningen af ​​to begreber, vi har studeret på én gang. Desuden blev vi distraheret af teori - det er tid til at øve.

Et andet eksempel

Vi kørte 50 forsøg og fik 10 typer udfald - tal fra 0 til 9 - der vises i forskellige procenter. Disse er henholdsvis: 2%, 10%, 4%, 14%, 2%,18%, 6%, 16%, 10%, 18%. Husk på, at for at opnå sandsynligheder skal du dividere procentværdierne med 100. Således får vi 0,02; 0,1 osv. Lad os præsentere et eksempel på løsning af problemet for variansen af ​​en tilfældig variabel og den matematiske forventning.

Vi beregner det aritmetiske middelværdi ved at bruge formlen, som vi husker fra folkeskolen: 50/10 = 5.

Lad os nu konvertere sandsynligheden til antallet af udfald "i stykker" for at gøre det nemmere at tælle. Vi får 1, 5, 2, 7, 1, 9, 3, 8, 5 og 9. Fra hver opnået værdi trækker vi det aritmetiske middelværdi, hvorefter vi kvadrerer hvert af de opnåede resultater. Se hvordan du gør dette ved at bruge det første element som eksempel: 1 - 5 = (-4). Næste: (-4) * (-4) = 16. For andre værdier skal du udføre disse handlinger selv. Hvis du gjorde alt korrekt, vil du få 90 efter at have lagt dem alle sammen.

Lad os fortsætte med at beregne variansen og forventet værdi ved at dividere 90 med N. Hvorfor vælger vi N frem for N-1? Korrekt, fordi antallet af udførte eksperimenter overstiger 30. Altså: 90/10 = 9. Vi fik variansen. Hvis du får et andet nummer, så fortvivl ikke. Mest sandsynligt har du lavet en simpel fejl i beregningerne. Dobbelttjek, hvad du skrev, og alt skal nok falde på plads.

Husk endelig formlen for matematisk forventning. Vi giver ikke alle beregningerne, vi skriver kun et svar, som du kan tjekke med efter at have gennemført alle de nødvendige procedurer. Den forventede værdi vil være 5,48. Lad os kun huske, hvordan man udfører operationer, ved at bruge de første elementer som et eksempel: 0*0,02 + 1*0,1... og så videre. Som du kan se, multiplicerer vi blot udfaldsværdien med dens sandsynlighed.

Afvigelse

Et andet begreb, der er tæt forbundet med spredning og matematisk forventning, er standardafvigelse. Det er enten angivet med de latinske bogstaver sd eller med det græske små bogstav "sigma". Dette koncept viser, hvor meget værdierne i gennemsnit afviger fra den centrale funktion. For at finde dens værdi skal du beregne kvadratroden af ​​variansen.

Hvis du plotter en normalfordelingsgraf og ønsker at se den kvadrerede afvigelse direkte på den, kan dette gøres i flere trin. Tag halvdelen af ​​billedet til venstre eller højre for tilstanden (central værdi), tegn en vinkelret på den vandrette akse, så områderne af de resulterende figurer er ens. Størrelsen af ​​segmentet mellem midten af ​​fordelingen og den resulterende projektion på den vandrette akse vil repræsentere standardafvigelsen.

Software

Som det fremgår af beskrivelserne af formlerne og de præsenterede eksempler, er beregning af varians og matematisk forventning ikke den enkleste fremgangsmåde set ud fra et aritmetisk synspunkt. For ikke at spilde tid giver det mening at bruge programmet, der bruges i højere uddannelsesinstitutioner - det kaldes "R". Det har funktioner, der giver dig mulighed for at beregne værdier for mange begreber fra statistik og sandsynlighedsteori.

For eksempel angiver du en vektor af værdier. Dette gøres som følger: vektor<-c(1,5,2…). Теперь, когда вам потребуется посчитать какие-либо значения для этого вектора, вы пишете функцию и задаете его в качестве аргумента. Для нахождения дисперсии вам нужно будет использовать функцию var. Пример её использования: var(vector). Далее вы просто нажимаете «ввод» и получаете результат.

Som konklusion

Spredning og matematisk forventning er uden hvilke det er svært at beregne noget i fremtiden. I hovedforløbet af forelæsninger på universiteter diskuteres de allerede i de første måneder af studiet af emnet. Det er netop på grund af den manglende forståelse for disse simple begreber og manglende evne til at beregne dem, at mange elever straks begynder at komme bagud i uddannelsen og senere får dårlige karakterer i slutningen af ​​sessionen, hvilket fratager dem legater.

Øv dig i mindst en uge, en halv time om dagen, og løs opgaver svarende til dem, der er præsenteret i denne artikel. Så vil du på enhver test i sandsynlighedsteori være i stand til at klare eksemplerne uden uvedkommende tips og snydeark.

Ofte i statistikker, når man analyserer et fænomen eller proces, er det nødvendigt at tage hensyn til ikke kun oplysninger om de gennemsnitlige niveauer af de indikatorer, der undersøges, men også spredning eller variation i værdierne af individuelle enheder , hvilket er et vigtigt kendetegn ved den befolkning, der undersøges.

De mest udsatte for variation er aktiekurser, udbud og efterspørgsel og renter over forskellige tidsperioder og forskellige steder.

De vigtigste indikatorer, der karakteriserer variationen , er rækkevidde, spredning, standardafvigelse og variationskoefficient.

Variationsområde repræsenterer forskellen mellem maksimum- og minimumværdierne for karakteristikken: R = Xmax – Xmin. Ulempen ved denne indikator er, at den kun evaluerer grænserne for variation af en egenskab og ikke afspejler dens variabilitet inden for disse grænser.

Spredning mangler denne mangel. Det beregnes som det gennemsnitlige kvadrat af afvigelser af de karakteristiske værdier fra deres gennemsnitlige værdi:

En forenklet måde at beregne varians på udføres ved hjælp af følgende formler (enkle og vægtede):

Eksempler på anvendelse af disse formler er præsenteret i opgave 1 og 2.

En meget brugt indikator i praksis er standardafvigelse :

Standardafvigelsen er defineret som kvadratroden af ​​variansen og har samme dimension som karakteristikken, der undersøges.

De betragtede indikatorer giver os mulighed for at opnå den absolutte værdi af variationen, dvs. evaluere det i måleenheder for den karakteristik, der undersøges. I modsætning til dem, variationskoefficient måler variabilitet i relative termer - i forhold til gennemsnitsniveauet, hvilket i mange tilfælde er at foretrække.

Formel til beregning af variationskoefficienten.

Eksempler på løsning af problemer om emnet "Indikatorer for variation i statistik"

Opgave 1 . Ved undersøgelse af reklamens indflydelse på størrelsen af ​​det gennemsnitlige månedlige indskud i banker i regionen, blev 2 banker undersøgt. Følgende resultater blev opnået:

Definere:
1) for hver bank: a) gennemsnitligt indskud pr. måned; b) bidragsspredning;
2) det gennemsnitlige månedlige indskud for to banker tilsammen;
3) Indskudsafvigelse for 2 banker, afhængig af annoncering;
4) Indskudsafvigelse for 2 banker, afhængig af alle faktorer undtagen annoncering;
5) Total varians ved hjælp af additionsreglen;
6) Bestemmelseskoefficient;
7) Korrelationsforhold.

Løsning

1) Lad os lave en beregningstabel for en bank med annoncering . For at bestemme den gennemsnitlige månedlige indbetaling finder vi midtpunkterne for intervallerne. I dette tilfælde er værdien af ​​det åbne interval (det første) betinget lig med værdien af ​​intervallet, der støder op til det (det andet).

Vi finder den gennemsnitlige indbetalingsstørrelse ved hjælp af den vægtede aritmetiske gennemsnitsformel:

29.000/50 = 580 gnid.

Vi finder variansen af ​​bidraget ved hjælp af formlen:

23 400/50 = 468

Vi vil udføre lignende handlinger for en bank uden reklame :

2) Lad os sammen finde den gennemsnitlige indlånsstørrelse for de to banker. Хср =(580×50+542,8×50)/100 = 561,4 gnid.

3) Vi vil finde variansen af ​​depositum for to banker, afhængigt af annoncering, ved hjælp af formlen: σ 2 =pq (formel for variansen af ​​en alternativ attribut). Her er p=0,5 andelen af ​​faktorer, der er afhængige af reklame; q=1-0,5, derefter σ2 =0,5*0,5=0,25.

4) Da andelen af ​​andre faktorer er 0,5, er variansen af ​​indlånet for to banker, afhængigt af alle faktorer undtagen annoncering, også 0,25.

5) Bestem den samlede varians ved hjælp af additionsreglen.

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 = σ 2 fakta + σ 2 hvile = 552,08+345,96 = 898,04

6) Bestemmelseskoefficient η 2 = σ 2 fakta / σ 2 = 345,96/898,04 = 0,39 = 39 % - bidragets størrelse afhænger af annoncering med 39 %.

7) Empirisk korrelationsforhold η = √η 2 = √0,39 = 0,62 – sammenhængen er ret tæt.

Opgave 2 . Der er en gruppering af virksomheder efter størrelsen af ​​salgbare produkter:

Bestem: 1) spredningen af ​​værdien af ​​salgbare produkter; 2) standardafvigelse; 3) variationskoefficient.

Løsning

1) Efter betingelse præsenteres en intervalfordelingsrække. Det skal udtrykkes diskret, det vil sige find midten af ​​intervallet (x"). I grupper af lukkede intervaller finder vi midten ved hjælp af et simpelt aritmetisk middel. I grupper med en øvre grænse - som forskellen mellem denne øvre grænse og halvdelen af ​​størrelsen af ​​det næste interval (200-(400 -200):2=100).

I grupper med en nedre grænse - summen af ​​denne nedre grænse og halvdelen af ​​størrelsen af ​​det foregående interval (800+(800-600):2=900).

Vi beregner den gennemsnitlige værdi af salgbare produkter ved hjælp af formlen:

Хср = k×((Σ((x"-a):k)×f):Σf)+a. Her er a=500 størrelsen af ​​muligheden ved den højeste frekvens, k=600-400=200 er størrelsen af ​​intervallet ved den højeste frekvens Lad os sætte resultatet i tabellen:

Så den gennemsnitlige værdi af kommerciel produktion for den undersøgte periode er generelt lig med Хср = (-5:37)×200+500=472,97 tusind rubler.

2) Vi finder variansen ved at bruge følgende formel:

σ 2 = (33/37)*2002-(472,97-500)2 = 35.675,67-730,62 = 34.945,05

3) standardafvigelse: σ = ±√σ 2 = ±√34.945,05 ≈ ±186,94 tusind rubler.

4) variationskoefficient: V = (σ /Хср)*100 = (186,94 / 472,97)*100 = 39,52 %

.

Omvendt, hvis er en ikke-negativ a.e. fungere sådan , så er der et absolut kontinuerligt sandsynlighedsmål på sådan, at det er dens tæthed.

    Udskiftning af mål i Lebesgue-integralet:

,

hvor er enhver Borel-funktion, der er integrerbar med hensyn til sandsynlighedsmålet.

Dispersion, dispersionstyper og egenskaber Begrebet dispersion

Spredning i statistik findes som standardafvigelsen af ​​karakteristikkens individuelle værdier i anden kvadrat fra det aritmetiske middelværdi. Afhængigt af de indledende data bestemmes det ved hjælp af de simple og vægtede variansformler:

1. Simpel varians(for ikke-grupperede data) beregnes ved hjælp af formlen:

2. Vægtet varians (for variationsserier):

hvor n er frekvens (gentagelighed af faktor X)

Et eksempel på at finde varians

Denne side beskriver et standardeksempel på at finde varians, du kan også se på andre problemer for at finde den

Eksempel 1. Bestemmelse af gruppe, gruppegennemsnit, intergruppe og total varians

Eksempel 2. Find variansen og variationskoefficienten i en grupperingstabel

Eksempel 3. Find varians i en diskret serie

Eksempel 4. Følgende data er tilgængelige for en gruppe på 20 korrespondancestuderende. Det er nødvendigt at konstruere en intervalserie af fordelingen af ​​karakteristikken, beregne gennemsnitsværdien af ​​karakteristikken og studere dens spredning

Lad os bygge en intervalgruppering. Lad os bestemme området for intervallet ved hjælp af formlen:

hvor X max er den maksimale værdi af grupperingskarakteristikken; X min – minimumsværdi for grupperingskarakteristikken; n – antal intervaller:

Vi accepterer n=5. Trinet er: h = (192 - 159)/ 5 = 6,6

Lad os oprette en intervalgruppering

For yderligere beregninger vil vi bygge en hjælpetabel:

X"i – midten af ​​intervallet. (f.eks. midten af ​​intervallet 159 – 165,6 = 162,3)

Vi bestemmer den gennemsnitlige højde for elever ved hjælp af den vægtede aritmetiske gennemsnitsformel:

Lad os bestemme variansen ved hjælp af formlen:

Formlen kan omdannes således:

Af denne formel følger det varians er lig med forskellen mellem gennemsnittet af kvadraterne af mulighederne og kvadratet og gennemsnittet.

Spredning i variationsserier med lige store intervaller ved hjælp af metoden for momenter kan beregnes på følgende måde ved hjælp af den anden egenskab for spredning (dividere alle muligheder med værdien af ​​intervallet). Bestemmelse af varians, beregnet ved hjælp af momentmetoden, ved hjælp af følgende formel er mindre besværlig:

hvor i er værdien af ​​intervallet; A er et konventionelt nul, for hvilket det er praktisk at bruge midten af ​​intervallet med den højeste frekvens; m1 er kvadratet af første ordensmoment; m2 - moment af anden orden

Alternativ trækvarians (hvis i en statistisk population en karakteristik ændres på en sådan måde, at der kun er to gensidigt udelukkende muligheder, så kaldes en sådan variabilitet alternativ) kan beregnes ved hjælp af formlen:

Ved at erstatte q = 1-p i denne dispersionsformel får vi:

Typer af varians

Total varians måler variationen af ​​en karakteristik på tværs af hele befolkningen som helhed under indflydelse af alle faktorer, der forårsager denne variation. Det er lig med middelkvadraten af ​​afvigelserne af individuelle værdier af en karakteristisk x fra den samlede middelværdi af x og kan defineres som simpel varians eller vægtet varians.

Inden for gruppen varians kendetegner tilfældig variation, dvs. en del af variationen, der skyldes påvirkning af ikke-redegjorte faktorer og ikke afhænger af den faktor-attribut, der danner grundlag for gruppen. En sådan spredning er lig med middelkvadraten af ​​afvigelserne af individuelle værdier af attributten inden for gruppe X fra gruppens aritmetiske middelværdi og kan beregnes som simpel spredning eller som vægtet spredning.

Således, inden for gruppe variansmålinger variation af en egenskab inden for en gruppe og bestemmes af formlen:

hvor xi er gruppegennemsnittet; ni er antallet af enheder i gruppen.

For eksempel viser intragruppe-varianser, der skal bestemmes i opgaven med at studere indflydelsen af ​​arbejdernes kvalifikationer på niveauet af arbejdsproduktivitet i et værksted, variationer i output i hver gruppe forårsaget af alle mulige faktorer (udstyrets tekniske tilstand, tilgængelighed af værktøjer og materialer, arbejdernes alder, arbejdsintensitet osv. .), bortset fra forskelle i kvalifikationskategori (inden for en gruppe har alle arbejdere de samme kvalifikationer).

Gennemsnittet af varianser inden for gruppe afspejler tilfældig variation, det vil sige den del af variationen, der opstod under indflydelse af alle andre faktorer, med undtagelse af grupperingsfaktoren. Det beregnes ved hjælp af formlen:

Intergroup varians karakteriserer den systematiske variation af den resulterende karakteristik, som skyldes påvirkningen af ​​den faktor-attribut, der danner grundlaget for gruppen. Det er lig med middelkvadraten af ​​afvigelserne af gruppemiddelværdierne fra det samlede gennemsnit. Intergroup varians beregnes ved hjælp af formlen:

Varians er et mål for spredning, der beskriver den komparative afvigelse mellem dataværdier og middelværdien. Det er det mest anvendte mål for spredning i statistik, beregnet ved at summere og kvadrere afvigelsen af ​​hver dataværdi fra middelværdien. Formlen til beregning af varians er givet nedenfor:

s 2 – prøvevarians;

x av — prøvegennemsnit;

n prøvestørrelse (antal dataværdier),

(x i – x avg) er afvigelsen fra gennemsnitsværdien for hver værdi af datasættet.

For bedre at forstå formlen, lad os se på et eksempel. Jeg kan ikke rigtig godt lide at lave mad, så jeg gør det sjældent. Men for ikke at sulte, må jeg fra tid til anden gå til komfuret for at gennemføre planen om at mætte min krop med proteiner, fedtstoffer og kulhydrater. Datasættet nedenfor viser, hvor mange gange Renat laver mad hver måned:

Det første trin i beregning af varians er at bestemme stikprøvegennemsnittet, som i vores eksempel er 7,8 gange om måneden. Resten af ​​beregningerne kan gøres lettere ved at bruge følgende tabel.

Den sidste fase af beregning af varians ser således ud:

For dem, der kan lide at lave alle beregningerne på én gang, vil ligningen se sådan ud:

Brug af råtællemetoden (tilberedningseksempel)

Der er en mere effektiv måde at beregne varians på, kendt som råtællingsmetoden. Selvom ligningen ved første øjekast kan virke ret besværlig, er den faktisk ikke så skræmmende. Du kan sikre dig dette, og derefter beslutte dig for, hvilken metode du bedst kan lide.

er summen af ​​hver dataværdi efter kvadrering,

er kvadratet af summen af ​​alle dataværdier.

Mist ikke forstanden lige nu. Lad os sætte det hele ind i en tabel, og du vil se, at der er færre beregninger involveret end i det foregående eksempel.

Som du kan se, var resultatet det samme som ved brug af den tidligere metode. Fordelene ved denne metode bliver tydelige, når stikprøvestørrelsen (n) øges.

Variansberegning i Excel

Som du sikkert allerede har gættet, har Excel en formel, der giver dig mulighed for at beregne varians. Fra og med Excel 2010 kan du desuden finde 4 typer variansformler:

1) VARIANCE.V – Returnerer variansen af ​​stikprøven. Booleske værdier og tekst ignoreres.

2) DISP.G - Returnerer variansen af ​​populationen. Booleske værdier og tekst ignoreres.

3) VARIANCE - Returnerer variansen af ​​stikprøven under hensyntagen til booleske værdier og tekstværdier.

4) VARIANCE - Returnerer variansen af ​​populationen under hensyntagen til logiske værdier og tekstværdier.

Lad os først forstå forskellen mellem en prøve og en population. Formålet med beskrivende statistik er at opsummere eller vise data, så du hurtigt får det store overblik, et overblik så at sige. Statistisk slutning giver dig mulighed for at drage slutninger om en population baseret på en stikprøve af data fra denne population. Populationen repræsenterer alle mulige udfald eller målinger, der er af interesse for os. En stikprøve er en delmængde af en population.

For eksempel er vi interesserede i en gruppe studerende fra et af de russiske universiteter, og vi skal bestemme gruppens gennemsnitlige score. Vi kan beregne den gennemsnitlige præstation for elever, og så vil det resulterende tal være en parameter, da hele befolkningen vil være involveret i vores beregninger. Men hvis vi ønsker at beregne GPA for alle studerende i vores land, så vil denne gruppe være vores stikprøve.

Forskellen i formlen til beregning af varians mellem en stikprøve og en population er nævneren. Hvor det for stikprøven vil være lig med (n-1), og for den generelle population kun n.

Lad os nu se på funktionerne til beregning af varians med endelser EN, hvis beskrivelse angiver, at tekst og logiske værdier tages i betragtning i beregningen. I dette tilfælde, når man beregner variansen af ​​et bestemt datasæt, hvor ikke-numeriske værdier forekommer, vil Excel fortolke tekst og falske boolske værdier som lig med 0 og sande boolske værdier som lig med 1.

Så hvis du har et dataarray, vil det ikke være svært at beregne dens varians ved at bruge en af ​​Excel-funktionerne, der er anført ovenfor.



Denne artikel er også tilgængelig på følgende sprog: Thai

  • Næste

    TAK for den meget nyttige information i artiklen. Alt er præsenteret meget tydeligt. Det føles som om der er blevet gjort meget arbejde for at analysere driften af ​​eBay-butikken

    • Tak til jer og andre faste læsere af min blog. Uden dig ville jeg ikke være motiveret nok til at dedikere megen tid til at vedligeholde denne side. Min hjerne er struktureret på denne måde: Jeg kan godt lide at grave dybt, systematisere spredte data, prøve ting, som ingen har gjort før eller set fra denne vinkel. Det er en skam, at vores landsmænd ikke har tid til at shoppe på eBay på grund af krisen i Rusland. De køber fra Aliexpress fra Kina, da varer der er meget billigere (ofte på bekostning af kvalitet). Men online-auktioner eBay, Amazon, ETSY vil nemt give kineserne et forspring inden for rækken af ​​mærkevarer, vintageartikler, håndlavede varer og forskellige etniske varer.

      • Næste

        Det, der er værdifuldt i dine artikler, er din personlige holdning og analyse af emnet. Giv ikke op denne blog, jeg kommer her ofte. Sådan burde vi være mange. Email mig Jeg modtog for nylig en e-mail med et tilbud om at lære mig at handle på Amazon og eBay.

  • Det er også rart, at eBays forsøg på at russificere grænsefladen for brugere fra Rusland og SNG-landene er begyndt at bære frugt. Trods alt har det overvældende flertal af borgere i landene i det tidligere USSR ikke et stærkt kendskab til fremmedsprog. Ikke mere end 5% af befolkningen taler engelsk. Der er flere blandt unge. Derfor er grænsefladen i det mindste på russisk - dette er en stor hjælp til online shopping på denne handelsplatform. Ebay fulgte ikke sin kinesiske pendant Aliexpress, hvor der udføres en maskinel (meget klodset og uforståelig, nogle gange lattervækkende) oversættelse af produktbeskrivelser. Jeg håber, at maskinoversættelse af høj kvalitet fra ethvert sprog til et hvilket som helst i løbet af få sekunder vil blive en realitet på et mere avanceret stadium af udviklingen af ​​kunstig intelligens. Indtil videre har vi dette (profilen af ​​en af ​​sælgerne på eBay med en russisk grænseflade, men en engelsk beskrivelse):
    https://uploads.disquscdn.com/images/7a52c9a89108b922159a4fad35de0ab0bee0c8804b9731f56d8a1dc659655d60.png