Równoważnym podejściem do interpretacji wyników testów byłoby założenie, że hipoteza zerowa jest prawdziwa, możemy obliczyć, jak duża prawdopodobieństwo Dostawać T- kryterium równe lub większe od wartości rzeczywistej, którą obliczyliśmy na podstawie dostępnych danych próbnych. Jeśli prawdopodobieństwo to okaże się mniejsze niż wcześniej przyjęty poziom istotności (na przykład P< 0.05), мы вправе отклонить проверяемую нулевую гипотезу. Именно такой подход сегодня используется чаще всего: исследователи приводят в своих работах P-значение, которое легко рассчитывается при помощи статистических программ. Рассмотрим, как это можно сделать в системе R.

Załóżmy, że mamy dane dotyczące dziennego spożycia energii z pożywienia (kJ/dzień) dla 11 kobiet (przykład zaczerpnięty z książki Altman D. G. (1981) Praktyczna statystyka badań medycznych, Chapman & Hall, Londyn):


Średnia z tych 11 obserwacji wynosi:


Pytanie: Czy ta średnia z próbki różni się od ustalonej normy wynoszącej 7725 kJ/dzień? Różnica między wartością naszej próbki a tym standardem jest dość znacząca: 7725 - 6753,6 = 971,4. Ale jak duża jest ta różnica statystycznie? Pojedyncza próbka pomoże odpowiedzieć na to pytanie. T-test. Podobnie jak inne opcje T-test, w R przeprowadzany jest test t dla jednej próby przy użyciu funkcji t.test():


Pytanie: Czy te średnie różnią się statystycznie? Sprawdźmy hipotezę, że nie ma różnicy używając T-test:

Jak jednak w takich przypadkach możemy statystycznie ocenić obecność efektu interwencji? Ogólnie rzecz biorąc, test Studenta można przedstawić jako

​ Test t-Studenta to ogólna nazwa klasy metod statystycznego testowania hipotez (testów statystycznych) opartych na rozkładzie Studenta. Najbardziej powszechnym zastosowaniem testu t jest sprawdzenie równości średnich w dwóch próbach.

1. Historia rozwoju testu t

To kryterium zostało opracowane Williama Gossetta do oceny jakości piwa w firmie Guinness. Ze względu na zobowiązania wobec firmy dotyczące nieujawniania tajemnic handlowych, artykuł Gosseta został opublikowany w 1908 roku w czasopiśmie Biometrics pod pseudonimem „Student”.

2. Do czego służy test t-Studenta?

Do określenia istotności statystycznej różnic w średnich stosuje się test t-Studenta. Może być stosowany zarówno w przypadku porównywania próbek niezależnych ( na przykład grupy diabetyków i grupy zdrowych) oraz porównując powiązane populacje ( na przykład średnie tętno u tych samych pacjentów przed i po przyjęciu leku antyarytmicznego).

3. W jakich przypadkach można zastosować test t-Studenta?

Aby zastosować test t-Studenta, konieczne jest posiadanie oryginalnych danych rozkład normalny. W przypadku zastosowania kryterium dwóch prób dla próbek niezależnych konieczne jest również spełnienie tego warunku równość (homoscedastyczność) wariancji.

Jeżeli te warunki nie są spełnione, należy zastosować podobne metody przy porównywaniu średnich z próby. statystyki nieparametryczne, wśród których najbardziej znane to Test U Manna-Whitneya(jako test dwóch próbek dla niezależnych próbek) oraz kryterium znaku I Test Wilcoxona(stosowane w przypadku próbek zależnych).

4. Jak obliczyć test t-Studenta?

Aby porównać wartości średnie, oblicza się test t-Studenta, korzystając z następującego wzoru:

Gdzie M 1- średnia arytmetyczna pierwszej porównywanej populacji (grupy), M 2- średnia arytmetyczna drugiej porównywanej populacji (grupy), m 1- błąd średni pierwszej średniej arytmetycznej, m 2- błąd średni drugiej średniej arytmetycznej.

5. Jak interpretować wartość testu t-Studenta?

Otrzymaną wartość testu t-Studenta należy poprawnie zinterpretować. Aby to zrobić, musimy znać liczbę osób w każdej grupie (n 1 i n 2). Wyznaczanie liczby stopni swobody F według następującego wzoru:

fa = (n 1 + n 2) - 2

Następnie wyznaczamy wartość krytyczną testu t-Studenta dla wymaganego poziomu istotności (np. p = 0,05) i dla danej liczby stopni swobody F zgodnie z tabelą ( patrz poniżej).

Porównujemy wartości krytyczne i obliczone kryterium:

  • Jeżeli obliczona wartość testu t-Studenta równe lub większe krytyczne, stwierdzone z tabeli, stwierdzamy, że różnice pomiędzy porównywanymi wartościami są istotne statystycznie.
  • Jeżeli wartość obliczonego testu t-Studenta mniej tabelaryczne, co oznacza, że ​​różnice pomiędzy porównywanymi wartościami nie są istotne statystycznie.

6. Przykład obliczenia testu t-Studenta

Do badania skuteczności nowego preparatu żelaza wybrano dwie grupy pacjentów z niedokrwistością. W pierwszej grupie pacjenci otrzymywali nowy lek przez dwa tygodnie, a w drugiej grupie otrzymywali placebo. Następnie mierzono poziom hemoglobiny we krwi obwodowej. W pierwszej grupie średnie stężenie hemoglobiny wynosiło 115,4±1,2 g/l, a w drugiej 103,7±2,3 g/l (dane zaprezentowano w formacie M±m), porównywane populacje mają rozkład normalny. Liczba pierwszej grupy wynosiła 34, a drugiej – 40 pacjentów. Należy wyciągnąć wniosek na temat istotności statystycznej uzyskanych różnic i skuteczności nowego preparatu żelaza.

Rozwiązanie: Aby ocenić istotność różnic, stosujemy test t-Studenta, obliczony jako różnica wartości średnich podzielona przez sumę kwadratów błędów:

Po wykonaniu obliczeń wartość testu t wyniosła 4,51. Liczbę stopni swobody wyznaczamy jako (34 + 40) - 2 = 72. Porównujemy otrzymaną wartość testu t-Studenta wynoszącą 4,51 z wartością krytyczną przy p = 0,05 wskazaną w tabeli: 1,993. Ponieważ obliczona wartość kryterium jest większa od wartości krytycznej, stwierdzamy, że zaobserwowane różnice są istotne statystycznie (poziom istotności p<0,05).

Metoda pozwala na przetestowanie hipotezy, że wyodrębniane są wartości średnie z dwóch populacji ogólnych, z których porównywane są zależny wybory różnią się od siebie. Założenie zależności najczęściej oznacza, że ​​cecha jest mierzona dwukrotnie na tej samej próbie, np. przed i po interwencji. W ogólnym przypadku każdemu przedstawicielowi jednej próby przydziela się przedstawiciela innej próby (łączy się ich w pary), tak aby obydwa szeregi danych były ze sobą dodatnio skorelowane. Słabsze typy zależności próby: próbka 1 – mężowie, próbka 2 – ich żony; próbka 1 – dzieci jednoroczne, próbkę 2 stanowią bliźniaki dzieci z próby 1 itd.

Testowalna hipoteza statystyczna, jak w poprzednim przypadku, H 0: M 1 = M 2(średnie wartości w próbkach 1 i 2 są równe). Jeśli zostanie odrzucona, przyjmuje się alternatywną hipotezę M 1 więcej (mniej) M 2.

Wstępne założenia do testów statystycznych:

Każdy przedstawiciel jednej próby (z jednej populacji ogólnej) jest powiązany z przedstawicielem innej próby (z innej populacji ogólnej);

Dane z dwóch próbek są dodatnio skorelowane (tworzą pary);

Rozkład badanej cechy w obu próbach jest zgodny z prawem normalnym.

Struktura danych źródłowych: dla każdego obiektu (dla każdej pary) przypadają dwie wartości badanej cechy.

Ograniczenia: rozkład cechy w obu próbach nie powinien znacząco różnić się od normalnego; dane dwóch pomiarów odpowiadające jednej i drugiej próbce są dodatnio skorelowane.

Alternatywy: Test Wilcoxona T, jeśli rozkład dla przynajmniej jednej próbki różni się istotnie od normalnego; Test t-Studenta dla prób niezależnych – jeżeli dane dla dwóch próbek nie korelują dodatnio.

Formuła gdyż wartość empiryczna testu t-Studenta odzwierciedla fakt, że jednostką analizy różnic jest różnica (przesunięcie) wartości atrybutów dla każdej pary obserwacji. Odpowiednio, dla każdej z N par wartości atrybutów najpierw obliczana jest różnica re ja = x 1 ja - x 2 ja.

gdzie M d jest średnią różnicą wartości; σ d - odchylenie standardowe różnic.

Przykład obliczeń:

Załóżmy, że podczas badania efektywności szkolenia każdemu z 8 członków grupy zadano pytanie „Jak często Twoja opinia pokrywa się z opinią grupy?” - dwukrotnie, przed i po treningu. Do odpowiedzi zastosowano 10-punktową skalę: 1 – nigdy, 5 – w połowie przypadków, 10 – zawsze. Testowano hipotezę, że w wyniku szkolenia wzrośnie samoocena konformizmu (chęć bycia jak inni w grupie) uczestników (α = 0,05). Stwórzmy tabelę do obliczeń pośrednich (Tabela 3).


Tabela 3

Średnia arytmetyczna różnicy M d = (-6)/8 = -0,75. Odejmij tę wartość od każdego d (przedostatnia kolumna tabeli).

Wzór na odchylenie standardowe różni się tylko tym, że zamiast X pojawia się w nim d. Podstawiamy wszystkie niezbędne wartości, otrzymujemy:

σd = = 0,886.

Krok 1. Oblicz wartość empiryczną kryterium korzystając ze wzoru (3): różnica średnia lekarz= -0,75; odchylenie standardowe σ re = 0,886; t mi = 2,39; zm = 7.

Krok 2. Korzystając z tabeli wartości krytycznych kryterium t-Studenta, określamy poziom istotności p. Dla df = 7 wartość empiryczna mieści się pomiędzy wartościami krytycznymi dla R= 0,05 i P - 0,01. Stąd, R< 0,05.

zm R
0,05 0,01 0,001
2,365 3,499 5,408

Krok 3. Podejmujemy decyzję statystyczną i formułujemy wniosek. Hipoteza statystyczna o równości wartości średnich zostaje odrzucona. Wniosek: wskaźnik samooceny zgodności uczestników po szkoleniu wzrósł istotnie statystycznie (na poziomie istotności p< 0,05).

Metody parametryczne obejmują porównanie wariancji dwóch próbek według kryterium F-Fisher. Czasami metoda ta prowadzi do wartościowych, znaczących wniosków, a w przypadku porównywania średnich dla prób niezależnych, porównywanie wariancji obowiązkowy procedura.

Aby obliczyć F.em musisz znaleźć stosunek wariancji dwóch próbek, tak aby większa wariancja znajdowała się w liczniku, a mniejsza w mianowniku.

Porównanie wariancji. Metoda pozwala na sprawdzenie hipotezy, że wariancje dwóch populacji ogólnych, z których losowane są porównywane próby, różnią się od siebie. Testowana hipoteza statystyczna H 0: σ 1 2 = σ 2 2 (wariancja w próbie 1 jest równa wariancji w próbie 2). Jeśli zostanie odrzucona, przyjmuje się alternatywną hipotezę, że jedna wariancja jest większa od drugiej.

Wstępne założenia: dwie próbki są losowane z różnych populacji o rozkładzie normalnym badanej cechy.

Struktura danych źródłowych: badaną cechę mierzy się w obiektach (podmiotach), z których każdy należy do jednej z dwóch porównywanych próbek.

Ograniczenia: rozkłady cechy w obu próbach nie odbiegają znacząco od normy.

Alternatywna metoda: Test Levene’a, którego zastosowanie nie wymaga sprawdzania założenia normalności (stosowanego w programie SPSS).

Formuła dla wartości empirycznej testu F Fishera:

(4)

gdzie σ 1 2 duża dyspersja, a σ 2 2 - mniejsza dyspersja. Ponieważ nie wiadomo z góry, która dyspersja jest większa, stosuje się ją do określenia poziomu p Tabela wartości krytycznych dla alternatyw bezkierunkowych. Jeśli Fe > F Kp wówczas dla odpowiedniej liczby stopni swobody R< 0,05 и статистическую гипотезу о равенстве дисперсий можно отклонить (для α = 0,05).

Przykład obliczeń:

Dzieciom zadano regularne zadania z matematyki, po czym losowo wybranej połowie uczniów powiedziano, że nie zaliczyła testu, a pozostałym powiedziano coś przeciwnego. Następnie każde dziecko zostało zapytane, ile sekund zajmie im rozwiązanie podobnego problemu. Eksperymentator obliczył różnicę pomiędzy czasem, w którym dziecko zadzwoniło, a wynikiem wykonania zadania (w sekundach). Oczekiwano, że wiadomość o porażce spowoduje pewne niedobory w poczuciu własnej wartości dziecka. Testowana hipoteza (na poziomie α = 0,005) głosiła, że ​​wariancja zagregowanej samooceny nie zależy od doniesień o sukcesie lub porażce (H 0: σ 1 2 = σ 2 2).

Uzyskano następujące dane:

Krok 1. Oblicz wartość empiryczną kryterium i liczbę stopni swobody korzystając ze wzorów (4):

Krok 2. Zgodnie z tabelą wartości krytycznych kryterium f Fishera dla bezkierunkowe alternatyw, dla których znajdujemy wartość krytyczną numer df= 11; wiem= 11. Jednakże istnieje wartość krytyczna tylko dla numer df= 10 i df wiem = 12. Nie można przyjąć większej liczby stopni swobody, dlatego przyjmujemy wartość krytyczną numer df= 10: Dla R= 0,05 F Kp = 3,526; Dla R= 0,01 F Kp = 5,418.

Krok 3. Podjęcie statystycznej decyzji i sensowne wnioski. Ponieważ wartość empiryczna przekracza wartość krytyczną dla R= 0,01 (a tym bardziej dla p = 0,05), to w tym przypadku p< 0,01 и принимается альтернативная гипо-теза: дисперсия в группе 1 превышает дисперсию в группе 2 (P< 0,01). W konsekwencji po komunikacie o porażce niedostateczna samoocena jest większa niż po komunikacie o sukcesie.

Test t-Studentadla próbek niezależnych

Test t-Studenta ( T-Test studencki lub po prostu " T-test”) jest używany, jeśli chcesz porównać tylko dwie grupy cechy ilościowe o rozkładzie normalnym (szczególny przypadek analizy wariancji). Uwaga: tego kryterium nie można stosować przy porównywaniu kilku grup parami; w tym przypadku należy zastosować analizę wariancji. Błędne użycie testu t-Studenta zwiększa prawdopodobieństwo „ujawnienia” różnic, które nie istnieją. Przykładowo, zamiast uznać kilka terapii za równie skuteczne (lub nieskuteczne), jeden z nich zostaje uznany za lepszy.

Dwa zdarzenia nazywamy niezależnymi, jeśli wystąpienie jednego z nich nie wpływa w żaden sposób na wystąpienie drugiego. Podobnie dwa zbiory można nazwać niezależnymi, jeśli właściwości jednego z nich nie są w żaden sposób powiązane z właściwościami drugiego.

Przykład wykonania T-test w programie STATISTICA.

Kobiety są przeciętnie niższe od mężczyzn, nie jest to jednak wynik wpływu mężczyzn na kobiety – jest to kwestia cech genetycznych płci. Używając T- Celem badania jest sprawdzenie, czy istnieje statystycznie istotna różnica pomiędzy średnimi wartościami wzrostu w grupie kobiet i mężczyzn. (W celach edukacyjnych zakładamy, że dane dotyczące wzrostu mają rozkład normalny i dlatego T- test ma zastosowanie).

Rysunek 1. Przykład formatowania danych do wykonania T-

Zwróć uwagę na sposób formatowania danych na rysunku 1. Podobnie jak przy konstruowaniu wykresów npFabuła wąsów Lub Fabuła wąsów pudełkowych, w tabeli znajdują się dwie zmienne: jedna z nich to grupowanie (Zmienna grupująca) („Płeć”) – zawiera kody (mąż i żona), które pozwalają programowi określić, które dane dotyczące wzrostu należą do której grupy; drugi – tzw zmienna zależna (Zmienna zależna) („Wzrost”) – zawiera aktualnie analizowane dane. Jednak podczas wykonywaniaT-przeprowadzić badanie dla prób niezależnych w programie STATISTICA, możliwa jest inna opcja projektowania - dane dla każdej z grup („Mężczyźni” i „Kobiety”) można wprowadzić w oddzielnych kolumnach (rysunek 2).

Rysunek 2. Kolejna opcja formatowania danych do wykonania T- niezależne badanie próbek

Wykonać T-Aby przeprowadzić test niezależnych próbek, należy wykonać następujące czynności:

1-a. Uruchom moduł T- ciasto z menu Statystyka > Podstawowe statystyki/tabele > T-test, niezależne, grupowe(jeśli w tabeli danych znajduje się zmienna grupująca, patrz rysunek 3)​

LUB

1-b. Uruchom moduł T- ciasto z menu Statystyka > Podstawowe statystyki/tabele > T-test, niezależny, według zmiennych(jeżeli dane wprowadzono w niezależnych kolumnach, patrz rysunek 4).

Poniżej wersja testu, w której w tabeli danych znajduje się zmienna grupująca.

2. W oknie, które zostanie otwarte, kliknij przycisk Zmienne i powiedz programowi, która ze zmiennych tabeli Arkusz kalkulacyjny jest grupowanie i które jest zależne (Rysunki 5-6).

Rysunek 5. Wybór zmiennych do uwzględnienia T-test

Rysunek 6. Okno z wnęką wybrane zmienne do prowadzenia T-test

3. Naciśnij przyciskPodsumowanie: testy T.

Rysunek 7. Wyniki T-test dla próbek niezależnych

W rezultacie program utworzy skoroszytPodręcznik z ćwiczeniami, zawierający tabelę z wynikamiT-test (Rysunek 7 ). Ta tabela ma kilka kolumn:

  • Mieć na myśli(mężczyzna) - średni wzrost w grupie „Mężczyźni”;
  • Mieć na myśli(kobieta) - średni wzrost w grupie „Kobiety”;
  • T- wartość: wartość obliczona przez program T-Test studenta;
  • zm- liczba stopni swobody;
  • P- prawdopodobieństwo słuszności hipotezy, że porównywane wartości średnie nie różnią się. Tak naprawdę jest to najważniejszy wynik analizy, gdyż jest to wartość P mówi, czy testowana hipoteza jest prawdziwa. W naszym przykładzie P > 0,05, z czego możemy wyciągnąć wniosek, że nie ma istotnych statystycznie różnic pomiędzy wzrostem mężczyzn i kobiet.
  • Ważne N(mężczyzna) - wielkość próby „Mężczyźni”;
  • Ważne N(kobieta) - wielkość próby „Kobiety”;
  • standardowe rozw. (mężczyzna) - odchylenie standardowe próby „Mężczyźni”;
  • standardowe rozw. (kobieta) – odchylenie standardowe próby „Kobiety”;
  • Współczynnik F, wariancje- wartość testu F Fishera, za pomocą którego sprawdzana jest hipoteza o równości wariancji w porównywanych próbach;
  • P. Warianty- prawdopodobieństwo słuszności hipotezy, że wariancje porównywanych próbek nie różnią się.

Testowanie hipotez statystycznych pozwala nam wyciągać mocne wnioski na temat cech populacji na podstawie przykładowych danych. Istnieją różne hipotezy. Jedną z nich jest hipoteza o średniej (oczekiwanie matematyczne). Jego istotą jest wyciągnięcie prawidłowego wniosku, na podstawie jedynie dostępnej próby, co do tego, gdzie może znajdować się średnia ogólna, a gdzie nie (nigdy nie poznamy dokładnej prawdy, ale możemy zawęzić poszukiwania).

Opisano ogólne podejście do testowania hipotez, więc przejdźmy od razu do rzeczy. Załóżmy najpierw, że próba jest pobierana z normalnej populacji zmiennych losowych X z ogólną średnią μ i wariancja σ 2(Wiem, wiem, że tak się nie dzieje, ale nie przeszkadzaj mi!). Średnia arytmetyczna tej próbki sama w sobie jest oczywiście zmienną losową. Jeśli wyodrębnisz wiele takich próbek i obliczysz ich średnie, wówczas będą one również miały matematyczne oczekiwanie μ I

Następnie zmienna losowa

Powstaje pytanie: czy ogólna średnia z 95% prawdopodobieństwem będzie mieścić się w granicach ±1,96? s x̅. Innymi słowy, są rozkładami zmiennych losowych

równowartość.

To pytanie po raz pierwszy postawił (i rozwiązał) chemik pracujący w fabryce piwa Guinness w Dublinie (Irlandia). Aptekarz nazywał się William Seely Gossett i pobierał próbki piwa do analizy chemicznej. Najwyraźniej w pewnym momencie Williama zaczęły dręczyć niejasne wątpliwości co do rozkładu średnich. Okazało się, że jest trochę bardziej rozmazany niż powinien być rozkład normalny.

Po zebraniu podstaw matematycznych i obliczeniu wartości odkrytej przez siebie funkcji rozkładu, dubliński chemik William Gosset napisał notatkę, która została opublikowana w marcowym wydaniu magazynu Biometrics z 1908 roku (redaktor naczelny - Karl Pearson). Ponieważ Guinness surowo zabraniał zdradzania tajemnic piwowarskich; Gossett podpisał się pseudonimem Student.

Pomimo tego, że K. Pearson wynalazł już rozkład, nadal dominowała ogólna idea normalności. Nikt nie pomyślałby, że rozkład wyników próbek może nie być normalny. Dlatego artykuł W. Gosseta pozostał praktycznie niezauważony i zapomniany. I tylko Ronald Fisher docenił odkrycie Gosseta. Fischer wykorzystał w swojej pracy nową dystrybucję i nadał jej nazwę Rozkład t-Studenta. W związku z tym stało się kryterium testowania hipotez Test t-Studenta. Tak właśnie nastąpiła „rewolucja” w statystyce, która wkroczyła w erę analizy danych próbnych. To była krótka wycieczka do historii.

Zobaczmy, co widział W. Gosset. Wygenerujmy 20 tysięcy normalnych próbek z 6 obserwacji ze średnią ( X) 50 i odchylenie standardowe ( σ ) 10. Następnie normalizujemy średnie z próby za pomocą ogólna rozbieżność:

Otrzymane 20 tysięcy średnich pogrupujemy w przedziały o długości 0,1 i obliczymy częstości. Przedstawmy na wykresie rzeczywisty (Norm) i teoretyczny (ENorm) rozkład częstotliwości średnich z próbki.

Punkty (obserwowane częstotliwości) praktycznie pokrywają się z linią (częstotliwości teoretyczne). Jest to zrozumiałe, ponieważ dane pochodzą z tej samej populacji ogólnej, a różnice polegają jedynie na błędach próbkowania.

Przeprowadźmy nowy eksperyment. Normalizujemy średnie za pomocą wariancja próbki.

Policzmy ponownie częstotliwości i nanieśmy je na wykres w postaci punktów, pozostawiając linię standardowego rozkładu normalnego do porównania. Oznaczmy empiryczną częstotliwość średnich, powiedzmy, literą T.

Widać, że tym razem rozkłady nie bardzo się pokrywają. Blisko, tak, ale nie to samo. Ogony stały się bardziej „ciężkie”.

Gosset-Student nie miał najnowszej wersji MS Excel, ale właśnie taki efekt zauważył. Dlaczego tak się dzieje? Wyjaśnienie jest takie, że zmienna losowa

zależy nie tylko od błędu próbkowania (licznik), ale także od błędu standardowego średniej (mianownik), która jest również zmienną losową.

Przyjrzyjmy się trochę, jaki rozkład powinna mieć taka zmienna losowa. Najpierw będziesz musiał zapamiętać (lub nauczyć się) czegoś ze statystyki matematycznej. Istnieje twierdzenie Fishera, które stwierdza, że ​​w próbce z rozkładu normalnego:

1. średni X i wariancja próbki s 2 są wielkościami niezależnymi;

2. iloraz wariancji próby i populacji pomnożony przez liczbę stopni swobody ma rozkład χ 2(chi-kwadrat) o tej samej liczbie stopni swobody, tj.

Gdzie k– liczba stopni swobody (w języku angielskim stopnie swobody (d.f.))

Wiele innych wyników w statystykach modeli normalnych opiera się na tym prawie.

Wróćmy do rozkładu średniej. Podziel licznik i mianownik wyrażenia

NA σ X̅. Dostajemy

Licznik jest standardową normalną zmienną losową (oznaczamy ξ (xi)). Wyraźmy mianownik z twierdzenia Fishera.

Wtedy oryginalne wyrażenie przyjmie formę

Tak to wygląda w ogólnej formie (relacja Studenta). Możesz bezpośrednio wyprowadzić jego funkcję rozkładu, ponieważ znane są rozkłady obu zmiennych losowych w tym wyrażeniu. Zostawmy tę przyjemność matematykom.

Funkcja rozkładu t-Studenta ma dość trudny do zrozumienia wzór, dlatego nie ma sensu jej analizować. I tak nikt tego nie używa, bo... prawdopodobieństwa podawane są w specjalnych tablicach rozkładów Studenta (czasami nazywanych tablicami współczynników Studenta) lub zawarte są we wzorach PC.

Tak więc, uzbrojeni w tę nową wiedzę, możesz zrozumieć oficjalną definicję dystrybucji Studenta.
Zmienna losowa podlegająca rozkładowi Studenta k stopnie swobody to stosunek niezależnych zmiennych losowych

Gdzie ξ dystrybuowane zgodnie ze standardowym prawem normalnym, oraz χ 2 tys przestrzega dystrybucji χ 2 C k stopnie swobody.

Zatem wzór testu t-Studenta na średnią arytmetyczną

Szczególny przypadek dotyczy relacji studenckiej

Ze wzoru i definicji wynika, że ​​rozkład testu t-Studenta zależy jedynie od liczby stopni swobody.

Na k Test t > 30 praktycznie nie różni się od standardowego rozkładu normalnego.

W przeciwieństwie do chi-kwadrat, test t może być jednostronny lub dwustronny. Zwykle stosują dwustronność, zakładając, że odchylenie może wystąpić w obu kierunkach od średniej. Jeśli jednak stan problemu pozwala na odchylenie tylko w jednym kierunku, wówczas rozsądne jest zastosowanie kryterium jednostronnego. Zwiększa to nieznacznie moc, ponieważ... przy ustalonym poziomie istotności wartość krytyczna nieznacznie zbliża się do zera.

Warunki stosowania testu t-Studenta

Pomimo tego, że odkrycie Studenta zrewolucjonizowało kiedyś statystykę, test t ma nadal dość ograniczone możliwości aplikacyjne, ponieważ samo w sobie wynika z założenia o rozkładzie normalnym oryginalnych danych. Jeśli dane nie są normalne (co zwykle ma miejsce), wówczas test t nie będzie już miał rozkładu Studenta. Jednakże, dzięki działaniu centralnego twierdzenia granicznego, średnia nawet dla danych odbiegających od normy szybko nabiera rozkładu w kształcie dzwonu.

Rozważmy na przykład dane wyraźnie przesunięte w prawo, takie jak rozkład chi-kwadrat z 5 stopniami swobody.

Stwórzmy teraz 20 tysięcy próbek i obserwujmy, jak zmienia się rozkład średnich w zależności od ich objętości.

Różnica jest dość zauważalna w małych próbach liczących do 15-20 obserwacji. Ale potem szybko znika. Zatem nienormalność rozkładu nie jest oczywiście dobra, ale nie krytyczna.

Przede wszystkim test t „boi się” wartości odstających, tj. nietypowe odchylenia. Weźmy 20 tysięcy normalnych próbek po 15 obserwacji i do niektórych z nich dodajmy jedną losową wartość odstającą.

Obraz okazuje się ponury. Rzeczywiste częstości średnich znacznie różnią się od teoretycznych. Stosowanie rozkładu t w takiej sytuacji staje się przedsięwzięciem bardzo ryzykownym.

Zatem w niezbyt małych próbach (z 15 obserwacji) test t jest stosunkowo odporny na nienormalny rozkład oryginalnych danych. Jednak wartości odstające w danych znacznie zniekształcają rozkład testu t, co z kolei może prowadzić do błędów we wnioskowaniu statystycznym, dlatego należy eliminować obserwacje anomalne. Często z próbki usuwane są wszystkie wartości mieszczące się w granicach ±2 odchyleń standardowych od średniej.

Przykład testowania hipotezy o oczekiwaniach matematycznych za pomocą testu t-Studenta w programie MS Excel

Excel ma kilka funkcji związanych z rozkładem t. Przyjrzyjmy się im.

STUDENT.DIST – „klasyczny” lewostronny rozkład t-Studenta. Dane wejściowe to wartość kryterium t, liczba stopni swobody oraz opcja (0 lub 1), która określa, co należy obliczyć: gęstość lub wartość funkcji. Na wyjściu otrzymujemy odpowiednio gęstość lub prawdopodobieństwo, że zmienna losowa będzie mniejsza od kryterium t podanego w argumencie.

ROZKŁ.STUDENT.2X – rozkład dwukierunkowy. Argumentem jest wartość bezwzględna (modulo) testu t i liczba stopni swobody. W rezultacie otrzymujemy prawdopodobieństwo uzyskania takiej samej lub nawet większej wartości kryterium t, tj. rzeczywisty poziom istotności (poziom p).

STUDENT.DIST.PH – rozkład t prawostronny. Zatem 1-ROZKŁ.STUDENTA(2;5;1) = ROZKŁ.STUDENTA.PH(2;5) = 0,05097. Jeśli test t jest dodatni, wówczas otrzymane prawdopodobieństwo jest poziomem p.

STUDENT.INR – służy do obliczenia lewostronnej odwrotności rozkładu t. Argumentem jest prawdopodobieństwo i liczba stopni swobody. Na wyjściu otrzymujemy wartość kryterium t odpowiadającą temu prawdopodobieństwu. Obliczenie prawdopodobieństwa znajduje się po lewej stronie. Dlatego lewy ogon wymaga samego poziomu istotności α , a dla prawego 1 - α .

STUDENT.OBR.2X – wartość odwrotna dla dwustronnego rozkładu Studenta, tj. Wartość testu t (modulo). Poziom istotności jest również podawany na wejście α . Tylko tym razem liczenie odbywa się z obu stron jednocześnie, więc prawdopodobieństwo rozkłada się na dwie części. Zatem STUDENT.ARV(1-0,025;5) = STUDENT.ARV.2X(0,05;5) = 2,57058

STUDENT.TEST to funkcja służąca do testowania hipotezy o równości oczekiwań matematycznych w dwóch próbach. Zastępuje szereg obliczeń, ponieważ Wystarczy podać tylko dwa zakresy z danymi i jeszcze kilka parametrów. Dane wyjściowe mają poziom p.

UFNOŚĆ.STUDENT – obliczenie przedziału ufności średniej z uwzględnieniem rozkładu t.

Rozważmy ten przykład szkolenia. W przedsiębiorstwie cement pakowany jest w worki 50 kg. Ze względu na losowość dopuszczalne jest pewne odchylenie od oczekiwanej masy w pojedynczej torbie, ale ogólna średnia powinna pozostać 50 kg. Dział kontroli jakości losowo zważył 9 worków i uzyskał następujące wyniki: średnia waga ( X) wyniosła 50,3 kg, odchylenie standardowe ( S) – 0,5 kg.

Czy wynik ten jest zgodny z hipotezą zerową, że średnia ogólna wynosi 50 kg? Innymi słowy, czy można uzyskać taki wynik przez czysty przypadek, jeśli sprzęt działa prawidłowo i wytwarza średnio 50 kg wypełnienia? Jeśli hipoteza nie zostanie odrzucona, wówczas powstała różnica mieści się w zakresie wahań losowych, ale jeśli hipoteza zostanie odrzucona, najprawdopodobniej wystąpiła awaria w ustawieniach maszyny napełniającej worki. Trzeba to sprawdzić i skonfigurować.

Krótki warunek w ogólnie przyjętej notacji wygląda następująco.

H0: μ = 50 kg

H1: μ ≠ 50 kg

Istnieją powody, aby założyć, że rozkład wypełnień worków jest zgodny z rozkładem normalnym (lub niewiele się od niego różni). Oznacza to, że do sprawdzenia hipotezy dotyczącej oczekiwań matematycznych można zastosować test t-Studenta. Losowe odchylenia mogą wystąpić w dowolnym kierunku, co oznacza, że ​​potrzebny jest dwustronny test t.

Najpierw zastosujemy środki przedpotopowe: ręcznie obliczymy kryterium t i porównamy je z wartością z tabeli krytycznej. Obliczony test t:

Ustalmy teraz, czy otrzymana liczba przekracza poziom krytyczny na poziomie istotności α = 0,05. Skorzystajmy z tablicy rozkładu t-Studenta (dostępnej w każdym podręczniku statystyki).

Kolumny pokazują prawdopodobieństwo prawej strony rozkładu, a wiersze liczbę stopni swobody. Nas interesuje dwustronny test t o poziomie istotności 0,05, co jest równoważne wartości t dla połowy poziomu istotności po prawej stronie: 1 – 0,05/2 = 0,975. Liczba stopni swobody to wielkość próbki minus 1, tj. 9 - 1 = 8. Na przecięciu znajdujemy tabelaryczną wartość testu t - 2,306. Gdybyśmy zastosowali standardowy rozkład normalny, punkt krytyczny wyniósłby 1,96, ale tutaj jest większy, ponieważ Rozkład t w małych próbkach ma bardziej spłaszczony wygląd.

Porównajmy wartość rzeczywistą (1,8) i tabelaryczną (2,306). Kryterium obliczone okazało się mniejsze od tabelarycznego. W związku z tym dostępne dane nie przeczą hipotezie H 0, że ogólna średnia wynosi 50 kg (ale też tego nie potwierdzają). Tylko tego możemy się nauczyć korzystając z tabel. Można oczywiście spróbować znaleźć poziom p, ale będzie to przybliżone. Z reguły to poziom p służy do testowania hipotez. Dlatego następnie przechodzimy do Excela.

W programie Excel nie ma gotowej funkcji do obliczenia testu t. Ale to nie jest przerażające, ponieważ formuła testu t-Studenta jest dość prosta i można ją łatwo zbudować bezpośrednio w komórce Excela.

Mamy to samo 1,8. Najpierw znajdźmy wartość krytyczną. Przyjmujemy alfa 0,05, kryterium jest dwustronne. Potrzebujemy odwrotnej funkcji rozkładu t dla dwustronnej hipotezy STUDENT.OBR.2X.

Wynikowa wartość odcina obszar krytyczny. Obserwowany test t nie mieści się w nim, zatem hipoteza nie zostaje odrzucona.

Jest to jednak ten sam sposób testowania hipotezy przy użyciu wartości z tabeli. Bardziej pouczające byłoby obliczenie poziomu p, tj. prawdopodobieństwo uzyskania obserwowanego lub nawet większego odchylenia od średniej 50 kg, jeśli ta hipoteza jest słuszna. Będziesz potrzebować funkcji rozkładu Studenta dla dwustronnej hipotezy STUDENT.DIST.2X.

Poziom P wynosi 0,1096 i jest większy od akceptowalnego poziomu istotności 0,05 – hipotezy nie odrzucamy. Ale teraz możemy ocenić stopień dowodów. Poziom P okazał się dość zbliżony do poziomu, w którym hipoteza zostaje odrzucona, co prowadzi do odmiennych przemyśleń. Na przykład, że próbka była zbyt mała, aby wykryć znaczące odchylenie.

Po pewnym czasie dział kontroli ponownie postanowił sprawdzić, jak utrzymywany jest standard wypełnienia worków. Tym razem dla większej niezawodności wybrano nie 9, a 25 worków. Intuicyjnie widać, że rozrzut średniej zmniejszy się, a co za tym idzie, wzrosną szanse na znalezienie awarii w systemie.

Załóżmy, że uzyskano te same wartości średniej i odchylenia standardowego dla próbki, co za pierwszym razem (odpowiednio 50,3 i 0,5). Obliczmy test t.


Wartość krytyczna dla 24 stopni swobody i α = 0,05 wynosi 2,064. Poniższy rysunek pokazuje, że test t mieści się w przedziale odrzucenia hipotezy.

Możemy stwierdzić, że przy prawdopodobieństwie ufności większym niż 95% ogólna średnia różni się od 50 kg. Aby było bardziej przekonująco, spójrzmy na poziom p (ostatnia linia w tabeli). Prawdopodobieństwo uzyskania średniej z takim samym lub nawet większym odchyleniem od 50, jeśli hipoteza jest słuszna, wynosi 0,0062, czyli 0,62%, co przy pojedynczym pomiarze jest praktycznie niemożliwe. Generalnie hipotezę tę odrzucamy jako mało prawdopodobną.

Obliczanie przedziału ufności przy użyciu rozkładu t-Studenta

Inna metoda statystyczna jest ściśle związana z testowaniem hipotez - obliczanie przedziałów ufności. Jeżeli otrzymany przedział zawiera wartość odpowiadającą hipotezie zerowej, to jest to równoznaczne z faktem, że hipoteza zerowa nie została odrzucona. W przeciwnym razie hipoteza zostanie odrzucona z odpowiednim poziomem ufności. W niektórych przypadkach analitycy w ogóle nie testują hipotez w klasycznej formie, a jedynie obliczają przedziały ufności. Takie podejście pozwala wydobyć jeszcze więcej przydatnych informacji.

Obliczmy przedziały ufności dla średniej z 9 i 25 obserwacji. W tym celu skorzystamy z funkcji Excela CONFIDENT.STUDENT. Tutaj, co dziwne, wszystko jest dość proste. Argumenty funkcji muszą jedynie wskazywać poziom istotności α , odchylenie standardowe próbki i wielkość próby. Na wyjściu otrzymujemy połowę szerokości przedziału ufności, czyli wartość, którą należy umieścić po obu stronach średniej. Po przeprowadzeniu obliczeń i narysowaniu diagramu wizualnego otrzymujemy co następuje.

Jak widać przy próbie 9 obserwacji wartość 50 mieści się w przedziale ufności (hipoteza nie zostaje odrzucona), a przy 25 obserwacjach nie mieści się w przedziale ufności (hipoteza zostaje odrzucona). Ponadto w eksperymencie z 25 workami można stwierdzić, że z prawdopodobieństwem 97,5% ogólna średnia przekracza 50,1 kg (dolna granica przedziału ufności wynosi 50,094 kg). A to dość cenna informacja.

W ten sposób rozwiązaliśmy ten sam problem na trzy sposoby:

1. Stosując starożytne podejście, porównując obliczone i tabelaryczne wartości testu t
2. Bardziej nowocześnie, poprzez obliczenie poziomu p, dodanie stopnia pewności przy odrzucaniu hipotezy.
3. Jeszcze więcej informacji, obliczając przedział ufności i uzyskując minimalną wartość średniej ogólnej.

Należy pamiętać, że test t odnosi się do metod parametrycznych, ponieważ opiera się na rozkładzie normalnym (posiada dwa parametry: średnią i wariancję). Dlatego dla pomyślnego zastosowania ważna jest przynajmniej przybliżona normalność danych początkowych i brak wartości odstających.

Na koniec proponuję obejrzeć film przedstawiający sposób przeprowadzania obliczeń związanych z testem t-Studenta w Excelu.



Ten artykuł jest również dostępny w następujących językach: tajski

  • Następny

    DZIĘKUJĘ bardzo za bardzo przydatne informacje zawarte w artykule. Wszystko jest przedstawione bardzo przejrzyście. Wydaje się, że włożono dużo pracy w analizę działania sklepu eBay

    • Dziękuję Tobie i innym stałym czytelnikom mojego bloga. Bez Was nie miałbym wystarczającej motywacji, aby poświęcić dużo czasu na utrzymanie tej witryny. Mój mózg jest zbudowany w ten sposób: lubię kopać głęboko, systematyzować rozproszone dane, próbować rzeczy, których nikt wcześniej nie robił i nie patrzył na to z tej perspektywy. Szkoda, że ​​nasi rodacy nie mają czasu na zakupy w serwisie eBay ze względu na kryzys w Rosji. Kupują na Aliexpress z Chin, ponieważ towary tam są znacznie tańsze (często kosztem jakości). Ale aukcje internetowe eBay, Amazon i ETSY z łatwością zapewnią Chińczykom przewagę w zakresie artykułów markowych, przedmiotów vintage, przedmiotów ręcznie robionych i różnych towarów etnicznych.

      • Następny

        W Twoich artykułach cenne jest osobiste podejście i analiza tematu. Nie rezygnuj z tego bloga, często tu zaglądam. Takich powinno być nas dużo. Wyślij mi e-mail Niedawno otrzymałem e-mail z ofertą nauczenia mnie handlu na Amazon i eBay.

  • Przypomniałem sobie Twoje szczegółowe artykuły na temat tych zawodów. obszar Przeczytałem wszystko jeszcze raz i doszedłem do wniosku, że te kursy to oszustwo. Jeszcze nic nie kupiłem na eBayu. Nie jestem z Rosji, ale z Kazachstanu (Ałmaty). Ale nie potrzebujemy jeszcze żadnych dodatkowych wydatków.
    Życzę powodzenia i bezpiecznego pobytu w Azji.