Un enfoque equivalente para interpretar los resultados de las pruebas sería asumir que la hipótesis nula es verdadera, podemos calcular qué tan grande probabilidad conseguir t- un criterio igual o mayor que el valor real que calculamos a partir de los datos de muestra disponibles. Si esta probabilidad resulta ser menor que un nivel de significancia previamente aceptado (por ejemplo, P< 0.05), мы вправе отклонить проверяемую нулевую гипотезу. Именно такой подход сегодня используется чаще всего: исследователи приводят в своих работах P-значение, которое легко рассчитывается при помощи статистических программ. Рассмотрим, как это можно сделать в системе R.

Supongamos que tenemos datos sobre la ingesta diaria de energía procedente de los alimentos (kJ/día) de 11 mujeres (ejemplo tomado del libro Altman D. G. (1981) Estadística práctica para la investigación médica, Chapman & Hall, Londres):


El promedio de estas 11 observaciones es:


Pregunta: ¿Este promedio muestral es diferente de la norma establecida de 7725 kJ/día? La diferencia entre el valor de nuestra muestra y este estándar es bastante significativa: 7725 - 6753,6 = 971,4. Pero ¿cuán grande es esta diferencia estadísticamente? Una sola muestra ayudará a responder esta pregunta. t-prueba. Como otras opciones t-test, se realiza una prueba t de una muestra en R usando la función t.test():


Pregunta: ¿Son estos promedios estadísticamente diferentes? Comprobemos la hipótesis de que no hay diferencia usando t-prueba:

Pero en tales casos, ¿cómo podemos evaluar estadísticamente la presencia de un efecto de una intervención? En general, la prueba t de Student se puede representar como

​ La prueba t de Student es un nombre general para una clase de métodos para la prueba estadística de hipótesis (pruebas estadísticas) basadas en la distribución de Student. El uso más común de la prueba t implica probar la igualdad de medias en dos muestras.

1. Historia del desarrollo de la prueba t.

Este criterio fue desarrollado William Gossett evaluar la calidad de la cerveza en la empresa Guinness. Debido a las obligaciones con la empresa en materia de no divulgación de secretos comerciales, el artículo de Gosset se publicó en 1908 en la revista Biometrics bajo el seudónimo de "Student".

2. ¿Para qué se utiliza la prueba t de Student?

La prueba t de Student se utiliza para determinar la significancia estadística de las diferencias de medias. Se puede utilizar tanto en casos de comparación de muestras independientes ( por ejemplo, grupos de diabéticos y grupos sanos.), y al comparar poblaciones relacionadas ( por ejemplo, frecuencia cardíaca promedio en los mismos pacientes antes y después de tomar un fármaco antiarrítmico).

3. ¿En qué casos se puede utilizar la prueba t de Student?

Para aplicar la prueba t de Student es necesario que los datos originales tengan distribución normal. En el caso de aplicar un criterio de dos muestras para muestras independientes, también es necesario satisfacer la condición igualdad (homoscedasticidad) de varianzas.

Si no se cumplen estas condiciones, se deben utilizar métodos similares al comparar medias muestrales. estadística no paramétrica, entre los cuales los más famosos son Prueba U de Mann-Whitney(como prueba de dos muestras para muestras independientes), y criterio de signo Y prueba de wilcoxon(utilizado en casos de muestras dependientes).

4. ¿Cómo calcular la prueba t de Student?

Para comparar valores promedio, la prueba t de Student se calcula utilizando la siguiente fórmula:

Dónde m 1- media aritmética de la primera población (grupo) comparada, m2- media aritmética de la segunda población (grupo) comparada, metro 1- error medio de la primera media aritmética, metros 2- error medio de la segunda media aritmética.

5. ¿Cómo interpretar el valor de la prueba t de Student?

El valor de la prueba t de Student resultante debe interpretarse correctamente. Para ello, necesitamos saber el número de sujetos de cada grupo (n 1 y n 2). Encontrar el número de grados de libertad. F según la siguiente fórmula:

f = (norte 1 + norte 2) - 2

Después de esto, determinamos el valor crítico de la prueba t de Student para el nivel de significancia requerido (por ejemplo, p = 0,05) y para un número determinado de grados de libertad. F según la tabla ( vea abajo).

Comparamos los valores críticos y calculados del criterio:

  • Si el valor calculado de la prueba t de Student igual o mayor crítico, encontrado en la tabla, concluimos que las diferencias entre los valores comparados son estadísticamente significativas.
  • Si el valor de la prueba t de Student calculada menos tabular, lo que significa que las diferencias entre los valores comparados no son estadísticamente significativas.

6. Ejemplo de cálculo de la prueba t de Student

Para estudiar la eficacia de un nuevo preparado de hierro se seleccionaron dos grupos de pacientes con anemia. En el primer grupo, los pacientes recibieron un nuevo fármaco durante dos semanas y en el segundo grupo recibieron un placebo. Después de esto, se midieron los niveles de hemoglobina en sangre periférica. En el primer grupo, el nivel medio de hemoglobina fue de 115,4±1,2 g/l, y en el segundo grupo, de 103,7±2,3 g/l (los datos se presentan en el formato m±m), las poblaciones que se comparan tienen una distribución normal. El número del primer grupo fue de 34, y el del segundo, de 40 pacientes. Es necesario sacar una conclusión sobre la significación estadística de las diferencias obtenidas y la eficacia del nuevo preparado de hierro.

Solución: Para evaluar la importancia de las diferencias utilizamos la prueba t de Student, calculada como la diferencia de los valores medios dividida por la suma de los errores al cuadrado:

Después de realizar los cálculos, el valor de la prueba t resultó ser 4,51. Encontramos el número de grados de libertad como (34 + 40) - 2 = 72. Comparamos el valor resultante de la prueba t de Student de 4,51 con el valor crítico en p = 0,05 indicado en la tabla: 1,993. Dado que el valor calculado del criterio es mayor que el valor crítico, concluimos que las diferencias observadas son estadísticamente significativas (nivel de significancia p<0,05).

El método permite probar la hipótesis de que los valores promedio de dos poblaciones generales de las cuales se extraen las comparadas dependiente las selecciones difieren entre sí. El supuesto de dependencia suele significar que la característica se mide en la misma muestra dos veces, por ejemplo, antes y después de la intervención. En el caso general, a cada representante de una muestra se le asigna un representante de otra muestra (se combinan en pares) de modo que las dos series de datos estén correlacionadas positivamente entre sí. Tipos de dependencia muestral más débiles: muestra 1 - maridos, muestra 2 - sus esposas; muestra 1: niños de un año, la muestra 2 está formada por gemelos de niños de la muestra 1, etc.

Hipótesis estadística comprobable, como en el caso anterior, H 0: M1 = M2(los valores medios en las muestras 1 y 2 son iguales). Si se rechaza, se acepta la hipótesis alternativa de que m 1 más (menos) M2.

Supuestos iniciales para pruebas estadísticas:

Cada representante de una muestra (de una población general) está asociado con un representante de otra muestra (de otra población general);

Los datos de las dos muestras están correlacionados positivamente (forman pares);

La distribución de la característica estudiada en ambas muestras corresponde a la ley normal.

Estructura de datos de origen: existen dos valores de la característica estudiada para cada objeto (para cada par).

Restricciones: la distribución de la característica en ambas muestras no debería diferir significativamente de lo normal; los datos de dos mediciones correspondientes a una y otra muestra están correlacionados positivamente.

Alternativas: Prueba T de Wilcoxon, si la distribución de al menos una muestra difiere significativamente de lo normal; Prueba t de Student para muestras independientes: si los datos de dos muestras no se correlacionan positivamente.

Fórmula porque el valor empírico de la prueba t de Student refleja el hecho de que la unidad de análisis para las diferencias es diferencia (cambio) valores de atributos para cada par de observaciones. En consecuencia, para cada uno de los N pares de valores de atributos, primero se calcula la diferencia re yo = x 1 yo - x 2 yo.

donde M d es la diferencia promedio de valores; σ d - desviación estándar de diferencias.

Ejemplo de cálculo:

Supongamos que durante la prueba de efectividad de la capacitación, a cada uno de los 8 miembros del grupo se le preguntó: "¿Con qué frecuencia coincide su opinión con la opinión del grupo?" - dos veces, antes y después del entrenamiento. Para las respuestas se utilizó una escala de 10 puntos: 1 - nunca, 5 - la mitad de las veces, 10 - siempre. Se probó la hipótesis de que como resultado del entrenamiento, la autoestima de conformidad (el deseo de ser como los demás en el grupo) de los participantes aumentaría (α = 0,05). Creemos una tabla para cálculos intermedios (Tabla 3).


Tabla 3

La media aritmética de la diferencia M d = (-6)/8 = -0,75. Resta este valor de cada d (la penúltima columna de la tabla).

La fórmula para la desviación estándar sólo difiere en que en ella aparece d en lugar de X. Sustituimos todos los valores necesarios, obtenemos:

σd = = 0,886.

Paso 1. Calcule el valor empírico del criterio usando la fórmula (3): diferencia promedio Maryland= -0,75; desviación estándar σd = 0,886; t mi = 2,39; df = 7.

Paso 2. Utilizando la tabla de valores críticos del criterio t-Student, determinamos el nivel p de significancia. Para df = 7 el valor empírico está entre los valores críticos para r= 0,05 y pag - 0,01. Por eso, r< 0,05.

df R
0,05 0,01 0,001
2,365 3,499 5,408

Paso 3. Tomamos una decisión estadística y formulamos una conclusión. Se rechaza la hipótesis estadística de igualdad de valores medios. Conclusión: el indicador de autoevaluación de la conformidad de los participantes después de la capacitación aumentó estadísticamente de manera significativa (al nivel de significancia p< 0,05).

Los métodos paramétricos incluyen comparación de varianzas de dos muestras según el criterio F-Fisher. A veces, este método conduce a conclusiones valiosas y significativas y, en el caso de comparar medias para muestras independientes, la comparación de varianzas es obligatorio procedimiento.

para calcular fem necesitas encontrar la razón de las varianzas de las dos muestras, de modo que la varianza mayor esté en el numerador y la más pequeña esté en el denominador.

Comparación de variaciones. El método permite probar la hipótesis de que las varianzas de las dos poblaciones generales de las que se extraen las muestras comparadas difieren entre sí. Hipótesis estadística probada H 0: σ 1 2 = σ 2 2 (la varianza en la muestra 1 es igual a la varianza en la muestra 2). Si se rechaza, se acepta la hipótesis alternativa de que una varianza es mayor que la otra.

Supuestos iniciales: se extraen aleatoriamente dos muestras de diferentes poblaciones con una distribución normal de la característica que se está estudiando.

Estructura de datos de origen: la característica que se estudia se mide en objetos (sujetos), cada uno de los cuales pertenece a una de las dos muestras que se comparan.

Restricciones: las distribuciones del rasgo en ambas muestras no difieren significativamente de lo normal.

Método alternativo: Prueba de Levene, cuyo uso no requiere verificar el supuesto de normalidad (utilizado en el programa SPSS).

Fórmula para el valor empírico de la prueba F de Fisher:

(4)

donde σ 1 2 dispersión grande y σ 2 2 - dispersión más pequeña. Dado que no se sabe de antemano qué dispersión es mayor, entonces para determinar el nivel p se utiliza Tabla de valores críticos para alternativas no direccionales. Si F e > F Kp para el número correspondiente de grados de libertad, entonces r< 0,05 и статистическую гипотезу о равенстве дисперсий можно отклонить (для α = 0,05).

Ejemplo de cálculo:

A los niños se les presentaron problemas aritméticos regulares, después de lo cual a la mitad de los estudiantes seleccionados al azar se les dijo que no habían aprobado la prueba y al resto se les dijo lo contrario. Luego se preguntó a cada niño cuántos segundos les tomaría resolver un problema similar. El experimentador calculó la diferencia entre el momento en que el niño llamó y el resultado de la tarea completada (en segundos). Se esperaba que el mensaje de fracaso provocara cierta insuficiencia en la autoestima del niño. La hipótesis probada (en el nivel α = 0,005) fue que la varianza de la autoestima agregada no depende de los informes de éxito o fracaso (H 0: σ 1 2 = σ 2 2).

Se obtuvieron los siguientes datos:

Paso 1. Calcule el valor empírico del criterio y el número de grados de libertad utilizando las fórmulas (4):

Paso 2. Según la tabla de valores críticos del criterio f de Fisher para no direccional alternativas encontramos el valor crítico para número df= 11; df saber= 11. Sin embargo, existe un valor crítico sólo para número df= 10 y df saber = 12. No se puede tomar un número mayor de grados de libertad, por lo que tomamos el valor crítico para número df= 10: Para r= 0,05 FKp = 3.526; Para r= 0,01 FKp = 5,418.

Paso 3. Tomar una decisión estadística y una conclusión significativa. Dado que el valor empírico excede el valor crítico para r= 0,01 (y más aún para pag = 0,05), entonces en este caso p< 0,01 и принимается альтернативная гипо-теза: дисперсия в группе 1 превышает дисперсию в группе 2 (pag< 0,01). En consecuencia, después de un mensaje sobre el fracaso, la insuficiencia de la autoestima es mayor que después de un mensaje sobre el éxito.

prueba t de Studentpara muestras independientes

Prueba t de Student ( t-Prueba del estudiante o simplemente " t-test") se utiliza si necesita comparar solo dos grupos características cuantitativas con distribución normal (un caso especial de análisis de varianza). Nota: este criterio no se puede utilizar cuando se comparan varios grupos por pares; en este caso se debe utilizar el análisis de varianza. El uso erróneo de la prueba t de Student aumenta la probabilidad de “revelar” diferencias que no existen. Por ejemplo, en lugar de reconocer varios tratamientos como igualmente eficaces (o ineficaces), uno de ellos se declara mejor.

Dos eventos se llaman independientes si la ocurrencia de uno de ellos no afecta de ninguna manera la ocurrencia del otro. De manera similar, dos colecciones pueden considerarse independientes si las propiedades de una de ellas no están relacionadas de ninguna manera con las propiedades de la otra.

Ejemplo de ejecución t-prueba en el programa STATISTICA.

Las mujeres son en promedio más bajas que los hombres, pero esto no se debe a que los hombres tengan alguna influencia sobre las mujeres, sino que es una cuestión de características genéticas del sexo. Al usar t- La prueba debe comprobar si existe una diferencia estadísticamente significativa entre los valores medios de altura en los grupos de hombres y mujeres. (Para fines educativos, asumimos que los datos de altura siguen una distribución normal y, por lo tanto, t- prueba es aplicable).

Figura 1. Ejemplo de formato de datos para ejecución t-

Preste atención a cómo se formatean los datos en la Figura 1. Como cuando se construyen gráficos comoTrama de bigotes o Trama de caja y bigotes, hay dos variables en la tabla: una de ellas es agrupar (variable de agrupación) (“Género”): contiene códigos (marido y mujer) que permiten al programa determinar cuál de los datos de altura pertenece a qué grupo; el segundo - el llamado variable dependiente (variable dependiente) (“Crecimiento”): contiene los datos reales que se están analizando. Sin embargo, al ejecutart-Para realizar pruebas para muestras independientes en el programa STATISTICA, es posible otra opción de diseño: los datos para cada uno de los grupos (“Hombres” y “Mujeres”) se pueden ingresar en columnas separadas (Figura 2).

Figura 2. Otra opción para formatear datos para su ejecución. t- prueba de muestras independientes

para realizar t-Para una prueba de muestras independiente, debe hacer lo siguiente:

1-a. Módulo de lanzamiento t- masa del menú Estadística > Estadísticas/Tablas básicas > t-prueba, independiente, por grupos(si hay una variable de agrupación en la tabla de datos, consulte la Figura 3)​

O

1-b. Módulo de lanzamiento t- masa del menú Estadística > Estadísticas/Tablas básicas > t-test, independiente, por variables(si los datos se ingresan en columnas independientes, ver Figura 4).

A continuación se muestra una versión de la prueba en la que hay una variable de agrupación en la tabla de datos.

2. En la ventana que se abre, haga clic en el botón variables y decirle al programa cuál de las variables de la tabla Hoja de cálculo es agrupación y cuál es dependiente (Figuras 5-6).

Figura 5. Selección de variables para incluir en t-prueba

Figura 6. Ventana con entrada variables seleccionadas para la realización t-prueba

3. Presione el botónResumen: pruebas T.

Figura 7. Resultados t-prueba para muestras independientes

Como resultado, el programa producirá un libro de trabajo.Libro de trabajo, que contiene una tabla con los resultados.t-prueba (Figura 7 ). Esta tabla tiene varias columnas:

  • Significar(masculino) - altura promedio en el grupo “Hombres”;
  • Significar(mujer) - altura media en el grupo “Mujeres”;
  • t- valor: valor calculado por el programa t-Prueba del estudiante;
  • df- número de grados de libertad;
  • PAG- la probabilidad de validez de la hipótesis de que los valores medios comparados no difieren. De hecho, este es el resultado más importante del análisis, ya que es el valor PAG indica si la hipótesis que se está probando es cierta. En nuestro ejemplo, P > 0,05, de lo que podemos concluir que no existen diferencias estadísticamente significativas entre las alturas de hombres y mujeres.
  • N válido(masculino) - tamaño de muestra “Hombres”;
  • N válido(mujer) - tamaño de muestra “Mujeres”;
  • Estándar desarrollador. (masculino) - desviación estándar de la muestra de “Hombres”;
  • Estándar desarrollador. (femenino) - desviación estándar de la muestra de “Mujeres”;
  • Relación F, variaciones- el valor de la prueba F de Fisher, con cuya ayuda se prueba la hipótesis sobre la igualdad de varianzas en las muestras comparadas;
  • P,Varianzas- la probabilidad de validez de la hipótesis de que las varianzas de las muestras comparadas no difieren.

Las pruebas de hipótesis estadísticas nos permiten hacer inferencias sólidas sobre las características de una población basándose en datos de muestra. Hay diferentes hipótesis. Una de ellas es la hipótesis sobre la media (expectativa matemática). Su esencia es sacar una conclusión correcta, basada únicamente en la muestra disponible, sobre dónde puede ubicarse o no la avería gruesa (nunca sabremos la verdad exacta, pero podemos acotar la búsqueda).

Ya se ha descrito el enfoque general para probar hipótesis, así que vayamos directo al grano. Supongamos primero que la muestra se extrae de una población normal de variables aleatorias. incógnita con promedio general μ y varianza s 2(Lo sé, sé que esto no pasa, ¡pero no me interrumpas!). La media aritmética de esta muestra es obviamente en sí misma una variable aleatoria. Si extraemos muchas de esas muestras y calculamos sus promedios, también tendrán una expectativa matemática. μ Y

Entonces la variable aleatoria

Surge la pregunta: ¿el promedio general con una probabilidad del 95% estará dentro de ±1,96? sx̅. En otras palabras, ¿son las distribuciones de variables aleatorias?

equivalente.

Esta pregunta fue planteada (y resuelta) por primera vez por un químico que trabajaba en la fábrica de cerveza Guinness en Dublín (Irlanda). El nombre del químico era William Seely Gossett y tomó muestras de cerveza para realizar análisis químicos. Al parecer, en algún momento William empezó a sentirse atormentado por vagas dudas sobre la distribución de los promedios. Resultó estar un poco más manchado de lo que debería estar en una distribución normal.

Habiendo recopilado la base matemática y calculado los valores de la función de distribución descubierta por él, el químico de Dublín William Gosset escribió una nota que se publicó en la edición de marzo de 1908 de la revista Biometrics (editor en jefe, Karl Pearson). Porque Guinness prohibió estrictamente revelar secretos de elaboración de cerveza; Gossett firmó con el seudónimo de Student.

A pesar de que K. Pearson ya había inventado la distribución, todavía dominaba la idea general de normalidad. Nadie iba a pensar que la distribución de las puntuaciones de las muestras podría no ser normal. Por tanto, el artículo de W. Gosset pasó prácticamente desapercibido y olvidado. Y sólo Ronald Fisher apreció el descubrimiento de Gosset. Fischer utilizó la nueva distribución en su trabajo y le dio el nombre Distribución t de Student. En consecuencia, el criterio para probar hipótesis pasó a ser prueba t de Student. Así se produjo una “revolución” en la estadística, que entró en la era del análisis de datos muestrales. Esta fue una breve excursión a la historia.

Veamos qué pudo ver W. Gosset. Generemos 20 mil muestras normales a partir de 6 observaciones con un promedio ( INCÓGNITA) 50 y desviación estándar ( σ ) 10. Luego normalizamos las medias muestrales usando variación general:

Agruparemos los 20 mil promedios resultantes en intervalos de longitud 0,1 y calcularemos las frecuencias. Representemos en el diagrama la distribución de frecuencia real (Norma) y teórica (ENorm) de las medias muestrales.

Los puntos (frecuencias observadas) prácticamente coinciden con la línea (frecuencias teóricas). Esto es comprensible, porque los datos se toman de la misma población general y las diferencias son sólo errores de muestreo.

Realicemos un nuevo experimento. Normalizamos los promedios usando varianza muestral.

Contemos las frecuencias nuevamente y grafiquemos en el diagrama en forma de puntos, dejando una línea de distribución normal estándar para comparar. Denotemos la frecuencia empírica de los promedios, digamos, con la letra t.

Se puede observar que las distribuciones esta vez no coinciden mucho. Cercano, sí, pero no igual. Las colas se han vuelto más "pesadas".

Gosset-Student no tenía la última versión de MS Excel, pero este es exactamente el efecto que notó. ¿Por qué sucede esto? La explicación es que la variable aleatoria

Depende no sólo del error de muestreo (numerador), sino también del error estándar de la media (denominador), que también es una variable aleatoria.

Echemos un vistazo a qué distribución debería tener una variable aleatoria de este tipo. Primero, tendrás que recordar (o aprender) algo de la estadística matemática. Existe el teorema de Fisher, que establece que en una muestra de una distribución normal:

1. medio INCÓGNITA y varianza muestral t 2 son cantidades independientes;

2. la relación entre la varianza de la muestra y la población, multiplicada por el número de grados de libertad, tiene una distribución χ 2(chi-cuadrado) con el mismo número de grados de libertad, es decir

Dónde k– número de grados de libertad (en inglés grados de libertad (d.f.))

Muchos otros resultados en las estadísticas de modelos normales se basan en esta ley.

Volvamos a la distribución del promedio. Divide el numerador y denominador de la expresión.

en σX̅. obtenemos

El numerador es una variable aleatoria normal estándar (denotamos ξ (xi)). Expresemos el denominador del teorema de Fisher.

Entonces la expresión original tomará la forma

Esto es lo que es en forma general (relación de estudiante). Puede derivar su función de distribución directamente, porque Se conocen las distribuciones de ambas variables aleatorias en esta expresión. Dejemos este placer a los matemáticos.

La función de distribución t de Student tiene una fórmula bastante difícil de entender, por lo que no tiene sentido analizarla. Nadie lo usa de todos modos, porque... Las probabilidades se dan en tablas especiales de distribuciones de Student (a veces llamadas tablas de coeficientes de Student) o se incluyen en fórmulas de PC.

Entonces, armado con este nuevo conocimiento, podrá comprender la definición oficial de distribución de Estudiantes.
Una variable aleatoria sujeta a la distribución de Student con k grados de libertad es la proporción de variables aleatorias independientes

Dónde ξ distribuido de acuerdo con la ley normal estándar, y χ2k obedece a la distribución χ 2 do k grados de libertad.

Por tanto, la fórmula de la prueba t de Student para la media aritmética

Hay un caso especial de la relación estudiantil.

De la fórmula y definición se deduce que la distribución de la prueba t de Student depende únicamente del número de grados de libertad.

En k> 30 la prueba t prácticamente no difiere de la distribución normal estándar.

A diferencia del chi-cuadrado, la prueba t puede ser de una o dos colas. Por lo general, utilizan dos lados, asumiendo que la desviación puede ocurrir en ambas direcciones con respecto al promedio. Pero si la condición del problema permite una desviación sólo en una dirección, entonces es razonable utilizar un criterio unilateral. Esto aumenta ligeramente la potencia, porque... a un nivel de significancia fijo, el valor crítico se aproxima ligeramente a cero.

Condiciones para utilizar la prueba t de Student

A pesar de que el descubrimiento de Student revolucionó en algún momento la estadística, la prueba t todavía tiene posibilidades de aplicación bastante limitadas, porque en sí proviene del supuesto de una distribución normal de los datos originales. Si los datos no son normales (que suele ser el caso), entonces la prueba t ya no tendrá una distribución de Student. Sin embargo, debido a la acción del teorema del límite central, el promedio incluso para datos anormales adquiere rápidamente una distribución en forma de campana.

Consideremos, por ejemplo, datos que están fuertemente sesgados hacia la derecha, como una distribución chi-cuadrado con 5 grados de libertad.

Ahora creemos 20 mil muestras y observemos cómo cambia la distribución de promedios dependiendo de su volumen.

La diferencia es bastante notable en muestras pequeñas de hasta 15-20 observaciones. Pero luego desaparece rápidamente. Por tanto, la no normalidad de la distribución no es, por supuesto, buena, pero tampoco crítica.

Por encima de todo, la prueba t tiene "miedo" a los valores atípicos, es decir, desviaciones anormales. Tomemos 20 mil muestras normales de 15 observaciones cada una y agreguemos un valor atípico aleatorio a algunas de ellas.

El panorama resulta sombrío. Las frecuencias reales de los promedios son muy diferentes de las teóricas. Usar la distribución t en tal situación se convierte en una tarea muy arriesgada.

Entonces, en muestras no muy pequeñas (de 15 observaciones), la prueba t es relativamente resistente a la distribución no normal de los datos originales. Pero los valores atípicos en los datos distorsionan enormemente la distribución de la prueba t, lo que, a su vez, puede conducir a errores en la inferencia estadística, por lo que las observaciones anómalas deben eliminarse. A menudo, todos los valores que se encuentran dentro de ±2 desviaciones estándar de la media se eliminan de la muestra.

Un ejemplo de prueba de una hipótesis sobre la expectativa matemática utilizando la prueba t de Student en MS Excel

Excel tiene varias funciones relacionadas con la distribución t. Mirémoslos.

STUDENT.DIST – Distribución t de Student “clásica” del lado izquierdo. La entrada es el valor del criterio t, el número de grados de libertad y una opción (0 o 1) que determina lo que se debe calcular: densidad o valor de función. En la salida obtenemos, respectivamente, la densidad o la probabilidad de que la variable aleatoria sea menor que el criterio t especificado en el argumento.

STUDENT.DIST.2X – distribución bidireccional. El argumento es el valor absoluto (módulo) de la prueba t y el número de grados de libertad. Como resultado, obtenemos la probabilidad de obtener el mismo valor del criterio t o incluso mayor, es decir nivel de significancia real (nivel p).

STUDENT.DIST.PH – distribución t del lado derecho. Entonces, 1-DIST.ESTUDIANTE(2;5;1) = DISTR.ESTUDIANTE.PH(2;5) = 0.05097. Si la prueba t es positiva, entonces la probabilidad resultante es el nivel p.

STUDENT.INR: se utiliza para calcular la inversa del lado izquierdo de la distribución t. El argumento es la probabilidad y el número de grados de libertad. En la salida obtenemos el valor del criterio t correspondiente a esta probabilidad. El recuento de probabilidad está a la izquierda. Por lo tanto, la cola izquierda requiere el nivel de significancia en sí. α , y para el correcto 1 - α .

STUDENT.OBR.2X: el valor inverso de la distribución de Student bilateral, es decir, valor de la prueba t (módulo). El nivel de significancia también se proporciona a la entrada. α . Sólo que esta vez el conteo se realiza desde ambos lados simultáneamente, por lo que la probabilidad se distribuye en dos colas. Entonces, ESTUDIANTE.ARV(1-0.025;5) = ESTUDIANTE.ARV.2X(0.05;5) = 2.57058

STUDENT.TEST es una función para probar la hipótesis sobre la igualdad de expectativas matemáticas en dos muestras. Reemplaza un montón de cálculos, porque Basta con especificar sólo dos rangos con datos y un par de parámetros más. La salida es de nivel p.

CONFIANZA.ESTUDIANTE – cálculo del intervalo de confianza del promedio teniendo en cuenta la distribución t.

Consideremos este ejemplo de entrenamiento. En la empresa el cemento se envasa en sacos de 50 kg. Debido a la aleatoriedad, se permite cierta desviación de la masa esperada en una sola bolsa, pero el promedio general debe permanecer en 50 kg. El departamento de control de calidad pesó aleatoriamente 9 bolsas y obtuvo los siguientes resultados: peso promedio ( INCÓGNITA) fue 50,3 kg, desviación estándar ( s) – 0,5 kilogramos.

¿Es este resultado consistente con la hipótesis nula de que la media general es 50 kg? En otras palabras, ¿es posible obtener tal resultado por pura casualidad si el equipo funciona correctamente y produce un llenado promedio de 50 kg? Si no se rechaza la hipótesis, entonces la diferencia resultante entra en el rango de fluctuaciones aleatorias, pero si se rechaza la hipótesis, lo más probable es que haya habido un mal funcionamiento en la configuración de la máquina que llena las bolsas. Es necesario comprobarlo y configurarlo.

Una condición breve en notación generalmente aceptada se ve así.

H0: μ = 50 kilos

H1: μ ≠ 50 kilogramos

Hay motivos para suponer que la distribución del llenado de bolsas sigue una distribución normal (o no es muy diferente de ella). Esto significa que para probar la hipótesis sobre la expectativa matemática, puede utilizar la prueba t de Student. Pueden ocurrir desviaciones aleatorias en cualquier dirección, lo que significa que se necesita una prueba t bilateral.

Primero, usaremos medios antediluvianos: calcular manualmente el criterio t y compararlo con el valor crítico de la tabla. Prueba t calculada:

Ahora determinemos si el número resultante excede el nivel crítico en el nivel de significancia. α = 0,05. Usemos la tabla de distribución t de Student (disponible en cualquier libro de texto de estadística).

Las columnas muestran la probabilidad del lado derecho de la distribución y las filas muestran el número de grados de libertad. Nos interesa una prueba t de dos colas con un nivel de significancia de 0,05, que equivale al valor t para la mitad del nivel de significancia de la derecha: 1 - 0,05/2 = 0,975. El número de grados de libertad es el tamaño de la muestra menos 1, es decir 9 - 1 = 8. En la intersección encontramos el valor de la tabla de la prueba t - 2,306. Si usáramos la distribución normal estándar, entonces el punto crítico sería 1,96, pero aquí es mayor, porque La distribución t en muestras pequeñas tiene una apariencia más aplanada.

Comparemos el valor real (1.8) y el de la tabla (2.306). El criterio calculado resultó ser menor que el tabulado. En consecuencia, los datos disponibles no contradicen la hipótesis H 0 de que el promedio general es de 50 kg (pero tampoco lo prueban). Eso es todo lo que podemos aprender usando tablas. Por supuesto, también puedes intentar encontrar el nivel p, pero será aproximado. Y, por regla general, es el nivel p el que se utiliza para probar hipótesis. Por lo tanto, pasamos a Excel.

No existe una función preparada para calcular la prueba t en Excel. Pero esto no da miedo, porque la fórmula de la prueba t de Student es bastante simple y se puede construir fácilmente directamente en una celda de Excel.

Tenemos el mismo 1.8. Primero encontremos el valor crítico. Tomamos alfa 0,05, el criterio es de dos colas. Necesitamos la función de distribución t inversa para la hipótesis bilateral STUDENT.OBR.2X.

El valor resultante corta la región crítica. La prueba t observada no entra en ella, por lo que la hipótesis no se rechaza.

Sin embargo, esta es la misma forma de probar una hipótesis utilizando un valor de tabla. Sería más informativo calcular el nivel p, es decir la probabilidad de obtener la desviación observada o incluso mayor del promedio de 50 kg, si esta hipótesis es correcta. Necesitará la función de distribución de Student para la hipótesis bilateral DISTR.ESTUDIANTE.2X.

El nivel P es 0,1096, que es mayor que el nivel de significancia aceptable de 0,05; no rechazamos la hipótesis. Pero ahora podemos juzgar el grado de prueba. El nivel P resultó estar bastante cerca del nivel cuando se rechaza la hipótesis, y esto lleva a pensamientos diferentes. Por ejemplo, que la muestra fuera demasiado pequeña para detectar una desviación significativa.

Después de un tiempo, el departamento de control decidió nuevamente comprobar cómo se mantenía el estándar de llenado de bolsas. Esta vez, para mayor confiabilidad, no se seleccionaron 9, sino 25 bolsas. Está intuitivamente claro que la dispersión del promedio disminuirá y, por lo tanto, las posibilidades de encontrar una falla en el sistema serán mayores.

Digamos que se obtuvieron los mismos valores de media y desviación estándar para la muestra que la primera vez (50,3 y 0,5, respectivamente). Calculemos la prueba t.


El valor crítico para 24 grados de libertad y α = 0,05 es 2,064. La siguiente imagen muestra que la prueba t se encuentra dentro del rango de rechazo de hipótesis.

Podemos concluir que con una probabilidad de confianza superior al 95%, el promedio general difiere de 50 kg. Para ser más convincentes, veamos el nivel p (la última línea de la tabla). La probabilidad de obtener un promedio con igual o incluso mayor desviación de 50, si la hipótesis es correcta, es de 0,0062, o 0,62%, lo que es prácticamente imposible con una sola medición. En general, rechazamos la hipótesis por considerarla improbable.

Calcular un intervalo de confianza utilizando la distribución t de Student

Otro método estadístico está estrechamente relacionado con la prueba de hipótesis: cálculo de intervalos de confianza. Si el intervalo resultante contiene un valor correspondiente a la hipótesis nula, entonces esto equivale al hecho de que la hipótesis nula no se rechaza. En caso contrario, la hipótesis se rechaza con el nivel de confianza correspondiente. En algunos casos, los analistas no prueban hipótesis en la forma clásica, sino que sólo calculan intervalos de confianza. Este enfoque le permite extraer información aún más útil.

Calculemos intervalos de confianza para la media de 9 y 25 observaciones. Para ello utilizaremos la función de Excel CONFIDENTE.ESTUDIANTE. Aquí, por extraño que parezca, todo es bastante sencillo. Los argumentos de la función solo necesitan indicar el nivel de significancia. α , desviación estándar de la muestra y tamaño de la muestra. En la salida obtenemos la mitad del ancho del intervalo de confianza, es decir, el valor que debe colocarse a ambos lados del promedio. Después de realizar los cálculos y dibujar un diagrama visual, obtenemos lo siguiente.

Como se puede observar, con una muestra de 9 observaciones, el valor 50 cae dentro del intervalo de confianza (no se rechaza la hipótesis), y con 25 observaciones no cae dentro del intervalo de confianza (se rechaza la hipótesis). Además, en un experimento con 25 bolsas, se puede afirmar que con una probabilidad del 97,5% el promedio general supera los 50,1 kg (el límite inferior del intervalo de confianza es 50,094 kg). Y esta es una información bastante valiosa.

Así, resolvimos el mismo problema de tres maneras:

1. Utilizando un enfoque antiguo, comparando los valores calculados y tabulados de la prueba t
2. Más moderno, calculando el nivel p, añadiendo un grado de confianza al rechazar la hipótesis.
3. Aún más informativo calculando el intervalo de confianza y obteniendo el valor mínimo del promedio general.

Es importante recordar que la prueba t se refiere a métodos paramétricos, porque se basa en una distribución normal (tiene dos parámetros: media y varianza). Por lo tanto, para su aplicación exitosa, es importante al menos la normalidad aproximada de los datos iniciales y la ausencia de valores atípicos.

Finalmente, sugiero ver un vídeo sobre cómo realizar cálculos relacionados con la prueba t de Student en Excel.



Este artículo también está disponible en los siguientes idiomas: tailandés

  • Próximo

    MUCHAS GRACIAS por la información tan útil del artículo. Todo se presenta muy claramente. Parece que se ha trabajado mucho para analizar el funcionamiento de la tienda eBay.

    • Gracias a ti y a otros lectores habituales de mi blog. Sin ustedes, no habría estado lo suficientemente motivado como para dedicar mucho tiempo al mantenimiento de este sitio. Mi cerebro está estructurado de esta manera: me gusta profundizar, sistematizar datos dispersos, probar cosas que nadie ha hecho antes ni visto desde este ángulo. Es una lástima que nuestros compatriotas no tengan tiempo para comprar en eBay debido a la crisis en Rusia. Compran en Aliexpress desde China, ya que los productos allí son mucho más baratos (a menudo a expensas de la calidad). Pero las subastas en línea de eBay, Amazon y ETSY fácilmente darán a los chinos una ventaja en la gama de artículos de marca, artículos antiguos, artículos hechos a mano y diversos productos étnicos.

      • Próximo

        Lo valioso de sus artículos es su actitud personal y su análisis del tema. No abandonéis este blog, vengo aquí a menudo. Deberíamos ser muchos así. Envíame un correo electrónico Recientemente recibí un correo electrónico con una oferta de que me enseñarían cómo operar en Amazon y eBay.

  • Y recordé tus artículos detallados sobre estos oficios. área Releí todo nuevamente y concluí que los cursos son una estafa. Todavía no he comprado nada en eBay. No soy de Rusia, sino de Kazajstán (Almaty). Pero tampoco necesitamos ningún gasto adicional todavía.
    https://uploads.disquscdn.com/images/7a52c9a89108b922159a4fad35de0ab0bee0c8804b9731f56d8a1dc659655d60.png