Las hipótesis se prueban mediante análisis estadístico. La significación estadística se encuentra utilizando el valor P, que corresponde a la probabilidad de que un evento determinado suponga que alguna afirmación (hipótesis nula) sea verdadera. Si el valor P es menor que un nivel específico de significancia estadística (generalmente 0,05), el experimentador puede concluir con seguridad que la hipótesis nula es falsa y proceder a considerar la hipótesis alternativa. Con la prueba t de Student, puede calcular el valor P y determinar la significancia de dos conjuntos de datos.

Pasos

Parte 1

Configurando el experimento

    Defina su hipótesis. El primer paso para evaluar la significación estadística es elegir la pregunta que desea responder y formular una hipótesis. Una hipótesis es una declaración sobre datos experimentales, su distribución y propiedades. Para cualquier experimento, existe tanto una hipótesis nula como una alternativa. En términos generales, tendrás que comparar dos conjuntos de datos para determinar si son similares o diferentes.

    • La hipótesis nula (H 0) normalmente establece que no hay diferencia entre dos conjuntos de datos. Por ejemplo: aquellos estudiantes que leen el material antes de clase no reciben calificaciones más altas.
    • La hipótesis alternativa (H a) es lo opuesto a la hipótesis nula y es una afirmación que debe estar respaldada por datos experimentales. Por ejemplo: aquellos estudiantes que leen el material antes de clase obtienen calificaciones más altas.
  1. Establezca el nivel de significancia para determinar cuánto debe diferir la distribución de datos de lo normal para que se considere un resultado significativo. Nivel de significancia (también llamadoα (\displaystyle \alpha )

    • -nivel) es el umbral que usted define para la significación estadística. Si el valor P es menor o igual que el nivel de significancia, los datos se consideran estadísticamente significativos. Nivel de significancia (también llamado Como regla general, el nivel de significancia (valor
    • ) se toma como 0,05, en cuyo caso la probabilidad de detectar una diferencia aleatoria entre diferentes conjuntos de datos es solo del 5%.
    • Si desea resultados más confiables, reduzca el valor P a 0,01. Por lo general, se utilizan valores P más bajos en la fabricación cuando es necesario identificar defectos en los productos. En este caso, se requiere una alta confiabilidad para garantizar que todas las piezas funcionen como se espera.
    • Para la mayoría de los experimentos de hipótesis, un nivel de significancia de 0,05 es suficiente.
  2. Decide qué criterio utilizarás: unilateral o bilateral. Uno de los supuestos de la prueba t de Student es que los datos se distribuyen normalmente. La distribución normal es una curva en forma de campana con el número máximo de resultados en el medio de la curva. La prueba t de Student es un método matemático para probar datos que le permite determinar si los datos quedan fuera de la distribución normal (más, menos o en las “colas” de la curva).

    • Si no está seguro de si los datos están por encima o por debajo de los valores del grupo de control, utilice una prueba de dos colas. Esto le permitirá determinar la importancia en ambas direcciones.
    • Si sabe en qué dirección los datos podrían quedar fuera de la distribución normal, utilice una prueba de una cola. En el ejemplo anterior, esperamos que las calificaciones de los estudiantes aumenten, por lo que se puede utilizar una prueba de una cola.
  3. Determine el tamaño de la muestra utilizando poder estadístico. El poder estadístico de un estudio es la probabilidad de que, dado un tamaño de muestra determinado, se obtenga el resultado esperado. Un umbral de potencia común (o β) es el 80%. Analizar el poder estadístico sin datos previos puede resultar desafiante porque se requiere cierta información sobre las medias esperadas en cada grupo de datos y sus desviaciones estándar. Utilice una calculadora de análisis de potencia en línea para determinar el tamaño de muestra óptimo para sus datos.

    • Por lo general, los investigadores realizan un pequeño estudio piloto que proporciona datos para el análisis de poder estadístico y determina el tamaño de muestra necesario para un estudio más grande y completo.
    • Si no puede realizar un estudio piloto, intente estimar posibles promedios basándose en la literatura y los resultados de otras personas. Esto puede ayudarle a determinar el tamaño de muestra óptimo.

    parte 2

    Calcular la desviación estándar
    1. Escribe la fórmula para la desviación estándar. La desviación estándar muestra cuánta dispersión hay en los datos. Le permite concluir qué tan cerca están los datos obtenidos de una determinada muestra. A primera vista, la fórmula parece bastante complicada, pero las explicaciones siguientes te ayudarán a entenderla. La fórmula es la siguiente: s = √∑((x i – µ) 2 /(N – 1)).

      • s - desviación estándar;
      • el signo ∑ indica que se deben sumar todos los datos obtenidos de la muestra;
      • x i corresponde al valor i-ésimo, es decir, se obtiene un resultado separado;
      • µ es el valor medio para un grupo determinado;
      • N es el número total de datos de la muestra.
    2. Encuentra el promedio en cada grupo. Para calcular la desviación estándar, primero debes encontrar la media de cada grupo de estudio. El valor medio se indica con la letra griega µ (mu). Para encontrar el promedio, simplemente sume todos los valores resultantes y divídalos por la cantidad de datos (tamaño de muestra).

      • Por ejemplo, para encontrar la calificación promedio de un grupo de estudiantes que estudian antes de clase, considere un pequeño conjunto de datos. Para simplificar, utilizamos un conjunto de cinco puntos: 90, 91, 85, 83 y 94.
      • Sumemos todos los valores: 90 + 91 + 85 + 83 + 94 = 443.
      • Dividamos la suma por el número de valores, N = 5: 443/5 = 88,6.
      • Así, la media de este grupo es 88,6.
    3. Reste cada valor obtenido del promedio. El siguiente paso es calcular la diferencia (xi – µ). Para hacer esto, reste cada valor obtenido del valor promedio encontrado. En nuestro ejemplo, necesitamos encontrar cinco diferencias:

      • (90 – 88,6), (91 – 88,6), (85 – 88,6), (83 – 88,6) y (94 – 88,6).
      • Como resultado, obtenemos los siguientes valores: 1,4, 2,4, -3,6, -5,6 y 5,4.
    4. Eleva al cuadrado cada valor obtenido y súmalos. Cada una de las cantidades recién encontradas debe elevarse al cuadrado. Este paso eliminará todos los valores negativos. Si después de este paso todavía tienes números negativos, entonces olvidaste elevarlos al cuadrado.

      • Para nuestro ejemplo, obtenemos 1,96, 5,76, 12,96, 31,36 y 29,16.
      • Sumamos los valores resultantes: 1,96 + 5,76 + 12,96 + 31,36 + 29,16 = 81,2.
    5. Divida por el tamaño de la muestra menos 1. En la fórmula, la suma se divide por N – 1 debido a que no tomamos en cuenta la población general, sino que tomamos una muestra de todos los estudiantes para su evaluación.

      • Resta: N – 1 = 5 – 1 = 4
      • Dividir: 81,2/4 = 20,3
    6. Saca la raíz cuadrada. Después de dividir la suma por el tamaño de la muestra menos uno, saque la raíz cuadrada del valor encontrado. Este es el último paso para calcular la desviación estándar. Existen programas estadísticos que, tras introducir los datos iniciales, realizan todos los cálculos necesarios.

      • En nuestro ejemplo, la desviación estándar de las calificaciones de aquellos estudiantes que leyeron el material antes de clase es s =√20,3 = 4,51.

      parte 3

      Determinar la importancia
      1. Calcule la varianza entre los dos grupos de datos. Antes de este paso, analizamos un ejemplo para un solo grupo de datos. Si desea comparar dos grupos, obviamente debe tomar datos de ambos grupos. Calcule la desviación estándar para el segundo grupo de datos y luego encuentre la varianza entre los dos grupos experimentales. La varianza se calcula usando la siguiente fórmula: s d = √((s 1 /N 1) + (s 2 /N 2)).

La confiabilidad estadística es esencial en la práctica de cálculo de la FCC. Anteriormente se señaló que se pueden seleccionar múltiples muestras de la misma población:

Si se seleccionan correctamente, entonces sus indicadores promedio y los indicadores de la población general difieren ligeramente entre sí en la magnitud del error de representatividad, teniendo en cuenta la confiabilidad aceptada;

Si se seleccionan de diferentes poblaciones, la diferencia entre ellos resulta significativa. La estadística consiste en comparar muestras;

Si difieren de manera insignificante, no principal, insignificante, es decir, en realidad pertenecen a la misma población general, la diferencia entre ellos se considera estadísticamente poco confiable.

Estadísticamente confiable Una diferencia muestral es una muestra que difiere significativa y fundamentalmente, es decir, pertenece a poblaciones generales diferentes.

En la FCC, evaluar la significancia estadística de las diferencias muestrales significa resolver muchos problemas prácticos. Por ejemplo, la introducción de nuevos métodos de enseñanza, programas, conjuntos de ejercicios, pruebas y ejercicios de control está asociada con sus pruebas experimentales, lo que debería mostrar que el grupo de prueba es fundamentalmente diferente del grupo de control. Por lo tanto, se utilizan métodos estadísticos especiales, llamados criterios de significación estadística, para detectar la presencia o ausencia de una diferencia estadísticamente significativa entre muestras.

Todos los criterios se dividen en dos grupos: paramétricos y no paramétricos. Los criterios paramétricos requieren la presencia de una ley de distribución normal, es decir Esto significa la determinación obligatoria de los principales indicadores de la ley normal: la media aritmética y la desviación estándar s. Los criterios paramétricos son los más precisos y correctos. Las pruebas no paramétricas se basan en diferencias de rango (ordinales) entre elementos de la muestra.

Presentemos los principales criterios de significación estadística utilizados en la práctica de la FCC: prueba de Student y prueba de Fisher.

prueba t de Student lleva el nombre del científico inglés K. Gosset (Estudiante - seudónimo), quien descubrió este método. La prueba t de Student es paramétrica y se utiliza para comparar los valores absolutos de muestras. Las muestras pueden variar en tamaño.

prueba t de Student se define así.

1. Encuentre la prueba t de Student usando la siguiente fórmula:


¿Dónde están los promedios aritméticos de las muestras comparadas? t 1, t 2: errores de representatividad identificados sobre la base de los indicadores de las muestras comparadas.

2. La práctica en la FCC ha demostrado que para el trabajo deportivo basta con aceptar la fiabilidad de la cuenta P = 0,95.

Para la confiabilidad del conteo: P = 0,95 (a = 0,05), con el número de grados de libertad

k = n 1 + n 2 - 2 de la tabla del Apéndice 4 encontramos el valor del valor límite del criterio ( t gr).

3. Con base en las propiedades de la ley de distribución normal, el criterio de Student compara t y t gr.

Sacamos conclusiones:

si t t gr, entonces la diferencia entre las muestras comparadas es estadísticamente significativa;

si t t gr, entonces la diferencia es estadísticamente insignificante.

Para los investigadores en el campo de FCS, evaluar la significación estadística es el primer paso para resolver un problema específico: si las muestras que se comparan son fundamentalmente o no fundamentalmente diferentes entre sí. El siguiente paso es evaluar esta diferencia desde un punto de vista pedagógico, que viene determinado por las condiciones de la tarea.

Consideremos la aplicación de la prueba de Student usando un ejemplo específico.

Ejemplo 2.14. Se evaluó la frecuencia cardíaca (lpm) de un grupo de 18 sujetos antes de x i y después y yo calentamiento.

Evaluar la efectividad del calentamiento en función de la frecuencia cardíaca. Los datos iniciales y los cálculos se presentan en la tabla. 2.30 y 2.31.

Tabla 2.30

Procesamiento de indicadores de frecuencia cardíaca antes del calentamiento.


Los errores de ambos grupos coincidieron, ya que los tamaños de muestra fueron iguales (el mismo grupo fue estudiado en diferentes condiciones) y las desviaciones estándar fueron s x = s y = 3 latidos/min. Pasemos a definir la prueba de Student:

Fijamos la fiabilidad de la cuenta: P = 0,95.

Número de grados de libertad k 1 = n 1 + n 2 - 2 = 18 + 18-2 = 34. De la tabla del Apéndice 4 encontramos t gr= 2,02.

Inferencia estadística. Dado que t = 11,62 y la frontera t gr = 2,02, entonces 11,62 > 2,02, es decir t > t gr, por lo tanto la diferencia entre las muestras es estadísticamente significativa.

Conclusión pedagógica. Se encontró que en términos de frecuencia cardíaca la diferencia entre el estado del grupo antes y después del calentamiento es estadísticamente significativa, es decir. significativo, fundamental. Entonces, basándonos en el indicador de frecuencia cardíaca, podemos concluir que el calentamiento es efectivo.

Criterio de Fisher es paramétrico. Se utiliza al comparar tasas de dispersión de muestras. Esto, por regla general, significa una comparación en términos de estabilidad del trabajo deportivo o estabilidad de los indicadores funcionales y técnicos en la práctica de la cultura física y el deporte. Las muestras pueden ser de diferentes tamaños.

El criterio de Fisher se define en la siguiente secuencia.

1. Encuentre el criterio de Fisher F usando la fórmula


donde , son las varianzas de las muestras comparadas.

Las condiciones del criterio de Fisher estipulan que en el numerador de la fórmula F hay una gran dispersión, es decir el número F es siempre mayor que uno.

Establecemos la confiabilidad del recuento: P = 0,95 - y determinamos el número de grados de libertad para ambas muestras: k 1 = n 1 - 1, k 2 = n 2 - 1.

Utilizando la tabla del Apéndice 4, encontramos el valor límite del criterio F gramo.

Comparación de los criterios F y F. gramo nos permite formular conclusiones:

si F > F gr, entonces la diferencia entre las muestras es estadísticamente significativa;

si F< F гр, то различие между выборками статически недо­стоверно.

Pongamos un ejemplo específico.

Ejemplo 2.15. Analicemos dos grupos de jugadores de balonmano: xyo (n 1= 16 personas) y y i (n 2 = 18 personas). Estos grupos de deportistas fueron estudiados para el tiempo o los tiempos de despegue al lanzar el balón a la portería.

¿Los indicadores de repulsión son del mismo tipo?

Los datos iniciales y los cálculos básicos se presentan en la tabla. 2,32 y 2,33.

Tabla 2.32

Procesamiento de indicadores de repulsión del primer grupo de jugadores de balonmano.


Definamos el criterio de Fisher:





Según los datos presentados en la tabla del Apéndice 6, encontramos Fgr: Fgr = 2,4

Prestemos atención al hecho de que en la tabla del Apéndice 6 la lista de los números de grados de libertad de dispersión tanto mayor como menor se vuelve más aproximada a medida que nos acercamos a números mayores. Así, el número de grados de libertad de la dispersión mayor sigue en este orden: 8, 9, 10, 11, 12, 14, 16, 20, 24, etc., y la más pequeña: 28, 29, 30, 40. , 50, etc. d.

Esto se explica por el hecho de que a medida que aumenta el tamaño de la muestra, las diferencias en la prueba F disminuyen y es posible utilizar valores tabulares cercanos a los datos originales. Entonces, en el ejemplo 2,15 = 17 está ausente y el valor más cercano a él se puede tomar como k = 16, de donde obtenemos Fgr = 2,4.

Inferencia estadística. Dado que la prueba de Fisher F= 2,5 > F= 2,4, las muestras son distinguibles estadísticamente de manera significativa.

Conclusión pedagógica. Los valores del tiempo (s) de salida al lanzar el balón a la portería para los jugadores de balonmano de ambos grupos difieren significativamente. Estos grupos deben considerarse diferentes.

Investigaciones futuras deberían revelar la razón de esta diferencia.

Ejemplo 2.20.(sobre la fiabilidad estadística de la muestra ). ¿Ha mejorado la calificación del futbolista si el (los) tiempo(s) desde que se da la señal hasta que se patea el balón al inicio del entrenamiento fue x i y al final y i ?

Los datos iniciales y los cálculos básicos se dan en la tabla. 2,40 y 2,41.

Tabla 2.40

Procesamiento de indicadores de tiempo desde dar una señal hasta golpear la pelota al inicio del entrenamiento.


Determinemos la diferencia entre grupos de indicadores utilizando el criterio de Student:

Con confiabilidad P = 0.95 y grados de libertad k = n 1 + n 2 - 2 = 22 + 22 - 2 = 42, usando la tabla del Apéndice 4 encontramos t gr= 2,02. Dado que t = 8,3 > t gr= 2,02: la diferencia es estadísticamente significativa.

Determinemos la diferencia entre grupos de indicadores utilizando el criterio de Fisher:


Según la tabla del Apéndice 2, con confiabilidad P = 0,95 y grados de libertad k = 22-1 = 21, el valor F gr = 21. Dado que F = 1,53< F гр = = 2,1, различие в рассеивании исходных данных статистически недостоверно.

Inferencia estadística. Según la media aritmética, la diferencia entre grupos de indicadores es estadísticamente significativa. En términos de dispersión (dispersión), la diferencia entre grupos de indicadores no es estadísticamente confiable.

Conclusión pedagógica. Las calificaciones del futbolista han mejorado significativamente, pero se debe prestar atención a la estabilidad de su testimonio.

Preparándose para el trabajo

Antes de realizar este trabajo de laboratorio en la disciplina “Metrología Deportiva” Todos los estudiantes del grupo de estudio deben formar equipos de trabajo de 3-4 estudiantes cada uno., para completar conjuntamente la asignación de trabajo de todos los trabajos de laboratorio.

En preparación para el trabajo Familiarícese con las secciones relevantes de la literatura recomendada (consulte la sección 6 de estas pautas) y las notas de las conferencias. Estudiar los apartados 1 y 2 de este trabajo de laboratorio, así como el trabajo asignado al mismo (apartado 4).

Preparar un formulario de informe en hojas estándar de papel de escribir tamaño A4 y rellénelo con los materiales necesarios para el trabajo.

El informe debe contener :

Carátula indicando departamento (UC y TR), grupo de estudio, apellido, nombre, patronímico del estudiante, número y título del trabajo de laboratorio, fecha de su realización, así como apellido, grado académico, título académico y posición del docente que acepta el trabajo;

Objeto del trabajo;

Fórmulas con valores numéricos que explican los resultados intermedios y finales de los cálculos;

Tablas de valores medidos y calculados;

Material gráfico requerido por el encargo;

Breves conclusiones sobre los resultados de cada etapa del trabajo asignado y sobre el trabajo realizado en general.

Todos los gráficos y tablas se dibujan cuidadosamente utilizando herramientas de dibujo. Los símbolos gráficos y alfabéticos convencionales deben cumplir con los GOST. Está permitido preparar un informe utilizando tecnología informática.

Asignación de trabajo

Antes de realizar todas las mediciones, cada miembro del equipo debe estudiar las reglas de uso del juego deportivo Dardos que figuran en el Apéndice 7, que son necesarias para llevar a cabo las etapas de investigación siguientes.

Etapa I de la investigación“Estudio de los resultados del acierto al blanco del juego deportivo de Dardos por parte de cada miembro del equipo para el cumplimiento de la ley de distribución normal según el criterio χ 2 Pearson y el criterio tres sigma"

1. medir (probar) su velocidad (personal) y coordinación de acciones, lanzando dardos de 30 a 40 veces a un objetivo circular en el juego de deportes Dardos.

2. Resultados de las mediciones (pruebas) xyo(en vasos) formateado en forma de una serie de variación e ingresado en la tabla 4.1 (columnas, realice todos los cálculos necesarios, complete las tablas necesarias y saque conclusiones apropiadas sobre el cumplimiento de la distribución empírica resultante con la ley de distribución normal, por analogía con cálculos, tablas y conclusiones similares del ejemplo 2.12, que figura en la sección 2 de estas directrices en las páginas 7 a 10.

Tabla 4.1

Correspondencia de la velocidad y coordinación de las acciones de los sujetos a la ley de distribución normal.

No. redondeado
Total

II – etapa de investigación

“Estimación de los indicadores promedio de la población general de aciertos al blanco del juego deportivo Dardos de todos los estudiantes del grupo de estudio en base a los resultados de las mediciones de los miembros de un equipo”

Evaluar los indicadores promedio de velocidad y coordinación de acciones de todos los estudiantes del grupo de estudio (según la lista del grupo de estudio en la revista de la clase) en función de los resultados de acertar en el objetivo de Dardos de todos los miembros del equipo, obtenidos en la primera etapa. de investigación de este trabajo de laboratorio.

1. Documentar los resultados de las mediciones de velocidad y coordinación de acciones. al lanzar dardos a un objetivo circular en un juego de deportes Dardos de todos los miembros de su equipo (2 - 4 personas), que representan una muestra de los resultados de las mediciones de la población general (resultados de las mediciones de todos los estudiantes de un grupo de estudio, por ejemplo, 15 personas), inscribiéndolas en la segunda y tercera columnas Tabla 4.2.

Tabla 4.2

Procesamiento de indicadores de rapidez y coordinación de acciones.

miembros de la brigada

No.
Total

En el cuadro 4.2 bajo debe ser entendido , puntuación media igualada (ver resultados del cálculo en la Tabla 4.1) miembros de su equipo ( , obtenido en la primera etapa de la investigación. Cabe señalar que, por regla general, La Tabla 4.2 contiene el valor promedio calculado de los resultados de la medición obtenidos por un miembro del equipo en la primera etapa de la investigación. , ya que la probabilidad de que coincidan los resultados de las mediciones de diferentes miembros del equipo es muy pequeña. Entonces, por regla general, los valores en columna Tabla 4.2 para cada fila - igual a 1, A en la línea “Total "columnas" ", se escribe el número de miembros de su equipo.

2. Realizar todos los cálculos necesarios para completar la tabla 4.2, así como otros cálculos y conclusiones similares a los cálculos y conclusiones del ejemplo 2.13 que se dan en la 2ª sección de este desarrollo metodológico en las páginas 13-14. Se debe tener en cuenta al calcular el error de representatividad. "metro" es necesario utilizar la fórmula 2.4 dada en la página 13 de este desarrollo metodológico, ya que la muestra es pequeña (n, y se conoce el número de elementos de la población general N, y es igual al número de estudiantes del grupo de estudio, según el listado de la revista del grupo de estudio.

III – etapa de investigación

Evaluación de la efectividad del calentamiento según el indicador “Velocidad y coordinación de acciones” por cada miembro del equipo mediante la prueba t de Student

Evaluar la efectividad del calentamiento para el lanzamiento de dardos a la diana del juego deportivo "Dardos", realizado en la primera etapa de investigación de este trabajo de laboratorio, por cada miembro del equipo según el indicador "Velocidad y coordinación de acciones", utilizando el criterio de Student, un criterio paramétrico para la confiabilidad estadística de la ley de distribución empírica con respecto a la ley de distribución normal.

… Total

2. variaciones y RMS , resultados de las mediciones del indicador “Velocidad y coordinación de acciones” en base a los resultados del calentamiento, dado en la tabla 4.3, (ver cálculos similares dados inmediatamente después de la tabla 2.30 del ejemplo 2.14 en la página 16 de este desarrollo metodológico).

3. Cada miembro del equipo de trabajo. medir (probar) su velocidad (personal) y coordinación de acciones después del calentamiento,

… Total

5. Realizar cálculos promedio variaciones y RMS ,resultados de la medición del indicador “Velocidad y coordinación de acciones” después del calentamiento, dado en la tabla 4.4, Anote los resultados generales de la medición basándose en los resultados del calentamiento. (ver cálculos similares dados inmediatamente después de la tabla 2.31 del ejemplo 2.14 en la página 17 de este desarrollo metodológico).

6. Realice todos los cálculos y conclusiones necesarios similares a los cálculos y conclusiones del ejemplo 2.14 que figuran en la segunda sección de este desarrollo metodológico en las páginas 16-17. Se debe tener en cuenta al calcular el error de representatividad. "metro" es necesario utilizar la fórmula 2.1 dada en la página 12 de este desarrollo metodológico, ya que la muestra es n y se desconoce el número de elementos de la población N (.

IV – etapa de investigación

Evaluación de la uniformidad (estabilidad) de los indicadores “Rapidez y coordinación de acciones” de dos miembros del equipo utilizando el criterio de Fisher

Evaluar la uniformidad (estabilidad) de los indicadores “Rapidez y coordinación de acciones” de dos miembros del equipo utilizando el criterio de Fisher, con base en los resultados de medición obtenidos en la tercera etapa de la investigación en este trabajo de laboratorio.

Para hacer esto necesitas hacer lo siguiente.

Utilizando los datos de las tablas 4.3 y 4.4, los resultados del cálculo de las varianzas de estas tablas obtenidos en la tercera etapa de la investigación, así como la metodología para calcular y aplicar el criterio de Fisher para evaluar la uniformidad (estabilidad) de los indicadores deportivos, dados en ejemplo 2.15 en las páginas 18-19 de este desarrollo metodológico, extraiga conclusiones estadísticas y pedagógicas apropiadas.

V – etapa de investigación

Evaluación de grupos de indicadores “Rapidez y coordinación de acciones” de un miembro del equipo antes y después del calentamiento

CONFIABILIDAD ESTADÍSTICA

- Inglés credibilidad/validez, estadística; Alemán Validación estadística. Coherencia, objetividad y falta de ambigüedad en una prueba estadística o en un q.l. conjunto de medidas. D. s. se puede probar repitiendo la misma prueba (o cuestionario) sobre el mismo tema para ver si se obtienen los mismos resultados; o comparando diferentes partes de una prueba que se supone mide el mismo objeto.

Antinazi. Enciclopedia de Sociología, 2009

Vea qué es “CONFIABILIDAD ESTADÍSTICA” en otros diccionarios:

    CONFIABILIDAD ESTADÍSTICA- Inglés credibilidad/validez, estadística; Alemán Validación estadística. Coherencia, objetividad y falta de ambigüedad en una prueba estadística o en un q.l. conjunto de medidas. D. s. se puede verificar repitiendo la misma prueba (o... Diccionario explicativo de sociología

    En estadística, un valor se denomina estadísticamente significativo si la probabilidad de que ocurra por casualidad o incluso por valores más extremos es baja. Aquí, por extremo nos referimos al grado de desviación de las estadísticas de prueba de la hipótesis nula. La diferencia se llama... ...Wikipedia

    El fenómeno físico de la estabilidad estadística es que a medida que aumenta el tamaño de la muestra, la frecuencia de un evento aleatorio o el valor promedio de una cantidad física tiende a algún número fijo. El fenómeno de la estadística... ... Wikipedia

    FIABILIDAD DE LAS DIFERENCIAS (Similitudes)- procedimiento estadístico analítico para establecer el nivel de significancia de diferencias o similitudes entre muestras según los indicadores (variables) estudiados ... Proceso educativo moderno: conceptos y términos básicos.

    INFORMES ESTADÍSTICOS Gran diccionario de contabilidad

    INFORMES ESTADÍSTICOS- una forma de observación estadística estatal, en la que los organismos pertinentes reciben de las empresas (organizaciones e instituciones) la información que necesitan en forma de documentos de presentación de informes legalmente establecidos (informes estadísticos) para... Gran diccionario económico

    Una ciencia que estudia métodos de observación sistemática de fenómenos masivos en la vida social humana, compilando descripciones numéricas de los mismos y el procesamiento científico de estas descripciones. Por tanto, la estadística teórica es una ciencia... ... Diccionario enciclopédico F.A. Brockhaus y I.A. Efrón

    Coeficiente de correlación- (Coeficiente de correlación) El coeficiente de correlación es un indicador estadístico de la dependencia de dos variables aleatorias Definición del coeficiente de correlación, tipos de coeficientes de correlación, propiedades del coeficiente de correlación, cálculo y aplicación... ... Enciclopedia de inversores

    Estadística- (Estadística) La estadística es una ciencia teórica general que estudia los cambios cuantitativos en fenómenos y procesos. Estadísticas estatales, servicios estadísticos, Rosstat (Goskomstat), datos estadísticos, estadísticas de consultas, estadísticas de ventas,... ... Enciclopedia de inversores

    Correlación- (Correlación) La correlación es una relación estadística entre dos o más variables aleatorias. El concepto de correlación, tipos de correlación, coeficiente de correlación, análisis de correlación, correlación de precios, correlación de pares de divisas en Forex Contenidos... ... Enciclopedia de inversores

Libros

  • Investigación en matemáticas y matemáticas en la investigación: Colección metodológica sobre las actividades de investigación de los estudiantes, Borzenko V.I.. La colección presenta desarrollos metodológicos aplicables en la organización de las actividades de investigación de los estudiantes. La primera parte de la colección está dedicada a la aplicación de un enfoque de investigación en...

¿Qué crees que hace que tu “otra mitad” sea especial y significativa? ¿Está relacionado con su personalidad o con los sentimientos que tienes por esta persona? ¿O tal vez con el simple hecho de que la hipótesis sobre la aleatoriedad de tu simpatía, como muestran los estudios, tiene una probabilidad inferior al 5%? Si consideramos fiable la última afirmación, entonces, en principio, no existirían sitios de citas exitosos:

Cuando realiza pruebas divididas o cualquier otro análisis de su sitio, malinterpretar la "significancia estadística" puede llevar a una mala interpretación de los resultados y, por lo tanto, a acciones incorrectas en el proceso de optimización de la conversión. Esto es cierto para las miles de otras pruebas estadísticas que se realizan todos los días en todas las industrias existentes.

Para comprender qué es la “importancia estadística”, es necesario profundizar en la historia del término, conocer su verdadero significado y comprender cómo esta “nueva” y antigua comprensión le ayudará a interpretar correctamente los resultados de su investigación.

un poco de historia

Aunque la humanidad ha estado utilizando las estadísticas para resolver diversos problemas durante muchos siglos, la comprensión moderna de la significación estadística, la prueba de hipótesis, la aleatorización e incluso el Diseño de Experimentos (DOE) comenzó a tomar forma recién a principios del siglo XX y está indisolublemente ligada a el nombre de Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher fue un biólogo y estadístico evolutivo que tenía una pasión especial por el estudio de la evolución y la selección natural en los reinos animal y vegetal. Durante su ilustre carrera, desarrolló y popularizó muchas herramientas estadísticas útiles que todavía utilizamos hoy.

Fisher utilizó las técnicas que desarrolló para explicar procesos biológicos como la dominancia, las mutaciones y las desviaciones genéticas. Podemos utilizar las mismas herramientas hoy para optimizar y mejorar el contenido de los recursos web. El hecho de que estas herramientas de análisis puedan usarse para trabajar con objetos que ni siquiera existían en el momento de su creación parece bastante sorprendente. Es igualmente sorprendente que la gente solía realizar cálculos complejos sin calculadoras ni ordenadores.

Para describir los resultados de un experimento estadístico como si tuvieran una alta probabilidad de ser ciertos, Fisher utilizó la palabra "significancia".

Además, uno de los desarrollos más interesantes de Fisher puede denominarse la hipótesis del “hijo sexy”. Según esta teoría, las mujeres prefieren a los hombres sexualmente promiscuos (promiscuos) porque esto permitirá que los hijos nacidos de estos hombres tengan la misma predisposición y produzcan más descendencia (tenga en cuenta que esto es solo una teoría).

Pero nadie, ni siquiera los científicos brillantes, está inmune a cometer errores. Los defectos de Fisher todavía atormentan a los especialistas hasta el día de hoy. Pero recuerde las palabras de Albert Einstein: "Quien nunca ha cometido un error nunca ha creado nada nuevo".

Antes de pasar al siguiente punto, recuerde: la significación estadística se produce cuando la diferencia en los resultados de las pruebas es tan grande que no puede explicarse mediante factores aleatorios.

¿Cuál es tu hipótesis?

Para comprender lo que significa “significancia estadística”, primero es necesario comprender qué es la “prueba de hipótesis”, ya que los dos términos están estrechamente entrelazados.
Una hipótesis es sólo una teoría. Una vez que haya desarrollado una teoría, necesitará establecer un proceso para recolectar suficiente evidencia y recolectar realmente esa evidencia. Hay dos tipos de hipótesis.

Manzanas o naranjas, ¿cuál es mejor?

Hipótesis nula

Por regla general, aquí es donde muchas personas experimentan dificultades. Una cosa a tener en cuenta es que una hipótesis nula no es algo que deba probarse, como demostrar que un determinado cambio en un sitio web conducirá a un aumento en las conversiones, sino viceversa. La hipótesis nula es una teoría que afirma que si realiza algún cambio en el sitio, no sucederá nada. Y el objetivo del investigador es refutar esta teoría, no probarla.

Si nos fijamos en la experiencia de la resolución de crímenes, donde los investigadores también formulan hipótesis sobre quién es el criminal, la hipótesis nula toma la forma de la llamada presunción de inocencia, el concepto según el cual se presume inocente al acusado hasta que se demuestre su culpabilidad. en un tribunal de justicia.

Si la hipótesis nula es que dos objetos son iguales en sus propiedades y estás tratando de demostrar que uno de ellos es mejor (por ejemplo, A es mejor que B), debes rechazar la hipótesis nula a favor de la alternativa. Por ejemplo, está comparando una u otra herramienta de optimización de conversiones. En la hipótesis nula, ambos tienen el mismo efecto (o ningún efecto) sobre el objetivo. Alternativamente, el efecto de uno de ellos es mejor.

Su hipótesis alternativa puede contener un valor numérico, como B - A > 20%. En este caso, la hipótesis nula y la alternativa pueden tomar la siguiente forma:

Otro nombre para una hipótesis alternativa es hipótesis de investigación porque el investigador siempre está interesado en probar esta hipótesis en particular.

Significancia estadística y valor p.

Volvamos nuevamente a Ronald Fisher y su concepto de significación estadística.

Ahora que tienes una hipótesis nula y una alternativa, ¿cómo puedes probar una y refutar la otra?

Debido a que las estadísticas, por su propia naturaleza, implican el estudio de una población específica (muestra), nunca se puede estar 100% seguro de los resultados obtenidos. Un buen ejemplo: los resultados electorales a menudo difieren de los resultados de las encuestas preliminares e incluso de los resultados de las encuestas a boca de urna.

El Dr. Fisher quería crear una línea divisoria que le permitiera saber si su experimento fue un éxito o no. Así apareció el índice de confiabilidad. La credibilidad es el nivel que tomamos para decir lo que consideramos “significativo” y lo que no. Si "p", el índice de significancia, es 0,05 o menos, entonces los resultados son fiables.

No te preocupes, en realidad no es tan confuso como parece.

Distribución de probabilidad gaussiana. A lo largo de los bordes están los valores menos probables de la variable, en el centro están los más probables. La puntuación P (área sombreada en verde) es la probabilidad de que el resultado observado ocurra por casualidad.

La distribución de probabilidad normal (distribución gaussiana) es una representación de todos los valores posibles de una determinada variable en un gráfico (en la figura anterior) y sus frecuencias. Si investiga correctamente y luego traza todas sus respuestas en un gráfico, obtendrá exactamente esta distribución. Según la distribución normal, recibirá un gran porcentaje de respuestas similares y el resto de opciones se ubicarán en los bordes del gráfico (las llamadas "colas"). Esta distribución de valores se encuentra a menudo en la naturaleza, por eso se la denomina “normal”.

Usando una ecuación basada en su muestra y los resultados de la prueba, puede calcular lo que se llama una "estadística de prueba", que indicará cuánto se desvían sus resultados. También le dirá qué tan cerca está de que la hipótesis nula sea cierta.

Para ayudarle a entenderlo, utilice calculadoras en línea para calcular la significación estadística:

Un ejemplo de este tipo de calculadoras.

La letra "p" representa la probabilidad de que la hipótesis nula sea cierta. Si el número es pequeño, indicará una diferencia entre los grupos de prueba, mientras que la hipótesis nula sería que son iguales. Gráficamente, parecerá que la estadística de su prueba estará más cerca de una de las colas de su distribución en forma de campana.

El Dr. Fisher decidió establecer el umbral de significancia en p ≤ 0,05. Sin embargo, esta afirmación es controvertida, ya que conduce a dos dificultades:

1. Primero, el hecho de que haya demostrado que la hipótesis nula es falsa no significa que haya demostrado la hipótesis alternativa. Todo este significado simplemente significa que no se puede probar ni A ni B.

2. En segundo lugar, si la puntuación p es 0,049, significará que la probabilidad de la hipótesis nula será del 4,9%. Esto puede significar que los resultados de su prueba pueden ser verdaderos y falsos al mismo tiempo.

Puede utilizar o no la puntuación p, pero luego deberá calcular la probabilidad de la hipótesis nula caso por caso y decidir si es lo suficientemente grande como para impedirle realizar los cambios que planeó y probó. .

El escenario más común para realizar una prueba estadística hoy en día es establecer un umbral de significancia de p ≤ 0,05 antes de ejecutar la prueba en sí. Solo asegúrese de observar de cerca el valor p cuando verifique sus resultados.

Errores 1 y 2

Ha pasado tanto tiempo que los errores que pueden ocurrir al utilizar la métrica de significancia estadística incluso han recibido nombres propios.

Errores tipo 1

Como se mencionó anteriormente, un valor p de 0,05 significa que hay un 5% de posibilidades de que la hipótesis nula sea cierta. Si no lo hace, cometerá el error número 1. Los resultados dicen que su nuevo sitio web aumentó sus tasas de conversión, pero hay un 5% de posibilidades de que no sea así.

Errores tipo 2

Este error es el opuesto al error 1: se acepta la hipótesis nula cuando es falsa. Por ejemplo, los resultados de las pruebas le indican que los cambios realizados en el sitio no aportaron ninguna mejora, aunque sí hubo cambios. Como resultado, pierde la oportunidad de mejorar su desempeño.

Este error es común en pruebas con un tamaño de muestra insuficiente, así que recuerde: cuanto mayor sea la muestra, más confiable será el resultado.

Conclusión

Quizás ningún término sea tan popular entre los investigadores como significación estadística. Cuando los resultados de las pruebas no son estadísticamente significativos, las consecuencias van desde un aumento en las tasas de conversión hasta el colapso de una empresa.

Y dado que los especialistas en marketing utilizan este término cuando optimizan sus recursos, es necesario saber qué significa realmente. Las condiciones de la prueba pueden variar, pero el tamaño de la muestra y los criterios de éxito siempre son importantes. Recuerda esto.



Este artículo también está disponible en los siguientes idiomas: tailandés

  • Próximo

    MUCHAS GRACIAS por la información tan útil del artículo. Todo se presenta muy claramente. Parece que se ha trabajado mucho para analizar el funcionamiento de la tienda eBay.

    • Gracias a ti y a otros lectores habituales de mi blog. Sin ustedes, no habría estado lo suficientemente motivado como para dedicar mucho tiempo al mantenimiento de este sitio. Mi cerebro está estructurado de esta manera: me gusta profundizar, sistematizar datos dispersos, probar cosas que nadie ha hecho antes ni visto desde este ángulo. Es una lástima que nuestros compatriotas no tengan tiempo para comprar en eBay debido a la crisis en Rusia. Compran en Aliexpress desde China, ya que los productos allí son mucho más baratos (a menudo a expensas de la calidad). Pero las subastas en línea de eBay, Amazon y ETSY fácilmente darán a los chinos una ventaja en la gama de artículos de marca, artículos antiguos, artículos hechos a mano y diversos productos étnicos.

      • Próximo

        Lo valioso de sus artículos es su actitud personal y su análisis del tema. No abandonéis este blog, vengo aquí a menudo. Deberíamos ser muchos así. Envíame un correo electrónico Recientemente recibí un correo electrónico con una oferta de que me enseñarían cómo operar en Amazon y eBay.

  • Y recordé tus artículos detallados sobre estos oficios. área Releí todo nuevamente y concluí que los cursos son una estafa. Todavía no he comprado nada en eBay. No soy de Rusia, sino de Kazajstán (Almaty). Pero tampoco necesitamos ningún gasto adicional todavía.
    Te deseo buena suerte y mantente a salvo en Asia.