Статистическая значимость результата (p-значение) представляет собой оцененную меру уверенности в его «истинности» (в смысле «репрезентативности выборки»). Выражаясь более технически, p-значение ‑ это показатель, находящийся в убывающей зависимости от надежности результата. Более высокое p-значение соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно, p-значение представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию. Например, p-значение=0.05 (т.е. 1/20) показывает, что имеется 5% вероятность, что найденная в выборке связь между переменными является лишь случайной особенностью данной выборки. Иными словами, если данная зависимость в популяции отсутствует, а вы многократно проводили бы подобные эксперименты, то примерно в одном из двадцати повторений эксперимента можно было бы ожидать такой же или более сильной зависимости между переменными.

Во многих исследованиях p-значение=0.05 рассматривается как «приемлемая граница» уровня ошибки.

Не существует никакого способа избежать произвола при принятии решения о том, какой уровень значимости следует действительно считать «значимым». Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным. На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. до проведения опыта) или обнаружен апостериорно в результате многих анализов и сравнений, выполненных с множеством данных, а также на традиции, имеющейся в данной области исследований. Обычно во многих областях результат p 0.05 является приемлемой границей статистической значимости, однако следует помнить, что этот уровень все еще включает довольно большую вероятность ошибки (5%). Результаты, значимые на уровне p 0.01 обычно рассматриваются как статистически значимые, а результаты с уровнем p 0.005 или p 0.001 как высоко значимые. Однако следует понимать, что данная классификация уровней значимости достаточно произвольна и является всего лишь неформальным соглашением, принятым на основе практического опыта в той или иной области исследования.

Как было уже сказано, величина зависимости и надежность представляют две различные характеристики зависимостей между переменными. Тем не менее, нельзя сказать, что они совершенно независимы. Говоря общим языком, чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем более она надежна.

Если предполагать отсутствие зависимости между соответствующими переменными в популяции, то наиболее вероятно ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в выборке, тем менее вероятно, что этой зависимости нет в популяции, из которой она извлечена.


Объем выборки влияет на значимость зависимости. Если наблюдений мало, то соответственно имеется мало возможных комбинаций значений этих переменных и таким образом, вероятность случайного обнаружения комбинации значений, показывающих сильную зависимость, относительно велика.

Как вычисляется уровень статистической значимости. Предположим, вы уже вычислили меру зависимости между двумя переменными (как объяснялось выше). Следующий вопрос, стоящий перед вами: «насколько значима эта зависимость?» Например, является ли 40% объясненной дисперсии между двумя переменными достаточным, чтобы считать зависимость значимой? Ответ: «в зависимости от обстоятельств». Именно, значимость зависит в основном от объема выборки. Как уже объяснялось, в очень больших выборках даже очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными. Таким образом, для того чтобы определить уровень статистической значимости, вам нужна функция, которая представляла бы зависимость между «величиной» и «значимостью» зависимости между переменными для каждого объема выборки. Данная функция указала бы вам точно «насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема, в предположении, что в популяции такой зависимости нет». Другими словами, эта функция давала бы уровень значимости (p-значение), и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в популяции. Эта «альтернативная» гипотеза (состоящая в том, что нет зависимости в популяции) обычно называется нулевой гипотезой. Было бы идеально, если бы функция, вычисляющая вероятность ошибки, была линейной и имела только различные наклоны для разных объемов выборки. К сожалению, эта функция существенно более сложная и не всегда точно одна и та же. Тем не менее, в большинстве случаев ее форма известна, и ее можно использовать для определения уровней значимости при исследовании выборок заданного размера. Большинство этих функций связано с очень важным классом распределений, называемым нормальным.

Сегодня это действительно слишком просто: вы можете подойти к компьютеру и практически без знания того, что вы делаете, создавать разумное и бессмыслицу с поистине изумительной быстротой. (Дж. Бокс)

Основные термины и понятия медицинской статистики

В данной статье мы приведем некоторые ключевые понятия статистики, актуальные при проведении медицинских исследований. Более подробно термины разбираются в соответствующих статьях.

Вариация

Определение. Степень рассеяния данных (значений признака) по области значений

Вероятность

Определение . Вероятность(probability) - степень возможности проявления какого - либо определённого события в тех или иных условиях.

Пример. Поясним определение термина на предложении «Вероятность выздоровления при применении лекарственного препарата Aримидекс равна 70%». Событием является «выздоровление больного», условием «больной принимает Аримидекс», степенью возможности - 70% (грубо говоря, из 100 человек, принимающих Аримидекс, выздоравливают 70).

Кумулятивная вероятность

Определение. Кумулятивная вероятность выживания (Cumulative Probability of surviving) в момент времени t - это то же самое, что доля выживших пациентов к этому моменту времени.

Пример. Если говорится, что кумулятивная вероятность выживания после проведения пятилетнего курса лечения равна 0.7, то это значит, что из рассматриваемой группы пациентов в живых осталось 70% от начального количества, а 30% умерло. Другими словами, из каждой сотни человек 30 умерло в течение первых 5 лет.

Время до события

Определение. Время до события - это время, выраженное в некоторых единицах, прошедшее с некоторого начального момента времени до наступления некоторого события.

Пояснение. В качестве единиц времени в медицинских исследованиях выступают дни, месяцы и годы.

Типичные примеры начальных моментов времени:

    начало наблюдения за пациентом

    проведение хирургического лечения

Типичные примеры рассматриваемых событий:

    прогрессирование болезни

    возникновение рецидива

    смерть пациента

Выборка

Определение. Часть популяции, полученная путем отбора.

По результатам анализа выборки делают выводы о всей популяции, что правомерно только в случае, если отбор был случайным. Поскольку случайный отбор из популяции осуществить практически невозможно, следует стремиться к тому, чтобы выборка была по крайней мере репрезентативна по отношению к популяции.

Зависимые и независимые выборки

Определение. Выборки, в которые объекты исследования набирались независимо друг от друга. Альтернатива независимым выборкам - зависимые (связные, парные) выборки.

Гипотеза

Двусторонняя и односторонняя гипотезы

Сначала поясним применение термина гипотеза в статистике.

Цель большинства исследований - проверка истинности некоторого утверждения. Целью тестирования лекарственных препараторов чаще всего является проверка гипотезы, что одно лекарство эффективнее другого (например, Аримидекс эффективнее Тамоксифена).

Для предания строгости исследования, проверяемое утверждение выражают математически. Например, если А - это количество лет, которое проживёт пациент, принимающий Аримидекс, а Т -это количество лет, которое проживёт пациент, принимающий Тамоксифен, то проверяемую гипотезу можно записать как А>Т.

Определение. Гипотеза называется двусторонней (2-sided), если она состоит в равенстве двух величин.

Пример двусторонней гипотезы: A=T.

Определение. Гипотеза называется односторонней (1-sided),если она состоит в неравенстве двух величин.

Примеры односторонних гипотез:

Дихотомические (бинарные) данные

Определение. Данные, выражаемые только двумя допустимыми альтернативными значениями

Пример: Пациент «здоров» - «болен». Отек "есть" - "нет".

Доверительный интервал

Определение. Доверительный интервал (confidence interval) для некоторой величины - это диапазон вокруг значения величины, в котором находится истинное значение этой величины (с определенным уровнем доверия).

Пример. Пусть исследуемой величиной является количество пациентов в год. В среднем их количество равно 500, а 95% -доверительный интервал - (350, 900). Это означает, что, скорее всего (с вероятностью 95%), в течение года в клинику обратятся не менее 350 и не более 900 человек.

Обозначение. Очень часто используются сокращение: ДИ 95 % (CI 95%) - это доверительный интервал с уровнем доверия 95%.

Достоверность, статистическая значимость (P - уровень)

Определение. Статистическая значимость результата - это мера уверенности в его "истинности".

Любое исследование проходит на основе лишь части объектов. Исследование эффективности лекарственного препарата проводится на основе не вообще всех больных на планете, а лишь некоторой группы пациентов (провести анализ на основе всех больных просто невозможно).

Предположим, что в результате анализа был сделан некоторый вывод (например, использование в качестве адекватной терапии препарата Аримидекс в 2 раза эффективнее, чем препарата Тамоксифен).

Вопрос, который необходимо при этом задавать: "Насколько можно доверять этому результату?".

Представьте, что мы проводили исследование на основе только двух пациентов. Конечно же, в этом случае к результатам нужно относиться с опасением. Если же были обследовано большое количество больных (численное значение «большого количества» зависит от ситуации), то сделанным выводам уже можно доверять.

Так вот, степень доверия и определяется значением p-уровня (p-value).

Более высокий p- уровень соответствует более низкому уровню доверия к результатам, полученным при анализе выборки. Например, p- уровень, равный 0.05 (5%) показывает, что сделанный при анализе некоторой группы вывод является лишь случайной особенностью этих объектов с вероятностью только 5%.

Другими словами, с очень большой вероятностью (95%) вывод можно распространить на все объекты.

Во многих исследованиях 5% рассматривается как приемлемое значение p-уровня. Это значит, что если, например, p= 0.01, то результатам доверять можно, а если p=0.06, то нельзя.

Исследование

Проспективное исследование - это исследование, в котором выборки выделяются на основе исходного фактора, а в выборках анализируется некоторый результирующий фактор.

Ретроспективное исследование - это исследование, в котором выборки выделяются на основе результирующего фактора, а в выборках анализируется некоторый исходный фактор.

Пример. Исходный фактор - беременная женщина моложе/старше 20 лет. Результирующий фактор - ребёнок легче/тяжелее 2,5 кг. Анализируем, зависит ли вес ребёнка от возраста матери.

Если мы набираем 2 выборки, в одной - матери моложе 20 лет, в другой - старше, а затем анализируем массу детей в каждой группе, то это проспективное исследование.

Если мы набираем 2 выборки, в одной - матери, родившие детей легче 2,5 кг, в другой - тяжелее, а затем анализируем возраст матерей в каждой группе, то это ретроспективное исследование (естественно, такое исследование можно провести, только когда опыт закончен, т.е. все дети родились).

Исход

Определение. Клинически значимое явление, лабораторный показатель или признак, который служит объектом интереса исследователя. При проведении клинических испытаний исходы служат критериями оценки эффективности лечебного или профилактического воздействия.

Клиническая эпидемиология

Определение. Наука, позволяющая осуществлять прогнозирование того или иного исхода для каждого конкретного больного на основании изучения клинического течения болезни в аналогичных случаях с использованием строгих научных методов изучения больных для обеспечения точности прогнозов.

Когорта

Определение. Группа участников исследования, объединенных каким-либо общим признаком в момент ее формирования и исследуемых на протяжении длительного периода времени.

Контроль

Контроль исторический

Определение. Контрольная группа, сформированная и обследованная в период, предшествующий исследованию.

Контроль параллельный

Определение. Контрольная группа, формируемая одновременно с формированием основной группы.

Корреляция

Определение. Статистическая связь двух признаков (количественных или порядковых), показывающая, что большему значению одного признака в определенной части случаев соответствует большее - в случае положительной (прямой) корреляции - значение другого признака или меньшее значение - в случае отрицательной (обратной) корреляции.

Пример. Между уровнем тромбоцитов и лейкоцитов в крови пациента обнаружена значимая корреляция. Коэффициент корреляции равен 0,76.

Коэффициент риска (КР)

Определение. Коэффициент риска (hazard ratio) - это отношение вероятности наступления некоторого («нехорошего») события для первой группы объектов к вероятности наступления этого же события для второй группы объектов.

Пример. Если вероятность появления рака лёгких у некурящих равна 20%, а у курильщиков - 100%, то КР будет равен одной пятой. В этом примере первой группой объектов являются некурящие люди, второй группой - курящие, а в качестве «нехорошего» события рассматривается возникновение рака лёгких.

Очевидно, что:

1) если КР=1, то вероятность наступления события в группах одинаковая

2) если КР>1, то событие чаще происходит с объектами из первой группы, чем из второй

3) если КР<1, то событие чаще происходит с объектами из второй группы, чем из первой

Мета-анализ

Определение. С татистический анализ, обобщающий результаты нескольких исследований, исследующих одну и ту же проблему (обычно эффективность методов лечения, профилактики, диагностики). Объединение исследований обеспечивает большую выборку для анализа и большую статистическую мощность объединяемых исследований. Используется для повышения доказательности или уверенности в заключении об эффективности исследуемого метода.

Метод Каплана - Мейера (Множительные оценки Каплана - Мейера)

Этот метод был придуман статистиками Е.Л.Капланом и Полем Мейером.

Метод используется для вычисления различных величин, связанных с временем наблюдения за пациентом. Примеры таких величин:

    вероятность выздоровления в течении одного года при применении лекарственного препарата

    шанс возникновения рецидива после операции в течении трёх лет после операции

    кумулятивная вероятность выживания в течение пяти лет среди пациентов с раком простаты при ампутации органа

Поясним преимущества использования метода Каплана - Мейера.

Значение величин при «обычном» анализе (не использующем метод Каплана-Мейера) рассчитываются на основе разбиения рассматриваемого временного интервала на промежутки.

Например, если мы исследуем вероятность смерти пациента в течение 5 лет, то временной интервал может быть разделён как на 5 частей (менее 1 года, 1-2 года, 2-3 года, 3-4 года, 4-5 лет), так и на 10 (по полгода каждый), или на другое количество интервалов. Результаты же при разных разбиениях получатся разные.

Выбор наиболее подходящего разбиения - непростая задача.

Оценки значений величин, полученных по методу Каплана- Мейера не зависят от разбиения времени наблюдения на интервалы, а зависят только от времени жизни каждого отдельного пациента.

Поэтому исследователю проще проводить анализ, да и результаты нередко оказываются качественней результатов «обычного» анализа.

Кривая Каплана -Мейера (Kaplan - Meier curve)- это график кривой выживаемости, полученной по методу Каплана-Мейера.

Модель Кокса

Эта модель была придумана сэром Дэвидом Роксби Коксом (р.1924), известным английским статистиком, автором более 300 статей и книг.

Модель Кокса используется в ситуациях, когда исследуемые при анализе выживаемости величины зависят от функций времени. Например, вероятность возникновения рецидива через t лет (t=1,2,…), может зависеть от логарифма времени log(t).

Важным достоинством метода, предложенного Коксом, является применимость этого метода в большом количестве ситуаций (модель не накладывает жестких ограничений на природу или форму распределения вероятностей).

На основе модели Кокса можно проводить анализ (называемый анализом Кокса (Cox analysis)), результатом проведения которого является значение коэффициента риска и доверительного интервала для коэффициента риска.

Непараметрические методы статистики

Определение. Класс статистических методов, которые используются главным образом для анализа количественных данных, не образующих нормальное распределение, а также для анализа качественных данных.

Пример. Для выявления значимости различий систолического давления пациентов в зависимости от типа лечения воспользуемся непараметрическим критерием Манна-Уитни.

Признак (переменная)

Определение. Х арактеристика объекта исследования (наблюдения). Различают качественные и количественные признаки.

Рандомизация

Определение. Способ случайного распределения объектов исследования в основную и контрольную группы с использованием специальных средств (таблиц или счетчика случайных чисел, подбрасывания монеты и других способов случайного назначения номера группы включаемому наблюдению). С помощью рандомизации сводятся к минимуму различия между группами по известным и неизвестным признакам, потенциально влияющим на изучаемый исход.

Риск

Атрибутивный - дополнительный риск возникновения неблагоприятного исхода (например, заболевания) в связи с наличием определенной характеристики (фактора риска) у объекта исследования. Это часть риска развития болезни, которая связана с данным фактором риска, объясняется им и может быть устранена, если этот фактор риска устранить.

Относительный риск - отношение риска возникновения неблагоприятного состояния в одной группе к риску этого состояния в другой группе. Используется в проспективных и наблюдательных исследованиях, когда группы формируются заранее, а возникновение исследуемого состояния ещё не произошло.

Скользящий экзамен

Определение. Метод проверки устойчивости, надежности, работоспособности (валидности) статистической модели путем поочередного удаления наблюдений и пересчета модели. Чем более сходны полученные модели, тем более устойчива, надежна модель.

Событие

Определение. Клинический исход, наблюдаемый в исследовании, например возникновение осложнения, рецидива, наступление выздоровления, смерти.

Стратификация

Определение. М етод формирования выборки, при котором совокупность всех участников, соответствующих критериям включения в исследование, сначала разделяется на группы (страты) на основе одной или нескольких характеристик (обычно пола, возраста), потенциально влияющих на изучаемый исход, а затем из каждой из этих групп (страт) независимо проводится набор участников в экспериментальную и контрольную группы. Это позволяет исследователю соблюдать баланс важных характеристик между экспериментальной и контрольной группами.

Таблица сопряженности

Определение. Таблица абсолютных частот (количества) наблюдений, столбцы которой соответствуют значениям одного признака, а строки - значениям другого признака (в случае двумерной таблицы сопряженности). Значения абсолютных частот располагаются в клетках на пересечении рядов и колонок.

Приведем пример таблицы сопряженности. Операция на аневризме была сделана 194 пациентам. Известен показатель выраженности отека у пациентов перед операцией.

Отек\ Исход

нет отека 20 6 26
умеренный отек 27 15 42
выраженный отек 8 21 29
m j 55 42 194

Таким образом, из 26 пациентов, не имеющих отека, после операции выжило 20 пациентов, умерло - 6 пациентов. Из 42 пациентов, имеющих умеренный отек выжило 27 пациентов, умерло - 15 и т.д.

Критерий хи-квадрат для таблиц сопряженности

Для определения значимости (достоверности) различий одного признака в зависимости от другого (например, исхода операции в зависимости от выраженности отека) применяется критерий хи-квадрат для таблиц сопряженности:


Шанс

Пусть вероятность некоторого события равна p. Тогда вероятность того, что событие не произойдёт равна 1-p.

Например, если вероятность того, что больной останется жив спустя пять лет равна 0.8 (80%), то вероятность того, что он за этот временной промежуток умрёт равна 0.2 (20%).

Определение. Шанс - это отношение вероятности того, что события произойдёт к вероятности того, что событие не произойдёт.

Пример. В нашем примере (про больного) шанс равен 4, так как 0.8/0.2=4

Таким образом, вероятность выздоровления в 4 раза больше вероятности смерти.

Интерпретация значения величины.

1) Если Шанс=1, то вероятность наступления события равна вероятности того, что событие не произойдёт;

2) если Шанс >1, то вероятность наступления события больше вероятности того, что событие не произойдёт;

3) если Шанс <1, то вероятность наступления события меньше вероятности того, что событие не произойдёт.

Отношение шансов

Определение. Отношение шансов (odds ratio) - это отношение шансов для первой группы объектов к отношению шансов для второй группы объектов.

Пример. Допустим, что некоторое лечение проходят и мужчины, и женщины.

Вероятность того, что больной мужского пола останется жив спустя пять лет равна 0.6 (60%); вероятность того, что он за этот временной промежуток умрёт равна 0.4 (40%).

Аналогичные вероятности для женщин равны 0.8 и 0.2.

Отношение шансов в этом примере равно

Интерпретация значения величины.

1) Если отношение шансов =1, то шанс для первой группы равен шансу для второй группы

2) Если отношение шансов >1, то шанс для первой группы больше шанса для второй группы

3) Если отношение шансов <1, то шанс для первой группы меньше шанса для второй группы

Задание 3. Пяти дошкольникам предъявляют тест. Фиксируется время решения каждого задания. Будут ли найдены статистически значимые различия между временем решения первых трёх заданий теста?

№ испытуемых

Справочный материал

Данное задание основано на теории дисперсионного анализа. В общем случае, задачей дисперсионного анализа является выявление тех факторов, которые оказывают существенное влияние на результат эксперимента. Дисперсионный анализ может применяться для сравнения средних нескольких выборок, если число выборок больше двух. Для этой цели служит однофакторный дисперсионный анализ.

В целях решения поставленных задач принимается следующее. Если дисперсии полученных значений параметра оптимизации в случае влияния факторов отличаются от дисперсий результатов в случае отсутствия влияния факторов, то такой фактор признается значимым.

Как видно из формулировки задачи, здесь используются методы проверки статистических гипотез, а именно – задача проверки двух эмпирических дисперсий. Следовательно, дисперсионный анализ базируется на проверке дисперсий по критерию Фишера. В данном задании необходимо проверить являются ли статистически значимыми различия между временем решения первых трёх заданий теста каждым из шести дошкольников.

Нулевой (основной) называют выдвинутую гипотезу H о. Сущность е сводится к предположению, что разница между сравниваемыми параметрами равна нулю (отсюда и название гипотезы – нулевая) и что наблюдаемые различия имеют случайный характер.

Конкурирующей (альтернативной) называют гипотезу H 1 , которая противоречит нулевой.

Решение:

Методом дисперсионного анализа при уровне значимости α = 0,05 проверим нулевую гипотезу (H о) о существовании статистически значимых различий между временем решения первых трёх заданий теста у шести дошкольников.

Рассмотрим таблицу условия задания, в которой найдем среднее время решения каждого из трех заданий теста

№ испытуемых

Уровни фактора

Время решения первого задания теста (в сек.).

Время решения второго задания теста (в сек.).

Время решения третьего задания теста (в сек.).

Групповая средняя

Находим общую среднюю:

Для того, чтобы учесть значимость временных различий каждого теста, общая выборочная дисперсия разбивается на две части, первая из которых называется факторной , а вторая – остаточной

Рассчитаем общую сумму квадратов отклонений вариант от общей средней по формуле

или , где р – число измерений времени решений заданий теста, q – количество испытуемых. Для этого составим таблицу квадратов вариант

№ испытуемых

Уровни фактора

Время решения первого задания теста (в сек.).

Время решения второго задания теста (в сек.).

Время решения третьего задания теста (в сек.).

Исследование обычно начинается с некоторого предположения, требую-щего проверки с привлечением фактов. Это предположение — гипотеза — формулируется в отношении связи явлений или свойств в некоторой сово-купности объектов.

Для проверки подобных предположений на фактах необходимо измерить соответствующие свойства у их носителей. Но невозможно измерить тревож-ность у всех женщин и мужчин, как невозможно измерить агрессивность у всех подростков. Поэтому при проведении исследования ограничиваются лишь относительно небольшой группой представителей соответствующих совокупностей людей.

Генеральная совокупность — это все множество объектов, в отношении ко-торого формулируется исследовательская гипотеза.

Например, все мужчины; или все женщины; или все жители какого-либо города. Генеральные совокупности, в отно-шении которых исследователь собирается сделать выводы по результатам ис-следования, могут быть по численности и более скромными, например, все первоклассники данной школы.

Таким образом, генеральная совокупность — это хотя и не бесконечное по численности, но, как правило, недоступное для сплошного исследования мно-жество потенциальных испытуемых.

Выборка или выборочная совокупность — это ограниченная по численности группа объектов (в психоло-гии — испытуемых, респондентов), специально отбираемая из генеральной совокупности для изучения ее свойств. Соответственно, изучение на выбор-ке свойств генеральной совокупности называется выборочным исследованием. Практически все психологические исследования являются выборочными, а их выводы распространяются на генеральные совокупности.

Таким образом, после того, как сформулирована гипотеза и определены соответствующие генеральные совокупности, перед исследователем возни-кает проблема организации выборки. Выборка должна быть такой, чтобы была обоснована генерализация выводов выборочного исследования — обобщение, распространение их на генеральную совокупность. Основные критерии обо-снованности выводов исследования это репрезентативность выборки и ста-тистическая достоверность (эмпирических) результатов.

Репрезентативность выборки — иными словами, ее представительность — это способность выборки представлять изучаемые явления достаточно пол-но — с точки зрения их изменчивости в генеральной совокупности.

Конечно, полное представление об изучаемом явлении, во всем его диапа-зоне и нюансах изменчивости, может дать только генеральная совокупность. Поэтому репрезентативность всегда ограничена в той мере, в какой ограни-чена выборка. И именно репрезентативность выборки является основным кри-терием при определении границ генерализации выводов исследования. Тем не менее, существуют приемы, позволяющие получить достаточную для ис-следователя репрезентативность выборки (Эти приемы изучаются в курсе «Экспериментальная психология»).


Первый и основной прием — это простой случайный (рандомизированный) отбор. Он предполагает обеспечение таких условий, чтобы каждый член генеральной совокупности имел равные с другими шансы попасть в выборку. Слу-чайный отбор обеспечивает возможность попадания в выборку самых разных представителей генеральной совокупности. При этом принимаются специ-альные меры, исключающие появление какой-либо закономерности при отборе. И это позволяет надеяться на то, что в конечном итоге в выборке изу-чаемое свойство будет представлено если и не во всем, то в максимально воз-можном его многообразии.

Второй способ обеспечения репрезентативности — это стратифицирован-ный случайный отбор, или отбор по свойствам генеральной совокупности. Он предполагает предварительное определение тех качеств, которые могут вли-ять на изменчивость изучаемого свойства (это может быть пол, уровень дохо-да или образования и т. д.). Затем определяется процентное соотношение чис-ленности различающихся по этих качествам групп (страт) в генеральной совокупности и обеспечивается идентичное процентное соотношение соот-ветствующих групп в выборке. Далее в каждую подгруппу выборки испытуе-мые подбираются по принципу простого случайного отбора.

Статистическая достоверность , или статистическая значимость, результа-тов исследования определяется при помощи методов статистического выво-да.

Застрахованы ли мы от принятия ошибок при принятии решений, при тех или иных выводах из результатов исследования? Конечно, нет. Ведь наши решения опираются на результаты исследования выборочной совокупности, а также на уровень наших психологических знаний. Полностью мы не застрахованы от ошибок. В статистике такие ошибки считаются допустимыми, если они имеют место не чаще чем в одном случае из 1000 (вероятность ошибки α=0,001 или сопряженная с этим величина доверительная вероятность правильного вывода р=0,999); в одном случае из 100 (вероятность ошибки α=0,01 или сопряженная с этим величина доверительная вероятность правильного вывода р=0,99) или в пяти случаях из 100 (вероятность ошибки α=0,05 или сопряженная с этим величина доверительная вероятность правильного вывода р=0,95). Именно на двух последних уровнях и принято принимать решения в психологии.

Иногда, говоря о статистической достоверности, используют понятие «уровень значимости» (обозначается как α). Численные значения р и α дополняют друг друга до 1,000 — полный набор событий: либо мы сделали правильный вывод, либо мы ошиблись. Эти уровни не рассчитываются, они заданы. Уровень значимости можно понимать как некую «красную» линию», пересечение которой позволит говорить о данном событии как о неслучайном. В каждом грамотном научном отчете или публикации сделанные выводы должны сопровождаться указанием значений р или α, при которых сделаны выводы.

Методы статистического вывода подробно рассматриваются в курсе «Математической статистики». Сейчас лишь отметим, что они предъявляют определенные требования к численности, или объему выборки.

К сожалению, строгих рекомендаций по предварительному определению требуемого объема выборки не существует. Более того, ответ на вопрос о не-обходимой и достаточной ее численности исследователь обычно получает слишком поздно — только после анализа данных уже обследованной выбор-ки. Тем не менее, можно сформулировать наиболее общие рекомендации:

1. Наибольший объем выборки необходим при разработке диагностичес-кой методики — от 200 до 1000-2500 человек.

2. Если необходимо сравнивать 2 выборки, их общая численность должна быть не менее 50 человек; численность сравниваемых выборок должна быть приблизительно одинаковой.

3. Если изучается взаимосвязь между какими-либо свойствами, то объем выборки должен быть не меньше 30-35 человек.

4. Чем больше изменчивость изучаемого свойства , тем больше должен быть объем выборки. Поэтому изменчивость можно уменьшить, увеличивая однородность выборки, например, по полу, возрасту и т. д. При этом, естественно, уменьшаются возможности генерализации выводов.

Зависимые и независимые выборки. Обычна ситуация исследования, когда интересующее исследователя свойство изучается на двух или более выборках с целью их дальнейшего сравнения. Эти выборки могут находиться в различ-ных соотношениях — в зависимости от процедуры их организации. Независи-мые выборки характеризуются тем, что вероятность отбора любого испытуе-мого одной выборки не зависит от отбора любого из испытуемых другой выборки. Напротив, зависимые выборки характеризуются тем, что каждому испытуемому одной выборки поставлен в соответствие по определенному критерию испытуемый из другой выборки.

В общем случае зависимые выборки предполагают попарный подбор ис-пытуемых в сравниваемые выборки, а независимые выборки — независимый отбор испытуемых.

Следует отметить, что случаи «частично зависимых» (или «частично неза-висимых») выборок недопустимы: это непредсказуемым образом нарушает их репрезентативность.

В заключение отметим, что можно выделить две парадигмы психологи-ческого исследования.

Так называемая R-методология предполагает изучение изменчивости некоторого свойства (психологического) под влиянием неко-торого воздействия, фактора либо другого свойства. Выборкой является мно-жество испытуемых.

Другой подход, Q-методология, предполагает исследо-вание изменчивости субъекта (единичного) под влиянием различных стимулов (условий, ситуаций и т. д.). Ей соответствует ситуация, когда выборкой явля-ется множество стимулов.

Статистическая достоверность имеет существенное значение в расчетной практике ФКС. Ранее было отмечено, что из одной и той же генеральной совокупности может быть избрано множество выборок:

Если они подобраны корректно, то их средние показатели и показатели генеральной совокупности незначительно отличаются друг от друга величиной ошибки репрезентативности с учетом принятой надежности;

Если они избираются из разных генеральных совокупностей, различие между ними оказывается существенным. В статистике по­всеместно рассматривается сравнение выборок;

Если они отличаются несущественно, непринципиально, не­значительно, т. е. фактически принадлежат одной и той же гене­ральной совокупности, различие между ними называется стати­стически недостоверным.

Статистически достоверным различием выборок называется выборка, которая различается значимо и принципиально, т. е. при­надлежит разным генеральным совокупностям.

В ФКС оценка статистической достоверности различий выбо­рок означает решение множества практических задач. Например, введение новых методик обучения, программ, комплексов упраж­нений, тестов, контрольных упражнений связано с их экспери­ментальной проверкой, которая должна показать, что испытуе­мая группа принципиально отлична от контрольной. Поэтому при­меняют специальные статистические методы, называемые крите­риями статистической достоверности, позволяющие обнаружить наличие или отсутствие статистически достоверного различия между выборками.

Все критерии делятся на две группы: параметрические и непараметрические. Параметрические критерии предусматривают обязательное наличие нормального закона распределения, т.е. имеется в виду обязательное определение основных показателей нормального закона - средней арифметической величины и среднего квадратического отклонения s. Параметрические крите­рии являются наиболее точными и корректными. Непараметри­ческие критерии основаны на ранговых (порядковых) отличиях между элементами выборок.

Приведем основные критерии статистической достоверности, используемые в практике ФКС: критерий Стьюдента и критерий Фишера.

Критерий Стьюдента назван в честь английского ученого К. Госсета (Стьюдент - псевдоним), открывшего данный метод. Критерий Стьюдента является параметрическим, используется для сравнения абсолютных показателей выборок. Выборки могут быть различными по объему.

Критерий Стьюдента определяется так.

1. Находим критерий Стьюдента t по следующей формуле:


где - средние арифметические сравниваемых выборок; т 1 , т 2 - ошибки репрезентативности, выявленные на основании показателей сравниваемых выборок.

2. Практика в ФКС показала, что для спортивной работы доста­точно принять надежность счета Р = 0,95.

Для надежности счета: Р = 0,95 (a = 0,05), при числе степеней свободы

k = n 1 + п 2 - 2 по таблице приложения 4 находим величи­ну граничного значения критерия (t гр ).

3. На основании свойств нормального закона распределения в критерии Стьюдента осуществляется сравнение t и t гр.

Делаем выводы:

если t t гр, то различие между сравниваемыми выборками статистически достоверно;

если t t гр, то различие статистически недостоверно.

Для исследователей в области ФКС оценка статистической до­стоверности является первым шагом в решении конкретной зада­чи: принципиально или непринципиально различаются между собой сравниваемые выборки. Последующий шаг заключается в оценке этого различия с педагогической точки зрения, что опре­деляется условием задачи.

Рассмотрим применение критерия Стьюдента на конкретном примере.

Пример 2.14. Группа испытуемых в количестве 18 человек оценена на ЧСС (уд./мин) до х i и после y i разминки.

Оценить эффективность разминки по показателю ЧСС. Исход­ные данные и расчеты представлены в табл. 2.30 и 2.31.

Таблица 2.30

Обработка показателей ЧСС до разминки


Ошибки по обеим группам совпали, так как объемы выборок равны (исследуется одна и та же группа при различных условиях), а средние квадратические отклонения составили s х = s у = 3 уд./мин. Переходим к определению критерия Стьюдента:

Задаем надежность счета: Р= 0,95.

Число степеней свободы k 1 = n 1 + п 2 - 2=18+18-2 = 34. По таблице приложения 4 находим t гр = 2,02.

Статистический вывод. Поскольку t = 11,62, а граничное t гр = 2,02, то 11,62 > 2,02, т.е. t > t гр, поэтому различие между выбор­ками статистически достоверно.

Педагогический вывод. Установлено, что по показателю ЧСС раз­личие между состоянием группы до и после разминки является статистически достоверным, т.е. значимым, принципиальным. Итак, по показателю ЧСС можно сделать вывод, что разминка эффективна.

Критерий Фишера является параметрическим. Он применяет­ся при сравнении показателей рассеивания выборок. Это, как пра­вило, означает сравнение по показателям стабильности спортив­ной работы или стабильности функциональных и технических показателей в практике физической культуры и спорта. Выборки могут быть разновеликими.

Критерий Фишера определяется в нижеприведенной последова­тельности.

1. Находим Критерий Фишера F по формуле


где , - дисперсии сравниваемых выборок.

Условиями критерия Фишера предусмотрено, что в числителе формулы F находится большая дисперсия, т.е. число F всегда больше единицы.

Задаем надежность счета: Р = 0,95 - и определяем числа степеней свободы для обеих выборок: k 1 = n 1 - 1 , k 2 = п 2 - 1.

По таблице приложения 4 находим граничное значение кри­терия F гр .

Сравнение критериев F и F гр позволяет сформулировать вы­воды:

если F > F гр, то различие между выборками статистически достоверно;

если F< F гр, то различие между выборками статически недо­стоверно.

Приведем конкретный пример.

Пример 2.15. Проанализируем две группы гандболистов: х i (n 1 = 16 человек) и y i (п 2 = 18 человек). Эти группы спортсменов исследованы на время отталкивания (с) при броске мяча в во­рота.

Однотипны ли показатели отталкивания?

Исходные данные и основные расчеты представлены в табл. 2.32 и 2.33.

Таблица 2.32

Обработка показателей отталкивания первой группы гандболистов


Определим критерий Фишера:





По данным, представленным в таблице приложения 6, находим Fгр: Fгр = 2,4

Обратим внимание на то, что в таблице приложения 6 пере­числение чисел степеней свободы как большей, так и меньшей дисперсии при приближении к большим числам становится гру­бее. Так, числа степеней свободы большей дисперсии следует в таком порядке: 8, 9, 10, 11, 12, 14, 16, 20, 24 и т.д., а меньшей - 28, 29, 30, 40, 50 и т.д.

Это объясняется тем, что при увеличении объема выборок раз­личия F-критерия уменьшаются и можно использовать табличные значения, приближенные к исходным данным. Так, в примере 2.15 =17 отсутствует и можно принять ближайшее к нему значение k = 16, откуда и получаем Fгр = 2,4.

Статистический вывод. Поскольку критерий Фишера F= 2,5 > F= 2,4, выборки различимы статистически достоверно.

Педагогический вывод. Значения времени отталкивания (с) при броске мяча в ворота у гандболистов обеих групп суще­ственно различаются. Эти группы следует рассматривать как раз­личные.

Дальнейшие исследования должны показать, в чем причина такого различия.

Пример 2.20 .(на статистическую достоверность выборки ). Повысилась ли квалификация футболиста, если время (с) от подачи сигнала до удара по мячу ногой в начале тренировки было x i , а в конце у i .

Исходные данные и основные расчеты приведены в табл. 2.40 и 2.41.

Таблица 2.40

Обработка показателей времени от подачи сигнала до удара по мячу в начале тренировки


Определим различие групп показателей по критерию Стью­дента:

При надежности Р = 0,95 и степенях свободы k = n 1 + п 2 - 2 = 22 + 22 - 2 = 42 по таблице приложения 4 находим t гр = 2,02. Поскольку t = 8,3 > t гр = 2,02 - различие статистически досто­верно.

Определим различие групп показателей по критерию Фишера:


По таблице приложения 2 при надежности Р = 0,95 и степенях свободы k = 22-1=21 значение F гр = 21. Поскольку F= 1,53 < F гр = = 2,1, различие в рассеивании исходных данных статистически недостоверно.

Статистический вывод. По среднему арифметическому пока­зателю различие групп показателей статистически достоверно. По показателю рассеивания (дисперсии) различие групп показате­лей статистически недостоверно.

Педагогический вывод. Квалификация футболиста существенно повысилась, однако следует уделить внимание стабильности его показаний.

Подготовка к работе

Перед проведением данной лабораторной работы по дисциплине «Спортивная метрология» всем студентам учебной группы необходимо сформировать рабочие бригады по 3-4 студента в каждой , для совместного выполнения рабочего задания всех лабораторных работ.

При подготовке к работе ознакомиться с соответствующими разде­лами рекомендуемой литературы (см.раздел 6 данных методических указаний) и конспектов лекций. Изучить разделы 1 и 2 на данную лабораторную работу, а также рабочее задание на неё (раздел 4).

Заготовить форму отчета на стандартных листах писчей бумаги формата А4 и занести в нее материалы необходимые для работы.

Отчет должен содержать :

Титульный лист с указанием кафедры (УК и ТР), учебной группы, фамилии, имени, отчества студента, номера и названия лабораторной работы, даты ее выполнения, а также фамилии, учёной степени, учёного звания и должности преподавателя, прини­мающего работу;

Цель работы;

Формулы с числовыми значениями, поясняющие промежуточные и окончательные результаты вычислений;

Таблицы измеренных и вычисленных величин;

Требуемый по заданию графический материал;

Краткие выводы по результатам каждого из этапов рабочего задания и в целом по выполненной работе.

Все графики и таблицы вычерчиваются аккуратно при помощи чертежных инструментов. Условные графические и буквенные обозначения должны соответствовать ГОСТам. Допускается оформление отчёта с применением вычислительной (компьютерной) техники.

Рабочее задание

Перед проведением всех измерений каждому члену бригады необходимо изучить правила использования спортивной игры Дартс, приведенные в приложении 7, которые необходимы для проведения нижеприведенных этапов исследований.

I – й этап исследований «Исследование результатов попаданий в мишень спортивной игры Дартс каждым членом бригады на соответствие нормальному закону распределения по критерию χ 2 Пирсона и критерию трёх сигм»

1. провести измерение (испытание) своей (личной) быстроты и координированности действий, путём бросания 30-40 раз дротиков в круговую мишень спортивной игры Дартс.

2. Результаты измерений (испытаний) x i (в очках) оформить в виде вариационного ряда и занести в таблицу 4.1 (столбцы , выполнить все необходимые расчёты, заполнить необходимые таблицы и сделать соответствующие выводы на соответствие полученного эмпирического распределения нормальному закону распределения, по аналогии с аналогичными расчётами, таблицами и выводами примера 2.12, приведенного в разделе 2 данных методических указаний на страницах 7 -10.

Таблица 4.1

Соответствие быстроты и координированности действий испытуемых нормальному закону распределения

№ п/п округ- ленно
Всего

II – й этап исследований

«Оценка средних показателей генеральной совокупности попаданий в мишень спортивной игры Дартс всех студентов учебной группы по результатам измерений членов одной бригады»

Оценить средние показатели быстроты и координированности действий всех студентов учебной группы (согласно списка учебной группы классного журнала) по результатам попаданий в мишень спортивной игры Дартс всех членов бригады, полученным на первом этапе исследований данной лабораторной работы.

1. Оформить результаты измерений быстроты и координированности действий при бросании дротиков в круговую мишень спортивной игры Дартс всех членов Вашей бригады (2 – 4 человека), которые представляют собой выборку результатов измерений из генеральной совокупности (результаты измерений всех студентов учебной группы – например, 15 человек), занеся их во второй и третий столбцы таблицы 4.2.

Таблица 4.2

Обработка показателей быстроты и координированности действий

членов бригады

№ п/п
Всего

В таблице 4.2 под следует понимать , совпавшее среднее количество баллов (см. результаты расчётов по таблице 4.1) членами Вашей бригады ( , полученное на первом этапе исследований. Следует заметить, что, как правило, в таблице 4.2 есть рассчитанное среднее значение результатов измерений полученное одним членом бригады на первом этапе исследований , так как вероятность, того что результаты измерений различными членами бригады совпадут очень мала. Тогда, как правило, значения в столбце таблицы 4.2 для каждой из строк - равны 1, а в строке «Всего » графы « », записывается число членов Вашей бригады.

2. Выполнить все необходимые расчёты по заполнению таблицы 4.2, а также другие расчёты и выводы, аналогичные расчётам и выводам примера 2.13, приведенным в 2-ом разделе данной методической разработки на страницах 13-14. Следует иметь ввиду, при расчёте ошибки репрезентативности «m» необходимо использовать формулу 2.4, приведенную на странице 13 данной методической разработки, так как выборка мала (n , а число элементов генеральной совокупности N известно, и равно числу студентов учебной группы, согласно списка журнала учебной группы.

III – й этап исследований

Оценка эффективности разминки по показателю «Быстрота и координированность действий» каждым членом бригады с помощью критерия Стьюдента

Оценить эффективность разминки по бросанию дротиков в мишень спортивной игры «Дартс», выполненную на первом этапе исследований данной лабораторной работы, каждым членом бригады по показателю «Быстрота и координированность действий», с помощью критерия Стьюдента - параметрического критерия статистической достоверности эмпирического закона распределения нормальному закону распределения.

… Всего

2. дисперсии и СКО , результатов измерений показателя «Быстрота и координированность действий» по результатам разминки, приведенных в таблице 4.3, (см. аналогичные расчёты приведенные сразу после таблицы 2.30 примера 2.14 на странице 16 данной методической разработки).

3. Каждому члену рабочей бригады провести измерение (испытание) своей (личной) быстроты и координированности действий после разминки,

… Всего

5. Произвести вычисления среднего значения дисперсии и СКО , результатов измерений показателя «Быстрота и координированность действий» после разминки, приведенных в таблице 4.4, записать в целом результат измерений по результатам разминки (см. аналогичные расчеты, приведенные сразу после таблицы 2.31 примера 2.14 на странице 17 данной методической разработки).

6. Выполнить все необходимые расчёты и выводы, аналогичные расчётам и выводам примера 2.14, приведенным в 2-ом разделе данной методической разработки на страницах 16-17. Следует иметь ввиду, при расчёте ошибки репрезентативности «m» необходимо использовать формулу 2.1, приведенную на странице 12 данной методической разработки, так как выборка n , а число элементов генеральной совокупности N ( неизвестно.

IV – й этап исследований

Оценка однотипности (стабильности) показателей «Быстрота и координированность действий» двух членов бригады с помощью критерия Фишера

Оценить однотипность (стабильность) показателей «Быстрота и координированность действий» двух членов бригады с помощью критерия Фишера, по результатам измерений, полученным на третьем этапе исследований данной лабораторной работы.

Для этого необходимо выполнить следующее.

Используя данные таблиц 4.3 и 4.4, результаты расчётов дисперсий по этим таблицам , полученные на третьем этапе исследований, а также методику расчёта и применения критерия Фишера для оценки однотипности (стабильности) спортивных показателей, приведенную в примере 2.15 на страницах 18-19 данной методической разработки, сделать соответствующие статистический и педагогический выводы.

V – й этап исследований

Оценка групп показателей «Быстрота и координированность действий» одного члена бригады до и после разминки



Эта статья также доступна на следующих языках: Тайский

  • Next

    Огромное Вам СПАСИБО за очень полезную информацию в статье. Очень понятно все изложено. Чувствуется, что проделана большая работа по анализу работы магазина eBay

    • Спасибо вам и другим постоянным читателям моего блога. Без вас у меня не было бы достаточной мотивации, чтобы посвящать много времени ведению этого сайта. У меня мозги так устроены: люблю копнуть вглубь, систематизировать разрозненные данные, пробовать то, что раньше до меня никто не делал, либо не смотрел под таким углом зрения. Жаль, что только нашим соотечественникам из-за кризиса в России отнюдь не до шоппинга на eBay. Покупают на Алиэкспрессе из Китая, так как там в разы дешевле товары (часто в ущерб качеству). Но онлайн-аукционы eBay, Amazon, ETSY легко дадут китайцам фору по ассортименту брендовых вещей, винтажных вещей, ручной работы и разных этнических товаров.

      • Next

        В ваших статьях ценно именно ваше личное отношение и анализ темы. Вы этот блог не бросайте, я сюда часто заглядываю. Нас таких много должно быть. Мне на эл. почту пришло недавно предложение о том, что научат торговать на Амазоне и eBay. И я вспомнила про ваши подробные статьи об этих торг. площ. Перечитала все заново и сделала вывод, что курсы- это лохотрон. Сама на eBay еще ничего не покупала. Я не из России , а из Казахстана (г. Алматы). Но нам тоже лишних трат пока не надо. Желаю вам удачи и берегите себя в азиатских краях.

  • Еще приятно, что попытки eBay по руссификации интерфейса для пользователей из России и стран СНГ, начали приносить плоды. Ведь подавляющая часть граждан стран бывшего СССР не сильна познаниями иностранных языков. Английский язык знают не более 5% населения. Среди молодежи — побольше. Поэтому хотя бы интерфейс на русском языке — это большая помощь для онлайн-шоппинга на этой торговой площадке. Ебей не пошел по пути китайского собрата Алиэкспресс, где совершается машинный (очень корявый и непонятный, местами вызывающий смех) перевод описания товаров. Надеюсь, что на более продвинутом этапе развития искусственного интеллекта станет реальностью качественный машинный перевод с любого языка на любой за считанные доли секунды. Пока имеем вот что (профиль одного из продавцов на ебей с русским интерфейсом, но англоязычным описанием):
    https://uploads.disquscdn.com/images/7a52c9a89108b922159a4fad35de0ab0bee0c8804b9731f56d8a1dc659655d60.png