Kepentingan statistik hasil (nilai-p) ialah ukuran anggaran keyakinan terhadap "kebenaran"nya (dalam erti kata "kewakilan sampel"). Secara lebih teknikal, nilai-p ialah ukuran yang berubah-ubah dalam susunan magnitud yang menurun dengan kebolehpercayaan hasilnya. Nilai p yang lebih tinggi sepadan dengan tahap keyakinan yang lebih rendah dalam hubungan antara pembolehubah yang terdapat dalam sampel. Secara khusus, nilai-p mewakili kebarangkalian ralat yang berkaitan dengan menggeneralisasikan hasil yang diperhatikan kepada keseluruhan populasi. Sebagai contoh, nilai-p=0.05 (iaitu 1/20) menunjukkan bahawa terdapat 5% kemungkinan bahawa hubungan antara pembolehubah yang terdapat dalam sampel hanyalah ciri rawak sampel. Dalam erti kata lain, jika hubungan tertentu tidak wujud dalam populasi, dan anda menjalankan eksperimen yang serupa berkali-kali, maka dalam kira-kira satu daripada dua puluh ulangan percubaan anda akan menjangkakan hubungan yang sama atau lebih kukuh antara pembolehubah.

Dalam banyak kajian, nilai p 0.05 dianggap sebagai "margin yang boleh diterima" untuk tahap ralat.

Tidak ada cara untuk mengelakkan sewenang-wenangnya dalam menentukan tahap kepentingan yang benar-benar harus dianggap "signifikan." Pilihan tahap kepentingan tertentu di atas yang keputusannya ditolak sebagai palsu adalah sewenang-wenangnya. Dalam amalan, keputusan muktamad biasanya bergantung pada sama ada keputusan itu diramalkan secara priori (iaitu, sebelum eksperimen dijalankan) atau menemui posteriori hasil daripada banyak analisis dan perbandingan yang dilakukan pada pelbagai data, serta pada tradisi bidang pengajian. Biasanya, dalam banyak bidang, hasil p 0.05 adalah had yang boleh diterima untuk kepentingan statistik, tetapi harus diingat bahawa tahap ini masih termasuk kadar ralat yang agak besar (5%). Keputusan signifikan pada tahap p 0.01 secara amnya dianggap signifikan secara statistik, dan keputusan dengan tahap p 0.005 atau p 0.001 secara amnya dianggap sangat signifikan. Walau bagaimanapun, perlu difahami bahawa klasifikasi tahap kepentingan ini agak sewenang-wenangnya dan hanya perjanjian tidak rasmi yang diterima pakai berdasarkan pengalaman praktikal dalam bidang penyelidikan tertentu.

Seperti yang telah disebutkan, magnitud hubungan dan kebolehpercayaan mewakili dua ciri yang berbeza bagi hubungan antara pembolehubah. Walau bagaimanapun, tidak boleh dikatakan bahawa mereka benar-benar bebas. Secara umumnya, lebih besar magnitud hubungan (hubungan) antara pembolehubah dalam sampel saiz normal, lebih dipercayai.

Jika kita mengandaikan bahawa tidak ada hubungan antara pembolehubah yang sepadan dalam populasi, maka kemungkinan besar menjangkakan bahawa dalam sampel yang dikaji juga tidak akan ada hubungan antara pembolehubah ini. Oleh itu, lebih kuat hubungan ditemui dalam sampel, semakin kecil kemungkinan hubungan itu tidak wujud dalam populasi dari mana ia diambil.


Saiz sampel mempengaruhi kepentingan hubungan. Sekiranya terdapat sedikit pemerhatian, maka terdapat juga beberapa kemungkinan kombinasi nilai untuk pembolehubah ini dan dengan itu kebarangkalian untuk secara tidak sengaja menemui gabungan nilai yang menunjukkan hubungan yang kuat adalah agak tinggi.

Bagaimana tahap kepentingan statistik dikira. Katakan anda telah mengira ukuran pergantungan antara dua pembolehubah (seperti yang dijelaskan di atas). Soalan seterusnya yang anda hadapi ialah: "seberapa signifikan hubungan ini?" Sebagai contoh, adakah 40% varians yang dijelaskan antara dua pembolehubah mencukupi untuk menganggap hubungan itu signifikan? Jawapannya: "bergantung pada keadaan." Iaitu, kepentingan bergantung terutamanya pada saiz sampel. Seperti yang telah dijelaskan, dalam sampel yang sangat besar walaupun hubungan yang sangat lemah antara pembolehubah akan menjadi signifikan, manakala dalam sampel kecil walaupun hubungan yang sangat kuat tidak boleh dipercayai. Oleh itu, untuk menentukan tahap kepentingan statistik, anda memerlukan fungsi yang mewakili hubungan antara "magnitud" dan "signifikan" hubungan antara pembolehubah untuk setiap saiz sampel. Fungsi ini akan memberitahu anda dengan tepat "berkemungkinan besar untuk mendapatkan hubungan nilai tertentu (atau lebih) dalam sampel saiz tertentu, dengan mengandaikan bahawa tiada hubungan sedemikian dalam populasi." Dalam erti kata lain, fungsi ini akan memberikan tahap keertian (p-value), dan oleh itu kebarangkalian untuk menolak andaian secara palsu bahawa hubungan yang diberikan tidak wujud dalam populasi. Hipotesis "alternatif" ini (bahawa tiada hubungan dalam populasi) biasanya dipanggil hipotesis nol. Adalah sesuai jika fungsi yang mengira kebarangkalian ralat adalah linear dan hanya mempunyai cerun yang berbeza untuk saiz sampel yang berbeza. Malangnya, fungsi ini jauh lebih kompleks dan tidak selalunya sama. Walau bagaimanapun, dalam kebanyakan kes bentuknya diketahui dan boleh digunakan untuk menentukan tahap keertian dalam kajian sampel bagi saiz tertentu. Kebanyakan fungsi ini dikaitkan dengan kelas taburan yang sangat penting yang dipanggil normal.

Mari kita pertimbangkan contoh tipikal penggunaan kaedah statistik dalam perubatan. Pencipta ubat mencadangkan bahawa ia meningkatkan diuresis mengikut kadar dos yang diambil. Untuk menguji hipotesis ini, mereka memberi lima sukarelawan dos ubat yang berbeza.

Berdasarkan keputusan pemerhatian, graf diuresis berbanding dos diplotkan (Rajah 1.2A). Kebergantungan boleh dilihat dengan mata kasar. Penyelidik mengucapkan tahniah kepada satu sama lain atas penemuan itu, dan dunia pada diuretik baru.

Malah, data hanya membenarkan kami menyatakan dengan pasti bahawa diuresis bergantung kepada dos diperhatikan dalam lima sukarelawan ini. Hakikat bahawa pergantungan ini akan nyata dalam semua orang yang mengambil ubat itu tidak lebih daripada andaian.
ZY

Dengan

kehidupan Ia tidak boleh dikatakan bahawa ia tidak berasas - jika tidak, mengapa menjalankan eksperimen?

Tetapi ubat itu mula dijual. Semakin ramai orang mengambilnya dengan harapan dapat meningkatkan pengeluaran air kencing mereka. Jadi apa yang kita nampak? Kita lihat Rajah 1.2B, yang menunjukkan ketiadaan sebarang kaitan antara dos ubat dan diuresis. Lingkaran hitam menunjukkan data daripada kajian asal. Statistik mempunyai kaedah yang membolehkan kami menganggarkan kemungkinan mendapatkan sampel "tidak mewakili" sedemikian, dan sememangnya mengelirukan. Ternyata jika tiada hubungan antara diuresis dan dos ubat, "pergantungan" yang terhasil akan diperhatikan dalam kira-kira 5 daripada 1000 eksperimen. Jadi, dalam kes ini, penyelidik hanya bernasib malang. Walaupun mereka telah menggunakan kaedah statistik yang paling maju, ia masih tidak akan menghalang mereka daripada membuat kesilapan.

Kami memberikan contoh rekaan ini, tetapi tidak jauh dari realiti, bukan untuk menunjukkan ketidakbergunaan
kebolehan statistik. Dia bercakap tentang sesuatu yang lain, tentang sifat kebarangkalian kesimpulannya. Hasil daripada menggunakan kaedah statistik, kita tidak memperoleh kebenaran muktamad, tetapi hanya anggaran kebarangkalian andaian tertentu. Di samping itu, setiap kaedah statistik adalah berdasarkan model matematiknya sendiri dan keputusannya adalah betul setakat model ini sepadan dengan realiti.

Lebih lanjut mengenai topik KEBOLEHPERCAYAAN DAN KEPENTINGAN STATISTIK:

  1. Perbezaan ketara secara statistik dalam penunjuk kualiti hidup
  2. Statistik populasi. Ciri-ciri perakaunan. Konsep penyelidikan berterusan dan terpilih. Keperluan untuk data statistik dan penggunaan dokumen perakaunan dan pelaporan
  3. ABSTRAK. KAJIAN KEBOLEHPERCAYAAN PETUNJUK TONOMETER UNTUK MENGUKUR TEKANAN INTRAOKULAR MELALUI KELOMPOK MATA 2018, 2018

Ciri-ciri utama sebarang hubungan antara pembolehubah.

Kita boleh perhatikan dua sifat paling mudah bagi hubungan antara pembolehubah: (a) magnitud hubungan dan (b) kebolehpercayaan hubungan.

- Magnitud . Magnitud kebergantungan lebih mudah difahami dan diukur daripada kebolehpercayaan. Sebagai contoh, jika mana-mana lelaki dalam sampel mempunyai nilai kiraan sel darah putih (WCC) lebih tinggi daripada mana-mana wanita, maka anda boleh mengatakan bahawa hubungan antara dua pembolehubah (Jantina dan WCC) adalah sangat tinggi. Dengan kata lain, anda boleh meramalkan nilai satu pembolehubah daripada nilai yang lain.

- Kebolehpercayaan (“kebenaran”). Kebolehpercayaan saling bergantung adalah konsep yang kurang intuitif daripada magnitud pergantungan, tetapi ia amat penting. Kebolehpercayaan hubungan secara langsung berkaitan dengan keterwakilan sampel tertentu berdasarkan kesimpulan yang dibuat. Dalam erti kata lain, kebolehpercayaan merujuk kepada kemungkinan perhubungan akan ditemui semula (dengan kata lain, disahkan) menggunakan data daripada sampel lain yang diambil daripada populasi yang sama.

Harus diingat bahawa matlamat utama hampir tidak pernah mengkaji sampel nilai tertentu ini; sampel hanya menarik minat setakat ia memberikan maklumat tentang keseluruhan populasi. Sekiranya kajian memenuhi kriteria tertentu tertentu, maka kebolehpercayaan hubungan yang ditemui antara pembolehubah sampel boleh dikuantifikasi dan dibentangkan menggunakan ukuran statistik piawai.

Magnitud kebergantungan dan kebolehpercayaan mewakili dua ciri kebergantungan yang berbeza antara pembolehubah. Walau bagaimanapun, tidak boleh dikatakan bahawa mereka benar-benar bebas. Lebih besar magnitud hubungan (sambungan) antara pembolehubah dalam sampel saiz normal, lebih dipercayai (lihat bahagian seterusnya).

Kepentingan statistik hasil (peringkat-p) ialah ukuran anggaran keyakinan terhadap "kebenaran"nya (dalam erti kata "kewakilan sampel"). Secara lebih teknikal, tahap-p ialah ukuran yang berubah-ubah dalam susunan magnitud yang berkurangan dengan kebolehpercayaan hasilnya. Tahap p yang lebih tinggi sepadan dengan tahap keyakinan yang lebih rendah dalam hubungan antara pembolehubah yang terdapat dalam sampel. Iaitu, peringkat p mewakili kebarangkalian ralat yang berkaitan dengan taburan hasil yang diperhatikan kepada keseluruhan populasi.

Sebagai contoh, tahap p = 0.05(iaitu 1/20) menunjukkan bahawa terdapat kemungkinan 5% bahawa hubungan antara pembolehubah yang terdapat dalam sampel hanyalah ciri rawak sampel. Dalam banyak kajian, tahap p 0.05 dianggap sebagai "margin yang boleh diterima" untuk tahap ralat.

Tidak ada cara untuk mengelakkan sewenang-wenangnya dalam menentukan tahap kepentingan yang benar-benar harus dianggap "signifikan". Pilihan tahap kepentingan tertentu di atas yang keputusannya ditolak sebagai palsu adalah sewenang-wenangnya.



Dalam amalan, keputusan muktamad biasanya bergantung pada sama ada keputusan itu diramalkan secara priori (iaitu, sebelum eksperimen dijalankan) atau menemui posteriori hasil daripada banyak analisis dan perbandingan yang dilakukan pada pelbagai data, serta pada tradisi bidang pengajian.

Secara amnya, dalam banyak bidang, hasil p.05 ialah potongan yang boleh diterima untuk kepentingan statistik, tetapi perlu diingat bahawa tahap ini masih termasuk margin ralat yang agak besar (5%).

Keputusan signifikan pada tahap p.01 secara amnya dianggap signifikan secara statistik, manakala keputusan pada tahap p.005 atau p.00 secara amnya dianggap signifikan secara statistik. 001 sebagai sangat signifikan. Walau bagaimanapun, perlu difahami bahawa klasifikasi tahap kepentingan ini agak sewenang-wenangnya dan hanya perjanjian tidak rasmi yang diterima pakai berdasarkan pengalaman praktikal. dalam bidang pengajian tertentu.

Adalah jelas bahawa lebih banyak bilangan analisis yang dijalankan ke atas keseluruhan data yang dikumpul, lebih besar bilangan keputusan penting (pada tahap yang dipilih) akan ditemui secara kebetulan semata-mata.

Beberapa kaedah statistik yang melibatkan banyak perbandingan, dan dengan itu mempunyai peluang besar untuk mengulangi jenis ralat ini, membuat pelarasan atau pembetulan khas untuk jumlah perbandingan. Walau bagaimanapun, banyak kaedah statistik (terutama kaedah analisis data penerokaan yang mudah) tidak menawarkan sebarang cara untuk menyelesaikan masalah ini.

Sekiranya hubungan antara pembolehubah adalah "secara objektif" lemah, maka tidak ada cara lain untuk menguji hubungan tersebut selain daripada mengkaji sampel yang besar. Walaupun sampel mewakili dengan sempurna, kesannya tidak akan ketara secara statistik jika sampel adalah kecil. Begitu juga, jika hubungan "secara objektif" sangat kuat, maka ia boleh dikesan dengan tahap kepentingan yang tinggi walaupun dalam sampel yang sangat kecil.

Lebih lemah hubungan antara pembolehubah, lebih besar saiz sampel yang diperlukan untuk mengesannya dengan bermakna.

Banyak yang berbeza ukuran perhubungan antara pembolehubah. Pilihan ukuran tertentu dalam kajian tertentu bergantung pada bilangan pembolehubah, skala ukuran yang digunakan, sifat perhubungan, dsb.

Kebanyakan langkah ini, bagaimanapun, mengikut prinsip umum: mereka cuba menganggarkan hubungan yang diperhatikan dengan membandingkannya dengan "hubungan maksimum yang boleh difikirkan" antara pembolehubah yang dipersoalkan. Secara teknikal, cara biasa untuk membuat anggaran sedemikian adalah dengan melihat bagaimana nilai pembolehubah berbeza-beza dan kemudian mengira berapa banyak daripada jumlah variasi yang tersedia boleh dijelaskan dengan kehadiran variasi "biasa" ("bersama") dalam dua (atau lebih) pembolehubah.

Kepentingan bergantung terutamanya pada saiz sampel. Seperti yang telah dijelaskan, dalam sampel yang sangat besar walaupun hubungan yang sangat lemah antara pembolehubah akan menjadi signifikan, manakala dalam sampel kecil walaupun hubungan yang sangat kuat tidak boleh dipercayai.

Oleh itu, untuk menentukan tahap kepentingan statistik, satu fungsi diperlukan yang akan mewakili hubungan antara "magnitud" dan "signifikan" hubungan antara pembolehubah untuk setiap saiz sampel.

Fungsi sedemikian akan menunjukkan dengan tepat "berkemungkinan besar untuk memperoleh pergantungan nilai tertentu (atau lebih) dalam sampel saiz tertentu, dengan mengandaikan bahawa tidak ada pergantungan sedemikian dalam populasi." Dengan kata lain, fungsi ini akan memberikan tahap kepentingan
(peringkat-p), dan, oleh itu, kebarangkalian tersilap menolak andaian ketiadaan pergantungan ini dalam populasi.

Hipotesis "alternatif" ini (bahawa tiada hubungan dalam populasi) biasanya dipanggil hipotesis nol.

Adalah sesuai jika fungsi yang mengira kebarangkalian ralat adalah linear dan hanya mempunyai cerun yang berbeza untuk saiz sampel yang berbeza. Malangnya, fungsi ini jauh lebih kompleks dan tidak selalunya sama. Walau bagaimanapun, dalam kebanyakan kes bentuknya diketahui dan boleh digunakan untuk menentukan tahap keertian dalam kajian sampel bagi saiz tertentu. Kebanyakan fungsi ini dikaitkan dengan kelas pengedaran yang dipanggil biasa .

Tahap kepentingan dalam statistik merupakan penunjuk penting yang mencerminkan tahap keyakinan terhadap ketepatan dan kebenaran data yang diperolehi (diramalkan). Konsep ini digunakan secara meluas dalam pelbagai bidang: daripada menjalankan penyelidikan sosiologi kepada ujian statistik hipotesis saintifik.

Definisi

Tahap kepentingan statistik (atau keputusan signifikan secara statistik) menunjukkan kebarangkalian berlakunya penunjuk yang dikaji secara kebetulan. Kepentingan statistik keseluruhan fenomena dinyatakan oleh pekali nilai-p (peringkat-p). Dalam mana-mana eksperimen atau pemerhatian, terdapat kemungkinan data yang diperoleh adalah disebabkan oleh ralat pensampelan. Ini benar terutamanya untuk sosiologi.

Iaitu, nilai bererti statistik ialah nilai yang kebarangkalian berlakunya rawak adalah sangat kecil atau cenderung kepada keterlaluan. Keterlaluan dalam konteks ini dianggap sebagai tahap di mana statistik menyimpang daripada hipotesis nol (hipotesis yang diuji untuk konsistensi dengan data sampel yang diperolehi). Dalam amalan saintifik, tahap keertian dipilih sebelum pengumpulan data dan, sebagai peraturan, pekalinya ialah 0.05 (5%). Untuk sistem di mana nilai yang tepat adalah sangat penting, angka ini mungkin 0.01 (1%) atau kurang.

Latar belakang

Konsep tahap keertian telah diperkenalkan oleh ahli statistik dan genetik British Ronald Fisher pada tahun 1925, ketika beliau sedang membangunkan teknik untuk menguji hipotesis statistik. Apabila menganalisis sebarang proses, terdapat kebarangkalian tertentu untuk fenomena tertentu. Kesukaran timbul apabila bekerja dengan peratusan kecil (atau tidak jelas) kebarangkalian yang berada di bawah konsep "ralat pengukuran."

Apabila bekerja dengan data statistik yang tidak cukup khusus untuk diuji, saintis berhadapan dengan masalah hipotesis nol, yang "menghalang" beroperasi dengan kuantiti yang kecil. Fisher mencadangkan sistem sedemikian untuk menentukan kebarangkalian kejadian pada 5% (0.05) sebagai potongan persampelan yang mudah yang membolehkan seseorang menolak hipotesis nol dalam pengiraan.

Pengenalan kemungkinan tetap

Pada tahun 1933, saintis Jerzy Neumann dan Egon Pearson mengesyorkan dalam karya mereka bahawa tahap kepentingan tertentu ditetapkan terlebih dahulu (sebelum pengumpulan data). Contoh penggunaan peraturan ini jelas kelihatan semasa pilihan raya. Katakan ada dua calon, seorang daripadanya sangat popular dan seorang lagi kurang dikenali. Jelas sekali bahawa calon pertama akan memenangi pilihan raya, dan peluang kedua cenderung kepada sifar. Mereka berusaha - tetapi tidak sama: sentiasa ada kemungkinan force majeure, maklumat sensasi, keputusan yang tidak dijangka yang boleh mengubah keputusan pilihan raya yang diramalkan.

Neyman dan Pearson bersetuju bahawa tahap keertian Fisher 0.05 (ditandakan dengan α) adalah paling sesuai. Walau bagaimanapun, Fischer sendiri pada tahun 1956 menentang penetapan nilai ini. Beliau percaya bahawa tahap α harus ditetapkan mengikut keadaan tertentu. Sebagai contoh, dalam fizik zarah ia adalah 0.01.

nilai peringkat p

Istilah p-value pertama kali digunakan oleh Brownlee pada tahun 1960. Tahap P (nilai p) ialah penunjuk yang berkait songsang dengan kebenaran keputusan. Pekali nilai p tertinggi sepadan dengan tahap keyakinan terendah dalam hubungan sampel antara pembolehubah.

Nilai ini mencerminkan kemungkinan ralat yang berkaitan dengan tafsiran keputusan. Mari kita andaikan p-level = 0.05 (1/20). Ia menunjukkan kebarangkalian lima peratus bahawa hubungan antara pembolehubah yang terdapat dalam sampel hanyalah ciri rawak sampel. Iaitu, jika pergantungan ini tidak hadir, maka dengan eksperimen serupa berulang, secara purata, dalam setiap kajian kedua puluh, seseorang boleh mengharapkan pergantungan yang sama atau lebih besar antara pembolehubah. Tahap p sering dilihat sebagai "margin" untuk kadar ralat.

Dengan cara ini, nilai-p mungkin tidak mencerminkan hubungan sebenar antara pembolehubah, tetapi hanya menunjukkan nilai purata tertentu dalam andaian. Khususnya, analisis akhir data juga bergantung pada nilai yang dipilih bagi pekali ini. Pada p-level = 0.05 akan ada beberapa keputusan, dan pada pekali bersamaan 0.01 akan ada keputusan yang berbeza.

Menguji hipotesis statistik

Tahap kepentingan statistik amat penting apabila menguji hipotesis. Sebagai contoh, apabila mengira ujian dua belah, kawasan penolakan dibahagikan sama rata pada kedua-dua hujung taburan pensampelan (berbanding dengan koordinat sifar) dan kebenaran data yang terhasil dikira.

Katakan, apabila memantau proses tertentu (fenomena), ternyata maklumat statistik baru menunjukkan perubahan kecil berbanding dengan nilai sebelumnya. Pada masa yang sama, percanggahan dalam keputusan adalah kecil, tidak jelas, tetapi penting untuk kajian. Pakar berhadapan dengan dilema: adakah perubahan benar-benar berlaku atau adakah ralat pensampelan ini (ketidaktepatan pengukuran)?

Dalam kes ini, mereka menggunakan atau menolak hipotesis nol (atributkan segala-galanya kepada ralat, atau mengiktiraf perubahan dalam sistem sebagai fait accompli). Proses penyelesaian masalah adalah berdasarkan nisbah keertian statistik keseluruhan (nilai-p) dan aras keertian (α). Jika p-level< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Nilai yang digunakan

Tahap kepentingan bergantung kepada bahan yang dianalisis. Dalam amalan, nilai tetap berikut digunakan:

  • α = 0.1 (atau 10%);
  • α = 0.05 (atau 5%);
  • α = 0.01 (atau 1%);
  • α = 0.001 (atau 0.1%).

Lebih tepat pengiraan diperlukan, lebih rendah pekali α digunakan. Sememangnya, ramalan statistik dalam fizik, kimia, farmaseutikal dan genetik memerlukan ketepatan yang lebih tinggi daripada dalam sains politik dan sosiologi.

Ambang kepentingan dalam bidang tertentu

Dalam bidang ketepatan tinggi seperti fizik zarah dan pembuatan, kepentingan statistik sering dinyatakan sebagai nisbah sisihan piawai (ditandakan dengan pekali sigma - σ) berbanding dengan taburan kebarangkalian normal (taburan Gaussian). σ ialah penunjuk statistik yang menentukan serakan nilai kuantiti tertentu berbanding jangkaan matematik. Digunakan untuk merancang kebarangkalian kejadian.

Bergantung pada bidang pengetahuan, pekali σ sangat berbeza. Sebagai contoh, apabila meramalkan kewujudan boson Higgs, parameter σ adalah sama dengan lima (σ = 5), yang sepadan dengan nilai-p = 1/3.5 juta Dalam kajian genom, tahap keertian boleh menjadi 5 × 10 -. 8, yang tidak biasa untuk kawasan ini.

Kecekapan

Ia mesti diambil kira bahawa pekali α dan nilai-p bukanlah ciri yang tepat. Walau apa pun tahap kepentingan dalam statistik fenomena yang dikaji, ia bukanlah asas tanpa syarat untuk menerima hipotesis. Sebagai contoh, lebih kecil nilai α, lebih besar peluang bahawa hipotesis ditubuhkan adalah penting. Walau bagaimanapun, terdapat risiko kesilapan, yang mengurangkan kuasa statistik (kepentingan) kajian.

Penyelidik yang memberi tumpuan semata-mata pada keputusan yang signifikan secara statistik mungkin mencapai kesimpulan yang salah. Pada masa yang sama, sukar untuk menyemak semula kerja mereka, kerana mereka menggunakan andaian (yang sebenarnya ialah nilai α dan p). Oleh itu, ia sentiasa disyorkan, bersama-sama dengan mengira kepentingan statistik, untuk menentukan penunjuk lain - magnitud kesan statistik. Saiz kesan ialah ukuran kuantitatif kekuatan kesan.

Pada pendapat anda, apakah yang menjadikan "separuh lagi" anda istimewa dan bermakna? Adakah ia berkaitan dengan personalitinya atau perasaan anda terhadap orang ini? Atau mungkin dengan fakta mudah bahawa hipotesis bahawa orang yang anda sukai adalah rawak, seperti yang ditunjukkan oleh kajian, mempunyai kebarangkalian kurang daripada 5%? Jika kami menganggap pernyataan terakhir boleh dipercayai, maka tapak temu janji yang berjaya tidak akan wujud pada dasarnya:

Apabila anda menjalankan ujian berpecah atau sebarang analisis lain bagi tapak web anda, salah faham "kepentingan statistik" boleh membawa kepada salah tafsir keputusan dan, oleh itu, tindakan yang salah dalam proses pengoptimuman penukaran. Ini benar untuk beribu-ribu ujian statistik lain yang dilakukan setiap hari dalam setiap industri sedia ada.

Untuk memahami apa itu "kepentingan statistik", anda perlu menyelami sejarah istilah itu, mempelajari maksud sebenar dan memahami cara pemahaman lama "baru" ini akan membantu anda mentafsir hasil penyelidikan anda dengan betul.

Sedikit sejarah

Walaupun manusia telah menggunakan statistik untuk menyelesaikan pelbagai masalah selama berabad-abad, pemahaman moden tentang kepentingan statistik, ujian hipotesis, rawak dan juga Reka Bentuk Eksperimen (DOE) mula terbentuk hanya pada awal abad ke-20 dan dikaitkan erat dengan nama Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher ialah ahli biologi evolusi dan ahli statistik yang mempunyai minat khusus untuk mengkaji evolusi dan pemilihan semula jadi dalam kerajaan haiwan dan tumbuhan. Semasa kerjayanya yang cemerlang, beliau membangunkan dan mempopularkan banyak alat statistik berguna yang masih kita gunakan hari ini.

Fisher menggunakan teknik yang dibangunkannya untuk menerangkan proses dalam biologi seperti dominasi, mutasi dan penyelewengan genetik. Kami boleh menggunakan alat yang sama hari ini untuk mengoptimumkan dan menambah baik kandungan sumber web. Hakikat bahawa alat analisis ini boleh digunakan untuk bekerja dengan objek yang tidak wujud pada masa penciptaannya nampaknya agak mengejutkan. Sama-sama mengejutkan bahawa orang biasa melakukan pengiraan yang rumit tanpa kalkulator atau komputer.

Untuk menerangkan keputusan eksperimen statistik sebagai mempunyai kebarangkalian tinggi untuk menjadi benar, Fisher menggunakan perkataan "kepentingan."

Juga, salah satu perkembangan Fisher yang paling menarik boleh dipanggil hipotesis "anak lelaki seksi". Menurut teori ini, wanita lebih suka lelaki yang melakukan hubungan seksual (promiscuous) kerana ini akan membolehkan anak lelaki yang dilahirkan oleh lelaki ini mempunyai kecenderungan yang sama dan menghasilkan lebih banyak zuriat (perhatikan bahawa ini hanyalah teori).

Tetapi tiada siapa, walaupun saintis yang cemerlang, kebal daripada melakukan kesilapan. Kelemahan Fisher masih membelenggu pakar sehingga hari ini. Tetapi ingat kata-kata Albert Einstein: "Sesiapa yang tidak pernah membuat kesilapan tidak pernah mencipta sesuatu yang baru."

Sebelum beralih ke perkara seterusnya, ingat: kepentingan statistik ialah apabila perbezaan dalam keputusan ujian adalah sangat besar sehingga perbezaannya tidak dapat dijelaskan oleh faktor rawak.

Apakah hipotesis anda?

Untuk memahami maksud "kepentingan statistik", anda perlu memahami terlebih dahulu apa itu "ujian hipotesis", kerana kedua-dua istilah itu saling berkait rapat.
Hipotesis hanyalah teori. Sebaik sahaja anda telah membangunkan teori, anda perlu mewujudkan proses untuk mengumpul bukti yang mencukupi dan sebenarnya mengumpul bukti tersebut. Terdapat dua jenis hipotesis.

Epal atau oren - yang mana lebih baik?

Hipotesis nol

Sebagai peraturan, di sinilah ramai orang mengalami kesukaran. Satu perkara yang perlu diingat ialah hipotesis nol bukanlah sesuatu yang perlu dibuktikan, seperti anda membuktikan bahawa perubahan tertentu pada tapak web akan membawa kepada peningkatan dalam penukaran, tetapi sebaliknya. Hipotesis nol ialah teori yang menyatakan bahawa jika anda membuat sebarang perubahan pada tapak, tiada apa yang akan berlaku. Dan matlamat penyelidik adalah untuk menyangkal teori ini, bukan untuk membuktikannya.

Jika kita lihat pengalaman menyelesaikan jenayah, di mana penyiasat juga membentuk hipotesis tentang siapa penjenayah, hipotesis nol berbentuk apa yang dipanggil presumption of innocence, konsep mengikut mana tertuduh dianggap tidak bersalah sehingga dibuktikan bersalah. dalam mahkamah undang-undang.

Jika hipotesis nol ialah dua objek adalah sama dalam sifatnya, dan anda cuba membuktikan bahawa salah satu daripadanya adalah lebih baik (contohnya, A lebih baik daripada B), anda perlu menolak hipotesis nol yang memihak kepada alternatif. Sebagai contoh, anda sedang membandingkan satu atau alat pengoptimuman penukaran yang lain. Dalam hipotesis nol, kedua-duanya mempunyai kesan yang sama (atau tiada kesan) pada sasaran. Sebagai alternatif, kesan salah satu daripada mereka adalah lebih baik.

Hipotesis alternatif anda mungkin mengandungi nilai berangka, seperti B - A > 20%. Dalam kes ini, hipotesis nol dan alternatif boleh dalam bentuk berikut:

Nama lain untuk hipotesis alternatif ialah hipotesis kajian kerana penyelidik sentiasa berminat untuk membuktikan hipotesis tertentu ini.

Kepentingan statistik dan nilai p

Mari kembali lagi kepada Ronald Fisher dan konsep kepentingan statistiknya.

Sekarang anda mempunyai hipotesis nol dan alternatif, bagaimana anda boleh membuktikan satu dan menafikan yang lain?

Memandangkan statistik, mengikut sifatnya, melibatkan kajian populasi tertentu (sampel), anda tidak boleh 100% pasti dengan keputusan yang diperolehi. Contoh yang baik: keputusan pilihan raya selalunya berbeza daripada keputusan tinjauan awal dan juga kumpulan keluar.

Dr. Fisher ingin mencipta garis pemisah yang akan memberitahu anda sama ada percubaan anda berjaya atau tidak. Beginilah cara indeks kebolehpercayaan muncul. Kredibiliti ialah tahap yang kita ambil untuk menyatakan perkara yang kita anggap "penting" dan perkara yang tidak. Jika "p", indeks keertian, ialah 0.05 atau kurang, maka hasilnya boleh dipercayai.

Jangan risau, ia sebenarnya tidak mengelirukan seperti yang kelihatan.

Taburan kebarangkalian Gaussian. Di sepanjang tepi adalah nilai pembolehubah yang kurang berkemungkinan, di tengah adalah yang paling mungkin. Skor P (kawasan berlorek hijau) ialah kebarangkalian hasil yang diperhatikan berlaku secara kebetulan.

Taburan kebarangkalian normal (Taburan Gaussian) ialah perwakilan semua nilai yang mungkin bagi pembolehubah tertentu pada graf (dalam rajah di atas) dan frekuensinya. Jika anda melakukan penyelidikan anda dengan betul dan kemudian memplot semua jawapan anda pada graf, anda akan mendapat taburan ini dengan tepat. Mengikut taburan normal, anda akan menerima peratusan besar jawapan yang serupa, dan pilihan yang selebihnya akan terletak di tepi graf (yang dipanggil "ekor"). Pengagihan nilai ini sering dijumpai di alam semula jadi, itulah sebabnya ia dipanggil "normal".

Menggunakan persamaan berdasarkan sampel dan keputusan ujian anda, anda boleh mengira apa yang dipanggil "statistik ujian", yang akan menunjukkan sejauh mana hasil anda menyimpang. Ia juga akan memberitahu anda betapa hampirnya anda dengan hipotesis nol adalah benar.

Untuk membantu anda memahaminya, gunakan kalkulator dalam talian untuk mengira kepentingan statistik:

Satu contoh kalkulator sedemikian

Huruf "p" mewakili kebarangkalian bahawa hipotesis nol adalah benar. Jika bilangannya kecil, ia akan menunjukkan perbezaan antara kumpulan ujian, manakala hipotesis nol adalah bahawa mereka adalah sama. Secara grafik, ia akan kelihatan seperti statistik ujian anda akan lebih dekat dengan salah satu ekor pengedaran berbentuk loceng anda.

Dr. Fisher memutuskan untuk menetapkan ambang keertian pada p ≤ 0.05. Walau bagaimanapun, kenyataan ini adalah kontroversi, kerana ia membawa kepada dua kesukaran:

1. Pertama, fakta bahawa anda telah membuktikan hipotesis nol palsu tidak bermakna anda telah membuktikan hipotesis alternatif. Semua kepentingan ini bermakna anda tidak boleh membuktikan sama ada A atau B.

2. Kedua, jika p-skor ialah 0.049, ia bermakna kebarangkalian hipotesis nol ialah 4.9%. Ini mungkin bermakna keputusan ujian anda mungkin benar dan palsu pada masa yang sama.

Anda mungkin atau mungkin tidak menggunakan skor p, tetapi kemudian anda perlu mengira kebarangkalian hipotesis nol berdasarkan kes demi kes dan memutuskan sama ada ia cukup besar untuk menghalang anda daripada membuat perubahan yang anda rancang dan uji. .

Senario yang paling biasa untuk menjalankan ujian statistik hari ini ialah menetapkan ambang keertian p ≤ 0.05 sebelum menjalankan ujian itu sendiri. Pastikan anda melihat dengan teliti pada nilai-p semasa menyemak keputusan anda.

Ralat 1 dan 2

Begitu banyak masa telah berlalu sehingga ralat yang boleh berlaku apabila menggunakan metrik kepentingan statistik telah diberi nama mereka sendiri.

Ralat Jenis 1

Seperti yang dinyatakan di atas, nilai p 0.05 bermakna terdapat peluang 5% bahawa hipotesis nol adalah benar. Jika tidak, anda akan membuat kesilapan nombor 1. Hasilnya mengatakan tapak web baharu anda meningkatkan kadar penukaran anda, tetapi terdapat kemungkinan 5% tidak.

Ralat Jenis 2

Ralat ini adalah bertentangan dengan ralat 1: anda menerima hipotesis nol apabila ia palsu. Sebagai contoh, keputusan ujian memberitahu anda bahawa perubahan yang dibuat pada tapak tidak membawa apa-apa peningkatan, sementara terdapat perubahan. Akibatnya, anda terlepas peluang untuk meningkatkan prestasi anda.

Ralat ini biasa berlaku dalam ujian dengan saiz sampel yang tidak mencukupi, jadi ingat: semakin besar sampel, semakin dipercayai hasilnya.

Kesimpulan

Mungkin tiada istilah yang popular di kalangan penyelidik sebagai kepentingan statistik. Apabila keputusan ujian tidak didapati signifikan secara statistik, akibatnya berkisar daripada peningkatan dalam kadar penukaran kepada keruntuhan syarikat.

Dan oleh kerana pemasar menggunakan istilah ini apabila mengoptimumkan sumber mereka, anda perlu tahu maksudnya sebenarnya. Keadaan ujian mungkin berbeza-beza, tetapi saiz sampel dan kriteria kejayaan sentiasa penting. Ingat ini.



Artikel ini juga tersedia dalam bahasa berikut: Thai

  • Seterusnya

    TERIMA KASIH atas maklumat yang sangat berguna dalam artikel tersebut. Semuanya dibentangkan dengan sangat jelas. Rasanya banyak kerja telah dibuat untuk menganalisis operasi kedai eBay

    • Terima kasih dan pembaca tetap blog saya yang lain. Tanpa anda, saya tidak akan cukup bermotivasi untuk mendedikasikan banyak masa untuk mengekalkan laman web ini. Otak saya berstruktur seperti ini: Saya suka menggali lebih dalam, mensistemkan data yang bertaburan, mencuba perkara yang belum pernah dilakukan oleh sesiapa atau melihat dari sudut ini. Sayang sekali rakan senegara kita tiada masa untuk membeli-belah di eBay kerana krisis di Rusia. Mereka membeli dari Aliexpress dari China, kerana barangan di sana jauh lebih murah (selalunya dengan mengorbankan kualiti). Tetapi lelongan dalam talian eBay, Amazon, ETSY dengan mudah akan memberi orang Cina permulaan yang lebih baik dalam rangkaian barangan berjenama, barangan vintaj, barangan buatan tangan dan pelbagai barangan etnik.

      • Seterusnya

        Apa yang berharga dalam artikel anda ialah sikap peribadi anda dan analisis topik tersebut. Jangan tinggalkan blog ini, saya sering ke sini. Patutnya ramai antara kita yang macam tu. E-mel saya Saya baru-baru ini menerima e-mel dengan tawaran bahawa mereka akan mengajar saya cara berdagang di Amazon dan eBay.

  • Dan saya teringat artikel terperinci anda tentang dagangan ini. kawasan
    Saya membaca semula segala-galanya sekali lagi dan membuat kesimpulan bahawa kursus adalah penipuan. Saya belum membeli apa-apa di eBay lagi. Saya bukan dari Rusia, tetapi dari Kazakhstan (Almaty). Tetapi kami juga tidak memerlukan sebarang perbelanjaan tambahan lagi.