นัยสำคัญทางสถิติของผลลัพธ์ (p-value) เป็นตัววัดความเชื่อมั่นใน "ความจริง" โดยประมาณ (ในแง่ของ "การเป็นตัวแทนของกลุ่มตัวอย่าง") ในทางเทคนิคแล้ว ค่า p คือหน่วยวัดที่แตกต่างกันไปตามลำดับความสำคัญที่ลดลงโดยคำนึงถึงความน่าเชื่อถือของผลลัพธ์ ค่า p ที่สูงกว่าจะสอดคล้องกับระดับความเชื่อมั่นที่ต่ำกว่าในความสัมพันธ์ระหว่างตัวแปรที่พบในตัวอย่าง โดยเฉพาะอย่างยิ่ง ค่า p แสดงถึงความน่าจะเป็นของข้อผิดพลาดที่เกี่ยวข้องกับการสรุปผลลัพธ์ที่สังเกตได้กับประชากรทั้งหมด ตัวอย่างเช่น ค่า p-value=0.05 (เช่น 1/20) บ่งชี้ว่ามีโอกาส 5% ที่ความสัมพันธ์ระหว่างตัวแปรที่พบในตัวอย่างจะเป็นเพียงคุณลักษณะแบบสุ่มของกลุ่มตัวอย่าง กล่าวอีกนัยหนึ่ง หากไม่มีความสัมพันธ์ที่กำหนดในประชากร และคุณทำการทดลองที่คล้ายกันหลายครั้ง ดังนั้นในการทดสอบซ้ำประมาณหนึ่งในยี่สิบครั้ง คุณจะคาดหวังว่าจะมีความสัมพันธ์แบบเดียวกันหรือแข็งแกร่งกว่าระหว่างตัวแปรต่างๆ

ในการศึกษาจำนวนมาก ค่า p เท่ากับ 0.05 ถือเป็น “ส่วนต่างที่ยอมรับได้” สำหรับระดับของข้อผิดพลาด

ไม่มีทางที่จะหลีกเลี่ยงความเด็ดขาดในการตัดสินใจว่าระดับนัยสำคัญใดที่ควรพิจารณาว่า "สำคัญ" อย่างแท้จริง การเลือกระดับนัยสำคัญที่สูงกว่าซึ่งผลลัพธ์ถูกปฏิเสธเนื่องจากเป็นเท็จนั้นค่อนข้างจะเป็นไปตามอำเภอใจ ในทางปฏิบัติ การตัดสินใจขั้นสุดท้ายมักจะขึ้นอยู่กับว่าผลลัพธ์ถูกทำนายล่วงหน้าหรือไม่ (เช่น ก่อนการทดลองดำเนินการ) หรือค้นพบภายหลังอันเป็นผลมาจากการวิเคราะห์และการเปรียบเทียบจำนวนมากที่ดำเนินการกับข้อมูลที่หลากหลาย เช่นเดียวกับใน ประเพณีของสาขาวิชา โดยทั่วไป ในหลายสาขา ผลลัพธ์ของ p 0.05 เป็นขีดจำกัดที่ยอมรับได้สำหรับนัยสำคัญทางสถิติ แต่ควรจำไว้ว่าระดับนี้ยังคงมีอัตราความผิดพลาดที่ค่อนข้างใหญ่ (5%) ผลลัพธ์ที่มีนัยสำคัญที่ระดับ p 0.01 โดยทั่วไปถือว่ามีนัยสำคัญทางสถิติ และผลลัพธ์ที่มีระดับ p 0.005 หรือ p 0.001 โดยทั่วไปถือว่ามีนัยสำคัญสูง อย่างไรก็ตามควรเข้าใจว่าการจำแนกระดับนัยสำคัญนี้ค่อนข้างจะเป็นไปตามอำเภอใจและเป็นเพียงข้อตกลงที่ไม่เป็นทางการที่นำมาใช้บนพื้นฐานของประสบการณ์เชิงปฏิบัติในสาขาการวิจัยเฉพาะ

ดังที่ได้กล่าวไปแล้ว ขนาดของความสัมพันธ์และความน่าเชื่อถือแสดงถึงคุณลักษณะที่แตกต่างกันสองประการของความสัมพันธ์ระหว่างตัวแปร อย่างไรก็ตามไม่สามารถพูดได้ว่าพวกเขาเป็นอิสระอย่างสมบูรณ์ โดยทั่วไป ยิ่งขนาดของความสัมพันธ์ (ความสัมพันธ์) ระหว่างตัวแปรในตัวอย่างขนาดปกติมากเท่าใด ก็ยิ่งเชื่อถือได้มากขึ้นเท่านั้น

หากเราสมมติว่าไม่มีความสัมพันธ์ระหว่างตัวแปรที่สอดคล้องกันในประชากร ก็มีแนวโน้มมากที่สุดที่จะคาดหวังว่าในกลุ่มตัวอย่างที่กำลังศึกษาจะไม่มีความสัมพันธ์ระหว่างตัวแปรเหล่านี้เช่นกัน ดังนั้น ยิ่งพบความสัมพันธ์ที่แน่นแฟ้นยิ่งขึ้นในกลุ่มตัวอย่าง โอกาสที่ความสัมพันธ์นั้นจะไม่ปรากฏในประชากรที่ถูกดึงมาก็จะยิ่งน้อยลงเท่านั้น


ขนาดของกลุ่มตัวอย่างส่งผลต่อความสำคัญของความสัมพันธ์ หากมีข้อสังเกตน้อย แสดงว่าค่าผสมที่เป็นไปได้สำหรับตัวแปรเหล่านี้มีไม่มากนัก ดังนั้น ความน่าจะเป็นที่จะค้นพบค่าผสมที่แสดงความสัมพันธ์ที่แข็งแกร่งโดยไม่ได้ตั้งใจจึงค่อนข้างสูง

วิธีคำนวณระดับนัยสำคัญทางสถิติ สมมติว่าคุณได้คำนวณการวัดการพึ่งพาระหว่างตัวแปรสองตัวแล้ว (ตามที่อธิบายไว้ข้างต้น) คำถามถัดไปที่คุณเผชิญคือ “ความสัมพันธ์นี้สำคัญแค่ไหน” ตัวอย่างเช่น ความแปรปรวนที่อธิบายไว้ 40% ระหว่างตัวแปรสองตัวเพียงพอที่จะพิจารณาความสัมพันธ์ที่มีนัยสำคัญหรือไม่ คำตอบ: “ขึ้นอยู่กับสถานการณ์” กล่าวคือความสำคัญขึ้นอยู่กับขนาดตัวอย่างเป็นหลัก ดังที่ได้อธิบายไปแล้ว ในกลุ่มตัวอย่างที่มีขนาดใหญ่มาก แม้แต่ความสัมพันธ์ที่อ่อนแอมากระหว่างตัวแปรก็ยังมีความสำคัญ ในขณะที่ในกลุ่มตัวอย่างขนาดเล็ก แม้แต่ความสัมพันธ์ที่แข็งแกร่งมากก็ไม่น่าเชื่อถือ ดังนั้น ในการกำหนดระดับนัยสำคัญทางสถิติ คุณต้องมีฟังก์ชันที่แสดงถึงความสัมพันธ์ระหว่าง "ขนาด" และ "นัยสำคัญ" ของความสัมพันธ์ระหว่างตัวแปรสำหรับขนาดตัวอย่างแต่ละขนาด ฟังก์ชันนี้จะบอกคุณอย่างชัดเจนว่า "มีแนวโน้มเพียงใดที่จะได้ความสัมพันธ์ของค่าที่กำหนด (หรือมากกว่า) ในตัวอย่างที่มีขนาดที่กำหนด โดยสมมติว่าไม่มีความสัมพันธ์ดังกล่าวในประชากร" กล่าวอีกนัยหนึ่ง ฟังก์ชันนี้จะให้ระดับนัยสำคัญ (p-value) และความน่าจะเป็นที่จะปฏิเสธสมมติฐานอย่างไม่ถูกต้องว่าความสัมพันธ์ที่กำหนดไม่มีอยู่ในประชากร สมมติฐาน "ทางเลือก" นี้ (ว่าไม่มีความสัมพันธ์กันในประชากร) มักเรียกว่าสมมติฐานว่าง คงจะเหมาะเป็นอย่างยิ่งหากฟังก์ชันที่คำนวณความน่าจะเป็นของข้อผิดพลาดเป็นแบบเส้นตรงและมีเพียงความชันที่แตกต่างกันสำหรับขนาดตัวอย่างที่แตกต่างกัน น่าเสียดายที่ฟังก์ชันนี้ซับซ้อนกว่ามากและไม่เหมือนกันทุกประการ อย่างไรก็ตาม ในกรณีส่วนใหญ่ เราจะทราบรูปแบบของรูปแบบนี้และสามารถใช้เพื่อกำหนดระดับนัยสำคัญในการศึกษาตัวอย่างในขนาดที่กำหนดได้ ฟังก์ชันเหล่านี้ส่วนใหญ่เกี่ยวข้องกับคลาสของการแจกแจงที่สำคัญมากที่เรียกว่าปกติ

ลองพิจารณาตัวอย่างทั่วไปของการใช้วิธีการทางสถิติในการแพทย์ ผู้สร้างยาแนะนำให้เพิ่มการขับปัสสาวะตามสัดส่วนของขนาดยาที่ได้รับ เพื่อทดสอบสมมติฐานนี้ พวกเขาให้อาสาสมัคร 5 คนในขนาดยาที่แตกต่างกัน

จากผลการสังเกต กราฟของการขับปัสสาวะเทียบกับขนาดยาจะถูกพล็อต (รูปที่ 1.2A) การพึ่งพาอาศัยกันสามารถมองเห็นได้ด้วยตาเปล่า นักวิจัยแสดงความยินดีกับการค้นพบนี้และโลกของยาขับปัสสาวะชนิดใหม่

ในความเป็นจริง ข้อมูลช่วยให้เราระบุได้อย่างน่าเชื่อถือว่าอาสาสมัครทั้งห้าคนนี้มีการขับปัสสาวะตามขนาดยา ความจริงที่ว่าการพึ่งพาอาศัยกันนี้จะปรากฏในทุกคนที่เสพยานั้นไม่มีอะไรมากไปกว่าข้อสันนิษฐาน
จี

กับ

ชีวิต ไม่สามารถพูดได้ว่ามันไม่มีโคมลอย - ไม่เช่นนั้นทำไมต้องทำการทดลอง?

แต่ยาก็ขายไป ผู้คนจำนวนมากขึ้นเรื่อยๆ รับประทานยานี้โดยหวังว่าจะเพิ่มปริมาณปัสสาวะ แล้วเราเห็นอะไร? เราเห็นรูปที่ 1.2B ซึ่งบ่งชี้ว่าไม่มีความเชื่อมโยงระหว่างขนาดยากับการขับปัสสาวะ วงกลมสีดำบ่งบอกถึงข้อมูลจากการศึกษาต้นฉบับ สถิติมีวิธีการที่ช่วยให้เราประเมินความเป็นไปได้ที่จะได้รับตัวอย่างที่ "ไม่ได้เป็นตัวแทน" และทำให้เกิดความสับสนอย่างแท้จริง ปรากฎว่าหากไม่มีความสัมพันธ์ระหว่างการขับปัสสาวะกับขนาดยา จะสังเกต "การพึ่งพา" ที่เกิดขึ้นในการทดลองประมาณ 5 จาก 1,000 ครั้ง ดังนั้น ในกรณีนี้ นักวิจัยโชคไม่ดีเลย แม้ว่าพวกเขาจะใช้วิธีการทางสถิติขั้นสูงสุด แต่ก็ยังไม่สามารถป้องกันพวกเขาจากการทำผิดพลาดได้

เราให้ตัวอย่างที่สมมติขึ้นนี้ แต่ไม่ไกลจากความเป็นจริงเลย โดยไม่ชี้ให้เห็นถึงความไร้ประโยชน์
ความเป็นมาของสถิติ เขาพูดถึงเรื่องอื่นเกี่ยวกับลักษณะความน่าจะเป็นของข้อสรุปของเธอ จากการใช้วิธีการทางสถิติ เราไม่ได้รับความจริงขั้นสุดท้าย แต่เป็นเพียงการประมาณความน่าจะเป็นของสมมติฐานเฉพาะเท่านั้น นอกจากนี้ วิธีการทางสถิติแต่ละวิธียังใช้แบบจำลองทางคณิตศาสตร์ของตัวเองและผลลัพธ์ที่ได้ก็ถูกต้องจนแบบจำลองนี้สอดคล้องกับความเป็นจริง

เพิ่มเติมในหัวข้อความน่าเชื่อถือและความสำคัญทางสถิติ:

  1. ความแตกต่างที่มีนัยสำคัญทางสถิติในตัวชี้วัดคุณภาพชีวิต
  2. ประชากรทางสถิติ ลักษณะทางบัญชี แนวคิดการวิจัยต่อเนื่องและคัดเลือก ข้อกำหนดสำหรับข้อมูลทางสถิติและการใช้เอกสารทางบัญชีและการรายงาน
  3. เชิงนามธรรม. การศึกษาความน่าเชื่อถือของตัวชี้วัด TONOMETER สำหรับการวัดความดันภายในลูกตาผ่านเปลือกตา 2561, 2561

ลักษณะสำคัญของความสัมพันธ์ระหว่างตัวแปร

คุณสมบัติที่ง่ายที่สุดสองประการของความสัมพันธ์ระหว่างตัวแปรสามารถสังเกตได้: (ก) ขนาดของความสัมพันธ์และ (ข) ความน่าเชื่อถือของความสัมพันธ์

- ขนาด - ขนาดการพึ่งพานั้นง่ายต่อการเข้าใจและวัดผลมากกว่าความน่าเชื่อถือ ตัวอย่างเช่น หากผู้ชายคนใดในกลุ่มตัวอย่างมีค่าจำนวนเม็ดเลือดขาว (WCC) สูงกว่าผู้หญิงคนใด ก็อาจกล่าวได้ว่าความสัมพันธ์ระหว่างตัวแปรทั้งสอง (เพศและ WCC) นั้นสูงมาก กล่าวอีกนัยหนึ่ง คุณสามารถทำนายค่าของตัวแปรหนึ่งจากค่าของอีกตัวแปรหนึ่งได้

- ความน่าเชื่อถือ ("ความจริง"). ความน่าเชื่อถือของการพึ่งพาอาศัยกันเป็นแนวคิดที่เข้าใจง่ายน้อยกว่าขนาดของการพึ่งพาอาศัยกัน แต่มีความสำคัญอย่างยิ่ง ความน่าเชื่อถือของความสัมพันธ์นั้นเกี่ยวข้องโดยตรงกับการเป็นตัวแทนของกลุ่มตัวอย่างบางกลุ่มโดยพิจารณาจากการสรุปผล กล่าวอีกนัยหนึ่ง ความน่าเชื่อถือหมายถึงความเป็นไปได้ที่ความสัมพันธ์จะถูกค้นพบอีกครั้ง (หรืออีกนัยหนึ่ง ได้รับการยืนยัน) โดยใช้ข้อมูลจากตัวอย่างอื่นที่ดึงมาจากประชากรกลุ่มเดียวกัน

ควรจำไว้ว่าเป้าหมายสูงสุดคือแทบไม่เคยศึกษาตัวอย่างค่านิยมนี้เลย ตัวอย่างจะน่าสนใจตราบเท่าที่ให้ข้อมูลเกี่ยวกับประชากรทั้งหมดเท่านั้น หากการศึกษาเป็นไปตามเกณฑ์เฉพาะบางประการ ความน่าเชื่อถือของความสัมพันธ์ที่พบระหว่างตัวแปรตัวอย่างก็สามารถหาปริมาณและนำเสนอได้โดยใช้การวัดทางสถิติมาตรฐาน

ขนาดการพึ่งพาและความน่าเชื่อถือแสดงถึงลักษณะการพึ่งพาที่แตกต่างกันสองประการระหว่างตัวแปร อย่างไรก็ตามไม่สามารถพูดได้ว่าพวกเขาเป็นอิสระอย่างสมบูรณ์ ยิ่งขนาดของความสัมพันธ์ (การเชื่อมต่อ) ระหว่างตัวแปรในตัวอย่างขนาดปกติมากเท่าใด ก็ยิ่งเชื่อถือได้มากขึ้นเท่านั้น (ดูหัวข้อถัดไป)

นัยสำคัญทางสถิติของผลลัพธ์ (p-level) เป็นการวัดความเชื่อมั่นใน "ความจริง" โดยประมาณ (ในแง่ของ "การเป็นตัวแทนของกลุ่มตัวอย่าง") ในทางเทคนิคแล้ว ระดับ p คือหน่วยวัดที่แตกต่างกันไปตามลำดับความสำคัญที่ลดลงพร้อมกับความน่าเชื่อถือของผลลัพธ์ ระดับ p ที่สูงกว่าสอดคล้องกับระดับความเชื่อมั่นที่ต่ำกว่าในความสัมพันธ์ระหว่างตัวแปรที่พบในตัวอย่าง กล่าวคือ ระดับ p แสดงถึงความน่าจะเป็นของข้อผิดพลาดที่เกี่ยวข้องกับการกระจายผลลัพธ์ที่สังเกตไปยังประชากรทั้งหมด

ตัวอย่างเช่น, ระดับ p = 0.05(เช่น 1/20) บ่งชี้ว่ามีโอกาส 5% ที่ความสัมพันธ์ระหว่างตัวแปรที่พบในตัวอย่างเป็นเพียงลักษณะสุ่มของตัวอย่าง ในการศึกษาจำนวนมาก ค่า p-level 0.05 ถือเป็น "ส่วนต่างที่ยอมรับได้" สำหรับระดับข้อผิดพลาด

ไม่มีทางที่จะหลีกเลี่ยงความเด็ดขาดในการตัดสินใจว่าระดับนัยสำคัญใดที่ควรพิจารณาว่า "สำคัญ" อย่างแท้จริง การเลือกระดับนัยสำคัญที่สูงกว่าซึ่งผลลัพธ์ถูกปฏิเสธเนื่องจากเป็นเท็จนั้นค่อนข้างจะเป็นไปตามอำเภอใจ



ในทางปฏิบัติ การตัดสินใจขั้นสุดท้ายมักจะขึ้นอยู่กับว่าผลลัพธ์ถูกทำนายล่วงหน้าหรือไม่ (เช่น ก่อนการทดลองดำเนินการ) หรือค้นพบภายหลังอันเป็นผลมาจากการวิเคราะห์และการเปรียบเทียบจำนวนมากที่ดำเนินการกับข้อมูลที่หลากหลาย เช่นเดียวกับใน ประเพณีของสาขาวิชา

โดยทั่วไป ในหลายสาขา ผลลัพธ์ของ p .05 ถือเป็นจุดตัดที่ยอมรับได้สำหรับนัยสำคัญทางสถิติ แต่โปรดจำไว้ว่าระดับนี้ยังคงมีข้อผิดพลาดค่อนข้างมาก (5%)

โดยทั่วไปผลลัพธ์ที่มีนัยสำคัญที่ระดับ p .01 ถือว่ามีนัยสำคัญทางสถิติ ในขณะที่ผลลัพธ์ที่ระดับ p .005 หรือ p .00 โดยทั่วไปถือว่ามีนัยสำคัญทางสถิติ 001 มีนัยสำคัญมาก อย่างไรก็ตาม ควรเข้าใจว่าการจำแนกระดับนัยสำคัญนี้ค่อนข้างจะเป็นไปตามอำเภอใจและเป็นเพียงข้อตกลงที่ไม่เป็นทางการที่นำมาใช้บนพื้นฐานของประสบการณ์เชิงปฏิบัติ ในสาขาวิชาเฉพาะ.

เป็นที่ชัดเจนว่ายิ่งจำนวนการวิเคราะห์ที่ดำเนินการกับผลรวมของข้อมูลที่รวบรวมมีมากขึ้น จำนวนผลลัพธ์ที่มีนัยสำคัญ (ในระดับที่เลือก) จะถูกค้นพบโดยบังเอิญมากขึ้นเท่านั้น

วิธีการทางสถิติบางอย่างที่เกี่ยวข้องกับการเปรียบเทียบจำนวนมาก และมีโอกาสสำคัญที่จะเกิดข้อผิดพลาดประเภทนี้ซ้ำ ให้ทำการปรับเปลี่ยนหรือแก้ไขเป็นพิเศษสำหรับจำนวนการเปรียบเทียบทั้งหมด อย่างไรก็ตาม วิธีการทางสถิติหลายวิธี (โดยเฉพาะวิธีการวิเคราะห์ข้อมูลเชิงสำรวจแบบง่าย) ไม่มีวิธีใดในการแก้ปัญหานี้

ถ้าความสัมพันธ์ระหว่างตัวแปรอ่อนแอ "เป็นกลาง" ก็ไม่มีวิธีอื่นที่จะทดสอบความสัมพันธ์ดังกล่าวได้นอกจากศึกษากลุ่มตัวอย่างขนาดใหญ่ แม้ว่าตัวอย่างจะเป็นตัวแทนได้อย่างสมบูรณ์ แต่ผลกระทบก็ไม่มีนัยสำคัญทางสถิติหากตัวอย่างมีขนาดเล็ก ในทำนองเดียวกัน หากความสัมพันธ์มีความแข็งแกร่ง "เชิงวัตถุ" มาก ก็สามารถตรวจพบได้ด้วยนัยสำคัญในระดับสูงแม้ในกลุ่มตัวอย่างขนาดเล็กมากก็ตาม

ยิ่งความสัมพันธ์ระหว่างตัวแปรอ่อนลง ขนาดตัวอย่างที่จำเป็นในการตรวจจับก็จะยิ่งใหญ่ขึ้นเท่านั้น

ที่แตกต่างกันมากมาย มาตรการความสัมพันธ์ ระหว่างตัวแปร การเลือกหน่วยวัดเฉพาะในการศึกษาเฉพาะนั้นขึ้นอยู่กับจำนวนตัวแปร ระดับการวัดที่ใช้ ลักษณะของความสัมพันธ์ เป็นต้น

อย่างไรก็ตาม มาตรการเหล่านี้ส่วนใหญ่เป็นไปตามหลักการทั่วไป: มาตรการเหล่านี้พยายามประมาณความสัมพันธ์ที่สังเกตได้โดยการเปรียบเทียบกับ "ความสัมพันธ์สูงสุดที่เป็นไปได้" ระหว่างตัวแปรที่เป็นปัญหา ในทางเทคนิคแล้ว วิธีปกติในการประมาณค่าดังกล่าวคือการดูว่าค่าของตัวแปรแปรผันอย่างไร จากนั้นคำนวณว่าค่าความแปรผันทั้งหมดที่มีอยู่มากน้อยเพียงใด สามารถอธิบายได้ด้วยการมีอยู่ของความแปรผัน "ทั่วไป" ("ข้อต่อ") ใน ตัวแปรสองตัว (หรือมากกว่า)

ความสำคัญขึ้นอยู่กับขนาดตัวอย่างเป็นหลัก ดังที่ได้อธิบายไปแล้ว ในกลุ่มตัวอย่างที่มีขนาดใหญ่มาก แม้แต่ความสัมพันธ์ที่อ่อนแอมากระหว่างตัวแปรก็ยังมีความสำคัญ ในขณะที่ในกลุ่มตัวอย่างขนาดเล็ก แม้แต่ความสัมพันธ์ที่แข็งแกร่งมากก็ไม่น่าเชื่อถือ

ดังนั้น เพื่อกำหนดระดับนัยสำคัญทางสถิติ จำเป็นต้องมีฟังก์ชันที่จะแสดงความสัมพันธ์ระหว่าง "ขนาด" และ "นัยสำคัญ" ของความสัมพันธ์ระหว่างตัวแปรสำหรับขนาดตัวอย่างแต่ละขนาด

ฟังก์ชันดังกล่าวจะระบุอย่างชัดเจนว่า "มีแนวโน้มเพียงใดที่จะได้รับค่าที่กำหนดให้ (หรือมากกว่า) ในตัวอย่างที่มีขนาดที่กำหนด โดยสมมติว่าไม่มีการพึ่งพาดังกล่าวในประชากร" กล่าวอีกนัยหนึ่ง ฟังก์ชันนี้จะให้ระดับนัยสำคัญ
(ระดับ p) และความน่าจะเป็นที่จะปฏิเสธสมมติฐานที่ว่าไม่มีการพึ่งพาในประชากรอย่างผิดพลาด

สมมติฐาน "ทางเลือก" นี้ (ว่าไม่มีความสัมพันธ์กันในประชากร) มักเรียกว่า สมมติฐานว่าง.

คงจะเหมาะเป็นอย่างยิ่งหากฟังก์ชันที่คำนวณความน่าจะเป็นของข้อผิดพลาดเป็นแบบเส้นตรงและมีเพียงความชันที่แตกต่างกันสำหรับขนาดตัวอย่างที่แตกต่างกัน น่าเสียดายที่ฟังก์ชันนี้ซับซ้อนกว่ามากและไม่เหมือนกันทุกประการ อย่างไรก็ตาม ในกรณีส่วนใหญ่ เราจะทราบรูปแบบของรูปแบบนี้และสามารถใช้เพื่อกำหนดระดับนัยสำคัญในการศึกษาตัวอย่างในขนาดที่กำหนดได้ ฟังก์ชันเหล่านี้ส่วนใหญ่เกี่ยวข้องกับคลาสของการแจกแจงที่เรียกว่า ปกติ .

ระดับนัยสำคัญทางสถิติเป็นตัวบ่งชี้สำคัญที่สะท้อนถึงระดับความเชื่อมั่นในความถูกต้องและความจริงของข้อมูลที่ได้รับ (คาดการณ์) แนวคิดนี้ใช้กันอย่างแพร่หลายในสาขาต่าง ๆ ตั้งแต่การทำวิจัยทางสังคมวิทยาไปจนถึงการทดสอบทางสถิติของสมมติฐานทางวิทยาศาสตร์

คำนิยาม

ระดับนัยสำคัญทางสถิติ (หรือผลลัพธ์ที่มีนัยสำคัญทางสถิติ) แสดงความน่าจะเป็นที่ตัวชี้วัดที่ศึกษาจะเกิดขึ้นโดยบังเอิญ นัยสำคัญทางสถิติโดยรวมของปรากฏการณ์แสดงโดยค่าสัมประสิทธิ์ค่า p (p-level) ในการทดลองหรือการสังเกตการณ์ใดๆ มีความเป็นไปได้ที่ข้อมูลที่ได้รับจะเกิดจากข้อผิดพลาดในการสุ่มตัวอย่าง นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งสำหรับสังคมวิทยา

นั่นคือค่าที่มีนัยสำคัญทางสถิติคือค่าที่มีความน่าจะเป็นที่จะเกิดขึ้นแบบสุ่มมีน้อยมากหรือมีแนวโน้มที่จะรุนแรงถึงขั้นสุด ค่าสุดขีดในบริบทนี้ถือเป็นระดับที่สถิติเบี่ยงเบนไปจากสมมติฐานว่าง (สมมติฐานที่ได้รับการทดสอบความสอดคล้องกับข้อมูลตัวอย่างที่ได้รับ) ในการปฏิบัติทางวิทยาศาสตร์ ระดับนัยสำคัญจะถูกเลือกก่อนการรวบรวมข้อมูล และตามกฎแล้ว ค่าสัมประสิทธิ์ของมันคือ 0.05 (5%) สำหรับระบบที่ค่าที่แม่นยำมีความสำคัญอย่างยิ่ง ตัวเลขนี้อาจมีค่าเท่ากับ 0.01 (1%) หรือน้อยกว่า

พื้นหลัง

แนวคิดเรื่องระดับนัยสำคัญได้รับการแนะนำโดยโรนัลด์ ฟิชเชอร์ นักสถิติและนักพันธุศาสตร์ชาวอังกฤษในปี 1925 เมื่อเขากำลังพัฒนาเทคนิคในการทดสอบสมมติฐานทางสถิติ เมื่อวิเคราะห์กระบวนการใด ๆ มีความน่าจะเป็นของปรากฏการณ์บางอย่าง ความยากลำบากเกิดขึ้นเมื่อทำงานกับเปอร์เซ็นต์ความน่าจะเป็นเล็กน้อย (หรือไม่ชัดเจน) ที่อยู่ภายใต้แนวคิด "ข้อผิดพลาดในการวัด"

เมื่อทำงานกับข้อมูลทางสถิติที่ไม่เฉพาะเจาะจงเพียงพอที่จะทดสอบ นักวิทยาศาสตร์ต้องเผชิญกับปัญหาสมมติฐานว่างซึ่ง "ขัดขวาง" การทำงานในปริมาณน้อย ฟิชเชอร์เสนอให้ระบบดังกล่าวกำหนดความน่าจะเป็นของเหตุการณ์ที่ 5% (0.05) เป็นการสุ่มตัวอย่างที่สะดวกซึ่งช่วยให้สามารถปฏิเสธสมมติฐานว่างในการคำนวณได้

การแนะนำอัตราต่อรองคงที่

ในปี 1933 นักวิทยาศาสตร์ Jerzy Neumann และ Egon Pearson แนะนำในงานของพวกเขาว่ามีการกำหนดความสำคัญในระดับหนึ่งไว้ล่วงหน้า (ก่อนที่จะรวบรวมข้อมูล) ตัวอย่างการใช้กฎเหล่านี้มองเห็นได้ชัดเจนในระหว่างการเลือกตั้ง สมมติว่ามีผู้สมัครสองคน คนหนึ่งได้รับความนิยมอย่างมาก และอีกคนหนึ่งไม่ค่อยมีใครรู้จัก เห็นได้ชัดว่าผู้สมัครคนแรกจะชนะการเลือกตั้ง และโอกาสของผู้สมัครคนที่สองมีแนวโน้มเป็นศูนย์ พวกเขาพยายาม - แต่ไม่เท่าเทียมกัน: มีความเป็นไปได้ที่จะเกิดเหตุสุดวิสัย ข้อมูลที่น่าตื่นเต้น การตัดสินใจที่ไม่คาดคิดซึ่งสามารถเปลี่ยนแปลงผลการเลือกตั้งที่คาดการณ์ไว้ได้เสมอ

เนย์แมนและเพียร์สันเห็นพ้องกันว่าระดับนัยสำคัญของฟิชเชอร์ที่ 0.05 (แสดงด้วย α) มีความเหมาะสมที่สุด อย่างไรก็ตาม ฟิสเชอร์เองก็คัดค้านการแก้ไขค่านี้ในปี 1956 เขาเชื่อว่าควรตั้งค่าระดับ α ตามสถานการณ์เฉพาะ เช่น ในฟิสิกส์อนุภาคมีค่าเท่ากับ 0.01

ค่าระดับ p

คำว่า p-value ถูกใช้ครั้งแรกโดย Brownlee ในปี 1960 ระดับ P (ค่า p) เป็นตัวบ่งชี้ที่เกี่ยวข้องกับความจริงของผลลัพธ์แบบผกผัน ค่าสัมประสิทธิ์ค่า p สูงสุดสอดคล้องกับระดับความเชื่อมั่นต่ำสุดในความสัมพันธ์ตัวอย่างระหว่างตัวแปร

ค่านี้สะท้อนถึงความน่าจะเป็นของข้อผิดพลาดที่เกี่ยวข้องกับการตีความผลลัพธ์ สมมติว่าระดับ p = 0.05 (1/20) มันแสดงให้เห็นความน่าจะเป็นห้าเปอร์เซ็นต์ที่ความสัมพันธ์ระหว่างตัวแปรที่พบในตัวอย่างเป็นเพียงลักษณะสุ่มของกลุ่มตัวอย่าง นั่นคือหากไม่มีการพึ่งพาอาศัยกันนี้ โดยเฉลี่ยแล้วจะมีการทดลองที่คล้ายกันซ้ำๆ ในทุก ๆ การศึกษาที่ยี่สิบ เราสามารถคาดหวังได้ว่าจะมีการพึ่งพาแบบเดียวกันหรือมากกว่าระหว่างตัวแปรต่างๆ ระดับ p มักถูกมองว่าเป็น "ระยะขอบ" สำหรับอัตราข้อผิดพลาด

อย่างไรก็ตาม ค่า p อาจไม่สะท้อนถึงความสัมพันธ์ที่แท้จริงระหว่างตัวแปร แต่แสดงเพียงค่าเฉลี่ยที่แน่นอนภายในสมมติฐานเท่านั้น โดยเฉพาะอย่างยิ่งการวิเคราะห์ข้อมูลขั้นสุดท้ายจะขึ้นอยู่กับค่าที่เลือกของสัมประสิทธิ์นี้ด้วย ที่ระดับ p = 0.05 จะได้ผลลัพธ์บางส่วน และที่ค่าสัมประสิทธิ์เท่ากับ 0.01 จะได้ผลลัพธ์ที่แตกต่างกัน

การทดสอบสมมติฐานทางสถิติ

ระดับนัยสำคัญทางสถิติมีความสำคัญอย่างยิ่งเมื่อทดสอบสมมติฐาน ตัวอย่างเช่น เมื่อคำนวณการทดสอบแบบสองด้าน พื้นที่การปฏิเสธจะถูกแบ่งเท่าๆ กันที่ปลายทั้งสองด้านของการกระจายตัวอย่าง (สัมพันธ์กับพิกัดศูนย์) และความจริงของข้อมูลผลลัพธ์จะถูกคำนวณ

สมมติว่าเมื่อตรวจสอบกระบวนการบางอย่าง (ปรากฏการณ์) ปรากฎว่าข้อมูลทางสถิติใหม่บ่งบอกถึงการเปลี่ยนแปลงเล็กน้อยที่สัมพันธ์กับค่าก่อนหน้า ในขณะเดียวกันความคลาดเคลื่อนในผลลัพธ์ก็มีน้อย ไม่ชัดเจน แต่มีความสำคัญต่อการศึกษา ผู้เชี่ยวชาญต้องเผชิญกับภาวะที่กลืนไม่เข้าคายไม่ออก: มีการเปลี่ยนแปลงเกิดขึ้นจริงๆ หรือข้อผิดพลาดในการสุ่มตัวอย่างเหล่านี้ (ความไม่ถูกต้องในการวัด)

ในกรณีนี้ พวกเขาใช้หรือปฏิเสธสมมติฐานว่าง (ถือว่าทุกอย่างมีข้อผิดพลาด หรือรับรู้การเปลี่ยนแปลงในระบบว่าเป็นการกระทำที่ล้มเหลว) กระบวนการแก้ไขปัญหาขึ้นอยู่กับอัตราส่วนของนัยสำคัญทางสถิติโดยรวม (ค่า p) และระดับนัยสำคัญ (α) ถ้าเป็นระดับ p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

ค่านิยมที่ใช้

ระดับนัยสำคัญขึ้นอยู่กับเนื้อหาที่กำลังวิเคราะห์ ในทางปฏิบัติจะใช้ค่าคงที่ต่อไปนี้:

  • α = 0.1 (หรือ 10%);
  • α = 0.05 (หรือ 5%);
  • α = 0.01 (หรือ 1%);
  • α = 0.001 (หรือ 0.1%)

ยิ่งต้องการคำนวณที่แม่นยำยิ่งขึ้น ค่าสัมประสิทธิ์ α ก็จะยิ่งต่ำลงเท่านั้น โดยปกติแล้ว การพยากรณ์ทางสถิติในสาขาฟิสิกส์ เคมี เภสัชกรรม และพันธุศาสตร์จำเป็นต้องมีความแม่นยำมากกว่าในสาขารัฐศาสตร์และสังคมวิทยา

เกณฑ์ความสำคัญในพื้นที่เฉพาะ

ในสาขาที่มีความแม่นยำสูง เช่น ฟิสิกส์ของอนุภาคและการผลิต นัยสำคัญทางสถิติมักแสดงเป็นอัตราส่วนของส่วนเบี่ยงเบนมาตรฐาน (แสดงโดยสัมประสิทธิ์ซิกมา - σ) ที่สัมพันธ์กับการแจกแจงความน่าจะเป็นแบบปกติ (การแจกแจงแบบเกาส์เซียน) σ เป็นตัวบ่งชี้ทางสถิติที่กำหนดการกระจายของค่าของปริมาณที่แน่นอนซึ่งสัมพันธ์กับความคาดหวังทางคณิตศาสตร์ ใช้ในการพล็อตความน่าจะเป็นของเหตุการณ์

ขึ้นอยู่กับสาขาวิชาความรู้ ค่าสัมประสิทธิ์ σ จะแตกต่างกันอย่างมาก ตัวอย่างเช่น เมื่อทำนายการมีอยู่ของฮิกส์โบซอน พารามิเตอร์ σ เท่ากับ 5 (σ = 5) ซึ่งสอดคล้องกับค่า p = 1/3.5 ล้าน ในการศึกษาจีโนม ระดับนัยสำคัญสามารถเป็น 5 × 10 - 8 ซึ่งไม่ใช่เรื่องแปลกสำหรับพื้นที่นี้

ประสิทธิภาพ

ต้องคำนึงว่าค่าสัมประสิทธิ์ α และ p-value ไม่ใช่ลักษณะที่แน่นอน ไม่ว่าระดับนัยสำคัญในสถิติของปรากฏการณ์ที่กำลังศึกษาอยู่จะไม่ใช่พื้นฐานที่ไม่มีเงื่อนไขในการยอมรับสมมติฐาน ตัวอย่างเช่น ยิ่งค่า α มีค่าน้อยเท่าใด โอกาสที่สมมติฐานจะถูกตั้งขึ้นก็จะยิ่งมากขึ้นเท่านั้น อย่างไรก็ตาม มีความเสี่ยงที่จะเกิดข้อผิดพลาด ซึ่งจะทำให้อำนาจทางสถิติ (นัยสำคัญ) ของการศึกษาลดลง

นักวิจัยที่มุ่งความสนใจไปที่ผลลัพธ์ที่มีนัยสำคัญทางสถิติเพียงอย่างเดียวอาจได้ข้อสรุปที่ผิดพลาด ในเวลาเดียวกัน เป็นการยากที่จะตรวจสอบงานของพวกเขาอีกครั้ง เนื่องจากพวกเขาใช้สมมติฐาน (ซึ่งจริงๆ แล้วคือค่า α และ p) ดังนั้นจึงขอแนะนำเสมอควบคู่ไปกับการคำนวณนัยสำคัญทางสถิติ เพื่อกำหนดตัวบ่งชี้อื่น - ขนาดของผลกระทบทางสถิติ ขนาดของเอฟเฟกต์คือการวัดเชิงปริมาณของความแรงของเอฟเฟกต์

คุณคิดว่าอะไรทำให้ “อีกครึ่งหนึ่ง” ของคุณพิเศษและมีความหมาย? มันเกี่ยวข้องกับบุคลิกของเธอหรือของเขาหรือความรู้สึกของคุณที่คุณมีต่อบุคคลนี้หรือไม่? หรือบางทีด้วยข้อเท็จจริงง่ายๆ ที่ว่าสมมติฐานเกี่ยวกับการสุ่มของความเห็นอกเห็นใจของคุณดังที่การศึกษาแสดงให้เห็น มีความน่าจะเป็นน้อยกว่า 5%? หากเราพิจารณาว่าข้อความสุดท้ายมีความน่าเชื่อถือ หลักการแล้วจะไม่มีเว็บไซต์หาคู่ที่ประสบความสำเร็จ:

เมื่อคุณทำการทดสอบแยกหรือการวิเคราะห์อื่นใดในเว็บไซต์ของคุณ ความเข้าใจผิด "นัยสำคัญทางสถิติ" อาจนำไปสู่การตีความผลลัพธ์ที่ไม่ถูกต้อง และทำให้เกิดการกระทำที่ไม่ถูกต้องในกระบวนการเพิ่มประสิทธิภาพการแปลง นี่เป็นเรื่องจริงสำหรับการทดสอบทางสถิติอื่นๆ หลายพันรายการที่ดำเนินการทุกวันในทุกอุตสาหกรรมที่มีอยู่

เพื่อทำความเข้าใจว่า "นัยสำคัญทางสถิติ" คืออะไร คุณต้องเจาะลึกประวัติความเป็นมาของคำนี้ เรียนรู้ความหมายที่แท้จริงของคำนั้น และทำความเข้าใจว่าความเข้าใจเก่า "ใหม่" นี้จะช่วยให้คุณตีความผลการวิจัยของคุณได้อย่างถูกต้องอย่างไร

ประวัติเล็กน้อย

แม้ว่ามนุษยชาติจะใช้สถิติในการแก้ปัญหาต่างๆ มาเป็นเวลาหลายศตวรรษแล้ว แต่ความเข้าใจสมัยใหม่เกี่ยวกับนัยสำคัญทางสถิติ การทดสอบสมมติฐาน การสุ่ม และแม้แต่การออกแบบการทดลอง (DOE) เริ่มเป็นรูปเป็นร่างในช่วงต้นศตวรรษที่ 20 เท่านั้น และมีความเชื่อมโยงอย่างแยกไม่ออกกับ ชื่อของเซอร์โรนัลด์ ฟิชเชอร์ (เซอร์โรนัลด์ ฟิชเชอร์, พ.ศ. 2433-2505):

โรนัลด์ ฟิชเชอร์เป็นนักชีววิทยาเชิงวิวัฒนาการและนักสถิติผู้มีความหลงใหลเป็นพิเศษในการศึกษาวิวัฒนาการและการคัดเลือกโดยธรรมชาติในอาณาจักรสัตว์และพืช ในระหว่างอาชีพการงานอันโด่งดัง เขาได้พัฒนาและเผยแพร่เครื่องมือทางสถิติที่มีประโยชน์มากมายที่เรายังคงใช้อยู่ในปัจจุบันให้แพร่หลาย

ฟิชเชอร์ใช้เทคนิคที่เขาพัฒนาขึ้นเพื่ออธิบายกระบวนการทางชีววิทยา เช่น การครอบงำ การกลายพันธุ์ และการเบี่ยงเบนทางพันธุกรรม ปัจจุบันเราสามารถใช้เครื่องมือเดียวกันนี้เพื่อเพิ่มประสิทธิภาพและปรับปรุงเนื้อหาของทรัพยากรบนเว็บ ความจริงที่ว่าเครื่องมือวิเคราะห์เหล่านี้สามารถใช้ทำงานกับวัตถุที่ไม่มีอยู่จริงในขณะที่สร้างมันขึ้นมาก็ดูน่าประหลาดใจทีเดียว เป็นเรื่องที่น่าแปลกใจไม่แพ้กันที่ผู้คนเคยทำการคำนวณที่ซับซ้อนโดยไม่ต้องใช้เครื่องคิดเลขหรือคอมพิวเตอร์

เพื่ออธิบายผลลัพธ์ของการทดลองทางสถิติว่ามีความเป็นไปได้สูงที่จะเป็นจริง ฟิชเชอร์ใช้คำว่า "ความสำคัญ"

นอกจากนี้ พัฒนาการที่น่าสนใจที่สุดประการหนึ่งของฟิชเชอร์ยังเรียกได้ว่าเป็นสมมติฐาน "ลูกชายสุดเซ็กซี่" อีกด้วย ตามทฤษฎีนี้ ผู้หญิงชอบผู้ชายที่สำส่อนทางเพศ (สำส่อน) เพราะจะทำให้ลูกชายที่เกิดจากผู้ชายเหล่านี้มีความโน้มเอียงแบบเดียวกันและให้กำเนิดลูกหลานมากขึ้น (โปรดทราบว่านี่เป็นเพียงทฤษฎี)

แต่ไม่มีใครแม้แต่นักวิทยาศาสตร์ที่เก่งกาจก็สามารถรอดพ้นจากการทำผิดพลาดได้ ข้อบกพร่องของฟิชเชอร์ยังคงเป็นปัญหาต่อผู้เชี่ยวชาญมาจนถึงทุกวันนี้ แต่จงจำคำพูดของอัลเบิร์ต ไอน์สไตน์ที่ว่า “ใครก็ตามที่ไม่เคยทำผิด ไม่เคยสร้างสิ่งใหม่”

ก่อนที่จะไปยังจุดถัดไป โปรดจำไว้ว่า: นัยสำคัญทางสถิติคือเมื่อความแตกต่างในผลการทดสอบมีมากจนไม่สามารถอธิบายความแตกต่างด้วยปัจจัยสุ่มได้

สมมติฐานของคุณคืออะไร?

หากต้องการทำความเข้าใจว่า "นัยสำคัญทางสถิติ" หมายถึงอะไร ก่อนอื่นคุณต้องเข้าใจว่า "การทดสอบสมมติฐาน" คืออะไร เนื่องจากคำทั้งสองมีความเกี่ยวพันกันอย่างใกล้ชิด
สมมติฐานเป็นเพียงทฤษฎี เมื่อคุณพัฒนาทฤษฎีแล้ว คุณจะต้องสร้างกระบวนการในการรวบรวมหลักฐานที่เพียงพอและรวบรวมหลักฐานนั้นจริงๆ สมมติฐานมีสองประเภท

แอปเปิ้ลหรือส้ม - ไหนดีกว่ากัน?

สมมติฐานว่าง

ตามกฎแล้ว นี่คือจุดที่หลายคนประสบปัญหา สิ่งหนึ่งที่ควรจำไว้ก็คือ สมมติฐานว่างไม่ใช่สิ่งที่จำเป็นต้องได้รับการพิสูจน์ เช่น คุณพิสูจน์ว่าการเปลี่ยนแปลงบางอย่างบนเว็บไซต์จะนำไปสู่ ​​Conversion เพิ่มขึ้น แต่ในทางกลับกัน สมมติฐานว่างคือทฤษฎีที่ระบุว่าหากคุณทำการเปลี่ยนแปลงใดๆ กับไซต์ จะไม่มีอะไรเกิดขึ้น และเป้าหมายของผู้วิจัยคือการหักล้างทฤษฎีนี้ ไม่ใช่เพื่อพิสูจน์

หากเราพิจารณาประสบการณ์ในการแก้ปัญหาอาชญากรรม โดยที่ผู้สืบสวนยังตั้งสมมติฐานว่าใครคืออาชญากร สมมติฐานว่างจะอยู่ในรูปแบบที่เรียกว่าข้อสันนิษฐานว่าเป็นผู้บริสุทธิ์ ซึ่งเป็นแนวคิดที่ผู้ต้องหาสันนิษฐานว่าเป็นผู้บริสุทธิ์จนกว่าจะพิสูจน์ว่ามีความผิด ในศาล

หากสมมติฐานว่างคือวัตถุสองชิ้นมีคุณสมบัติเท่ากัน และคุณกำลังพยายามพิสูจน์ว่าหนึ่งในนั้นดีกว่า (เช่น A ดีกว่า B) คุณจะต้องปฏิเสธสมมติฐานว่างและเลือกใช้สมมติฐานทางเลือกแทน ตัวอย่างเช่น คุณกำลังเปรียบเทียบเครื่องมือเพิ่มประสิทธิภาพการแปลงอย่างใดอย่างหนึ่ง ในสมมติฐานว่าง ทั้งสองมีผลเหมือนกัน (หรือไม่มีผล) กับเป้าหมาย ในทางกลับกันผลของหนึ่งในนั้นจะดีกว่า

สมมติฐานทางเลือกของคุณอาจมีค่าตัวเลข เช่น B - A > 20% ในกรณีนี้ สมมติฐานว่างและทางเลือกอื่นอาจอยู่ในรูปแบบต่อไปนี้:

อีกชื่อหนึ่งของสมมติฐานทางเลือกคือ สมมติฐานการวิจัย เนื่องจากผู้วิจัยสนใจที่จะพิสูจน์สมมติฐานนี้อยู่เสมอ

นัยสำคัญทางสถิติและค่า p

กลับมาที่โรนัลด์ ฟิชเชอร์และแนวคิดของเขาเกี่ยวกับนัยสำคัญทางสถิติอีกครั้ง

ตอนนี้คุณมีสมมติฐานว่างและทางเลือกอื่นแล้ว คุณจะพิสูจน์ข้อหนึ่งและหักล้างอีกข้อได้อย่างไร?

เนื่องจากโดยธรรมชาติแล้วสถิติเกี่ยวข้องกับการศึกษาประชากรกลุ่มใดกลุ่มหนึ่ง (ตัวอย่าง) คุณจึงไม่สามารถมั่นใจได้ 100% เกี่ยวกับผลลัพธ์ที่ได้รับ ตัวอย่างที่ดี: ผลการเลือกตั้งมักจะแตกต่างไปจากผลการเลือกตั้งเบื้องต้นและแม้กระทั่งผลการเลือกตั้งนอกระบบ

ดร. ฟิชเชอร์ต้องการสร้างเส้นแบ่งที่จะแจ้งให้คุณทราบว่าการทดลองของคุณประสบความสำเร็จหรือไม่ นี่คือลักษณะที่ดัชนีความน่าเชื่อถือปรากฏ ความน่าเชื่อถือคือระดับที่เราใช้เพื่อพูดในสิ่งที่เราพิจารณาว่า "สำคัญ" และสิ่งที่เราไม่ทำ หาก "p" ซึ่งเป็นดัชนีนัยสำคัญเท่ากับ 0.05 หรือน้อยกว่า แสดงว่าผลลัพธ์มีความน่าเชื่อถือ

ไม่ต้องกังวล จริงๆ แล้วมันไม่ได้น่าสับสนอย่างที่คิด

การแจกแจงความน่าจะเป็นแบบเกาส์เซียน ตามขอบคือค่าที่เป็นไปได้น้อยกว่าของตัวแปร โดยตรงกลางคือค่าที่เป็นไปได้มากที่สุด คะแนน P (พื้นที่สีเทาสีเขียว) คือความน่าจะเป็นของผลลัพธ์ที่สังเกตได้ซึ่งเกิดขึ้นโดยบังเอิญ

การแจกแจงความน่าจะเป็นแบบปกติ (การแจกแจงแบบเกาส์เซียน) คือการแสดงค่าที่เป็นไปได้ทั้งหมดของตัวแปรบางตัวบนกราฟ (ในรูปด้านบน) และความถี่ หากคุณค้นคว้าอย่างถูกต้องแล้วพล็อตคำตอบทั้งหมดลงบนกราฟ คุณจะได้การกระจายตัวนี้อย่างแน่นอน จากการแจกแจงแบบปกติ คุณจะได้รับคำตอบที่คล้ายกันเป็นเปอร์เซ็นต์จำนวนมาก และตัวเลือกที่เหลือจะอยู่ที่ขอบของกราฟ (หรือที่เรียกว่า "ก้อย") การกระจายคุณค่านี้มักพบในธรรมชาติจึงเรียกว่า "ปกติ"

การใช้สมการจากตัวอย่างและผลการทดสอบของคุณ ทำให้คุณสามารถคำนวณสิ่งที่เรียกว่า "สถิติการทดสอบ" ซึ่งจะระบุว่าผลลัพธ์ของคุณเบี่ยงเบนไปมากเพียงใด นอกจากนี้ยังจะบอกคุณด้วยว่าคุณอยู่ใกล้สมมติฐานว่างที่เป็นความจริงแค่ไหน

เพื่อช่วยให้คุณเข้าใจได้ ให้ใช้เครื่องคิดเลขออนไลน์เพื่อคำนวณนัยสำคัญทางสถิติ:

ตัวอย่างหนึ่งของเครื่องคิดเลขดังกล่าว

ตัวอักษร "p" แสดงถึงความน่าจะเป็นที่สมมติฐานว่างเป็นจริง หากตัวเลขน้อย ก็จะบ่งบอกถึงความแตกต่างระหว่างกลุ่มทดสอบ ในขณะที่สมมติฐานว่างจะแสดงว่ากลุ่มทดสอบเหมือนกัน ตามกราฟิก ดูเหมือนว่าสถิติการทดสอบของคุณจะเข้าใกล้ส่วนท้ายด้านใดด้านหนึ่งของการกระจายตัวรูประฆังของคุณมากขึ้น

ดร. ฟิชเชอร์ตัดสินใจกำหนดเกณฑ์นัยสำคัญที่ p ≤ 0.05 อย่างไรก็ตาม ข้อความนี้ยังเป็นที่ถกเถียงกันอยู่ เนื่องจากทำให้เกิดปัญหา 2 ประการ:

1. ประการแรก ความจริงที่ว่าคุณได้พิสูจน์สมมติฐานว่างแล้วไม่ได้หมายความว่าคุณได้พิสูจน์สมมติฐานทางเลือกแล้ว นัยสำคัญทั้งหมดนี้หมายความว่าคุณไม่สามารถพิสูจน์ A หรือ B ได้

2. ประการที่สอง ถ้าคะแนน p เท่ากับ 0.049 หมายความว่าความน่าจะเป็นของสมมติฐานว่างจะเป็น 4.9% นี่อาจหมายความว่าผลการทดสอบของคุณอาจเป็นทั้งจริงและเท็จในเวลาเดียวกัน

คุณอาจใช้หรือไม่ใช้คะแนน p แต่คุณจะต้องคำนวณความน่าจะเป็นของสมมติฐานว่างเป็นรายๆ ไป และตัดสินใจว่าค่า p นั้นมากพอที่จะป้องกันไม่ให้คุณทำการเปลี่ยนแปลงที่คุณวางแผนและทดสอบไว้หรือไม่ .

สถานการณ์ทั่วไปที่สุดสำหรับการดำเนินการทดสอบทางสถิติในวันนี้คือการกำหนดเกณฑ์ที่มีนัยสำคัญที่ p ≤ 0.05 ก่อนที่จะดำเนินการทดสอบ เพียงอย่าลืมดูค่า p อย่างใกล้ชิดเมื่อตรวจสอบผลลัพธ์ของคุณ

ข้อผิดพลาด 1 และ 2

เวลาผ่านไปนานมากจนมีการตั้งชื่อข้อผิดพลาดที่อาจเกิดขึ้นเมื่อใช้เมตริกนัยสำคัญทางสถิติด้วยซ้ำ

ข้อผิดพลาดประเภท 1

ตามที่กล่าวไว้ข้างต้น ค่า p เท่ากับ 0.05 หมายความว่ามีโอกาส 5% ที่สมมติฐานว่างจะเป็นจริง ถ้าคุณไม่ทำ คุณจะทำผิดพลาดหมายเลข 1 ผลลัพธ์บอกว่าเว็บไซต์ใหม่ของคุณเพิ่มอัตราการแปลงของคุณ แต่มีโอกาส 5% ที่จะไม่ได้เพิ่ม

ข้อผิดพลาดประเภท 2

ข้อผิดพลาดนี้ตรงกันข้ามกับข้อผิดพลาด 1: คุณยอมรับสมมติฐานว่างเมื่อเป็นเท็จ ตัวอย่างเช่น ผลการทดสอบจะบอกคุณว่าการเปลี่ยนแปลงที่ทำกับไซต์ไม่ได้นำมาซึ่งการปรับปรุงใดๆ ในขณะที่มีการเปลี่ยนแปลง เป็นผลให้คุณพลาดโอกาสในการปรับปรุงประสิทธิภาพของคุณ

ข้อผิดพลาดนี้เป็นเรื่องปกติในการทดสอบที่มีขนาดตัวอย่างไม่เพียงพอ ดังนั้นโปรดจำไว้ว่า ยิ่งตัวอย่างมีขนาดใหญ่เท่าใด ผลลัพธ์ก็จะยิ่งน่าเชื่อถือมากขึ้นเท่านั้น

บทสรุป

บางทีไม่มีคำใดที่ได้รับความนิยมในหมู่นักวิจัยมากเท่ากับนัยสำคัญทางสถิติ เมื่อผลการทดสอบไม่พบว่ามีนัยสำคัญทางสถิติ ผลที่ตามมามีตั้งแต่อัตราคอนเวอร์ชั่นที่เพิ่มขึ้นไปจนถึงการล่มสลายของบริษัท

และเนื่องจากนักการตลาดใช้คำนี้เมื่อเพิ่มประสิทธิภาพทรัพยากรของตน คุณจึงต้องรู้ว่าจริงๆ แล้วคำนี้หมายถึงอะไร เงื่อนไขการทดสอบอาจแตกต่างกันไป แต่ขนาดตัวอย่างและเกณฑ์ความสำเร็จมีความสำคัญเสมอ จำสิ่งนี้ไว้



บทความนี้มีให้บริการในภาษาต่อไปนี้ด้วย: แบบไทย

  • ต่อไป

    ขอบคุณมากสำหรับข้อมูลที่เป็นประโยชน์ในบทความ ทุกอย่างนำเสนอได้ชัดเจนมาก รู้สึกเหมือนมีการทำงานมากมายในการวิเคราะห์การดำเนินงานของร้าน eBay

    • ขอบคุณและผู้อ่านประจำบล็อกของฉัน หากไม่มีคุณ ฉันคงไม่มีแรงจูงใจมากพอที่จะอุทิศเวลามากมายให้กับการดูแลไซต์นี้ สมองของฉันมีโครงสร้างดังนี้ ฉันชอบขุดลึก จัดระบบข้อมูลที่กระจัดกระจาย ลองทำสิ่งที่ไม่มีใครเคยทำมาก่อนหรือมองจากมุมนี้ เป็นเรื่องน่าเสียดายที่เพื่อนร่วมชาติของเราไม่มีเวลาช้อปปิ้งบน eBay เนื่องจากวิกฤตการณ์ในรัสเซีย พวกเขาซื้อจาก Aliexpress จากประเทศจีนเนื่องจากสินค้ามีราคาถูกกว่ามาก (มักจะต้องเสียคุณภาพ) แต่การประมูลออนไลน์ใน eBay, Amazon, ETSY จะทำให้ชาวจีนก้าวนำสินค้าแบรนด์เนม สินค้าวินเทจ สินค้าทำมือ และสินค้าชาติพันธุ์ต่างๆ ได้อย่างง่ายดาย

      • ต่อไป

        สิ่งที่มีคุณค่าในบทความของคุณคือทัศนคติส่วนตัวและการวิเคราะห์หัวข้อของคุณ อย่ายอมแพ้บล็อกนี้ฉันมาที่นี่บ่อย พวกเราก็คงมีแบบนี้เยอะ ส่งอีเมลถึงฉัน ฉันเพิ่งได้รับอีเมลพร้อมข้อเสนอว่าพวกเขาจะสอนวิธีซื้อขายบน Amazon และ eBay ให้ฉัน

  • และฉันจำบทความโดยละเอียดของคุณเกี่ยวกับการซื้อขายเหล่านี้ได้ พื้นที่ ฉันอ่านทุกอย่างอีกครั้งและสรุปว่าหลักสูตรนี้เป็นหลักสูตรหลอกลวง ฉันยังไม่ได้ซื้ออะไรบนอีเบย์เลย ฉันไม่ได้มาจากรัสเซีย แต่มาจากคาซัคสถาน (อัลมาตี) แต่เรายังไม่ต้องการค่าใช้จ่ายเพิ่มเติมใดๆ
    ฉันขอให้คุณโชคดีและปลอดภัยในเอเชีย