เราได้อะไรจาก "ค่าเบี่ยงเบนมาตรฐาน" (standard deviation)

ใครที่เคยเรียนวิชาสถิติมาจะพบว่าในหลักสูตรจะสอนเน้นให้จำสูตรแล้วเอาไปสอบ โดยคำถามในข้อสอบส่วนใหญ่คือเลือกสูตรที่จำมาให้ถูกต้องแล้วคำนวณให้ถูก ที่สำคัญคือไม่ได้เน้นการนำเอามาใช้งานจริง ทำให้คืนครูไปหมดเกลี้ยง ผมเองก็เป็นหนึ่งในนั้นที่คืนไปหมดแล้ว แต่ทุกวันนี้ทำงานกับ Excel ในเรื่องการวิเคราะห์ข้อมูล ซึ่ง Excel มีฟังก์ชั่นทางสถิติรองรับครบถ้วน แต่ปัญหาคือ ถ้าเราไม่เข้าใจความหมายและจุดประสงค์ของสูตรทางสถิติก็คงไม่มีวันที่จะเอามาใช้งานได้ตรงตามความต้องการ

ค่าเฉลี่ย (average)

เริ่มต้นด้วยการคำนวณสถิติที่น่าจะคุ้นเคยกันดี คือ "ค่าเฉลี่ย" เรื่องนี้น่าจะเข้าใจง่ายสุด (เลยยังไม่ได้คืนครู) มันคือการคำนวณโดยเอาตัวเลขของข้อมูลมาบวกกันทุกตัวแล้วหารด้วยจำนวนข้อมูล ขอแนบสมการให้ดูเท่ๆ กันหน่อย

สมการสำหรับหาค่าเฉลี่ย

ตัวอย่าง: อุณหภูมิวันจันทร์ - ศุกร์ คือ 30.0 31.5 30.5 29.0 29.5 30.0 และ 30.5 ตามลำดับ ถ้านำมาคิดเป็นอุณหภูมิเฉลี่ยของสัปดาห์นี้ = (30.0+31.5+30.5+29.0+29.5+30.0+30.5) / 7 = 30.14 มาลองทำทำใน Excel กันดู

หาค่าเฉลี่ยของกลุ่มข้อมูลที่สนใจด้วยฟังก์ชั่น AVERAGE

ค่าเฉลี่ยที่คำนวณได้ จะเป็นค่ากลางหรือค่าที่เรานำมาใช้แทนกลุ่มข้อมูล เป็นตัวแทนของข้อมูลที่น่าจะดีที่สุด แต่ในชีวิตจริงข้อมูลไม่ได้มีแค่หลักหน่วย แต่อาจมีเป็นร้อยจนหลักแสนหลักล้าน การใช้ค่าเฉลี่ยเมื่อข้อมูลมีจำนวนมาก ๆ อาจไม่ใช่ทางออกที่ดีที่สุด เพราะข้อมูลยิ่งมาก การกระจายตัวของข้อมูลก็จะสูงขึ้นตาม

การกระจายตัวของข้อมูล

ในชีวิตจริงเราจะพบข้อมูลที่ได้มักจะมีการกระจายตัวที่ไม่เท่ากันหรือไม่ใกล้เคียงกันเสมอไป จากตัวอย่างที่แล้ว ถ้าเกิดพายุเข้าอากาศแปรปวน จะเกิดอะไรขึ้นมาลองดูกราฟกัน

เปรียบเทียบอากาศปกติ และ แปรปรวน

จากข้อมูลจะเห็นว่าแม้ข้อมูลได้ค่าเฉลี่ยเท่ากัน แต่แค่มองด้วยตาเปล่าก็จะเห็นว่าข้อมูลด้านล่างมีความแปรปรวนมากและค่าเฉลี่ยที่ได้มาไม่น่าจะนำมาแทนชุดข้อมูลดังกล่าวได้ คราวนี้ปัญหาคือถ้าข้อมูลมีจำนวนมาก ๆ การดูด้วยสายตาคงไม่เพียงพอจะตัดสินได้ว่าข้อมูลมันปกติหรือไม่ปกติ

ข้อมูลในชิวิตจริงแค่นี้มันจิบ ๆ แบบนี้ดูไม่ออกแน่ว่ามันแปรปรวนหรือเปล่า

ค่าเบี่ยงเบนมาตรฐาน (standard deviation หรือ SD)

ค่าเบี่ยงเบนมาตรฐาน หรือ SD คิดค้นโดย ฟรานซิส กาลตัน (Francis Galton) ในช่วงปลายคริสต์ทศวรรษ 1860 จุดประสงค์ของการคำนวณค่าเบียงเบนมาตรฐานก็คือหาค่าการกระจายตัวของข้อมูลที่ออกหากจากค่าเฉลี่ยกลางของข้อมูล ค่ายิ่งมากแสดงว่ามีการแปรปรวนหรือการกระจายของข้อมูลสูง เพื่อให้เข้าใจยิ่งขึ้นเรามาลองดูภาพกัน

ค่าเบี่ยงเบนมาตรฐาน (SD) คือ คือเอาระยะเส้นสีเหลืองมารวมกันหาค่าเฉลี่ย

จากภาพกราฟจะเห็นว่ายิ่งผลรวมความยาวของเส้นสีเหลืองยิ่งมาก ค่า SD ก็จะยิ่งสูงขึ้น ในทางสถิติหากมีการเก็บข้อมูลมาแล้วค่า SD เกินค่าที่รับได้จะถือว่าข้อมูลกระจายตัวเกินไป (อันนี้แล้วแต่งานและเงื่อนไข) ซึ่งก็ต้องหาเหตุผลต่อว่าทำไมถึงเป็นอย่างนั้น จากตัวอย่างที่ยกมาเกิดจากอากาศแปรปรวนเลยทำให้ค่า SD กระฉูดนั้นเอง เกือบลืมแปะสูตรซะหน่อย

สมการสำหรับหาค่า SD

ตัวอย่างการวิเคราะห์ แม่ไก่ออกไข่วันละฟอง

ในฟาร์มไก่ไข่ มีไก่อยู่ 1,000 ตัว โดยแบ่งอยู่ในโรงเลี้ยงจำนวน 4 โรง โดยค่าเฉลี่ยที่ควรจะเป็นไก่จะออกไข่ประมาณ 80% (มีพัก 20%) ฟาร์มไก่มีแรงงานคนจำกัดไม่สามารถนับไข่ที่ออกจากแม่ไก่แบบตัวต่อตัวได้

เมื่อเลี้ยงไก่เพื่อขายไข่ หากไก่กินอาหารแต่ออกไข่น้อยกว่าที่ควรจะเป็นก็จะขาดทุน ดังนั้นเราต้องหาให้ได้ว่ามีไก่ตัวไหนอู้ กินแล้วไม่ไข่บ้างหรือเปล่า

รายงานไข่ที่เก็บได้ใน 1 เดือน จำนวน 30 วัน

จากตารางนี้สามารถบอกอะไรได้บ้าง

  • ค่าเฉลี่ย (AVERAGE) โรงที่ 1 2 และ 4 ออกไข่เฉลี่ยต่ำกว่า 80% 
  • โรง 2 มีปัญหาเยอะสุด ค่าเฉลี่ยต่ำ แถมมีไก่อู้เยอะสุด
  • ค่าเฉลี่ยโรง 1 และ 4 แม้จะมีค่าเฉลี่ยใกล้เคียงกัน แต่ค่า SD ต่างกันมาก
    แสดงว่าในโรง 1 ไก่ออกไข่สม่ำเสมอกว่าโรง 4 (โรง 4 น่าจะมีไก่อู้มากกว่า)

เพื่อให้เห็นภาพลองมาดูกราฟของโรง 1 และ 4 กัน

เปรียบเทียบจำนวนไข่ที่เก็บได้ในแต่ละวันของโรง 1 และ 4

การแก้ไขปัญหาของโรง 4 คือ ต้องแยกไก่ขยันกับไก่อู้ออกจากกัน ซึ่งวิธีการอาจต้องให้คนงานเก็บข้อมูลไข่แยกเป็นโซน แล้วนำแต่ละโซนมาหาดูว่าโซนไหนตกค่าเฉลี่ยหรือค่า SD เยอะ จึงค่อยดูเป็นรายตัวในโซนนั้น ๆ

ตัวอย่างการวิเคราะห์ ผลการทำข้อสอบ

อาจารย์วิชาภาษาอังกฤษได้ทดสอบเด็ก 2 ห้อง เพื่อวัดผล ปรากฎว่าค่าเฉลี่ยที่ได้ 2 ห้องใกล้เคียงกัน แต่ค่า SD ต่างกัน

ผลการทดสอบของเด็กทั้ง 10 คน

จากข้อมูลจะเห็นได้ว่าแม้คะแนนเฉลี่ยจะใกล้เคียงกัน แต่ค่า SD ต่างกันมาก แสดงให้เห็นว่าห้อง B มีเด็กเก่งและไม่เก่ง ส่วนห้อง A จะเก่งใกล้เคียงกันมากกว่า เมื่อวิเคราะห์ผลที่ได้ จะทำให้เห็นว่าถ้าจะสอนห้อง B จะใช้วิธีสอนเหมือนห้อง A ไม่ได้ ต้องแบ่งกลุ่มเด็กอ่อนในห้อง B ออกมาสอนเพิ่มเติมเป็นต้น