การคาดการณ์ หรือการรู้อนาคต เป็นสิ่งที่คนส่วนใหญ่ให้ความสำคัญ เพื่อนำมาประกอบการตัดสินใจ ให้สามารถเลือกสิ่งที่ดีที่สุดสำหรับตัวเองหรือองค์กรได้ ในเชิงธุรกิจ ผู้ประกอบการอาจมีความต้องการที่จะรู้ว่าการลงทุนกับสินค้าชนิดใดแล้วจะได้กำไรเท่าไร เพื่อให้เลือกลงทุนได้อย่างเหมาะสม สำหรับบุคคลทั่วไป อาจมีความต้องการที่จะคาดการณ์สิ่งที่จะเกิดขึ้นในชีวิตประจำวัน เช่น ก่อนออกจากบ้านอาจต้องการที่จะคาดการณ์ว่าฝนจะตกหรือไม่ จะได้นำร่มติดตัวไปด้วย
การวิเคราะห์เชิงทำนาย เป็นการวิเคราะห์ข้อมูลในอดีตเพื่อหารูปแบบความสัมพันธ์ในชุดข้อมูลที่สามารถนำมาเป็นต้นแบบในการทำนาย การคาดการณ์ผลหรือสิ่งที่น่าจะเกิดขึ้นในอนาคต ซึ่งจะช่วยให้บุคคลหรือองค์กรสามารถตัดสินใจได้อย่างมีประสิทธิภาพ การคาดการณ์ว่าฝนจะตกหรือไม่ ทำให้เราตัดสินใจได้ว่าควรจะนำร่มไปหรือไม่ การคาดการณ์นี้อาจทำโดยการเทียบจากประสบการณ์ของเรา หรือจากการสังเกต ที่อาจจะ
สรุปได้ว่า ถ้าฟ้าครึ้ม ลมแรง แล้วฝนจะตก ถ้าเราคาดการณ์ว่าฝนจะตกและนำร่มไปด้วย แล้วเกิดฝนตกเราจะไม่เปียกฝน แสดงว่าการตัดสินใจมีประสิทธิภาพ
จากที่กล่าวมา นักเรียนคงพอจะเห็นประโยชน์ที่ได้จากการวิเคราะห์เชิงทำนายบ้างแล้ว ซึ่งในหัวข้อนี้จะนำเสนอวิธีการวิเคราะห์เชิงทำนายสองแบบ คือ การทำนายเชิงตัวเลข(numeric prediction) เช่น ทำนายจำนวนนาทีที่ใช้ในการรอแถวจ่ายเงิน และการทำนายเชิงหมวดหมู่ (classification) ตามคุณลักษณะร่วมที่สนใจ เช่น การทำนายสภาพอากาศว่าฝนจะตกหรือท้องฟ้าแจ่มใส
1. การทำนายเชิงตัวเลข (numeric prediction)
การทำนายเชิงตัวเลข (Numeric Prediction) เป็นการใช้ข้อมูลในอดีตมาวิเคราะห์หาแนวโน้มเพื่อทำนายอนาคต ซึ่งผลลัพธ์ของการทำนายจะอยู่ในรูปตัวเลข เช่น
ถ้านักเรียนจะไปเที่ยวต่างประเทศ นักเรียนควรตรวจสอบอุณหภูมิของประเทศที่จะไปในช่วงเวลาเดียวกันในอดีตเพื่อคาดการณ์อุณหภูมิ จะได้จัดเตรียมเสื้อผ้าได้ถูกต้อง
เกษตรกรต้องคาดการณ์ปริมาณน้ำฝนล่วงหน้า โดยใช้ข้อมูลปริมาณน้ำฝนในอดีต เพื่อใช้ในการวางแผนการเพาะปลูก
ประธานนักเรียนต้องการพยากรณ์จำนวนนักเรียนที่จะฝากเงินในธนาคารโรงเรียน เพื่อวางแผนการให้บริการที่เหมาะสม
การทำนายข้างต้น ทำได้โดยการนำข้อมูลในอดีต (สภาพอากาศ ปริมาณน้ำฝนในพื้นที่ หรือ จำนวนนักเรียนที่ฝากถอนเงินในแต่ละวัน) มาวิเคราะห์หาความสัมพันธ์ระหว่างชุดข้อมูลและสร้างแบบจำลองในการทำนายที่ให้ผลลัพธ์เป็นตัวเลขโดยทั่วไปมีวิธีการทำนาย 2 วิธี คือ การทำนายโดยใช้กราฟ และการทำนายโดยใช้สมการเชิงเส้น
เมื่อข้อมูล 2 ชุด มีความสัมพันธ์เชิงเส้นต่อกันนักเรียนสามารถทำนายชุดข้อมูลที่สนใจ (y) เมื่อทราบค่าชุดข้อมูลอีกชุดหนึ่ง (x) ที่สัมพันธ์กัน ดัง
ตัวอย่างของสุนัขจิ้งจอกที่สร้างแผนภาพการกระจายซึ่งพบว่าจำนวนวัวป่า (x) และจำนวนม้าลาย (y) มีความสัมพันธ์แบบเชิงเส้นต่อกัน ซึ่งหากต้องการจะประมาณค่าจำนวนม้าลาย เมื่อทราบจำนวนวัวป่าเราต้องลากเส้นตรงผ่านจุดต่าง ๆ ในแผนภาพการกระจายให้มากที่สุด เราเรียกเส้นตรงนี้ว่า “เส้นแนวโน้ม” และใช้เส้นแนวโน้มนี้ ในการประมาณค่าจำนวนม้าลาย
การทำนายค่าจากเส้นแนวโน้ม มี
ขั้นตอนดังนี้
1. สร้างแผนภาพการกระจาย แผนภาพนี้ทำให้ทราบรูปแบบความสัมพันธ์ของข้อมูลคร่าว ๆ โดยค่าที่อยู่บนแกน y แทนจำนวนของสิ่งที่เราสนใจ เช่น จำนวนม้าลาย และค่าที่อยู่บนแกน x แทนข้อมูลที่ทราบค่าและคาดว่าจะมีความสัมพันธ์กับ y ในที่นี้คือจำนวนวัวป่า
2. ลากเส้นแนวโน้ม เส้นแนวโน้มเป็นเส้นตรงที่ลากผ่านจุดต่าง ๆ ที่อยู่บนแผนภาพการกระจายให้ได้จำนวนมากที่สุด (line of best ft! โดยจำนวนจุดที่อยู่เหนือเส้น และใต้เส้นควรมีปริมาณใกล้เคียงกัน
พิจารณาเส้นตรงในแต่ละภาพ ไม่มีเส้นตรงในภาพใดที่สามรถลากผ่านได้ครบทุกจุด แต่จะเห็นว่าเส้นตรงในภาพ (c) ผ่านจุดต่าง ๆ ในแผนภาพการกระจายมากกว่าภาพอื่น ๆ เส้นตรงในภาพ (a) มีจำนวนจุดที่อยู่ใต้เส้นค่อนข้างมาก ในขณะที่เส้นตรง มีจำนวนจุดที่อยู่เหนือเส้นค่อนข้างมาก
ส่วนเส้นตรง มีจำนวนจุดทั้งเหนือเส้นและใต้เส้นใกล้เคียงกัน ดังนั้น เส้นตรง จึงเหมาะสมที่จะเป็นเส้นแนวโน้ม
3. ทำนายค่าจากเส้นแนวโน้ม
3.1 ประมาณค่าจากเส้นแนวโน้ม ในที่นี้ให้ y เป็นค่าที่ต้องการทำนาย และ x เป็นข้อมูลที่ทราบค่า ที่มีความสัมพันธ์กับ y ในการทำนาย ให้กำหนดจุดที่ทราบค่าบนแกน x แล้วลากเส้นจากจุดนั้นขนานกับแกน ไปตัดเส้นแนวโน้ม แล้วลากเส้นจากจุดตัดบนส้นแนวโน้ม ขนานกับแกน x ไปตัดที่แกน y จะได้ค่า y ซึ่งเป็นค่าที่ต้องการทำนาย
3.2 ทำนายค่าโดยใช้สมการเชิงเส้น เมื่อได้เส้นแนวโน้มแล้ว เราจะหาสมการเชิงเส้นของเส้นแนวโน้มนี้ ในรูป y = mx + c
2. การทำนายเชิงหมวดหมู่
การทำนายเชิงหมวดหมู่ (Classification) คือ การทำนายข้อมูลที่สนใจที่ไม่ใช่ข้อมูลตัวเลข จากข้อมูลอีกชุดหนึ่งที่มีความสัมพันธ์กัน เช่น การทำนานว่า ฝนจะตกหรือไม่ (ตก หรือไม่ตก) อาหารโปรด (ต้มยำกุ้ง ผัดไทย กะเพราไก่) แนวเพลงที่ชอบ (Jazz, Pop, Rock, R&B) ประเภทเครื่องดื่ม (น้ำอัดลม น้ำผลไม้) เป็นต้น แนวคิดหลักในการทำนาย คือ ใช้ข้อมูลในอดีตที่มีการระบุหมวดหมู่มาแล้ว เพื่อทำนายข้อมูลชุดใหม่ที่ยังไม่
ทราบหมวดหมู่ เทคนิคที่ใช้ในการจัดหมวดหมู่นั้นมีหลากหลาย ในที่นี้จะกล่าวถึงการจัดหมวดหมู่ด้วยวิธีการค้นหาเพื่อนบ้านใกล้เคียงที่สุด K ตัว (K – Nearest Neighbors: K-NN)
แนวคิดหลักของเทคนิคการค้นหาเพื่อนบ้านใกล้เคียงที่สุด K ตัว คือ การเทียบเคียงข้อมูลใหม่ที่ยัง
ไม่ได้จัดหมวดหมู่กับข้อมูลเดิมที่ถูกจัดหมวดหมูไว้แล้ว ซึ่งการเทียบเคียงจะเทียบเคียงข้อมูลใหม่กับข้อมูลเดิมที่มีระยะห่างน้อยที่สุดก่อน แล้วเปรียบเทียบกับข้อมูลเดิมที่ระยะห่างจากข้อมูลใหม่ถัดออกไปตามลำดับจนกระทั่งครบ K ตัว และใช้ข้อมูลดังกล่าวเพื่อระบุหมวดหมูให้กับข้อมูลใหม่ได้