นักเรียนเคยสังเกตไหมว่า เมื่อเข้าเว็บไซ เครือข่ายสังคม หรือแอปพลิเคชันสั่งซื้อสินค้า จะมีข้อมูลโฆษณาสินค้า หรือข้อมูลเกี่ยวกับสิ่งที่นักเรียนสนใจปรากฎอยู่เสมอ เหตุใดจึงเป็นเช่นนั้น ด้วยเทคโนโลยีในปัจจุบัน เว็บไซต์ หรือระบบผู้ให้บริการต่าง ” มีการเก็บพฤติกรรมการใช้งานของผู้ใช้ และนำมาวิเคราะห์สิ่งที่มีความสัมพันธ์กับพฤติกรรมผู้ใช้ เทคโนโลยีด้านข้อมูลมีประโยชน์และมีคุณค่ากว่าที่คิด ข้อมูลมีความหลากหลายและมีปริมาณมาก สามารถเข้าถึงได้อย่างสะดวก รวดเร็วและตลอดเวลา ข้อมูลถูกน้ำมาใช้ประโยชน์เพื่อตัดสินใจ หาคำตอบของปัญหา กำหนดแนวทางการดำเนินการ ตลอดจนนโยบายต่าง ๆในทุกระดับของสังคมตั้งแต่บุคคล ครอบครัว กลุ่มเพื่อน ชุมชน องค์กร และประเทศ จนอาจกล่าวได้ว่าชีวิตประจำวันของเราขับเคลื่อนโดยมีข้อมูลเป็นฐาน
ข้อมูลดีมีชัยไปกว่าครึ่ง
ข้อมูลจำนวนมาก ในปัจจุบัน เมื่อนำมาวิเคราะห์ในเชิงลึกจะทำให้เราค้นพบคุณค่าของข้อมูลช่วยสร้าง มูลค่าในเชิงธุรกิจหรือส่งผลในทางบวกให้กับผู้ใช้ข้อมูลเป็นอย่างมากตัวอย่างเช่น
ประธานาธิบดีกับข้อมูลขนาดใหญ่
มีคำกล่าวในปี พ.ศ. 2556 ว่าคุณสมบัติของผู้สมัครตำแหน่งประธานาธิบดีไม่เพียงแต่ประกอบด้วยเสน่ห์และความเป็นผู้นำเท่านั้นยังรวมถึงความสามารถในการวิเคราะห์ข้อมูลขนาดใหญ่ของผู้เชี่ยวชาญ โดยสามารถวิเคราะห์ความชอบส่วนบุคคลและอุปนิสัยของผู้มีสิทธิเลือกตั้งที่แสดงออกทางสื่อออนไลน์ทำให้รู้ถึงรสนิยมของผู้มีสิทธิเลือกตั้งว่ามีแนวโน้มจะเลือกผู้สมัครคนใดจนสามารถกำหนดแนวทางการหาเสียงที่มีลักษณะเฉพาะสำหรับกลุ่มบุคคลได้และทำให้อดีตประธานาธิบดีบารัค โอบามาได้รับการเลือกตั้งกลับมาเป็นสมัยที่สองในปี พ.ศ. 2559 เช่นเดียวกันประธานาธิบดีโดนัล ทรัมป์ ได้รับชัยชนะในการเลือกตั้งโดยอาศัยการวิเคราะห์ข้อมูลขนาดใหญ่ในเชิงลึก จนสามารถสร้างรูปแบบการสื่อสารข้อมูลเกี่ยวกับการเลือกตั้งที่เข้าถึงผู้มีสิทธิเลือกตั้งด้วยวิธีการ เวลาและสถานที่ตรงกับกลุ่มเป้าหมายมากที่สุด เช่น ในประเด็นที่เกี่ยวกับการครอบครองอาวุธสงครามของสหรัฐอเมริกา ทรัมป์ได้ใช้เหตุผลที่แตกต่างกันในการโน้มน้าวประชากรแต่ละกลุ่ม
การทำนายความต้องการซื้อสินค้าของผู้หญิงตั้งครรภ์
การทำนายความต้องการซื้อสินค้าของผู้หญิงตั้งครรภ์บริษัท ทาร์เก็ต (Target Corporation) เป็นบริษัทค้าปลีกของสหรัฐอเมริกา ที่มีความประสงค์ในการประชาสัมพันธ์สินค้าที่ตรงกับความต้องการของลูกค้าก่อนบริษัทคู่แข่ง เพื่อช่วงชิงลูกค้าให้ได้เร็วที่สุด โดยเชื่อว่าเมื่อลูกค้าเริ่มต้นซื้อสินค้าบางอย่างจากบริษัท แล้วลูกค้าจะซื้อสินค้าอื่น ๆ อย่างต่อเนื่อง ในการนี้ผู้เชี่ยวชาญการวิเคราะห์ข้อมูลได้รวบรวมพฤติกรรมการซื้อสินค้า
และพบว่าในแต่ละเดือนของการตั้งครรภ์ ผู้ตั้งครรภ์มักจะมีพฤติกรรมการซื้อสินค้าเฉพาะอย่างที่คล้ายคลึงกันเช่น ในเดือนที่สี่ของการตั้งครรภ์ หญิงตั้งครรภ์มักซื้อครีมทาผิวที่ไม่มีกลิ่นในภาชนะบรรจุขนาดใหญ่ ข้อมูลเหล่านี้ยังช่วยในการคาดการณ์วันกำหนดคลอดได้อีกด้วย ช่วยให้
บริษัทสามารถส่งคูปองส่วนลดสินค้าที่สอดคล้องกับแต่ละช่วงเวลาของการตั้งครรภ์ให้กับลูกค้าได้ก่อนบริษัทอื่น
ที่มา : https:/www.forbes.com/sites/kashmirhil/2012/02/16/how-target-figured-out-a-teen-girl-was-pregnant-before-her-father-did/#24c49fa46668
“การวิเคราะห์ข้อมูลที่รวบรวมได้นั้นจำเป็นอย่างยิ่งที่ต้องอยู่บนพื้นฐานของจริยธรรม เพื่อความถูกต้องและเกิดประโยชน์กับทุกฝ่ายที่เกี่ยวข้อง”
การนำข้อมูลไปใช้แก้ปัญหา
1. การนิยามปัญหา
การนิยามปัญหา (Problem Definition) เป็นการตั้งคำถามที่สนใจและต้องการหาคำตอบ ซึ่งควบมีความกระชับและชัดเจน ระบุผลลัพธ์ที่ต้องการจากกระบวนการแก้ไขปัญหาพร้อมรายละเอียด เงื่อนไข สถานการณ์เฉพาะที่เกี่ยวข้องกับปัญหาอย่างครบถ้วน ตัวอย่างเช่น โรงเรียนมีขยะจำนวนมาก ล้นถังขยะ และมีการทิ้งขยะไม่เป็นที่
2. การวิเคราะห์ปัญหา
การวิเคราะห์ปัญหา (Problem Analysis) เป็นการทำความเข้าใจปัญหาเพื่อกำหนดสาระสำคัญของปัญหาและข้อมูลที่เกี่ยวข้อง โดยมีการทำความเข้าใจปัญหา ค้นหาสาระสำคัญของปัญหา พิจารณาว่าสิ่งใดเป็นผลลัพธ์จากการแก้ปัญหาและข้อมูลต่างๆ ที่จำเป็นในการหาผลลัพธ์ โดยมีรายละเอียดการดำเนินการที่เกี่ยวข้อง คือ
1. กำหนดข้อมูลหลักที่ใช้ในการประมวลผลเพื่อหาคำตอบ
2. กำหนดปริมาณข้อมูลที่ต้องรวบรวม ให้มีปริมาณที่เพียงพอและเหมาะสมกับการนำไปหาข้อสรุป
3. กำหนดกรอบเวลาในการรวบรวมข้อมูล
4. กำหนดชนิดของข้อมูล รูปแบบข้อมูล
หน่วยของข้อมูล ตัวอย่างเช่น โรงเรียนมีขยะจำนวนมาก โดยวิเคราะห์ข้อมูลที่เกี่ยวข้องทั้งหมด มีจำนวนถังขยะกี่ถัง ตั้งไว้ที่ใดบ้าง มีการทิ้งขยะในแต่ละถังในช่วงเวลาใดมาก-น้อยเท่าใด ความถี่ในการเก็บขยะ พบขยะที่บริเวณอื่นที่ไม่ใช่ถังขยะที่ใดบ้างและปริมาณมากเท่าใด ขยะที่พบเป็นประเภทใด
3. การรวบรวมข้อมูล
การรวบรวมข้อมูล (Data Collection) เป็นการได้มาซึ่งข้อมูลที่ถูกต้อง ครบถ้วน และจำเป็นต่อการแก้ปัญหา โดยข้อมูลที่เกี่ยวข้องกับปัญหาอาจมีจำนวน ลักษณะ และประเภทที่แตกต่างกันไป ตามผลจากการวิเคราะห์ปัญหา ซึ่งขั้นตอนการรวบรวมข้อมูลประกอบด้วย
1. กำหนดแหล่งข้อมูล – ทำการรวบรวมจากแหล่งกำเนิดข้อมูล (ข้อมูลปฐมภูมิ) หรือ รวบรวมจากแหล่งอื่นที่มีการเก็บข้อมูลไว้ (ข้อมูลทุติยภูมิ) หากแหล่งข้อมูลมีความน่าเชื่อถือ สอดคล้องกับเวลา และสถานการณ์ จะช่วยเพิ่มความมั่นใจในความถูกต้องของข้อมูลมากยิ่งขึ้น
2. กำหนดวิธีการรวบรวมข้อมูล – ขึ้นกับลักษณะข้อมูล แหล่งข้อมูล และปริมาณข้อมูล
3. กำหนดวิธีการจัดเก็บข้อมูลที่รวบรวมได้ – คำนึงถึงการนำข้อมูลไปใช้ในขั้นตอนการประมวลผลข้อมูล
วิธีการรวบรวมข้อมูล ประกอบด้วย
1. การสังเกต – เฝ้าดูแล้วจดบันทึกสถานะต่าง ๆ ที่เกี่ยวกับปัญหาที่สนใจ
2. การสำรวจ/สอบถาม – ทำแบบสำรวจหรือแบบสอบถามที่ระบุรายละเอียดของข้อมูลที่ต้องการให้ครบถ้วน โดยกำหนดลักษณะคำถามและรูปแบบการตอบคำถามให้ผู้ตอบแบบสอบถามให้ข้อมูลได้ง่ายและถูกต้อง
3. การสัมภาษณ์ – ใช้คำถามกับผู้รับการสัมภาษณ์ ทำให้ได้คำอธิบายเพิ่มเติม แต่ใช้เวลาและค่าใช้จ่ายค่อนข้างสูง
4. การสนทนากลุ่ม – เก็บรวบรวมข้อมูลจากกลุ่มเป้าหมายที่คัดเลือกไว้โดยจัดให้มีสนทนากลุ่ม มีผู้ดำเนินการสนทนาเป็นผู้ซักถามประเด็นที่สนใจ การเก็บรวบรวมข้อมูลดังกล่าว สามารถนำเทคโนโลยีมาประยุกต์ใช้ในการรวบรวมข้อมูลได้แบบอัตโนมัติ เพื่อช่วยลดข้อผิดพลาดในการจดบันทึก อีกทั้งยังสะดวกรวดเร็วในการรวบรวมข้อมูลปริมาณมาก รวมถึงสามารถเข้าถึงผู้ให้ข้อมูลได้อย่างไร้พรมแดน
4. การเตรียมข้อมูล
การเตรียมข้อมูล (Data Preparation) เป็นการดำเนินการกับข้อมูลที่รวบรวมมา เพื่อให้เป็นข้อมูลที่มีคุณภาพ พร้อมนำไปประมวลผล อย่างไรก็ตาม ข้อมูลบางส่วนที่ได้จากการรวบรวมอาจจะยังไม่สามารถนำไปประมวลผลได้ในทันที จำเป็นต้องทำความสะอาดข้อมูล (Data Cleansing) ก่อน เช่น ข้อมูลที่มีความซ้ำซ้อน มีค่าหรือลักษณะที่ผิดจากข้อมูลอื่น หรือมีรายการข้อมูลที่ขาดหายไป แนวทางในการตรวจสอบความผิดปกติของข้อมูล เพื่อทำความสะอาดข้อมูล ประกอบด้วย
ความสมบูรณ์ (Validity) ข้อมูลที่รวบรวมมีความถูกต้องตามข้อกำหนด เช่น
– ข้อมูลและชนิดข้อมูลมีความสอดคล้องกัน เช่น อายุเป็นข้อมูลชนิดตัวเลข ชื่อเป็นข้อมูลชนิดข้อความ – ข้อมูลมีค่าสอดคล้องกับความเป็นจริง เช่น น้ำหนักต้องไม่เป็นจำนวนลบ วันที่ 30 ต้องไม่ใช่วันในเดือนกุมภาพันธ์
– ข้อมูลบางอย่างจะมีค่าไม่ซ้ำกัน เช่น รหัสประจำตัวนักเรียนในโรงเรียนเดียวกัน เลขทะเบียนรถ
– ข้อมูลบางอย่างต้องไม่เป็นค่าว่าง เช่น ชื่อนักเรียน วันเดือนปีเกิด
– ข้อมูลมีค่าผิดปกติจากข้อมูลค่าอื่น เช่น ข้อมูลอายุของนักเรียน ที่มีนักเรียนอายุ 150 ปี
รูปแบบเดียวกัน (Uniformity) – เก็บในรูปแบบเดียวกัน เช่น น้ำหนักหน่วยเป็นกิโลกรัม รูปแบบปีที่เป็นปีพุทธศักราช
ความครบถ้วน (Completeness) – มีการรวบรวมข้อมูลที่เกี่ยวข้องอย่างครบถ้วน
ความทันสมัย (Timeliness) – มีความสอดคล้องกับเวลา หรือสถานการณ์
5. การประมวลผลข้อมูล
การประมวลผลข้อมูล (data processing) หมายถึง การดำเนินการกับข้อมูลเพื่อให้ได้สารสนเทศตามวัตถุประสงค์ โดยอาจได้ข้อค้นพบอื่นที่มีความหมายซ่อนอยู่ นำไปสู่ข้อสรุปที่สอดคล้องกับปัญหาที่กำหนด หรือนำไปใช้ประโยชน์ได้
การดำเนินการกับข้อมูลเป็นการจัดระเบียบข้อมูลให้พร้อมและเหมาะสมกับเครื่องมือที่จะใช้ในการวิเคราะห์หาผลลัพธ์การวิเคราะห์ข้อมูลนอกจากจะวิเคราะห์ข้อมูลตามวัตถุประสงค์แล้ว อาจวิเคราะห์เพื่อค้นหาความหมายอื่นที่ซ่อนอยู่ รวมถึงสาระสำคัญที่จะเป็นประโยชน์จากข้อมูล
ประเด็นสำคัญในการวิเคราะห์ข้อมูล เช่น ความสัมพันธ์ระหว่างข้อมูล ความเชื่อมโยงของข้อมูล รูปแบบที่ปรากฎในข้อมูล ทั้งนี้เพื่อให้สิ่งที่เราค้นหามีความชัดเจนจะต้องรวบรวมข้อมูลปริมาณที่มากพอจากแหล่งข้อมูลที่เชื่อถือได้
การวิเคราะห์ข้อมูลมีหลายวิธี ในที่นี้จะกล่าวถึงเฉพาะการวิเคราะห์เชิงพรรณนา ซึ่งเป็นการดำเนินการกับข้อมูลเชิงปริมาณ เช่น จำนวนเต็มหรือจำนวนจริง
การวิเคราะห์เชิงพรรณนา (Descriptive analysis)
การวิเคราะห์เชิงพรรณนา (descriptiveanalysis) เป็นการวิเคราะห์ข้อมูลเพื่ออธิบายคุณลักษณะของชุดข้อมูลที่สนใจ โดยใช้ค่าสถิติ เช่น
1. ค่าเฉลี่ย (mean) คือ ค่าเฉลี่ยเลขคณิตของชุดข้อมูล
2. มัธยฐาน (median) คือ ค่าที่อยู่ตรงกึ่งกลางของชุดข้อมูล ซึ่งแบ่งชุดข้อมูลออกเป็นสองส่วน แต่ละส่วนมีจำนวนเท่า ๆ กัน
3. ฐานนิยม (mode) คือ ค่าที่มีความถี่สูงสุดของชุดข้อมูล
4. ร้อยละ (percentage) คือ ค่าของข้อมูลเมื่อคิดเป็นสัดส่วนจากทั้งหมด จำนวนข้อมูลที่สนใจ สัดส่วนของความถี่ข้อมูลที่สนใจ ปริมาณของข้อมูลที่สนใจเมื่อเทียบกับปริมาณข้อมูลทั้งหมดที่คิดเป็น 100%
5. ความถี่ (frequency) คือ จำนวนซ้ำของแต่ละข้อมูลในชุดข้อมูล
6. พิสัย (range) คือ ความแตกต่างระหว่างค่าขอบเขตบน (ค่าสูงสุด) และค่าขอบเขตล่าง (ค่าต่ำสุด) ของชุดข้อมูล
โดยทั่วไปเราจะเรียกค่าเฉลี่ย ค่ามัธยฐานและฐานนิยมว่าค่ากลางของชุดข้อมูลค่าที่กล่าวข้างต้นเหมาะสมกับการใช้เพื่ออธิบายคุณลักษณะหรือรูปแบบที่ปรากฎของชุดข้อมูลที่พิจารณาเท่านั้น ไม่อาจใช้เพื่ออธิบายคุณลักษณะของข้อมูลอื่น ๆ ได้ เช่น เงินคงเหลือเฉลี่ยในตัวอย่างเป็นของนักเรียนคนดังกล่าวเท่านั้น ไม่อาจใช้เป็นเงินคงเหลือเฉลี่ยของนักเรียนคนอื่นได้
การเลือกใช้ค่าใด ควรคำนึงถึงความเหมาะสมในการให้ความหมายของค่านั้น ๆ ว่าจะต้องมีความสอดคล้องกับเป้าหมายที่สนใจ เช่น
- ค่าร้อยละเหมาะสมกับการบอกสัดส่วนของนักเรียนหญิงและนักเรียนชาย ระดับ ม.3 ที่ตอบแบบสำรวจ
- ค่าความถี่เหมาะสมกับการนับจำนวนนักเรียนเพื่อจัดอันดับเพลงที่นักเรียนระดับ ม.3 นิยมฟังประจำสัปดาห์
- ค่าพิสัยเหมาะสมกับข้อมูลระยะเวลาต่อวันที่นักเรียนใช้ดูคลิปวิดีโอต่อเนื่อง
- ค่ามัธยฐานเหมาะสมกับข้อมูลจำนวนครั้งที่นักเรียนสามารถยิงลูกบาสลงแป้นในเวลา 2 นาที โดยใช้เพื่อบอกว่าจำนวนนักเรียนที่สามารถยิงลูกบาสลงแป้นได้น้อยกว่าค่ากึ่งกลางมีจำนวนเท่า ๆ กับที่ยิงได้มากกว่าค่ากึ่งกลาง
- ค่าฐานนิยม เหมาะสมกับข้อมูลจำนวนครั้งที่นักเรียนสามารถยิงลูกบาสลงแป้นในเวลา 2 นาที โดยใช้บอกจำนวนครั้งของการยิงลูกบาสลงแป้นที่นักเรียนทำได้ซ้ำกันมากที่สุด
การวิเคราะห์ข้อมูลเชิงอนุมาน (inferentialanalysis)
การวิเคราะห์ข้อมูลเชิงอนุมาน (inferentialanalysis) ตัวอย่างการนำไปใช้ เช่น ต้องการรู้จำนวนเงินที่นักเรียนแต่ละคนได้รับจากผู้ปกครองในแต่ละวัน โดยสุ่มตัวอย่างจากนักเรียนบางส่วน เพื่อนำไปอนุมานเป็นข้อมูล ของนักเรียนทั้งโรงเรียน
การวิเคราะห์เชิงทำนาย (predictive analysis)
การวิเคราะห์เชิงทำนาย (predictive analysis) ตัวอย่างการนำไปใช้ เช่น วิเคราะห์พฤติกรรมการซื้อสินค้าเพื่อแนะนำสินค้าที่คาดว่าลูกค้าจะซื้อ วิเคราะห์เพื่อจัดนักเรียนออกเป็นกลุ่มที่เหมาะสมเพื่อเลือกสถานที่ทัศนศึกษาให้เหมาะกับนักเรียนแต่ละกลุ่ม วิเคราะห์พฤติกรรมการใช้งานสมาร์ตโฟนเพื่อแนะนำโปรโมชันที่เหมาะสม
การวิเคราะห์เชิงปัญญา (cognitive analysis)
การวิเคราะห์เชิงปัญญา (cognitive analysis) นำไปใช้เพื่อวิเคราะห์ข้อมูลขนาดใหญ่ และหลากหลายรูปแบบเพื่อนำมาใช้ออกแบบให้คอมพิวเตอร์สามารถช่วยมนุษย์ในการทำงานและตัดสินใจได้อย่างถูกต้องแม่นยำและมีประสิทธิภาพ เช่น การพัฒนารถยนต์ไร้คนขับการวิเคราะห์ข้อมูลสุขภาพเพื่อช่วยแพทย์ในการหาสาเหตุและวิธีการรักษา รวมถึงแนวโน้มในการเกิดโรคร้ายที่จะเกิดขึ้นในอนาคต ช่วยนักกฎหมายในการพิจารณาคดีความต่าง ๆ
6. การนำเสนอข้อมูล
การนำเสนอข้อมูล (Data Presentation) เป็นการนำเสนอข้อสรุปจากการประมวลผลในรูปแบบที่สื่อความหมายอย่างชัดเจน โดยในที่นี้กล่าวถึงการสื่อความหมายข้อมูลในรูปแบบ การทำข้อมูลให้เป็นภาพ (Data Visualization) ซึ่งเป็นการนำเสนอผลลัพธ์ของข้อมูลในรูปแบบที่ช่วยให้ผู้รับสารเข้าใจตรงตามวัตถุประสงค์ของผู้ส่งสาร เช่น การนำเสนอในรูปแผนภูมิ แผนภาพ กราฟ และอินโฟกราฟฟิก