2.3 การสำรวจข้อมูล

เทคโนโลยี (วิทยาการคำนวณ) ม.5

ขั้นตอนหลักของกระบวนการการสำรวจข้อมูล (Data exploration) คือ การทดลองวาดแผนภาพหรือกราฟของข้อมูลในรูปแบบต่าง ๆ เพื่อพิจารณาภาพรวมของข้อมูล ระหว่างการสำรวจอาจจะพบข้อผิดพลาด หรือปัญหาอื่น ๆ จากการตั้งคำถาม หรือการรวบรวมข้อมูล ซึ่งทำให้ต้องกลับไปดำเนินการแก้ไขให้ถูกต้อง เช่น พบว่ามีข้อมูลสูญหาย ข้อมูลผิดรูปแบบ ข้อมูลมีค่าผิดปกติ เครื่องมือพื้นฐานในการสำรวจข้อมูล เช่น กราฟเส้น ฮิสโทแกรม แผนภาพกล่อง หรือแผนภาพการกระจาย

1. การสำรวจข้อมูลโดยใช้กราฟเส้น (Line graph)

กราฟเส้น (Line graph) มีลักษณะคล้ายกราฟแท่ง ซึ่งประกอบด้วยแกนตั้งและนอน เพียงแต่เปลี่ยนจากแท่งข้อมูลเป็นจุดบนแผนภูมินั่นเอง กราฟประเภทนี้เหมาะกับการนำเสนอข้อมูลตัวเลขที่มีความสัมพันธ์กับข้อมูลที่มีลักษณะเป็นช่วง ใช้แสดงให้เห็นการเปลี่ยนแปลงที่เกิดขึ้นตามเวลาเพื่อดูแนวโน้ม รวมถึงสามารถใช้พยาการณ์แนวโน้มในอนาคตได้เช่น ข้อมูลของยอดขายในแต่ละปีหรือไตรมาส และนำมาวิเคราะห์เพื่อดู
แนวโน้ม

2. การสำรวจข้อมูลโดยใช้แผนภูมิแท่ง (Bar chart)

แผนภูมิแท่ง (Bar Charts) เป็นแผนภูมิที่ประกอบด้วยแกนนอน แกนตั้ง ที่นิยมแสดงออกมาในรูปแท่งสี่เหลี่ยมที่สามารถบอกความสูงได้เหมาะสำหรับใช้การเปรียบเทียบจำนวนของข้อมูลในแต่ละชุด เช่น รายรับในแต่ละเดือน ยอดขายที่ขายได้จริงเปรียบเทียบกับเป้าหมายยอดขายที่ตั้งไว้ซึ่งแผนภูมิแท่งยังสามารถแบ่งออกเป็นหลายประเภท เช่น แผนภูมิแท่งแบบจัดกลุ่ม แผนภูมิแท่งแบบจัดกลุ่ม เหมาะสมกับการนำเสนอ
ข้อมูลที่มีข้อมูลย่อยๆ อยู่ภายใต้ข้อมูลใหญ่ เป็นการเน้นให้เห็นข้อมูลย่อยนั้นๆ แผนภูมิแท่งแบบวางซ้อนกันแผนภูมิแท่งแบบวางซ้อนกัน เหมาะสมกับการนำเสนอข้อมูลที่ต้องการให้เห็นข้อมูลย่อยในแต่ละข้อมูลใหญ่และยังแสดงให้เห็นสัดส่วนของข้อมูลย่อยต่างๆ เหล่านั้นได้ด้วย

3. การสำรวจข้อมูลโดยใช้แผนภูมิวงกลม (Pie chart)

แผนภูมิวงกลม (Pie chart) เหมาะกับการนำเสนอข้อมูลที่มีส่วนประกอบย่อยที่รวมกันเป็นส่วนใหญ่มีการแบ่งส่วนให้ดูง่ายและสวยงาม แต่ในทางกลับกันอาจจะดูยากในเรื่องของการประมาณขนาดของแต่ละชิ้นยิ่งถ้ามีจำนวนชิ้นมากจะยิ่งแยกยาก เพราะต้องใช้หลายสีในการนำเสนอข้อมูล เช่น ส่วนแบ่งทางการตลาด(Market share) ข้อมูลแสดงส่วนผสมต่าง ๆ

4. การสำรวจข้อมูลโดยใช้แผนภูมิเรดาร์ (Radar chart)

แผนภูมิเรดาร์ (Radar chart) มีลักษณะคล้ายแผนภูมิเส้นที่มีการแสดงผลแบบวงกลม จำนวนเหลี่ยมของเรดาร์เท่ากับจำนวนหัวข้อของข้อมูล แผนภูมินี้ไม่ได้บอกถึงความต่อเนื่องของข้อมูล แต่เหมาะสำหรับการนำเสนอข้อมูลเป็นหัวข้อแล้วนำมาวิเคราะห์หาจุดอ่อน จุดแข็งของข้อมูล เช่น นำเสนอข้อมูลเกี่ยวกับคุณสมบัติของการรับพนักงานใหม่ เพื่อดูจุดอ่อนจุดแข็งของแต่ละคน

5. การสำรวจข้อมูลโดยการเขียนโปรแกรม

การสำรวจข้อมูลด้วยการเขียนโปรแกรม จะต้องนำเข้าข้อมูลสู่โปรแกรมที่ใช้สำหรับการประมวลผลโดยถ้าข้อมูลมีปริมาณไม่มาก ในขั้นตอนการเตรียมข้อมูล นักเรียนสามารถเตรียมข้อมูลจากไฟล์ที่อยู่ในรูปแบบxls หรือ csv ก่อนเริ่มการนำเข้าข้อมูล จากนั้นจึงเลือกใช้การประมวลผลด้วยโปรแกรมสำเร็จรูป หรือการเขียนโปรแกรม แต่หากข้อมูลมีปริมาณมากเกินกว่าที่โปรแกรมสำเร็จรูปจะสามารถจัดเก็บหรือประมวลผลได้
นักเรียนจำเป็นต้องใช้วิธีการนำเข้าและประมวลผลข้อมูลด้วยโปรแกรมภาษา หรือใช้โปรแกรมสำเร็จรูปเฉพาะสำหรับงานด้านวิทยาการข้อมูล

6. การสำรวจข้อมูลโดยใช้แผนภาพกล่อง

บางครั้งภายในข้อมูลชุดเดียวอาจประกอบไปด้วยกลุ่มย่อยหลาย ๆ กลุ่ม ซึ่งทำให้สามารถพิจารณาข้อมูลแต่ละกลุ่มแยกกันได้ และอาจเห็นลักษณะพิเศษบางอย่าง ตัวอย่างเช่น ในกรณีของข้อมูลรายได้ในแต่ละจังหวัด มีการนำเสนอรายได้เฉลี่ยต่อครัวเรือนรายภาค

7. การสำรวจข้อมูลโดยใช้แผนภาพการกระจาย

การใช้แผนภาพการกระจาย (scatter plot) เพื่อแสดงความสัมพันธ์ระหว่าง 2 แอตทริบิวต์ ตัวอย่างเช่น รายได้เฉลี่ยต่อครัวเรือน และรายจ่ายเฉลี่ย
ต่อครัวเรือน ถ้าต้องการสำรวจว่า ทั้ง 2 แอตทริบิวต์นี้มีความสัมพันธ์กันหรือไม่การสำรวจข้อมูลด้วยแผนภาพการกระจาย ดังรูป 2.14 จะแสดงให้เห็นว่ามีความสัมพันธ์ระหว่างรายได้และรายจ่าย โดยมีแนวโน้มว่าถ้ารายได้เพิ่มขึ้น รายจ่ายก็จะเพิ่มขึ้นด้วย