วิทยาการข้อมูล (Data Science) เป็นสหสาขาวิชาที่ใช้วิธีการ กระบวนการ อัลกอริทึม และระบบทางวิทยาศาสตร์มาใช้เพื่อหาความรู้จากข้อมูลหลากหลายรูปแบบ ทั้งจัดเก็บเป็นระเบียบและไม่เป็นระเบียบ เป็นสาขาที่เกี่ยวข้องกับการทำเหมืองข้อมูล (Data Mining) การเรียนรู้เชิงลึก (Deep Learning) และข้อมูลมหัต (Big Data) โดยเป็นการบูรณาการสถิติศาสตร์ การวิเคราะห์ข้อมูล และการเรียนรู้ของเครื่องเข้าด้วยกันเพื่อให้สามารถเข้าใจและวิเคราะห์ปรากฏการณ์ที่เกิดขึ้นจริงในข้อมูลได้ โดยใช้เทคนิคและทฤษฎีที่ได้มาจากคณิตศาสตร์ สถิติศาสตร์ วิทยาการคอมพิวเตอร์ และวิทยาการสารสนเทศ
วิทยากรข้อมูลนำข้อมูลมาการจัดการ จัดเก็บ รวบรวม ตรวจสอบ วิเคราะห์ วิจัย และนำเสนอผลการวิเคราะห์ข้อมูลเพื่อนำไปสู่ความรู้ที่สามารถนำไปใช้งานได้จริง อย่างเช่น การปรับปรุงผลิตภัณฑ์ กระบวนการดำเนินงาน ประกอบการตัดสินใจทางธุรกิจ การวางแผนการตลาด และทิศทางขององค์กรในอนาคต วิทยาการข้อมูลเป็นการค้นพบสิ่งที่ไม่เคยรู้มาก่อนจากข้อมูลที่ได้ เช่น รูปแบบการทำนาย (Predictive Model) เพื่อนำไปปฏิบัติจริง การสร้างผลิตภัณฑ์ทางข้อมูล (Data Product) ศึกษาถึงกระบวนการ วิธีการ หรือเทคนิค ในการนำข้อมูลจำนวนมหาศาลมาประมวลผล เพื่อให้ได้องค์ความรู้ เข้าใจ ปรากฏการณ์หรือตีความ ทำนายพยากรณ์ ค้นหารูปแบบหรือแนวโน้มจากข้อมูล และสามารถนำมาวิเคราะห์ต่อยอดเพื่อแนะนำทางเลือกที่เหมาะสม หรือใช้ในการตัดสินใจเพื่อประโยชน์สูงสุดที่จะส่งผลต่อธุรกิจ
จากที่กล่าวมาข้างต้นวิทยาการข้อมูล เป็นสาขาที่เกี่ยวข้องกับการทำเหมืองข้อมูล การเรียนรู้เชิงลึก และข้อมูลขนาดใหญ่ จึงขอกล่าวอธิบายพอสังเขป เพื่อขยายภาพวิทยาการข้อมูล ให้ชัดเจนยิ่งขึ้น ดังนี้
1. การทำเหมืองข้อมูล (Data Mining)
การทำเหมืองข้อมูล คือกระบวนการค้นหาสารสนเทศหรือข้อความรู้ที่อยู่ในฐานข้อมูลขนาดใหญ่ที่ซับซ้อน เพื่อนำข้อความรู้ที่ได้ไปใช้ประโยชน์ในการตัดสินใจ สารสนเทศที่ได้อาจนำมาสร้างการพยากรณ์หรือ สร้างตัวแบบสำหรับการจำแนกหน่วยหรือกลุ่ม หรือแสดงความสัมพันธ์ระหว่างหน่วยต่าง ๆ หรือให้ข้อสรุปของสาระในฐานข้อมูล การทำเหมืองข้อมูลประกอบขึ้นด้วยการนำกระบวนการทางสถิติและการเรียนรู้ผ่านระบบคอมพิวเตอร์ เพื่อสร้างตัวแบบ กฎเกณฑ์ รูปแบบ การพยากรณ์และข้อความรู้จากฐานข้อมูลขนาดใหญ่ โดยการทำเหมืองข้อมูลมีขั้นตอนการดำเนินงานหลายขั้นตอนซึ่งต้องอาศัยเทคนิคหรือวิธีการต่าง ๆ เช่น วิธีการจัดกลุ่ม การค้นหาความสัมพันธ์ การพยากรณ์ เป็นต้น การดำเนินงานมักอยู่ในลักษณะของการสร้างตัวแบบ (modeling) ที่อธิบายความเป็นไปหรือสภาพการณ์หนึ่งที่เกิดขึ้นแล้ว หรือที่เราทราบคำตอบ แล้วนำตัวแบบนี้มาใช้อธิบายสถานการณ์ที่ยังไม่เกิดขึ้น หรือที่ไม่ทราบคำตอบ ตัวแบบเหล่านี้อาจเป็นตัวแบบที่เรียบง่ายไปจน ถึงตัวแบบที่ยุ่งยากซับซ้อน และอาจใช้การผสมผสานแนวคิดหรือเครื่องมือต่าง ๆ เข้าด้วยกันเพื่อที่จะสามารถ สกัดข้อความรู้ที่อยู่ในข้อมูลขนาดใหญ่ได้ โดยใช้เทคโนโลยีคลังข้อมูล (Data Warehouse) เข้ามาช่วยในการจัดการข้อมูลเพื่อเพิ่มประสิทธิภาพของการทำเหมืองข้อมูล ดังนั้น ถ้ามีฐานข้อมูลขนาดใหญ่ที่มีข้อมูลคุณภาพดี เทคโนโลยีการทำเหมืองข้อมูลจะช่วยในการค้นหรือแสวงหาโอกาสทางธุรกิจใหม่ โดยการทำเหมืองข้อมูลจะก่อให้เกิดกระบวนการอัตโนมัติในการค้นพบสารสนเทศหรือข้อความรู้ในฐานข้อมูลขนาดใหญ่ ด้วยการใช้วิธีการเช่นการพยากรณ์แนวโน้มและพฤติกรรมการบริโภคแบบอัตโนมัติ หรือเกิดกระบวนการอัตโนมัติในการค้นพบรูปแบบที่ไม่เคยรู้จักมาก่อน ด้วยการใช้วิธีการค้นหาเข้าไปในรายละเอียดของฐานข้อมูลเพื่อหารูปแบบที่ ซ่อนอยู่ในฐานข้อมูลนั้น
2. การเรียนรู้เชิงลึก (Deep Learning)
การเรียนรู้เชิงลึก เป็นสาขาหนึ่งของ การเรียนรู้ภาษาของเครื่อง ที่พัฒนาอัลกอริทึมขึ้นมาเพื่อการเรียนรู้ของเครื่อง โดยโครงข่ายใยประสาทเสมือน (Artificial Neuron Networks) นั้นอาศัยแนวคิดและเทคนิคจากการทำงานของระบบโครงข่ายใยประสาทในระบบประสาทของมนุษย์ โดยจำลองการทำงานเหมือนกับกลุ่มเซลล์ประสาทที่เชื่อมโยงกันเป็นระบบประสาทที่สามารถรับรู้หลายๆ สิ่งในเวลาเดียวกัน ด้วยการประมวลผลแบบขนาน (Parallel Network) ทำให้ระบบสามารถตัดสินใจได้ใกล้เคียงกับมนุษย์ การเรียนรู้เชิงลึก ถูกนำมาประยุกต์ใช้ในงานต่างๆ มากมาย เช่น การแยกแยะใบหน้าแต่ละคน ตัวอย่างเช่นในการติดแท็กรูปภาพเพื่อนใน Facebook หรือการแยกวัตถุที่ไม่ใช่คน หรือใช้เป็นส่วนหนึ่งในระบบรถยนต์ไร้คนขับ เป็นต้น
3. ข้อมูลมหัต (Big Data)
ข้อมูลมหัต เป็นการใช้ข้อมูลที่มีขนาดใหญ่ทุกชนิดที่อยู่ในองค์กรของเราไม่ว่าจะเป็น ข้อมูลบริษัท ข้อมูลลูกค้า พฤติกรรมผู้บริโภค การเข้าออกของธุรกรรมการเงิน ไฟล์เอกสารต่าง ๆ ที่เกี่ยวข้องทั้งหมด ข้อมูลมหัตถูกนำมาประมวลผล จับสาระ วิเคราะห์ถึงความต้องการของผู้บริโภคเพื่อสร้างสินค้าและบริการที่สามารถตอบสนองโจทย์ของลูกค้าได้ สามารถนำมาต่อยอดโดยการคิดค้น เลือกหา และประยุกต์ใช้ข้อมูลนั้น พัฒนาเป็นแอปพลิเคชัน (Application) ที่ให้ความสะดวกสบายแก่ผู้บริโภค
ในการทำโครงการวิทยาการข้อมูลมีขั้นตอนการทำโครงการวิทยาการข้อมูล อาจเเบ่งเป็น 4 ส่วน ดังนี้
การวางแผน ในส่วนนี้เราจะกำหนดเป้าหมายและวิธีการในการดำเนินงาน ประการที่สองคือการจัดระเบียบทรัพยากร ตัวอย่างเช่นเรามีข้อมูลใดบ้างและมีทรัพยากรบุคคลเท่าใด คอมพิวเตอร์ ขนาดไหน และเวลามากน้อยเพียงใด ประการที่สามคือการ ประสานความพยายามระหว่างผู้คนเหล่านั้น มันเป็นภารกิจทางสังคม แต่สำคัญต่อความสำเร็จของโครงการ และในที่สุดในแง่ของการวางแผนมีผลกระทบของการจัดตารางเวลาโครงการ เนื่องจากโครงการวิทยาการข้อมูลมักจะทำงานร่วมกันและทำเพื่อลูกค้าสิ่งนี้อาจเป็นสิ่งสำคัญที่จำเป็นต้องได้รับความสนใจอย่างรอบคอบ
การเตรียมข้อมูล ในขั้นตอนนี้สิ่งเเรกคือจัดหาข้อมูลจากแหล่งต่าง ๆ ถัดไปคือการทำความสะอาดข้อมูล นั่นคือทำให้ข้อมูลเหมาะสมกับโครงการของเราและตรวจสอบข้อผิดพลาดตรวจสอบความผิดปกติและตรวจสอบให้แน่ใจว่าสิ่งที่เรากำลังทำงานนั้นถูกต้องและเชื่อถือได้ แล้วสำรวจข้อมูล ดูว่าการกระจายเป็นอย่างไร ดูว่าข้อมูลมีลักษณะอย่างไร แล้วจึงปรับแต่งข้อมูล เราเลือกกรณีที่จะรวมข้อมูล เลือกตัวแปรที่จะใช้ สร้างคุณสมบัติใหม่ที่ต้องการและให้เนื้อหาจริงที่จะใช้งานในส่วนถัดไปของขั้นตอนการคำนวณข้อมูล
การวิเคราะห์ข้อมูล คือการสร้างรูปแบบหรือรูปแบบ; ทำหลายอย่าง เมื่อคุณสร้างแบบจำลองหรือหลายแบบคุณจะต้องตรวจสอบความถูกต้องของแบบจำลอง นั่นคือเราต้องตรวจสอบให้แน่ใจว่าแบบจำลองนั้นมีความถูกต้องและเป็นไปในทิศทางที่ดี เเละประเมินโมเดล พยายามที่จะดูว่ามันแม่นยำแค่ไหนและมันบอกเราเกี่ยวกับคำถามที่เราพยายามหาคำตอบมากแค่ไหน สุดท้ายคือปรับแต่งโมเดลจากการประเมินผลเราอาจจะต้องการปรับแต่งเพื่อให้ง่ายต่อการใช้งานและให้ข้อมูลเท่าที่จะทำได้
การประเมินโครงงาน เรื่องนี้เกี่ยวข้องกับการนำเสนอรูปแบบ เรามักจะมีลูกค้าและเราจะต้องนำเสนอผลการวิเคราะห์ของเราให้กับพวกเขาในลักษณะที่เหมาะสมกับพวกเขาและพวกเขารู้ว่าจะทำอย่างไรกับมัน การติดตามที่ปรับใช้โมเดล หากคุณกำลังพัฒนารูปแบบการคาดการณ์ที่จะใช้ตัวอย่างเช่นสำหรับเว็บไซต์อีคอมเมิร์ซคุณจะต้องติดตั้งบนเซิร์ฟเวอร์และคุณต้องรับมันเพื่อให้ข้อมูลลูกค้าใหม่เข้ามาและทำการคาดการณ์
วิทยาการข้อมูลจึงเป็นการนำข้อมูลมาการจัดการ จัดเก็บ รวบรวม ตรวจสอบ วิเคราะห์ วิจัย และนำเสนอผลการวิเคราะห์ข้อมูลเพื่อนำไปสู่ความรู้ที่สามารถนำไปใช้งานได้จริงเกี่ยวข้องกับการทำเหมืองข้อมูล การเรียนรู้เชิงลึก และข้อมูลมหัต โดยขั้นตอนการทำโครงการวิทยาการข้อมูล 4 ขั้นตอน ได้แก่ การวางแผน การเตรียมข้อมูล การวิเคราะห์ข้อมูล และการประเมินโครงงาน เป็นต้น