การเตรียมข้อมูล (Data preparation) คือ กระบวนการที่กระทำกับข้อมูลที่ได้จากขั้นตอนการเก็บรวบรวมข้อมูล เพื่อปรับให้อยู่ในรูปแบบที่เหมาะสมในการวิเคราะห์และประมวลผลข้อมูล ซึ่งการเตรียมข้อมูลยังหมายรวมถึงการเตรียมข้อมูลเพื่อนำเข้าสู่ฐานข้อมูล (Database) คลังข้อมูล (Data Warehouse) การทำเหมืองข้อมูล (Data Mining) หรือข้อมูลขนาดใหญ่ (Big Data) ด้วยเช่นกัน การเตรียมข้อมูลสามารถแบ่ง
ออกเป็น 3 ขั้นตอน คือ การทำสะอาดข้อมูล (Data cleansing) การแปลงข้อมูล (Data transformation) และการเชื่อมโยงข้อมูล (Combining data)
1. การทำความสะอาดข้อมูล (Data cleansing)
ข้อมูลที่รวบรวมมานั้น อาจมีข้อผิดพลาด ซึ่งไม่เหมาะสมที่จะนำไปประมวลผล เช่น มีค่าว่าง มีค่าที่อยู่นอกขอบเขตค่าที่เป็นไปได้หน่วยนับไ่ตรงกัน ค่าผิดปกติตลอดจนมรูปแบบที่ต่างกัน ข้อผิดพลาดเหล่านี้เกิดจากหลายสาเหตุ เช่น ผู้ให้ข้อมูลกรอกข้อมูลไม่ครบ ผู้บันทึกข้อมูลพิมพ์ข้อมูลผิดพลาด หรือการขาดข้อกำหนดในการบันทึกข้อมูลที่ตรงกัน
2. การแปลงข้อมูล (Data transformation)
เป้าหมายของการแปลงข้อมูล คือ การเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมสำหรับการประมวลผลโดยรูปแบบของข้อมูลที่พร้อมประมวลผลในโปรแกรมตารางทำงานจะเป็นตารางที่แต่ละแถวคือข้อมูลหนึ่งตัวอย่าง และแต่ละคอลัมน์คือข้อมูลแอตทริบิวต์(Attribute) ของตัวอย่างนั้น เพื่อให้มีความเข้าใจตรงกันควรเก็บข้อมูลคำอธิบายถึงชื่อหรือความหมายของแต่ละแอตทริบิวต
2.1 การลดจำนวนข้อมูล
การลดจำนวนข้อมูลเป็นการเลือกเฉพาะข้อมูลที่สนใจ เพื่อจัดเตรียมข้อมูลก่อนการประมวลผล
2.2 การเพิ่มจำนวนข้อมูล
การเพิ่มจำนวนข้อมูลให้สามารถประมวลผลได้ง่ายขึ้น
2.3 การรวมข้อมูล
การรวมข้อมูลเป็นการจัดกลุ่มข้อมูลที่มีค่าสอดคล้องกับเงื่อนไขที่กำหนดในแอตทริบิวต์ที่สนใจ เช่น นักเรียนต้องการตั้งคำถามว่า “จังหวัดใดมีรายได้เฉลี่ยต่อครัวเรือนอยู่ในระดับต่ำ ปานกลาง สูง” ในกรณีนี้นักเรียนอาจกำหนดเงื่อนไขรายได้เฉลี่ยต่อครัวเรือนต่อเดือนในแต่ละระดับ เป็นดังนี้
ระดับต่ำ หมายถึง มีรายได้อยู่ระหว่าง 15,001-20,000 บาท
ระดับปานกลาง หมายถึง มีรายได้อยู่ระหว่าง 20,001-25,000 บาท
ระดับสูง หมายถึง มีรายได้อยู่ระหว่าง 25,001-30,000 บาท
3. การเชื่อมโยงข้อมูล (Combining data)
การเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกัน ทำได้โดยใช้แอตทริบิวต์เดียวกันจากทั้งสองแหล่งเป็นตัวเชื่อม เช่น ข้อมูลลูกค้า และข้อมูลการสั่งซื้อสินค้าของลูกค้า มีแอตทรบิวต์ที่เหมือนกันคือ รหัสลูกค้า ดังนั้นจะใช้รหัสลูกค้าเป็นตัวเชื่อมโยงข้อมูลจากทั้งสองแหล่ง