Xử lí dữ liệu thô với dữ liệu sơ cấp

Đối với các nghiên cứu sử dụng dữ liệu sơ cấp, sau quá trình điều tra khảo sát người nghiên cứu sẽ có được dữ liệu để phục vụ nghiên cứu. Tuy nhiên, vì nhiều nguyên nhân chủ quan và khách quan, các dữ liệu này có thể mắc một số lỗi và cần xử lý trước khi được sử dụng để phân tích trong đề tài nghiên cứu. Hãy cùng Cộng đồng RCES tìm hiểu các cách xử lý dữ liệu thô với số liệu sơ cấp trong bài viết này nhé!

1. X lý các câu tr li ging nhau

Khi thu thập xong câu hỏi sơ cấp, một trong những trường hợp mà người nghiên cứu có thể gặp phải đó là câu trả lời của người được khảo sát có giá trị như nhau đối với mọi câu hỏi. Ví dụ như khi khảo sát về chất lượng dịch vụ, người được khảo sát luôn trả lời ở mức 5- hoàn toàn đồng ý. Để phát hiện những trường hợp này, trong excel bạn có thể dùng một cách đơn giản đó là dùng hàm AVERAGE tính trung bình các câu trả lời, nếu kết quả ra số chẵn, đó là mãu khảo sát có chứa các câu trả lời trùng nhau.

Mẫu khảo sát với câu trả lời có giá trị bằng 4 giống nhau tại mọi câu hỏi.

Về mặt lý thuyết, đây là trường hợp hoàn toàn có thể xảy ra, tuy nhiên thực tế rất ít trường hợp như vậy. Nếu người nghiên cứu nghi ngờ tính chân thực của các dữ liệu này thì cách giải quyết đơn giản đó là xóa chúng khỏi bảng kết quả và thực hiện các bước tiếp theo của bài nghiên cứu.

2. X lý giá tr trng (missing values)

2.1. Giá tr trng là gì?

Giá trị trống có thể hiểu là một số dữ liệu nào đó trong bảng số liệu bị lỗi. Lỗi này có thể là không có thông tin, thông tin sai hoặc thông tin không hợp logic (trong bài này chúng ta sẽ chỉ nói đến lỗi không có thông tin và thông tin sai).

Nguyên nhân gây ra giá trị trống có thể do người trả lời không muốn trả lời, do bất cẩn nên bỏ qua một số câu hỏi hoặc do quá trình nhập liệu có sai sót. Tỷ lệ giá trị trống nhiều khiến cho số liệu giảm đi tính thuyết phục, vì vậy “phòng bệnh hơn chữa bệnh”, người nghiên cứu nên tuân thủ và thực hiện tốt các quy trình điều tra khảo sát để hạn chế tối đa sự xuất hiện của các giá trị trống.

2.2. Phát hin giá tr trng

Để phát hiện các giá trị trống, sau khi đã mã hóa xong dữ liệu trên SPSS các bạn thực hiện theo các bước sau:

  1. Chọn Analyze Descriptive Statistics
  2. Di chuyển biến cần kiểm tra vào cửa sổ Variable(s).
  3. Bấm OK.

Kết quả Frequencies xuất hiện như sau:

Xử lí dữ liệu thô IMG 3.jpg

Trong hình là kết quả Frequencies cho biến c11, các bạn có thể thế missing có giá trị bằng 0 nghĩa là biến không có giá trị trống nào. Các giá trị hợp lý của biên tương ứng từ 1 tới 5 với tần số suất hiện như kết quả trong bảng thứ 2.

Nếu đã xác định được biến có giá trị trống, bạn thực hiện theo các bước sau để tìm tới ô có giá trị trống đó:

  1. Chọn Edit
  2. Nhập giá trị cần tìm vào ô Find Find Next.

2.3. X lý giá tr trng

Có 3 cách xử lý khi gặp vấn đề dữ liệu trống như sau:

Cách 1: Xóa nhng quan sát có cha giá tr trng

Ví dụ, đối với mỗi giá trị trống trong tập dữ liệu, bạn có thể xóa các quan sát ứng với các giá trị trống. Vì vậy, phần còn lại trong dữ liệu bạn là đầy đủ dữ liệu cho tất cả các quan sát. Điểm bất lợi của cách này là làm giảm kích thước mẫu dữ liệu của bạn.

Nếu bạn có một tập dữ liệu lớn, thì đây không phải là một bất lợi lớn bởi vì bạn có đủ quan sát sau khi loại bỏ các quan sát có chứa giá trị trống. Một bất lợi khác của cách này đó là các quan sát có chứa giá trị trống có thể khác với các quan sát không chứa giá trị trống (chẳng hạn, giá trị trống không ngẫu nhiên), vì thế mẫu sau khi loại bỏ các quan sát chứa giá trị trống sẽ không còn đại diện tốt. Ở đây, chúng ta chỉ sử dụng cách này khi các đối tượng nghiên cứu cụ thể không trả lời trong toàn bộ thang đo hoặc bảng câu hỏi nghiên cứu.

(*) Lưu ý: Khi sử dụng cách này, nhóm nghiên cứu nên rà soát các câu trả lời của bảng hỏi thu được trước khi mã hóa vào phần mềm (coding) để kiểm tra xem có sự xuất hiện của giá trị trống không. Nếu có, nhóm nghiên cứu nên loại bỏ ngày và không cần mã hoá nữa để tiết kiệm thời gian cho nghiên cứu của mình.

Cách 2: Không làm gì c

Cách này giữ nguyên dữ liệu như cũ với các giá trị trống của nó. Đây là cách thường được sử dụng nhất bởi các lí do sau.

Tuy nhiên, nếu bạn chọn cách này, bạn cần hiểu cách SPSS thực hiện ra sao. SPSS sử dụng “listwise deletion” hoặc là “pairwise deletion” trong phần Analyze Missing Values Analysis.

Để hiểu rõ hơn về vấn đề này, cách tốt nhất là lần lượt thực hiện cả hai trường hợp Listwise deletion và Pairwise deletion và so sánh kết quả của chúng. LƯU Ý: với mỗi loại kiểm định thực hiện, bạn phải chỉ cho SPSS biết là sử dụng Listwise deletion hay Pairwise deletion. Chẳng hạn, chúng ta sử dụng lệnh Explore. Nếu bạn phân tích nhiều hơn một biến bằng lệnh Explore, đảm bảo rằng bạn chọn “Options” và “Exclude cases pairwise” bởi vì tùy chọn mặc định là Listwise deletion. Phần lớn các kiểm định cho bạn bạn chọn Listwise deletion hay Pairwise deletion, nhưng GLM Multivariate chỉ cho phép bạn chọn Listwise deletion. Vì vậy, ghi nhớ luôn kiểm tra số quan sát trong mỗi kết quả phân tích.

Cách 3: Thay thế các giá tr trng

Có nhiều tranh cãi về việc có nên thay thế giá trị trống hay không. Có một vài sự không đồng thuận, và một số người cho rằng nên thay thế giá trị trống. Chẳng hạn, thông thường chúng ta thực hiện thay thế bằng giá trị trung bình (Mean substitution) hoặc thay thế bằng giá trị ước lượng (Regression substitution).

Cả thay thế bằng giá trị trung bình và thay thế bằng giá trị ước lượng có thể được thực hiện bằng cách sử dụng: Transform Replace Missing Cases.

(*) Lưu ý: Nếu bạn thực hiện bảng hỏi online thông qua các bảng hỏi online (ví dụ Google form, Jot form, …), bạn nên chú ý đánh dấu trả lời bắt buộc cho các câu hỏi để tránh tình trạng giá trị trống xảy ra.

Tài liệu tham khảo:

[1] Làm sạch dữ liệu trong bảng dữ liệu SPSS (Nguồn: Tại đây)

[2] Thay thế giá trị trống - missing values (Nguồn: Tại đây)

>> Xem thêm: Hướng dẫn tạo bảng hỏi khảo sát online với Google form

Cộng đồng sinh viên kinh tế nghiên cứu khoa học (RCES)

Link nội dung: https://vosc.edu.vn/du-lieu-tho-la-gi-a72432.html