Kiểm tra điểm ngoại lệ (outliers)
1. Có nên loại bỏ điểm ngoại lệ?
Các điểm dị biệt hoàn toàn có thể làm méo mó tính chuẩn của tài liệu, một giả định rất quan trọng trong nhiều bài kiểm tra thống kê. Do vậy, chúng có nên được kiểm tra tác động ảnh hưởng trong tập dữ liệu. Nghiên cứu khoa học là để tò mò quốc tế, nếu điểm dị biệt thực sự phản ánh trong thực tiễn của quốc tế, của người được hỏi trong tìm hiểu thì phải chăng vô hiệu điểm dị biệt hoàn toàn có thể khiến tài liệu mất đi tính thực tiễn. Đầu tiên, tất cả chúng ta cần bảo vệ rằng giá trị ngoại lệ không phải là tác dụng của lỗi nhập tài liệu. Nếu tất cả chúng ta quyết định hành động vô hiệu một vài điểm dị biệt để giảm ảnh hưởng tác động của chúng, sau đó bạn kiểm tra lại tài liệu, bạn có chắc đã vô hiệu hết chúng chưa. Điều này đôi lúc làm Open những điểm dị biệt mới vì chúng bị che bởi những điểm dị biệt cũ hoặc sau khi vô hiệu những điểm dị biệt cũ thì tập dữ liệu sẽ sống sót những điểm cực trị theo tiêu chuẩn dị biệt. Quá trình này lặp lại nếu tất cả chúng ta liên tục vô hiệu những điểm dị biệt mới. Cuối cùng, như một sự tóm tại, đó là những lí do chúng tôi khuyên không nên vô hiệu điểm dị biệt. Chúng ta nên kiểm tra để xác nhận xem số điểm dị biệt có đáng kể không, nếu chúng thực sự đáng kể thì một số ít bài kiểm tra thống kê hoàn toàn có thể không nên được sử dụng tiếp theo, ví dụ điển hình như nghiên cứu và phân tích hồi quy tuyến tính .
Một cách để xác lập xem có Open những giá trị ngoại lệ hay không là tạo một boxplot cho tập dữ liệu. Boxplot là một biểu đồ hiển thị những tứ phân vị, những giá trị ngoại lệ, và điểm số tối thiểu và tối đa cho biến. Vậy tứ phân vị là gì ? Và làm thế nào để có được chúng ? Và những giá trị ngoại lai và giá trị cực trị tiềm năng được xác lập như thế nào ?
2. Cách kiểm tra giá trị ngoại lệ trong SPSS
Click Analyze > Descriptive Statistics > Explore…
Bạn đang đọc: Kiểm tra điểm ngoại lệ (outliers)
Trong hộp thoại Explore, chúng ta chuyển biến cần kiểm tra‘ontap’vào ô Dependent List (lưu ý rằng điểm dị biệt không bao gồm các biến dạng chuỗi). Nhấp vào Statistics, chọn Descriptives với khoảng tin cậy 95%, chọn Outliers, và chọn Percentiles để mô tả tứ phân vị.
Bấm Plots, bỏ chọn mục Stem-and-leaf. Kết thúc mỗi nút thì nhấp Continue, sau đó nhấp OK để chạy kết quả.
Đọc kết quả:
Giá trị quan trong nhất của Bảng Descriptives biểu lộ giá trị “5% Trimmed Mean” cho biết giá trị trung bình sau khi loại bỏ 5% giá trị cao nhất và giá trị thấp nhất của biến. Bằng cách so sánh chỉ số này (5% Trimmed Mean) với giá trị Mean, chúng ta có thể xác đinh xem mức ảnh hưởng của các giá trị dị biệt đến biến.
SPSS coi bất kỳ giá trị dữ liệu nào là giá trị ngoại lệ nếu nó nằm ngoài các phạm vi sau: từ “Phân vị thứ ba + 1.5 * phạm vi liên phân vị” đến “Phân vị thứ nhất – 1.5 * phạm vi liên phân vị”. Chúng ta có thể tính toán phạm vi liên phân vị (interquartile range) bằng cách lấy sự khác biệt giữa phân vị thứ 75 và thứ 25 trong hàng có nhãn Tukey’s Hinges trong đầu ra:
Đối với tập dữ liệu này, phạm vi liên phân vị là 7.5 – 5 = 2.5. Do đó, bất kỳ giá trị nào nằm ngoài các phạm vi sau sẽ được coi là ngoại lệ: từ “7.5 + 1.5 * 2.5 = 11.25” đến “5 – 1.5 * 2.5 = 1.25”. Như vậy, bất kì số giờ ôn tập nào nhỏ hơn 1.25 giờ hoặc lớn hơn 11.25 giờ sẽ được cọi là ngoại lệ.
Trong Boxplot xuất hiện, nếu không có vòng tròn (○) hoặc dấu hoa thị (*) ở cả hai đầu của Boxplot, đây là dấu hiệu cho thấy không có ngoại lệ nào.
Vòng tròn (○) là một dấu hiệu cho thấy một ngoại lệ có trong dữ liệu xuất hiện. Trong ví dụ, có 1 giá trị ngoại lên, và số 9 cho biết quan sát trong tập dữ liệu là ngoại lệ.
SPSS cũng coi bất kỳ giá trị dữ liệu nào là giá trị ngoại lệ cực trị nếu nó nằm ngoài các phạm vi sau: từ “Phân vị thứ ba + 3 * phạm vi liên phân vị” đến “Phân vị thứ nhất – 3 * phạm vi liên phân vị”
Do đó, bất kỳ giá trị nào nằm ngoài các phạm vi sau sẽ được coi là giá trị ngoại lệ cực kỳ trong ví dụ này: từ “7.5 + 3 * 2.5 = 15” đến “5 – 3 * 2.5 = -2.5”. Rõ ràng, số giờ ôn tập không thể âm, do vậy giá trị ‘-2.5 giờ’ là không thực tế, nên chúng ta chỉ quan tâm đến giá trị cao. Trong ví dụ, nếu số giờ ôn tập lớn hơn 15 giờ sẽ được coi là một ngoại lệ cực trị. Trong ví dụ trên, không có giá trị ngoại lệ cực trị xuất hiện. Nếu có, thì dấu hoa thị (*) là dấu hiệu cho thấy dữ liệu có giá trị ngoại lệ cực trị.
Tóm lại, trong tập dữ liệu nêu trên, chỉ Open 1 giá trị ngoại lệ. Chúng tôi cho rằng không nên vô hiệu chúng. Kiểm tra những điểm ngoại lệ là để lựa chọn những bài kiểm tra thống kê tương thích .
3. Cách xử lí điểm ngoại lệ
- Đảm bảo rằng giá trị ngoại lệ không phải là kết quả của lỗi nhập dữ liệu. Đôi khi chúng ta có thể đã nhập sai giá trị dữ liệu khi ghi dữ liệu. Nếu có giá trị ngoại lệ, trước tiên hãy xác minh rằng giá trị đã được nhập đúng và đó không phải là lỗi.
- Loại bỏ các yếu tố ngoại lệ. Nếu giá trị là một giá trị ngoại lệ thực sự, bạn có thể chọn loại bỏ nó nếu nó có tác động đáng kể đến phân tích tổng thể của bạn. Chỉ cần đảm bảo đề cập trong báo cáo hoặc phân tích cuối cùng của bạn rằng bạn đã loại bỏ một yếu tố ngoại lệ.
- Gán một giá trị mới cho giá trị ngoại lệ. Nếu giá trị ngoại lệ hóa ra là do lỗi nhập dữ liệu, bạn có thể quyết định gán một giá trị mới cho nó, chẳng hạn như giá trị trung bình hoặc giá trị trung vị của tập dữ liệu.
Source: https://thevesta.vn
Category: Bản Tin