Các phần tử ngoại lai (Outliers hay anomalies) có ảnh hưởng lớn đến độ chính xác của các mô hình dự đoán. Phát hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quá trình chuẩn bị dữ liệu cho mô hình dự đoán. Trong bài viết này, ta sẽ tìm hiểu thế nào là điểm ngoại lai trong thống kê cũng như liệt kê một số phương pháp để xử lý các điểm dữ liệu này. Hình ảnh ví dụ bên dưới cho ta thấy chỉ cần tồn tại một điểm ngoại lai cũng đã ảnh hưởng đến quá trình khớp (fitting) dữ liệu của mô hình linear regression như thế nào. Outlier exampleTa thường xem các giá trị ngoại lai như các mẫu dữ liệu đặc biệt, cách xa khỏi phần lớn dữ liệu khác trong tập dữ liệu. Chưa có một định nghĩa toán học cụ thể nào để xác định một điểm ngoại lai. Việc này dẫn đến một bài toán liên quan đến xác định thế nào là một điểm ngoại lai trong quá trình xử lý dữ liệu. Có nhiều phương pháp khác nhau để phát hiện outlier. Một số áp dụng phương pháp đồ thị ví dụ như normal probability plots, một số phương pháp khác dựa trên các mô hình thống kê (model-based). Ta có các khái niệm sau khi làm việc với outlier Left outlier Left outlierLà điểm ngoại lai có giá trị cực tiểu (extreamly low) trong mẫu quan sát. Right outlier Right outlierLà điểm ngoại lai có giá trị cực đại (extreamly large) trong mẫu quan sát. Representative outlier Representative OutlierLà một outlier trong tập dữ liệu. Trong đó, điểm dữ liệu này giả định rằng đã được quan sát đúng (thu thập và ghi chép số liệu chính xác) và các phần tử tương tự nó có thể tìm thấy trong quần thể. Nghĩa là, đây là một đại diện (representative) cho các outlier cùng thể loại khác và thường được giữ lại để phân tích. Ví dụ khi so sánh kích thước các loài động vật trong thiên nhiên, cá voi đại diện cho động vật có kích thước lớn, con chuột đại diện cho động vật có kích thước nhỏ. Nonrepresentative outlier Nonrepresentative OutlierLà một outlier trong tập dữ liệu. Trong đó, nó chưa được quan sát một cách chính xác (sai sót trong quá trình thu thập và ghi chép dữ liệu) và được xem là duy nhất trong quần thể vì không tồn tại một giá trị nào tương tự như điểm dữ liệu này. Alpha-trimmed mean Alpha trimmed meanAlpha là giá trị trung bình của tập dữ liệu. Trong đó, 1/2 alpha trên và dưới của của tập dữ liệu sẽ bị loại bỏ. Alpha-winsorized mean Winsorized meanAlpha là giá trị trung bình của tập dữ liệu. Trong đó, 1/2 alpha trên và dưới của tập dữ liệu sẽ được thay thế hoặc chuyển đổi sao cho phù hợp với tập dữ liệu hiện tại. Ví dụ ta có giá trị x1 (nhỏ nhất) đến x10 (lớn nhất). Hai giá trị này sẽ được thay thế bởi hai giá trị gần nó nhất là x2 và x9. Làm thế nào để phát hiện các điểm ngoại lai?Có một vài hướng tiếp cận để phát hiện các điểm ngoại lai. Trong cuốn sách Outlier Analysis của Charu Aggarwal, tác giả phân loại các mô hình phát hiện các điểm ngoại lai thành các nhóm như sau:
Đăng bởi Hong OngI'm passionate about applying state-of-the-art Big Data architectures and Machine Learning methods for solving challenging problems related to Digital marketing, Fin-tech, Digital transformation in F&B, Retailer, and Engineering. I'm working as Machine Learning Engineer for more than 7 years in the field of AI, Machine Learning and Big Data using new technologies, optimized DataOps, and MLOps so that the Data Products roll out in an efficient way on cloud data platform. I hope my skills and experiences could share addition to the Data science community. Xem tất cả bài viết bởi Hong Ong |