2015-04-30

Outliers, Leverage & Influential points in regression

Xem các tài liệu

Outliers, Leverage & Influential points in regression
Outliers, Leverage, and Influence

Outliers

Một quan sát có sự bất thường không điều kiện (unconditionally) trong cả biến X (biến độc lập - independent variable or predictor variable) và biến Y (biến phụ thuộc - dependent variable/outcome variable or response variable) gọi là ngoại lai đơn biến (univariate outlier). Tuy nhiên quan sát này chưa hẳn là ngoại lai hồi quy (regression outlier). Một quan sát gọi là ngoại lai hồi quy khi một quan sát có giá trị biến phụ thuộc Y bất thường có điều kiện (conditional) về giá trị của biến độc lập X của quan sát đó (sai biệt so với giá trị dự đoán). Có nghĩa không nhất thiết X và Y có bất thường về giá trị  của chính biến đó.
Ngoại lai hồi quy sẽ có phần dư (sai số lớn) nhưng không cần thiết phải ảnh hưởng tới độ dốc (hệ số hồi quy). Tức không cần nhất thiết phải ảnh hưởng tới hệ số hồi quy mới gọi là ngoại lai hồi quy.

Influential

Độ ảnh hưởng influence của một quan sát (observation) là mức độ khác biệt trong dự đoán (cho các quan sát khác) khi quan sát này không có mặt. Nếu dự đoán có cùng giá trị dù có hay không có một quan sát nào đó, thì có thể nói quan sát đó không có ảnh hưởng đến mô hình hồi quy. Ngược lại nếu dự đoán khác biệt rõ ràng khi không có quan sát nào đó trong phân tích thì quan sát đó gọi là có ảnh hưởng (influential). Trong thống kê, khoảng cách Cook (Cook’s distance) hay gọi tắt là Cook’s D là một phương pháp ước lượng thông dụng để tính độ ảnh hưởng (influence) của một điểm dữ liệu (data point) khi thực hiện phân tích hồi quy bình phương tối thiểu (least squares regression analysis). Nguyên tắc nếu giá trị Cook’s D lớn hơn 1 thì điểm quan sát có quá nhiều ảnh hưởng.
Độ ảnh hưởng của một quan sát phụ thuộc vào hai yếu tố:
§  Giá trị quan sát của một biến dự đoán (independent variable or predictor variable) khác biệt như thế nào đối với trung bình (mean) của biến dự đoán.
§  Khác nhau giữa giá trị dự đoán (predicted score) cho quan sát so với giá trị thực tế của quan sát.
Yếu tố đầu tiên còn gọi là đòn bẩy của quan sát (observation's leverage), yếu tố thứ hai gọi là khoảng cách của quan sát (observation's distance).

Leverage

Leverage của một quan sát là mức độ giá trị quan sát của biến độc lập hay biến dự đoán (independent variable or predictor variable) cách xa giá trị của các quan sát khác cụ thể là xa giá trị trung bình của biến dự đoán của các quan sát khác. Giá trị đòn bẩy càng cao khả năng điểm quan sát là một điểm ảnh hưởng lớn càng nhiều.








Điểm A là một leverage point
§  Không ảnh hưởng tới phương trình hồi quy (hệ số hồi quy - regression coefficients) vì đường hồi quy gần đi qua điểm A.
§  Tuy nhiên điểm A ảnh hưởng tới các thông số thống kê của mô hình như R2 và sai số chuẩn (standard errors)
Một ví dụ khác về leverage point, với với trường hợp trên leverage thấp hơn.
Tuy nhiên gây ảnh hưởng lớn đến hệ số hồi quy của mô hình do sẽ có tác động kéo đường hồi quy theo hướng của nó. Trong trường hợp này A là điểm ảnh hưởng (influence point).
Trong một số trường hợp có thể nhận thấy một lượng nhỏ dữ liệu nhưng gây ảnh hưởng không cân xứng (disproportionate influence - nhóm nhỏ nhưng ảnh hưởng lớn hơn so với tỷ lệ dữ liệu) lên các hệ số và thuộc tính của mô hình.
Trong một vài trường hợp cực đoan (extreme case), các dự đoán về tham số  (parameter estimates) có thể phụ thuộc vào một tập rất nhỏ dữ liệu gây ảnh hưởng hơn là phần lớn data còn lại.
Thông thường mô hình hồi quy thường mong muốn sẽ đại diện được cho toàn bộ dữ liệu. Nếu các điểm ảnh hưởng là xấu (không hợp lý hoặc do lỗi) thì các điểm này cần được loại bỏ khỏi phân tích.
Nếu các điểm này có ý nghĩa, và kiểm soát các thông số chính của mô hình, cần phải biết các điểm này để giải thích ảnh hưởng của chúng cũng như hiểu rõ để sử dụng hiệu quả kết quả của mô hình hồi quy.

Distance

Khoảng cách của một quan sát dựa trên sai số của quan sát đó so với dự đoán. Sai số càng lớn thì khoảng cách càng xa. Độ đo thông dụng của khoảng cách là sai số hay phần dư đã được chuẩn hóa theo phương pháp student (studentized residual).

Các trường hợp bất thường








Ngoại lai nhưng không gây ảnh hưởng

Giá trị Y bất thường với giá trị X, ảnh hưởng nhỏ lên mô hình hồi quy do nằm giữa range của X, không làm đường hồi quy quay theo hướng của điểm quan sát được.







Đòn bẩy cao nhưng không gây ảnh hưởng

Giá trị X, Y nằm trên đường hồi quy







Kết hợp giữa bất thường của Y (sự sai biệt của Y - discrepancy) và bất thường của X (đòn bẩy của X- leverage)

No comments:

Post a Comment