1. Hiểu thế nào về phương sai thay đổi, hiện tượng?

Phương sai thay đổi (heteroscedasticity) là tình huống thống kê trong đó có sự thay đổi theo một quy luật nào đó trong phần dư hoặc sai số sau khi phương trình hồi quy được ước lượng từ kết quả quan sát mẫu của biến độc lập và phụ thuộc. Nếu hệ số quy hồi ước lượng được là những ước lượng tốt không chênh lệch cho hệ số chân thực của các biến độc lập tính cho cả tổng thể, thì khi đó các giá trị của phần dư phải tuân theo phân phối ngẫu nhiên và có phương sai không đổi. Nếu chúng thay đổi, phương trình ước lượng được sẽ không chính xác hoặc đã bỏ qua những biến độc lập quan trọng tác động tới biến phụ thuộc. Hiện tượng phương sai thay đổi xảy ra khi phương sai của sai số không phải là hằng số, mà tăng hoặc giảm khi biến độc lập tăng.

 

2. Nguyên nhân của hiện tượng Heteroscedasticity

Hiện tượng phương sai thay đổi, hay còn gọi là Heteroscedasticity, là khi phương sai của các giá trị dự đoán không đồng nhất trên toàn bộ dải giá trị của biến độc lập. Điều này có thể xảy ra khi phương sai của các quan sát không ổn định và thay đổi theo một số yếu tố nào đó.

Nguyên nhân của hiện tượng phương sai thay đổi có thể do nhiều yếu tố khác nhau, bao gồm:

- Sai số của mô hình không đồng nhất trên toàn bộ phạm vi dữ liệu.

- Sự khác biệt trong các mức độ phân tán của biến phụ thuộc giữa các nhóm dữ liệu khác nhau.

- Sự ảnh hưởng của các biến không được bao gồm trong mô hình nhưng lại ảnh hưởng đến biến phụ thuộc.

- Sự tương quan giữa các biến độc lập.

- Sự khác biệt về mức độ ảnh hưởng của các quan sát trên biến phụ thuộc.

Như vậy, có nhiều nguyên nhân dẫn đến sự xuất hiện của hiện tượng phương sai thay đổi, tuy nhiên nguyên nhân chính có lẽ là do sự tồn tại của các outliers trong biến. Outliers là các quan sát của biến mà có giá trị quá khác biệt so với các quan sát còn lại, làm tăng độ lệch của dữ liệu và gây ra sự chênh lệch về phương sai giữa các quan sát. Ngoài ra, hiện tượng này còn có thể xảy ra trong trường hợp sai dạng hàm hoặc sai sót trong quá trình biến đổi dữ liệu.

Thêm vào đó, một nguyên nhân khác dẫn đến hiện tượng phương sai thay đổi là do các quan sát của cùng một biến được đo lường với những thang đo khác nhau. Ví dụ, trong khi đo lường thu nhập, bạn có thể dùng đơn vị tỷ đồng cho những người có thu nhập cao, nhưng lại vô tình dùng đơn vị triệu đồng cho những người có thu nhập thấp hơn. Điều này dẫn đến sự chênh lệch về độ lớn của các quan sát, từ đó làm tăng sự khác biệt về phương sai giữa các quan sát.

Tuy nhiên, sự xuất hiện của hiện tượng phương sai thay đổi cũng có thể do sai sót trong quá trình biến đổi dữ liệu. Khi xử lý dữ liệu, nếu không cẩn thận hoặc không có kinh nghiệm, có thể dẫn đến các sai sót trong việc thực hiện các phép tính hoặc biến đổi dữ liệu, gây ra hiện tượng phương sai thay đổi.

 

3. Hậu quả của hiện tượng phương sai thay đổi

Phương sai thay đổi, hay còn được gọi là hiện tượng heteroscedasticity, có thể gây ra những hậu quả không mong muốn trong quá trình mô hình hóa và ước lượng. Trước hết, phương sai thay đổi không làm thay đổi tính chất không chệch và nhất quán của các ước lượng OLS, tuy nhiên, nó có thể làm giảm hiệu quả của các ước lượng OLS. Cụ thể, các ước lượng OLS không còn là các ước lượng tuyến tính không chệch tốt nhất (BLUE) nữa, mà chỉ đơn giản là các ước lượng tuyến tính không chệch (LUE) thôi.

Nếu có hiện tượng phương sai thay đổi, các kiểm định t và F dựa trên các giả định chuẩn của mô hình hồi quy tuyến tính cổ điển không thể tin cậy nữa. Điều này dẫn đến các kết luận sai lầm về ý nghĩa thống kê của các hệ số hồi quy được ước lượng. Để giải quyết vấn đề này, ta cần áp dụng phương pháp bình phương bé nhất có trọng số (WLS) để cung cấp các ước lượng BLUE. Phương pháp này sẽ ước lượng trọng số cho từng quan sát dựa trên phương sai của chúng, với ý tưởng là trọng số lớn hơn được gán cho các quan sát có phương sai nhỏ hơn, giúp tăng độ chính xác của ước lượng và giảm thiểu sự ảnh hưởng của phương sai thay đổi. Tóm lại, hiện tượng phương sai thay đổi có thể gây ra những vấn đề nghiêm trọng trong quá trình mô hình hóa và ước lượng, và phương pháp WLS là một giải pháp hiệu quả để xử lý vấn đề này.

 

4. Cách khắc phục hiện tượng Heteroscedasticity

Cách 1: Một trong những phương pháp để giải quyết hiện tượng phương sai thay đổi (Heteroscedasticity) là sử dụng phương pháp Weighted Least Squares (WLS). Phương pháp này tương tự như OLS, tuy nhiên trước khi mô hình được ước lượng, các giá trị quan sát được điều chỉnh hoặc biến đổi bởi phương sai. Tuy nhiên, phương pháp này đòi hỏi phải thử và sai nhiều lần để xác định cách biến đổi phù hợp.

Cách 2: Một cách khác để giải quyết hiện tượng phương sai thay đổi là biến đổi biến về dạng log. Khi đó, thang đo của biến sẽ nhỏ hơn, từ đó giảm được hiện tượng phương sai thay đổi. Tuy nhiên, cần lưu ý rằng dạng log chỉ có giá trị với các quan sát lớn hơn 0 và hệ số beta sẽ được giải thích theo dạng phần trăm thay đổi.

Cách 3: để loại bỏ các giá trị bất thường (outliers) trong dữ liệu là sử dụng phương pháp winsorize. Để xác định có outliers hay không, ta có thể sử dụng lệnh summarize để truy xuất thông tin về giá trị trung bình, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất của biến. Nếu giá trị độ lệch chuẩn quá lớn, có thể xảy ra outliers.

Để loại bỏ các outliers này, ta sử dụng lệnh winsor, tuy nhiên, lệnh này không có sẵn trong STATA nên cần cài đặt trước khi sử dụng. Lệnh winsor không làm thay đổi số lượng quan sát, mà sẽ thay thế các giá trị outliers bằng các giá trị khác. Ví dụ, ta có thể loại bỏ 1% giá trị nhỏ nhất và 1% giá trị lớn nhất trong dữ liệu, lệnh winsor sẽ thay thế các giá trị này bằng giá trị nhỏ thứ 2% và lớn thứ 99%.

Để sử dụng lệnh winsor, ta dùng công thức sau: "winsor bienA, gen(bienA_w) p(#) hoặc h(#)" để winsor biến A và tạo ra biến mới là bienA_w, dựa trên việc kê khai giá trị p hoặc h. Nếu ta dùng p, ta kê khai % dữ liệu muốn winsor, tuy nhiên số này phải nhỏ hơn 0.5. Theo kinh nghiệm, nên thử với % nhỏ nhất như là 0.01 (nghĩa là 1%) và kiểm tra lại các giá trị thống kê mô tả. Khi dùng h, ta kê khai số lượng quan sát mà muốn thay đổi ở mỗi đầu dữ liệu. H này nhận giá trị ít nhất là 1 quan sát và nhiều nhất là 1/2 quan sát trong bộ dữ liệu. Nếu ta chỉ muốn điều chỉnh dữ liệu ở một trong hai đầu dữ liệu, ta có thể thêm lựa chọn highonly (cho giá trị lớn) hoặc lowonly (cho giá trị nhỏ).

Cách 4: Sử dụng ước lượng phương sai sai số chuẩn (standard errors or robust standard errors)

Phương pháp này vẫn sử dụng hệ số hồi quy như bình thường, tuy nhiên, sai số của các hệ số hồi quy được điều chỉnh để phù hợp với sự tồn tại của hiện tượng phương sai sai số và đảm bảo giả định của mô hình hồi quy. Để thực hiện, ta chỉ cần thêm lựa chọn "robust" vào câu lệnh hồi quy.

Trên đây là toàn bộ nội dung bài viết của Luật Minh Khuê liên quan đến vấn đề: Phương sai thay đổi, hiện tượng (Heteroscedasticity) là gì? Luật Minh Khuê hy vọng bài viết này đã giúp quý độc giả hiểu rõ hơn về khái niệm và cách ứng phó với hiện tượng này trong mô hình hồi quy tuyến tính. Mọi thắc mắc chưa rõ hay có nhu cầu hỗ trợ vấn đề pháp lý khác, quý khách hàng vui lòng liên hệ với bộ phận tư vấn pháp luật trực tuyến qua số hotline: 1900.6162 hoặc gửi yêu cầu tư vấn qua email: lienhe@luatminhkhue.vn để được hỗ trợ và giải đáp kịp thời. Xin trân trọng cảm ơn quý khách hàng đã quan tâm theo dõi bài viết của Luật Minh Khuê.