Tài liệu Các vấn đề trong kiểm định xử lý dữ liệu bảng

.DOCX

3437

101

minhtuan Báo vi phạm

Tải xuống 101

Mô tả:

CÁC VẤN ĐỀ TRONG KIỂM ĐỊNH XỬ LÝ DỮ LIỆU BẢNG Vấn đề đặt ra tại sao thông thường không nhận thấy các kiểm định như trong mô hình OLS ta hay sử dụng để phát hiện các hiện tượng: 1- Hiện tượng đa cộng tuyến – multi-colinear 2- Hiện tượng tự tương quan- autocorrelation 3- Hiện tượng phương sai thay đổi – heteroskedasticity Để giải quyết vấn đề này đầu tiên ta đi vào cấu trúc dữ liệu bảng và “ nguyên lý” đẩy chúng ta đến việc sử dụng phân tích dữ liệu bảng. I. Cấu trúc dữ liệu bảng Như chúng ta đã biết, cấu trúc dữ liệu bảng được kết hợp từ 2 thành phần: thành phần dữ liệu chéo ( cross – section) và thành phần dữ liệu theo chuỗi thời gian ( time series). Việc kết hợp 2 loại dữ liệu có nhiều lợi thế và thuận lợi trong phân tích, đặc biệt khi muốn quan sát, phân tích sự biến động của các nhóm đối tượng nghiên cứu sau các biến cố hay theo thời gian cũng như phân tích sự khác biệt giữa các giữa các nhóm đối tượng nghiên cứu. Có 2 kiểu cấu trúc dữ liệu bảng: cân bằng và không cân bằng ( unbalance ), dĩ nhiên, dữ liệu bảng không cân bằng (thiếu thông tin) sẽ có những hạn chế trong các ước lượng. Điều này sẽ được đề cập trong từng mô hình ước lượng cụ thể. II. Hồi quy dữ liệu bảng Đầu tiên, các vấn đề trong hồi quy dữ liệu bảng trong phân tích cơ bản thường có các mô hình chính sau: POOL, FEM, REM sau đó khi cần phân tích từng bước và sâu hơn người ta mới quan tâm đến các mô hình SUR, IVs,… Việc sử dụng các mô hình này phần nào đã giải thích về việc dùng các kiểm định thống kê. Mô hình POOL thực chất là mô hình OLS bình thường, điều này xảy ra khi chúng ta sử dụng dữ liệu bảng như một đám mây dữ liệu bình thường không phân biệt theo năm và như vậy khi hồi quy mô hình POOL chính là mô hình OLS. Điều này cho thấy nếu như mô hình POOL thực sự phù hợp với dữ liệu hơn 2 mô hình sau thì việc chúng ta sử dụng phân tích bằng mô hình FEM, REM không còn nhiều ý nghĩa. Điều đó dẫn đến trường hợp lúc này chúng ta chỉ cần xem xét mô hình OLS cho dữ liệu có được và thực hiện các kiểm định bình thường ( 8 giả định OLS). Đây là một cách giải thích cho sự thiếu vắng các kiểm định trong các nghiên cứu về dữ liệu bảng khi mà các nhà nghiên cứu cần tập trung vào các mô hình FEM, REM để phân tích. Mặc khác, đây cũng là gợi ý cho các kiểm định phát hiện các vấn đề trước khi quyết định phân tích theo các mô hình khác nhau. Thứ 2, mô hình FEM tự bản thân chỉ quan đến những khác biệt mang tính cá nhân đóng góp vào mô hình nên sẽ không có hiện tượng tự tương quan trong mô hình Thứ 3, mô hình REM quan tâm đến cả vấn đề về những khác biệt của riêng các đối tượng phân tích qua thời gian đóng góp vào mô hình do đó tự tương quan là một vấn đề tiềm tàng trong mô hình này cần phải giải quyết ( được giải quyết bằng phân tích động dữ liệu bảng – dynamic panel data analysis) đồng thời nó lại loại bỏ tốt yếu tố phương sai thay đổi ( có thể kiểm tra trong thực tế bằng cách lấy hàm log rồi chạy mô hình sẽ thấy kết quả ko thay đổi nhiều). III. Các kiểm định khuyến nghị 1. Đầu tiên là việc xem xét mô hình OLS và thực hiện kiểm định thử để phát hiện các vấn đề. 2. Kiểm định quan trọng nhất là kiểm định lựa chọn: Hausman test. Đây là kiểm định với giả thiết Ho là có sự khác biệt trong chính cá nhân đó – REM) 3. Có thể kiểm định thêm các vấn đề: - Thứ nhất, kiểm định phương sai thay đổi cho mô hinh FEM bằng packages được xây dựng thêm trong stata: xttest3 - Thứ 2, kiểm định phát hiện tác động ngẫu nhiên : Lagrange multiplier với giả định Ho là không có tác động. Ngoài ra, khi phát hiện có các hiện tượng về biến nội sinh thì chuyển sang các mô hình 2SLS, IVs, GMM,… CÁC VẤN ĐỀ TRONG KIỂM ĐỊNH XỬ LÝ DỮ LIỆU BẢNG - 2 Trong bài viết này tôi sẽ giới thiệu các công cụ kiểm định dữ liệu bảng: xttest0, xttest1, xttest2, xttest3 cũng như việc sử dụng chúng như thế nào cho hợp lý, đồng thời cũng giới thiệu kiểm định đánh giá có hay không tác động của các yếu tố ngẫu nhiên trong mô hình REM ( hay ECM). Loại kiểm định Kiểm định ảnh hưởng cố định Kiểm định Ho, mã code trong Kết luận Ghi chú stata Ho: corr(u_i, X) = 0 Giả thiết Ho bị bác xttest0 bỏ chứng tỏ có ảnh hưởng cố định trong mô hình ước lượng. Ảnh hưởng ngẫu Giả thiết Ho bị bác ảnh hưởng ngẫu nhiên Kiểm định Hausman Kiểm định phương sai thay đổi nhiên, 2 bên: ALM(Var(u)=0) Ảnh hưởng ngẫu nhiên, 1 bên: ALM(Var(u)=0) Xttest0 Ho: Sự khác biệt ảnh hưởng của các biến không mang tính hệ thống . Chi2(13) = (bB)'[(V_b-V_B)^(-1)] (b-B) Hausman fe re H0: sigma(i)^2 = sigma^2 for all i xttest3 Kiểm định H0: no first-order Wooldridge autocorrelation cho hiện xtserial y x tượng tự hoặc xttest0 tương quan 1. GIỚI THIỆU bỏ chứng tỏ có ảnh hưởng ngẫu nhiên trong mô hình ước lượng. Như vậy giả thiết Ho không bị bác bỏ, việc ước lượng của 2 mô hình FEM và REM là tương đương về kết quả. Giả thiết Ho bị bác bỏ, chứng tỏ đã xảy ra hiện tượng phương sai thay đổi trong mô hình ước lượng ban đầu. Giả thiết Ho được chấp nhận cho thấy không có hiện tượng tự tương quan trong mô hình ước lượng Để kiểm soát vấn đề này sử dụng Robust Mục đích của đa số các nghiên cứu thực nghiệm trong kinh tế là giải thích mối quan hệ giữa một biến phụ thuộc Y, theo một hay nhiều biến giải thích (X1, X2, …, Xk). Để làm điều này, chúng ta muốn biết sự tác động của Xi lên Y như thế nào, cả chiều hướng lẫn độ lớn của tác động. Trả lời câu hỏi này, chúng ta phải thu thập mẫu để có được kết quả ước lượng không chệch tác động của X lên Y. Để kết quả ước lượng là không thiên chệch đòi hỏi chúng ta phải kiểm soát các biến nhiễu, cả các biến quan sát được lẫn các biến không quan sát được. Đối với các biến nhiễu quan sát được, chúng ta có thể sử dụng mô hình hồi quy tuyến tính đa biến cổ điển (MCLR). Đối với các biến nhiễu không quan sát được, tuỳ vào đặc điểm khác nhau giữa các đối tượng và thời gian mà chúng ta lựa chọn mô hình hồi quy tác động cố định hay tác động ngẫu nhiên. Cả hai mô hình hồi quy này đòi hỏi chúng ta phải sử dụng dữ liệu bảng. Bài viết này tập trung trình bày nguyên tắc của các phương pháp ước lượng dữ liệu bảng chứ không đi sâu vào các vấn đề về thủ tục kiểm định liên quan. 2. DỮ LIỆU BẢNG  Mô hình hồi tác động cố định (Fixed-effects) và tác động ngẫu nhiên (random-effects) được sử dụng trong phân tích dữ liệu bảng (đôi khi còn được gọi là dữ liệu dài: longitudinal data). Dữ liệu bảng là sự kết hợp của dữ liệu chéo (cross-section) và dữ liệu thời gian (time series). Để thu thập dữ liệu bảng, chúng ta phải thu thập nhiều đối tượng (units) giống nhau trong cùng một hoặc nhiều thời điểm. Chẳng hạn, chúng ta có thể thu thập các dữ liệu của cùng các cá nhân, công ty, trường học, thành phố, quốc gia… trong giai đoạn từ năm 2000 đến 2014.  Sử dụng dữ liệu bảng có hai ưu điểm lớn như: i) Dữ liệu bảng cho các kết quả ước lượng các của tham số trong mô hình tin cậy hơn; ii) Dữ liệu bảng cho phép chúng ta xác định và đo lường tác động mà những tác động này không thể được xác định và đo lường khi sử dụng sử dụng chéo hoặc dữ liệu thời gian. 3. MÔ HÌNH TÁC ĐỘNG CỐ ĐỊNH (FIXED EFFECTS MODEL) Xét một mối quan hệ kinh tế, với biến phụ thuộc, Y, và hai biến giải thích quan sát được, X1 và X2, và một hoặc nhiều biến không quan sát được. Chúng ta có dữ liệu bảng cho Y, X1, và X2. Dữ liệu bảng bao gồm N-đối tượng và T-thời điểm, và vì vậy chúng ta có NxT quan sát. Mô hình hồi quy tuyến tính cổ điển không có hệ số cắt được xác định bởi: Yit = β1Xit1 + β2Xit2 + μit với i = 1, 2, …, N và t = 1, 2, …, T trong đó Yit là giá trị của Y cho đối tượng i ở thời điểm t; Xit1 là giá trị của X1 cho đối tượng i ở thời điểm t, Xit2 là giá trị của X2 cho đối tượng i ở thời điểm t, và μit là sai số của đối tượng i ở thời điểm t. Mô hình hồi quy tác động cố định, là một dạng mở rộng của mô hình hồi quy tuyến tính cổ điển, được cho bởi: Yit = β1Xit1 + β2Xit2 + νi + εit trong đó μit = νi + εit. Sai số của mô hình hồi quy tuyến tính cổ điển được tách làm hai thành phần. Thành phần νi đại diện cho các yếu tố không quan sát được khác nhau giữa các đối tượng nhưng không thay đổi theo thời gian. Thành phần εit đại diện cho những yếu tố không quan sát được khác nhau giữa các đối tượng và thay đổi theo thời gian. Ví dụ Đối với mô hình xác định mức lương lao động, Yit là mức lương của người lao động i tại thời điểm t; X it1 là trình độ giáo dục của lao động i tại thời điểm t, Xit2 là kinh nghiệm của người lao động i tại thời điểm t, và αi là tác động của kỹ năng bẩm sinh lên mức lương của người lao động i, giả định rằng kỹ năng bẩm sinh là yếu tố không quan sát được duy nhất tác động lên mức lương (và không thay đổi theo thời gian). Với cở mẫu là 1000 người lao động (N = 1.000) được khảo sát trong thời gian 3 năm (T = 3). Vì vậy, ta có, NxT = 3,000 quan sát. Mô hình tác động cố định này sẽ có 1.002 hệ số hồi quy (1.000 hệ số αi, 1 hệ số của biến trình độ giáo dục và 1 hệ số của biến kinh nghiệm) và có bậc tự do là 1998 (3.000 – 1.002 = 1.998). Phương pháp ước lượng Có hai phương pháp ước lượng được sử dụng để ước lượng các tham số của mô hình tác động cố định. i) Ước lượng hồi quy biến giả tối thiểu LSDV với mỗi biến giả là đại diện cho mỗi đối tượng quan sát của mẫu. ii) Ước lượng tác động cố định (Fixed effects estimator).  Khi N lớn, việc sử dụng ước lượng LSDV sẽ rất cồng kềnh hoặc không khả thi. Chẳng hạn, giả sử chúng ta muốn ước lượng mô hình xác định lương. Chúng ta có mẫu N = 1000 người lao động. Để sử dụng ước lượng LSDV, chúng ta sẽ cần tạo ra 1000 biến giả và chạy hồi quy OLS cho hơn 1000 biến. Trong trường hợp như vậy, ước lượng tác động cố định sẽ thích hợp hơn.  Nguyên tắc của ước lương tác động cố định được hiểu như sau. Để đánh giá tác động nhân quả của các biến độc lập X1 và X2 lên biến phụ thuộc Y, ước lượng tác động cố định sử dụng sự thay đổi trong X1, X2, và Y theo thời gian. Gọi Zi kí hiệu cho một biến không quan sát được khác nhau giữa các đối tượng nhưng không đổi theo thời gian và vì vậy bao gồm cả phần sai số trong đó. Bởi vì Zi không thay đổi theo thời gian nên nó không thể gây ra bất kì sự thay đổi nào trong Yit; Sở dĩ như vậy là vì không thay đổi theo thời gian, Zi không thể giải thích bất kì sự thay đổi nào trong Yit theo thời gian. Vì vậy, loại trừ tác động cố định của Zi lên Yitbằng cách sử dụng dữ liệu sự thay đổi trongYit theo thời gian. Ví dụ Chúng ta không thể đưa thêm các biến như giới tính, sắc tộc như là biến giải thích trong mô hình tác động cố định để xác định mức lương, bởi vì những biến này khác nhau giữa những người lao động nhưng không thay đổi theo thời gian. Nếu mẫu khảo sát của chúng ta chỉ bao gồm những người lao động đã kết thúc việc học, thì trình độ học vấn sẽ khác nhau giữa những người lao động nhưng lại không thay đổi theo thời gian. Trong trường hợp này, chúng ta không thể sử dụng mô hình tác động cố định để ước lượng tác động của giáo dục lên mức lương. 4. MÔ HÌNH TÁC ĐỘNG NGẪU NHIÊN (RANDOM EFFECTS MODEL) Xét một mối quan hệ kinh tế bao gồm một biến phụ thuộc, Y, và hai biến giải thích quan sát được, X1 và X2. Chúng ta có dữ liệu bảng cho Y, X1, và X2. Dữ liệu bảng gồm có N đối tượng và T thời điểm, và vì vậy chúng ta có NxT quan sát. Mô hình tác động ngẫu nhiên được viết dưới dạng: Yit = β1Xit1 + β2Xit2 + νi + εit với i = 1, 2, …, N và t = 1, 2, …, T Trong đó, sai số cổ điển được chia làm 2 thành phần. Thành phần νi đại diện cho tất các các yếu tố không quan sát được mà thay đổi giữa các đối tượng nhưng không thay đổi theo thời gian. Thành phần εit đại diện cho tất cả các yếu tố không quan sát được mà thay đổi giữa các đối tượng và thời gian. Giả sử rằng vi được cho bởi: vi = α0 + ωi, với i = 1, 2, …, N Trong đó, vi lại được phân chia làm hai thành phần: i) thành phần bất định 0, ii) thành phần ngẫu nhiên ωi. Giả định rằng, ωi cho mỗi đối tượng được rút ra từ một phân phối xác suất độc lập với giá trị trung bình bằng 0 và phương sai không đổi, đó là, E(ωi) = 0 Var(ωi) = ω2 Cov(ωi,ωs) = 0 N biến ngẫu nhiên ωi được gọi tác động ngẫu nhiên (random effects). Mô hình tác động ngẫu nhiên có thể được viết lại: Yit = α0Xit1 + β2Xit2 + μit Trong đó μit = ωi + εit. Một giả định quan trọng trong mô hình tác động ngẫu nhiên là thành phần sai số μit không tương quan với bất kì biến giải thích nào trong mô hình. Phương pháp ước lượng Ước lượng OLS cho mô hình tác động ngẫu nhiên sẽ cho các tham số ước lượng không chệch nhưng lại không hiệu quả. Hơn nữa, các ước lượng của sai số chuẩn và do đó thống kê t sẽ không còn chính xác. Sở dĩ như vậy là vì ước lượng OLS bỏ qua sự tự tương quan trong thành phần sai số μit. Để kết quả ước lượng không chệch và hiệu quả, chúng ta có thể sử dụng ước lượng GLS khả thi (FGLS) để khắc phục hiện tượng sai số nhiễu tự tương quan. Ước lượng FGLS còn được gọi là ước lượng tác động ngẫu nhiên (Random effects estimator). Ngoài hai phương pháp tác động cố định và tác động ngẫu nhiên, trong một số trường hợp nhà nghiên cứu vẫn sử dụng ước lượng OLS thô (Pooled OLS) cho dạng dữ liệu thu thập này. Ước lượng thô là ước lượng OLS trên tập dữ liệu thu được của các đối tượng theo thời gian, do vậy nó xem tất cả các hệ số đều không thay đổi giữa các đối tượng khác nhau và không thay đổi theo thời gian (Gujarati, 2004 trang 641). 5. LỰA CHỌN MÔ HÌNH Câu hỏi đặt ra là mô hình nào sẽ là mô hình phù hợp: Pooled OLS, FE hay RE. Sự phù hợp của ước lượng tác động ngẫu nhiên và tác động cố định được kiểm chứng trên cơ sở so sánh với ước lượng thô.  Cụ thể, ước lượng tác động cố định được kiểm chứng bằng kiểm định F với giả thuyết H0 cho rằng tất cả các hệ số vi đều bằng 0 (nghĩa là không có sự khác biệt giữa các đối tượng hoặc các thời điểm khác nhau). Bác bỏ giả thuyết H0 với mức ý nghĩa cho trước (mức ý nghĩa 5% chẳng hạn) sẽ cho thấy ước lượng tác động cố định là phù hợp. Đối với ước lượng tác động ngẫu nhiên, phương pháp nhân tử Lagrange (LM) với kiểm định Breusch-Pagan được sử dụng để kiểm chứng tính phù hợp của ước lượng (Baltagi, 2008 trang 319). Theo đó, giả thuyết H0 cho rằng sai số của ước lượng thô không bao gồm các sai lệch giữa các đối tượng var(vi) = 0 (hay phương sai giữa các đối tượng hoặc các thời điểm là không đổi). Bác bỏ giả thuyết H0, cho thấy sai số trong ước lượng có bao gồm cả sự sai lệch giữa các nhóm, và phù hợp với ước lượng tác động ngẫu nhiên.  Kiểm định Hausman sẽ được sử dụng để lựa chọn phương pháp ước lượng phù hợp giữa hai phương pháp ước lượng tác động cố định và tác động ngẫu nhiên (Baltagi, 2008 trang 320; Gujarati, 2004 trang 652). Giả thuyết H0 cho rằng không có sự tương quan giữa sai số đặc trưng giữa các đối tượng (vi) với các biến giải thích Xit trong mô hình. Ước lượng RE là hợp lý theo giả thuyết H0 nhưng lại không phù hợp ở giả thuyết thay thế. Ước lượng FE là hợp lý cho cả giả thuyết H0 và giả thuyết thay thế. Tuy nhiên, trong trường hợp giả thuyết H0 bị bác bỏ thì ước lượng tác động cố định là phù hợp hơn so với ước lượng tác động ngẫu nhiên. Ngược lại, chưa có đủ bằng chứng để bác bỏ H0 nghĩa là không bác bỏ được sự tương quan giữa sai số và các biến giải thích thì ước lượng tác động cố định không còn phù hợp và ước lượng ngẫu nhiên sẽ ưu tiên được sử dụng. 6. KẾT QUẢ Sử dụng phần mềm STATA cho tập dữ liệu mus08psidextract.dta với dữ liệu bảng cân bằng 4165 quan sát gồm 7 giai đoạn thời gian (T=7) và 595 đối tượng người lao động (n=595). Kết quả ước lượng mức lương của người lao động (lwage) theo số năm kinh nghiệm (exp), số năm kinh nghiệm bình phương (exp2), số giờ làm việc trong tuần (wks) và số năm đi học của người lao động (ed) theo 3 mô hình Pooled OLS, Fixed effect (FE) và Random effect (RE) được thể hiện như sau: Kết quả ước lượng mô hình mức lương của người lao động theo: Pooled OLS, Fixed effect và Random effect Kết quả kiểm định Hausman về sự lựa chọn mô hình Fixed effect và Random effect

- Xem thêm -

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất