CÁC VẤN ĐỀ TRONG KIỂM ĐỊNH XỬ LÝ DỮ LIỆU BẢNG
Vấn đề đặt ra tại sao thông thường không nhận thấy các kiểm định
như trong mô hình OLS ta hay sử dụng để phát hiện các hiện tượng:
1- Hiện tượng đa cộng tuyến – multi-colinear
2- Hiện tượng tự tương quan- autocorrelation
3- Hiện tượng phương sai thay đổi – heteroskedasticity
Để giải quyết vấn đề này đầu tiên ta đi vào cấu trúc dữ liệu bảng và “
nguyên lý” đẩy chúng ta đến việc sử dụng phân tích dữ liệu bảng.
I. Cấu trúc dữ liệu bảng
Như chúng ta đã biết, cấu trúc dữ liệu bảng được kết hợp từ 2 thành phần:
thành phần dữ liệu chéo ( cross – section) và thành phần dữ liệu theo chuỗi
thời gian ( time series). Việc kết hợp 2 loại dữ liệu có nhiều lợi thế và
thuận lợi trong phân tích, đặc biệt khi muốn quan sát, phân tích sự biến
động của các nhóm đối tượng nghiên cứu sau các biến cố hay theo thời
gian cũng như phân tích sự khác biệt giữa các giữa các nhóm đối tượng
nghiên cứu.
Có 2 kiểu cấu trúc dữ liệu bảng: cân bằng và không cân bằng
( unbalance ), dĩ nhiên, dữ liệu bảng không cân bằng (thiếu thông tin) sẽ có
những hạn chế trong các ước lượng. Điều này sẽ được đề cập trong từng
mô hình ước lượng cụ thể.
II. Hồi quy dữ liệu bảng
Đầu tiên, các vấn đề trong hồi quy dữ liệu bảng trong phân tích cơ bản
thường có các mô hình chính sau: POOL, FEM, REM sau đó khi cần phân
tích từng bước và sâu hơn người ta mới quan tâm đến các mô hình SUR,
IVs,…
Việc sử dụng các mô hình này phần nào đã giải thích về việc dùng các
kiểm định thống kê.
Mô hình POOL thực chất là mô hình OLS bình thường, điều này xảy ra
khi chúng ta sử dụng dữ liệu bảng như một đám mây dữ liệu bình thường
không phân biệt theo năm và như vậy khi hồi quy mô hình POOL chính là
mô hình OLS. Điều này cho thấy nếu như mô hình POOL thực sự phù hợp
với dữ liệu hơn 2 mô hình sau thì việc chúng ta sử dụng phân tích bằng mô
hình FEM, REM không còn nhiều ý nghĩa. Điều đó dẫn đến trường hợp
lúc này chúng ta chỉ cần xem xét mô hình OLS cho dữ liệu có được và
thực hiện các kiểm định bình thường ( 8 giả định OLS). Đây là một cách
giải thích cho sự thiếu vắng các kiểm định trong các nghiên cứu về dữ liệu
bảng khi mà các nhà nghiên cứu cần tập trung vào các mô hình FEM,
REM để phân tích. Mặc khác, đây cũng là gợi ý cho các kiểm định phát
hiện các vấn đề trước khi quyết định phân tích theo các mô hình khác
nhau.
Thứ 2, mô hình FEM tự bản thân chỉ quan đến những khác biệt mang tính
cá nhân đóng góp vào mô hình nên sẽ không có hiện tượng tự tương quan
trong mô hình
Thứ 3, mô hình REM quan tâm đến cả vấn đề về những khác biệt của
riêng các đối tượng phân tích qua thời gian đóng góp vào mô hình do đó tự
tương quan là một vấn đề tiềm tàng trong mô hình này cần phải giải quyết
( được giải quyết bằng phân tích động dữ liệu bảng – dynamic panel data
analysis) đồng thời nó lại loại bỏ tốt yếu tố phương sai thay đổi ( có thể
kiểm tra trong thực tế bằng cách lấy hàm log rồi chạy mô hình sẽ thấy kết
quả ko thay đổi nhiều).
III. Các kiểm định khuyến nghị
1. Đầu tiên là việc xem xét mô hình OLS và thực hiện kiểm định thử để
phát hiện các vấn đề.
2. Kiểm định quan trọng nhất là kiểm định lựa chọn: Hausman test. Đây là
kiểm định với giả thiết Ho là có sự khác biệt trong chính cá nhân đó –
REM)
3. Có thể kiểm định thêm các vấn đề:
- Thứ nhất, kiểm định phương sai thay đổi cho mô hinh FEM bằng
packages được xây dựng thêm trong stata: xttest3
- Thứ 2, kiểm định phát hiện tác động ngẫu nhiên : Lagrange multiplier
với giả định Ho là không có tác động.
Ngoài ra, khi phát hiện có các hiện tượng về biến nội sinh thì chuyển sang
các mô hình 2SLS, IVs, GMM,…
CÁC VẤN ĐỀ TRONG KIỂM ĐỊNH XỬ LÝ DỮ LIỆU BẢNG - 2
Trong bài viết này tôi sẽ giới thiệu các công cụ kiểm định dữ liệu bảng:
xttest0, xttest1, xttest2, xttest3 cũng như việc sử dụng chúng như thế nào
cho hợp lý, đồng thời cũng giới thiệu kiểm định đánh giá có hay không tác
động của các yếu tố ngẫu nhiên trong mô hình REM ( hay ECM).
Loại kiểm
định
Kiểm định
ảnh hưởng
cố định
Kiểm định
Ho, mã code trong
Kết luận
Ghi chú
stata
Ho: corr(u_i, X) = 0 Giả thiết Ho bị bác
xttest0
bỏ chứng tỏ có ảnh
hưởng cố định trong
mô hình ước lượng.
Ảnh hưởng ngẫu
Giả thiết Ho bị bác
ảnh hưởng
ngẫu nhiên
Kiểm định
Hausman
Kiểm định
phương sai
thay đổi
nhiên, 2 bên:
ALM(Var(u)=0)
Ảnh hưởng ngẫu
nhiên, 1 bên:
ALM(Var(u)=0)
Xttest0
Ho: Sự khác biệt ảnh
hưởng của các biến
không mang tính hệ
thống .
Chi2(13) = (bB)'[(V_b-V_B)^(-1)]
(b-B)
Hausman fe re
H0: sigma(i)^2 =
sigma^2 for all i
xttest3
Kiểm định H0: no first-order
Wooldridge autocorrelation
cho hiện
xtserial y x
tượng tự
hoặc xttest0
tương quan
1. GIỚI THIỆU
bỏ chứng tỏ có ảnh
hưởng ngẫu nhiên
trong mô hình ước
lượng.
Như vậy giả thiết
Ho không bị bác bỏ,
việc ước lượng của
2 mô hình FEM và
REM là tương
đương về kết quả.
Giả thiết Ho bị bác
bỏ, chứng tỏ đã xảy
ra hiện tượng
phương sai thay đổi
trong mô hình ước
lượng ban đầu.
Giả thiết Ho được
chấp nhận cho thấy
không có hiện tượng
tự tương quan trong
mô hình ước lượng
Để kiểm soát
vấn đề này
sử dụng
Robust
Mục đích của đa số các nghiên cứu thực nghiệm trong kinh tế là giải thích
mối quan hệ giữa một biến phụ thuộc Y, theo một hay nhiều biến giải
thích (X1, X2, …, Xk). Để làm điều này, chúng ta muốn biết sự tác động
của Xi lên Y như thế nào, cả chiều hướng lẫn độ lớn của tác động. Trả lời
câu hỏi này, chúng ta phải thu thập mẫu để có được kết quả ước lượng
không chệch tác động của X lên Y. Để kết quả ước lượng là không thiên
chệch đòi hỏi chúng ta phải kiểm soát các biến nhiễu, cả các biến quan sát
được lẫn các biến không quan sát được. Đối với các biến nhiễu quan sát
được, chúng ta có thể sử dụng mô hình hồi quy tuyến tính đa biến cổ điển
(MCLR). Đối với các biến nhiễu không quan sát được, tuỳ vào đặc điểm
khác nhau giữa các đối tượng và thời gian mà chúng ta lựa chọn mô hình
hồi quy tác động cố định hay tác động ngẫu nhiên. Cả hai mô hình hồi quy
này đòi hỏi chúng ta phải sử dụng dữ liệu bảng.
Bài viết này tập trung trình bày nguyên tắc của các phương pháp ước
lượng dữ liệu bảng chứ không đi sâu vào các vấn đề về thủ tục kiểm định
liên quan.
2. DỮ LIỆU BẢNG
Mô hình hồi tác động cố định (Fixed-effects) và tác động ngẫu
nhiên (random-effects) được sử dụng trong phân tích dữ liệu bảng
(đôi khi còn được gọi là dữ liệu dài: longitudinal data). Dữ liệu
bảng là sự kết hợp của dữ liệu chéo (cross-section) và dữ liệu thời
gian (time series). Để thu thập dữ liệu bảng, chúng ta phải thu
thập nhiều đối tượng (units) giống nhau trong cùng một hoặc
nhiều thời điểm. Chẳng hạn, chúng ta có thể thu thập các dữ liệu
của cùng các cá nhân, công ty, trường học, thành phố, quốc gia…
trong giai đoạn từ năm 2000 đến 2014.
Sử dụng dữ liệu bảng có hai ưu điểm lớn như: i) Dữ liệu bảng cho
các kết quả ước lượng các của tham số trong mô hình tin cậy hơn;
ii) Dữ liệu bảng cho phép chúng ta xác định và đo lường tác động
mà những tác động này không thể được xác định và đo lường khi
sử dụng sử dụng chéo hoặc dữ liệu thời gian.
3. MÔ HÌNH TÁC ĐỘNG CỐ ĐỊNH (FIXED EFFECTS MODEL)
Xét một mối quan hệ kinh tế, với biến phụ thuộc, Y, và hai biến giải thích
quan sát được, X1 và X2, và một hoặc nhiều biến không quan sát được.
Chúng ta có dữ liệu bảng cho Y, X1, và X2. Dữ liệu bảng bao gồm N-đối
tượng và T-thời điểm, và vì vậy chúng ta có NxT quan sát. Mô hình hồi
quy tuyến tính cổ điển không có hệ số cắt được xác định bởi:
Yit = β1Xit1 + β2Xit2 + μit với i = 1, 2, …, N và t = 1, 2, …, T
trong đó Yit là giá trị của Y cho đối tượng i ở thời điểm t; Xit1 là giá trị
của X1 cho đối tượng i ở thời điểm t, Xit2 là giá trị của X2 cho đối tượng i
ở thời điểm t, và μit là sai số của đối tượng i ở thời điểm t.
Mô hình hồi quy tác động cố định, là một dạng mở rộng của mô hình hồi
quy tuyến tính cổ điển, được cho bởi:
Yit = β1Xit1 + β2Xit2 + νi + εit
trong đó μit = νi + εit. Sai số của mô hình hồi quy tuyến tính cổ điển được
tách làm hai thành phần. Thành phần νi đại diện cho các yếu tố không
quan sát được khác nhau giữa các đối tượng nhưng không thay đổi theo
thời gian. Thành phần εit đại diện cho những yếu tố không quan sát được
khác nhau giữa các đối tượng và thay đổi theo thời gian.
Ví dụ
Đối với mô hình xác định mức lương lao động, Yit là mức lương của
người lao động i tại thời điểm t; X it1 là trình độ giáo dục của lao động i tại
thời điểm t, Xit2 là kinh nghiệm của người lao động i tại thời điểm t, và
αi là tác động của kỹ năng bẩm sinh lên mức lương của người lao động i,
giả định rằng kỹ năng bẩm sinh là yếu tố không quan sát được duy nhất tác
động lên mức lương (và không thay đổi theo thời gian). Với cở mẫu là
1000 người lao động (N = 1.000) được khảo sát trong thời gian 3 năm (T =
3). Vì vậy, ta có, NxT = 3,000 quan sát. Mô hình tác động cố định này sẽ
có 1.002 hệ số hồi quy (1.000 hệ số αi, 1 hệ số của biến trình độ giáo dục
và 1 hệ số của biến kinh nghiệm) và có bậc tự do là 1998 (3.000 – 1.002 =
1.998).
Phương pháp ước lượng
Có hai phương pháp ước lượng được sử dụng để ước lượng các tham số
của mô hình tác động cố định. i) Ước lượng hồi quy biến giả tối thiểu
LSDV với mỗi biến giả là đại diện cho mỗi đối tượng quan sát của mẫu. ii)
Ước lượng tác động cố định (Fixed effects estimator).
Khi N lớn, việc sử dụng ước lượng LSDV sẽ rất cồng kềnh hoặc
không khả thi. Chẳng hạn, giả sử chúng ta muốn ước lượng mô
hình xác định lương. Chúng ta có mẫu N = 1000 người lao động.
Để sử dụng ước lượng LSDV, chúng ta sẽ cần tạo ra 1000 biến giả
và chạy hồi quy OLS cho hơn 1000 biến. Trong trường hợp như
vậy, ước lượng tác động cố định sẽ thích hợp hơn.
Nguyên tắc của ước lương tác động cố định được hiểu như sau.
Để đánh giá tác động nhân quả của các biến độc lập X1 và X2 lên
biến phụ thuộc Y, ước lượng tác động cố định sử dụng sự thay đổi
trong X1, X2, và Y theo thời gian. Gọi Zi kí hiệu cho một biến
không quan sát được khác nhau giữa các đối tượng nhưng không
đổi theo thời gian và vì vậy bao gồm cả phần sai số trong đó. Bởi
vì Zi không thay đổi theo thời gian nên nó không thể gây ra bất kì
sự thay đổi nào trong Yit; Sở dĩ như vậy là vì không thay đổi theo
thời gian, Zi không thể giải thích bất kì sự thay đổi nào
trong Yit theo thời gian. Vì vậy, loại trừ tác động cố định của
Zi lên Yitbằng cách sử dụng dữ liệu sự thay đổi trongYit theo thời
gian.
Ví dụ
Chúng ta không thể đưa thêm các biến như giới tính, sắc tộc như là biến
giải thích trong mô hình tác động cố định để xác định mức lương, bởi vì
những biến này khác nhau giữa những người lao động nhưng không thay
đổi theo thời gian. Nếu mẫu khảo sát của chúng ta chỉ bao gồm những
người lao động đã kết thúc việc học, thì trình độ học vấn sẽ khác nhau giữa
những người lao động nhưng lại không thay đổi theo thời gian. Trong
trường hợp này, chúng ta không thể sử dụng mô hình tác động cố định để
ước lượng tác động của giáo dục lên mức lương.
4. MÔ HÌNH TÁC ĐỘNG NGẪU NHIÊN (RANDOM EFFECTS
MODEL)
Xét một mối quan hệ kinh tế bao gồm một biến phụ thuộc, Y, và hai biến
giải thích quan sát được, X1 và X2. Chúng ta có dữ liệu bảng cho Y, X1,
và X2. Dữ liệu bảng gồm có N đối tượng và T thời điểm, và vì vậy chúng
ta có NxT quan sát.
Mô hình tác động ngẫu nhiên được viết dưới dạng:
Yit = β1Xit1 + β2Xit2 + νi + εit với i = 1, 2, …, N và t = 1,
2, …, T
Trong đó, sai số cổ điển được chia làm 2 thành phần. Thành phần νi đại
diện cho tất các các yếu tố không quan sát được mà thay đổi giữa các đối
tượng nhưng không thay đổi theo thời gian. Thành phần εit đại diện cho tất
cả các yếu tố không quan sát được mà thay đổi giữa các đối tượng và thời
gian. Giả sử rằng vi được cho bởi:
vi = α0 + ωi, với i = 1, 2, …, N
Trong đó, vi lại được phân chia làm hai thành phần: i) thành phần bất
định 0, ii) thành phần ngẫu nhiên ωi.
Giả định rằng, ωi cho mỗi đối tượng được rút ra từ một phân phối xác suất
độc lập với giá trị trung bình bằng 0 và phương sai không đổi, đó là, E(ωi)
= 0 Var(ωi) = ω2 Cov(ωi,ωs) = 0
N biến ngẫu nhiên ωi được gọi tác động ngẫu nhiên (random effects).
Mô hình tác động ngẫu nhiên có thể được viết lại:
Yit = α0Xit1 + β2Xit2 + μit
Trong
đó
μit = ωi + εit. Một giả định quan trọng trong mô hình tác động ngẫu nhiên
là thành phần sai số μit không tương quan với bất kì biến giải thích nào
trong mô hình.
Phương pháp ước lượng
Ước lượng OLS cho mô hình tác động ngẫu nhiên sẽ cho các tham số ước
lượng không chệch nhưng lại không hiệu quả. Hơn nữa, các ước lượng của
sai số chuẩn và do đó thống kê t sẽ không còn chính xác. Sở dĩ như vậy là
vì ước lượng OLS bỏ qua sự tự tương quan trong thành phần sai số μit. Để
kết quả ước lượng không chệch và hiệu quả, chúng ta có thể sử dụng ước
lượng GLS khả thi (FGLS) để khắc phục hiện tượng sai số nhiễu tự tương
quan. Ước lượng FGLS còn được gọi là ước lượng tác động ngẫu nhiên
(Random effects estimator).
Ngoài hai phương pháp tác động cố định và tác động ngẫu nhiên, trong
một số trường hợp nhà nghiên cứu vẫn sử dụng ước lượng OLS thô
(Pooled OLS) cho dạng dữ liệu thu thập này. Ước lượng thô là ước lượng
OLS trên tập dữ liệu thu được của các đối tượng theo thời gian, do vậy nó
xem tất cả các hệ số đều không thay đổi giữa các đối tượng khác nhau và
không thay đổi theo thời gian (Gujarati, 2004 trang 641).
5. LỰA CHỌN MÔ HÌNH
Câu hỏi đặt ra là mô hình nào sẽ là mô hình phù hợp: Pooled
OLS, FE hay RE. Sự phù hợp của ước lượng tác động ngẫu nhiên và tác
động cố định được kiểm chứng trên cơ sở so sánh với ước lượng thô.
Cụ thể, ước lượng tác động cố định được kiểm chứng bằng kiểm
định F với giả thuyết H0 cho rằng tất cả các hệ số vi đều bằng 0
(nghĩa là không có sự khác biệt giữa các đối tượng hoặc các thời
điểm khác nhau). Bác bỏ giả thuyết H0 với mức ý nghĩa cho trước
(mức ý nghĩa 5% chẳng hạn) sẽ cho thấy ước lượng tác động cố
định là phù hợp. Đối với ước lượng tác động ngẫu nhiên, phương
pháp nhân tử Lagrange (LM) với kiểm định Breusch-Pagan được
sử dụng để kiểm chứng tính phù hợp của ước lượng (Baltagi, 2008
trang 319). Theo đó, giả thuyết H0 cho rằng sai số của ước lượng
thô không bao gồm các sai lệch giữa các đối tượng var(vi) = 0
(hay phương sai giữa các đối tượng hoặc các thời điểm là không
đổi). Bác bỏ giả thuyết H0, cho thấy sai số trong ước lượng có bao
gồm cả sự sai lệch giữa các nhóm, và phù hợp với ước lượng tác
động ngẫu nhiên.
Kiểm định Hausman sẽ được sử dụng để lựa chọn phương pháp
ước lượng phù hợp giữa hai phương pháp ước lượng tác động cố
định và tác động ngẫu nhiên (Baltagi, 2008 trang 320; Gujarati,
2004 trang 652). Giả thuyết H0 cho rằng không có sự tương quan
giữa sai số đặc trưng giữa các đối tượng (vi) với các biến giải
thích Xit trong mô hình. Ước lượng RE là hợp lý theo giả thuyết
H0 nhưng lại không phù hợp ở giả thuyết thay thế. Ước lượng FE
là hợp lý cho cả giả thuyết H0 và giả thuyết thay thế. Tuy nhiên,
trong trường hợp giả thuyết H0 bị bác bỏ thì ước lượng tác động
cố định là phù hợp hơn so với ước lượng tác động ngẫu nhiên.
Ngược lại, chưa có đủ bằng chứng để bác bỏ H0 nghĩa là không
bác bỏ được sự tương quan giữa sai số và các biến giải thích thì
ước lượng tác động cố định không còn phù hợp và ước lượng
ngẫu nhiên sẽ ưu tiên được sử dụng.
6. KẾT QUẢ
Sử dụng phần mềm STATA cho tập dữ liệu mus08psidextract.dta với dữ
liệu bảng cân bằng 4165 quan sát gồm 7 giai đoạn thời gian (T=7) và 595
đối tượng người lao động (n=595). Kết quả ước lượng mức lương của
người lao động (lwage) theo số năm kinh nghiệm (exp), số năm kinh
nghiệm bình phương (exp2), số giờ làm việc trong tuần (wks) và số năm đi
học của người lao động (ed) theo 3 mô hình Pooled OLS, Fixed effect
(FE) và Random effect (RE) được thể hiện như sau:
Kết quả ước lượng mô hình mức lương của người lao động theo: Pooled
OLS, Fixed effect và Random effect
Kết quả kiểm định Hausman về sự lựa chọn mô hình Fixed effect và
Random effect
- Xem thêm -