BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
Nguyễn Hoàng Vân Anh
HỒI QUY TUYẾN TÍNH VỚI BIẾN ĐỊNH TÍNH VÀ
ỨNG DỤNG
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Hà Nội – Năm 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
Nguyễn Hoàng Vân Anh
HỒI QUY TUYẾN TÍNH VỚI BIẾN ĐỊNH TÍNH VÀ
ỨNG DỤNG
Chuyên ngành: Toán ứng dụng
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. Trần Trọng Nguyên
Hà Nội – Năm 2016
Lời cảm ơn
Trước khi trình bày nội dung chính của bản khóa luận tốt nghiệp, em
xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Trần Trọng Nguyên đã tận
tình hướng dẫn để em có thể hoàn thành đề tài này.
Em cũng xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô
giáo trong khoa Toán, Trường Đại học Sư phạm Hà Nội 2 đã dạy bảo em
tận tình trong suốt quá trình học tập tại khoa.
Nhân dịp này em cũng xin được gửi lời cảm ơn chân thành tới gia đình,
bạn bè đã luôn bên em, động viên, giúp đỡ em trong suốt quá trình học
tập và thực hiện đề tài thực tập này.
Hà Nội, ngày 2 tháng 05 năm 2016
Sinh viên
Nguyễn Hoàng Vân Anh
i
Lời cam đoan
Em xin cam đoan dưới sự hướng dẫn của PGS.TS. Trần Trọng Nguyên
khóa luận "Hồi quy tuyến tính với biến định tính và ứng dụng"
được hoàn thành không trùng với bất kỳ đề tài nào khác.
Trong quá trình hoàn thành khóa luận, em đã thừa kế những thành tựu
của các nhà khoa học với sự trân trọng và biết ơn.
Hà Nội, ngày 2 tháng 05 năm 2016
Sinh viên
Nguyễn Hoàng Vân Anh
ii
Mục lục
Lời mở đầu
iii
Danh sách bảng
v
Danh sách hình vẽ
vi
1 Kiến thức chuẩn bị
1.1
1.2
1.3
1
Mô hình và một số khái niệm . . . . . . . . . . . . . . .
1
1.1.1
Mô hình hồi quy . . . . . . . . . . . . . . . . . .
1
1.1.2
Hàm hồi quy tổng thể . . . . . . . . . . . . . . .
3
1.1.3
Hàm hồi quy mẫu . . . . . . . . . . . . . . . . . .
4
Phương pháp bình phương nhỏ nhất (Phương pháp OLS)
4
1.2.1
Các giả thiết của mô hình hồi quy
. . . . . . . .
5
1.2.2
Phương pháp OLS . . . . . . . . . . . . . . . . .
5
1.2.3
Các tham số đặc trưng của ước lượng OLS . . . .
7
Một số bài toán ước lượng và kiểm định giả thuyết . . .
9
1.3.1
Khoảng tin cậy cho các hệ số hồi quy . . . . . . .
10
1.3.2
Kiểm định giả thuyết thống kê về hệ số hồi quy .
11
1.3.3
Kiểm định sự phù hợp của hàm hồi quy . . . . .
13
i
Khóa luận tốt nghiệp Đại học
1.3.4
Nguyễn Hoàng Vân Anh
Kiểm định thu hẹp hồi quy . . . . . . . . . . . . .
2 Mô hình hồi quy chứa biến định tính là biến độc lập
15
17
2.1
Khái niệm biến giả . . . . . . . . . . . . . . . . . . . . .
17
2.2
Mô hình hồi quy chứa biến định tính là biến độc lập
19
2.2.1
2.3
. .
Mô hình hồi quy chứa biến định tính chỉ có hai
phạm trù . . . . . . . . . . . . . . . . . . . . . .
19
2.2.2
Mô hình hồi quy với biến giả và biến tương tác .
26
2.2.3
Mô hình hồi quy với biến định tính có nhiều phạm
trù . . . . . . . . . . . . . . . . . . . . . . . . . .
34
Ứng dụng . . . . . . . . . . . . . . . . . . . . . . . . . .
37
3 Hồi quy với biến phụ thuộc là biến định tính
43
3.1
Khái niệm . . . . . . . . . . . . . . . . . . . . . . . . . .
43
3.2
Mô hình logit . . . . . . . . . . . . . . . . . . . . . . . .
44
3.2.1
Mô hình logit - Phương pháp Goldberger (1964).
44
3.2.2
Mô hình logit - Phương pháp Berkson (1953) . . .
47
Ứng dụng mô hình logit . . . . . . . . . . . . . . . . . .
50
3.3
KẾT LUẬN
54
Tài liệu tham khảo
55
ii
Khóa luận tốt nghiệp Đại học
Nguyễn Hoàng Vân Anh
Lời mở đầu
1. Lý do chọn đề tài
Phân tích hồi quy có lẽ là một trong những phương pháp phân tích
số liệu thông dụng nhất trong thống kê học. Nó nghiên cứu sự phụ thuộc
của một biến (biến phụ thuộc) vào một hay nhiều biến khác (biến độc
lập), nhằm mục đích ước lượng (hay dự đoán) giá trị trung bình của
biến phụ thuộc trên cơ sở các giá trị biết trước của biến độc lập. Trong
thực tế, biến phụ thuộc không những chịu tác động của các biến định
lượng mà còn chịu tác động của các biến định tính hoặc biến phụ thuộc
không phải là biến định lượng mà là biến định tính.
Với mong muốn tìm hiểu sâu vấn đề này, cùng với sự giúp đỡ tận tình
của PGS. TS Trần Trọng Nguyên, tôi đã chọn nghiên cứu đề tài: "Hồi
quy tuyến tính với biến định tính và ứng dụng".
2. Mục đích nghiên cứu
Nghiên cứu mô hình hồi quy tuyến tính chứa biến độc lập là biến
định tính và mô hình hồi quy với biến phụ thuộc là biến định tính. Tìm
hiểu một số bài toán thực tế ứng dụng hai mô hình này với sự hỗ trợ
của phần mềm Eviews.
3. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: biến định tính, mô hình hồi quy với biến định
tính.
- Phạm vi nghiên cứu: mô hình hồi quy tuyến tính chứa biến độc lập
là biến định tính, mô hình hồi quy với biến phụ thuộc là biến định tính
(chủ yếu tìm hiểu mô hình logit).
iii
Khóa luận tốt nghiệp Đại học
Nguyễn Hoàng Vân Anh
4. Phương pháp và công cụ nghiên cứu
- Phương pháp nghiên cứu và tổng hợp các tài liệu tham khảo.
- Phương pháp nghiên cứu thực nghiệm với dữ liệu thực tế.
- Sử dụng phần mềm Eviews 4.0.
5. Cấu trúc khóa luận
Khóa luận gồm ba chương.
Chương 1 "Kiến thức chuẩn bị".
Chương này nhắc lại một số kiến thức cần sử dụng để nghiên cứu các
phần sau.
Chương 2 "Mô hình hồi quy chứa biến định tính là biến độc lập".
Chương này nghiên cứu biến định tính, mô hình chứa biến định tính là
biến độc lập và ứng dụng của nó.
Chương 3 "Hồi quy với biến phụ thuộc là biến định tính".
Chương 3 nghiên cứu mô hình hồi quy với biến phụ thuộc là biến định
tính, cụ thể là mô hình logit cùng với những ứng dụng của nó.
iv
Danh sách bảng
1.1
Các cặp giả thuyết và điều kiện để bác bỏ H0 tương ứng
trong kiểm định giả thuyết về một hệ số hồi quy. . . . .
1.2
2.1
12
Các cặp giả thuyết và điều kiện để bác bỏ H0 tương ứng
trong kiểm định về tổ hợp tuyến tính các hệ số hồi quy. .
13
Biến định tính có nhiều hơn hai phạm trù. . . . . . . . .
35
v
Danh sách hình vẽ
2.1
Hệ số của biến giả cho biết sự khác biệt về hệ số chặn
giữa hai hàm hồi quy. . . . . . . . . . . . . . . . . . . . .
2.2
21
Hệ số của biến giả cho biết sự khác biệt về hệ số chặn
giữa hai hàm hồi quy. . . . . . . . . . . . . . . . . . . . .
24
2.3
Hai hồi quy hoàn toàn khác nhau (a). . . . . . . . . . . .
28
2.4
Hai hồi quy hoàn toàn khác nhau (b). . . . . . . . . . . .
28
2.5
Mô hình khác hệ số góc nhưng giống nhau về hệ số chặn.
29
2.6
Hai mô hình hồi quy hoàn toàn giống nhau. . . . . . . .
29
2.7
Bảng số liệu thị trường tiêu thụ trà xanh và các nhân tố
liên quan khác. . . . . . . . . . . . . . . . . . . . . . . .
37
2.8
Bảng số liệu biến giả. . . . . . . . . . . . . . . . . . . . .
38
2.9
Bảng ước lượng giá trị liên quan đến biến giả qua phần
mềm Eviews. . . . . . . . . . . . . . . . . . . . . . . . .
3.1
Bảng số liệu về mức thu nhập và số hộ sở hữu nhà trong
nhóm quan sát. . . . . . . . . . . . . . . . . . . . . . . .
3.2
3.3
39
51
Bảng xử lý số liệu về mức thu nhập và số hộ sở hữu nhà
trong nhóm quan sát. . . . . . . . . . . . . . . . . . . . .
51
Kết quả ước lượng mô hình bằng phương pháp Berkson.
52
vi
Chương 1
Kiến thức chuẩn bị
Chương này nhắc lại một số kiến thức cơ bản của mô hình hồi quy
nhằm giúp người đọc nắm bắt tốt hơn các kiến thức phần sau.
Mục 1.1 sẽ nhắc lại mô hình hồi quy tuyến tính, các thành phần của
mô hình và một số khái niệm cơ bản. Mục 1.2 trình bày phương pháp
bình phương nhỏ nhất và các công thức ước lượng, mục này cũng giới
thiệu các giả thiết của mô hình hồi quy. Mục 1.3 nêu một số bài toán
ước lượng và kiểm định giả thuyết.
1.1
1.1.1
Mô hình và một số khái niệm
Mô hình hồi quy
Xét mô hình hồi quy tuyến tính k biến:
Y = β1 + β2 X2 + ... + βk Xk + u.
(1.1)
Khi đó với mẫu ngẫu nhiên kích thước n, có thể biểu diễn lại (1.1)
1
Khóa luận tốt nghiệp Đại học
như sau:
Nguyễn Hoàng Vân Anh
Y1 = β1 + β2 X21 + ... + βk Xk1 + u1
Y2 = β1 + β2 X22 + ... + βk Xk2 + u2
(1.2)
...................................................
Yn = β1 + β2 X2n + ... + βk Xkn + un .
Biểu diễn hệ phương trình này dưới dạng ma trận như sau:
y = Xβ + u
(1.3)
trong đó y, X, β và u là các ma trận có kích thước lần lượt là (n × 1),
(n × k), (k × 1), (n × 1):
Y1
Y2
Y =
.
.
Yn
1 X21 X31 ... Xk1
1 X22 X32 ... Xk2
,X =
,
. ... .
. .
. .
.
...
.
1 X2n X3n ... Xkn
n×1
n×k
β1
u1
β2
u2
,u = .
β=
.
.
.
.
un
βk
k×1
n×1
Mô hình (1.3) được gọi là mô hình hồi quy tuyến tính bội.
Như vậy mô hình hồi quy tuyến tính bội có các thành phần sau:
2
Khóa luận tốt nghiệp Đại học
Nguyễn Hoàng Vân Anh
- Biến phụ thuộc là biến số mà ta đang quan tâm đến giá trị của nó,
thường kí hiệu là Y và nằm ở vế trái của phương trình. Biến phụ thuộc
còn được gọi là biến được giải thích (explained variable) hay biến phản
ứng.
- Biến độc lập là biến số được cho là có tác động đến biến phụ thuộc,
thường được kí hiệu là X và nằm ở vế phải của phương trình. Biến độc
lập còn được gọi là biến giải thích (explanatory variable) hay biến điều
khiển (control variable).
- Sai số ngẫu nhiên là yếu tố đại diện cho các yếu tố tác động đến
biến Y ngoài X, thường được kí hiệu là u.
- Hệ số hồi quy là các hệ số thể hiện mối quan hệ giữa biến X và Y
khi các yếu tố bao hàm trong u không đổi.
Trong đó, β1 là hệ số chặn (hệ số tự do) nó cho ta biết trung bình
của Y khi X2 , X3 , ..., Xk bằng 0; βj (j = 1, 2, ..., k) là các hệ số hồi quy
riêng, nó cho ta biết sự thay đổi của Y khi Xj thay đổi một đơn vị còn
các Xh (h 6= j) không thay đổi.
1.1.2
Hàm hồi quy tổng thể
Với giả thiết E(u|X) = 0 ta có thể biểu diễn lại mô hình hồi quy (1.1)
dưới dạng sau:
E(Y |X) = β1 + β2 X2 + ... + βk Xk .
(1.4)
trong đó E(Y |X) là kì vọng của biến Y khi biến giá trị của biến X hay
còn gọi là kỳ vọng của Y với điều kiện X.
3
Khóa luận tốt nghiệp Đại học
Nguyễn Hoàng Vân Anh
Phương trình (1.4) được gọi là hàm hồi quy tổng thể (PRF).
1.1.3
Hàm hồi quy mẫu
Giả sử có mẫu ngẫu nhiên kích thước n bao gồm các quan sát của
biến X và biến Y : (Yi , Xi ), i = 1, 2, ..., n. Từ mẫu ngẫu nhiên này ta xây
dựng được các ước lượng cho các hệ số hồi quy tổng thể β1 , β2 , ..., βk , kí
hiệu βˆ1 , βˆ2 , ..., βˆk tương ứng.
Khi đó ta có hàm hồi quy mẫu (SRF) cho hàm hồi quy tổng thể:
Ŷ = βˆ1 + βˆ2 X2 + ... + βˆk Xk .
(1.5)
Thông thường Yi 6= Ŷi , đặt ei = Yi − Ŷi và gọi là phần dư. Bản chất
của phần dư ei giống như của yếu tố ngẫu nhiên ui .
1.2
Phương pháp bình phương nhỏ nhất (Phương
pháp OLS)
Phương pháp bình phương nhỏ nhất (OLS) là kỹ thuật ước lượng
thống kê được sử dụng phổ biến nhất trong các mô hình hồi quy tuyến
tính. Mục đích của phương pháp là từ các mẫu rời rạc quan sát được
trên thực nghiệm, xác định một hàm biểu diễn gần đúng sự phân phối
của các mẫu đó, từ đó có thể ước lượng được các giá trị chưa thể đo
được trên thực tế (nội suy).
4
Khóa luận tốt nghiệp Đại học
1.2.1
Nguyễn Hoàng Vân Anh
Các giả thiết của mô hình hồi quy
•Giả thiết 1: Việc ước lượng dựa trên cơ sở mẫu ngẫu nhiên (X, Y ).
•Giả thiết 2: E(u|X) = 0n×1 với 0n×1 là vectơ gồm n thành phần
bằng 0.
•Giả thiết 3: E(uu0 |X) = σ 2 I
trong đó I là ma trận đơn vị cỡ n × n, dấu 0 trên đầu mỗi ma trận là ký
hiệu của ma trận chuyển vị.
Như vậy
2
σ 0
0 σ2
0
E(uu ) =
. .
0 0
0 . 0
0 . 0
= σ 2 I.
. . .
0 . σ2
•Giả thiết 4: Tồn tại ma trận nghịch đảo X 0 X −1 , tức là không có
quan hệ đa cộng tuyến hoàn hảo và không có biến nào là hằng số trong
tập số liệu.
•Giả thiết 5: Sai số ngẫu nhiên tuân theo quy luật chuẩn
ui ∼ N (0, σ 2 ).
1.2.2
Phương pháp OLS
Hàm hồi quy mẫu tương ứng với mô hình (1.3) viết được dưới dạng:
Ŷ = X β̂.
5
Khóa luận tốt nghiệp Đại học
Nguyễn Hoàng Vân Anh
Trong đó,
ˆ
Y1
Yˆ2
Ŷ =
.
.
Yˆn
n×1
ˆ
β1
βˆ2
, β̂ =
.
.
βˆk
.
k×1
Với vectơ phần dư: e = Y − Ŷ = Y − X β̂.
Khi đó ta có
e1
e2
X
0
e2i = (e1 , e2 , ..., en )
. = e e.
i
.
en
Do đó
0
e0 e = (Y − X β̂) (Y − X β̂) = Y 0 Y − 2β̂X 0 Y + β̂ 0 Y + β̂ 0 X 0 X β̂.
Phương pháp OLS đưa về việc giải bài toán cực trị: tìm véc tơ β̂ sao
cho cực tiểu biểu thức
Y 0 Y − 2β̃X 0 Y + β̃ 0 X β̃.
6
Khóa luận tốt nghiệp Đại học
Nguyễn Hoàng Vân Anh
Như vậy véc tơ ước lượng β̂ cần thỏa mãn điều kiện cần bậc nhất
X 0 X β̂ = X 0 Y.
Do tồn tại ma trận nghịch đảo (X 0 X)−1 nên nhân hai vế của biểu
thức trên với ma trận nghịch đảo này ta có:
β̂ = (X 0 X)−1 X 0 Y.
(1.6)
(1.6) chính là công thức ước lượng OLS cho các hệ số hồi quy.
Để xem xét công thức tính ma trận phương sai- hiệp phương sai của
các hệ số ước lượng, ta biến đổi công thức (1.6) như sau:
β̂ = (X 0 X)−1 X 0 Y = (X 0 X)−1 X 0 (Xβ + u) = β + (X 0 X)−1 X 0 u.
Do đó ta có thể biểu diễn ma trận hiệp phương sai giữa các hệ số ước
lượng bởi
var(β̂|X) = (X 0 X)−1 X 0 var(uu0 |X)X(X 0 X)−1 = σ 2 (X 0 X)−1 .
1.2.3
Các tham số đặc trưng của ước lượng OLS
• Với hồi quy đơn:
Kì vọng
E(βˆj ) = βj .
Phương sai
Pn
Xi2 2
i=1
ˆ
var(β1 ) = Pn 2 σ
n i=1 xi
7
(1.7)
Khóa luận tốt nghiệp Đại học
Nguyễn Hoàng Vân Anh
σ2
var(βˆ2 ) = Pn
2
i=1 xi
.
Độ lệch chuẩn
q
var(βˆj ).
P 2
ei
.
σ 2 chưa biết và được ước lượng bởi: σ̂ 2 =
n−2
σ̂ gọi là độ lệch chuẩn của hồi quy (se).
se(βˆj ) =
• Với hồi quy tổng quát:
E(βˆj ) = βj (j = 1, .., k)
ˆ
ˆ
ˆ
ˆ
cov(β1 , β2 ) . cov(β1 , βk )
ˆ
ˆ
ˆ
ˆ
ˆ
cov(β1 , β2 ) var(β2 ) . cov(β2 , βk )
cov(β̂) =
.
.
.
.
cov(βˆk , βˆ1 ) cov(βˆ1 , βˆ2 ) . var(βˆk )
var(βˆ1 )
cov(β̂)P
= σ 2 (X 0 X)0
e2i
σˆ2 =
với k là số tham số cần ước lượng.
n−k
Định lý 1.1. Định lý Gauss- Markov
Khi các giả thiết 1- giả thiết 4 thỏa mãn thì các ước lượng thu được từ
phương pháp OLS là các ước lượng tuyến tính không chệch và có phương
sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch.
Định lý 1.2. Khi các giả thiết 1- giả thiết 5 thỏa mãn thì các ước
lượng OLS sẽ là các ước lượng không chệch tốt nhất (BUE- best unbiased
estimator), kể cả trong lớp các ước lượng tuyến tính và ước lượng phi
8
Khóa luận tốt nghiệp Đại học
Nguyễn Hoàng Vân Anh
tuyến.
Khi giả thiết 1- 5 thỏa mãn thì phương pháp OLS là phương pháp
ước lượng tốt nhất cho bài toán hồi quy có dạng (1.3).
1.3
Một số bài toán ước lượng và kiểm định giả
thuyết
Định lý 1.3. Khi các giả thiết 1- 5 thỏa mãn ta có
βˆj ∼ N (βj , var(βˆj ))
(1.8)
trong đó var(βˆj ) được tính theo công thức (1.7).
Định lý 1.4. Khi các giả thiết 1- 5 thỏa mãn ta có:
Với j = 1, 2, ..., k thì
βˆj − βj
t=
∼ Tn−k .
se(βˆj )
(1.9)
Tương tự ta cũng có
(aβˆj + bβˆs − aβj − bβs )
t=
∼ Tn−k .
se(aβˆj + bβˆs )
Các công thức (1.8) và (1.9) là cơ sở cho việc xây dựng khoảng tin
cậy và bài toán kiểm định giả thuyết thống kê các hệ số hồi quy.
9
Khóa luận tốt nghiệp Đại học
1.3.1
Nguyễn Hoàng Vân Anh
Khoảng tin cậy cho các hệ số hồi quy
* Khoảng tin cậy cho một hệ số hồi quy
• Khoảng tin cậy đối xứng với độ tin cậy (1 − α) cho các hệ số hồi
quy được xác định bằng công thức sau:
(βˆj − t α2 ,n−k se(βˆj ), βˆj + t α2 ,n−k se(βˆj )).
(1.10)
Trong đó, kí hiệu tα,n−k là giá trị tới hạn của quy luật Student với
(n − k) bậc tự do với mức ý nghĩa α.
Ý nghĩa của công thức (1.10): với độ tin cậy là (1 − α), khi biến Xj
gia tăng 1 đơn vị và các yếu tố khác không đổi thì trung bình của biến
Y gia tăng trong khoảng này.
• Khoảng tin cậy để ước lượng giá trị lớn nhất cho hệ số hồi quy:
(−∞, βˆj + tα,n−k se(βˆj )).
• Khoảng tin cậy để ước lượng giá trị bé nhất cho hệ số hồi quy:
(βˆj − tα,n−k se(βˆj ), +∞).
* Khoảng tin cậy cho biểu thức của hai hệ số hồi quy
Với a và b là các giá trị bất kì thì khoảng tin cậy cho mức gia tăng
của trung bình của biến Y khi biến Xi tăng a đơn vị và Xj tăng b đơn
vị được tính bởi công thức:
((aβ̂i +bβˆj )−t α2 ,n−k se(aβ̂i +bβˆj ), (aβ̂i +bβˆj )−t α2 ,n−k se(aβ̂i +bβˆj )) (1.11)
10
- Xem thêm -