TRƢỜNG ĐẠI HỌC CẦN THƠ
KHOA KHOA HỌC TỰ NHIÊN
BỘ MÔN TOÁN
---------
LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC
HỒI QUY LOGISTIC VÀ ỨNG DỤNG
GIÁO VIÊN HƢỚNG DẪN
Ths Trần Phƣớc Lộc
Bộ môn Toán – khoa KHTN
SINH VIÊN THỰC HIỆN
Trần Thị Kim Ngân
Ngành Toán ứng dụng K36
CẦN THƠ, 11/2013
LỜI CÁM ƠN
--------Luận văn tốt nghiệp là thành quả sự nổ lực của bản thân trong suốt
quá trình ở giảng đường đại học; sự dìu dắt, dạy dỗ, hướng dẫn tận tình của
các Thầy, Cô trong khoa Khoa học tự nhiên trường Đại học Cần Thơ và sự
ủng hộ, động viên của gia đình và bạn bè.
Trước tiên, tôi xin chân thành cám ơn các Thầy, Cô trong bộ môn
Toán khoa Khoa học tự nhiên đã nhiệt tình truyền dạy những kiến thức quý
báu cho tôi.
Tôi xin gửi lời cám ơn sâu sắc đến Ths Trần Phước Lộc – là giáo viên
hướng dẫn trực tiếp cho tôi trong suốt quá trình thực hiện luận văn và đồng
thời là cố vấn học tập dìu dắt và hướng dẫn phương pháp học tập cho tôi
trong thời gian qua.
Xin cám ơn tập thể lớp Toán ứng dụng K36 đã đồng hành, chia sẻ và
vượt qua khó khăn cùng tôi trong những năm qua.
Mặc dù tôi đã cố gắng và nổ lực hết khả năng để hoàn thành luận văn
nhưng không thể tránh khỏi những thiếu sót, tôi mong được sự cảm thông
và đóng góp ý kiến quý báu của quý Thầy, Cô và các bạn.
Cần Thơ, ngày 17 tháng 11 năm 2013
Sinh viên thực hiện
Trần Thị Kim Ngân
i
DANH MỤC CÁC BẢNG
Bảng 2.1: Omnibus Tests of Model Coefficients ........................................ 21
Bảng 2.2: Model Summary .......................................................................... 21
Bảng 2.3: Contengency Table for Hosmer and Lemeshow ......................... 22
Bảng 2.4: Classification Table ..................................................................... 22
Bảng 2.5: Variables in the Equation ............................................................ 22
Bảng 2.6: Omnibus Tests of Model Coefficients ........................................ 27
Bảng 2.7: Model Summary .......................................................................... 28
Bảng 2.8: Contengency Table for Hosmer and Lemeshow ......................... 28
Bảng 2.9: Classification Table ..................................................................... 28
Bảng 2.10: Variables in the Equation .......................................................... 29
Bảng 3.1: Case Processing Summary .......................................................... 33
Bảng 3.2: Omnibus Tests of Model Coefficients ........................................ 33
Bảng 3.3: Model Summary .......................................................................... 34
Bảng 3.4: Contengency Table for Hosmer and Lemeshow ......................... 34
Bảng 3.5: Classification Table ..................................................................... 34
Bảng 3.6: Variables in the Equation ............................................................ 35
Bảng 3.7: Tóm tắt ý nghĩa của hệ số hồi quy .............................................. 36
Bảng 3.8: Case Processing Summary .......................................................... 38
Bảng 3.9: Omnibus Tests of Model Coefficients ........................................ 38
Bảng 3.10: Model Summary ........................................................................ 39
Bảng 3.11: Contengency Table for Hosmer and Lemeshow ....................... 39
Bảng 3.12: Classification Table ................................................................... 39
Bảng 3.13: Variables in the Equation .......................................................... 40
Bảng 3.14: Tóm tắt ý nghĩa của hệ số hồi quy ............................................ 41
Bảng 3.15: Case Processing Summary ........................................................ 43
Bảng 3.16: Omnibus Tests of Model Coefficients ...................................... 43
Bảng 3.17: Model Summary ........................................................................ 44
Bảng 3.18: Contengency Table for Hosmer and Lemeshow ....................... 44
Bảng 3.19: Classification Table ................................................................... 44
Bảng 3.20: Variables in the Equation .......................................................... 45
Bảng 3.21: Tóm tắt ý nghĩa của hệ số hồi quy ............................................ 47
ii
MỤC LỤC
PHẦN MỞ ĐẦU .................................................................................................... 1
CHƢƠNG 1: HỒI QUY LOGISTIC .................................................................... 2
1.1 GIỚI THIỆU................................................................................................ 2
1.2 PHƢƠNG PHÁP ƢỚC LƢỢNG HỢP LÍ CỰC ĐẠI ............................... 2
1.2.1 Trường hợp một tham số .................................................................. 3
1.2.2 Trường hợp tham số vectơ 1 , 2 ,..., m ................................... 4
1.3 SỐ CHÊNH (ODDS) VÀ TỶ SỐ ODDS .................................................... 5
1.3.1 Định nghĩa ............................................................................................ 5
1.3.2 Ví dụ minh họa ..................................................................................... 6
1.4 HỒI QUY LOGISTIC ĐƠN BIẾN ............................................................ 7
1.4.1 Mô hình ................................................................................................ 7
1.4.2 Xây dựng đường hồi quy...................................................................... 8
1.4.3 Các đại lượng thống kê liên quan ....................................................... 11
1.4.4 Ý nghĩa của hệ số hồi quy Logistic đơn biến ..................................... 13
1.5 HỒI QUY LOGISTIC ĐA BIẾN ............................................................. 13
1.5.1 Mô hình .............................................................................................. 13
1.5.2 Xây dựng đường hồi quy.................................................................... 14
1.5.3 Các đại lượng thống kê liên quan ....................................................... 15
1.5.4 Ý nghĩa của các hệ số hồi quy Logistic đa biến ................................. 16
CHƢƠNG 2: HỒI QUY LOGISTIC TRÊN PHẦN MỀM SPSS...................... 18
2.1 GIỚI THIỆU.............................................................................................. 18
2.2 MÔ HÌNH HỒI QUY LOGISTIC ĐƠN BIẾN ....................................... 18
2.2.1 Tiến hành phân tích ............................................................................ 18
2.2.2 Đọc kết quả phân tích ......................................................................... 21
2.3 MÔ HÌNH HỒI QUY LOGISTIC ĐA BIẾN .......................................... 24
2.3.1 Tiến hành phân tích ............................................................................ 24
2.3.2 Đọc kết quả phân tích ......................................................................... 28
CHƢƠNG 3: ỨNG DỤNG CỦA MÔ HÌNH HỒI QUY LOGISTIC ............... 31
3.1 GIỚI THIỆU .............................................................................................. 31
3.2 MỘT SỐ ỨNG DỤNG MÔ HÌNH HỒI QUY LOGISTIC .................... 31
3.2.1 Ứng dụng trong y học ........................................................................ 31
3.2.2 Ứng dụng trong xã hội ..................................................................... 366
3.2.3 Ứng dụng trong giáo dục.................................................................. 411
KẾT LUẬN .......................................................................................................... 48
TÀI LIỆU THAM KHẢO ................................................................................... 49
iii
PHỤ LỤC ............................................................................................................ 50
1.
2.
3.
4.
5.
PHỤ LỤC 1.................................................................................................. 50
PHỤ LỤC 2.................................................................................................. 50
PHỤ LỤC 3.................................................................................................. 51
PHỤ LỤC 4.................................................................................................. 51
PHỤ LỤC 5.................................................................................................. 56
iv
PHẦN MỞ ĐẦU
Trong xã hội ngày nay, thống kê ngày càng đóng vai trò quan trọng trong
trong nhiều lĩnh vực, giúp nghiên cứu các vấn đề kinh tế, xã hội và sinh học (y
tế, nông nghiệp, thủy sản…) thông qua việc thu thập, xử lý và phân tích dữ
liệu bằng các phần mềm thống kê. Hai vấn đề quan trọng của thống kê là: (1)
thống kê mô tả và (2) thống kê suy diễn (dự báo). Một trong những phương
pháp thống kê dự báo quan trọng đó là hồi quy, mô hình này thể hiện mối
quan hệ giữa biến phụ thuộc (Y) với một hay nhiều biến độc lập (Xi) có thể là
dữ liệu định lượng hoặc định tính. Khi biến phụ thuộc (Y) là biến định tính
dạng nhị phân thì ta sử dụng mô hình hồi quy Logistic. Mô hình này là dạng
mở rộng của mô hình hồi quy tuyến tính và được xếp vào dạng mô hình hồi
quy phi tuyến.
Luận văn này trình bày chi tiết cơ sở lý thuyết, các bước thực hành và ví
dụ minh họa trên phần mềm SPSS mô hình hồi quy Logistic đơn biến và đa
biến. Trong đó đề cập đến vấn đề mã hóa các biến định tính, kiểm định sự phù
hợp của mô hình, cách đọc kết quả và thiết lập mô hình Logistic.
Luận văn bao gồm phần mở đầu, phần nội dung, phần kết luận và phụ
lục. Phần nội dung được chia thành 3 chương:
Chƣơng 1 (Hồi quy Logistic): Giới thiệu chi tiết về cơ sở lý thuyết,
phương pháp xây dựng, ý nghĩa các hệ số hồi quy của mô hình hồi quy
Logistic đơn biến và đa biến.
Chƣơng 2 (Hồi quy Logistic trên phần mềm SPSS): Giới thiệu cách xây
dựng mô hình hồi quy Logistic trên phần mềm SPSS và cách đọc kết quả từ
phần mềm.
Chƣơng 3 (Ứng dụng của mô hình hồi quy Logistic): Trình bày một số
ứng dụng thực tế của mô hình hồi quy Logistic trong lĩnh vực y học, xã hội và
giáo dục.
1
CHƢƠNG 1
HỒI QUY LOGISTIC
1.1 GIỚI THIỆU
Mô hình hồi quy Logistic là một trong những mô hình hồi quy phi
tuyến đây là mô hình mở rộng của hồi quy tuyến tính và bản chất của nó đó
là ln-tuyến tính. Trong đó, biến phụ thuộc Y là biến định tính có hai biểu
hiện, ví dụ: có - không; thành công - thất bại, mắc bệnh - không mắc
bệnh,…và các biến độc lập là định lượng hoặc định tính. Khi đó chúng ta
không thể dùng mô hình hồi quy tuyến tính hoặc phi tuyến thông thường để
dự báo được và lúc này mô hình hồi quy Logistic thường được áp dụng. Mô
hình này được sử dụng phổ biến trong việc dự báo thuộc lĩnh vực y học, xã
hội, kinh tế, sinh học,…
1.2 PHƢƠNG PHÁP ƢỚC LƢỢNG HỢP LÍ CỰC ĐẠI
Định nghĩa 1:
Giả sử ( X1 , X 2 ,..., X n ) là biến ngẫu nhiên độc lập có cùng hàm mật
độ xác suất f ( X i , ) trong đó là tham số chưa biết. Lấy mẫu gồm n phần
tử X X1 , X 2 ,..., X n khi đó hàm mật độ xác suất đồng thời của n quan
sát là
L X | f
n
X 1 , X 2 ,..., X n | f X i | (1.1)
i 1
được gọi là hàm hợp lí của .
Định nghĩa 2:
Đại lượng ˆ X1 , X 2 ,..., X n được gọi là ước lượng hợp lí cực đại của
nếu L X | ˆ X L X | với mọi .
Hàm L X | có thể được chọn như là một tiêu chuẩn ước lượng tối
ưu của . Phương pháp ước lượng làm cực đại hàm hợp lí được gọi là
phương pháp ước lượng hợp lí cực đại của tham số. Trong phương pháp
này giá trị tối ưu ˆ của được chọn sao cho nó làm L X | đạt giá trị
lớn nhất.
2
Khi cực đại của một tổng thì đơn giản hơn cực đại của một tích. Vì
vậy thay cực đại của L X | thành ln L X | (nếu ˆ cực đại trong
ln L X | thì nó cũng cực đại trong L X | ).
1.2.1 Trƣờng hợp một tham số
Để tìm ước lượng hợp lí cực đại ˆ của hàm hợp lí L X | ta sử
dụng phương pháp tìm cực trị địa phương tại ˆ với điều kiện cần
L X |
0.
Ví dụ 1.1. Giả sử ( X1 , X 2 ,..., X n ) là mẫu ngẫu nhiên độc lập từ phân
phối Poisson với tham số 0 . Tìm ước lượng hợp lí cực đại của .
Giải
Ta có X ~ P nên hàm mật độ xác suất f X
X e
i
Xi !
i 1, n .
Áp dụng công thức (1.1) ta được hàm hợp lí là
n X i e
ln L X | ln
i 1 X i !
n X i e
ln
i 1 X i !
n
ln( ) n ln e
Xi
i 1
n
ln X i !
i 1
n
n
X i ln n ln X i !
i 1
i 1
ln L X |
Cho
ln L X |
Ta được
1
n
X
i 1
n
1 n
0 Xi n 0 Xi
i 1
n i 1
2 ln L X |
2
i
1
n
1
2
n
X
i 1
i
0 với mọi
1 n
ˆ
X i là cực đại của hàm ln L X |
n i 1
3
trong đó
1 n
Vậy ˆ X i là ước lượng hợp lí cực đại của tham số .
n i 1
1.2.2 Trƣờng hợp tham số vectơ 1 , 2 ,..., m
Đặt U
ln L X |
.
( U được gọi là hàm điểm)
Để tìm ước lượng hợp lí cực đại ˆ của hàm hợp lí L X | ta cho
U 0 , khi đó ta được hệ phương trình
n ln f xi |
0
i
1
1
n ln f x |
i 0
2
i 1
n ln f x |
i
0
m
i 1
(1.2)
Công thức (1.2) là hệ phương trình gồm m phương trình, m ẩn số i ,
i 1, n. Giải hệ phương trình (1.2) ta tìm được i .
Ví dụ 1.2. Giả sử ( X1 , X 2 ,..., X n ) là mẫu ngẫu nhiên từ phân phối
chuẩn N ( , 2 ). Tìm ước lượng hợp lí cực đại của ( , 2 ).
Giải
Ta có X ~ N ( , 2 ) nên hàm mật độ xác suất
X
1
f ( X , , 2 )
2
2
e
2
2
2
X
1
ln f X , , ln 2 ln 2 i 2
2
2
2
ln f X , , 2
Và
ln f X , , 2
X
i
2
Xi
2
2
4
4
2
1
2 2
2
Thay vào công thức (1.2) ta được hệ phương trình
n ln f
i 1
n ln f
i 1
X , , 0
n Xi
2 0
i 1
n
2
X i , , 2 0 X i 4 1 2 0
2
2
2
i 1
2
i
1 n
n
X i n 0
n X i
i 1
i 1
n
n
X n 2 0
2 1 X
i
i
n i 1
i 1
Vậy
+ Ước lượng hợp lí cực đại của là: ˆ
1 n
Xi.
n i 1
1 n
+ Ước lượng hợp lí cực đại của là: ˆ X i ˆ .
n i 1
2
2
Trong đó ̂ là ước lượng không chệch của và ˆ 2 là ước lượng
chệch của 2 .
1.3 SỐ CHÊNH (ODDS) VÀ TỶ SỐ ODDS
1.3.1 Định nghĩa
a) Số chênh
Số chênh (odds) của biến cố A được định nghĩa là tỷ số giữa xác suất
để biến cố A xảy ra và xác suất để biến cố A không xảy ra.
Kí hiệu là: odds A
Ta có: odds A
p A
1 p A
(1.3)
b) Tỷ số odds
Tỷ số odds của hai biến cố A và B xảy ra là tỷ số của odds A và
odds B .
Kí hiệu là: OR A, B
Ta có: OR A, B
odds A
p A
1 p B
odds B 1 p A
p B
5
(1.4)
Nhận xét: odds của một biến cố đã xảy ra là con số so sánh số lần xác
suất xảy ra và không xảy ra của một biến cố. Trong khi OR A, B là
con số so sánh số lần của odds A và odds B .
1.3.2 Ví dụ minh họa
Ví dụ 1.3. Có một nghiên cứu được làm thí nghiệm trên não của mèo.
Nhiều người yêu thích loài mèo phản đối việc nghiên cứu này, yêu cầu thí
nghiệm phải được dừng lại. Một trường đại học khảo sát 315 sinh viên được
số liệu như sau:
Giới tính
Nam
Nữ
Ngừng nghiên cứu
140
47
Tiếp tục nghiên cứu
60
68
Quyết định
Tìm odds của biến cố tiếp tục nghiên cứu của nam, nữ và tỷ số odds
của hai biến cố này.
Giải
Mã hóa biến giới tính như sau:
+ x = 1: nếu giới tính là nam
+ x = 0: nếu giới tính là nữ
Gọi A, B lần lượt là biến cố tiếp tục nghiên cứu của nam và nữ.
Xác suất để nam và nữ đồng ý tiếp tục nghiên cứu lần lượt là
p A
60
0.3
200
p B
68
0.5913
115
Ta có
odds A
p A
0.3
0.3
0.4286
1 p A 1 0.3 0.7
odds B
p B
0.5913
0.5913
1.4468
1 p B 1 0.5913 0.4087
6
Tỷ số odds của hai biến cố A và B là
OR A, B
odds A 0.4286
0.2962
odds B 1.4468
1.4 HỒI QUY LOGISTIC ĐƠN BIẾN
1.4.1 Mô hình
Mô hình này nghiên cứu mối quan hệ giữa biến phụ thuộc (Y) với một
biến độc lập (X). Trong đó, Y là biến nhị phân nhận giá trị 0 hoặc 1, X là
biến định lượng hoặc định tính. Ở đây ta sẽ không phân tích mối quan hệ
giữa giá trị của biến Y với X mà chúng ta quan tâm đến việc phân tích mối
quan hệ giữa xác suất kết quả thành công (Y = 1) với biến X ảnh hưởng đến
kết quả này.
Hàm Logistic sẽ tìm mối quan hệ giữa odds của sự thành công (Y = 1)
với các giá trị của biến độc lập. Mối quan hệ này thông thường là quan hệ
tuyến tính.
Gọi p X p Y 1| X là xác suất có điều kiện Y = 1 khi X xảy ra.
Giả sử p X có mối quan hệ với biến X, nhưng ta không thể tìm trực
tiếp mối quan hệ này vì p X chỉ nhận giá trị thuộc [0; 1] trong khi X nhận
p X
giá trị bất kì. Ta thấy ln odds p X ln
có mối quan hệ với
1 p X
p X và có giá trị bất kì, vì thế ta có thể thay mối quan hệ giữa p X và X
p X
bằng mối quan hệ giữa ln
và X. Giả sử mối quan hệ này như
1
p
X
sau:
p X
ln
0 1 X
1
p
X
(1.5)
p X
e 0 1 X
1 p X
(1.6)
Hay
Công thức (1.5) và (1.6) cho ta hai hình thức của mô hình hồi quy
Logistic đơn biến.
Trong đó
7
p X
ln odds p X hay ln
được gọi là logit p X .
1
p
X
0 và 1 là hai hệ số hồi quy, với 0 là điểm chắn và 1 là độ dốc.
*Chú ý
i) Ta có
logit p X 1 logit p X 0 1 X 1 0 1 X 1
Vậy khi X tăng lên 1 đơn vị thì logit p X sẽ tăng lên 1 % .
ii) Khi X X 0 thì giá trị odds là: odds p X | X X 0 e
Khi X X 0 1thì giá trị odds là
odds p X | X X 0 1 e
0 1 X 0
.
0 1 X 0 1
Khi đó tỷ số odds là
OR
odds p X | X X 0 1
odds p X | X X 0
e
0 1 X 0 1
e
0 1 X 0
e 1
1.4.2 Xây dựng đƣờng hồi quy
Thông thường để ước lượng các hệ số trong các đường hồi quy ta
dùng phương pháp bình phương bé nhất. Tuy nhiên trong mô hình hồi quy
Logistic nó rất phức tạp, vì thế ta sử dụng phương pháp ước lượng hợp lí
cực đại.
Giả sử ta có n mẫu quan sát độc lập
xi , pi ,
i 1, n , trong đó
pi x pi .
Giả sử phân phối có điều kiện cho yi khi x i xảy ra là phân phối Nhị
p
thức B 1; pi với ln i
1 pi
0 1 x .
Gọi ˆ0 , ˆ1 lần lượt là các ước lượng của 0 và 1 . Xây dựng đường
hồi quy như sau:
p x ˆ
ln
0 ˆ1 x
1 p x
(1.7)
Từ công thức (1.7) ta có xác suất của sự thành công và thất bại được
xác định như sau:
8
ˆ
ˆ
e 0 1x
p
ˆ
ˆ
1 e 0 1x
và 1 p
1
ˆ
(1.8)
ˆ
1 e 0 1x
Thực hiện n lần quan sát ta có hàm hợp lí
n
L 0 , 1 piyi 1 pi
1 yi
i 1
e ˆ0 ˆ1xi
ˆ0 ˆ1 xi
i 1 1 e
n
1 yi
1
ˆ0 ˆ1 xi
1 e
yi
n
e
ˆ0 ˆ1xi yi
i 1
ˆ
ˆ0
ˆ
1 e 0 1xi
e
n
n
i 1
i 1
n
yi ˆ1xi yi
1 e ˆ0 ˆ1xi
n
Trong đó yi bằng 1 nếu kết quả thành công và bằng 0 nếu kết quả thất
bại.
Ta có hàm điểm U ˆ0 , ˆ1 là
L
U ˆ0 , ˆ1
L
ˆ , ˆ
0
1
n
yi pi
i 1
n
xi yi pi
i 1
exp ˆ0 ˆ1 xi
n 1
y
i
1 exp ˆ0 ˆ1 xi
ˆ0 , ˆ1 i 1 xi
ˆ1
ˆ0
Cho U ˆ0 , ˆ1 0 ta được hệ phương trình sau:
9
n
n exp ˆ ˆ x
0
1 i
y
i
ˆ
ˆ
i 1
i 1 1 exp 0 1 xi
exp ˆ0 ˆ1 xi
n
n
xi yi xi
1 exp ˆ0 ˆ1 xi
i 1
i 1
(1.9)
Giải hệ phương trình (1.9) để tìm một biểu thức giải tích cụ thể rất
phức tạp trong trường hợp tổng quát nên thường chỉ giải trong trường hợp
cụ thể. Tuy nhiên việc tính toán cũng không đơn giản, vì thế trong thực tế
người ta thường sử dụng đến sự hỗ trợ của các phần mềm thống kê như
SPSS, R,…
*Chú ý
Trong trường hợp nếu biến độc lập là biến nhị phân thì việc tìm các hệ
số hồi quy của mô hình rất đơn giản.
Gọi A là biến cố cần quan tâm. Chúng ta mã hoá biến độc lập theo hai
trường hợp: x 0 và x 1 . Khi đó ta có hệ phương trình
ln odds A | x 0 ˆ0
(1.10)
ˆ
ln odds A | x 1 0 1
Giải hệ phương trình (1.10) chúng ta sẽ dễ dàng tìm được ˆ0 và ˆ1 .
Ví dụ 1.4: Phân tích ví dụ 1.3. Tìm mô hình hồi quy thể hiện sự quyết
định tiếp tục làm nghiên cứu trên não mèo theo giới tính.
Giải:
Chúng ta lập mô hình hồi quy Logistic để phân tích dữ liệu này.
Gọi biến y (tiếp tục nghiên cứu) là biến phụ thuộc và biến x (giới tính)
là biến độc lập. Chúng ta mã hoá các biến như sau:
Biến tiếp tục: y 1 nếu quyết định tiếp tục nghiên cứu, y 0 nếu
quyết định ngừng nghiên cứu.
Biến giới tính: x 1 nếu là sinh viên nam, x 0 nếu là sinh viên nữ.
Dạng tổng quát của mô hình hồi quy Logistic đơn biến là
p
y ln odds y ln
0 1 x
1 p
Ta tính odds cho giới tính nam và nữ.
10
odds x 1
0.3
0.3
0.4286
1 0.3 0.7
odds x 0
0.5913
0.5913
1.4468
1 0.5913 0.4087
Ta có biến độc lập là biến nhị phân nên ta áp dụng hệ phương trình
(1.10). Khi đó
ln odds y | x 0 ln odds x 0 ˆ0
ln odds y | x 1 ln odds x 1 ˆ0 ˆ1
ˆ
ln 0.4286 0.8472 0
ˆ
ˆ
ln 1.4468 0.3694 0 1
Gọi ˆ0 , ˆ1 lần lượt là ước lượng hợp lí cực đại của 0 và 1 .
Để tìm các ước lượng ˆ0 , ˆ1 ta giải hệ phương trình trên. Từ đó suy
ra các hệ số của mô hình.
Giải hệ phương trình ta được
ˆ0 0.8472
ˆ
1 1.2166
Vậy mô hình hồi quy Logistic là: y 0.8472 1.2166 x
1.4.3 Các đại lƣợng thống kê liên quan
Cho một mẫu gồm n đôi x1 , y1 , x2 , y2 ,..., xn , yn
Gọi ˆ0 , ˆ1 lần lượt là ước lượng hợp lí cực đại của 0 và 1
p̂ x là xác suất ước lượng của mô hình cho giá trị x, ta có
pˆ x
exp ˆ0 ˆ1 x
1 exp ˆ0 ˆ1 x
w i pˆ i 1 pˆ i , trong đó: pˆ i pˆ xi , i 1, n
Và
11
n
w x
xw
i 1
n
i i
w
i 1
n
, SSw w i xi xi
2
i 1
i
Một số đại lượng thống kê liên quan
Sai số chuẩn của ˆ0 , ˆ1 lần lượt là
xw2
SS w
1
seˆ ˆ0
n
w
i 1
seˆ ˆ1
i
1
SS w
Khi x x0 thì: logit pˆ x0 ˆ0 ˆ1 x0
Và pˆ x0
exp ˆ0 ˆ1 x0
1 exp ˆ0 ˆ1 x0
(1.11)
Sai số chuẩn của logit pˆ x0 là
2
se logit pˆ x0 se ˆ0 2 x0Cov ˆ0 , ˆ1 x02 se ˆ1
2
Sai số chuẩn của p̂ x0 là
se pˆ x0 pˆ x0 1 pˆ x0 se logit pˆ x0
Khoảng ước lượng cho ˆ0 và ˆ1 với độ tin cậy 1 là
ˆ
0 u1 se ˆ0 ; ˆ0 u1 se ˆ0
2
2
(1.12)
ˆ
1 u1 se ˆ1 ; ˆ1 u1 se ˆ1
2
2
(1.13)
Trong đó u
1
2
là phân vị chuẩn xác suất 1
.
2
Khoảng ước lượng cho p̂ x0 với độ tin cậy 1 là
pˆ x0 u 1 se p x0 ; pˆ x0 u 1 se p x0
2
2
12
Khoảng ước lượng cho logit pˆ x0 với độ tin cậy 1 là
logit pˆ x0 u1 se logit pˆ x0 ; logit pˆ x0 u1 se logit pˆ x0
2
2
1.4.4 Ý nghĩa của hệ số hồi quy Logistic đơn biến
Đặt Y
p X
.
1 p X
Theo công thức (1.5) ta được mô hình hồi quy Logistic đơn biến
lnY 0 1 X
(1.14)
Đạo hàm riêng theo biến X mô hình (1.14) ta được
1
lnY
X
Chúng ta có thể xấp xỉ như sau
Y Y
1 Y Y
X X
Với X thể hiện tốc độ tăng của X và
Khi X 1 thì 1
Y
Y
Y
là tốc độ tăng của Y
Y
(1.15)
Với biểu thức (1.15) chúng ta có thể giải thích ý nghĩa của 1 như
sau: khi X tăng lên 1 đơn vị (theo đơn vị tính của X) thì Y sẽ tăng lên (giảm
xuống) 1 đơn vị.
1.5 HỒI QUY LOGISTIC ĐA BIẾN
1.5.1 Mô hình
Xét biến phụ thuộc nhị phân Y và k biến độc lập X1 , X 2 ,..., X k , trong
đó Y chỉ nhận giá trị 0 và 1, còn X j
j 1, k ảnh hưởng đến giá trị của Y.
Gọi X ( X1 , X 2 ,..., X k ) , j 1, k
Gọi p X p Y 1| X là xác suất có điều kiện của Y 1 khi X xảy
ra
13
Giả sử p X và X có mối liên hệ tuyến tính với nhau. Ta có mô hình
hồi quy Logistic đa biến sau:
k
p X
ln
jX j
0
1
p
X
j 1
(1.16)
Hay
k
0 j X j
p X
e j 1
1 p X
(1.17)
1.5.2 Xây dựng đƣờng hồi quy
Quan sát n mẫu độc lập.
Gọi yi là giá trị của biến phụ thuộc Y, x1i , x2i ,..., xki , i 1, n là giá trị
của các biến độc lập X1 , X 2 ,..., X k .
Giả sử y1 , y2 ,..., yn là những biến phụ thuộc và pi p y 1 .
Gọi ˆ j , j 1, k là những ước lượng của j .
k
p 0 j xij
Ta có: ln i e j 1
1 pi
ˆ
ˆ
Ta được
ˆ0
e
pi
1 e
k
ˆ j x j
j 1
ˆ0
(1.18)
k
ˆ j x j
j 1
1
1 pi
1 e
ˆ0
(1.19)
k
ˆ j x j
j 1
Hàm hợp lí cho n quan sát độc lập trên là
ˆ k ˆ x
0 j ij
n
j 1
e
L ˆ0 , ˆ j
k
ˆ0 ˆ j xij
i 1
1 e j 1
yi
1
k
ˆ0 ˆ j xij
1 e j 1
Trong đó, yi {0;1} là kết quả thất bại và thành công.
14
1 yi
(1.20)
Cực đại hoá hàm hợp lí L ˆo , ˆ j ta có hệ phương trình
L
L
L
ˆ , ˆ 0
o
j
ˆ0
ˆ , ˆ 0
o
j
ˆ1
(1.21)
ˆ , ˆ 0
o
j
ˆ j
Công thức (1.21) được chứng minh thành
n
1
n
y
i
k
i 1
i 1
1 exp ˆ0 ˆ j xij
j 1
k
ˆ
ˆ x
1
exp
0
j ij
n
n
j 1
xi yi xi
k
i 1
i 1
exp ˆ0 ˆ j xij
j 1
(1.22)
Trong đó ˆ0 và ˆ j với j 1, k lần lượt là ước lượng của 0 và j .
Hệ phương trình (1.22) được giải vô cùng phức tạp. Nhiều tài liệu đã
khẳng định không tìm được biểu thức cụ thể các hệ số của mô hình hồi quy
trong trường hợp này. Trong thực tế chúng ta tìm các hệ số này bằng các
phần mềm như SPSS, R,…
1.5.3 Các đại lƣợng thống kê liên quan
Quan sát n mẫu độc lập x1 j , x2 j ,..., xnj , j 1.k
Gọi ˆ0 , ˆ j lần lượt là ước lượng hợp lí cực đại của 0 và j , j 1, k
Gọi p̂ x là xác suất ước lượng của mô hình cho các giá trị x, ta có
k
ˆ
exp 0 ˆ j xij
j 1
pˆ xi
k
1 exp ˆ0 ˆ j xij
j 1
15
- Xem thêm -