Hồi quy logistic và ứng dụng

  • Số trang: 68 |
  • Loại file: PDF |
  • Lượt xem: 32 |
  • Lượt tải: 0
minhtuan

Đã đăng 15929 tài liệu

Mô tả:

TRƢỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BỘ MÔN TOÁN --------- LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC HỒI QUY LOGISTIC VÀ ỨNG DỤNG GIÁO VIÊN HƢỚNG DẪN Ths Trần Phƣớc Lộc Bộ môn Toán – khoa KHTN SINH VIÊN THỰC HIỆN Trần Thị Kim Ngân Ngành Toán ứng dụng K36 CẦN THƠ, 11/2013 LỜI CÁM ƠN --------Luận văn tốt nghiệp là thành quả sự nổ lực của bản thân trong suốt quá trình ở giảng đường đại học; sự dìu dắt, dạy dỗ, hướng dẫn tận tình của các Thầy, Cô trong khoa Khoa học tự nhiên trường Đại học Cần Thơ và sự ủng hộ, động viên của gia đình và bạn bè. Trước tiên, tôi xin chân thành cám ơn các Thầy, Cô trong bộ môn Toán khoa Khoa học tự nhiên đã nhiệt tình truyền dạy những kiến thức quý báu cho tôi. Tôi xin gửi lời cám ơn sâu sắc đến Ths Trần Phước Lộc – là giáo viên hướng dẫn trực tiếp cho tôi trong suốt quá trình thực hiện luận văn và đồng thời là cố vấn học tập dìu dắt và hướng dẫn phương pháp học tập cho tôi trong thời gian qua. Xin cám ơn tập thể lớp Toán ứng dụng K36 đã đồng hành, chia sẻ và vượt qua khó khăn cùng tôi trong những năm qua. Mặc dù tôi đã cố gắng và nổ lực hết khả năng để hoàn thành luận văn nhưng không thể tránh khỏi những thiếu sót, tôi mong được sự cảm thông và đóng góp ý kiến quý báu của quý Thầy, Cô và các bạn. Cần Thơ, ngày 17 tháng 11 năm 2013 Sinh viên thực hiện Trần Thị Kim Ngân i DANH MỤC CÁC BẢNG Bảng 2.1: Omnibus Tests of Model Coefficients ........................................ 21 Bảng 2.2: Model Summary .......................................................................... 21 Bảng 2.3: Contengency Table for Hosmer and Lemeshow ......................... 22 Bảng 2.4: Classification Table ..................................................................... 22 Bảng 2.5: Variables in the Equation ............................................................ 22 Bảng 2.6: Omnibus Tests of Model Coefficients ........................................ 27 Bảng 2.7: Model Summary .......................................................................... 28 Bảng 2.8: Contengency Table for Hosmer and Lemeshow ......................... 28 Bảng 2.9: Classification Table ..................................................................... 28 Bảng 2.10: Variables in the Equation .......................................................... 29 Bảng 3.1: Case Processing Summary .......................................................... 33 Bảng 3.2: Omnibus Tests of Model Coefficients ........................................ 33 Bảng 3.3: Model Summary .......................................................................... 34 Bảng 3.4: Contengency Table for Hosmer and Lemeshow ......................... 34 Bảng 3.5: Classification Table ..................................................................... 34 Bảng 3.6: Variables in the Equation ............................................................ 35 Bảng 3.7: Tóm tắt ý nghĩa của hệ số hồi quy .............................................. 36 Bảng 3.8: Case Processing Summary .......................................................... 38 Bảng 3.9: Omnibus Tests of Model Coefficients ........................................ 38 Bảng 3.10: Model Summary ........................................................................ 39 Bảng 3.11: Contengency Table for Hosmer and Lemeshow ....................... 39 Bảng 3.12: Classification Table ................................................................... 39 Bảng 3.13: Variables in the Equation .......................................................... 40 Bảng 3.14: Tóm tắt ý nghĩa của hệ số hồi quy ............................................ 41 Bảng 3.15: Case Processing Summary ........................................................ 43 Bảng 3.16: Omnibus Tests of Model Coefficients ...................................... 43 Bảng 3.17: Model Summary ........................................................................ 44 Bảng 3.18: Contengency Table for Hosmer and Lemeshow ....................... 44 Bảng 3.19: Classification Table ................................................................... 44 Bảng 3.20: Variables in the Equation .......................................................... 45 Bảng 3.21: Tóm tắt ý nghĩa của hệ số hồi quy ............................................ 47 ii MỤC LỤC PHẦN MỞ ĐẦU .................................................................................................... 1 CHƢƠNG 1: HỒI QUY LOGISTIC .................................................................... 2 1.1 GIỚI THIỆU................................................................................................ 2 1.2 PHƢƠNG PHÁP ƢỚC LƢỢNG HỢP LÍ CỰC ĐẠI ............................... 2 1.2.1 Trường hợp một tham số  .................................................................. 3 1.2.2 Trường hợp tham số vectơ   1 , 2 ,..., m  ................................... 4 1.3 SỐ CHÊNH (ODDS) VÀ TỶ SỐ ODDS .................................................... 5 1.3.1 Định nghĩa ............................................................................................ 5 1.3.2 Ví dụ minh họa ..................................................................................... 6 1.4 HỒI QUY LOGISTIC ĐƠN BIẾN ............................................................ 7 1.4.1 Mô hình ................................................................................................ 7 1.4.2 Xây dựng đường hồi quy...................................................................... 8 1.4.3 Các đại lượng thống kê liên quan ....................................................... 11 1.4.4 Ý nghĩa của hệ số hồi quy Logistic đơn biến ..................................... 13 1.5 HỒI QUY LOGISTIC ĐA BIẾN ............................................................. 13 1.5.1 Mô hình .............................................................................................. 13 1.5.2 Xây dựng đường hồi quy.................................................................... 14 1.5.3 Các đại lượng thống kê liên quan ....................................................... 15 1.5.4 Ý nghĩa của các hệ số hồi quy Logistic đa biến ................................. 16 CHƢƠNG 2: HỒI QUY LOGISTIC TRÊN PHẦN MỀM SPSS...................... 18 2.1 GIỚI THIỆU.............................................................................................. 18 2.2 MÔ HÌNH HỒI QUY LOGISTIC ĐƠN BIẾN ....................................... 18 2.2.1 Tiến hành phân tích ............................................................................ 18 2.2.2 Đọc kết quả phân tích ......................................................................... 21 2.3 MÔ HÌNH HỒI QUY LOGISTIC ĐA BIẾN .......................................... 24 2.3.1 Tiến hành phân tích ............................................................................ 24 2.3.2 Đọc kết quả phân tích ......................................................................... 28 CHƢƠNG 3: ỨNG DỤNG CỦA MÔ HÌNH HỒI QUY LOGISTIC ............... 31 3.1 GIỚI THIỆU .............................................................................................. 31 3.2 MỘT SỐ ỨNG DỤNG MÔ HÌNH HỒI QUY LOGISTIC .................... 31 3.2.1 Ứng dụng trong y học ........................................................................ 31 3.2.2 Ứng dụng trong xã hội ..................................................................... 366 3.2.3 Ứng dụng trong giáo dục.................................................................. 411 KẾT LUẬN .......................................................................................................... 48 TÀI LIỆU THAM KHẢO ................................................................................... 49 iii PHỤ LỤC ............................................................................................................ 50 1. 2. 3. 4. 5. PHỤ LỤC 1.................................................................................................. 50 PHỤ LỤC 2.................................................................................................. 50 PHỤ LỤC 3.................................................................................................. 51 PHỤ LỤC 4.................................................................................................. 51 PHỤ LỤC 5.................................................................................................. 56 iv PHẦN MỞ ĐẦU Trong xã hội ngày nay, thống kê ngày càng đóng vai trò quan trọng trong trong nhiều lĩnh vực, giúp nghiên cứu các vấn đề kinh tế, xã hội và sinh học (y tế, nông nghiệp, thủy sản…) thông qua việc thu thập, xử lý và phân tích dữ liệu bằng các phần mềm thống kê. Hai vấn đề quan trọng của thống kê là: (1) thống kê mô tả và (2) thống kê suy diễn (dự báo). Một trong những phương pháp thống kê dự báo quan trọng đó là hồi quy, mô hình này thể hiện mối quan hệ giữa biến phụ thuộc (Y) với một hay nhiều biến độc lập (Xi) có thể là dữ liệu định lượng hoặc định tính. Khi biến phụ thuộc (Y) là biến định tính dạng nhị phân thì ta sử dụng mô hình hồi quy Logistic. Mô hình này là dạng mở rộng của mô hình hồi quy tuyến tính và được xếp vào dạng mô hình hồi quy phi tuyến. Luận văn này trình bày chi tiết cơ sở lý thuyết, các bước thực hành và ví dụ minh họa trên phần mềm SPSS mô hình hồi quy Logistic đơn biến và đa biến. Trong đó đề cập đến vấn đề mã hóa các biến định tính, kiểm định sự phù hợp của mô hình, cách đọc kết quả và thiết lập mô hình Logistic. Luận văn bao gồm phần mở đầu, phần nội dung, phần kết luận và phụ lục. Phần nội dung được chia thành 3 chương: Chƣơng 1 (Hồi quy Logistic): Giới thiệu chi tiết về cơ sở lý thuyết, phương pháp xây dựng, ý nghĩa các hệ số hồi quy của mô hình hồi quy Logistic đơn biến và đa biến. Chƣơng 2 (Hồi quy Logistic trên phần mềm SPSS): Giới thiệu cách xây dựng mô hình hồi quy Logistic trên phần mềm SPSS và cách đọc kết quả từ phần mềm. Chƣơng 3 (Ứng dụng của mô hình hồi quy Logistic): Trình bày một số ứng dụng thực tế của mô hình hồi quy Logistic trong lĩnh vực y học, xã hội và giáo dục. 1 CHƢƠNG 1 HỒI QUY LOGISTIC 1.1 GIỚI THIỆU Mô hình hồi quy Logistic là một trong những mô hình hồi quy phi tuyến đây là mô hình mở rộng của hồi quy tuyến tính và bản chất của nó đó là ln-tuyến tính. Trong đó, biến phụ thuộc Y là biến định tính có hai biểu hiện, ví dụ: có - không; thành công - thất bại, mắc bệnh - không mắc bệnh,…và các biến độc lập là định lượng hoặc định tính. Khi đó chúng ta không thể dùng mô hình hồi quy tuyến tính hoặc phi tuyến thông thường để dự báo được và lúc này mô hình hồi quy Logistic thường được áp dụng. Mô hình này được sử dụng phổ biến trong việc dự báo thuộc lĩnh vực y học, xã hội, kinh tế, sinh học,… 1.2 PHƢƠNG PHÁP ƢỚC LƢỢNG HỢP LÍ CỰC ĐẠI  Định nghĩa 1: Giả sử ( X1 , X 2 ,..., X n ) là biến ngẫu nhiên độc lập có cùng hàm mật độ xác suất f ( X i , ) trong đó  là tham số chưa biết. Lấy mẫu gồm n phần tử X   X1 , X 2 ,..., X n  khi đó hàm mật độ xác suất đồng thời của n quan sát là L X |   f n  X 1 , X 2 ,..., X n |     f  X i |   (1.1) i 1 được gọi là hàm hợp lí của  .  Định nghĩa 2: Đại lượng ˆ  X1 , X 2 ,..., X n  được gọi là ước lượng hợp lí cực đại của    nếu L X | ˆ  X   L  X |   với mọi  . Hàm L  X |   có thể được chọn như là một tiêu chuẩn ước lượng tối ưu của  . Phương pháp ước lượng làm cực đại hàm hợp lí được gọi là phương pháp ước lượng hợp lí cực đại của tham số. Trong phương pháp này giá trị tối ưu ˆ của  được chọn sao cho nó làm L  X |   đạt giá trị lớn nhất. 2 Khi cực đại của một tổng thì đơn giản hơn cực đại của một tích. Vì vậy thay cực đại của L  X |   thành ln  L  X |   (nếu ˆ cực đại trong ln  L  X |   thì nó cũng cực đại trong L  X |   ). 1.2.1 Trƣờng hợp một tham số  Để tìm ước lượng hợp lí cực đại ˆ của hàm hợp lí L  X |   ta sử dụng phương pháp tìm cực trị địa phương tại   ˆ với điều kiện cần L  X |    0.  Ví dụ 1.1. Giả sử ( X1 , X 2 ,..., X n ) là mẫu ngẫu nhiên độc lập từ phân phối Poisson với tham số   0 . Tìm ước lượng hợp lí cực đại của  . Giải Ta có X ~ P    nên hàm mật độ xác suất f  X    X e  i Xi ! i  1, n . Áp dụng công thức (1.1) ta được hàm hợp lí là  n  X i e  ln  L  X |    ln    i 1 X i !  n   X i e      ln    i 1  X i !  n   ln( )  n ln e Xi  i 1 n   ln  X i ! i 1  n   n     X i  ln   n  ln   X i !  i 1   i 1    ln  L  X |    Cho    ln  L  X |    Ta được  1  n X i 1 n 1 n  0   Xi  n  0     Xi  i 1 n i 1  2 ln  L  X |     2 i 1  n 1 2 n X i 1 i  0 với mọi  1 n ˆ     X i là cực đại của hàm ln  L  X |   n i 1 3 trong đó 1 n Vậy ˆ   X i là ước lượng hợp lí cực đại của tham số  . n i 1 1.2.2 Trƣờng hợp tham số vectơ   1 , 2 ,..., m  Đặt U     ln  L  X |     . ( U   được gọi là hàm điểm) Để tìm ước lượng hợp lí cực đại ˆ của hàm hợp lí L  X |   ta cho U    0 , khi đó ta được hệ phương trình  n  ln  f  xi |    0    i  1  1  n  ln  f x |     i   0    2  i 1    n  ln  f  x |    i   0   m  i 1 (1.2) Công thức (1.2) là hệ phương trình gồm m phương trình, m ẩn số  i , i  1, n. Giải hệ phương trình (1.2) ta tìm được  i . Ví dụ 1.2. Giả sử ( X1 , X 2 ,..., X n ) là mẫu ngẫu nhiên từ phân phối chuẩn N ( , 2 ). Tìm ước lượng hợp lí cực đại của (  , 2 ). Giải Ta có X ~ N ( , 2 ) nên hàm mật độ xác suất  X    1 f ( X ,  , 2 )  2 2 e 2 2 2 X   1  ln  f  X ,  ,     ln 2  ln  2  i 2 2 2 2   ln  f  X ,  , 2    Và  ln  f  X ,  , 2   X    i   2 Xi   2 2 4 4 2  1 2 2 2 Thay vào công thức (1.2) ta được hệ phương trình  n  ln  f    i 1   n  ln  f   i 1  X ,  ,   0  n Xi     2  0   i 1  n 2  X i ,  , 2   0    X i  4   1 2   0  2 2   2  i 1  2 i 1 n  n    X i  n  0   n  X i  i 1  i 1  n  n   X     n 2  0  2  1  X     i i   n i 1 i 1 Vậy + Ước lượng hợp lí cực đại của  là: ˆ  1 n  Xi. n i 1 1 n + Ước lượng hợp lí cực đại của  là: ˆ    X i  ˆ . n i 1 2 2 Trong đó ̂ là ước lượng không chệch của  và ˆ 2 là ước lượng chệch của  2 . 1.3 SỐ CHÊNH (ODDS) VÀ TỶ SỐ ODDS 1.3.1 Định nghĩa a) Số chênh Số chênh (odds) của biến cố A được định nghĩa là tỷ số giữa xác suất để biến cố A xảy ra và xác suất để biến cố A không xảy ra. Kí hiệu là: odds  A Ta có: odds  A  p  A 1  p  A (1.3) b) Tỷ số odds Tỷ số odds của hai biến cố A và B xảy ra là tỷ số của odds  A và odds  B  . Kí hiệu là: OR  A, B  Ta có: OR  A, B   odds  A p  A 1 p  B   odds  B  1  p  A p  B 5 (1.4)  Nhận xét: odds của một biến cố đã xảy ra là con số so sánh số lần xác suất xảy ra và không xảy ra của một biến cố. Trong khi OR  A, B  là con số so sánh số lần của odds  A và odds  B  . 1.3.2 Ví dụ minh họa Ví dụ 1.3. Có một nghiên cứu được làm thí nghiệm trên não của mèo. Nhiều người yêu thích loài mèo phản đối việc nghiên cứu này, yêu cầu thí nghiệm phải được dừng lại. Một trường đại học khảo sát 315 sinh viên được số liệu như sau: Giới tính Nam Nữ Ngừng nghiên cứu 140 47 Tiếp tục nghiên cứu 60 68 Quyết định Tìm odds của biến cố tiếp tục nghiên cứu của nam, nữ và tỷ số odds của hai biến cố này. Giải Mã hóa biến giới tính như sau: + x = 1: nếu giới tính là nam + x = 0: nếu giới tính là nữ Gọi A, B lần lượt là biến cố tiếp tục nghiên cứu của nam và nữ. Xác suất để nam và nữ đồng ý tiếp tục nghiên cứu lần lượt là  p  A  60  0.3 200  p  B  68  0.5913 115 Ta có  odds  A  p  A 0.3 0.3    0.4286 1  p  A 1  0.3 0.7  odds  B   p  B 0.5913 0.5913    1.4468 1  p  B  1  0.5913 0.4087 6 Tỷ số odds của hai biến cố A và B là OR  A, B   odds  A 0.4286   0.2962 odds  B  1.4468 1.4 HỒI QUY LOGISTIC ĐƠN BIẾN 1.4.1 Mô hình Mô hình này nghiên cứu mối quan hệ giữa biến phụ thuộc (Y) với một biến độc lập (X). Trong đó, Y là biến nhị phân nhận giá trị 0 hoặc 1, X là biến định lượng hoặc định tính. Ở đây ta sẽ không phân tích mối quan hệ giữa giá trị của biến Y với X mà chúng ta quan tâm đến việc phân tích mối quan hệ giữa xác suất kết quả thành công (Y = 1) với biến X ảnh hưởng đến kết quả này. Hàm Logistic sẽ tìm mối quan hệ giữa odds của sự thành công (Y = 1) với các giá trị của biến độc lập. Mối quan hệ này thông thường là quan hệ tuyến tính. Gọi p  X   p Y  1| X  là xác suất có điều kiện Y = 1 khi X xảy ra. Giả sử p  X  có mối quan hệ với biến X, nhưng ta không thể tìm trực tiếp mối quan hệ này vì p  X  chỉ nhận giá trị thuộc [0; 1] trong khi X nhận  p X   giá trị bất kì. Ta thấy ln odds  p  X     ln   có mối quan hệ với 1  p  X   p  X  và có giá trị bất kì, vì thế ta có thể thay mối quan hệ giữa p  X  và X  p X   bằng mối quan hệ giữa ln   và X. Giả sử mối quan hệ này như 1  p X     sau:  p X   ln     0  1 X 1  p X     (1.5) p X   e 0  1 X 1 p  X  (1.6) Hay Công thức (1.5) và (1.6) cho ta hai hình thức của mô hình hồi quy Logistic đơn biến. Trong đó 7  p X   ln odds  p  X   hay ln   được gọi là logit  p  X  . 1  p X      0 và 1 là hai hệ số hồi quy, với  0 là điểm chắn và 1 là độ dốc. *Chú ý i) Ta có logit  p  X  1  logit  p  X    0  1  X  1   0  1 X   1 Vậy khi X tăng lên 1 đơn vị thì logit  p  X  sẽ tăng lên 1 % . ii) Khi X  X 0 thì giá trị odds là: odds  p  X | X  X 0   e Khi X  X 0  1thì giá trị odds là odds  p  X | X  X 0  1  e 0  1 X 0 . 0  1  X 0 1 Khi đó tỷ số odds là OR  odds  p  X | X  X 0  1  odds  p  X | X  X 0    e 0  1  X 0 1 e 0  1 X 0  e 1 1.4.2 Xây dựng đƣờng hồi quy Thông thường để ước lượng các hệ số trong các đường hồi quy ta dùng phương pháp bình phương bé nhất. Tuy nhiên trong mô hình hồi quy Logistic nó rất phức tạp, vì thế ta sử dụng phương pháp ước lượng hợp lí cực đại. Giả sử ta có n mẫu quan sát độc lập  xi , pi  , i  1, n , trong đó pi  x   pi . Giả sử phân phối có điều kiện cho yi khi x i xảy ra là phân phối Nhị  p thức B 1; pi  với ln  i  1  pi     0  1 x .  Gọi ˆ0 , ˆ1 lần lượt là các ước lượng của  0 và 1 . Xây dựng đường hồi quy như sau:  p  x  ˆ ln     0  ˆ1 x 1  p  x   (1.7) Từ công thức (1.7) ta có xác suất của sự thành công và thất bại được xác định như sau: 8 ˆ ˆ e 0  1x p ˆ ˆ 1  e 0  1x và 1  p  1 ˆ (1.8) ˆ 1  e 0  1x Thực hiện n lần quan sát ta có hàm hợp lí n L  0 , 1    piyi 1  pi  1 yi i 1  e ˆ0  ˆ1xi    ˆ0  ˆ1 xi  i 1  1  e  n 1 yi    1     ˆ0  ˆ1 xi     1 e  yi n   e  ˆ0  ˆ1xi  yi i 1 ˆ ˆ0  ˆ 1  e 0  1xi e  n n i 1 i 1 n  yi  ˆ1xi  yi 1  e ˆ0  ˆ1xi    n Trong đó yi bằng 1 nếu kết quả thành công và bằng 0 nếu kết quả thất bại.   Ta có hàm điểm U ˆ0 , ˆ1 là  L   U ˆ0 , ˆ1    L      ˆ , ˆ   0 1     n     yi  pi   i 1   n     xi  yi  pi    i 1    exp ˆ0  ˆ1 xi  n 1     y     i 1  exp ˆ0  ˆ1 xi ˆ0 , ˆ1  i 1  xi    ˆ1  ˆ0  Cho U ˆ0 , ˆ1  0 ta được hệ phương trình sau: 9          n  n  exp ˆ  ˆ x 0 1 i  y     i ˆ ˆ   i 1 i 1 1  exp  0  1 xi       exp ˆ0  ˆ1 xi n  n  xi yi   xi   1  exp ˆ0  ˆ1 xi i 1  i 1             (1.9) Giải hệ phương trình (1.9) để tìm một biểu thức giải tích cụ thể rất phức tạp trong trường hợp tổng quát nên thường chỉ giải trong trường hợp cụ thể. Tuy nhiên việc tính toán cũng không đơn giản, vì thế trong thực tế người ta thường sử dụng đến sự hỗ trợ của các phần mềm thống kê như SPSS, R,… *Chú ý Trong trường hợp nếu biến độc lập là biến nhị phân thì việc tìm các hệ số hồi quy của mô hình rất đơn giản. Gọi A là biến cố cần quan tâm. Chúng ta mã hoá biến độc lập theo hai trường hợp: x  0 và x  1 . Khi đó ta có hệ phương trình ln odds  A | x  0    ˆ0 (1.10)  ˆ ln odds  A | x  1    0  1 Giải hệ phương trình (1.10) chúng ta sẽ dễ dàng tìm được ˆ0 và ˆ1 . Ví dụ 1.4: Phân tích ví dụ 1.3. Tìm mô hình hồi quy thể hiện sự quyết định tiếp tục làm nghiên cứu trên não mèo theo giới tính. Giải: Chúng ta lập mô hình hồi quy Logistic để phân tích dữ liệu này. Gọi biến y (tiếp tục nghiên cứu) là biến phụ thuộc và biến x (giới tính) là biến độc lập. Chúng ta mã hoá các biến như sau: Biến tiếp tục: y  1 nếu quyết định tiếp tục nghiên cứu, y  0 nếu quyết định ngừng nghiên cứu. Biến giới tính: x  1 nếu là sinh viên nam, x  0 nếu là sinh viên nữ. Dạng tổng quát của mô hình hồi quy Logistic đơn biến là  p  y  ln odds  y    ln    0  1 x 1 p  Ta tính odds cho giới tính nam và nữ. 10  odds  x  1  0.3 0.3   0.4286 1  0.3 0.7  odds  x  0   0.5913 0.5913   1.4468 1  0.5913 0.4087 Ta có biến độc lập là biến nhị phân nên ta áp dụng hệ phương trình (1.10). Khi đó ln odds  y | x  0    ln odds  x  0   ˆ0  ln odds  y | x  1   ln odds  x  1  ˆ0  ˆ1 ˆ  ln  0.4286   0.8472   0  ˆ ˆ  ln 1.4468  0.3694   0  1 Gọi ˆ0 , ˆ1 lần lượt là ước lượng hợp lí cực đại của  0 và 1 . Để tìm các ước lượng ˆ0 , ˆ1 ta giải hệ phương trình trên. Từ đó suy ra các hệ số của mô hình. Giải hệ phương trình ta được   ˆ0  0.8472  ˆ   1  1.2166 Vậy mô hình hồi quy Logistic là: y  0.8472  1.2166 x 1.4.3 Các đại lƣợng thống kê liên quan Cho một mẫu gồm n đôi  x1 , y1  ,  x2 , y2  ,...,  xn , yn  Gọi ˆ0 , ˆ1 lần lượt là ước lượng hợp lí cực đại của  0 và 1 p̂  x  là xác suất ước lượng của mô hình cho giá trị x, ta có pˆ  x    exp ˆ0  ˆ1 x   1  exp ˆ0  ˆ1 x  w i  pˆ i 1  pˆ i  , trong đó: pˆ i  pˆ  xi  , i  1, n Và 11 n w x xw  i 1 n i i w i 1 n , SSw   w i  xi  xi  2 i 1 i Một số đại lượng thống kê liên quan  Sai số chuẩn của ˆ0 , ˆ1 lần lượt là   xw2  SS w 1 seˆ ˆ0  n w i 1   seˆ ˆ1  i 1 SS w  Khi x  x0 thì: logit  pˆ  x0   ˆ0  ˆ1 x0 Và pˆ  x0    exp ˆ0  ˆ1 x0   1  exp ˆ0  ˆ1 x0 (1.11)   Sai số chuẩn của logit  pˆ  x0  là      2    se logit  pˆ  x0    se ˆ0   2 x0Cov ˆ0 , ˆ1  x02  se ˆ1      2  Sai số chuẩn của p̂  x0  là   se  pˆ  x0   pˆ  x0  1  pˆ  x0  se logit  pˆ  x0   Khoảng ước lượng cho ˆ0 và ˆ1 với độ tin cậy 1   là  ˆ    0  u1  se ˆ0  ; ˆ0  u1  se ˆ0   2 2   (1.12)  ˆ   1  u1  se ˆ1  ; ˆ1  u1  se ˆ1   2 2   (1.13)     Trong đó u  1 2 là phân vị chuẩn xác suất 1       . 2  Khoảng ước lượng cho p̂  x0  với độ tin cậy 1   là    pˆ  x0   u 1 se  p  x0  ; pˆ  x0   u 1 se  p  x0   2 2   12  Khoảng ước lượng cho logit  pˆ  x0  với độ tin cậy 1   là    logit  pˆ  x0    u1 se logit  pˆ  x0   ; logit  pˆ  x0   u1 se logit  pˆ  x0    2 2      1.4.4 Ý nghĩa của hệ số hồi quy Logistic đơn biến Đặt Y  p X  . 1 p X  Theo công thức (1.5) ta được mô hình hồi quy Logistic đơn biến lnY  0  1 X   (1.14) Đạo hàm riêng theo biến X mô hình (1.14) ta được 1   lnY X Chúng ta có thể xấp xỉ như sau Y Y 1  Y  Y X X Với X thể hiện tốc độ tăng của X và Khi X  1 thì 1  Y Y Y là tốc độ tăng của Y Y (1.15) Với biểu thức (1.15) chúng ta có thể giải thích ý nghĩa của 1 như sau: khi X tăng lên 1 đơn vị (theo đơn vị tính của X) thì Y sẽ tăng lên (giảm xuống) 1 đơn vị. 1.5 HỒI QUY LOGISTIC ĐA BIẾN 1.5.1 Mô hình Xét biến phụ thuộc nhị phân Y và k biến độc lập X1 , X 2 ,..., X k , trong đó Y chỉ nhận giá trị 0 và 1, còn X j  j  1, k  ảnh hưởng đến giá trị của Y.  Gọi X  ( X1 , X 2 ,..., X k ) , j  1, k  Gọi p  X   p Y  1| X  là xác suất có điều kiện của Y  1 khi X xảy ra 13 Giả sử p  X  và X có mối liên hệ tuyến tính với nhau. Ta có mô hình hồi quy Logistic đa biến sau: k  p X   ln     jX j   0 1  p X   j 1   (1.16) Hay k 0    j X j p X   e j 1 1 p X  (1.17) 1.5.2 Xây dựng đƣờng hồi quy Quan sát n mẫu độc lập. Gọi yi là giá trị của biến phụ thuộc Y, x1i , x2i ,..., xki , i  1, n là giá trị của các biến độc lập X1 , X 2 ,..., X k . Giả sử y1 , y2 ,..., yn là những biến phụ thuộc và pi  p  y  1 . Gọi ˆ j , j  1, k là những ước lượng của  j . k  p  0   j xij Ta có: ln  i   e j 1  1  pi  ˆ ˆ Ta được ˆ0  e pi  1 e k  ˆ j x j j 1 ˆ0  (1.18) k  ˆ j x j j 1 1 1  pi  1 e ˆ0  (1.19) k  ˆ j x j j 1 Hàm hợp lí cho n quan sát độc lập trên là  ˆ  k ˆ x 0  j ij n  j 1 e L ˆ0 , ˆ j    k ˆ0   ˆ j xij i 1   1  e j 1          yi   1 k  ˆ0   ˆ j xij   1  e j 1 Trong đó, yi  {0;1} là kết quả thất bại và thành công. 14 1 yi         (1.20)      Cực đại hoá hàm hợp lí L ˆo , ˆ j ta có hệ phương trình  L    L       L    ˆ , ˆ   0 o j ˆ0  ˆ , ˆ   0 o j ˆ1 (1.21)  ˆ , ˆ   0 o j ˆ j Công thức (1.21) được chứng minh thành n 1  n y    i  k   i 1  i 1 1  exp  ˆ0   ˆ j xij   j 1    k  ˆ  ˆ x  1  exp      0 j ij  n n j 1    xi yi   xi k  i 1   i 1 exp  ˆ0   ˆ j xij   j 1    (1.22) Trong đó ˆ0 và ˆ j với j  1, k lần lượt là ước lượng của  0 và  j . Hệ phương trình (1.22) được giải vô cùng phức tạp. Nhiều tài liệu đã khẳng định không tìm được biểu thức cụ thể các hệ số của mô hình hồi quy trong trường hợp này. Trong thực tế chúng ta tìm các hệ số này bằng các phần mềm như SPSS, R,… 1.5.3 Các đại lƣợng thống kê liên quan Quan sát n mẫu độc lập x1 j , x2 j ,..., xnj , j  1.k Gọi ˆ0 , ˆ j lần lượt là ước lượng hợp lí cực đại của  0 và  j , j  1, k Gọi p̂  x  là xác suất ước lượng của mô hình cho các giá trị x, ta có k  ˆ  exp   0   ˆ j xij  j 1   pˆ  xi   k   1  exp  ˆ0   ˆ j xij  j 1   15
- Xem thêm -