Tài liệu Hồi quy tuyến tính với biến định tính và ứng dụng

.PDF

241

thanhphoquetoi Báo vi phạm

Tải xuống 53

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2 KHOA TOÁN Nguyễn Hoàng Vân Anh HỒI QUY TUYẾN TÍNH VỚI BIẾN ĐỊNH TÍNH VÀ ỨNG DỤNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC Hà Nội – Năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2 KHOA TOÁN Nguyễn Hoàng Vân Anh HỒI QUY TUYẾN TÍNH VỚI BIẾN ĐỊNH TÍNH VÀ ỨNG DỤNG Chuyên ngành: Toán ứng dụng KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. Trần Trọng Nguyên Hà Nội – Năm 2016 Lời cảm ơn Trước khi trình bày nội dung chính của bản khóa luận tốt nghiệp, em xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Trần Trọng Nguyên đã tận tình hướng dẫn để em có thể hoàn thành đề tài này. Em cũng xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo trong khoa Toán, Trường Đại học Sư phạm Hà Nội 2 đã dạy bảo em tận tình trong suốt quá trình học tập tại khoa. Nhân dịp này em cũng xin được gửi lời cảm ơn chân thành tới gia đình, bạn bè đã luôn bên em, động viên, giúp đỡ em trong suốt quá trình học tập và thực hiện đề tài thực tập này. Hà Nội, ngày 2 tháng 05 năm 2016 Sinh viên Nguyễn Hoàng Vân Anh i Lời cam đoan Em xin cam đoan dưới sự hướng dẫn của PGS.TS. Trần Trọng Nguyên khóa luận "Hồi quy tuyến tính với biến định tính và ứng dụng" được hoàn thành không trùng với bất kỳ đề tài nào khác. Trong quá trình hoàn thành khóa luận, em đã thừa kế những thành tựu của các nhà khoa học với sự trân trọng và biết ơn. Hà Nội, ngày 2 tháng 05 năm 2016 Sinh viên Nguyễn Hoàng Vân Anh ii Mục lục Lời mở đầu iii Danh sách bảng v Danh sách hình vẽ vi 1 Kiến thức chuẩn bị 1.1 1.2 1.3 1 Mô hình và một số khái niệm . . . . . . . . . . . . . . . 1 1.1.1 Mô hình hồi quy . . . . . . . . . . . . . . . . . . 1 1.1.2 Hàm hồi quy tổng thể . . . . . . . . . . . . . . . 3 1.1.3 Hàm hồi quy mẫu . . . . . . . . . . . . . . . . . . 4 Phương pháp bình phương nhỏ nhất (Phương pháp OLS) 4 1.2.1 Các giả thiết của mô hình hồi quy . . . . . . . . 5 1.2.2 Phương pháp OLS . . . . . . . . . . . . . . . . . 5 1.2.3 Các tham số đặc trưng của ước lượng OLS . . . . 7 Một số bài toán ước lượng và kiểm định giả thuyết . . . 9 1.3.1 Khoảng tin cậy cho các hệ số hồi quy . . . . . . . 10 1.3.2 Kiểm định giả thuyết thống kê về hệ số hồi quy . 11 1.3.3 Kiểm định sự phù hợp của hàm hồi quy . . . . . 13 i Khóa luận tốt nghiệp Đại học 1.3.4 Nguyễn Hoàng Vân Anh Kiểm định thu hẹp hồi quy . . . . . . . . . . . . . 2 Mô hình hồi quy chứa biến định tính là biến độc lập 15 17 2.1 Khái niệm biến giả . . . . . . . . . . . . . . . . . . . . . 17 2.2 Mô hình hồi quy chứa biến định tính là biến độc lập 19 2.2.1 2.3 . . Mô hình hồi quy chứa biến định tính chỉ có hai phạm trù . . . . . . . . . . . . . . . . . . . . . . 19 2.2.2 Mô hình hồi quy với biến giả và biến tương tác . 26 2.2.3 Mô hình hồi quy với biến định tính có nhiều phạm trù . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Ứng dụng . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3 Hồi quy với biến phụ thuộc là biến định tính 43 3.1 Khái niệm . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.2 Mô hình logit . . . . . . . . . . . . . . . . . . . . . . . . 44 3.2.1 Mô hình logit - Phương pháp Goldberger (1964). 44 3.2.2 Mô hình logit - Phương pháp Berkson (1953) . . . 47 Ứng dụng mô hình logit . . . . . . . . . . . . . . . . . . 50 3.3 KẾT LUẬN 54 Tài liệu tham khảo 55 ii Khóa luận tốt nghiệp Đại học Nguyễn Hoàng Vân Anh Lời mở đầu 1. Lý do chọn đề tài Phân tích hồi quy có lẽ là một trong những phương pháp phân tích số liệu thông dụng nhất trong thống kê học. Nó nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc) vào một hay nhiều biến khác (biến độc lập), nhằm mục đích ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị biết trước của biến độc lập. Trong thực tế, biến phụ thuộc không những chịu tác động của các biến định lượng mà còn chịu tác động của các biến định tính hoặc biến phụ thuộc không phải là biến định lượng mà là biến định tính. Với mong muốn tìm hiểu sâu vấn đề này, cùng với sự giúp đỡ tận tình của PGS. TS Trần Trọng Nguyên, tôi đã chọn nghiên cứu đề tài: "Hồi quy tuyến tính với biến định tính và ứng dụng". 2. Mục đích nghiên cứu Nghiên cứu mô hình hồi quy tuyến tính chứa biến độc lập là biến định tính và mô hình hồi quy với biến phụ thuộc là biến định tính. Tìm hiểu một số bài toán thực tế ứng dụng hai mô hình này với sự hỗ trợ của phần mềm Eviews. 3. Đối tượng và phạm vi nghiên cứu - Đối tượng nghiên cứu: biến định tính, mô hình hồi quy với biến định tính. - Phạm vi nghiên cứu: mô hình hồi quy tuyến tính chứa biến độc lập là biến định tính, mô hình hồi quy với biến phụ thuộc là biến định tính (chủ yếu tìm hiểu mô hình logit). iii Khóa luận tốt nghiệp Đại học Nguyễn Hoàng Vân Anh 4. Phương pháp và công cụ nghiên cứu - Phương pháp nghiên cứu và tổng hợp các tài liệu tham khảo. - Phương pháp nghiên cứu thực nghiệm với dữ liệu thực tế. - Sử dụng phần mềm Eviews 4.0. 5. Cấu trúc khóa luận Khóa luận gồm ba chương. Chương 1 "Kiến thức chuẩn bị". Chương này nhắc lại một số kiến thức cần sử dụng để nghiên cứu các phần sau. Chương 2 "Mô hình hồi quy chứa biến định tính là biến độc lập". Chương này nghiên cứu biến định tính, mô hình chứa biến định tính là biến độc lập và ứng dụng của nó. Chương 3 "Hồi quy với biến phụ thuộc là biến định tính". Chương 3 nghiên cứu mô hình hồi quy với biến phụ thuộc là biến định tính, cụ thể là mô hình logit cùng với những ứng dụng của nó. iv Danh sách bảng 1.1 Các cặp giả thuyết và điều kiện để bác bỏ H0 tương ứng trong kiểm định giả thuyết về một hệ số hồi quy. . . . . 1.2 2.1 12 Các cặp giả thuyết và điều kiện để bác bỏ H0 tương ứng trong kiểm định về tổ hợp tuyến tính các hệ số hồi quy. . 13 Biến định tính có nhiều hơn hai phạm trù. . . . . . . . . 35 v Danh sách hình vẽ 2.1 Hệ số của biến giả cho biết sự khác biệt về hệ số chặn giữa hai hàm hồi quy. . . . . . . . . . . . . . . . . . . . . 2.2 21 Hệ số của biến giả cho biết sự khác biệt về hệ số chặn giữa hai hàm hồi quy. . . . . . . . . . . . . . . . . . . . . 24 2.3 Hai hồi quy hoàn toàn khác nhau (a). . . . . . . . . . . . 28 2.4 Hai hồi quy hoàn toàn khác nhau (b). . . . . . . . . . . . 28 2.5 Mô hình khác hệ số góc nhưng giống nhau về hệ số chặn. 29 2.6 Hai mô hình hồi quy hoàn toàn giống nhau. . . . . . . . 29 2.7 Bảng số liệu thị trường tiêu thụ trà xanh và các nhân tố liên quan khác. . . . . . . . . . . . . . . . . . . . . . . . 37 2.8 Bảng số liệu biến giả. . . . . . . . . . . . . . . . . . . . . 38 2.9 Bảng ước lượng giá trị liên quan đến biến giả qua phần mềm Eviews. . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Bảng số liệu về mức thu nhập và số hộ sở hữu nhà trong nhóm quan sát. . . . . . . . . . . . . . . . . . . . . . . . 3.2 3.3 39 51 Bảng xử lý số liệu về mức thu nhập và số hộ sở hữu nhà trong nhóm quan sát. . . . . . . . . . . . . . . . . . . . . 51 Kết quả ước lượng mô hình bằng phương pháp Berkson. 52 vi Chương 1 Kiến thức chuẩn bị Chương này nhắc lại một số kiến thức cơ bản của mô hình hồi quy nhằm giúp người đọc nắm bắt tốt hơn các kiến thức phần sau. Mục 1.1 sẽ nhắc lại mô hình hồi quy tuyến tính, các thành phần của mô hình và một số khái niệm cơ bản. Mục 1.2 trình bày phương pháp bình phương nhỏ nhất và các công thức ước lượng, mục này cũng giới thiệu các giả thiết của mô hình hồi quy. Mục 1.3 nêu một số bài toán ước lượng và kiểm định giả thuyết. 1.1 1.1.1 Mô hình và một số khái niệm Mô hình hồi quy Xét mô hình hồi quy tuyến tính k biến: Y = β1 + β2 X2 + ... + βk Xk + u. (1.1) Khi đó với mẫu ngẫu nhiên kích thước n, có thể biểu diễn lại (1.1) 1 Khóa luận tốt nghiệp Đại học như sau: Nguyễn Hoàng Vân Anh     Y1 = β1 + β2 X21 + ... + βk Xk1 + u1       Y2 = β1 + β2 X22 + ... + βk Xk2 + u2 (1.2)    ...................................................       Yn = β1 + β2 X2n + ... + βk Xkn + un . Biểu diễn hệ phương trình này dưới dạng ma trận như sau: y = Xβ + u (1.3) trong đó y, X, β và u là các ma trận có kích thước lần lượt là (n × 1), (n × k), (k × 1), (n × 1):    Y1     Y2       Y = .   .     Yn   1 X21 X31 ... Xk1    1 X22 X32 ... Xk2      ,X =  , . ... .  . .    . .  . ... .     1 X2n X3n ... Xkn n×1    n×k β1   u1      β2   u2           ,u =  .  β= . .         . .         un βk k×1 n×1 Mô hình (1.3) được gọi là mô hình hồi quy tuyến tính bội. Như vậy mô hình hồi quy tuyến tính bội có các thành phần sau: 2 Khóa luận tốt nghiệp Đại học Nguyễn Hoàng Vân Anh - Biến phụ thuộc là biến số mà ta đang quan tâm đến giá trị của nó, thường kí hiệu là Y và nằm ở vế trái của phương trình. Biến phụ thuộc còn được gọi là biến được giải thích (explained variable) hay biến phản ứng. - Biến độc lập là biến số được cho là có tác động đến biến phụ thuộc, thường được kí hiệu là X và nằm ở vế phải của phương trình. Biến độc lập còn được gọi là biến giải thích (explanatory variable) hay biến điều khiển (control variable). - Sai số ngẫu nhiên là yếu tố đại diện cho các yếu tố tác động đến biến Y ngoài X, thường được kí hiệu là u. - Hệ số hồi quy là các hệ số thể hiện mối quan hệ giữa biến X và Y khi các yếu tố bao hàm trong u không đổi. Trong đó, β1 là hệ số chặn (hệ số tự do) nó cho ta biết trung bình của Y khi X2 , X3 , ..., Xk bằng 0; βj (j = 1, 2, ..., k) là các hệ số hồi quy riêng, nó cho ta biết sự thay đổi của Y khi Xj thay đổi một đơn vị còn các Xh (h 6= j) không thay đổi. 1.1.2 Hàm hồi quy tổng thể Với giả thiết E(u|X) = 0 ta có thể biểu diễn lại mô hình hồi quy (1.1) dưới dạng sau: E(Y |X) = β1 + β2 X2 + ... + βk Xk . (1.4) trong đó E(Y |X) là kì vọng của biến Y khi biến giá trị của biến X hay còn gọi là kỳ vọng của Y với điều kiện X. 3 Khóa luận tốt nghiệp Đại học Nguyễn Hoàng Vân Anh Phương trình (1.4) được gọi là hàm hồi quy tổng thể (PRF). 1.1.3 Hàm hồi quy mẫu Giả sử có mẫu ngẫu nhiên kích thước n bao gồm các quan sát của biến X và biến Y : (Yi , Xi ), i = 1, 2, ..., n. Từ mẫu ngẫu nhiên này ta xây dựng được các ước lượng cho các hệ số hồi quy tổng thể β1 , β2 , ..., βk , kí hiệu βˆ1 , βˆ2 , ..., βˆk tương ứng. Khi đó ta có hàm hồi quy mẫu (SRF) cho hàm hồi quy tổng thể: Ŷ = βˆ1 + βˆ2 X2 + ... + βˆk Xk . (1.5) Thông thường Yi 6= Ŷi , đặt ei = Yi − Ŷi và gọi là phần dư. Bản chất của phần dư ei giống như của yếu tố ngẫu nhiên ui . 1.2 Phương pháp bình phương nhỏ nhất (Phương pháp OLS) Phương pháp bình phương nhỏ nhất (OLS) là kỹ thuật ước lượng thống kê được sử dụng phổ biến nhất trong các mô hình hồi quy tuyến tính. Mục đích của phương pháp là từ các mẫu rời rạc quan sát được trên thực nghiệm, xác định một hàm biểu diễn gần đúng sự phân phối của các mẫu đó, từ đó có thể ước lượng được các giá trị chưa thể đo được trên thực tế (nội suy). 4 Khóa luận tốt nghiệp Đại học 1.2.1 Nguyễn Hoàng Vân Anh Các giả thiết của mô hình hồi quy •Giả thiết 1: Việc ước lượng dựa trên cơ sở mẫu ngẫu nhiên (X, Y ). •Giả thiết 2: E(u|X) = 0n×1 với 0n×1 là vectơ gồm n thành phần bằng 0. •Giả thiết 3: E(uu0 |X) = σ 2 I trong đó I là ma trận đơn vị cỡ n × n, dấu 0 trên đầu mỗi ma trận là ký hiệu của ma trận chuyển vị. Như vậy  2 σ 0    0 σ2 0 E(uu ) =   . .  0 0 0 . 0    0 . 0  = σ 2 I.  . . .  0 . σ2 •Giả thiết 4: Tồn tại ma trận nghịch đảo X 0 X −1 , tức là không có quan hệ đa cộng tuyến hoàn hảo và không có biến nào là hằng số trong tập số liệu. •Giả thiết 5: Sai số ngẫu nhiên tuân theo quy luật chuẩn ui ∼ N (0, σ 2 ). 1.2.2 Phương pháp OLS Hàm hồi quy mẫu tương ứng với mô hình (1.3) viết được dưới dạng: Ŷ = X β̂. 5 Khóa luận tốt nghiệp Đại học Nguyễn Hoàng Vân Anh Trong đó,   ˆ  Y1     Yˆ2       Ŷ =  .   .     Yˆn n×1   ˆ β1    βˆ2       , β̂ =  .   .     βˆk . k×1 Với vectơ phần dư: e = Y − Ŷ = Y − X β̂. Khi đó ta có    e1     e2    X   0  e2i = (e1 , e2 , ..., en )   .  = e e.   i .     en Do đó 0 e0 e = (Y − X β̂) (Y − X β̂) = Y 0 Y − 2β̂X 0 Y + β̂ 0 Y + β̂ 0 X 0 X β̂. Phương pháp OLS đưa về việc giải bài toán cực trị: tìm véc tơ β̂ sao cho cực tiểu biểu thức Y 0 Y − 2β̃X 0 Y + β̃ 0 X β̃. 6 Khóa luận tốt nghiệp Đại học Nguyễn Hoàng Vân Anh Như vậy véc tơ ước lượng β̂ cần thỏa mãn điều kiện cần bậc nhất X 0 X β̂ = X 0 Y. Do tồn tại ma trận nghịch đảo (X 0 X)−1 nên nhân hai vế của biểu thức trên với ma trận nghịch đảo này ta có: β̂ = (X 0 X)−1 X 0 Y. (1.6) (1.6) chính là công thức ước lượng OLS cho các hệ số hồi quy. Để xem xét công thức tính ma trận phương sai- hiệp phương sai của các hệ số ước lượng, ta biến đổi công thức (1.6) như sau: β̂ = (X 0 X)−1 X 0 Y = (X 0 X)−1 X 0 (Xβ + u) = β + (X 0 X)−1 X 0 u. Do đó ta có thể biểu diễn ma trận hiệp phương sai giữa các hệ số ước lượng bởi var(β̂|X) = (X 0 X)−1 X 0 var(uu0 |X)X(X 0 X)−1 = σ 2 (X 0 X)−1 . 1.2.3 Các tham số đặc trưng của ước lượng OLS • Với hồi quy đơn: Kì vọng E(βˆj ) = βj . Phương sai Pn Xi2 2 i=1 ˆ var(β1 ) = Pn 2 σ n i=1 xi 7 (1.7) Khóa luận tốt nghiệp Đại học Nguyễn Hoàng Vân Anh σ2 var(βˆ2 ) = Pn 2 i=1 xi . Độ lệch chuẩn q var(βˆj ). P 2 ei . σ 2 chưa biết và được ước lượng bởi: σ̂ 2 = n−2 σ̂ gọi là độ lệch chuẩn của hồi quy (se). se(βˆj ) = • Với hồi quy tổng quát: E(βˆj ) = βj (j = 1, .., k)   ˆ ˆ ˆ ˆ cov(β1 , β2 ) . cov(β1 , βk )     ˆ ˆ ˆ ˆ ˆ cov(β1 , β2 ) var(β2 ) . cov(β2 , βk )  cov(β̂) =      . . . .   cov(βˆk , βˆ1 ) cov(βˆ1 , βˆ2 ) . var(βˆk ) var(βˆ1 ) cov(β̂)P = σ 2 (X 0 X)0 e2i σˆ2 = với k là số tham số cần ước lượng. n−k Định lý 1.1. Định lý Gauss- Markov Khi các giả thiết 1- giả thiết 4 thỏa mãn thì các ước lượng thu được từ phương pháp OLS là các ước lượng tuyến tính không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch. Định lý 1.2. Khi các giả thiết 1- giả thiết 5 thỏa mãn thì các ước lượng OLS sẽ là các ước lượng không chệch tốt nhất (BUE- best unbiased estimator), kể cả trong lớp các ước lượng tuyến tính và ước lượng phi 8 Khóa luận tốt nghiệp Đại học Nguyễn Hoàng Vân Anh tuyến. Khi giả thiết 1- 5 thỏa mãn thì phương pháp OLS là phương pháp ước lượng tốt nhất cho bài toán hồi quy có dạng (1.3). 1.3 Một số bài toán ước lượng và kiểm định giả thuyết Định lý 1.3. Khi các giả thiết 1- 5 thỏa mãn ta có βˆj ∼ N (βj , var(βˆj )) (1.8) trong đó var(βˆj ) được tính theo công thức (1.7). Định lý 1.4. Khi các giả thiết 1- 5 thỏa mãn ta có: Với j = 1, 2, ..., k thì βˆj − βj t= ∼ Tn−k . se(βˆj ) (1.9) Tương tự ta cũng có (aβˆj + bβˆs − aβj − bβs ) t= ∼ Tn−k . se(aβˆj + bβˆs ) Các công thức (1.8) và (1.9) là cơ sở cho việc xây dựng khoảng tin cậy và bài toán kiểm định giả thuyết thống kê các hệ số hồi quy. 9 Khóa luận tốt nghiệp Đại học 1.3.1 Nguyễn Hoàng Vân Anh Khoảng tin cậy cho các hệ số hồi quy * Khoảng tin cậy cho một hệ số hồi quy • Khoảng tin cậy đối xứng với độ tin cậy (1 − α) cho các hệ số hồi quy được xác định bằng công thức sau: (βˆj − t α2 ,n−k se(βˆj ), βˆj + t α2 ,n−k se(βˆj )). (1.10) Trong đó, kí hiệu tα,n−k là giá trị tới hạn của quy luật Student với (n − k) bậc tự do với mức ý nghĩa α. Ý nghĩa của công thức (1.10): với độ tin cậy là (1 − α), khi biến Xj gia tăng 1 đơn vị và các yếu tố khác không đổi thì trung bình của biến Y gia tăng trong khoảng này. • Khoảng tin cậy để ước lượng giá trị lớn nhất cho hệ số hồi quy: (−∞, βˆj + tα,n−k se(βˆj )). • Khoảng tin cậy để ước lượng giá trị bé nhất cho hệ số hồi quy: (βˆj − tα,n−k se(βˆj ), +∞). * Khoảng tin cậy cho biểu thức của hai hệ số hồi quy Với a và b là các giá trị bất kì thì khoảng tin cậy cho mức gia tăng của trung bình của biến Y khi biến Xi tăng a đơn vị và Xj tăng b đơn vị được tính bởi công thức: ((aβ̂i +bβˆj )−t α2 ,n−k se(aβ̂i +bβˆj ), (aβ̂i +bβˆj )−t α2 ,n−k se(aβ̂i +bβˆj )) (1.11) 10

- Xem thêm -

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất