Mô hình hồi quy phi tham số

  • Số trang: 79 |
  • Loại file: PDF |
  • Lượt xem: 26 |
  • Lượt tải: 1
minhtuan

Đã đăng 15929 tài liệu

Mô tả:

TRƢỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BỘ MÔN TOÁN LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC MÔ HÌNH HỒI QUY PHI THAM SỐ GIÁO VIÊN HƢỚNG DẨN SINH VIÊN THỰC HIỆN ThS. TRẦN PHƢỚC LỘC TRẦN DÂN AN MSSV: 1117473 Ngành: Toán Ứng Dụng – K37 Cần Thơ, tháng 12/2014 LỜI CẢM ƠN ---------Luận văn là bảng tổng hợp các kết quả thu đƣợc trong quá trình nghiên cứu và học tập. Tuy nhiên để có đƣợc nhƣ vậy không phải là của cá nhân em. Sự thành công của luận văn là kết quả của quá trình học đại học, của sự dạy dỗ và dìu dắt của các Thầy, Cô trong bộ môn Toán Khoa Khoa học Tự nhiên của Trƣờng Đại Học Cần Thơ, sự giúp đỡ của bạn bè, của gia đình. Trƣớc hết, em xin gửi lời biết ơn sâu sắc đến Th.s Trần Phƣớc Lộc, Thầy đã tận tình hƣớng dẫn, truyền đạt những kiến thức hết sức quý báu trong suốt quá trình thực hiện đề tài. Sự hƣớng dẫn tận tình, chu đáo của Thầy là nguồn động viên giúp em vƣợt qua những khó khan và hoàn thành đƣợc luận văn này. Em xin chân thành gửi lời cảm ơn đến quý Thầy, quý Cô trong khoa Khoa học Tự nhiên trƣờng Đại học Cần Thơ đã tận tâm truyền dạt các kiến thức cho em trong thời gian học tại trƣờng. Em xin cảm ơn cô cố vấn Lê Thị Mỹ Xuân đã động viên và giúp đỡ em trong suốt quá trình học tập của mình. Xin cảm ơn các anh, chị đã đi trƣớc, cùng các bạn đã luôn sát cánh, ủng hộ và giúp đỡ tôi trong quá trình học tập cũng nhƣ thời gian làm luận văn. Em xin gửi lời cảm ơn chân thành và sâu sắc đến Gia đình em, đã luôn giúp đỡ động viên và tạo điều kiện thuận lợi cho em trong thời gian qua. Mặc dù, em đã cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và năng lực của mình, tuy nhiên luận văn không thể tránh khỏi những thiếu sót. Em rất mong nhận đƣợc những đóng góp quý báu của quý Thầy, Cô và các bạn để luận văn đƣợc hoàn thiện. Xin chân thành cảm ơn!. Cần Thơ, ngày 01 tháng 12 năm 2014 TRẦN DÂN AN i DANH MỤC BẢNG Bảng 3.1: Các biến quan sát……………………………………………….…53 Bảng 3.2: Các giá trị AIC cho số lƣợng các điểm nút khác nhau………..…..59 ii DANH MỤC HÌNH Hình 1.1: Hồi quy tuyến tính đơn và Hồi quy parabol ...................................... 4 Hình 1.2: g(t) là đa thức tuyến tính từng khúc. ................................................. 9 Hình 1.3: g(t) là đƣờng cong tron nội suy các điểm dữ liệu ............................ 10 Hình 3. 1 Biểu đồ tán xạ thể hiện sự phân tán Tổng mức tiêu dùng hàng hóa và dịch vụ qua các tháng .................................................................................. 52 Hình 3.2: Biểu đồ tán xạ tỷ giá trao đổi ngoại tệ ở Việt Nam qua các tháng. . 53 Hình 3.3: Biểu đồ phân tán thể hiện sự ảnh hƣởng của tỷ giá trao đổi ngoại tệ đến tổng mức tiêu dùng hàng hóa và dịch vụ. ................................................. 54 Hình 3.4: Ƣớc lƣợng đa thức địa phƣơng bậc 3 và 4 ...................................... 54 Hình 3.5: Hàm loess và hàm lowess và OLS................................................... 55 Hình 3.6: Khoảng tin cậy 95% cho khoảng tin cậy loess ................................ 56 Hình 3.7: Ƣớc lƣợng bằng hàm B-spline với bậc tự do bằng 4 ....................... 56 Hình 3.8: Ƣớc lƣợng hàm spline tự nhiên với bậc tự do là 4 .......................... 57 Hình 3.9: Hồi quy phi tham số đơn biến.......................................................... 58 Hình 3.10: Mô hình hồi quy đa biến và ảnh hƣởng của từng biến đến Tổng mức tiêu dung hàng hóa và dịch vụ. ................................................................ 59 Hình 3.11: Ảnh hƣởng của từng biến lên Tổng mức tiêu dùng hàng hóa và dịch vụ bằng mô hình cộng thêm với độ tin cậy 95% ..................................... 62 iii MỤC LỤC LỜI CẢM ƠN .............................................................................................................. i DANH MỤC BẢNG ................................................................................................... ii DANH MỤC HÌNH ................................................................................................... iii MỤC LỤC .................................................................................................................. iv PHẦN MỞ ĐẦU ......................................................................................................... 1 CHƢƠNG 1: CƠ SỞ LÝ THUYẾT ......................................................................... 3 1.1. MÔ HÌNH HỒI QUY............................................................................................ 3 1.1.1. Giới thiệu ................................................................................................... 3 1.1.2. Hồi quy tuyến tính ...................................................................................... 5 1.1.3. Hồi quy logistic .......................................................................................... 7 1.2. HỒI QUY ĐA THỨC ĐỊA PHƢƠNG ................................................................. 7 1.2.1. Hồi quy đa thức địa phƣơng ....................................................................... 7 1.2.2. Suy luận thống kê cho các hàm hồi quy đa thức địa phƣơng ..................... 8 1.2.3. Các lựa chọn mô hình hóa phi tham số .................................................... 12 1.2.4. Kết luận .................................................................................................... 13 1.3. HÀM SPLINE ..................................................................................................... 13 1.3.1. Hàm Spline hồi quy đơn .......................................................................... 14 1.3.2. Các mô hình hàm Spline khác và cơ sở ................................................... 16 1.3.3. Cơ sở hàm spline bậc hai và bậc ba ......................................................... 16 1.3.4. Hàm spline tự nhiên ................................................................................. 17 1.3.5. Hàm B-spline ........................................................................................... 18 1.3.6. Số lƣợng và vị trí các điểm nút ................................................................ 18 CHƢƠNG 2: HỒI QUY PHI THAM SỐ............................................................... 21 2.1. GIỚI THIỆU ....................................................................................................... 21 2.2. HỒI QUY PHI THAM SỐ ĐƠN BIẾN .............................................................. 21 2.2.1. Làm trơn tuyến tính ................................................................................. 22 2.2.2. Lựa chọn tham số làm trơn ..................................................................... 22 2.2.3. Hồi quy địa phƣơng.................................................................................. 25 2.2.4. Hồi quy hàm Spline có xét độ khúc khuỷu .............................................. 31 2.2.5. Ƣớc lƣợng phƣơng sai.............................................................................. 35 2.2.6. Độ tin cậy ................................................................................................. 37 2.3. HỒI QUY PHI THAM SỐ ĐA BIẾN ................................................................ 40 2.3.1. Hồi quy địa phƣơng.................................................................................. 41 2.3.2. Hàm Spline ............................................................................................... 42 2.3.3. Mô hình cộng thêm .................................................................................. 42 2.3.4. Mô hình phép chiếu nhanh ....................................................................... 43 2.3.5. Mô hình cây hồi quy ................................................................................ 44 2.3.6. Mô hình Mars ........................................................................................... 45 2.3.7. Mô hình tổng quát .................................................................................... 46 2.4. MỘT SỐ VẤN ĐỀ KHÁC ................................................................................. 46 2.4.1. Kiểm tra sự phù hợp của tuyến tính ......................................................... 46 2.4.2. Sự tối ƣu ................................................................................................... 47 2.4.3. Ƣớc lƣợng đạo hàm .................................................................................. 47 CHƢƠNG 3: ỨNG DỤNG ...................................................................................... 50 3.1. GIỚI THIỆU ....................................................................................................... 50 3.2. TỔNG QUAN VIỆC THỰC HIỆN .................................................................... 51 3.2.1. Số liệu ...................................................................................................... 51 iv 3.2.2. Phƣơng pháp thực hiện ............................................................................ 51 3.2.3. Vấn đề tính toán ....................................................................................... 51 3.3. PHÂN TÍCH HỒI QUY PHI THAM SỐ ........................................................... 52 3.3.1. Hồi quy phi tham số đơn biến .................................................................. 52 3.3.2 Hồi quy phi tham số đa biến ..................................................................... 59 KẾT LUẬN ............................................................................................................... 63 v PHẦN MỞ ĐẦU Dự báo có một vai trò rất quan trọng trong sự phát triển của tất cả các lĩnh vực. Cho đến nay, hồi quy là một môn khoa học phức tạp và đang đƣợc rất nhiều nhà khoa học trên các lĩnh vực khác nhau quan tâm. Có nhiều quan điểm khác nhau đƣợc đề xuất để thực hiện dự báo. Theo quan điểm thống kê, hai phƣơng pháp chủ yếu đƣợc sử dụng để dự báo là phƣơng pháp hồi quy và chuỗi thời gian. Trong đó, hồi quy là một phƣơng pháp dự báo cổ điển nhƣng đƣợc sử dụng rộng rãi trên nhiều lĩnh vực khác nhau, đặc biệt là trong các lĩnh vực kinh tế, xã hội, y học… bởi tính đơn giản và tính thích ứng tƣơng đối cao. Thêm vào đó, với sự phát triển mạnh mẽ của các phần mềm thống kê, khi biết đƣợc dạng hàm hồi quy thì việc xây dựng một mô hình hồi quy mong muốn là không quá phức tạp. Tuy nhiên, trong trƣờng hợp không có lý thuyết mạnh mẽ cho dạng hàm thì việc ƣớc lƣợng dạng hàm thích hợp từ dữ liệu là cách tốt nhất đƣợc tiến hành. Khi đó, để ƣớc lƣợng dạng hàm từ dữ liệu chúng ta phải thay thế các ƣớc lƣợng tổng thể bằng các ƣớc lƣợng địa phƣơng. Các công thức ƣớc lƣợng địa phƣơng đƣợc gọi là các mô hình hồi quy phi tham số. Vậy, ta có thể nói rằng hồi quy phi tham số là một công cụ mạnh mẽ cho việc chuẩn đoán và mô hình hóa tính phi tuyến. Hồi quy phi tham số là một dạng của phân tích hồi quy mà không có một dạng mô hình nào cho dự báo đƣợc xây dựng dựa trên thông tin thu đƣợc từ các dữ liệu. Trong thực tiễn, các tập số liệu thƣờng rất lớn. Việc xử lý các tập số liệu này là một vấn đề khá phức tạp và ta không thể hiểu chúng một cách rõ ràng. Mô hình hồi quy phi tham số làm giảm các tập dữ liệu phức tạp thành đơn giản hơn để ta hiểu đƣợc. Áp dụng đúng cách, mô hình này sẽ giữ lại các tính năng cần thiết của các dữ liệu và loại bỏ các chi tiết không quan trọng, trong đó nó mang tính quyết định trong việc xử lý số liệu. Mô hình hồi quy phi tham số là một vấn đề rộng lớn, đã đƣợc nhiều nhà khoa học nghiên cứu trên nhiều khía cạnh khác nhau. Cho nên luận văn “Hồi quy phi tham số” sẽ chỉ tập trung vào một số vấn đề cơ bản về làm trơn đa thức địa phƣơng, làm trơn hàm spline, phƣơng pháp chọn tham số làm trơn,… Bên cạnh đó sẽ xây dựng mô hình hồi quy phi tham số đơn biến, đa biến và một số mô hình phi tham số đa biến thông dụng. Cấu trúc luận văn Luận văn gồm có 3 chƣơng: Giới thiệu các mô hình hồi quy: hồi quy tuyến tính, hồi quy đa thức địa phƣơng, hàm spline; Trình bày mô hình hồi quy phi tham số: hồi quy đơn biến, hồi quy đa biến, mô hình cộng,… Ứng 1 dụng mô hình hồi quy phi tham số vào một bộ số liệu thực tế về tình hình phát triển nền kinh tế nƣớc ta hiện nay bằng phần mềm thống kê R. Chƣơng 1: Cơ sở lý thuyết Chƣơng này trình bày mô hình hồi quy và các phƣơng pháp làm trơn cơ bản bằng mô hình hồi quy đa thức địa phƣơng, các hàm spline và một số suy luận của các mô hình này. Chƣơng 2: Hồi quy phi tham số Chƣơng này giới thiệu phƣơng pháp hồi quy phi tham số đơn biến và đa biến. Trong đó trình bày về phƣơng pháp lựa chọn tham số trơn, cách xác định độ tin cậy, xác định độ rộng,… Chƣơng 3: Ứng dụng Chƣơng này ứng dụng các phƣơng pháp hồi quy phi tham số ở 2 chƣơng trƣớc cũng nhƣ lựa chọn các tham số trơn, xác định độ tin cậy, ƣớc lƣợng các tham số bằng mô hình hồi quy đa thức địa phƣơng, mô hình cộng, mô hình cây hồi quy,... bằng các câu lệnh đƣợc viết trên ngôn ngữ R phiên bản Rx64 3.0.1 nhằm đánh giá các yếu tố ảnh hƣởng đến tổng mức doanh thu hàng hóa và dịch vụ tiêu dùng của nền kinh tế Việt Nam từ tháng 01/2004 đến tháng 09/2014. 2 CHƢƠNG 1 CƠ SỞ LÝ THUYẾT 1.1. MÔ HÌNH HỒI QUY 1.1.1. Giới thiệu Để chọn một mô hình phù hợp với bộ dữ liệu đã có, luận văn cần phân tích và mô hình hóa mối liên hệ giữa các đại lƣợng bằng một mô hình hóa tối ƣu nhất. Phƣơng pháp này đƣợc gọi là phân tích hồi quy. Phân tích hồi quy là nghiên cứu mối quan hệ phụ thuộc của một biến số (hay biến phụ thuộc) theo một hay nhiều biến khác (biến độc lập) nhằm mục đích ƣớc lƣợng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc trên cơ sở đã biết trƣớc giá trị của các biến độc lập. Để dễ dàng trong quá trình trình bày, luận văn ký hiệu Y : Giá trị của biến phụ thuộc, X k : Giá trị của biến độc lập thứ k , i : Lần quan sát thứ i , X ik : Lần quan sát thứ i của biến thứ k , n : Tổng số các quan sát trong một mẫu. Để có một khái niệm sơ bộ về mối quan hệ giữa hai đại lƣợng ngẫu nhiên X và Y, ngƣời ta thƣờng biểu diễn mỗi quan sát ( xi , yi ) bởi một điểm trên mặt phẳng tọa độ. Các điểm này hợp lại thành đám mây điểm trên mặt phẳng. Nếu các điểm này có xu hƣớng tụ tập xung quanh một đƣờng thẳng nào đó thì ta chọn hàm hồi quy là Y  aX  b . Nếu các điểm này có xu hƣớng tụ tập xung quanh một đƣờng cong parabol thì ta chọn hàm hồi quy là Y  aX 2  bX  c... . Nói chung, tùy theo “hình dạng” của đám mây điểm mà ta chọn hàm hồi quy sao cho phù hợp. 3 Hình 1.1: Hồi quy tuyến tính đơn và Hồi quy parabol  Biến phụ thuộc còn đƣợc gọi là biến đƣợc giải thích, biến kết quả, biến đƣợc dự báo, biến đƣợc hồi quy, biến phản ứng, biến nội sinh.  Biến độc lập cũng đƣợc gọi là biến giải thích, biến xảy ra, biến dự báo, biến hồi quy, biến tác nhân, biến kiểm soát, biến ngoại sinh. Số liệu của các biến trong phân tích hồi quy có thể thu nhập từ hai nguồn: Số liệu điều tra thực tế và số liệu thử nghiệm. Số liệu thử nghiệm có đƣợc nhờ vào việc tiến hành thử nghiệm theo những điều kiện nhất định nào đó. Trong khi đó, số liệu thực tế là số liệu đƣợc thu nhập từ thực tế và không chịu sự kiểm soát của ngƣời nghiên cứu. Có ba loại số liệu cơ bản sau: Số liệu chuỗi thời gian: Số liệu của biến điều tra từ một thực thể tƣơng ứng với các thời điểm khác nhau. Số liệu chéo: Số liệu đƣợc điều tra từ các thực thể khác nhau tại cùng một thời điểm. Số liệu hỗn hợp (hay số liệu bảng): Loại số liệu kết hợp của hai loại số liệu trên, nghĩa là số liệu lấy từ nhiều thực thể khác nhau tại những thời điểm khác nhau. Các số liệu phục vụ cho nghiên cứu trong thực tế rất phong phú. Tuy nhiên, chất lƣợng của số liệu thƣờng không đủ tốt. Vì vậy ta chỉ có thể tìm đƣợc mối liên quan thích hợp nhất giữa các biến. Có nghĩa là, chất lƣợng số liệu nhƣ thế nào thì cho ra kết quả nghiên cứu sẽ nhƣ thế ấy. Điều này đƣợc thể hiện cụ thể qua phần ứng dụng. 4 1.1.2. Hồi quy tuyến tính a) Mô hình của tổng thể Hàm hồi quy tổng thể (Population Regression Funtion) là hàm hồi quy đƣợc xây dựng dựa trên nghiên cứu khảo sát tổng thể. Cho Y là biến phụ thuộc, và ki biến độc lập X1i , X 2i , X 3i ,..., X ki . Phân tích hồi quy của Y theo X là tìm dạng phụ thuộc hàm giữa chúng. Hàm hồi quy tổng thể (PRF) có dạng E (Y / X 1i , X 2i ,..., X ki )  0  1 X 1i   2 X 2i  3 X 3i  ...   k X ki ; cho biết giá trị trung bình của Y sẽ thay đổi nhƣ thế nào khi nhận các giá trị X khác nhau. Trên thực tế, đối với một quan sát cụ thể thì giá trị biến phụ thuộc lệch khỏi kỳ vọng toán, do đó Yi  E Y / X1i , X 2i ,..., X ki    i  0  1 X1i  2 X 2i  3 X 3i  ...   k X ki   i ; Sự khác biệt giữa giá trị thực tế và giá trị đo lƣờng lý thuyết tạo ra đƣợc thể hiện qua thành phần nhiễu ngẫu nhiên  i . Nhiễu ngẫu nhiên  i (hay phần dƣ) là thuật ngữ dùng để mô tả bất kỳ đại lƣợng nào còn lại của Y mà không đƣợc giải thích bởi X. Nhiễu ngẫu nhiên hình thành từ nhiều nguyên nhân, trong đó phải kể đến các nguyên nhân sau: sự mơ hồ của lý thuyết, dữ liệu không có sẵn, các biến cốt lỗi và biến ngoại vi, bỏ sót biến giải thích, sai số khi đo lƣờng biến phụ thuộc, các tác động không tiên đoán đƣợc, dạng hàm hồi quy không phù hợp,… Trong thực tế hiếm khi chúng ta có số liệu của tổng thể mà chỉ có số liệu mẫu, do đó ta phải sử dụng dữ liệu mẫu để ƣớc lƣợng hàm hồi quy tổng thể. Hàm này đƣợc gọi là hàm hồi quy mẫu SRF (Sample Regression Funtion). b) Mô hình hồi quy mẫu Hàm hồi quy mẫu đƣợc xác định nhƣ sau: Yˆi  ˆ0  ˆ1 X1i  ˆ2 X 2i  ˆ3 X 3i  ...  ˆk X ki ; Yˆi  ˆ0  ˆ1 X1i  ˆ2 X 2i  ˆ3 X 3i  ...  ˆk X ki  ˆi . Trong đó ˆk : Ƣớc lƣợng điểm cho  k , 5 Yˆ : Ƣớc lƣợng cho E (Y / X 1i , X 2i ,..., X ki ) , ˆi : Ƣớc lƣợng điểm cho  i . c) Phƣơng pháp bình phƣơng tối tiểu (OLS) Giả sử ta có n quan sát của Y , X1 , X2 ,..,Xk  là  Yi , X1i , X2i ,..,Xki  , (i  1, n) . Hàm hồi quy tổng thể ngẫu nhiên đối với từng quan sát nhƣ sau: Y1   0  1 X 11   2 X 21  3 X 31  ...   k X k1  1 ; Y2   0  1 X 12   2 X 22  3 X 32  ...   k X k 2   2 ; ............................................................................; Yn   0  1 X 1n   2 X 2 n  3 X 3n  ...   k X kn   n . Ta định nghĩa:  Y1   1   1   1 X11        Y   1 X12 Y   2 ,    2 ,    2 , X    ...   ...   ...   ... ...         1 X1n  Yn   n  n  X 21 X 22 ... X2n ... X k1   ... X k 2  ... ...   ... X kn  Khi đó hàm hồi quy tổng thể đƣợc viết dƣới dạng ma trận là Y  X    ˆ1   Yˆ1   ˆ1         ˆ   Yˆ   ˆ  2 2 Yˆ   , ˆ   , ˆ   2  ...  ...   ...     ˆ   ˆ  ˆ   n  Yn   n  Đặt Khi đó hàm hồi quy mẫu viết dƣới dạng ma trận nhƣ sau: Yˆ  Xˆ , Y  Yˆ  ˆ  Xˆ  ˆ ; n L   ˆi2  ˆT ˆ  (Y  X ˆ )T (Y  X ˆ ) i 1  (Y T  ˆ T X T )(Y  X ˆ )  Y T Y  Y T X ˆ  ˆ T X T Y  ˆ T X T X ˆ (1.1)  Y T Y  2 ˆ T X T Y  ˆ T X T X ˆ Các giá trị ˆ0 , ˆ j đƣợc ƣớc lƣợng bằng phƣơng pháp bình phƣơng tối thiểu, nghĩa là tìm ˆ sao cho L đạt giá trị nhỏ nhất. Khi đó ta có kết quả: ˆ  ( X T X ) 1 ( X T Y ) 6 1.1.3. Hồi quy logistic a) Hồi quy logistic Hồi quy logistic là một kỹ thuật phân tích hồi quy trong đó biến phụ thuộc là một biến nhị phân. Thông thƣờng Y đƣợc mã hóa là 1 khi biến cố khảo sát xảy ra (thành công), ngƣợc lại Y đƣợc mã hóa là 0 khi biến cố khảo sát không xảy ra (thất bại). Khi xây dựng đƣờng hồi quy logistic, mỗi giá trị của biến phụ thuộc sẽ bị ảnh hƣởng bởi các giá trị nhất định của một tập hợp các biến độc lập x1 , x2 ,..., xk . Ngƣời ta thƣờng nhóm các quan sát của nhiều biến độc lập gần nhau để biến phụ thuộc nhận cùng một giá trị. Khi các dữ liệu đƣợc nhóm lại nó sẽ dễ dàng hơn để ghi lại số lƣợng thành công và thất bại của mỗi nhóm, hơn là ghi lại một chuỗi dài 0 và 1. b) Odds và tỷ số odds Odds của một biến cố xảy ra đƣợc định nghĩa là tỷ số giữa xác suất của biến cố xảy ra P ( A) với xác suất của biến cố không xảy ra 1  P( A) . Odds của biến cố A đƣợc ký hiệu là odds(A). odds( A)  P(A) 1  P( A) Tỷ số odds của hai biến cố A và B xảy ra là tỷ số của odds( A) và odds ( B ) . Kí hiệu: OR( A, B) . OR( A, B)  odds ( A) P( A) 1  P( B)   odds ( B) 1  P( A) P( B) Nhận xét: Odds của một biến cố đã xảy ra là con số so sánh số lần xác suất xảy ra và không xảy ra của một biến cố. Trong khi đó OR( A, B) là con số so sánh số lần của odds( A) và odds( B) . 1.2. HỒI QUY ĐA THỨC ĐỊA PHƢƠNG 1.2.1. Hồi quy đa thức địa phƣơng Khi xây dựng một mô hình hồi quy, nếu mối quan hệ giữa biến phụ thuộc và các biến độc lập là tuyến tính thì việc xây dựng mô hình sẽ đƣợc thực hiện nhƣ phần trên đã trình bày. Tuy nhiên, khi xây dựng một mô hình hồi quy, mối quan hệ giữa biến phụ thuộc và các biến độc lập không phải lúc nào 7 cũng là tuyến tính. Trong trƣờng hợp, các mối quan hệ không tuyến tính và không có điều kiện để xác định đƣợc dạng của mô hình hồi quy thì bằng cách nào xác định đƣợc dạng của mô hình hồi quy. Cleveland (1979) lần đầu tiên đề xuất mô hình hồi quy địa phƣơng trơn và để xây dựng một mô hình hồi quy tiếp tục đƣợc phát triển bởi Cleveland và Devlin (1988) đây cũng là tiền đề cho các nghiên cứu về sau. Các kỹ thuật mà ông đề nghị đã trở thành những thuật toán cơ bản đƣợc sử dụng trong các phần mềm thống kê. Sau đây chúng ta sẽ khảo sát chi tiết hơn về vấn đề này. Nhƣ đã trình bày ở trên, Cleveland đã đề xuất một mô hình hồi quy đa thức địa phƣơng thay vì một sự phù hợp tuyến tính cho các ƣớc lƣợng tổng thể. Cụ thể, ta xét trƣờng hợp hồi quy đơn biến với một biến phụ thuộc và một biến độc lập. Thay vì với dạng tuyến tính là y     x   thì một mô hình hồi quy đa thức bậc p trong một biến độc lập x sẽ có dạng sau y    1 x   2 x 2  ...   p x p   Ta thấy rằng, với p  1 thì sự phù hợp là tuyến tính, p  2 thì sự phù hợp là bậc hai,… Vấn đề đặt ra là xác định bậc của đa thức nhƣ thế nào. Điều này phụ thuộc vào nhiều yếu tố nhƣ dữ liệu, tính chủ quan của nhà nghiên cứu, những điều kiện đã biết trƣớc đó,… 1.2.2. Suy luận thống kê cho các hàm hồi quy đa thức địa phƣơng Hồi quy đa thức là một phƣơng pháp phổ biến, đƣợc xây dựng trên phƣơng pháp “cổ điển”, là hồi quy bình phƣơng tối thiểu tuyến tính và phi tuyến bằng cách làm phù hợp các mô hình đơn giản từ tập con địa phƣơng từ một dữ liệu có sẵn để mô tả một phần xác định trong phƣơng sai. Vì vậy, hồi quy đa thức địa phƣơng còn nhiều trở ngại. Một trong các trở ngại là các giá trị quan sát có thể nằm xa, ảnh hƣởng nhiều đến đƣờng cong cần ƣớc lƣợng. Một khó khăn khác là mô hình mô tả bộ số liệu càng chính xác thì bậc của đa thức càng tăng và ta không thể kiểm soát đƣợc. Rõ ràng, khi chọn một mô hình dạng y  g (t )   cho bộ số liệu bằng phƣơng pháp bình phƣơng bé nhất mà không đặt một ràng buộc nào lên đƣờng cong (gọi là hồi quy phi tham số), thì tổng bình phƣơng các sai số sẽ có giá trị nhỏ nhất là 0 nếu nhƣ ta chọn g là đƣờng cong nội suy các điểm dữ liệu đã cho, chẳng hạn nhƣ ta có thể chọn g là đƣờng gấp khúc nối các điểm (ti , Yi ) . 8 Ví dụ: Xét các điểm dữ liệu >t <- c(2.45, 2.7, 2.9, 3.05, 3.4, 3.6, 3.95, 4.1, 4.6, 5, 5.45, 5.8, 6, 6.2, 6.35, 7, 7.4, 7.85, 8.15, 8.8, 9.1, 9.55, 9.7, 10, 10.2) >Y <- c(0.123, 0.5, 0.635, 0.558, 1.057, 1.137, 1.144, 1.194, 1.562, 1.582, 1.501, 1.737, 1.822, 1.866, 1.93,1 .8, 2.088, 2.179, 2.166, 2.112, 2.303, 2.294, 2.386, 2.236, 2.31) > DT <- data.frame(t, Y) > plot(t, Y, ylim = c(0, 2.5), xlim = c(0, 14)) 0.0 0.5 1.0 Y 1.5 2.0 2.5 > lines(Y ~ t) 0 2 4 6 8 10 12 14 t Hình 1.2: g(t) là đa thức tuyến tính từng khúc. Nếu đặt thêm điều kiện trơn trên g thì cũng không quá khác biệt, ta đƣợc đƣờng cong trơn đi qua tất cả các điểm dữ liệu. > lines(spline (t, Y)) 9 2.5 2.0 1.5 0.0 0.5 1.0 Y 0 2 4 6 8 10 12 14 t Hình 1.3: g(t) là đƣờng cong trơn nội suy các điểm dữ liệu. Rõ ràng, các đƣờng cong đƣợc chọn nhƣ trên không thể dùng để “giải thích” cho bộ số liệu đã cho. Bởi vì, mặc dù các đƣờng cong đƣợc chọn theo cách này rất “gần” với bộ số liệu nhƣng lại có quá nhiều dao động thất thƣờng, khó cho việc dự đoán một quan sát mới. Nhƣ vậy, trong trƣờng hợp hồi quy phi tham số (với một biến độc lập), ta phải chọn đƣờng cong g sao cho vừa phản ánh đƣợc bộ số liệu, vừa có thể sử dụng để dự đoán các quan sát khác. Để đạt đƣợc sự cân bằng giữa hai mục đích này, ta phải xác định đƣợc độ biến thiên của đƣờng cong g đồng thời chọn g càng “gần” đám mây điểm càng tốt. Trƣớc khi xem xét ƣớc lƣợng hồi quy đa thức địa phƣơng, yêu cầu cần một độ đo khoảng cách từ tiêu điểm đó là : zi  xi  x0 h Trong đó, số hạng zi đo khoảng cách cùng tỷ lệ và có dấu giữa giá trị x cho quan sát thứ i và tiêu điểm x0 . Thang nhân tử h , đƣợc gọi là độ rộng (bandwidth) của ƣớc lƣợng hạt nhân, kiểm soát chiều rộng biên. Tất nhiên, điều này có nghĩa là việc lựa chọn h sẽ ảnh hƣởng đến ƣớc lƣợng phi tham số là thô hoặc trơn nhƣ thế nào. Có thể hiểu là, các giá trị nhỏ của h sẽ đƣa ra các sự phù hợp thô hơn và đƣợc xây dựng bằng cách nội suy giữa mỗi giá trị của y . Mặt khác, các giá trị lớn hơn 10 của h sẽ đƣa ra sự phù hợp trơn mà trong quá trình xây dựng có thể bỏ lỡ một số chi tiết địa phƣơng. Bây giờ chúng ta cần một hàm để gán các trọng số thực tế vào dữ liệu. Đƣa ra hàm trọng số nhƣ là một hàm hạt nhân K ( z ) . Hàm hạt nhân gán trọng số lớn nhất vào các quan sát gần x0 , các quan sát có một giá trị nhỏ zi và hàm áp dụng các trọng số ít hơn có đối xứng và trơn khi giá trị của z tăng. Hàm hạt nhân đƣợc áp dụng cho zi để tính toán một trọng số đối với mỗi quan sát. wi  K [( xi  x0 ) / h] Hiện tại ta chƣa xác định đƣợc hàm hạt nhân nào tốt nhất. Tuy nhiên, Cleveland đề nghị sử dụng hạt nhân bậc ba   1 z 3  K r (z)   0  3 khi z 1 khi z 1 Tiếp theo, mô hình hồi quy đa thức địa phƣơng làm phù hợp trong mỗi khoảng biến thiên của x (đƣợc gọi là bin) bằng cách sử dụng phƣơng pháp bình phƣơng tối thiểu có trọng số w i . Cụ thể, ƣớc lƣợng mô hình hồi quy địa phƣơng sau đây: yi x x2 xp     1 i   2 i 2  ...   p i p  i ; wi wi wi wi wi Mô hình này cực tiểu hóa tổng bình phƣơng các phần dƣ có trọng số n n i 1 i 1  w i i2   w i (Yi  ˆ1*  ˆ2* X i  ...  ˆ p* X P )2  min . Trong đó, ˆ1* , ˆ2* ,...,  p* là các ƣớc lƣợng bình phƣơng tối thiểu có trọng số, với các trọng số wi đƣợc tính nhƣ sau: wi  1  i2 , (i ),  i2  0 Một phù hợp địa phƣơng mới đƣợc ƣớc lƣợng lặp lại với một tập hợp các trọng số đƣợc cập nhật cho đến khi sự thay đổi trong các ƣớc lƣợng địa phƣơng trong một mức độ quy định cho phép. Cuối cùng, giá trị đƣợc làm phù hợp cho y đƣợc tính tại x0 . Quá trình này đƣợc lặp lại sau đó trong mỗi bin, và tập hợp các giá trị làm phù hợp đƣợc nối với các đoạn thẳng để tạo thành ƣớc lƣợng phi tham số. Biện pháp hồi quy địa phƣơng có thể đƣợc thực hiện mà không có trọng số. Thực tế, sự vắng mặt của các trọng số xác định sự khác nhau giữa loess và lowess. Loess là viết tắt cho hồi quy địa phƣơng, trong khi 11 lowess là viết tắt cho hồi quy có trọng số địa phƣơng. Sự khác biệt giữa hai hồi quy này thƣờng là khả năng tối thiểu trong thực tế. Việc lựa chọn độ rộng (bandwidth) là quan trọng cho hồi quy đa thức địa phƣơng (LPR), bởi vì độ rộng (bandwidth) điều chỉnh sự phù hợp tổng thể là trơn nhƣ thế nào. Thay vì xác định độ rộng theo số lƣợng các quan sát ở hai bên tiêu điểm, thì ta xác độ rộng theo tỷ lệ của các quan sát đƣợc chứa trong mỗi cửa sổ. Tỉ lệ này của các dữ liệu đƣợc gọi là span, s , của một hồi quy địa phƣơng trơn. Số lƣợng các quan sát chứa trong mỗi cửa sổ khi đó là m   sn , ở đây các dấu ngoặc vuông nghĩa là làm tròn đến số nguyên gần nhất và n là tổng số quan sát. 1.2.3. Các lựa chọn mô hình hóa phi tham số a) Span Việc lựa chọn span là lựa chọn quan trọng nhất mà một nhà phân tích phải thực hiện khi sử dụng hồi quy phi tham số. Điều này tại sao? Đối với nhiều mô hình thống kê, thƣờng giảm bớt độ chênh lệch đối với phƣơng sai tăng, hoặc giảm phƣơng sai đối với độ chênh lệch tăng. Với hồi quy phi tham số trơn, sự cân bằng này đƣợc tóm lƣợc bằng sự lựa chọn span. Nếu span là quá lớn, ƣớc lƣợng hồi quy phi tham số sẽ bị chệch, nhƣng nếu span là quá nhỏ, ƣớc lƣợng sẽ không phù hợp với phƣơng sai tăng cao và sẽ ảnh hƣởng đến độ tin cậy đƣợc ƣớc lƣợng. Mục tiêu trong việc lựa chọn span là để đƣa ra phù hợp trơn có thể mà không làm sai lệch dạng cơ bản trong các dữ liệu (Cleveland 1993). Tham số span lý tƣởng cực tiểu hóa cả phƣơng sai lẫn độ chênh lệch đề nghị một tiêu chuẩn sai số bình phƣơng trung bình cho việc lựa chọn span. Phƣơng pháp dễ nhất và phổ biến nhất đƣợc sử dụng để lựa chọn span là phép thử trực quan và sai. Tiêu chuẩn thực hành cho phƣơng pháp thử và sai là bắt đầu với một thiết lập span 0.50. Nếu ƣớc lƣợng hồi quy phi tham số đƣợc chọn làm phù hợp là quá thô, chúng ta tăng span bởi một số gia nhỏ với một mức tăng 0.10 là một lƣợng gia hợp lý. Nếu sự phù hợp vẫn quá thô, tăng span một lần nữa. Nếu thiết lập span ban đầu hoặc một sự gia tăng trong span đƣa ra một phù hợp trơn, nên thấy rằng span có thể giảm mà không làm cho sự phù hợp quá thô. b) Bậc đa thức Một bậc đa thức cao hơn sẽ cung cấp một xấp xỉ của trung bình cơ bản tốt hơn một đa thức bậc thấp hơn, nghĩa là một đa thức bậc cao hơn sẽ có ít độ chênh lệch. Tuy nhiên, một mô hình đa thức bậc cao hơn có hệ số nhiều hơn 12 dẫn đến tính biến thiên lớn hơn và sẽ có xu hƣớng không phù hợp với dữ liệu. Trong thực tế bậc đa thức và span có các tác dụng gây nhiễu trên các ƣớc lƣợng hồi quy phi tham số. Nếu giữ span không đổi, và so sánh các phù hợp tuyến tính địa phƣơng với các phù hợp bậc hai địa phƣơng, phù hợp bậc hai sẽ là biến thiên hơn, nhƣng có thể bù đắp cho sự biến thiên gia tăng bằng cách điều chỉnh span. Tiêu chuẩn thực hành là chọn một đa thức bậc thấp và sử dụng span để điều chỉnh sự phù hợp tổng thể (Loader 1999). Thực tế, Cleveland (1993) không tán thành các hồi quy đa thức địa phƣơng có bậc cao hơn hai, vì sự phù hợp địa phƣơng của một bậc cao hơn hiếm khi cải thiện sự phù hợp nhƣng sử dụng các tham số không liên quan. Trong thực hành, bậc thƣờng đƣợc thiết lập đến bậc hai và không đƣợc điều chỉnh. 1.2.4. Kết luận Mô hình hồi quy đa thức địa phƣơng cung cấp một công cụ tính toán linh hoạt và mạnh mẽ cho ƣớc lƣợng các mối quan hệ phi tuyến. Phần lớn sức mạnh của các mô hình này bắt nguồn từ khả năng kiểm định sự phù hợp phi tham số so với mô hình tuyến tính hoặc các mô hình phi tuyến nhƣng có các tham số khác. Mô hình hồi quy đa thức địa phƣơng cũng có thể đƣợc mở rộng ra các thiết lập đa biến. Tuy nhiên sẽ có nhiều khó khăn trong cách thiết lập đa biến, các mô hình này cung cấp phƣơng tiện duy nhất cho việc xác định các tác động tƣơng tác. Đăc biệt, mối quan tâm phải đƣợc thực hiện để tránh việc không phù hợp với dữ liệu bởi thiết lập tham số span nhỏ. Hơn nữa, các nhà phân tích cần phải cẩn thận để tránh không giải thích đƣợc các trƣờng hợp của phi tuyến tính địa phƣơng. Trong phần tiếp theo sẽ trình bày một hình thức khác của làm trơn hàm spline. Trong nhiều cách thiết lập, làm trơn hàm spline có nhiều thuận lợi hơn mô hình hồi quy đa thức địa phƣơng vì các hàm spline có xem xét độ khúc khuỷu và đây là lý do tại sao sử dụng hàm spline sẽ thích hợp hơn hồi quy đa thức địa phƣơng. 1.3. HÀM SPLINE Làm trơn hàm spline là kỹ thuật sử dụng biểu đồ tán xạ để xây dựng mô hình. Thực sự, việc làm trơn biểu đồ tán xạ cơ bản không có nhiều điểm khác biệt giữa hàm spline và mô hình hồi quy đa thức địa phƣơng. Tuy nhiên, các hàm spline có lợi thế hơn hồi quy đa thức địa phƣơng. 13  Thứ nhất, các hàm spline có một cơ sở phân tích tốt hơn hồi quy đa thức địa phƣơng vì làm trơn hàm spline cung cấp các giá trị phù hợp có sai số của bình phƣơng trung bình tốt nhất.  Thứ hai, một loại hàm spline, hàm spline trơn đƣợc xây dựng để ngăn chặn sự không phù hợp và đây cũng là mối quan tâm nổi bật trong việc làm trơn phi tham số.  Thứ ba, đã có một số tiến bộ trong các phƣơng pháp đƣợc sử dụng để ƣớc lƣợng các hàm spline, trong khi đó mô hình hồi quy đa thức địa phƣơng vẫn chƣa có bƣớc tiến mới. Do đó, phần mềm sử dụng cho việc xây dựng mô hình để làm phù hợp của các mô hình spline thƣờng tốt hơn phần mềm mô hình hồi quy đa thức địa phƣơng. Ví dụ, hầu hết các khai triển của hàm spline đƣa ra các độ tin cậy, đây là đều không thể thực hiện đƣợc khi làm trơn bằng hồi quy đa thức địa phƣơng. Hơn nữa sự khác biệt trong các thuật tính toán dự đoán sẽ rõ ràng hơn khi thực hiện làm trơn tự động. Vì vậy, các hàm spline dễ dàng kết hợp hơn với ƣớc lƣợng phi tham số, và chúng đã trở thành phƣơng pháp làm trơn của các mô hình hồi quy phi tham số. Sau đây sẽ trình bày các vấn đề cơ bản có liên quan đến hàm spline. 1.3.1. Hàm Spline hồi quy đơn Thuật ngữ “spline” ban đầu đƣợc xem nhƣ một công cụ đƣợc sử dụng để vẽ đƣờng cong. Đối với các mục đích thống kê, các hàm spline là các hàm hồi quy từng khúc mà điều kiện ràng buộc là để kết nối tại các điểm đƣợc gọi là các điểm nút. Dạng đơn giản nhất của các hàm spline là các mô hình hồi quy với một tập hợp các biến giả ở bên phải của mô hình đƣợc sử dụng để ràng buộc hàm hồi quy phải đổi hƣớng tại một vài điểm dọc theo khoảng biến thiên của X . Đối với các hàm spline, hồi quy đơn giản nhất của các hàm từng khúc là tuyến tính. Về bản chất, ta làm phù hợp với đƣờng hồi quy riêng biệt trong các khu vực giữa các điểm nút, và các điểm nút nối các phù hợp hồi quy từng khúc với nhau. Các hàm spline là một mô hình hồi quy đa thức địa phƣơng với các phù hợp địa phƣơng giữa các điểm nút thay vì trong các bin mà cho phép ƣớc lƣợng dạng hàm từ dữ liệu. Với các hàm spline, chúng ta phải lựa chọn bậc của đa thức cho các hàm hồi quy từng khúc, số lƣợng và vị trí các điểm nút. Với các hàm spline, thấy rằng trong khi phù hợp là bất biến với một số các lựa chọn mô hình, nhà phân tích phải tập trung vào sự phù hợp nên trơn nhƣ thế nào. Đối với một số loại 14
- Xem thêm -