TRƢỜNG ĐẠI HỌC CẦN THƠ
KHOA KHOA HỌC TỰ NHIÊN
BỘ MÔN TOÁN
LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC
MÔ HÌNH HỒI QUY PHI THAM SỐ
GIÁO VIÊN HƢỚNG DẨN
SINH VIÊN THỰC HIỆN
ThS. TRẦN PHƢỚC LỘC
TRẦN DÂN AN
MSSV: 1117473
Ngành: Toán Ứng Dụng – K37
Cần Thơ, tháng 12/2014
LỜI CẢM ƠN
---------Luận văn là bảng tổng hợp các kết quả thu đƣợc trong quá trình nghiên
cứu và học tập. Tuy nhiên để có đƣợc nhƣ vậy không phải là của cá nhân em.
Sự thành công của luận văn là kết quả của quá trình học đại học, của sự dạy dỗ
và dìu dắt của các Thầy, Cô trong bộ môn Toán Khoa Khoa học Tự nhiên của
Trƣờng Đại Học Cần Thơ, sự giúp đỡ của bạn bè, của gia đình.
Trƣớc hết, em xin gửi lời biết ơn sâu sắc đến Th.s Trần Phƣớc Lộc, Thầy
đã tận tình hƣớng dẫn, truyền đạt những kiến thức hết sức quý báu trong suốt
quá trình thực hiện đề tài. Sự hƣớng dẫn tận tình, chu đáo của Thầy là nguồn
động viên giúp em vƣợt qua những khó khan và hoàn thành đƣợc luận văn
này.
Em xin chân thành gửi lời cảm ơn đến quý Thầy, quý Cô trong khoa
Khoa học Tự nhiên trƣờng Đại học Cần Thơ đã tận tâm truyền dạt các kiến
thức cho em trong thời gian học tại trƣờng.
Em xin cảm ơn cô cố vấn Lê Thị Mỹ Xuân đã động viên và giúp đỡ em
trong suốt quá trình học tập của mình. Xin cảm ơn các anh, chị đã đi trƣớc,
cùng các bạn đã luôn sát cánh, ủng hộ và giúp đỡ tôi trong quá trình học tập
cũng nhƣ thời gian làm luận văn.
Em xin gửi lời cảm ơn chân thành và sâu sắc đến Gia đình em, đã luôn
giúp đỡ động viên và tạo điều kiện thuận lợi cho em trong thời gian qua.
Mặc dù, em đã cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và
năng lực của mình, tuy nhiên luận văn không thể tránh khỏi những thiếu sót.
Em rất mong nhận đƣợc những đóng góp quý báu của quý Thầy, Cô và các
bạn để luận văn đƣợc hoàn thiện.
Xin chân thành cảm ơn!.
Cần Thơ, ngày 01 tháng 12 năm 2014
TRẦN DÂN AN
i
DANH MỤC BẢNG
Bảng 3.1: Các biến quan sát……………………………………………….…53
Bảng 3.2: Các giá trị AIC cho số lƣợng các điểm nút khác nhau………..…..59
ii
DANH MỤC HÌNH
Hình 1.1: Hồi quy tuyến tính đơn và Hồi quy parabol ...................................... 4
Hình 1.2: g(t) là đa thức tuyến tính từng khúc. ................................................. 9
Hình 1.3: g(t) là đƣờng cong tron nội suy các điểm dữ liệu ............................ 10
Hình 3. 1 Biểu đồ tán xạ thể hiện sự phân tán Tổng mức tiêu dùng hàng hóa
và dịch vụ qua các tháng .................................................................................. 52
Hình 3.2: Biểu đồ tán xạ tỷ giá trao đổi ngoại tệ ở Việt Nam qua các tháng. . 53
Hình 3.3: Biểu đồ phân tán thể hiện sự ảnh hƣởng của tỷ giá trao đổi ngoại tệ
đến tổng mức tiêu dùng hàng hóa và dịch vụ. ................................................. 54
Hình 3.4: Ƣớc lƣợng đa thức địa phƣơng bậc 3 và 4 ...................................... 54
Hình 3.5: Hàm loess và hàm lowess và OLS................................................... 55
Hình 3.6: Khoảng tin cậy 95% cho khoảng tin cậy loess ................................ 56
Hình 3.7: Ƣớc lƣợng bằng hàm B-spline với bậc tự do bằng 4 ....................... 56
Hình 3.8: Ƣớc lƣợng hàm spline tự nhiên với bậc tự do là 4 .......................... 57
Hình 3.9: Hồi quy phi tham số đơn biến.......................................................... 58
Hình 3.10: Mô hình hồi quy đa biến và ảnh hƣởng của từng biến đến Tổng
mức tiêu dung hàng hóa và dịch vụ. ................................................................ 59
Hình 3.11: Ảnh hƣởng của từng biến lên Tổng mức tiêu dùng hàng hóa và
dịch vụ bằng mô hình cộng thêm với độ tin cậy 95% ..................................... 62
iii
MỤC LỤC
LỜI CẢM ƠN .............................................................................................................. i
DANH MỤC BẢNG ................................................................................................... ii
DANH MỤC HÌNH ................................................................................................... iii
MỤC LỤC .................................................................................................................. iv
PHẦN MỞ ĐẦU ......................................................................................................... 1
CHƢƠNG 1: CƠ SỞ LÝ THUYẾT ......................................................................... 3
1.1. MÔ HÌNH HỒI QUY............................................................................................ 3
1.1.1. Giới thiệu ................................................................................................... 3
1.1.2. Hồi quy tuyến tính ...................................................................................... 5
1.1.3. Hồi quy logistic .......................................................................................... 7
1.2. HỒI QUY ĐA THỨC ĐỊA PHƢƠNG ................................................................. 7
1.2.1. Hồi quy đa thức địa phƣơng ....................................................................... 7
1.2.2. Suy luận thống kê cho các hàm hồi quy đa thức địa phƣơng ..................... 8
1.2.3. Các lựa chọn mô hình hóa phi tham số .................................................... 12
1.2.4. Kết luận .................................................................................................... 13
1.3. HÀM SPLINE ..................................................................................................... 13
1.3.1. Hàm Spline hồi quy đơn .......................................................................... 14
1.3.2. Các mô hình hàm Spline khác và cơ sở ................................................... 16
1.3.3. Cơ sở hàm spline bậc hai và bậc ba ......................................................... 16
1.3.4. Hàm spline tự nhiên ................................................................................. 17
1.3.5. Hàm B-spline ........................................................................................... 18
1.3.6. Số lƣợng và vị trí các điểm nút ................................................................ 18
CHƢƠNG 2: HỒI QUY PHI THAM SỐ............................................................... 21
2.1. GIỚI THIỆU ....................................................................................................... 21
2.2. HỒI QUY PHI THAM SỐ ĐƠN BIẾN .............................................................. 21
2.2.1. Làm trơn tuyến tính ................................................................................. 22
2.2.2. Lựa chọn tham số làm trơn ..................................................................... 22
2.2.3. Hồi quy địa phƣơng.................................................................................. 25
2.2.4. Hồi quy hàm Spline có xét độ khúc khuỷu .............................................. 31
2.2.5. Ƣớc lƣợng phƣơng sai.............................................................................. 35
2.2.6. Độ tin cậy ................................................................................................. 37
2.3. HỒI QUY PHI THAM SỐ ĐA BIẾN ................................................................ 40
2.3.1. Hồi quy địa phƣơng.................................................................................. 41
2.3.2. Hàm Spline ............................................................................................... 42
2.3.3. Mô hình cộng thêm .................................................................................. 42
2.3.4. Mô hình phép chiếu nhanh ....................................................................... 43
2.3.5. Mô hình cây hồi quy ................................................................................ 44
2.3.6. Mô hình Mars ........................................................................................... 45
2.3.7. Mô hình tổng quát .................................................................................... 46
2.4. MỘT SỐ VẤN ĐỀ KHÁC ................................................................................. 46
2.4.1. Kiểm tra sự phù hợp của tuyến tính ......................................................... 46
2.4.2. Sự tối ƣu ................................................................................................... 47
2.4.3. Ƣớc lƣợng đạo hàm .................................................................................. 47
CHƢƠNG 3: ỨNG DỤNG ...................................................................................... 50
3.1. GIỚI THIỆU ....................................................................................................... 50
3.2. TỔNG QUAN VIỆC THỰC HIỆN .................................................................... 51
3.2.1. Số liệu ...................................................................................................... 51
iv
3.2.2. Phƣơng pháp thực hiện ............................................................................ 51
3.2.3. Vấn đề tính toán ....................................................................................... 51
3.3. PHÂN TÍCH HỒI QUY PHI THAM SỐ ........................................................... 52
3.3.1. Hồi quy phi tham số đơn biến .................................................................. 52
3.3.2 Hồi quy phi tham số đa biến ..................................................................... 59
KẾT LUẬN ............................................................................................................... 63
v
PHẦN MỞ ĐẦU
Dự báo có một vai trò rất quan trọng trong sự phát triển của tất cả các
lĩnh vực. Cho đến nay, hồi quy là một môn khoa học phức tạp và đang đƣợc
rất nhiều nhà khoa học trên các lĩnh vực khác nhau quan tâm. Có nhiều quan
điểm khác nhau đƣợc đề xuất để thực hiện dự báo. Theo quan điểm thống kê,
hai phƣơng pháp chủ yếu đƣợc sử dụng để dự báo là phƣơng pháp hồi quy và
chuỗi thời gian. Trong đó, hồi quy là một phƣơng pháp dự báo cổ điển nhƣng
đƣợc sử dụng rộng rãi trên nhiều lĩnh vực khác nhau, đặc biệt là trong các lĩnh
vực kinh tế, xã hội, y học… bởi tính đơn giản và tính thích ứng tƣơng đối cao.
Thêm vào đó, với sự phát triển mạnh mẽ của các phần mềm thống kê, khi biết
đƣợc dạng hàm hồi quy thì việc xây dựng một mô hình hồi quy mong muốn là
không quá phức tạp. Tuy nhiên, trong trƣờng hợp không có lý thuyết mạnh mẽ
cho dạng hàm thì việc ƣớc lƣợng dạng hàm thích hợp từ dữ liệu là cách tốt
nhất đƣợc tiến hành. Khi đó, để ƣớc lƣợng dạng hàm từ dữ liệu chúng ta phải
thay thế các ƣớc lƣợng tổng thể bằng các ƣớc lƣợng địa phƣơng. Các công
thức ƣớc lƣợng địa phƣơng đƣợc gọi là các mô hình hồi quy phi tham số. Vậy,
ta có thể nói rằng hồi quy phi tham số là một công cụ mạnh mẽ cho việc chuẩn
đoán và mô hình hóa tính phi tuyến.
Hồi quy phi tham số là một dạng của phân tích hồi quy mà không có một
dạng mô hình nào cho dự báo đƣợc xây dựng dựa trên thông tin thu đƣợc từ
các dữ liệu. Trong thực tiễn, các tập số liệu thƣờng rất lớn. Việc xử lý các tập
số liệu này là một vấn đề khá phức tạp và ta không thể hiểu chúng một cách rõ
ràng. Mô hình hồi quy phi tham số làm giảm các tập dữ liệu phức tạp thành
đơn giản hơn để ta hiểu đƣợc. Áp dụng đúng cách, mô hình này sẽ giữ lại các
tính năng cần thiết của các dữ liệu và loại bỏ các chi tiết không quan trọng,
trong đó nó mang tính quyết định trong việc xử lý số liệu.
Mô hình hồi quy phi tham số là một vấn đề rộng lớn, đã đƣợc nhiều nhà
khoa học nghiên cứu trên nhiều khía cạnh khác nhau. Cho nên luận văn “Hồi
quy phi tham số” sẽ chỉ tập trung vào một số vấn đề cơ bản về làm trơn đa
thức địa phƣơng, làm trơn hàm spline, phƣơng pháp chọn tham số làm trơn,…
Bên cạnh đó sẽ xây dựng mô hình hồi quy phi tham số đơn biến, đa biến và
một số mô hình phi tham số đa biến thông dụng.
Cấu trúc luận văn
Luận văn gồm có 3 chƣơng: Giới thiệu các mô hình hồi quy: hồi quy
tuyến tính, hồi quy đa thức địa phƣơng, hàm spline; Trình bày mô hình hồi
quy phi tham số: hồi quy đơn biến, hồi quy đa biến, mô hình cộng,… Ứng
1
dụng mô hình hồi quy phi tham số vào một bộ số liệu thực tế về tình hình phát
triển nền kinh tế nƣớc ta hiện nay bằng phần mềm thống kê R.
Chƣơng 1: Cơ sở lý thuyết
Chƣơng này trình bày mô hình hồi quy và các phƣơng pháp làm trơn cơ
bản bằng mô hình hồi quy đa thức địa phƣơng, các hàm spline và một số suy
luận của các mô hình này.
Chƣơng 2: Hồi quy phi tham số
Chƣơng này giới thiệu phƣơng pháp hồi quy phi tham số đơn biến và đa
biến. Trong đó trình bày về phƣơng pháp lựa chọn tham số trơn, cách xác định
độ tin cậy, xác định độ rộng,…
Chƣơng 3: Ứng dụng
Chƣơng này ứng dụng các phƣơng pháp hồi quy phi tham số ở 2 chƣơng
trƣớc cũng nhƣ lựa chọn các tham số trơn, xác định độ tin cậy, ƣớc lƣợng các
tham số bằng mô hình hồi quy đa thức địa phƣơng, mô hình cộng, mô hình cây
hồi quy,... bằng các câu lệnh đƣợc viết trên ngôn ngữ R phiên bản Rx64 3.0.1
nhằm đánh giá các yếu tố ảnh hƣởng đến tổng mức doanh thu hàng hóa và
dịch vụ tiêu dùng của nền kinh tế Việt Nam từ tháng 01/2004 đến tháng
09/2014.
2
CHƢƠNG 1
CƠ SỞ LÝ THUYẾT
1.1. MÔ HÌNH HỒI QUY
1.1.1. Giới thiệu
Để chọn một mô hình phù hợp với bộ dữ liệu đã có, luận văn cần phân
tích và mô hình hóa mối liên hệ giữa các đại lƣợng bằng một mô hình hóa tối
ƣu nhất. Phƣơng pháp này đƣợc gọi là phân tích hồi quy.
Phân tích hồi quy là nghiên cứu mối quan hệ phụ thuộc của một biến số
(hay biến phụ thuộc) theo một hay nhiều biến khác (biến độc lập) nhằm mục
đích ƣớc lƣợng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc trên cơ sở đã
biết trƣớc giá trị của các biến độc lập.
Để dễ dàng trong quá trình trình bày, luận văn ký hiệu
Y
: Giá trị của biến phụ thuộc,
X k : Giá trị của biến độc lập thứ k ,
i
: Lần quan sát thứ i ,
X ik : Lần quan sát thứ i của biến thứ k ,
n
: Tổng số các quan sát trong một mẫu.
Để có một khái niệm sơ bộ về mối quan hệ giữa hai đại lƣợng ngẫu nhiên
X và Y, ngƣời ta thƣờng biểu diễn mỗi quan sát ( xi , yi ) bởi một điểm trên mặt
phẳng tọa độ. Các điểm này hợp lại thành đám mây điểm trên mặt phẳng. Nếu
các điểm này có xu hƣớng tụ tập xung quanh một đƣờng thẳng nào đó thì ta
chọn hàm hồi quy là Y aX b . Nếu các điểm này có xu hƣớng tụ tập xung
quanh một đƣờng cong parabol thì ta chọn hàm hồi quy là Y aX 2 bX c... .
Nói chung, tùy theo “hình dạng” của đám mây điểm mà ta chọn hàm hồi quy
sao cho phù hợp.
3
Hình 1.1: Hồi quy tuyến tính đơn và Hồi quy parabol
Biến phụ thuộc còn đƣợc gọi là biến đƣợc giải thích, biến kết
quả, biến đƣợc dự báo, biến đƣợc hồi quy, biến phản ứng, biến nội sinh.
Biến độc lập cũng đƣợc gọi là biến giải thích, biến xảy ra, biến
dự báo, biến hồi quy, biến tác nhân, biến kiểm soát, biến ngoại sinh.
Số liệu của các biến trong phân tích hồi quy có thể thu nhập từ hai
nguồn: Số liệu điều tra thực tế và số liệu thử nghiệm. Số liệu thử nghiệm có
đƣợc nhờ vào việc tiến hành thử nghiệm theo những điều kiện nhất định nào
đó. Trong khi đó, số liệu thực tế là số liệu đƣợc thu nhập từ thực tế và không
chịu sự kiểm soát của ngƣời nghiên cứu. Có ba loại số liệu cơ bản sau:
Số liệu chuỗi thời gian: Số liệu của biến điều tra từ một thực thể tƣơng
ứng với các thời điểm khác nhau.
Số liệu chéo: Số liệu đƣợc điều tra từ các thực thể khác nhau tại cùng
một thời điểm.
Số liệu hỗn hợp (hay số liệu bảng): Loại số liệu kết hợp của hai loại số
liệu trên, nghĩa là số liệu lấy từ nhiều thực thể khác nhau tại những thời điểm
khác nhau.
Các số liệu phục vụ cho nghiên cứu trong thực tế rất phong phú. Tuy
nhiên, chất lƣợng của số liệu thƣờng không đủ tốt. Vì vậy ta chỉ có thể tìm
đƣợc mối liên quan thích hợp nhất giữa các biến. Có nghĩa là, chất lƣợng số
liệu nhƣ thế nào thì cho ra kết quả nghiên cứu sẽ nhƣ thế ấy. Điều này đƣợc
thể hiện cụ thể qua phần ứng dụng.
4
1.1.2. Hồi quy tuyến tính
a) Mô hình của tổng thể
Hàm hồi quy tổng thể (Population Regression Funtion) là hàm hồi quy
đƣợc xây dựng dựa trên nghiên cứu khảo sát tổng thể.
Cho Y là biến phụ thuộc, và ki biến độc lập X1i , X 2i , X 3i ,..., X ki . Phân tích
hồi quy của Y theo X là tìm dạng phụ thuộc hàm giữa chúng. Hàm hồi quy
tổng thể (PRF) có dạng
E (Y / X 1i , X 2i ,..., X ki ) 0 1 X 1i 2 X 2i 3 X 3i ... k X ki ;
cho biết giá trị trung bình của Y sẽ thay đổi nhƣ thế nào khi nhận các giá trị
X khác nhau.
Trên thực tế, đối với một quan sát cụ thể thì giá trị biến phụ thuộc lệch
khỏi kỳ vọng toán, do đó
Yi E Y / X1i , X 2i ,..., X ki i 0 1 X1i 2 X 2i 3 X 3i ... k X ki i ;
Sự khác biệt giữa giá trị thực tế và giá trị đo lƣờng lý thuyết tạo ra đƣợc
thể hiện qua thành phần nhiễu ngẫu nhiên i .
Nhiễu ngẫu nhiên i (hay phần dƣ) là thuật ngữ dùng để mô tả bất kỳ đại
lƣợng nào còn lại của Y mà không đƣợc giải thích bởi X. Nhiễu ngẫu nhiên
hình thành từ nhiều nguyên nhân, trong đó phải kể đến các nguyên nhân sau:
sự mơ hồ của lý thuyết, dữ liệu không có sẵn, các biến cốt lỗi và biến ngoại vi,
bỏ sót biến giải thích, sai số khi đo lƣờng biến phụ thuộc, các tác động không
tiên đoán đƣợc, dạng hàm hồi quy không phù hợp,…
Trong thực tế hiếm khi chúng ta có số liệu của tổng thể mà chỉ có số liệu
mẫu, do đó ta phải sử dụng dữ liệu mẫu để ƣớc lƣợng hàm hồi quy tổng thể.
Hàm này đƣợc gọi là hàm hồi quy mẫu SRF (Sample Regression Funtion).
b) Mô hình hồi quy mẫu
Hàm hồi quy mẫu đƣợc xác định nhƣ sau:
Yˆi ˆ0 ˆ1 X1i ˆ2 X 2i ˆ3 X 3i ... ˆk X ki ;
Yˆi ˆ0 ˆ1 X1i ˆ2 X 2i ˆ3 X 3i ... ˆk X ki ˆi .
Trong đó
ˆk : Ƣớc lƣợng điểm cho k ,
5
Yˆ : Ƣớc lƣợng cho E (Y / X 1i , X 2i ,..., X ki ) ,
ˆi : Ƣớc lƣợng điểm cho i .
c) Phƣơng pháp bình phƣơng tối tiểu (OLS)
Giả sử ta có n quan sát của Y , X1 , X2 ,..,Xk là Yi , X1i , X2i ,..,Xki , (i 1, n) .
Hàm hồi quy tổng thể ngẫu nhiên đối với từng quan sát nhƣ sau:
Y1 0 1 X 11 2 X 21 3 X 31 ... k X k1 1 ;
Y2 0 1 X 12 2 X 22 3 X 32 ... k X k 2 2 ;
............................................................................;
Yn 0 1 X 1n 2 X 2 n 3 X 3n ... k X kn n .
Ta định nghĩa:
Y1
1
1
1 X11
Y
1 X12
Y 2 , 2 , 2 , X
...
...
...
... ...
1 X1n
Yn
n
n
X 21
X 22
...
X2n
... X k1
... X k 2
... ...
... X kn
Khi đó hàm hồi quy tổng thể đƣợc viết dƣới dạng ma trận là
Y X
ˆ1
Yˆ1
ˆ1
ˆ
Yˆ
ˆ
2
2
Yˆ , ˆ , ˆ 2
...
...
...
ˆ
ˆ
ˆ
n
Yn
n
Đặt
Khi đó hàm hồi quy mẫu viết dƣới dạng ma trận nhƣ sau:
Yˆ Xˆ , Y Yˆ ˆ Xˆ ˆ ;
n
L ˆi2 ˆT ˆ (Y X ˆ )T (Y X ˆ )
i 1
(Y T ˆ T X T )(Y X ˆ )
Y T Y Y T X ˆ ˆ T X T Y ˆ T X T X ˆ
(1.1)
Y T Y 2 ˆ T X T Y ˆ T X T X ˆ
Các giá trị ˆ0 , ˆ j đƣợc ƣớc lƣợng bằng phƣơng pháp bình phƣơng tối
thiểu, nghĩa là tìm ˆ sao cho L đạt giá trị nhỏ nhất. Khi đó ta có kết quả:
ˆ ( X T X ) 1 ( X T Y )
6
1.1.3. Hồi quy logistic
a) Hồi quy logistic
Hồi quy logistic là một kỹ thuật phân tích hồi quy trong đó biến phụ
thuộc là một biến nhị phân. Thông thƣờng Y đƣợc mã hóa là 1 khi biến cố
khảo sát xảy ra (thành công), ngƣợc lại Y đƣợc mã hóa là 0 khi biến cố khảo
sát không xảy ra (thất bại).
Khi xây dựng đƣờng hồi quy logistic, mỗi giá trị của biến phụ thuộc sẽ bị
ảnh hƣởng bởi các giá trị nhất định của một tập hợp các biến độc lập
x1 , x2 ,..., xk .
Ngƣời ta thƣờng nhóm các quan sát của nhiều biến độc lập gần nhau để
biến phụ thuộc nhận cùng một giá trị. Khi các dữ liệu đƣợc nhóm lại nó sẽ dễ
dàng hơn để ghi lại số lƣợng thành công và thất bại của mỗi nhóm, hơn là ghi
lại một chuỗi dài 0 và 1.
b) Odds và tỷ số odds
Odds của một biến cố xảy ra đƣợc định nghĩa là tỷ số giữa xác suất của
biến cố xảy ra P ( A) với xác suất của biến cố không xảy ra 1 P( A) . Odds của
biến cố A đƣợc ký hiệu là odds(A).
odds( A)
P(A)
1 P( A)
Tỷ số odds của hai biến cố A và B xảy ra là tỷ số của odds( A) và
odds ( B ) . Kí hiệu: OR( A, B) .
OR( A, B)
odds ( A)
P( A) 1 P( B)
odds ( B) 1 P( A)
P( B)
Nhận xét: Odds của một biến cố đã xảy ra là con số so sánh số lần xác suất
xảy ra và không xảy ra của một biến cố. Trong khi đó OR( A, B) là con số so
sánh số lần của odds( A) và odds( B) .
1.2. HỒI QUY ĐA THỨC ĐỊA PHƢƠNG
1.2.1. Hồi quy đa thức địa phƣơng
Khi xây dựng một mô hình hồi quy, nếu mối quan hệ giữa biến phụ
thuộc và các biến độc lập là tuyến tính thì việc xây dựng mô hình sẽ đƣợc thực
hiện nhƣ phần trên đã trình bày. Tuy nhiên, khi xây dựng một mô hình hồi
quy, mối quan hệ giữa biến phụ thuộc và các biến độc lập không phải lúc nào
7
cũng là tuyến tính. Trong trƣờng hợp, các mối quan hệ không tuyến tính và
không có điều kiện để xác định đƣợc dạng của mô hình hồi quy thì bằng cách
nào xác định đƣợc dạng của mô hình hồi quy. Cleveland (1979) lần đầu tiên đề
xuất mô hình hồi quy địa phƣơng trơn và để xây dựng một mô hình hồi quy
tiếp tục đƣợc phát triển bởi Cleveland và Devlin (1988) đây cũng là tiền đề
cho các nghiên cứu về sau. Các kỹ thuật mà ông đề nghị đã trở thành những
thuật toán cơ bản đƣợc sử dụng trong các phần mềm thống kê. Sau đây chúng
ta sẽ khảo sát chi tiết hơn về vấn đề này.
Nhƣ đã trình bày ở trên, Cleveland đã đề xuất một mô hình hồi quy đa
thức địa phƣơng thay vì một sự phù hợp tuyến tính cho các ƣớc lƣợng tổng
thể.
Cụ thể, ta xét trƣờng hợp hồi quy đơn biến với một biến phụ thuộc và
một biến độc lập. Thay vì với dạng tuyến tính là y x thì một mô
hình hồi quy đa thức bậc p trong một biến độc lập x sẽ có dạng sau
y 1 x 2 x 2 ... p x p
Ta thấy rằng, với p 1 thì sự phù hợp là tuyến tính, p 2 thì sự phù hợp
là bậc hai,…
Vấn đề đặt ra là xác định bậc của đa thức nhƣ thế nào. Điều này phụ
thuộc vào nhiều yếu tố nhƣ dữ liệu, tính chủ quan của nhà nghiên cứu, những
điều kiện đã biết trƣớc đó,…
1.2.2. Suy luận thống kê cho các hàm hồi quy đa thức địa phƣơng
Hồi quy đa thức là một phƣơng pháp phổ biến, đƣợc xây dựng trên
phƣơng pháp “cổ điển”, là hồi quy bình phƣơng tối thiểu tuyến tính và phi
tuyến bằng cách làm phù hợp các mô hình đơn giản từ tập con địa phƣơng từ
một dữ liệu có sẵn để mô tả một phần xác định trong phƣơng sai. Vì vậy, hồi
quy đa thức địa phƣơng còn nhiều trở ngại. Một trong các trở ngại là các giá
trị quan sát có thể nằm xa, ảnh hƣởng nhiều đến đƣờng cong cần ƣớc lƣợng.
Một khó khăn khác là mô hình mô tả bộ số liệu càng chính xác thì bậc của đa
thức càng tăng và ta không thể kiểm soát đƣợc.
Rõ ràng, khi chọn một mô hình dạng y g (t ) cho bộ số liệu bằng
phƣơng pháp bình phƣơng bé nhất mà không đặt một ràng buộc nào lên đƣờng
cong (gọi là hồi quy phi tham số), thì tổng bình phƣơng các sai số sẽ có giá trị
nhỏ nhất là 0 nếu nhƣ ta chọn g là đƣờng cong nội suy các điểm dữ liệu đã
cho, chẳng hạn nhƣ ta có thể chọn g là đƣờng gấp khúc nối các điểm (ti , Yi ) .
8
Ví dụ: Xét các điểm dữ liệu
>t <- c(2.45, 2.7, 2.9, 3.05, 3.4, 3.6, 3.95, 4.1, 4.6, 5, 5.45, 5.8, 6, 6.2,
6.35, 7, 7.4, 7.85, 8.15, 8.8, 9.1, 9.55, 9.7, 10, 10.2)
>Y <- c(0.123, 0.5, 0.635, 0.558, 1.057, 1.137, 1.144, 1.194, 1.562,
1.582, 1.501, 1.737, 1.822, 1.866, 1.93,1 .8, 2.088, 2.179, 2.166, 2.112, 2.303,
2.294, 2.386, 2.236, 2.31)
> DT <- data.frame(t, Y)
> plot(t, Y, ylim = c(0, 2.5), xlim = c(0, 14))
0.0
0.5
1.0
Y
1.5
2.0
2.5
> lines(Y ~ t)
0
2
4
6
8
10
12
14
t
Hình 1.2: g(t) là đa thức tuyến tính từng khúc.
Nếu đặt thêm điều kiện trơn trên g thì cũng không quá khác biệt, ta đƣợc
đƣờng cong trơn đi qua tất cả các điểm dữ liệu.
> lines(spline (t, Y))
9
2.5
2.0
1.5
0.0
0.5
1.0
Y
0
2
4
6
8
10
12
14
t
Hình 1.3: g(t) là đƣờng cong trơn nội suy các điểm dữ liệu.
Rõ ràng, các đƣờng cong đƣợc chọn nhƣ trên không thể dùng để “giải
thích” cho bộ số liệu đã cho.
Bởi vì, mặc dù các đƣờng cong đƣợc chọn theo cách này rất “gần” với bộ
số liệu nhƣng lại có quá nhiều dao động thất thƣờng, khó cho việc dự đoán
một quan sát mới.
Nhƣ vậy, trong trƣờng hợp hồi quy phi tham số (với một biến độc lập), ta
phải chọn đƣờng cong g sao cho vừa phản ánh đƣợc bộ số liệu, vừa có thể sử
dụng để dự đoán các quan sát khác. Để đạt đƣợc sự cân bằng giữa hai mục
đích này, ta phải xác định đƣợc độ biến thiên của đƣờng cong g đồng thời
chọn g càng “gần” đám mây điểm càng tốt.
Trƣớc khi xem xét ƣớc lƣợng hồi quy đa thức địa phƣơng, yêu cầu cần
một độ đo khoảng cách từ tiêu điểm đó là : zi
xi x0
h
Trong đó, số hạng zi đo khoảng cách cùng tỷ lệ và có dấu giữa giá trị x
cho quan sát thứ i và tiêu điểm x0 .
Thang nhân tử h , đƣợc gọi là độ rộng (bandwidth) của ƣớc lƣợng hạt
nhân, kiểm soát chiều rộng biên. Tất nhiên, điều này có nghĩa là việc lựa chọn
h sẽ ảnh hƣởng đến ƣớc lƣợng phi tham số là thô hoặc trơn nhƣ thế nào. Có
thể hiểu là, các giá trị nhỏ của h sẽ đƣa ra các sự phù hợp thô hơn và đƣợc xây
dựng bằng cách nội suy giữa mỗi giá trị của y . Mặt khác, các giá trị lớn hơn
10
của h sẽ đƣa ra sự phù hợp trơn mà trong quá trình xây dựng có thể bỏ lỡ một
số chi tiết địa phƣơng.
Bây giờ chúng ta cần một hàm để gán các trọng số thực tế vào dữ liệu.
Đƣa ra hàm trọng số nhƣ là một hàm hạt nhân K ( z ) . Hàm hạt nhân gán trọng
số lớn nhất vào các quan sát gần x0 , các quan sát có một giá trị nhỏ zi và hàm
áp dụng các trọng số ít hơn có đối xứng và trơn khi giá trị của z tăng. Hàm
hạt nhân đƣợc áp dụng cho zi để tính toán một trọng số đối với mỗi quan sát.
wi K [( xi x0 ) / h]
Hiện tại ta chƣa xác định đƣợc hàm hạt nhân nào tốt nhất. Tuy nhiên,
Cleveland đề nghị sử dụng hạt nhân bậc ba
1 z 3
K r (z)
0
3
khi
z 1
khi
z 1
Tiếp theo, mô hình hồi quy đa thức địa phƣơng làm phù hợp trong mỗi
khoảng biến thiên của x (đƣợc gọi là bin) bằng cách sử dụng phƣơng pháp
bình phƣơng tối thiểu có trọng số w i . Cụ thể, ƣớc lƣợng mô hình hồi quy địa
phƣơng sau đây:
yi
x
x2
xp
1 i 2 i 2 ... p i p i ;
wi
wi
wi
wi wi
Mô hình này cực tiểu hóa tổng bình phƣơng các phần dƣ có trọng số
n
n
i 1
i 1
w i i2 w i (Yi ˆ1* ˆ2* X i ... ˆ p* X P )2 min .
Trong đó, ˆ1* , ˆ2* ,..., p* là các ƣớc lƣợng bình phƣơng tối thiểu có trọng số, với
các trọng số wi đƣợc tính nhƣ sau:
wi 1
i2
, (i ), i2 0
Một phù hợp địa phƣơng mới đƣợc ƣớc lƣợng lặp lại với một tập hợp các
trọng số đƣợc cập nhật cho đến khi sự thay đổi trong các ƣớc lƣợng địa
phƣơng trong một mức độ quy định cho phép. Cuối cùng, giá trị đƣợc làm phù
hợp cho y đƣợc tính tại x0 . Quá trình này đƣợc lặp lại sau đó trong mỗi bin,
và tập hợp các giá trị làm phù hợp đƣợc nối với các đoạn thẳng để tạo thành
ƣớc lƣợng phi tham số. Biện pháp hồi quy địa phƣơng có thể đƣợc thực hiện
mà không có trọng số. Thực tế, sự vắng mặt của các trọng số xác định sự khác
nhau giữa loess và lowess. Loess là viết tắt cho hồi quy địa phƣơng, trong khi
11
lowess là viết tắt cho hồi quy có trọng số địa phƣơng. Sự khác biệt giữa hai
hồi quy này thƣờng là khả năng tối thiểu trong thực tế.
Việc lựa chọn độ rộng (bandwidth) là quan trọng cho hồi quy đa thức địa
phƣơng (LPR), bởi vì độ rộng (bandwidth) điều chỉnh sự phù hợp tổng thể là
trơn nhƣ thế nào. Thay vì xác định độ rộng theo số lƣợng các quan sát ở hai
bên tiêu điểm, thì ta xác độ rộng theo tỷ lệ của các quan sát đƣợc chứa trong
mỗi cửa sổ. Tỉ lệ này của các dữ liệu đƣợc gọi là span, s , của một hồi quy địa
phƣơng trơn. Số lƣợng các quan sát chứa trong mỗi cửa sổ khi đó là m sn ,
ở đây các dấu ngoặc vuông nghĩa là làm tròn đến số nguyên gần nhất và n là
tổng số quan sát.
1.2.3. Các lựa chọn mô hình hóa phi tham số
a) Span
Việc lựa chọn span là lựa chọn quan trọng nhất mà một nhà phân tích
phải thực hiện khi sử dụng hồi quy phi tham số. Điều này tại sao? Đối với
nhiều mô hình thống kê, thƣờng giảm bớt độ chênh lệch đối với phƣơng sai
tăng, hoặc giảm phƣơng sai đối với độ chênh lệch tăng. Với hồi quy phi tham
số trơn, sự cân bằng này đƣợc tóm lƣợc bằng sự lựa chọn span. Nếu span là
quá lớn, ƣớc lƣợng hồi quy phi tham số sẽ bị chệch, nhƣng nếu span là quá
nhỏ, ƣớc lƣợng sẽ không phù hợp với phƣơng sai tăng cao và sẽ ảnh hƣởng
đến độ tin cậy đƣợc ƣớc lƣợng.
Mục tiêu trong việc lựa chọn span là để đƣa ra phù hợp trơn có thể mà
không làm sai lệch dạng cơ bản trong các dữ liệu (Cleveland 1993). Tham số
span lý tƣởng cực tiểu hóa cả phƣơng sai lẫn độ chênh lệch đề nghị một tiêu
chuẩn sai số bình phƣơng trung bình cho việc lựa chọn span. Phƣơng pháp dễ
nhất và phổ biến nhất đƣợc sử dụng để lựa chọn span là phép thử trực quan và
sai. Tiêu chuẩn thực hành cho phƣơng pháp thử và sai là bắt đầu với một thiết
lập span 0.50. Nếu ƣớc lƣợng hồi quy phi tham số đƣợc chọn làm phù hợp là
quá thô, chúng ta tăng span bởi một số gia nhỏ với một mức tăng 0.10 là một
lƣợng gia hợp lý. Nếu sự phù hợp vẫn quá thô, tăng span một lần nữa. Nếu
thiết lập span ban đầu hoặc một sự gia tăng trong span đƣa ra một phù hợp
trơn, nên thấy rằng span có thể giảm mà không làm cho sự phù hợp quá thô.
b) Bậc đa thức
Một bậc đa thức cao hơn sẽ cung cấp một xấp xỉ của trung bình cơ bản
tốt hơn một đa thức bậc thấp hơn, nghĩa là một đa thức bậc cao hơn sẽ có ít độ
chênh lệch. Tuy nhiên, một mô hình đa thức bậc cao hơn có hệ số nhiều hơn
12
dẫn đến tính biến thiên lớn hơn và sẽ có xu hƣớng không phù hợp với dữ liệu.
Trong thực tế bậc đa thức và span có các tác dụng gây nhiễu trên các ƣớc
lƣợng hồi quy phi tham số. Nếu giữ span không đổi, và so sánh các phù hợp
tuyến tính địa phƣơng với các phù hợp bậc hai địa phƣơng, phù hợp bậc hai sẽ
là biến thiên hơn, nhƣng có thể bù đắp cho sự biến thiên gia tăng bằng cách
điều chỉnh span. Tiêu chuẩn thực hành là chọn một đa thức bậc thấp và sử
dụng span để điều chỉnh sự phù hợp tổng thể (Loader 1999). Thực tế,
Cleveland (1993) không tán thành các hồi quy đa thức địa phƣơng có bậc cao
hơn hai, vì sự phù hợp địa phƣơng của một bậc cao hơn hiếm khi cải thiện sự
phù hợp nhƣng sử dụng các tham số không liên quan. Trong thực hành, bậc
thƣờng đƣợc thiết lập đến bậc hai và không đƣợc điều chỉnh.
1.2.4. Kết luận
Mô hình hồi quy đa thức địa phƣơng cung cấp một công cụ tính toán linh
hoạt và mạnh mẽ cho ƣớc lƣợng các mối quan hệ phi tuyến. Phần lớn sức
mạnh của các mô hình này bắt nguồn từ khả năng kiểm định sự phù hợp phi
tham số so với mô hình tuyến tính hoặc các mô hình phi tuyến nhƣng có các
tham số khác. Mô hình hồi quy đa thức địa phƣơng cũng có thể đƣợc mở rộng
ra các thiết lập đa biến. Tuy nhiên sẽ có nhiều khó khăn trong cách thiết lập đa
biến, các mô hình này cung cấp phƣơng tiện duy nhất cho việc xác định các
tác động tƣơng tác. Đăc biệt, mối quan tâm phải đƣợc thực hiện để tránh việc
không phù hợp với dữ liệu bởi thiết lập tham số span nhỏ. Hơn nữa, các nhà
phân tích cần phải cẩn thận để tránh không giải thích đƣợc các trƣờng hợp của
phi tuyến tính địa phƣơng.
Trong phần tiếp theo sẽ trình bày một hình thức khác của làm trơn hàm
spline. Trong nhiều cách thiết lập, làm trơn hàm spline có nhiều thuận lợi hơn
mô hình hồi quy đa thức địa phƣơng vì các hàm spline có xem xét độ khúc
khuỷu và đây là lý do tại sao sử dụng hàm spline sẽ thích hợp hơn hồi quy đa
thức địa phƣơng.
1.3. HÀM SPLINE
Làm trơn hàm spline là kỹ thuật sử dụng biểu đồ tán xạ để xây dựng mô
hình. Thực sự, việc làm trơn biểu đồ tán xạ cơ bản không có nhiều điểm khác
biệt giữa hàm spline và mô hình hồi quy đa thức địa phƣơng. Tuy nhiên, các
hàm spline có lợi thế hơn hồi quy đa thức địa phƣơng.
13
Thứ nhất, các hàm spline có một cơ sở phân tích tốt hơn hồi quy
đa thức địa phƣơng vì làm trơn hàm spline cung cấp các giá trị
phù hợp có sai số của bình phƣơng trung bình tốt nhất.
Thứ hai, một loại hàm spline, hàm spline trơn đƣợc xây dựng để
ngăn chặn sự không phù hợp và đây cũng là mối quan tâm nổi bật
trong việc làm trơn phi tham số.
Thứ ba, đã có một số tiến bộ trong các phƣơng pháp đƣợc sử dụng
để ƣớc lƣợng các hàm spline, trong khi đó mô hình hồi quy đa
thức địa phƣơng vẫn chƣa có bƣớc tiến mới.
Do đó, phần mềm sử dụng cho việc xây dựng mô hình để làm phù hợp
của các mô hình spline thƣờng tốt hơn phần mềm mô hình hồi quy đa thức địa
phƣơng. Ví dụ, hầu hết các khai triển của hàm spline đƣa ra các độ tin cậy, đây
là đều không thể thực hiện đƣợc khi làm trơn bằng hồi quy đa thức địa
phƣơng. Hơn nữa sự khác biệt trong các thuật tính toán dự đoán sẽ rõ ràng hơn
khi thực hiện làm trơn tự động.
Vì vậy, các hàm spline dễ dàng kết hợp hơn với ƣớc lƣợng phi tham số,
và chúng đã trở thành phƣơng pháp làm trơn của các mô hình hồi quy phi
tham số. Sau đây sẽ trình bày các vấn đề cơ bản có liên quan đến hàm spline.
1.3.1. Hàm Spline hồi quy đơn
Thuật ngữ “spline” ban đầu đƣợc xem nhƣ một công cụ đƣợc sử dụng để
vẽ đƣờng cong. Đối với các mục đích thống kê, các hàm spline là các hàm hồi
quy từng khúc mà điều kiện ràng buộc là để kết nối tại các điểm đƣợc gọi là
các điểm nút. Dạng đơn giản nhất của các hàm spline là các mô hình hồi quy
với một tập hợp các biến giả ở bên phải của mô hình đƣợc sử dụng để ràng
buộc hàm hồi quy phải đổi hƣớng tại một vài điểm dọc theo khoảng biến thiên
của X . Đối với các hàm spline, hồi quy đơn giản nhất của các hàm từng khúc
là tuyến tính. Về bản chất, ta làm phù hợp với đƣờng hồi quy riêng biệt trong
các khu vực giữa các điểm nút, và các điểm nút nối các phù hợp hồi quy từng
khúc với nhau. Các hàm spline là một mô hình hồi quy đa thức địa phƣơng với
các phù hợp địa phƣơng giữa các điểm nút thay vì trong các bin mà cho phép
ƣớc lƣợng dạng hàm từ dữ liệu.
Với các hàm spline, chúng ta phải lựa chọn bậc của đa thức cho các hàm
hồi quy từng khúc, số lƣợng và vị trí các điểm nút. Với các hàm spline, thấy
rằng trong khi phù hợp là bất biến với một số các lựa chọn mô hình, nhà phân
tích phải tập trung vào sự phù hợp nên trơn nhƣ thế nào. Đối với một số loại
14
- Xem thêm -