ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC KHOA HỌC TỰ NHIÊN
PHẠM THỊ HOA
MỘT SỐ TIÊU CHUẨN LỰA CHỌN MÔ HÌNH
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội - 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC KHOA HỌC TỰ NHIÊN
PHẠM THỊ HOA
MỘT SỐ TIÊU CHUẨN LỰA CHỌN MÔ HÌNH
Chuyên ngành:
LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC
Mã số : 60 46 15
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. TRẦN MẠNH CƯỜNG
Hà Nội - 2013
MỞ ĐẦU
Lựa chọn mô hình (Model selection) là một bài toán cơ bản của thống kê
cũng như nhiều ngành khoa học khác như học máy (machine learning), kinh tế
lượng (econometrics), ... Theo R. A. Fisher có 3 bài toán chính trong thống kê
suy luận và dự báo gồm
- Xác định mô hình (model specification)
- Ước lượng tham số (estimation of model parameters)
- Dự báo (prediction)
Trước những năm 1970 hầu hết các nghiên cứu tập trung vào hai bài toán
sau với giả thiết là mô hình đã biết. Sau khi xuất hiện công trình của Akaike
(1973) thì bài toán lựa chọn mô hình thu hút được sự quan tâm của cộng đồng
làm thống kê.
Với một bộ dữ liệu đưa ra, có thể đặt vào nó rất nhiều mô hình và với các
mô hình đưa ra, mô hình nào là tốt nhất? Để trả lời cho câu hỏi trên, người ta
đã đưa ra các tiêu chuẩn thông tin để lựa chọn mô hình phù hợp như tiêu chuẩn
thông tin của Akaike (AIC) và tiêu chuẩn thông tin của Bayesian (BIC)... Việc
lựa chọn một mô hình phù hợp là trung tâm cho tất cả các công tác thống kê
với dữ liệu. Lựa chọn các biến để sử dụng trong một mô hình hồi quy là một
trong những ví dụ quan trọng. Luận văn của tôi trình bày hai tiêu chuẩn thông
tin quan trọng đó là tiêu chuẩn thông tin của Akaike và tiêu chuẩn thông tin
của Bayesian. Luận văn được chia làm ba chương
Chương 1. Kiến thức chuẩn bị
Trong chương này, tôi trình bày các kiến thức cơ bản về lượng thông tin Fisher,
ước lượng hợp lí cực đại, và các dạng của phân tích hồi quy như hồi quy tuyến
tính, hồi quy Poisson và hồi quy logistic.
Chương 2. Một số tiêu chuẩn lựa chọn mô hình
Chương này, trình bày khoảng cách Kullback- Leibler, mối liên hệ giữa ước lượng
hợp lí cực đại và khoảng cách Kullback-Leibler, định nghĩa AIC và mối liên hệ
giữa AIC và khoảng cách Kullback-Leibler, tiêu chuẩn Takeuchi, AIC hiệu chỉnh
cho hồi quy tuyến tính và chuỗi thời gian tự hồi quy, trình bày nguồn gốc và
định nghĩa của BIC.
Chương 3. Áp dụng
Trong chương này giới thiệu về phần mềm R, đưa ra một bộ dữ liệu cụ thể về bốn
phép đo trên hộp sọ của người Ai cập ở năm thời kỳ khác nhau và được lấy trong
website: ”www.econ.kuleuven.be/gerda.claeskens/public/modelselection.”,
i
áp dụng với năm mô hình ứng cử viên và dùng phần mềm R chạy để tìm giá
trị AIC và BIC cho mỗi trong số năm mô hình ứng cử viên để tìm ra mô hình
tốt nhất theo AIC và BIC đối với bộ dữ liệu này, code R cũng được tham khảo
trong website trên .
Do thời gian và trình độ còn hạn chế nên luận văn không tránh khỏi những
thiếu sót, tác giả hy vọng sẽ nhận được nhiều ý kiến đóng góp từ các thầy cô
giáo và bạn đọc để luận văn được hoàn chỉnh hơn.
ii
LỜI CẢM ƠN
Sau một thời gian học tập tại khoa Toán - Cơ - Tin học, Trường Đại học
Khoa học Tự nhiên, dưới sự hướng dẫn và chỉ bảo tận tình của TS. Trần Mạnh
Cường, tôi đã hoàn thành luận văn tốt nghiệp với đề tài: “Một số tiêu chuẩn lựa
chọn mô hình”.
Trong suốt quá trình học tập, triển khai nghiên cứu đề tài, tôi đã nhận được
rất nhiều sự giúp đỡ của các thầy cô trong bộ môn Xác suất thống kê, các thầy
cô trong khoa Toán - Cơ - Tin học, trường Đại học Khoa học Tự nhiên, Đại học
Quốc gia Hà Nội, đặc biệt là TS. Trần Mạnh Cường.
Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc tới TS. Trần Mạnh Cường
– người đã tận tình chỉ bảo, giúp đỡ tôi trong quá trình nghiên cứu đề tài. Tôi
xin gửi lời cảm ơn tới Ban giám hiệu, Phòng sau đại học, các thầy cô trong khoa
Toán - Cơ - Tin học nói chung và các thầy cô trong bộ môn xác suất thống kê Trường Đại học Khoa học Tự nhiên nói riêng đã tạo những điều kiện thuận lợi
nhất để tôi có thể hoàn thành luận văn này.
Hà nội, tháng 02 năm 2013
iii
Danh mục các kí hiệu
AIC
AICc
a.s.
BIC
BIC∗
BICexact
h(.)
H(.)
KL
L, Ln
`, `n
Np (ξ,
P
Op (n−1 )
Var
d
→
−
p
→
−
TIC
Tr
)
Tiêu chuẩn thông tin của Akaike
AIC hiệu chỉnh
hầu chắc chắn
tiêu chuẩn thông tin Bayesian
xấp xỉ của BIC
BIC chính xác
tỷ lệ nguy hiểm
tỷ lệ nguy hiểm tích lũy
khoảng cách kullback - Leibler
hàm hợp lý
loga hàm hợp lý
phân phối chuẩn của p biến ngẫu nhiên với vectơ trung bình ξ và
P
ma trận phương sai
Xn = Op (n−1 ) nghĩa là Xn /n−1 hội tụ tới 0 theo xác suất
phương sai
hội tụ theo phân phối
hội tụ theo xác suất
tiêu chuẩn thông tin Takeuchi
vết của ma trận
kết thúc chứng minh hoặc ví dụ.
iv
Mục lục
Lời cảm ơn
iii
1 Kiến thức chuẩn bị
1.1 Lượng thông tin Fisher . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Ước lượng hợp lý cực đại . . . . . . . . . . . . . . . . . . . . . . .
1.3 Hồi quy tuyến tính . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Giới thiệu mô hình hồi quy tuyến tính cổ điển . . . . . .
1.3.2 Phương pháp ước lượng bình phương cực tiểu . . . . . .
1.3.3 Tính chất ước lượng bằng phương pháp bình phương cực
tiểu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Hồi quy Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Hồi quy logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
1
1
2
4
4
5
.
.
.
7
7
8
2 Một số tiêu chuẩn lựa chọn mô hình
2.1 Tiêu chuẩn thông tin Akaike . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Khoảng cách Kullback- Leibler . . . . . . . . . . . . . . . .
2.1.2 Ước lượng hợp lý cực đại và khoảng cách Kullback- Leibler
2.1.3 Định nghĩa AIC . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.4 AIC và khoảng cách Kullback- Leibler . . . . . . . . . . . .
2.1.5 Tiêu chuẩn Takeuchi . . . . . . . . . . . . . . . . . . . . . .
2.1.6 AIC hiệu chỉnh cho hồi quy tuyến tính . . . . . . . . . . .
2.2 Tiêu chuẩn thông tin Bayesian(BIC) . . . . . . . . . . . . . . . . .
2.2.1 Nguồn gốc của BIC . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Định nghĩa BIC . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Ai là người viết ’The Quiet Don’ ? . . . . . . . . . . . . . .
10
10
10
11
17
19
24
25
28
28
30
35
3 Áp dụng
38
3.1 Giới thiệu về phần mềm R . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Áp dụng với bộ số liệu . . . . . . . . . . . . . . . . . . . . . . . . . 38
v
MỤC LỤC
Kết luận
46
Phụ lục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Tài liệu tham khảo
51
vi
Chương 1
Kiến thức chuẩn bị
1.1
Lượng thông tin Fisher
Định nghĩa 1.1.1. Cho X là biến ngẫu nhiên hoặc vectơ ngẫu nhiên có phân
bố phụ thuộc vào tham số chưa biết θ ∈ Θ, với mật độ f (x, θ), θ ∈ Θ. Giả sử rằng
R df (x,θ)
f (x, θ) khả vi theo θ và dθ dλ < ∞. Khi đó lượng thông tin Fisher về tham
X
số θ chứa trong X là
IX (θ) = Eθ [
dlnf (X, θ)
dθ
]2 .
Dễ dàng chỉ ra rằng Eθ [ dlnfdθ(X,θ) ] = 0. Do đó
dlnf (X, θ)
]
dθ
Với một điều kiện không quá chặt đặt lên f (x, θ) người ta cũng chứng minh được
IX (θ) = V ar[
d2 lnf (X, θ)
IX (θ) = −E[
]
dθ2
Chú ý: Nếu X1 , X2 là hai biến ngẫu nhiên độc lập cùng phụ thuộc vào tham
số θ thì mật độ đồng thời của X1 , X2 là:
f (x1 , x2 , θ) = fX1 (θ).fX2 (θ)
Nên:
I(X1 ,X2 ) (θ) = V ar[
dlnf (X1 , X2 , θ)
dθ
= IX1 (θ) + IX2 (θ)
] = V ar[
dlnfX1 (X1 , θ)
dθ
] + V ar[
dlnfX2 (X2 , θ)
dθ
]
Do đó nếu X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên về X, thì lượng thông tin Fisher
về tham số θ chứa trong mẫu là:
1
Chương 1. Kiến thức chuẩn bị
I(θ) = I(X1 ,X2 ,...,Xn ) (θ) = nIX1 (θ)
Ví dụ 1.1.1. Tính lượng thông tin trong mẫu đơn giản (X1 , X2 , . . . , Xn ) lấy từ
họ phân bố chuẩn với tham số (µ, σ 2 ) đối với tham số σ 2 .
Ta có hàm mật độ đồng thời của X1 , X2 , . . . , Xn là
n
1
1 X
p(X, µ, σ ) =
(Xi − µ)2 ]
n exp[−
2
2
2σ
(2πσ ) 2
2
i=1
n
n
n
1 X
2
lnp(X, µ, σ ) = − ln2π − lnσ − 2
(Xi − µ)2
2
2
2σ
2
i=1
∂ lnp(X, µ, σ 2 )
n
1
=− 2 + 4
2
∂σ
2σ
2σ
n
X
(Xi − µ)2
i=1
∂ lnp(X, µ, σ 2 )
∂ lnp(X, µ, σ 2 ) 2
)
=
V
ar(
)
⇒ IX (σ 2 ) = E(
∂σ 2
∂σ 2
n
n
= 8 V ar[(X1 − µ)2 ] = 4 .
4σ
2σ
Trường hợp nhiều chiều: Khi phân bố của X phụ thuộc N tham số
θ = (θ1 , θ2 , . . . , θN )T thì ma trận thông tin Fisher có dạng
[I(θ)]i,j = Eθ [
∂ lnf (X, θ) ∂ lnf (X, θ)
.
].
∂θi
∂θj
Đây là ma trận đối xứng, xác định không âm. Với một số điều kiện chính quy
người ta chỉ ra được rằng
[I(θ)]i,j = −Eθ [
1.2
∂ 2 lnf (X, θ)
].
∂θi ∂θj
Ước lượng hợp lý cực đại
Cho một mô hình thống kê (X, B, Pθ , θ ∈ Θ), trong đó Θ là khoảng mở trong
không gian Euclide k chiều và Pθ µ với µ là độ đo σ− hữu hạn trên B. Đặt
p(x, θ) =
2
dPθ
dµ
Chương 1. Kiến thức chuẩn bị
Nếu p(xi , θ) là hàm mật độ theo nghĩa rộng của biến ngẫu nhiên Xi thì p(x, θ) =
Qn
i=1 p(xi , θ)
Định nghĩa 1.2.1. Hàm L(X, θ) =
θ với X cố định gọi là hàm hợp lý.
Qn
i=1 p(Xi , θ)
được xét như hàm của tham ẩn
Định nghĩa 1.2.2. Thống kê θ̂(X) : X −→ Θ được gọi là ước lượng hợp lý cực
đại của tham ẩn θ nếu:
L(X, Θ̂(X)) = sup L(X, θ)
θ∈Θ
Từ định nghĩa suy ra muốn tìm ước lượng hợp lý cực đại phải tìm điểm dừng.
• Nếu θ ∈ R1 , ta giải phương trình sau gọi là phương trình hợp lý
∂L(X, θ)
= 0;
∂θ
phương trình trên tương đương với phương trình
∂ ln L(X, θ)
= 0.
∂θ
•
Nếu θ = (θ1 , . . . , θp ) thì phương trình hợp lý là
∂L(X, θ)
= 0; i = 1, p
∂θi
tương đương với phương trình
∂ lnL(X, θ)
= 0; i = 1, p
∂θi
Nghiệm của phương trình hợp lý gọi là ước lượng hợp lý cực đại. Để xét xem
nghiệm của phương trình hợp lý có là ước lượng hợp lý cực đại không thì không
dễ dàng. Người ta chứng minh được rằng nếu nghiệm của phương trình hợp lý
không phải là hằng số thì nghiệm đó sẽ làm cực đại hàm hợp lý, do đó nó là ước
lượng hợp lý cực đại.
Ví dụ 1.2.1. Giả sử (X1 , X2 , . . . , Xn ) là mẫu ngẫu nhiên từ phân phối chuẩn
N (µ; σ 2 ). Tìm ước lượng hợp lý cực đại của (µ; σ 2 ).
Ta có
L(X, µ, σ 2 ) =
P
2
1
− 2σ12 n
i=1 (Xi −µ) .
.e
n/2
2
(2πσ )
3
Chương 1. Kiến thức chuẩn bị
Khi đó phương trình hợp lý là
(
∂ lnL(X,µ,σ 2 )
∂µ
∂ lnL(X,µ,σ 2 )
∂σ 2
Pn
i=1 (Xi − µ) = 0
Pn
− 2σn2 + 2σ1 4 i=1 (Xi
=
=
− µ)2 = 0
Suy ra
(
µ̂ =
1
n
σ̂ 2 =
1.3
1.3.1
Pn
Xi = X
Pi=1
n
1
n
i=1 (Xi
− X)2 = s2
Hồi quy tuyến tính
Giới thiệu mô hình hồi quy tuyến tính cổ điển
Giả sử X1 , . . . , Xk là k biến độc lập dùng để dự báo và Y là biến phụ thuộc
cần dự báo. Ví dụ, ta giả sử Y là giá nhà ở hiện hành. Khi đó Y phụ thuộc chủ
yếu vào các yếu tố sau:
• X1 là diện tích sử dụng (m2 ),
• X2 là vị trí vùng,
• X3 là giá của năm qua,
• X4 là chất lượng xây dựng (giá xây dựng trên một m2 ).
Sự phụ thuộc giữa biến Y theo các biến X1 , . . . , Xk nói chung là rất phức tạp.
Tuy nhiên có một số trường hợp sự phụ thuộc đó tương đối đơn giản. Mô hình
hồi quy tuyến tính cổ điển khẳng định rằng Y phụ thuộc tuyến tính vào các Xi
(nghĩa là Y là một biểu thức bậc nhất của X1 , . . . , Xk ) và sai số ngẫu nhiên ε.
Như vậy,
Y = β0 + β1 X1 + . . . + βk Xk + ε,
trong đó βi , i = 0, k là các hệ số chưa biết.
Bây giờ ta tiến hành n quan sát độc lập đồng thời về k + 1 biến X1 , . . . , Xk , Y.
Giả sử các số liệu quan sát tuân theo mô hình sau:
y1 = β0 + β1 x11 + . . . + βk x1k + ε1
y2 = β0 + β1 x21 + . . . + βk x2k + ε2
.....................................................
yn = β0 + β1 xn1 + . . . + βk xnk + εn
4
Chương 1. Kiến thức chuẩn bị
trong đó các sai số ε1 , . . . , εn thỏa mãn 3 điều kiện sau:
(i) E(εj ) = 0 (việc đo đạc không chịu sai lệch hệ thống),
(ii) D(εj ) = σ 2 (phương sai không đổi hay độ chuẩn xác đo đạc như nhau)
(iii) cov(εi , εj ) = 0 với mọi i 6= j = 1, n (các sai lệch từng bước không ảnh hưởng
đến nhau)
Mô hình trên có thể viết dưới dạng ma trận như sau:
y1
1 x11 . . . x1k
β0
ε1
ε
y 1 x
21 . . . x2k β1
2
2
+ .
=
.. .. ..
.
.
. . . . . . .. .. ..
yn
1 xn1 . . . xnk
βk
εn
hoặc đơn giản hơn
(1.1)
Y = Xβ + ε,
ở đó
1 x11 . . . x1k
1 x
21 . . . x2k
X = .
;
.. ... . . . ...
1 xn1 . . . xnk
Y = [y1 , y2 , . . . , yn ]T ; β = [β0 , β1 , . . . , βk ]T ; ε = [ε1 , ε2 , . . . , εn ]T ;
và
1.E(ε) = 0,
2.cov(ε) = E(εεT ) = σ 2 In .
1.3.2
(1.2)
Phương pháp ước lượng bình phương cực tiểu
Một bài toán đặt ra là hãy dựa trên ma trận X và vectơ Y của các giá trị
quan sát hãy ước lượng vectơ tham số β và σ 2 .
Nếu chúng ta sử dụng b là giá trị thử của β thì giữa các quan sát yj và
5
Chương 1. Kiến thức chuẩn bị
b1 xj1 + . . . + bk xjk sẽ bị một độ lệch
yj − b0 − (b1 xj1 + . . . + bk xjk ),
nói chung độ lệch này sẽ khác không.
Phương pháp ước lượng bình phương tối thiểu là hãy chọn giá trị của vectơ
b sao cho
S(b) =
n
X
(yj − b0 − b1 xj1 − . . . − bk xjk )2
j=1
= (Y − Xb)T (Y − Xb) → min.
Đại lượng β̂ làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình phương
cực tiểu của β , còn
ε̂j = yj − (β̂0 + β̂1 xj1 + . . . + β̂k xjk ), j = 1, n
gọi là các phần dư của phép hồi quy. Trong trường hợp này, vì biểu thức theo
X1 , . . . , Xk là tuyến tính, nên phương trình
Ŷ = βˆ0 + β̂1 x1 + . . . + β̂k xk
được gọi là phương trình hồi quy tuyến tính mẫu.
Ta có kết quả sau:
Đặt
yˆj = βˆ0 + β̂1 xj1 + . . . + β̂k xjk
Ŷ = (ŷ1 , . . . , yˆn )T .
Mệnh đề 1.3.1. Nếu ma trận X không ngẫu nhiên có hạng k + 1 ≤ n thì ước
lượng bình phương cực tiểu có dạng:
β̂ = (X T X)−1 X T Y
Khi đó
Ŷ = X β̂ = X(X T X)−1 Y = HY,
trong đó,
H = X(X T X)−1 X T ; ε̂ = Y − Ŷ = (In − H)Y,
6
Chương 1. Kiến thức chuẩn bị
thỏa mãn
X T ε̂ = 0
và Ŷ T ε̂ = 0, (β̂ T X T ε̂ = 0).
Tổng các phần dư
n
X
ε̂2j = ε̂T ε̂ = Y T Y − Y T X β̂
j=1
1.3.3
Tính chất ước lượng bằng phương pháp bình phương cực tiểu
1) Ước lượng β̂ là ước lượng không chệch với
E β̂ = β; cov(β̂) = σ 2 (X T X)−1 ,
2) Phần dư ε̂ có tính chất: ε̂ = 0 (điều này cũng tương đương với Y = Ŷ )
E(ε̂) = 0; cov(ε̂) = σ 2 (I − H),
P
3) σ̂ 2 = ε̂T ε̂/(n − k − 1) = n1 ε̂2j /(n − k − 1) là ước lượng không chệch của σ 2 ,
tức là E(σ̂ 2 ) = σ 2 ,
4) β̂ và ε̂ là không tương quan
cov(β̂, ε̂) = 0, cov(β̂, σ̂ 2 ) = 0
Định lí 1.3.2. (Định lý Gauss về ước lượng bình phương cực tiểu)
1.Trong mô hình tuyến tính cổ điển (1.1) và (1.2) với hạng đầy đủ k + 1 ≤ n
thì ước lượng
cT β̂ = c0 β̂0 + c1 β̂1 + . . . + ck β̂k
của cT β = c0 β0 + c1 β1 + . . . + ck βk là ước lượng không chệch với phương sai bé nhất
so với bất kỳ ước lượng tuyến tính không chệch dạng aT Y = a1 y1 + . . . + an yn .
2. Nếu thêm giả thiết rằng ε có phân bố chuẩn Nn (0, σ 2 In ) thì cT β̂ là một ước
lượng không chệch với phương sai cực tiểu của cT β so với bất kỳ ước lượng không
chệch nào khác.
1.4
Hồi quy Poisson
Trong mô hình hồi quy, khi biến đáp ứng là biến đếm người ta thường sử
dụng mô hình hồi quy poisson (hay còn gọi là mô hình loga tuyến tính). Trong
7
Chương 1. Kiến thức chuẩn bị
mô hình này biến đáp ứng Y được giả thiết là có phân bố Poisson và phụ thuộc
vào các biến độc lập theo mô hình
ln E(Y | x) = a1 x1 + a2 x2 + . . . + ak xk + a0
= θT x; θ = (a0 , a1 , . . . , ak )T ; x = (1, x1 , . . . , xk )T .
Người ta ước lượng các tham số của mô hình dựa trên ý tưởng phương pháp
hợp lý cực đại như sau:
Khi biết x, θ thì
T
E(Y | x) = eθ x .
T
Do đó mật độ của phân bố Poisson là (λ = eθ x )
T
eyθ x .e−e
λy
P (y | x; θ) = e−λ . =
y!
y!
θT x
.
Giả sử ta có bộ dữ liệu gồm m vectơ xi ∈ R, i = 1, m và m giá trị y1 , y2 , . . . , ym ∈ R.
Với mỗi θ, xác suất thu được bộ dữ liệu này là
P (y1 , . . . , ym | x1 , . . . , xm , θ) =
m y θT x −eθ
Y
e i i .e
yi !
i=1
Tx
i
.
Theo phương pháp hợp lý cực đại ta chọn tham số θ cực đại xác suất trên, tức
là tìm θ̂
θ̂ = argmax`(θ, X, Y )
trong đó:
`(θ, X, Y ) = ln L(θ | X, Y ) =
m
X
[yi θT xi − eθ
T
xi
− ln(yi !)]
i=1
L(θ | X, Y ) =
m y θT x −eθ
Y
e i i .e
i=1
1.5
Tx
i
yi !
Hồi quy logistic
Khi biến phụ thuộc là biến nhị giá (thất nghiệp hay không thất nghiệp, đã
lập gia đình hay chưa lập gia đình, có tội hay vô tội,...) người ta thường dùng
8
Chương 1. Kiến thức chuẩn bị
mô hình hồi quy logistic. Trong mô hình hồi quy logistic người ta giả sử rằng
log(
π
) = β T X,
1−π
trong đó:
π là xác suất nhận giá trị 1 của biến phụ thuộc Y, tức
(
Y =
xác suất π
0 xác suất 1 − π
1
β = (β0 , β1 , . . . , βk )T ; X = (1, x1 , . . . , xk )T
Dựa trên các quan sát (Yi , Xi ) = (yi , xi1 , xi2 , . . . , xik ) = (yi , xiT ) người ta cần ước
lượng β.
Hàm xác suất đồng thời là:
g(y1 , . . . , yn ) =
n
Y
fi (Yi ) =
i=1
n
Y
πiYi (1 − πi )1−Yi ,
i=1
trong đó
T
i
eβ x
πi = P (Yi = 1 | x ) =
T i
1 + eβ x
i
Do đó
ln[g(Y1 , . . . , Yn )] =
n
X
T
i
Yi β X −
i=1
n
X
i=1
= `(β)
Ước lượng hợp lý cực đại của β là
β̂ = argmax`(β)
β
9
ln[1 + eβ
T
Xi
]
Chương 2
Một số tiêu chuẩn lựa chọn mô hình
Dữ liệu có thể được mô phỏng bằng những cách khác nhau. Có thể có những
phương pháp đơn giản hơn mà cũng có thể có nhiều tham số hơn. Khi có nhiều
covarian được đo chúng ta có thể sử dụng tất cả chúng trong mô hình, hoặc chỉ
một vài trong số chúng. Với một danh sách các mô hình ứng cử viên, lựa chọn
mô hình nào là tốt nhất? Để lựa chọn mô hình tốt nhất người ta đưa ra các tiêu
chuẩn thông tin. Trong chương này sẽ trình bày hai tiêu chuẩn thông tin quan
trọng là tiêu chuẩn thông tin của Akaike và tiêu chuẩn thông tin Bayesian.
2.1
2.1.1
Tiêu chuẩn thông tin Akaike
Khoảng cách Kullback- Leibler
Trong lý thuyết xác suất và lý thuyết thông tin, khoảng cách Kullback- Leibler
là một ”độ đo” không đối xứng dùng để đo sự khác nhau giữa hai phân bố P và
Q. Cụ thể hơn, độ lệch Kullback- Leibler của Q khỏi P ký hiệu là KL(P k Q) là
độ đo lượng thông tin mất đi khi dùng Q để xấp xỉ P. Chính xác hơn khoảng
cách Kullback- Leibler đo số bit trung bình dư ra để mã hóa một mẫu khi dùng
Q thay vì dùng P. Khái niệm này xuất hiện trong lý thuyết thông tin và được
đưa ra bởi Solomon Kullback và Richard Leibler năm 1951.
Định nghĩa 2.1.1. (i) Cho các phân phối xác suất rời rạc P và Q. Khoảng
cách Kullback- Leibler của Q từ P được định nghĩa là
KL(P k Q) =
X
i
P (i) ln
P (i)
Q(i)
(ii) Cho các phân phối xác suất liên tục P và Q. Khoảng cách Kullback- Leibler
của Q từ P được định nghĩa là tích phân
10
Chương 2. Một số tiêu chuẩn lựa chọn mô hình
Z
+∞
KL(P k Q) =
p(x) ln
−∞
p(x)
dx
q(x)
ở đó p và q là kí hiệu mật độ của P và Q.
(iii) Tổng quát hơn, nếu P và Q là các độ đo xác suất trên một tập X và Q liên
tục tuyệt đối theo P, khi đó khoảng cách Kullback- Leibler từ P tới Q được
định nghĩa là
Z
dP
dP
KL(P k Q) =
ln
X
dQ
dP
là đạo hàm Radon-Nikodym của Q theo P.
ở đó dQ
Nếu µ là một độ đo nào đó trên X mà p = dP
dµ và q =
khoảng cách Kullback- Leibler từ P tới Q là
Z
p
KL(P k Q) =
p ln dµ
X
dQ
dµ
tồn tại, khi đó
q
Tính chất
(i) KL(P k Q) ≥ 0
KL(P k Q) = 0 ⇔ P = Q hầu khắp nơi.
(ii) Khoảng cách Kullback- Leibler là định nghĩa tốt cho phân phối liên tục và
bất biến dưới các phép biến đổi tham số.
(iii) Khoảng cách Kullback- Leibler là cộng tính đối với các phân phối độc lập.
Nếu P1 , P2 là các phân phối độc lập với P (x, y) = P1 (x).P2 (y) và Q(x, y) =
Q1 (x).Q2 (y) khi đó
KL(P k Q) = KL(P1 k Q1 ) + KL(P2 k Q2 )
(iv) Khoảng cách Kullback- Leibler của phân phối Q từ phân phối P không phải
là khoảng cách thông thường, mà là độ đo lượng thông tin mất đi khi dùng
Q để xấp xỉ P.
2.1.2
Ước lượng hợp lý cực đại và khoảng cách Kullback- Leibler
Mục tiêu của phần này là tìm hiểu về mối liên hệ giữa phương pháp hợp lý
cực đại và khoảng cách Kullback- Leibler trong hai trường hợp độc lập cùng
11
Chương 2. Một số tiêu chuẩn lựa chọn mô hình
phân bố và trường hợp hồi quy. Trước hết, chúng ta bắt đầu với một minh họa
đơn giản để thấy được cách hoạt động của phương pháp hợp lý cực đại, nó sử
dụng dữ liệu và một mô hình tham số để cung cấp một mô hình ước lượng.
Ví dụ 2.1.1. Ước lượng dữ liệu trọng lượng sinh thấp
Trong bộ dữ liệu về trọng lượng sinh thấp (Hosmer and Lemeshow, 1999) có
một tổng của n = 189 phụ nữ và những đứa trẻ mới sinh. Ở đây chúng ta chỉ
ra cách mà phương pháp hợp lý cực đại sử dụng để ước lượng các tham số của
mô hình đưa ra. Các biến kết quả Y1 , . . . , Yn độc lập là các biến ngẫu nhiên nhị
phân (0-1), tức cho giá trị là 1 khi đứa trẻ có trọng lượng sinh thấp và 0 trong
trường hợp ngược lại. Các biến khác x2,i là trọng lượng của người mẹ; x3,i là
tuổi của người mẹ; x4,i chỉ chủng tộc đen; x5,i chỉ các chủng tộc khác. Chúng ta
có xi = (1, x2,i , x3,i , x4,i , x5,i )t . Hầu hết mô hình thông thường cho các tình huống
như vậy là mô hình hồi quy logistic, cho công thức
P (Yi = 1 | xi ) = pi =
exp(xti θ)
1 + exp(xti θ)
với i = 1, . . . , n; θ là một vectơ tham số 5 chiều. Hàm hợp lý Ln (θ) là tích của
các số hạng pyi i (1 − pi )1−yi , dẫn đến loga hàm hợp lý có dạng
`n (θ) =
n
X
{yi ln pi + (1 − yi ) ln(1 − pi )}
i=1
=
n
X
[yi xti θ − ln{1 + exp(xti θ)}]
i=1
Một ước lượng hợp lý cực đại cho θ được tìm thấy bằng cách cực đại `n (θ) theo
θ, θ̂ = (1.307, −0.014, −0.026, 1.004, 0.443)t .
Nhìn chung các mô hình mà chúng ta xây dựng cho các quan sát Y =
(Y1 , . . . , Yn ) chứa một số các tham số θ = (θ1 , . . . , θp )T , kí hiệu f (y, θ) là hàm
mật độ đồng thời cho Y. Khi đó hàm hợp lý sẽ là
Ln (θ) = f (yobs , θ),
với yobs là giá trị dữ liệu quan sát. Chúng ta thường làm việc với loga hàm hợp
lý `n (θ) = log Ln (θ) thay vì hàm hợp lý. Ước lượng hợp lý cực đại của θ làm cực
đại Ln (θ)
12
- Xem thêm -