Tài liệu MỘT SỐ TIÊU CHUẨN LỰA CHỌN MÔ HÌNH

.PDF

977

nhattuvisu Báo vi phạm

Tải xuống 56

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHẠM THỊ HOA MỘT SỐ TIÊU CHUẨN LỰA CHỌN MÔ HÌNH LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHẠM THỊ HOA MỘT SỐ TIÊU CHUẨN LỰA CHỌN MÔ HÌNH Chuyên ngành: LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC Mã số : 60 46 15 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS. TRẦN MẠNH CƯỜNG Hà Nội - 2013 MỞ ĐẦU Lựa chọn mô hình (Model selection) là một bài toán cơ bản của thống kê cũng như nhiều ngành khoa học khác như học máy (machine learning), kinh tế lượng (econometrics), ... Theo R. A. Fisher có 3 bài toán chính trong thống kê suy luận và dự báo gồm - Xác định mô hình (model specification) - Ước lượng tham số (estimation of model parameters) - Dự báo (prediction) Trước những năm 1970 hầu hết các nghiên cứu tập trung vào hai bài toán sau với giả thiết là mô hình đã biết. Sau khi xuất hiện công trình của Akaike (1973) thì bài toán lựa chọn mô hình thu hút được sự quan tâm của cộng đồng làm thống kê. Với một bộ dữ liệu đưa ra, có thể đặt vào nó rất nhiều mô hình và với các mô hình đưa ra, mô hình nào là tốt nhất? Để trả lời cho câu hỏi trên, người ta đã đưa ra các tiêu chuẩn thông tin để lựa chọn mô hình phù hợp như tiêu chuẩn thông tin của Akaike (AIC) và tiêu chuẩn thông tin của Bayesian (BIC)... Việc lựa chọn một mô hình phù hợp là trung tâm cho tất cả các công tác thống kê với dữ liệu. Lựa chọn các biến để sử dụng trong một mô hình hồi quy là một trong những ví dụ quan trọng. Luận văn của tôi trình bày hai tiêu chuẩn thông tin quan trọng đó là tiêu chuẩn thông tin của Akaike và tiêu chuẩn thông tin của Bayesian. Luận văn được chia làm ba chương Chương 1. Kiến thức chuẩn bị Trong chương này, tôi trình bày các kiến thức cơ bản về lượng thông tin Fisher, ước lượng hợp lí cực đại, và các dạng của phân tích hồi quy như hồi quy tuyến tính, hồi quy Poisson và hồi quy logistic. Chương 2. Một số tiêu chuẩn lựa chọn mô hình Chương này, trình bày khoảng cách Kullback- Leibler, mối liên hệ giữa ước lượng hợp lí cực đại và khoảng cách Kullback-Leibler, định nghĩa AIC và mối liên hệ giữa AIC và khoảng cách Kullback-Leibler, tiêu chuẩn Takeuchi, AIC hiệu chỉnh cho hồi quy tuyến tính và chuỗi thời gian tự hồi quy, trình bày nguồn gốc và định nghĩa của BIC. Chương 3. Áp dụng Trong chương này giới thiệu về phần mềm R, đưa ra một bộ dữ liệu cụ thể về bốn phép đo trên hộp sọ của người Ai cập ở năm thời kỳ khác nhau và được lấy trong website: ”www.econ.kuleuven.be/gerda.claeskens/public/modelselection.”, i áp dụng với năm mô hình ứng cử viên và dùng phần mềm R chạy để tìm giá trị AIC và BIC cho mỗi trong số năm mô hình ứng cử viên để tìm ra mô hình tốt nhất theo AIC và BIC đối với bộ dữ liệu này, code R cũng được tham khảo trong website trên . Do thời gian và trình độ còn hạn chế nên luận văn không tránh khỏi những thiếu sót, tác giả hy vọng sẽ nhận được nhiều ý kiến đóng góp từ các thầy cô giáo và bạn đọc để luận văn được hoàn chỉnh hơn. ii LỜI CẢM ƠN Sau một thời gian học tập tại khoa Toán - Cơ - Tin học, Trường Đại học Khoa học Tự nhiên, dưới sự hướng dẫn và chỉ bảo tận tình của TS. Trần Mạnh Cường, tôi đã hoàn thành luận văn tốt nghiệp với đề tài: “Một số tiêu chuẩn lựa chọn mô hình”. Trong suốt quá trình học tập, triển khai nghiên cứu đề tài, tôi đã nhận được rất nhiều sự giúp đỡ của các thầy cô trong bộ môn Xác suất thống kê, các thầy cô trong khoa Toán - Cơ - Tin học, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt là TS. Trần Mạnh Cường. Tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc tới TS. Trần Mạnh Cường – người đã tận tình chỉ bảo, giúp đỡ tôi trong quá trình nghiên cứu đề tài. Tôi xin gửi lời cảm ơn tới Ban giám hiệu, Phòng sau đại học, các thầy cô trong khoa Toán - Cơ - Tin học nói chung và các thầy cô trong bộ môn xác suất thống kê Trường Đại học Khoa học Tự nhiên nói riêng đã tạo những điều kiện thuận lợi nhất để tôi có thể hoàn thành luận văn này. Hà nội, tháng 02 năm 2013 iii Danh mục các kí hiệu AIC AICc a.s. BIC BIC∗ BICexact h(.) H(.) KL L, Ln `, `n Np (ξ, P Op (n−1 ) Var d → − p → − TIC Tr ) Tiêu chuẩn thông tin của Akaike AIC hiệu chỉnh hầu chắc chắn tiêu chuẩn thông tin Bayesian xấp xỉ của BIC BIC chính xác tỷ lệ nguy hiểm tỷ lệ nguy hiểm tích lũy khoảng cách kullback - Leibler hàm hợp lý loga hàm hợp lý phân phối chuẩn của p biến ngẫu nhiên với vectơ trung bình ξ và P ma trận phương sai Xn = Op (n−1 ) nghĩa là Xn /n−1 hội tụ tới 0 theo xác suất phương sai hội tụ theo phân phối hội tụ theo xác suất tiêu chuẩn thông tin Takeuchi vết của ma trận kết thúc chứng minh hoặc ví dụ. iv Mục lục Lời cảm ơn iii 1 Kiến thức chuẩn bị 1.1 Lượng thông tin Fisher . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Ước lượng hợp lý cực đại . . . . . . . . . . . . . . . . . . . . . . . 1.3 Hồi quy tuyến tính . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Giới thiệu mô hình hồi quy tuyến tính cổ điển . . . . . . 1.3.2 Phương pháp ước lượng bình phương cực tiểu . . . . . . 1.3.3 Tính chất ước lượng bằng phương pháp bình phương cực tiểu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Hồi quy Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Hồi quy logistic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 4 4 5 . . . 7 7 8 2 Một số tiêu chuẩn lựa chọn mô hình 2.1 Tiêu chuẩn thông tin Akaike . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Khoảng cách Kullback- Leibler . . . . . . . . . . . . . . . . 2.1.2 Ước lượng hợp lý cực đại và khoảng cách Kullback- Leibler 2.1.3 Định nghĩa AIC . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4 AIC và khoảng cách Kullback- Leibler . . . . . . . . . . . . 2.1.5 Tiêu chuẩn Takeuchi . . . . . . . . . . . . . . . . . . . . . . 2.1.6 AIC hiệu chỉnh cho hồi quy tuyến tính . . . . . . . . . . . 2.2 Tiêu chuẩn thông tin Bayesian(BIC) . . . . . . . . . . . . . . . . . 2.2.1 Nguồn gốc của BIC . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Định nghĩa BIC . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Ai là người viết ’The Quiet Don’ ? . . . . . . . . . . . . . . 10 10 10 11 17 19 24 25 28 28 30 35 3 Áp dụng 38 3.1 Giới thiệu về phần mềm R . . . . . . . . . . . . . . . . . . . . . . 38 3.2 Áp dụng với bộ số liệu . . . . . . . . . . . . . . . . . . . . . . . . . 38 v MỤC LỤC Kết luận 46 Phụ lục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Tài liệu tham khảo 51 vi Chương 1 Kiến thức chuẩn bị 1.1 Lượng thông tin Fisher Định nghĩa 1.1.1. Cho X là biến ngẫu nhiên hoặc vectơ ngẫu nhiên có phân bố phụ thuộc vào tham số chưa biết θ ∈ Θ, với mật độ f (x, θ), θ ∈ Θ. Giả sử rằng R df (x,θ) f (x, θ) khả vi theo θ và dθ dλ < ∞. Khi đó lượng thông tin Fisher về tham X số θ chứa trong X là IX (θ) = Eθ [ dlnf (X, θ) dθ ]2 . Dễ dàng chỉ ra rằng Eθ [ dlnfdθ(X,θ) ] = 0. Do đó dlnf (X, θ) ] dθ Với một điều kiện không quá chặt đặt lên f (x, θ) người ta cũng chứng minh được IX (θ) = V ar[ d2 lnf (X, θ) IX (θ) = −E[ ] dθ2 Chú ý: Nếu X1 , X2 là hai biến ngẫu nhiên độc lập cùng phụ thuộc vào tham số θ thì mật độ đồng thời của X1 , X2 là: f (x1 , x2 , θ) = fX1 (θ).fX2 (θ) Nên: I(X1 ,X2 ) (θ) = V ar[ dlnf (X1 , X2 , θ) dθ = IX1 (θ) + IX2 (θ) ] = V ar[ dlnfX1 (X1 , θ) dθ ] + V ar[ dlnfX2 (X2 , θ) dθ ] Do đó nếu X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên về X, thì lượng thông tin Fisher về tham số θ chứa trong mẫu là: 1 Chương 1. Kiến thức chuẩn bị I(θ) = I(X1 ,X2 ,...,Xn ) (θ) = nIX1 (θ) Ví dụ 1.1.1. Tính lượng thông tin trong mẫu đơn giản (X1 , X2 , . . . , Xn ) lấy từ họ phân bố chuẩn với tham số (µ, σ 2 ) đối với tham số σ 2 . Ta có hàm mật độ đồng thời của X1 , X2 , . . . , Xn là n 1 1 X p(X, µ, σ ) = (Xi − µ)2 ] n exp[− 2 2 2σ (2πσ ) 2 2 i=1 n n n 1 X 2 lnp(X, µ, σ ) = − ln2π − lnσ − 2 (Xi − µ)2 2 2 2σ 2 i=1 ∂ lnp(X, µ, σ 2 ) n 1 =− 2 + 4 2 ∂σ 2σ 2σ n X (Xi − µ)2 i=1 ∂ lnp(X, µ, σ 2 ) ∂ lnp(X, µ, σ 2 ) 2 ) = V ar( ) ⇒ IX (σ 2 ) = E( ∂σ 2 ∂σ 2 n n = 8 V ar[(X1 − µ)2 ] = 4 . 4σ 2σ Trường hợp nhiều chiều: Khi phân bố của X phụ thuộc N tham số θ = (θ1 , θ2 , . . . , θN )T thì ma trận thông tin Fisher có dạng [I(θ)]i,j = Eθ [ ∂ lnf (X, θ) ∂ lnf (X, θ) . ]. ∂θi ∂θj Đây là ma trận đối xứng, xác định không âm. Với một số điều kiện chính quy người ta chỉ ra được rằng [I(θ)]i,j = −Eθ [ 1.2 ∂ 2 lnf (X, θ) ]. ∂θi ∂θj Ước lượng hợp lý cực đại Cho một mô hình thống kê (X, B, Pθ , θ ∈ Θ), trong đó Θ là khoảng mở trong không gian Euclide k chiều và Pθ µ với µ là độ đo σ− hữu hạn trên B. Đặt p(x, θ) = 2 dPθ dµ Chương 1. Kiến thức chuẩn bị Nếu p(xi , θ) là hàm mật độ theo nghĩa rộng của biến ngẫu nhiên Xi thì p(x, θ) = Qn i=1 p(xi , θ) Định nghĩa 1.2.1. Hàm L(X, θ) = θ với X cố định gọi là hàm hợp lý. Qn i=1 p(Xi , θ) được xét như hàm của tham ẩn Định nghĩa 1.2.2. Thống kê θ̂(X) : X −→ Θ được gọi là ước lượng hợp lý cực đại của tham ẩn θ nếu: L(X, Θ̂(X)) = sup L(X, θ) θ∈Θ Từ định nghĩa suy ra muốn tìm ước lượng hợp lý cực đại phải tìm điểm dừng. • Nếu θ ∈ R1 , ta giải phương trình sau gọi là phương trình hợp lý ∂L(X, θ) = 0; ∂θ phương trình trên tương đương với phương trình ∂ ln L(X, θ) = 0. ∂θ • Nếu θ = (θ1 , . . . , θp ) thì phương trình hợp lý là ∂L(X, θ) = 0; i = 1, p ∂θi tương đương với phương trình ∂ lnL(X, θ) = 0; i = 1, p ∂θi Nghiệm của phương trình hợp lý gọi là ước lượng hợp lý cực đại. Để xét xem nghiệm của phương trình hợp lý có là ước lượng hợp lý cực đại không thì không dễ dàng. Người ta chứng minh được rằng nếu nghiệm của phương trình hợp lý không phải là hằng số thì nghiệm đó sẽ làm cực đại hàm hợp lý, do đó nó là ước lượng hợp lý cực đại. Ví dụ 1.2.1. Giả sử (X1 , X2 , . . . , Xn ) là mẫu ngẫu nhiên từ phân phối chuẩn N (µ; σ 2 ). Tìm ước lượng hợp lý cực đại của (µ; σ 2 ). Ta có L(X, µ, σ 2 ) = P 2 1 − 2σ12 n i=1 (Xi −µ) . .e n/2 2 (2πσ ) 3 Chương 1. Kiến thức chuẩn bị Khi đó phương trình hợp lý là ( ∂ lnL(X,µ,σ 2 ) ∂µ ∂ lnL(X,µ,σ 2 ) ∂σ 2 Pn i=1 (Xi − µ) = 0 Pn − 2σn2 + 2σ1 4 i=1 (Xi = = − µ)2 = 0 Suy ra ( µ̂ = 1 n σ̂ 2 = 1.3 1.3.1 Pn Xi = X Pi=1 n 1 n i=1 (Xi − X)2 = s2 Hồi quy tuyến tính Giới thiệu mô hình hồi quy tuyến tính cổ điển Giả sử X1 , . . . , Xk là k biến độc lập dùng để dự báo và Y là biến phụ thuộc cần dự báo. Ví dụ, ta giả sử Y là giá nhà ở hiện hành. Khi đó Y phụ thuộc chủ yếu vào các yếu tố sau: • X1 là diện tích sử dụng (m2 ), • X2 là vị trí vùng, • X3 là giá của năm qua, • X4 là chất lượng xây dựng (giá xây dựng trên một m2 ). Sự phụ thuộc giữa biến Y theo các biến X1 , . . . , Xk nói chung là rất phức tạp. Tuy nhiên có một số trường hợp sự phụ thuộc đó tương đối đơn giản. Mô hình hồi quy tuyến tính cổ điển khẳng định rằng Y phụ thuộc tuyến tính vào các Xi (nghĩa là Y là một biểu thức bậc nhất của X1 , . . . , Xk ) và sai số ngẫu nhiên ε. Như vậy, Y = β0 + β1 X1 + . . . + βk Xk + ε, trong đó βi , i = 0, k là các hệ số chưa biết. Bây giờ ta tiến hành n quan sát độc lập đồng thời về k + 1 biến X1 , . . . , Xk , Y. Giả sử các số liệu quan sát tuân theo mô hình sau: y1 = β0 + β1 x11 + . . . + βk x1k + ε1 y2 = β0 + β1 x21 + . . . + βk x2k + ε2 ..................................................... yn = β0 + β1 xn1 + . . . + βk xnk + εn 4 Chương 1. Kiến thức chuẩn bị trong đó các sai số ε1 , . . . , εn thỏa mãn 3 điều kiện sau: (i) E(εj ) = 0 (việc đo đạc không chịu sai lệch hệ thống), (ii) D(εj ) = σ 2 (phương sai không đổi hay độ chuẩn xác đo đạc như nhau) (iii) cov(εi , εj ) = 0 với mọi i 6= j = 1, n (các sai lệch từng bước không ảnh hưởng đến nhau) Mô hình trên có thể viết dưới dạng ma trận như sau:   y1  1 x11 . . . x1k   β0   ε1    ε   y  1 x 21 . . . x2k  β1   2  2  + .  =     ..   .. .. . .  .   . . . . . ..   ..   ..  yn 1 xn1 . . . xnk βk εn hoặc đơn giản hơn (1.1) Y = Xβ + ε, ở đó  1 x11 . . . x1k  1 x  21 . . . x2k   X = . ;  .. ... . . . ...  1 xn1 . . . xnk Y = [y1 , y2 , . . . , yn ]T ; β = [β0 , β1 , . . . , βk ]T ; ε = [ε1 , ε2 , . . . , εn ]T ; và 1.E(ε) = 0, 2.cov(ε) = E(εεT ) = σ 2 In . 1.3.2 (1.2) Phương pháp ước lượng bình phương cực tiểu Một bài toán đặt ra là hãy dựa trên ma trận X và vectơ Y của các giá trị quan sát hãy ước lượng vectơ tham số β và σ 2 . Nếu chúng ta sử dụng b là giá trị thử của β thì giữa các quan sát yj và 5 Chương 1. Kiến thức chuẩn bị b1 xj1 + . . . + bk xjk sẽ bị một độ lệch yj − b0 − (b1 xj1 + . . . + bk xjk ), nói chung độ lệch này sẽ khác không. Phương pháp ước lượng bình phương tối thiểu là hãy chọn giá trị của vectơ b sao cho S(b) = n X (yj − b0 − b1 xj1 − . . . − bk xjk )2 j=1 = (Y − Xb)T (Y − Xb) → min. Đại lượng β̂ làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình phương cực tiểu của β , còn ε̂j = yj − (β̂0 + β̂1 xj1 + . . . + β̂k xjk ), j = 1, n gọi là các phần dư của phép hồi quy. Trong trường hợp này, vì biểu thức theo X1 , . . . , Xk là tuyến tính, nên phương trình Ŷ = βˆ0 + β̂1 x1 + . . . + β̂k xk được gọi là phương trình hồi quy tuyến tính mẫu. Ta có kết quả sau: Đặt yˆj = βˆ0 + β̂1 xj1 + . . . + β̂k xjk Ŷ = (ŷ1 , . . . , yˆn )T . Mệnh đề 1.3.1. Nếu ma trận X không ngẫu nhiên có hạng k + 1 ≤ n thì ước lượng bình phương cực tiểu có dạng: β̂ = (X T X)−1 X T Y Khi đó Ŷ = X β̂ = X(X T X)−1 Y = HY, trong đó, H = X(X T X)−1 X T ; ε̂ = Y − Ŷ = (In − H)Y, 6 Chương 1. Kiến thức chuẩn bị thỏa mãn X T ε̂ = 0 và Ŷ T ε̂ = 0, (β̂ T X T ε̂ = 0). Tổng các phần dư n X ε̂2j = ε̂T ε̂ = Y T Y − Y T X β̂ j=1 1.3.3 Tính chất ước lượng bằng phương pháp bình phương cực tiểu 1) Ước lượng β̂ là ước lượng không chệch với E β̂ = β; cov(β̂) = σ 2 (X T X)−1 , 2) Phần dư ε̂ có tính chất: ε̂ = 0 (điều này cũng tương đương với Y = Ŷ ) E(ε̂) = 0; cov(ε̂) = σ 2 (I − H), P 3) σ̂ 2 = ε̂T ε̂/(n − k − 1) = n1 ε̂2j /(n − k − 1) là ước lượng không chệch của σ 2 , tức là E(σ̂ 2 ) = σ 2 , 4) β̂ và ε̂ là không tương quan cov(β̂, ε̂) = 0, cov(β̂, σ̂ 2 ) = 0 Định lí 1.3.2. (Định lý Gauss về ước lượng bình phương cực tiểu) 1.Trong mô hình tuyến tính cổ điển (1.1) và (1.2) với hạng đầy đủ k + 1 ≤ n thì ước lượng cT β̂ = c0 β̂0 + c1 β̂1 + . . . + ck β̂k của cT β = c0 β0 + c1 β1 + . . . + ck βk là ước lượng không chệch với phương sai bé nhất so với bất kỳ ước lượng tuyến tính không chệch dạng aT Y = a1 y1 + . . . + an yn . 2. Nếu thêm giả thiết rằng ε có phân bố chuẩn Nn (0, σ 2 In ) thì cT β̂ là một ước lượng không chệch với phương sai cực tiểu của cT β so với bất kỳ ước lượng không chệch nào khác. 1.4 Hồi quy Poisson Trong mô hình hồi quy, khi biến đáp ứng là biến đếm người ta thường sử dụng mô hình hồi quy poisson (hay còn gọi là mô hình loga tuyến tính). Trong 7 Chương 1. Kiến thức chuẩn bị mô hình này biến đáp ứng Y được giả thiết là có phân bố Poisson và phụ thuộc vào các biến độc lập theo mô hình ln E(Y | x) = a1 x1 + a2 x2 + . . . + ak xk + a0 = θT x; θ = (a0 , a1 , . . . , ak )T ; x = (1, x1 , . . . , xk )T . Người ta ước lượng các tham số của mô hình dựa trên ý tưởng phương pháp hợp lý cực đại như sau: Khi biết x, θ thì T E(Y | x) = eθ x . T Do đó mật độ của phân bố Poisson là (λ = eθ x ) T eyθ x .e−e λy P (y | x; θ) = e−λ . = y! y! θT x . Giả sử ta có bộ dữ liệu gồm m vectơ xi ∈ R, i = 1, m và m giá trị y1 , y2 , . . . , ym ∈ R. Với mỗi θ, xác suất thu được bộ dữ liệu này là P (y1 , . . . , ym | x1 , . . . , xm , θ) = m y θT x −eθ Y e i i .e yi ! i=1 Tx i . Theo phương pháp hợp lý cực đại ta chọn tham số θ cực đại xác suất trên, tức là tìm θ̂ θ̂ = argmax`(θ, X, Y ) trong đó: `(θ, X, Y ) = ln L(θ | X, Y ) = m X [yi θT xi − eθ T xi − ln(yi !)] i=1 L(θ | X, Y ) = m y θT x −eθ Y e i i .e i=1 1.5 Tx i yi ! Hồi quy logistic Khi biến phụ thuộc là biến nhị giá (thất nghiệp hay không thất nghiệp, đã lập gia đình hay chưa lập gia đình, có tội hay vô tội,...) người ta thường dùng 8 Chương 1. Kiến thức chuẩn bị mô hình hồi quy logistic. Trong mô hình hồi quy logistic người ta giả sử rằng log( π ) = β T X, 1−π trong đó: π là xác suất nhận giá trị 1 của biến phụ thuộc Y, tức ( Y = xác suất π 0 xác suất 1 − π 1 β = (β0 , β1 , . . . , βk )T ; X = (1, x1 , . . . , xk )T Dựa trên các quan sát (Yi , Xi ) = (yi , xi1 , xi2 , . . . , xik ) = (yi , xiT ) người ta cần ước lượng β. Hàm xác suất đồng thời là: g(y1 , . . . , yn ) = n Y fi (Yi ) = i=1 n Y πiYi (1 − πi )1−Yi , i=1 trong đó T i eβ x πi = P (Yi = 1 | x ) = T i 1 + eβ x i Do đó ln[g(Y1 , . . . , Yn )] = n X T i Yi β X − i=1 n X i=1 = `(β) Ước lượng hợp lý cực đại của β là β̂ = argmax`(β) β 9 ln[1 + eβ T Xi ] Chương 2 Một số tiêu chuẩn lựa chọn mô hình Dữ liệu có thể được mô phỏng bằng những cách khác nhau. Có thể có những phương pháp đơn giản hơn mà cũng có thể có nhiều tham số hơn. Khi có nhiều covarian được đo chúng ta có thể sử dụng tất cả chúng trong mô hình, hoặc chỉ một vài trong số chúng. Với một danh sách các mô hình ứng cử viên, lựa chọn mô hình nào là tốt nhất? Để lựa chọn mô hình tốt nhất người ta đưa ra các tiêu chuẩn thông tin. Trong chương này sẽ trình bày hai tiêu chuẩn thông tin quan trọng là tiêu chuẩn thông tin của Akaike và tiêu chuẩn thông tin Bayesian. 2.1 2.1.1 Tiêu chuẩn thông tin Akaike Khoảng cách Kullback- Leibler Trong lý thuyết xác suất và lý thuyết thông tin, khoảng cách Kullback- Leibler là một ”độ đo” không đối xứng dùng để đo sự khác nhau giữa hai phân bố P và Q. Cụ thể hơn, độ lệch Kullback- Leibler của Q khỏi P ký hiệu là KL(P k Q) là độ đo lượng thông tin mất đi khi dùng Q để xấp xỉ P. Chính xác hơn khoảng cách Kullback- Leibler đo số bit trung bình dư ra để mã hóa một mẫu khi dùng Q thay vì dùng P. Khái niệm này xuất hiện trong lý thuyết thông tin và được đưa ra bởi Solomon Kullback và Richard Leibler năm 1951. Định nghĩa 2.1.1. (i) Cho các phân phối xác suất rời rạc P và Q. Khoảng cách Kullback- Leibler của Q từ P được định nghĩa là KL(P k Q) = X i P (i) ln P (i) Q(i) (ii) Cho các phân phối xác suất liên tục P và Q. Khoảng cách Kullback- Leibler của Q từ P được định nghĩa là tích phân 10 Chương 2. Một số tiêu chuẩn lựa chọn mô hình Z +∞ KL(P k Q) = p(x) ln −∞ p(x) dx q(x) ở đó p và q là kí hiệu mật độ của P và Q. (iii) Tổng quát hơn, nếu P và Q là các độ đo xác suất trên một tập X và Q liên tục tuyệt đối theo P, khi đó khoảng cách Kullback- Leibler từ P tới Q được định nghĩa là Z dP dP KL(P k Q) = ln X dQ dP là đạo hàm Radon-Nikodym của Q theo P. ở đó dQ Nếu µ là một độ đo nào đó trên X mà p = dP dµ và q = khoảng cách Kullback- Leibler từ P tới Q là Z p KL(P k Q) = p ln dµ X dQ dµ tồn tại, khi đó q Tính chất (i) KL(P k Q) ≥ 0 KL(P k Q) = 0 ⇔ P = Q hầu khắp nơi. (ii) Khoảng cách Kullback- Leibler là định nghĩa tốt cho phân phối liên tục và bất biến dưới các phép biến đổi tham số. (iii) Khoảng cách Kullback- Leibler là cộng tính đối với các phân phối độc lập. Nếu P1 , P2 là các phân phối độc lập với P (x, y) = P1 (x).P2 (y) và Q(x, y) = Q1 (x).Q2 (y) khi đó KL(P k Q) = KL(P1 k Q1 ) + KL(P2 k Q2 ) (iv) Khoảng cách Kullback- Leibler của phân phối Q từ phân phối P không phải là khoảng cách thông thường, mà là độ đo lượng thông tin mất đi khi dùng Q để xấp xỉ P. 2.1.2 Ước lượng hợp lý cực đại và khoảng cách Kullback- Leibler Mục tiêu của phần này là tìm hiểu về mối liên hệ giữa phương pháp hợp lý cực đại và khoảng cách Kullback- Leibler trong hai trường hợp độc lập cùng 11 Chương 2. Một số tiêu chuẩn lựa chọn mô hình phân bố và trường hợp hồi quy. Trước hết, chúng ta bắt đầu với một minh họa đơn giản để thấy được cách hoạt động của phương pháp hợp lý cực đại, nó sử dụng dữ liệu và một mô hình tham số để cung cấp một mô hình ước lượng. Ví dụ 2.1.1. Ước lượng dữ liệu trọng lượng sinh thấp Trong bộ dữ liệu về trọng lượng sinh thấp (Hosmer and Lemeshow, 1999) có một tổng của n = 189 phụ nữ và những đứa trẻ mới sinh. Ở đây chúng ta chỉ ra cách mà phương pháp hợp lý cực đại sử dụng để ước lượng các tham số của mô hình đưa ra. Các biến kết quả Y1 , . . . , Yn độc lập là các biến ngẫu nhiên nhị phân (0-1), tức cho giá trị là 1 khi đứa trẻ có trọng lượng sinh thấp và 0 trong trường hợp ngược lại. Các biến khác x2,i là trọng lượng của người mẹ; x3,i là tuổi của người mẹ; x4,i chỉ chủng tộc đen; x5,i chỉ các chủng tộc khác. Chúng ta có xi = (1, x2,i , x3,i , x4,i , x5,i )t . Hầu hết mô hình thông thường cho các tình huống như vậy là mô hình hồi quy logistic, cho công thức P (Yi = 1 | xi ) = pi = exp(xti θ) 1 + exp(xti θ) với i = 1, . . . , n; θ là một vectơ tham số 5 chiều. Hàm hợp lý Ln (θ) là tích của các số hạng pyi i (1 − pi )1−yi , dẫn đến loga hàm hợp lý có dạng `n (θ) = n X {yi ln pi + (1 − yi ) ln(1 − pi )} i=1 = n X [yi xti θ − ln{1 + exp(xti θ)}] i=1 Một ước lượng hợp lý cực đại cho θ được tìm thấy bằng cách cực đại `n (θ) theo θ, θ̂ = (1.307, −0.014, −0.026, 1.004, 0.443)t . Nhìn chung các mô hình mà chúng ta xây dựng cho các quan sát Y = (Y1 , . . . , Yn ) chứa một số các tham số θ = (θ1 , . . . , θp )T , kí hiệu f (y, θ) là hàm mật độ đồng thời cho Y. Khi đó hàm hợp lý sẽ là Ln (θ) = f (yobs , θ), với yobs là giá trị dữ liệu quan sát. Chúng ta thường làm việc với loga hàm hợp lý `n (θ) = log Ln (θ) thay vì hàm hợp lý. Ước lượng hợp lý cực đại của θ làm cực đại Ln (θ) 12

- Xem thêm -

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất