Thống kê Robust và ứng dụng

  • Số trang: 54 |
  • Loại file: PDF |
  • Lượt xem: 39 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ HUYỀN THỐNG KÊ ROBUST VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - Năm 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ HUYỀN THỐNG KÊ ROBUST VÀ ỨNG DỤNG Chuyên ngành: LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC Mã số : 60 46 01 06 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS TRẦN MẠNH CƯỜNG Hà Nội - 2014 Lời cảm ơn 1 Lời cảm ơn Bản luận văn này được hoàn thành dưới sự hướng dẫn và chỉ bảo nhiệt tình của TS. Trần Mạnh Cường. Trong quá trình làm việc, em đã học hỏi ở Thầy một tinh thần làm việc đầy tâm huyết và yêu khoa học. Chính vì thế, qua đây em xin bày tỏ lòng biết ơn chân thành tới Thầy. Em muốn bày tỏ sự cảm ơn chân thành đến tất cả các thầy cô trong khoa Toán - Cơ - Tin học, trường Đại học khoa học tự nhiên, Đại học Quốc gia Hà Nội đã chỉ bảo tận tình trong suốt thời gian em học tập tại trường. Nhân dịp này, em cũng xin gửi lời cảm ơn đến gia đình, bạn bè đã cổ vũ, động viên, giúp đỡ và tạo điều kiện tốt nhất cho em trong suốt quá trình học tập và thực hiện luận văn này. Do thời gian có hạn và trình độ còn hạn chế nên luận văn của em không thể tránh khỏi những thiếu sót. Em rất mong nhận được sự đóng góp ý kiến của các thầy cô và các bạn để luận văn của em được hoàn thiện hơn. Em xin chân thành cảm ơn. Hà Nội, ngày 28 tháng 10 năm 2014 Học viên Nguyễn Thị Huyền Danh mục các kí hiệu 2 Danh mục các kí hiệu N : Tập số tự nhiên Z : Tập số nguyên Q : Tập số hữu tỷ R : Tập số thực E : Kỳ vọng p − lim : Hội tụ theo xác suất. C[a, b] : Liên tục trên [a, b] P Xn − →X : Xn Hội tụ theo xác suất tới X d − X Xn → : Xn Hội tụ theo phân bố tới X  kết thúc chứng minh. Mục lục Lời cảm ơn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Danh mục các kí hiệu . . . . . . . . . . . . . . . . . . . . . . . . . 2 Lời nói đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1 Ước lượng M 8 1.1 Định nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.2 Tính chất tiệm cận của ước lượng M . . . . . . . . . . . . . . . 10 1.3 Ước lượng M cho tham số vị trí . . . . . . . . . . . . . . . . . . 15 1.3.1 Định nghĩa và ví dụ . . . . . . . . . . . . . . . . . . . . . 15 1.3.2 Phân bố của ước lượng M cho tham số vị trí . . . . . . . 18 1.3.3 Một cách nhìn trực quan của ước lượng M cho tham số vị trí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.4 Ước lượng M cho tham số tỷ lệ . . . . . . . . . . . . . . . . . . 22 1.5 Tính Robust định lượng và định tính của ước lượng M . . . . . 25 2 Ước lượng M cho mô hình hồi quy tuyến tính 31 2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.2 Phương pháp bình phương cực tiểu cho mô hình hồi quy . . . . 34 2.3 Các phương pháp tìm ra các ngoại lệ . . . . . . . . . . . . . . . 36 2.4 Ước lượng M cho mô hình hồi quy . . . . . . . . . . . . . . . . . 38 2.5 Các tính chất tiệm cận . . . . . . . . . . . . . . . . . . . . . . . 40 3 Ứng dụng 3.1 42 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 42 Mục lục 4 3.2 Giới thiệu phần mềm R . . . . . . . . . . . . . . . . . . . . . . 42 3.3 Các kết quả và phân tích . . . . . . . . . . . . . . . . . . . . . . 46 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Lời nói đầu 5 Lời nói đầu Thống kê toán học là một phương pháp khoa học phân tích và xử lý dữ liệu có được nhờ các thí nghiệm, các cuộc điều tra nghiên cứu các hiện tượng tự nhiên, các vấn đề kỹ thuật cũng như các vấn đề xã hội. Tất cả các phương pháp thống kê đều dựa trên một số giả thiết và giả thiết được sử dụng nhiều nhất trong thống kê cổ điển là giả sử rằng các dữ liệu quan sát được biểu diễn bởi một phân bố chuẩn. Tuy nhiên, các dữ liệu thu được trong thực tế thường gồm một hoặc một số các quan sát có sự khác biệt khá lớn với phần lớn các quan sát của tập dữ liệu được gọi là các giá trị ngoại lệ (outliers). Khi đó phân bố biểu diễn của các quan sát này chỉ xấp xỉ chuẩn. Chúng ta xét ví dụ sau : Cho 24 số liệu về hàm lượng đồng có trong bột mỳ (đơn vị phần triệu), được sắp xếp theo thứ tự tăng dần trong bảng sau : 2.20 2.20 2.40 2.40 2.50 2.70 2.80 2.90 3.03 3.03 3.10 3.37 3.40 3.40 3.40 3.50 3.60 3.70 3.70 3.70 3.70 3.77 5.28 28.95 30 Normal Q−Q Plot 15 10 ● 5 Sample Quantiles 20 25 ● ● −2 ● ● ● −1 ● ● ● ● ● ● ● ● ● ● 0 Theoretical Quantiles ● ● ● ● ● ● 1 ● 2 Lời nói đầu 6 Từ hình vẽ ta có thể nhận thấy rằng phần lớn các dữ liệu có thể được mô tả bởi một phân bố chuẩn, nhưng không phải là tất cả. Giá trị 28.95 chênh lệch khá lớn với các giá trị còn lại và nó được xem như một giá trị ngoại lệ. Trong trường hợp này, chúng ta có thể đoán rằng 2.895 là giá trị đúng. Qua tính toán ta được x̄ = 4.28 và s = 5.3, giá trị của x̄ lớn hơn hầu hết tất cả các số liệu trừ hai giá trị 5.28 và 28.95, do đó nó không thể là một ước lượng tốt cho giá trị trung tâm của tập dữ liệu(giá trị ở giữa của tập dữ liệu). Nếu chúng ta xóa số liệu 28.95, bây giờ kích thước mẫu n = 23, ta có x̄ = 3.21, s = 0.69. Lúc này, trung bình mẫu cung cấp một ước lượng tốt cho giá trị trung tâm của dữ liệu và giá trị SD nhỏ hơn 7 lần so với khi xét cả giá trị ngoại lệ 28.95. Giá trị ngoại lệ cũng có những ảnh hưởng bất lợi nghiêm trọng đến các khoảng tin cậy. Sử dụng các số liệu trong ví dụ trên ta có khoảng tin cậy dựa trên phân bố Student với độ tin cậy 0.95 là (2.05; 6.51), nếu xóa bỏ giá trị ngoại lệ thì khoảng tin cậy là (2.91; 3.51). Qua ví dụ trên có thể thấy rằng các ước lượng cổ điển như trung bình mẫu, phương sai mẫu, ... có thể bị ảnh hưởng nhiều bởi các giá trị ngoại lệ. Khi đó chúng không phải là các ước lượng tốt nhất chúng ta cần. Để khắc phục vấn đề này, các nhà nghiên cứu thống kê đã tìm ra các ước lượng tham số Robust sẽ cung cấp ước lượng phù hợp với phần lớn các dữ liệu khi tập dữ liệu chứa các giá trị ngoại lệ cũng như khi dữ liệu không chứa các giá trị này. Tuy nhiên, chúng ta có cần thiết phải sử dụng thống kê Robust trong tất cả các trường hợp không hay chỉ cần thực hiện bài toán qua hai bước sau : (1) : Loại bỏ các giá trị ngoại lệ khỏi tập dữ liệu bằng cách sử dụng các quy tắc xóa bỏ các ngoại lệ. (2) : Sử dụng các phương pháp thống kê cổ điển Câu trả lời là không vì những lý do sau đây : • Thứ nhất, chúng ta rất khó để có thể tách biệt hai bước trên một cách rõ ràng, ví dụ trong các bài toán hồi quy nhiều tham số rất khó để có thể Mục lục 7 nhận ra các giá trị ngoại lệ trừ khi chúng ta chắc chắn đó là các giá trị ngoại lệ. • Thứ hai, thực nghiệm đã chỉ ra rằng những phương pháp loại bỏ tốt nhất không hoàn toàn đạt được các ước lượng tốt khi sử dụng thống kê Robust. • Thứ ba, các nghiên cứu thực nghiệm cũng chỉ ra rằng rất nhiều các quy tắc xóa bỏ cổ điển không thể đối với với các giá trị ngoại lệ bội : tình huống có thể xảy ra là giá trị ngoại lệ thứ hai ẩn đi giá trị ngoại lệ thứ nhất, do đó việc xóa bỏ không thể thực hiện. Vì những lý do này nên trong luận văn, em trình bày về các ước lượng Robust qua ba chương sau : • Chương 1 : Trình bày các khái niệm, tính chất nền tảng trong ước lượng Robust và hồi quy tuyến tính như : Định nghĩa và các tính chất của ước lượng M, ước lượng M cho tham số vị trí và tham số tỷ lệ. • Chương 2 : Trình bày ước lượng M cho các hệ số trong mô hình hồi quy : Giới thiệu phương pháp bình phương cực tiểu cho mô hình hồi quy, định nghĩa và các tính chất của ước lượng M cho các hệ số của mô hình hồi quy. • Chương 3 : Trình bày một ứng dụng của ước lượng M cho một mô hình hồi quy với bộ dữ liệu cụ thể sử dụng phần mềm R. Chương 1 Ước lượng M 1.1 Định nghĩa Cho X là đại lượng ngẫu nhiên có phân phối chuẩn N (µ, σo2 ) trong đó µ là tham số chưa biết, σo2 đã biết. Ta có mẫu X1 , X2 , . . . , Xn về X. Khi đó hàm mật độ đồng thời của X1 , X2 , . . . , Xn là f (x1 , x2 , . . . , xn , µ) = n Y f (xi ; µ), i=1 Hàm hợp lý ( ) n 1 X 1 exp − 2 (xi − µ)2 . L(µ) = n n/2 2σo i=1 σo (2π) Ước lượng hợp lý cực đại cho µ là giá trị µ b cực đại L(µ) hay µ b cực tiểu Pn P n 2 2 b cực tiểu i=1 ρ(xi , µ). i=1 (xi − µ) . Nếu ta đặt ρ(x, µ) = (x − µ) thì µ Tổng quát hơn ta có định nghĩa sau về ước lượng M : Định nghĩa 1.1.1. Giả sử x1 , x2 , . . . , xn là các quan sát độc lập và có cùng phân phối với hàm mật độ f (x, θ). Một ước lượng M của θ là : Tn = arg min θ hoặc bởi phương trình ẩn n X n X ρ(xi ; θ), (1.1) i=1 ψ(xi ; Tn ) = 0, i=1 với ρ là hàm bất kỳ, ψ(x; θ) = (∂/∂θ)ρ(x; θ). 8 (1.2) 1.1. Định nghĩa 9 Nếu chúng ta chọn ρ(x; θ) = − log f (x; θ) thì ước lượng thu được chính là ước lượng hợp lý cực đại quen thuộc. Ví dụ 1.1.1. Ước lượng hợp cực đại của θ với giả thiết họ hàm mật độ xác suất f (x, θ) là nghiệm của Z ψ(x; θ)Fn (dx) = 0, với ψ(x; θ) = ∂ log f (x; θ). ∂θ Ví dụ 1.1.2. Ước lượng hợp lý cực đại cho ν của phân bố Student với hàm mật độ fν (x) = cν x2 1+ ν !−(ν+1)/2 , trong đó Γ((v + 1)/2) cν = √ . vπΓ(v/2) là ước lượng M với ψ(x) = x2 x . +ν Như vậy trong thống kê, các ước lượng và thống kê kiểm định đều phụ thuộc vào mẫu (x1 , . . . , xn ) thông qua hàm phân phối mẫu Fn (x) = 1X I( xi < x), n Nghĩa là, với ước lượng Tn = Tn (x1 , x2 , . . . , xn ) ta có thể viết : Tn (x1 , . . . , xn ) = T (Fn ) với hàm T nào đó được định nghĩa trên không gian độ đo thực. Cho xi là các quan sát độc lập có cùng hàm phân bố F , nếu một hàm T thỏa mãn giới hạn theo xác suất T (F ) = lim T (Fn ). n→∞ được gọi là vững theo nghĩa Fisher tại F . 1.2. Tính chất tiệm cận của ước lượng M 10 Nhận xét 1.1.1. Trong trường hợp tổng quát chúng ta không thể định nghĩa T (F ) là một giá trị của t làm nhỏ nhất Z ρ(x; t)F (dx). (1.3) Ví dụ, ρ(x; t) = |x − t|, nhưng Z |x − t|F (dx) ≡ ∞ (1.4) đồng nhất theo t trừ khi F có một mô men tuyệt đối hữu hạn. Có một biện pháp khắc phục đơn giản : thay thế ρ(x; t) bằng ρ(x; t) − ρ(x; to ) với giá trị không đổi to , nghĩa là trong trường hợp của median, làm nhỏ nhất Z (|x − t| − |x|)F (dx) thay cho (1.4) Từ phương trình (1.2), chúng ta định nghĩa T (F ) bởi : Z ψ(x; T (F ))F (dx) = 0. 1.2 (1.5) Tính chất tiệm cận của ước lượng M Giả sử ψ(x; θ) đo được đối với x và là hàm giảm theo θ, . Đặt Tn∗ = sup{t| Tn∗∗ = inf{t| n X 1 n X ψ(xi ; t) > 0}, (1.6) ψ(xi ; t) < 0}. (1.7) 1 Rõ ràng, −∞ < Tn∗ ≤ Tn∗∗ < ∞ và giá trị Tn bất kỳ thỏa mãn Tn∗ ≤ Tn ≤ Tn∗∗ có thể là ước lượng cần tìm. Chú ý rằng : X {Tn∗ < t} ⊂ { ψ(xi ; t) ≤ 0} ⊂ {Tn∗ ≤ t}, X {Tn∗∗ < t} ⊂ { ψ(xi ; t) < 0} ⊂ {Tn∗∗ ≤ t}. (1.8) 1.2. Tính chất tiệm cận của ước lượng M 11 Hình 1.1: Biểu diễn của Tn∗ và Tn∗∗ Do đó, X P {Tn∗ < t} = P { ψ(xi ; t) ≤ 0}, X P {Tn∗∗ < t} = P { ψ(xi ; t) < 0}. (1.9) tại các điểm liên tục t của vế trái. Phân bố của 21 (Tn∗ + Tn∗∗ ) khó tìm song ta có thể biểu diễn hàm phân bố của   T ∗ với xác suất 1 n 2 Tn =  T ∗∗ với xác suất 1 n 2 qua P ψ(xi , t) là 1 X 1 X P {Tn < t} = P { ψ(xi ; t) ≤ 0} + P { ψ(xi ; t) < 0}. 2 2 Bây giờ chúng ta tìm phân phối giới hạn của Tn . Đặt : λ(t) = λ(t, F ) = EF ψ(X, t). (1.10) Nếu λ tồn tại và hữu hạn với ít nhất một giá trị của t, thì nó tồn tại (có thể là vô hạn) và đơn điệu với mọi t. Do ψ(X; t) − ψ(X; s) ≥ 0 nếu t ≤ s vì vậy EF ψ(X; t) ≥ EF ψ(X; s) nên định nghĩa là đúng đắn. 1.2. Tính chất tiệm cận của ước lượng M 12 Mệnh đề 1.2.1. Giả sử có một giá trị to sao cho λ(t) > 0 với t < to và λ(t) < 0 với t > to . Khi đó cả Tn∗ và Tn∗∗ hội tụ theo xác suất gần như chắc chắn tới to . Chứng minh. Dễ dàng chỉ ra được từ (1.9) và áp dụng luật số lớn cho P (1/n) ψ(xi ; to ± ε). Hệ quả 1.2.1. Nếu ψ(x; θ) là đơn điệu theo θ và T (F ) được xác định duy nhất bởi (1.5), khi đó Tn là vững tại F , nghĩa là Tn → T (F ) theo xác suất và gần như chắc chắn. Chú ý từ λ(s; F ) = λ(t; F ) suy ra ψ(x; s) = ψ(x; t) hầu khắp nơi theo F ; λ(t) cung cấp một biểu diễn tham số hiệu quả hơn t. Nếu λ là hàm liên tục thì mệnh đề 1.2.1 khẳng định rằng λ(Tn ) là ước lượng vững của 0, điều này vẫn đúng nếu λ triệt tiêu trên một khoảng không suy biến.Ta có thể nghiên cứu dáng điệu tiệm cận của Tn thông qua λ(Tn ). Vì λ là hàm đơn điệu giảm nên ta có : {−λ(Tn ) < −λ(t)} ⊂ {Tn < t} ⊂ {Tn ≤ t} ⊂ {−λ(Tn ) ≤ −λ(t)} Bây giờ chúng ta sẽ chỉ ra rằng √ (1.11) nλ(Tn ) là tiệm cận chuẩn với các giả thiết sau đây : CÁC GIẢ THIẾT (A-1) ψ(x; t) đo được theo x và đơn điệu giảm theo t. (A-2) Có ít nhất một điểm to sao cho λ(to ) = 0. (A-3) λ liên tục trong một lân cận của Γo , với Γo là tập các giá trị của t sao cho λ(t) = 0. (A-4) σ 2 (t) = EF [ψ(X; t)2 ] − λ2 (t, F ) là hữu hạn, khác 0 và liên tục trong một lân cận của Γo . Đặt σo = σ(to ). 1.2. Tính chất tiệm cận của ước lượng M 13 Một cách tiệm cận thì mọi Tn mà Tn∗ ≤ Tn ≤ Tn∗∗ có dáng điệu như nhau nên ta sẽ xét Tn∗ . Cho y là một số thực bất kỳ, với giả thiết (A-3), chúng ta định nghĩa dãy √ tn sao cho y = − nλ(tn ) với n đủ lớn. Đặt Yni = ψ(xi ; tn ) − λ(tn ) . σ(tn ) (1.12) Yni với 1 ≤ i ≤ n là các biến ngẫu nhiên độc lập và có cùng phân bố với kỳ vọng 0 và phương sai bằng 1. Từ (1.9) và (1.11), ta có : √ P {− nλ(Tn∗ ) < y} = P {Tn∗ < tn } y 1 X Yni ≤ } = P {√ σ(tn ) n (1.13) (1.14) √ nếu y/ n là điểm liên tục của phân phối của λ(Tn∗ ), nghĩa là cho hầu hết tất cả y. Bổ đề 1.2.1. Khi n → ∞, 1 X P {√ Yni < z} → Φ(z) n đều trong z Chứng minh. Chúng ta phải kiểm chứng điều kiện Lindeberg, với mọi ε > 0, E{Yni2 ; |Yni | > √ nε} → 0 khi n → ∞. Vì λ và σ là liên tục, nên với mọi ε > 0, khi n → ∞, E{ψ 2 (x; tn ); |ψ(x; tn )| > √ nε} → 0 Do đó, nó chỉ ra rằng họ các biến ngẫu nhiên (ψ(x; tn ))n≤no là khả tích đều. Nhưng, vì ψ là đơn điệu, ψ 2 (X; s) ≤ ψ 2 (X; so ) + ψ 2 (X; s1 ) với so ≤ s ≤ s1 . Vì vậy, theo giả thiết (A- 4), họ các biến ngẫu nhiên này được làm trội bởi một biến ngẫu nhiên khả tích và do đó là khả tích đều. 1.2. Tính chất tiệm cận của ước lượng M 14 Theo (1.14) chúng ta có định lý sau Định lý 1.2.1. Với các giả thiết (A - 1) - (A - 4) √ y P {− nλ(Tn ) < y} − Φ( ) → 0 σo √ hội tụ đều theo y. Nói cách khác, nλ(Tn ) là xấp xỉ chuẩn N (0; σo2 ). (1.15) Chứng minh. Ta chỉ cần chỉ ra rằng sự hội tụ là đều. Điều này rõ ràng đúng cho khoảng bị chặn [−yo ; yo ], do đó, với ε > 0 cho trước và nếu chúng ta chọn yo đủ lớn sao cho Φ(−yo /σo ) < ε 2 và no đủ lớn sao cho √ y ε P {− nλ(Tn ) < y} − Φ( ) < σo 2 với mọi n ≥ no và mọi y ∈ [−yo ; yo ]. Nó chỉ ra rằng √ y P {− nλ(Tn ) < y} − Φ( ) < ε. σo với mọi y. 0 Hệ quả 1.2.2. Nếu tồn tại to sao cho λ (to ) < 0, khi đó √ n(Tn − to ) là tiệm 0 cận chuẩn với kỳ vọng 0 và phương sai σo2 /(λ (to ))2 . Chứng minh. Trong trường hợp này, tn = to − √ y 1 + o( √ ), 0 nλ (to ) n So sánh (1.14), (1.15) suy ra điều phải chứng minh. Trong phần tiếp theo chúng ta sẽ xét hai trường hợp đặc biệt của ước lượng M là ước lượng M cho tham số vị trí và ước lượng M cho tham số tỷ lệ. 1.3. Ước lượng M cho tham số vị trí 15 1.3 Ước lượng M cho tham số vị trí 1.3.1 Định nghĩa và ví dụ • Mô hình vị trí Định nghĩa 1.3.1. Mô hình có dạng X i = µ + ui (i = 1, 2, . . . , n) (1.16) trong đó các sai số ui là các biến ngẫu nhiên được gọi là một mô hình vị trí. Nếu các quan sát được ghi lại với những thí nghiệm tương tự trong cùng một hệ điều kiện thì có thể giả sử rằng : 1. u1 , u2 , . . . , un có cùng hàm phân phối xác suất Fo . 2. u1 , u2 , . . . , un độc lập. Do đó từ mô hình (1.16) có thể thấy rằng Xi là các biến ngẫu nhiên độc lập và có cùng hàm phân phối : F (x) = Fo (x − µ) (1.17) 0 Xét mô hình (1.16), giả sử rằng Fo có hàm mật độ xác suất fo = Fo . Khi đó hàm hợp lý của các quan sát là : L(x1 , x2 , . . . , xn , µ) = n Y fo (xi − µ) n=1 Định nghĩa 1.3.2. Ước lượng hợp lý cực đại (M LE) của µ là µ b phụ thuộc vào x1 , x2 , . . . , xn sao cho L(x1 , x2 , . . . , xn , µ) là lớn nhất : µ b=µ b(x1 , x2 , . . . , xn ) = arg max L(x1 , x2 , . . . , xn , µ). µ (1.18) 1.3. Ước lượng M cho tham số vị trí 16 Nếu biết được chính xác phân phối Fo thì ước lượng M LE có thể là tốt nhất do đạt được phương sai tiệm cận nhỏ nhất trong lớp các ước lượng. Nhưng vì chúng ta biết Fo chỉ là xấp xỉ, do đó mục đích của chúng ta là tìm ra các ước lượng sao cho : +) "Gần tối ưu" khi Fo là phân phối chuẩn. và cũng +) "Gần tối ưu" khi Fo xấp xỉ phân phối chuẩn. Định nghĩa 1.3.3. Cho trước một hàm ρ, một ước lượng M của tham số vị trí là nghiệm của phương trình µ b = arg min n X µ ρ(xi − µ). (1.19) i=1 • Ví dụ Ví dụ 1.3.1. Nếu Fo = N (0, 1), khi đó x2 1 fo (x) = √ e− 2 2π Suy ra ρ(x) = x2 . 2 (1.20) Do đó, (1.19) ⇔ µ b = arg minµ Pn i=1 (xi − µ)2 . Ví dụ 1.3.2. Nếu Fo có hàm mật độ xác suất 1 fo (x) = e−|x| 2 thì : ρ(x) = |x| ⇒ (1.19) ⇔ µ b= n X |xi − µ| (1.21) i=1 Chúng ta có thể thấy dưới đây lời giải của biểu thức (1.20) và (1.21) tương ứng chính là trung bình mẫu và median mẫu. 1.3. Ước lượng M cho tham số vị trí 17 Định nghĩa 1.3.4. Nếu ρ là hàm khả vi, đạo hàm biểu thức (1.19) theo µ thì µ b là nghiệm của phương trình : n X ψ(xi − µ b) = 0. (1.22) i=1 0 với ψ = ρ . Chú ý : Nếu fo là hàm đối xứng thì ρ là hàm lẻ và ψ là hàm chẵn. Ví dụ 1.3.3. Nếu ρ(x) = x2 2 0 thì ψ(x) = ρ (x) = x và (1.19) trở thành n X (xi − µ b) = 0 ⇔ µ b = x̄ i=1 Ví dụ 1.3.4. Nếu ρ(x) = |x|, ta sẽ chỉ ra rằng median của x là nghiệm của (1.20). Ta có :     −1 nếu x < 0    ψ(x) = sgn(x) = 0 nếu x = 0      1 nếu x > 0 Ta có sgn(x) = I(x > 0) − I(x < 0). với I(.) là hàm chỉ tiêu: I(x > 0) =   1 nếu x > 0  0 nếu x ≤ 0 Từ (1.20) và (1.21) ta có : n X i=1 sgn(xi − µ) = n X (I(xi − µ > 0) − I(xi − µ < 0)) i=1 = #(xi > µ) − #(xi < µ) = 0 ⇒ #(xi > µ) = #(xi < µ) ⇒ µ là một median mẫu nào đó. (1.23) 1.3. Ước lượng M cho tham số vị trí 18 Nhận xét 1.3.1. Như trong ví dụ 1.1.2 có thể chỉ ra rằng ước lượng hợp lý cực đại cho ν của phân bố Student với hàm mật độ !−(ν+1)/2 2 x fν (x) = cν 1 + , ν trong đó Γ((v + 1)/2) cν = √ . vπΓ(v/2) là ước lượng M với ψ(x) = x . x2 + ν ta có ψ(x) → 0 khi n → ∞. Do đó, đối với các phân bố đối xứng nặng phần đuôi tốt nhất chúng ta nên chọn hàm ψ → 0 tại ∞. Người ta thường dùng họ hàm Huber xác định bởi : ρk (x) =   x2 nếu |x| ≤ k  2k|x| − k 2 nếu |x| > k (1.24) và đạo hàm 2ψk (x) : ψk (x) = 1.3.2   x nếu |x| ≤ k  sgn(x)k nếu |x| > k (1.25) Phân bố của ước lượng M cho tham số vị trí Để đánh giá hiệu quả của các ước lượng M, chúng ta cần chỉ ra được phân phối của chúng. Ngoài kỳ vọng và median thì không có biểu diễn rõ ràng nào cho phân phối của các ước lượng M trong trường hợp cỡ mẫu hữu hạn, nhưng các phép xấp xỉ có thể được tìm thấy. Giả sử ψ là hàm tăng và cho trước phân phối F . Khi đó, ta định nghĩa µo = µo (F ) là lời giải của phương trình: EF ψ(X − µo ) = 0 (1.26)
- Xem thêm -