ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Nguyễn Quang Đạt
NGHIÊN CỨU VÀ XÂY DỰNG MỘT SỐ THUẬT TOÁN
QUY HOẠCH THỰC NGHIỆM TỐI ƯU
LUẬN VĂN THẠC SĨ TOÁN HỌC
Hà Nội – 2016
ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC KHOA HỌC TỰ NHIÊN
NGUYỄN QUANG ĐẠT
NGHIÊN CỨU VÀ XÂY DỰNG MỘT SỐ THUẬT TOÁN
QUY HOẠCH THỰC NGHIỆM TỐI ƯU
Chuyên ngành : Cơ sở toán cho tin học
Mã số
: 60460110
LUẬN VĂN THẠC SĨ TOÁN HỌC
Cán bộhướng dẫn khoa học: TS. Nguyễn Hải Vinh
Hà nội – 2016
TÀI LIỆU THAM KHẢO
I.
Tiếng Anh
1.1.
Dette, H. and Haines, L. (1994). “E-optimal designs for linear and
nonlinear models with two parameters”, “Biometrika”
Dette, H. and Studden, W. J. (1993). “Geometry of E-optimality”, “Ann.
Statist”,
Elfving, G. (1952), “Optimum allocation in linear regression theory”.
“Ann. Math. Statist”.
Holger Dett, Viatcheslav B. Melas, Andrey Pepelyshev (2004), “Optimal
Designs for a class of nonlinear regression models”, St. Petersburg State
University, Russia.
Imhof, L. A. and Studden, W. J. (2001). “E-optimal designs for rational
models”. “Ann.Statist.”
Viatcheslav B. Melas (2006), “Functional Approach to Optimal
Experimental Design”, Springer Science+Business Media, Inc., USA.
1.2.
1.3.
1.4.
1.5.
1.6.
II.
Tiếng Nga
2.1.
Ф е д о р о в В. В. (1971), “Теория оптимального эксперимента
(планирование регрессионных экспериментов)”,изд-ва «Наука»,
Москва.
III. Tiếng Việt
3.1.
3.2.
Lưu Lan Hương (1985), “Ứng dụng phép quy hoạch trong bố trí thí
nghiệm”, luận án tốt nghiệp đại học, ĐH Tổng hợp, Hà Nội.
Phan Phương Loan, Bùi Minh Tâm, Phạm Thanh Liêm (2013) “Nghiên
cứu một số chỉ tiêu sinh lý cá rô biển”, Khoa Nông nghiệp và Tài nguyên
Thiên nhiên, Trường Đại học An Giang.
Mục lục
Mở đầu
2
Chương 1: Quy hoạch thực nghiệm tối ưu
1.1 Tổng quan . . . . . . . . . . . . . . . .
1.2 Các yêu cầu chung về sự đánh giá . . .
1.3 Mô hình tuyến tính . . . . . . . . . . .
1.3.1 Ví dụ về mô hình tuyến tính: . .
1.4 Tiêu chuẩn tối ưu . . . . . . . . . . . .
1.4.1 Chuẩn D: . . . . . . . . . . . .
1.4.2 Chuẩn G: . . . . . . . . . . . .
1.4.3 Chuẩn MV: . . . . . . . . . . .
1.4.4 Chuẩn c: . . . . . . . . . . . . .
1.4.5 Chuẩn E : . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Chương 2: Lớp mô hình hồi quy phi tuyến.
2.1 Thuật toán tối ưu cho lớp hàm hồi quy phi tuyến . . . . .
2.2 Lớp mô hình hồi quy phi tuyến dạng phân thức . . . . . .
2.2.1 Đánh giá các kết quả đo đạc . . . . . . . . . . . .
2.2.2 Phân tích tiệm cận theo mô hình tối ưu chuẩn E và
chuẩn c . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Mô hình hồi quy phi tuyến dạng phân thức hữu tỷ
2.3 Một số mô hình hồi quy phi tuyến dạng phân thức . . . .
2.3.1 Mô hình 1: . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Mô hình 2: . . . . . . . . . . . . . . . . . . . . . .
2.4 Lưu đồ mô hình thuật toán: . . . . . . . . . . . . . . . .
Chương 3: Bài toán thực tế
3.1 Bài toán 1 . . . . . . . . . . . . . . . .
3.1.1 Thí nghiệm ban đầu . . . . . . .
3.1.2 Mô hình hóa bài toán . . . . . .
3.1.3 Giải bài toán . . . . . . . . . . .
3.1.4 Tổ chức thêm thí nghiệm lần thứ
3.1.5 Mô hình hóa và giải lần thứ 2 .
3.2 Bài toán 2 . . . . . . . . . . . . . . . .
3.2.1 Thí nghiệm ban đầu . . . . . . .
3.2.2 Mô hình hóa bài toán . . . . . .
3.2.3 Giải bài toán . . . . . . . . . . .
3.2.4 Tổ chức thêm thí nghiệm lần thứ
3.2.5 Mô hình hóa và giải lần thứ 2 .
1
. .
. .
. .
. .
2:
. .
. .
. .
. .
. .
2:
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
7
9
16
18
18
18
19
19
20
21
. 21
. 25
. 25
.
.
.
.
.
.
30
35
41
41
48
50
.
.
.
.
.
.
.
.
.
.
.
.
51
51
52
53
54
56
56
58
59
60
61
63
63
MỞ ĐẦU
Trước đây, các nhà khoa học, trong khi nghiên cứu, thường làm rất nhiều
thí nghiệm. Họ tiếp tục đùng thống kê để phân tích các kết quả thu được.
Tới thời điểm hiện tại, khoa học kỹ thuật đã phát triển rất mạnh. Những
thí nghiệm cho các chuyên ngành đã trở nên cực kỳ lớn và phức tạp. Sự
phát triển ngày một đi lên của khoa học - công nghệ đã gây ra một sự
gia tăng rất cao của chi phí cho các thí nghiệm. Chúng ta lấy đơn cử một
ví dụ như việc phát triển của vật lý nguyên tử hiện nay đòi hỏi phải xây
dựng một loạt các máy gia tốc không lồ, trị giá nhiều tỷ đô-la.
Các nhà khoa học và các nhà nghiên cứu buộc phải xoay theo một hướng
khác trong khoa học thông kê. Quy hoạch thực nghiệm tối ưu ra đời nhằm
đáp ứng yêu cầu của họ. Quy hoạch thực nghiệm tối ưu đã tối ưu hóa việc
lập kế hoạch tiến hành các thí nghiệm, từ đó có thể thu được nhiều kết
quả có giá trị nhất với một số ít nhất các thí nghiệm..
Đối với vấn đề tối ưu hóa thí nghiệm, hiện nay, trong quy hoạch thực
nghiệm tối ưu có hai xu hướng chính: một là lập kế hoạch tốt nhất cho
các thí nghiệm để tối ưu hóa các kết quả đầu ra, và hai là xây dựng kế
hoạch thực nghiệm tối ưu cho các thí nghiệm xác định mô hình nghiên cứu.
Trong xu hướng thứ nhất, việc chúng ta cần làm là tính toán các điều
kiện thí nghiệm, sao cho chúng ta có thể tìm được điều kiện tốt nhất để
khi làm thí nghiệm thì ta thu được kết quả tốí ưu nhất, tức là một kết quả
thu được nào đó của thí nghiệm nhận được phải là tối ưu nhất có thể. Ta
lấy một ví dụ đơn giản trong trường hợp này. Trong ngành hóa học - công
nghệ hiện đại, chúng ta đặt ra yêu cầu là phải nhận được sản phẩm ở mức
lớn nhất. Một phép tính toán và quy hoạch ở đây là phải tìm ra nhiệt độ
thích hợp, áp xuất thích hợp, tỷ lệ phần trăm các thành phần nguyên liệu,
v.v...
Xu hướng thứ hai, trong một số trường hợp, chúng ta lại phải tìm hiểu
một khía cạnh khác của thí nghiệm. Ta cần phải xác định xem một yếu tố
nào đó sẽ có ảnh hưởng như thế nào đối với các kết quả mà chúng ta sẽ
thu được ở trong thí nghiệm của chúng ta. Và từ đó có thể tìm ra được cơ
chế của thí nghiệm này. Lấy lại ví dụ bên trên, chúng ta cần phải xác định
xem các yếu tố bên ngoài như nhiệt độ, áp suất, v.v... sẽ có tác động ra
sao đối với kết quả của chúng ta (ta cần thu được nhiều sản phẩm nhất).
Ở đây, nếu như chúng ta viết lại nó trong ngôn ngữ của toán học, thì ta
2
có thể thấy rằng ta cần phải xây dựng mô hình như sau: cần phải tìm ra
một phương trình xác định các mối quan hệ giữa các đại lượng ban đầu
(các chất phản ứng, các yếu tố nhiệt độ, áp suất, thời gian, v.v...) với các
đại lượng của kết quả (ở đây là khối lượng sản phẩm thu được). Và cuối
cùng, chúng ta phải đưa ra được một mô hình toán học của thí nghiệm này.
Trong luận văn thạc sỹ này, bài toán được đặt ra là: chúng ta đã có
trước kết quả của một số thí nghiệm. Nhưng những kết quả của các thí
nghiệm cho trước đó là không đủ để tính toán ra (chứng thực) lý thuyết
mới mà chúng ta cần. Chúng ta phải làm thêm một số thí nghiệm nữa bên
cạnh các thí nghiệm trước. Yêu cầu của bài toán ở đây là hãy xác định kế
hoạch cho việc thực hiện thí nghiệm mới một cách tốt nhất.
Mục tiêu của học viên là nghiên cứu về lý thuyết của quy hoạch thực
nghiệm tối ưu, cùng với đó là áp dụng các lý thuyết vào trong bài toán
thực tế:
1. Tổng quan và thực trạng hiện nay của quy hoạch thực nghiệm tối ưu.
2. Nghiên cứu, chứng minh lý thuyết. Đưa ra cách xây dựng thuật toán.
3. Áp dụng vào bài toán thực tế.
Luận văn bao gồm các mục:
Chương 1: Tổng quan về quy hoạch thực nghiệm tối ưu.
1.1. Lớp mô hình đơn giản: lớp tuyến tính.
Chương 2: Lớp mô hình quy hoạch thực nghiệm tối ưu phi tuyến:
2.1. Lớp mô hình hồi quy phi tuyến dạng phân thức.
2.2. Một số các mô hình lý thuyết.
Chương 3: Nghiên cứu trên mô hình thực tế:
3.1. Bài toán 1.
3.2. Bài toán 2.
3
1
CHƯƠNG I: QUY HOẠCH THỰC NGHIỆM TỐI ƯU
1.1
Tổng quan
Bây giờ, chúng ta sẽ xem xét các mô hình toán học của các vấn đề, thiết
kế các thông số toán học cho các hiện tượng và làm sáng tỏ chúng. Chúng
ta đầu tiên sẽ đưa ra các cách để toán học hóa các số liệu trên.
Thông thường, các kết quả thu được trong thí nghiệm thường được phụ
thuộc vào một hoặc vài yếu tố, mà ở đây, ta gọi chúng là "biến kiểm soát",
hay các "biến đầu vào" (ta sau đây sẽ hầu như chỉ sử dụng tên "biến đầu
vào" trong các mô hình). Các biến này thay đổi tùy theo các thí nghiệm
của chúng ta. Ví dụ bên trên cho thấy ta có thể thay đổi nhiệt độ, áp suất,
thời gian, phần trăm hóa chất ban đầu, v.v... Mỗi một yếu tố này, ta đại
diện chúng bằng một biến số, ta sẽ được một vector như sau:
x1
x2
x = ..
.
xk
Ở đây, mỗi biến x1 , ..., xk là một biến tương ứng với một yêu tố đầu vào
(nhiệt độ, áp suất, v.v...).
Một không gian k chiều ở đây, trong đó có xác định vector x, ta có thể
gọi là một không gian các yếu tố ban đầu. Tập hợp các điểm trong không
gian này, nơi mà các phép đo có thể được thực hiện (có thể làm thí nghiệm
tại các điểm này) được gọi là "miền kiểm tra", hay là "miền giá trị đầu
vào". Trong tài liệu này, chúng ta gọi miền này là X . Việc xác định các
giới hạn trong X là một vấn đề quan trọng trong kế hoạch tối ưu hóa của
chúng ta. Một số trường hợp, các giá trị giới hạn này phụ thuộc vào tính
chất của các biến đầu vào. Với ví dụ hóa học trên, ta có thể thấy áp suất
không thể là số âm, hay thành phần phần trăm các nguyên liệu ban đầu
luôn nằm trong khoảng 0% tới 100%. Trong một số các trường hợp nhỏ
hơn nữa - thường xảy ra hơn - đó là chúng ta còn cần xem xét các giá trị
của biến đầu vào còn có các giới hạn khác nữa, ví dụ như nhiệt độ phụ
thuộc vào nguồn nhiệt thí nghiệm cung cấp, nên không thể cao hơn một
giá trị nào đó, v.v... Chúng ta thậm chí còn có thể phải đưa ra các giới
hạn nhiều hơn nữa.
Trong trường hợp này, chúng ta cần phải đưa ra được một mô hình toán
học (ví dụ là một dạng hàm số) phụ thuộc vào các biến đầu vào, để có thể
4
thực hiện được việc tối ưu hóa thí nghiệm như ta cần. Ta sẽ giả sử rằng,
mối quan hệ này được xác định bởi một hàm số như sau:
E(y/x) = η(x)
trong đó, E(y/x) là giá trị mà ta thu được sau khi hoàn thành thí nghiệm.
Vì giá trị thu được phụ thuộc vào các biến đầu vào nên ta để x ở đây, đại
diện cho việc y của x nào. Còn hàm số η(x) là một hàm phụ thuộc vào các
tham số chưa biết θ1 , θ1 , ..., θm . Và trong trường hợp tổng quát, ta cũng
không biết được dạng của hàm số η(x) này, và sự phụ thuộc của các tham
số θ1 , θ1 , ..., θm trong hàm này.
Trong các trường hợp để tìm hiểu các mô hình toán học tối ưu mà ta
cần, chúng ta cần thếm một số các thông tin khác nữa. Và ở đây, ta có thể
chia bài toán tìm mô hình tối ưu này ra thành ba cấp độ cơ bản theo độ
khó của chúng:
Cấp độ 1: hàm số η(x) = η(x, θ) là một hàm số đã được biết trước.
Chúng ta cần xác định các tham số chưa biết θ:
θ1
θ2
θ = ..
.
θm
Cấp độ 2: hàm số η(x) là hàm có dạng sau:
η (x, θ )
η1 (x, θ1 )
2
2
η(x) =
..
.
ηv (x, θv )
kích thước của các vector θ1 , ..., θv thậm chí có thể khác nhau. Và chúng ta
cần phải xử lý các dữ liệu để xác định các hàm η1 (x, θ1 ), η2 (x, θ2 ), . . . ηv (x, θv ).
Sau đó tìm các tham số θ1 , θ1 , ..., θv chưa biết.
Cấp độ 3: hàm số η(x) là hoàn toàn chưa biết. Trong giới hạn của đồ
án này, chúng ta sẽ không đi sâu vào nghiên cứu bài toán ở mức độ khó này.
Mặc dù, cách phân chia trên chỉ là một cách phân chia cơ bản nhất,
và trong trường hợp thực tế, các bạn có thể gặp phải các vấn đề có mức
độ nằm trung gian ở giữa hai cấp trên. Khi đó, giải quyết bài toán theo
trường hợp nào là hoàn toàn tùy thuộc vào hoàn cảnh bài toán.
5
Việc thiết kế các mô hình toán học cho trường hợp thứ nhất đã được
giải quyết trên cơ bản vào tầm năm 1955 - 1960. Hiện nay, chúng ta chỉ
còn xem xét và giải quyết các trường hợp đặc biệt gặp phải mà thôi.
Với cấp độ thứ hai, các phương pháp giải quyết đã được đưa ra bắt đầu
từ những năm 1970, cho tới nay vẫn còn có một số vấn đề cần tiếp tục giải
quyết. Nó cần tới các nhà khoa học chuyên ngành, để họ đưa ra các thông
số dữ liệu và từng các mô hình nhỏ bên trong một mô hình lớn hơn. Bài
toán này đưa ra yêu cầu về việc thiết lập các hàm nhỏ bên trong một cách
tối ưu nhất. Điều này gần giống như việc chúng ta phải làm việc với n bài
toán cấp độ một.
Còn vấn đề về độ khó ở cấp độ ba thì cho tới nay, chúng ta vẫn chưa thể
hoàn toàn giải quyết trên phương pháp (tức là đưa ra một phương pháp
tổng quát nào đó). Tuy nhiên, hiện giải pháp phổ biến được đưa ra là có
thể sử dụng tính xấp xỉ.
6
1.2
Các yêu cầu chung về sự đánh giá
Bây giờ, chúng ta sẽ nêu ra các yêu cầu của việc toán học hóa này.
Kết quả thu được của các phép đo là không giống nhau trong các lần
đo. Chúng có những sự sai biệt nhỏ nào đó, dù được đo tại cùng một địa
điểm và trong các điều kiện như nhau. Ở đây, kết quả thu được như sau:
E(y/x) = η(x, θ)
(1.1)
trong đó, y là kết quả của các phép đo thực tế tại điểm x, còn η(x, θ) là
một hàm số mà dạng của nó đã được biết trước. Các tham số
θ1
θ2
θ = ..
.
θm
là những tham số chưa biết.
Còn E thì tương ứng với giá trị trung bình.
Giả sử bây giờ ta phân tích các dữ liệu chưa biết của θ, hay là các
giá trị cần biết của η(x, θ) trong một miền xác định X 0 nào đó. Từ các
kết quả thu được - trong một số các trường hợp có thể là sử dụng một
phương pháp đơn giản là lấy trung bình yist để tránh bị làm trở ngại
trong các phép tính. Nói chung là ta sẽ không sử dụng ngay các giá trị
thực sự đo được ở đây cho việc tính toán này (tức là không dùng ngay θist ).
Ở đây, như đã nói ở trên, ta sẽ dùng một số tạm gọi là lý tưởng θ̃, là 1
con số khá gần với các giá trị đo được θist . Tức là nó cũng vẫn phụ thuộc
vào những kết quả ta đo đươc, chứ không phải là lấy ngẫu nhiên hoàn
toàn.
θ̃ = Ψ(y1 /x1 , ..., yn /xn )
với yi là giá trị thực tế đo được tại điểm xi . Khi đó giá trị θ̃ được gọi là
đánh giá tại xi (đánh giá tại điểm).
Các thực nghiệm nhằm tìm ra các thông số (các giá trị) chưa biết này
ta sẽ gọi chúng là hồi quy. Việc tính toán và xác định này được gọi là phân
tích hồi quy.
Để có thể có được đánh giá tốt nhất cho toàn bài toán đã được đặt ra
thì các giá trị trên cần phải được tính ra đầy đủ.
7
Bắt đầu từ đây, chúng ta sẽ sử dụng khái niệm "Không lệch", "Chính
xác" và "Hiệu quả".
Không lệch
lệch: đánh giá θ̃ được gọi là "không lệch" khi:
E[θ̃] = θist
Chính xác
xác: đánh giá θ̃ được gọi là chính xác nếu như giới hạn của nó
khi N tiến tới rất trùng (hoặc rất gần) với giá trị chính xác (hội tụ tới giá
trị chính xác).
lim P [(θ̃N − θist )T (θ̃N − θist ) ≥ ε] = 0
N →∞
trong đó N có nghĩa là số mà sau chừng đó phép đo, ta thu được θ̃. Còn
ε là số dương bất kỳ. Giá trị P [A ≥ ε] là xác xuất mà A ≥ ε.
Hiệu quả
quả: đánh giá θ̃ không lệch bên trên được gọi là hiệu quả khi mà
bất đẳng thức sau xảy ra:
≈
D(θ̃) ≤ D θ
˜
trong đó D(θ̃) là ma trận hiệp biến của đánh giá θ̃, còn D(θ̃) là ma trận
˜
hiệp biến tại bất kỳ đánh giá θ̃ khác.
Đối với mỗi hàm số η(x, θ) và mỗi giá trị kết quả đo đạc được p(y/x),
ta sẽ có "giá trị tốt nhất" θ̃.
Sự phụ thuộc vào hàm số η(x, θ) và p(y/x) là không phù hợp trong thực
tế (không tiện lợi). Thậm chí là bất tiện trong từng tình huống đo đạc dữ
liệu tại một điểm. Do vậy sẽ là vẫn có thể chấp nhận được khi ta sử dụng
một con số chưa chắc chính xác (tạm hy sinh tính chính xác của số liệu)
để có thể xây dựng thuật toán tối ưu mà ta cần. Sau này khi có thuật toán
cơ bản, ta có thể quay lại với các số liệu thực tế.
Sau đây sẽ là phần phân tích thuật toán và lập hàm số, mà trong đó
chúng ta chỉ dựa vào những số không có trong thực tế, hay nói cách khác
là chúng ta tạm thời chưa dùng tới các giá trị η(x, θ) và p(y/x).
Việc không phụ thuộc vào p(y/x) là rất quan trọng. Bởi vì trong thực
tế, các giá trị thu được thường khá là không có quy tắc.
8
1.3
Mô hình tuyến tính
Giả sử rằng η(x, θ) là hàm số tuyến tính đối với các biến số. Khi đó:
E(y/x) = η(x, θ) = θT f (x)
(1.2)
trong đó:
f1 (x)
f (x) = ...
fm (x)
là một hàm số đã biết.
Chúng ta cũng giả định rằng các điểm x1 , x2 , ..., xn được đo độc lập với
nhau, cho ra các giá trị kết quả là y1 , ..., yn với bình phương phương sai là
σ12 , ..., σn2 .
Như vậy ta có thể thấy rằng các giá trị thực nghiệm có thể được biểu
diễn như sau:
θ̃ = T y
(1.3)
trong đó, y là vertor cột chứa các giá trị yi đo đạc được.
y1
y = ...
yn
Còn T là một ma trận m × n nào đó.
Bây giờ ta cần tìm giá trị (ước đoán) tốt nhất θ̂ có thể, tức là gần nhất
với giá trị chính xác θist , được gọi là "chính xác nhất", "hợp lý nhất", với
phương sai là nhỏ nhất trong tập các giá trị ược lượng unbiasedness mà
chúng ta có thể tính ra. Giá trị θ̂ đó được gọi là ước lượng tuyến tính tốt
nhất (vì các hàm chúng ta đang xét là các hàm tuyến tính).
Nhưng trước khi làm các tính toán, chúng ta hãy quay lại một chút với
các định lý đã biết của lý thuyết xác xuất.
Định lý 1.3.1
1.3.1: Một giá trị của u được gọi là giá trị kết hợp của v nếu:
u = Lv
(1.4)
Khi đó:
u) và E(vv ) cũng có thể như thế:
(1) Giá trị trung bình của E(u
u) = L E(u
u)
E(u
(2) Ma trận hiệp biến
9
(1.5)
u) = E[u
u − E(u
u)] × [u
u − E(u
u)]T
D (u
và
D (vv ) = E[vv − E(vv )] × [vv − E(vv )]T
được liên hệ với nhau bởi hệ thức:
u) = LD (vv )L T
D (u
(1.6)
Chứng minh của định lý trên khá dễ dàng, ta có thể tự làm một cách
nhanh chóng.
Định lý 1.3.2: giá trị tối ưu của thực nghiệm tối ưu tuyến tính (theo
công thức (1.2)) đối với biến số θ được tính là:
θ̂θ = M −1Y
(1.7)
trong đó ma trận M bằng:
M=
n
X
ωi f (xi )f T (xi )
(1.8)
i=1
Còn giá trị của Y được tính bởi công thức:
Y=
n
X
ωi yi f (xi )
(1.9)
i=1
và ω là nghịch đảo của bình phương phương sai
ωi = σi−2
Khi đó, ma trận hiệp biến tại θ̂ sẽ bằng:
D (θ̂) = M −1
(1.10)
Trong quá trình chứng minh ta nhận được:
E(θ̂) = M−1Mθist = θist
θist được gọi là ít bị xê dịch
Ma trận:
M=
n
P
ωi f (xi )f T (xi ) =
i=1
n
P
M (xi )
i=1
10
được gọi là ma trận Fisher.
Với việc xây dựng công thức tính tối ưu hóa giá trị thực nghiệm bên
trên, ma trận thu được rất thường hay gặp được ở trong lý thuyết thực
nghiệm và cả trong thực nghiệm thực tế. Ta có thể đánh dấu nó thành
dạng "quan trọng" trong các ma trận mà ta sử dụng.
Hệ quả 1.3.3.1: Ma trận thông tin Fisher thỏa mãn tính chất trên là
hoàn toàn xác định, và có thể tìm ra được:
Quả thực như vậy, ta có:
M=
n
X
ωi f (xi )f T (xi ) = F F T
i=1
Ta dễ thấy rằng, mỗi ma trận thỏa mãn hệ thức dạng AAT đều là ma
trận tồn tại (xác định).
Khi đánh giá tham số θ, là một giá trị dạng vector, thì nói chung, giá trị
thực nghiệm chính xác θ có thể đặc trưng cho tất cả các phần giá trị của ma
trận hiệp biến D (θ̂). Vì thế cho nên tất cả các giá trị thực nghiệm đối với
θ không những có thể dùng đối chiếu với các phần tử đường chéo Dαα (θ̂),
mà chúng ta có thể làm với những nâng cao của nó ở các phương pháp khác.
Ở đây, chúng ta được đưa tới hai phương pháp khác khá phổ biến để
đối chiếu với giá trị thực nghiệm.
1. Giá trị thực nghiệm θ̃ tốt hơn so với giá trị thực nghiệm θ̃˜ nếu như:
˜
D (θ̃) = D (θ̃) + d
ở đây d là một ma trận dương xác định nào đó, hoặc có thể viết ở dạng
bất đẳng thức:
˜
D (θ̃) > D (θ̃)
Định nghĩa: "ma trận dương" ở trên là ma trận có tất cả các phần tử
không âm, đồng thời trong đó có ít nhất một phần tử dương.
˜
2. Giá trị thực nghiệm θ̃ tốt hơn so với giá trị thực nghiệm θ̃ nếu như:
˜ > |D (θ̃)|
|D (θ̃)|
Định thức |D (θ̃)| được gọi là giá trị thực nghiệm hiệp biến suy rộng của θ̃.
11
Từ đinh lý (1.3.2)
(1.3.2), ta có thể trực tiếp suy ra rằng, giá trị thực nghiệm
tuyến tính tối ưu tính trên sẽ đúng với từ "tốt nhất", và về cả hai chuẩn E
và c đã cho. Một cách chặt chẽ hơn thì trong thực nghiệm đã chứng minh
rằng nó hoàn toàn đúng.
Ở trên ta nói về "hai chuẩn" E và c. Định nghĩa hai chuẩn này ta sẽ
trình bày tại phần 1.4
Hệ quả 1.3.3.2: Giá trị tuyến tính tối ưu là ma trận hiệp biến nhỏ nhất
có thể giữa những giá trị tuyến tính ít lệch chuẩn θ̃. Hay là:
D (θ̂) 6 D (θ̃)
Nói cách khác, giá trị tuyến tính tối ưu là hiệu quả nhất trong các lớp giá
trị tuyến tính ít lệch chuẩn.
Hệ quả 1.3.3.3: Định thức của ma trận hiệp biến của giá trị tuyến tính
tối ưu (1.7) là nhỏ nhất trong mọi giá trị tuyến tính ít lệch chuẩn.
|D (θ̂)| < |D (θ̃)|
(1.11)
Kết quả (1.11) được suy ra trực tiếp từ công thức (??). Điều này cũng chỉ
ra thêm hai hệ quả có ích nữa từ định lý (1.3.2)
Hệ quả 1.3.3.4: với một tổ hợp tuyến tính tùy ý t = C θ, ta gọi t̂t = C θ̂
là giá trị tuyến tính tối ưu nhất. Khi đó, ma trận giá trị thực nghiệm hiệp
biến t̂t tương đương với D (t̂t) = CD (t̂t)C T .
Nếu như ta vẫn gọi t̃t là một giá trị tuyến tính ít lệch chuẩn bất kỳ đối
với tham số t, còn t̂t là giá trị tuyến tính tối ưu (cũng đối với tham số t) thì:
1. D αα (θ̂) 6 D αα (θ̃)
2. D (θ̂) 6 D (θ̃)
3. |D (θ̂)| < |D (θ̃)|
Chứng minh của hệ quả (1.3.3.4) này có thể hoàn toàn dễ dàng làm được
dựa vào định lý (1.3.1) và công thức (??). Thật vậy, áp dụng công thức
tính (1.6) cho cả 2 vế của công thức (??). Sau đó ta sử dụng định lý (1.3.2)
cùng với hai hệ quả (1.3.3.2) và (1.3.3.3)
(1.3.3.3), ta sẽ thu được những gì ta cần
chứng minh.
12
Trong một số trường hợp, các giá trị của t̂t có thể tính được, trong khi
mà ma trận thông tin t̂t = C θ̂ là đặc biệt, không tầm thường và không thể
tính được.
Tồn tại một số phương pháp để có thể tính được các giá trị này và các
ma trận hiệp biến. Trong rất nhiều những bài toán thực tế, giá trị lớn nhất
thích hợp là sự mở rộng của công thức bên trên.
e là một ma trận dương đã xác định nào đó. Khi đó:
Cho M
e ]−1Y
et = lim C[M + αM
α→0
e ]−1C T
D (t̂t) = limC [M + αM
α→0
(1.12a)
(1.12b)
Hoàn toàn có thể kiểm tra lại rằng, giới hạn tương ứng không phụ thuộc
e.
vào sự lựa chọn M
Hệ quả 1.3.3.5: giá trị tuyến tính tối ưu, giá trị là đáp án cho η(x, θ) đối
với những điểm khảo sát (đo đạc) tùy ý x, sẽ được tính bằng công thức:
η̂(x, θ) = θf T (x)
Sự phân tán (phương sai) của η̂(x, θ) thì sẽ được tính bằng công thức:
d(x) = f T (x)D(θ̂)f (x)
Hệ quả (1.3.3.5)
(1.3.3.5), theo thực chất, nó là phần đặc biệt của hệ quả (1.3.3.4)
với C = f T (x).
1
Từ đây trở về sau, chúng ta gọi hàm số d 2 (x) này là các Corridor errors.
Thực sự dễ dàng để có thể thấy, thực nghiệm thực tế tại bất kỳ điểm xi
nào cũng dẫn tới một vài các kết quả không phụ thuộc nhau yi1 , yi2 , ..., yiri
với phương sai (thực ra chúng ta dùng bình phương phương sai) σi−2 .
Thực ra thì với những giá trị đo đạc thực tế, những giá trị dùng cho
việc xây dựng giá trị tuyến tính tối ưu, chúng ta không cần thiết phải giữ
lại toàn bộ các giá trị thực nghiệm thu được yiri (với i=1..n). Chúng ta
chỉ cần có giá trị trung bình:
ri
P
yi = r1i yir
r=1
Điều đó có thể trình bày và chứng minh cho khẳng định sau.
13
Hệ quả 1.3.3.6: nếu như tại một điểm xi (với i=1,...,n) chúng ta đo đạc
được các giá trị yi1 , yi2 , ..., yiri thì khi đó công thức tính giá trị tối ưu dành
cho θ là:
θ̂ = M −1Y
trong đó ma trận M là không đặc biệt và bằng:
M=
n
X
ωi f (xi )f T (xi )
(1.13)
i=1
Còn giá trị của Y được tính bởi công thức:
n
P
Y = ωi yi f (xi )
i=1
và công thức của ωi được tính theo:
ωi = ri σi−2 =
ri
σi−2
Quả thực, công thức (1.8) và (1.9) ở trong trường hợp này có thể viết theo
công thức:
ri
n P
P
M=
σi−2 f (xi )f T (xi )
i=1r=1
và khi đó thì ta có thể viết lại nó thành:
n
n
P
P
M = ri σi−2 f (xi )f T (xi ) = ωi f (xi )f T (xi )
i=1
i=1
Tương tự, Y cũng có như vậy:
ri
ri
n P
n
n
P
P
P
P
Y=
σi−2 yir f (xi ) = ri σi−2 ri−1 yir f (xi ) = ωi yi f (xi )
i=1r=1
r=1
i=1
i=1
So sánh biểu thức trên với biểu thức (1.13) ta sẽ thu được điều cần chứng
minh.
Công thức (1.13) đặc biệt hữu ích khi sử dụng đối với các bộ rất lớn các kết
quả thí nghiệm đo đạc, tránh khỏi những đầu vào cần thiết lớn cho máy
tính điện tử, tránh lãng phí bộ nhớ. Nói chung là rất tốt cho ngành tin học.
Bây giờ chúng ta sẽ xem xét tới một tính chất rất quan trọng của giá
trị tuyến tính tối ưu.
14
Định lý 1.3.3.4: Giá trị tuyến tính tối ưu θ̂ là giá trị nhỏ nhất của trọng
số của phương sai.
n
X
2
S (θ) =
ωi yi − f T (xi )θ
i=1
15
(1.14)
1.3.1
Ví dụ về mô hình tuyến tính:
Đầu tiên, ta sẽ xem xét mô hình tuyến tính đơn giản như sau:
E(y/x) = θ1 + θ2 x
và khi tiến hành đo đạc thì kết quả đo lường ở các điểm x1 = −1, x2 = 0
và x3 = +1 có phương sai bằng σ12 = 8, σ22 = 68 và σ32 = 8.
Chúng ta xem xét và đánh giá đối với hai tham số θ1 và θ2 .
Khi đó, theo các định lý và bổ đề bên trên thì ta sẽ có:
1
1
f (x) = x
và ωi = 2 (với i = 1, 2, 3)
σi
Và ta sẽ tính được ma trận hiệp biến như sau:
" 3
#−1
X
D(θ̂) =
ωi fi (xi )fiT (xi )
i=1
#−1
3
X
1 1
1 xi )
=
2 xi (
σ
i=1 i
"
#−1
1 1 −1
6 1 0
1 1 1
=
+
+
8 −1 1
8 0 0
8 1 1
1 0 −1
= 0 1
4
1 0
= 0 4
"
Như vậy, ta có thể chọn được mô hình tối ưu θ̂.
Chúng ta cũng có thể đánh giá hai giá trị θ1 và θ2 để nhận được θ̃ tại
điểm cực tiểu của dạng toàn phương theo công thức sau:
3
X
2
S(θ) =
yi − (θ1 + θ2 x)
i=1
Chúng ta cũng sẽ tính được ước lượng θ̃ của θ1 và θ2 dựa theo công thức
sau:
θ̃ = Ty
16
với giá trị của T được lấy:
T=
1
3
1
3
− 21 0
1
3
1
3
Dễ thấy ngay rằng, giá trị θ̃ bên trên là một giá trị không lệch. Thực
vậy, ta có:
F = (f (x1 ) f (x2 ) f (x3 ))
1 1 1
= −1 0 1
và khi đó, ta có:
TFT =
=
1
3
1
3
− 12 0
1
3
1
3
1 −1
· 1 0
1 1
!
!
1 0 0
0 1 0
0 0 1
= I3
thỏa mãn điều kiện về tính không lệch.
Khi đó, ta có thể tính được ma trận hiệp biến D như sau:
D(θ̃) = TD(yy )TT =
1 1 1
= 3 1 3 31 ·
−2 0 2
52
0
= 27
0 4
! 1 −1
8 0 0
3
2
0 86 0 · 13 0
1
1
0 0 8
3
2
Dễ dàng để có thể thấy được, D(θ̃) > D(θ̂).
Thay các giá trị của θ̂ và θ̃ vào phương trình ban đầu của ta thì ta nhận
được hai phương trình sau:
d1 (x) = 1 + 4x2
52
d2 (x) =
+ 4x2
27
ứng với θ̂
ứng với θ̃
Với x bất kỳ, ta đều có:
d1 (x) < d2 (x)
17
- Xem thêm -