BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
BÙI THỊ HỒNG THẮM
QUY HOẠCH ĐỘNG THÍCH NGHI BỀN VỮNG
CHO HỆ PHI TUYẾN
LUẬN VĂN THẠC SĨ KHOA HỌC
KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA
Hà Nội – Năm 2017
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
BÙI THỊ HỒNG THẮM
QUY HOẠCH ĐỘNG THÍCH NGHI BỀN VỮNG
CHO HỆ PHI TUYẾN
Chuyên ngành : KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƢỜI HƢỚNG DẪN : TS. ĐÀO PHƢƠNG NAM
Hà Nội – Năm 2017
Lời cam đoan
LỜI CAM ĐOAN
Tôi xin cam đoan, bản đồ án tốt nghiệp : “ Quy hoạch động thích nghi –
bền vững cho hệ phi tuyến” do tôi thiết kế, dƣới sự hƣớng dẫn của thầy giáo
TS.Đào Phƣơng Nam.
Để hoàn thành đồ án này, tôi chỉ sử dụng những tài liệu đƣợc ghi trong
danh mục tài liệu tham khảo và không sao chép hay sử dụng bất kỳ tài liệu nào
khác. Nếu phát hiện có sự sai phạm nào, tôi xin chịu hoàn toàn trách nhiệm.
Hà nội, Ngày 10 tháng 9 năm 2017
Học viên thực hiện
Bùi Thị Hồng Thắm
i
Danh mục các ký hiệu chữ viết tắt
MỤC LỤC
LỜI CAM ĐOAN................................................................................................................ i
MỤC LỤC ............................................................................................................................ ii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT..................................................... iv
DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ .............................................................................. vi
LỜI MỞ ĐẦU ..................................................................................................................... 1
CHƢƠNG I: TỔNG QUAN CÁC NGHIÊN CỨU VỀ “QUY HOẠCH ĐỘNG
THÍCH NGHI BỀN VỮNG”........................................................................................... 2
1.1
Tổng quan ................................................................................................ 2
1.2
Định nghĩa của RADP ............................................................................ 4
1.3
ADP cho hệ thống tuyến tính, thời gian liên tục, chƣa xác định ........ 6
1.4
RADP cho hệ thống phức hợp tuyến tính một phần ........................... 7
1.5
RADP cho hệ thống kích thƣớc lớn với đặc tính không ổn định động.
.................................................................................................................. 9
1.6
RADP cho hệ thống khuếch đại động năng........................................ 10
1.7
RADP cho hệ phi tuyến hoàn toàn ...................................................... 11
CHƢƠNG II: CƠ SỞ LÝ THUYẾT TỐI ƢU........................................................... 15
2.1. Điều khiển phản hồi trạng thái tối ƣu (LQR) ........................................... 15
2.1.1 Trƣờng hợp thời gian tối ƣu là hữu hạn ...................................... 16
2.1.2 Trƣờng hợp thời gian tối ƣu là vô hạn......................................... 17
2.1.3 Tính ổn định của hệ kín................................................................. 17
2.2
Thuật toán Kleinman và các tính chất liên quan .............................. 18
2.2.1 Phát biểu thuật toán ...................................................................... 18
2.2.2 Ý nghĩa ............................................................................................ 20
2.3
Phƣơng pháp quy hoạch động ............................................................. 20
2.3.1 Trƣờng hợp hệ liên tục .................................................................. 20
2.3.2 Trƣờng hợp hệ không liên tục ...................................................... 21
ii
Danh mục các ký hiệu chữ viết tắt
2.4.Điều khiển dự báo MPC ............................................................................ 24
2.4.1. Điều khiển dự báo mô hình tuyến tính .............................................. 25
2.4.2.
Điều khiển dự báo mô hình phi tuyến (NMPC)....................... 27
CHƢƠNG 3: ĐIỀU KHIỂN TỐI ƢU CHO HỆ TUYẾN TÍNH BẤT BIẾN THEO
THỜI GIAN KHÔNG BIẾT TRƢỚC THAM SỐ ........................................................ 28
3.1. Bài toán đặt ra ........................................................................................... 28
3.2 Thuật toán xử lý ......................................................................................... 29
CHƢƠNG IV: ĐIỀU KHIỂN DỰ BÁO MÔ HÌNH PHI TUYẾN ............................. 39
4.1. Điều khiển dự báo mô hình phi tuyến....................................................... 39
4.1.1. Mô hình dự báo phi tuyến ................................................................. 39
4.1.2. Ƣớc lƣợng biến trạng thái .................................................................. 39
4.1.3. Áp dụng MHE vào NMPC ................................................................ 41
4.2. Điều khiển dự báo mô hình bền vững....................................................... 42
4.2.1. Điều kiện ổn đinh MPC bền vững cho hệ bất định tham số .............. 44
4.2.2 Ổn định vào-trạng thái ........................................................................ 45
4.3. Điều khiển dự báo mô hình phân tán ........................................................ 49
4.3.1. Giới thiệu về điều khiển dự báo mô hình phân tán ........................... 49
4.3.2. Cở sở toán học cho điều khiển dự báo phân tán ................................ 50
CHƢƠNG V:CÁC ỨNG DỤNG .................................................................................. 54
5.1
Áp dụng cho điều khiển chuyển động hệ một tay máy ..................... 54
5.2
Áp dụng cho hệ con lắc ngƣợc. ............................................................ 56
5.2.1. Thiết kế bộ điều khiển tối ƣu bền vững ............................................. 56
Kết quả mô phỏng .............................................................................................................. 65
KẾT LUẬN ....................................................................................................................... 67
TÀI LIỆU THAM KHẢO.............................................................................................. 68
iii
Danh mục các ký hiệu chữ viết tắt
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
CÁC KÝ HIỆU
g: Gia tốc trọng trƣờng
. : Chuẩn bậc 2
| |: Biểu thị định mức Euclide cho véc tơ và định mức của nó đối với các
ma trận.
A > B: (A-B) ma trận xác định dƣơng
J: Hàm Mục tiêu
x: Biến trạng thái
Q, R: Ma trận của hàm mục tiêu
A, B: Ma trận trạng thái và đầu vào hệ tuyến tính
u * : Tín hiệu điều khiển tối ƣu
x0 xT : Trạng thái đầu, cuối của hệ thống
x(t )* : Quỹ đạo trang thái tối ƣu
:
Tích Kronecker
Vec(A): vector hóa ma trận A
CÁC CỤM TỪ VIẾT TẮT
DAP: Adaptive dynamic programming- Quy hoạch động thích nghi
RDAP:RobustAdaptiveDynamicProgramming–Quy hoạch động thích nghi
bền vững.
HJB: Hamilton – Jacobi – Bellman.
ARE: Algebraic Riccati Equation - Phƣơng trình đại số Riccati
GAS: Global Asymtotic Stability - Ổn định toàn cục
LQR: Linear Quadratic Regulator - Điều khiển phản hồi trạng thái tối ƣu
cho hệ tuyến tính với hàm mục tiêu dạng toàn phƣơng.
MPC: Model Predictive Control - Điều khiển dự báo mô hình
NMPC: Nonlinear Predictive Control - Điều khiển dự báo mô hình phi
tuyến
DMPC: Decentralized Model Predictive Control - Điều khiển dự báo mô
hình phân tán.
iv
Danh mục các ký hiệu chữ viết tắt
DP: Dynamic Programming - Quy hoạch động
EKF: Extended Kalma Filter - Bộ lọc Kalman mở rộng
MHE: Moving Horizon Estimation
v
Danh mục bảng
DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ
Hình 1.1 Cấu hình hệ thống điều khiển dựa trên ADP ......................................... 4
Hình 1.2 RDAP với hệ không ổn định động. ........................................................ 5
Hình 2.1. Cấu trúc điều khiển phản hồi trạng thái tối ƣu LQR........................... 15
Hình 2.2: Mô tả tầm dự báo Ny và tầm điều khiển Nu ........................................ 26
Hình 3.1:Cấu trúc triển khai thuật toán ............................................................... 29
Hình 3.2. Sơ đồ thuật toán................................................................................... 37
Hình 4.1: Sơ đồphƣơng pháp dịch khoảng ƣớc lƣợng (cửa sổ ƣớc lƣợng) ........ 40
Bảng 4.1: Vai trò MHE trong NMPC ................................................................. 41
Hình 4.2: Sơ đồ điều khiển phi tập trung ............................................................ 49
Hình 5.1 Hệ chuyển động một tay máy .............................................................. 54
Hình 5.2 So sánh các giá trị hàm xấp xỉ.............................................................. 55
Hình 5.3 So sánh các biên dạng tốc độ .............................................................. 56
Bảng 5.1. Các thông số của hệ con lắc ngƣợc..................................................... 65
Hình 5.4.Sự hội tụ của ma trận P,K và các lỗi tự hiệu chỉnh .............................. 66
DANH MỤC BẢNG BIỂU
Bảng 4.1: Vai trò MHE trong NMPC ................................................................. 41
Bảng 5.1. Các thông số của hệ con lắc ngƣợc..................................................... 65
vi
Lời nói đầu
LỜI MỞ ĐẦU
Lĩnh vực quy hoạch động thích nghi với nhiều ứng dụng trong kỹ thuật điều
khiển đã phát triển nhanh hơn so với những năm trƣớc.Một khái niệm mới gọi là “quy
hoạch động thích nghi bền vững” (viết tắt là RADP) đƣợc phát triển cho việc thiết kế
các bộ điều khiển tối ƣu bền vững cho các đối tƣợng hệ tuyến tính và phi tuyến phụ
thuộc vào cả tham số và động học không. Nội dung chính của luận văn “ Quy hoạch
động thích nghi – bền vững cho hệ phi tuyến” cung cấp một cái nhìn tổng quan về
những báo cáo hiện thời góp phần phát triển lý thuyết RADP và những ứng dụng tiềm
năng của nó trong kỹ thuật điện và sinh học.
Nội dung luận văn gồm ba phần chính.
Phần 1(chƣơng I): Tổng quanchung các nghiên về RADP
Phần 2(chƣơng II,III,VI): Cơ sở lý thuyết
Phần 3(chƣơng V): Các ứng dụng.
Để có thể hoàn thành bản luận văn này, em đã nhận đƣợc sự hƣớng dẫn, chỉ bảo
tận tình của thầy TS.Đào Phƣơng Nam cùng với sự giúp đỡ của các thầy cô giáo
trong bộ môn Điều Khiển Tự Động, khoa Điện, trƣờng đại học Bách khoa hà nội trong
suốt thời gian học tập và thực hiện luận văn.
Lời cuối em xin chân thành cám ơn TS.Đào Phƣơng Nam cùng các thầy cô
trong bộ môn.
Do thời gian có hạn, trình độ còn nhiều hạn chế, khó khăn về tài liệu tham
khảo, luận văn không tránh khỏi nhiều thiếu sót. Rất mong nhận đƣợc sự thông cảm và
góp ý của các thầy cô và bạn đọc.
Xin chân thành cảm ơn!
Sinh viên thực hiện
Bùi Thị Hồng Thắm
1
Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững”
CHƢƠNG I: TỔNG QUAN CÁC NGHIÊN CỨU VỀ “QUY
HOẠCH ĐỘNG THÍCH NGHI BỀN VỮNG”
Trong chƣơng này, tác giả trình tóm tắt về những phát triển của DAP
trong tình hình hiện nay, và những phát triển về RADP trong các hệ tuyến tính và
phi tuyến.
1.1 Tổng quan
Quy hoạch động thích nghi(viết tắt là ADP) là một khía cạnh sinh học,
không dựa trên mô hình; phƣơng pháp tính toán đã đƣợc sử dụng để tính trong
luật điều khiển tối ƣu và nhiều tài liệu tham khảo trong đó. Nó đƣợc biết đến là
quy hoạch động đòi hỏi những kiến thức chuyên sâu về động học hệ thống và
những tổn thất từ thứ nguyên.
Ban đầu Wersbos đã chỉ ra rằng thích nghi gần với phƣơng trình HamiltonJacobi-Bellman(HJB). Có thể đạt đƣợc bằng cách thiết kế hệ thống mở rộng tăng
cƣờng thích nghi. Trong các nghiên cứu tƣơng tự của mình werbos đã đề xuất hai
phƣơng pháp tiếp cận cơ bản để thực hiện ADP: Quy hoạch động oristic –(HDP)
và quy hoạch động kép. Chúng có thể đƣợc sử dụng tƣơng tự giá trị hàm tối ƣu
hoặc giá trị gradian của nó. Tại đó hƣớng giải quyết tƣơng tự điều khiển tối ƣu
đƣợc cân nhắc, các vấn đề tƣơng tự cũng đƣợc nghiên cứu bởi Berbsekas và
Tsitsikis dƣới tên quy hoạch động nơron và đƣợc hạn chế dành riêng cho hệ
thống thời giangián đoạn. Sự trình bày chi tiết của yếu tố toán học là điều kiện
của quy hoạch động nơron, cùng với đó là rất nhiều phƣơng pháp và ứng dụng .
Sự trình bày của lý thuyết quy hoạch động thích nghi gồm ba phần.Trong
phần thứ nhất, ADP đã đƣợc nghiên cứu rộng rãi trong cộng đồng khoa học tính
toán và nghiên cứu vận hành.Hai thuật toán cơ bản: lặp lại phƣơng pháp và lặp
lại giá trị thƣờng đƣợc sử dụng.Năm 1989, Watking đề xuất phƣơng pháp Qlearing nổi tiếng trong luận án tiến sỹ của mình. Q- learing chia sẻ những tính
năng tƣơng tự với chƣơng trình HDP đƣợc đề xuất bởi Werbos.
Trong phần thứ 2, tính ổn định đƣợc đƣa vào ADP trong bối cảnh khi các
vấn đề kiểm soát thời gian thực đƣợc nghiên cứu cho các hệ thống động
năng.Lewis là ngƣời đầu tiên đóng góp cho sự tích hợp lý thuyết ổn định và lý
thuyết ADP. Ƣu điểm chủ yếu của lý thuyết ADP là có thể thu đƣợc một chƣơng
2
Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững”
trình điều khiển tối ƣu thông qua một thuật toán đệ quy bằng, cách sử dụng
thông tin hiện thời mà không giải phƣơng trình HJB cho các hệ phi tuyến và
phƣơng trình đại số Ricati (ARE) (cho hệ thống tyến tính). Thiết kế phản hồi tối
ƣu cho các hệ thống động học tuyến tính và phi tuyến đã đƣợc đề xuất bởi một số
nhà nghiên cứu trong vài năm qua, trong khi hầu hết các công trình trƣớc đó về
lý thuyết ADP là dành cho các hệ thống không theo thời gian, có ít nghiên cứu
cho các đối tƣợng thời gian liên tục. Điều này chủ yếu là do ADP sẽ khó khăn
hơn nhiều cho các hệ thống thời gian liên tục so với thời gian gián đoạn. Thật
vậy, nhiều kết quả đƣợc phát triển cho các hệ thống thời gian rời rạc không thể
mở rộng một cách chính thống với hệ thống thời gian liên tục.Tuy nhiên, những
lỗ lực đã sớm đƣợc thực hiện để áp dụng Q-learning cho các hệ thống thời gian
liên tục thông qua kỹ thuật phân biệt (discretization).Tuy nhiên sự hội tụ và phân
tích tính ổn định của các chƣơng trình này là một thách thức. Murray đề xuất một
phƣơng pháp thực hiện đòi hỏi các phép đo các dẫn xuất của các biến trạng thái.
Lewis và đồng nghiệp đã đề xuất giải pháp đầu tiên cho phân tích tính ổn định và
các chứng minh hội tụ cho các hệ thống điều khiển dựa trên ADP bằng lý thuyết
LQR. Đối với các hệ thống tuyến tính thời gian liên tục, một phần về động lực hệ
thống(tức là ma trận đầu vào) phải đƣợc xác định chính xác. Hạn chế này đã
đƣợc loại bỏ hoàn toàn trong [4].Một biến thể phi tuyến của phƣơng pháp này có
thể đƣợc tìm thấy trong [7].
Giai đoạn ba trong đó sự phát triển của lý thuyết ADP liên quan đến việc mở
rộng các kết quả ADP trƣớc đó đến các hệ thống phi tuyến không ổn định. Lý
thuyết và mạng nơ ron đƣợc sử dụng để giải quyết yếu tố không ổn định trong hệ
thống điều khiển. Một giả thiết ngầm định là hệ thống đƣợc biết đến và sự không
ổn định là tĩnh, không giao động.Sự hiện diện của yếu tố không ổn định đã không
đƣợc giải quyết một cách có hệ thống trong tài liệu của ADP. Do sự không ổn
định động, chúng ta đề cập đến sự không khớp giữa mô hình danh nghĩa và ứng
dụng thực khi bậc của mô hình danh nghĩa thấp hơn của hệ thống thực. Một chủ
đề nghiên cứu liên quan chặt chẽ là làm thế nào để tính toán hiệu quả của các
biến không nhìn thấy. Thông thƣờng, thông tin trạng thái đầy đủ thƣờng thiếu
trong nhiều ứng dụng kỹ thuật và sinh học và chỉ cho phép đo đầu ra hoặc các
3
Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững”
phép đo một phần trạng thái. Sự thích nghi của lý thuyết ADP hiện tại với kịch
bản thực tế này rất quan trọng nhƣng lại không nhỏ. Mạng nơ ron đƣợc tìm kiếm
để giải quyết vấn đề ƣớc lƣợng. Tuy nhiên, sự phân tích độ ổn định của hệ thống
điều khiển là không dễ dàng, bởi vì hệ thống đƣợc kết nối với nhau rất cao.Cấu
hình của một hệ thống điều khiển dựa trên ADP tiêu chuẩn đƣợc trình bày trong
hình 1.1.
Các nghiên cứu gần đây về sự phát triển các biến thể của lý thuyết ADP
nhằm giải quyết những thách thức này.
Hình 1.1 Cấu hình hệ thống điều khiển dựa trên ADP
1.2 Định nghĩa của RADP
RADP đƣợc phát triển để giải quyết sự hiện diện của tính không ổn định
trong các hệ thống động học tuyến tính và phi tuyến.Xem hình 1.2 để minh họa.
Có một số lý do đểtheo đuổi khuôn khổ mới cho RADP. Trƣớc hết, việc
xây dựng một mô hình toán học chính xác cho các hệ thống vật lý thƣờng là một
công việc khó khăn. Ngoài ra, thậm chí nếu mô hình toán học chính xác có thể
thu đƣợc cho một số ứng dụng kỹ thuật và sinh học cụ thể, các mô hình đơn giản
thƣờng thích hợp hơn cho việc phân tích tổng hợp hệ thống và điều khiển so với
mô hình hệ thống phức tạp ban đầu. Trong khi đề cập đến sự không khớp giữa
mô hình đơn giản và hệ thống ban đầu với sự không ổn định động ở đây, thì
4
Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững”
thƣờng sử dụng thuật ngữ mô hình động học thay thế(unmodeled dynamics
instead).
Hình 1.2 RDAP với hệ không ổn định động.
Thứ hai, các lỗi quan sát thƣờng có thể bị ảnh hƣởng bởi sự không ổn định
động. Từ tài liệu về điều khiển phi tuyến hiện đại, ngƣời ta biết rằng sự có mặt
của tính không ổn định động tạo ra vấn đề kiểm soát thông tin phản hồi có nhiều
thách thức trong bối cảnh của hệ thống phi tuyến. Để mở rộng phạm vi áp dụng
lý thuyết ADP với sự có mặt của sự không ổn định động, chiến lƣợc đặt ra là tích
hợp các công cụ từ lý thuyết điều khiển phi tuyến, nhƣ thiết kế Lyapunov, lý
thuyết ổn định đầu vào và các kỹ thuật thu nhỏ hệ phi tuyến. Bằng cách này
RADP áp dụng rộng cho lớp các hệ thống động học không ổn định với thông tin
trạng thái chƣa đầy đủ và thứ tự hệ thống/ động thái không xác định.
Ngoài ra, RADP có thể đƣợc áp dụng cho các hệ thốngchuyển động quy
mô lớn.Bằng cách tích hợp một phiên bản đơn giản của định lý cyclis-small-gain,
sự ổn định bất biến có thể đạt đƣợc bằng cách gán các ma trận thích hợp cho mỗi
hệ thống con. Hơn nữa, có thể thu đƣợc một số thuộc tính tối thiểu. Bởi vì một số
ứng dụng đang nổi lên có tầm quan trọng trong thực tiễn nhƣ lƣới điện thông
minh, hệ thống giao thông thông minh và các nhóm các cơ quan tự động, chủ đề
này đáng đƣợc nghiên cứu thêm từ quan điểm của RADP. Sự tồn tại của các
tham số chƣa biết và/ hoặc sự không ổn định động, và thông tin hạn chế của các
biến trạng thái làm tăng những thách thức đối với thiết kế bộ điều khiển phân tán
hoặc phân tán các hệ thống quy mô lớn.
5
Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững”
1.3 ADP cho hệ thống tuyến tính, thời gian liên tục, chƣa xác định
Ta bắt đầu với hệ tuyến tính thời gian không đổi(LTI), thời gian liên tục.
̇
(1.1)
là véc tơ trạng thái,
Với
là đầu vào điều khiển,
là ma trận không xác định , có thể ổn định. Giả sử rằng, có một ma
và
trận xác định K0sao cho A-BK0 là ma trận Hurwitz.
Đối tƣợng điều khiển đƣợc tìm, nếu ta có phƣơng trình điều khiển tối ƣu
u*= -K*x sao cho các tích phân toàn phần sau đây đạt giá trị min.
∫
(1.2)
Với Q ≥0 và R>0 là các ma trân đối xứng xác định với (A, Q1/2) là một
cặp có thể quan sát.
Một giải pháp cho vấn đề đã đƣợc trình bày trong [14] với giả thiết B là
một ma trận đã biết mặc dù A chƣa biết. Chúng ta có thể chỉ ra rằng giả định này
có thể đƣợc loại bỏ. Để bắt đầu, chúng ta chọn một ma trận tăng ổn định ban đầu
K0 sao choA-BK0 là Hurwiz. Tiếp theo, ta áp u0=-K0x+e làm đầu vào điều khiển
với e là một nhiễu thăm dò, và ghi lại trạng thái thông tin vào trong khoảng
[ti,ti+1] với i= 0,1,…..,l-1 và l>0 là một số nguyên đủ lớn. Khoảng [ti, ti+1] gắn liền
với nghiên cứu và thông tin thu thập. Sau đó, thay Kk+1=R-1BTPk bằng phƣơng
pháp lý thuyết LQR tiêu chuẩn và thuật toán lặp trong [15].
(1.3)
Do đó, với k=0,1,2… thành lập phƣơng trình lặp sau đây:
|
∫
(1.4)
Sự tồn tại và tính duy nhất của (Pk, Pk+1) trên Eq. (4) tƣơng đƣơng dựa trên thực
tế nhiếu thăm dò e là liên tục (PE), một điều kiện chuẩn cho hội tụ tham số trong
điều khiển thích nghi.
6
Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững”
Kết quả sau đây cho thấy các chuỗi giao thức {Pk} và {Kk}hội tụ với các
giải pháp tối ƣu P* và K*. tƣơng tự , lƣu ý rằng P* tƣơng ứng với giải pháp cho
phƣơng trình ARE trong lý thuyết LQR.
Định lý 1: (Jiang and Jiang [4]). Trong điều kiện PE trong e(t), giả sử
và Kk+1có thể tính toán từ (4) với K=0,1,2…., và
rằng
=P*,
=K*, khi K*=R-1BTP*, và P*>0 là giải pháp đối xứng của phƣơng trình
dƣới đây:
ATP+PA+Q-PBR-1BTP =0 (1.5)
Thực tiễn nghiên cứu đƣợc tóm tắt dƣới đây.Kí hiệu thanh đơn | |biểu thị
định mức Euclide cho vectơ và định mức tƣơng ứng của nó đối với các ma trận
Các bước của thuật toán Iteration:
(1)
Cho k ← 0.
(2)
Giải Pk và Kk+1 từ (4).
(3)
Cho k ← k+1 , và lặp lại bƣớc 2 cho đến khi {Pk-Pk-1≤ε cho
k≥1, tại đây hằng số ε>0 có thể là bất kỳ ngƣỡng nhỏ đƣợc xác định trƣớc.
(4)
Cuối cùng, sử dụng u=-Kkx nhƣ là bộ điều khiển tối ƣu gần
đúng.
Ghi chú: để đáp ứng điều kiện PE, nhiễu thăm dò e, có thể là nhiễu ngẫu
nhiên hoặc tín hiệu bao gồm tổng tín hiệu hình sin với các tần số khác nhau đƣợc
sử dụng. Ngoài ra, khoảng thời gian cho việc thu thập dữ liệu hiện thời phải đủ
lớn.
1.4 RADP cho hệ thống phức hợp tuyến tính một phần
Mục đích của phần này để chức minh rằng định lý 1 có thể đƣợc tổng quát
cho một lớp của hệ thống phức hợp tuyến tính một phần ổn định, đã đƣợc nghiên
cứu rộng rãi trong các tài liệu của điều khiển phi tuyến. Bất kỳ hệ thống nào
trong lớp có thể đƣợc coi là một kết nối của hệ thống tuyến tính và hệ thống phi
tuyến ( hoặc không ổn định động).
̇ = q(w,y)(1.6)
̇ =Ax+B[u+∆(w,y)],(1.7)
Y=Cx(1.8)
7
Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững”
là thành phần trạng thái đo đƣợc có thể sử dụng cho điều
Với
khiển phản hồi,
là phần trạng thái không thể đo đƣợc với yêu cầu chƣa
xác định, nw: u
là đầu vào điều khiển, y
,B
là ma trận không đổi với (A,B) ổn định, (A,C)
và C
quan sát đƣợc; q:
là đầu ra hệ thống, A
và Δ:
x
là hai hàm địa phƣơng
x
Lipschitz không xác định, thỏa mãn q(0,0)=0 vàΔ(0,0)=0.
Để nghiên cứu vấn đề ổn định của (1.6)-(1.8), chúng ta hãy xem xét hệ
thống điều khiển dƣới đây với
là hàm trạng thái, u
là tín hiệu vào,
là đầu ra:
và y
̇ = f(x,u), y=h(x,u) (1.9)
Khi f là hàm địa phƣơng Lipschitz và h là hàm liên tục. Có các định nghĩa
sau :
Định nghĩa 3: hệ (1.9) đƣợc cho là trạng thái đầu vào- đầu ra (IOS) với hệ
số
tang nếu bất kỳ biến đầu vào địa phƣơng u có thể đo đƣợc và điều kiện đầu
x(0), giải pháp x(t) tồn tại với mỗi t≥0 và thỏa mãn :
|
| ≤ β(|
| + (‖ ‖)(1.10)
Với β, thuộc các lớpК, £ tƣơng ứng
Định nghĩa 4: Hệ (1.9) đƣợc cho là có khả năng quan sát đƣợc tại vô cực
(SUO) với đặc tính không, nếu hàm β0 của lớp К tồn tại sao cho mỗi tín hiệu điều
khiển u(t) có thể đo đƣợc trên [0,T](00, c2>0
̇ =
q(w,y) ≤ -C1| |2 + C2 | |2(1.12)
Với mọi W
và y
8
Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững”
Nghiên cứu hiện nay đƣợc tiến hành theo thuật toán Algorithm đƣợc trình
bày trong phần 2 với u0 đƣợc thay bằng u0+Δ
Định lý 7:(Jiang and Jiang [5]). Theo giả định 5 và 6, giả sử nhiễu e(t)
đáp ứng điều kiện PE nhƣ theo Giả định 5 và 6, giả sử nhiễu thăm dò e (t) đáp
ứng điều kiện PE nhƣ
và
có thể giải duy nhất từ (4), với mọi
k=0,1,2…. Ngoài ra Q>c2/c1CTC và R=Im. sau đó chúng ta có
=P* ,
=K* và u=-K*x , … và ổn định tiệm cận hoàn toàn (1.6)-(1.8). Hơn
nữa, bộ điều khiển u= - K*x là tối ƣu với giá trị (1.2) khi động năng biến thiên
đƣợc đặc trƣng bởi hệ thống w bị triệt tiêu.
1.5 RADP cho hệ thống kích thƣớc lớn với đặc tính không ổn định động.
Sự thay đổi Δ trong (1.7) đáp ứng điều kiện đƣợc gọi là kết hợp chặt chẽ
điều kiện, bởi vì nó nằm trong khoảng không gian đầu vào. Bây giờ, chúng ta đã
sẵn sang đƣa giả định này vào trƣờng hợp mới. Để giải quyết, xét các hệ thống
kết nối sau đây:
̇ = q(w,y)
(1.13)
̇ =Ax+B[u+∆1(w,y)],
(1.14)
̇ =Ex+Fz+G[u+∆2(w,y)], (1.15)
Y=Cx,
(1.16)
Với [xT, zT]T
E
,F
là vectơ trạng thái; A
và G
,B
,C
,
là các ma trận không xác định với cặp (A,B)
ổn định và G không đối xứng. w
là trạng thái động không ổn
định.∆1=D∆(w,y) và ∆2=H∆(w,y) là đầu ra của trạng thái không ổn định động,
ma trận hằng số không xác định; q:
D,H
và Δ:
x
là các ma trận không xác định đƣợc với cặp (A, B) ổn định và không
x
đối xứng Gkhông đối xứng. w
là trạng thái động không ổn định. ;
∆1=D∆(w,y) và ∆2=H∆(w,y) là đầu ra của trạng thái động không ổn định,
D,H
Δ:
x
ma trận hằng số không xác định; q:
x
và
là hai hàm địa phƣơng không xác định Lipschitz triệt tiêu tại
điểm gốc. Ngoài ra, sử dụng các giới hạn trên của B,D,H và G-1 .
Cho u=u0+e(t) với mọi t
[ti, ti+1] với u0 là chƣơng trình điều khiển
ổn định, phƣơng pháp nghiên cứu dƣới đây đƣợc rút ra từ [18] :
9
Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững”
Bước 1:
|
∫
(1.17)
thu đƣợc từ phần 1, chúng ta xác định : ̂ = z+
Đối với ma trận
x
Bước 2:
̂
̂|
̂
̂
∫
̂
̂
̂
̂
(1.18)
Định lý 8:(Jiang and Jiang [5]).Theo Giả định 5 và 6, giả sử nhiễu thăm
dò e(t) đáp ứng điều kiện PE nhƣ vậy
(1.17), với mọi k= 0,1,2….Và vậy
,
=
=
*
*
=R2GT
K*B với
≥DDT, Q2>0,
>(H+G-1K*BD)T.
=P*,
Sau đó chúng ta có
*
,Nj,Ljcó thể giải đƣợc từ (18)
,
với mọi j=0,1,2,…. Và Q1>2c2/c1CTC và
=
có thể giải đƣợc từ
,
*
=K*,
*
,
*
(E+ K*(A+BK*)-FK*và ,
=
là nghiệm xác định dƣơng của phƣơng trình :
*
(F+K*B)+(F+K*B)T
*
+Q2-
*
G
-1
GT
*
=0 (1.19)
Hơn nữa, đối với số nguyên K>0, j>0 đủ lớn, lựa chọn phƣơng pháp điều
khiển
U=-[
)-1( +R1K1,k)+
K1,k]x-
z (1.20)
(1.13)-(1.16) ổn định tiệm cận hoàn toàn tạị điểm gốc.
Ghi chú 9: Cần lƣu ý rằng trong trƣờng hợp không ổn định động(khi hệ
thống w là nhiễu), luật điều khiển (1.20) là tối ƣu ngƣợc. Ngoài ra sử dụng
phƣơng pháp lặp trong mục này tạo ra một bộ điều khiển tối ƣu cho các hệ thống
kích thƣớc lớn với cấu trúc tam giác thấp hơn.
1.6 RADP cho hệ thống khuếch đại động năng
Không khó để khái quát những kết quả trên để kết nối với hệ thống
khuếch đại động năng bao gồm nhiều hệ thống con. Để đơn giản ta xét một hệ
thống khuếch đại có dạng sau:
̇ =Ai ̇ +Bi[ui+Di(y)] (1.21)
yi=Ci ̇ , 1≤ i ≤N, (1.22)
10
Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững”
với ̇
, và ui
là trạng thái đầu ra, và đầu vào của hệ
]; Ai
, Bi
, yi
thống thứ i; y=[
,…,
,
là ma trận hệ thống không
xác định, với (Ai,Bi) ổn định; Di(.):
|
|≤di| | với mọi y
là hàm đáp ứng không xác định
, với di>0, ∑
Đối với hệ thống thứ i, chọn
= n, ∑
= p và, ∑
sao cho Ai-Bi
= m.
là Hurwitz, với ui=-
xi(t)+ei(t), theo giải pháp của (1.21), ta đƣợc (1.23) dƣới đây:
|
∫
(1.23)
Khi
=Qi+
Định lý 10:(Jiang and Jiang [6]). Đối với bất kỳ 1 ≤ i ≤N , giả sử ei(t)
thỏa mãn điều khiện PE nhƣ vậy (1.24) cho nghiệm duy nhất
, với Qi ≥ (
+1)
Ci+
iI
và
>
I
=
và
.
Cũng giả sử :
∑
∑
(1.24)
Sau đó,
*
=
*
và
=
*
khi
*
=
*
, và
là nghiệm của :
+
+ -
*
*
=0 (1.25)
Ngoài ra, phƣơng trình điều khiển ui=-
*
đảm bảo ổn định hoàn toàn
hệ thống (1.21) và (1.22) tại gốc.
1.7 RADP cho hệ phi tuyến hoàn toàn
Trong phần này ta xét lý thuyết RADP cho hệ phi tuyến hoàn toàn. Còn
nhiều điều cần phải tiến hành theo hƣớng này. Bắt đầu chúng ta xét 1 hệ đầu vào
tuyến tính chung.
̇ =f(x) +g(x)u
Với x
(1.26)
là trạng thái hệ thống, u
R là đầu vào điều khiển, f,g:
là hàm địa phƣơng Lipchitz. Đối với bất kỳ điều kiện ban đầu
giá trị hàm kết hợp với (1.26) đƣợc định nghĩa là:
J( ;u)= ∫
(
)
, x(0) = (1.27)
11
,
Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững”
Khi Q(.) là hàm xác định và r>0 là hằng số. Giả sử rằng có tín hiệu điều
khiển u=u0(x) thỏa mãn, hệ thống (1.26) ổn định hoàn toàn và giá trị (1.27) là xác
định. Nó đƣợc biết đến là phƣơng trình điều khiển tối ƣu theo (1.27) có thể đạt
đƣợc bằng cách giải phƣơng trình HJB sau :
0=
V(x)f(x) +Q(x)- [ V(x)g(x)]2(1.28)
Với điều kiện biên V(0) =0. Thật vậy, nếu phân tích nghiệm V* của (1.28)
có thể tìm đƣợc, phƣơng trình điều khiển tối ƣu đƣợc nhƣ sau :
u*(x)= -
g(x)T
V(x)T(1.29)
Thật không may, thƣờng không thể có phân tích nghiệm của (1.28) một
cách chính xác. Tuy nhiên, nếu V*(x) tồn tại, nó luôn đƣợc tính một cách xấp xỉ,
ví dụ, bằng cách sử dụng phƣơng pháp lặp [10], nhƣ dƣới đây :
(1)
Đối với bất kỳ số nguyên i≥0 và tín hiệu ui(x) có thể chấp nhận
đƣợc, giải Vi(x) với V0(x) =0 sử dụng
0=
Vi(x)[f(x) +g(x)ui(x)]+Q(x) +rui(x)2(1.30)
(2)
Cập nhật phƣơng trình điều khiển sử dụng
ui+1(x)= -
g(x)T
Vi(x)T(1.31)
Trong trƣờng hợp không có kiến thức tiên nghiệm về f và g,ề f, g, phƣơng
pháp lặp không thực hiện đƣợc. Để giải quyết vấn đề này, chúng ta phát triển một
biến thể phi tuyến của phƣơng pháp lặp đang đƣợc sử dụng [4].
Để bắt đầu, chú ý rằng (1.26) có thể viết lại nhƣ sau :
̇ =f(x) +g(x)ui(x) +g(x)vi (1.32)
Khi vi= u- ui, với i≥0, đạo hàm theo thời gian của Vi(x) theo phƣơng trình
của (1.32) thỏa mãn
̇ (x) = -Q(x) - r
(x) -2r ui+1(x)vi (1.33)
Tích hợp cả hai mặt của (1.33) vào khoảng thời gian [t,t+T] bất kỳ, sẽ có
dạng :
Vi(x(t+T))- Vi(x(t) = ∫
(
)
(x) -2r ui+1(x)vi]dt (1.34)
Chú ý rằng, nếu ui(x) đƣợc cho, các hàm chƣa xác định Vi(x) và ui+1(x) có
thể lấy xấp xỉ bằng cách sử dụng (1.34). Cụ thể, với bất kỳ một tập con
Ω⊂
chƣa điểm gốc, để
là một dãy cơ sở độc lập tuyến tính trên Ω,
12
- Xem thêm -