Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Kỹ thuật - Công nghệ Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ ph...

Tài liệu Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

.PDF
167
281
52

Mô tả:

MỤC LỤC DANH MỤC CÁC HÌNH VẼ x DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU xii DANH MỤC CÁC TỪ VIẾT TẮT xiii DANH MỤC CÁC KÝ HIỆU xv CHƢƠNG 1 GIỚI THIỆU 1.1 1 Tổng quan về đề tài ............................................................................................1 1.1.1 Khái niệm về học củng cố .......................................................................1 1.1.2 Lịch sử phát triển của RL trong điều khiển .............................................2 1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu .......................................................5 1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển ....................5 1.2.2 Tính cấp thiết của đề tài...........................................................................7 1.2.3 Mục tiêu nghiên cứu ................................................................................8 1.2.4 Nhiệm vụ nghiên cứu ..............................................................................8 1.3 Đối tượng, phạm vi và phương pháp nghiên cứu ...............................................9 1.3.1 Đối tượng và phạm vi nghiên cứu ...........................................................9 1.3.2 Phương pháp nghiên cứu .......................................................................11 1.4 Những đóng góp mới của luận án về mặt khoa học .........................................11 1.4.1 Về mặt lý thuyết ....................................................................................11 1.4.2 Về mặt thực tiễn ....................................................................................12 1.5 Bố cục luận án ..................................................................................................13 CHƢƠNG 2 CƠ SỞ LÝ THUYẾT 14 2.1 Các định nghĩa ..................................................................................................14 2.2 Lý thuyết học củng cố ......................................................................................14 2.3 Các giải thuật học củng cố kinh điển ...............................................................16 2.3.1 Giải thuật VI (Value Iteration) ..............................................................16 2.3.2 Giải thuật PI (Policy Iteration) ..............................................................17 2.3.3 Giải thuật Q-Learning............................................................................18 2.4 Xấp xỉ hàm trong RL ........................................................................................19 2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm trong RL ....................................19 2.4.2 Yêu cầu về xấp xỉ hàm trong RL ...........................................................20 2.5 Các loại xấp xỉ hàm trong RL, so sánh và đánh giá .........................................21 vii 2.6 Thuộc tính của NN truyền thẳng một lớp .........................................................21 2.7 Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm ...............................22 2.8 Tóm tắt..............................................................................................................25 CHƢƠNG 3 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƢU 27 3.1 Học củng cố trong điều khiển tối ưu ................................................................28 3.1.1 Mô tả bài toán ........................................................................................28 3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman).....................................28 3.2 Phân tích và thiết kế giải thuật học củng cố OADP .........................................31 3.2.1 Cấu trúc điều khiển và luật cập nhật tham số online .............................31 3.2.2 Giải thuật OADP ...................................................................................34 3.2.3 Phân tích ổn định và hội tụ của giải thuật OADP .................................35 3.3 Mô phỏng, so sánh và đánh giá ........................................................................36 3.4 Tóm tắt..............................................................................................................41 CHƢƠNG 4 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG 42 4.1 Học củng cố trong điều khiển thích nghi bền vững .........................................43 4.1.1 Mô tả bài toán ........................................................................................43 4.1.2 Phương trình HJI (Hamilton-Jacobi-Isaacs) ..........................................44 4.1.3 Luật điều khiển học củng cố dựa vào nghiệm HJI ................................46 4.2 Giải thuật ORADP............................................................................................48 4.2.1 Cấu trúc điều khiển và luật cập nhật tham số ........................................48 4.2.2 Giải thuật ORADP .................................................................................52 4.3 Phân tích ổn định và hội tụ của giải thuật ORADP ..........................................54 4.4 Mô phỏng, so sánh và đánh giá ........................................................................55 4.5 Tóm tắt..............................................................................................................59 CHƢƠNG 5 ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG 61 5.1 Mô hình phi tuyến của WMR ...........................................................................63 5.2 Mô hình WMR thực nghiệm ............................................................................67 5.3 Giải thuật ORADP áp dụng cho WMR ............................................................72 5.4 Mô phỏng..........................................................................................................74 5.4.1 Quỹ đạo tham chiếu ...............................................................................75 5.4.2 Thiết lập tham số học ............................................................................76 viii 5.4.3 Kết quả mô phỏng .................................................................................76 5.5 Thực nghiệm .....................................................................................................80 5.6 Tóm tắt..............................................................................................................86 CHƢƠNG 6 GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO 88 6.1 Lý thuyết đồ thị và mô hình hợp tác nhiều hệ phi tuyến MIMO .....................89 6.1.1 Đồ thị truyền thông phân tán .................................................................89 6.1.2 Động học nút .........................................................................................90 6.1.3 Mô hình hợp tác nhiều hệ phi tuyến ......................................................91 6.2 Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP ...........................95 6.2.1 Học củng cố trong điều khiển hợp tác ...................................................95 6.2.2 Cấu trúc điều khiển và luật cập nhật trong ORADP mở rộng ...............95 6.2.3 Giải thuật ORADP mở rộng ................................................................100 6.2.4 Phân tích ổn định và hội tụ của giải thuật ORADP mở rộng ..............101 6.3 Điều khiển hệ thống robot bầy đàn bằng giải thuật ORADP mở rộng ..........101 6.3.1 Mô hình hệ thống robot bầy đàn .........................................................102 6.3.2 Áp dụng giải thuật và kết quả mô phỏng.............................................105 6.4 Tóm tắt............................................................................................................109 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 111 CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 114 TÀI LIỆU THAM KHẢO 114 PHỤ LỤC A CÁC LOẠI XẤP XỈ HÀM DÙNG TRONG RL 126 PHỤ LỤC B CHỨNG MINH ĐỊNH LÝ 3.1 134 PHỤ LỤC C CHỨNG MINH ĐỊNH LÝ 3.2 136 PHỤ LỤC D CHỨNG MINH CÁC ĐỊNH LÝ VÀ BỔ ĐỀ 140 PHỤ LỤC E CHỨNG MINH ĐỊNH LÝ 4.3 145 PHỤ LỤC F CHỨNG MINH ĐỊNH LÝ 4.4 146 PHỤ LỤC G MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH VỊ TRÍ ROBOT 151 PHỤ LỤC K CHỨNG MINH ĐỊNH LÝ 6.2 154 ix DANH MỤC CÁC HÌNH VẼ Hình 1.1 Minh họa về học củng cố .................................................................................2 Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu.......................4 Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu 𝐻∞ ................4 Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu.........................16 Hình 3.1 Cấu trúc điều khiển OADP sử dụng một NN ................................................34 Hình 3.2 Trạng thái hệ thống trong quá trình học online sử dụng OADP và AC2NN 38 Hình 3.3 Sự hội tụ của trọng số NN sử dụng OADP và AC2NN.................................38 Hình 3.5 OADP và AC2NN: Hàm đánh giá tối ưu xấp xỉ ...........................................39 Hình 3.4 OADP và AC2NN: (a) Sai số giữa hàm đánh giá tối ưu xấp xỉ và tối ưu lý thuyết; (b) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết .......................39 Hình 3.6 Hội tụ trọng số NN của giải thuật OADP với giá trị khởi tạo bằng không ...40 Hình 3.7 Trọng số NN của giải thuật AC2NN không hội tụ về giá trị tối ưu khi giá trị khởi tạo của trọng số bằng không ..................................................................................40 Hình 4.2 Cấu trúc điều khiển ORADP sử dụng một NN..............................................52 Hình 4.3 Sự hội tụ của trọng số NN hàm đánh giá tối ưu ORADP so với AC3NN.....56 Hình 4.4 ORADP và AC3NN: a) Hàm đánh giá tối ưu xấp xỉ; b)Sai số hàm đánh giá tối ưu xấp xỉ và tối ưu lý thuyết.....................................................................................57 Hình 4.5 ORADP và AC3NN: a) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết; b) Sai số giữa luật nhiễu tối ưu xấp xỉ và tối ưu lý thuyết ................................57 Hình 4.6 Sự mất ổn định và không hội tụ của trọng số NN của giải thuật AC3NN với giá trị khởi tạo bằng không ............................................................................................58 Hình 4.7 Sự ổn định và hội tụ của trọng số NN của giải thuật ORADP với giá trị khởi tạo bằng không...............................................................................................................59 Hình 5.1 Mô hình robot di động dạng xe (WMR).........................................................63 Hình 5.2 Mô hình robot thực nghiệm: a) Mặt sau; b) Mặt trước ..................................68 Hình 5.3 Mô hình hệ thống thị giác đa chiều trên robot ...............................................69 Hình 5.4 Ảnh không gian thực qua hệ thống thị giác đa chiều ....................................70 Hình 5.5 Xác định tâm robot so với hệ trục cố định Oxy ..........................................70 Hình 5.6 Sơ đồ điều khiển sử dụng ORADP cho WMR ...............................................73 Hình 5.7 Lịch trình thay đổi khối lượng robot trong quá trình điều khiển ...................75 Hình 5.8 Lịch trình thay đổi mô men quán tính robot trong quá trình điều khiển .......76 Hình 5.9 Sự hội tụ của trọng số NN trong quá trình học điều khiển ............................77 Hình 5.11 Sai số bám vị trí: a) Toàn bộ quá trình; b) Sau khi hội tụ ...........................79 Hình 5.12 Quỹ đạo 𝑥, 𝑦 trong quá trình học điều khiển: a) 𝑥; b) 𝑦..............................79 x Hình 5.14 Sai số bám vận tốc: a) Vận tốc quay; b)Vận tốc dài ....................................80 Hình 5.15 Quỹ đạo vận tốc quay: a) Toàn bộ quá trình; b) Sau khi hội tụ...................81 Hình 5.16 Quỹ đạo vận tốc dài: a) Toàn bộ quá trình; b) Sau khi hội tụ ....................81 Hình 5.17 Mô men điều khiển tối ưu: a) Toàn bộ quá trình; b) Sau khi hội tụ ............81 Hình 5.18 Quỹ đạo x-y thực nghiệm: a) Toàn bộ quá trình; b) Sau khi hội tụ .............82 Hình 5.23 a) Không gian hoạt động; b) Quỹ đạo 𝑥 − 𝑦 của robot so với tham chiếu..85 Hình 5.24 a) Sai số bám vị trí 𝑥, 𝑦, 𝜃 ; b) Sai số bám vận tốc dài ................................85 Hình 5.25 a) Sai số bám vận tốc góc; b) Mô men điều khiển.......................................85 Hình 6.1 Đồ thị truyền thông của 4 đối tượng phi tuyến ..............................................89 Hình 6.2 Cấu trúc ORADP mở rộng điều khiển hợp tác nhiều hệ phi tuyến .............100 Hình 6.3 Sơ đồ điều khiển nhiều robot hợp tác sử dụng ORADP mở rộng ...............105 Hình 6.4 Quá trình hội tụ trọng số NN: a) Robot 1; b) Robot 2; c) Robot 3 ..............107 Hình 6.5 Chất lượng bám vị trí của đội hình: a) Sai số bám; Quỹ đạo bám x-y ........107 Hình 6.7 Đồng bộ hóa vị trí y qua các giai đoạn: a) Ban đầu; b) Hội tụ ....................108 Hình 6.8 Đồng bộ hóa hướng  qua các giai đoạn: a) Ban đầu; b) Hội tụ .................108 Hình 6.9 Sai số bám vận tốc giữa các robot: a) Vận tốc dài; b) Vận tốc quay ...........109 Hình 6.10 Đồng bộ hóa vận tốc dài qua các giai đoạn: a) Ban đầu; b) Hội tụ ...........109 Hình 6.11 Đồng bộ hóa vận tốc quay qua các giai đoạn: a) Ban đầu; b) Hội tụ ........110 Hình 6.12 Mô men điều khiển đội hình robot sau khi hội tụ: a) Sau 100s; b) Hội tụ 110 Hình A.1 Mạng MLP hai lớp ẩn: (a) Cấu trúc; (b) Các thành phần trong một nút ...126 Hình A.2 Cấu trúc mạng MLP một lớp ẩn, một đơn vị ngõ ra. ..................................127 Hình A.3 Cấu trúc mạng RBF ....................................................................................129 Hình A.4 Cấu trúc mạng RARBF ...............................................................................130 Hình A.5 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của hai mạng MLP có số đơn vị ẩn khác nhau. .................................................................133 Hình A.6 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của nhóm mạng CMAC. ....................................................................................................133 Hình A.7 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của nhóm mạng RBF. .........................................................................................................133 Hình G.1 Tập mẫu ngõ vào đo trong không gian ảnh ................................................151 Hình G.2 Tập mẫu ngõ ra mong muốn đo trong không gian thực ..............................151 Hình G.3 Kết quả huấn luyện RBF so với mẫu mong muốn.....................................152 Hình G.4 Ngõ ra của RBF so với mong muốn biểu diễn theo X (cm)-Y (pixel) .......152 xi DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU Giải thuật 2.1 VI ...........................................................................................................16 Giải thuật 2.2 PI ............................................................................................................17 Giải thuật 2.3 Q-Learning.............................................................................................18 Giải thuật 2.4 ADP sử dụng hai NN cập nhật tuần tự ..................................................23 Giải thuật 2.5 ADP sử dụng hai NN cập nhật đồng bộ ................................................23 Giải thuật 2.6 ADP sử dụng ba NN cập nhật tuần tự ...................................................24 Giải thuật 2.7 ADP sử dụng ba NN cập nhật đồng bộ .................................................25 Giải thuật 3.1 OADP ....................................................................................................34 Giải thuật 4.1 ORADP ..................................................................................................53 Giải thuật 5.1 ORADP áp dụng cho WMR ..................................................................74 Giải thuật 6.1 ORADP mở rộng .................................................................................100 Bảng 3.1 So sánh chỉ tiêu chất lượng giữa OADP và AC2NN.....................................38 Bảng 3.2 Chỉ tiêu chất lượng khi trọng số của các NN được khởi tạo bằng không .....40 Bảng 4.1 So sánh chỉ tiêu chất lượng giữa ORADP và AC3NN ..................................57 xii DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt (A)NN ANRBF Thuật ngữ tiếng anh (Artificial) Neural Network Giải thích Mạng thần kinh (nhân tạo), được viết tắt là NN trong luận án Adaptive Normalized Radial NN có hàm cơ sở xuyên tâm được chuẩn Basis Function hóa thích nghi Cấu trúc điều khiển Actor-Critic trong học AC Actor-Critic củng cố gồm hai NN: Mạng critic xấp xỉ hàm đánh giá tối ưu, mạng actor xấp xỉ luật điều khiển tối ưu ADP Adaptive Dynamic Programming Qui hoạch động thích nghi, một phương pháp học củng cố để xấp xỉ luật điều khiển tối ưu online ADP2NN ADP with two NNs Cấu trúc điều khiển ADP với hai NN ADP3NN ADP with three NNs Cấu trúc điều khiển ADP với ba NN NN actor đóng vai trò bộ điều khiển trong ANN Actor Neural Network ARE Algebraic Riccati Equation Phương trình đại số Riccati Cerebellar Model NN dựa theo mô hình tiểu não CMAC cấu trúc AC Articulation Controller NN critic đóng vai trò xấp xỉ hàm đánh giá CNN Critic Neural Network COD Curse of Dimensionality Sự bùng nổ tổ hợp không gian trạng thái DP Dynamic Programming Qui hoạch động HJB Hamilton-Jacobi-Bellman HJI Hamilton-Jacobi-Isaacs IDP Incremental Dynamic Programming LS Least Square LQR Linear Quadratic Regulation MIMO Multi Input-Multi Output trong cấu trúc AC Qui hoạch động tăng cường: phương pháp xấp xỉ nghiệm ARE online cho hệ tuyến tính không biết trước các ma trận trạng thái Phương pháp bình phương tối thiểu Điều khiển tối ưu tuyến tính dạng toàn phương Hệ thống nhiều đầu vào nhiều đầu ra xiii ML Machine Learning Học máy MLP Multi-Layer Perceptron NN truyền thẳng nhiều lớp Normalized Radial Basis NN có hàm cơ sở xuyên tâm được chuẩn Function hóa NRBF OADP Online Adaptive Dynamic Programming Qui hoạch động thích nghi online: một giải thuật học củng cố được đề xuất trong luận án để tìm luật điều khiển tối ưu online Qui hoạch động thích nghi bền vững ORADP Online Robust Adaptive online: một giải thuật học củng cố được đề Dynamic Programming xuất trong luận án để tìm luật điều khiển tối ưu thích nghi bền vững online Kích thích hệ thống bằng cách thêm nhiễu PE Persistence of Excitation vào véc tơ tín hiệu vào/ra. PE là điều kiện để tham số hội tụ trong nhận dạng và điều khiển thích nghi. Giải thuật học củng cố sử dụng một số PI Policy Iteration RL Reinforcement Learning Học củng cố RBF Radial Basis Function NN có hàm cơ sở xuyên tâm Resource Allocating Radial NN có hàm cơ sở xuyên tâm được cấp phát Basis Function động Single Input-Single Output Hệ thống một ngõ vào một ngõ ra RARBF SISO bước lặp để xấp xỉ luật điều khiển tối ưu Sai phân tạm thời: giải thuật cập nhật tham TD Temporal Difference số của bộ dự báo liên quan đến sai phân tín hiệu theo thời gian sử dụng trong học củng cố UUB Uniform Ultimate Boun-ded Bị chặn tới hạn đều VI Value Iteration WMR Wheeled Mobile Robot ZDGT Zero-sum Differential Game Theory Giải thuật học củng cố sử dụng một số bước lặp để xấp xỉ hàm đánh giá tối ưu Robot di động dạng xe Lý thuyết trò chơi sai phân tổng bằng không ứng dụng trong lý thuyết điều khiển tối ưu 𝐻∞ xiv DANH MỤC CÁC KÝ HIỆU ℝ Tập các số thực ℝ𝑛 Không gian các tọa độ thực (không gian Euclide) 𝑛 chiều ℝ𝑛×𝑚 Tập các ma trận có kích thước 𝑛 × 𝑚 chứa các phần tử số thực Ω𝑥 Tập đóng (Ω𝑥 ⊆ ℝ ) bao quanh gốc: nếu 𝑥 ∈ Ω𝑥 thì 𝑥 là lân cận quanh điểm cân bằng 𝑥0 . 𝑛 Chuẩn của véc tơ 𝑥 𝑥 𝑥 ∞ 𝐴 𝐴 Chuẩn vô cùng của véc tơ 𝑥 Chuẩn của ma trận 𝐴 ∞ Chuẩn vô cùng của ma trận 𝐴 𝜕𝑉(𝑥) 𝜕𝑥 𝑉𝑥 𝑥 Gradient của hàm 𝑉(𝑥) theo 𝑥: 𝑉𝑥 𝑥 = ⊗ Tích Kronecker,  X  Y   X T  Y T ,   X  Y     X   Y  X    Y  , T trong đó X và Y là các ma trận còn 𝛽 là đại lượng vô hướng 𝐼𝑛 Ma trận đơn vị có chiều 𝑛 × 𝑛 𝟏 𝟏 = 1, … ,1 𝑇 ∈ ℝ𝑛 Diag(αi ) Ma trận đường chéo chứa các phần tử αi 𝐿2 0,∞ Không gian Banach, nếu ∀𝑑 ∈ 𝐿2 0,∞ thì ∞ 0 𝑑 2 𝑑𝑡 < ∞ sub 𝑥(𝑡) Cận trên nhỏ nhất (cận trên đúng) của 𝑥(𝑡) inf 𝑥(𝑡) Cận dưới lớn nhất (cận dưới đúng) của 𝑥(𝑡) 𝑊 Ma trận trọng số của NN 𝑤𝑖 Trọng số NN giữa đơn vị ẩn thứ 𝑖 và đơn vị ra (một ngõ ra) 𝑤𝑖𝑗 Trọng số NN kết nối giữa ngõ ra của đơn vị 𝑖 và ngõ vào đơn vị 𝑗 𝑛𝑖 , 𝑛𝑕 Lần lượt là số lượng nút ở lớp vào, số lượng nút ở lớp ẩn của NN 𝜙(𝑥) Véc tơ hàm tác động của NN 𝑉 𝑥 Hàm đánh giá 𝑉 ∗ (𝑥) Hàm đánh giá tối ưu 𝑢, 𝑢∗ Véc tơ tín hiệu ngõ vào điều khiển và ngõ vào điều khiển tối ưu 𝑑 Véc tơ nhiễu của hệ thống 𝑥 Véc tơ tín hiệu trạng thái của hệ thống 𝑥0 Véc tơ trạng thái của hệ thống tại thời điểm 𝑡 = 0 xv 𝑦 Véc tơ ngõ ra của hệ thống 𝐽 Hàm chỉ tiêu chất lượng của hệ thống 𝜆𝑚𝑖𝑛 𝐴 Trị riêng nhỏ nhất của ma trận 𝐴 (𝐴 ∈ ℝ 𝜆𝑚𝑎𝑥 𝐴 Trị riêng lớn nhất ma trận 𝐴 (𝐴 ∈ ℝ 𝑄 𝑥 Hàm xác định dương, sao cho ∀𝑥 ≠ 0, 𝑄 𝑥 > 0 và 𝑄 𝑥 = 0 ⟺ 𝑥 = 0 𝑄 Ma trận trọng số xác định dương 𝑅 Ma trận trọng số đối xứng, xác định dương 𝑏1 , 𝑟1 , 𝑙 Bề rộng, bán kính bánh xe và khoảng cách từ tâm đến trục bánh sau của robot di động 𝜏, 𝜏𝑚 Véc tơ mô men điều khiển và mô men nhiễu của robot di động 𝑛×𝑛 𝑛×𝑛 xvi ) ) CHƢƠNG 1 GIỚI THIỆU 1.1 Tổng quan về đề tài 1.1.1 Khái niệm về học củng cố Học củng cố (Reinforcement Learning (RL)) thuộc lớp phương pháp học máy (Machine Learning) [63], [96] dùng để giải bài toán tối ưu bằng cách liên tục điều chỉnh hành động của tác tử (Agent). Lý thuyết RL hình thành dựa trên sự quan sát và nghiên cứu thuộc tính và hành vi của động vật khi tương tác với môi trường để thích nghi và tồn tại. Các giải thuật điều khiển dựa vào RL mô phỏng bản năng của động vật. Đó là biết học hỏi từ sai lầm, biết tự dạy chính mình, biết sử dụng thông tin trực tiếp từ môi trường cũng như thông tin đã đánh giá trong quá khứ để củng cố, điều chỉnh hành vi nhằm liên tục cải thiện chất lượng tương tác, tối ưu hóa mục tiêu nào đó theo thời gian (Hình 1.1). Phương pháp RL, đặc biệt hữu ích nếu môi trường thiếu thông tin để ra quyết định chọn hành động. Trong trường hợp đó, RL sử dụng phương pháp thử và sai có đánh giá. Thông tin hồi tiếp từ môi trường tương ứng với hành động thử sai được đánh giá và lưu trữ. Sau đó, dựa vào thông tin lưu trữ, chiến lược chọn hành động tốt hơn được thực hiện để cải thiện chất lượng tương tác với môi trường [18], [56], [68], [71], [96], [100], [112]. Trong điều khiển tối ưu, RL học thích nghi trực tuyến nghiệm HJB dựa vào thông tin vào ra của đối tượng với mục tiêu tối thiểu hàm chi phí cho trước. RL được chứng minh là phương pháp điều khiển tối ưu thích nghi trực tiếp [43], [44]-[46], [63] [72]-[73], [84], [92], [96]-[98], [100]-[103], [108]-[113]. Lý thuyết RL kế thừa từ lý thuyết tối ưu của qui hoạch động (Dynamic Programming (DP)) [16] và phát triển thành lý thuyết qui hoạch động thích nghi (Adaptive Dynamic Programming (ADP)) hoặc qui hoạch động xấp xỉ (Approximate Dynamic Programming (ADP)) [35], [38], [39], [43], [53], [60], [61], [72], [73], [84], [92], [98], [109], [113], [114], [120], [128]-[130]. ADP đã khắc phục được các hạn chế của DP như off-line, không điều khiển thời gian thực, cần mô hình toán chính xác. Ngoài ra, khi ADP sử dụng xấp xỉ hàm sẽ khắc phục được các điểm yếu quan trọng của 1 Môi trường Hành động Thông tin Tác tử (Agent) Bộ nhớ Hình 1.1 Minh họa về học củng cố DP như giảm chi phí tính toán và tài nguyên lưu trữ, khắc phục được hiện tượng bùng nổ tổ hợp (Curse of Dimensionality (COD)) khi rời rạc hóa không gian trạng thái [88], đặc biệt nếu đối tượng điều khiển là hệ MIMO (Multi Input-Multi Output). Theo thời gian, các giải thuật RL đã liên tục phát triển. Trong [119], dựa vào lý thuyết RL, Werbos đã phát triển giải thuật lặp PI (Policy Iteration). Từ đó đến nay rất nhiều giải thuật PI thời gian thực được nghiên cứu và mở rộng [17]-[19], [43], [56], [71], [73], [98], [100], [113]-[114], [120], [129]. Gần đây, các giải thuật lặp PI kết hợp xấp xỉ hàm ADP được nghiên cứu để điều khiển thích nghi tối ưu online cho hệ phi tuyến chứa động học nội (internal dynamics) không biết trước, bỏ qua thủ tục nhận dạng hệ thống [56], [100], [106], [108], [112], [114], [122]-[123], [129]. 1.1.2 Lịch sử phát triển của RL trong điều khiển RL được nghiên cứu, phát triển và ứng dụng mạnh trong lĩnh vực học máy từ những thập niên 1980 [96]. Tuy nhiên, đối với lĩnh vực điều khiển, RL chỉ mới thực sự bắt đầu phát triển từ những năm đầu của thế kỷ 21. Lịch sử phát triển của RL trong lĩnh vực điều khiển tạm chia thành ba giai đoạn. Trong giai đoạn đầu tiên (trước năm 2005), lý thuyết RL từ lĩnh vực trí tuệ nhân tạo được phát triển mở rộng sang lĩnh vực điều khiển. Trước tiên, RL với mô hình Markov được định nghĩa bằng cách rời rạc hóa không gian trạng thái [96]. Sau đó, hai giải thuật lặp cơ bản: PI [51], [119] và VI (Value Iteration) [96] được sử dụng để xấp xỉ luật điều khiển hoặc hàm đánh giá tối ưu. Để áp dụng được hai giải thuật này, mô hình toán của hệ thống cần phải xác định trước. Một giải thuật khác được đề xuất với luật cập nhật tham số không phụ thuộc vào mô hình hệ thống, đó là giải thuật dự báo TD (Temporal Difference) [95]. Nếu tín hiệu 2 điều khiển được lượng tử hóa cùng với không gian trạng thái, giải thuật Q-Learning [116] được đề nghị. Trong Q-Learning luật cập nhật tham số không phụ thuộc vào mô hình hệ thống. Tuy nhiên, tất cả các giải thuật nêu trên chỉ áp dụng cho bài toán điều khiển off-line. Một trong những nghiên cứu RL thành công chuyển từ điều khiển off-line sang online trong giai đoạn này là phương pháp qui hoạch động tăng cường (Incremental Dynamic Programming (IDP)) [20], [42]. IDP được thiết kế để điều khiển tối ưu thích nghi dựa trên giải thuật Q-learning, xấp xỉ online nghiệm cho bài toán LQR (Linear Quaratic Regulation) rời rạc với các ma trận trạng thái không biết trước. Bên cạnh đó, phải kể đến một loạt các nghiên cứu thành công khác, đó là sử dụng xấp xỉ hàm vào cấu trúc ADP để giải quyết vấn đề bùng nổ tổ hợp trong không gian trạng thái rời rạc cho hệ đa biến [88]. Các ứng dụng ADP với xấp xỉ hàm từ đó tiếp tục được phát triển mở rộng [27], [96], [99], [123]. Tuy nhiên, hầu hết các nghiên cứu trong giai đoạn này không chứng minh tính ổn định hệ thống trong quá trình học và điều khiển. Ngoài ra, luật cập nhật online cho tham số xấp xỉ hàm chưa được thiết kế chặt chẽ. Một điểm quan trọng khác đáng lưu ý trong giai đoạn này là RL chỉ được áp dụng cho hệ thống rời rạc. Lý do này xuất phát từ thuộc tính rời rạc của qui hoạch động mà RL thừa kế (xem [73] cùng các tài liệu tham khảo trong đó). Ở giai đoạn thứ hai (từ những năm 2005-2010), các nhà nghiên cứu tập trung vào việc sử dụng lý thuyết điều khiển hiện đại vào RL để thiết kế bộ điều khiển online cho hệ thống phi tuyến [71]. Ngoài ra, do không thể áp dụng phương pháp RL rời rạc cho hệ thống liên tục nên lý thuyết RL bắt đầu chuyển hướng. Giải thuật điều khiển tối ưu thích nghi cho hệ thống tuyến tính liên tục với ma trận trạng thái không biết trước được đề xuất trong [110] với kết quả là nghiệm tối ưu được xấp xỉ online đến nghiệm giải tích ARE (nghiệm giải chỉ tích tồn tại khi biết trước ma trận trạng thái). Trong nghiên cứu này, sự hội tụ và ổn định hệ kín được chứng minh chặt chẽ. Song song với đó là một loạt các nghiên cứu khác về điều khiển tối ưu cho hệ thống phi tuyến rời rạc và liên tục với thông tin về các thành phần động trong mô hình hoàn toàn biết trước [19], [29], [31], [35], [43], [45], [73], [84]-[85], [92], [98], [101], [108], [113], [130]. 3 Xấp xỉ hàm (Actor) Hành động (Tín hiệu điều khiển) Môi trường (Đối tượng) Trạng thái/Ngõ ra Xấp xỉ hàm (Critic) (Hàm chi phí) Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu Xấp xỉ hàm (Actor 1) Hành động (Tín hiệu điều khiển) Chặn trên của nhiễu Môi trường (Đối tượng) Xấp xỉ hàm (Actor 2) Trạng thái /Ngõ ra Xấp xỉ hàm (Critic) (Hàm chi phí) Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu 𝐻∞ Đa số các nghiên cứu trong thời kỳ này sử dụng cấu trúc điều khiển ADP chuẩn (xem (H. 1.2) và các định nghĩa trong [56]) với hai xấp xỉ hàm gọi là AC (ActorCritic), trong đó một xấp xỉ hàm (critic) dùng để đánh giá luật điều khiển và xấp xỉ hàm chi phí tối ưu, xấp xỉ hàm còn lại (actor) dùng để xấp xỉ luật điều khiển tối ưu [56], [57]. Luật cập nhật tham số của hai xấp xỉ hàm là online có sự ràng buộc lẫn nhau. Thành công của các nghiên cứu trong giai đoạn này là sự ổn định của hệ kín bao gồm các xấp xỉ hàm chứa tham số chỉnh định online được phân tích và chứng minh rất chặt chẽ. 4 Giai đoạn thứ ba (từ năm 2010 cho đến nay), lịch sử phát triển về RL liên quan đến bài toán điều khiển tối ưu thích nghi cho hệ phi tuyến chứa một vài thành phần động học hệ thống không biết trước [17]-[19], [38], [58], [61], [63], [66], [71], [80][81], [85], [105]-[106], [120]-[121], [128]-[129]. Song song với các nghiên cứu vừa nêu là các nghiên cứu về giải thuật RL cho bài toán điều khiển tối ưu 𝐻∞ với hệ tuyến tính có ma trận trạng thái không biết trước [109], hoặc hệ phi tuyến với các thành phần động học trong mô hình hoàn toàn xác định [31], [53], [56], [57], [102]-[103]. Đa số các nghiên cứu này đều sử dụng cấu trúc ADP với ba xấp xỉ hàm [43], [67], [84], [123]. Một xấp xỉ hàm (Actor 2 trong H. 1.3) được thêm vào cấu trúc ADP nhằm xấp xỉ chặn trên của nhiễu (nhiễu xấu nhất). Xuất phát từ lý thuyết của RL, nghiên cứu chuyên sâu hơn nữa để phát triển RL về mặt lý thuyết cũng như thực tiễn là mục tiêu chính trong luận án này. 1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu 1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển Thiết kế giải thuật điều khiển cho hệ phi tuyến có các thành phần không chắc chắn, nhiễu sai số mô hình, nhiễu ngoài tác động sao cho hệ kín không chỉ ổn định bền vững mà còn tăng cường chất lượng điều khiển là bài toán được rất nhiều nhà nghiên cứu quan tâm. Các phương pháp để giải quyết bài toán này là điều khiển thích nghi [62] trong đó phổ biến là nhận dạng gián tiếp hệ thống [77], sau đó thiết kế bộ điều khiển. Phương pháp thứ hai là nhận dạng online các thành phần không chắc chắn trong hệ thống sử dụng các bộ xấp xỉ hàm. Do xấp xỉ hàm bị giới hạn bởi một số hữu hạn các tham số nên sai số xấp xỉ là không thể tránh khỏi. Sai số này cùng với nhiễu có thể làm cho hệ kín mất ổn định. Vì vậy, kết hợp thêm thành phần điều khiển bền vững vào luật điều khiển thích nghi để bù sai số xấp xỉ và nhiễu là cần thiết [24], [69]. Tuy nhiên, các phương pháp điều khiển thích nghi hoặc thích nghi bền vững chưa giải quyết triệt để bài toán tối ưu [125]. Thành phần điều khiển bền vững thêm vào sơ đồ điều khiển thích nghi thường có tham số hằng, được thiết kế để hệ kín ổn định bền vững nên thường phải “hy sinh” chất lượng điều khiển. Nếu chọn tham số hằng không phù hợp có thể xảy ra các hiện tượng: hệ thống nhanh thích nghi nhưng chất lượng điều khiển không tốt hoặc ngược 5 lại. Hệ kín luôn bảo đảm ổn định bền vững nhưng có hiện tượng chattering (hiện tượng biên độ giá trị ngõ vào điều khiển thay đổi giá trị với tần số cao) hoặc ngược lại. Nói cách khác, phương pháp điều khiển thích nghi bền vững kinh điển chỉ mang đến sự thỏa hiệp giữa chất lượng điều khiển và khả năng ổn định của hệ thống. Cùng với sự phát triển của lý thuyết điều khiển thích nghi, bền vững, lý thuyết điều khiển tối ưu hiện đại cho hệ phi tuyến là một trong những vấn đề được liên tục nghiên cứu trong nhiều thập kỷ qua. Luật điều khiển tối ưu được thiết kế không chỉ ổn định hệ thống mà còn tối thiểu hàm chi phí ràng buộc đến chỉ tiêu chất lượng mong muốn. Về mặt toán học, bài toán điều khiển tối ưu được giải nếu nghiệm phương trình Hamilton-Jacobi-Bellman (HJB) được giải. Đối với hệ tuyến tính, HJB trở thành phương trình ARE (Algebraic Riccati Equation). Đối với hệ phi tuyến, HJB trở thành phương trình vi phân phi tuyến. Với hệ tuyến tính thiếu thông tin về ma trận trạng thái, nghiệm ARE không thể giải được bằng giải tích, với hệ phi tuyến, nghiệm giải tích HJB là rất khó giải, nếu không muốn nói là không thể cho dù biết trước mô hình hệ thống. Vì lý do đó, vấn đề xấp xỉ nghiệm HJB được đặt ra. Lý thuyết điều khiển bền vững sử dụng chuẩn 𝐻∞ đóng vai trò rất quan trọng trong phân tích và thiết kế hệ thống [131]. Bộ điều khiển tối ưu bền vững 𝐻∞ được thiết kế bằng cách giải phương trình đại số Riccati mở rộng cho hệ tuyến tính [109] và HJI (Hamilton-Jacobi-Isaacs) cho hệ tuyến tính [107]. Mặc dù lý thuyết điều khiển hiện đại liên quan đến bài toán điều khiển 𝐻∞ cho hệ phi tuyến [15] nhưng trong nhiều ứng dụng thực tế, vấn đề phức tạp ở chỗ làm thế nào để tìm nghiệm HJI, bởi vì đây là phương trình vi phân phi tuyến không có nghiệm giải tích [100], [122]. Lý thuyết RL là một trong những công cụ mạnh dùng để nghiên cứu và phát triển các giải thuật điều khiển tối ưu bằng cách xấp xỉ online nghiệm HJB và HJI nhằm khắc phục các hạn chế nêu trên [10], [11], [17]-[19], [38], [53], [61]-[58], [63], [66], [71], [81]-[80], [85], [105]-[106], [120]-[122], [128]-[129]. Tuy nhiên, trong hầu hết các giải thuật RL, thành phần động học nội trong mô hình hệ phi tuyến đòi hỏi phải xác định trước và nhiễu tác động bị bỏ qua [100], [106]. Vì vậy, kết hợp đặc tính thích nghi bền vững vào giải thuật RL để giải bài toán điều khiển tối ưu cho hệ phi tuyến chứa thành phần động không có thông tin xác định, bị tác động bởi nhiễu là cần thiết. 6 1.2.2 Tính cấp thiết của đề tài Chỉ một số rất ít nghiên cứu về giải thuật RL, gần đây, đã kết hợp đặc tính tối ưu 𝐻∞ vào bài toán điều khiển thích nghi bền vững hệ phi tuyến chứa thành phần bất định, chịu tác động bởi nhiễu [10], [53], [103], [112]. Các nghiên cứu này sử dụng giải thuật lặp PI dựa vào cấu trúc ADP ba xấp xỉ hàm (H. 1.3). Tuy nhiên, với cấu trúc ba xấp xỉ hàm, ADP còn tồn tại một số hạn chế: Tính toán phức tạp, lãng phí tài nguyên, chậm hội tụ, cập nhật tham số giữa các xấp xỉ hàm là tuần tự qua nhiều bước lặp [100], [103]-[106]. Ngoài ra, các giải thuật này cần được khởi động bởi các luật điều khiển ổn định cho trước. Điều này làm giảm tính linh hoạt trong thiết kế, bởi vì trong một số ứng dụng đặc biệt, xác định trước luật điều khiển khởi tạo ổn định là điều thách thức. Tăng tốc độ hội tụ, tăng tính linh hoạt trong thiết kế bằng cách giảm độ phức tạp tính toán, giảm tài nguyên hệ thống và thiết kế đơn giản luôn là động cơ thúc đẩy để nghiên cứu các giải thuật điều khiển [122], [125]. Nếu mỗi xấp xỉ hàm là một mạng thần kinh (Neural Network (NN)), thì với ba xấp xỉ hàm, số lớp ẩn và số đơn vị nút ở lớp ẩn, số lượng hàm tác động sẽ tăng lên theo cấp số nhân, kéo theo số phần tử trong ma trận trọng số sẽ tăng lên tương ứng. Với cấu trúc ADP sử dụng ba NN, đặc biệt khi áp dụng cho hệ thống đa biến, hồi tiếp đủ trạng thái thì số lượng tham số sẽ tăng lên đáng kể. Các trọng số NN phải được liên tục cập nhật trong suốt quá trình học, do đó chi phí tính toán là vấn đề thách thức. Khi sử dụng giải thuật PI để xấp xỉ nghiệm online, tốc độ hội tụ của giải thuật ngoài các yếu tố khác còn phụ thuộc rất nhiều vào cấu trúc chọn trước. Nếu nhiều xấp xỉ hàm được sử dụng, quá trình tính toán sẽ rất phức tạp, giải thuật chậm hội tụ là điều khó tránh khỏi. Các giải thuật trong [10], [34], [103] ngoài việc đòi hỏi phải biết rõ các hàm thành phần trong phương trình mô tả hệ phi tuyến, trọng số NN còn phải cập nhật trong hai vòng lặp khác nhau, với lý do là phương trình HJI được xấp xỉ tuần tự bởi một loạt các phương trình HJB. Thủ tục như vậy sẽ dẫn đến nghiệm của các phương trình bị dư thừa gây lãng phí tài nguyên và cho hiệu quả thấp [122]. Ngoài ra, do các xấp xỉ hàm phụ thuộc lẫn nhau, nếu khởi tạo trọng số NN không phù hợp sẽ dẫn đến hệ kín mất ổn định ngay từ những thời điểm học đầu tiên [100]. Hay nói cách khác, tìm luật điều khởi tạo ổn định cho giải thuật là điều bắt buộc. Để khắc phục nhược điểm nêu trên, một số nghiên cứu về RL đề xuất giảm số 7 lượng xấp xỉ hàm trong cấu trúc điều khiển. [31], [125] đã đề xuất giải thuật SOLA (Single Online Approximator), trong đó chỉ duy nhất một NN được sử dụng để khắc phục hiện tượng nhiều xấp xỉ hàm. Ngoài ra, với SOLA, luật điều khiển ổn định để khởi động cho giải thuật là không cần thiết. Tuy nhiên, giải thuật này yêu cầu phải xác định trước thành phần động học nội trong mô hình hệ thống. Để kết hợp yếu tố thích nghi trong bài toán điều khiển tối ưu 𝐻∞ liên quan đến nghiệm HJI đồng thời khắc phục luôn hiện tượng dư thừa nghiệm, [122] đã đề xuất giải thuật xấp xỉ online nghiệm HJI sử dụng duy nhất một NN. Giải thuật này không cần biết trước và không cần sử dụng thông tin về động học nội trong hệ thống. Quá trình cập nhật tham số luật điều khiển và luật nhiễu trong giải thuật này đồng bộ trong cùng một bước lặp, ưu điểm hơn [103]. Tuy nhiên, giải thuật này vẫn còn gặp trở ngại, đó là phải ngưng cập nhật các tham số của hệ thống trong một khoảng thời gian đủ lớn để lấy tập mẫu huấn luyện cho lần cập nhật trọng số tiếp theo. Ngoài ra, giải thuật này vẫn còn đòi hỏi bộ điều khiển khởi tạo ổn định. 1.2.3 Mục tiêu nghiên cứu Trên cơ sở ưu và nhược điểm của giải thuật học củng cố vừa giới thiệu, mục tiêu nghiên cứu chính trong luận án này là phân tích và thiết kế giải thuật học củng cố mới trong điều khiển thích nghi bền vững cho hệ phi tuyến. Giải thuật đáp ứng các yêu cầu: 1. Điều khiển online, tránh thủ tục nhận dạng hệ thống (gián tiếp hoặc trực tiếp). 2. Bảo đảm được hệ kín ổn định bền vững. 3. Tối thiểu được hàm chỉ tiêu chất lượng và chỉnh định được các tham số luật điều khiển về giá trị cận tối ưu. 4. Giảm được chi phí tính toán và tài nguyên nhằm tăng nhanh tốc độ hội tụ. 5. Loại bỏ được yêu cầu về chọn trước luật điều khiển ổn định để khởi động giải thuật. 6. Giải thuật càng đơn giản càng tốt Các mục tiêu trên nhằm cải thiện hơn nữa chất lượng điều khiển, tăng tốc độ hội tụ, tăng tính linh hoạt trong thiết kế so với các giải thuật học củng cố trước đây. 1.2.4 Nhiệm vụ nghiên cứu Để đạt được mục tiêu nghiên cứu, trong khuôn khổ luận án, một số nhiệm vụ cấp 8 thiết được đặt ra như sau: a) Nghiên cứu giải thuật học củng cố điều khiển tối ưu cho hệ phi tuyến dựa trên cấu trúc qui hoạch động thích nghi sử dụng hai xấp xỉ hàm (H. 1.2) [56], [100], [101]. Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm, khắc phục được sự dư thừa của xấp xỉ hàm so với qui hoặc động thích nghi kinh điển. Thiết kế được luật cập nhật tham số online cho xấp xỉ hàm. Loại bỏ được yêu cầu phải chọn trước luật điều khiển ổn định để khởi động giải thuật. Xây dựng được giải thuật điều khiển và chứng minh được sự hội tụ và ổn định cho toàn hệ thống. b) Nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ phi tuyến trên nền tảng cấu trúc qui hoạch động thích nghi bền vững sử dụng ba xấp xỉ hàm (H. 1.3) [56], [100], [103]. Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm, khắc phục được sự dư thừa của hai xấp xỉ hàm còn lại. Thiết kế được luật cập nhật tham số online cho xấp xỉ hàm không sử dụng thông tin về động học nội tránh thủ tục nhận dạng hệ thống. Loại bỏ được yêu cầu phải chọn trước luật điều khiển ổn định để khởi động giải thuật. Xây dựng được giải thuật điều khiển và chứng minh được sự hội tụ và ổn định cho toàn hệ thống. c) Kiểm tra được tính hiệu quả của giải thuật đề xuất qua các nội dung: (𝑖) Mô phỏng, so sánh và đánh giá với các giải thuật học củng cố khác trên cùng hệ phi tuyến. (𝑖𝑖) Mô phỏng và thực nghiệm trên đối tượng robot di động dạng xe. d) Mở rộng giải thuật học củng cố điều khiển thích nghi bền vững cho bài toán điều khiển hợp tác nhiều hệ phi tuyến MIMO, áp dụng trong mô phỏng đồng bộ hóa đội hình robot bầy đàn. 1.3 Đối tƣợng, phạm vi và phƣơng pháp nghiên cứu 1.3.1 Đối tượng và phạm vi nghiên cứu Đối tượng điều khiển được xét trong luận án có ba loại. Đối tượng thứ nhất cần nghiên cứu là lớp hệ thống phi tuyến có dạng [101]: 𝑥 =𝑓 𝑥 +𝑔 𝑥 𝑢 (1.1) trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển và 𝑓 𝑥 ∈ ℝ𝑛 , 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 là các hàm phi tuyến khả vi liên tục giả sử biết trước. Ngoài ra, 𝑓 0 = 0 và 𝑓 𝑥 , 𝑔 𝑥 giả sử bị chặn [124]-[125]. Giả sử này chỉ sử dụng để chứng minh tính ổn định của hệ thống, không sử dụng trong luật điều khiển cũng như luật cập 9 nhật tham số. Giải thuật điều khiển cho đối tượng (1.1) mà luận án nghiên cứu là giải thuật học củng cố điều khiển tối ưu được phát triển trên nền tảng cơ sở lý thuyết qui hoạch động thích nghi sử dụng xấp xỉ hàm. Đối tượng thứ hai cần nghiên cứu tiếp theo là lớp hệ phi tuyến có dạng [122]: 𝑥 =𝑓 𝑥 +𝑔 𝑥 𝑢+𝑘 𝑥 𝑑 𝑦 = 𝑕(𝑥) (1.2) trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển với 𝑢 ∈ 𝐿2 0, ∞ , 𝑑 ∈ ℝ𝑞 là nhiễu thỏa điều kiện 𝑑 ∈ 𝐿2 0, ∞ , 𝑓 𝑥 ∈ ℝ𝑛 là véc tơ hàm phi tuyến liên tục đặc trưng cho thành phần động học nội hệ thống không biết trước [122], 𝑦 ∈ ℝ𝑝 là ngõ ra mục tiêu, 𝑕(𝑥) ∈ ℝ𝑝 , 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 và 𝑘 𝑥 ∈ ℝ𝑛 ×𝑞 lần lượt là véc tơ hàm và các ma trận hàm phi tuyến liên tục xác định trước, giả sử bị chặn [31]. Giả sử này chỉ sử dụng để chứng minh tính ổn định của hệ thống, không sử dụng trong luật điều khiển cũng như luật cập nhật tham số. Giải thuật điều khiển cho đối tượng (1.2) mà luận án nghiên cứu là giải thuật học củng cố trong điều khiển thích nghi bền vững được phát triển trên nền tảng cơ sở lý thuyết qui hoạch động thích nghi bền vững sử dụng xấp xỉ hàm. Đối tượng thực nghiệm nhằm kiểm chứng tính hiệu quả của phương pháp học củng cố thích nghi bền vững là lớp hệ phi tuyến thuộc (1.2). Đó là robot di động dạng xe, một đối tượng phi tuyến chứa thành phần động không thể cấu trúc hóa hoặc mô hình hóa, chịu tác động bởi nhiễu mô men ngõ vào có năng lượng hữu hạn. Đối tượng cuối cùng cần nghiên cứu để mở rộng giải thuật học củng cố trong điều khiển thích nghi bền vững là 𝑁 hệ phi tuyến MIMO hợp tác. Mỗi hệ 𝑖, 1 ≤ 𝑖 ≤ 𝑁 có 𝑚 (𝑚 ≥ 2) phương trình phi tuyến: 𝑥𝑖𝑕 = 𝑓𝑖𝑕 𝑥𝑖𝑕 + 𝑔𝑖𝑕 𝑥𝑖𝑕 𝑥𝑖 𝑥𝑖𝑚 = 𝑓𝑖𝑚 𝑥𝑖𝑚 + 𝑔𝑖𝑚 𝑥𝑖𝑚 + 𝑘𝑖𝑕 𝑥𝑖𝑕 𝑑𝑖 𝑕+1 , 1 ≤ 𝑕 ≤ 𝑚 − 1 ⋮ 𝑢𝑖𝑚 + 𝑘𝑖𝑚 𝑥𝑖𝑚 𝑑𝑖𝑚 𝑕+1 (1.3) 𝑇 𝑇 𝑇 𝑇 trong đó với mọi 1 ≤ 𝑕 ≤ 𝑚, 𝑥𝑖𝑕 = [𝑥𝑖1 , 𝑥𝑖2 , … , 𝑥𝑖𝑕 ] ∈ ℝ𝑛 1 +⋯+𝑛 𝑕 với 𝑥𝑖𝑕 ∈ ℝ𝑛 𝑕 là véc tơ trạng thái, 𝑢𝑖𝑚 ∈ ℝ𝑛 𝑚 là véc tơ ngõ vào điều khiển, và 𝑑𝑖𝑕 ∈ ℝ𝑛 𝑕 là véc tơ nhiễu sao cho 𝑑𝑖𝑕 ∈ 𝐿2 [0, ∞), 𝑓𝑖𝑕 (𝑥𝑖𝑕 ) ∈ ℝ𝑛 𝑕 , 𝑘𝑖𝑕 (𝑥𝑖𝑕 ) ∈ ℝ𝑛 𝑕 ×𝑛 𝑕 và 𝑔𝑖𝑕 (𝑥𝑖𝑕 ) ∈ 10
- Xem thêm -

Tài liệu liên quan