MỤC LỤC
DANH MỤC CÁC HÌNH VẼ
x
DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU
xii
DANH MỤC CÁC TỪ VIẾT TẮT
xiii
DANH MỤC CÁC KÝ HIỆU
xv
CHƢƠNG 1 GIỚI THIỆU
1.1
1
Tổng quan về đề tài ............................................................................................1
1.1.1 Khái niệm về học củng cố .......................................................................1
1.1.2 Lịch sử phát triển của RL trong điều khiển .............................................2
1.2
Động cơ, mục tiêu và nhiệm vụ nghiên cứu .......................................................5
1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển ....................5
1.2.2 Tính cấp thiết của đề tài...........................................................................7
1.2.3 Mục tiêu nghiên cứu ................................................................................8
1.2.4 Nhiệm vụ nghiên cứu ..............................................................................8
1.3
Đối tượng, phạm vi và phương pháp nghiên cứu ...............................................9
1.3.1 Đối tượng và phạm vi nghiên cứu ...........................................................9
1.3.2 Phương pháp nghiên cứu .......................................................................11
1.4
Những đóng góp mới của luận án về mặt khoa học .........................................11
1.4.1 Về mặt lý thuyết ....................................................................................11
1.4.2 Về mặt thực tiễn ....................................................................................12
1.5
Bố cục luận án ..................................................................................................13
CHƢƠNG 2 CƠ SỞ LÝ THUYẾT
14
2.1
Các định nghĩa ..................................................................................................14
2.2
Lý thuyết học củng cố ......................................................................................14
2.3
Các giải thuật học củng cố kinh điển ...............................................................16
2.3.1 Giải thuật VI (Value Iteration) ..............................................................16
2.3.2 Giải thuật PI (Policy Iteration) ..............................................................17
2.3.3 Giải thuật Q-Learning............................................................................18
2.4
Xấp xỉ hàm trong RL ........................................................................................19
2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm trong RL ....................................19
2.4.2 Yêu cầu về xấp xỉ hàm trong RL ...........................................................20
2.5
Các loại xấp xỉ hàm trong RL, so sánh và đánh giá .........................................21
vii
2.6
Thuộc tính của NN truyền thẳng một lớp .........................................................21
2.7
Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm ...............................22
2.8
Tóm tắt..............................................................................................................25
CHƢƠNG 3 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƢU 27
3.1
Học củng cố trong điều khiển tối ưu ................................................................28
3.1.1 Mô tả bài toán ........................................................................................28
3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman).....................................28
3.2
Phân tích và thiết kế giải thuật học củng cố OADP .........................................31
3.2.1 Cấu trúc điều khiển và luật cập nhật tham số online .............................31
3.2.2 Giải thuật OADP ...................................................................................34
3.2.3 Phân tích ổn định và hội tụ của giải thuật OADP .................................35
3.3
Mô phỏng, so sánh và đánh giá ........................................................................36
3.4
Tóm tắt..............................................................................................................41
CHƢƠNG 4 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH
NGHI BỀN VỮNG
42
4.1
Học củng cố trong điều khiển thích nghi bền vững .........................................43
4.1.1 Mô tả bài toán ........................................................................................43
4.1.2 Phương trình HJI (Hamilton-Jacobi-Isaacs) ..........................................44
4.1.3 Luật điều khiển học củng cố dựa vào nghiệm HJI ................................46
4.2
Giải thuật ORADP............................................................................................48
4.2.1 Cấu trúc điều khiển và luật cập nhật tham số ........................................48
4.2.2 Giải thuật ORADP .................................................................................52
4.3
Phân tích ổn định và hội tụ của giải thuật ORADP ..........................................54
4.4
Mô phỏng, so sánh và đánh giá ........................................................................55
4.5
Tóm tắt..............................................................................................................59
CHƢƠNG 5 ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG
61
5.1
Mô hình phi tuyến của WMR ...........................................................................63
5.2
Mô hình WMR thực nghiệm ............................................................................67
5.3
Giải thuật ORADP áp dụng cho WMR ............................................................72
5.4
Mô phỏng..........................................................................................................74
5.4.1 Quỹ đạo tham chiếu ...............................................................................75
5.4.2 Thiết lập tham số học ............................................................................76
viii
5.4.3 Kết quả mô phỏng .................................................................................76
5.5
Thực nghiệm .....................................................................................................80
5.6
Tóm tắt..............................................................................................................86
CHƢƠNG 6 GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN
VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO
88
6.1
Lý thuyết đồ thị và mô hình hợp tác nhiều hệ phi tuyến MIMO .....................89
6.1.1 Đồ thị truyền thông phân tán .................................................................89
6.1.2 Động học nút .........................................................................................90
6.1.3 Mô hình hợp tác nhiều hệ phi tuyến ......................................................91
6.2
Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP ...........................95
6.2.1 Học củng cố trong điều khiển hợp tác ...................................................95
6.2.2 Cấu trúc điều khiển và luật cập nhật trong ORADP mở rộng ...............95
6.2.3 Giải thuật ORADP mở rộng ................................................................100
6.2.4 Phân tích ổn định và hội tụ của giải thuật ORADP mở rộng ..............101
6.3
Điều khiển hệ thống robot bầy đàn bằng giải thuật ORADP mở rộng ..........101
6.3.1 Mô hình hệ thống robot bầy đàn .........................................................102
6.3.2 Áp dụng giải thuật và kết quả mô phỏng.............................................105
6.4
Tóm tắt............................................................................................................109
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
111
CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ
114
TÀI LIỆU THAM KHẢO
114
PHỤ LỤC A CÁC LOẠI XẤP XỈ HÀM DÙNG TRONG RL
126
PHỤ LỤC B CHỨNG MINH ĐỊNH LÝ 3.1
134
PHỤ LỤC C CHỨNG MINH ĐỊNH LÝ 3.2
136
PHỤ LỤC D CHỨNG MINH CÁC ĐỊNH LÝ VÀ BỔ ĐỀ
140
PHỤ LỤC E CHỨNG MINH ĐỊNH LÝ 4.3
145
PHỤ LỤC F CHỨNG MINH ĐỊNH LÝ 4.4
146
PHỤ LỤC G MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH VỊ TRÍ ROBOT
151
PHỤ LỤC K CHỨNG MINH ĐỊNH LÝ 6.2
154
ix
DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Minh họa về học củng cố .................................................................................2
Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu.......................4
Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu 𝐻∞ ................4
Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu.........................16
Hình 3.1 Cấu trúc điều khiển OADP sử dụng một NN ................................................34
Hình 3.2 Trạng thái hệ thống trong quá trình học online sử dụng OADP và AC2NN 38
Hình 3.3 Sự hội tụ của trọng số NN sử dụng OADP và AC2NN.................................38
Hình 3.5 OADP và AC2NN: Hàm đánh giá tối ưu xấp xỉ ...........................................39
Hình 3.4 OADP và AC2NN: (a) Sai số giữa hàm đánh giá tối ưu xấp xỉ và tối ưu lý
thuyết; (b) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết .......................39
Hình 3.6 Hội tụ trọng số NN của giải thuật OADP với giá trị khởi tạo bằng không ...40
Hình 3.7 Trọng số NN của giải thuật AC2NN không hội tụ về giá trị tối ưu khi giá trị
khởi tạo của trọng số bằng không ..................................................................................40
Hình 4.2 Cấu trúc điều khiển ORADP sử dụng một NN..............................................52
Hình 4.3 Sự hội tụ của trọng số NN hàm đánh giá tối ưu ORADP so với AC3NN.....56
Hình 4.4 ORADP và AC3NN: a) Hàm đánh giá tối ưu xấp xỉ; b)Sai số hàm đánh giá
tối ưu xấp xỉ và tối ưu lý thuyết.....................................................................................57
Hình 4.5 ORADP và AC3NN: a) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý
thuyết; b) Sai số giữa luật nhiễu tối ưu xấp xỉ và tối ưu lý thuyết ................................57
Hình 4.6 Sự mất ổn định và không hội tụ của trọng số NN của giải thuật AC3NN với
giá trị khởi tạo bằng không ............................................................................................58
Hình 4.7 Sự ổn định và hội tụ của trọng số NN của giải thuật ORADP với giá trị khởi
tạo bằng không...............................................................................................................59
Hình 5.1 Mô hình robot di động dạng xe (WMR).........................................................63
Hình 5.2 Mô hình robot thực nghiệm: a) Mặt sau; b) Mặt trước ..................................68
Hình 5.3 Mô hình hệ thống thị giác đa chiều trên robot ...............................................69
Hình 5.4 Ảnh không gian thực qua hệ thống thị giác đa chiều ....................................70
Hình 5.5 Xác định tâm robot so với hệ trục cố định Oxy ..........................................70
Hình 5.6 Sơ đồ điều khiển sử dụng ORADP cho WMR ...............................................73
Hình 5.7 Lịch trình thay đổi khối lượng robot trong quá trình điều khiển ...................75
Hình 5.8 Lịch trình thay đổi mô men quán tính robot trong quá trình điều khiển .......76
Hình 5.9 Sự hội tụ của trọng số NN trong quá trình học điều khiển ............................77
Hình 5.11 Sai số bám vị trí: a) Toàn bộ quá trình; b) Sau khi hội tụ ...........................79
Hình 5.12 Quỹ đạo 𝑥, 𝑦 trong quá trình học điều khiển: a) 𝑥; b) 𝑦..............................79
x
Hình 5.14 Sai số bám vận tốc: a) Vận tốc quay; b)Vận tốc dài ....................................80
Hình 5.15 Quỹ đạo vận tốc quay: a) Toàn bộ quá trình; b) Sau khi hội tụ...................81
Hình 5.16 Quỹ đạo vận tốc dài: a) Toàn bộ quá trình; b) Sau khi hội tụ ....................81
Hình 5.17 Mô men điều khiển tối ưu: a) Toàn bộ quá trình; b) Sau khi hội tụ ............81
Hình 5.18 Quỹ đạo x-y thực nghiệm: a) Toàn bộ quá trình; b) Sau khi hội tụ .............82
Hình 5.23 a) Không gian hoạt động; b) Quỹ đạo 𝑥 − 𝑦 của robot so với tham chiếu..85
Hình 5.24 a) Sai số bám vị trí 𝑥, 𝑦, 𝜃 ; b) Sai số bám vận tốc dài ................................85
Hình 5.25 a) Sai số bám vận tốc góc; b) Mô men điều khiển.......................................85
Hình 6.1 Đồ thị truyền thông của 4 đối tượng phi tuyến ..............................................89
Hình 6.2 Cấu trúc ORADP mở rộng điều khiển hợp tác nhiều hệ phi tuyến .............100
Hình 6.3 Sơ đồ điều khiển nhiều robot hợp tác sử dụng ORADP mở rộng ...............105
Hình 6.4 Quá trình hội tụ trọng số NN: a) Robot 1; b) Robot 2; c) Robot 3 ..............107
Hình 6.5 Chất lượng bám vị trí của đội hình: a) Sai số bám; Quỹ đạo bám x-y ........107
Hình 6.7 Đồng bộ hóa vị trí y qua các giai đoạn: a) Ban đầu; b) Hội tụ ....................108
Hình 6.8 Đồng bộ hóa hướng qua các giai đoạn: a) Ban đầu; b) Hội tụ .................108
Hình 6.9 Sai số bám vận tốc giữa các robot: a) Vận tốc dài; b) Vận tốc quay ...........109
Hình 6.10 Đồng bộ hóa vận tốc dài qua các giai đoạn: a) Ban đầu; b) Hội tụ ...........109
Hình 6.11 Đồng bộ hóa vận tốc quay qua các giai đoạn: a) Ban đầu; b) Hội tụ ........110
Hình 6.12 Mô men điều khiển đội hình robot sau khi hội tụ: a) Sau 100s; b) Hội tụ 110
Hình A.1 Mạng MLP hai lớp ẩn: (a) Cấu trúc; (b) Các thành phần trong một nút ...126
Hình A.2 Cấu trúc mạng MLP một lớp ẩn, một đơn vị ngõ ra. ..................................127
Hình A.3 Cấu trúc mạng RBF ....................................................................................129
Hình A.4 Cấu trúc mạng RARBF ...............................................................................130
Hình A.5 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của
hai mạng MLP có số đơn vị ẩn khác nhau. .................................................................133
Hình A.6 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của
nhóm mạng CMAC. ....................................................................................................133
Hình A.7 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của
nhóm mạng RBF. .........................................................................................................133
Hình G.1 Tập mẫu ngõ vào đo trong không gian ảnh ................................................151
Hình G.2 Tập mẫu ngõ ra mong muốn đo trong không gian thực ..............................151
Hình G.3 Kết quả huấn luyện RBF so với mẫu mong muốn.....................................152
Hình G.4 Ngõ ra của RBF so với mong muốn biểu diễn theo X (cm)-Y (pixel) .......152
xi
DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU
Giải thuật 2.1 VI ...........................................................................................................16
Giải thuật 2.2 PI ............................................................................................................17
Giải thuật 2.3 Q-Learning.............................................................................................18
Giải thuật 2.4 ADP sử dụng hai NN cập nhật tuần tự ..................................................23
Giải thuật 2.5 ADP sử dụng hai NN cập nhật đồng bộ ................................................23
Giải thuật 2.6 ADP sử dụng ba NN cập nhật tuần tự ...................................................24
Giải thuật 2.7 ADP sử dụng ba NN cập nhật đồng bộ .................................................25
Giải thuật 3.1 OADP ....................................................................................................34
Giải thuật 4.1 ORADP ..................................................................................................53
Giải thuật 5.1 ORADP áp dụng cho WMR ..................................................................74
Giải thuật 6.1 ORADP mở rộng .................................................................................100
Bảng 3.1 So sánh chỉ tiêu chất lượng giữa OADP và AC2NN.....................................38
Bảng 3.2 Chỉ tiêu chất lượng khi trọng số của các NN được khởi tạo bằng không .....40
Bảng 4.1 So sánh chỉ tiêu chất lượng giữa ORADP và AC3NN ..................................57
xii
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết
tắt
(A)NN
ANRBF
Thuật ngữ tiếng anh
(Artificial) Neural Network
Giải thích
Mạng thần kinh (nhân tạo), được viết tắt là
NN trong luận án
Adaptive Normalized Radial NN có hàm cơ sở xuyên tâm được chuẩn
Basis Function
hóa thích nghi
Cấu trúc điều khiển Actor-Critic trong học
AC
Actor-Critic
củng cố gồm hai NN: Mạng critic xấp xỉ
hàm đánh giá tối ưu, mạng actor xấp xỉ luật
điều khiển tối ưu
ADP
Adaptive Dynamic
Programming
Qui hoạch động thích nghi, một phương
pháp học củng cố để xấp xỉ luật điều khiển
tối ưu online
ADP2NN ADP with two NNs
Cấu trúc điều khiển ADP với hai NN
ADP3NN ADP with three NNs
Cấu trúc điều khiển ADP với ba NN
NN actor đóng vai trò bộ điều khiển trong
ANN
Actor Neural Network
ARE
Algebraic Riccati Equation
Phương trình đại số Riccati
Cerebellar Model
NN dựa theo mô hình tiểu não
CMAC
cấu trúc AC
Articulation Controller
NN critic đóng vai trò xấp xỉ hàm đánh giá
CNN
Critic Neural Network
COD
Curse of Dimensionality
Sự bùng nổ tổ hợp không gian trạng thái
DP
Dynamic Programming
Qui hoạch động
HJB
Hamilton-Jacobi-Bellman
HJI
Hamilton-Jacobi-Isaacs
IDP
Incremental Dynamic
Programming
LS
Least Square
LQR
Linear Quadratic Regulation
MIMO
Multi Input-Multi Output
trong cấu trúc AC
Qui hoạch động tăng cường: phương pháp
xấp xỉ nghiệm ARE online cho hệ tuyến
tính không biết trước các ma trận trạng thái
Phương pháp bình phương tối thiểu
Điều khiển tối ưu tuyến tính dạng toàn
phương
Hệ thống nhiều đầu vào nhiều đầu ra
xiii
ML
Machine Learning
Học máy
MLP
Multi-Layer Perceptron
NN truyền thẳng nhiều lớp
Normalized Radial Basis
NN có hàm cơ sở xuyên tâm được chuẩn
Function
hóa
NRBF
OADP
Online Adaptive Dynamic
Programming
Qui hoạch động thích nghi online: một giải
thuật học củng cố được đề xuất trong luận
án để tìm luật điều khiển tối ưu online
Qui hoạch động thích nghi bền vững
ORADP
Online Robust Adaptive
online: một giải thuật học củng cố được đề
Dynamic Programming
xuất trong luận án để tìm luật điều khiển tối
ưu thích nghi bền vững online
Kích thích hệ thống bằng cách thêm nhiễu
PE
Persistence of Excitation
vào véc tơ tín hiệu vào/ra. PE là điều kiện
để tham số hội tụ trong nhận dạng và điều
khiển thích nghi.
Giải thuật học củng cố sử dụng một số
PI
Policy Iteration
RL
Reinforcement Learning
Học củng cố
RBF
Radial Basis Function
NN có hàm cơ sở xuyên tâm
Resource Allocating Radial
NN có hàm cơ sở xuyên tâm được cấp phát
Basis Function
động
Single Input-Single Output
Hệ thống một ngõ vào một ngõ ra
RARBF
SISO
bước lặp để xấp xỉ luật điều khiển tối ưu
Sai phân tạm thời: giải thuật cập nhật tham
TD
Temporal Difference
số của bộ dự báo liên quan đến sai phân tín
hiệu theo thời gian sử dụng trong học củng
cố
UUB
Uniform Ultimate Boun-ded Bị chặn tới hạn đều
VI
Value Iteration
WMR
Wheeled Mobile Robot
ZDGT
Zero-sum Differential Game
Theory
Giải thuật học củng cố sử dụng một số
bước lặp để xấp xỉ hàm đánh giá tối ưu
Robot di động dạng xe
Lý thuyết trò chơi sai phân tổng bằng
không ứng dụng trong lý thuyết điều khiển
tối ưu 𝐻∞
xiv
DANH MỤC CÁC KÝ HIỆU
ℝ
Tập các số thực
ℝ𝑛
Không gian các tọa độ thực (không gian Euclide) 𝑛 chiều
ℝ𝑛×𝑚
Tập các ma trận có kích thước 𝑛 × 𝑚 chứa các phần tử số thực
Ω𝑥
Tập đóng (Ω𝑥 ⊆ ℝ ) bao quanh gốc: nếu 𝑥 ∈ Ω𝑥 thì 𝑥 là lân cận quanh
điểm cân bằng 𝑥0 .
𝑛
Chuẩn của véc tơ 𝑥
𝑥
𝑥
∞
𝐴
𝐴
Chuẩn vô cùng của véc tơ 𝑥
Chuẩn của ma trận 𝐴
∞
Chuẩn vô cùng của ma trận 𝐴
𝜕𝑉(𝑥)
𝜕𝑥
𝑉𝑥 𝑥
Gradient của hàm 𝑉(𝑥) theo 𝑥: 𝑉𝑥 𝑥 =
⊗
Tích Kronecker, X Y X T Y T , X Y X Y X Y ,
T
trong đó X và Y là các ma trận còn 𝛽 là đại lượng vô hướng
𝐼𝑛
Ma trận đơn vị có chiều 𝑛 × 𝑛
𝟏
𝟏 = 1, … ,1
𝑇
∈ ℝ𝑛
Diag(αi ) Ma trận đường chéo chứa các phần tử αi
𝐿2 0,∞
Không gian Banach, nếu ∀𝑑 ∈ 𝐿2 0,∞ thì
∞
0
𝑑
2
𝑑𝑡 < ∞
sub 𝑥(𝑡) Cận trên nhỏ nhất (cận trên đúng) của 𝑥(𝑡)
inf 𝑥(𝑡) Cận dưới lớn nhất (cận dưới đúng) của 𝑥(𝑡)
𝑊
Ma trận trọng số của NN
𝑤𝑖
Trọng số NN giữa đơn vị ẩn thứ 𝑖 và đơn vị ra (một ngõ ra)
𝑤𝑖𝑗
Trọng số NN kết nối giữa ngõ ra của đơn vị 𝑖 và ngõ vào đơn vị 𝑗
𝑛𝑖 , 𝑛
Lần lượt là số lượng nút ở lớp vào, số lượng nút ở lớp ẩn của NN
𝜙(𝑥)
Véc tơ hàm tác động của NN
𝑉 𝑥
Hàm đánh giá
𝑉 ∗ (𝑥)
Hàm đánh giá tối ưu
𝑢, 𝑢∗
Véc tơ tín hiệu ngõ vào điều khiển và ngõ vào điều khiển tối ưu
𝑑
Véc tơ nhiễu của hệ thống
𝑥
Véc tơ tín hiệu trạng thái của hệ thống
𝑥0
Véc tơ trạng thái của hệ thống tại thời điểm 𝑡 = 0
xv
𝑦
Véc tơ ngõ ra của hệ thống
𝐽
Hàm chỉ tiêu chất lượng của hệ thống
𝜆𝑚𝑖𝑛 𝐴
Trị riêng nhỏ nhất của ma trận 𝐴 (𝐴 ∈ ℝ
𝜆𝑚𝑎𝑥 𝐴
Trị riêng lớn nhất ma trận 𝐴 (𝐴 ∈ ℝ
𝑄 𝑥
Hàm xác định dương, sao cho ∀𝑥 ≠ 0, 𝑄 𝑥 > 0 và 𝑄 𝑥 = 0 ⟺ 𝑥 = 0
𝑄
Ma trận trọng số xác định dương
𝑅
Ma trận trọng số đối xứng, xác định dương
𝑏1 , 𝑟1 , 𝑙
Bề rộng, bán kính bánh xe và khoảng cách từ tâm đến trục bánh sau của
robot di động
𝜏, 𝜏𝑚
Véc tơ mô men điều khiển và mô men nhiễu của robot di động
𝑛×𝑛
𝑛×𝑛
xvi
)
)
CHƢƠNG 1
GIỚI THIỆU
1.1 Tổng quan về đề tài
1.1.1
Khái niệm về học củng cố
Học củng cố (Reinforcement Learning (RL)) thuộc lớp phương pháp học máy
(Machine Learning) [63], [96] dùng để giải bài toán tối ưu bằng cách liên tục điều
chỉnh hành động của tác tử (Agent). Lý thuyết RL hình thành dựa trên sự quan sát và
nghiên cứu thuộc tính và hành vi của động vật khi tương tác với môi trường để thích
nghi và tồn tại. Các giải thuật điều khiển dựa vào RL mô phỏng bản năng của động
vật. Đó là biết học hỏi từ sai lầm, biết tự dạy chính mình, biết sử dụng thông tin trực
tiếp từ môi trường cũng như thông tin đã đánh giá trong quá khứ để củng cố, điều
chỉnh hành vi nhằm liên tục cải thiện chất lượng tương tác, tối ưu hóa mục tiêu nào đó
theo thời gian (Hình 1.1).
Phương pháp RL, đặc biệt hữu ích nếu môi trường thiếu thông tin để ra quyết
định chọn hành động. Trong trường hợp đó, RL sử dụng phương pháp thử và sai có
đánh giá. Thông tin hồi tiếp từ môi trường tương ứng với hành động thử sai được đánh
giá và lưu trữ. Sau đó, dựa vào thông tin lưu trữ, chiến lược chọn hành động tốt hơn
được thực hiện để cải thiện chất lượng tương tác với môi trường [18], [56], [68], [71],
[96], [100], [112].
Trong điều khiển tối ưu, RL học thích nghi trực tuyến nghiệm HJB dựa vào
thông tin vào ra của đối tượng với mục tiêu tối thiểu hàm chi phí cho trước. RL được
chứng minh là phương pháp điều khiển tối ưu thích nghi trực tiếp [43], [44]-[46], [63]
[72]-[73], [84], [92], [96]-[98], [100]-[103], [108]-[113].
Lý thuyết RL kế thừa từ lý thuyết tối ưu của qui hoạch động (Dynamic
Programming (DP)) [16] và phát triển thành lý thuyết qui hoạch động thích nghi
(Adaptive Dynamic Programming (ADP)) hoặc qui hoạch động xấp xỉ (Approximate
Dynamic Programming (ADP)) [35], [38], [39], [43], [53], [60], [61], [72], [73], [84],
[92], [98], [109], [113], [114], [120], [128]-[130]. ADP đã khắc phục được các hạn chế
của DP như off-line, không điều khiển thời gian thực, cần mô hình toán chính xác.
Ngoài ra, khi ADP sử dụng xấp xỉ hàm sẽ khắc phục được các điểm yếu quan trọng của
1
Môi trường
Hành động
Thông tin
Tác tử (Agent)
Bộ nhớ
Hình 1.1 Minh họa về học củng cố
DP như giảm chi phí tính toán và tài nguyên lưu trữ, khắc phục được hiện tượng bùng
nổ tổ hợp (Curse of Dimensionality (COD)) khi rời rạc hóa không gian trạng thái [88],
đặc biệt nếu đối tượng điều khiển là hệ MIMO (Multi Input-Multi Output).
Theo thời gian, các giải thuật RL đã liên tục phát triển. Trong [119], dựa vào lý
thuyết RL, Werbos đã phát triển giải thuật lặp PI (Policy Iteration). Từ đó đến nay rất
nhiều giải thuật PI thời gian thực được nghiên cứu và mở rộng [17]-[19], [43], [56],
[71], [73], [98], [100], [113]-[114], [120], [129]. Gần đây, các giải thuật lặp PI kết hợp
xấp xỉ hàm ADP được nghiên cứu để điều khiển thích nghi tối ưu online cho hệ phi
tuyến chứa động học nội (internal dynamics) không biết trước, bỏ qua thủ tục nhận
dạng hệ thống [56], [100], [106], [108], [112], [114], [122]-[123], [129].
1.1.2 Lịch sử phát triển của RL trong điều khiển
RL được nghiên cứu, phát triển và ứng dụng mạnh trong lĩnh vực học máy từ
những thập niên 1980 [96]. Tuy nhiên, đối với lĩnh vực điều khiển, RL chỉ mới thực sự
bắt đầu phát triển từ những năm đầu của thế kỷ 21. Lịch sử phát triển của RL trong
lĩnh vực điều khiển tạm chia thành ba giai đoạn. Trong giai đoạn đầu tiên (trước năm
2005), lý thuyết RL từ lĩnh vực trí tuệ nhân tạo được phát triển mở rộng sang lĩnh vực
điều khiển. Trước tiên, RL với mô hình Markov được định nghĩa bằng cách rời rạc hóa
không gian trạng thái [96]. Sau đó, hai giải thuật lặp cơ bản: PI [51], [119] và VI
(Value Iteration) [96] được sử dụng để xấp xỉ luật điều khiển hoặc hàm đánh giá tối
ưu. Để áp dụng được hai giải thuật này, mô hình toán của hệ thống cần phải xác định
trước. Một giải thuật khác được đề xuất với luật cập nhật tham số không phụ thuộc vào
mô hình hệ thống, đó là giải thuật dự báo TD (Temporal Difference) [95]. Nếu tín hiệu
2
điều khiển được lượng tử hóa cùng với không gian trạng thái, giải thuật Q-Learning
[116] được đề nghị. Trong Q-Learning luật cập nhật tham số không phụ thuộc vào mô
hình hệ thống. Tuy nhiên, tất cả các giải thuật nêu trên chỉ áp dụng cho bài toán điều
khiển off-line.
Một trong những nghiên cứu RL thành công chuyển từ điều khiển off-line sang
online trong giai đoạn này là phương pháp qui hoạch động tăng cường (Incremental
Dynamic Programming (IDP)) [20], [42]. IDP được thiết kế để điều khiển tối ưu
thích nghi dựa trên giải thuật Q-learning, xấp xỉ online nghiệm cho bài toán LQR
(Linear Quaratic Regulation) rời rạc với các ma trận trạng thái không biết trước. Bên
cạnh đó, phải kể đến một loạt các nghiên cứu thành công khác, đó là sử dụng xấp xỉ
hàm vào cấu trúc ADP để giải quyết vấn đề bùng nổ tổ hợp trong không gian trạng thái
rời rạc cho hệ đa biến [88].
Các ứng dụng ADP với xấp xỉ hàm từ đó tiếp tục được phát triển mở rộng [27],
[96], [99], [123]. Tuy nhiên, hầu hết các nghiên cứu trong giai đoạn này không chứng
minh tính ổn định hệ thống trong quá trình học và điều khiển. Ngoài ra, luật cập nhật
online cho tham số xấp xỉ hàm chưa được thiết kế chặt chẽ. Một điểm quan trọng khác
đáng lưu ý trong giai đoạn này là RL chỉ được áp dụng cho hệ thống rời rạc. Lý do này
xuất phát từ thuộc tính rời rạc của qui hoạch động mà RL thừa kế (xem [73] cùng các
tài liệu tham khảo trong đó).
Ở giai đoạn thứ hai (từ những năm 2005-2010), các nhà nghiên cứu tập trung vào
việc sử dụng lý thuyết điều khiển hiện đại vào RL để thiết kế bộ điều khiển online cho
hệ thống phi tuyến [71]. Ngoài ra, do không thể áp dụng phương pháp RL rời rạc cho
hệ thống liên tục nên lý thuyết RL bắt đầu chuyển hướng. Giải thuật điều khiển tối ưu
thích nghi cho hệ thống tuyến tính liên tục với ma trận trạng thái không biết trước
được đề xuất trong [110] với kết quả là nghiệm tối ưu được xấp xỉ online đến nghiệm
giải tích ARE (nghiệm giải chỉ tích tồn tại khi biết trước ma trận trạng thái). Trong
nghiên cứu này, sự hội tụ và ổn định hệ kín được chứng minh chặt chẽ. Song song với
đó là một loạt các nghiên cứu khác về điều khiển tối ưu cho hệ thống phi tuyến rời rạc
và liên tục với thông tin về các thành phần động trong mô hình hoàn toàn biết trước
[19], [29], [31], [35], [43], [45], [73], [84]-[85], [92], [98], [101], [108], [113], [130].
3
Xấp xỉ hàm (Actor)
Hành động
(Tín hiệu điều khiển)
Môi trường
(Đối tượng)
Trạng
thái/Ngõ ra
Xấp xỉ hàm (Critic)
(Hàm chi phí)
Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu
Xấp xỉ hàm (Actor 1)
Hành động
(Tín hiệu điều khiển)
Chặn trên
của nhiễu
Môi trường
(Đối tượng)
Xấp xỉ hàm
(Actor 2)
Trạng thái
/Ngõ ra
Xấp xỉ hàm (Critic)
(Hàm chi phí)
Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu 𝐻∞
Đa số các nghiên cứu trong thời kỳ này sử dụng cấu trúc điều khiển ADP chuẩn
(xem (H. 1.2) và các định nghĩa trong [56]) với hai xấp xỉ hàm gọi là AC (ActorCritic), trong đó một xấp xỉ hàm (critic) dùng để đánh giá luật điều khiển và xấp xỉ
hàm chi phí tối ưu, xấp xỉ hàm còn lại (actor) dùng để xấp xỉ luật điều khiển tối ưu
[56], [57]. Luật cập nhật tham số của hai xấp xỉ hàm là online có sự ràng buộc lẫn
nhau. Thành công của các nghiên cứu trong giai đoạn này là sự ổn định của hệ kín bao
gồm các xấp xỉ hàm chứa tham số chỉnh định online được phân tích và chứng minh rất
chặt chẽ.
4
Giai đoạn thứ ba (từ năm 2010 cho đến nay), lịch sử phát triển về RL liên quan
đến bài toán điều khiển tối ưu thích nghi cho hệ phi tuyến chứa một vài thành phần
động học hệ thống không biết trước [17]-[19], [38], [58], [61], [63], [66], [71], [80][81], [85], [105]-[106], [120]-[121], [128]-[129]. Song song với các nghiên cứu vừa
nêu là các nghiên cứu về giải thuật RL cho bài toán điều khiển tối ưu 𝐻∞ với hệ tuyến
tính có ma trận trạng thái không biết trước [109], hoặc hệ phi tuyến với các thành phần
động học trong mô hình hoàn toàn xác định [31], [53], [56], [57], [102]-[103]. Đa số
các nghiên cứu này đều sử dụng cấu trúc ADP với ba xấp xỉ hàm [43], [67], [84],
[123]. Một xấp xỉ hàm (Actor 2 trong H. 1.3) được thêm vào cấu trúc ADP nhằm xấp
xỉ chặn trên của nhiễu (nhiễu xấu nhất).
Xuất phát từ lý thuyết của RL, nghiên cứu chuyên sâu hơn nữa để phát triển RL
về mặt lý thuyết cũng như thực tiễn là mục tiêu chính trong luận án này.
1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu
1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển
Thiết kế giải thuật điều khiển cho hệ phi tuyến có các thành phần không chắc
chắn, nhiễu sai số mô hình, nhiễu ngoài tác động sao cho hệ kín không chỉ ổn định bền
vững mà còn tăng cường chất lượng điều khiển là bài toán được rất nhiều nhà nghiên
cứu quan tâm. Các phương pháp để giải quyết bài toán này là điều khiển thích nghi
[62] trong đó phổ biến là nhận dạng gián tiếp hệ thống [77], sau đó thiết kế bộ điều
khiển. Phương pháp thứ hai là nhận dạng online các thành phần không chắc chắn trong
hệ thống sử dụng các bộ xấp xỉ hàm. Do xấp xỉ hàm bị giới hạn bởi một số hữu hạn
các tham số nên sai số xấp xỉ là không thể tránh khỏi. Sai số này cùng với nhiễu có thể
làm cho hệ kín mất ổn định. Vì vậy, kết hợp thêm thành phần điều khiển bền vững vào
luật điều khiển thích nghi để bù sai số xấp xỉ và nhiễu là cần thiết [24], [69]. Tuy
nhiên, các phương pháp điều khiển thích nghi hoặc thích nghi bền vững chưa giải
quyết triệt để bài toán tối ưu [125].
Thành phần điều khiển bền vững thêm vào sơ đồ điều khiển thích nghi thường có
tham số hằng, được thiết kế để hệ kín ổn định bền vững nên thường phải “hy sinh”
chất lượng điều khiển. Nếu chọn tham số hằng không phù hợp có thể xảy ra các hiện
tượng: hệ thống nhanh thích nghi nhưng chất lượng điều khiển không tốt hoặc ngược
5
lại. Hệ kín luôn bảo đảm ổn định bền vững nhưng có hiện tượng chattering (hiện tượng
biên độ giá trị ngõ vào điều khiển thay đổi giá trị với tần số cao) hoặc ngược lại. Nói
cách khác, phương pháp điều khiển thích nghi bền vững kinh điển chỉ mang đến sự
thỏa hiệp giữa chất lượng điều khiển và khả năng ổn định của hệ thống.
Cùng với sự phát triển của lý thuyết điều khiển thích nghi, bền vững, lý thuyết
điều khiển tối ưu hiện đại cho hệ phi tuyến là một trong những vấn đề được liên tục
nghiên cứu trong nhiều thập kỷ qua. Luật điều khiển tối ưu được thiết kế không chỉ ổn
định hệ thống mà còn tối thiểu hàm chi phí ràng buộc đến chỉ tiêu chất lượng mong
muốn. Về mặt toán học, bài toán điều khiển tối ưu được giải nếu nghiệm phương trình
Hamilton-Jacobi-Bellman (HJB) được giải. Đối với hệ tuyến tính, HJB trở thành
phương trình ARE (Algebraic Riccati Equation). Đối với hệ phi tuyến, HJB trở thành
phương trình vi phân phi tuyến. Với hệ tuyến tính thiếu thông tin về ma trận trạng thái,
nghiệm ARE không thể giải được bằng giải tích, với hệ phi tuyến, nghiệm giải tích
HJB là rất khó giải, nếu không muốn nói là không thể cho dù biết trước mô hình hệ
thống. Vì lý do đó, vấn đề xấp xỉ nghiệm HJB được đặt ra.
Lý thuyết điều khiển bền vững sử dụng chuẩn 𝐻∞ đóng vai trò rất quan trọng
trong phân tích và thiết kế hệ thống [131]. Bộ điều khiển tối ưu bền vững 𝐻∞ được
thiết kế bằng cách giải phương trình đại số Riccati mở rộng cho hệ tuyến tính [109] và
HJI (Hamilton-Jacobi-Isaacs) cho hệ tuyến tính [107]. Mặc dù lý thuyết điều khiển
hiện đại liên quan đến bài toán điều khiển 𝐻∞ cho hệ phi tuyến [15] nhưng trong nhiều
ứng dụng thực tế, vấn đề phức tạp ở chỗ làm thế nào để tìm nghiệm HJI, bởi vì đây là
phương trình vi phân phi tuyến không có nghiệm giải tích [100], [122].
Lý thuyết RL là một trong những công cụ mạnh dùng để nghiên cứu và phát triển
các giải thuật điều khiển tối ưu bằng cách xấp xỉ online nghiệm HJB và HJI nhằm
khắc phục các hạn chế nêu trên [10], [11], [17]-[19], [38], [53], [61]-[58], [63], [66],
[71], [81]-[80], [85], [105]-[106], [120]-[122], [128]-[129]. Tuy nhiên, trong hầu hết
các giải thuật RL, thành phần động học nội trong mô hình hệ phi tuyến đòi hỏi phải
xác định trước và nhiễu tác động bị bỏ qua [100], [106]. Vì vậy, kết hợp đặc tính thích
nghi bền vững vào giải thuật RL để giải bài toán điều khiển tối ưu cho hệ phi tuyến
chứa thành phần động không có thông tin xác định, bị tác động bởi nhiễu là cần thiết.
6
1.2.2 Tính cấp thiết của đề tài
Chỉ một số rất ít nghiên cứu về giải thuật RL, gần đây, đã kết hợp đặc tính tối ưu
𝐻∞ vào bài toán điều khiển thích nghi bền vững hệ phi tuyến chứa thành phần bất
định, chịu tác động bởi nhiễu [10], [53], [103], [112]. Các nghiên cứu này sử dụng giải
thuật lặp PI dựa vào cấu trúc ADP ba xấp xỉ hàm (H. 1.3). Tuy nhiên, với cấu trúc ba
xấp xỉ hàm, ADP còn tồn tại một số hạn chế: Tính toán phức tạp, lãng phí tài nguyên,
chậm hội tụ, cập nhật tham số giữa các xấp xỉ hàm là tuần tự qua nhiều bước lặp [100],
[103]-[106]. Ngoài ra, các giải thuật này cần được khởi động bởi các luật điều khiển
ổn định cho trước. Điều này làm giảm tính linh hoạt trong thiết kế, bởi vì trong một số
ứng dụng đặc biệt, xác định trước luật điều khiển khởi tạo ổn định là điều thách thức.
Tăng tốc độ hội tụ, tăng tính linh hoạt trong thiết kế bằng cách giảm độ phức tạp
tính toán, giảm tài nguyên hệ thống và thiết kế đơn giản luôn là động cơ thúc đẩy để
nghiên cứu các giải thuật điều khiển [122], [125]. Nếu mỗi xấp xỉ hàm là một mạng
thần kinh (Neural Network (NN)), thì với ba xấp xỉ hàm, số lớp ẩn và số đơn vị nút ở
lớp ẩn, số lượng hàm tác động sẽ tăng lên theo cấp số nhân, kéo theo số phần tử trong
ma trận trọng số sẽ tăng lên tương ứng. Với cấu trúc ADP sử dụng ba NN, đặc biệt khi
áp dụng cho hệ thống đa biến, hồi tiếp đủ trạng thái thì số lượng tham số sẽ tăng lên
đáng kể. Các trọng số NN phải được liên tục cập nhật trong suốt quá trình học, do đó
chi phí tính toán là vấn đề thách thức. Khi sử dụng giải thuật PI để xấp xỉ nghiệm
online, tốc độ hội tụ của giải thuật ngoài các yếu tố khác còn phụ thuộc rất nhiều vào
cấu trúc chọn trước. Nếu nhiều xấp xỉ hàm được sử dụng, quá trình tính toán sẽ rất
phức tạp, giải thuật chậm hội tụ là điều khó tránh khỏi.
Các giải thuật trong [10], [34], [103] ngoài việc đòi hỏi phải biết rõ các hàm
thành phần trong phương trình mô tả hệ phi tuyến, trọng số NN còn phải cập nhật
trong hai vòng lặp khác nhau, với lý do là phương trình HJI được xấp xỉ tuần tự bởi
một loạt các phương trình HJB. Thủ tục như vậy sẽ dẫn đến nghiệm của các phương
trình bị dư thừa gây lãng phí tài nguyên và cho hiệu quả thấp [122]. Ngoài ra, do các
xấp xỉ hàm phụ thuộc lẫn nhau, nếu khởi tạo trọng số NN không phù hợp sẽ dẫn đến
hệ kín mất ổn định ngay từ những thời điểm học đầu tiên [100]. Hay nói cách khác,
tìm luật điều khởi tạo ổn định cho giải thuật là điều bắt buộc.
Để khắc phục nhược điểm nêu trên, một số nghiên cứu về RL đề xuất giảm số
7
lượng xấp xỉ hàm trong cấu trúc điều khiển. [31], [125] đã đề xuất giải thuật SOLA
(Single Online Approximator), trong đó chỉ duy nhất một NN được sử dụng để khắc
phục hiện tượng nhiều xấp xỉ hàm. Ngoài ra, với SOLA, luật điều khiển ổn định để
khởi động cho giải thuật là không cần thiết. Tuy nhiên, giải thuật này yêu cầu phải xác
định trước thành phần động học nội trong mô hình hệ thống. Để kết hợp yếu tố thích
nghi trong bài toán điều khiển tối ưu 𝐻∞ liên quan đến nghiệm HJI đồng thời khắc
phục luôn hiện tượng dư thừa nghiệm, [122] đã đề xuất giải thuật xấp xỉ online nghiệm
HJI sử dụng duy nhất một NN. Giải thuật này không cần biết trước và không cần sử
dụng thông tin về động học nội trong hệ thống. Quá trình cập nhật tham số luật điều
khiển và luật nhiễu trong giải thuật này đồng bộ trong cùng một bước lặp, ưu điểm hơn
[103]. Tuy nhiên, giải thuật này vẫn còn gặp trở ngại, đó là phải ngưng cập nhật các
tham số của hệ thống trong một khoảng thời gian đủ lớn để lấy tập mẫu huấn luyện
cho lần cập nhật trọng số tiếp theo. Ngoài ra, giải thuật này vẫn còn đòi hỏi bộ điều
khiển khởi tạo ổn định.
1.2.3 Mục tiêu nghiên cứu
Trên cơ sở ưu và nhược điểm của giải thuật học củng cố vừa giới thiệu, mục tiêu
nghiên cứu chính trong luận án này là phân tích và thiết kế giải thuật học củng cố mới
trong điều khiển thích nghi bền vững cho hệ phi tuyến. Giải thuật đáp ứng các yêu cầu:
1. Điều khiển online, tránh thủ tục nhận dạng hệ thống (gián tiếp hoặc trực tiếp).
2. Bảo đảm được hệ kín ổn định bền vững.
3. Tối thiểu được hàm chỉ tiêu chất lượng và chỉnh định được các tham số luật
điều khiển về giá trị cận tối ưu.
4. Giảm được chi phí tính toán và tài nguyên nhằm tăng nhanh tốc độ hội tụ.
5. Loại bỏ được yêu cầu về chọn trước luật điều khiển ổn định để khởi động giải
thuật.
6. Giải thuật càng đơn giản càng tốt
Các mục tiêu trên nhằm cải thiện hơn nữa chất lượng điều khiển, tăng tốc độ hội
tụ, tăng tính linh hoạt trong thiết kế so với các giải thuật học củng cố trước đây.
1.2.4 Nhiệm vụ nghiên cứu
Để đạt được mục tiêu nghiên cứu, trong khuôn khổ luận án, một số nhiệm vụ cấp
8
thiết được đặt ra như sau:
a) Nghiên cứu giải thuật học củng cố điều khiển tối ưu cho hệ phi tuyến dựa
trên cấu trúc qui hoạch động thích nghi sử dụng hai xấp xỉ hàm (H. 1.2) [56], [100],
[101]. Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm, khắc phục được sự dư
thừa của xấp xỉ hàm so với qui hoặc động thích nghi kinh điển. Thiết kế được luật cập
nhật tham số online cho xấp xỉ hàm. Loại bỏ được yêu cầu phải chọn trước luật điều
khiển ổn định để khởi động giải thuật. Xây dựng được giải thuật điều khiển và chứng
minh được sự hội tụ và ổn định cho toàn hệ thống.
b) Nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ phi
tuyến trên nền tảng cấu trúc qui hoạch động thích nghi bền vững sử dụng ba xấp xỉ
hàm (H. 1.3) [56], [100], [103]. Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm,
khắc phục được sự dư thừa của hai xấp xỉ hàm còn lại. Thiết kế được luật cập nhật
tham số online cho xấp xỉ hàm không sử dụng thông tin về động học nội tránh thủ tục
nhận dạng hệ thống. Loại bỏ được yêu cầu phải chọn trước luật điều khiển ổn định để
khởi động giải thuật. Xây dựng được giải thuật điều khiển và chứng minh được sự hội
tụ và ổn định cho toàn hệ thống.
c) Kiểm tra được tính hiệu quả của giải thuật đề xuất qua các nội dung: (𝑖) Mô
phỏng, so sánh và đánh giá với các giải thuật học củng cố khác trên cùng hệ phi tuyến.
(𝑖𝑖) Mô phỏng và thực nghiệm trên đối tượng robot di động dạng xe.
d) Mở rộng giải thuật học củng cố điều khiển thích nghi bền vững cho bài toán
điều khiển hợp tác nhiều hệ phi tuyến MIMO, áp dụng trong mô phỏng đồng bộ hóa
đội hình robot bầy đàn.
1.3 Đối tƣợng, phạm vi và phƣơng pháp nghiên cứu
1.3.1 Đối tượng và phạm vi nghiên cứu
Đối tượng điều khiển được xét trong luận án có ba loại. Đối tượng thứ nhất cần
nghiên cứu là lớp hệ thống phi tuyến có dạng [101]:
𝑥 =𝑓 𝑥 +𝑔 𝑥 𝑢
(1.1)
trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển và 𝑓 𝑥 ∈
ℝ𝑛 , 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 là các hàm phi tuyến khả vi liên tục giả sử biết trước. Ngoài ra,
𝑓 0 = 0 và 𝑓 𝑥 , 𝑔 𝑥 giả sử bị chặn [124]-[125]. Giả sử này chỉ sử dụng để chứng
minh tính ổn định của hệ thống, không sử dụng trong luật điều khiển cũng như luật cập
9
nhật tham số.
Giải thuật điều khiển cho đối tượng (1.1) mà luận án nghiên cứu là giải thuật học
củng cố điều khiển tối ưu được phát triển trên nền tảng cơ sở lý thuyết qui hoạch động
thích nghi sử dụng xấp xỉ hàm.
Đối tượng thứ hai cần nghiên cứu tiếp theo là lớp hệ phi tuyến có dạng [122]:
𝑥 =𝑓 𝑥 +𝑔 𝑥 𝑢+𝑘 𝑥 𝑑
𝑦 = (𝑥)
(1.2)
trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển với 𝑢 ∈
𝐿2 0, ∞ , 𝑑 ∈ ℝ𝑞 là nhiễu thỏa điều kiện 𝑑 ∈ 𝐿2 0, ∞ , 𝑓 𝑥 ∈ ℝ𝑛 là véc tơ hàm phi
tuyến liên tục đặc trưng cho thành phần động học nội hệ thống không biết trước [122],
𝑦 ∈ ℝ𝑝 là ngõ ra mục tiêu, (𝑥) ∈ ℝ𝑝 , 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 và 𝑘 𝑥 ∈ ℝ𝑛 ×𝑞 lần lượt là véc
tơ hàm và các ma trận hàm phi tuyến liên tục xác định trước, giả sử bị chặn [31]. Giả
sử này chỉ sử dụng để chứng minh tính ổn định của hệ thống, không sử dụng trong luật
điều khiển cũng như luật cập nhật tham số.
Giải thuật điều khiển cho đối tượng (1.2) mà luận án nghiên cứu là giải thuật học
củng cố trong điều khiển thích nghi bền vững được phát triển trên nền tảng cơ sở lý
thuyết qui hoạch động thích nghi bền vững sử dụng xấp xỉ hàm.
Đối tượng thực nghiệm nhằm kiểm chứng tính hiệu quả của phương pháp học
củng cố thích nghi bền vững là lớp hệ phi tuyến thuộc (1.2). Đó là robot di động dạng
xe, một đối tượng phi tuyến chứa thành phần động không thể cấu trúc hóa hoặc mô
hình hóa, chịu tác động bởi nhiễu mô men ngõ vào có năng lượng hữu hạn.
Đối tượng cuối cùng cần nghiên cứu để mở rộng giải thuật học củng cố trong
điều khiển thích nghi bền vững là 𝑁 hệ phi tuyến MIMO hợp tác. Mỗi hệ 𝑖, 1 ≤ 𝑖 ≤ 𝑁
có 𝑚 (𝑚 ≥ 2) phương trình phi tuyến:
𝑥𝑖 = 𝑓𝑖 𝑥𝑖 + 𝑔𝑖 𝑥𝑖 𝑥𝑖
𝑥𝑖𝑚 = 𝑓𝑖𝑚 𝑥𝑖𝑚 + 𝑔𝑖𝑚 𝑥𝑖𝑚
+ 𝑘𝑖 𝑥𝑖 𝑑𝑖 +1 , 1 ≤ ≤ 𝑚 − 1
⋮
𝑢𝑖𝑚 + 𝑘𝑖𝑚 𝑥𝑖𝑚 𝑑𝑖𝑚
+1
(1.3)
𝑇
𝑇
𝑇 𝑇
trong đó với mọi 1 ≤ ≤ 𝑚, 𝑥𝑖 = [𝑥𝑖1
, 𝑥𝑖2
, … , 𝑥𝑖
] ∈ ℝ𝑛 1 +⋯+𝑛 với 𝑥𝑖 ∈ ℝ𝑛 là
véc tơ trạng thái, 𝑢𝑖𝑚 ∈ ℝ𝑛 𝑚 là véc tơ ngõ vào điều khiển, và 𝑑𝑖 ∈ ℝ𝑛 là véc tơ
nhiễu sao cho 𝑑𝑖 ∈ 𝐿2 [0, ∞), 𝑓𝑖 (𝑥𝑖 ) ∈ ℝ𝑛 , 𝑘𝑖 (𝑥𝑖 ) ∈ ℝ𝑛 ×𝑛 và 𝑔𝑖 (𝑥𝑖 ) ∈
10
- Xem thêm -