Đăng ký Đăng nhập
Trang chủ Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững hệ phi tu...

Tài liệu Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững hệ phi tuyến

.PDF
168
39
126

Mô tả:

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững hệ phi tuyến
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/316700722 [Free download] Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững hệ phi tuyến (Research on... Thesis · June 2015 DOI: 10.13140/RG.2.2.33156.12168 CITATIONS READS 0 316 1 author: Luy Tan Nguyen Industrial University of Ho Chi Minh 19 PUBLICATIONS 17 CITATIONS SEE PROFILE Some of the authors of this publication are also working on these related projects: IOT SYSTEM FOR MONITORING NAVIGATIONAL CLEARANCES OF BRIDGES View project Distributed optimal integrated tracking control for separate kinematic and dynamic uncertain nonholonomic mobile mechanical multiagent systems View project All content following this page was uploaded by Luy Tan Nguyen on 06 May 2017. The user has requested enhancement of the downloaded file. ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN TẤN LŨY NGUYỄN TẤN LŨY NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN LUẬN ÁN TIẾN SĨ KỸ THUẬT TP. HỒ CHÍ MINH NĂM 2015 ĐẠI HỌC QUỐC GIA TP. HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN NGUYỄN TẤN LŨY TẤN LŨY NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN Chuyên ngành: Tự động hóa Mã số chuyên ngành: 62.52.60.01 Phản biện độc lập 1: GS.TS Phan Xuân Minh Phản biện độc lập 2: PGS.TS Nguyễn Chí Ngôn Phản biện 1: GS.TSKH Hồ Đắc Lộc Phản biện 2: PGS.TS Nguyễn Ngọc Lâm Phản biện 3: PGS.TS Lê Minh Phương HƯỚNG DẪN KHOA HỌC 1. TS. NGUYỄN THIỆN THÀNH NGƯỜI HƯỚNG DẪN KHOA HỌC 1. TS. NGUYỄN THIỆN THÀNH 2. TS. HOÀNG MINH TRÍ 2. TS. HOÀNG MINH TRÍ LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi. Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. Tác giả luận án Nguyễn Tấn Lũy yễn Tấn Lũy i TÓM TẮT LUẬN ÁN Bài toán điều khiển tối ưu cho hệ phi tuyến bị ràng buộc trực tiếp bởi nghiệm của phương trình Hamilton-Jacobi-Bellman (HJB) và bài toán điều khiển tối ưu bền vững bị ràng buộc trực tiếp bởi nghiệm của phương trình Hamilton-Jacobi-Isaacs (HJI). Đây là các phương trình vi phân phi tuyến không có nghiệm giải tích. Từ đó, bài toán xấp xỉ nghiệm HJB và HJI off-line hoặc online được đặt ra. Học củng cố (Reinforcement Learning (RL)) bắt nguồn từ qui hoạch động (Dynamic Programming (DP)), phát triển thành qui hoạch động thích nghi (Adaptive Dynamic Programming (ADP)) trở thành một trong những phương pháp hữu hiệu dùng để xấp xỉ các nghiệm HJB và HJI. Dựa vào cấu trúc điều khiển chuẩn của ADP bao gồm hai hoặc ba xấp xỉ hàm, các giải thuật RL không ngừng được nghiên cứu và phát triển. Ngày nay, các giải thuật điều khiển RL là online, không off-line như những nghiên cứu đã công bố trong những năm đầu của thế kỷ 21. Ví dụ, các giải thuật RL đã được thiết kế để xấp xỉ nghiệm ARE (Algebraic Riccati Equation) cho hệ tuyến tính với các ma trận trạng thái không biết và sau này, xấp xỉ nghiệm HJB và HJI cho hệ phi tuyến với các thành phần động học trong mô hình hệ thống biết hoặc không biết, có nhiễu hoặc bỏ qua nhiễu. Luận án này nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ phi tuyến, trong đó qui hoạch động thích nghi online (Online Adaptive Dynamic Programming (OADP)) và qui hoạch động thích nghi bền vững online (Online Robust Adaptive Dynamic Programming (ORADP)) là hai giải thuật chính được phân tích và thiết kế. Giải thuật OADP dùng để xấp xỉ nghiệm HJB cho hệ thống phi tuyến với mô hình xác định, sau đó được phát triển thành giải thuật ORADP để xấp xỉ nghiệm HJI cho hệ phi tuyến hoàn toàn không có thông tin về động học nội (internal dynamics). Ban đầu, cấu trúc ADP chuẩn với hai hoặc ba xấp xỉ hàm được sử dụng để chuyển đổi thành cấu trúc điều khiển với duy nhất một xấp xỉ hàm để tránh độ phức tạp tính toán và lãng phí tài nguyên nhằm đẩy nhanh tốc độ hội tụ. Sau đó, luật cập nhật mới cho tham số cho xấp xỉ hàm và các giải thuật điều khiển mới được thiết kế. Trong giải thuật, các luật cập nhật tham số được đồng bộ hóa trong một bước lặp nhằm tăng tốc độ hội tụ. Bên cạnh đó, luật điều khiển ổn định ban đầu để khởi động giải thuật là không cần thiết. Từ đó, thủ tục thiết kế trở nên linh hoạt hơn. Giải thuật đảm bảo rằng hàm chi phí được tối thiểu, tham số xấp xỉ hàm và luật điều khiển hội tụ về giá trị cận ii tối ưu trong khi toàn bộ trạng thái của hệ kín và sai số xấp xỉ bị chặn theo tiêu chuẩn UUB (Uniform Ultimate Bounded). Kết quả mô phỏng có so sánh với các phương pháp khác sử dụng hai hoặc ba xấp xỉ hàm cho thấy tính hiệu quả của giải thuật OADP và ORADP. Để kiểm tra khả năng ứng dụng của giải thuật ORADP, mô phỏng số và thực nghiệm cho robot di động dạng xe (Wheeled Mobile Robot (WMR)) được tiến hành. So sánh với các giải thuật điều khiển thích nghi khác, giải thuật ORADP điều khiển WMR có một số ưu điểm mới. Thứ nhất, việc chia tách bộ điều khiển động học (kinematic) và động lực học (dynamic) sử dụng phổ biến trong điều khiển thích nghi cho WMR là không cần thiết. Từ đó, tránh phụ thuộc vào kinh nghiệm của người thiết kế trong việc lựa chọn các tham số cho bộ điều khiển động học. Thứ hai, không đòi hỏi nhận dạng trực tiếp hoặc gián tiếp thành phần động học không chắc chắn, không cấu trúc trong mô hình robot. Cuối cùng, với giải thuật ORADP, hàm chỉ tiêu chất lượng có liên quan đến sai số bám cả về động học, động lực học lẫn năng lượng điều khiển được tối thiểu. Giải thuật ORADP tiếp tục được sử dụng để thiết kế mở rộng cho bài toán điều khiển hợp tác nhiều hệ phi tuyến MIMO không sử dụng thông tin về động học nội hệ thống. Ban đầu, lý thuyết đồ thị được sử dụng để thiết lập cấu hình truyền thông phân tán cho nhiều hệ phi tuyến hợp tác. Sau đó, giải thuật ORADP được thiết kế mở rộng thành giải thuật điều khiển hợp tác thích nghi bền vững. Kết quả điều khiển đồng bộ hóa hệ thống robot bầy đàn từ mô phỏng cho thấy tính hiệu quả của giải thuật ORADP mở rộng. iii ABSTRACT The optimal control problem for nonlinear systems is constrained directly by the solution of Hamilton-Jacobi-Bellman (HJB) equation and the robust optimal control problem is constrained directly by the solution of Hamilton-Jacobi-Isaacs (HJI) equation. These are nonlinear partial differential equations that have been proven to be impossible to solve analytically. Since then, the problems for approximating off-line or online HJB and HJI solutions are devoted. The reinforcement learning (RL) method, at first, derived from the dynamic programming (DP) theory, and then, developed into adaptive dynamic programming (ADP) method, becomes one of the most effective online methods to approximate HJB and HJI solutions. Based on the standard control structure of ADP, including two or three approximators, RL algorithms are studied and developed continuously. Nowadays, these algorithms are online and no longer off-line as the researches that are published in the early years of the 21st century. For example, RL algorithms have been developing to approximate the ARE (Algebraic Riccati Equation) solutions for linear systems with unknown state matrices, and after that, HJB and HJI solutions for nonlinear systems contained known and unknown system dynamics with or without impacted by disturbance. This thesis proposes reinforcement learning-based robust adaptive control algorithms for nonlinear systems, in which Online Adaptive Dynamic Programming (OADP) and Online Robust Adaptive Dynamic Programming (ORADP) are two main analyzed and designed algorithms. OADP algorithm is used to approximate a HJB solution for the nonlinear system with known dynamics, and then extended to ORADP algorithm to approximate HJI solution for the nonlinear system without absolutely knowing knowledge of internal dynamics. Firstly, the standard ADP structures with two or three approximators are used to transform into control structures with only single approximator to avoid the complex computation and waste of resources in order to accelerate the speed of update processes. Then, novel update laws for the approximator’s parameters and the novel algorithms are designed. In the algorithm, parameter update laws are synchronized in one iterative step to increase the speed of convergence. Besides, any stability control laws to initialize algorithm is not needed; Therefore, the design procudures become more flexible. The algorithms guarantee that iv the cost functions are minimized, the parameters of approximators and cthe ontrol laws converge to the suboptimal values while all closed-system states and the approximate errors are bounded by the UUB (Uniform Ultimate Bounded) standard. The results of numerical simulations compared with other methods using two or three approximators demonstrate the effectiveness of the OADP and ORADP algorithms. To verify the application ability of ORADP algorithm, simulation and experiment for WMR (Wheeled Mobile Robot) are conducted. It is shown that when the ORADP algorithm is applied to control WMR, some novel advantages compared with other adaptive control algorithms have been gained. Firstly, the separation of kinematic and dynamic controllers that commonly used in the adaptive control for WMR is unnecessary. By doing that, we can avoid depending on the designer's experience in choosing the parameters for the kinematic controller. Secondly, identifying directly or indirectly unstructured and unmodeled uncertainty dynamics in the robot models is not required. Lastly, using the ORADP algorithm, the performance index function related to both the kinematic, the dynamic tracking errors and the control energy is minimized. The ORADP algorithm is continuously designed extendedly for the cooperative control problem of multiple MIMO nonlinear systems without using the knowledge of system internal dynamics. Initially, graph theory is used to establish distributed communication configures for multiple cooperative nonlinear systems. Then, the ORADP algorithm is expanded to become the robust adaptive cooperative control algorithm. Simulation results of synchronous control for the swarm robot system show the effectiveness of the extended ORADP algorithm. v LỜI CÁM ƠN Luận án này được hoàn thành dưới sự hướng dẫn của TS. Nguyễn Thiện Thành và TS. Hoàng Minh Trí. Tôi xin gửi tới các Thầy lời biết ơn vô hạn về sự quan tâm giúp đỡ, tạo điều kiện tối đa để tôi hoàn thành cuốn luận án này. Đặc biệt, tôi xin trân trọng bày tỏ lòng biết ơn chân thành đến Thầy Nguyễn Thiện Thành người đã giới thiệu và truyền cho tôi nguồn cảm hứng về lĩnh vực học củng cố. Luận án này không thể hoàn thành nếu không có sự hướng dẫn khoa học của PGS.TS. Nguyễn Thị Phương Hà. Cô đã cho tôi định hướng và truyền đạt cho tôi rất nhiều kiến thức quan trọng về lĩnh vực điều khiển thích nghi bền vững. Vì vậy, cho tôi được bày tỏ đến Cô lòng biết ơn sâu sắc. Tôi xin chân thành cảm ơn tập thể các nhà khoa học trong Bộ môn Điều khiển tự động, Đại học Bách Khoa Thành phố Hồ Chí Minh đã có những đóng góp rất quí báu về mặt học thuật để luận án này được hoàn thành. Tôi cũng xin dành riêng lời cảm ơn đến các đồng nghiệp ở Khoa Công nghệ Điện tử Đại học Công nghiệp Thành phố Hồ Chí Minh, đã tạo điều kiện về thời gian để tôi hoàn thành luận án, cảm ơn các bạn ở Phòng Thí nghiệm Trọng điểm Quốc Gia Điều khiển số và Kỹ thuật hệ thống Đại học Quốc Gia, Đại học Bách Khoa đã tạo môi trường vui vẻ và chia sẻ những khó khăn trong thời gian tôi công tác tại đây. Cuối cùng nhưng không kém phần quan trọng, tôi xin cảm ơn gia đình của tôi, vợ và hai con, đã hết lòng ủng hộ tôi về thời gian, tinh thần, tình cảm, giúp tôi vượt qua mọi khó khăn thử thách trên con đường nghiên cứu đầy chông gai nhiều lúc tưởng chừng như bế tắt để hoàn thành luận án này. vi MỤC LỤC DANH MỤC CÁC HÌNH VẼ x DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU xii DANH MỤC CÁC TỪ VIẾT TẮT xiii DANH MỤC CÁC KÝ HIỆU xv CHƢƠNG 1 GIỚI THIỆU 1.1 1 Tổng quan về đề tài ............................................................................................1 1.1.1 Khái niệm về học củng cố .......................................................................1 1.1.2 Lịch sử phát triển của RL trong điều khiển .............................................2 1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu .......................................................5 1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển ....................5 1.2.2 Tính cấp thiết của đề tài...........................................................................7 1.2.3 Mục tiêu nghiên cứu ................................................................................8 1.2.4 Nhiệm vụ nghiên cứu ..............................................................................8 1.3 Đối tượng, phạm vi và phương pháp nghiên cứu ...............................................9 1.3.1 Đối tượng và phạm vi nghiên cứu ...........................................................9 1.3.2 Phương pháp nghiên cứu .......................................................................11 1.4 Những đóng góp mới của luận án về mặt khoa học .........................................11 1.4.1 Về mặt lý thuyết ....................................................................................11 1.4.2 Về mặt thực tiễn ....................................................................................12 1.5 Bố cục luận án ..................................................................................................13 CHƢƠNG 2 CƠ SỞ LÝ THUYẾT 14 2.1 Các định nghĩa ..................................................................................................14 2.2 Lý thuyết học củng cố ......................................................................................14 2.3 Các giải thuật học củng cố kinh điển ...............................................................16 2.3.1 Giải thuật VI (Value Iteration) ..............................................................16 2.3.2 Giải thuật PI (Policy Iteration) ..............................................................17 2.3.3 Giải thuật Q-Learning............................................................................18 2.4 Xấp xỉ hàm trong RL ........................................................................................19 2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm trong RL ....................................19 2.4.2 Yêu cầu về xấp xỉ hàm trong RL ...........................................................20 2.5 Các loại xấp xỉ hàm trong RL, so sánh và đánh giá .........................................21 vii 2.6 Thuộc tính của NN truyền thẳng một lớp .........................................................21 2.7 Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm ...............................22 2.8 Tóm tắt..............................................................................................................25 CHƢƠNG 3 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƢU 27 3.1 Học củng cố trong điều khiển tối ưu ................................................................28 3.1.1 Mô tả bài toán ........................................................................................28 3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman).....................................28 3.2 Phân tích và thiết kế giải thuật học củng cố OADP .........................................31 3.2.1 Cấu trúc điều khiển và luật cập nhật tham số online .............................31 3.2.2 Giải thuật OADP ...................................................................................34 3.2.3 Phân tích ổn định và hội tụ của giải thuật OADP .................................35 3.3 Mô phỏng, so sánh và đánh giá ........................................................................35 3.4 Tóm tắt..............................................................................................................40 CHƢƠNG 4 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG 42 4.1 Học củng cố trong điều khiển thích nghi bền vững .........................................43 4.1.1 Mô tả bài toán ........................................................................................43 4.1.2 Phương trình HJI (Hamilton-Jacobi-Isaacs) ..........................................44 4.1.3 Luật điều khiển học củng cố dựa vào nghiệm HJI ................................45 4.2 Giải thuật ORADP............................................................................................48 4.2.1 Cấu trúc điều khiển và luật cập nhật tham số ........................................48 4.2.2 Giải thuật ORADP .................................................................................52 4.3 Phân tích ổn định và hội tụ của giải thuật ORADP ..........................................53 4.4 Mô phỏng, so sánh và đánh giá ........................................................................54 4.5 Tóm tắt..............................................................................................................59 CHƢƠNG 5 ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG 60 5.1 Mô hình phi tuyến của WMR ...........................................................................62 5.2 Mô hình WMR thực nghiệm ............................................................................66 5.3 Giải thuật ORADP áp dụng cho WMR ............................................................71 5.4 Mô phỏng..........................................................................................................73 5.4.1 Quỹ đạo tham chiếu ...............................................................................74 5.4.2 Thiết lập tham số học ............................................................................75 viii 5.4.3 Kết quả mô phỏng .................................................................................75 5.5 Thực nghiệm .....................................................................................................79 5.6 Tóm tắt..............................................................................................................85 CHƢƠNG 6 GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO 87 6.1 Lý thuyết đồ thị và mô hình hợp tác nhiều hệ phi tuyến MIMO .....................88 6.1.1 Đồ thị truyền thông phân tán .................................................................88 6.1.2 Động học nút .........................................................................................89 6.1.3 Mô hình hợp tác nhiều hệ phi tuyến ......................................................90 6.2 Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP ...........................94 6.2.1 Học củng cố trong điều khiển hợp tác ...................................................94 6.2.2 Cấu trúc điều khiển và luật cập nhật trong ORADP mở rộng ...............94 6.2.3 Giải thuật ORADP mở rộng ..................................................................99 6.2.4 Phân tích ổn định và hội tụ của giải thuật ORADP mở rộng ..............100 6.3 Điều khiển hệ thống robot bầy đàn bằng giải thuật ORADP mở rộng ..........100 6.3.1 Mô hình hệ thống robot bầy đàn .........................................................101 6.3.2 Áp dụng giải thuật và kết quả mô phỏng.............................................104 6.4 Tóm tắt............................................................................................................108 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 110 CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 113 TÀI LIỆU THAM KHẢO 113 PHỤ LỤC A CÁC LOẠI XẤP XỈ HÀM DÙNG TRONG RL 125 PHỤ LỤC B CHỨNG MINH ĐỊNH LÝ 3.1 133 PHỤ LỤC C CHỨNG MINH BỔ ĐỀ 4.4 137 PHỤ LỤC D CHỨNG MINH ĐỊNH LÝ 4.1 138 PHỤ LỤC E MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH VỊ TRÍ ROBOT 143 PHỤ LỤC F CHỨNG MINH BỔ ĐỀ 6.1 146 ix DANH MỤC CÁC HÌNH VẼ Hình 1.1 Minh họa về học củng cố .................................................................................2 Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu.......................4 Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu 𝐻∞ ................4 Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu.........................16 Hình 3.1 Cấu trúc điều khiển OADP sử dụng một NN ................................................33 Hình 3.2 Trạng thái hệ thống trong quá trình học online sử dụng OADP và AC2NN 37 Hình 3.3 Sự hội tụ của trọng số NN sử dụng OADP và AC2NN.................................38 Hình 3.4 OADP và AC2NN: Hàm đánh giá tối ưu xấp xỉ ...........................................38 Hình 3.6 Hội tụ trọng số NN của giải thuật OADP với giá trị khởi tạo bằng không ...39 Hình 3.5 OADP và AC2NN: (a) Sai số giữa hàm đánh giá tối ưu xấp xỉ và tối ưu lý thuyết; (b) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết .......................39 Hình 3.7 Trọng số NN của giải thuật AC2NN không hội tụ về giá trị tối ưu khi giá trị khởi tạo của trọng số bằng không ..................................................................................40 Hình 4.2 Cấu trúc điều khiển ORADP sử dụng một NN..............................................51 Hình 4.3 Sự hội tụ của trọng số NN hàm đánh giá tối ưu ORADP so với AC3NN.....56 Hình 4.4 ORADP và AC3NN: a) Hàm đánh giá tối ưu xấp xỉ; b)Sai số hàm đánh giá tối ưu xấp xỉ và tối ưu lý thuyết.....................................................................................57 Hình 4.5 ORADP và AC3NN: a) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết; b) Sai số giữa luật nhiễu tối ưu xấp xỉ và tối ưu lý thuyết ................................57 Hình 4.6 Sự mất ổn định và không hội tụ của trọng số NN của giải thuật AC3NN với giá trị khởi tạo bằng không ............................................................................................58 Hình 4.7 Sự ổn định và hội tụ của trọng số NN của giải thuật ORADP với giá trị khởi tạo bằng không...............................................................................................................58 Hình 5.1 Mô hình robot di động dạng xe (WMR) ........................................................62 Hình 5.2 Mô hình robot thực nghiệm: a) Mặt sau; b) Mặt trước ..................................67 Hình 5.3 Mô hình hệ thống thị giác đa chiều trên robot ...............................................68 Hình 5.4 Ảnh không gian thực qua hệ thống thị giác đa chiều ....................................69 Hình 5.5 Xác định tâm robot so với hệ trục cố định Oxy ..........................................69 Hình 5.6 Sơ đồ điều khiển sử dụng ORADP cho WMR ..............................................72 Hình 5.7 Lịch trình thay đổi khối lượng robot trong quá trình điều khiển ...................74 Hình 5.8 Lịch trình thay đổi mô men quán tính robot trong quá trình điều khiển .......75 Hình 5.9 Sự hội tụ của trọng số NN trong quá trình học điều khiển ............................76 Hình 5.11 Sai số bám vị trí: a) Toàn bộ quá trình; b) Sau khi hội tụ ...........................78 Hình 5.12 Quỹ đạo 𝑥, 𝑦 trong quá trình học điều khiển: a) 𝑥; b) 𝑦..............................78 x Hình 5.14 Sai số bám vận tốc: a) Vận tốc quay; b)Vận tốc dài ....................................79 Hình 5.15 Quỹ đạo vận tốc quay: a) Toàn bộ quá trình; b) Sau khi hội tụ...................80 Hình 5.16 Quỹ đạo vận tốc dài: a) Toàn bộ quá trình; b) Sau khi hội tụ ....................80 Hình 5.17 Mô men điều khiển tối ưu: a) Toàn bộ quá trình; b) Sau khi hội tụ ............80 Hình 5.18 Quỹ đạo x-y thực nghiệm: a) Toàn bộ quá trình; b) Sau khi hội tụ .............81 Hình 5.23 a) Không gian hoạt động; b) Quỹ đạo 𝑥 − 𝑦 của robot so với tham chiếu..84 Hình 5.24 a) Sai số bám vị trí 𝑥, 𝑦, 𝜃 ; b) Sai số bám vận tốc dài ................................84 Hình 5.25 a) Sai số bám vận tốc góc; b) Mô men điều khiển.......................................84 Hình 6.1 Đồ thị truyền thông của 4 hệ phi tuyến..........................................................88 Hình 6.2 Cấu trúc ORADP mở rộng điều khiển hợp tác nhiều hệ phi tuyến ...............99 Hình 6.3 Sơ đồ điều khiển nhiều robot hợp tác sử dụng ORADP mở rộng ...............104 Hình 6.4 Quá trình hội tụ trọng số NN: a) Robot 1; b) Robot 2; c) Robot 3 ..............106 Hình 6.5 Chất lượng bám vị trí của đội hình: a) Sai số bám; Quỹ đạo bám x-y ........106 Hình 6.7 Đồng bộ hóa vị trí y qua các giai đoạn: a) Ban đầu; b) Hội tụ ....................107 Hình 6.8 Đồng bộ hóa hướng  qua các giai đoạn: a) Ban đầu; b) Hội tụ .................107 Hình 6.9 Sai số bám vận tốc giữa các robot: a) Vận tốc dài; b) Vận tốc quay ...........108 Hình 6.10 Đồng bộ hóa vận tốc dài qua các giai đoạn: a) Ban đầu; b) Hội tụ ...........108 Hình 6.11 Đồng bộ hóa vận tốc quay qua các giai đoạn: a) Ban đầu; b) Hội tụ ........109 Hình 6.12 Mô men điều khiển đội hình robot sau khi hội tụ: a) Sau 100s; b) Hội tụ 109 Hình A.1 Mạng MLP hai lớp ẩn: (a) Cấu trúc; (b) Các thành phần trong một nút ...125 Hình A.2 Cấu trúc mạng MLP một lớp ẩn, một đơn vị ngõ ra. ..................................126 Hình A.3 Cấu trúc mạng RBF ....................................................................................128 Hình A.4 Cấu trúc mạng RARBF ...............................................................................129 Hình A.5 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của hai mạng MLP có số đơn vị ẩn khác nhau. .................................................................132 Hình A.6 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của nhóm mạng CMAC. ....................................................................................................132 Hình A.7 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của nhóm mạng RBF. .........................................................................................................132 Hình E.1 Tập mẫu ngõ vào đo trong không gian ảnh .................................................143 Hình E.2 Tập mẫu ngõ ra mong muốn đo trong không gian thực...............................143 Hình E.3 Kết quả huấn luyện RBF so với mẫu mong muốn .....................................144 Hình E.4 Ngõ ra của RBF so với mong muốn biểu diễn theo X (cm)-Y (pixel) .......144 xi DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU Giải thuật 2.1 Giải thuật 2.2 Giải thuật 2.3 Giải thuật 2.4 Giải thuật 2.5 Giải thuật 2.6 Giải thuật 2.7 Giải thuật 3.1 Giải thuật 4.1 Giải thuật 5.1 Giải thuật 6.1 VI ...........................................................................................................16 PI ...........................................................................................................17 Q-Learning ............................................................................................18 ADP sử dụng hai NN cập nhật tuần tự .................................................23 ADP sử dụng hai NN cập nhật đồng bộ ................................................23 ADP sử dụng ba NN cập nhật tuần tự...................................................24 ADP sử dụng ba NN cập nhật đồng bộ .................................................25 OADP ....................................................................................................34 ORADP ..................................................................................................52 ORADP áp dụng cho WMR ...................................................................73 ORADP mở rộng ...................................................................................99 Bảng 3.1 So sánh chỉ tiêu chất lượng giữa OADP và AC2NN.....................................38 Bảng 3.2 Chỉ tiêu chất lượng khi trọng số của các NN được khởi tạo bằng không .....40 Bảng 4.1 So sánh chỉ tiêu chất lượng giữa ORADP và AC3NN ..................................56 xii DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt (A)NN ANRBF Thuật ngữ tiếng anh (Artificial) Neural Network Giải thích Mạng thần kinh (nhân tạo), được viết tắt là NN trong luận án Adaptive Normalized Radial NN có hàm cơ sở xuyên tâm được chuẩn Basis Function hóa thích nghi Cấu trúc điều khiển Actor-Critic trong học AC Actor-Critic củng cố gồm hai NN: Mạng critic xấp xỉ hàm đánh giá tối ưu, mạng actor xấp xỉ luật điều khiển tối ưu ADP Adaptive Dynamic Programming Qui hoạch động thích nghi, một phương pháp học củng cố để xấp xỉ luật điều khiển tối ưu online ADP2NN ADP with two NNs Cấu trúc điều khiển ADP với hai NN ADP3NN ADP with three NNs Cấu trúc điều khiển ADP với ba NN NN actor đóng vai trò bộ điều khiển trong ANN Actor Neural Network ARE Algebraic Riccati Equation Phương trình đại số Riccati Cerebellar Model NN dựa theo mô hình tiểu não CMAC cấu trúc AC Articulation Controller NN critic đóng vai trò xấp xỉ hàm đánh giá CNN Critic Neural Network COD Curse of Dimensionality Sự bùng nổ tổ hợp không gian trạng thái DP Dynamic Programming Qui hoạch động HJB Hamilton-Jacobi-Bellman HJI Hamilton-Jacobi-Isaacs IDP Incremental Dynamic Programming LS Least Square LQR Linear Quadratic Regulation MIMO Multi Input-Multi Output trong cấu trúc AC Qui hoạch động tăng cường: phương pháp xấp xỉ nghiệm ARE online cho hệ tuyến tính không biết trước các ma trận trạng thái Phương pháp bình phương tối thiểu Điều khiển tối ưu tuyến tính dạng toàn phương Hệ thống nhiều đầu vào nhiều đầu ra xiii ML Machine Learning Học máy MLP Multi-Layer Perceptron NN truyền thẳng nhiều lớp Normalized Radial Basis NN có hàm cơ sở xuyên tâm được chuẩn Function hóa NRBF OADP Online Adaptive Dynamic Programming Qui hoạch động thích nghi online: một giải thuật học củng cố được đề xuất trong luận án để tìm luật điều khiển tối ưu online Qui hoạch động thích nghi bền vững ORADP Online Robust Adaptive online: một giải thuật học củng cố được đề Dynamic Programming xuất trong luận án để tìm luật điều khiển tối ưu thích nghi bền vững online Kích thích hệ thống bằng cách thêm nhiễu PE Persistence of Excitation vào véc tơ tín hiệu vào/ra. PE là điều kiện để tham số hội tụ trong nhận dạng và điều khiển thích nghi. Giải thuật học củng cố sử dụng một số PI Policy Iteration RL Reinforcement Learning Học củng cố RBF Radial Basis Function NN có hàm cơ sở xuyên tâm Resource Allocating Radial NN có hàm cơ sở xuyên tâm được cấp phát Basis Function động Single Input-Single Output Hệ thống một ngõ vào một ngõ ra RARBF SISO bước lặp để xấp xỉ luật điều khiển tối ưu Sai phân tạm thời: giải thuật cập nhật tham TD Temporal Difference số của bộ dự báo liên quan đến sai phân tín hiệu theo thời gian sử dụng trong học củng cố UUB Uniform Ultimate Boun-ded Bị chặn tới hạn đều VI Value Iteration WMR Wheeled Mobile Robot ZDGT Zero-sum Differential Game Theory Giải thuật học củng cố sử dụng một số bước lặp để xấp xỉ hàm đánh giá tối ưu Robot di động dạng xe Lý thuyết trò chơi sai phân tổng bằng không ứng dụng trong lý thuyết điều khiển tối ưu 𝐻∞ xiv DANH MỤC CÁC KÝ HIỆU ℝ Tập các số thực ℝ𝑛 Không gian các tọa độ thực (không gian Euclide) 𝑛 chiều ℝ 𝑛×𝑚 Tập các ma trận có kích thước 𝑛 × 𝑚 chứa các phần tử số thực Ω𝑥 Tập đóng (Ω 𝑥 ⊆ ℝ ) bao quanh gốc: nếu 𝑥 ∈ Ω 𝑥 thì 𝑥 là lân cận quanh điểm cân bằng 𝑥0 . 𝑛 Chuẩn của véc tơ 𝑥 𝑥 𝑥 ∞ 𝐴 𝐴 Chuẩn vô cùng của véc tơ 𝑥 Chuẩn của ma trận 𝐴 ∞ 𝑉𝑥 𝑥 ⊗ Chuẩn vô cùng của ma trận 𝐴 Gradient của hàm 𝑉(𝑥) theo 𝑥: 𝑉𝑥 𝑥 = 𝜕𝑉(𝑥) 𝜕𝑥 Tích Kronecker,  X  Y   X T  Y T ,   X  Y     X   Y  X    Y  , T trong đó X và Y là các ma trận còn 𝛽 là đại lượng vô hướng 𝐼𝑛 𝟏 Ma trận đơn vị có chiều 𝑛 × 𝑛 𝟏 = 1, … ,1 𝑇 ∈ ℝ𝑛 Diag(αi ) Ma trận đường chéo chứa các phần tử αi 𝐿2 0,∞ Không gian Banach, nếu ∀𝑑 ∈ 𝐿2 0,∞ thì ∞ 0 𝑑 2 𝑑𝑡 < ∞ sub 𝑥(𝑡) Cận trên nhỏ nhất (cận trên đúng) của 𝑥(𝑡) inf 𝑥(𝑡) Cận dưới lớn nhất (cận dưới đúng) của 𝑥(𝑡) 𝑊 Ma trận trọng số của NN 𝑤𝑖 Trọng số NN giữa đơn vị ẩn thứ 𝑖 và đơn vị ra (một ngõ ra) 𝑤 𝑖𝑗 Trọng số NN kết nối giữa ngõ ra của đơn vị 𝑖 và ngõ vào đơn vị 𝑗 𝑛𝑖, 𝑛 𝑕 Lần lượt là số lượng nút ở lớp vào, số lượng nút ở lớp ẩn của NN 𝜙(𝑥) Véc tơ hàm tác động của NN 𝑉 𝑥 Hàm đánh giá 𝑉 ∗ (𝑥) Hàm đánh giá tối ưu 𝑢, 𝑢∗ Véc tơ tín hiệu ngõ vào điều khiển và ngõ vào điều khiển tối ưu 𝑑 Véc tơ nhiễu của hệ thống 𝑥 Véc tơ tín hiệu trạng thái của hệ thống 𝑥0 Véc tơ trạng thái của hệ thống tại thời điểm 𝑡 = 0 xv 𝑦 Véc tơ ngõ ra của hệ thống 𝐽 Hàm chỉ tiêu chất lượng của hệ thống 𝜆 𝑚𝑖𝑛 𝐴 Trị riêng nhỏ nhất của ma trận 𝐴 (𝐴 ∈ ℝ 𝜆 𝑚𝑎𝑥 𝐴 Trị riêng lớn nhất ma trận 𝐴 (𝐴 ∈ ℝ 𝑄 𝑥 Hàm xác định dương, sao cho ∀𝑥 ≠ 0, 𝑄 𝑥 > 0 và 𝑄 𝑥 = 0 ⟺ 𝑥 = 0 𝑄 Ma trận trọng số xác định dương 𝑅 Ma trận trọng số đối xứng, xác định dương 𝑏1 , 𝑟1 , 𝑙 Bề rộng, bán kính bánh xe và khoảng cách từ tâm đến trục bánh sau của robot di động 𝜏, 𝜏 𝑚 Véc tơ mô men điều khiển và mô men nhiễu của robot di động xvi 𝑛×𝑛 𝑛×𝑛 ) ) CHƢƠNG 1 GIỚI THIỆU 1.1 Tổng quan về đề tài 1.1.1 Khái niệm về học củng cố Học củng cố (Reinforcement Learning (RL)) thuộc lớp phương pháp học máy (Machine Learning) [62], [95] dùng để giải bài toán tối ưu bằng cách liên tục điều chỉnh hành động của tác tử (Agent). Lý thuyết RL hình thành dựa trên sự quan sát và nghiên cứu thuộc tính và hành vi của động vật khi tương tác với môi trường để thích nghi và tồn tại. Các giải thuật điều khiển dựa vào RL mô phỏng bản năng của động vật. Đó là biết học hỏi từ sai lầm, biết tự dạy chính mình, biết sử dụng thông tin trực tiếp từ môi trường cũng như thông tin đã đánh giá trong quá khứ để củng cố, điều chỉnh hành vi nhằm liên tục cải thiện chất lượng tương tác, tối ưu hóa mục tiêu nào đó theo thời gian (Hình 1.1). Phương pháp RL, đặc biệt hữu ích nếu môi trường thiếu thông tin để ra quyết định chọn hành động. Trong trường hợp đó, RL sử dụng phương pháp thử và sai có đánh giá. Thông tin hồi tiếp từ môi trường tương ứng với hành động thử sai được đánh giá và lưu trữ. Sau đó, dựa vào thông tin lưu trữ, chiến lược chọn hành động tốt hơn được thực hiện để cải thiện chất lượng tương tác với môi trường [17], [55], [67], [70], [95], [99], [111]. Trong điều khiển tối ưu, RL học thích nghi trực tuyến nghiệm HJB dựa vào thông tin vào ra của đối tượng với mục tiêu tối thiểu hàm chi phí cho trước. RL được chứng minh là phương pháp điều khiển tối ưu thích nghi trực tiếp [42], [43]-[45], [62] [71]-[72], [83], [91], [95]-[97], [99]-[102], [107]-[112]. Lý thuyết RL kế thừa từ lý thuyết tối ưu của qui hoạch động (Dynamic Programming (DP)) [15] và phát triển thành lý thuyết qui hoạch động thích nghi (Adaptive Dynamic Programming (ADP)) hoặc qui hoạch động xấp xỉ (Approximate Dynamic Programming (ADP)) [34], [37], [38], [42], [52], [59], [60], [71], [72], [83], [91], [97], [108], [112], [113], [119], [127]-[129]. ADP đã khắc phục được các hạn chế của DP như off-line, không điều khiển thời gian thực, cần mô hình toán chính xác. Ngoài ra, khi ADP sử dụng xấp xỉ hàm sẽ khắc phục được các điểm yếu quan trọng của 1
- Xem thêm -

Tài liệu liên quan