Tài liệu Quy hoạch động thích nghi bền vững cho hệ phi tuyến

.PDF

thanhphoquetoi Báo vi phạm

Tải xuống 84

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI BÙI THỊ HỒNG THẮM QUY HOẠCH ĐỘNG THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN LUẬN VĂN THẠC SĨ KHOA HỌC KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA Hà Nội – Năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI BÙI THỊ HỒNG THẮM QUY HOẠCH ĐỘNG THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN Chuyên ngành : KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA LUẬN VĂN THẠC SĨ KHOA HỌC NGƢỜI HƢỚNG DẪN : TS. ĐÀO PHƢƠNG NAM Hà Nội – Năm 2017 Lời cam đoan LỜI CAM ĐOAN Tôi xin cam đoan, bản đồ án tốt nghiệp : “ Quy hoạch động thích nghi – bền vững cho hệ phi tuyến” do tôi thiết kế, dƣới sự hƣớng dẫn của thầy giáo TS.Đào Phƣơng Nam. Để hoàn thành đồ án này, tôi chỉ sử dụng những tài liệu đƣợc ghi trong danh mục tài liệu tham khảo và không sao chép hay sử dụng bất kỳ tài liệu nào khác. Nếu phát hiện có sự sai phạm nào, tôi xin chịu hoàn toàn trách nhiệm. Hà nội, Ngày 10 tháng 9 năm 2017 Học viên thực hiện Bùi Thị Hồng Thắm i Danh mục các ký hiệu chữ viết tắt MỤC LỤC LỜI CAM ĐOAN................................................................................................................ i MỤC LỤC ............................................................................................................................ ii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT..................................................... iv DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ .............................................................................. vi LỜI MỞ ĐẦU ..................................................................................................................... 1 CHƢƠNG I: TỔNG QUAN CÁC NGHIÊN CỨU VỀ “QUY HOẠCH ĐỘNG THÍCH NGHI BỀN VỮNG”........................................................................................... 2 1.1 Tổng quan ................................................................................................ 2 1.2 Định nghĩa của RADP ............................................................................ 4 1.3 ADP cho hệ thống tuyến tính, thời gian liên tục, chƣa xác định ........ 6 1.4 RADP cho hệ thống phức hợp tuyến tính một phần ........................... 7 1.5 RADP cho hệ thống kích thƣớc lớn với đặc tính không ổn định động. .................................................................................................................. 9 1.6 RADP cho hệ thống khuếch đại động năng........................................ 10 1.7 RADP cho hệ phi tuyến hoàn toàn ...................................................... 11 CHƢƠNG II: CƠ SỞ LÝ THUYẾT TỐI ƢU........................................................... 15 2.1. Điều khiển phản hồi trạng thái tối ƣu (LQR) ........................................... 15 2.1.1 Trƣờng hợp thời gian tối ƣu là hữu hạn ...................................... 16 2.1.2 Trƣờng hợp thời gian tối ƣu là vô hạn......................................... 17 2.1.3 Tính ổn định của hệ kín................................................................. 17 2.2 Thuật toán Kleinman và các tính chất liên quan .............................. 18 2.2.1 Phát biểu thuật toán ...................................................................... 18 2.2.2 Ý nghĩa ............................................................................................ 20 2.3 Phƣơng pháp quy hoạch động ............................................................. 20 2.3.1 Trƣờng hợp hệ liên tục .................................................................. 20 2.3.2 Trƣờng hợp hệ không liên tục ...................................................... 21 ii Danh mục các ký hiệu chữ viết tắt 2.4.Điều khiển dự báo MPC ............................................................................ 24 2.4.1. Điều khiển dự báo mô hình tuyến tính .............................................. 25 2.4.2. Điều khiển dự báo mô hình phi tuyến (NMPC)....................... 27 CHƢƠNG 3: ĐIỀU KHIỂN TỐI ƢU CHO HỆ TUYẾN TÍNH BẤT BIẾN THEO THỜI GIAN KHÔNG BIẾT TRƢỚC THAM SỐ ........................................................ 28 3.1. Bài toán đặt ra ........................................................................................... 28 3.2 Thuật toán xử lý ......................................................................................... 29 CHƢƠNG IV: ĐIỀU KHIỂN DỰ BÁO MÔ HÌNH PHI TUYẾN ............................. 39 4.1. Điều khiển dự báo mô hình phi tuyến....................................................... 39 4.1.1. Mô hình dự báo phi tuyến ................................................................. 39 4.1.2. Ƣớc lƣợng biến trạng thái .................................................................. 39 4.1.3. Áp dụng MHE vào NMPC ................................................................ 41 4.2. Điều khiển dự báo mô hình bền vững....................................................... 42 4.2.1. Điều kiện ổn đinh MPC bền vững cho hệ bất định tham số .............. 44 4.2.2 Ổn định vào-trạng thái ........................................................................ 45 4.3. Điều khiển dự báo mô hình phân tán ........................................................ 49 4.3.1. Giới thiệu về điều khiển dự báo mô hình phân tán ........................... 49 4.3.2. Cở sở toán học cho điều khiển dự báo phân tán ................................ 50 CHƢƠNG V:CÁC ỨNG DỤNG .................................................................................. 54 5.1 Áp dụng cho điều khiển chuyển động hệ một tay máy ..................... 54 5.2 Áp dụng cho hệ con lắc ngƣợc. ............................................................ 56 5.2.1. Thiết kế bộ điều khiển tối ƣu bền vững ............................................. 56 Kết quả mô phỏng .............................................................................................................. 65 KẾT LUẬN ....................................................................................................................... 67 TÀI LIỆU THAM KHẢO.............................................................................................. 68 iii Danh mục các ký hiệu chữ viết tắt DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT CÁC KÝ HIỆU g: Gia tốc trọng trƣờng . : Chuẩn bậc 2 | |: Biểu thị định mức Euclide cho véc tơ và định mức của nó đối với các ma trận. A > B: (A-B) ma trận xác định dƣơng J: Hàm Mục tiêu x: Biến trạng thái Q, R: Ma trận của hàm mục tiêu A, B: Ma trận trạng thái và đầu vào hệ tuyến tính u * : Tín hiệu điều khiển tối ƣu x0 xT : Trạng thái đầu, cuối của hệ thống x(t )* : Quỹ đạo trang thái tối ƣu : Tích Kronecker Vec(A): vector hóa ma trận A CÁC CỤM TỪ VIẾT TẮT DAP: Adaptive dynamic programming- Quy hoạch động thích nghi RDAP:RobustAdaptiveDynamicProgramming–Quy hoạch động thích nghi bền vững. HJB: Hamilton – Jacobi – Bellman. ARE: Algebraic Riccati Equation - Phƣơng trình đại số Riccati GAS: Global Asymtotic Stability - Ổn định toàn cục LQR: Linear Quadratic Regulator - Điều khiển phản hồi trạng thái tối ƣu cho hệ tuyến tính với hàm mục tiêu dạng toàn phƣơng. MPC: Model Predictive Control - Điều khiển dự báo mô hình NMPC: Nonlinear Predictive Control - Điều khiển dự báo mô hình phi tuyến DMPC: Decentralized Model Predictive Control - Điều khiển dự báo mô hình phân tán. iv Danh mục các ký hiệu chữ viết tắt DP: Dynamic Programming - Quy hoạch động EKF: Extended Kalma Filter - Bộ lọc Kalman mở rộng MHE: Moving Horizon Estimation v Danh mục bảng DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.1 Cấu hình hệ thống điều khiển dựa trên ADP ......................................... 4 Hình 1.2 RDAP với hệ không ổn định động. ........................................................ 5 Hình 2.1. Cấu trúc điều khiển phản hồi trạng thái tối ƣu LQR........................... 15 Hình 2.2: Mô tả tầm dự báo Ny và tầm điều khiển Nu ........................................ 26 Hình 3.1:Cấu trúc triển khai thuật toán ............................................................... 29 Hình 3.2. Sơ đồ thuật toán................................................................................... 37 Hình 4.1: Sơ đồphƣơng pháp dịch khoảng ƣớc lƣợng (cửa sổ ƣớc lƣợng) ........ 40 Bảng 4.1: Vai trò MHE trong NMPC ................................................................. 41 Hình 4.2: Sơ đồ điều khiển phi tập trung ............................................................ 49 Hình 5.1 Hệ chuyển động một tay máy .............................................................. 54 Hình 5.2 So sánh các giá trị hàm xấp xỉ.............................................................. 55 Hình 5.3 So sánh các biên dạng tốc độ .............................................................. 56 Bảng 5.1. Các thông số của hệ con lắc ngƣợc..................................................... 65 Hình 5.4.Sự hội tụ của ma trận P,K và các lỗi tự hiệu chỉnh .............................. 66 DANH MỤC BẢNG BIỂU Bảng 4.1: Vai trò MHE trong NMPC ................................................................. 41 Bảng 5.1. Các thông số của hệ con lắc ngƣợc..................................................... 65 vi Lời nói đầu LỜI MỞ ĐẦU Lĩnh vực quy hoạch động thích nghi với nhiều ứng dụng trong kỹ thuật điều khiển đã phát triển nhanh hơn so với những năm trƣớc.Một khái niệm mới gọi là “quy hoạch động thích nghi bền vững” (viết tắt là RADP) đƣợc phát triển cho việc thiết kế các bộ điều khiển tối ƣu bền vững cho các đối tƣợng hệ tuyến tính và phi tuyến phụ thuộc vào cả tham số và động học không. Nội dung chính của luận văn “ Quy hoạch động thích nghi – bền vững cho hệ phi tuyến” cung cấp một cái nhìn tổng quan về những báo cáo hiện thời góp phần phát triển lý thuyết RADP và những ứng dụng tiềm năng của nó trong kỹ thuật điện và sinh học. Nội dung luận văn gồm ba phần chính. Phần 1(chƣơng I): Tổng quanchung các nghiên về RADP Phần 2(chƣơng II,III,VI): Cơ sở lý thuyết Phần 3(chƣơng V): Các ứng dụng. Để có thể hoàn thành bản luận văn này, em đã nhận đƣợc sự hƣớng dẫn, chỉ bảo tận tình của thầy TS.Đào Phƣơng Nam cùng với sự giúp đỡ của các thầy cô giáo trong bộ môn Điều Khiển Tự Động, khoa Điện, trƣờng đại học Bách khoa hà nội trong suốt thời gian học tập và thực hiện luận văn. Lời cuối em xin chân thành cám ơn TS.Đào Phƣơng Nam cùng các thầy cô trong bộ môn. Do thời gian có hạn, trình độ còn nhiều hạn chế, khó khăn về tài liệu tham khảo, luận văn không tránh khỏi nhiều thiếu sót. Rất mong nhận đƣợc sự thông cảm và góp ý của các thầy cô và bạn đọc. Xin chân thành cảm ơn! Sinh viên thực hiện Bùi Thị Hồng Thắm 1 Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững” CHƢƠNG I: TỔNG QUAN CÁC NGHIÊN CỨU VỀ “QUY HOẠCH ĐỘNG THÍCH NGHI BỀN VỮNG” Trong chƣơng này, tác giả trình tóm tắt về những phát triển của DAP trong tình hình hiện nay, và những phát triển về RADP trong các hệ tuyến tính và phi tuyến. 1.1 Tổng quan Quy hoạch động thích nghi(viết tắt là ADP) là một khía cạnh sinh học, không dựa trên mô hình; phƣơng pháp tính toán đã đƣợc sử dụng để tính trong luật điều khiển tối ƣu và nhiều tài liệu tham khảo trong đó. Nó đƣợc biết đến là quy hoạch động đòi hỏi những kiến thức chuyên sâu về động học hệ thống và những tổn thất từ thứ nguyên. Ban đầu Wersbos đã chỉ ra rằng thích nghi gần với phƣơng trình HamiltonJacobi-Bellman(HJB). Có thể đạt đƣợc bằng cách thiết kế hệ thống mở rộng tăng cƣờng thích nghi. Trong các nghiên cứu tƣơng tự của mình werbos đã đề xuất hai phƣơng pháp tiếp cận cơ bản để thực hiện ADP: Quy hoạch động oristic –(HDP) và quy hoạch động kép. Chúng có thể đƣợc sử dụng tƣơng tự giá trị hàm tối ƣu hoặc giá trị gradian của nó. Tại đó hƣớng giải quyết tƣơng tự điều khiển tối ƣu đƣợc cân nhắc, các vấn đề tƣơng tự cũng đƣợc nghiên cứu bởi Berbsekas và Tsitsikis dƣới tên quy hoạch động nơron và đƣợc hạn chế dành riêng cho hệ thống thời giangián đoạn. Sự trình bày chi tiết của yếu tố toán học là điều kiện của quy hoạch động nơron, cùng với đó là rất nhiều phƣơng pháp và ứng dụng . Sự trình bày của lý thuyết quy hoạch động thích nghi gồm ba phần.Trong phần thứ nhất, ADP đã đƣợc nghiên cứu rộng rãi trong cộng đồng khoa học tính toán và nghiên cứu vận hành.Hai thuật toán cơ bản: lặp lại phƣơng pháp và lặp lại giá trị thƣờng đƣợc sử dụng.Năm 1989, Watking đề xuất phƣơng pháp Qlearing nổi tiếng trong luận án tiến sỹ của mình. Q- learing chia sẻ những tính năng tƣơng tự với chƣơng trình HDP đƣợc đề xuất bởi Werbos. Trong phần thứ 2, tính ổn định đƣợc đƣa vào ADP trong bối cảnh khi các vấn đề kiểm soát thời gian thực đƣợc nghiên cứu cho các hệ thống động năng.Lewis là ngƣời đầu tiên đóng góp cho sự tích hợp lý thuyết ổn định và lý thuyết ADP. Ƣu điểm chủ yếu của lý thuyết ADP là có thể thu đƣợc một chƣơng 2 Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững” trình điều khiển tối ƣu thông qua một thuật toán đệ quy bằng, cách sử dụng thông tin hiện thời mà không giải phƣơng trình HJB cho các hệ phi tuyến và phƣơng trình đại số Ricati (ARE) (cho hệ thống tyến tính). Thiết kế phản hồi tối ƣu cho các hệ thống động học tuyến tính và phi tuyến đã đƣợc đề xuất bởi một số nhà nghiên cứu trong vài năm qua, trong khi hầu hết các công trình trƣớc đó về lý thuyết ADP là dành cho các hệ thống không theo thời gian, có ít nghiên cứu cho các đối tƣợng thời gian liên tục. Điều này chủ yếu là do ADP sẽ khó khăn hơn nhiều cho các hệ thống thời gian liên tục so với thời gian gián đoạn. Thật vậy, nhiều kết quả đƣợc phát triển cho các hệ thống thời gian rời rạc không thể mở rộng một cách chính thống với hệ thống thời gian liên tục.Tuy nhiên, những lỗ lực đã sớm đƣợc thực hiện để áp dụng Q-learning cho các hệ thống thời gian liên tục thông qua kỹ thuật phân biệt (discretization).Tuy nhiên sự hội tụ và phân tích tính ổn định của các chƣơng trình này là một thách thức. Murray đề xuất một phƣơng pháp thực hiện đòi hỏi các phép đo các dẫn xuất của các biến trạng thái. Lewis và đồng nghiệp đã đề xuất giải pháp đầu tiên cho phân tích tính ổn định và các chứng minh hội tụ cho các hệ thống điều khiển dựa trên ADP bằng lý thuyết LQR. Đối với các hệ thống tuyến tính thời gian liên tục, một phần về động lực hệ thống(tức là ma trận đầu vào) phải đƣợc xác định chính xác. Hạn chế này đã đƣợc loại bỏ hoàn toàn trong [4].Một biến thể phi tuyến của phƣơng pháp này có thể đƣợc tìm thấy trong [7]. Giai đoạn ba trong đó sự phát triển của lý thuyết ADP liên quan đến việc mở rộng các kết quả ADP trƣớc đó đến các hệ thống phi tuyến không ổn định. Lý thuyết và mạng nơ ron đƣợc sử dụng để giải quyết yếu tố không ổn định trong hệ thống điều khiển. Một giả thiết ngầm định là hệ thống đƣợc biết đến và sự không ổn định là tĩnh, không giao động.Sự hiện diện của yếu tố không ổn định đã không đƣợc giải quyết một cách có hệ thống trong tài liệu của ADP. Do sự không ổn định động, chúng ta đề cập đến sự không khớp giữa mô hình danh nghĩa và ứng dụng thực khi bậc của mô hình danh nghĩa thấp hơn của hệ thống thực. Một chủ đề nghiên cứu liên quan chặt chẽ là làm thế nào để tính toán hiệu quả của các biến không nhìn thấy. Thông thƣờng, thông tin trạng thái đầy đủ thƣờng thiếu trong nhiều ứng dụng kỹ thuật và sinh học và chỉ cho phép đo đầu ra hoặc các 3 Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững” phép đo một phần trạng thái. Sự thích nghi của lý thuyết ADP hiện tại với kịch bản thực tế này rất quan trọng nhƣng lại không nhỏ. Mạng nơ ron đƣợc tìm kiếm để giải quyết vấn đề ƣớc lƣợng. Tuy nhiên, sự phân tích độ ổn định của hệ thống điều khiển là không dễ dàng, bởi vì hệ thống đƣợc kết nối với nhau rất cao.Cấu hình của một hệ thống điều khiển dựa trên ADP tiêu chuẩn đƣợc trình bày trong hình 1.1. Các nghiên cứu gần đây về sự phát triển các biến thể của lý thuyết ADP nhằm giải quyết những thách thức này. Hình 1.1 Cấu hình hệ thống điều khiển dựa trên ADP 1.2 Định nghĩa của RADP RADP đƣợc phát triển để giải quyết sự hiện diện của tính không ổn định trong các hệ thống động học tuyến tính và phi tuyến.Xem hình 1.2 để minh họa. Có một số lý do đểtheo đuổi khuôn khổ mới cho RADP. Trƣớc hết, việc xây dựng một mô hình toán học chính xác cho các hệ thống vật lý thƣờng là một công việc khó khăn. Ngoài ra, thậm chí nếu mô hình toán học chính xác có thể thu đƣợc cho một số ứng dụng kỹ thuật và sinh học cụ thể, các mô hình đơn giản thƣờng thích hợp hơn cho việc phân tích tổng hợp hệ thống và điều khiển so với mô hình hệ thống phức tạp ban đầu. Trong khi đề cập đến sự không khớp giữa mô hình đơn giản và hệ thống ban đầu với sự không ổn định động ở đây, thì 4 Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững” thƣờng sử dụng thuật ngữ mô hình động học thay thế(unmodeled dynamics instead). Hình 1.2 RDAP với hệ không ổn định động. Thứ hai, các lỗi quan sát thƣờng có thể bị ảnh hƣởng bởi sự không ổn định động. Từ tài liệu về điều khiển phi tuyến hiện đại, ngƣời ta biết rằng sự có mặt của tính không ổn định động tạo ra vấn đề kiểm soát thông tin phản hồi có nhiều thách thức trong bối cảnh của hệ thống phi tuyến. Để mở rộng phạm vi áp dụng lý thuyết ADP với sự có mặt của sự không ổn định động, chiến lƣợc đặt ra là tích hợp các công cụ từ lý thuyết điều khiển phi tuyến, nhƣ thiết kế Lyapunov, lý thuyết ổn định đầu vào và các kỹ thuật thu nhỏ hệ phi tuyến. Bằng cách này RADP áp dụng rộng cho lớp các hệ thống động học không ổn định với thông tin trạng thái chƣa đầy đủ và thứ tự hệ thống/ động thái không xác định. Ngoài ra, RADP có thể đƣợc áp dụng cho các hệ thốngchuyển động quy mô lớn.Bằng cách tích hợp một phiên bản đơn giản của định lý cyclis-small-gain, sự ổn định bất biến có thể đạt đƣợc bằng cách gán các ma trận thích hợp cho mỗi hệ thống con. Hơn nữa, có thể thu đƣợc một số thuộc tính tối thiểu. Bởi vì một số ứng dụng đang nổi lên có tầm quan trọng trong thực tiễn nhƣ lƣới điện thông minh, hệ thống giao thông thông minh và các nhóm các cơ quan tự động, chủ đề này đáng đƣợc nghiên cứu thêm từ quan điểm của RADP. Sự tồn tại của các tham số chƣa biết và/ hoặc sự không ổn định động, và thông tin hạn chế của các biến trạng thái làm tăng những thách thức đối với thiết kế bộ điều khiển phân tán hoặc phân tán các hệ thống quy mô lớn. 5 Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững” 1.3 ADP cho hệ thống tuyến tính, thời gian liên tục, chƣa xác định Ta bắt đầu với hệ tuyến tính thời gian không đổi(LTI), thời gian liên tục. ̇ (1.1) là véc tơ trạng thái, Với là đầu vào điều khiển, là ma trận không xác định , có thể ổn định. Giả sử rằng, có một ma và trận xác định K0sao cho A-BK0 là ma trận Hurwitz. Đối tƣợng điều khiển đƣợc tìm, nếu ta có phƣơng trình điều khiển tối ƣu u*= -K*x sao cho các tích phân toàn phần sau đây đạt giá trị min. ∫ (1.2) Với Q ≥0 và R>0 là các ma trân đối xứng xác định với (A, Q1/2) là một cặp có thể quan sát. Một giải pháp cho vấn đề đã đƣợc trình bày trong [14] với giả thiết B là một ma trận đã biết mặc dù A chƣa biết. Chúng ta có thể chỉ ra rằng giả định này có thể đƣợc loại bỏ. Để bắt đầu, chúng ta chọn một ma trận tăng ổn định ban đầu K0 sao choA-BK0 là Hurwiz. Tiếp theo, ta áp u0=-K0x+e làm đầu vào điều khiển với e là một nhiễu thăm dò, và ghi lại trạng thái thông tin vào trong khoảng [ti,ti+1] với i= 0,1,…..,l-1 và l>0 là một số nguyên đủ lớn. Khoảng [ti, ti+1] gắn liền với nghiên cứu và thông tin thu thập. Sau đó, thay Kk+1=R-1BTPk bằng phƣơng pháp lý thuyết LQR tiêu chuẩn và thuật toán lặp trong [15]. (1.3) Do đó, với k=0,1,2… thành lập phƣơng trình lặp sau đây: | ∫ (1.4) Sự tồn tại và tính duy nhất của (Pk, Pk+1) trên Eq. (4) tƣơng đƣơng dựa trên thực tế nhiếu thăm dò e là liên tục (PE), một điều kiện chuẩn cho hội tụ tham số trong điều khiển thích nghi. 6 Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững” Kết quả sau đây cho thấy các chuỗi giao thức {Pk} và {Kk}hội tụ với các giải pháp tối ƣu P* và K*. tƣơng tự , lƣu ý rằng P* tƣơng ứng với giải pháp cho phƣơng trình ARE trong lý thuyết LQR. Định lý 1: (Jiang and Jiang [4]). Trong điều kiện PE trong e(t), giả sử và Kk+1có thể tính toán từ (4) với K=0,1,2…., và rằng =P*, =K*, khi K*=R-1BTP*, và P*>0 là giải pháp đối xứng của phƣơng trình dƣới đây: ATP+PA+Q-PBR-1BTP =0 (1.5) Thực tiễn nghiên cứu đƣợc tóm tắt dƣới đây.Kí hiệu thanh đơn | |biểu thị định mức Euclide cho vectơ và định mức tƣơng ứng của nó đối với các ma trận Các bước của thuật toán Iteration: (1) Cho k ← 0. (2) Giải Pk và Kk+1 từ (4). (3) Cho k ← k+1 , và lặp lại bƣớc 2 cho đến khi {Pk-Pk-1≤ε cho k≥1, tại đây hằng số ε>0 có thể là bất kỳ ngƣỡng nhỏ đƣợc xác định trƣớc. (4) Cuối cùng, sử dụng u=-Kkx nhƣ là bộ điều khiển tối ƣu gần đúng. Ghi chú: để đáp ứng điều kiện PE, nhiễu thăm dò e, có thể là nhiễu ngẫu nhiên hoặc tín hiệu bao gồm tổng tín hiệu hình sin với các tần số khác nhau đƣợc sử dụng. Ngoài ra, khoảng thời gian cho việc thu thập dữ liệu hiện thời phải đủ lớn. 1.4 RADP cho hệ thống phức hợp tuyến tính một phần Mục đích của phần này để chức minh rằng định lý 1 có thể đƣợc tổng quát cho một lớp của hệ thống phức hợp tuyến tính một phần ổn định, đã đƣợc nghiên cứu rộng rãi trong các tài liệu của điều khiển phi tuyến. Bất kỳ hệ thống nào trong lớp có thể đƣợc coi là một kết nối của hệ thống tuyến tính và hệ thống phi tuyến ( hoặc không ổn định động). ̇ = q(w,y)(1.6) ̇ =Ax+B[u+∆(w,y)],(1.7) Y=Cx(1.8) 7 Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững” là thành phần trạng thái đo đƣợc có thể sử dụng cho điều Với khiển phản hồi, là phần trạng thái không thể đo đƣợc với yêu cầu chƣa xác định, nw: u là đầu vào điều khiển, y ,B là ma trận không đổi với (A,B) ổn định, (A,C) và C quan sát đƣợc; q: là đầu ra hệ thống, A và Δ: x là hai hàm địa phƣơng x Lipschitz không xác định, thỏa mãn q(0,0)=0 vàΔ(0,0)=0. Để nghiên cứu vấn đề ổn định của (1.6)-(1.8), chúng ta hãy xem xét hệ thống điều khiển dƣới đây với là hàm trạng thái, u là tín hiệu vào, là đầu ra: và y ̇ = f(x,u), y=h(x,u) (1.9) Khi f là hàm địa phƣơng Lipschitz và h là hàm liên tục. Có các định nghĩa sau : Định nghĩa 3: hệ (1.9) đƣợc cho là trạng thái đầu vào- đầu ra (IOS) với hệ số tang nếu bất kỳ biến đầu vào địa phƣơng u có thể đo đƣợc và điều kiện đầu x(0), giải pháp x(t) tồn tại với mỗi t≥0 và thỏa mãn : | | ≤ β(| | + (‖ ‖)(1.10) Với β, thuộc các lớpК, £ tƣơng ứng Định nghĩa 4: Hệ (1.9) đƣợc cho là có khả năng quan sát đƣợc tại vô cực (SUO) với đặc tính không, nếu hàm β0 của lớp К tồn tại sao cho mỗi tín hiệu điều khiển u(t) có thể đo đƣợc trên [0,T](00, c2>0 ̇ = q(w,y) ≤ -C1| |2 + C2 | |2(1.12) Với mọi W và y 8 Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững” Nghiên cứu hiện nay đƣợc tiến hành theo thuật toán Algorithm đƣợc trình bày trong phần 2 với u0 đƣợc thay bằng u0+Δ Định lý 7:(Jiang and Jiang [5]). Theo giả định 5 và 6, giả sử nhiễu e(t) đáp ứng điều kiện PE nhƣ theo Giả định 5 và 6, giả sử nhiễu thăm dò e (t) đáp ứng điều kiện PE nhƣ và có thể giải duy nhất từ (4), với mọi k=0,1,2…. Ngoài ra Q>c2/c1CTC và R=Im. sau đó chúng ta có =P* , =K* và u=-K*x , … và ổn định tiệm cận hoàn toàn (1.6)-(1.8). Hơn nữa, bộ điều khiển u= - K*x là tối ƣu với giá trị (1.2) khi động năng biến thiên đƣợc đặc trƣng bởi hệ thống w bị triệt tiêu. 1.5 RADP cho hệ thống kích thƣớc lớn với đặc tính không ổn định động. Sự thay đổi Δ trong (1.7) đáp ứng điều kiện đƣợc gọi là kết hợp chặt chẽ điều kiện, bởi vì nó nằm trong khoảng không gian đầu vào. Bây giờ, chúng ta đã sẵn sang đƣa giả định này vào trƣờng hợp mới. Để giải quyết, xét các hệ thống kết nối sau đây: ̇ = q(w,y) (1.13) ̇ =Ax+B[u+∆1(w,y)], (1.14) ̇ =Ex+Fz+G[u+∆2(w,y)], (1.15) Y=Cx, (1.16) Với [xT, zT]T E ,F là vectơ trạng thái; A và G ,B ,C , là các ma trận không xác định với cặp (A,B) ổn định và G không đối xứng. w là trạng thái động không ổn định.∆1=D∆(w,y) và ∆2=H∆(w,y) là đầu ra của trạng thái không ổn định động, ma trận hằng số không xác định; q: D,H và Δ: x là các ma trận không xác định đƣợc với cặp (A, B) ổn định và không x đối xứng Gkhông đối xứng. w là trạng thái động không ổn định. ; ∆1=D∆(w,y) và ∆2=H∆(w,y) là đầu ra của trạng thái động không ổn định, D,H Δ: x ma trận hằng số không xác định; q: x và là hai hàm địa phƣơng không xác định Lipschitz triệt tiêu tại điểm gốc. Ngoài ra, sử dụng các giới hạn trên của B,D,H và G-1 . Cho u=u0+e(t) với mọi t [ti, ti+1] với u0 là chƣơng trình điều khiển ổn định, phƣơng pháp nghiên cứu dƣới đây đƣợc rút ra từ [18] : 9 Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững” Bước 1: | ∫ (1.17) thu đƣợc từ phần 1, chúng ta xác định : ̂ = z+ Đối với ma trận x Bước 2: ̂ ̂| ̂ ̂ ∫ ̂ ̂ ̂ ̂ (1.18) Định lý 8:(Jiang and Jiang [5]).Theo Giả định 5 và 6, giả sử nhiễu thăm dò e(t) đáp ứng điều kiện PE nhƣ vậy (1.17), với mọi k= 0,1,2….Và vậy , = = * * =R2GT K*B với ≥DDT, Q2>0, >(H+G-1K*BD)T. =P*, Sau đó chúng ta có * ,Nj,Ljcó thể giải đƣợc từ (18) , với mọi j=0,1,2,…. Và Q1>2c2/c1CTC và = có thể giải đƣợc từ , * =K*, * , * (E+ K*(A+BK*)-FK*và , = là nghiệm xác định dƣơng của phƣơng trình : * (F+K*B)+(F+K*B)T * +Q2- * G -1 GT * =0 (1.19) Hơn nữa, đối với số nguyên K>0, j>0 đủ lớn, lựa chọn phƣơng pháp điều khiển U=-[ )-1( +R1K1,k)+ K1,k]x- z (1.20) (1.13)-(1.16) ổn định tiệm cận hoàn toàn tạị điểm gốc. Ghi chú 9: Cần lƣu ý rằng trong trƣờng hợp không ổn định động(khi hệ thống w là nhiễu), luật điều khiển (1.20) là tối ƣu ngƣợc. Ngoài ra sử dụng phƣơng pháp lặp trong mục này tạo ra một bộ điều khiển tối ƣu cho các hệ thống kích thƣớc lớn với cấu trúc tam giác thấp hơn. 1.6 RADP cho hệ thống khuếch đại động năng Không khó để khái quát những kết quả trên để kết nối với hệ thống khuếch đại động năng bao gồm nhiều hệ thống con. Để đơn giản ta xét một hệ thống khuếch đại có dạng sau: ̇ =Ai ̇ +Bi[ui+Di(y)] (1.21) yi=Ci ̇ , 1≤ i ≤N, (1.22) 10 Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững” với ̇ , và ui là trạng thái đầu ra, và đầu vào của hệ ]; Ai , Bi , yi thống thứ i; y=[ ,…, , là ma trận hệ thống không xác định, với (Ai,Bi) ổn định; Di(.): | |≤di| | với mọi y là hàm đáp ứng không xác định , với di>0, ∑ Đối với hệ thống thứ i, chọn = n, ∑ = p và, ∑ sao cho Ai-Bi = m. là Hurwitz, với ui=- xi(t)+ei(t), theo giải pháp của (1.21), ta đƣợc (1.23) dƣới đây: | ∫ (1.23) Khi =Qi+ Định lý 10:(Jiang and Jiang [6]). Đối với bất kỳ 1 ≤ i ≤N , giả sử ei(t) thỏa mãn điều khiện PE nhƣ vậy (1.24) cho nghiệm duy nhất , với Qi ≥ ( +1) Ci+ iI và > I = và . Cũng giả sử : ∑ ∑ (1.24) Sau đó, * = * và = * khi * = * , và là nghiệm của : + + - * * =0 (1.25) Ngoài ra, phƣơng trình điều khiển ui=- * đảm bảo ổn định hoàn toàn hệ thống (1.21) và (1.22) tại gốc. 1.7 RADP cho hệ phi tuyến hoàn toàn Trong phần này ta xét lý thuyết RADP cho hệ phi tuyến hoàn toàn. Còn nhiều điều cần phải tiến hành theo hƣớng này. Bắt đầu chúng ta xét 1 hệ đầu vào tuyến tính chung. ̇ =f(x) +g(x)u Với x (1.26) là trạng thái hệ thống, u R là đầu vào điều khiển, f,g: là hàm địa phƣơng Lipchitz. Đối với bất kỳ điều kiện ban đầu giá trị hàm kết hợp với (1.26) đƣợc định nghĩa là: J( ;u)= ∫ ( ) , x(0) = (1.27) 11 , Chương I: Tổng quan các nghiên cứu về “quy hoạch động thích nghi bền vững” Khi Q(.) là hàm xác định và r>0 là hằng số. Giả sử rằng có tín hiệu điều khiển u=u0(x) thỏa mãn, hệ thống (1.26) ổn định hoàn toàn và giá trị (1.27) là xác định. Nó đƣợc biết đến là phƣơng trình điều khiển tối ƣu theo (1.27) có thể đạt đƣợc bằng cách giải phƣơng trình HJB sau : 0= V(x)f(x) +Q(x)- [ V(x)g(x)]2(1.28) Với điều kiện biên V(0) =0. Thật vậy, nếu phân tích nghiệm V* của (1.28) có thể tìm đƣợc, phƣơng trình điều khiển tối ƣu đƣợc nhƣ sau : u*(x)= - g(x)T V(x)T(1.29) Thật không may, thƣờng không thể có phân tích nghiệm của (1.28) một cách chính xác. Tuy nhiên, nếu V*(x) tồn tại, nó luôn đƣợc tính một cách xấp xỉ, ví dụ, bằng cách sử dụng phƣơng pháp lặp [10], nhƣ dƣới đây : (1) Đối với bất kỳ số nguyên i≥0 và tín hiệu ui(x) có thể chấp nhận đƣợc, giải Vi(x) với V0(x) =0 sử dụng 0= Vi(x)[f(x) +g(x)ui(x)]+Q(x) +rui(x)2(1.30) (2) Cập nhật phƣơng trình điều khiển sử dụng ui+1(x)= - g(x)T Vi(x)T(1.31) Trong trƣờng hợp không có kiến thức tiên nghiệm về f và g,ề f, g, phƣơng pháp lặp không thực hiện đƣợc. Để giải quyết vấn đề này, chúng ta phát triển một biến thể phi tuyến của phƣơng pháp lặp đang đƣợc sử dụng [4]. Để bắt đầu, chú ý rằng (1.26) có thể viết lại nhƣ sau : ̇ =f(x) +g(x)ui(x) +g(x)vi (1.32) Khi vi= u- ui, với i≥0, đạo hàm theo thời gian của Vi(x) theo phƣơng trình của (1.32) thỏa mãn ̇ (x) = -Q(x) - r (x) -2r ui+1(x)vi (1.33) Tích hợp cả hai mặt của (1.33) vào khoảng thời gian [t,t+T] bất kỳ, sẽ có dạng : Vi(x(t+T))- Vi(x(t) = ∫ ( ) (x) -2r ui+1(x)vi]dt (1.34) Chú ý rằng, nếu ui(x) đƣợc cho, các hàm chƣa xác định Vi(x) và ui+1(x) có thể lấy xấp xỉ bằng cách sử dụng (1.34). Cụ thể, với bất kỳ một tập con Ω⊂ chƣa điểm gốc, để là một dãy cơ sở độc lập tuyến tính trên Ω, 12

- Xem thêm -

Tài liệu Quy hoạch động thích nghi bền vững cho hệ phi tuyến

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất