Tài liệu Adaptive streaming video bằng deep reinforcement learning

.PDF

110

thanhphoquetoi Báo vi phạm

Tải xuống 110

Mô tả:

UBND TỈNH BÌNH DƢƠNG TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT ĐỖ THỊ THỦY PHƢƠNG ADAPTIVE STREAMING VIDEO BẰNG DEEP REINFORCEMENT LEARNING CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SỸ BÌNH DƢƠNG - 2020 UBND TỈNH BÌNH DƢƠNG TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT ĐỖ THỊ THỦY PHƢƠNG ADAPTIVE STREAMING VIDEO BẰNG DEEP REINFORCEMENT LEARNING CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SỸ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. LÊ TUẤN ANH BÌNH DƢƠNG - 2020 LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác. Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã đƣợc cảm ơn và các thông tin trích dẫn trong Luận văn đã đƣợc chỉ rõ nguồn gốc. Học viên thực hiện đề tài i LỜI CẢM ƠN Để có thể hoàn thành Luận văn này, tôi xin gửi lời cảm ơn chân thành tới PGS.TS. Lê Tuấn Anh. Thầy đã tận tình giảng dạy, hỗ trợ các bài báo và hƣớng dẫn giúp tôi tiếp cận việc nghiên cứu của mình. Thầy đã luôn tận tâm động viên, khuyến khích và chỉ dẫn giúp tôi hoàn thành đƣợc luận văn này. Bên cạnh đó, tôi cũng xin gửi lời cám ơn đến gia đình đã tạo điều kiện cho tôi có thời gian học hỏi và nghiên cứu. Xin cảm ơn đến các bạn cùng lớp đã đƣa những ý kiến đóng góp để đề tài này đƣợc thực hiện hoàn chỉnh hơn. Và đặc biệt, tôi xin cảm ơn Viện Sau đại học - trƣờng Đại học Thủ Dầu Một đã tạo môi trƣờng cho tôi có điều kiện để học hỏi những kiến thức mới, những hƣớng nghiên cứu thật hay và ý nghĩa. Học viên thực hiện đề tài ii MỤC LỤC LỜI CAM ĐOAN ...................................................................................................... i LỜI CẢM ƠN ...........................................................................................................ii MỤC LỤC ................................................................................................................iii DANH MỤC CHỮ VIẾT TẮT................................................................................ iv DANH MỤC BẢNG ................................................................................................. v DANH MỤC HÌNH, ĐỒ THỊ .................................................................................. vi MỞ ĐẦU ................................................................................................................... 1 CHƢƠNG 1. TỔNG QUAN ..................................................................................... 3 1.1. Giới thiệu tổng quan về nền tảng phát trực tuyến video bằng DASH................ 3 1.2. Học tăng cƣờng .................................................................................................. 5 1.3. Học tăng cƣờng sâu ............................................................................................ 8 1.4. Mục tiêu của đề tài ........................................................................................... 12 1.5. Phạm vi nghiên cứu .......................................................................................... 12 CHƢƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN ................................................. 14 2.1. Các thuật toán ABR cơ bản .............................................................................. 14 2.2. HotDASH ......................................................................................................... 16 CHƢƠNG 3. ĐỀ XUẤT GIẢI PHÁP VÀ ĐÁNH GIÁ HIỆU NĂNG.................. 28 3.1. Đề xuất giải pháp .............................................................................................. 28 3.2. Thực nghiệm và kết quả ................................................................................... 29 3.3. Phƣơng pháp luận ............................................................................................. 33 3.4. Đánh giá kết quả ............................................................................................... 34 KẾT LUẬN ............................................................................................................. 39 TÀI LIỆU THAM KHẢO ....................................................................................... 41 iii DANH MỤC CHỮ VIẾT TẮT ABR: Adaptive Bitrate Streaming DASH: Dynamic Adaptive Streaming over HTTP DL: Deep Learning DRL: Deep Reinforcement Learning ML: Machine Learning NN: Neural Network pHotDASH: Prioritized HotDASH QoE: Quality of Experience RL: Reinforcement Learning iv DANH MỤC BẢNG Bảng 1.1 - Sự khác biệt giữa 2 giao thức HTTP và RTMP ..................................... 4 Bảng 2.1 - Trạng thái các tham số của Cơ chế quyết định HotDASH................... 19 v DANH MỤC HÌNH, ĐỒ THỊ Hình 1.1: Truyền phát bit thích ứng bằng DASH theo các cách tiếp cận hiện đại .. 3 Hình 1.2: Mô hình sự tƣơng tác của Tác nhân – Môi trƣờng trong RL ................... 6 Hình 1.3: Minh họa MDP [41] ................................................................................. 7 Hình 1.4: Lƣợc đồ chung của các phƣơng pháp học tăng cƣờng sâu ...................... 8 Hình 1.5: Mô hình Học sâu ...................................................................................... 8 Hình 1.6: Lƣợc đồ chung của các phƣơng pháp khác nhau cho RL [41]. ............. 10 Hình 1.7: Bảng phác thảo thuật toán DQN [45] .................................................... 12 Hình 2.1: HotDASH tổng quan .............................................................................. 16 Hình 2.2: Cơ chế quyết định HotDASH [42] ......................................................... 18 Hình 2.3: Mô hình RL quyết định tìm nạp trƣớc [42] ........................................... 23 Hình 2.4: Luồng điều khiển trong hotdash.js ......................................................... 25 Hình 3.1: Hàm phần thƣởng sau khi thực hiện huấn luyện với 60,000 bƣớc. ....... 31 Hình 3.2: Quản lý bộ đệm trong hotdash.js ........................................................... 31 Hình 3.3: Quản lý bộ đệm với cải tiến hotdash.js của đề tài.................................. 32 Hình 3.4: Sự cải thiện bitrate ................................................................................. 35 Hình 3.5: Tần suất (chuẩn hóa) của các quyết định tìm nạp trƣớc đƣợc thực hiện trong mỗi phiên phát lại video ............................................................................... 36 Hình 3.6: CDF của QoEhotspot thu đƣợc cho mỗi thuật toán đƣợc thể hiện ............ 37 Hình 3.7: Chuẩn hóa QoEhotspot (wrt FESTIVE) thu đƣợc cho mỗi thuật toán ...... 37 Hình 3.8: So sánh các QoE riêng lẻ và tổng QoE giữa pHotDASH với HotDASH và Pensieve. ............................................................................................................ 38 vi MỞ ĐẦU Lƣu lƣợng truy cập từ các ứng dụng phát trực tuyến video dựa trên HTTP chiếm tỷ trọng lớn nhất trong tổng lƣu lƣợng Internet toàn cầu trong những năm gần đây. Đồng thời, nhu cầu của ngƣời dùng về nội dung video với Chất lƣợng trải nghiệm cao (QoE) đã tăng lên nhanh chóng. Việc không thể cung cấp QoE thỏa đáng cho ngƣời dùng chuyển thành tổn thất nặng nề cho các nhà cung cấp dịch vụ. Tuy nhiên, các biến chứng phát sinh từ việc ngƣời dùng khác nhau trải nghiệm cùng một video khác nhau. Với sự bùng nổ về dân số và sự phát triển ngày càng cao của công nghệ, thì sự khao khát về lƣợng thông tin của con ngƣời ngày một lớn hơn. Các thông tin video đƣợc lấy từ nhiều nguồn khác nhau nhƣ youtube, facebook, tiktok… Trong khi môi trƣờng sống càng phát triển thì đời sống tinh thần của con ngƣời cũng phải cải thiện theo, các thông tin video ngoài mang tính thông tin, nghiên cứu mà còn mang tính giải trí. Và cùng với việc phát triển hàng ngày của công nghệ, việc truyền tải video ngày càng thách thức cho các nhà đầu tƣ khi phải nâng cấp chất lƣợng trải nghiệm của ngƣời dùng. Việc không thể cung cấp QoE thỏa đáng cho ngƣời dùng chuyển thành tổn thất nặng nề cho các nhà cung cấp dịch vụ. Nhiều nghiên cứu đã chỉ ra rằng chất lƣợng trải nghiệm video cho ngƣời dùng có thể phụ thuộc vào nhiều yếu tố khác nhau, bao gồm giới tính, tuổi tác, cộng đồng, nội dung, … Dẫn đến nhu cầu trải nghiệm thông tin trải nghiệm video của ngƣời dùng đƣợc cá nhân hóa. Các nhà cung cấp dịch vụ video chủ yếu sử dụng Truyền phát thích ứng động qua HTTP (DASH), để phục vụ nội dung cho các thuê bao của họ. Video mục tiêu thƣờng đƣợc chia thành các đoạn thời gian phát cố định, với mỗi đoạn đƣợc lƣu trữ chất lƣợng khác nhau. Trình phát video phía máy khách cố gắng ƣớc tính băng thông khả dụng, dựa trên các điều kiện phát hiện tại (về thông lƣợng, trạng thái bộ đệm, v.v.) và sử dụng thuật toán bit thích ứng (ABR) để chọn chất lƣợng tối ƣu cho đoạn tiếp theo. Tuy nhiên, các vấn đề phát sinh khi ƣớc lƣợng là không chính xác; nếu máy khách chất lƣợng cao đƣợc khách hàng 1 yêu cầu khi không đủ băng thông, thì bộ phát lại bị trì hoãn trong vài giây (cho đến khi đoạn đƣợc tải xuống hoàn toàn), một hiện tƣợng đƣợc gọi là tải lại. Bên cạnh việc phát lại, thay đổi đột ngột về chất lƣợng của các đoạn liên tiếp cũng cản trở QoE; các thuật toán phát trực tuyến cố gắng làm giảm mức độ thay đổi đột ngột, và làm tăng độ mƣợt khi phát lại. Phải kể đến các thuật toán ABR tiên tiến, ví dụ: MPC và Pensieve, đƣợc tối ƣu hóa cho chức năng mục tiêu (hoặc phần thƣởng), bao gồm ba thành phần cạnh tranh: (1) bit cao, (2) ít xáo trộn và (3) độ mịn cao. Mặc dù kịch bản đã nói ở trên là tối ƣu nhất về mặt sử dụng băng thông, nhƣng đối với ngƣời dùng, sự biến đổi chất lƣợng có vẻ ngẫu nhiên và không thỏa đáng. Do đó, yêu cầu phải có chiến lƣợc truyền phát video có tính đến nội dung tùy chọn của ngƣời dùng, bên cạnh việc sử dụng băng thông tối ƣu. Cụ thể hơn, thuật toán phát trực tuyến phải nhận thức đƣợc thời gian ƣu tiên cao các phân đoạn trong video - mà chúng tôi gọi là các hotspot trong đề tài này - và tối ƣu hóa phân phối video tƣơng ứng. Trong đề tài này, chúng tôi sử dụng học tăng cƣờng sâu trong truyền phát video thích ứng, cụ thể, chúng tôi đề xuất hệ thống pHotDASH, một cải tiến nhỏ trên nền tảng của hệ thống HotDASH khi cho thêm các mức hot tại các đoạn hotspot, để tùy chọn nội dung của ngƣời dùng trong quá trình truyền phát video thích ứng qua HTTP phù hợp với điều kiện môi trƣờng truyền và nâng cao trải nghiệm ngƣời dùng ở mức cao nhất có thể. Luận văn này đƣợc chia làm 3 Chƣơng: Chƣơng 1 – Giới thiệu tổng quan về nền tảng phát trực tuyến video bằng DASH; phƣơng pháp Học tăng cƣờng và Học tăng cƣờng sâu; Mục tiêu và phạm vi nghiên cứu. Chƣơng 2 – Giới thiệu các thuật toán ABR cơ bản; và HotDASH. Chƣơng 3 – Đề xuất giải pháp và đánh giá hiệu năng. 2 CHƢƠNG 1. TỔNG QUAN 1.1. Giới thiệu tổng quan về nền tảng phát trực tuyến video bằng DASH Truyền phát video thích ứng dựa trên HTTP (đƣợc chuẩn hóa là DASH) là một kỹ thuật streaming cho phép truyền tải các nội dung media chất lƣợng cao qua Internet. Tƣơng tự nhƣ giải pháp HTTP Live Streaming (HLS) của Apple, MPEG-DASH hoạt động bằng cách chia nhỏ nội dung thành một chuỗi các phân đoạn tệp dựa trên HTTP, mỗi phân đoạn chứa một khoảng thời gian phát khác nhau. DASH là giải pháp phân phối đƣợc lựa chọn cho hầu hết các nhà cung cấp dịch vụ video trong thời gian gần đây. Hình 1 minh họa hoạt động của trình phát DASH khách: bộ điều khiển ABR trong trình phát nhận các điều kiện phát về thông lƣợng (từ trình ƣớc lƣợng thông lƣợng) và kích thƣớc bộ đệm (từ bộ điều khiển bộ đệm). Sau đó, nó xác định bitrate tối ƣu cho đoạn tiếp theo và bắt đầu tải xuống từ CDN (hoặc máy chủ nội dung) tƣơng ứng Hình 1.1: Truyền phát bit thích ứng bằng DASH theo các cách tiếp cận hiện đại: Bộ điều khiển ABR trong trình phát máy khách chuyển tiếp các điều kiện phát lại (thông lƣợng, bộ đệm bị chiếm, v.v.) đến máy chủ ABR bên ngoài, đáp ứng với bitrate tối ƣu cho đoạn tiếp theo 3 Bảng 1.1 - Sự khác biệt giữa 2 giao thức HTTP và RTMP Giao thức HTTP Giao thức RTMP Messaging server (Adobe Flash Media Web server (Apache, Lighttpd, Nginx…) Server, Wowza Media Server, Red5…) Sử dụng Web Browser Sử dụng Flash player Truyền văn bản thời gian ngắn (Phù hợp với Truyền dữ liệu thời gian thực/dài (Phù web truyền thống) hợp với các file Media: Nhạc, Phim) SOAP, XML AMF File .html, .js File .swf, .as, .flv, .mp3 MPEG DASH là tên viết tắt của: Dynamic Adaptive Streaming Over HTTP, đây là 1 tiêu chuẩn đƣợc định nghĩa bởi ISO (ISO/IEC 23009-1). MPEG-DASH hoạt động bằng cách chia nhỏ nội dung thành một chuỗi các phân đoạn nhỏ, đƣợc phát qua HTTP. Mỗi phân đoạn chứa một khoảng thời gian ngắn của nội dung có thể có thời lƣợng nhiều giờ chẳng hạn nhƣ một bộ phim hoặc một chƣơng trình truyền hình thực tế phát sóng trực tiếp. Nội dung đƣợc cung cấp ở nhiều bitrate khác nhau, tức là các phân đoạn thay thế đƣợc mã hóa ở các bitrate khác nhau bao gồm các khoảng thời gian phát lại ngắn đƣợc căn chỉnh. Trong lúc nội dung đang đƣợc phát lại phát lại bởi máy khách MPEGDASH, máy khách sẽ sử dụng thuật toán bit thích ứng (ABR) để tự động chọn phân đoạn có bitrate cao nhất có thể để tải xuống phát kịp thời mà không gây ngừng hoặc tải lại cho các đoạn khi đang phát. Một máy khách MPEG-DASH có thể thích ứng với các điều kiện mạng không ổn địh và cung cấp đoạn phát có chất lƣợng cao với một số lỗi hoặc sự cố sẽ lƣu vào bộ đệm tải lại. MPEG-DASH sử dụng cơ sở hạ tầng máy chủ web HTTP hiện có để phân phối một cách sơ bộ nhất nội dung world wide web. Cho phép các thiết bị 4 có kết nối Internet phát nội dung đa phƣơng tiện đƣợc phân phối qua Internet trong bối cảnh tình trạng/ điều kiện mạng không ổn định. DASH là một tiêu chuẩn dành cho việc điều phối linh hoạt các bit video đƣợc phát thông qua giao thức HTTP, nó có khả năng thay thế các công nghệ hiện tại nhƣ Microsoft Smooth Streaming, Adobe Dynamic Streaming, Apply HTTP Live Streaming (HLS). DASH chính là một hình thức thống nhất của các công nghệ này. Học tăng cƣờng 1.2. Học máy (Machine learning) là một lĩnh vực con của Trí tuệ nhân tạo (Artificial Intelligence) sử dụng các thuật toán cho phép máy tính có thể học từ dữ liệu để thực hiện các công việc thay vì đƣợc lập trình một cách rõ ràng. Học tăng cƣờng là một trong ba nhánh mà các kỹ thuật học máy thƣờng đƣợc phân loại:  Học có giám sát (supervised learning) là nhiệm vụ suy ra một phân loại hoặc hồi quy từ dữ liệu huấn luyện đƣợc gắn nhãn.  Học không giám sát (unsupervised learning) là nhiệm vụ rút ra các suy luận từ các tập dữ liệu bao gồm dữ liệu đầu vào mà không đƣợc gắn nhãn.  Học tăng cƣờng (RL) là nhiệm vụ học cách các tác nhân phải thực hiện các chuỗi hành động trong một môi trƣờng để tối đa hóa phần thƣởng tích lũy. Mô hình học tăng cƣờng thƣờng bao gồm: - Các tác nhân (agents) - Môi trƣờng (environments). RL tập trung giải quyết vấn đề hành động (acting, decision making) ở mỗi thời điểm để thay đổi trạng thái (state) của môi trƣờng, từ đó đạt đƣợc kết quả tối ƣu khi kết thúc. 5 TÍNH MARKOV Chúng ta sẽ xem xét mô hình về quy trình kiểm soát ngẫu nhiên của Markovian Hình 1.2: Mô hình sự tƣơng tác của Tác nhân – Môi trƣờng trong RL Hình 1.2: Quy trình kiểm soát ngẫu nhiên có tính Markov nếu:  (  ( | ) | ) ( ) | ( | ) Quy trình quyết định Markov (MDP) trong Hình 1.3, là một bộ 5 biến (S,A,T,R,γ):  S là không gian trạng thái,  A là không gian hành động,  T: S ×A×S → [0, 1] là hàm chuyển đổi (tập hợp các xác suất chuyển đổi có điều kiện giữa các trạng thái),  R: S×A×S → R là hàm phần thƣởng, trong đó R là tập hợp liên tục các phần thƣởng có thể có trong một phạm vi Rmax ∈ R+ (ví dụ [0, Rmax]),  ∈ [0, 1) là hệ số giảm trừ. 6 Tại mỗi thời điểm bƣớc t, xác suất chuyển đến st+1 đƣợc cung cấp bởi hàm chuyển đổi trạng thái T(st,at,st+1) và phần thƣởng đƣợc đƣa ra bởi hàm phần thƣởng giới hạn R(st,at,st+1)∈R Hình 1.3: Minh họa MDP [41] Trong thiết lập trực tuyến, vấn đề huấn luyện phức tạp hơn mà không yêu cầu một lƣợng lớn dữ liệu (hiệu suất mẫu) ở khả năng khái quát hóa tốt của thuật toán huấn luyện từ kinh nghiệm hạn chế. Tác nhân có khả năng thu thập kinh nghiệm thông qua chiến lƣợc thăm dò/khai thác. Ngoài ra, tác nhân có thể sử dụng bộ nhớ phát (tải) lại để lƣu trữ trải nghiệm của mình để có thể xử lý lại sau. Trong cả cài đặt theo ngoại tuyến và cài đặt trực tuyến, một điều cần cân nhắc cần bổ sung là hiệu suất tính toán, phụ thuộc vào hiệu suất của một bƣớc giảm độ dốc nhất định. Một lƣợc đồ tổng quát của các phần tử khác nhau có thể đƣợc tìm thấy trong hầu hết các thuật toán DRL đƣợc cung cấp trong Hình 1.4 [41] 7 Hình 1.4: Lƣợc đồ chung của các phƣơng pháp học tăng cƣờng sâu 1.3. Học tăng cƣờng sâu Chúng ta xem xét một cách tiếp cận mạnh mẽ gần đây đối với học máy, đƣợc gọi là Học sâu (Deep Learning). Học sâu không phải là một nhánh riêng biệt của học máy, vì vậy nó không phải là một nhiệm vụ học khác với những nhiệm vụ đƣợc mô tả ở trên. Học sâu là tập hợp các kỹ thuật và phƣơng pháp sử dụng mạng nơ-ron để giải quyết các nhiệm vụ học máy, bao gồm học có giám sát, học không giám sát hoặc học tăng cƣờng và chúng ta có thể biểu diễn nó bằng đồ thị trong hình sau: Hình 1.5: Mô hình Học sâu 8 Học sâu có thể giải quyết các vấn đề bằng cách sử dụng nhiều phƣơng pháp và kỹ thuật học máy khác nhau, từ cây quyết định đến SVM, hay mạng nơron. Tuy nhiên, chúng ta chỉ sử dụng mạng nơ-ron; đây là phần "sâu" mà học tăng cƣờng sâu đề cập đến. Tuy nhiên, mạng nơ-ron không hẳn là giải pháp tốt nhất cho mọi vấn đề, ví dụ, mạng nơ-ron rất ngốn dữ liệu và khó diễn giải, nhƣng mạng nơ-ron tại thời điểm này là một trong những kỹ thuật mạnh nhất hiện có và hiệu suất là tốt nhất. Sau đây là nội dung về một trong những thuật toán dựa trên giá trị đơn giản và phổ biến nhất, thuật toán Q-learning [43] và biến thể của nó, Fitted QLearning, sử dụng hàm xấp xỉ đƣợc tham số hóa [44]. Đồng thời đi vào cụ thể về các yếu tố chính của thuật toán mạng Q-Learning học sâu (DQN) [45] đã đạt đƣợc khả năng kiểm soát siêu phàm khi chơi trò chơi ATARI từ các pixel bằng cách sử dụng mạng nơ-ron làm hàm xấp xỉ [41]. a. Q-Learning Phiên bản cơ bản của Q-learning lƣu giữ một bảng tra cứu các giá trị Q(s,a) (Phƣơng trình trong Hình 1.6) với một mục nhập cho mỗi cặp hành độngtrạng thái. Để tìm hiểu hàm giá trị Q-values tối ƣu, thuật toán Q-learning sử dụng phƣơng trình Bellman cho hàm giá trị Q-values [46] có nghiệm duy nhất là Q*(s,a): Q*(s, a) = ( Q*)(s, a), Trong đó, là toán tử Bellman ánh xạ từ hàm bất kỳ: K : )( thành một và đƣợc định nghĩa nhƣ sau: hàm khác ( (1) ) ∑ ∈ ( )( ( ) ∈ ( Theo định lý Banach, điểm cố định của toán tử Bellman )) (2) tồn tại vì nó là một ánh xạ. Trên thực tế, một bằng chứng chung về sự hội tụ với hàm giá trị tối ƣu có sẵn [43] với các điều kiện: • Các cặp trạng thái-hành động đƣợc biểu diễn một cách riêng biệt và 9 • Tất cả các hành động đƣợc lấy mẫu lặp lại ở tất cả các trạng thái (đảm bảo thăm dò hiệu quả, do đó không yêu cầu quyền truy cập vào mô hình chuyển đổi) Hình 1.6: Lƣợc đồ chung của các phƣơng pháp khác nhau cho RL [41]. b. Fitted Q-learning Trong Fitted Q-learning [4], thuật toán bắt đầu với một số khởi tạo ngẫu nhiên của các giá trị Q-values Q(s,a;θ0) trong đó θ0 đề cập đến các tham số ban đầu (thƣờng sao cho các giá trị Q-values ban đầu phải tƣơng đối gần bằng 0 để tránh học chậm). Sau đó, một giá trị xấp xỉ của Q-values tại lần lặp thứ kth Q(s,a;θk) đƣợc cập nhật theo giá trị mục tiêu ∈ ( ) (3) Trong đó θk đề cập đến một số tham số xác định giá trị Q-values ở lần lặp thứ kth. Trong Q-learning (NFQ) [5] trạng thái có thể đƣợc cung cấp nhƣ một đầu vào cho mạng Q-network và một đầu ra khác nhau đƣợc đƣa ra cho mỗi hành động có thể. Điều này cung cấp một cấu trúc hiệu quả, có lợi thế là thu đƣợc phép tính ∈ ( ) trong một chuyển tiếp duy nhất trong mạng nơ- ron a đƣợc đƣa ra từ s‟. Các giá trị Q-values đƣợc tham số hóa với mạng nơron 10 Q(s,a;θk) trong đó các tham số θk đƣợc cập nhật bằng phƣơng pháp giảm độ dốc ngẫu nhiên (hoặc một biến thể) bằng cách tối thiểu hàm loss: ( ( ) ) (4) Do đó, Q-Learning đƣợc cập nhật với các tham số: ( ( )) ( ) (5) Trong đó α là kích thƣớc bƣớc vô hƣớng đƣợc gọi là tốc độ học. Lƣu ý là không đƣợc tùy tiện sử dụng hàm loss. Đề đảm bảo rằng Q(s,a;θk) hƣớng tới Q*(s,a) sau nhiều lần lặp lại với giả sử mạng nơ ron phù hợp với nhiệm vụ và bộ dữ liệu các trải nghiệm D là đủ. Khi cập nhật các trọng số, ngƣời ta cũng thay đổi mục tiêu. Do khả năng tổng quát hóa và ngoại suy của mạng nơron, cách tiếp cận này có thể tạo ra các lỗi lớn ở những nơi khác nhau trong không gian trạng thái-hành động. Do đó, thuộc tính ánh xạ của toán tử Bellman trong phƣơng trình (2) không đủ để đảm bảo sự hội tụ nhƣ hội tụ chậm hoặc không ổn định khi tiến hành thực nghiệm. Mặt khác, hàm xấp xỉ khi đƣợc sử dụng thì các giá trị Q-values có xu hƣớng đƣợc đánh giá cao với toán tử max. c. Mạng học sâu Q-network Tận dụng ý tƣởng từ NFQ, thuật toán mạng học sâu Q-network (DQN) đƣợc giới thiệu bởi Mnih et al. [45] có thể đạt đƣợc hiệu suất mạnh mẽ trong cài đặt trực tuyến cho nhiều trò chơi ATARI, bằng cách học hỏi từ các pixel. Nó sử dụng hai phƣơng pháp heuristics để hạn chế những bất ổn:  Mục tiêu của mạng Q-network trong công thức (3) đƣợc thay thế ( ) trong đó các tham số với nhiệm vụ sau: chỉ đƣợc cập nhật tại lần lặp C∈ . Nó ngăn chặn sự bất ổn lan truyền nhanh chóng và làm giảm nguy cơ phân kỳ do các giá trị mục tiêu nguyên cho C lần lặp. 11 đƣợc giữ Ý tƣởng về mạng mục tiêu có thể đƣợc coi là sự khởi tạo của Fitted Qlearning, trong đó mỗi khoảng thời gian giữa các lần cập nhật mạng mục tiêu tƣơng ứng với một lần lặp Q-iteration duy nhất.  Trong cài đặt trực tuyến, bộ nhớ phát (tải) lại [6] lƣu giữ tất cả các thông tin cho các bƣớc cuối Nreplay ∈ N, tại đây trải nghiệm đƣợc thu thập theo chính sách -greedy. Các cập nhật sau đƣợc thực hiện trên tập hợp (đƣợc gọi là mini-batch) đƣợc chọn ngẫu nhiên trong bộ nhớ phát lại. Kỹ thuật này cho phép các bản cập nhật bao gồm một loạt các không gian trạng thái-hành động. Ngoài ra, một bản cập nhật theo mini-batch có ít phƣơng sai hơn so với một bản cập nhật nhiều đợt. Do đó, nó cung cấp khả năng cập nhật các tham số lớn hơn, đồng thời có khả năng song song hóa thuật toán. Hình 1.7: Bảng phác thảo thuật toán DQN [45] 1.4. Mục tiêu của đề tài Áp dụng DRL vào trong việc thiết kế cơ chế lựa chọn phiên bản của pHotDASH phù hợp với điều kiện môi trƣờng truyền và nâng cao trải nghiệm ngƣời dùng ở mức cao nhất có thể. 1.5. Phạm vi nghiên cứu Chỉ áp dụng DRL để thiết kế thuật toán lựa chọn phiên bản của pHotDASH phù hợp với điều kiện môi trƣờng truyền tại tầng ứng dụng để đến ngƣời dùng với chất lƣợng trải nghiệm cao nhất. 12

- Xem thêm -

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất