UBND TỈNH BÌNH DƢƠNG
TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT
ĐỖ THỊ THỦY PHƢƠNG
ADAPTIVE STREAMING VIDEO BẰNG DEEP
REINFORCEMENT LEARNING
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SỸ
BÌNH DƢƠNG - 2020
UBND TỈNH BÌNH DƢƠNG
TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT
ĐỖ THỊ THỦY PHƢƠNG
ADAPTIVE STREAMING VIDEO BẰNG DEEP
REINFORCEMENT LEARNING
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SỸ
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. LÊ TUẤN ANH
BÌNH DƢƠNG - 2020
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu,
kết quả nêu trong Luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất
kỳ công trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã
đƣợc cảm ơn và các thông tin trích dẫn trong Luận văn đã đƣợc chỉ rõ nguồn gốc.
Học viên thực hiện đề tài
i
LỜI CẢM ƠN
Để có thể hoàn thành Luận văn này, tôi xin gửi lời cảm ơn chân thành tới
PGS.TS. Lê Tuấn Anh. Thầy đã tận tình giảng dạy, hỗ trợ các bài báo và hƣớng
dẫn giúp tôi tiếp cận việc nghiên cứu của mình. Thầy đã luôn tận tâm động viên,
khuyến khích và chỉ dẫn giúp tôi hoàn thành đƣợc luận văn này.
Bên cạnh đó, tôi cũng xin gửi lời cám ơn đến gia đình đã tạo điều kiện cho
tôi có thời gian học hỏi và nghiên cứu. Xin cảm ơn đến các bạn cùng lớp đã đƣa
những ý kiến đóng góp để đề tài này đƣợc thực hiện hoàn chỉnh hơn.
Và đặc biệt, tôi xin cảm ơn Viện Sau đại học - trƣờng Đại học Thủ Dầu
Một đã tạo môi trƣờng cho tôi có điều kiện để học hỏi những kiến thức mới,
những hƣớng nghiên cứu thật hay và ý nghĩa.
Học viên thực hiện đề tài
ii
MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... i
LỜI CẢM ƠN ...........................................................................................................ii
MỤC LỤC ................................................................................................................iii
DANH MỤC CHỮ VIẾT TẮT................................................................................ iv
DANH MỤC BẢNG ................................................................................................. v
DANH MỤC HÌNH, ĐỒ THỊ .................................................................................. vi
MỞ ĐẦU ................................................................................................................... 1
CHƢƠNG 1. TỔNG QUAN ..................................................................................... 3
1.1. Giới thiệu tổng quan về nền tảng phát trực tuyến video bằng DASH................ 3
1.2. Học tăng cƣờng .................................................................................................. 5
1.3. Học tăng cƣờng sâu ............................................................................................ 8
1.4. Mục tiêu của đề tài ........................................................................................... 12
1.5. Phạm vi nghiên cứu .......................................................................................... 12
CHƢƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN ................................................. 14
2.1. Các thuật toán ABR cơ bản .............................................................................. 14
2.2. HotDASH ......................................................................................................... 16
CHƢƠNG 3. ĐỀ XUẤT GIẢI PHÁP VÀ ĐÁNH GIÁ HIỆU NĂNG.................. 28
3.1. Đề xuất giải pháp .............................................................................................. 28
3.2. Thực nghiệm và kết quả ................................................................................... 29
3.3. Phƣơng pháp luận ............................................................................................. 33
3.4. Đánh giá kết quả ............................................................................................... 34
KẾT LUẬN ............................................................................................................. 39
TÀI LIỆU THAM KHẢO ....................................................................................... 41
iii
DANH MỤC CHỮ VIẾT TẮT
ABR: Adaptive Bitrate Streaming
DASH: Dynamic Adaptive Streaming over HTTP
DL: Deep Learning
DRL: Deep Reinforcement Learning
ML: Machine Learning
NN: Neural Network
pHotDASH: Prioritized HotDASH
QoE: Quality of Experience
RL: Reinforcement Learning
iv
DANH MỤC BẢNG
Bảng 1.1 - Sự khác biệt giữa 2 giao thức HTTP và RTMP ..................................... 4
Bảng 2.1 - Trạng thái các tham số của Cơ chế quyết định HotDASH................... 19
v
DANH MỤC HÌNH, ĐỒ THỊ
Hình 1.1: Truyền phát bit thích ứng bằng DASH theo các cách tiếp cận hiện đại .. 3
Hình 1.2: Mô hình sự tƣơng tác của Tác nhân – Môi trƣờng trong RL ................... 6
Hình 1.3: Minh họa MDP [41] ................................................................................. 7
Hình 1.4: Lƣợc đồ chung của các phƣơng pháp học tăng cƣờng sâu ...................... 8
Hình 1.5: Mô hình Học sâu ...................................................................................... 8
Hình 1.6: Lƣợc đồ chung của các phƣơng pháp khác nhau cho RL [41]. ............. 10
Hình 1.7: Bảng phác thảo thuật toán DQN [45] .................................................... 12
Hình 2.1: HotDASH tổng quan .............................................................................. 16
Hình 2.2: Cơ chế quyết định HotDASH [42] ......................................................... 18
Hình 2.3: Mô hình RL quyết định tìm nạp trƣớc [42] ........................................... 23
Hình 2.4: Luồng điều khiển trong hotdash.js ......................................................... 25
Hình 3.1: Hàm phần thƣởng sau khi thực hiện huấn luyện với 60,000 bƣớc. ....... 31
Hình 3.2: Quản lý bộ đệm trong hotdash.js ........................................................... 31
Hình 3.3: Quản lý bộ đệm với cải tiến hotdash.js của đề tài.................................. 32
Hình 3.4: Sự cải thiện bitrate ................................................................................. 35
Hình 3.5: Tần suất (chuẩn hóa) của các quyết định tìm nạp trƣớc đƣợc thực hiện
trong mỗi phiên phát lại video ............................................................................... 36
Hình 3.6: CDF của QoEhotspot thu đƣợc cho mỗi thuật toán đƣợc thể hiện ............ 37
Hình 3.7: Chuẩn hóa QoEhotspot (wrt FESTIVE) thu đƣợc cho mỗi thuật toán ...... 37
Hình 3.8: So sánh các QoE riêng lẻ và tổng QoE giữa pHotDASH với HotDASH
và Pensieve. ............................................................................................................ 38
vi
MỞ ĐẦU
Lƣu lƣợng truy cập từ các ứng dụng phát trực tuyến video dựa trên
HTTP chiếm tỷ trọng lớn nhất trong tổng lƣu lƣợng Internet toàn cầu trong
những năm gần đây. Đồng thời, nhu cầu của ngƣời dùng về nội dung video với
Chất lƣợng trải nghiệm cao (QoE) đã tăng lên nhanh chóng. Việc không thể cung
cấp QoE thỏa đáng cho ngƣời dùng chuyển thành tổn thất nặng nề cho các nhà
cung cấp dịch vụ. Tuy nhiên, các biến chứng phát sinh từ việc ngƣời dùng khác
nhau trải nghiệm cùng một video khác nhau.
Với sự bùng nổ về dân số và sự phát triển ngày càng cao của công nghệ,
thì sự khao khát về lƣợng thông tin của con ngƣời ngày một lớn hơn. Các thông
tin video đƣợc lấy từ nhiều nguồn khác nhau nhƣ youtube, facebook, tiktok…
Trong khi môi trƣờng sống càng phát triển thì đời sống tinh thần của con ngƣời
cũng phải cải thiện theo, các thông tin video ngoài mang tính thông tin, nghiên
cứu mà còn mang tính giải trí.
Và cùng với việc phát triển hàng ngày của công nghệ, việc truyền tải
video ngày càng thách thức cho các nhà đầu tƣ khi phải nâng cấp chất lƣợng trải
nghiệm của ngƣời dùng. Việc không thể cung cấp QoE thỏa đáng cho ngƣời
dùng chuyển thành tổn thất nặng nề cho các nhà cung cấp dịch vụ. Nhiều nghiên
cứu đã chỉ ra rằng chất lƣợng trải nghiệm video cho ngƣời dùng có thể phụ thuộc
vào nhiều yếu tố khác nhau, bao gồm giới tính, tuổi tác, cộng đồng, nội dung, …
Dẫn đến nhu cầu trải nghiệm thông tin trải nghiệm video của ngƣời dùng đƣợc cá
nhân hóa.
Các nhà cung cấp dịch vụ video chủ yếu sử dụng Truyền phát thích ứng
động qua HTTP (DASH), để phục vụ nội dung cho các thuê bao của họ. Video
mục tiêu thƣờng đƣợc chia thành các đoạn thời gian phát cố định, với mỗi đoạn
đƣợc lƣu trữ chất lƣợng khác nhau. Trình phát video phía máy khách cố gắng
ƣớc tính băng thông khả dụng, dựa trên các điều kiện phát hiện tại (về thông
lƣợng, trạng thái bộ đệm, v.v.) và sử dụng thuật toán bit thích ứng (ABR) để
chọn chất lƣợng tối ƣu cho đoạn tiếp theo. Tuy nhiên, các vấn đề phát sinh khi
ƣớc lƣợng là không chính xác; nếu máy khách chất lƣợng cao đƣợc khách hàng
1
yêu cầu khi không đủ băng thông, thì bộ phát lại bị trì hoãn trong vài giây (cho
đến khi đoạn đƣợc tải xuống hoàn toàn), một hiện tƣợng đƣợc gọi là tải lại. Bên
cạnh việc phát lại, thay đổi đột ngột về chất lƣợng của các đoạn liên tiếp cũng
cản trở QoE; các thuật toán phát trực tuyến cố gắng làm giảm mức độ thay đổi
đột ngột, và làm tăng độ mƣợt khi phát lại. Phải kể đến các thuật toán ABR tiên
tiến, ví dụ: MPC và Pensieve, đƣợc tối ƣu hóa cho chức năng mục tiêu (hoặc
phần thƣởng), bao gồm ba thành phần cạnh tranh: (1) bit cao, (2) ít xáo trộn và
(3) độ mịn cao.
Mặc dù kịch bản đã nói ở trên là tối ƣu nhất về mặt sử dụng băng thông,
nhƣng đối với ngƣời dùng, sự biến đổi chất lƣợng có vẻ ngẫu nhiên và không
thỏa đáng. Do đó, yêu cầu phải có chiến lƣợc truyền phát video có tính đến nội
dung tùy chọn của ngƣời dùng, bên cạnh việc sử dụng băng thông tối ƣu. Cụ thể
hơn, thuật toán phát trực tuyến phải nhận thức đƣợc thời gian ƣu tiên cao các
phân đoạn trong video - mà chúng tôi gọi là các hotspot trong đề tài này - và tối
ƣu hóa phân phối video tƣơng ứng.
Trong đề tài này, chúng tôi sử dụng học tăng cƣờng sâu trong truyền
phát video thích ứng, cụ thể, chúng tôi đề xuất hệ thống pHotDASH, một cải tiến
nhỏ trên nền tảng của hệ thống HotDASH khi cho thêm các mức hot tại các đoạn
hotspot, để tùy chọn nội dung của ngƣời dùng trong quá trình truyền phát video
thích ứng qua HTTP phù hợp với điều kiện môi trƣờng truyền và nâng cao trải
nghiệm ngƣời dùng ở mức cao nhất có thể.
Luận văn này đƣợc chia làm 3 Chƣơng: Chƣơng 1 – Giới thiệu tổng quan
về nền tảng phát trực tuyến video bằng DASH; phƣơng pháp Học tăng cƣờng và
Học tăng cƣờng sâu; Mục tiêu và phạm vi nghiên cứu. Chƣơng 2 – Giới thiệu các
thuật toán ABR cơ bản; và HotDASH. Chƣơng 3 – Đề xuất giải pháp và đánh giá
hiệu năng.
2
CHƢƠNG 1. TỔNG QUAN
1.1.
Giới thiệu tổng quan về nền tảng phát trực tuyến video bằng
DASH
Truyền phát video thích ứng dựa trên HTTP (đƣợc chuẩn hóa là DASH)
là một kỹ thuật streaming cho phép truyền tải các nội dung media chất lƣợng cao
qua Internet. Tƣơng tự nhƣ giải pháp HTTP Live Streaming (HLS) của Apple,
MPEG-DASH hoạt động bằng cách chia nhỏ nội dung thành một chuỗi các phân
đoạn tệp dựa trên HTTP, mỗi phân đoạn chứa một khoảng thời gian phát khác
nhau.
DASH là giải pháp phân phối đƣợc lựa chọn cho hầu hết các nhà cung
cấp dịch vụ video trong thời gian gần đây. Hình 1 minh họa hoạt động của trình
phát DASH khách: bộ điều khiển ABR trong trình phát nhận các điều kiện phát
về thông lƣợng (từ trình ƣớc lƣợng thông lƣợng) và kích thƣớc bộ đệm (từ bộ
điều khiển bộ đệm). Sau đó, nó xác định bitrate tối ƣu cho đoạn tiếp theo và bắt
đầu tải xuống từ CDN (hoặc máy chủ nội dung) tƣơng ứng
Hình 1.1: Truyền phát bit thích ứng bằng DASH theo các cách tiếp cận hiện đại: Bộ
điều khiển ABR trong trình phát máy khách chuyển tiếp các điều kiện phát lại (thông
lƣợng, bộ đệm bị chiếm, v.v.) đến máy chủ ABR bên ngoài, đáp ứng với bitrate tối ƣu
cho đoạn tiếp theo
3
Bảng 1.1 - Sự khác biệt giữa 2 giao thức HTTP và RTMP
Giao thức HTTP
Giao thức RTMP
Messaging server (Adobe Flash Media
Web server (Apache, Lighttpd, Nginx…)
Server, Wowza Media Server, Red5…)
Sử dụng Web Browser
Sử dụng Flash player
Truyền văn bản thời gian ngắn (Phù hợp với Truyền dữ liệu thời gian thực/dài (Phù
web truyền thống)
hợp với các file Media: Nhạc, Phim)
SOAP, XML
AMF
File .html, .js
File .swf, .as, .flv, .mp3
MPEG DASH là tên viết tắt của: Dynamic Adaptive Streaming Over
HTTP, đây là 1 tiêu chuẩn đƣợc định nghĩa bởi ISO (ISO/IEC 23009-1).
MPEG-DASH hoạt động bằng cách chia nhỏ nội dung thành một chuỗi
các phân đoạn nhỏ, đƣợc phát qua HTTP. Mỗi phân đoạn chứa một khoảng thời
gian ngắn của nội dung có thể có thời lƣợng nhiều giờ chẳng hạn nhƣ một bộ
phim hoặc một chƣơng trình truyền hình thực tế phát sóng trực tiếp. Nội dung
đƣợc cung cấp ở nhiều bitrate khác nhau, tức là các phân đoạn thay thế đƣợc mã
hóa ở các bitrate khác nhau bao gồm các khoảng thời gian phát lại ngắn đƣợc căn
chỉnh. Trong lúc nội dung đang đƣợc phát lại phát lại bởi máy khách MPEGDASH, máy khách sẽ sử dụng thuật toán bit thích ứng (ABR) để tự động chọn
phân đoạn có bitrate cao nhất có thể để tải xuống phát kịp thời mà không gây
ngừng hoặc tải lại cho các đoạn khi đang phát. Một máy khách MPEG-DASH có
thể thích ứng với các điều kiện mạng không ổn địh và cung cấp đoạn phát có chất
lƣợng cao với một số lỗi hoặc sự cố sẽ lƣu vào bộ đệm tải lại.
MPEG-DASH sử dụng cơ sở hạ tầng máy chủ web HTTP hiện có để
phân phối một cách sơ bộ nhất nội dung world wide web. Cho phép các thiết bị
4
có kết nối Internet phát nội dung đa phƣơng tiện đƣợc phân phối qua Internet
trong bối cảnh tình trạng/ điều kiện mạng không ổn định. DASH là một tiêu
chuẩn dành cho việc điều phối linh hoạt các bit video đƣợc phát thông qua giao
thức HTTP, nó có khả năng thay thế các công nghệ hiện tại nhƣ Microsoft
Smooth Streaming, Adobe Dynamic Streaming, Apply HTTP Live Streaming
(HLS). DASH chính là một hình thức thống nhất của các công nghệ này.
Học tăng cƣờng
1.2.
Học máy (Machine learning) là một lĩnh vực con của Trí tuệ nhân tạo
(Artificial Intelligence) sử dụng các thuật toán cho phép máy tính có thể học từ
dữ liệu để thực hiện các công việc thay vì đƣợc lập trình một cách rõ ràng.
Học tăng cƣờng là một trong ba nhánh mà các kỹ thuật học máy thƣờng đƣợc
phân loại:
Học có giám sát (supervised learning) là nhiệm vụ suy ra một phân loại
hoặc hồi quy từ dữ liệu huấn luyện đƣợc gắn nhãn.
Học không giám sát (unsupervised learning) là nhiệm vụ rút ra các suy
luận từ các tập dữ liệu bao gồm dữ liệu đầu vào mà không đƣợc gắn nhãn.
Học tăng cƣờng (RL) là nhiệm vụ học cách các tác nhân phải thực hiện
các chuỗi hành động trong một môi trƣờng để tối đa hóa phần thƣởng tích
lũy.
Mô hình học tăng cƣờng thƣờng bao gồm:
-
Các tác nhân (agents)
-
Môi trƣờng (environments).
RL tập trung giải quyết vấn đề hành động (acting, decision making) ở mỗi thời
điểm để thay đổi trạng thái (state) của môi trƣờng, từ đó đạt đƣợc kết quả tối ƣu
khi kết thúc.
5
TÍNH MARKOV
Chúng ta sẽ xem xét mô hình về quy trình kiểm soát ngẫu nhiên của Markovian
Hình 1.2: Mô hình sự tƣơng tác của Tác nhân – Môi trƣờng trong RL
Hình 1.2: Quy trình kiểm soát ngẫu nhiên có tính Markov nếu:
(
( |
)
|
)
(
)
|
( |
)
Quy trình quyết định Markov (MDP) trong Hình 1.3, là một bộ 5 biến
(S,A,T,R,γ):
S là không gian trạng thái,
A là không gian hành động,
T: S ×A×S → [0, 1] là hàm chuyển đổi (tập hợp các xác suất
chuyển đổi có điều kiện giữa các trạng thái),
R: S×A×S → R là hàm phần thƣởng, trong đó R là tập hợp liên tục
các phần thƣởng có thể có trong một phạm vi Rmax ∈ R+ (ví dụ [0,
Rmax]),
∈ [0, 1) là hệ số giảm trừ.
6
Tại mỗi thời điểm bƣớc t, xác suất chuyển đến st+1 đƣợc cung cấp bởi
hàm chuyển đổi trạng thái T(st,at,st+1) và phần thƣởng đƣợc đƣa ra bởi hàm phần
thƣởng giới hạn R(st,at,st+1)∈R
Hình 1.3: Minh họa MDP [41]
Trong thiết lập trực tuyến, vấn đề huấn luyện phức tạp hơn mà không
yêu cầu một lƣợng lớn dữ liệu (hiệu suất mẫu) ở khả năng khái quát hóa tốt của
thuật toán huấn luyện từ kinh nghiệm hạn chế. Tác nhân có khả năng thu thập
kinh nghiệm thông qua chiến lƣợc thăm dò/khai thác. Ngoài ra, tác nhân có thể
sử dụng bộ nhớ phát (tải) lại để lƣu trữ trải nghiệm của mình để có thể xử lý lại
sau. Trong cả cài đặt theo ngoại tuyến và cài đặt trực tuyến, một điều cần cân
nhắc cần bổ sung là hiệu suất tính toán, phụ thuộc vào hiệu suất của một bƣớc
giảm độ dốc nhất định. Một lƣợc đồ tổng quát của các phần tử khác nhau có thể
đƣợc tìm thấy trong hầu hết các thuật toán DRL đƣợc cung cấp trong Hình 1.4
[41]
7
Hình 1.4: Lƣợc đồ chung của các phƣơng pháp học tăng cƣờng sâu
1.3.
Học tăng cƣờng sâu
Chúng ta xem xét một cách tiếp cận mạnh mẽ gần đây đối với học máy,
đƣợc gọi là Học sâu (Deep Learning). Học sâu không phải là một nhánh riêng
biệt của học máy, vì vậy nó không phải là một nhiệm vụ học khác với những
nhiệm vụ đƣợc mô tả ở trên. Học sâu là tập hợp các kỹ thuật và phƣơng pháp sử
dụng mạng nơ-ron để giải quyết các nhiệm vụ học máy, bao gồm học có giám
sát, học không giám sát hoặc học tăng cƣờng và chúng ta có thể biểu diễn nó
bằng đồ thị trong hình sau:
Hình 1.5: Mô hình Học sâu
8
Học sâu có thể giải quyết các vấn đề bằng cách sử dụng nhiều phƣơng
pháp và kỹ thuật học máy khác nhau, từ cây quyết định đến SVM, hay mạng nơron. Tuy nhiên, chúng ta chỉ sử dụng mạng nơ-ron; đây là phần "sâu" mà học
tăng cƣờng sâu đề cập đến. Tuy nhiên, mạng nơ-ron không hẳn là giải pháp tốt
nhất cho mọi vấn đề, ví dụ, mạng nơ-ron rất ngốn dữ liệu và khó diễn giải, nhƣng
mạng nơ-ron tại thời điểm này là một trong những kỹ thuật mạnh nhất hiện có và
hiệu suất là tốt nhất.
Sau đây là nội dung về một trong những thuật toán dựa trên giá trị đơn
giản và phổ biến nhất, thuật toán Q-learning [43] và biến thể của nó, Fitted QLearning, sử dụng hàm xấp xỉ đƣợc tham số hóa [44]. Đồng thời đi vào cụ thể về
các yếu tố chính của thuật toán mạng Q-Learning học sâu (DQN) [45] đã đạt
đƣợc khả năng kiểm soát siêu phàm khi chơi trò chơi ATARI từ các pixel bằng
cách sử dụng mạng nơ-ron làm hàm xấp xỉ [41].
a. Q-Learning
Phiên bản cơ bản của Q-learning lƣu giữ một bảng tra cứu các giá trị
Q(s,a) (Phƣơng trình trong Hình 1.6) với một mục nhập cho mỗi cặp hành độngtrạng thái. Để tìm hiểu hàm giá trị Q-values tối ƣu, thuật toán Q-learning sử dụng
phƣơng trình Bellman cho hàm giá trị Q-values [46] có nghiệm duy nhất là
Q*(s,a):
Q*(s, a) = ( Q*)(s, a),
Trong đó,
là toán tử Bellman ánh xạ từ hàm bất kỳ: K :
)(
thành một
và đƣợc định nghĩa nhƣ sau:
hàm khác
(
(1)
)
∑
∈
(
)( (
)
∈
(
Theo định lý Banach, điểm cố định của toán tử Bellman
))
(2)
tồn tại vì nó
là một ánh xạ. Trên thực tế, một bằng chứng chung về sự hội tụ với hàm giá trị
tối ƣu có sẵn [43] với các điều kiện:
• Các cặp trạng thái-hành động đƣợc biểu diễn một cách riêng biệt và
9
• Tất cả các hành động đƣợc lấy mẫu lặp lại ở tất cả các trạng thái (đảm bảo
thăm dò hiệu quả, do đó không yêu cầu quyền truy cập vào mô hình
chuyển đổi)
Hình 1.6: Lƣợc đồ chung của các phƣơng pháp khác nhau cho RL [41].
b. Fitted Q-learning
Trong Fitted Q-learning [4], thuật toán bắt đầu với một số khởi tạo ngẫu
nhiên của các giá trị Q-values Q(s,a;θ0) trong đó θ0 đề cập đến các tham số ban
đầu (thƣờng sao cho các giá trị Q-values ban đầu phải tƣơng đối gần bằng 0 để
tránh học chậm). Sau đó, một giá trị xấp xỉ của Q-values tại lần lặp thứ kth
Q(s,a;θk) đƣợc cập nhật theo giá trị mục tiêu
∈
(
)
(3)
Trong đó θk đề cập đến một số tham số xác định giá trị Q-values ở lần lặp thứ kth.
Trong Q-learning (NFQ) [5] trạng thái có thể đƣợc cung cấp nhƣ một
đầu vào cho mạng Q-network và một đầu ra khác nhau đƣợc đƣa ra cho mỗi hành
động có thể. Điều này cung cấp một cấu trúc hiệu quả, có lợi thế là thu đƣợc
phép tính
∈
(
) trong một chuyển tiếp duy nhất trong mạng nơ-
ron a đƣợc đƣa ra từ s‟. Các giá trị Q-values đƣợc tham số hóa với mạng nơron
10
Q(s,a;θk) trong đó các tham số θk đƣợc cập nhật bằng phƣơng pháp giảm độ dốc
ngẫu nhiên (hoặc một biến thể) bằng cách tối thiểu hàm loss:
( (
)
)
(4)
Do đó, Q-Learning đƣợc cập nhật với các tham số:
(
(
))
(
)
(5)
Trong đó α là kích thƣớc bƣớc vô hƣớng đƣợc gọi là tốc độ học. Lƣu ý là
không đƣợc tùy tiện sử dụng hàm loss. Đề đảm bảo rằng Q(s,a;θk) hƣớng tới
Q*(s,a) sau nhiều lần lặp lại với giả sử mạng nơ ron phù hợp với nhiệm vụ và bộ
dữ liệu các trải nghiệm D là đủ.
Khi cập nhật các trọng số, ngƣời ta cũng thay đổi mục tiêu. Do khả năng
tổng quát hóa và ngoại suy của mạng nơron, cách tiếp cận này có thể tạo ra các
lỗi lớn ở những nơi khác nhau trong không gian trạng thái-hành động. Do đó,
thuộc tính ánh xạ của toán tử Bellman trong phƣơng trình (2) không đủ để đảm
bảo sự hội tụ nhƣ hội tụ chậm hoặc không ổn định khi tiến hành thực nghiệm.
Mặt khác, hàm xấp xỉ khi đƣợc sử dụng thì các giá trị Q-values có xu hƣớng
đƣợc đánh giá cao với toán tử max.
c. Mạng học sâu Q-network
Tận dụng ý tƣởng từ NFQ, thuật toán mạng học sâu Q-network (DQN)
đƣợc giới thiệu bởi Mnih et al. [45] có thể đạt đƣợc hiệu suất mạnh mẽ trong cài
đặt trực tuyến cho nhiều trò chơi ATARI, bằng cách học hỏi từ các pixel. Nó sử
dụng hai phƣơng pháp heuristics để hạn chế những bất ổn:
Mục tiêu của mạng Q-network trong công thức (3) đƣợc thay thế
(
) trong đó các tham số
với nhiệm vụ sau:
chỉ đƣợc cập nhật tại lần lặp C∈
. Nó ngăn chặn sự bất ổn lan truyền nhanh
chóng và làm giảm nguy cơ phân kỳ do các giá trị mục tiêu
nguyên cho C lần lặp.
11
đƣợc giữ
Ý tƣởng về mạng mục tiêu có thể đƣợc coi là sự khởi tạo của Fitted Qlearning, trong đó mỗi khoảng thời gian giữa các lần cập nhật mạng mục
tiêu tƣơng ứng với một lần lặp Q-iteration duy nhất.
Trong cài đặt trực tuyến, bộ nhớ phát (tải) lại [6] lƣu giữ tất cả các thông
tin cho các bƣớc cuối Nreplay ∈ N, tại đây trải nghiệm đƣợc thu thập theo
chính sách -greedy. Các cập nhật sau đƣợc thực hiện trên tập hợp (đƣợc gọi là mini-batch) đƣợc chọn ngẫu nhiên trong bộ nhớ phát lại.
Kỹ thuật này cho phép các bản cập nhật bao gồm một loạt các không gian
trạng thái-hành động. Ngoài ra, một bản cập nhật theo mini-batch có ít
phƣơng sai hơn so với một bản cập nhật nhiều đợt. Do đó, nó cung cấp
khả năng cập nhật các tham số lớn hơn, đồng thời có khả năng song song
hóa thuật toán.
Hình 1.7: Bảng phác thảo thuật toán DQN [45]
1.4.
Mục tiêu của đề tài
Áp dụng DRL vào trong việc thiết kế cơ chế lựa chọn phiên bản của
pHotDASH phù hợp với điều kiện môi trƣờng truyền và nâng cao trải nghiệm
ngƣời dùng ở mức cao nhất có thể.
1.5.
Phạm vi nghiên cứu
Chỉ áp dụng DRL để thiết kế thuật toán lựa chọn phiên bản của
pHotDASH phù hợp với điều kiện môi trƣờng truyền tại tầng ứng dụng để đến
ngƣời dùng với chất lƣợng trải nghiệm cao nhất.
12
- Xem thêm -