ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------
LA HOÀNG LỘC
PHÁT TRIỂN CÔNG CỤ GIẢ LẬP HỆ THỐNG
CONTENT DELIVERY NETWORK
Ngành: Khoa Học Máy Tính
Mã số: 8480101
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 08 năm 2021
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH
KHOA – ĐHQG – HCM
Cán bộ hướng dẫn khoa học: PGS.TS. Thoại Nam
Cán bộ chấm nhận xét 1: TS. Nguyễn Lê Duy Lai
Cán bộ chấm nhận xét 2: PGS.TS. Trần Công Hùng
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG
Tp. HCM ngày 5 tháng 08 năm 2021.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. PGS. TS. Trần Văn Hoài
(Chủ tịch Hội đồng)
2. TS. Lê Thanh Vân
(Thư ký Hội đồng)
3. TS. Nguyễn Lê Duy Lai
(Phản biện 1)
4. PGS.TS. Trần Công Hùng
(Phản biện 2)
5. PGS. TS. Nguyễn Thanh Hiên
(Ủy viên)
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
PGS. TS. Trần Văn Hoài
TRƯỞNG KHOA KHOA HỌC VÀ
KỸ THUẬT MÁY TÍNH
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: LA HOÀNG LỘC .......................................... MSHV: 1970019
Ngày, tháng, năm sinh: 24-09-1996 .......................................... Nơi sinh: TP.HCM
Ngành: Khoa Học Máy Tính ..................................................... Mã số : 8480101
I. TÊN ĐỀ TÀI: Phát triển công cụ giả lập hệ thống Content Delivery Network .............
.............................................................................................................................................
II. NHIỆM VỤ VÀ NỘI DUNG: Tìm hiểu về kiến trúc, đặc tính của hệ thống
Content Delivery Network (CDN). Thiết kế và hiện thực công cụ giả lập cho hệ
thống CDN. Đề xuất giải thuật tự động tìm bộ số tối ưu cho hệ thống CDN..................
.............................................................................................................................................
III. NGÀY GIAO NHIỆM VỤ : 21/09/2020 ..................................................................
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 13/06/2021 ..................................................
V. CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): PGS.TS. Thoại Nam .....
Tp. HCM, ngày . . . . tháng .. . . năm 20....
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
LỜI CẢM ƠN
Trong suốt thời gian học chương trình đào tạo thạc sĩ tại Đại học Bách Khoa
thành phố Hồ Chí Minh, đặc biệt là giai đoạn làm luận văn tốt nghiệp, tôi đã nhận
được rất nhiều sự quan tâm, động viên, giúp đỡ của gia đình, thầy cô, các anh chị
trong phòng thí nghiệm.
Trước hết, tôi xin gửi lời cảm ơn sâu sắc đến gia đình mình, đặc biệt là mẹ tôi.
Người luôn bên cạnh và ủng hộ tôi trong suốt con đường học tập mà tôi đã chọn.
Tiếp theo tôi xin gửi lời cảm ơn chân thành nhất đến thầy hướng dẫn PGS.TS.
Thoại Nam. Thầy là người luôn nhiệt tình lắng nghe và đóng góp ý kiến cho luận văn
của tôi. Đồng thời thầy luôn có định hướng và hướng dẫn rõ ràng nên làm gì và không
nên làm gì cho sinh viên của mình.
Tôi cũng xin gửi lời cám ơn đến các thầy cô đã giảng dạy cho tôi trong suốt
thời gian tại cao học cũng như đại học, những người đã trang bị cho tôi các kiến thức
quý báu và cần thiết cho con đường học thuật phía trước của tôi.
Cuối cùng tôi xin cảm ơn Trường Đại học Bách Khoa và Phòng thí nghiệm
Tính toán hiệu năng cao, tất cả các thầy cô, các bạn/anh/chị đồng nghiệp, đã tạo cho
tôi một môi trường học tập, nghiên cứu tốt, hào hứng, và ý nghĩa.
Một lần nữa, tôi xin chân thành cảm ơn!
La Hoàng Lộc
13/06/2021
i
TÓM TẮT LUẬN VĂN
Trong những năm gần đây, nhu cầu người sử dụng các dịch vụ trực tuyến ngày
càng tăng dẫn đến việc một khối lượng dữ liệu khổng lồ được truyền tải trong mạng.
Việc phục vụ một số lượng lớn yêu cầu người dùng tạo nên áp lực lớn lên cơ sở hạ
tầng mạng, ảnh hưởng trực tiếp đến chất lượng dịch vụ của các nhà cung cấp nội dung
trực tuyến. Mô hình mạng truyền thống khó có thể đáp ứng được khi quy mô dịch vụ
ngày càng tăng. Một giải pháp nhằm giải quyết vấn đề này là mô hình mạng Content
Delivery Network (CDN). Cụ thể hơn, mô hình này sinh ra nhằm giảm thiểu độ trễ gói
tin truyền tải từ hệ thống đến người dùng, từ đó tăng tốc độ phản hồi, cải thiện chất
lượng dịch vụ và trải nghiệm phía người dùng. Một hệ thống CDN gồm nhiều replica
servers phân tán, cache nội dung đi qua nó và truyền tải nội dung tới người dùng với
chi phí thấp hơn khi truyền tải từ hệ thống của nhà cung cấp nội dung.
Tuy nhiên, một vấn đề khi ứng dụng các hệ thống CDN vào thực tế là các nhà
cung cấp dịch vụ CDN muốn đầu tư cơ sở hạ tầng để mở rộng dịch vụ của họ, hay họ
muốn thử nghiệm các chiến lược, giải thuật caching mới khác. Để giải đáp những vấn
đề này, một môi trường giả lập để thử nghiệm là vô cùng cần thiết. Mặc dù trước đây
đã có nhiều công cụ mô phòng hệ thống CDN nhưng chúng đều có những khuyết
điểm nhất định. Cụ thể hơn, những công cụ mô phỏng simulation thường dựa trên mô
hình discrete-event và không thể giả lập được các chức năng, hành vi của các ứng
dụng thực tiễn. Một cách tiếp cận khác xây dựng các test-bed để tái triển khai các ứng
dụng thực lên thiết bị phần cứng. Tuy nhiên, các test-beds này rất cồng kềnh, thiếu
tính linh hoạt và chỉ sử dụng được trong các ngữ cảnh hạn hẹp. Để khắc phục các
nhược điểm kể trên, luận văn này phát triển một bộ giả lập với tính năng thiết lập hệ
thống đa dạng, có khả năng tái triển khai lại các ứng dụng thực tế của môi trường thực
với chi phí thấp, độ tin cậy cao. Đây cũng là môi trường thử nghiệm đáng tin cậy cho
các nhà nghiên cứu lĩnh vực này.
Bên cạnh bộ giả lập hệ thống CDN, luận văn cũng phát triển một module tự
động tối ưu hóa thiết lập tài nguyên cho hệ thống. Các nhà đầu tư hệ thống CDN
thường quan tâm đến bài toán tối ưu hóa chi phí khi đầu tư cơ sở hạ tầng. Cụ thể hơn,
ii
họ muốn tối thiểu hóa các chi phí đầu tư tài nguyên của hệ thống, đồng thời tối đa hóa
chất lượng dịch vụ và trải nghiệm người dùng. Luận văn giải quyết bài toán này như
một bài toán tối ưu hóa đa mục tiêu rời rạc sử dụng giải thuật Bayesian. Tuy nhiên,
giải thuật Bayesian gốc khi áp dung cho bài toán rời rạc thường rất dễ bị “kẹt” tại các
điểm tối ưu cục bộ. Để cải thiện vấn đề này của giải thuật Bayesian trong ngữ cảnh bài
toán tối ưu hóa đa mục tiêu rời rạc, luận văn đề xuất một hướng tiếp cận để tối ưu hóa
quá trình exploration và exploitation thông qua việc điều chỉnh các tham số của
acquisition function.
Luận văn vừa mang tính ứng dụng thực tiễn vừa có tính đóng góp học thuật với
bộ công cụ được phát triển và các kết quả thí nghiện sử dụng dữ liệu và thông tin từ hệ
thống thực tại Việt Nam. Cụ thể hơn, luận văn ứng dụng giải thuật tối ưu hóa được đề
suất vào một hệ thống CDN thực tế tại Việt Nam. Kết quả thí nghiệm cho thấy, giải
thuật tối ưu hóa được đề xuất có khả năng cải thiện gần 39% chi phí với cùng chất
lượng dịch vụ.
iii
ABSTRACT
In recent years, the arising demand for media services led to generating an
enormous amount of network traffic. Serving a large number of users can put pressure
on the network infrastructure, which directly affects the quality of content providers'
services. The traditional hosting schema cannot guarantee the quality of service (QoS)
when the services scale up. A solution for this problem is the Content Delivery
Network (CDN) schema. In particular, this schema tries to improve QoS and the user
experience by reducing packet latency. A CDN system contains several
geographically distributed replica servers, which cache contents and send them to the
users at a low cost comparing with sending from the content providers' system.
However, there are many arising problems when applying this schema to the
real environment. For instance, the CDN provider wants to know how many resources
to invest when scaling up their services. Another example, they want to experiment
with new caching strategies to improve their system performance. To resolve these
problems, developing an experimental environment is necessary. Furthermore, many
simulators and testbeds have been published, but they have typical limitations.
Simulators are usually based on the discrete event model and cannot guarantee the
functional realism of system applications. Another approach is to building testbeds on
the physical machine. The real applications are also reproduced in the test-beds
environment. However, these environments are cumbersome and difficult to adapt to
new systems. To overcome these drawbacks, this thesis develops a CDN emulator.
Especially, our tool provides a virtual environment with high fidelity, network
flexibility, low cost, and repeatability of simulators but still guarantees testbeds'
realism. This is also a reliable experimental environment for researchers.
Besides the emulator, this thesis also develops a module to optimize the
resource configuration for the CDN system automatically. The CDN providers usually
want to resolve the investment problem when building the system infrastructure.
Particularly, they want to minimize the investment cost and maximize their system
performance or the QoS at the same time. The thesis model this problem as a discrete
iv
multi-objective problem and resolves it using Bayesian algorithms. However, when
resolving discrete problems, the original Bayesian methods are usually stuck in local
optimal points. To overcome this problem, the thesis proposed an approach to
dynamically adapt the trade-off between exploration and exploitation by modifying
the parameters of the acquisition function.
This thesis results contribute both practical meaning and academic meaning with
the emulator and the experimental results using a real dataset from a Vietnam CDN
system. Particularly, the thesis applies the proposed method to optimize this real
system. The experimental results show that the proposed method can help the system
owner save 39% of the cost with the same QoS.
v
LỜI CAM ĐOAN
Luận văn của tôi có tham khảo các tài liệu, bài báo, trang web như được trình
bày ở mục tài liệu tham khảo và ở mỗi tham khảo tôi đều trích dẫn nguồn gốc. Tôi xin
cam đoan rằng ngoài những trích dẫn từ các tham khảo trên, toàn bộ nội dung trong
báo cáo là do tôi tự soạn thảo từ những kết quả nghiên cứu của riêng tôi, không sao
chép từ bất kì tài liệu nào khác.
Tôi sẽ hoàn toàn chịu xử lí theo qui định nếu có bất cứ sai phạm nào so với lời
cam kết.
La Hoàng Lộc
vi
MỤC LỤC
LỜI CẢM ƠN .................................................................................................................. i
TÓM TẮT LUẬN VĂN ................................................................................................. ii
ABSTRACT .................................................................................................................. iv
LỜI CAM ĐOAN .......................................................................................................... vi
MỤC LỤC .................................................................................................................... vii
DANH MỤC HÌNH........................................................................................................ x
DANH MỤC BẢNG .................................................................................................... xii
DANH MỤC CÁC TỪ VIẾT TẮT .............................................................................xiii
CHƯƠNG 1:
TỔNG QUAN ..................................................................................... 1
1.1 Giới thiệu ................................................................................................ 1
1.2 Ý nghĩa đề tài .......................................................................................... 2
1.2.1 Ý nghĩa thực tiễn .............................................................................. 2
1.2.2 Ý nghĩa khoa học ............................................................................. 3
1.3 Phạm vi đề tài: ........................................................................................ 3
1.4 Bố cục: .................................................................................................... 4
CHƯƠNG 2:
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN .......................... 5
2.1 Tổng quan về các hướng phân tích và mô hình hóa hệ thống CDN ....... 5
2.2 Một số nghiên cứu liên quan đến bài toán cấp phát tài nguyên cho hệ
thống CDN………….. ................................................................................................ 7
2.3 Tổng quan về bài toán tối ưu hóa đa mục tiêu ........................................ 8
2.3.1 Các hướng nghiên cứu chính ........................................................... 8
2.3.2 Giải thuật Bayesian cho bài toán đa mục tiêu .................................. 9
vii
2.3.3 Các cách tiếp cận để giải quyết bài toán tối ưu hóa rời rạc sử dụng
Bayesian…………………………………………………………………………10
CHƯƠNG 3:
CƠ SỞ LÝ THUYẾT ........................................................................ 11
3.1 Tổng quan về Content Delivery Network ............................................. 11
3.1.1 Khái niệm ....................................................................................... 11
3.1.2 Các đối tượng chính ....................................................................... 11
3.1.3 Phân loại ......................................................................................... 12
3.1.4 Các bài toán con trong chiến lược caching của hệ thống CDN: .... 15
3.2 Thư viện Mininet .................................................................................. 15
3.3 Bài toán tối ưu hóa đa mục tiêu ............................................................ 16
3.3.1 Định nghĩa ...................................................................................... 16
3.3.2 Độ đo .............................................................................................. 17
3.4 Giải thuật NSGA-II cho bài toán đa mục tiêu ...................................... 18
3.5 Giải thuật Bayesian cho bài toán đa mục tiêu....................................... 19
3.5.1 Cơ sở lý thuyết cho giải thuật Bayesian tổng quát......................... 19
3.5.2 Giải thuật Bayesian cho bài toán đa mục tiêu ................................ 23
CHƯƠNG 4:
THIẾT KẾ CỦA BỘ GIẢ LẬP ........................................................ 25
4.1 Các thành phần chính ............................................................................ 25
4.2 Thiết kế tổng quan ................................................................................ 27
4.2.1 Main Module .................................................................................. 28
4.2.2 Server Module ................................................................................ 28
4.2.3 Client Module ................................................................................ 29
4.2.4 Content Provider Module ............................................................... 30
4.2.5 Tài nguyên mạng ............................................................................ 30
4.2.6 Dashboard ...................................................................................... 31
4.3 Độ đo đánh giá chất lượng hệ thống CDN ........................................... 32
viii
4.4 Cấu trúc của file cấu hình hệ thống: ..................................................... 33
4.5 Kết luận ................................................................................................. 34
CHƯƠNG 5:
BÀI TOÁN TỐI ƯU THIẾT LẬP CDN ........................................... 35
5.1 Bài toán tổng quát ................................................................................. 35
5.2 Bài toán cấp phát bộ nhớ ...................................................................... 36
5.3 Bài toán phân bố replica server ............................................................ 37
5.4 Giải pháp ............................................................................................... 38
5.4.1 Giải thuật tiến hóa (Baseline) ........................................................ 38
5.4.2 Giải thuật Bayesian ........................................................................ 38
CHƯƠNG 6:
THỰC NGHIỆM ............................................................................... 43
6.1 Thí nghiệm đánh giá công cụ giả lập CDN .......................................... 43
6.1.1 Môi trường thí nghiệm ................................................................... 44
6.1.2 Thí nghiệm đánh giá độ tin cậy...................................................... 46
6.1.3 Thí nghiệm đánh giá mức hiệu năng của công cụ ......................... 48
6.1.4 Một use case thực tiễn: Điều chỉnh thông số bộ nhớ cấp phát cho
hệ thống CDN ....................................................................................................... 50
6.2 Thí nghiệm cho bài toán tối ưu thiết lập CDN ..................................... 51
6.2.1 Môi trường thí nghiệm ................................................................... 51
6.2.2 Kết quả thí nghiệm ......................................................................... 52
CHƯƠNG 7:
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................ 57
DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ ............................................................. 59
TÀI LIỆU THAM KHẢO ............................................................................................ 60
LÝ LỊCH TRÍCH NGANG .......................................................................................... 67
ix
DANH MỤC HÌNH
Hình 1. Mô hình CDN truyền thống. ............................................................................ 13
Hình 2. Mô hình cloud CDN ........................................................................................ 14
Hình 3. Mô hình Telco CDN ........................................................................................ 14
Hình 4. Ví dụ về Dominance và Pareto front cho bài toán 2 mục tiêu......................... 17
Hình 5. Ví dụ Hypervolume Indicator trong không gian 2 chiều................................. 18
Hình 6. Mã giả giải thuật tối ưu hóa Bayesian tổng quát. ............................................ 20
Hình 7. Tổng quan thiết kế các module của bộ giả lập. ............................................... 27
Hình 8. Hai lựa chon cho Server Module. .................................................................... 29
Hình 9. Ví dụ 1 chart trong dashboard theo dõi tình trạng các máy ảo. ....................... 31
Hình 10. Ví dụ về file thiết lập môi trường cho bộ giả lập. ......................................... 34
Hình 11. Ví dụ trường hợp 2 Pareto front có cùng Hypervolume Indicator nhưng có
hình dáng khác nhau. .................................................................................................... 40
Hình 12. Mã giả giải thuật điều chỉnh tham số β.. ....................................................... 41
Hình 13. Kiến trúc hệ thống CDN của một công ty tại Việt Nam. .............................. 45
Hình 14. Hit rate trung bình tại Edge Servers, Regional Servers và toàn hệ thống của
bộ giả lập và log file hệ thống thực. ............................................................................. 47
Hình 15. Độ trễ của dịch vụ ở khung giờ thấp và cao điểm trả về từ bộ giả lập và log
file hệ thống thực. ......................................................................................................... 48
Hình 16. Tương quan về thời gian chạy và bandwidth mạng của bộ giả lập với các
kích thước mạng khác nhau. ......................................................................................... 49
Hình 17. Thời gian chạy và tiêu thụ bộ nhớ của bộ giả lập với số lượng node ảo và giá
trị PD khác nhau. .......................................................................................................... 50
Hình 18. Hit rate hệ thống CDN của công ty Việt Nam khi thay đổi bộ nhớ tại Edge và
Regional Servers. .......................................................................................................... 51
Hình 19. Kiến trúc hệ thống CDN của một nhà mạng tại Pháp. .................................. 52
Hình 20. Kiến trúc hệ thống CDN của công ty NTT tại Pháp. .................................... 52
Hình 21. Kết quả chạy các giải thuật tối ưu hóa đa mục tiêu cho bài toán cấp phát bộ
nhớ với dữ liệu mô phỏng............................................................................................. 54
x
Hình 22. Pareto front của giải thuật USeMO-UCB gốc và giải thuật USeMO-UCB với
giải pháp điều chỉnh tham số β.. ................................................................................... 55
Hình 23. Sự đánh đổi giữa chi phí tiết kiệm được và chất lượng hệ thống. ................. 55
Hình 24. Kết quả chạy các giải thuật tối ưu hóa đa mục tiêu cho bài toán phân phối
replica servers với dữ liệu mô phỏng. .......................................................................... 56
xi
DANH MỤC BẢNG
Bảng 2-1: Một số công trình liên quan đến bài toán cấp phát tài nguyên CDN……… 7
Bảng 5-1: Thông số giải thuật Bayesian……………………………………....…….. 42
Bảng 6-1: Thống kê số lượng yêu cầu người dùng theo từng loại dịch vụ..……….... 44
Bảng 6-2: Cấu hình hệ thống thực và môi trường mô phỏng……………………….. 45
Bảng 6-3: Thông số thiết lập cho môi trường dữ liệu mô phỏng theo phân phối…… 46
xii
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt
Chú thích
HTTP
HyperText Transfer Protocol
CPU
Central Processing Unit
IP
Internet Protocol
LRU
Least Recently Used
LFU
Least Frequently Used
FIFO
First-In-First-Out
ISP
Internet Service Provider
CDN
Content Delivery Network
VoD
Video-on-Demand
OTT
Over-The-Top
GP
Gaussian Process
EI
Expected Improvement
UCB
Upper Confidence Bound
SOTA
State-of-the-art
PoP
Point-of-Presence
LHS
Latin Hypercube Sampling
MLU
Maximum Link Utilization
LU
Link Utilization
SDN
Software Defined Network
RBF
Radial Basis Function
PD
Parellel Degree
RAM
Random Access Memory
NDS
Non-dominated sorting
xiii
CHƯƠNG 1: TỔNG QUAN
1.1 Giới thiệu
Ngày nay, sự gia tăng nhanh chóng nhu cầu sử dụng internet của người dùng
dẫn đến một khối lượng khổng lồ dữ liệu được sinh ra và truyền tải hằng ngày. Đặc
biệt sự ra đời và phát triển mạnh mẽ của các dịch vụ live-streaming, Video-onDemand (VoD) và Over-The-Top (OTT). Các mô hình truyền thống một máy chủ
phục vụ cho nhiều người dùng không thể đáp ứng được các ràng buộc về chất lượng
cho các dịch vụ này. Các hệ thống CDN ra đời nhằm cải thiện trải nghiệm của người
dùng thông qua việc làm giảm độ trễ dịch vụ.
Một hệ thống CDN gồm nhiều máy chủ phân bố địa lý, khi một nội dung gốc
từ nhà cung cấp nội dung đi qua mạng CDN, nó sẽ được sao chép và phân tán trên
nhiều máy trong mạng CDN. Khi người dùng yêu cầu một nội dung, thay vì nội dung
này sẽ được gửi từ một máy chủ xa, nó sẽ được cung cấp từ một máy chủ CDN ở gần
hơn. Việc đầu tư tài nguyên cũng như triển khai các chiến lược caching của hệ thống
CDN là một bài toán mà nhà cung cấp CDN quan tâm. Ví dụ, nhà cung cấp CDN
muốn biết rằng giả sử khách hàng của họ có nhiều hơn gấp đôi lượng người dùng, thì
họ sẽ cần khoảng bao nhiêu máy chủ, mỗi máy chủ có bao nhiêu bộ nhớ, tài nguyên
mạng nên được cấp phát như thế nào để tối ưu chi phí đầu tư. Để trả lời cho những
câu hỏi trên, họ không thể triển khai những test-beds cồng kềnh và tốn nhiều chi phi.
Bên cạnh đó, các công cụ simulation là một lựa chọn phổ biến để phục vụ cho các
mục đích này. Tuy nhiên, các công cụ simulation thường chỉ có thể đánh giá các
metrics luận lý như traffic, hit rate và thiếu độ tin cậy khi đánh giá các độ đo liên quan
đến chất lượng dịch vụ như độ trễ, sự ổn định, jitter,... Đề tài này nhằm phát triển công
cụ emulation để giả lập CDN với khả năng thiết lập linh hoạt, độ tin cậy cao và ít tốn
chi phí. Công cụ này được xây dựng dựa trên thư viện Containernet [1]. Containernet
là một bản mở rộng của thư viện Mininet [2]. Mininet là một thư viện giả lập mạng ảo
sử dụng tài nguyên thực. Containernet kết hợp Mininet với Docker [3] để mở rộng khả
năng giả lập ứng dụng của các hệ thống thực tế. Các ứng dụng thực tế như ứng dụng
web, dịch vụ HTTP có thể được tái triển khai dựa trên nền Docker container. Hơn thế
1
nữa, luận văn này sử dụng một tập dữ liệu log từ một hệ thống CDN thực và những
ứng dụng thực tế của họ ở Việt Nam để giả lập và đánh giá độ tin cậy của công cụ.
Ngoài ra, đề tài này sẽ mô hình hóa hai ví dụ thực tiễn về cấp phát tài nguyên
CDN là: bài toán cấp phát bộ nhớ và bài toán phân bố replica servers của CDN. Trong
đề tài này, bài toán cấp phát tài nguyên cho CDN được nhận định và giải quyết như
một bài toán tối ưu rời rạc đa mục tiêu. Cụ thể hơn, bài toán nhầm chọn bộ thiết lập tối
ưu cho hệ thống CDN để giảm chi phí đầu tư đồng thời tăng chất lượng dịch vụ. Chất
lượng dịch vụ với một bộ số thiết lập tương ứng được đánh giá dựa trên công cụ giả
lập đã phát triển. Vì sử dụng một công cụ giả lập để đánh giá hàm mục tiêu là việc
tiêu tốn thời gian, luận văn lựa chọn các phương pháp Bayesian như hướng tiếp cận để
giải quyết bài toán tối ưu trên. Các giải thuật Bayesian thường được biết đến với khả
năng tối ưu tốt bằng một số lượng ít lần chạy đánh giá hàm mục tiêu. Các giải thuật
Bayesian thường có hiệu năng kém với các bài toán rời rạc. Luận văn này đề xuất một
phương pháp để cải thiện hiệu năng của giải thuật Bayesian trong không gian rời rạc.
Tóm lại, luận văn này đã thực hiện các công việc sau:
Phát triển công cụ giả lập hệ thống CDN với khả năng thiếp lập linh động, ít
tốn chi phí, có độ tin cậy cao.
Mô hình hóa bài toán cấp phát tài nguyên cho hệ thống CDN. Đồng thời, đề
xuất giải thuật để giải quyết bài toán này.
1.2 Ý nghĩa đề tài
1.2.1 Ý nghĩa thực tiễn
Cung cấp môi trường thử nghiệm cho các nhà cung cấp dịch vụ CDN,
cũng như các nhà nghiên cứu trong lĩnh vực này: Luận văn phát triển một
công cụ giả lập CDN có tính năng thiết lập đa dạng và linh động với độ tin cậy
cao và linh động trong việc thiết lập. Người sử dụng có thể giả lập lại hệ thống,
ứng dụng của họ để thử nghiệm cho các chiến lược triển khai, cải tiến hệ thống
trước khi đưa ra môi trường thực tiễn.
Cung cấp một công cụ để tự động tối ưu hóa lợi ích và chất lượng dịch vụ
của hệ thống CDN cho nhà cung cấp: Người dùng thay vì phải thử tay từng
2
bộ tham số để tìm ra một thiết lập tối ưu. Khi số lượng các bộ tham số khã dĩ là
quá lớn, việc thử tay từng bộ trở nên bất khả thi. Luận văn đã đề xuất một cách
tiếp cận để tự động hóa bước này thông qua việc tối ưu hóa bài toán đa mục
tiêu như đã đề cập ở trên.
1.2.2 Ý nghĩa khoa học
Mô hình hóa bài toán tìm bộ số thiết lập cho hệ thống CDN: Luận văn xét
bài toán này như một bài toán đa mục tiêu rời rạc. Ngoài ra, luận văn cũng mô
hình hóa và giải quyết hai ví dụ thực tiễn của bài toán này.
Đề xuất cải tiến giải thuật tối ưu hóa đa mục tiêu dựa trên Bayesian trong
không gian rời rạc: Luận văn cũng đề xuất một cách tiếp cận để cải thiện tốc
độ hội tụ của các phương pháp Bayesian cho bài toán đa mục tiêu rời rạc.
1.3 Phạm vi đề tài:
Phạm vi bài toán tối ưu: Phương pháp đề xuất trong luận văn đề cải thiện giải
thuật tối ưu Bayesian có thể được áp dụng cho bài toán tối ưu đa mục tiêu rời
rạc.
Môi trường thử nghiệm: Luận văn sử dụng 3 hệ thống mạng thực ở Việt Nam
[4], Pháp [5], và Nhật [6] để chạy thí nghiệm. Bên cạnh đó, một tập dữ liệu
được trích xuất từ log file thực của hệ thống CDN ở Việt Nam được sử dụng để
đánh giá độ tin cậy của công cụ giả lập, cũng như được sử dụng trong một số
thí nghiệm liên quan đến ứng dụng thực tiễn của giải thuật tối ưu mà sẽ được
đề cập chi tiết ở chương 6. Bên cạnh tập dữ liệu thực, một tập dữ liệu giả lập
được tạo ra dựa trên phân phối Gamma cũng được sử dụng để chạy thí nghiệm
với các kiến trúc mạng ở Pháp và Nhật.
Phương pháp thực hiện: Luận văn sử dụng phương pháp nghiên cứu thực
nghiệm để đánh giá về độ tin cậy và mức độ tiêu thụ tài nguyên của công cụ giả
lập. Bên cạnh đó, đối với giải thuật tối ưu hóa được đề xuất, luận văn phân tích
từ lý thuyết rồi mới đến phân tích các kết quả thực nghiệm để kiểm chứng độ
hiệu quả và tính đúng đắn.
3
- Xem thêm -