Mô tả:
- Tìm hiểu về dữ liệu lớn, các công nghệ liên quan đến dữ liệu lớn (công nghệ xử lý và lưu trữ dữ liệu), các ứng dụng cho dữ liệu lớn. Tìm hiểu về bài toán phân tích dự báo và phương pháp dự báo thuê bao rời mạng dựa trên hành vi tiêu dùng và thói quen sử dụng dịch vụ của khách hàng. Xây dựng tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo thuê bao rời mạng tại Viettel
.
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHUNG THÀNH HƯNG
TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHUNG THÀNH HƯNG
TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG
Chuyên ngành: Hệ thống thông tin
Mã số: 8480104.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
C
ộ
ớ
: PGS. TS Phan Xuân Hiếu
Hà Nội - 2019
LỜI CẢM ƠN
Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã
tạo điều kiện cho học vi n lớp c o học 24
TT một môi trường học tập thuận
l i đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy kho
học để phục vụ cho quá trình học tập và công tác của tôi.
Đặc biệt tôi xin đư c bày tỏ lòng biết ơn sâu sắc đến
T
đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên
cứu, giúp tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và
làm việc.
Tôi xin gửi lời cảm ơn đến các bạn trong lớp
o học
ệ thống Thông tin
K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gi n học tập
uối
cùng tôi xin đư c gửi lời cảm ơn tới gi đình đồng nghiệp người thân đã động
vi n giúp đỡ tôi trong quá trình hoàn thành luận văn
Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không
tránh khỏi những thiếu sót. Tôi xin trân trọng tiếp thu các ý kiến của các thầy cô,
bạn bè để luận văn đư c hoàn thiện.
Trân trọng cám ơn
i
LỜI CAM ĐOAN
Tôi xin c m đo n các kết quả nghi n cứu thực nghiệm đư c trình bày trong
luận văn này do tôi thực hiện dưới sự hướng d n củ
T
h n
uân
và đư c thực hiện trong quá trình h p tác nghi n cứu giữ Tập đoàn
nghiệp - ông nghệ
iếu
ông
o iettel và đối tác
T t cả những th m khảo t các nghi n cứu li n qu n đều đư c n u nguồn gốc
một cách r ràng t d nh mục tài liệu th m khảo củ luận văn Trong luận văn
không c việc s o ch p tài liệu công trình nghi n cứu củ người khác mà không
chỉ r về tài liệu th m khảo
n
n y
t n
n m
H
Ngu
ii
C
T
H
9
MỤC LỤC
LỜI CẢM ƠN ................................................................................................................ i
LỜI CAM ĐOAN ......................................................................................................... ii
MỤC LỤC ....................................................................................................................iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................. v
DANH MỤC CÁC BẢNG.......................................................................................... vii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ..................................................................viii
MỞ ĐẦU ........................................................................................................................ 1
CHƯƠNG
11
TỔNG QUAN ........................................................................................ 4
Ệ
Ả ....................................................................................4
1 1 1 hái niệm chung về dữ liệu lớn ............................................................................4
1 1 2 ác khái niệm lưu trữ dữ liệu lớn ..........................................................................5
1 1 3 ác khái niệm về xử l dữ liệu lớn ........................................................................9
1 1 4 ái khái niệm phân t ch dữ liệu và các loại hình phân t ch dữ liệu .................... 13
1.2. Hệ thống phân tích dữ liệu lớn ...............................................................................16
1 2 1 ông nghệ lưu trữ dữ liệu trong BigData ............................................................ 16
1 2 2 ử l dữ liệu trong BigData ................................................................................21
1.2.3. Kỹ thuật phân t ch bigd t hiện n y ...................................................................25
1 3 ác
T
T
Ự
............................................................... 28
1 3 1 ài toán phân t ch dự báo .................................................................................... 28
1 3 2 ác mô hình dự báo cơ bản ................................................................................28
1 3 3 ác kỹ thuật phân t ch dự báo .............................................................................30
1.3.4. Giới thiệu công cụ phân tích Rapidminer............................................................ 41
CHƯƠNG 2 PHƯƠNG PH P TỔ CHỨC VÀ T CH HỢP Ữ IỆU ỚN ...... 44
21
ỆT Ố
T
Ữ Ệ
Ớ T
Ễ T
.........44
2 1 1 ột số ứng dụng hệ thống phân t ch dữ liệu lớn phổ biến hiện n y ................... 44
2 1 2 iện trạng củ iettel .......................................................................................... 50
2 2 2 ô hình tổ chức thực tế hệ thống ig t tại iettel ........................................56
2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lớn ................................................58
2 2 4 ác phân hệ cài đặt củ louder ig t nterprise fl tform: ........................ 60
CHƯƠNG 3 THỰC NGHIỆM TÍCH HỢP HỆ THỐNG Ự
O T RM ....... 62
31 Ộ
T Ự
Ệ ...............................................................................62
3 1 1 Định ngh thu b o rời mạng ............................................................................62
3 1 2 ài toán y u cầu ..................................................................................................62
3.1.3. ác bước thực nghiệm ........................................................................................ 63
32 T Ể
ỆT Ố
T Ự
Ệ ....................................................... 63
iii
321
ây dựng hệ thống phân t ch ig
t thực nghiệm ..........................................63
322
33
ây dựng mô hình dự báo TBRM. ......................................................................68
T
ẢT Ự
Ệ
Ự
....................................69
3 3 1 hám phá dữ liệu và tạo các biến đặc trưng ...................................................... 69
3 3 2 ự chọn đặc trưng và mô hình h ....................................................................75
3 3 3 Tối ưu mô hình dự báo ....................................................................................... 79
34 Đ
T
Ạ
.................................................................................... 82
3 4 1 ết quả đầu r củ hệ thống phân t ch dự báo thu b o rời mạng .................... 82
3 4 2 Tri thức thu đư c s u thực nghiệm .....................................................................82
KẾT LUẬN ................................................................................................................. 84
TÀI LIỆU THAM KHẢO.......................................................................................... 85
PHỤ ỤC
ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ
TRƯỚC - PHÂN THEO 4 NHÓM HÀNH VI ......................................................... 87
PHỤ ỤC 2 ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAUPHÂN THEO 4 NHÓM HÀNH VI ........................................................................... 90
iv
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
STT
Ký
ệ / ữ
ết tắt
1
ACID
2
3
AUC
AUROC
4
BASE
5
BLOB
6
CAP
7
CEM
8
9
10
11
12
13
14
15
16
17
18
19
20
21
CEP
CNN
DBM
DBN
DT
ETL
FN
FP
FPR
GBM
GBRT
ID3
IG
IMDB
22
IMDG
23
24
25
26
IOB
IoT
LS
M2M
27
MDA
28
MDG
29
30
OOB
POD
Ý
ĩa
Atomicity, Consistency, Isolation, Durability (Nguyên tắc
thiết kế ACID)
Area Under the Curve
Area Under the Receiver Operating Characteristics
Basically Available, Soft state, Eventual consistency
(Nguyên tắc thiết kế BASE)
Binary Large Object
Consistency, Availability and Partition Tolerance (Nguyên
lý CAP)
Customer Experience Management (Quản lý trải nghiệm
khách hàng)
Complex Event Processing
Convolutional Neural Network
Deep Boltzmann Machine
Deep Belief Networks
Daytype
Extract Transform Load (Trích xu t dữ liệu)
False Negative
False Positive
False Positive Rate/Fall-out
Gradient Boosting Machines
Gradient Boosting Regression Trees
Interactive Dichotomizer 3
nform tion in (Độ tăng thông tin)
In- emory t b ses ( ơ sở dữ liệu trong bộ nhớ)
In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ
nhớ)
In-of-bag
Internet Of Things
Learning Set (Tập hu n luyện)
Machine to Manchine
e n ecre se ccur cy (Độ chính xác giảm bình quân cho
mỗi biến)
Mean Decrease Gini (Sự giảm bình quân hệ số ini đối với
mỗi biến)
Out-of-bag
Period of Day
v
STT
31
Ký
ệ / ữ
ết tắt
QC
32
RDBMS
33
34
35
36
37
38
39
40
41
42
RF
ROC
S/N
SVM
TB
TBRM
TN
TP
TPR
WFLD
Ý
ĩa
Quality Call
Relation DB Management Systems (Hệ thống lưu trữ cơ sở
dữ liệu quan hệ)
Random Forest
Receiver Operating Characteristics
Signal/Noise (Tỷ lệ tín hiệu trên nhiễu)
Support Vector Machines
Thuê bao
Thuê bao rời mạng
True Negative
True Positive
True Positive Rate/Sentivity/Recall
Weeks Before Last Date
vi
DANH MỤC CÁC BẢNG
Bảng 1 1 ác thuộc t nh v dụ Ngày và Khách truy cập và thuộc t nh đư c trích xu t
IsWeek-endDayfDayg ...................................................................................................31
Bảng 1 2 ác phương pháp tr ch chọn thuộc t nh ........................................................ 33
Bảng 3.1. C u hình hệ thống phân tích BigData thực nghiệm. .....................................65
Bảng 3.2. Nguồn dữ liệu hệ thống phân tích BigData thực nghiệm ............................. 67
Bảng 3.3. Các biến đặc trưng cho dữ liệu gọi đi của thuê bao ......................................69
Bảng 3.4. Các biến đặc trưng cho dữ liệu gọi đến của thuê bao ...................................70
Bảng 3.5. Các biến đặc trưng cho dữ liệu nhắn tin đi của thuê bao .............................. 71
Bảng 3.6. Các biến đặc trưng cho dữ liệu nhắn tin đi của thuê bao. ............................. 71
Bảng 3.7. Các biến đặc trưng cho dữ liệu sử dụng Data của thuê bao .......................... 72
Bảng 3.8. Các biến đặc trưng cho dữ liệu tiêu dùng hàng ngày của thuê bao ..............72
Bảng 3.9. Các biến đặc trưng cho dữ liệu nạp tiền của thuê bao ..................................73
Bảng 3.10. Các biến đặc trưng cho dữ liệu số dư tài khoản của thuê bao..................... 74
Bảng 3.11. Các biến đặc trưng cho dữ liệu cước phí các gói sử dụng .......................... 74
theo chu kỳ của thuê bao ............................................................................................... 74
Bảng 3.12. Các biến đặc trưng cho dữ liệu tổng h p ch rge cước sử dụng các dịch vụ
VAS của thuê bao ..........................................................................................................74
Bảng 3.13. Các biến đặc trưng cho dữ liệu home của thuê bao ....................................75
Bảng 3.14. Các biến đặc trưng cho dữ liệu thông tin thuê bao, khách hàng .................75
Bảng 3 15 ự chọn các thuộc t nh qu n trọng b ng thuật toán ecision Tree .................75
Bảng 3.16. Validation of the Training Data Set (80% of Total) ...................................78
Bảng 3.17. Validation of the Testing Data Set (20% of Total). ....................................78
Bảng 3.18. Sử dụng Logistic Regression ......................................................................78
Bảng 3.19. Sử dụng Naïve Bayes ..................................................................................78
Bảng 3.20. So sánh các kết quả ..................................................................................... 79
ảng 3 21 ết quả phân cụm b ng thuật toán -mean. ...............................................79
ảng 3 22 ết quả chi tiết phân cụm b ng thuật toán -mean ....................................79
ảng 3 23 Tối ưu mô hình b ng cách lựa chọn lại các đặc trưng ................................ 81
Bảng 3.24. Lựa chọn mô hình dự đoán tốt nh t. ........................................................... 82
Bảng 3.25. Mô hình dự báo với thuật toán Gradien Booting ........................................82
vii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Một ví dụ về lưu trữ dạng ey-value. ............................................................. 7
Hình 1.2. Một ví dụ về lưu trữ dạng ocument ............................................................. 7
Hình 1.4. Một ví dụ về lưu trữ dạng r ph ....................................................................7
ình 1 5
ơ đồ Venn - định lý CAP. ..............................................................................8
Hình 1.6. Một quy trình ETL có thể trích xu t dữ liệu t nhiều nguồn và chuyển đổi nó
để tải vào một hệ thống đ ch duy nh t. ..........................................................................10
Hình 1.8. Một ví dụ về xử lý dữ liệu phân tán. ............................................................. 11
và lưu trữ........................................................................................................................ 12
Hình 1.10.Giá trị và độ phức tạp tăng t phân tích mô tả đến đề xu t.......................... 13
Hình 1.11. Thiết bị lưu trữ trong bộ nhớ có tốc độ truyền dữ liệu nh nh hơn 80 lần so
với thiết bị lưu trữ tr n đ ............................................................................................ 19
Hình 1.12. Một ví dụ mô tả việc truy xu t dữ liệu t IMDG. .......................................20
Hình 1.13. Một ví dụ mô tả việc truy xu t dữ liệu t IMDB. .......................................21
Hình 1.14. Một minh họa về công việc MapReduce ..................................................... 23
Hình 1.15. Một ví dụ về
p educe đ ng hoạt động ..................................................25
Hình 1.16. Biểu diễn cây quyết định cơ bản .................................................................28
Hình 1.17. Cây quyết định cho việc chơi Tennis .......................................................... 29
Hình 1.18. Vai trò của mô hình và t ng tập dữ liệu ...................................................... 34
Hình 1.19. Overfitting, Underfitting..............................................................................35
Hình 1.20. Confusion Matrix......................................................................................... 36
ình 1 21 hương pháp i s & ri nce ....................................................................37
ình 1 22 hương pháp đường cong
-ROC ......................................................... 39
ình 1 23
ình 1 24
Hình 1 25
ình 1 26
ình 2 1
ình 2 2
ình 2 3
ình 2 4
Trường h p tốt nh t khi 2 đường cong không chồng lên nhau. ..................40
Trường h p khi 2 đường cong có chồng lên nhau. .....................................41
Trường h p tệ nh t khi 2 đường cong hoàn toàn chồng lên nhau. ..............41
Trường h p AUC x p xỉ 0...........................................................................41
ác l nh vực phân t ch dữ liệu lớn trong viễn thông ....................................44
ức độ ứng dụng phân t ch dữ liệu lớn trong viễn thông ............................ 45
hương pháp tổ chức hệ thống dữ liệu lớn.................................................... 53
ô hình tổ chức thực tế hệ thống BigData tại Viettel. .................................56
ình 2 5
ình 3 1
ình 3 2
ình 3 3
ình 3 4
o sánh
và
..................................................................................59
ô hình triển kh i hệ thống ig t thực nghiệm ......................................64
ô hình đ u nối hệ thống .............................................................................64
i o diện module Cloudera Manager. .......................................................... 66
i o diện công cụ phân t ch pidminer ..................................................... 66
viii
ình 3 5
uồng kh i phá dữ liệu trong
pidminer ................................................... 67
ình 3 6
ình 3 7
uồng xử l kh i phá dữ liệu .......................................................................67
ô hình dự báo thu b o rời mạng .............................................................. 69
ình 3 8 hương pháp hu n luyện 1 cây quyết định cho mỗi nguồn dữ liệu. .............76
ình 3 9 ắt bỏ các mức th p và trích xu t các nút t các c p c o hơn ...................... 76
ình 3 10 ô tả cây quyết định tr n pidminer ....................................................... 77
ình 3 11
ình 3 12
ác thuộc t nh qu n trọng s u khi cắt bỏ ................................................... 77
ô hình tối ưu ............................................................................................ 81
ix
MỞ ĐẦU
Tr n thế giới dữ liệu lớn ( ig t ) đã và đ ng là một trong những v n đề
trung tâm, nhận đư c nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần
thứ tư ig ta chính là cốt l i để sử dụng, phát triển internet vạn vật (IoT) và
trí tuệ nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo
ra một lư ng lớn dữ liệu, dự kiến đến năm 2020 lư ng dữ liệu sẽ tăng g p 50
lần hiện nay [4]. Thông qua thu thập, phân tích và xử l lư ng dữ liệu lớn này sẽ
tạo ra những tri thức mới, hỗ tr việc đư r quyết định của các chủ thể trên thế
giới (doanh nghiệp, chính phủ người dân) [1, 4].
Trong ngành viễn thông và
TT dữ liệu lớn trở thành công cụ hữu hiệu
cho các nhà cung c p dịch vụ viễn thông trong kinh do nh c ng như công tác
quản l vận hành kh i thác dịch vụ ác do nh nghiệp viễn thông ngày n y đã
chủ động ứng dụng công nghệ mới này đề xây dựng các hệ thống phân t ch dữ
liệu làm cơ sở để giám sát quản l và r các quyết định c t nh chiến lư c nh
vực áp dụng dự liệu lớn trong viễn thông r t phong phú li n qu n đến các công
nghệ phân t ch dự báo học máy ( ) tr tuệ nhân tạo ( ) [2, 10]. ự vào
các công cụ này do nh nghiệp c thể nâng c o ch t lư ng dịch vụ cung c p đạt
hiệu quả kinh do nh hạm vi ứng dụng dữ liệu lớn trong viễn thông n i ri ng
r t rộng các ứng dụng c thể kể đến như hệ thống phân t ch quản l trải nghiệm
khách hàng ( ustomer xperience gmt) hệ thống giám sát quản l và tối ưu
mạng lưới ( etwork
) hệ thống phân t ch hoạt động do nh nghiệp
( per tion n lytics) và thương mại dữ liệu ( t
onetiz tion) [7, 11]
iettel là một do nh nghiệp hàng đầu iệt m luôn c chiến lư c đổi mới
ti n phong trong công nghệ iệc ứng dụng một cách nh nh nh t hiệu quả nh t
các công nghệ mới n i chung và nh t là các công nghệ li n qu n đến dữ liệu lớn
n i ri ng luôn là thách thức củ đội ng kỹ thuật iettel ột trong những ứng
dụng phổ biến nh t hiện n y mà các nhà cung c p dịch vụ viễn thông sử dụng đ
là hệ thống phân t ch dự báo khách hàng rời mạng Đây là hệ thống qu n trọng
mà đội ng kỹ thuật iettel tự nghi n cứu xây dựng dự tr n tư v n củ đối tác
cung c p nền tảng dữ liệu lớn louder
ản thân là một trong những thành vi n th m gi dự án xây dựng bài
toán tôi xin giới thiệu đề tài nghi n cứu: "TỔ
Ứ
T
Ệ
T Ố
T
Ữ Ệ
Ớ
T
Ự
T
Ễ T
" ới mong muốn hiểu đư c phương pháp phân t ch dự
1
báo và tự bản thân t ch h p đư c một hệ thống dữ liệu lớn tôi đã đặt mục ti u
nghi n cứu các nội dung s u đây:
Tổng quan về vấn đề nghiên cứu:
Tìm hiểu về dữ liệu lớn các công nghệ li n qu n đến dữ liệu lớn (công
nghệ xử l và lưu trữ dữ liệu) các ứng dụng cho dữ liệu lớn Tìm hiểu về
bài toán phân t ch dự báo và phương pháp dự báo thu b o rời mạng dự
tr n hành vi ti u dùng và th i quen sử dụng dịch vụ củ khách hàng
ây dựng t ch h p hệ thống phân t ch dữ liệu lớn phục vụ công tác dự báo
thu b o rời mạng tại iettel
Mục đích nghiên cứu: Tìm hiểu dữ liệu lớn và xây dựng ứng dụng vào
thực tiễn phục vụ công tác kinh do nh củ iettel
Đối tượng nghiên cứu:
ữ liệu lớn (khái niệm, cách hoạt động và công nghệ hỗ tr ).
Ứng dụng dữ liệu lớn vào thực tiễn tại Viettel.
Phạm vi nghiên cứu:
Các khái niệm cơ bản về dữ liệu lớn
Giải pháp mã nguồn mở cho Big t dự tr n louder l tform
Xây dựng hệ thống dữ liệu lớn cho một ứng dụng phân t ch dự báo cụ thể
Phương pháp nghiên cứu:
Nghiên cứu lý thuyết về dữ liệu lớn trong hệ thống Công nghệ thông tin
với mục tiêu là hiểu đư c nền tảng cơ bản.
Nghiên cứu các công nghệ cho hệ thống dữ liệu lớn với mục tiêu là hiểu
và triển kh i đư c công nghệ.
Tìm hiểu về các hệ thống dữ liệu phục vụ sản xu t kinh doanh của Viettel
phục vụ cho sản xu t kinh doanh của doanh nghiệp với mục ti u nắm
vững các nguồn dữ liệu lớn đ ng c và triển khai việc xây dựng BigData.
Phương pháp thực nghiệm: ây dựng t ch h p một hệ thống dữ liệu lớn
dự tr n nền tảng louder l tform phục vụ cho một ứng dụng cụ thể là phân
t ch dự báo thu b o rời mạng củ iettel
ới các mục ti u xác định cụ thể như tr n kết quả củ luận văn dự kiến sẽ
cho r đời một hệ thống phân t ch dữ liệu lớn phục vụ cho công tác dự báo thu
b o rời mạng mới (th y thế cho hệ thống v c ) ệ thống phân t ch mới này
dự tr n các thuật toán dự báo ti n tiến kết h p với công nghệ xử l dữ liệu lớn
sẽ cho r kết quả phân t ch nh nh hơn và c độ ch nh xác hơn u đ công cụ
2
này sẽ giúp iettel đư r quyết định kịp thời và hiệu quả hơn trong việc gìn giữ
khách hàng củ mình
Luận văn đư c c u trúc như s u:
1: TỔ
hương này trình bày các khái niệm cơ bản về dữ liệu lớn công nghệ lưu trữ
và xử l dữ liệu lớn ác bài toán phân t ch dự báo mô hình dự báo giới thiệu
các kỹ thuật phân t ch dự báo và công cụ phân t ch dữ liệu pidminer c ng là
một trong những nội dung qu n trọng củ phần này
2: TỔ
Ứ
ỘT Ệ T Ố
T
Ữ Ệ
Ớ
Đây là chương khá qu n trọng đư c chi làm 02 phần hần thứ nh t giới
thiệu các ứng dụng phân t ch dữ liệu lớn phổ biến hiện n y hiện trạng các
nguồn dữ liệu lớn cùng với các hệ thống ứng dụng phân t ch dữ liệu lớn tại
Viettel hần c n lại sẽ chi s phương pháp tổ chức hệ thống dữ liệu lớn tập
trung cách thiết kế kiến trúc hạ tầng dữ liệu lớn hiện tại củ iettel
3: T Ự
Ệ T
ỆT Ố
Ự
THU
Ờ Ạ
hương 3 là chương chuyển thể các kiến thức nghi n cứu đư c thành nội
dung ứng dụng thực tế hương này đư r thực nghiệm t ch h p một hệ thống
phân t ch dự báo thu b o rời mạng với một hệ thống xử l dữ liệu lớn thành
một công cụ c áp dụng dự báo cụ thể ệ thống này bước đầu cho r các kết
quả sơ bộ về đặc điểm thu b o rời mạng với độ ch nh xác >80 s u khi tối ưu
các bước dự báo
Tuy nhi n để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong
thực tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì còn phải thực
hiện tối ưu mô hình li n tục. Kết quả thực nghiệm củ chương trình này chỉ
mang tính ch t tham khảo chư thể áp dụng trong thực tế.
Trên đây là giới thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân.
Nội dung thực hiện chỉ mới là qu n điểm và tư duy cá nhân sẽ còn nhiều tồn tại
và thiết sót. Do vậy, r t mong quý thầy cô, bạn học và nh t là hội đồng tốt
nghiệp cho ý kiến đ ng g p để luận văn đư c hoàn thiện, kết quả luận văn là
công cụ dự báo đư c áp dụng hiệu quả trong thực tế.
3
CHƯƠNG
TỔNG QUAN
1.1. CÁC KH I NIỆM CƠ ẢN
1.1.1. K
ệ
chung về dữ liệu lớn
iệu ata s ts
hiều tập dữ liệu h y nhiều nh m dữ liệu c li n qu n đến nh u đư c gọi là
bộ dữ liệu [5] Trong đ mỗi nh m hoặc tập con dữ liệu đ c cùng thuộc t nh
giống nh u
ột số v dụ về bộ dữ liệu ở 03 định dạng khác nh u:
+ ữ liệu Tweets đư c lưu giữ trong tập tin ph ng (flat file).
+ Tr ch xu t các hàng t bảng dữ liệu (d t b se t ble) đư c lưu giữ trong
tệp định dạng
ộ sưu tập ảnh đư c lưu trong thư mục
+ ác thông tin qu n sát về lịch sử thời tiết đư c lưu dưới dạng
Đặc điểm d liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value)
ữ liệu lớn ig t c 05 đặc điểm h y c n gọi là 5 : Volume- hối lư ng
lớn; Velocity-Tốc độ;
riety-T nh đ dạng; Veracity-Tính xác thực và
ng lại giá trị. ầu hết các đặc điểm về dữ liệu lớn đư c oug
lue-
ney xác định
vào năm 2001 khi đăng bài viết về dữ liệu do nh nghiệp ( olume
elocity
riety) T nh xác thực ( er city) đư c bổ sung để t nh tỷ lệ sign l-to-noise khi
so sánh dữ liệu phi c u trúc với dữ liệu c c u trúc
uối cùng
lue- để xác
định các kết quả phân t ch dữ liệu lớn m ng lại giá trị gì? [8].
Ph n iệt các oại d liệu
Dữ liệu có cấu trúc (Structured Data): Dữ liệu có c u trúc phù h p với mô
hình dữ liệu đư c lưu trữ ở dạng bảng
húng đư c sử dụng để mô tả mối quan
hệ giữa các thực thể khác nh u và do đ thường đư c lưu trữ trong cơ sở dữ liệu
quan hệ. Dữ liệu có c u trúc thường đư c tạo bởi các ứng dụng doanh nghiệp và
hệ thống thông tin như hệ thống ERP và CRM. Ví dụ về loại dữ liệu này bao
gồm các giao dịch ngân hàng h
đơn và hồ sơ khách hàng
Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù h p với mô
hình dữ liệu hoặc lư c đồ dữ liệu đư c gọi là dữ liệu phi c u trúc. gười t ước
tính r ng dữ liệu phi c u trúc chiếm tới 80% dữ liệu trong b t kỳ doanh nghiệp
nào.
gày n y dữ liệu phi c u trúc có tốc độ tăng trưởng nh nh hơn dữ liệu có
4
c u trúc. Một số loại dữ liệu phi c u trúc phổ biến như dữ liệu c dạng văn bản
(text) hoặc nhị phân (binary).
Dữ liệu phi c u trúc không thể đư c xử l hoặc truy v n trực tiếp b ng cơ sở
dữ liệu qu n hệ SQL. Nếu muốn lưu trữ dữ liệu phi c u trúc trong cơ sở dữ liệu
quan hệ, thì phải đư c lưu trữ trong một bảng dưới dạng BLOB (Binary Large
Object)
goài r cơ sở dữ liệu NonSQL có thể đư c sử dụng để lưu trữ dữ liệu
phi c u trúc.
Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán c u trúc thường là
dữ liệu c c u trúc nhưng không đồng nh t Th y vào đ dữ liệu bán c u trúc c
dạng phân c p (hierarchical) hoặc đồ thị (gr phb sed). Loại dữ liệu này thường
đư c lưu trữ trong các tệp có chứ văn bản. Ví dụ như các tệp XML và JSON là
các dạng phổ biến của dữ liệu bán c u trúc. Do tính ch t văn bản của dữ liệu này
và sự phù h p của nó với một mức độ c u trúc nào đ
n dễ dàng kh i thác hơn
dữ liệu phi c u trúc.
Các nguồn phổ biến của dữ liệu bán c u trúc bao gồm các tệp tr o đổi dữ liệu
điện tử (EDI), bảng tính, nguồn dữ liệu t các bộ cảm biến. Dữ liệu bán c u trúc
thường có các yêu cầu lưu trữ và xử l trước đặc biệt đặc biệt nếu định dạng cơ
bản không dự tr n văn bản. Một ví dụ về tiền xử lý dữ liệu bán c u trúc sẽ là
xác thực tệp
để đảm bảo r ng nó tuân thủ theo lư c đồ của nó.
Siêu dữ liệu (Metadata): Siêu dữ liệu cung c p thông tin về các đặc điểm và
c u trúc của bộ dữ liệu. Loại dữ liệu này chủ yếu đư c tạo b ng máy và có thể
đư c thêm vào dữ liệu. Việc theo dõi siêu dữ liệu r t quan trọng đối với việc xử
l
lưu trữ và phân tích dữ liệu lớn vì nó cung c p thông tin về phả hệ của dữ
liệu và nguồn gốc của nó trong quá trình xử lý. Ví dụ về siêu dữ liệu bao gồm:
Thẻ XML cung cấp ngày x
kí
t
và ngày tạo tài liệu; Các thu c tính cung cấp
t ước tệp v đ phân giải củ ản kỹ thuật số; Các giải pháp dữ liệu lớn
t ư n d a trên siêu dữ liệu đặc biệt khi xử lý dữ liệu bán cấu trúc và không cấu
trúc [5].
1.1.2 C
ệ
t ữ ữ ệ ớ
ác dữ liệu thu đư c t các nguồn b n ngoài thường không ở định dạng hoặc
c u trúc c thể xử l ng y đư c Để khắc phục đư c tình trạng này việc sắp xếp
lưu trữ dữ liệu là vô cùng cần thiết
ử l sắp xếp lưu trữ dữ liệu b o gồm các
bước: ọc dữ liệu làm sạch dữ liệu và chu n bị dữ liệu
5
o nhu cầu lưu trữ dữ
liệu trong
ig
t
n n c nhiều công nghệ ti n tiến đư c tạo r để hướng tới
việc lưu trữ hiệu quả và c khả năng mở rộng c o [5].
ụm
iệu
ust rs
Trong điện toán, một cụm là một tập h p các máy chủ hoặc các nút đư c liên
kết chặt chẽ. Các máy chủ này thường có cùng phần cứng và đư c kết nối với
nhau thông qua một mạng để hoạt động như một đơn vị lưu trữ và xử l dữ liệu
Mỗi nút trong cụm c các tài nguy n ri ng biệt ch ng hạn như bộ nhớ, bộ xử lý
và ổ cứng. Một cụm có thể thực thi một tác vụ b ng cách chia nó thành các phần
nhỏ và phân phối thực thi của chúng trên các máy tính khác nhau thuộc cụm.
ệ thống ưu tr i hệ thống ưu tr i ph n tán
ệ thống lưu trữ file (gọi tắt là hệ thống file) là hệ thống sử dụng phương
pháp lưu trữ và sắp xếp dữ liệu tr n thiết bị lưu trữ (ổ đ
cứng )
fl sh
ổ
ile (tệp) là một đơn vị lưu trữ dữ liệu nhỏ nh t đư c quản l bởi hệ
thống file
ề mặt logic hệ thống file c c u trúc như một cây thư mục
ác hệ
điều hành sử dụng hệ thống file để lưu trữ và truy xu t dữ liệu cho các ứng
dụng
ỗi một hệ điều hành c thể c một hoặc nhiều hệ thống file v dụ hệ
thống file
T
tr n hệ điều hành
icrosoft
indows và hệ thống file
T
trên Linux.
ột hệ thống lưu trữ file phân tán (hệ thống file phân tán) là một hệ thống
file c thể lưu trữ các file (tệp) c dung lư ng lớn đư c phân tán đều tr n các
nút củ cụm dữ liệu
nh u
cho ph p các file đư c truy cập t nhiều vị tr khác
dụ hệ thống file phân tán củ
oogle (
) và hệ thống file phân tán
Hadoop (HDFS) [5].
ơs
iệu h ng quan hệ
ơ sở dữ liệu onlà
on-SQL)
không qu n hệ c khả năng mở rộng c o
t nh chịu lỗi và đư c thiết kế đặc biệt cho dữ liệu không c c u trúc hoặc bán
c u trúc
on-
này thường đư c cung c p gi o diện truy v n
c thể đư c gọi t b n trong ứng dụng
các truy v n c c u trúc (
on-
và
c n c khả năng hỗ tr
)
CSDL Non-SQL có thể đư c phân thành bốn loại dự tr n cách chúng lưu
trữ dữ liệu như trong
ình 1.1 – 1.4:
ạng key-value (khóa-giá trị);
document (tài liệu); ạng column-family; ạng gr ph (đồ thị) [5].
6
ạng
Hình 1.1. M t ví dụ về lưu trữ ạn
y-value.
Hình 1.2. M t ví dụ về lưu trữ ạn
o um nt
Hình 1.3. M t ví dụ về lưu trữ ạn
olumn-family.
Hình 1.4. M t ví dụ về lưu trữ ạn
r p
Ph n đoạn
iệu har ing
hân đoạn dữ liệu là quá trình phân vùng dữ liệu theo chiều ng ng t một
tập dữ liệu lớn thành một tập h p các bộ dữ liệu nhỏ hơn dễ quản l hơn đư c
gọi là phân đoạn
ác phân đoạn đư c phân phối trên nhiều nút trong đ mỗi
một nút là máy chủ. Mỗi phân đoạn đư c lưu trữ trên một nút riêng biệt và mỗi
nút chỉ chịu trách nhiệm cho dữ liệu đư c lưu trữ tr n đ
7
ỗi phân đoạn c
cùng một lư c đồ (schema) và t t cả các phân đoạn đều đại diện cho một bộ dữ
liệu hoàn chỉnh [5].
iệc xử l phân đoạn dữ liệu thường trong suốt với các máy client phân đoạn
dữ liệu cho ph p phân phối tải xử l tr n nhiều nút (node) để c khả năng mở rộng
lưu trữ dữ liệu theo chiều ng ng Đây là phương pháp để tăng năng lực củ hệ
thống b ng cách th m các tài nguy n (node)
hi đ mỗi một node chỉ chịu trách
nhiệm cho một phần củ toàn bộ tập dữ liệu do vậy thời gi n đọc ghi đư c cải
thiện r t nhiều
ột l i ch khác củ phân đoạn dữ liệu là khả năng chịu lỗi Trong
trường h p một node bị lỗi chỉ c dữ liệu tr n node đ bị ảnh hưởng [5].
Sao ưu
iệu
pi ication
o lưu dữ liệu là quá trình tạo r nhiều bản s o cho một tập dữ liệu n m ở
tr n nhiều node
o lưu dữ liệu cung c p khả năng mở rộng và t nh khả dụng
củ dữ liệu do đư c lưu tr n nhiều node khác nh u
hả năng chịu đư c lỗi
c ng đư c cải thiện do c dự ph ng dữ liệu – dữ liệu không bị m t đi khi một
node ri ng l bị lỗi
iện n y c 02 mô hình s o lưu dữ liệu là s o lưu chủ – tớ
(master-slave) và s o lưu ng ng hàng (peer-to-peer) [5].
guyên
P
Nguyên l
onsist ncy vai a i ity an Partition to ranc
[5] còn
đư c gọi là nguy n l Brewer, thể
hiện với ba ràng buộc liên quan
đến các hệ thống cơ sở dữ liệu
phân tán đ là t nh nh t quán ( onsistency)
độ
khả
dụng
( v il bility) và ngưỡng phân
vùng
( rtition
toler nce)
guy n l n i r ng một hệ thống
cơ sở dữ liệu phân tán, chạy trên
một cụm, chỉ có thể đáp ứng h i
Hình 1.5. Sơ đồ Venn - định lý CAP.
trong ba thuộc tính sau:
+ Tính nh t quán:Việc đọc t b t kỳ nút nào đều c dữ liệu đầu r như nh u
+ Tính khả dụng: Yêu cầu đọc/ghi sẽ luôn đư c xác nhận dưới hai dạng:
thành công hay th t bại.
8
+
gưỡng phân vùng: Hệ thống cơ sở dữ liệu có thể chịu đựng đư c m t điện
liên lạc chia cụm thành nhiều silo và v n có thể phục vụ các yêu cầu đọc/ghi.
guyên t c thi t
ACID là một nguyên tắc thiết kế cơ sở dữ liệu li n qu n đến quản lý giao
dịch. Nó là t
viết tắt củ
t nh nguy n tử ( tomicity) t nh nh t quán
( onsistency) độ cách ly ( sol tion) và độ bền ( ur bility)
ACID là một phương pháp quản l các gi o dịch đồng thời kiểm soát thông
qu kh
bản ghi (record locks) để đảm bảo tính nh t quán đư c duy trì
là phương pháp truyền thống để quản l cơ sở dữ liệu giao dịch trong các hệ
thống quản l cơ sở dữ liệu quan hệ (RDBMS).
+ T nh nguy n tử đảm bảo r ng t t cả các gi o dịch sẽ luôn luôn thành công
hoặc th t bại hoàn toàn. Nói cách khác, không có giao dịch một phần.
+ Tính nh t quán đảm bảo r ng dữ liệu phải luôn luôn phù h p với định
dạng để c thể đư c ghi đư c vào
ột CSDL ở trạng thái nh t
quán sẽ v n ở trạng thái nh t quán sau khi giao dịch thành công.
+ Độ cách ly đảm bảo r ng kết quả của một giao dịch đ ng thực hiện không
thể ảnh hưởng bởi một gi o dịch khác cho đến khi gi o dịch đ hoàn
thành.
+ Độ bền đảm bảo r ng kết quả của một gi o dịch là v nh viễn. Nói cách
khác, một khi giao dịch đã đư c thực hiện, nó không thể đư c khôi phục
dù cho hệ thống c thể xảy r lỗi [5].
1.1.3 C
ệ
ề xử ý ữ ệ
ớ
Xử lý giao dịch trực tuy n (OLTP)
T là một hệ thống phần mềm xử l dữ liệu theo hướng gi o dịch Thuật
ngữ gi o dịch trực tuyến dùng để chỉ các hành động xử l theo hướng thời gi n
thực (re l time)
ữ liệu đư c lưu giữ trong hệ thống
T đư c chu n h
cơ
bản c c u trúc và là đầu vào cho các xử l phân t ch
Các truy v n đư c xử l trong hệ thống OLTP bao gồm các thao tác chèn,
xóa và cập nhật đơn giản với thời gian phản hồi mức mili giây
dụ bao gồm
hệ thống đặt vé, ngân hàng và hệ thống điểm bán hàng [5].
* Xử lý phân tích trực tuy n (OLAP)
Các hệ thống xử lý phân tích trực tuyến (
) đư c sử dụng để xử lý các
truy v n phân tích dữ liệu. OLAP là một phần không thể thiếu củ
dữ liệu và học máy
kh i phá
c li n qu n đến BigData ở chỗ chúng có thể đ ng
9
- Xem thêm -