Mô tả:
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHUNG THÀNH HƯNG
TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHUNG THÀNH HƯNG
TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG
Chuyên ngành: Hệ thống thông tin
Mã số: 8480104.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
C
ộ
ớ
: PGS. TS Phan Xuân Hiếu
Hà Nội - 2019
LỜI CẢM ƠN
Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã
tạo điều kiện cho học vi n lớp c o học 24 TT một môi trường học tập thuận
l i đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy kho học
để phục vụ cho quá trình học tập và công tác của tôi.
Đặc biệt tôi xin đư c bày tỏ lòng biết ơn sâu sắc đến
T
đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên
cứu, giúp tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và
làm việc.
Tôi xin gửi lời cảm ơn đến các bạn trong lớp
o học
ệ thống Thông tin
K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gi n học tập uối cùng
tôi xin đư c gửi lời cảm ơn tới gi đình đồng nghiệp người thân đã động vi n giúp
đỡ tôi trong quá trình hoàn thành luận văn
Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không
tránh khỏi những thiếu sót. Tôi xin trân trọng tiếp thu các ý kiến của các thầy cô,
bạn bè để luận văn đư c hoàn thiện.
Trân trọng cám ơn
i
LỜI CAM ĐOAN
Tôi xin c m đo n các kết quả nghi n cứu thực nghiệm đư
luận văn này do tôi thực hiện dưới sự hướng d n củ
T
và đư c thực hiện trong quá trình h p tác nghi n cứu giữ
nghiệp - ông nghệ
c trình bày trong
hn
uân iếu
Tập đoàn
ông
o iettel và đối tác
T t cả những th m khảo t các nghi n cứu li n qu n đều đư
một cách r ràng t d nh mục tài liệu th m khảo củ
c n u nguồn gốc
luận văn Trong luận văn
không c việc s o ch p tài liệu công trình nghi n cứu củ
người khác mà không
chỉ r về tài liệu th m khảo
n n y
t
n
nm
H
Ngu
ii
C
T
H
9
MỤC LỤC
LỜI CẢM ƠN..............................................................................................................i
LỜI CAM ĐOAN........................................................................................................ ii
MỤC LỤC..................................................................................................................iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT................................................ v
DANH MỤC CÁC BẢNG........................................................................................vii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ................................................................. viii
MỞ ĐẦU...................................................................................................................... 1
CHƯƠNG TỔNG QUAN....................................................................................... 4
11
Ệ
Ả..................................................................................... 4
1 1 1 hái niệm chung về dữ liệu lớn........................................................................... 4
1 1 2 ác khái niệm lưu trữ dữ liệu lớn......................................................................... 5
1 1 3 ác khái niệm về xử l dữ liệu lớn....................................................................... 9
1 1 4 ái khái niệm phân t ch dữ liệu và các loại hình phân t ch dữ liệu....................13
1.2. Hệ thống phân tích dữ liệu lớn............................................................................. 16
1 2 1 ông nghệ lưu trữ dữ liệu trong BigData........................................................... 16
1 2 2 ử l dữ liệu trong BigData.............................................................................. 21
1.2.3. Kỹ thuật phân t ch bigd t hiện n y................................................................... 25
1 3 ác
T
T
Ự....................................................................... 28
1 3 1 ài toán phân t ch dự báo................................................................................... 28
1 3 2 ác mô hình dự báo cơ bản................................................................................ 28
1 3 3 ác kỹ thuật phân t ch dự báo............................................................................ 30
1.3.4. Giới thiệu công cụ phân tích Rapidminer.......................................................... 41
CHƯƠNG 2 PHƯƠNG PH P TỔ CHỨC VÀ T CH HỢP Ữ IỆU ỚN......44
21
ỆT Ố
T
Ữ Ệ
Ớ T
Ễ T.....................44
2 1 1 ột số ứng dụng hệ thống phân t ch dữ liệu lớn phổ biến hiện n y....................44
2 1 2 iện trạng củ iettel........................................................................................ 50
2 2 2 ô hình tổ chức thực tế hệ thống ig t tại iettel........................................ 56
2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lớn............................................... 58
2 2 4 ác phân hệ cài đặt củ louder ig t nterprise fl tform:.........................60
CHƯƠNG 3 THỰC NGHIỆM TÍCH HỢP HỆ THỐNG Ự
O T RM.......62
31 Ộ
T Ự
Ệ................................................................................. 62
3 1 1 Định ngh thu b o rời mạng............................................................................ 62
3 1 2 ài toán y u cầu................................................................................................. 62
3.1.3. ác bước thực nghiệm....................................................................................... 63
32T Ể
ỆT Ố
T Ự
Ệ......................................................... 63
iii
3 2 1 ây dựng hệ thống phân t ch ig t thực nghiệm.......................................... 63
3 2 2 ây dựng mô hình dự báo TBRM..................................................................... 68
33
T
ẢT Ự
Ệ
Ự.............................................. 69
3 3 1 hám phá dữ liệu và tạo các biến đặc trưng...................................................... 69
3 3 2 ự chọn đặc trưng và mô hình h....................................................................... 75
3 3 3 Tối ưu mô hình dự báo....................................................................................... 79
34Đ
T
Ạ........................................................................................ 82
3 4 1 ết quả đầu r củ hệ thống phân t ch dự báo thu b o rời mạng......................82
3 4 2 Tri thức thu đư c s u thực nghiệm...................................................................... 82
KẾT LUẬN............................................................................................................... 84
TÀI LIỆU THAM KHẢO........................................................................................ 85
PHỤ ỤC
ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ
TRƯỚC - PHÂN THEO 4 NHÓM HÀNH VI........................................................ 87
PHỤ ỤC 2 ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAUPHÂN THEO 4 NHÓM HÀNH VI.......................................................................... 90
iv
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
STT
Ký ệ/
ữ
ết tắt
Ý
ĩa
1
ACID
2
3
4
AUC
AUROC
BASE
5
6
BLOB
CAP
Binary Large Object
Consistency, Availability and Partition Tolerance (Nguyên
lý CAP)
7
CEM
Customer Experience Management (Quản lý
khách hàng)
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
CEP
CNN
DBM
DBN
DT
ETL
FN
FP
FPR
GBM
GBRT
ID3
IG
IMDB
IMDG
Complex Event Processing
Convolutional Neural Network
Deep Boltzmann Machine
Deep Belief Networks
Daytype
Extract Transform Load (Trích xu t dữ liệu)
False Negative
False Positive
False Positive Rate/Fall-out
Gradient Boosting Machines
Gradient Boosting Regression Trees
Interactive Dichotomizer 3
nform tion
in (Độ tăng thông tin)
In- emory
t b ses ( ơ sở dữ liệu trong bộ nhớ)
In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ
nhớ)
23
24
25
26
27
IOB
IoT
LS
M2M
MDA
In-of-bag
Internet Of Things
Learning Set (Tập hu n luyện)
Machine to Manchine
e n ecre se ccur cy (Độ chính xác giảm bình quân cho
mỗi biến)
28
MDG
Mean Decrease Gini (Sự giảm bình quân hệ số
mỗi biến)
29
30
OOB
POD
Out-of-bag
Period of Day
Atomicity, Consistency, Isolation, Durability
thiết kế ACID)
(Nguyên tắc
Area Under the Curve
Area Under the Receiver Operating Characteristics
Basically Available, Soft state, Eventual consistency
(Nguyên tắc thiết kế BASE)
v
trải nghiệm
ini đối với
STT
31
32
Ký ệ/
ữ
ết tắt
QC
RDBMS
33
34
35
36
37
38
39
40
41
42
RF
ROC
S/N
SVM
TB
TBRM
TN
TP
TPR
WFLD
Ýĩa
Quality Call
Relation DB Management Systems (Hệ thống lưu trữ cơ sở
dữ liệu quan hệ)
Random Forest
Receiver Operating Characteristics
Signal/Noise (Tỷ lệ tín hiệu trên nhiễu)
Support Vector Machines
Thuê bao
Thuê bao rời mạng
True Negative
True Positive
True Positive Rate/Sentivity/Recall
Weeks Before Last Date
vi
DANH MỤC CÁC BẢNG
Bảng 1 1 ác thuộc t nh v dụ Ngày và Khách truy cập và thuộc t nh đư c trích xu t
IsWeek-endDayfDayg................................................................................................. 31
Bảng 1 2 ác phương pháp tr ch chọn thuộc t nh....................................................... 33
Bảng 3.1. C u hình hệ thống phân tích BigData thực nghiệm...................................... 65
Bảng 3.2. Nguồn dữ liệu hệ thống phân tích BigData thực nghiệm.............................67
Bảng 3.3. Các biến đặc trưng cho dữ liệu gọi đi của thuê bao..................................... 69
Bảng 3.4. Các biến đặc trưng cho dữ liệu gọi đến của thuê bao..................................70
Bảng 3.5. Các biến đặc trưng cho dữ liệu nhắn tin đi của thuê bao.............................71
Bảng 3.6. Các biến đặc trưng cho dữ liệu nhắn tin đi của thuê bao.............................71
Bảng 3.7. Các biến đặc trưng cho dữ liệu sử dụng Data của thuê bao.........................72
Bảng 3.8. Các biến đặc trưng cho dữ liệu tiêu dùng hàng ngày của thuê bao..............72
Bảng 3.9. Các biến đặc trưng cho dữ liệu nạp tiền của thuê bao.................................73
Bảng 3.10. Các biến đặc trưng cho dữ liệu số dư tài khoản của thuê bao....................74
Bảng 3.11. Các biến đặc trưng cho dữ liệu cước phí các gói sử dụng.........................74
theo chu kỳ của thuê bao............................................................................................. 74
Bảng 3.12. Các biến đặc trưng cho dữ liệu tổng h p ch rge cước sử dụng các dịch vụ
VAS của thuê bao........................................................................................................ 74
Bảng 3.13. Các biến đặc trưng cho dữ liệu home của thuê bao................................... 75
Bảng 3.14. Các biến đặc trưng cho dữ liệu thông tin thuê bao, khách hàng................75
Bảng 3 15 ự chọn các thuộc t nh qu n trọng b ng thuật toán ecision Tree................75
Bảng 3.16. Validation of the Training Data Set (80% of Total).................................. 78
Bảng 3.17. Validation of the Testing Data Set (20% of Total).................................... 78
Bảng 3.18. Sử dụng Logistic Regression..................................................................... 78
Bảng 3.19. Sử dụng Naïve Bayes................................................................................ 78
Bảng 3.20. So sánh các kết quả................................................................................... 79
ảng 3 21 ết quả phân cụm b ng thuật toán -mean............................................... 79
ảng 3 22 ết quả chi tiết phân cụm b ng thuật toán -mean...................................79
ảng 3 23 Tối ưu mô hình b ng cách lựa chọn lại các đặc trưng................................ 81
Bảng 3.24. Lựa chọn mô hình dự đoán tốt nh t............................................................ 82
Bảng 3.25. Mô hình dự báo với thuật toán Gradien Booting....................................... 82
vii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Một ví dụ về lưu trữ dạng ey-value............................................................. 7
Hình 1.2. Một ví dụ về lưu trữ dạng ocument............................................................. 7
Hình 1.4. Một ví dụ về lưu trữ dạng r ph.................................................................... 7
ình 1 5 ơ đồ Venn - định lý CAP.............................................................................. 8
Hình 1.6. Một quy trình ETL có thể trích xu t dữ liệu t nhiều nguồn và chuyển đổi nó
để tải vào một hệ thống đ ch duy nh t.......................................................................... 10
Hình 1.8. Một ví dụ về xử lý dữ liệu phân tán............................................................. 11
và lưu trữ..................................................................................................................... 12
Hình 1.10.Giá trị và độ phức tạp tăng t phân tích mô tả đến đề xu t..........................13
Hình 1.11. Thiết bị lưu trữ trong bộ nhớ có tốc độ truyền dữ liệu nh nh hơn 80 lần so
với thiết bị lưu trữ tr n đ.............................................................................................. 19
Hình 1.12. Một ví dụ mô tả việc truy xu t dữ liệu t IMDG....................................... 20
Hình 1.13. Một ví dụ mô tả việc truy xu t dữ liệu t IMDB........................................ 21
Hình 1.14. Một minh họa về công việc MapReduce.................................................... 23
Hình 1.15. Một ví dụ về
p educe đ ng hoạt động.................................................. 25
Hình 1.16. Biểu diễn cây quyết định cơ bản................................................................ 28
Hình 1.17. Cây quyết định cho việc chơi Tennis......................................................... 29
Hình 1.18. Vai trò của mô hình và t ng tập dữ liệu..................................................... 34
Hình 1.19. Overfitting, Underfitting............................................................................ 35
Hình 1.20. Confusion Matrix....................................................................................... 36
ình 1 21 hương pháp i s &
ri nce.................................................................... 37
ình 1 22 hương pháp đường cong
-ROC........................................................ 39
ình 1 23 Trường h p tốt nh t khi 2 đường cong không chồng lên nhau...................40
ình 1 24 Trường h p khi 2 đường cong có chồng lên nhau...................................... 41
Hình 1 25 Trường h p tệ nh t khi 2 đường cong hoàn toàn chồng lên nhau...............41
ình 1 26 Trường h p AUC x p xỉ 0.......................................................................... 41
ình 2 1 ác l nh vực phân t ch dữ liệu lớn trong viễn thông....................................44
ình 2 2 ức độ ứng dụng phân t ch dữ liệu lớn trong viễn thông............................45
ình 2 3 hương pháp tổ chức hệ thống dữ liệu lớn................................................... 53
ình 2 4 ô hình tổ chức thực tế hệ thống BigData tại Viettel.................................. 56
ình 2 5 o sánh
và........................................................................................... 59
ình 3 1 ô hình triển kh i hệ thống ig t thực nghiệm......................................64
ình 3 2 ô hình đ u nối hệ thống............................................................................. 64
ình 3 3 i o diện module Cloudera Manager........................................................... 66
ình 3 4 i o diện công cụ phân t ch
pidminer..................................................... 66
viii
ình 3 5
ình 3 6
ình 3 7
ình 3 8
ình 3 9
ình 3 10
ình 3 11
ình 3 12
uồng kh i phá dữ liệu trong
pidminer.................................................... 67
uồng xử l kh i phá dữ liệu........................................................................ 67
ô hình dự báo thu b o rời mạng............................................................... 69
hương pháp hu n luyện 1 cây quyết định cho mỗi nguồn dữ liệu...............76
ắt bỏ các mức th p và trích xu t các nút t các c p c o hơn.......................76
ô tả cây quyết định tr n
pidminer....................................................... 77
ác thuộc t nh qu n trọng s u khi cắt bỏ..................................................... 77
ô hình tối ưu........................................................................................... 81
ix
MỞ ĐẦU
Tr n thế giới dữ liệu lớn (
ig
t ) đã và đ ng là một trong những v n đề
trung tâm, nhận đư c nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần
thứ tư ig ta chính là cốt l i để sử dụng, phát triển internet vạn vật (IoT) và trí tuệ
nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo ra một
lư ng lớn dữ liệu, dự kiến đến năm 2020 lư ng dữ liệu sẽ tăng g p 50
lần hiện nay [4]. Thông qua thu thập, phân tích và xử l lư ng dữ liệu lớn này sẽ
tạo ra những tri thức mới, hỗ tr việc đư r quyết định của các chủ thể trên thế
giới (doanh nghiệp, chính phủ người dân) [1, 4].
Trong ngành viễn thông và
TT dữ liệu lớn trở thành công cụ hữu hiệu
cho các nhà cung c p dịch vụ viễn thông trong kinh do nh c ng như công tác
quản l vận hành kh i thác dịch vụ ác do nh nghiệp viễn thông ngày n y đã chủ
động ứng dụng công nghệ mới này đề xây dựng các hệ thống phân t ch dữ liệu
làm cơ sở để giám sát quản l và r các quyết định c t nh chiến lư c nh vực áp dụng
dự liệu lớn trong viễn thông r t phong phú li n qu n đến các công
nghệ phân t ch dự báo học máy () tr tuệ nhân tạo ( ) [2, 10].
ự vào
các công cụ này do nh nghiệp c thể nâng c o ch t lư ng dịch vụ cung c p
đạt
hiệu quả kinh do nh
hạm vi ứng dụng dữ liệu lớn trong viễn thông n
i ri ng
r t rộng các ứng dụng c
thể kể đến như hệ thống phân t ch quản l trải nghiệm
khách hàng ( ustomer xperience gmt) hệ thống giám sát quản l và tối ưu
mạng lưới ( etwork
) hệ thống phân t ch hoạt động do nh nghiệp
( per tion
n lytics) và thương mại dữ liệu ( t
onetiz tion)
[7, 11]
iettel là một do nh nghiệp hàng đầu iệt
m luôn c chiến lư c đổi mới
ti n phong trong công nghệ
iệc ứng dụng một cách nh nh nh t hiệu quả nh t
các công nghệ mới n i chung và nh t là các công nghệ li n qu n đến dữ liệu lớn n
i ri ng luôn là thách thức củ đội ng kỹ thuật iettel ột trong những ứng dụng phổ
biến nh t hiện n y mà các nhà cung c p dịch vụ viễn thông sử dụng đ
là hệ thống phân t ch dự báo khách hàng rời mạng
Đây là hệ thống qu n trọng
mà đội ng kỹ thuật
iettel tự nghi n cứu xây dựng dự tr n tư v n củ đối tác
cung c p nền tảng dữ liệu lớn louder
ản thân là một trong những thành vi n th m gi
dự án xây dựng bài
toán
tôi xin giới thiệu đề tài nghi n cứu: "TỔ
Ứ
T
Ệ
T Ố
T
Ữ
Ệ
Ớ
T
Ự
T
Ễ T
" ới mong muốn hiểu đư c phương pháp phân t ch dự
1
báo và tự bản thân t ch h p đư c một hệ thống dữ liệu lớn tôi đã đặt mục ti u u
nghi n cứu các nội dung s đây:
Tổng quan về vấn đề nghiên cứu:
Tìm hiểu về dữ liệu lớn các công nghệ li n qu n đến dữ liệu lớn (công
nghệ xử l và lưu trữ dữ liệu) các ứng dụng cho dữ liệu lớn Tìm hiểu về bài
toán phân t ch dự báo và phương pháp dự báo thu b o rời mạng dự tr n
hành vi ti u dùng và th i quen sử dụng dịch vụ củ khách hàng
ây dựng t ch h p hệ thống phân t ch dữ liệu lớn phục vụ công tác dự báo
thu b o rời mạng tại iettel
Mục đích nghiên cứu: Tìm hiểu dữ liệu lớn và xây dựng ứng dụng vào
thực tiễn phục vụ công tác kinh do nh củ iettel
Đối tượng nghiên cứu:
ữ liệu lớn (khái niệm, cách hoạt động và công nghệ hỗ tr ).
Ứng dụng dữ liệu lớn vào thực tiễn tại Viettel.
Phạm vi nghiên cứu:
Các khái niệm cơ bản về dữ liệu lớn
Giải pháp mã nguồn mở cho Big t dự tr n
louder
l tform
Xây dựng hệ thống dữ liệu lớn cho một ứng dụng phân t ch dự báo cụ thể
Phương pháp nghiên cứu:
Nghiên cứu lý thuyết về dữ liệu lớn trong hệ thống Công nghệ thông tin
với mục tiêu là hiểu đư c nền tảng cơ bản.
Nghiên cứu các công nghệ cho hệ thống dữ liệu lớn với mục tiêu là hiểu
và triển kh i đư c công nghệ.
Tìm hiểu về các hệ thống dữ liệu phục vụ sản xu t kinh doanh của Viettel
phục vụ cho sản xu t kinh doanh của doanh nghiệp với mục ti u nắm vững
các nguồn dữ liệu lớn đ ng c và triển khai việc xây dựng BigData.
Phương pháp thực nghiệm: ây dựng t ch h p một hệ thống dữ liệu lớn dự
tr n nền tảng louder l tform phục vụ cho một ứng dụng cụ thể là phân t ch dự
báo thu b o rời mạng củ iettel
ới các mục ti u xác định cụ thể như tr n kết quả củ luận văn dự kiến sẽ
cho r đời một hệ thống phân t ch dữ liệu lớn phục vụ cho công tác dự báo thu b o
rời mạng mới (th y thế cho hệ thống v c ) ệ thống phân t ch mới này
dự tr n các thuật toán dự báo ti n tiến kết h p với công nghệ xử l
dữ liệu lớn
sẽ cho r kết quả phân t ch nh nh hơn và c độ ch nh xác hơn u đ công cụ
2
này sẽ giúp iettel đư r quyết định kịp thời và hiệu quả hơn trong việc gìn giữ
khách hàng củ mình
Luận văn đư c c u trúc như s u:
1: TỔ
hương này trình bày các khái niệm cơ bản về dữ liệu lớn công nghệ lưu trữ
và xử l dữ liệu lớn ác bài toán phân t ch dự báo mô hình dự báo giới thiệu
các kỹ thuật phân t ch dự báo và công cụ phân t ch dữ liệu
pidminer c ng là
một trong những nội dung qu n trọng củ phần này
2:TỔ
Ứ
ỘT ỆT Ố
T
Ữ Ệ
Ớ
Đây là chương khá qu n trọng đư c chi làm 02 phần hần thứ nh t giới thiệu
các ứng dụng phân t ch dữ liệu lớn phổ biến hiện n y hiện trạng các nguồn dữ
liệu lớn cùng với các hệ thống ứng dụng phân t ch dữ liệu lớn tại Viettel hần c n
lại sẽ chi s phương pháp tổ chức hệ thống dữ liệu lớn tập
trung cách thiết kế kiến trúc hạ tầng dữ liệu lớn hiện tại củ
iettel
3:T Ự
Ệ T
ỆT Ố
Ự
THU
Ờ Ạ
hương 3 là chương chuyển thể các kiến thức nghi n cứu đư c thành nội
dung ứng dụng thực tế hương này đư r thực nghiệm t ch h p một hệ thống
phân t ch dự báo thu
b o rời mạng với một hệ thống xử l dữ liệu lớn thành
một công cụ c áp dụng dự báo cụ thể
ệ thống này bước đầu cho r các kết
quả sơ bộ về đặc điểm thu b o rời mạng với độ ch nh xác >80
s u khi tối ưu
các bước dự báo
Tuy nhi n để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong
thực tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì còn phải thực
hiện tối ưu mô hình li n tục. Kết quả thực nghiệm củ chương trình này chỉ mang
tính ch t tham khảo chư thể áp dụng trong thực tế.
Trên đây là giới thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân.
Nội dung thực hiện chỉ mới là qu n điểm và tư duy cá nhân sẽ còn nhiều tồn tại
và thiết sót. Do vậy, r t mong quý thầy cô, bạn học và nh t là hội đồng tốt nghiệp
cho ý kiến đ ng g p để luận văn đư c hoàn thiện, kết quả luận văn là công cụ dự
báo đư c áp dụng hiệu quả trong thực tế.
3
CHƯƠNG
TỔNG QUAN
1.1. CÁC KH I NIỆM CƠ ẢN
1.1.1. K
ệ chung về dữ liệu lớn
iệ
ata s ts
u
hiều tập dữ liệu h y nhiều nh m dữ liệu c li n qu n đến nh u đư c gọi là bộ
dữ liệu [5] Trong đ mỗi nh m hoặc tập con dữ liệu đ c cùng thuộc t nh giống nh
u ột số v dụ về bộ dữ liệu ở 03 định dạng khác nh u:
+ ữ liệu Tweets đư c lưu giữ trong tập tin ph ng (flat file).
+ Tr ch xu t các hàng t bảng dữ liệu (d t b se t ble) đư c lưu giữ trong
tệp định dạng
ộ sưu tập ảnh đư c lưu trong thư mục
+ ác thông tin qu n sát về lịch sử thời tiết đư c lưu dưới dạng
Đặc điểm d liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value)
ữ liệu lớn ig t c 05 đặc điểm h y c n gọi là 5 : Volume- hối lư ng lớn;
Velocity-Tốc độ; riety-T nh đ dạng; Veracity-Tính xác thực và lue-ng lại giá trị.
ầu hết các đặc điểm về dữ liệu lớn đư c oug ney xác định vào năm 2001 khi đăng
bài viết về dữ liệu do nh nghiệp ( olume elocity riety) T nh xác thực ( er city) đư
c bổ sung để t nh tỷ lệ sign l-to-noise khi so sánh dữ liệu phi c u trúc với dữ liệu
c c u trúc uối cùng lue- để xác định các kết quả phân t ch dữ liệu lớn m ng lại giá
trị gì? [8].
Ph n
iệt các oại
liệu
d
Dữ liệu có cấu trúc (Structured Data): Dữ liệu có c u trúc phù h p với mô
hình dữ liệu đư c lưu trữ ở dạng bảng
hệ giữa các thực thể khác nh u và do đ
húng đư c sử dụng để mô tả mối quan
thường đư c lưu trữ trong cơ sở dữ liệu
quan hệ. Dữ liệu có c u trúc thường đư
c tạo bởi các ứng dụng doanh nghiệp và
hệ thống thông tin như hệ thống ERP và CRM. Ví dụ về loại dữ liệu này bao
gồm các giao dịch ngân hàng h đơn và hồ sơ khách hàng
Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù h p với mô
hình dữ liệu hoặc lư c đồ dữ liệu đư c gọi là dữ liệu phi c u trúc. gười t ước tính r
ng dữ liệu phi c u trúc chiếm tới 80% dữ liệu trong b t kỳ doanh nghiệp nào. gày
n y dữ liệu phi c u trúc có tốc độ tăng trưởng nh nh hơn dữ liệu có
4
c u trúc. Một số loại dữ liệu phi c u trúc phổ biến như dữ liệu c dạng văn bản
(text) hoặc nhị phân (binary).
Dữ liệu phi c u trúc không thể đư c xử l hoặc truy v n trực tiếp b ng cơ sở dữ
liệu qu n hệ SQL. Nếu muốn lưu trữ dữ liệu phi c u trúc trong cơ sở dữ liệu quan
hệ, thì phải đư c lưu trữ trong một bảng dưới dạng BLOB (Binary Large Object)
goài r cơ sở dữ liệu NonSQL có thể đư c sử dụng để lưu trữ dữ liệu phi c u trúc.
Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán c u trúc thường là
dữ liệu c c u trúc nhưng không đồng nh t Th y vào đ dữ liệu bán c u trúc c
dạng phân c p (hierarchical) hoặc đồ thị (gr phb sed). Loại dữ liệu này thường
đư c lưu trữ trong các tệp có chứ văn bản. Ví dụ như các tệp XML và JSON là
các dạng phổ biến của dữ liệu bán c u trúc. Do tính ch t văn bản của dữ liệu này
và sự phù h p của nó với một mức độ c u trúc nào đ n dễ dàng kh i thác hơn dữ
liệu phi c u trúc.
Các nguồn phổ biến của dữ liệu bán c u trúc bao gồm các tệp tr o đổi dữ liệu
điện tử (EDI), bảng tính, nguồn dữ liệu t các bộ cảm biến. Dữ liệu bán c u trúc
thường có các yêu cầu lưu trữ và xử l trước đặc biệt đặc biệt nếu định dạng cơ
bản không dự tr n văn bản. Một ví dụ về tiền xử lý dữ liệu bán c u trúc sẽ là xác
thực tệp để đảm bảo r ng nó tuân thủ theo lư c đồ của nó.
Siêu dữ liệu (Metadata): Siêu dữ liệu cung c p thông tin về các đặc điểm và
c u trúc của bộ dữ liệu. Loại dữ liệu này chủ yếu đư c tạo b ng máy và có thể đư
c thêm vào dữ liệu. Việc theo dõi siêu dữ liệu r t quan trọng đối với việc xử l lưu
trữ và phân tích dữ liệu lớn vì nó cung c p thông tin về phả hệ của dữ liệu và
nguồn gốc của nó trong quá trình xử lý. Ví dụ về siêu dữ liệu bao gồm:
Thẻ XML cung cấp ngày x t
và ngày tạo tài liệu; Các thu c tính cung cấp
kí t ước tệp v
đ phân giải củ
ản kỹ thuật số; Các giải pháp dữ liệu lớn
t ư n d a trên siêu dữ liệu đặc biệt khi xử lý dữ liệu bán cấu trúc và không cấu
trúc [5].
1.1.2 C
ệ
tữ
ữ ệ
ớ
ác dữ liệu thu đư c t các nguồn b n ngoài thường không ở định dạng hoặc
c u trúc c thể xử l ng y đư c Để khắc phục đư c tình trạng này việc sắp xếp
lưu trữ dữ liệu là vô cùng cần thiết
bước: ọc dữ liệu
ử l sắp xếp lưu trữ dữ liệu b o gồm các
làm sạch dữ liệu và chu n bị dữ liệu o nhu cầu lưu trữ dữ
5
liệu trong ig t n n c việc
lưu trữ hiệu quả và c
nhiều công nghệ ti n tiến đư c tạo r để hướng tới khả
năng mở rộng c o [5].
ụm
iệu
ust rs
Trong điện toán, một cụm là một tập h p các máy chủ hoặc các nút đư c liên
kết chặt chẽ. Các máy chủ này thường có cùng phần cứng và đư c kết nối với
nhau thông qua một mạng để hoạt động như một đơn vị lưu trữ và xử l dữ liệu
Mỗi nút trong cụm c các tài nguy n ri ng biệt ch ng hạn như bộ nhớ, bộ xử lý
và ổ cứng. Một cụm có thể thực thi một tác vụ b ng cách chia nó thành các phần
nhỏ và phân phối thực thi của chúng trên các máy tính khác nhau thuộc cụm.
ệ thống ưu tr i hệ thống ưu tr i ph n tán
ệ thống lưu trữ file (gọi tắt là hệ thống file) là hệ thống sử dụng phương
pháp lưu trữ và sắp xếp dữ liệu tr n thiết bị lưu trữ (ổ đ
cứng )
fl sh
ile (tệp) là một đơn vị lưu trữ dữ liệu nhỏ nh t đư c quản l
thống file
ề mặt logic hệ thống file c
ổ
bởi hệ
c u trúc như một cây thư mục
ác hệ
điều hành sử dụng hệ thống file để lưu trữ và truy xu t dữ liệu cho các ứng
dụng
ỗi một hệ điều hành c thể c một hoặc nhiều hệ thống file v dụ hệ
thống file T
tr n hệ điều hành
icrosoft indows và hệ thống file
T
trên Linux.
ột hệ thống lưu trữ file phân tán (hệ thống file phân tán) là một hệ thống
file c thể lưu trữ các file (tệp) c
nút củ cụm dữ liệu
nh u
dung lư ng lớn đư
cho ph p các file đư
dụ hệ thống file phân tán củ
c phân tán đều tr n các
c truy cập t
oogle (
nhiều vị tr khác
) và hệ thống file phân tán
Hadoop (HDFS) [5].
ơs
iệu h ng quan hệ
on-SQL)
ơ sở dữ liệu onlà
không qu n hệ c khả năng mở rộng c o
t nh chịu lỗi và đư c thiết kế đặc biệt cho dữ liệu không c
c u trúc hoặc bán
c u trúc
on-
này thường đư c cung c p gi o diện truy v n
c thể đư c gọi t
b n trong ứng dụng
các truy v n c c u trúc (
on-
như trong
document (tài liệu);
n c khả năng hỗ tr
)
CSDL Non-SQL có thể đư c phân thành bốn loại dự
trữ dữ liệu
c
và
ình 1.1
tr n cách chúng lưu
– 1.4: ạng key-value (khóa-giá trị);
ạng column-family; ạng gr ph (đồ thị) [5].
6
ạng
Hình 1.1. M t ví dụ về lưu trữ ạn
y-value.
Hình 1.2. M t ví dụ về lưu trữ
o um nt
ạn
Hình 1.3. M t ví dụ về lưu trữ ạn
Hình 1.4. M t ví dụ về lưu trữ
olumn-family.
ạ
n
rp
Ph n đoạn
iệ
har ing
u
hân đoạn dữ liệu là quá trình phân vùng dữ liệu theo chiều ng ng t một tập
dữ liệu lớn thành một tập h p các bộ dữ liệu nhỏ hơn dễ quản l hơn đư c gọi là
phân đoạn ác phân đoạn đư c phân phối trên nhiều nút trong đ mỗi
một nút là máy chủ. Mỗi phân đoạn đư c lưu trữ trên một nút riêng biệt và mỗi
nút chỉ chịu trách nhiệm cho dữ liệu đư c lưu trữ tr n đ
ỗi phân đoạn c
7
- Xem thêm -