Tài liệu Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

.DOC

124

tailieuonline Báo vi phạm

Tải xuống 99

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CHUNG THÀNH HƯNG TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG Chuyên ngành: Hệ thống thông tin Mã số: 8480104.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN C ộ ớ : PGS. TS Phan Xuân Hiếu Hà Nội - 2019 LỜI CẢM ƠN Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã tạo điều kiện cho học vi n lớp c o học 24 TT một môi trường học tập thuận l i đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy kho học để phục vụ cho quá trình học tập và công tác của tôi. Đặc biệt tôi xin đư c bày tỏ lòng biết ơn sâu sắc đến T đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên cứu, giúp tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và làm việc. Tôi xin gửi lời cảm ơn đến các bạn trong lớp o học ệ thống Thông tin K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gi n học tập uối cùng tôi xin đư c gửi lời cảm ơn tới gi đình đồng nghiệp người thân đã động vi n giúp đỡ tôi trong quá trình hoàn thành luận văn Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không tránh khỏi những thiếu sót. Tôi xin trân trọng tiếp thu các ý kiến của các thầy cô, bạn bè để luận văn đư c hoàn thiện. Trân trọng cám ơn i LỜI CAM ĐOAN Tôi xin c m đo n các kết quả nghi n cứu thực nghiệm đư luận văn này do tôi thực hiện dưới sự hướng d n củ T và đư c thực hiện trong quá trình h p tác nghi n cứu giữ nghiệp - ông nghệ c trình bày trong hn uân iếu Tập đoàn ông o iettel và đối tác T t cả những th m khảo t các nghi n cứu li n qu n đều đư một cách r ràng t d nh mục tài liệu th m khảo củ c n u nguồn gốc luận văn Trong luận văn không c việc s o ch p tài liệu công trình nghi n cứu củ người khác mà không chỉ r về tài liệu th m khảo n n y t n nm H Ngu ii C T H 9 MỤC LỤC LỜI CẢM ƠN..............................................................................................................i LỜI CAM ĐOAN........................................................................................................ ii MỤC LỤC..................................................................................................................iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT................................................ v DANH MỤC CÁC BẢNG........................................................................................vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ................................................................. viii MỞ ĐẦU...................................................................................................................... 1 CHƯƠNG TỔNG QUAN....................................................................................... 4 11 Ệ Ả..................................................................................... 4 1 1 1 hái niệm chung về dữ liệu lớn........................................................................... 4 1 1 2 ác khái niệm lưu trữ dữ liệu lớn......................................................................... 5 1 1 3 ác khái niệm về xử l dữ liệu lớn....................................................................... 9 1 1 4 ái khái niệm phân t ch dữ liệu và các loại hình phân t ch dữ liệu....................13 1.2. Hệ thống phân tích dữ liệu lớn............................................................................. 16 1 2 1 ông nghệ lưu trữ dữ liệu trong BigData........................................................... 16 1 2 2 ử l dữ liệu trong BigData.............................................................................. 21 1.2.3. Kỹ thuật phân t ch bigd t hiện n y................................................................... 25 1 3 ác T T Ự....................................................................... 28 1 3 1 ài toán phân t ch dự báo................................................................................... 28 1 3 2 ác mô hình dự báo cơ bản................................................................................ 28 1 3 3 ác kỹ thuật phân t ch dự báo............................................................................ 30 1.3.4. Giới thiệu công cụ phân tích Rapidminer.......................................................... 41 CHƯƠNG 2 PHƯƠNG PH P TỔ CHỨC VÀ T CH HỢP Ữ IỆU ỚN......44 21 ỆT Ố T Ữ Ệ Ớ T Ễ T.....................44 2 1 1 ột số ứng dụng hệ thống phân t ch dữ liệu lớn phổ biến hiện n y....................44 2 1 2 iện trạng củ iettel........................................................................................ 50 2 2 2 ô hình tổ chức thực tế hệ thống ig t tại iettel........................................ 56 2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lớn............................................... 58 2 2 4 ác phân hệ cài đặt củ louder ig t nterprise fl tform:.........................60 CHƯƠNG 3 THỰC NGHIỆM TÍCH HỢP HỆ THỐNG Ự O T RM.......62 31 Ộ T Ự Ệ................................................................................. 62 3 1 1 Định ngh thu b o rời mạng............................................................................ 62 3 1 2 ài toán y u cầu................................................................................................. 62 3.1.3. ác bước thực nghiệm....................................................................................... 63 32T Ể ỆT Ố T Ự Ệ......................................................... 63 iii 3 2 1 ây dựng hệ thống phân t ch ig t thực nghiệm.......................................... 63 3 2 2 ây dựng mô hình dự báo TBRM..................................................................... 68 33 T ẢT Ự Ệ Ự.............................................. 69 3 3 1 hám phá dữ liệu và tạo các biến đặc trưng...................................................... 69 3 3 2 ự chọn đặc trưng và mô hình h....................................................................... 75 3 3 3 Tối ưu mô hình dự báo....................................................................................... 79 34Đ T Ạ........................................................................................ 82 3 4 1 ết quả đầu r củ hệ thống phân t ch dự báo thu b o rời mạng......................82 3 4 2 Tri thức thu đư c s u thực nghiệm...................................................................... 82 KẾT LUẬN............................................................................................................... 84 TÀI LIỆU THAM KHẢO........................................................................................ 85 PHỤ ỤC ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC - PHÂN THEO 4 NHÓM HÀNH VI........................................................ 87 PHỤ ỤC 2 ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAUPHÂN THEO 4 NHÓM HÀNH VI.......................................................................... 90 iv DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ký ệ/ ữ ết tắt Ý ĩa 1 ACID 2 3 4 AUC AUROC BASE 5 6 BLOB CAP Binary Large Object Consistency, Availability and Partition Tolerance (Nguyên lý CAP) 7 CEM Customer Experience Management (Quản lý khách hàng) 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 CEP CNN DBM DBN DT ETL FN FP FPR GBM GBRT ID3 IG IMDB IMDG Complex Event Processing Convolutional Neural Network Deep Boltzmann Machine Deep Belief Networks Daytype Extract Transform Load (Trích xu t dữ liệu) False Negative False Positive False Positive Rate/Fall-out Gradient Boosting Machines Gradient Boosting Regression Trees Interactive Dichotomizer 3 nform tion in (Độ tăng thông tin) In- emory t b ses ( ơ sở dữ liệu trong bộ nhớ) In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ nhớ) 23 24 25 26 27 IOB IoT LS M2M MDA In-of-bag Internet Of Things Learning Set (Tập hu n luyện) Machine to Manchine e n ecre se ccur cy (Độ chính xác giảm bình quân cho mỗi biến) 28 MDG Mean Decrease Gini (Sự giảm bình quân hệ số mỗi biến) 29 30 OOB POD Out-of-bag Period of Day Atomicity, Consistency, Isolation, Durability thiết kế ACID) (Nguyên tắc Area Under the Curve Area Under the Receiver Operating Characteristics Basically Available, Soft state, Eventual consistency (Nguyên tắc thiết kế BASE) v trải nghiệm ini đối với STT 31 32 Ký ệ/ ữ ết tắt QC RDBMS 33 34 35 36 37 38 39 40 41 42 RF ROC S/N SVM TB TBRM TN TP TPR WFLD Ýĩa Quality Call Relation DB Management Systems (Hệ thống lưu trữ cơ sở dữ liệu quan hệ) Random Forest Receiver Operating Characteristics Signal/Noise (Tỷ lệ tín hiệu trên nhiễu) Support Vector Machines Thuê bao Thuê bao rời mạng True Negative True Positive True Positive Rate/Sentivity/Recall Weeks Before Last Date vi DANH MỤC CÁC BẢNG Bảng 1 1 ác thuộc t nh v dụ Ngày và Khách truy cập và thuộc t nh đư c trích xu t IsWeek-endDayfDayg................................................................................................. 31 Bảng 1 2 ác phương pháp tr ch chọn thuộc t nh....................................................... 33 Bảng 3.1. C u hình hệ thống phân tích BigData thực nghiệm...................................... 65 Bảng 3.2. Nguồn dữ liệu hệ thống phân tích BigData thực nghiệm.............................67 Bảng 3.3. Các biến đặc trưng cho dữ liệu gọi đi của thuê bao..................................... 69 Bảng 3.4. Các biến đặc trưng cho dữ liệu gọi đến của thuê bao..................................70 Bảng 3.5. Các biến đặc trưng cho dữ liệu nhắn tin đi của thuê bao.............................71 Bảng 3.6. Các biến đặc trưng cho dữ liệu nhắn tin đi của thuê bao.............................71 Bảng 3.7. Các biến đặc trưng cho dữ liệu sử dụng Data của thuê bao.........................72 Bảng 3.8. Các biến đặc trưng cho dữ liệu tiêu dùng hàng ngày của thuê bao..............72 Bảng 3.9. Các biến đặc trưng cho dữ liệu nạp tiền của thuê bao.................................73 Bảng 3.10. Các biến đặc trưng cho dữ liệu số dư tài khoản của thuê bao....................74 Bảng 3.11. Các biến đặc trưng cho dữ liệu cước phí các gói sử dụng.........................74 theo chu kỳ của thuê bao............................................................................................. 74 Bảng 3.12. Các biến đặc trưng cho dữ liệu tổng h p ch rge cước sử dụng các dịch vụ VAS của thuê bao........................................................................................................ 74 Bảng 3.13. Các biến đặc trưng cho dữ liệu home của thuê bao................................... 75 Bảng 3.14. Các biến đặc trưng cho dữ liệu thông tin thuê bao, khách hàng................75 Bảng 3 15 ự chọn các thuộc t nh qu n trọng b ng thuật toán ecision Tree................75 Bảng 3.16. Validation of the Training Data Set (80% of Total).................................. 78 Bảng 3.17. Validation of the Testing Data Set (20% of Total).................................... 78 Bảng 3.18. Sử dụng Logistic Regression..................................................................... 78 Bảng 3.19. Sử dụng Naïve Bayes................................................................................ 78 Bảng 3.20. So sánh các kết quả................................................................................... 79 ảng 3 21 ết quả phân cụm b ng thuật toán -mean............................................... 79 ảng 3 22 ết quả chi tiết phân cụm b ng thuật toán -mean...................................79 ảng 3 23 Tối ưu mô hình b ng cách lựa chọn lại các đặc trưng................................ 81 Bảng 3.24. Lựa chọn mô hình dự đoán tốt nh t............................................................ 82 Bảng 3.25. Mô hình dự báo với thuật toán Gradien Booting....................................... 82 vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1. Một ví dụ về lưu trữ dạng ey-value............................................................. 7 Hình 1.2. Một ví dụ về lưu trữ dạng ocument............................................................. 7 Hình 1.4. Một ví dụ về lưu trữ dạng r ph.................................................................... 7 ình 1 5 ơ đồ Venn - định lý CAP.............................................................................. 8 Hình 1.6. Một quy trình ETL có thể trích xu t dữ liệu t nhiều nguồn và chuyển đổi nó để tải vào một hệ thống đ ch duy nh t.......................................................................... 10 Hình 1.8. Một ví dụ về xử lý dữ liệu phân tán............................................................. 11 và lưu trữ..................................................................................................................... 12 Hình 1.10.Giá trị và độ phức tạp tăng t phân tích mô tả đến đề xu t..........................13 Hình 1.11. Thiết bị lưu trữ trong bộ nhớ có tốc độ truyền dữ liệu nh nh hơn 80 lần so với thiết bị lưu trữ tr n đ.............................................................................................. 19 Hình 1.12. Một ví dụ mô tả việc truy xu t dữ liệu t IMDG....................................... 20 Hình 1.13. Một ví dụ mô tả việc truy xu t dữ liệu t IMDB........................................ 21 Hình 1.14. Một minh họa về công việc MapReduce.................................................... 23 Hình 1.15. Một ví dụ về p educe đ ng hoạt động.................................................. 25 Hình 1.16. Biểu diễn cây quyết định cơ bản................................................................ 28 Hình 1.17. Cây quyết định cho việc chơi Tennis......................................................... 29 Hình 1.18. Vai trò của mô hình và t ng tập dữ liệu..................................................... 34 Hình 1.19. Overfitting, Underfitting............................................................................ 35 Hình 1.20. Confusion Matrix....................................................................................... 36 ình 1 21 hương pháp i s & ri nce.................................................................... 37 ình 1 22 hương pháp đường cong -ROC........................................................ 39 ình 1 23 Trường h p tốt nh t khi 2 đường cong không chồng lên nhau...................40 ình 1 24 Trường h p khi 2 đường cong có chồng lên nhau...................................... 41 Hình 1 25 Trường h p tệ nh t khi 2 đường cong hoàn toàn chồng lên nhau...............41 ình 1 26 Trường h p AUC x p xỉ 0.......................................................................... 41 ình 2 1 ác l nh vực phân t ch dữ liệu lớn trong viễn thông....................................44 ình 2 2 ức độ ứng dụng phân t ch dữ liệu lớn trong viễn thông............................45 ình 2 3 hương pháp tổ chức hệ thống dữ liệu lớn................................................... 53 ình 2 4 ô hình tổ chức thực tế hệ thống BigData tại Viettel.................................. 56 ình 2 5 o sánh và........................................................................................... 59 ình 3 1 ô hình triển kh i hệ thống ig t thực nghiệm......................................64 ình 3 2 ô hình đ u nối hệ thống............................................................................. 64 ình 3 3 i o diện module Cloudera Manager........................................................... 66 ình 3 4 i o diện công cụ phân t ch pidminer..................................................... 66 viii ình 3 5 ình 3 6 ình 3 7 ình 3 8 ình 3 9 ình 3 10 ình 3 11 ình 3 12 uồng kh i phá dữ liệu trong pidminer.................................................... 67 uồng xử l kh i phá dữ liệu........................................................................ 67 ô hình dự báo thu b o rời mạng............................................................... 69 hương pháp hu n luyện 1 cây quyết định cho mỗi nguồn dữ liệu...............76 ắt bỏ các mức th p và trích xu t các nút t các c p c o hơn.......................76 ô tả cây quyết định tr n pidminer....................................................... 77 ác thuộc t nh qu n trọng s u khi cắt bỏ..................................................... 77 ô hình tối ưu........................................................................................... 81 ix MỞ ĐẦU Tr n thế giới dữ liệu lớn ( ig t ) đã và đ ng là một trong những v n đề trung tâm, nhận đư c nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần thứ tư ig ta chính là cốt l i để sử dụng, phát triển internet vạn vật (IoT) và trí tuệ nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo ra một lư ng lớn dữ liệu, dự kiến đến năm 2020 lư ng dữ liệu sẽ tăng g p 50 lần hiện nay [4]. Thông qua thu thập, phân tích và xử l lư ng dữ liệu lớn này sẽ tạo ra những tri thức mới, hỗ tr việc đư r quyết định của các chủ thể trên thế giới (doanh nghiệp, chính phủ người dân) [1, 4]. Trong ngành viễn thông và TT dữ liệu lớn trở thành công cụ hữu hiệu cho các nhà cung c p dịch vụ viễn thông trong kinh do nh c ng như công tác quản l vận hành kh i thác dịch vụ ác do nh nghiệp viễn thông ngày n y đã chủ động ứng dụng công nghệ mới này đề xây dựng các hệ thống phân t ch dữ liệu làm cơ sở để giám sát quản l và r các quyết định c t nh chiến lư c nh vực áp dụng dự liệu lớn trong viễn thông r t phong phú li n qu n đến các công nghệ phân t ch dự báo học máy () tr tuệ nhân tạo ( ) [2, 10]. ự vào các công cụ này do nh nghiệp c thể nâng c o ch t lư ng dịch vụ cung c p đạt hiệu quả kinh do nh hạm vi ứng dụng dữ liệu lớn trong viễn thông n i ri ng r t rộng các ứng dụng c thể kể đến như hệ thống phân t ch quản l trải nghiệm khách hàng ( ustomer xperience gmt) hệ thống giám sát quản l và tối ưu mạng lưới ( etwork ) hệ thống phân t ch hoạt động do nh nghiệp ( per tion n lytics) và thương mại dữ liệu ( t onetiz tion) [7, 11] iettel là một do nh nghiệp hàng đầu iệt m luôn c chiến lư c đổi mới ti n phong trong công nghệ iệc ứng dụng một cách nh nh nh t hiệu quả nh t các công nghệ mới n i chung và nh t là các công nghệ li n qu n đến dữ liệu lớn n i ri ng luôn là thách thức củ đội ng kỹ thuật iettel ột trong những ứng dụng phổ biến nh t hiện n y mà các nhà cung c p dịch vụ viễn thông sử dụng đ là hệ thống phân t ch dự báo khách hàng rời mạng Đây là hệ thống qu n trọng mà đội ng kỹ thuật iettel tự nghi n cứu xây dựng dự tr n tư v n củ đối tác cung c p nền tảng dữ liệu lớn louder ản thân là một trong những thành vi n th m gi dự án xây dựng bài toán tôi xin giới thiệu đề tài nghi n cứu: "TỔ Ứ T Ệ T Ố T Ữ Ệ Ớ T Ự T Ễ T " ới mong muốn hiểu đư c phương pháp phân t ch dự 1 báo và tự bản thân t ch h p đư c một hệ thống dữ liệu lớn tôi đã đặt mục ti u u nghi n cứu các nội dung s đây:  Tổng quan về vấn đề nghiên cứu: Tìm hiểu về dữ liệu lớn các công nghệ li n qu n đến dữ liệu lớn (công  nghệ xử l và lưu trữ dữ liệu) các ứng dụng cho dữ liệu lớn Tìm hiểu về bài toán phân t ch dự báo và phương pháp dự báo thu b o rời mạng dự tr n hành vi ti u dùng và th i quen sử dụng dịch vụ củ khách hàng ây dựng t ch h p hệ thống phân t ch dữ liệu lớn phục vụ công tác dự báo thu b o rời mạng tại iettel Mục đích nghiên cứu: Tìm hiểu dữ liệu lớn và xây dựng ứng dụng vào thực tiễn phục vụ công tác kinh do nh củ iettel  Đối tượng nghiên cứu: ữ liệu lớn (khái niệm, cách hoạt động và công nghệ hỗ tr ). Ứng dụng dữ liệu lớn vào thực tiễn tại Viettel.  Phạm vi nghiên cứu:  Các khái niệm cơ bản về dữ liệu lớn  Giải pháp mã nguồn mở cho Big t dự tr n  louder l tform Xây dựng hệ thống dữ liệu lớn cho một ứng dụng phân t ch dự báo cụ thể Phương pháp nghiên cứu:  Nghiên cứu lý thuyết về dữ liệu lớn trong hệ thống Công nghệ thông tin với mục tiêu là hiểu đư c nền tảng cơ bản.  Nghiên cứu các công nghệ cho hệ thống dữ liệu lớn với mục tiêu là hiểu và triển kh i đư c công nghệ.  Tìm hiểu về các hệ thống dữ liệu phục vụ sản xu t kinh doanh của Viettel phục vụ cho sản xu t kinh doanh của doanh nghiệp với mục ti u nắm vững các nguồn dữ liệu lớn đ ng c và triển khai việc xây dựng BigData. Phương pháp thực nghiệm: ây dựng t ch h p một hệ thống dữ liệu lớn dự tr n nền tảng louder l tform phục vụ cho một ứng dụng cụ thể là phân t ch dự báo thu b o rời mạng củ iettel ới các mục ti u xác định cụ thể như tr n kết quả củ luận văn dự kiến sẽ cho r đời một hệ thống phân t ch dữ liệu lớn phục vụ cho công tác dự báo thu b o rời mạng mới (th y thế cho hệ thống v c ) ệ thống phân t ch mới này dự tr n các thuật toán dự báo ti n tiến kết h p với công nghệ xử l dữ liệu lớn sẽ cho r kết quả phân t ch nh nh hơn và c độ ch nh xác hơn u đ công cụ 2 này sẽ giúp iettel đư r quyết định kịp thời và hiệu quả hơn trong việc gìn giữ khách hàng củ mình Luận văn đư c c u trúc như s u: 1: TỔ hương này trình bày các khái niệm cơ bản về dữ liệu lớn công nghệ lưu trữ và xử l dữ liệu lớn ác bài toán phân t ch dự báo mô hình dự báo giới thiệu các kỹ thuật phân t ch dự báo và công cụ phân t ch dữ liệu pidminer c ng là một trong những nội dung qu n trọng củ phần này 2:TỔ Ứ ỘT ỆT Ố T Ữ Ệ Ớ Đây là chương khá qu n trọng đư c chi làm 02 phần hần thứ nh t giới thiệu các ứng dụng phân t ch dữ liệu lớn phổ biến hiện n y hiện trạng các nguồn dữ liệu lớn cùng với các hệ thống ứng dụng phân t ch dữ liệu lớn tại Viettel hần c n lại sẽ chi s phương pháp tổ chức hệ thống dữ liệu lớn tập trung cách thiết kế kiến trúc hạ tầng dữ liệu lớn hiện tại củ iettel 3:T Ự Ệ T ỆT Ố Ự THU Ờ Ạ hương 3 là chương chuyển thể các kiến thức nghi n cứu đư c thành nội dung ứng dụng thực tế hương này đư r thực nghiệm t ch h p một hệ thống phân t ch dự báo thu b o rời mạng với một hệ thống xử l dữ liệu lớn thành một công cụ c áp dụng dự báo cụ thể ệ thống này bước đầu cho r các kết quả sơ bộ về đặc điểm thu b o rời mạng với độ ch nh xác >80 s u khi tối ưu các bước dự báo Tuy nhi n để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong thực tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì còn phải thực hiện tối ưu mô hình li n tục. Kết quả thực nghiệm củ chương trình này chỉ mang tính ch t tham khảo chư thể áp dụng trong thực tế. Trên đây là giới thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân. Nội dung thực hiện chỉ mới là qu n điểm và tư duy cá nhân sẽ còn nhiều tồn tại và thiết sót. Do vậy, r t mong quý thầy cô, bạn học và nh t là hội đồng tốt nghiệp cho ý kiến đ ng g p để luận văn đư c hoàn thiện, kết quả luận văn là công cụ dự báo đư c áp dụng hiệu quả trong thực tế. 3 CHƯƠNG TỔNG QUAN 1.1. CÁC KH I NIỆM CƠ ẢN 1.1.1. K ệ chung về dữ liệu lớn iệ ata s ts u hiều tập dữ liệu h y nhiều nh m dữ liệu c li n qu n đến nh u đư c gọi là bộ dữ liệu [5] Trong đ mỗi nh m hoặc tập con dữ liệu đ c cùng thuộc t nh giống nh u ột số v dụ về bộ dữ liệu ở 03 định dạng khác nh u: + ữ liệu Tweets đư c lưu giữ trong tập tin ph ng (flat file). + Tr ch xu t các hàng t bảng dữ liệu (d t b se t ble) đư c lưu giữ trong tệp định dạng ộ sưu tập ảnh đư c lưu trong thư mục + ác thông tin qu n sát về lịch sử thời tiết đư c lưu dưới dạng Đặc điểm d liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value) ữ liệu lớn ig t c 05 đặc điểm h y c n gọi là 5 : Volume- hối lư ng lớn; Velocity-Tốc độ; riety-T nh đ dạng; Veracity-Tính xác thực và lue-ng lại giá trị. ầu hết các đặc điểm về dữ liệu lớn đư c oug ney xác định vào năm 2001 khi đăng bài viết về dữ liệu do nh nghiệp ( olume elocity riety) T nh xác thực ( er city) đư c bổ sung để t nh tỷ lệ sign l-to-noise khi so sánh dữ liệu phi c u trúc với dữ liệu c c u trúc uối cùng lue- để xác định các kết quả phân t ch dữ liệu lớn m ng lại giá trị gì? [8]. Ph n iệt các oại liệu d Dữ liệu có cấu trúc (Structured Data): Dữ liệu có c u trúc phù h p với mô hình dữ liệu đư c lưu trữ ở dạng bảng hệ giữa các thực thể khác nh u và do đ húng đư c sử dụng để mô tả mối quan thường đư c lưu trữ trong cơ sở dữ liệu quan hệ. Dữ liệu có c u trúc thường đư c tạo bởi các ứng dụng doanh nghiệp và hệ thống thông tin như hệ thống ERP và CRM. Ví dụ về loại dữ liệu này bao gồm các giao dịch ngân hàng h đơn và hồ sơ khách hàng Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù h p với mô hình dữ liệu hoặc lư c đồ dữ liệu đư c gọi là dữ liệu phi c u trúc. gười t ước tính r ng dữ liệu phi c u trúc chiếm tới 80% dữ liệu trong b t kỳ doanh nghiệp nào. gày n y dữ liệu phi c u trúc có tốc độ tăng trưởng nh nh hơn dữ liệu có 4 c u trúc. Một số loại dữ liệu phi c u trúc phổ biến như dữ liệu c dạng văn bản (text) hoặc nhị phân (binary). Dữ liệu phi c u trúc không thể đư c xử l hoặc truy v n trực tiếp b ng cơ sở dữ liệu qu n hệ SQL. Nếu muốn lưu trữ dữ liệu phi c u trúc trong cơ sở dữ liệu quan hệ, thì phải đư c lưu trữ trong một bảng dưới dạng BLOB (Binary Large Object) goài r cơ sở dữ liệu NonSQL có thể đư c sử dụng để lưu trữ dữ liệu phi c u trúc. Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán c u trúc thường là dữ liệu c c u trúc nhưng không đồng nh t Th y vào đ dữ liệu bán c u trúc c dạng phân c p (hierarchical) hoặc đồ thị (gr phb sed). Loại dữ liệu này thường đư c lưu trữ trong các tệp có chứ văn bản. Ví dụ như các tệp XML và JSON là các dạng phổ biến của dữ liệu bán c u trúc. Do tính ch t văn bản của dữ liệu này và sự phù h p của nó với một mức độ c u trúc nào đ n dễ dàng kh i thác hơn dữ liệu phi c u trúc. Các nguồn phổ biến của dữ liệu bán c u trúc bao gồm các tệp tr o đổi dữ liệu điện tử (EDI), bảng tính, nguồn dữ liệu t các bộ cảm biến. Dữ liệu bán c u trúc thường có các yêu cầu lưu trữ và xử l trước đặc biệt đặc biệt nếu định dạng cơ bản không dự tr n văn bản. Một ví dụ về tiền xử lý dữ liệu bán c u trúc sẽ là xác thực tệp để đảm bảo r ng nó tuân thủ theo lư c đồ của nó. Siêu dữ liệu (Metadata): Siêu dữ liệu cung c p thông tin về các đặc điểm và c u trúc của bộ dữ liệu. Loại dữ liệu này chủ yếu đư c tạo b ng máy và có thể đư c thêm vào dữ liệu. Việc theo dõi siêu dữ liệu r t quan trọng đối với việc xử l lưu trữ và phân tích dữ liệu lớn vì nó cung c p thông tin về phả hệ của dữ liệu và nguồn gốc của nó trong quá trình xử lý. Ví dụ về siêu dữ liệu bao gồm: Thẻ XML cung cấp ngày x t và ngày tạo tài liệu; Các thu c tính cung cấp kí t ước tệp v đ phân giải củ ản kỹ thuật số; Các giải pháp dữ liệu lớn t ư n d a trên siêu dữ liệu đặc biệt khi xử lý dữ liệu bán cấu trúc và không cấu trúc [5]. 1.1.2 C ệ tữ ữ ệ ớ ác dữ liệu thu đư c t các nguồn b n ngoài thường không ở định dạng hoặc c u trúc c thể xử l ng y đư c Để khắc phục đư c tình trạng này việc sắp xếp lưu trữ dữ liệu là vô cùng cần thiết bước: ọc dữ liệu ử l sắp xếp lưu trữ dữ liệu b o gồm các làm sạch dữ liệu và chu n bị dữ liệu o nhu cầu lưu trữ dữ 5 liệu trong ig t n n c việc lưu trữ hiệu quả và c nhiều công nghệ ti n tiến đư c tạo r để hướng tới khả năng mở rộng c o [5]. ụm iệu ust rs Trong điện toán, một cụm là một tập h p các máy chủ hoặc các nút đư c liên kết chặt chẽ. Các máy chủ này thường có cùng phần cứng và đư c kết nối với nhau thông qua một mạng để hoạt động như một đơn vị lưu trữ và xử l dữ liệu Mỗi nút trong cụm c các tài nguy n ri ng biệt ch ng hạn như bộ nhớ, bộ xử lý và ổ cứng. Một cụm có thể thực thi một tác vụ b ng cách chia nó thành các phần nhỏ và phân phối thực thi của chúng trên các máy tính khác nhau thuộc cụm. ệ thống ưu tr i hệ thống ưu tr i ph n tán ệ thống lưu trữ file (gọi tắt là hệ thống file) là hệ thống sử dụng phương pháp lưu trữ và sắp xếp dữ liệu tr n thiết bị lưu trữ (ổ đ cứng ) fl sh ile (tệp) là một đơn vị lưu trữ dữ liệu nhỏ nh t đư c quản l thống file ề mặt logic hệ thống file c ổ bởi hệ c u trúc như một cây thư mục ác hệ điều hành sử dụng hệ thống file để lưu trữ và truy xu t dữ liệu cho các ứng dụng ỗi một hệ điều hành c thể c một hoặc nhiều hệ thống file v dụ hệ thống file T tr n hệ điều hành icrosoft indows và hệ thống file T trên Linux. ột hệ thống lưu trữ file phân tán (hệ thống file phân tán) là một hệ thống file c thể lưu trữ các file (tệp) c nút củ cụm dữ liệu nh u dung lư ng lớn đư cho ph p các file đư dụ hệ thống file phân tán củ c phân tán đều tr n các c truy cập t oogle ( nhiều vị tr khác ) và hệ thống file phân tán Hadoop (HDFS) [5]. ơs iệu h ng quan hệ on-SQL) ơ sở dữ liệu onlà không qu n hệ c khả năng mở rộng c o t nh chịu lỗi và đư c thiết kế đặc biệt cho dữ liệu không c c u trúc hoặc bán c u trúc on- này thường đư c cung c p gi o diện truy v n c thể đư c gọi t b n trong ứng dụng các truy v n c c u trúc ( on- như trong document (tài liệu); n c khả năng hỗ tr ) CSDL Non-SQL có thể đư c phân thành bốn loại dự trữ dữ liệu c và ình 1.1 tr n cách chúng lưu – 1.4: ạng key-value (khóa-giá trị); ạng column-family; ạng gr ph (đồ thị) [5]. 6 ạng Hình 1.1. M t ví dụ về lưu trữ ạn y-value. Hình 1.2. M t ví dụ về lưu trữ o um nt ạn Hình 1.3. M t ví dụ về lưu trữ ạn Hình 1.4. M t ví dụ về lưu trữ olumn-family. ạ n rp Ph n đoạn iệ har ing u hân đoạn dữ liệu là quá trình phân vùng dữ liệu theo chiều ng ng t một tập dữ liệu lớn thành một tập h p các bộ dữ liệu nhỏ hơn dễ quản l hơn đư c gọi là phân đoạn ác phân đoạn đư c phân phối trên nhiều nút trong đ mỗi một nút là máy chủ. Mỗi phân đoạn đư c lưu trữ trên một nút riêng biệt và mỗi nút chỉ chịu trách nhiệm cho dữ liệu đư c lưu trữ tr n đ ỗi phân đoạn c 7

- Xem thêm -

Tài liệu Tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất