Đăng ký Đăng nhập
Trang chủ Nghiên cứu phát triển một số phương pháp xử lí dữ liệu lớn và ứng dụng trong th...

Tài liệu Nghiên cứu phát triển một số phương pháp xử lí dữ liệu lớn và ứng dụng trong thương mại điện tử

.PDF
37
27
89

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ Nộ] VỈẸN CONG NGHẸ THONG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN c ứ ư PHÁT TRIỂN MỘT SÓ PHƯƠNG PHÁP x ử LÍ DỮ LIỆU LỚN VÀ ỨNG DỤNG TRONG THƯƠNG MẠI ĐIỆN TỦ j ĐAI HỌC QUỐC GIA HÀ NÔI TRUNG TẮM THÔNG TIN THƯ VIÊN I ___ODOfiOnm 3 ỸQ í Hà N ôi 04/2017 MỤC LỤC I. II. Các thông tin cơ bản 1. Thông tin chung 2. Tổng quan tình hình nghiên cứu 2.1. Một số nét cơ bản về Big Data 2.2. Các công nghệ liên quan 2.3. ủ n g dụng của Big Data 2.4. Big Data ở Việt Nam 3. Nội dung đăng kí của đề tài 4. Nội dung đã thực hiện và sản phẩm đã có 4.1. Các báo cáo chuyên đề và sản phẩm phần mềm 4.2. Các bài báo khoa học 4.3. Sản phẩm đào tạo 5. Bảng tổng hợp 6. Kinh phí Thử nghiệm hệ phần mềm tìm sở thích khách hàng 1. Các thông tin cơ bản 2. Hướng dẫn sử dụng hệ phần mềm tìm sở thích khách hàng I. CÁC THÔNG TIN c ơ BẢN 1. Thông tin chung: - Tên đề tài: N ghiên cứ u p h á t triển m ột số p h ư ơ n g pháp x ử lí d ữ liệu lởn và ứng dụng trong thư ơ ng m ại điện tử - Mã số: QG. 15.41 - Chủ nhiệm đề tài: GS.TS. Vũ Đức Thi - Đơn vị chủ trì: Viện Công nghệ Thông tin - Đại học Quốc gia Hà Nội - Thời gian thực hiện: Từ tháng 01 năm 2015 đến tháng 12 năm 2016. Gia hạn đến tháng 6/2017. Mục tiêu đề tài - Nghiên cứu phát triển và ứng dụng một sổ phương pháp tổ chức và xử lí dữ liệu lớn - Thiết kể xây dựng một hệ phần mềm thử nghiệm hỗ trợ việc đánh giá xu hướng của khách hàng với hàng hóa trong thương mại điện tử 2. Tổng quan tình hình nghiên cứu 2 Những năm gần đây, chúng ta chứng kiên sự phát triên mạnh mẽ của truyên thông xã hội, của công nghệ tìm kiếm, như Facebook, MySpace, Twitter, Blogger, Google và Yahoo. Các công nghệ này cùng các công nghệ khác làm tăng đột biến khối lượng dữ liệu. Chính xu thế này đã dẫn đến sự phát triển rất sôi động của một hướng nghiên cứu mới trong lĩnh vực Công nghệ thông tin. Đó là hướng nghiên cứu về các hệ thống dữ liệu lớn (Big Data). Không chỉ khối lượng dữ liệu tăng vọt mà cấu trúc dữ liệu cũng rất đa dạng bao gồm dữ liệu phi cấu trúc (bảng, file) và dữ liệu có cấu trúc. Dữ liệu có cấu trúc bao gồm dữ liệu dạng chuỗi (sequence), dạng cây (tree), và dạng đồ thị (graph) có mặt ở khắp nơi và đang gia tăng rất nhanh chóng. Khai phá và dự đoán dữ liệu có cấu trúc hiện đang là một xu thế mới trên thế giới, thu hút sự chú ý rất lớn của giới nghiên cứu cũng như của các doanh nghiệp do ứng dụng to lớn của chúng trong các lĩnh vực như phân tích hình ảnh, phân tích hiệu quả kinh doanh, xử lý ngôn ngữ tự nhiên, phân tích mạng xã hội, các ứng dụng trong y sinh, hoá sinh, viễn thông,... Hiện nay, Google, Yahoo, Facebook và nhiều công ty khác đang phát triển rất mạnh mẽ các phương pháp tổ chức và xử lí các hệ thống dữ liệu lớn. Việc phân tích dữ liệu lớn đóng vai trò rất quan trọng để tăng chất lượng của các doanh nghiệp. Các công ty lớn về Công nghệ thông tin và nhiều nhà khoa học đã nghiên cứu và phát triển các giải pháp phân tích dữ liệu lớn. Các phưưng pháp khai phá dữ liệu như phân lớp/dự đoán, phân cụm, khai phá luật kết hợp, ...đ ã được tập trung nghiên cứu và ứng dụng trong nhiều lĩnh vực quan trọng. Với sự xuất hiện của các hệ thống dữ liệu lớn, nhiều phương pháp khai phá dữ liệu khác ra đời. Đặc biệt là các phương pháp khai phá dữ liệu trên các dữ liệu có cấu trúc. Trên thực tế, đối với các hệ thống dữ liệu lớn, các phương pháp khai phá dữ liệu truyền thống không còn phù hợp nữa. Chính VI thế, người ta đã phát triển các phương pháp khai phá dữ liệu trên các dữ liệu có cấu trúc (dạng chuỗi, cây, đồ thị) Như chúng ta đã biết, trong lí thuyết cơ sở dữ liệu, một bài toán bao gồm nhiều thực thể. Chúng ta mô hình hóa mỗi thực thể này bằng một bảng, trong đó các cột mô tả các thuộc tính của thực thể, các dòng là những thể hiện cụ thể của thực thể. Mối quan hệ giữa các thực thể được mô tả bằng mối quan hệ từng cặp thực thể một theo mối quan hệ 1-1, 1- nhiều và nhiều - nhiều. Việc xử lí các hệ thống dữ liệu lớn, do khối lượng dữ liệu quá lớn và đặc biệt dữ liệu có cấu trúc phức tạp và đa dạng, phương pháp này không còn phù hợp nữa. Một phương pháp phổ biến là dùng cấu trúc đồ thị để mô hình hóa bài toán khi xử lí các hệ thống dữ liệu lớn. về thực chất, 3 trong đồ thị này mỗi đỉnh thể hiện một thực thể, mỗi cạnh thể hiện một quan hệ giữa hai thực thể. Như vậy, việc tìm những mẫu phổ biến chính là vấn đề khai phá những đồ thị con, cây con thường xuyên xuất hiện trong đồ thị đó. Khai phá dữ liệu trên dữ liệu có cấu trúc là sự tiếp nối nghiên cứu về khai phá tập mục (itemset), đã phát triển mạnh trong thập kỷ gần đây. Đa phần các thuật toán khai phá được phát triển dựa trên nghiên cứu về Reverse Search của Avis và Fukuda [1], Reverse Search không phải là thuật toán mà là một framework hướng dẫn phát triển thuật toán nhàm tránh đưa ra các mẫu trùng lặp. Các thuật toán khác nhau ở chỗ chúng tìm ra một hoặc một số đặc tính của các mẫu cần khai phá để đi đến các phương pháp sinh và tỉa ứng viên khác nhau. Trong mấy năm gần đây, một số kết quả nghiên cứu về khai phá dữ liệu có cấu trúc theo hướng Reverse Search đã được công bổ. Eppstein [2] ứng dụng Reverse Search để liệt kê các tập đồ thị độc lập cực đại. Kiyomi và Ưno [3] liệt kê các đồ thị con dạng dây trong đó các đồ thị con được sinh bằng cách đính thêm các clique. Ưno [5] sinh các giả clique với sổ cạnh lớn hơn một ngưỡng xác định. Ngoài ra, một số phương pháp khác không áp dụng Reverse Search đã được công bố. M ột số tác giả đã phát triển W ARMR bàng cách kết hợp quy hoạch logic quy nạp và tìm kiếm kiểu Apriori. Tan và đồng sự [4] sinh cấu trúc con theo mẫu dạng cây. Một số tác giả khác sử dụng phương pháp chiếu rút gọn (chia để trị) để sinh các cấu trúc thường xuyên. Nhằm mục đích cung cấp một cái nhìn tổng quan toàn diện và bức tranh tổng thể hơn về lĩnh vực Big Data. Báo cáo tổng kết sẽ trình bày một số nét cơ bản về Big Data. Đầu tiên báo cáo giới thiệu về nền tảng chung của Big Data và trình bày về các công nghệ liên quan như điện toán đám mây, Internet kết nối vạn vật (Internet o f Things -IoT), các trung tâm dữ liệu (data center) và Hadoop. Tiếp theo, báo cáo khái quát một số ứng dụng tiêu biểu của Big Data, bao gồm quản lý doanh nghiệp, Internet o f Things, mạng xã hội trực tuyến, y tế và trí tuệ tập trung. Cuối cùng, báo cáo trình bày khái quát tình hình nghiên cứu và phát triển Big Data ở Việt Nam. 2.1. M ột số nét cơ bản về Big Data Trong 20 năm qua, dữ liệu đã tăng lên với một quy mô lớn trong các lĩnh vực khác nhau. Theo một báo cáo từ Tập đoàn Dữ liệu Quốc tế (IDC), trong năm 2011, dung lượng dữ liệu được tạo ra và sao chép trên toàn thế giới là 1.8ZB (~ 1021B), tăng gần chín lần trong vòng năm năm. Con số này sẽ tăng gấp đôi ít nhất hai năm một lần trong tương lai gần. 4 Dưới sự gia tăng một cách bùng nố của dữ liệu toàn câu, thuật ngữ vê Big Data vẫn chủ yếu được sử dụng để mô tả các hệ thống dữ liệu lớn. So với các tập dữ liệu truyền thống, dừ liệu lớn thường bao gồm các khối dừ liệu phi cấu trúc cần thêm phân tích trong thời gian thực. Ngoài ra, dữ liệu lớn cũng mang lại những cơ hội mới để khám phá những giá trị mới, giúp chúng ta đạt được một sự hiểu biết sâu sắc về các giá trị tiềm ẩn, cũng như những thách thức mới, ví dụ, làm thế nào để tổ chức và quản lý các tập dữ liệu như vậy một cách hiệu quả. Gần đây, các ngành công nghiệp trở nên quan tâm đến tiềm năng lớn của Big Data, nhiều cơ quan chính phủ đã công bố kế hoạch lớn để thúc đẩy nghiên cứu và ứng dụng Big Data. Ngoài ra, các vấn đề về Big Data thường được nhắc đến trên phương tiện truyền thông công cộng, chẳng hạn New York Times, và National Public Radio. Hai tạp chí khoa học đầu ngành, Nature và Science, cũng đã m ở mục riêng để thảo luận về những thách thức và các tác động của Big Data Ngày nay, Big Data có liên quan đến dịch vụ của các công ty Internet đều phát triển nhanh chóng. Ví dụ, Google xử lý dữ liệu khoảng hàng trăm Petabyte (PB), Facebook đã tạo khoảng hơn 10 PB dữ liệu log mỗi tháng, Baidu, một công ty Trung Quốc, xử lý khoảng hàng chục PB dữ liệu, và Taobao, một công ty con của Alibaba, tạo ra hàng chục của Terabyte (TB) dữ liệu về giao dịch trực tuyến mỗi ngày. Các đặc trưng của Big Data Big Data là một khái niệm trừu tượng. Ngoài dữ liệu khổng lồ, nó còn có một sô đặc trưng khác, trong đó xác định sự khác biệt giữa nó và “dữ liệu lổm” hay “dữ liệu rất lớn”. Hiện nay, mặc dù tầm quan trọng của Big Data đã được thừa nhận rộng rãi, mọi người vẫn còn có ý kiến khác nhau về định nghĩa của nó. Nói chung, Big Data có nghĩa là các bộ dữ liệu không thể được nhận diện, thu hồi, quản lý, và xử lý bằng CNTT truyền thống và các công cụ phần mềm / phần cứng trong một thời gian có thể chấp nhận được. Do các mối quan tâm khác nhau, các doanh nghiệp khoa học và công nghệ, các học giả nghiên cứu, các nhà phân tích dữ liệu, và các kỹ thuật viên có những định nghĩa khác nhau về Big Data. Các định nghĩa sau đây có thể giúp chúng ta có một sự hiểu biết tốt hơn về những ý nghĩa xã hội, kinh tế, và công nghệ rộng lớn của Big Data. Trong năm 2010, Apache Hadoop định nghĩa dữ liệu lớn như "bộ dữ liệu mà không thể thu thập, quản lý và xử lý bởi các máy tính nói chung trong một phạm vi chấp nhận được." Trên cơ sở định nghĩa này, tháng 5 năm 2011, McKinsey & Company, một công ty tư vấn toàn cầu công bố Big Data như một địa hạt mới cho sự đổi mới, cạnh tranh và hiệu suất. Big Data có nghĩa là những bộ dữ liệu mà không có thể được thu lại, lưu trữ, và quản lý bởi phần mềm cơ sở dữ liệu cổ điển. Định nghĩa này bao gồm hai ý nghĩa: Thứ nhất, dung lượng của các tập dữ liệu mà phù hợp với tiêu chuẩn Big Data đang thay đổi, và có thể tăng trưởng theo thời gian hoặc với những tiến bộ công nghệ; Thứ hai, dung lượng của các tập dữ liệu mà phù hợp với tiêu chuẩn Big Data trong các ứng dụng khác nhau trong mỗi ứng dụng. Từ định nghĩa của McKinsey & Company, có thể thấy rằng dung lượng của một tập dữ liệu không phải là tiêu chí duy nhất cho Big Data. Quy mô dữ liệu ngày càng phát triển và việc quản lý nó m à không thể được xử lý bằng công nghệ cơ sở dữ liệu truyền thống là hai đặc trưng quan trọng tiếp theo. Như m ột vấn đề thực tế, dữ liệu lớn đã được định nghĩa sớm từ năm 2001. Doug Laney, một nhà phân tích của META (nay Gartner) định nghĩa những thách thức và cơ hội mang lại của sự tăng trưởng dữ liệu với một mô hình 3 Vs, tức là, sự gia tăng của dung lượng, tốc độ và tính đa dạng, trong một báo cáo nghiên cứu. Mặc dù một mô hình như vậy ban đầu không được sử dụng để xác định Big Data, Gartner và nhiều doanh nghiệp khác, bao gồm cả IBM và một sổ cơ sở nghiên cứu của Microsoft vẫn còn sử dụng các mô hình "3Vs" để mô tả dữ liệu lớn trong vòng mười năm tiếp theo. Trong mô hình "3Vs", D ung lượng có nghĩa là, với sự sản sinh và thu thập các dữ liệu lớn, quy mô dữ liệu trở nên ngày càng lớn; Tốc độ có nghĩa là tính kịp thời của dữ liệu lớn, cụ thể là thu thập và phân tích dữ liệu, vv phải được tiến hành nhanh chóng và kịp thời, để sử dụng một cách tối đa các giá trị thương mại của Big Data; Tính đa dạng cho biết các loại dữ liệu khác nhau bao gồm dữ liệu bán cấu trúc và phi cấu trúc như âm thanh, video, web, và văn bản, cũng như dữ liệu có cấu trúc truyền thống. Tuy nhiên, cũng có những ý kiến khác định nghĩa về Big Data, bao gồm cả IDC, m ột trong những công ty hàng đầu ảnh hưởng nhất trong lĩnh vực Big Data và các lĩnh vực nghiên cứu của mình. Năm 2011, một báo cáo của IDC định nghĩa Big Data là "công nghệ Big Data mô tả một thể hệ mới của những công nghệ và kiến trúc, được thiết kế để lấy ra giá trị kinh tế từ dung lượng rất lớn của một loạt các dữ liệu, bằng cách cho phép tốc độ cao trong việc thu thập, khám phá, và / hoặc phân tích" . Với định nghĩa này, đặc trưng của dữ liệu lớn có thể được tóm tắt thành bổn Vs, tức là, Dung lượng (dung lượng lớn), Tính đa dạng (các phương thức khác nhau), Tốc độ (sản sinh nhanh chóng), và Giả trị (giá trị lớn nhưng mật độ rất thấp). Định nghĩa 4Vs như vậy đã được công nhận rộng rãi vì nó làm nổi bật ý nghĩa và sự cần thiết của Big Data, tức là, khám phá những giá trị tiềm ẩn rất lớn. Định nghĩa này cho thấy vấn đề quan trọng nhất trong dữ liệu lớn, đó là làm thế nào để khám phá giá trị từ bộ dữ liệu với một quy mô rất lớn, nhiều loại hình, và sản sinh nhanh chóng. Ngoài ra, NIST định nghĩa dữ liệu lớn như "dữ liệu lớn có nghĩa là các dữ liệu mà dung lượng dữ liệu, tốc độ thu thập, hoặc biểu diễn dữ liệu hạn chế khả năng của việc sử dụng các phương pháp quan hệ truyền thống để tiến hành phân tích hiệu quả hoặc các dữ liệu mà có thể được xử lý một cách hiệu quả với các công nghệ", trong đó tập trung vào các khía cạnh công nghệ của Big Data. Nó chỉ ra ràng phương pháp hay 6 công nghệ hiệu quả cần phải được phát triển và được sử dụng để phân tích và xử lý dừ liệu lớn. Sự phát triển của Big Data Trong vài năm qua, gần như tất cả các công ly lớn, bao gồm EMC, Oracle, IBM, Microsoft, Google, Amazon, và Facebook, vv đã bắt đầu các dự án Big Data của họ. Lấy IBM là một ví dụ, từ năm 2005, IBM đã đầu tư 16 tỷ USD vào 30 sự tiếp nhận liên quan đến dữ liệu lớn. v ề học thuật, Big Data cũng chiếm địa vị nổi bật. Trong năm 2008, Nature công bố m ột vấn đề đặc biệt về Big Data. Năm 2011, Science cũng đã đưa ra một vấn đề đặc biệt về công nghệ chủ chốt của "xử lý dữ liệu" trong Big Data. Năm 2012, Tap chí Hiệp hội Nghiên cứu châu Âu Tin học và Toán học (ERCIM) đăng một vấn đề đặc biệt về dữ liệu lớn. Vào đầu năm 2012, một báo cáo mang tên Big Data, Big Im pact trình bày tại Diễn đàn Davos ở Thụy Sĩ, đã thông báo ràng Big Data đã trở thành một loại tài sản kinh tế mới, giống như tiền tệ hoặc vàng. Gartner, một cơ quan nghiên cứu quốc tế, đưa ra Hype Cycles from 2012-2013, trong đó phân loại tính toán Big Data, phân tích xã hội, và phân tích dữ liệu lưu trữ thành 48 công nghệ đang nổi lên mà đáng để chú ý nhiều nhất. Nhiều chính phủ quốc gia như Hoa Kỳ cũng đã rất quan tâm đến dữ liệu lớn. Trong tháng 3 năm 2012, chính quyền Obama đã công bố một khoản đầu tư 200 triệu USD để khởi động "Ke hoạch Nghiên cứu và Phát triển Big Data", mà đã là một sáng kiến phát triển khoa học và công nghệ chủ yếu thứ hai sau khi "xa lộ thông tin" bắt đầu vào năm 1993. Trong tháng 7 năm 2012 , dự án "Đẩy mạnh công nghệ thông tin Nhật Bản" được ban hành bởi Bộ Nội vụ và Truyền thông Nhật Bản chỉ ra rằng sự phát triển Big Data, nên có một chiến lược quốc gia và các công nghệ ứng dụng nên là trọng tâm. Trong tháng 7 năm 2012, Liên Hiệp Quốc đã đưa ra báo cáo Big Data cho phát triển, trong đó tóm tắt cách các chính phủ sử dụng Big Data để phục vụ tốt hơn và bảo vệ người dân của họ như thế nào. Những thách thức của Big Data Sự gia tăng mạnh dồn dập dữ liệu trong kỷ nguyên big data m ang tới những thách thức rất lớn về việc thu thập, lưu trữ, quản lý và phân tích dữ liệu. Hệ thống quản lý và phân tích dữ liệu truyền thống được dựa trên hệ thống quản lý cơ sở dữ liệu quan hệ (RDBM S). Tuy nhiên, RDBMS như vậy chỉ áp dụng cho các dữ liệu có cấu trúc, khác với những dữ liệu bán cấu trúc hoặc không có cấu trúc. Ngoài ra, RDBMS đang ngày càng sử dụng ngày càng nhiều phần cứng đắt tiền. Các RDBMS truyền thống không thể xử lý dung lượng rất lớn và không đồng nhất của big data. Cộng đồng nghiên cứu đã đề xuất một số giải pháp theo các quan điểm khác nhau. Đối với các giải pháp lưu trữ vĩnh viễn và quản lý các tập dữ liệu qui mô lớn không có trật tự, hệ thống tập tin được phân phổi và cơ sở dữ liệu NoSQL là những lựa chọn tốt. Những frameworks lập trình như vậy đã đạt được thành công lớn trong các bài toán xử lý cụm, đặc biệt đối với lập thứ hạng trang web (webpage ranking). Nhiều ứng dụng dữ 7 liệu lớn có thể được phát triến dựa Irên những công nghệ hoặc nền tảng cách mạng này. Một số các nghiên cứu về những trở ngại trong sự phát triển của các ứng dụng big data đã được tiến hành. Các thách thức chính được liệt kê sau đây: - - - Biểu diễn dữ liệu: nhiều bộ dữ liệu có mức độ không đồng nhất trong kiểu, cấu trúc, ngữ nghĩa, tổ chức, độ chi tiết, và khả năng tiếp cận. Biểu diễn dữ liệu nhằm mục đích để làm cho dữ liệu có ý nghĩa hơn cho phân tích máy tính và sự giải thích của người dùng. Tuy nhiên, một biểu diễn dữ liệu không đúng cách sẽ làm giảm giá trị ban đầu của dữ liệu và thậm chí có thể gây cản trở cho phân tích dữ liệu hiệu quả. Biểu diễn dữ liệu hiệu quả sẽ phản ánh cấu trúc, lớp và kiểu dữ liệu cũng như các công nghệ tích hợp, để cho phép hoạt động hiệu quả trên các tập dữ liệu khác nhau. Giảm sự dư thừa và nén dữ liệu: nhìn chung, có một mức độ cao của sự dư thừa trong tập dữ liệu. Giảm sự dư thừa và nén dữ liệu là cách hiệu quả để giảm chi phí gián tiếp của toàn bộ hệ thống trên tiền đề rằng các giá trị tiềm năng của dữ liệu không bị ảnh hưởng. Ví dụ, hầu hết các dữ liệu được tạo ra bởi các mạng cảm biến là rất cần thiết, trong đó có thể được lọc và nén ở các đơn đặt hàng của các cường độ. Quản lý vòng đời dữ liệu: so với tiến bộ của hệ thống lưu trữ tương ứng, cảm biến và máy tính đang tạo ra dữ liệu với qui mô và tốc độ chưa từng có. Chúng ta đang phải đối mặt với rất nhiều thách thức, một trong số đó là hệ thống lưu trữ hiện tại không thể hỗ trợ dữ liệu lớn như vậy. Nói chung, các giá trị ẩn trong dữ liệu lớn phụ thuộc vào sự tươi mới dữ liệu. Vì vậy, một nguyên tắc quan trọng liên quan đến các giá trị phân tích cần được phát triển để quyết định dữ liệu sẽ được lưu trữ và dữ liệu nào sẽ được loại bỏ. Cơ chế phân tích: hệ thống phân tích big data sẽ xử lý khối lượng dữ liệu không đồng nhất trong một thời gian giới hạn. Tuy nhiên, RDBM S truyền thống được thiết kế với sự thiếu khả năng thay đổi và khả năng mở rộng, do đó không thể đáp ứng các yêu cầu về hiệu suất. Cơ sở dữ liệu không quan hệ đã chỉ ra những lợi thế riêng của mình trong việc xử lý dữ liệu phi cấu trúc của và bắt đầu trở thành đề tài chủ đạo trong phân tích big data. Mặc dù vậy, vẫn còn một số vấn đề về cơ sở dữ liệu không quan hệ trong hoạt động và những ứng dụng cụ thể của chúng. Chúng ta phải tìm một giải pháp thỏa hiệp giữa RDBM S và cơ sở dữ liệu không quan hệ. Ví dụ, một số doanh nghiệp đã sử dụng một kiến trúc cơ sở dữ liệu hỗn hợp mà tích hợp nhũng ưu điểm của cả hai loại cơ sở dữ liệu (ví dụ, Facebook và Taobao). c ầ n nghiên cứu thêm về các cơ sở dữ liệu và các mẫu dữ liệu trong bộ nhớ dựa trên phân tích gần đúng. 8 - - - - Bảo mật dữ liệu: hầu như các nhà cung cấp dịch hoặc chủ sở hữu hiện tại dịch vụ big data có thể không duy trì và phân tích một cách hiệu quả các tập dữ liệu lớn như vậy vì khả năng hạn chế của họ. Họ phải dựa vào các chuyên gia hoặc các công cụ để phân tích dữ liệu như vậy, làm tăng rủi ro bảo mật. Quản lý năng lượng: năng lượng tiêu thụ của hệ thống máy tính lớn đã thu hút nhiều sự quan tâm từ cả quan điểm kinh tế và môi trường. Với sự gia tăng của dung lượng dữ liệu và nhu cầu phân tích, xử lý, lưu trữ và truyền tải big data chắc chắn sẽ tiêu thụ ngày càng nhiều năng lượng điện. Vì vậy, cơ chế kiểm soát và quản lý điện năng tiêu thụ cấp hệ thống sẽ được thành lập với big data trong khi khả năng mở rộng và khả năng tiếp cận được đảm bảo. Khả năng m ở rộng và thay đổi: hệ thống phân tích big data phải hỗ trợ tập dữ liệu hiện tại và tương lai. Thuật toán phân tích phải có khả năng xử lý các tập dữ liệu ngày càng mở rộng và phức tạp hơn. Sự hợp tác: phân tích các dữ liệu lớn là một nghiên cứu liên ngành, trong đó yêu cầu các chuyên gia trong các lĩnh vực khác nhau hợp tác để thu thập các dữ liệu. M ột kiến trúc mạng lưới big data toàn diện phải được thiết lập để giúp các nhà khoa học và kỹ sư trong các lĩnh vực khác nhau truy cập các loại dữ liệu khác nhau và sử dụng đầy đủ chuyên môn của họ, phối hợp để hoàn thành các mục tiêu phân tích. 2.2. Các công nghệ liên quan Mục này sẽ giới thiệu một số công nghệ cơ bản có liên quan chặt chẽ với big data, bao gồm điện toán đám mây, IoT, trung tâm dữ liệu và Hadoop. Điện toán đám mây và Big Data Điện toán đám mây có liên quan chặt chẽ với big data. Big data là đối tượng của hoạt động tính toán chuyên sâu và nhấn mạnh khả năng lưu trữ của một hệ thống đám mây. Mục tiêu chính của điện toán đám mây là sử dụng tài nguyên tính toán và lưu trữ rất lớn dưới sự quản lý tập trung để cung cấp cho các ứng dụng big data khả năng tính toán tốt. Sự phát triển của điện toán đám mây cung cấp các giải pháp cho việc lưu trữ và xử lý big data. M ặt khác, sự xuất hiện của big data cũng làm tăng tốc độ phát triển của điện toán đám mây. Các công nghệ lưu trữ phân tán dựa trên điện toán đám mây có thể quản lý big data một cách hiệu quả; khả năng tính toán song song của điện toán đám mây có thể nâng cao hiệu quả của việc thu thập và phân tích dữ liệu lớn. Mặc dù có nhiều công nghệ trùng lặp trong điện toán đám mây và big data, tuy nhiên chúng khác nhau ở hai khía cạnh sau đây. Đầu tiên, các khái niệm khác nhau ở một mức độ nhất định. Điện toán đám mây biến đổi kiến trúc CNTT trong khi big data ảnh hưởng đến các quyết định kinh doanh. Tuy nhiên, big data phụ thuộc vào điện toán đám mây như các cơ sở hạ tầng cơ bản để hoạt động trơn tru. 9 Thứ hai, Big Data và điện toán đám mây có khách hàng mục tiêu khác nhau. Điện toán đám mây là một công nghệ và sản phẩm nhắm đến C hief Information Officers (CIO) như một giải pháp CNTT tiên tiến. Big data là một sản phẩm nhắm đến Chief Executive Officers (CEO) người mà chỉ tập trung vào hoạt động kinh doanh. Khi những người ra quyết định có thể trực tiếp cảm nhận được áp lực cạnh tranh trên thị trường, họ phải đánh bại các đối thủ kinh doanh theo nhiều cách cạnh tranh hơn. Với sự tiến bộ của big data và điện toán đám mây, hai công nghệ này là tất yếu và ngày càng kết hợp chặt với nhau. Điện toán đám mây, với các chức năng tương tự như của máy tính và hệ điều hành, cung cấp tài nguyên cấp hệ thống; dữ liệu lớn hoạt động trong các cấp độ bên trên được hỗ trợ bởi điện toán đám mây và cung cấp chức năng tương tự như của cơ sở dữ liệu và khả năng xử lý dữ liệu có hiệu quả. Kissinger, Chủ tịch EMC, chỉ ra rằng các ứng dụng dữ liệu lớn phải được dựa trên điện toán đám mây. Sự phát triển của big data được thúc đẩy bởi sự tăng trưởng nhanh chóng của nhu cầu ứng dụng và điện toán đám mây được phát triển từ công nghệ ảo hóa. Do đó, điện toán đám mây không chỉ cung cấp tính toán và xử lý big data, mà tự nó cũng là một chế độ dịch vụ. Đến một mức độ nào đó, các tiến bộ của điện toán đám mây cũng thúc đẩy sự phát triển của big data, cả hai bổ sung cho nhau. IoT và Big Data Trong mô hình IoT, một sổ lượng lớn các bộ cảm biến kết nối mạng được nhúng vào các thiết bị và các máy móc khác nhau trong thế giới thực. Các cảm biến như vậy được triển khai trong các lĩnh vực khác nhau có thể thu thập các loại dữ liệu khác nhau, chẳng hạn như dữ liệu về môi trường, dữ liệu địa lý, dữ liệu thiên văn và dữ liệu logistic. Thiết bị di động, phương tiện vận tải, phương tiện công cộng, và đồ gia dụng tất cả có thể là những thiết bị thu thập dữ liệu trong IoT. Big data được tạo ra bởi IoT có các đặc trưng khác so với big data nói chung do các loại khác nhau của dữ liệu thu thập được, trong đó các đặc trưng cổ điển nhất bao gồm sự không đồng nhất, tính đa dạng, tính năng không có cấu trúc, nhiễu, và độ dư thừa cao. Mặc dù dữ liệu IoT hiện nay không phải là phần thống trị của big data, đến năm 2030, số lượng cảm biến sẽ đạt một nghìn tỷ và khi đó dữ liệu IoT sẽ là phàn quan trọng nhất của dữ liệu lớn, theo dự báo của HP. Một báo cáo từ Intel chỉ ra rằng dữ liệu lớn trong IoT cỏ ba tính năng phù hợp với các mô hình dữ liệu lớn: (i) thiết bị đầu cuối phong phú tạo ra khối lượng dữ liệu lớn; (ii) các dữ liệu được tạo ra bởi IoT thường là bán cấu trúc hoặc không có cấu trúc; (iii) dữ liệu của IoT chỉ có ích khi nó được phân tích. Hiện nay, khả năng xử lý dữ liệu của IoT đã giảm và vô cùng cấp thiết để nhanh chóng đưa công nghệ big data vào để thúc đẩy sự phát triển của IoT. Nhiều nhà khai thác IoT nhận ra tầm quan trọng của big data từ sự thành công của IoT khi tích hợp 10 với big data và điện toán đám mây. Việc triển khai rộng rãi IoT cũng sẽ đưa nhiều thành phổ vào kỷ nguyên dữ liệu lớn. Có một nhu cầu bắt buộc áp dụng big data cho các ứng dụng IoT, trong khi sự phát triển của dữ liệu lớn đã sẵn sàng hỗ trợ. Việc này đã được công nhận rộng rãi khi hai công nghệ này đều phụ thuộc lẫn nhau và cần được phối hợp để phát triển: một mặt, việc triển khai rộng rãi IoT đẩy sự tăng trưởng cao của dữ liệu cả về số lượng và chủng loại, từ đó cung cấp cơ hội cho các ứng đụng và phát triển của big data; Mặt khác, việc áp dụng công nghệ dữ liệu lớn vào IoT cũng làm tăng tốc tiến bộ nghiên cứu và mô hình kinh doanh của IoT. Trung tâm dữ liệu Trong mô hình dữ liệu lớn, các trung tâm dữ liệu không chỉ là một nên tảng lưu trữ tập trung dữ liệu, mà còn đảm nhận nhiều trách nhiệm, chẳng hạn như thu thập dữ liệu, quản lý dữ liệu, tổ chức dữ liệu, và tận dụng các giá trị dữ liệu và các chức năng. Các trung tâm dữ liệu tập trung chủ yếu vào "dữ liệu" khác với "trung tâm". Dữ liệu được tổ chức và quản lý theo mục tiêu và phát triển con đường cốt lõi của trung tâm dữ liệu. Sự xuất hiện của big data mang lại những cơ hội phát triển và thách thức lớn cho các trung tâm dữ liệu. Big data là một mô hình mới, mô hình này sẽ thúc đẩy sự tăng trưởng bùng nổ của các cơ sở hạ tầng và các phần mềm liên quan của trung tâm dữ liệu. M ạng lưới trung tâm dữ liệu vật lý là nòng cốt hỗ trợ big data, nhưng hiện nay cơ sở hạ tầng chính mới là điều cần gấp nhất. Big data đòi hỏi trung tâm dữ liệu cung cấp nền tảng hỗ trợ mạnh mẽ. Các mô hình big data yêu cầu nghiêm ngặt hơn về khả năng lưu trữ và khả năng xử lý, cũng như khả năng truyền tải mạng. Sự phát triển của các ứng dụng big data tăng tốc cho các cuộc cách mạng và đổi mới của các trung tâm dữ liệu. Nhiều ứng dụng big data đã phát triển các cấu trúc độc đáo của mình và trực tiếp thúc đẩy sự phát triển của lưu trữ, mạng, và các công nghệ tính toán liên quan đến trung tâm dữ liệu. Big data tạo ra cho các trung tâm dữ liệu nhiều chức năng hơn. Trong các mô hình big data, trung tâm dữ liệu có trách nhiệm không chỉ tập trung vào các thiết bị phần cứng m à còn tăng cường năng lực mềm, tức ỉà, khả năng thu hồi, xử lý, tổ chức, phân tích và ứng dụng của big data. Các trung tâm dữ liệu có thể giúp nhân viên kinh doanh phân tích các dữ liệu hiện có, phát hiện ra các vấn đề trong hoạt động kinh doanh và phát triển các giải pháp từ big data. Hadoop và Big Data Hiện nay, Hadoop được sử dụng rộng rãi trong các ứng dụng big data trong công nghiệp, ví dụ như, lọc thư rác, tìm kiếm mạng, phân tích luồng clicks, và khuyến cáo xã hôi. Ngoài ra, các nghiên cứu học thuật đáng kể hiện nay dựa trên Hadoop. 11 Vào tháng Sáu năm 2012, Yahoo chạy Hadoop trên 42.000 máy chủ tại bổn trung tâm dữ liệu để hỗ trợ các sản phẩm và dịch vụ của mình, ví dụ, tìm kiếm và lọc thư rác, vv Hiện nay, các cluster Hadoop lớn nhất có 4.000 node, nhưng số lượng các node sẽ được tăng lên đến 10.000 với việc phát hành của Hadoop 2.0. Cũng trong tháng đó, Facebook thông báo rằng cụm Hadoop của họ có thể xử lý 100 PB dữ liệu, mà dữ liệu này có thể tăng 0,5 PB mỗi ngày như trong tháng mười một năm 2012. Một số cơ quan nổi tiếng đã sử dụng Hadoop để tiến hành tính toán phân tán. Ngoài ra, nhiều công ty cung cấp Hadoop thương mại, bao gồm Cloudera, IBM, MapR, EMC, và Oracle. Trong số các máy móc và hệ thống công nghiệp hiện đại, các cảm biến được triển khai rộng rãi để thu thập thông tin cho việc theo dõi môi trường và dự báo sự cố, w . Bahga và những người khác trong đề xuất một framework cho việc tố chức dữ liệu và cơ sở hạ tầng điện toán đám mây, gọi là CloudView. CloudView sử dụng kiến trúc hỗn họp, các node địa phương, và các cụm điều khiển từ xa dựa trên Hađoop để phân tích dữ liệu máy tính tạo ra. Các node địa phương được sử dụng cho các dự báo thời gian thực các sự cố; các cụm dựa trên Hadoop được dùng để phân tích offline. Sự tăng trưởng theo cấp số nhân của các dữ liệu gen và giảm mạnh các chi phí chuỗi đã biến sinh học và y học sinh học thành khoa học theo hướng dữ liệu. Gunarathne và các cộng sự trong sử dụng các cơ sở hạ tầng điện toán đám mây Amazon AWS, M icrosoft Azune và nền tảng xử lý dữ liệu dựa trên MapReduce, Hadoop và M icrosoft DryadLINQ để chạy hai ứng dụng y sinh học song song: (i) lắp ráp các phân đoạn gen; (ii) giảm kích thước trong những phân tích của các cấu trúc hóa học. Trong úng dụng tiếp theo, các tập dữ liệu 166-D được sử dụng bao gồm 26.000.000 điểm dữ liệu. Các tác giả đã so sánh hiệu suất của tất cả các nền tảng về mặt hiệu quả, chi phí và tính sẵn sàng. Theo nghiên cứu này, các tác giả kết luận rằng kết nối lỏng lẻo sẽ được áp dụng ngày càng nhiều để nghiên cứu về đám mây electron và nền tảng công nghệ lập trình song song (M apReduce) có thể cung cấp cho người dùng một giao diện với các dịch vụ thuận tiện hơn và giảm chi phí không cần thiết. Kiến trúc Hadoop Vì Hadoop đóng vai trò là một công cụ rất quan trọng trong việc xử lí các hệ thống dữ liệu lớn, chúng tôi xin trình bày cụ thể hơn về công cụ này. Hadoop là một Apache framework mã nguồn mở được viết bằng java, cho phép xử lý phân tán (distributed processing) các tập dữ liệu lớn trên các cụm máy tính (clusters of computers) thông qua mô hình lập trình đơn giản. Hadoop được thiết kế để mở rộng quy mô từ một máy chủ đơn sang hàng ngàn máy tính khác có tính toán và lưu trữ cục bộ (local computation and storage). Hadoop framework gồm 4 module: 12 ■ Hadoop Common: Đây là các thư viện và tiện ích cần thiết của Java để các module khác sử dụng. Những thư viện này cung cấp hệ thống file và lớp OS trừu tượng, đồng thời chứa các mã lệnh Java để khởi động Hadoop. ■ H adoop YARN: Đây là framework để quản iý tiến trình và tài nguyên của các cluster. • Hadoop Distributed File System (HDFS): Đây là hệ thống file phân tán cung cấp truy cập thông lượng cao cho ứng dụng khai thác dữ liệu. « H adoop M apR educe: Đây là hệ thống dựa trên YARN dùng để xử lý song song các tập dữ liệu lớn. MapReduce Hadoop M apR educe là một framework dùng để viết các ứng dụng xử lý song song một lượng lớn dữ liệu có khả năng chịu lỗi cao xuyên suốt hàng ngàn cụm máy tính. Thuật ngữ MapReduce liên quan đến hai tác vụ mà chương trình Hadoop thực hiện: ■ M ap: đây là tác vụ đầu tiên, trong đó dữ liệu đầu vào được chuyển đổi thành tập dữ liệu theo cặp key/value. ■ Reduce: tác vụ này nhận kết quả đầu ra từ tác vụ Map, kết hợp dữ liệu lại với nhau thành tập dừ liệu nhỏ hơn. Thông thường, kết quả input và output được lưu trong hệ thống file. Framework này sẽ tự động quản lý, theo dõi và tái thực thi các tác vụ bị lỗi. MapReduce framework gồm một single master (máy chủ) Jo b T ra c k e r và các slave (máy trạm) T ask T rack er trên mỗi cluster-node. Master có nhiệm vụ quản lý tài nguyên, theo dõi quá trình tiêu thụ tài nguyên và lập lịch quản lý các tác vụ trên các máy trạm, theo dõi chúng và thực thi lại các tác vụ bị lỗi. Những máy slave TaskTracker thực thi các tác vụ được master chỉ định và cung cấp thông tin trạng thái tác vụ (task-status) để master theo dõi. JobTracker là một điểm yếu của Hadoop Mapreduce. Nếu JobTracker bị lỗi thì mọi công việc liên quan sẽ bị ngắt quãng. Hadoop Distributed File System Hadoop có thể làm việc trực tiếp với bất kì hệ thống dữ liệu phân tán như Local FS, HFTP FS, S3 FS, và các hệ thống khác. Nhưng hệ thống file thường được dùng bởi Hadoop là Hadoop Distributed File System (HDFS). Hadoop Distributed File System (HDFS) dựa trên Google File System (GFS), cung cấp một hệ thống dữ liệu phân tán, được thiết kế để chạy trên các cụm máy tính lớn (gồm hàng ngàn máy tính) có khả năng chịu lỗi cao. 13 HDFS sử dụng kiến trúc master/slave, trong đó master gồm một NameNode để quản lý hệ thống file metadata và một hay nhiều slave DataNodes để lưu trữ dừ liệu thực tại. Một tập tin với định dạng HDFS được chia thành nhiều block và những block này được lưu trữ trong một tập các DataNodes. NameNode định nghĩa ánh xạ từ các block đến các DataNode. Các DataNode điều hành các tác vụ đọc và ghi dữ liệu lên hệ thống file. Chúng cũng quản lý việc tạo, huỷ, và nhân rộng các block thông qua các chỉ thị từ NameNode. HDFS cũng hỗ trợ các câu lệnh shell để tương tác với tập tin như các hệ thống file khác. Hadoop hoạt động như thế nào Giai đoạn 1 Một người dùng hay một ứng dụng có thể gửi một tác vụ lên Hadoop (hadoop job client) với yêu cầu xử lý cùng các thông tin cơ bản: 1. Nơi lưu (location) dữ liệu input, output trên hệ thống dữ liệu phân tán. 2. Các lớp jav a ở định dạng jar chứa các dòng lệnh thực thi các hàm map và reduce. 3. Các thiết lập cụ thể liên quan đến job thông qua các thông số truyền vào. Giai đoạn 2 Hadoop job client gửi tác vụ (file jar, file thực thi) và các thiết lập cho JobTracker. Sau đó, máy chủ m aster sẽ phân phổi tác vụ đến các máy slave để theo dõi và quản lý tiến trình các máy này, đồng thời cung cấp thông tin về tình trạng và chẩn đoán liên quan đến job-client. Giai đoạn 3 TaskTrackers trên các node khác nhau thực thi tác vụ MapReduce và trả về kết quả output được lưu trong hệ thống file. Ưu điểm của Hadoop ■ Hadoop framework cho phép người dùng nhanh chóng viết và kiểm tra các hệ thổng phân tán. Đây là cách hiệu quả cho phép phân phối dữ liệu và công việc xuyên suốt các máy trạm nhờ vào cơ chế xử lý song song của các lõi CPU. ■ Hadoop không dựa vào cơ chế chịu lỗi của phần cứng, thay vì vậy bản thân Hadoop có các thư viện được thiết kể để phát hiện và xử lý các lỗi ở lớp ứng dụng. 14 ■ Các server có thể được thêm vào hoặc gỡ bỏ từ cluster một cách linh hoạt và vẫn hoạt động mà không bị ngắt quãng. « Một lợi thế lớn của Hadoop ngoài mã nguồn mở đó là khả năng tương thích trên tất cả các nền tảng do được phát triển trên Java. 2.3. ứ n g dụng Big Data Các tổ chức ngày càng sử dụng rộng rãi Big Data và các ứng dụng có liên quan trong các lĩnh vực khác nhau, nhằm giảm thiểu các rủi ro, hỗ trợ tổ chức trong việc quản lý các hoạt động hằng ngày cũng như ra quyết định. Nhiều nghiên cứu đã tìm hiểu về các ứng dụng của Big Data và các lĩnh vực trong đó Big Data có thể được áp dụng. Chẳng hạn, một sổ ứng dụng của Big Data bao gồm thương mại điện tử, chính phủ điện tử, khoa học và công nghệ, chăm sóc sức khỏe, và an ninh và an toàn công cộng. McKinsey & Company thực hiện nghiên cứu về những giá trị dữ liệu mang lại đối với y tế, quản lý công, bán lẻ, sản xuất ở Mỹ. Báo cáo nêu rõ nếu Big Data được sử dụng một cách sáng tạo và hiệu quả để cải tiến năng suất và chất lượng công việc, các doanh nghiệp bán lẻ Mỹ có thể tăng lợi nhuận trên 60%, chi tiêu cho công nghiệp y tế Mỹ có thể giảm trên 8%, các nền kinh tế phát triển ở châu Âu cũng có thể tiết kiệm được 149 triệu Euro nhờ việc cải tiến hiệu suất hoạt động. Những ứng dụng chính của Big Data bao gồm: ứ n g dụng của Big Data trong các doanh nghiệp', ử n g dụng của Io T dựa trên Big data; ứ n g dụng của mạng xã hội trực tuyến theo định hướng dữ liệu lớn; ủ h g dụng trong y tế và chăm sóc sức khỏe và Trí tuệ tập hợp. ủn g dụng của Big Data trong các doanh nghiệp Hiện nay, dữ liệu lớn chủ yếu xuất phát từ các doanh nghiệp lớn và cũng được sử dụng chủ yểu trong các doanh nghiệp, trong khi BI và OLAP có thể được coi như những khởi đàu của các ứng dụng dữ liệu lớn. Các ứng dụng của dữ liệu lớn trong các doanh nghiệp có thể nâng cao hiệu quả sản xuất của họ và khả năng cạnh tranh ở nhiều khía cạnh. Đặc biệt, trong lĩnh vực tiếp thị, với các phân tích dữ liệu lớn, các doanh nghiệp có thể dự đoán chính xác hơn về hành vi của người tiêu dùng và tìm ra các mô hình kinh doanh mới. Trong việc lập kế hoạch bán hàng, sau khi so sánh các dữ liệu lớn, các doanh nghiệp có thể tối ưu hóa giá cả hàng hóa của họ. Trong các hoạt động điều hành, doanh nghiệp có thể nâng cao hiệu quả hoạt động của mình và sự hài lòng, tối ưu hóa lực lượng lao động, dự báo yêu cầu phân bổ nhân sự chính xác, tránh dư thừa nguồn nhân lực, và giảm chi phí lao động. Trong chuỗi cung ứng, với việc sử dụng dữ liệu lớn các doanh nghiệp có thể tiến hành tối ưu việc kiểm kê, lưu kho, tối ưu hóa logistic và phối hợp cung cấp để giảm thiểu khoảng cách giữa cung và cầu, kiểm soát ngân sách, và cải thiện dịch vụ. 15 Trong lĩnh vực tài chính, các ứng dụng dữ liệu lớn ở các doanh nghiệp được phát triển một cách nhanh chóng. Một ví dụ từ ngân hàng China Merchants Bank (CMB), Trung Quốc cho thấy hiệu quả của việc ứng dụng Big Data, cụ thể là phân tích dữ liệu hàng cũng sử dụng mô hình cảnh báo khả năng người dùng ngưng sử dụng dịch vụ để xây đựng các gói dịch vụ tín dụng lãi suất cao nhàm giữ chân khách hàng. Kết quả của ứng dụng Big Data, ngân hàng này đã bán được các sản phẩm tính dụng lãi suất cao cho 20% khách hàng có khả năng ngưng sử dụng dịch vụ của mình. Ngòai ra, tỷ lệ khách ngưng sử dụng thẻ Gold Cards giảm 15%, thẻ Sunflower Cards giảm 7%. Bằng cách phân tích hồ sơ giao dịch của khách hàng có thể xác định hiệu quả các khách hàng tiềm năng là doanh nghiệp nhỏ. Bằng cách sử dụng dịch vụ ngân hàng từ xa và các nền tảng điện toán đám mây để thực hiện bán chéo, tăng hiệu suất đáng kể đã đạt được. Rõ ràng, các ứng dụng cổ điển nhất của big data là trong thương mại điện tử. Hàng chục ngàn giao dịch được thực hiện tại Taobao và thời điểm giao dịch tương ứng, giá cả hàng hóa và số lượng mua được ghi nhận mỗi ngày. Và quan trọng hơn, đó là thông tin về người mua cũng như người bán như: độ tuổi, giới tính, địa chỉ, và thậm chí là cả những sở thích và sự quan tâm của họ. Cube dữ liệu của Taobao là một ứng dụng dữ liệu lớn trên nền tảng Taobao, thông qua đó, những người kinh doanh có thể biết được tình trạng công nghiệp vĩ mô của nền tảng Taobao, điều kiện thị trường thương hiệu của mình, và hành vi của người tiêu dùng.... Và dựa vào đó có thể đưa ra những quyết định về sản xuất và dự trữ. Trong khi đó, nhiều người tiêu dùng có thể mua các mặt hàng yêu thích của mình với giá cả phù hợp hơn nhiều. Một ví dụ khác, dịch vụ xử lý dữ liệu m ở của Alibaba (ODPS) cho phép họ phân tích hàng triệu giao dịch và thiết lập một dịch vụ vay hiệu quả cao đển các doanh nghiệp trực tuyến nhỏ. Dữ liệu từ các trang web mua sắm của Alipay thuộc Alibaba bao gồm mua, đánh giá và xếp hạng tín dụng có thể xem xét khả năng trả nợ của người vay. Dựa trên 100 mô hình tính toán và khoảng 80 tỷ mục dữ liệu, giúp Alibaba giảm nợ vay ngân hàng xuống đáng kể. Ú ng dụng của IoT dựa trên Big Data IoT không chỉ là một nguôn quan trọng của dữ liệu lớn, mà cũng là một trong những thị trường chính của các ứng dụng dữ liệu lớn. Vì sự đa dạng cao của các đổi tượng, các ứng dụng của IoT cũng phát triển không ngừng. Trong kỷ nguyên của IoT, các cảm biển được nhúng vào trong các thiết bị di động như điện thoại di động, ô tô, và máy móc công nghiệp góp phần vào việc tạo và chuyển dữ liệu, dẫn đến sự bùng nổ của dữ liệu có thể thu thập được. Các doanh nghiệp giao thông vận tải, vận chuyển thường rất có kinh nghiệm với các ứng dụng của Big Data và IoT. Ví dụ, các xe tải của UPS (United Parcel Service o f North America, Inc, là công ty vận tải lớn nhất thế giới) được trang bị cảm biến, 16 các thiết bị không dây và hệ thống định vị toàn cầu GPS. Nhờ đó các trụ sở có thế theo dõi vị trí xe tải cũng như ngăn ngừa các lồi về động cơ. Bên cạnh đó, hệ thống này cũng giúp UPS giám sát và quản lý nhân viên của mình và tối ưu hóa các tuyến đường vận chuyên. Thành phố thông minh là một lĩnh vực nghiên cứu hot dựa trên các ứng dụng của dữ liệu IoT. Ví dụ, các dự án thành phổ thông minh với sự hợp tác giữa các quận Miami-Dade ở Florida và IBM kết nối chặt chẽ 35 phòng ban chính của chính quyền quận và thành phố Miami và giúp hỗ trợ các nhà lãnh đạo chính quyền thông tin tốt hon trong việc ra quyết định đối với quản lý nguồn nước, giảm ùn tắc giao thông, cải thiện an ninh công cộng. Việc ứng dụng các thành phố thông minh mang lại lợi ích về nhiều mặt cho quận Dade. ứ n g dụng của mạng xã hội trực tuyến theo định hướng dữ liệu lớn Mạng xã hội (MXH) trực tuyến là một cấu trúc xã hội được cấu thành bởi các cá nhân và các kết nối giữa các cá nhân dựa trên một mạng thông tin xã hội. Dữ liệu lớn của mạng xã hội trực tuyến chủ yểu xuất phát từ các tin nhắn tức thời, xã hội trực tuyển, blog, và không gian chia sẻ..., chủng chính các hoạt động của những người dùng khác nhau. Việc phân tích các dữ liệu lớn từ mạng xã hội trực tuyến sử dụng phương pháp phân tích tính toán được cung cấp cho việc hiểu biết các mối quan hệ trong xã hội loài người bởi các lý thuyết và phương pháp bao gồm toán học, tin học, xã hội học, và khoa học quản lý... ứ n g dụng bao gồm mạng lưới phân tích quan điểm của công chúng, thu thập tình báo mạng và phân tích, marketing mạng xã hội, hỗ trợ ra quyết định của chính phủ, và giáo dục trực tuyến... Những ứng dụng cơ bản của dữ liệu lớn từ MXH trực tuyến trực tuyến được đề cập ở dưới đây: - - Các ứng dụng dựa trên nội dung: Ngôn ngữ và văn bản là hai hình thức quan trọng nhất của một thể hiện trong MXH. Thông qua việc phân tích ngôn ngữ và văn bản, có thể nhận biết được sở thích người dùng, cảm xúc, quan tâm và nhu cầu... Các ứng dụng dựa trên cấu trúc: trong MXH, người dùng được biểu diễn như là các nút trong khi mối quan hệ xã hội, quan tâm và sở thích... tổng hợp các mối quan hệ giữa người sử dụng thành một cấu trúc cụm. c ấ u trúc như vậy có quan hệ chặt chẽ giữa các cá nhân bên trong, nhưng quan hệ bên ngoài lỏng cũng được gọi là một cộng đồng. Các phân tích dựa vào cộng đồng có tầm quan trọng sổng còn để cải thiện việc lan truyền thông tin và phân tích mối quan hệ giữa các cá nhân. Nói chung, các ứng dụng dữ liệu lớn từ MXH trực tuyển có thể giúp hiểu rõ hơn về hành vi của người sử dụng và nắm vững các quy luật của các hoạt động kinh tế xã hội và từ ba khía cạnh sau đây: 17 - Cảnh báo sớm: để nhanh chóng đối phó với cuộc khủng hoảng nếu có bằng chứng phát hiện bất thường trong việc sử dụng các thiết bị và dịch vụ điện tử. - Giám sát thời gian thực: cung cấp thông tin chính xác cho việc xây dựng các chính sách và kể hoạch bàng cách giám sát các hành vi hiện tại, cảm xúc, và sở thích của người sử dụng. - Phản hồi theo thời gian thực: có được phản hồi nhóm chống lại một số hoạt động xã hội dựa trên giám sát thời gian thực. ứ ng dụng trong y tế và chăm sóc sức khỏe Dữ liệu y tế và chăm sóc sức khỏe được sinh ra liên tục và nhanh chóng phát triển thành dữ liệu phức tạp, chứa các giá trị thông tin phong phú và đa dạng. Big Data có tiềm năng không giới hạn cho việc lưu trữ hiệu quả, xử lý, truy vấn và phân tích các dữ liệu y tế. Các ứng dụng của dữ liệu lớn y tế sẽ ảnh hưởng lớn đến các hoạt động chăm sóc sức khỏe. Trung tâm y tế M ount Sinai ở Mỹ sử dụng công nghệ của công ty dữ liệu lớn Ayasđi để phân tích tất cả các trình tự gen của Escherichia Coli, trong đó có hơn một triệu biến thể DNA, để điều tra lý do tại sao các chủng vi khuẩn kháng thuốc kháng sinh. Ayasdi của sử dụng phân tích dữ liệu topo, một phương pháp nghiên cứu toán học hoàn toàn mới, để hiểu đặc điểm dữ liệu. Năm 2007 Micorsoft ra mắt HealthVault là một ứng dụng xuất sắc của dữ liệu lớn trong y tế. Mục tiêu của nó là để quản lý thông tin sức khỏe của cá nhân trong các thiết bị y tế cá nhân và gia đình. Hiện nay, thông tin về sức khỏe có thể được đưa vào và tải lên với các thiết bị di động thông m inh và nhập tò các hồ sơ y tế cá nhân của một bên thứ ba. Ngoài ra, nó có thể được tích họp với một ứng dụng của bên thứ ba với các bộ phát triển phần mềm (SDK) và giao diện mở. Trí tuệ tập hợp Trí tuệ tập hợp (Collective Intelligence - CI) nghiên cứu về dữ liệu cung cấp bởi một tập thể để đưa ra quyết định, dự đoán tốt hơn. Và lĩnh vực này đã được đem áp dụng cho Mạng xã hội và phát huy tác dụng một cách đột phá. Dựa vào Profile của từng User, sở thích, thói quen truy cập, sử dụng và tương tới với w ebsite... mà ta có được các thông tin cần thiết về mối tương quan giữa sở thích, hành vi của các User trong website. Nấu có càng nhiều thông tin dạng này thì hoạt động của CI càng chính xác, thân thiện và hợp lý hơn. Từ các dữ liệu của User, ta có thể viết ra các chức năng đề nghị như kiểu Facebook với chức năng đề nghị kết bạn, Amazon với chức năng đề nghị sách...H oặc các chức năng thông minh như lọc dữ liệu, phát hiện các thành viên có “tiền án gây sự” V.V.. Những hệ thống được khuyến cáo như Pandora (âm nhạc), Netflix (phim ảnh), và Amazon (sách và sản phẩm) dùng dữ liệu khách hàng và nhiều đại lý trong một phương pháp tiếp cận được biết đến là collaborative filtering (phương pháp lọc cộng 18 tác). Dịch vụ dữ liệu lớn này đã là chủ đề của nhiều nghiên cứu tiên tiến trong máy học và khai phá dữ liệu. Rõ ràng là nếu khả năng thực hiện gợi ý tốt thì có thể tăng doanh số bán hàng và sự hài lòng của khách hàng. 2.4. Big Data ở Việt Nam Theo số liệu thống kê, tính đến ngày 1/1/2015, Việt Nam có dân số là 90,7 triệu người, trong đó có 39,8 triệu người sử dụng internet (tương đương với 44%), 28 triệu người sở hữu tài khoản mạng xã hội (chiếm 31%), 128,3 triệu người có kết nối mạng di động (tương đương với 141%) vậy tức là trung bình mỗi người Việt Nam sở hữu 1,4 thuê bao di động, và số người sử dụng tài khoản xã hội trên điện thoại là 24 triệu (tương đương với 26%). v ề mạng xã hội tại Việt Nam, Zing Me có lượng người dùng cao nhất (8,2 triệu). Đứng thứ hai là Facebook với 5,6 triệu người dùng. Đứng thứ ba là Yume (2,2 triệu người dùng), thứ tư là Tamtay (1 triệu người dùng). Trong lĩnh vực tin tức, trang tin 24h với 9,9 triệu người dùng và 600 triệu lượt xem, VN Express với 8,3 triệu người dùng và 530 triệu lượt xem, Dân trí với 7,5 triệu người dùng và 380 triệu lượt xem. Trong lĩnh vực thương mại điện tử, các trang thông tin điện tử phát triển rất sôi động. Qua dữ liệu sơ bộ trên, chúng ta có thể thấy việc xây dựng các công cụ phục vụ cho việc tổ chức và xử lí cho các hệ thống dữ liệu lớn là rất cần thiết. Tuy nhiên, những nghiên cứu về dữ liệu lớn tại Việt Nam mới chỉ dừng lại ở mức nghiên cứu ban đầu, chưa có những kết quả nghiên cứu ứng dụng vào thực tiễn mang lại hiệu quả cao. Ở Việt Nam, một số tác giả đã bắt đầu nghiên cứu lý thuyết về các hệ thống dữ liệu lớn. Những kết quả đạt được cũng mới ở mức ban đầu. Các nhóm nghiên cứu bao gồm: - Nhóm nghiên cứu của Đại học Công nghệ Hà Nội [12]. - Nhóm nghiên cứu của Đại học c ầ n Thơ [13] - Nhóm nghiên cứu của Đại học quốc gia Tp. HCM tiến hành xây đựng các thuật toán khai phá dữ liệu liên quan đến mẫu dãy [14] - Nhóm nghiên cứu của Đại học quốc gia Hà Nội [7 - 11] đã có những kết quả về khai phá dữ liệu trên bảng quyết định, mẫu dãy, đồ thị. Nhóm nghiên cứu này cũng đã thực hiện thử nghiệm việc phân cụm khách hàng và tìm sở thích các mặt hàng của các khách hàng trên dữ liệu hàng triệu bản ghi. 19 Hiện nay, môn hệ thống dữ liệu lớn đã bắt đầu được dạy trong trường đại học. Ví dụ Học viện Bưu chính viễn thông đã dạy môn này cho các lớp học viên cao học. Big Data n g ày càn g đóng vai trò quan trọng trong việc mang lại những giá trị to lớn cho các tổ chức doanh nghiệp, cho nền kinh tế quốc gia và cho các công dân trong nền kinh tế đó. Tuy nhiên, đây vẫn là lĩnh vực còn rất mới, đặt ra nhiều vấn đề và thách thức mà các tổ chức và các nhà nghiên cứu cần giải quyết. Tài liệu tham khảo [1] Avis, D., Fukuda, K., "Reverse search for enumeration”, Discrete Appl. Math. 65, 2146(1996) [2] Eppstein, D., “All maximal independent sets and dynamic dominance for sparsegraphs”, CoRR cs.DS/0407036 (2004) [3] Kiyomi, M., Ưno, T., "Generating chordal graphs included in given graphs”. IEICE- Trans. Inf. Syst. E89-D, 763-770 (2006) [4] Tan, H., Dillon, T., Hadzic, F., Chang, E., Feng, L., "Tree model guided candidategeneration fo r mining frequent subtrees from xml documents”, ACM Transactionson Knowledge Discovery from Data 2(2), 1-43 (2008) [5] Uno, T. “An efficient algorithm for solving pseudo clique enumeration problem”.Algorithmica 56, 3-16 (2010) [6] Philip Russom, “Big Data Analytics [7] Vũ Đức Thi, "Một sổ vấn để tính toán liên quan đến cơ sở dữ liệu và khai phá dữ TDWI Research, 2011. liệu ”, Tạp chí Khoa học và Công nghệ, T.50, s. 6, tr. 679 - 703, 2012 18] Vu Due Thi, Nguyen Long Giang, “An effective Algorithm for determining the set o f all reductive attributes in incomplete decision tables”, Cybernetics and Information Technologies CIT, Sofia, Bulgarian Academy of Sciences, Volume 13, No 4, pp. 118-126, 2013. [9] Demetrovics J., N.T.L. Huong, V.D.Thi, N.L.Giang (2016). Metric Based Attribute Reduction Method in Dynamic Decision Tables “ J. Commucations and Information Technologies - CIT, Bulgarian Academy o f Sciences, V 16, N. 2, pp. 315 [10] Demetrovics J., V.D. Thi, T. H. Duong (2015). An algorithm to mine normalized weighted sequential patterns using prefix-projeted database, SERDICA J. of computing, Bulgarian Academy o f Sciences, V 9, N. 2, pp. 111-118 [11] V.D.Thi, H.M .Quang, N. V. Anh “ Some problems on mining frequent closed subgraphs “ . (to appear) in J. Commucations and Information Technologies - CIT, Bulgarian Academy o f Sciences, 2016. 20
- Xem thêm -

Tài liệu liên quan