ĐẠI HỌC QUỐC GIA HÀ Nộ]
VỈẸN CONG NGHẸ THONG TIN
BÁO CÁO TỔNG KẾT ĐỀ TÀI
NGHIÊN c ứ ư PHÁT TRIỂN MỘT SÓ PHƯƠNG PHÁP x ử LÍ DỮ
LIỆU LỚN VÀ ỨNG DỤNG TRONG THƯƠNG MẠI ĐIỆN TỦ
j
ĐAI HỌC QUỐC GIA HÀ NÔI
TRUNG TẮM THÔNG TIN THƯ VIÊN
I
___ODOfiOnm 3 ỸQ
í
Hà N ôi 04/2017
MỤC LỤC
I.
II.
Các thông tin cơ bản
1. Thông tin chung
2. Tổng quan tình hình nghiên cứu
2.1.
Một số nét cơ bản về Big Data
2.2.
Các công nghệ liên quan
2.3.
ủ n g dụng của Big Data
2.4.
Big Data ở Việt Nam
3. Nội dung đăng kí của đề tài
4. Nội dung đã thực hiện và
sản phẩm đã có
4.1.
Các báo cáo chuyên đề và sản phẩm phần mềm
4.2.
Các bài báo khoa học
4.3.
Sản phẩm đào tạo
5. Bảng tổng hợp
6. Kinh phí
Thử nghiệm hệ phần mềm tìm sở thích khách hàng
1. Các thông tin cơ bản
2. Hướng dẫn sử dụng hệ phần mềm tìm sở thích khách hàng
I. CÁC THÔNG TIN c ơ BẢN
1. Thông tin chung:
- Tên đề tài: N ghiên cứ u p h á t triển m ột số p h ư ơ n g pháp x ử lí d ữ liệu lởn và ứng
dụng trong thư ơ ng m ại điện tử
- Mã số: QG. 15.41
- Chủ nhiệm đề tài: GS.TS. Vũ Đức Thi
- Đơn vị chủ trì: Viện Công nghệ Thông tin - Đại học Quốc gia Hà Nội
- Thời gian thực hiện: Từ tháng 01 năm 2015 đến tháng 12 năm 2016. Gia hạn đến
tháng 6/2017.
Mục tiêu đề tài
- Nghiên cứu phát triển và ứng dụng một sổ phương pháp tổ chức và xử lí dữ liệu
lớn
- Thiết kể xây dựng một hệ phần mềm thử nghiệm hỗ trợ việc đánh giá xu hướng
của khách hàng với hàng hóa trong thương mại điện tử
2. Tổng quan tình hình nghiên cứu
2
Những năm gần đây, chúng ta chứng kiên sự phát triên mạnh mẽ của truyên
thông xã hội, của công nghệ tìm kiếm, như Facebook, MySpace, Twitter, Blogger,
Google và Yahoo. Các công nghệ này cùng các công nghệ khác làm tăng đột biến
khối lượng dữ liệu. Chính xu thế này đã dẫn đến sự phát triển rất sôi động của một
hướng nghiên cứu mới trong lĩnh vực Công nghệ thông tin. Đó là hướng nghiên cứu
về các hệ thống dữ liệu lớn (Big Data). Không chỉ khối lượng dữ liệu tăng vọt mà cấu
trúc dữ liệu cũng rất đa dạng bao gồm dữ liệu phi cấu trúc (bảng, file) và dữ liệu có
cấu trúc. Dữ liệu có cấu trúc bao gồm dữ liệu dạng chuỗi (sequence), dạng cây (tree),
và dạng đồ thị (graph) có mặt ở khắp nơi và đang gia tăng rất nhanh chóng. Khai phá
và dự đoán dữ liệu có cấu trúc hiện đang là một xu thế mới trên thế giới, thu hút sự
chú ý rất lớn của giới nghiên cứu cũng như của các doanh nghiệp do ứng dụng to lớn
của chúng trong các lĩnh vực như phân tích hình ảnh, phân tích hiệu quả kinh doanh,
xử lý ngôn ngữ tự nhiên, phân tích mạng xã hội, các ứng dụng trong y sinh, hoá sinh,
viễn thông,...
Hiện nay, Google, Yahoo, Facebook và nhiều công ty khác đang phát triển rất
mạnh mẽ các phương pháp tổ chức và xử lí các hệ thống dữ liệu lớn.
Việc phân tích dữ liệu lớn đóng vai trò rất quan trọng để tăng chất lượng của
các doanh nghiệp. Các công ty lớn về Công nghệ thông tin và nhiều nhà khoa học đã
nghiên cứu và phát triển các giải pháp phân tích dữ liệu lớn.
Các phưưng pháp khai phá dữ liệu như phân lớp/dự đoán, phân cụm, khai phá
luật kết hợp, ...đ ã được tập trung nghiên cứu và ứng dụng trong nhiều lĩnh vực quan
trọng. Với sự xuất hiện của các hệ thống dữ liệu lớn, nhiều phương pháp khai phá dữ
liệu khác ra đời. Đặc biệt là các phương pháp khai phá dữ liệu trên các dữ liệu có cấu
trúc.
Trên thực tế, đối với các hệ thống dữ liệu lớn, các phương pháp khai phá dữ liệu
truyền thống không còn phù hợp nữa. Chính VI thế, người ta đã phát triển các phương
pháp khai phá dữ liệu trên các dữ liệu có cấu trúc (dạng chuỗi, cây, đồ thị)
Như chúng ta đã biết, trong lí thuyết cơ sở dữ liệu, một bài toán bao gồm nhiều
thực thể. Chúng ta mô hình hóa mỗi thực thể này bằng một bảng, trong đó các cột mô
tả các thuộc tính của thực thể, các dòng là những thể hiện cụ thể của thực thể. Mối
quan hệ giữa các thực thể được mô tả bằng mối quan hệ từng cặp thực thể một theo
mối quan hệ 1-1, 1- nhiều và nhiều - nhiều. Việc xử lí các hệ thống dữ liệu lớn, do
khối lượng dữ liệu quá lớn và đặc biệt dữ liệu có cấu trúc phức tạp và đa dạng,
phương pháp này không còn phù hợp nữa. Một phương pháp phổ biến là dùng cấu
trúc đồ thị để mô hình hóa bài toán khi xử lí các hệ thống dữ liệu lớn. về thực chất,
3
trong đồ thị này mỗi đỉnh thể hiện một thực thể, mỗi cạnh thể hiện một quan hệ giữa
hai thực thể. Như vậy, việc tìm những mẫu phổ biến chính là vấn đề khai phá những
đồ thị con, cây con thường xuyên xuất hiện trong đồ thị đó.
Khai phá dữ liệu trên dữ liệu có cấu trúc là sự tiếp nối nghiên cứu về khai phá
tập mục (itemset), đã phát triển mạnh trong thập kỷ gần đây. Đa phần các thuật toán
khai phá được phát triển dựa trên nghiên cứu về Reverse Search của Avis và Fukuda
[1], Reverse Search không phải là thuật toán mà là một framework hướng dẫn phát
triển thuật toán nhàm tránh đưa ra các mẫu trùng lặp. Các thuật toán khác nhau ở chỗ
chúng tìm ra một hoặc một số đặc tính của các mẫu cần khai phá để đi đến các phương
pháp sinh và tỉa ứng viên khác nhau.
Trong mấy năm gần đây, một số kết quả nghiên cứu về khai phá dữ liệu có cấu
trúc theo hướng Reverse Search đã được công bổ. Eppstein [2] ứng dụng Reverse
Search để liệt kê các tập đồ thị độc lập cực đại. Kiyomi và Ưno [3] liệt kê các đồ thị
con dạng dây trong đó các đồ thị con được sinh bằng cách đính thêm các clique. Ưno
[5] sinh các giả clique với sổ cạnh lớn hơn một ngưỡng xác định.
Ngoài ra, một số phương pháp khác không áp dụng Reverse Search đã được
công bố. M ột số tác giả đã phát triển W ARMR bàng cách kết hợp quy hoạch logic quy
nạp và tìm kiếm kiểu Apriori. Tan và đồng sự [4] sinh cấu trúc con theo mẫu dạng
cây. Một số tác giả khác sử dụng phương pháp chiếu rút gọn (chia để trị) để sinh các
cấu trúc thường xuyên.
Nhằm mục đích cung cấp một cái nhìn tổng quan toàn diện và bức tranh tổng thể
hơn về lĩnh vực Big Data. Báo cáo tổng kết sẽ trình bày một số nét cơ bản về Big
Data. Đầu tiên báo cáo giới thiệu về nền tảng chung của Big Data và trình bày về các
công nghệ liên quan như điện toán đám mây, Internet kết nối vạn vật (Internet o f
Things -IoT), các trung tâm dữ liệu (data center) và Hadoop. Tiếp theo, báo cáo khái
quát một số ứng dụng tiêu biểu của Big Data, bao gồm quản lý doanh nghiệp, Internet
o f Things, mạng xã hội trực tuyến, y tế và trí tuệ tập trung. Cuối cùng, báo cáo trình
bày khái quát tình hình nghiên cứu và phát triển Big Data ở Việt Nam.
2.1.
M ột số nét cơ bản về Big Data
Trong 20 năm qua, dữ liệu đã tăng lên với một quy mô lớn trong các lĩnh vực
khác nhau. Theo một báo cáo từ Tập đoàn Dữ liệu Quốc tế (IDC), trong năm 2011,
dung lượng dữ liệu được tạo ra và sao chép trên toàn thế giới là 1.8ZB (~ 1021B), tăng
gần chín lần trong vòng năm năm. Con số này sẽ tăng gấp đôi ít nhất hai năm một lần
trong tương lai gần.
4
Dưới sự gia tăng một cách bùng nố của dữ liệu toàn câu, thuật ngữ vê Big Data
vẫn chủ yếu được sử dụng để mô tả các hệ thống dữ liệu lớn. So với các tập dữ liệu
truyền thống, dừ liệu lớn thường bao gồm các khối dừ liệu phi cấu trúc cần thêm phân
tích trong thời gian thực. Ngoài ra, dữ liệu lớn cũng mang lại những cơ hội mới để
khám phá những giá trị mới, giúp chúng ta đạt được một sự hiểu biết sâu sắc về các
giá trị tiềm ẩn, cũng như những thách thức mới, ví dụ, làm thế nào để tổ chức và quản
lý các tập dữ liệu như vậy một cách hiệu quả.
Gần đây, các ngành công nghiệp trở nên quan tâm đến tiềm năng lớn của Big
Data, nhiều cơ quan chính phủ đã công bố kế hoạch lớn để thúc đẩy nghiên cứu và
ứng dụng Big Data. Ngoài ra, các vấn đề về Big Data thường được nhắc đến trên
phương tiện truyền thông công cộng, chẳng hạn New York Times, và National Public
Radio. Hai tạp chí khoa học đầu ngành, Nature và Science, cũng đã m ở mục riêng để
thảo luận về những thách thức và các tác động của Big Data
Ngày nay, Big Data có liên quan đến dịch vụ của các công ty Internet đều phát
triển nhanh chóng. Ví dụ, Google xử lý dữ liệu khoảng hàng trăm Petabyte (PB),
Facebook đã tạo khoảng hơn 10 PB dữ liệu log mỗi tháng, Baidu, một công ty Trung
Quốc, xử lý khoảng hàng chục PB dữ liệu, và Taobao, một công ty con của Alibaba,
tạo ra hàng chục của Terabyte (TB) dữ liệu về giao dịch trực tuyến mỗi ngày.
Các đặc trưng của Big Data
Big Data là một khái niệm trừu tượng. Ngoài dữ liệu khổng lồ, nó còn có một sô
đặc trưng khác, trong đó xác định sự khác biệt giữa nó và “dữ liệu lổm” hay “dữ liệu
rất lớn”.
Hiện nay, mặc dù tầm quan trọng của Big Data đã được thừa nhận rộng rãi, mọi
người vẫn còn có ý kiến khác nhau về định nghĩa của nó. Nói chung, Big Data có
nghĩa là các bộ dữ liệu không thể được nhận diện, thu hồi, quản lý, và xử lý bằng
CNTT truyền thống và các công cụ phần mềm / phần cứng trong một thời gian có thể
chấp nhận được. Do các mối quan tâm khác nhau, các doanh nghiệp khoa học và công
nghệ, các học giả nghiên cứu, các nhà phân tích dữ liệu, và các kỹ thuật viên có những
định nghĩa khác nhau về Big Data. Các định nghĩa sau đây có thể giúp chúng ta có
một sự hiểu biết tốt hơn về những ý nghĩa xã hội, kinh tế, và công nghệ rộng lớn của
Big Data.
Trong năm 2010, Apache Hadoop định nghĩa dữ liệu lớn như "bộ dữ liệu mà
không thể thu thập, quản lý và xử lý bởi các máy tính nói chung trong một phạm vi
chấp nhận được." Trên cơ sở định nghĩa này, tháng 5 năm 2011, McKinsey &
Company, một công ty tư vấn toàn cầu công bố Big Data như một địa hạt mới cho sự
đổi mới, cạnh tranh và hiệu suất. Big Data có nghĩa là những bộ dữ liệu mà không có
thể được thu lại, lưu trữ, và quản lý bởi phần mềm cơ sở dữ liệu cổ điển. Định nghĩa
này bao gồm hai ý nghĩa: Thứ nhất, dung lượng của các tập dữ liệu mà phù hợp với
tiêu chuẩn Big Data đang thay đổi, và có thể tăng trưởng theo thời gian hoặc với
những tiến bộ công nghệ; Thứ hai, dung lượng của các tập dữ liệu mà phù hợp với
tiêu chuẩn Big Data trong các ứng dụng khác nhau trong mỗi ứng dụng. Từ định nghĩa
của McKinsey & Company, có thể thấy rằng dung lượng của một tập dữ liệu không
phải là tiêu chí duy nhất cho Big Data. Quy mô dữ liệu ngày càng phát triển và việc
quản lý nó m à không thể được xử lý bằng công nghệ cơ sở dữ liệu truyền thống là hai
đặc trưng quan trọng tiếp theo.
Như m ột vấn đề thực tế, dữ liệu lớn đã được định nghĩa sớm từ năm 2001. Doug
Laney, một nhà phân tích của META (nay Gartner) định nghĩa những thách thức và cơ
hội mang lại của sự tăng trưởng dữ liệu với một mô hình 3 Vs, tức là, sự gia tăng của
dung lượng, tốc độ và tính đa dạng, trong một báo cáo nghiên cứu. Mặc dù một mô
hình như vậy ban đầu không được sử dụng để xác định Big Data, Gartner và nhiều
doanh nghiệp khác, bao gồm cả IBM và một sổ cơ sở nghiên cứu của Microsoft vẫn
còn sử dụng các mô hình "3Vs" để mô tả dữ liệu lớn trong vòng mười năm tiếp theo.
Trong mô hình "3Vs", D ung lượng có nghĩa là, với sự sản sinh và thu thập các dữ liệu
lớn, quy mô dữ liệu trở nên ngày càng lớn; Tốc độ có nghĩa là tính kịp thời của dữ liệu
lớn, cụ thể là thu thập và phân tích dữ liệu, vv phải được tiến hành nhanh chóng và kịp
thời, để sử dụng một cách tối đa các giá trị thương mại của Big Data; Tính đa dạng
cho biết các loại dữ liệu khác nhau bao gồm dữ liệu bán cấu trúc và phi cấu trúc như
âm thanh, video, web, và văn bản, cũng như dữ liệu có cấu trúc truyền thống.
Tuy nhiên, cũng có những ý kiến khác định nghĩa về Big Data, bao gồm cả IDC,
m ột trong những công ty hàng đầu ảnh hưởng nhất trong lĩnh vực Big Data và các lĩnh
vực nghiên cứu của mình. Năm 2011, một báo cáo của IDC định nghĩa Big Data là
"công nghệ Big Data mô tả một thể hệ mới của những công nghệ và kiến trúc, được
thiết kế để lấy ra giá trị kinh tế từ dung lượng rất lớn của một loạt các dữ liệu, bằng
cách cho phép tốc độ cao trong việc thu thập, khám phá, và / hoặc phân tích" . Với
định nghĩa này, đặc trưng của dữ liệu lớn có thể được tóm tắt thành bổn Vs, tức là,
Dung lượng (dung lượng lớn), Tính đa dạng (các phương thức khác nhau), Tốc độ
(sản sinh nhanh chóng), và Giả trị (giá trị lớn nhưng mật độ rất thấp). Định nghĩa 4Vs
như vậy đã được công nhận rộng rãi vì nó làm nổi bật ý nghĩa và sự cần thiết của Big
Data, tức là, khám phá những giá trị tiềm ẩn rất lớn. Định nghĩa này cho thấy vấn đề
quan trọng nhất trong dữ liệu lớn, đó là làm thế nào để khám phá giá trị từ bộ dữ liệu
với một quy mô rất lớn, nhiều loại hình, và sản sinh nhanh chóng.
Ngoài ra, NIST định nghĩa dữ liệu lớn như "dữ liệu lớn có nghĩa là các dữ liệu
mà dung lượng dữ liệu, tốc độ thu thập, hoặc biểu diễn dữ liệu hạn chế khả năng của
việc sử dụng các phương pháp quan hệ truyền thống để tiến hành phân tích hiệu quả
hoặc các dữ liệu mà có thể được xử lý một cách hiệu quả với các công nghệ", trong đó
tập trung vào các khía cạnh công nghệ của Big Data. Nó chỉ ra ràng phương pháp hay
6
công nghệ hiệu quả cần phải được phát triển và được sử dụng để phân tích và xử lý dừ
liệu lớn.
Sự phát triển của Big Data
Trong vài năm qua, gần như tất cả các công ly lớn, bao gồm EMC, Oracle, IBM,
Microsoft, Google, Amazon, và Facebook, vv đã bắt đầu các dự án Big Data của họ.
Lấy IBM là một ví dụ, từ năm 2005, IBM đã đầu tư 16 tỷ USD vào 30 sự tiếp nhận
liên quan đến dữ liệu lớn. v ề học thuật, Big Data cũng chiếm địa vị nổi bật. Trong
năm 2008, Nature công bố m ột vấn đề đặc biệt về Big Data. Năm 2011, Science cũng
đã đưa ra một vấn đề đặc biệt về công nghệ chủ chốt của "xử lý dữ liệu" trong Big
Data. Năm 2012, Tap chí Hiệp hội Nghiên cứu châu Âu Tin học và Toán học
(ERCIM) đăng một vấn đề đặc biệt về dữ liệu lớn. Vào đầu năm 2012, một báo cáo
mang tên Big Data, Big Im pact trình bày tại Diễn đàn Davos ở Thụy Sĩ, đã thông báo
ràng Big Data đã trở thành một loại tài sản kinh tế mới, giống như tiền tệ hoặc vàng.
Gartner, một cơ quan nghiên cứu quốc tế, đưa ra Hype Cycles from 2012-2013, trong
đó phân loại tính toán Big Data, phân tích xã hội, và phân tích dữ liệu lưu trữ thành 48
công nghệ đang nổi lên mà đáng để chú ý nhiều nhất.
Nhiều chính phủ quốc gia như Hoa Kỳ cũng đã rất quan tâm đến dữ liệu lớn.
Trong tháng 3 năm 2012, chính quyền Obama đã công bố một khoản đầu tư 200 triệu
USD để khởi động "Ke hoạch Nghiên cứu và Phát triển Big Data", mà đã là một sáng
kiến phát triển khoa học và công nghệ chủ yếu thứ hai sau khi "xa lộ thông tin" bắt
đầu vào năm 1993. Trong tháng 7 năm 2012 , dự án "Đẩy mạnh công nghệ thông tin
Nhật Bản" được ban hành bởi Bộ Nội vụ và Truyền thông Nhật Bản chỉ ra rằng sự
phát triển Big Data, nên có một chiến lược quốc gia và các công nghệ ứng dụng nên là
trọng tâm. Trong tháng 7 năm 2012, Liên Hiệp Quốc đã đưa ra báo cáo Big Data cho
phát triển, trong đó tóm tắt cách các chính phủ sử dụng Big Data để phục vụ tốt hơn
và bảo vệ người dân của họ như thế nào.
Những thách thức của Big Data
Sự gia tăng mạnh dồn dập dữ liệu trong kỷ nguyên big data m ang tới những
thách thức rất lớn về việc thu thập, lưu trữ, quản lý và phân tích dữ liệu. Hệ thống
quản lý và phân tích dữ liệu truyền thống được dựa trên hệ thống quản lý cơ sở dữ liệu
quan hệ (RDBM S). Tuy nhiên, RDBMS như vậy chỉ áp dụng cho các dữ liệu có cấu
trúc, khác với những dữ liệu bán cấu trúc hoặc không có cấu trúc. Ngoài ra, RDBMS
đang ngày càng sử dụng ngày càng nhiều phần cứng đắt tiền. Các RDBMS truyền
thống không thể xử lý dung lượng rất lớn và không đồng nhất của big data. Cộng đồng
nghiên cứu đã đề xuất một số giải pháp theo các quan điểm khác nhau. Đối với các
giải pháp lưu trữ vĩnh viễn và quản lý các tập dữ liệu qui mô lớn không có trật tự, hệ
thống tập tin được phân phổi và cơ sở dữ liệu NoSQL là những lựa chọn tốt. Những
frameworks lập trình như vậy đã đạt được thành công lớn trong các bài toán xử lý
cụm, đặc biệt đối với lập thứ hạng trang web (webpage ranking). Nhiều ứng dụng dữ
7
liệu lớn có thể được phát triến dựa Irên những công nghệ hoặc nền tảng cách mạng
này.
Một số các nghiên cứu về những trở ngại trong sự phát triển của các ứng dụng
big data đã được tiến hành. Các thách thức chính được liệt kê sau đây:
-
-
-
Biểu diễn dữ liệu: nhiều bộ dữ liệu có mức độ không đồng nhất trong kiểu,
cấu trúc, ngữ nghĩa, tổ chức, độ chi tiết, và khả năng tiếp cận. Biểu diễn dữ
liệu nhằm mục đích để làm cho dữ liệu có ý nghĩa hơn cho phân tích máy
tính và sự giải thích của người dùng. Tuy nhiên, một biểu diễn dữ liệu không
đúng cách sẽ làm giảm giá trị ban đầu của dữ liệu và thậm chí có thể gây cản
trở cho phân tích dữ liệu hiệu quả. Biểu diễn dữ liệu hiệu quả sẽ phản ánh
cấu trúc, lớp và kiểu dữ liệu cũng như các công nghệ tích hợp, để cho phép
hoạt động hiệu quả trên các tập dữ liệu khác nhau.
Giảm sự dư thừa và nén dữ liệu: nhìn chung, có một mức độ cao của sự dư
thừa trong tập dữ liệu. Giảm sự dư thừa và nén dữ liệu là cách hiệu quả để
giảm chi phí gián tiếp của toàn bộ hệ thống trên tiền đề rằng các giá trị tiềm
năng của dữ liệu không bị ảnh hưởng. Ví dụ, hầu hết các dữ liệu được tạo ra
bởi các mạng cảm biến là rất cần thiết, trong đó có thể được lọc và nén ở các
đơn đặt hàng của các cường độ.
Quản lý vòng đời dữ liệu: so với tiến bộ của hệ thống lưu trữ tương ứng, cảm
biến và máy tính đang tạo ra dữ liệu với qui mô và tốc độ chưa từng có.
Chúng ta đang phải đối mặt với rất nhiều thách thức, một trong số đó là hệ
thống lưu trữ hiện tại không thể hỗ trợ dữ liệu lớn như vậy. Nói chung, các
giá trị ẩn trong dữ liệu lớn phụ thuộc vào sự tươi mới dữ liệu. Vì vậy, một
nguyên tắc quan trọng liên quan đến các giá trị phân tích cần được phát triển
để quyết định dữ liệu sẽ được lưu trữ và dữ liệu nào sẽ được loại bỏ.
Cơ chế phân tích: hệ thống phân tích big data sẽ xử lý khối lượng dữ liệu
không đồng nhất trong một thời gian giới hạn. Tuy nhiên, RDBM S truyền
thống được thiết kế với sự thiếu khả năng thay đổi và khả năng mở rộng, do
đó không thể đáp ứng các yêu cầu về hiệu suất. Cơ sở dữ liệu không quan hệ
đã chỉ ra những lợi thế riêng của mình trong việc xử lý dữ liệu phi cấu trúc
của và bắt đầu trở thành đề tài chủ đạo trong phân tích big data. Mặc dù vậy,
vẫn còn một số vấn đề về cơ sở dữ liệu không quan hệ trong hoạt động và
những ứng dụng cụ thể của chúng. Chúng ta phải tìm một giải pháp thỏa hiệp
giữa RDBM S và cơ sở dữ liệu không quan hệ. Ví dụ, một số doanh nghiệp đã
sử dụng một kiến trúc cơ sở dữ liệu hỗn hợp mà tích hợp nhũng ưu điểm của
cả hai loại cơ sở dữ liệu (ví dụ, Facebook và Taobao). c ầ n nghiên cứu thêm
về các cơ sở dữ liệu và các mẫu dữ liệu trong bộ nhớ dựa trên phân tích gần
đúng.
8
-
-
-
-
Bảo mật dữ liệu: hầu như các nhà cung cấp dịch hoặc chủ sở hữu hiện tại
dịch vụ big data có thể không duy trì và phân tích một cách hiệu quả các tập
dữ liệu lớn như vậy vì khả năng hạn chế của họ. Họ phải dựa vào các chuyên
gia hoặc các công cụ để phân tích dữ liệu như vậy, làm tăng rủi ro bảo mật.
Quản lý năng lượng: năng lượng tiêu thụ của hệ thống máy tính lớn đã thu
hút nhiều sự quan tâm từ cả quan điểm kinh tế và môi trường. Với sự gia tăng
của dung lượng dữ liệu và nhu cầu phân tích, xử lý, lưu trữ và truyền tải big
data chắc chắn sẽ tiêu thụ ngày càng nhiều năng lượng điện. Vì vậy, cơ chế
kiểm soát và quản lý điện năng tiêu thụ cấp hệ thống sẽ được thành lập với
big data trong khi khả năng mở rộng và khả năng tiếp cận được đảm bảo.
Khả năng m ở rộng và thay đổi: hệ thống phân tích big data phải hỗ trợ tập dữ
liệu hiện tại và tương lai. Thuật toán phân tích phải có khả năng xử lý các tập
dữ liệu ngày càng mở rộng và phức tạp hơn.
Sự hợp tác: phân tích các dữ liệu lớn là một nghiên cứu liên ngành, trong đó
yêu cầu các chuyên gia trong các lĩnh vực khác nhau hợp tác để thu thập các
dữ liệu. M ột kiến trúc mạng lưới big data toàn diện phải được thiết lập để
giúp các nhà khoa học và kỹ sư trong các lĩnh vực khác nhau truy cập các
loại dữ liệu khác nhau và sử dụng đầy đủ chuyên môn của họ, phối hợp để
hoàn thành các mục tiêu phân tích.
2.2.
Các công nghệ liên quan
Mục này sẽ giới thiệu một số công nghệ cơ bản có liên quan chặt chẽ với big
data, bao gồm điện toán đám mây, IoT, trung tâm dữ liệu và Hadoop.
Điện toán đám mây và Big Data
Điện toán đám mây có liên quan chặt chẽ với big data. Big data là đối tượng của
hoạt động tính toán chuyên sâu và nhấn mạnh khả năng lưu trữ của một hệ thống đám
mây. Mục tiêu chính của điện toán đám mây là sử dụng tài nguyên tính toán và lưu trữ
rất lớn dưới sự quản lý tập trung để cung cấp cho các ứng dụng big data khả năng tính
toán tốt. Sự phát triển của điện toán đám mây cung cấp các giải pháp cho việc lưu trữ
và xử lý big data. M ặt khác, sự xuất hiện của big data cũng làm tăng tốc độ phát triển
của điện toán đám mây. Các công nghệ lưu trữ phân tán dựa trên điện toán đám mây
có thể quản lý big data một cách hiệu quả; khả năng tính toán song song của điện toán
đám mây có thể nâng cao hiệu quả của việc thu thập và phân tích dữ liệu lớn.
Mặc dù có nhiều công nghệ trùng lặp trong điện toán đám mây và big data, tuy
nhiên chúng khác nhau ở hai khía cạnh sau đây. Đầu tiên, các khái niệm khác nhau ở
một mức độ nhất định. Điện toán đám mây biến đổi kiến trúc CNTT trong khi big data
ảnh hưởng đến các quyết định kinh doanh. Tuy nhiên, big data phụ thuộc vào điện
toán đám mây như các cơ sở hạ tầng cơ bản để hoạt động trơn tru.
9
Thứ hai, Big Data và điện toán đám mây có khách hàng mục tiêu khác nhau.
Điện toán đám mây là một công nghệ và sản phẩm nhắm đến C hief Information
Officers (CIO) như một giải pháp CNTT tiên tiến. Big data là một sản phẩm nhắm đến
Chief Executive Officers (CEO) người mà chỉ tập trung vào hoạt động kinh doanh.
Khi những người ra quyết định có thể trực tiếp cảm nhận được áp lực cạnh tranh trên
thị trường, họ phải đánh bại các đối thủ kinh doanh theo nhiều cách cạnh tranh hơn.
Với sự tiến bộ của big data và điện toán đám mây, hai công nghệ này là tất yếu và
ngày càng kết hợp chặt với nhau. Điện toán đám mây, với các chức năng tương tự như
của máy tính và hệ điều hành, cung cấp tài nguyên cấp hệ thống; dữ liệu lớn hoạt động
trong các cấp độ bên trên được hỗ trợ bởi điện toán đám mây và cung cấp chức năng
tương tự như của cơ sở dữ liệu và khả năng xử lý dữ liệu có hiệu quả. Kissinger, Chủ
tịch EMC, chỉ ra rằng các ứng dụng dữ liệu lớn phải được dựa trên điện toán đám
mây.
Sự phát triển của big data được thúc đẩy bởi sự tăng trưởng nhanh chóng của
nhu cầu ứng dụng và điện toán đám mây được phát triển từ công nghệ ảo hóa. Do đó,
điện toán đám mây không chỉ cung cấp tính toán và xử lý big data, mà tự nó cũng là
một chế độ dịch vụ. Đến một mức độ nào đó, các tiến bộ của điện toán đám mây cũng
thúc đẩy sự phát triển của big data, cả hai bổ sung cho nhau.
IoT và Big Data
Trong mô hình IoT, một sổ lượng lớn các bộ cảm biến kết nối mạng được nhúng
vào các thiết bị và các máy móc khác nhau trong thế giới thực. Các cảm biến như vậy
được triển khai trong các lĩnh vực khác nhau có thể thu thập các loại dữ liệu khác
nhau, chẳng hạn như dữ liệu về môi trường, dữ liệu địa lý, dữ liệu thiên văn và dữ liệu
logistic. Thiết bị di động, phương tiện vận tải, phương tiện công cộng, và đồ gia dụng
tất cả có thể là những thiết bị thu thập dữ liệu trong IoT.
Big data được tạo ra bởi IoT có các đặc trưng khác so với big data nói chung do
các loại khác nhau của dữ liệu thu thập được, trong đó các đặc trưng cổ điển nhất bao
gồm sự không đồng nhất, tính đa dạng, tính năng không có cấu trúc, nhiễu, và độ dư
thừa cao. Mặc dù dữ liệu IoT hiện nay không phải là phần thống trị của big data, đến
năm 2030, số lượng cảm biến sẽ đạt một nghìn tỷ và khi đó dữ liệu IoT sẽ là phàn
quan trọng nhất của dữ liệu lớn, theo dự báo của HP. Một báo cáo từ Intel chỉ ra rằng
dữ liệu lớn trong IoT cỏ ba tính năng phù hợp với các mô hình dữ liệu lớn: (i) thiết bị
đầu cuối phong phú tạo ra khối lượng dữ liệu lớn; (ii) các dữ liệu được tạo ra bởi IoT
thường là bán cấu trúc hoặc không có cấu trúc; (iii) dữ liệu của IoT chỉ có ích khi nó
được phân tích.
Hiện nay, khả năng xử lý dữ liệu của IoT đã giảm và vô cùng cấp thiết để nhanh
chóng đưa công nghệ big data vào để thúc đẩy sự phát triển của IoT. Nhiều nhà khai
thác IoT nhận ra tầm quan trọng của big data từ sự thành công của IoT khi tích hợp
10
với big data và điện toán đám mây. Việc triển khai rộng rãi IoT cũng sẽ đưa nhiều
thành phổ vào kỷ nguyên dữ liệu lớn.
Có một nhu cầu bắt buộc áp dụng big data cho các ứng dụng IoT, trong khi sự
phát triển của dữ liệu lớn đã sẵn sàng hỗ trợ. Việc này đã được công nhận rộng rãi khi
hai công nghệ này đều phụ thuộc lẫn nhau và cần được phối hợp để phát triển: một
mặt, việc triển khai rộng rãi IoT đẩy sự tăng trưởng cao của dữ liệu cả về số lượng và
chủng loại, từ đó cung cấp cơ hội cho các ứng đụng và phát triển của big data; Mặt
khác, việc áp dụng công nghệ dữ liệu lớn vào IoT cũng làm tăng tốc tiến bộ nghiên
cứu và mô hình kinh doanh của IoT.
Trung tâm dữ liệu
Trong mô hình dữ liệu lớn, các trung tâm dữ liệu không chỉ là một nên tảng lưu
trữ tập trung dữ liệu, mà còn đảm nhận nhiều trách nhiệm, chẳng hạn như thu thập dữ
liệu, quản lý dữ liệu, tổ chức dữ liệu, và tận dụng các giá trị dữ liệu và các chức năng.
Các trung tâm dữ liệu tập trung chủ yếu vào "dữ liệu" khác với "trung tâm". Dữ liệu
được tổ chức và quản lý theo mục tiêu và phát triển con đường cốt lõi của trung tâm
dữ liệu. Sự xuất hiện của big data mang lại những cơ hội phát triển và thách thức lớn
cho các trung tâm dữ liệu. Big data là một mô hình mới, mô hình này sẽ thúc đẩy sự
tăng trưởng bùng nổ của các cơ sở hạ tầng và các phần mềm liên quan của trung tâm
dữ liệu. M ạng lưới trung tâm dữ liệu vật lý là nòng cốt hỗ trợ big data, nhưng hiện nay
cơ sở hạ tầng chính mới là điều cần gấp nhất.
Big data đòi hỏi trung tâm dữ liệu cung cấp nền tảng hỗ trợ mạnh mẽ. Các mô
hình big data yêu cầu nghiêm ngặt hơn về khả năng lưu trữ và khả năng xử lý, cũng
như khả năng truyền tải mạng.
Sự phát triển của các ứng dụng big data tăng tốc cho các cuộc cách mạng và đổi
mới của các trung tâm dữ liệu. Nhiều ứng dụng big data đã phát triển các cấu trúc độc
đáo của mình và trực tiếp thúc đẩy sự phát triển của lưu trữ, mạng, và các công nghệ
tính toán liên quan đến trung tâm dữ liệu.
Big data tạo ra cho các trung tâm dữ liệu nhiều chức năng hơn. Trong các mô
hình big data, trung tâm dữ liệu có trách nhiệm không chỉ tập trung vào các thiết bị
phần cứng m à còn tăng cường năng lực mềm, tức ỉà, khả năng thu hồi, xử lý, tổ chức,
phân tích và ứng dụng của big data. Các trung tâm dữ liệu có thể giúp nhân viên kinh
doanh phân tích các dữ liệu hiện có, phát hiện ra các vấn đề trong hoạt động kinh
doanh và phát triển các giải pháp từ big data.
Hadoop và Big Data
Hiện nay, Hadoop được sử dụng rộng rãi trong các ứng dụng big data trong
công nghiệp, ví dụ như, lọc thư rác, tìm kiếm mạng, phân tích luồng clicks, và khuyến
cáo xã hôi. Ngoài ra, các nghiên cứu học thuật đáng kể hiện nay dựa trên Hadoop.
11
Vào tháng Sáu năm 2012, Yahoo chạy Hadoop trên 42.000 máy chủ tại bổn trung tâm
dữ liệu để hỗ trợ các sản phẩm và dịch vụ của mình, ví dụ, tìm kiếm và lọc thư rác, vv
Hiện nay, các cluster Hadoop lớn nhất có 4.000 node, nhưng số lượng các node sẽ
được tăng lên đến 10.000 với việc phát hành của Hadoop 2.0. Cũng trong tháng đó,
Facebook thông báo rằng cụm Hadoop của họ có thể xử lý 100 PB dữ liệu, mà dữ liệu
này có thể tăng 0,5 PB mỗi ngày như trong tháng mười một năm 2012. Một số cơ
quan nổi tiếng đã sử dụng Hadoop để tiến hành tính toán phân tán. Ngoài ra, nhiều
công ty cung cấp Hadoop thương mại, bao gồm Cloudera, IBM, MapR, EMC, và
Oracle.
Trong số các máy móc và hệ thống công nghiệp hiện đại, các cảm biến được
triển khai rộng rãi để thu thập thông tin cho việc theo dõi môi trường và dự báo sự cố,
w . Bahga và những người khác trong đề xuất một framework cho việc tố chức dữ
liệu và cơ sở hạ tầng điện toán đám mây, gọi là CloudView. CloudView sử dụng kiến
trúc hỗn họp, các node địa phương, và các cụm điều khiển từ xa dựa trên Hađoop để
phân tích dữ liệu máy tính tạo ra. Các node địa phương được sử dụng cho các dự báo
thời gian thực các sự cố; các cụm dựa trên Hadoop được dùng để phân tích offline.
Sự tăng trưởng theo cấp số nhân của các dữ liệu gen và giảm mạnh các chi phí
chuỗi đã biến sinh học và y học sinh học thành khoa học theo hướng dữ liệu.
Gunarathne và các cộng sự trong sử dụng các cơ sở hạ tầng điện toán đám mây
Amazon AWS, M icrosoft Azune và nền tảng xử lý dữ liệu dựa trên MapReduce,
Hadoop và M icrosoft DryadLINQ để chạy hai ứng dụng y sinh học song song: (i) lắp
ráp các phân đoạn gen; (ii) giảm kích thước trong những phân tích của các cấu trúc
hóa học. Trong úng dụng tiếp theo, các tập dữ liệu 166-D được sử dụng bao gồm
26.000.000 điểm dữ liệu. Các tác giả đã so sánh hiệu suất của tất cả các nền tảng về
mặt hiệu quả, chi phí và tính sẵn sàng. Theo nghiên cứu này, các tác giả kết luận rằng
kết nối lỏng lẻo sẽ được áp dụng ngày càng nhiều để nghiên cứu về đám mây electron
và nền tảng công nghệ lập trình song song (M apReduce) có thể cung cấp cho người
dùng một giao diện với các dịch vụ thuận tiện hơn và giảm chi phí không cần thiết.
Kiến trúc Hadoop
Vì Hadoop đóng vai trò là một công cụ rất quan trọng trong việc xử lí các hệ thống dữ
liệu lớn, chúng tôi xin trình bày cụ thể hơn về công cụ này.
Hadoop là một Apache framework mã nguồn mở được viết bằng java, cho phép xử lý
phân tán (distributed processing) các tập dữ liệu lớn trên các cụm máy tính (clusters of
computers) thông qua mô hình lập trình đơn giản. Hadoop được thiết kế để mở rộng
quy mô từ một máy chủ đơn sang hàng ngàn máy tính khác có tính toán và lưu trữ cục
bộ (local computation and storage).
Hadoop framework gồm 4 module:
12
■ Hadoop Common: Đây là các thư viện và tiện ích cần thiết của Java để các
module khác sử dụng. Những thư viện này cung cấp hệ thống file và lớp OS
trừu tượng, đồng thời chứa các mã lệnh Java để khởi động Hadoop.
■ H adoop YARN: Đây là framework để quản iý tiến trình và tài nguyên của các
cluster.
•
Hadoop Distributed File System (HDFS): Đây là hệ thống file phân tán cung
cấp truy cập thông lượng cao cho ứng dụng khai thác dữ liệu.
«
H adoop M apR educe: Đây là hệ thống dựa trên YARN dùng để xử lý song
song các tập dữ liệu lớn.
MapReduce
Hadoop M apR educe là một framework dùng để viết các ứng dụng xử lý song song
một lượng lớn dữ liệu có khả năng chịu lỗi cao xuyên suốt hàng ngàn cụm máy tính.
Thuật ngữ MapReduce liên quan đến hai tác vụ mà chương trình Hadoop thực hiện:
■ M ap: đây là tác vụ đầu tiên, trong đó dữ liệu đầu vào được chuyển đổi thành
tập dữ liệu theo cặp key/value.
■ Reduce: tác vụ này nhận kết quả đầu ra từ tác vụ Map, kết hợp dữ liệu lại với
nhau thành tập dừ liệu nhỏ hơn.
Thông thường, kết quả input và output được lưu trong hệ thống file. Framework này
sẽ tự động quản lý, theo dõi và tái thực thi các tác vụ bị lỗi.
MapReduce framework gồm một single master (máy chủ) Jo b T ra c k e r và các slave
(máy trạm) T ask T rack er trên mỗi cluster-node. Master có nhiệm vụ quản lý tài
nguyên, theo dõi quá trình tiêu thụ tài nguyên và lập lịch quản lý các tác vụ trên các
máy trạm, theo dõi chúng và thực thi lại các tác vụ bị lỗi. Những máy slave
TaskTracker thực thi các tác vụ được master chỉ định và cung cấp thông tin trạng thái
tác vụ (task-status) để master theo dõi.
JobTracker là một điểm yếu của Hadoop Mapreduce. Nếu JobTracker bị lỗi thì mọi
công việc liên quan sẽ bị ngắt quãng.
Hadoop Distributed File System
Hadoop có thể làm việc trực tiếp với bất kì hệ thống dữ liệu phân tán như Local FS,
HFTP FS, S3 FS, và các hệ thống khác. Nhưng hệ thống file thường được dùng bởi
Hadoop là Hadoop Distributed File System (HDFS).
Hadoop Distributed File System (HDFS) dựa trên Google File System (GFS), cung
cấp một hệ thống dữ liệu phân tán, được thiết kế để chạy trên các cụm máy tính lớn
(gồm hàng ngàn máy tính) có khả năng chịu lỗi cao.
13
HDFS sử dụng kiến trúc master/slave, trong đó master gồm một NameNode để quản
lý hệ thống file metadata và một hay nhiều slave DataNodes để lưu trữ dừ liệu thực
tại.
Một tập tin với định dạng HDFS được chia thành nhiều block và những block này
được lưu trữ trong một tập các DataNodes. NameNode định nghĩa ánh xạ từ các block
đến các DataNode. Các DataNode điều hành các tác vụ đọc và ghi dữ liệu lên hệ
thống file. Chúng cũng quản lý việc tạo, huỷ, và nhân rộng các block thông qua các
chỉ thị từ NameNode.
HDFS cũng hỗ trợ các câu lệnh shell để tương tác với tập tin như các hệ thống file
khác.
Hadoop hoạt động như thế nào
Giai đoạn 1
Một người dùng hay một ứng dụng có thể gửi một tác vụ lên Hadoop (hadoop job
client) với yêu cầu xử lý cùng các thông tin cơ bản:
1. Nơi lưu (location) dữ liệu input, output trên hệ thống dữ liệu phân tán.
2. Các lớp jav a ở định dạng jar chứa các dòng lệnh thực thi các hàm map và
reduce.
3. Các thiết lập cụ thể liên quan đến job thông qua các thông số truyền vào.
Giai đoạn 2
Hadoop job client gửi tác vụ (file jar, file thực thi) và các thiết lập cho JobTracker.
Sau đó, máy chủ m aster sẽ phân phổi tác vụ đến các máy slave để theo dõi và quản lý
tiến trình các máy này, đồng thời cung cấp thông tin về tình trạng và chẩn đoán liên
quan đến job-client.
Giai đoạn 3
TaskTrackers trên các node khác nhau thực thi tác vụ MapReduce và trả về kết quả
output được lưu trong hệ thống file.
Ưu điểm của Hadoop
■ Hadoop framework cho phép người dùng nhanh chóng viết và kiểm tra các hệ
thổng phân tán. Đây là cách hiệu quả cho phép phân phối dữ liệu và công việc
xuyên suốt các máy trạm nhờ vào cơ chế xử lý song song của các lõi CPU.
■ Hadoop không dựa vào cơ chế chịu lỗi của phần cứng, thay vì vậy bản
thân Hadoop có các thư viện được thiết kể để phát hiện và xử lý các lỗi ở lớp
ứng dụng.
14
■ Các server có thể được thêm vào hoặc gỡ bỏ từ cluster một cách linh hoạt
và vẫn hoạt động mà không bị ngắt quãng.
« Một lợi thế lớn của Hadoop ngoài mã nguồn mở đó là khả năng tương thích
trên tất cả các nền tảng do được phát triển trên Java.
2.3.
ứ n g dụng Big Data
Các tổ chức ngày càng sử dụng rộng rãi Big Data và các ứng dụng có liên quan
trong các lĩnh vực khác nhau, nhằm giảm thiểu các rủi ro, hỗ trợ tổ chức trong việc
quản lý các hoạt động hằng ngày cũng như ra quyết định. Nhiều nghiên cứu đã tìm
hiểu về các ứng dụng của Big Data và các lĩnh vực trong đó Big Data có thể được
áp dụng. Chẳng hạn, một sổ ứng dụng của Big Data bao gồm thương mại điện tử,
chính phủ điện tử, khoa học và công nghệ, chăm sóc sức khỏe, và an ninh và an
toàn công cộng. McKinsey & Company thực hiện nghiên cứu về những giá trị dữ
liệu mang lại đối với y tế, quản lý công, bán lẻ, sản xuất ở Mỹ. Báo cáo nêu rõ nếu Big
Data được sử dụng một cách sáng tạo và hiệu quả để cải tiến năng suất và chất lượng
công việc, các doanh nghiệp bán lẻ Mỹ có thể tăng lợi nhuận trên 60%, chi tiêu
cho công nghiệp y tế Mỹ có thể giảm trên 8%, các nền kinh tế phát triển ở châu Âu
cũng có thể tiết kiệm được 149 triệu Euro nhờ việc cải tiến hiệu suất hoạt động. Những
ứng dụng chính của Big Data bao gồm: ứ n g dụng của Big Data trong các doanh
nghiệp', ử n g dụng của Io T dựa trên Big data; ứ n g dụng của mạng xã hội trực tuyến
theo định hướng dữ liệu lớn; ủ h g dụng trong y tế và chăm sóc sức khỏe và Trí tuệ tập
hợp.
ủn g dụng của Big Data trong các doanh nghiệp
Hiện nay, dữ liệu lớn chủ yếu xuất phát từ các doanh nghiệp lớn và cũng được
sử dụng chủ yểu trong các doanh nghiệp, trong khi BI và OLAP có thể được coi như
những khởi đàu của các ứng dụng dữ liệu lớn. Các ứng dụng của dữ liệu lớn trong các
doanh nghiệp có thể nâng cao hiệu quả sản xuất của họ và khả năng cạnh tranh ở
nhiều khía cạnh. Đặc biệt, trong lĩnh vực tiếp thị, với các phân tích dữ liệu lớn, các
doanh nghiệp có thể dự đoán chính xác hơn về hành vi của người tiêu dùng và tìm ra
các mô hình kinh doanh mới. Trong việc lập kế hoạch bán hàng, sau khi so sánh các
dữ liệu lớn, các doanh nghiệp có thể tối ưu hóa giá cả hàng hóa của họ. Trong các hoạt
động điều hành, doanh nghiệp có thể nâng cao hiệu quả hoạt động của mình và sự hài
lòng, tối ưu hóa lực lượng lao động, dự báo yêu cầu phân bổ nhân sự chính xác, tránh
dư thừa nguồn nhân lực, và giảm chi phí lao động. Trong chuỗi cung ứng, với việc sử
dụng dữ liệu lớn các doanh nghiệp có thể tiến hành tối ưu việc kiểm kê, lưu kho, tối
ưu hóa logistic và phối hợp cung cấp
để giảm thiểu khoảng cách giữa cung và cầu,
kiểm soát ngân sách, và cải thiện dịch vụ.
15
Trong lĩnh vực tài chính, các ứng dụng dữ liệu lớn ở các doanh nghiệp được phát
triển một cách nhanh chóng. Một ví dụ từ ngân hàng China Merchants Bank (CMB),
Trung Quốc cho thấy hiệu quả của việc ứng dụng Big Data, cụ thể là phân tích dữ liệu
hàng cũng sử dụng mô hình cảnh báo khả năng người dùng ngưng sử dụng dịch vụ để
xây đựng các gói dịch vụ tín dụng lãi suất cao nhàm giữ chân khách hàng. Kết quả của
ứng dụng Big Data, ngân hàng này đã bán được các sản phẩm tính dụng lãi suất cao
cho 20% khách hàng có khả năng ngưng sử dụng dịch vụ của mình. Ngòai ra, tỷ lệ
khách ngưng sử dụng thẻ Gold Cards giảm 15%, thẻ Sunflower Cards giảm 7%. Bằng
cách phân tích hồ sơ giao dịch của khách hàng có thể xác định hiệu quả các khách
hàng tiềm năng là doanh nghiệp nhỏ. Bằng cách sử dụng dịch vụ ngân hàng từ xa và
các nền tảng điện toán đám mây để thực hiện bán chéo, tăng hiệu suất đáng kể đã đạt
được.
Rõ ràng, các ứng dụng cổ điển nhất của big data là trong thương mại điện tử.
Hàng chục ngàn giao dịch được thực hiện tại Taobao và thời điểm giao dịch tương
ứng, giá cả hàng hóa và số lượng mua được ghi nhận mỗi ngày. Và quan trọng hơn, đó
là thông tin về người mua cũng như người bán như: độ tuổi, giới tính, địa chỉ, và thậm
chí là cả những sở thích và sự quan tâm của họ. Cube dữ liệu của Taobao là một ứng
dụng dữ liệu lớn trên nền tảng Taobao, thông qua đó, những người kinh doanh có thể
biết được tình trạng công nghiệp vĩ mô của nền tảng Taobao, điều kiện thị trường
thương hiệu của mình, và hành vi của người tiêu dùng.... Và dựa vào đó có thể đưa ra
những quyết định về sản xuất và dự trữ. Trong khi đó, nhiều người tiêu dùng có thể
mua các mặt hàng yêu thích của mình với giá cả phù hợp hơn nhiều. Một ví dụ khác,
dịch vụ xử lý dữ liệu m ở của Alibaba (ODPS) cho phép họ phân tích hàng triệu giao
dịch và thiết lập một dịch vụ vay hiệu quả cao đển các doanh nghiệp trực tuyến nhỏ.
Dữ liệu từ các trang web mua sắm của Alipay thuộc Alibaba bao gồm mua, đánh giá
và xếp hạng tín dụng có thể xem xét khả năng trả nợ của người vay. Dựa trên 100 mô
hình tính toán và khoảng 80 tỷ mục dữ liệu, giúp Alibaba giảm nợ vay ngân hàng
xuống đáng kể.
Ú ng dụng của IoT dựa trên Big Data
IoT không chỉ là một nguôn quan trọng của dữ liệu lớn, mà cũng là một trong
những thị trường chính của các ứng dụng dữ liệu lớn. Vì sự đa dạng cao của các đổi
tượng, các ứng dụng của IoT cũng phát triển không ngừng. Trong kỷ nguyên của IoT,
các cảm biển được nhúng vào trong các thiết bị di động như điện thoại di động, ô tô,
và máy móc công nghiệp góp phần vào việc tạo và chuyển dữ liệu, dẫn đến sự bùng
nổ của dữ liệu có thể thu thập được.
Các doanh nghiệp giao thông vận tải, vận chuyển thường rất có kinh nghiệm với
các ứng dụng của Big Data và IoT. Ví dụ, các xe tải của UPS (United Parcel Service
o f North America, Inc, là công ty vận tải lớn nhất thế giới) được trang bị cảm biến,
16
các thiết bị không dây và hệ thống định vị toàn cầu GPS. Nhờ đó các trụ sở có thế
theo dõi vị trí xe tải cũng như ngăn ngừa các lồi về động cơ. Bên cạnh đó, hệ thống
này cũng giúp UPS giám sát và quản lý nhân viên của mình và tối ưu hóa các tuyến
đường vận chuyên.
Thành phố thông minh là một lĩnh vực nghiên cứu hot dựa trên các ứng dụng của
dữ liệu IoT. Ví dụ, các dự án thành phổ thông minh với sự hợp tác giữa các quận
Miami-Dade ở Florida và IBM kết nối chặt chẽ 35 phòng ban chính của chính quyền
quận và thành phố Miami và giúp hỗ trợ các nhà lãnh đạo chính quyền thông tin tốt
hon trong việc ra quyết định đối với quản lý nguồn nước, giảm ùn tắc giao thông, cải
thiện an ninh công cộng. Việc ứng dụng các thành phố thông minh mang lại lợi ích về
nhiều mặt cho quận Dade.
ứ n g dụng của mạng xã hội trực tuyến theo định hướng dữ liệu lớn
Mạng xã hội (MXH) trực tuyến là một cấu trúc xã hội được cấu thành bởi các cá
nhân và các kết nối giữa các cá nhân dựa trên một mạng thông tin xã hội. Dữ liệu lớn
của mạng xã hội trực tuyến chủ yểu xuất phát từ các tin nhắn tức thời, xã hội trực
tuyển, blog, và không gian chia sẻ..., chủng chính các hoạt động của những người
dùng khác nhau. Việc phân tích các dữ liệu lớn từ mạng xã hội trực tuyến sử dụng
phương pháp phân tích tính toán được cung cấp cho việc hiểu biết các mối quan hệ
trong xã hội loài người bởi các lý thuyết và phương pháp bao gồm toán học, tin học,
xã hội học, và khoa học quản lý... ứ n g dụng bao gồm mạng lưới phân tích quan điểm
của công chúng, thu thập tình báo mạng và phân tích, marketing mạng xã hội, hỗ trợ
ra quyết định của chính phủ, và giáo dục trực tuyến... Những ứng dụng cơ bản của dữ
liệu lớn từ MXH trực tuyến trực tuyến được đề cập ở dưới đây:
-
-
Các ứng dụng dựa trên nội dung: Ngôn ngữ và văn bản là hai hình thức quan
trọng nhất của một thể hiện trong MXH. Thông qua việc phân tích ngôn ngữ
và văn bản, có thể nhận biết được sở thích người dùng, cảm xúc, quan tâm và
nhu cầu...
Các ứng dụng dựa trên cấu trúc: trong MXH, người dùng được biểu diễn
như là các nút trong khi mối quan hệ xã hội, quan tâm và sở thích... tổng hợp
các mối quan hệ giữa người sử dụng thành một cấu trúc cụm. c ấ u trúc như
vậy có quan hệ chặt chẽ giữa các cá nhân bên trong, nhưng quan hệ bên
ngoài lỏng cũng được gọi là một cộng đồng. Các phân tích dựa vào cộng
đồng có tầm quan trọng sổng còn để cải thiện việc lan truyền thông tin và
phân tích mối quan hệ giữa các cá nhân.
Nói chung, các ứng dụng dữ liệu lớn từ MXH trực tuyển có thể giúp hiểu rõ hơn
về hành vi của người sử dụng và nắm vững các quy luật của các hoạt động kinh tế xã
hội và từ ba khía cạnh sau đây:
17
- Cảnh báo sớm: để nhanh chóng đối phó với cuộc khủng hoảng nếu có bằng
chứng phát hiện bất thường trong việc sử dụng các thiết bị và dịch vụ điện tử.
- Giám sát thời gian thực: cung cấp thông tin chính xác cho việc xây dựng các
chính sách và kể hoạch bàng cách giám sát các hành vi hiện tại, cảm xúc, và
sở thích của người sử dụng.
- Phản hồi theo thời gian thực: có được phản hồi nhóm chống lại một số hoạt
động xã hội dựa trên giám sát thời gian thực.
ứ ng dụng trong y tế và chăm sóc sức khỏe
Dữ liệu y tế và chăm sóc sức khỏe được sinh ra liên tục và nhanh chóng phát
triển thành dữ liệu phức tạp, chứa các giá trị thông tin phong phú và đa dạng. Big Data
có tiềm năng không giới hạn cho việc lưu trữ hiệu quả, xử lý, truy vấn và phân tích các
dữ liệu y tế. Các ứng dụng của dữ liệu lớn y tế sẽ ảnh hưởng lớn đến các hoạt động
chăm sóc sức khỏe.
Trung tâm y tế M ount Sinai ở Mỹ sử dụng công nghệ của công ty dữ liệu lớn
Ayasđi để phân tích tất cả các trình tự gen của Escherichia Coli, trong đó có hơn một
triệu biến thể DNA, để điều tra lý do tại sao các chủng vi khuẩn kháng thuốc kháng
sinh. Ayasdi của sử dụng phân tích dữ liệu topo, một phương pháp nghiên cứu toán học
hoàn toàn mới, để hiểu đặc điểm dữ liệu.
Năm 2007 Micorsoft ra mắt HealthVault là một ứng dụng xuất sắc của dữ liệu
lớn trong y tế. Mục tiêu của nó là để quản lý thông tin sức khỏe của cá nhân trong các
thiết bị y tế cá nhân và gia đình. Hiện nay, thông tin về sức khỏe có thể được đưa vào
và tải lên với các thiết bị di động thông m inh và nhập tò các hồ sơ y tế cá nhân của một
bên thứ ba. Ngoài ra, nó có thể được tích họp với một ứng dụng của bên thứ ba với các
bộ phát triển phần mềm (SDK) và giao diện mở.
Trí tuệ tập hợp
Trí tuệ tập hợp (Collective Intelligence - CI) nghiên cứu về dữ liệu cung cấp bởi
một tập thể để đưa ra quyết định, dự đoán tốt hơn. Và lĩnh vực này đã được đem áp
dụng cho Mạng xã hội và phát huy tác dụng một cách đột phá. Dựa vào Profile của
từng User, sở thích, thói quen truy cập, sử dụng và tương tới với w ebsite... mà ta có
được các thông tin cần thiết về mối tương quan giữa sở thích, hành vi của các User
trong website. Nấu có càng nhiều thông tin dạng này thì hoạt động của CI càng chính
xác, thân thiện và hợp lý hơn. Từ các dữ liệu của User, ta có thể viết ra các chức năng
đề nghị như kiểu Facebook với chức năng đề nghị kết bạn, Amazon với chức năng đề
nghị sách...H oặc các chức năng thông minh như lọc dữ liệu, phát hiện các thành viên
có “tiền án gây sự” V.V..
Những hệ thống được khuyến cáo như Pandora (âm nhạc), Netflix (phim ảnh), và
Amazon (sách và sản phẩm) dùng dữ liệu khách hàng và nhiều đại lý trong một
phương pháp tiếp cận được biết đến là collaborative filtering (phương pháp lọc cộng
18
tác). Dịch vụ dữ liệu lớn này đã là chủ đề của nhiều nghiên cứu tiên tiến trong máy học
và khai phá dữ liệu. Rõ ràng là nếu khả năng thực hiện gợi ý tốt thì có thể tăng doanh
số bán hàng và sự hài lòng của khách hàng.
2.4.
Big Data ở Việt Nam
Theo số liệu thống kê, tính đến ngày 1/1/2015, Việt Nam có dân số là 90,7 triệu
người, trong đó có 39,8 triệu người sử dụng internet (tương đương với 44%), 28 triệu
người sở hữu tài khoản mạng xã hội (chiếm 31%), 128,3 triệu người có kết nối mạng
di động (tương đương với 141%) vậy tức là trung bình mỗi người Việt Nam sở hữu
1,4 thuê bao di động, và số người sử dụng tài khoản xã hội trên điện thoại là 24 triệu
(tương đương với 26%).
v ề mạng xã hội tại Việt Nam, Zing Me có lượng người dùng cao nhất (8,2 triệu).
Đứng thứ hai là Facebook với 5,6 triệu người dùng. Đứng thứ ba là Yume (2,2 triệu
người dùng), thứ tư là Tamtay (1 triệu người dùng).
Trong lĩnh vực tin tức, trang tin 24h với 9,9 triệu người dùng và 600 triệu lượt
xem, VN Express với 8,3 triệu người dùng và 530 triệu lượt xem, Dân trí với 7,5 triệu
người dùng và 380 triệu lượt xem.
Trong lĩnh vực thương mại điện tử, các trang thông tin điện tử phát triển rất sôi
động.
Qua dữ liệu sơ bộ trên, chúng ta có thể thấy việc xây dựng các công cụ phục vụ
cho việc tổ chức và xử lí cho các hệ thống dữ liệu lớn là rất cần thiết. Tuy nhiên,
những nghiên cứu về dữ liệu lớn tại Việt Nam mới chỉ dừng lại ở mức nghiên cứu ban
đầu, chưa có những kết quả nghiên cứu ứng dụng vào thực tiễn mang lại hiệu quả cao.
Ở Việt Nam, một số tác giả đã bắt đầu nghiên cứu lý thuyết về các hệ thống dữ
liệu lớn. Những kết quả đạt được cũng mới ở mức ban đầu.
Các nhóm nghiên cứu bao gồm:
- Nhóm nghiên cứu của Đại học Công nghệ Hà Nội [12].
- Nhóm nghiên cứu của Đại học c ầ n Thơ [13]
- Nhóm nghiên cứu của Đại học quốc gia Tp. HCM tiến hành xây đựng các
thuật toán khai phá dữ liệu liên quan đến mẫu dãy [14]
- Nhóm nghiên cứu của Đại học quốc gia Hà Nội [7 - 11] đã có những kết quả
về khai phá dữ liệu trên bảng quyết định, mẫu dãy, đồ thị. Nhóm nghiên cứu này cũng
đã thực hiện thử nghiệm việc phân cụm khách hàng và tìm sở thích các mặt hàng của
các khách hàng trên dữ liệu hàng triệu bản ghi.
19
Hiện nay, môn hệ thống dữ liệu lớn đã bắt đầu được dạy trong trường đại học.
Ví dụ Học viện Bưu chính viễn thông đã dạy môn này cho các lớp học viên cao học.
Big Data n g ày càn g đóng vai trò quan trọng trong việc mang lại những giá trị
to lớn cho các tổ chức doanh nghiệp, cho nền kinh tế quốc gia và cho các công dân
trong nền kinh tế đó. Tuy nhiên, đây vẫn là lĩnh vực còn rất mới, đặt ra nhiều vấn đề
và thách thức mà các tổ chức và các nhà nghiên cứu cần giải quyết.
Tài liệu tham khảo
[1] Avis, D., Fukuda, K., "Reverse search for enumeration”, Discrete Appl. Math. 65, 2146(1996)
[2] Eppstein,
D.,
“All maximal independent sets and dynamic dominance for
sparsegraphs”, CoRR cs.DS/0407036 (2004)
[3]
Kiyomi, M., Ưno, T., "Generating chordal graphs included in given graphs”. IEICE-
Trans. Inf. Syst. E89-D, 763-770 (2006)
[4] Tan, H., Dillon, T., Hadzic, F., Chang, E., Feng, L., "Tree model guided
candidategeneration fo r
mining frequent
subtrees
from
xml
documents”,
ACM
Transactionson Knowledge Discovery from Data 2(2), 1-43 (2008)
[5]
Uno,
T.
“An
efficient
algorithm
for
solving pseudo
clique
enumeration
problem”.Algorithmica 56, 3-16 (2010)
[6]
Philip Russom, “Big Data Analytics
[7]
Vũ Đức Thi, "Một sổ vấn để tính toán liên quan đến cơ sở dữ liệu và khai phá dữ
TDWI Research, 2011.
liệu ”, Tạp chí Khoa học và Công nghệ, T.50, s. 6, tr. 679 - 703, 2012
18] Vu Due Thi, Nguyen Long Giang, “An effective Algorithm for determining the set o f all
reductive attributes
in
incomplete
decision
tables”, Cybernetics
and
Information
Technologies CIT, Sofia, Bulgarian Academy of Sciences, Volume 13, No 4, pp. 118-126,
2013.
[9] Demetrovics J., N.T.L. Huong, V.D.Thi, N.L.Giang (2016). Metric Based
Attribute Reduction Method in Dynamic Decision Tables “ J. Commucations and
Information Technologies - CIT, Bulgarian Academy o f Sciences, V 16, N. 2, pp. 315
[10] Demetrovics J., V.D. Thi, T. H. Duong (2015). An algorithm to mine normalized
weighted sequential patterns using prefix-projeted database, SERDICA J. of
computing, Bulgarian Academy o f Sciences, V 9, N. 2, pp. 111-118
[11] V.D.Thi, H.M .Quang, N. V. Anh “ Some problems on mining frequent closed
subgraphs “ . (to appear) in J. Commucations and Information Technologies - CIT,
Bulgarian Academy o f Sciences, 2016.
20
- Xem thêm -