ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
LÝ THỊ KIỀU OANH
XÂY DỰNG HỆ THỐNG TƯ VẤN HỖ TRỢ
HỌC SINH CHỌN BAN TẠI
TRƯỜNG TRUNG HỌC PHỔ THÔNG VÕ VĂN KIỆT
LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2017
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
LÝ THỊ KIỀU OANH
XÂY DỰNG HỆ THỐNG TƯ VẤN HỖ TRỢ
HỌC SINH CHỌN BAN TẠI
TRƯỜNG TRUNG HỌC PHỔ THÔNG VÕ VĂN KIỆT
Chuyên ngành : Khoa học máy tính
Mã số : 60.48.01.01
LUẬN VĂN THẠC SĨ KỸ THUẬT
Người hướng dẫn khoa học: TS. TRẦN THẾ VŨ
Đà Nẵng - Năm 2017
i
LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn
trực tiếp của PGS. TS. Nguyễn Thanh Bình; và chưa từng được ai công bố trong
bất kỳ công trình nào khác.
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng và trung thực
tên tác giả, tên công trình, thời gian, địa điểm công bố;
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu
hoàn toàn trách nhiệm.
Tác giả
Lý Thị Kiều Oanh
ii
TÓM TẮT LUẬN VĂN
XÂY DỰNG HỆ THỐNG TƯ VẤN HỖ TRỢ CHỌN BAN CHO HỌC SINH
TẠI TRƯỜNG THPT VÕ VĂN KIỆT
Lý Thị Kiều Oanh, học viên cao học khoá 31, chuyên ngành Khoa học máy tính
Tóm tắt - Luận văn xây dựng hệ thống tư vấn chọn ban đầu tiên của trường
trung học phổ thông Võ Văn Kiệt – huyện Vũng Liêm – tỉnh Vĩnh Long. Hệ thống
này đã không chỉ góp phần giải đáp thắc mắc cho đa số học sinh trước khi chọn ban,
giúp các em chọn đúng ban, hạn chế việc chạy ban, học nhầm ban… mà còn hỗ trợ
cho giáo viên làm công tác quản lý danh sách học sinh chọn ban, xếp lớp được
thuận tiện và hiệu quả hơn trước thềm năm học mới. Nghiên cứu tiến hành bốn
bước chính: (1) Tìm hiểu cơ sở lý thuyết và công tác quản lý học sinh chọn ban tại
trường trung học phổ thông; (2) Thu thập và tiền xử lý dữ liệu; (3) Tìm hiểu bài
toán để phân tích và thiết kế cơ sở dữ liệu, lựa chọn phương pháp phù hợp với yêu
cầu bài toán đặt ra và dữ liệu thu thập được; (4) Cài đặt và thử ghiệm hệ thống.
Luận văn đã xây dựng được hệ thống hỗ trợ tư vấn chọn ban dựa trên lý thuyết
Bayes phù hợp với thực tế chọn ban tại trường trung học phổ thông.
Từ khóa - hệ thống hỗ trợ tư vấn; chọn ban; học sinh; trung học phổ thông; lý
thuyết Bayes.
BUILDING A CONSULTANCY SYSTEM SUPPORTING STUDENTS TO
SELECT FIELDS AT VO VAN KIET HIGH SCHOOL
Abstract - The thesis presents the first counseling system of high school Vo Van
Kiet - Vung Liem district - Vinh Long province. This system has contributed to
answering questions for the majority of the students before choosing the field,
helping them choose the right field, limiting the field, learning the wrong field... and
support teachers to manage the list of students selecting fields, class placement is
more convenient and effective before the new school year. Research was conducted
in 4 main steps: (1) Understanding the theoretical basis and the management of
students for selecting fields at high school; (2) Data collection and pre-processing;
(3) Exploring the problem for analysis and design; Selecting the method to solve the
problem requirements and the collected data; (4) Installing and testing the system.
The result of the thesis is to build the counseling system based on the Bayesian
theory in order to meet the requirements at high school.
Key words - counseling support system; choose school board; student; high school;
Bayesian theory.
iii
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ i
TÓM TẮT LUẬN VĂN ............................................................................................. ii
MỤC LỤC ................................................................................................................. iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ............................................... vi
DANH MỤC CÁC BẢNG ....................................................................................... vii
DANH MỤC CÁC HÌNH ....................................................................................... viii
MỞ ĐẦU .................................................................................................................... 1
1. Lý do chọn đề tài ................................................................................................ 1
2. Mục đích và ý nghĩa đề tài ................................................................................. 2
3. Mục tiêu và nhiệm vụ nghiên cứu ...................................................................... 2
4. Đối tượng và phạm vi nghiên cứu ...................................................................... 2
5. Phương pháp nghiên cứu .................................................................................... 3
6. Phương tiện, công cụ triển khai .......................................................................... 3
7. Bố cục của luận văn ............................................................................................ 3
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT ........................................................................... 4
1.1. Kho dữ liệu ...................................................................................................... 4
1.1.1. Tổng quan về kho dữ liệu ......................................................................... 4
1.1.2. Mục đích của kho dữ liệu ......................................................................... 4
1.1.3. Đặc tính của kho dữ liệu .......................................................................... 5
1.1.4. Quy trình xây dựng kho dữ liệu và các vấn đề liên quan ......................... 5
1.1.4.1. Kho dữ liệu và cơ sở dữ liệu ............................................................. 5
1.1.4.2. Kiến trúc kho dữ liệu ......................................................................... 5
1.2. Khám phá tri thức và khai phá dữ liệu ............................................................ 8
1.2.1. Tổng quan về khai phá tri thức và khai phá dữ liệu................................. 8
1.2.2. Quá trình khám phá tri thức ................................................................... 11
1.2.3. Quá trình khai phá dữ liệu ..................................................................... 12
1.2.4. Các kỹ thuật khai phá dữ liệu ................................................................. 12
1.2.5. Khai phá dữ liệu bằng cây quyết định .................................................... 13
1.2.5.1. Định nghĩa cây quyết định ............................................................... 13
1.2.5.2. Vấn đề xây dựng cây quyết định ..................................................... 13
1.2.5.3. Rút ra các luật từ cây quyết định ..................................................... 13
1.2.5.4. Các thuật toán khai phá dữ liệu bằng cây quyết định ...................... 14
1.3. Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence
Development Studio (BIDS) của Microsoft ......................................................... 16
iv
1.4. Giới thiệu phương pháp phân lớp Naïve Bayes ............................................ 16
1.4.1. Vận dụng các phương pháp toán học để phân lớp dữ liệu .................... 16
1.4.2. Phương pháp phân lớp Naïve Bayes ...................................................... 17
1.4.3. Thuật toán Naïve Bayes .......................................................................... 18
1.4.3.1. Mô hình phân lớp Naïve Bayes ...................................................... 18
1.4.3.2. Thuật toán Naïve Bayes................................................................... 18
1.4.3.3. Các bước thực hiện thuật toán phân lớp Naïve Bayes .................... 18
1.4.3.4. Mở rộng định lý Naïve Bayes ......................................................... 19
1.5. Kết luận.......................................................................................................... 20
CHƯƠNG 2. GIẢI PHÁP HỆ TƯ VẤN HỖ TRỢ CHỌN BAN ............................ 21
2.1. Giới thiệu về công tác tư vấn và chọn ban tại trường THPT Võ Văn Kiệt ... 21
2.2. Phát biểu bài toán tư vấn chọn ban ................................................................ 22
2.3. Phân tích bài toán .......................................................................................... 22
2.3.1. Yêu cầu chức năng.................................................................................. 22
2.3.2. Yêu cầu phi chức năng ........................................................................... 23
2.3.2.1. Đối với tư vấn chọn ban .................................................................. 23
2.3.2.2. Đối với việc chọn ban của học sinh................................................. 23
2.4. Giải pháp tổng thể ......................................................................................... 23
2.4.1. Ý tưởng ................................................................................................... 23
2.4.2. Hoạt động của hệ thống ......................................................................... 24
2.4.2.1. Mô hình giải pháp ............................................................................ 24
2.4.2.2. Mô tả chi tiết hoạt động của hệ thống ............................................. 24
2.5. Thiết kế chi tiết .............................................................................................. 25
2.5.1. Thiết kế cơ sở dữ liệu.............................................................................. 25
2.5.2. Thiết kế thuật toán .................................................................................. 27
2.5.2.1. Sơ đồ thuật toán chi tiết tư vấn dựa trên điểm trung bình môn ....... 27
2.5.2.2. Sơ đồ thuật toán chi tiết tư vấn dựa trên môn học yêu thích ........... 28
2.5.2.3. Sơ đồ thuật toán chi tiết tư vấn dựa trên ngành nghề ...................... 29
2.5.2.4. Học sinh chọn ban học .................................................................... 30
2.6. Kết luận.......................................................................................................... 31
CHƯƠNG 3. CÀI ĐẶT VÀ THỬ NGHIỆM .......................................................... 32
3.1. Môi trường cài đặt ......................................................................................... 32
3.2. Dữ liệu đầu vào.............................................................................................. 32
3.3. Cài đặt hệ thống ............................................................................................. 32
3.3.1. Các chức năng của hệ thống .................................................................. 32
3.3.2. Các thành phần của hệ thống ................................................................. 33
v
3.3.2.1. Màn hình chính của hệ thống .......................................................... 33
3.3.2.2. Màn hình đăng nhập của hệ thống................................................... 33
3.3.2.3. Màn hình tư vấn theo điểm môn học ............................................... 34
3.3.2.4. Màn hình tư vấn theo môn học yêu thích ........................................ 35
3.3.2.5. Màn hình tư vấn theo ngành nghề ................................................... 35
3.3.2.6. Màn hình chọn ban học ................................................................... 36
3.3.2.7. Màn hình thống kê ........................................................................... 37
3.4. Kết quả thử nghiệm ....................................................................................... 37
3.4.1. Các bước chuẩn bị .................................................................................. 37
3.4.2. Dữ liệu thử nghiệm ................................................................................. 38
3.4.2.1. Một số bảng dữ liệu thử nghiệm...................................................... 38
3.4.2.2. Thử nghiệm sử dụng định lý Bayes ................................................. 39
3.4.3. Một số kết quả thử nghiệm ..................................................................... 40
3.5. Đánh giá kết quả ............................................................................................ 43
3.6. Kết luận.......................................................................................................... 43
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................................... 44
TÀI LIỆU THAM KHẢO ........................................................................................ 46
QUYẾT ĐỊNH GIAO ĐỀ TÀI.
BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC
PHẢN BIỆN
vi
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
THPT
Trung học phổ thông
DW
Data Warehouse
CSDL
Cơ sở dữ liệu
KPDL
Khai phá dữ liệu
BIDS
Business Intelligence Development Studio
vii
DANH MỤC CÁC BẢNG
Số hiệu bảng
Tên bảng
Trang
1.1.
Số lượng trái cây theo đặc điểm
19
2.1.
Bảng TB_DSHOCSINH ở chế độ thiết kế
25
2.2.
Bảng TB_LUATĐTB ở chế độ thiết kế
26
2.3.
Bảng TB_NHOM ở chế độ thiết kế
26
2.4.
Bảng TB_NGANH ở chế độ thiết kế
27
3.1.
Bảng dữ liệu danh sách học sinh
38
3.2.
Bảng dữ liệu danh sách các ngành học
38
3.3.
Bảng dữ liệu danh sách các nhóm ngành
38
3.4.
Thống kê kết quả thử nghiệm
43
viii
DANH MỤC CÁC HÌNH
Số
hiệu
hình
1.1.
1.2.
1.3.
1.4.
2.1.
2.2.
2.3.
2.4.
2.5.
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
3.8.
3.9.
3.10.
3.11.
3.12.
Tên hình
Kiến trúc kho dữ liệu
Quá trình khám phá tri thức
Quá trình khai phá dữ liệu
Cây quyết định phân lớp mức lương
Mô hình của hệ thống
Sơ đồ thuật toán chi tiết tư vấn dựa trên điểm trung bình môn
Sơ đồ thuật toán chi tiết tư vấn dựa trên môn học yêu thích
Sơ đồ thuật toán chi tiết tư vấn dựa trên ngành nghề
Sơ đồ thuật toán chi tiết chọn ban của học sinh
Màn hình chính của hệ thống tư vấn chọn ban
Màn hình đăng nhập của hệ thống
Màn hình tư vấn theo điểm trung bình
Màn hình tư vấn theo môn học yêu thích
Màn hình tư vấn theo ngành nghề
Màn hình chọn ban của học sinh
Màn hình thống kê kết quả chọn ban của học sinh
Màn hình kết quả tư vấn theo điểm môn học
Màn hình kết quả tư vấn theo điểm môn học trong trường hợp
chưa xác định được
Màn hình kết quả tư vấn theo môn học yêu thích
Màn hình kết quả tư vấn theo ngành nghề
Màn hình kết quả chọn ban theo khối
Trang
6
11
12
13
24
27
28
29
30
33
34
34
35
36
36
37
40
41
41
42
42
1
MỞ ĐẦU
1. Lý do chọn đề tài
Với sự phát triển của công nghệ thông tin, nó đã góp phần rất lớn trong đời
sống con người. Nhờ có sự phát triển của công nghệ mà con người đã dần dần giảm
đi sức lao động, bên cạnh đó nó cũng giúp cho công tác quản lý thuận tiện và hiệu
quả hơn. Có rất nhiều bài toán quản lý đã được dùng rất hiệu quả như: quản lý công
nhân trong xí nghiệp, quản lý nhân viên trong công ty, quản lý bệnh nhân trong
bệnh viện, quản lý hệ thống bán vé máy bay, … Trong trường học phổ thông hiện
nay cũng sử dụng một số bài toán quản lý như: quản lý học sinh, quản lý thư viện,
quản lý điểm cho học sinh, quản lý nhân viên và giáo viên trong trường học, …
Bên cạnh đó, hiện nay, nhu cầu tìm kiếm các thông tin hữu ích trong các
nguồn dữ liệu lớn đang là xu hướng phát triển mạnh mẽ. Các ứng dụng công nghệ
thông tin với cơ sở dữ liệu khổng lồ góp phần không nhỏ trong tất cả các lĩnh vực
đời sống xã hội mang lại nguồn lợi lớn cho người dùng. Việc khai thác nguồn thông
tin từ các cơ sở dữ liệu lớn không chỉ dựa vào những phương pháp truyền thống, mà
còn vận dụng từ những kỹ thuật, phương pháp phân tích tổng hợp thông tin. Lượng
thông tin quyết định tuy nhỏ nhưng là phần cốt lõi, có giá trị cao trong các tiến trình
ra quyết định. Khai phá dữ liệu là quá trình trích lọc những tri thức hoặc những mẫu
tin tiềm ẩn và hữu ích từ những sự kiện rời rạc.
Trong mấy năm gần đây, ở trường trung học phổ thông có tổ chức phân ban
cho học sinh để học sinh có thể học theo các khối thi đại học. Theo đó, học sinh có
thể chọn theo ban mà mình yêu thích hay theo nguyện vọng để thi đại học. Công
việc gặp nhiều khó khăn khi học sinh thay đổi ban mình đã lựa chọn, nguyên nhân
chính là do các em không biết chọn ban nào là phù hợp. Các em có nhiều vấn đề
thắc mắc và đặt ra nhiều câu hỏi để bổ sung kiến thức vào việc chọn ban phù hợp
với ngành nghề mà các em yêu thích hay theo xu hướng phát triển xã hội. Mặc dù
xã hội rất phát triển, Internet không xa lạ gì với các em, nhưng các em không biết
xem trang nào là đúng (vì quá nhiều trang, mỗi trang thông tin khác nhau). Vì vậy,
các em cần được tư vấn trước khi chọn ban. Việc mở các buổi tư vấn rất khó khăn
và mất nhiều thời gian, không có giáo viên làm công tác này, cũng rất khó để trả lời
hết các câu hỏi của các em học sinh.
Vì thế, tôi có một giải pháp để giảm bớt sự lo lắng và bỡ ngỡ cho học sinh,
đồng thời giảm khó khăn cho người quản lý việc chọn ban của học sinh, đó là có thể
tư vấn cho học sinh chọn ban bằng một hệ thống tự động. Cho nên tôi chọn đề tài:
“Xây dựng hệ thống tư vấn hỗ trợ học sinh chọn ban tại trường trung học phổ
thông Võ Văn Kiệt” để phục vụ học sinh và cán bộ quản lý về việc chọn ban ở đầu
mỗi năm học.
2
2. Mục đích và ý nghĩa đề tài
a. Mục đích
Bước đầu nghiên cứu một số cơ sở lý thuyết khai phá dữ liệu để hỗ trợ phần
nào giúp các học sinh có thể chọn đúng ban phù hợp khi đăng kí vào lớp mới, giúp
các bạn học sinh hiểu rõ hơn về việc chọn ban, từ đó chọn được ban học phù hợp
với khả năng và ngành nghề sau này, chủ động trong xây dựng kế hoạch học... Đề
tài cũng đưa ra chương trình demo nhỏ minh họa việc xây dựng hệ thống hỗ trợ tư
vấn.
b. Ý nghĩa khoa học
Đề tài sẽ đưa ra một hệ thống tư vấn hỗ trợ công tác tư vấn chọn ban và đăng
ký ban học cho học sinh tại trường trung học phổ thông.
c. Ý nghĩa thực tiễn
Đề tài tạo ra được kho dữ liệu hỗ trợ tư vấn, tra cứu nhằm nắm được những
thông tin về tư vấn chọn ban. Bên cạnh đề tài còn đưa ra hệ thống chọn ban hỗ trợ
trong việc quản lý và xếp lớp học tại trường THPT Võ Văn Kiệt.
3. Mục tiêu và nhiệm vụ nghiên cứu
Những kết quả nghiên cứu nhằm ứng dụng có hiệu quả cho công tác tư vấn
quản lý chọn ban tại trường Trung học phổ thông Võ Văn Kiệt. Để hoàn thành mục
đích, ý tưởng đặt ra, cần nghiên cứu các nội dung như sau:
- Nghiên cứu thực trạng công tác tư vấn và quản lý chọn ban tại trường Trung
học phổ thông Võ Văn Kiệt
- Nghiên cứu khai phá dữ liệu
- Nghiên cứu thuật toán Bayes trong phân lớp: nghiên cứu cách biểu diễn tri
thức để xây dựng kho tri thức cho phù hợp với thuật toán Bayes trong phân
lớp (Naive Bayes classifiers).
- Phát biểu, phân tích và cài đặt cho bài toán đặt ra
- Đánh giá kết quả theo yêu cầu của đề tài.
4. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Kho dữ liệu, phương thức quản lý và vận hành kho
dữ liệu. Nghiên cứu kỹ thuật khám phá tri thức và khai phá dữ liệu.
- Phạm vi nghiên cứu: Nghiên cứu xây dựng, quản lý kho dữ liệu, khai phá
dữ liệu trong công tác tư vấn chọn ban học của học sinh. Nghiên cứu xây dựng hệ
thống hỗ trợ hệ thống chọn ban cho học sinh trường trung học phổ thông Võ Văn
Kiệt.
3
5. Phương pháp nghiên cứu
a. Phương pháp lý thuyết
Dựa vào tri thức về khai phá dữ liệu và thuật toán suy diễn Bayes để xây
dựng hệ thống tư vấn chọn ban trực tuyến trên mô hình khai phá dữ liệu Business
Intelligence Development Studio. Sử dụng các công cụ của hệ quản trị SQL Server
trong Data Warehouse.
b. Phương pháp thực nghiệm
Dựa trên các nghiên cứu về lý thuyết để xây dựng ứng dụng “Xây dựng hệ
thống tư vấn hỗ trợ học sinh chọn ban tại trường trung học phổ thông Võ Văn
Kiệt”. Chạy ứng dụng thử nghiệm trên máy đơn.
6. Phương tiện, công cụ triển khai
- Microsoft SQL Server 2008
- Microsoft Visual Studio 2008
7. Bố cục của luận văn
Báo cáo luận văn được thể hiện trong 3 chương:
Chương 1. Cơ sở lý thuyết: Chương này giới thiệu tổng quan về kho dữ liệu,
khám phá tri thức, khai phá dữ liệu và giới thiệu sơ về phương pháp phân loại Naïve
Bayes.
Chương 2. Giải pháp hệ tư vấn hỗ trợ chọn ban: gồm các phần như: giới
thiệu về công tác tư vấn và chọn ban tại trường THPT Võ Văn Kiệt, phát biểu bài
toán, giải pháp tổng thể, thiết kế chi tiết hệ thống tư vấn.
Chương 3. Cài đặt và thử nghiệm: gồm môi trường cài đặt, dữ liệu đầu vào,
cài đặt hệ thống, kết quả thử nghiệm, đánh giá kết quả.
4
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT
Từ khi ứng dụng công nghệ thông tin được sử dụng rộng rãi trên hệ thống
máy tính, có một khối lượng lớn dữ liệu được lưu trữ và xử lý trên máy tính. Vấn đề
ứng dụng công nghệ thông tin hiện nay không chỉ là lưu trữ vận hành dữ liệu, mà
còn là việc tổ chức các nguồn dữ liệu đó để rút trích thông tin và hỗ trợ ra quyết
định. Đây chính là một sự tiến hoá cần thiết cho các hệ thống thông tin.
1.1. Kho dữ liệu
1.1.1. Tổng quan về kho dữ liệu
Kho dữ liệu là tuyển tập các cơ sở dữ liệu tích hợp, hướng chủ đề, được thiết
kế để hỗ trợ cho chức năng trợ giúp quyết định.
Theo John Ladley, Công nghệ kho dữ liệu (Data Warehouse Technology) là
tập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung
cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều
môi trường khác nhau.
Định nghĩa W.H. Inman đề xướng: DW được hiểu là một tập hợp các dữ liệu
tương đối ổn định (không hay thay đổi), cập nhật theo thời gian, được tích hợp theo
hướng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý [8;9].
Kho dữ liệu thường rất lớn tới hàng trăm Gigabyte hay thậm chí hàng
Terabyte. Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều
nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng
dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ
trước.
1.1.2. Mục đích của kho dữ liệu
- Mục tiêu chính của kho dữ liệu là nhằm đáp ứng các tiêu chuẩn cơ bản sau:
+ Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng.
+ Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của
mình, như có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn, năng
suất cao hơn, thu được lợi nhuận cao hơn, v.v.
+ Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ
một cách hiệu quả và chính xác.
+ Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau.
- Muốn đạt được những yêu cầu trên thì DW phải:
+ Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ
liệu theo những hướng chủ đề nhất định
+ Tổng hợp và kết nối dữ liệu
+ Đồng bộ hoá các nguồn dữ liệu với DW
+ Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các
công cụ chuẩn để phục vụ cho DW.
5
+ Quản lí siêu dữ liệu
+ Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức theo
các chủ đề
+ Dùng trong các hệ thống hỗ trợ quyết định (Decision suport system - DSS),
các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt [11].
1.1.3. Đặc tính của kho dữ liệu
Những đặc điểm cơ bản của Kho dữ liệu (DW) là một tập hợp dữ liệu có tính
chất sau:
- Tính tích hợp (Integration)
- Dữ liệu gắn thời gian và có tính lịch sử
- Dữ liệu có tính ổn định (nonvolatility)
- Dữ liệu không biến động
- Dữ liệu tổng hợp
1.1.4. Quy trình xây dựng kho dữ liệu và các vấn đề liên quan
1.1.4.1. Kho dữ liệu và cơ sở dữ liệu
- Trước tiên DW là database rất lớn
- Database hướng về xử lý thời gian thực, DW hướng về tính ổn định.
- Phục vụ xử lý transaction, cập nhật. Datawarehouse thường chỉ đọc, phục
vụ cho những nhu cầu báo cáo.
- DW sẽ lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle,
SQLserver thậm chí cả File thông thường rồi làm sạch chúng và đưa vào cấu trúc
của nó-đó là VLDB (very large database).
- Một điểm quan trọng là Database thường được chuẩn hóa (Dạng chuẩn 1, 2,
3, BCK) để khai thác [1].
1.1.4.2. Kiến trúc kho dữ liệu
Mô hình kiến trúc của kho dữ liệu cơ bản gồm có ba thành phần: Dữ liệu
nguồn, khu vực xử lý và kho dữ liệu [4].
6
Dữ liệu nguồn
Khu vực xử lý
Kho dữ liệu
Người dùng đầu cuối
Hệ thống hoạt động
Các tập tin phẳng
Hình 1.1. Kiến trúc kho dữ liệu
a. Nguồn dữ liệu
Nguồn dữ liệu của kho dữ liệu bao gồm từ rất nhiều nguồn khác nhau và có
cấu trúc dữ liệu khác nhau:
- Dữ liệu từ hệ thống tác nghiệp: Đây là nguồn dữ liệu chính để xây dựng kho
dữ liệu, chứa các dữ liệu chi tiết hiện tại của hệ thống tác nghiệp.
- Dữ liệu từ hệ thống phân tích: Đây là dữ liệu được tổng hợp từ dữ liệu nguồn
đã cũ và tổ chức lại theo nhiều phương pháp khác nhau.
- Dữ liệu từ bên ngoài: đây là các dữ liệu từ các nguồn ngoài hệ thống của
công ty, có thể do các tổ chức khác thu thập và tạo ra, nó được sử dụng cho các yêu
cầu phân tích dữ liệu.
Dữ liệu từ các hệ thống nguồn thường hỗn tạp và chứa nhiều cấu trúc khác nhau
ví dụ: các cơ sở dữ liệu, từ các file excel, các file thô, hay dạng XML... Vì thế trước
khi đưa vào kho dữ liệu cần phải chuyển đổi và tích hợp dữ liệu.
b. Khu vực xử lý
Ở khu vực này dữ liệu được sử dụng các kỹ thuật làm sạch và chuyển đổi để
đảm bảo tính nhất quán dữ liệu trước khi đưa vào kho dữ liệu đích. Thông thường
người ta sử dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL: Extracts
dữ liệu-Transforms dữ liệu-Load dữ liệu). Công cụ này thực hiện các thao tác trích
xuất dữ liệu, chuyển đổi dữ liệu, tải dữ liệu vào kho dữ liệu.
Nhiệm vụ:
- Làm sạch dữ liệu vào: Đây là quá trình kiểm tra dữ liệu đầu vào và loại bỏ các
dữ liệu sai định dạng hoặc lỗi. Nhiệm vụ của bước này bao gồm:
Sử dụng các luật về dữ liệu (Data Quality rules) để kiểm tra dữ liệu đầu
vào.
7
Chỉnh sửa lỗi dữ liệu.
Cảnh báo về lỗi dữ liệu đầu vào.
- Chuyển đổi dữ liệu: Đây là quá trình chuyển đổi dữ liệu nhằm đảm bảo tính
nhất quán trước khi chuyển vào kho dữ liệu. Quá trình này bao gồm các bước:
Sử dụng các luật về chuyển đổi dữ liệu để chuyển đổi.
Chuyển đổi kiểu dữ liệu cho phù hợp với cơ sở dữ liệu đích
Chuyển đổi dữ liệu vào một lược đồ nhất quán.
Các bước: Tiến trình ETL gồm có 3 bước:
- Trích xuất: Dữ liệu nguồn từ rất nhiều nguồn khác nhau và có thể có rất
nhiều cấu trúc dữ liệu khác nhau như nhiều loại cơ sở dữ liệu, từ file excel hay từ
file thô. Vì thế nhiệm vụ chính của bước này là trích xuất dữ liệu từ hệ thống nguồn
để xử lý.
- Chuyển đổi: Đây là quá trình rất phức tạp dùng để chuyển đổi dữ liệu nguồn
một mô hình khác phù hợp và chuyển vào cơ sở dữ liệu đích. Ở bước này sẽ phải sử
dụng các phép chuyển đổi như:
Chọn các cột dữ liệu phù hợp (chỉ chọn các cột cần thiết)
Chuyển đổi dữ liệu. Ví dụ: chuyển 1 thành Nam hay ngược lại.
Tạo ra các cột tính toán mới. Ví dụ: Điểm trung bình = Tổng điểm /số
trình
Lọc dữ liệu.
Sắp xếp dữ liệu
Thực hiện các phép tổng hợp (tính tổng các cột, đếm số dòng, tính trung
bình).
Tạo ra các giá trị mới (tạo khóa tự tăng).
Tìm kiếm hay so sánh dữ liệu.
Có thể nói đây là bước quan trọng nhất trong tiến trình ETL, nó thực hiện
hầu hết các nhiệm vụ của tiến trình ETL.
- Nạp dữ liệu vào kho dữ liệu: Đây là quá trình đẩy dữ liệu sau khi đã được
chuyển đổi vào kho dữ liệu. Dữ liệu sau khi đã được chuyển đổi sẽ được nạp vào
kho dữ liệu.
c. Kho dữ liệu
8
Kho dữ liệu là cơ sở dữ liệu được tổ chức lại theo mô hình hình sao hay mô hình
bông tuyết. Mô hình được phi chuẩn hóa, chấp nhận sự dư thừa dữ liệu trong lưu trữ
dữ liệu chính vì thế mô hình dữ liệu đơn giản hơn nên việc truy vấn dễ dàng hơn và
tốc độ xử lý cũng nhanh hơn mô hình dữ liệu được chuẩn hóa. Ngoài ra kho dữ liệu
còn chứa các dữ liệu khác như:
- Siêu dữ liệu: Đây là dữ liệu chứa định nghĩa của dữ liệu được lưu trữ trong
kho dữ liệu. Siêu dữ liệu định nghĩa nên các thành phần của kho dữ liệu, cách thức
dữ liệu được tải vào kho dữ liệu, lưu lại quá trình hoạt động của kho dữ liệu. Siêu
dữ liệu gồm có các dạng sau:
+ Dữ liệu định nghĩa và cách thức ánh xạ dữ liệu vào các bảng trong kho dữ
liệu.
+ Dữ liệu định nghĩa và giải thích cấu trúc của các bảng bên trong kho dữ liệu.
+ Dữ liệu định nghĩa cấu trúc dữ liệu ở hệ thống nguồn.
+ Dữ liệu định nghĩa và chú thích về tiến trình ETL.
+ Dữ liệu định nghĩa các luật về chất lượng dữ liệu, các mức độ sai lệch của dữ
liệu và cách thức xử lý.
+ Dữ liệu theo dõi tiến trình xử lý các bản ghi trong kho dữ liệu.
+ Dữ liệu chứa các sự kiện hoạt động của các ứng dụng.
- Bảng sự kiện tổng hợp: Các bảng tổng hợp này lưu dữ các dữ liệu tính toán
được nhằm trả lời một cách nhanh nhất các câu hỏi của người dùng đưa ra. Đây là
dữ liệu có thể tính toán được từ các bảng khác tuy nhiên để tăng tốc độ xử lý dữ liệu
này được lưu trữ để không phải tính toán lại mỗi khi có truy vấn.
1.2. Khám phá tri thức và khai phá dữ liệu
1.2.1. Tổng quan về khai phá tri thức và khai phá dữ liệu
“Khám phá tri thức là quá trình tìm ra những tri thức, đó là những mẫu tìm ẩn,
trước đó chưa biết và là thông tin hữu ích đáng tin cậy”. Còn khai phá dữ liệu
(KPDL) là một bước quan trọng trong quá trình khám phá tri thức, sử dụng các
thuật toán KPDL chuyên dùng với một số qui định về hiệu quả tính toán chấp nhận
được để chiết xuất ra các mẫu hoặc các mô hình có ích trong dữ liệu. Nói một cách
khác, mục đích của khám phá tri thức và KPDL chính là tìm ra các mẫu hoặc mô
hình đang tồn tại trong các cơ sở dữ liệu (CSDL) nhưng vẫn còn bị che khuất bởi
hàng núi dữ liệu [12].
Khám phá tri thức từ CSDL là một quá trình sử dụng các phương pháp và công
cụ tin học, trong đó con người là trung tâm của quá trình. Do đó, con người cần phải
có kiến thức cơ bản về lĩnh vực cần khám phá để có thể chọn được tập con dữ liệu
9
tốt, từ đó phát hiện các mẫu phù hợp với mục tiêu đề ra. Đó chính là tri thức, được
rút ra từ CSDL, thường để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định
trong một lĩnh vực nhất định. Tuy vậy, quá trình khám phá tri thức mang tính chất
hướng nhiệm vụ vì không phải là mọi tri thức tìm được đều áp dụng vào thực tế
được.
Để có được những thông tin quý báu chúng ta phải tìm ra các mẫu có trong tập
CSDL trước. Việc đánh giá các mẫu được tìm thấy cũng là một điều thú vị và tất
nếu có tính chất quyết định đến sự sử dụng hay không sử dụng chúng. Đầu ra của
một chương trình là khám phá những mẫu có ích được gọi là tri thức. Tri thức được
khám phá có các đặc điểm chính:
- Kiến thức cao cấp: Ngày càng có nhiều câu hỏi mang tính chất định tính cần
phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Quá trình để tìm ra kiến
thức như vậy không phải từ những phương pháp thống kê cổ điển mà nó được đúc
kết từ các kinh nghiệm đã có, được thể hiện trong dữ liệu, những kết quả đó có thể lĩnh hội
được.
- Độ chính xác: Dù cho những mẫu khai phá thật sự có trong CSDL hay
không thì việc đo lường trị giá của chúng là bắt buộc phải có. Chúng ta sẽ chỉ sử
dụng những mẫu nào có độ chính xác càng cao thì hiệu quả công việc đạt được càng
lớn, những mẫu có độ chính xác chưa được xác định rõ ràng hoặc không cao thì
không nên sử dụng chúng.
- Tính hấp dẫn: Khám phá tri thức được coi là lý thú vì nó có thể vạch ra các
xu hướng một cách hoàn thiện. Đó là những điều mới lạ hay những quy trình tìm
năng, hữu ích ẩn chứa từ trong dữ liệu trước đó.
- Tính hiệu quả: thời gian chạy của thuật toán khám phá tri thức trên CSDL
lớn có thể dự tính và chấp nhận được.
Dữ liệu là tập hợp những bộ thông tin chính xác và quá trình khám phá tri thức
được xem là sự lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu chỉ để lại các đặc
trưng cơ bản cho dữ liệu. Tri thức được tìm thấy là các thông tin tích hợp, bao gồm
các sự kiện và các mối quan hệ trong chúng. Các mối quan hệ này có thể được hiểu
ra, có thể được phát hiện, hoặc có thể được học.
Nếu khám phá tri thức là toàn bộ quá trình chiết xuất tri thức từ các CSDL thì
KPDL là giai đoạn chủ yếu của quá trình đó. KPDL là một quá trình phát hiện các
mẫu mới, thường bao gồm việc thử tìm mô hình phù hợp với tập dữ liệu và tìm
kiếm các mẫu từ tập dữ liệu theo mô hình đó. Sử dụng các kỹ thuật và các khái niệm
của các lĩnh vực đã được nghiên cứu từ trước như: học máy, nhận dạng, thống kê,
hồi quy, xếp loại, phân nhóm, các mô hình đồ thị, các mạng Bayes, … Hầu hết các
CSDL đều chứa rất nhiều các mẫu mới và có ích, tuy nhiên mẫu có giá trị với mục
tiêu đặt ra phải là những mẫu không tầm thường. Để các mẫu trở nên không tầm
thường, hệ thống phải làm nhiều hơn là chỉ mò mẫm thống kê vì kết quả của việc
10
tính toán trực tiếp qua công tác thống kê là đã có đối với người dùng. Một hệ
thống tìm kiếm cần phải có khả năng quyết định cần thực hiện tính toán nào và kết
quả là có đáng quan tâm để tạo nên tri thức trong ngữ cảnh hiện tại hay không.
KPDL được sử dụng để tạo ra giả thuyết. Ví dụ như để xác định các yếu tố rủi ro
khi cho vay tín dụng, kỹ thuật KPDL phải phát hiện được những người có thu nhập
thấp và nợ nhiều là những người sẽ có mức rủi ro cao. Ngoài ra kỹ thuật cũng có thể
phát hiện ra những quy luật mà nhà phân tích có thể chưa tìm ra ví dụ như tỷ lệ giữa
thu nhập trên nợ và tuổi cũng là các yếu tố xác định mức rủi ro. Để làm được điều
này, KPDL sử dụng các thông tin trong quá khứ để học. Nó sẽ tìm kiếm các thông
tin này trong các CSDL và sử dụng chúng để tìm ra các mẫu đáng quan tâm.
Nếu xét về mặt ý tưởng và mục đích ứng dụng, KPDL là một nhu cầu tất yếu,
một sự nhạy cảm đáp lại sự mong mỏi của giới kinh doanh thì về mặt kỹ thuật, đó
thực sự là một khó khăn và là cả sự thách thức đối với những nhà khoa học. KPDL
được xây dựng dựa trên việc sử dụng các giải thuật mới, được định hướng theo như
cầu kinh doanh để có thể giải quyết tự động các bài toán kinh doanh bằng các kỹ
thuật dễ dùng và có thể hiểu được. Các kỹ thuật đang được nghiên cứu và sử dụng
hiện nay bao gồm cây quyết định (CART, CHAID, AID), mạng neuron, phương
pháp láng giềng gần nhất, các luật suy diễn, …
KPDL không thuộc một ngành công nghiệp nào. Nó sử dụng các kỹ thuật thông
minh để khai phá các tri thức tiềm ẩn trong dữ liệu. Có thể coi KPDL ngày nay
đang ở trạng thái giống như việc quản trị dữ liệu vào những năm 60, khi mà các ứng
dụng quản trị dữ liệu đều không tuân theo một nguyên tắc chung nào cho đến khi
mô hình dữ liệu quan hệ ra đời cùng với sức mạnh của ngôn ngữ vấn đáp đã thúc
đẩy việc phát triển các ứng dụng quản trị dữ liệu lên nhanh chóng. Tuy vậy, hiện
nay trên thế giới đã có rất nhiều ngành công nghiệp sử dụng kỹ thuật KPDL để phục
vụ cho hoạt động kinh doanh của mình và đã bước đầu thành công như ngành tài
chính, y học, hóa học, bảo hiểm, sản xuất, giao thông, hàng không, …
Các kết quả đạt được cho thấy mặc dù kỹ thuật KPDL hiện nay vẫn còn nhiều
vấn đề nổi cộm, nhưng với những tri thức mà chuyên gia con người cũng chưa
cung cấp được thì KPDL có một tiềm năng to lớn trong việc tạo ra những lợi nhuận
đáng kể trong nền kinh tế [1;12].
- Xem thêm -