BỘ GIÁO DỤC VÀO ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUỐC TẾ HỒNG BÀNG
NGUYỄN ĐẶNG THẾ VINH
ỨNG DỤNG KHAI PHÁ DỮ LIỆU
CHỌN NGÀNH NGHỀ CHO HỌC SINH THPT
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
TP. HỒ CHÍ MINH - 2014
BỘ GIÁO DỤC VÀO ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUỐC TẾ HỒNG BÀNG
NGUYỄN ĐẶNG THẾ VINH
ỨNG DỤNG KHAI PHÁ DỮ LIỆU
CHỌN NGÀNH NGHỀ CHO HỌC SINH THPT
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. VÕ ĐÌNH BẢY
TP. HỒ CHÍ MINH - NĂM 2014
CHUẨN Y CỦA HỘI ĐỒNG BẢO VỆ LUẬN VĂN
Luận văn tựa đề: “Ứng dụng khai phá dữ liệu chọn ngành nghề cho học sinh
THPT” công trình được “Nguyễn Đặng Thế Vinh” thực hiện và nộp nhằm thỏa
một phần yêu cầu tốt nghiệp thạc sĩ chuyên ngành Khoa Học Máy Tính.
Chủ tịch Hội đồng
Giảng viên hướng dẫn
………………………….
………………………….
TS. Bùi Văn Minh
TS. Võ Đình Bảy
(Trưởng ngành Khoa học máy tính,
(Giám đốc Trung tâm Tin học,
Trường ĐH Quốc tế Hồng Bàng)
Trường ĐH Tôn Đức Thắng)
Ngày… tháng … năm 2014
Ngày… tháng … năm 2014
Ngày bảo vệ luận văn, Tp.HCM, Ngày 11 tháng 5 năm 2014
Viện Đào Tạo Sau Đại Học
Trường Đại học Quốc tế Hồng Bàng
……………………..
i
LÝ LỊCH CÁ NHÂN
- Họ tên: Nguyễn Đặng Thế Vinh
- Ngày sinh: 15/10/1982
- Nơi sinh: Ninh Thuận
- Tốt nghiệp THPT tại trường Nguyễn Du, năm 2000
- Quá trình công tác:
Thời gian
Nơi công tác
Chức vụ
2003-2004
Công ty CP máy tính Scitec
P.Trưởng phòng kỹ thuật
2005-2009
Trường Cao đẳng GTVT 3
Quản lý giáo vụ và giảng dạy tại trung
tâm FCM
Trưởng Phòng Đào tạo, Phó Giám đốc
Trung tâm Tin học
Trường Cao đẳng Viễn
Phó Giám đốc Trung tâm Tin học,
Đông
2012-nay
Trường Cao đẳng Viễn
Đông
2010-2012
giảng viên khoa CNTT
- Địa chỉ liên lạc: 58 Tổ 8, Ấp 1 Liên ấp 1-2-3, Vĩnh Lộc A, Bình Chánh, TP.HCM
- Điện thoại: 098.901.2.901
- Email:
[email protected]
ii
LỜI CAM ĐOAN
Tôi cam đoan rằng luận văn này: “Ứng dụng khai phá dữ liệu chọn ngành nghề
cho học sinh THPT” là bài nghiên cứu của chính tôi.
Ngoại trừ những tài liệu tham khảo được trích dẫn trong luận văn này, tôi cam
đoan rằng toàn phần hay những phần nhỏ của luận văn này chưa từng được công bố
hay được sử dụng để nhận bằng cấp ở những nơi khác.
Không có sản phẩm/ nghiên cứu nào của người khác được sử dụng trong luận văn
này mà không được trích dẫn theo đúng quy định.
TP.HCM, ngày 10 tháng 04 năm 2014
Tác giả luận văn
(Chữ ký)
Nguyễn Đặng Thế Vinh
iii
LỜI CẢM ƠN
Lời đầu tôi xin chân thành cảm ơn TS. Võ Đình Bảy đã tận tình hướng dẫn, chỉ
bảo tôi trong suốt thời gian thực hiện luận văn.
Tôi xin bày tỏ lòng biết ơn đến các thầy cô trong Viện Đào tạo Sau Đại học
trường Đại học Quốc tế Hồng Bàng đã cung cấp những kiến thức quý báu cho tôi
trong suốt quá trình học tập và nghiên cứu tại trường.
Tôi cũng xin gởi lời cảm ơn đến gia đình, bạn bè và những người thân luôn quan
tâm và giúp đỡ tôi trong suốt thời gian học tập và làm luận văn.
Do thời gian và kiến thức có hạn nên luận văn chắc không tránh khỏi những
thiếu sót nhất định. Tôi rất mong nhận được sự góp ý quý báu của thầy cô.
iv
TÓM TẮT
Phân lớp dữ liệu là một trong những hướng nghiên cứu chính của KPDL. Công
nghệ này có nhiều ứng dụng trong lĩnh vực thương mại, ngân hàng, y tế, giáo dục, …
Trong các mô hình phân lớp đã được đề xuất, cây quyết định được coi là một
công cụ mạnh, phổ biến và đặc biệt thích hợp với các ứng dụng KPDL.
Qua tìm hiểu những chức năng của KPDL, luận văn tập trung vào nghiên cứu
các kỹ thuật phân lớp bằng cây quyết định. Hiểu được các thuật toán hiệu quả gần
đây, từ đó nắm được những điểm chính cần quan tâm giải quyết trong mỗi kỹ thuật
khai phá tri thức trên CSDL khảo sát lựa chọn ngành học.
Trong số các thuật toán thường dùng cho bài toán phân lớp, thuật toán C4.5 có
độ chính xác khá cao, chạy nhanh và dễ hiểu đối với người dùng, nhưng nếu tập dữ
liệu có nhiều thuộc tính thì cây quyết định thu được cũng sẽ khó hiểu; thuật toán
Naïve Bayes thiếu chính xác đối với các thuộc tính phụ thuộc lẫn nhau và khó hiểu.
Khi áp dụng kết hợp các biện pháp tiền xử lý lấy mẫu dư đối với lớp thiểu số và lấy
mẫu thiếu đối với lớp đa số, kết quả phân lớp sẽ tốt hơn, nhưng việc tiền xử lý này
đòi hỏi phải có kiến thức sâu, không phù hợp với người dùng không chuyên; thuật
toán Neural Network có độ chính xác cao nhưng mô hình khó hiểu đối với người
dùng và thời gian chạy thường lớn.
Luận văn sử dụng thuật toán ID3, cho ra mô hình phân lớp là một tập luật dưới
dạng cây rất đơn giản và dễ hiểu, có độ chính xác khá cao và thời gian chạy chấp
nhận được. Thuật toán được xây dựng trên nền website, thuận tiện cho người sử dụng
ở bất cứ nơi đâu có kết nối internet.
v
ABSTRACT
Classification is one of the main research directions of data mining. This
technology has many applications in the fields of commerce, banking, health,
education, etc.
In the classification model has been proposed, decision trees are considered
powerful tool, common and suitable particularly for data mining applications.
By studying the basic functions of data mining, thesis focused on the research
techniques by decision tree classifier. Understand the recent efficient algorithms,
which understand the main points of interest in each technique solving exploration
database knowledge on the education.
Among the mostly used algorithms for the classification task, C4.5 can provide
decision trees which be easy to interpret, yet their interpretability may diminish the
more they become complex; Naïve Bayes networks are both inaccuracy for
interdependence attributes and difficult to understand. When we combine
oversampling the rare classes and undersampling the majority ones, classification
performance will be better, but this preprocessing technique requires thorough
knowledge, not suitable to non-professional users; Neural Networks have high
classification accuracy but cannot produce easy to understand classification models
for users and its running time is usually long.
This thesis using ID3 algorithm whose resulting classification models are set of
classification rules in the form of trees which are very simple and easy to understand,
with pretty high accuracy and acceptable run time. The algorithm is built on the web,
convenient for user in anywhere with an internet connection.
vi
MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... ii
LỜI CẢM ƠN ........................................................................................................... iii
TÓM TẮT ................................................................................................................. iv
ABSTRACT ................................................................................................................v
MỤC LỤC ................................................................................................................. vi
DANH MỤC HÌNH VẼ ............................................................................................ ix
DANH MỤC BẢNG ...................................................................................................x
DANH MỤC TỪ VIẾT TẮT .................................................................................... xi
CHƯƠNG 1: TỔNG QUAN .......................................................................................1
1.1. Lý do chọn luận văn ......................................................................................1
1.2. Mục tiêu nghiên cứu ......................................................................................2
1.3. Đối tượng và phạm vi nghiên cứu .................................................................2
1.3.1.
Đối tượng nghiên cứu ..........................................................................2
1.3.2.
Phạm vi nghiên cứu .............................................................................2
1.4. Nhiệm vụ nghiên cứu ....................................................................................3
1.5. Phương pháp nghiên cứu ...............................................................................3
1.6. Ý nghĩa của luận văn .....................................................................................3
1.6.1.
Ý nghĩa khoa học .................................................................................3
1.6.2.
Ý nghĩa thực tiễn .................................................................................3
1.7. Cấu trúc luận văn ...........................................................................................4
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ...........................................................................5
2.1. Tổng quan về khai phá dữ liệu ......................................................................5
2.1.1.
Khai phá dữ liệu là gì?.........................................................................5
2.1.2.
Quá trình KPDL ..................................................................................5
vii
2.2. Phân lớp trong KPDL ....................................................................................7
2.2.1.
Phân lớp dữ liệu ...................................................................................7
2.2.2.
Phân lớp dữ liệu bằng cây quyết định .................................................9
2.2.3.
Phân lớp dữ liệu bằng giải thuật học ILA .........................................10
2.2.4.
Phân lớp dữ liệu bằng mạng Naïve Bayes.........................................11
2.2.5.
Phân lớp dữ liệu bằng Neural Network .............................................12
2.3. KPDL sử dụng luật kết hợp .........................................................................13
2.4. Kỹ thuật KPDL sử dụng cây quyết định .....................................................15
2.4.1.
Giới thiệu kỹ thuật KPDL sử dụng cây quyết định ...........................15
2.4.2.
Các vấn đề trong KPDL sử dụng cây quyết định ..............................15
2.4.3.
Xây dựng cây quyết định ...................................................................19
2.4.4.
Thuật toán sử dụng xây dựng cây quyết định ...................................20
2.4.5.
Cắt tỉa cây quyết định ........................................................................26
2.4.6.
Đánh giá độ chính xác của mô hình phân lớp ...................................28
2.4.7.
Các công trình nghiên cứu trước đây liên quan đến luận văn ...........29
CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG ................................................................30
3.1.
Giới thiệu bài toán ...........................................................................................30
3.2.
Mô hình cấu trúc hệ thống ..............................................................................30
3.2.1. Mô tả đầu vào/ đầu ra ......................................................................................30
3.2.2. Phương pháp xây dựng hệ thống.....................................................................31
3.3.
Phân tích và thiết kế hệ thống .........................................................................31
3.3.1.
Thiết kế CSDL .............................................................................................31
3.3.2.
Xử lý và huấn luyện dữ liệu ........................................................................40
3.3.3.
Xây dựng và thiết kế giao diện của chương trình ........................................41
CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ .....................................................50
4.1.
Dữ liệu thực nghiệm .......................................................................................50
viii
4.2.
Môi trường thực nghiệm .................................................................................51
4.3.
Đánh giá độ chính xác của cây quyết định .....................................................51
4.4.
Phân tích, so sánh kết quả và nhận xét............................................................52
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..........................................57
5.1.
Kết quả đạt được từ nghiên cứu ......................................................................57
5.2.
Đóng góp luận văn ..........................................................................................57
5.3.
Hạn chế ...........................................................................................................57
5.4.
Hướng phát triển luận văn...............................................................................58
KẾ HOẠCH NGHIÊN CỨU ....................................................................................59
TÀI LIỆU THAM KHẢO .........................................................................................60
PHỤ LỤC ..................................................................................................................63
A.
Bộ công cụ trắc nghiệm định hướng nghề nghiệp của John Holland ...............63
B.
Thông tin về ngành học, trường đào tạo, bậc học, khối thi, điểm chuẩn. .........64
ix
DANH MỤC HÌNH VẼ
Hình 2.1: Quá trình KPDL [6] ....................................................................................5
Hình 2.2 (a): Bước học/ huấn luyện trong quá trình phân lớp hai bước [7] ...............7
Hình 2.2 (b): Bước phân lớp trong quá trình phân lớp hai bước [7] ...........................7
Hình 2.3: Một ví dụ về cây quyết định [7] ................................................................10
Hình 2.4: Mô hình ứng dụng luật ..............................................................................14
Hình 2.5: k-fold cross –validation [3] .......................................................................28
Hình 3.1: Mô hình cấu trúc hệ thống tư vấn chọn ngành học ...................................30
Hình 3.2: Giao diện chương trình .............................................................................41
Hình 3.3: Giao diện Phiếu đăng ký tài khoản sử dụng .............................................41
Hình 3.4: Giao diện Phiếu khảo sát thông tin về sở thích, tích cách ........................44
Hình 3.5: Giao diện kết quả thực hiện tính tổng điểm từng nhóm sở thích ..............45
Hình 3.6: Giao diện kết quả thực hiện tính tổng điểm từng nhóm sở thích (thông tin
đăng ký ban đầu khác với kết quả thực hiện khảo sát) .............................................46
Hình 3.7: Giao diện kết quả ngành học của 2 nhóm có điểm số cao nhất ................47
Hình 3.8: Giao diện kết quả tư vấn chọn ngành học của chương trình .....................48
Hình 3.9: Kết quả trường ĐH, CĐ có đào tạo ngành học được tư vấn .....................49
Hình 4.1: Bảng phân chia dữ liệu test 10-fold cross – validation .............................51
Hình 4.2: Chương trình mô phỏng chọn ngành, trường của ĐHQG Tp.HCM .........53
Hình 4.3: Kết quả tư vấn chọn ngành của luận văn ..................................................54
x
DANH MỤC BẢNG
Bảng 3.1: Bảng thông tin các trường ĐH, CĐ ..........................................................31
Bảng 3.2: Bảng lưu các ngành học của các trường ĐH, CĐ ....................................32
Bảng 3.3: Bảng lưu điểm trung bình .........................................................................32
Bảng 3.4: Bảng lưu 6 nhóm sở thích .........................................................................33
Bảng 3.5: Bảng Mã ngành thuộc nhóm ngành ..........................................................33
Bảng 3.6: Bảng lưu kết quả khảo sát sinh viên .........................................................33
Bảng 3.7: Bảng khối thi ............................................................................................34
Bảng 3.8: Bảng Ngành học .......................................................................................34
Bảng 3.9: Bảng Nhóm ngành ....................................................................................34
Bảng 3.10: Bảng chứa thông tin tỉnh ........................................................................35
Bảng 3.11: Bảng câu hỏi trắc nghiệm .......................................................................35
Bảng 3.12: Bảng thông tin khảo sát về chọn ngành học của sinh viên .....................36
Bảng 3.13: Bảng chi tiết thông tin khảo sát về chọn ngành học của sinh viên .........37
Bảng 3.14: Bảng thông tin phiếu khảo sát ................................................................38
Bảng 3.15: Bảng thông tin trường THPT ..................................................................39
Bảng 4.1: Số liệu thực hiện khảo sát sinh viên .........................................................50
Bảng 4.2: Số liệu chi tiết từng ngành ........................................................................51
Bảng 4.3: Kết quả đánh giá 10-fold cross - validation..............................................52
Bảng 4.4: Kết quả chọn ngành, trường của ĐHQG Tp.HCM...................................54
Bảng 4.5: Thời gian thực hiện tư vấn chọn ngành ....................................................54
Bảng 4.6: Bảng so sánh kết quả ................................................................................55
xi
DANH MỤC TỪ VIẾT TẮT
KPDL
Khai phá dữ liệu
THPT
Trung học phổ thông
NB
Naïve Bayes
NN
Neural Network
CLS
Concept Learning System
CSDL
Cơ sở dữ liệu
ĐH
Đại học
CĐ
Cao đẳng
TCCN
Trung cấp chuyên nghiệp
ĐTB
Điểm trung bình
HSSV
Học sinh sinh viên
SV
Sinh viên
QĐ
Quyết định
1
CHƯƠNG 1: TỔNG QUAN
1.1. Lý do chọn luận văn
Mặc dù chưa có số liệu thống kê cụ thể, nhưng có thể thấy rằng hầu hết học sinh
sau khi hoàn tất chương trình lớp 12 đều tiếp tục lựa chọn cho mình những trường
ĐH, CĐ, TCCN. Thông qua việc chọn trường, chọn ngành nghề sẽ giúp các em có
được kiến thức, bằng cấp, kỹ năng làm việc để đáp ứng nhu cầu lao động của xã hội
sau khi các em tốt nghiệp. Việc chọn đúng ngành nghề giúp các em định hướng đi
phù hợp với khả năng của bản thân mình và tránh khỏi những lựa chọn vội vàng để
rồi phải bỏ lỡ rất nhiều cơ hội mà đáng ra nếu chọn và định hướng sớm và đúng các
em sẽ thành công. Do rất nhiều yếu tố khách quan, chủ quan khác và đa phần các em
ở các tỉnh thành, việc tiếp cận các thông tin về chọn ngành nghề cũng hạn chế và
thiếu thông tin để lựa chọn và định hướng cho mình.
Việc chọn đúng ngành học trong bối cảnh kinh tế, xã hội hiện nay nhằm tránh
việc có nhiều cá nhân lựa chọn sai nghề sẽ dẫn tới giảm sút chất lượng đào tạo, gây
lãng phí cho công tác đào tạo và đào tạo lại. Chất lượng nguồn nhân lực sau đào tạo
không đảm bảo dẫn tới năng suất lao động không cao, nảy sinh nhiều xáo trộn cho
hoạt động của các tổ chức, doanh nghiệp bởi các hiện tượng như: bỏ nghề, chuyển
nghề, … Các doanh nghiệp mất thêm chi phí đào tạo và đào tạo lại cho đội ngũ của
mình.
Học tập là một quá trình dài và khó khăn, đòi hỏi sinh viên phải đầu tư nhiều
công sức, tiền bạc của cá nhân cũng như gia đình, nếu thất bại trong việc chọn ngành
nghề sẽ dẫn đến những tổn thất lớn về cả tinh thần lẫn vật chất cho sinh viên và gia
đình họ. Việc định hướng chọn đúng ngành nghề sẽ giúp các em tránh khỏi những
vấn đề trên.
Vì vậy, công tác hướng nghiệp chọn ngành nghề cho học sinh THPT là điều hết
sức cần thiết.
Trước những thực tế đó, tôi chọn luận văn “Ứng dụng khai phá dữ liệu chọn
ngành nghề cho học sinh THPT”. Luận văn thực hiện việc KPDL từ việc khảo sát
chọn ngành học của sinh viên các trường ĐH, CĐ để dự đoán ngành học cho học sinh
THPT. Dựa vào kết quả dự đoán đó sẽ giúp học sinh lựa chọn cho mình một ngành
học phù hợp với điều kiện và năng lực của bản thân để đạt được kết quả tốt nhất.
2
1.2. Mục tiêu nghiên cứu
- Tìm hiểu các kỹ thuật KPDL, ứng dụng các kỹ thuật KPDL trong phân tích
số liệu, xây dựng các tập luật chọn ngành học dựa vào kết quả khảo sát thực
tế sinh viên.
- Xây dựng ứng dụng hỗ trợ học sinh các trường THPT trên địa bàn tỉnh Ninh
Thuận có những lựa chọn về ngành học phù hợp với bản thân và hỗ trợ các
cán bộ chuyên trách tuyển sinh của các trường THPT trên địa bàn tỉnh Ninh
Thuận nhận định và đề ra những biện pháp phù hợp nhằm tư vấn thêm cho
các em trong việc xác định nghề nghiệp cho bản thân.
1.3. Đối tượng và phạm vi nghiên cứu
1.3.1. Đối tượng nghiên cứu
- Các kỹ thuật KPDL.
- Dữ liệu khảo sát kết quả chọn ngành học.
- Hệ thống tư vấn.
1.3.2. Phạm vi nghiên cứu
- Các phương pháp phân lớp. Ứng dụng các hệ hỗ trợ quyết định vào bài toán.
- Dữ liệu khảo sát thực tế việc chọn ngành học của sinh viên thông qua bảng
câu hỏi trắc nghiệm chọn ngành nghề của Tiến sỹ Tâm lý học John Holland,
nhằm phát hiện ra các đặc điểm chung của HSSV trong việc lựa chọn ngành
nghề học tập tại một số trường Đại học và cao đẳng tại TP.HCM tập trung
vào 11 ngành học như: Quản trị kinh doanh, Ngôn ngữ Anh, Sư phạm Toán
học, Giáo dục tiểu học, Công nghệ kỹ thuật công trình xây dựng, Quản lý
công nghiệp, Việt Nam học, Công nghệ thông tin, Kế toán, Tài chính Ngân
hàng, Khoa học thư viện.
- Xây dựng ứng dụng dự đoán ngành học để hỗ trợ tư vấn chọn ngành học
cho học sinh các trường THPT tại tỉnh Ninh Thuận.
3
1.4. Nhiệm vụ nghiên cứu
- Nghiên cứu lý thuyết về KPDL, cụ thể là các kỹ thuật phân lớp và cây quyết
định.
- Xác định bài toán cụ thể là xây dựng công cụ lựa chọn ngành học và chuẩn
bị nguồn dữ liệu để xây dựng chương trình.
- Xây dựng mô hình dự đoán ngành học của sinh viên theo các kỹ thuật khác
nhau như cây quyết định, luật kết hợp và kiểm tra các mô hình.
- Xây dựng chương trình ứng dụng mô hình được lựa chọn để dự đoán ngành
học của học sinh dựa vào các thông tin đầu vào, từ đó thực hiện tư vấn chọn
ngành học cho học sinh nhằm đạt được kết quả tốt nhất.
1.5. Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý thuyết: Tìm hiểu và lựa chọn phương pháp KPDL
thích hợp.
- Phương pháp nghiên cứu thu thập thông tin, phân tích số liệu: Thu thập thống
kê số liệu từ phiếu khảo sát sinh viên (trực tiếp, paper, website), phân tích
nghiên cứu các tài liệu, ứng dụng và tham khảo ý kiến của các chuyên gia
liên quan đến công tác hướng nghiệp cho học sinh để có được các kinh
nghiệm từ thực tiễn.
- Phương pháp nghiên cứu thực nghiệm: Phân tích thiết kế hệ thống, triển khai
xây dựng ứng dụng.
1.6. Ý nghĩa của luận văn
1.6.1. Ý nghĩa khoa học
Áp dụng các thuật toán KPDL trên dữ liệu khảo sát lựa chọn ngành học. (Dữ
liệu được thu thập từ các trường ĐH, CĐ tại TP.HCM).
1.6.2. Ý nghĩa thực tiễn
Luận văn ứng dụng KPDL chọn ngành nghề cho học sinh THPT đóng góp như
là một công cụ hỗ trợ để học sinh chọn đúng ngành học. Kết quả, kinh nghiệm
thu được khi thực hiện luận văn này sẽ giúp các tổ chức giáo dục, những cá
nhân làm công tác giáo dục (ở Việt Nam) phân luồng lại hệ thống các trường
4
ĐH, CĐ, TCCN, giao chỉ tiêu đào tạo cho các trường, nhằm tránh việc lãng phí
trong đào tạo.
1.7. Cấu trúc luận văn
Chương 1: Tổng quan
Chương 2: Cơ sở lý thuyết
Chương 3: Xây dựng ứng dụng
Chương 4: Thực nghiệm và đánh giá
Chương 5: Kết luận và hướng phát triển
5
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1. Tổng quan về khai phá dữ liệu
2.1.1. Khai phá dữ liệu là gì?
Khai phá dữ liệu là một khái niệm ra đời vào cuối những năm 1980. Nó là quá
trình khám phá thông tin ẩn được tìm thấy trong các CSDL và có thể xem như là một
bước trong quá trình khám phá tri thức. KPDL là giai đoạn quan trọng nhất trong tiến
trình khai phá tri thức từ CSDL, các tri thức này hỗ trợ trong việc ra quyết định trong
các lĩnh vực như: khoa học, giáo dục [8] [15], kinh doanh, …
Năm 1989 Fayyad, Smyth và Piatestsky-Shapiro đã dùng khái niệm Phát hiện
tri thức từ CSDL (Knowledge Discovery in Database - KDD) trong đó KPDL là một
giai đoạn rất đặc biệt trong toàn bộ quá trình, nó sử dụng các kỹ thuật để tìm ra các
mẫu từ dữ liệu.
KPDL là quá trình phát hiện các mô hình, các tổng kết khác nhau và các giá trị
được lấy từ tập dữ liệu cho trước [11]. Hay, KPDL là sự thăm dò và phân tích lượng
dữ liệu lớn để khám phá từ dữ liệu ra các mẫu hợp lệ, mới lạ, có ích và có thể hiểu
được [23].
2.1.2. Quá trình KPDL
Quá trình KPDL sẽ tiến hành qua 6 giai đoạn [6], [7]
Đánh giá luật
Khai phá dữ liệu
Chuyển đổi dữ liệu
Tiền xử lý và chuẩn
bị dữ liệu
Tri thức
Trích lọc dữ liệu
Mô hình
Dữ liệu
Dữ liệu đích
Dữ liệu đã
xử lý
Dữ liệu đã
chuyển đổi
Hình 2.1: Quá trình KPDL [6]
6
Bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất
ra. Về lý thuyết thì có vẽ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn
gặp phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộ
quá trình, …
2.1.2.1. Tập hợp dữ liệu (Data)
Đây là giai đoạn đầu tiên trong quá trình KPDL. Giai đoạn này lấy dữ liệu trong
một CSDL, một kho dữ liệu và dữ liệu từ các nguồn Internet.
2.1.2.2. Trích lọc dữ liệu (Selection)
Giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào
đó.
2.1.2.3. Tiền xử lý và chuẩn bị dữ liệu (Preprocessing)
Giai đoạn này rất quan trọng trong quá trình KPDL. Một số lỗi thường mắc phải
trong khi thu thập dữ liệu như thiếu thông tin, không logic... Vì vậy, dữ liệu thường
chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu.
Giai đoạn này tiến hành xử lý những dạng dữ liệu nói trên. Những dữ liệu dạng
này được xem như thông tin dư thừa, không có giá trị. Vì vậy, đây là một giai đoạn
rất quan trọng vì dữ liệu này nếu không được làm sạch - tiền xử lý - chuẩn bị trước
thì sẽ gây nên những kết quả sai lệch nghiêm trọng trong KPDL.
2.1.2.4. Chuyển đổi dữ liệu (Transformation)
Giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được
bởi việc tổ chức lại nó. Dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác.
2.1.2.5. Khai phá dữ liệu (Data Mining)
Giai đoạn mang tính tư duy trong KPDL. Ở giai đoạn này nhiều thuật toán khác
nhau đã được sử dụng để xuất ra các mẫu từ dữ liệu. Thuật toán thường dùng là thuật
toán phân loại dữ liệu, kết hợp dữ liệu hoặc các mô hình hóa dữ liệu tuần tự.
Đây là giai đoạn được nhiều người nghiên cứu nhất.
2.1.2.6. Đánh giá kết quả mẫu (Interpretation/ Evaluation)
Giai đoạn cuối trong quá trình KPDL. Trong giai đoạn này, các mẫu dữ liệu
được chiết xuất ra bởi phần mềm KPDL. Không phải bất cứ mẫu dữ liệu nào cũng