MỤC LỤC
MỞ ĐẦU .................................................................................................................................................. 1
1. Lý do chọn đề tài. ................................................................................................................................ 1
2. Mục đích và ý nghĩa của đề tài ............................................................................................................. 3
2.1. Mục đích ...................................................................................................................................... 3
2.2. Ý nghĩa khoa học ......................................................................................................................... 3
2.3. Ý nghĩa thực tiễn .......................................................................................................................... 3
3. Mục tiêu và nhiệm vụ đề tài ................................................................................................................. 3
3.1. Mục tiêu ....................................................................................................................................... 3
3.2. Nhiệm vụ ...................................................................................................................................... 3
4. Đối tượng, phạm vi nghiên cứu............................................................................................................ 4
4.1. Đối tượng nghiên cứu .................................................................................................................. 4
4.2. Phạm vi nghiên cứu...................................................................................................................... 4
5. Phương pháp nghiên cứu ...................................................................................................................... 4
5.1. Phương pháp lý thuyết ................................................................................................................. 4
5.2. Phương pháp thực nghiệm ........................................................................................................... 4
6. Cấu trúc luận văn ................................................................................................................................. 5
Chương 1 - KHAI PHÁ DỮ LIỆU VÀ NHỮNG VẤN ĐỀ LIÊN QUAN.............................................. 6
1.1. Tổng quan về khai phá dữ liệu .......................................................................................................... 6
1.1.1. Khai phá dữ liệu là gì? .............................................................................................................. 6
1.1.2. Phát hiện tri thức trong cơ sở dữ liệu ........................................................................................ 6
1.1.3. Quá trình khai phá tri thức trong cơ sở dữ liệu ......................................................................... 8
1.2. Một số phương pháp và kỹ thuật khai phá dữ liệu .......................................................................... 10
1.2.1. Các kỹ thuật khai phá dữ liệu .................................................................................................. 10
1.2.2. Các phương pháp khai phá dữ liệu .......................................................................................... 11
1.3. Ứng dụng của khai phá dữ liệu ....................................................................................................... 13
1.3.1. Ứng dụng trong bài toán phân tích, dự báo, tư vấn: ................................................................ 13
1.3.2 Ứng dụng trong các bài toán khác............................................................................................ 13
Chương 2 - NGHIÊN CỨU VỀ GIÁO DỤC HƯỚNG NGHIỆP TRONG TRƯỜNG THCS VÀ MẠNG
NƠRON NHÂN TẠO ............................................................................................................................ 15
2.1. Giáo dục hướng nghiệp trong trường thcs....................................................................................... 15
2.1.1. Tổng quan về hướng nghiệp và giáo dục hướng nghiệp ......................................................... 15
2.1.2. Hoạt động giáo dục hướng nghiệp cho học sinh THCS .......................................................... 16
2.1.3. Các con đường giáo dục hướng nghiệp cho học sinh THCS .................................................. 18
2.2. Thực trạng công tác giáo dục hướng nghiệp cho học sinh THCS huyện Bố Trạch ........................ 20
2.2.1. Đặc điểm kinh tế xã hội của địa phương ................................................................................. 20
2.2.2. Thực trạng giáo dục hướng nghiệp trên địa bàn Huyện Bố trạch ........................................... 22
2.2.3. Nghiên cứu thực trạng ............................................................................................................. 23
2.2.4. Kết quả khảo sát ...................................................................................................................... 24
2.3. Mạng nơron nhân tạo ...................................................................................................................... 24
2.3.1. Giới thiệu về mạng nơron nhân tạo ......................................................................................... 24
2.3.2. Một số tính chất và đặc trưng cơ bản của mạng nơron nhân tạo ............................................. 25
2.3.3. Tổ chức của mạng nơron nhân tạo .......................................................................................... 25
2.3.4. Cấu trúc của mạng nơron nhân tạo.......................................................................................... 26
2.3.5. Phương thức hoạt động của mạng nơron và quá trình huấn luyện mạng ................................ 29
2.3.6. Mạng truyền thẳng và một số vấn đề liên quan....................................................................... 31
Chương 3 - XÂY DỰNG ỨNG DỤNG TƯ VẤN GIÁO DỤC HƯỚNG NGHIỆP CHO HỌC SINH
THCS HUYỆN BỐ TRẠCH.................................................................................................................. 35
3.1. Bài toán và mô hình cho bài toán .................................................................................................... 35
3.1.1. Mô tả bài toán ......................................................................................................................... 35
3.1.2. Mô hình tổng quát của bài toán ............................................................................................... 37
3.2. Kỹ thuật xử lý bài toán .................................................................................................................... 38
3.2.1. Lựa chọn kỹ thuật.................................................................................................................... 38
3.2.2. Luyện học sử dụng mạng nơron nhân tạo ............................................................................... 40
3.2.3. Áp dụng kỹ thuật ANN để xử lý bài toán ............................................................................... 41
3.2.4. Thuật toán tư vấn hướng nghiệp cho bài toán ......................................................................... 42
3.3. Mô tả dữ liệu ................................................................................................................................... 43
3.3.1. Dữ liệu huấn luyện .................................................................................................................. 43
3.3.1. Dữ liệu kiểm thử ..................................................................................................................... 45
3.4. Phân tích thiết kế hệ thống .............................................................................................................. 45
3.4.1. Tác nhân .................................................................................................................................. 45
3.4.2. Danh sách ca sử dụng .............................................................................................................. 45
3.4.3. Biểu đồ ca sử dụng .................................................................................................................. 46
3.4.4. Lớp và quan hệ giữa các lớp ................................................................................................... 47
3.4.5. Biểu đồ trạng thái .................................................................................................................... 49
3.5. Kết quả thực nghiệm ....................................................................................................................... 50
3.5.1. Công cụ và môi trường thực nghiệm....................................................................................... 50
3.5.2. Một số kết quả ......................................................................................................................... 51
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .............................................................................................. 56
1. Kết luận .............................................................................................................................................. 56
2. Hướng phát triển ................................................................................................................................ 57
TÀI LIỆU THAM KHẢO ...................................................................................................................... 58
TÓM TẮT
ỨNG DỤNG MẠNG NƠRON NHÂN TẠO ĐỂ TƯ VẤN GIÁO DỤC
HƯỚNG NGHIỆP CHO HỌC SINH THCS HUYỆN BỐ TRẠCH
Học viên: Nguyễn Cao Đức
Chuyên ngành: Khoa học máy tính
Mã số: 8480101.
Khóa 35. Trường Đại học Bách khoa - ĐHĐN
Tóm tắt - Quyết định lựa chọn một hướng đi cho tương lai sau khi kết thúc khóa
học Trung học cơ sở là một việc làm rất khó khăn mà đòi hỏi học sinh phải nắm bắt
được nhiều vấn đề và có sự quan tâm của gia đình cũng như nhà trường, nếu chọn
sai sẽ dẫn đến những tổn thất lớn về vật chất và tinh thần cho học sinh và gia đình
ảnh hưởng đến cân đối lao đông của đất nước. Các con đường giáo dục hướng
nghiệp phổ biến hiện nay vẫn mang tính lý thuyết, chưa giúp được các em lựa chọn
nghề nghiệp và hướng đi của mình trong tương lai.
Trong nghiên cứu này chúng tôi xây dựng hệ tư vấn giáo dục hướng nghiệp bằng
kỹ thuật mạng nơron nhân tạo để tư vấn giáo dục hướng nghiệp cho học sinh trên
địa bàn và coi đó như là một con đường giáo dục hướng nghiệp mới. Việc nghiên
cứu để tạo ra hệ tư vấn sẽ trợ giúp cho các em học sinh, giải quyết những khó khăn
và thắc mắc của các em trong việc lựa chọn nghề nghiệp trong tương lai.
Từ khóa - Mạng nơron nhân tạo, giáo dục hướng nghiệp, hệ tư vấn, khai phá dữ
liệu, học máy.
APPLICATION OF NEURAL NETWORK TO CONSULT
PROFESSIONAL EDUCATION FOR SECONDARY SCHOOL
STUDENTS OF BO TRACH DISTRICT
Abstract - To choose a direction for the future after the end of the secondary
school is a very difficult decision that requires students to grasp many issues and
their families and schools get involved. If students choose a wrong direction for
their future, this will lead to significant physical and mental losses for them and
their families and affect the country's labor balance. The popular vocational
education ways are still theoretical, which have not helped them to choose their
right career and future direction.
In this article, we build a vocational education system by using artificial neural
network techniques to consult vocational education for students in the area and
consider it as a new vocational education way. The research to create a consulting
system will help students to solve their difficulties and questions in their future
career choices.
Keywords - Artificial neural network, vocational education, consulting system,
data mining, Machine Learning.
DANH MỤC CÁC CỤM TỪ VIẾT TẮT
Từ viết tắt
THCS
THPT
KDD
ANN
MLP
GDHN
HS
THCN
Ý nghĩa
Trung học cơ sở
Trung học phổ thông
Knowledge Discovery in Database
Artificial Neural Network
Multilayer Perceptrons Networks
Giáo dục hướng nghiệp
Học sinh
Trung học chuyên nghiệp
Ghi chú
DANH MỤC BẢNG BIỂU, HÌNH VẼ
Số hiệu
Hình 1.1
Hình 2.1
Hình 2.2
Hình 2.3
Hình 3.1.
Hình 3.2.
Hình 3.3
Hình 3.4
Hình 3.5.
Hình 3.6.
Hình 3.7
Hình 3.8.
Hình 3.9
Hình 3.10
Hình 3.11
Hình 3.12
Hình 3.13
Hình 3.14
Hình 3.15
Hình 3.16
Bảng 3.1
Bảng 3.2.
Bảng 3.3
Bảng 3.4
Tên hình vẻ
Khai phá dữ liệu là một bước trong quá trình khai
phá tri thức
Mô hình mạng nơron nhân tạo đơn giản.
Mạng nơron truyền thẳng nhiều lớp
Mạng nơron hồi quy
Mô hình bài toán tư vấn hướng nghiệp cho học sinh
Nơron của mạng nơron nhân tạo
Sơ đồ thuật toán quá trình luyện học của ANN
Cấu trúc mạng nơron
Sơ đồ thuật toán phân lớp cho bài toán tư vấn hướng
nghiệp
Biểu đồ ca sử dụng
Quan hệ 2 lớp Training và WTraining
Các lớp Weighting và Account
Biểu đồ học sinh nhận tư vấn
Biểu đồ trạng thái Quản trị viên Training hệ thống
Màn hình chính
Màn hình đăng nhập
Màn hình dữ liệu huấn luyện
Các tiêu chí giá trị tương ứng tại Bảng 3.1
Màn hình huấn luyện hệ thống
Màn hình tư vấn hướng nghiệp cho học sinh
Những yếu tố ảnh hưởng đến việc lựa chọn nghề
nghiệp của học sinh
Trọng số của tiêu chí sử dụng trong phần mềm
Mô tả trường dữ liệu các lớp Training, Wtraining
Kết quả huấn luyện của bài toán
Trang
8
26
28
29
37
39
40
42
43
46
48
48
49
50
51
51
52
52
53
54
36
44
47
54
1
MỞ ĐẦU
1. Lý do chọn đề tài.
Khai phá dữ liệu là lĩnh vực rất phát triển trong những năm gần đây, thu hút sự
quan tâm của nhiều tổ chức trong nước và thế giới và được ứng dụng trong nhiều lĩnh
vực khác nhau. Ngày nay với sự bùng nổ của nền công nghiệp 4.0 và công nghệ thông
tin thì những tác động của nó đã ảnh hưởng đến mọi mặt trong đời sống xã hội từ văn
hóa, giáo dục cho đến công nghệ và các lĩnh vực khác. Công nghệ thông tin ngày càng
phát triển kéo theo các hệ thống thông tin ngày càng mở rộng để lưu trữ một lượng lớn
các dữ liệu liên quan, cùng với việc lưu trữ dữ liệu trực tuyến với dung lượng rất lớn đã
tạo ra những kho dữ liệu khổng lồ mà qua đó con người có thể khai phá các thông tin và
tri thức phục vụ cho công việc, đời sống hàng ngày. Mục đích của khai phá dữ liệu là
tìm ra mô hình phân loại hữu ích trong các dữ liệu phục vụ cho mục đích dự đoán, mô
tả, phân loại, phân nhóm, rút trích và khai thác thông tin trong các lĩnh vực khác nhau
trong đời sống xã hội. Sự ra đời và phát triển của nó đã đáp ứng và giải quyết được nhiều
vấn đề ứng dụng trong đời sống xã hội và mang lại hiệu quả cao. Kỹ thuật khai phá dữ
liệu có nhiều ưu việt, quá trình lấy ra được những dữ liệu hữu ích được gọi quá trình
khai phá tri thức, những dữ liệu đó là các tri thức học được. Ứng dụng khai phá dữ liệu
vào hoạt động giáo dục là một trong những xu thế phổ biến để nâng cao hiệu quả và chất
lượng giáo dục và đào tạo.
Lựa chọn nghề nghiệp là vấn đề vô cùng quan trọng và quyết định tương lai trong
đời sống của mỗi con người. Có nghề nghiệp phù hợp với cá nhân, điều kiện môi trường
xã hội thì con người mới có cuộc sống ổn định, mới làm ra của cải vật chất cho bản thân
và xã hội. Ngày nay việc lựa chọn nghề nghiệp là một vấn đề trăn trở của các em học
sinh và của các bậc phụ huynh khi con em đến tuổi trưởng thành. Vì vậy, Bộ giáo dục
và Đào tạo đã đưa hoạt động giáo dục hướng nghiệp vào nhà trường từ rất sớm với mục
đích giúp cho các em học sinh nhận thức đúng đắn về nghề nghiệp, có định hướng lựa
chọn được cho mình một nghề phù hợp với bản thân đồng thời đáp ứng được nhu cầu
của xã hội. Việc giáo dục nghề nghiệp tốt trong nhà trường còn góp phần vào việc phân
luồng nguồn lao động và sử dụng hợp lí nguồn lao động trẻ một cách hiệu quả để thúc
đẩy kinh tế, xã hội đất nước phát triển bền vững. Xác định được vai trò to lớn đó của
giáo dục hướng nghiệp đối với học sinh, ngày 19 tháng 3 năm 1981, Hội đồng Chính
phủ đã ban hành quyết định 126/CP về công tác hướng nghiệp trong trường phổ thông
và việc sử dụng học sinh các cấp phổ thông cơ sở và phổ thông trung học tốt nghiệp ra
trường. Trong đó đã nêu rõ: “Coi trọng công tác hướng nghiệp và phân luồng học sinh
trung học, chuẩn bị cho thanh niên, thiếu niên đi vào lao động nghề nghiệp phù hợp với
sự chuyển dịch cơ cấu kinh tế trong cả nước và từng địa phương” [24].
2
Nước ta đang bước vào giai đoạn đẩy mạnh công nghiệp hóa, hiện đại hóa trong
bối cảnh khoa học – công nghệ phát triển như vũ bão. Sự phát triển kinh tế - xã hội đặt
ra yêu cầu nền giáo dục Việt Nam phải tạo ra lớp người lao động mới có khả năng làm
chủ được khoa học – công nghệ hiện đại. Nghị quyết TW8 về đổi mới căn bản toàn diện
giáo dục – đào tạo chỉ rõ: “Đẩy mạnh phân luồng sau trung học cơ sở; định hướng nghề
nghiệp ở trung học phổ thông”, “ đảm bảo cho học sinh có trình độ trung học cơ sở (hết
lớp 9) có tri thức phổ thông nền tảng, đáp ứng phân luồng mạnh sau trung học cơ sở,
trung học phổ thông phải tiếp cận nghề nghiệp và chuẩn bị cho giai đoạn học sau phổ
thông có chất lượng”. Hướng nghiệp trong giáo dục, với bản chất là hệ thống các biện
pháp tiến hành trong và ngoài nhà trường để giúp học sinh phổ thông có kiến thức về
nghề nghiệp và có khả năng lựa chọn về nghề nghiệp trên cơ sở kết hợp nguyện vọng,
sở trường của cá nhân với nhu cầu sử dụng lao động của xã hội, đóng vai trò quan trọng
trong quá trình đạt được mục tiêu đó.
Trong những năm qua hiệu quả của giáo dục hướng nghiệp đã chuyển biến rõ rệt,
số lượng học sinh theo hướng chọn nghề ngày càng nhiều. Tuy nhiên hiện nay do nhiều
nguyên nhân chủ quan và khách quan khác nhau hoạt động giáo dục hướng nghiệp và
công tác phân luồng học sinh vẫn còn hạn chế và kết quả chưa cao. Theo thống kê của
Bộ giáo dục và Đào tạo hàng năm số học sinh sau khi học xong Trung học cơ sở (THCS)
không học nghề mà vẫn học lên Trung học phổ thông (THPT), và học xong THPT lại
đăng ký thi vào cao đẳng hay đại học còn rất lớn. Kết quả thực tế này là do rất nhiều yếu
tố khách quan, chủ quan khác nhau từ phụ huynh đến học sinh và cả hiệu quả của giáo
dục hướng nghiệp. Trong thực tế chỉ một bộ phận học sinh không đủ khả năng vào THPT
thì mới học nghề hay không thi vào được cao đẳng, đại học thì mới chọn vào trường dạy
nghề để học.
Quyết định lựa chọn một hướng đi là một việc làm khó khăn, đòi hỏi học sinh phải
hiểu và có sự quan tâm của gia đình cũng như nhà trường, nếu chọn sai sẽ dẫn đến những
tổn thất lớn về vật chất và tinh thần cho học sinh và gia đình. Do đó việc định hướng
chọn đúng ngành nghề sẽ giúp các em tránh khỏi những vấn đề nói trên. Từ thực tiễn
giáo dục hiện nay cũng như thực tế hoạt động hướng nghiệp trong trường mà tôi đang
công tác, tôi nhận thấy việc tư vấn lựa chọn hướng nghiệp cho phụ huynh và học sinh
đối với đề án giáo dục hướng nghiệp hiện nay của Bộ Giáo dục và Đào tạo là quan trọng,
thông qua dữ liệu từ phụ huynh và học sinh để từ đó có thể sử dụng các thông tin đó để
phục vụ cho công việc tư vấn định hướng cho học sinh và các hoạt động trong giáo dục
là hết sức cần thiết và cấp bách. Vì vậy đề tài “ỨNG DỤNG MẠNG NƠRON NHÂN
TẠO ĐỂ TƯ VẤN GIÁO DỤC HƯỚNG NGHIỆP CHO HỌC SINH THCS HUYỆN
BỐ TRẠCH” là cần thiết và có ý nghĩa về mặt lý thuyết và thực tiễn.
3
2. Mục đích và ý nghĩa của đề tài
2.1. Mục đích
+ Nghiên cứu các phương pháp, các kỹ thuật khai phá dữ liệu.
+ Sử dụng kỹ thuật học máy để xử lý bài toán tư vấn trong giáo dục hướng nghiệp
cho học sinh.
+ Nghiên cứu giáo dục hướng nghiệp đối với học sinh trung học cơ sở từ đó xây
dựng ứng dụng Demo tư vấn phân luồng cho học sinh trên địa bàn huyện Bố trạch.
2.2. Ý nghĩa khoa học
+ Qua quá trình nghiên cứu sẽ nắm bắt được các kỹ thuật khai phá dữ liệu, qua đó
vận dụng để khai thác dữ liệu từ các nguồn thông tin thu thập được, thông qua dữ liệu
để tư vấn cho phụ huynh và học sinh đối với việc lựa chọn giáo dục hướng nghiệp tốt
hơn.
+ Rút ra được các kết luận có ý nghĩa trong quá trình nghiên cứu bài toán .
2.3. Ý nghĩa thực tiễn
+ Thu thập được dữ liệu của học sinh đối với việc lựa chọn nghề nghiệp trong giáo
dục hướng nghiệp hiện nay của học sinh THCS huyện Bố trạch, tỉnh Quảng Bình. Từ
đó xây dựng ứng dụng tư vấn phân luồng cho học sinh THCS trên địa bàn huyện Bố
Trạch.
3. Mục tiêu và nhiệm vụ đề tài
3.1. Mục tiêu
+ Nghiên cứu và vận dụng tốt kỹ thuật khai phá dữ liệu.
+ Sử dụng kỹ thuật học máy vào giải quyết bài toán tư vấn.
+ Xây dựng Demo ứng dụng tư vấn phân luồng nghề nghiệp trong giáo dục hướng
nghiệp hiện nay của huyện Bố Trạch. .
3.2. Nhiệm vụ
+ Nghiên cứu lý thuyết về kỹ thuật khai phá dữ liệu
+ Nghiên cứu thực tiễn về đề án giáo dục hướng nghiệp hiện nay của Bộ Giáo dục
và Đào tạo.
+ Thu thập dữ liệu về giáo dục hướng nghiệp của học sinh THCS trên địa bàn
huyện Bố Trạch, xử lý dữ liệu sau khi thu thập được.
+ Xây dựng bài toán, xử lý và xây dựng ứng dụng Demo.
4
4. Đối tượng, phạm vi nghiên cứu
4.1. Đối tượng nghiên cứu
+ Các kỹ thuật, phương pháp khai phá dữ liệu.
+ Dữ liệu thu thập được về quan điểm của học sinh THCS đối với giáo dục hướng
nghiệp hiện nay trên địa bàn huyện Bố Trạch.
+ Các công cụ và phần mềm mã nguồn mở hỗ trợ nghiên cứu, thiết kế quy trình
thực hiện
+ Quy trình tham vấn nghề trong giáo dục hướng nghiệp.
4.2. Phạm vi nghiên cứu
Trong nghiên cứu này tôi chỉ giới hạn nghiên cứu các vấn đề sau:
+ Đối tượng nghiên cứu là học sinh THCS trên địa bàn huyện Bố Trạch, tỉnh Quảng
Bình.
+ Xây dựng công việc tư vấn phân luồng hướng nghiệp cho học sinh lựa chọn học
lên THPT hay lựa chọn học nghề cho tương lai.
+ Xây dựng ứng dụng Demo.
5. Phương pháp nghiên cứu
Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài. Tổng hợp các
thông tin dữ liệu đã nghiên cứu. Nghiên cứu các kỹ thuật có liên quan đến bài toán.
Nghiên cứu công cụ xử lý và việc ứng dụng công cụ cho bài toán.
5.1. Phương pháp lý thuyết
+ Phương pháp nghiên cứu tài liệu về các vấn đề có liên quan đến đề tài, nghiên
cứu các công trình đã được công bố liên quan đến đề tài, phân tích và tổng hợp. Nghiên
cứu các kỹ thuật có liên quan đến bài toán, nghiên cứu công cụ xử lý và hỗ trợ giải quyết
bài toán.
+ Phương pháp thống kê: Thống kê dữ liệu thu thập được trong quá trình xử lý.
+ Phương pháp phân tích và thiết kế: Phân tích các đối tượng cần nghiên cứu để
giải quyết các vấn đề liên quan và thiết kế dữ liệu, thiết kế quy trình xử lý dữ liệu.
+ Phương pháp mô hình hóa: Mô hình hóa dữ liệu, mô hình hóa quy trình xử lý để
thực hiện tư vấn trong bài toán.
5.2. Phương pháp thực nghiệm
Nghiên cứu và khai thác các công cụ, các phần mềm hỗ trợ quá trình biên tập dữ
liệu, khảo sát dữ liệu và đánh giá.
5
Xây dựng chương trình Demo tư vấn cho phụ huynh và học sinh lựa chọn định
hướng giáo dục hướng nghiệp hiện nay của Bộ Giáo dục và Đào tạo.
Kiểm tra, thử nghiệm, nhận xét và đánh giá kết quả.
6. Cấu trúc luận văn
Ngoài phần mở đầu và kết luận, luận văn gồm ba chương:
Chương 1: Chương này chủ yếu nghiên cứu tổng quan về khai phá dữ liệu và các
vấn đề liên quan đến phương pháp, kỹ thuật và ứng dụng trong khai phá dữ liệu.
Chương 2: Nghiên cứu về Giáo dục hướng nghiệp trong trường THCS và mạng
nơron nhân tạo
Chương 3: Xây dựng ứng dụng tư vấn giáo dục hướng nghiệp cho học sinh THCS
huyện Bố Trạch.
6
Chương 1 - KHAI PHÁ DỮ LIỆU VÀ NHỮNG VẤN ĐỀ LIÊN QUAN
1.1. Tổng quan về khai phá dữ liệu
1.1.1. Khai phá dữ liệu là gì?
Khai phá dữ liệu là một lĩnh vực nghiên cứu có nhiều ứng dụng vào đời sống xã
hội hiện nay, nó ra đời từ những năm của thập kỷ 80. Khai phá dữ liệu bao hàm nhiều
kỹ thuật khác nhau nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các kho dữ
liệu lớn. Về bản chất khai phá dữ liệu liên quan đến quá trình phân tích dữ liệu và sử
dụng các kỹ thuật để tìm ra các thông tin hữu ích trong cơ sở dữ liệu. Các giải thuật khai
phá dữ liệu và các kỹ thuật ngày càng được phát triển và ứng dụng rộng rãi, kết quả của
quá trình khai phá dữ liệu có thể tìm ra các mô hình dữ liệu hữu ích phục vụ cho các bài
toán dự đoán, mô tả, phân loại, phân nhóm, rút trích và khai thác thông tin của các lĩnh
vực khác nhau trong đời sống xã hội. Chính vì những tiềm năng khoa học của nó nên
các nội dung nghiên cứu về khai phá dữ liệu càng ngày càng thu hút sự quan tâm của
nhiều tổ chức trong nước và thế giới.
Các kỹ thuật chính được áp dụng trong lĩnh vực khai phá dữ liệu được phát triển
từ các lĩnh vực cơ sở dữ liệu, học máy, xác suất thống kê, trí tuệ nhân tạo và các ngành
khác, vv, chúng đều hướng đến việc phân tích một lượng lớn các dữ liệu qua tiến trình
khai phá dữ liệu sẻ sử dụng các công cụ để phân tích dữ liệu và trích xuất ra các thông
tin quan trọng của các đối tượng bên trong cơ sở dữ liệu, kết quả của việc khai phá là
xác định các mẫu hay các mô hình đang tồn tại bên trong, nhưng chúng nằm ẩn khuất ở
các cơ sở dữ liệu. Để từ đó rút trích ra được các mẫu, các mô hình hay các thông tin và
tri thức từ các cơ sở dữ liệu. Khai phá dữ liệu là bước chính của quy trình khai phá tri
thức trong cơ sở dữ liệu (Knowledge Discovery in Database - KDD), nó được ứng dụng
trong các loại hình cung cấp dịch vụ lưu trữ thông tin như kho dữ liệu, cơ sở dữ liệu
quan hệ, cơ sở dữ liệu giao dịch, cơ sở dữ liệu hướng đối tượng, cơ sở dữ liệu quan hệ
hướng đối tượng, cơ sở dữ liệu không gian, cơ sở dữ liệu thời gian, cơ sở dữ liệu văn
bản, cơ sở dữ liệu đa phương tiện, cơ sở dữ liệu Web, cơ sở dữ liệu tri thức, vv [3].
1.1.2. Phát hiện tri thức trong cơ sở dữ liệu
Phát hiện tri thức từ cơ sở dữ liệu là một quá trình có sử dụng nhiều phương pháp
và công cụ khác nhau mà con người có vai trò trung tâm. Hoạt động của hệ thống bao
gồm nhiều hoạt động tương tác thường xuyên giữa con người và cơ sở dữ liệu mà có sự
trợ giúp của các công cụ khác nhau. “Tri thức” mà chúng ta đề cập đến ở đây là các tri
thức rút ra từ cơ sở dữ liệu và được sử dụng cho việc giải quyết một loạt nhiệm vụ nhất
định trong một lĩnh vực nào đó. Do đó, quá trình phát hiện tri thức cũng mang tính chất
hướng nhiệm vụ, không phải là phát hiện mọi tri thức bất kỳ mà là phát hiện tri thức
7
nhằm giải quyết tốt công việc đề ra. Trên cơ sở đó quá trình phát hiện tri thức là một
qúa trình tương tác giữa con người với các công cụ để thực hiện các bước cơ bản sau:
Toàn bộ tiến trình tìm kiếm và xử lý mẫu từ dữ liệu bao gồm các bước sau đây:
- Bước 1: Tìm một cách hiểu để thực hiện phạm vi ứng dụng và nhiệm vụ đặt ra,
xác định “Tri thức” được ưu tiên thích đáng, tìm ra mục đích của người sử dụng đầu
cuối.
- Bước 2: Tạo một tập dữ liệu đích thông qua chọn một tập dữ liệu hoặc điểm chính
trên một tập con của các biến đổi, hoặc các dữ liệu mẫu sao cho nó có ý nghĩa khi thực
hiện khai phá.
- Bước 3: Chuẩn bị trước dữ liệu, tiền xử lý dữ liệu: Loại bỏ dữ liệu nhiễu hoặc
những dữ liệu không quan trọng, tập hợp lại các thông tin cần thiết để phù hợp với mô
hình, tính toán và kiểm soát các dữ liệu sai lệch, tính toán thời gian thông tin tuần tự và
những thay đổi biết trước.
- Bước 4: Thu nhỏ dữ liệu: Tìm những đặc trưng thường sử dụng để miêu tả dữ
liệu độc lập theo mục đích của công việc. Sử dụng việc giảm bớt chiều hoặc các phương
pháp chuyển đổi để giảm bớt số lượng biến nếu được.
- Bước 5: Chọn nhiệm vụ khai phá dữ liệu: Quyết định có hay không đích của tiến
trình KDD là phân loại, hồi quy, phân nhóm, vv.
- Bước 6: Chọn phương pháp khai phá dữ liệu thích hợp: Chọn một hoặc một số
phương pháp để sử dụng cho việc tìm kiếm trên các mẫu của dữ liệu. Quyết định mô
hình và các tham số thích hợp. Biến đổi dữ liệu theo đặc trưng riêng của phương pháp
khai phá với toàn bộ tiến trình KDD.
- Bước 7: Khai phá dữ liệu: Tìm kiếm các mẫu quan trọng theo dạng trình bày
riêng biệt hoặc tập các mô tả như các luật hoặc cây phân loại, hồi quy, phân nhóm...vv..
- Bước 8: Đánh giá, giải thích, thử lại các mẫu đã khai phá được.
- Bước 9: Cũng cố, tinh chế tri thức đã khai phá. Kết hợp các tri thức thành hệ
thống. Giải quyết các xung đột tiềm tàng trong tri thức khai thác được, sau đó, tri thức
được chuẩn bị sẳn sàng cho ứng dụng.
Nếu phát hiện tri thức là toàn bộ quá trình chiết xuất tri thức từ cơ sở dữ liệu thì
khai phá dữ liệu là giai đoạn chủ yếu của quá trình đó.
Theo trình bày ở trên, trong quá trình phát hiện tri thức, bước khai phá dữ liệu được
thực hiện sau các bước tinh lọc và tiền xử lý dữ liệu, tức là việc khai phá để tìm ra các
mẫu hình có ý nghĩa được tíên hành trên tập dữ liệu có cơ sở là sẽ thích hợp với nhiệm
vụ khai phá đó chứ không phải là khai phá hết dữ liệu với một thời gian đủ dài để lấy
được một mẫu mà không có ích thực sự như khái niệm trong thống kê trước đây. Do đó,
khai phá dữ liệu thường bao gồm việc tìm một mô hình phù hợp với tập dữ liệu và tìm
kiếm các mẫu từ tập dữ liệu theo mô hình đó. Trong số các mẫu được lấy ra từ cơ sở dữ
8
liệu thì những mẫu được xem là đáng quan tâm xét theo một phương diện nào đó mới
được coi là tri thức. Các mẫu là đáng quan tâm nếu chúng là mới, có lợi, đáng được xem
xét. Một mẫu được xem là mới phụ thuộc vào khung tham chiếu cho trước, có thể đó là
phạm vi tri thức của hệ thống hoặc là phạm vi tri thức của người dùng. Mục tiêu của
KDD là tìm kiếm tri thức từ dữ liệu, và điểm cần nhấn mạnh là các ứng dụng “bậc cao”
của các phương pháp khai phá. Nó là điều quan tâm của những người nghiên cứu về học
máy, nhận dạng, cơ sở dữ liệu, thống kê, trí tuệ nhân tạo, tri thức thu nhận cho hệ chuyên
gia, và hình dung về dữ liệu. Khai phá dữ liệu là một nhu cầu tất yếu, một sự nhạy cảm
đáp lại nhu cầu bức thiết của giới kinh doanh và cũng là những thách thức mới của các
nhà khoa học. Khai phá dữ liệu được xây dựng trên các kỹ thuật mới, nó sử dụng các kỹ
thụât thông minh để khai phá các tri thức tiềm ẩn trong dữ liệu. Khai phá dữ liệu được
định hướng theo nhu cầu kinh doanh để có thể giải quyết tự động các bài toán kinh
doanh bằng các kỹ thuật dễ sử dụng và hiệu quả. Các kết quả đạt được cho thấy mặc dù
kỹ thuật khai phá dữ liệu còn nhiều vấn đề cần giải quyết, nhưng với những gì nó đã và
đang mang lại cho con người thì khai phá dữ liệu còn có một tiềm năng to lớn trong việc
tạo ra những lợi nhuận đáng kể trong nền kinh tế [2].
1.1.3. Quá trình khai phá tri thức trong cơ sở dữ liệu
Quá trình khai phá dữ liệu có thể được chia thành các giai đoạn chính như sau [1,
13]:
Đánh giá luật
Khai phá dữ liệu
Chuyển
đổi dữ liệu
Tiền xử lý và
chuẩn bị dữ liệu
Tri thức
Trích lọc dữ liệu
Mô hình
Dữ liệu
Dữ liệu đích
Dữ liệu đã
xử lý
Dữ liệu đã
chuyển đổi
Hình 1.1: Khai phá dữ liệu là một bước trong quá trình khai phá tri thức [1, 13]
9
Một cách tổng quát quá trình khám phá tri thức có thể phân thành các công đoạn:
Tập hợp dữ liệu, trích lọc dữ liệu, chuẩn bị dữ liệu và tiền xử lý dữ liệu, biến đổi dữ liệu,
khai phá dữ liệu, đánh giá và biểu diễn tri thức. Trong đó quá trình khai phá tri thức
được thực hiện lặp đi lặp lại nhiều lần cùng với sự tham gia của người sử dụng. Kết quả
của quá trình khai phá dữ liệu sẽ làm cho quá trình khai phá các dữ liệu lớn trong cơ sở
dữ liệu lớn trở nên dễ dàng hơn. Trong thực tế, khai phá dữ liệu là một bước cụ thể trong
quá trình khai phá tri thức. Để giải quyết các nhiệm vụ đề ra khai phá dữ liệu sử dụng
các thuật toán đặc biệt để trích xuất các mô hình từ cơ sở dữ liệu, thông qua các mô hình
và kết quả khai phá được sẽ tiến hành giải thích và xử lý kết quả của hệ thống, chuyển
đổi thông tin vào hệ thống tri thức mà người sử dụng có thể hiểu được.
a. Tập hợp dữ liệu (Data): Đây là giai đoạn đầu tiên trong quá trình khai phá dữ
liệu. Giai đoạn này lấy dữ liệu trong một cơ sở dữ liệu, một kho dữ liệu hay dữ liệu từ
các nguồn khác.
b. Trích lọc dữ liệu (Selection): Trong giai đoạn này dữ liệu được lựa chọn hoặc
phân chia theo một số tiêu chuẩn nào đó.
c. Tiền xử lý và chuẩn bị dữ liệu (Preprocessing): Giai đoạn này rất quan trọng
trong quá trình khai phá dữ liệu. Trong thực tế quá trình thu thập dữ liệu sẽ chứa một số
lỗi thường mắc phải như thiếu thông tin, không logic... điều này dẫn đến dữ liệu chứa
các giá trị vô nghĩa, thông tin mang lại không hiệu quả và không có khả năng kết nối dữ
liệu. Mục đích của giai đoạn này là tiến hành xử lý những dạng dữ liệu nói trên để dữ
liệu được “sạch và có ý nghĩa” vì nếu dữ liệu không được tiền xử lý, làm sạch và chuẩn
bị trước thì kết quả của quá trình khai phá dữ liệu sẽ không cao và thậm chí là sai lệch.
d. Chuyển đổi dữ liệu (Transformation): Trong giai đoạn chuyển đổi dữ liệu nay
dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó. Dữ liệu đã
được chuyển đổi phù hợp với mục đích khai thác.
e. Khai phá dữ liệu (Data Mining): Đây là giai đoạn quan trọng của quá trình và
mang tính tư duy trong quá trình khai phá, giai đoạn này sử dụng nhiều thuật toán khác
nhau để xuất ra các mẫu từ dữ liệu.
f. Đánh giá kết quả mẫu (Interpretation/ Evaluation): Là giai đoạn cuối trong quá
trình khai phá dữ liệu. Trong giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần
mềm khai phá dữ liệu, các mẫu thu được không phải mẫu dữ liệu nào cũng đều có nghĩa
cho vấn đề cần giải quyết. Vì vậy trong thực tế phải thực hiện đánh giá qua các tiêu
chuẩn để lựa chọn được mẫu phù hợp, đưa ra được các tri thức cần thiết và sử dụng cho
bài toán cụ thể.
10
1.2. Một số phương pháp và kỹ thuật khai phá dữ liệu
1.2.1. Các kỹ thuật khai phá dữ liệu
Nếu đứng trên quan điểm của học máy thì các kỹ thuật trong khai phá dữ liệu bao
gồm: Học có giám sát, học không có giám sát, học nửa giám sát. Phương pháp dựa vào
học máy sử dụng các giải thuật học máy nổi tiếng bằng việc sử dụng cú pháp và các đặc
trưng trong ngôn ngữ. Các giải thuật học máy đã được chứng minh là những giải thuật
khai phá dữ liệu rất hiệu quả. Học máy là một lĩnh vực có liên quan đến việc nghiên cứu
các thuật toán và kỹ thuật cho phép các máy tính để "học hỏi" tự động từ kinh nghiệm.
+ Học có giám sát:
Các phương pháp học có giám sát phụ thuộc vào sự tồn tại của các nhãn huấn luyện
văn bản. Có rất nhiều loại học có giám sát trong phân loại văn bản, quá trình phân loại
qua phương pháp học có giám sát được thực hiện qua nhiều bước khác nhau: Đầu tiên
cần xác định loại của tập dữ liệu cần huấn luyện, sau đó tiến hành thu thập dữ liệu huấn
luyện. Việc thu thập dữ liệu huấn luyện có thể thực hiện bằng nhiều cách khác nhau.
Bước tiếp theo là lựa chọn và biểu diễn các đặc trưng, bước này có vai trò quyết định
hiệu quả của quá trình phân loại. Hầu hết các phương pháp máy học áp dụng cho bài
toán phân loại đều sử dụng cách biểu diễn văn bản dưới dạng vectơ đặc trưng. Điểm
khác biệt duy nhất chính là không gian đặc trưng được chọn lựa. Số lượng các đặc trưng
không được quá lớn, do sự bùng nổ dữ liệu, không được quá nhỏ sẽ không đảm bảo
thông tin, chúng phải đủ lớn để dự đoán chính xác đầu ra. Để giải quyết vấn đề này
thông thường chúng ta sẽ chọn lựa những đặc trưng được đánh giá là hữu ích, bỏ đi
những đặc trưng không quan trọng. Trong giai đoạn này chúng ta sử dụng các phương
pháp chọn lựa đặc trưng hiệu quả để giảm chiều của vectơ đặc trưng, chiều của vectơ
sau khi được giảm mà không mất đi độ chính xác phân loại. Bước cuối cùng là xác định
cấu trúc của hàm chức năng cần tìm và chọn giải thuật học tương ứng, chạy giải thuật
học từ tập huấn luyện thu thập được để cho ra kết quả. Một số phương pháp học có giám
sát phổ biến trong phân loại quan điểm như [5, 14]:
- Phân loại theo xác suất: Phân loại theo xác suất sử dụng mô hình phân loại hỗn hợp.
Các mô hình này giả định rằng mỗi lớp là một thành phần của hỗn hợp. Mỗi thành phần
hỗn hợp là một mô hình cung cấp xác suất lấy mẫu của một thuật ngữ cụ thể cho các
thành phần đó. Một số kỹ thuật phân loại xác suất nổi tiếng như phân loại Naıve Bayes,
Bayesian Network, Maximum Entropy.
- Kỹ thuật phân loại tuyến tính. Kỹ thuật này nổi bật với phương pháp phân loại máy
vector hỗ trợ (support vector machines), mạng nơron (neural network), cây quyết định
(decision tree), phân loại dựa vào các luật cơ bản (rule-based)
11
+ Học không có giám sát:
Học không giám sát là phương pháp nhằm tìm ra mô hình phù hợp với các tập dữ liệu
quan sát. Nó khác biệt với học có giám sát ở chỗ là đầu ra đúng tương ứng cho mỗi đầu
vào là không biết trước. Trong học không có giám sát, đầu vào là một tập dữ liệu được
thu thập. Học không có giám sát thường xem các đối tượng đầu vào như là một tập các
biến ngẫu nhiên. Sau đó, một mô hình mật độ kết hợp sẽ được xây dựng cho tập dữ liệu
đó. Học không có giám sát có thể được dùng kết hợp với suy diễn Bayes để cho ra xác
suất có điều kiện cho bất kì biến ngẫu nhiên nào khi biết trước các biến khác [4, 14].
Có nhiều thuật toán học không có giám sát được ra đời và phát triển nhằm giải quyết
bài toán phân cụm phục vụ khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất
đa dạng. Việc lựa chọn sử dụng thuật toán nào tuỳ thuộc vào dữ liệu và mục đích của
từng bài toán. Một số thuật toán học không có giám sát thường hay sử dụng như thuật
toán k-means, thuật toán Hierarchical Agglomerative Clustering- HAC, thuật toán SelfOrganizing Map-SOM,...vv.
+ Học bán giám sát
Khi cả dữ liệu huấn luyện và dữ liệu đã dán nhãn không có sẵn, chúng ta có thể học
nửa giám sát (học bán giám sát). Một phân loại thống kê được huấn luyện, việc huấn
luyện có thể sử dụng cả dữ liệu có nhãn và không có nhãn. Kết hợp các mẫu có gắn nhãn
và không gắn nhãn để sinh một hàm hoặc một bộ phân loại thích hợp.
1.2.2. Các phương pháp khai phá dữ liệu
Nếu dựa trên quan điểm dựa vào lớp các bài toán cần giải quyết, thì có các phương
pháp khai phá dữ liệu sau [6]: Phân lớp và dự đoán, Luật kết hợp, Phân cụm, Hồi qui,
Tổng hợp, Mô hình ràng buộc, Dò tìm biến đổi và độ lệch.
+ Phân lớp (classification) và dự đoán (prediction):
Phân lớp dữ liệu là tiến trình khám phá các quy luật phân loại hay tìm kiếm đặc trưng
cho các tập dữ liệu đã được xếp lớp. Với một tập dữ liệu huấn luyện có trước các giải
thuật và công cụ sẽ xếp các đối tượng và một trong các lớp đã biết trước. Tập dữ liệu
học bao gồm tập đối tượng đã được xác định lớp sẽ được dùng để tạo mô hình phân lớp
dựa trên đặc trưng của đối tượng trong tập dữ liệu học. Các đặc trưng về dữ liệu được
sử dụng để xây dựng các bộ phân lớp dữ liệu. Phân lớp dữ liệu có vai trò quan trọng
trong tiến trình dự báo các khuynh hướng quy luật phát triển. Bài toán dự đoán tương
đương với bài toán phân lớp, khi có đối tượng mới bộ dự đoán dựa trên thông tin đang
có để đưa ra giá trị số học cho hàm cần dự đoán.
+ Luật kết hợp (Association):
Kỹ thuật của phương pháp này là phát hiện và tìm ra trong tập dữ liệu cần khai phá
những mối liên hệ giữa các giá trị với nhau qua đó tìm giá trị đầu ra thông qua các luật
kết hợp tìm được từ tập dữ liệu ban đầu, quá trình khám phá các tập giá trị thuộc tính
xuất hiện phổ biến trong các đối tượng dữ liệu. Từ tập phổ biến có thể tạo ra các luật kết
12
hợp giữa các giá trị thuộc tính nhằm phản ánh khả năng xuất hiện đồng thời các giá trị
thuộc tính trong tập các đối tượng. Một luật kết hợp X → Y phản ánh sự xuất hiện của
tập X dẫn đến sự xuất hiện đồng thời của tập Y.
+ Phân cụm (clutering):
Kỹ thuật phân cụm với mục đích tìm ra các cụm dữ liệu có đặc điểm tương tự nhau
trong tập dữ liệu cần khai phá. Các thành viên của một cụm sẽ có các đặc điểm giống
nhau và có các đặc điểm khác nhau so với các thành viên của các cụm khác. Các đối
tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm
là cực đại và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là cực
tiểu. Kỹ thuật phân cụm sẽ nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa được
xếp lớp dựa trên mức độ tương tự giữa các đối tượng. Các cụm được đặc trưng bằng các
tính chất chung của tất cả các đối tượng trong cụm. Do vậy, khảo sát các cụm sẽ giúp
khái quát, tổng kết nhanh chóng nội dung của khối dữ liệu lớn.
+ Hồi qui (regression): Là bài toán học một hàm ánh xạ từ một mẫu dữ liệu thành
một biến dự đoán có giá trị thực. Mục đích của hồi quy tương tự như bài toán phân lớp,
điểm khác biệt ở đây là các thuộc tính dự báo trong bài toán này là liên tục chứ không
rời rạc.
+ Tổng hợp (summarization):
Công việc liên quan đến các phương pháp tìm kiếm mô tả chung để xác định được
các tập con dữ liệu hay các nhóm dữ liệu, trong đó các nhóm có thể chồng nhau hoặc
tách rời, điều này có nghĩa là dữ liệu có thể thuộc nhóm này và cũng có thể thuộc nhóm
khác.
+ Mô hình ràng buộc (dependency modeling):
Là phương pháp tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến, thuộc tính
theo hai mức, đó là mức cấu trúc của mô hình mô tả biểu diễn dưới dạng đồ thị. Trong
đó sự phụ thuộc bộ phận của các biến phụ vào các biến khác. Trường hợp thứ hai đó là
mức định lượng mô hình mô tả mức độ phụ thuộc, thường được biểu diễn dưới dạng
luật “nếu - thì”. Trường hợp này phụ thuộc vào tiền đề để xác định kết luận, tiền đề
thường là nhóm các giá trị thuộc tính và kết luận chỉ là một thuộc tính.
+ Dò tìm biến đổi và độ lệch (change and deviation dectection):
Phương pháp này xác định giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của
tập con dữ liệu thực và nội dung mong đợi. Hai mô hình thường hay sử dụng đó là đo
độ lệch theo thời gian và đo độ lệch theo nhóm. Đối với đo độ lệch theo thời gian thì sự
thay đổi có ý nghĩa của dữ liệu theo thời gian, còn đo độ lệch theo nhóm sẽ xác định sự
khác nhau giữa hai tập con dữ liệu, nghĩa là xác định dữ liệu trong một nhóm con của
đối tượng có khác so với toàn bộ đối tượng không, qua đó phát hiện những sai sót dữ
liệu và sai lệch so với giá trị thông thường. Thông thường những nhiệm vụ này yêu cầu
13
số lượng và các dạng thông tin khác nhau nên sẽ ảnh hưởng đến việc thiết kế và chọn
phương pháp khai phá dữ liệu khác nhau.
1.3. Ứng dụng của khai phá dữ liệu
Có thể nói sau khi ra đời, các kỹ thuật khai phá dữ liệu đã thu hút được rất nhiều sự
quan tâm của các nhà nghiên cứu nhờ vào tính ứng dụng trong thực tiễn của nó, và chính
ưu điểm này lại thúc đẩy khai phá dữ liệu ngày càng được nghiên cứu nhiều hơn và trở
thành nội dung nghiên cứu liên quan đến đa ngành, đa lĩnh vực trong đời sống xã hội.
Hiện nay, khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực
và đã có rất nhiều công cụ được xây dựng và phát triển dưới dạng thương mại và phi
thương mại, các công cụ hỗ trợ cho ứng dụng trong thực tế. Khi dữ liệu số và dữ liệu
trên môi trường web ngày càng nhiều thì khai phá dữ liệu ngày càng được phát triển sâu
rộng nhằm khai thác nguồn dữ liệu phong phú trong các hệ thống thông tin đó. Một số
hướng ứng dụng phổ biến hiện nay của khai phá dữ liệu như:
1.3.1. Ứng dụng trong bài toán phân tích, dự báo, tư vấn:
Đối với bài toán này có rất nhiều lĩnh vực được ứng dụng, một số ngành điển hình
như:
+ Trong y tế: từ những thông tin của bệnh nhân hệ thống phân tích và dự đoán bệnh
và đưa ra phác đồ điều trị, đưa ra các bài toán dự báo về nguy cơ lây nhiểm hay các bài
toán khác;
+ Trong thương mại bài toán dùng để phân tích thông tin sản phẩm, khách hàng, phân
tích quan điểm người sử dụng, phân tích các sở thích để từ đó dự báo các chiến lược
kinh doanh, các nhu cầu của khách hàng;
+ Đối với lĩnh vực chính trị, xã hội: phân tích ý kiến, thái độ dư luận để dự báo xu
hướng phát triển, xu hướng quan điểm của dân về các chế độ chính sách;
+ Ứng dụng phân tích dự báo trong các ngành khoa học như thiên văn học, khí tượng,
sinh học…vv. Đặc biệt đối với khai phá dữ liệu sinh học là một phần rất quan trọng của
lĩnh vực Tin - Sinh học (Bioinformatics), nó được biết đến với một số ứng dụng điển
hình như lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ sở dữ liệu Gen; xây dựng
mô hình khai phá các mạng di truyền và cấu trúc của Gen, protein; xây dựng các công
cụ trực quan trong phân tích dữ liệu di truyền.
+ Trong hoạt động giáo dục thường phát triển theo các dạng chuyên gia hỗ trợ học
tập hoặc tư vấn trong các hoạt động giáo dục, đào tạo.
1.3.2 Ứng dụng trong các bài toán khác
+ Bài toán tìm kiếm thông tin là bài toán khá phát triển và phổ biến, các dạng mở
rộng trong khai phá dữ liệu được ứng dụng nhiều trên các bộ dữ liệu khác nhau, đặc biệt
14
là trên các bộ dữ liệu phân tán lớn. Một hướng ứng dụng khá phổ biến đó là khai phá dữ
liệu trên kho dữ liệu khách hàng của các bài toán ngân hàng, kinh doanh, maketing, vv.
Việc khai thác và sử dụng dữ liệu để phân tích đa chiều trên kho dữ liệu khách hàng về
doanh số bán hàng, khách hàng, sản phẩm, thời gian và khu vực cũng như các thông số
khác.
+ Bài toán ứng dụng trong công nghiệp viễn thông là một trong những hướng mới
mới nổi, với mục tiêu cung cấp các dịch vụ liên quan đến môi trường trên điện thoại di
động, môi trường Internet, môi trường trên các mạng xã hội.... Hướng khai phá dữ liệu
trong ngành công nghiệp viễn thông giúp các nhà quản lý xác định các mô hình viễn
thông, quản lý và phát hiện các hoạt động gian lận trong viễn thông, khai thác có hiệu
quả nguồn tài nguyên viễn thông và nâng cao chất lượng dịch vụ viễn thông cho người
dùng. Một số ứng dụng của khai phá dữ liệu trong ngành công nghiệp viễn thông như:
- Phân tích nguồn dữ liệu đa chiều trong viễn thông.
-
Xây dựng mô hình để quản lý và phát hiện gian lận trong viễn thông.
-
Quản lý và phát hiện trong giao dịch viễn thông.
-
Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng để tư vấn cũng
như có những chiến lược phát triển khác.
-
Phân tích dữ liệu viễn thông thông qua các công cụ trực quan.
+ Bài toán phát hiện xâm nhập bất hợp pháp và an ninh mạng là một trong những
hướng ứng dụng quan trọng ngày nay bởi vì việc ngặn chặn và phát hiện xâm nhập bất
hợp pháp sẽ ngăn chặn được các đe dọa đến an toàn và bảo mật của tài nguyên. Trong
thế giới phẳng bảo mật đã trở thành vấn đề lớn đối với sự tồn tại của hệ thống. Với sự
phát triển của công nghệ và sự sẵn có của các công cụ trên web, việc kiểm soát truy cập
bất hợp pháp là vấn đề rất quan trọng cho các hệ thống hiện nay. Bài toán này được ứng
dụng qua khai phá dữ liệu để có thể phát hiện xâm nhập theo các hướng như kỹ thuật
phát hiện xâm nhập; phân tích, kết hợp, tương quan và khác biệt giữa các yếu tố để phát
hiện xâm nhập; phân tích dòng dữ liệu để phát hiện bất thường, vv.
- Xem thêm -