i
UBND TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
NGUYỄN KIM SƠN
SỬ DỤNG DATA MINING DỰ BÁO NHU CẦU
LAO ĐỘNG CHO MỘT SỐ NGÀNH NGHỀ
TRÊN ĐỊA BÀN TỈNH BÌNH DƯƠNG
LUẬN VĂN THẠC SĨ
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
BÌNH DƯƠNG, NĂM 2019
ii
UBND TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
NGUYỄN KIM SƠN
SỬ DỤNG DATA MINING DỰ BÁO NHU CẦU
LAO ĐỘNG CHO MỘT SỐ NGÀNH NGHỀ
TRÊN ĐỊA BÀN TỈNH BÌNH DƯƠNG
LUẬN VĂN THẠC SĨ
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. LÊ TUẤN ANH
BÌNH DƯƠNG, NĂM 2019
iii
LỜI CAM ĐOAN
Tôi cam đoan luận văn này : “Sử dụng Data Mining dự báo nhu cầu lao
động cho một số ngành nghề trên địa bàn tỉnh Bình Dương” là công trình nghiên
cứu của riêng tôi.
Các số liệu là thực tế, kết quả thực hiện nêu trong luận văn là trung thực
và chưa từng được ai công bố trong bất kỳ công trình nào khác.
Các tài liệu tham khảo, sản phẩm/ nghiên cứu sử dụng cho luận văn này
được trính dẫn theo đúng quy định.
Bình Dương, ngày 07 tháng 3 năm 2019
Học viên thực hiện luận văn
Nguyễn Kim Sơn
iv
LỜI CẢM ƠN
Lời đầu tiên tôi xin bày tỏ lòng biết ơn chân thành PGS.TS. Lê Tuấn
Anh, Thầy đã tận tình chỉ dẫn, định hướng và truyền đạt những kiến thức cho
tôi suốt thời gian thực hiện luận văn này.
Tôi xin bày tỏ long biết ơn ơn đến với quí Thầy Cô giáo trong khoa Kỹ
thuật - Công nghệ, Phòng Đào tạo sau đại học – Trường đại học Thủ Dầu Một
đã trang bị cho tôi những kiến thức nền tảng quan trọng và hỗ trợ tận tình trong
suốt quá trình tôi theo học.
Tôi xin chân thành cảm ơn Lãnh đạo Sở Lao động – Thương binh và Xã
hội, Lãnh đạo Trung tâm Dịch vụ Việc làm tỉnh Bình Dương đã tạo điều kiện
và cung cấp số liệu cho tôi hoàn thiện luận văn này.
Mặc dù đã cố gắng song luận văn cũng không tránh khỏi những thiếu sót.
Tôi rất mong nhận được những ý kiến đóng góp của Thầy Cô để tôi có thể hoàn
thiện hơn đề tài của mình.
Xin trân trọng cảm ơn.
Bình Dương, ngày 07 tháng 3 năm 2019
Học viên thực hiện luận văn
Nguyễn Kim Sơn
v
MỤC LỤC
LỜI CẢM ƠN ................................................................................................. IV
DANH MỤC CÁC CHỮ VIẾT TẮT ............................................................ VII
DANH SÁCH BẢNG ................................................................................... VIII
DANH SÁCH HÌNH VẼ ................................................................................. X
CHƯƠNG 1. TỔNG QUAN .........................................................................1
CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN ........................................4
2.1.
THỊ TRƯỜNG LAO ĐỘNG .............................................................4
2.1.1. Khái niệm và đặc điểm chung của thị trường lao động ................4
2.1.2. Các yếu tố thị trường lao động......................................................5
2.1.3. Thông tin thị trường lao động .......................................................5
2.1.4. Hệ thống thông tin thị trường lao động ........................................5
2.2.
MỘT SỐ PHƯƠNG PHÁP DỰ BÁO ...............................................5
2.3.
KHAI PHÁ DỮ LIỆU .......................................................................7
2.3.1. Giới thiệu về khai phá dữ liệu .......................................................7
2.3.2. Các kỹ thuật khai phá dữ liệu phổ biến ........................................9
2.4.
CÁC NGHIÊN CỨU LIÊN QUAN .................................................11
CHƯƠNG 3. MÔ HÌNH DỰ BÁO, TIÊU CHÍ ĐÁNH GIÁ VÀ YẾU TỐ
TÁC ĐỘNG ĐẾN DỰ BÁO CẦU LAO ĐỘNG ..........................................16
3.1.
XÁC ĐỊNH BÀI TOÁN CHO MÔ HÌNH DỰ BÁO ......................16
3.2.
MỘT SỐ THUẬT TOÁN XÂY DỰNG MÔ HÌNH DỰ BÁO .......17
3.2.1. Linear Regression .......................................................................17
3.2.2. K - Nearest Neighbors ................................................................18
3.2.3. Decision trees và Random forests ...............................................20
3.3.
ĐỘ ĐO ĐÁNH GIÁ MÔ HÌNH DỰ BÁO ......................................24
3.4.
CÁC YẾU TỐ TÁC ĐỘNG ĐẾN CẦU LAO ĐỘNG ....................25
3.4.1. Các yếu tố về chính sách .............................................................25
vi
3.4.2. Các yếu tố về kinh tế - xã hội .....................................................25
3.4.3. Các yếu tố khoa học công nghệ ..................................................26
3.4.4. Lựa chọn yếu tố tác động thêm vào dữ liệu dự báo. ...................26
CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .....................28
4.1.
MÔ HÌNH THỰC NGHIỆM ...........................................................28
4.2.
CHUẨN BỊ TẬP DỮ LIỆU .............................................................31
4.2.1. Thông tin về cơ sở dữ liệu ..........................................................31
4.2.2. Mô tả về cơ sở dữ liệu thực nghiệm ...........................................31
4.3.
CÀI ĐẶT CHƯƠNG TRÌNH THỰC NGHIỆM .............................36
4.4.
THỰC NGHIỆM MÔ HÌNH DỰ BÁO ...........................................36
4.4.1. Thực nghiệm, đánh giá mô hình dự báo .....................................36
4.4.1.1.Đánh giá kết quả thực nghiệm mô hình dựa trên các độ đo .36
4.4.1.2.Kiểm chứng số liệu dự báo với số liệu thực tế ......................42
4.4.2. Kết quả dự báo dựa trên Random forest .....................................45
KẾT LUẬN ....................................................................................................50
TÀI LIỆU THAM KHẢO ..............................................................................52
vii
DANH MỤC CÁC CHỮ VIẾT TẮT
Viết tắt
ILO
Tiếng Anh
International Labour
Tiếng Việt
Tổ chức lao động Quốc tế
Organization
LR
Linear Regression
Hồi quy tuyến tính
KNN
K-nearest neighbors
K láng giềng gần
DTs
Decision trees
Cây quyết định
RF
Random forests
Rừng ngẫu nhiên
CSDL
Cơ sở dữ liệu
TTLĐ
Thị trường lao động
viii
DANH SÁCH BẢNG
Bảng 3.1. Độ lệch của kết quả số liệu dự báo so với số liệu thực tế năm
2015 của nhóm thuộc tính thông tin chung về số Lao động trong doanh
nghiệp trên 2 mô hình ............................................................................... 16
Bảng 3.2. Hệ số tương quan giữa tổng số lao động đại học trở lên và GDP,
dân số cả nước, dân số Bình Dương ......................................................... 26
Bảng 4.1. Bảng mô tả dữ liệu thực nghiệm dự báo .................................. 34
Bảng 4.2: kết quả độ đo các thuộc tính thông tin chung về số lao động .. 37
Bảng 4.3: kết quả độ đo các thuộc tính số lao động theo chuyên môn kỹ
thuật ........................................................................................................... 38
Bảng 4.4: kết quả độ đo các thuộc tính số lao động theo lĩnh vực giáo dục
đào tạo ....................................................................................................... 39
Bảng 4.5: kết quả độ đo các thuộc tính số lao động theo lĩnh vực nhà nghiên
cứu ............................................................................................................. 40
Bảng 4.6: Kết quả độ đo trung bình của các thuộc tính trên các mô hình 41
Bảng 4.7: Số liệu thực tế, số liệu dự báo và độ lệch của kết quả số liệu dự
báo so với số liệu thực tế năm 2015 của nhóm thuộc tính thông tin chung
về số lao động trong doanh nghiệp trên 4 mô hình................................... 42
Bảng 4.8: Số liệu thực tế, số liệu dự báo và độ lệch của kết quả số liệu dự
báo so với số liệu thực tế năm 2015 của nhóm thuộc tính số lao động theo
chuyên môn kỹ thuật trên 4 mô hình ........................................................ 43
Bảng 4.9: Số liệu thực tế, số liệu dự báo và độ lệch của kết quả số liệu dự
báo so với số liệu thực tế năm 2015 của nhóm thuộc tính số lao động theo
lĩnh vực giáo dục đào tạo trên 4 mô hình.................................................. 43
ix
Bảng 4.10: Số liệu thực tế, số liệu dự báo và độ lệch của kết quả số liệu dự
báo so với số liệu thực tế năm 2015 của nhóm thuộc tính số lao động theo
lĩnh vực nhà nghiên cứu trên 4 mô hình ................................................... 44
Bảng 4.11. Tỷ lệ phần trăm tập kiểm tra và kết quả độ lệch giữa số liệu dự
báo so với số liệu thực tế năm 2015 trên thuộc tính tổng số lao động ..... 46
Bảng 4.12. Số cây trong rừng và kết quả độ lệch giữa số liệu dự báo so với
số liệu thực tế năm 2015 trên thuộc tính tổng số lao động ....................... 47
Bảng 4.13: Độ chính xác của kết quả số liệu dự báo so với số liệu thực tế
năm 2015 của nhóm thuộc tính thông tin chung về số Lao động trong doanh
nghiệp theo số năm dự báo ....................................................................... 47
Bảng 4.14: Độ chính xác của kết quả số liệu dự báo so với số liệu thực tế
năm 2015 của nhóm thuộc tính số lao động theo chuyên môn kỹ thuật theo
số năm dự báo ........................................................................................... 48
Bảng 4.15: Độ chính xác của kết quả số liệu dự báo so với số liệu thực tế
năm 2015 của nhóm thuộc tính số lao động theo lĩnh vực giáo dục đào tạo
theo số năm dự báo ................................................................................... 48
Bảng 4.16: Độ chính xác của kết quả số liệu dự báo so với số liệu thực tế
năm 2015 của nhóm thuộc tính số lao động theo lĩnh vực nhà nghiên cứu
theo số năm dự báo ................................................................................... 48
Bảng 4.17: Độ chính xác trung bình kết quả dự báo của các thuộc tính với
số năm dự báo là 01 năm và 02 năm ......................................................... 49
x
DANH SÁCH HÌNH VẼ
Hình 2.1. Quá trình khai phá dữ liệu .......................................................... 8
Hình 3.1: Mô hình hồi quy tuyến tính....................................................... 18
Hình 3.2: Mô hình Random forest cho vấn đề hồi quy ............................ 22
Hình 4.1: Mô hình thực nghiệm dự báo .................................................... 29
Hình 4.2: Biểu đồ so sánh kết quả trung bình độ đo các thuộc tính trên các
mô hình...................................................................................................... 41
Hình 4.3: Biểu đồ độ chính xác của kết quả số liệu dự báo so với số liệu
thực tế năm 2015 của giá trị trung bình độ chính xác các thuộc tính trên 4
mô hình...................................................................................................... 45
1
CHƯƠNG 1. TỔNG QUAN
Trong chương này, chúng tôi sẽ trình bày một cách sơ lược về tỉnh Bình
Dương, vai trò của nguồn lực trong phát triển kinh tế của Tỉnh, những khó khăn trong
việc phân tích, dự báo thông tin thị trường lao động từ đó cho thấy sự cần thiết trong
việc xây dựng mô hình dự báo về nhu cầu lao động đáp ứng yêu cầu cấp thiết của
hoạt động thị trường lao động trên địa bàn tỉnh Bình Dương.
Nguồn lực con người luôn là vấn đề quan trọng quyết định sức mạnh của đất
nước đặc biệt trong bối cảnh toàn cầu hóa như hiện nay. Ở nước ta, Đảng và Nhà
Nước luôn khẳng định quan điểm coi con người là trung tâm của sự phát triển, của
công cuộc xây dựng và bảo vệ Tổ quốc. Hiện nay, trong điều kiện đẩy mạnh công
nghiệp hóa và hội nhập quốc tế, phát triển nhân lực được coi là một trong ba khâu đột
phá của chiến lược chuyển đổi mô hình phát triển kinh tế - xã hội của đất nước; đồng
thời, phát triển nhân lực trở thành nền tảng phát triển bền vững và tăng lợi thế cạnh
tranh quốc gia.
Bình Dương là một tỉnh nằm ở vùng trọng điểm kinh tế phía Nam, hiện nay
có 29 khu công nghiệp và hơn 12 cụm công nghiệp đang hoạt động với trên 32 ngàn
doanh nghiệp đăng ký và hơn một triệu lao động đang làm việc, hàng năm Bình
Dương cần thêm trên 45 ngàn lao động, trong đó lao động có tay nghề và có trình độ
chuyên môn cao là trên 80%. Việc nghiên cứu đưa ra mô hình dự báo về nhu cầu lao
động cho một số ngành nghề tại tỉnh Bình Dương là hết sức cần thiết trong việc góp
phần xây dựng hệ thống thông tin thị trường lao động nhằm tạo bức tranh tổng thể về
thị trường lao động, từ đó sẽ thúc đẩy công tác hỗ trợ người lao động, tạo điều kiện
phục vụ người dân nhanh chóng và tốt hơn, thông qua hoạt động của Hệ thống thông
tin thị trường lao động các ngành, cac cấp sẽ có kế hoạch cụ thể trong việc đào tạo –
dạy nghề và các giải pháp thiết thực trong việc giới thiệu và giải quyết việc làm của
tỉnh, định hướng hoạch định chiến lược cho tương lai. Hệ thống thông tin thị trường
lao động phù hợp với xu thế phát triển, tăng hiệu quả các dịch vụ hỗ trợ giải quyết
việc làm, tăng cơ hội giao dịch việc làm giữa người lao động và người sử dụng lao
2
động...
Trong những năm gần đây, công nghệ thông tin phát triển mạnh mẽ và việc
ứng dụng cộng nghệ thông tin trong nhiều lĩnh vực trong đời sống, kinh tế xã hội đã
làm lượng dữ liệu được thu thập và lưu trữ ở các hệ thống thông tin tăng lên một cách
nhanh chóng dẫn tới sự bùng nổ thông tin. Lượng dữ liệu đó là một tài nguyên vô giá
nếu như chúng ta biết cách phát hiện và khai thác những thông tin hữu ích có trong
đó, bên cạnh đó các phương pháp khai thác dữ liệu truyền thống ngày càng không
đáp ứng được như cầu thục tế. Với những lý do đó, để đáp ứng nhu cầu xử lý, phân
tích, sử dụng thông tin hiệu quả hơn, đã làm phát triển kỹ thuật mới và với kỹ thuật
này cho phép ta khai thác được tri thức hữu dụng từ cơ sở dữ liệu (CSDL) lớn được
gọi là các kỹ thuật khai phá dữ liệu. Các kỹ thuật khai phá dữ liệu ra đời đã cho phép
ta khai thác được những tri thức hữu dụng bằng việc trích xuất những thông tin có
mối quan hệ hoặc mối tương quan nhất định từ một kho dữ liệu lớn mà bình thường
không thể nhận diện được từ đó giải quyết các bài toán tìm kiếm, dự báo các xu thế,
các hành vi trong tương lai, và nhiều tính năng thông minh khác. Các kỹ thuật khai
phá dữ liệu đã được ứng dụng trong nhiều lĩnh vực như: kinh tế, tài chính, y tế, giáo
dục….
Nhừng năm qua, cũng đã có nhiều nghiên cứu về dự báo thị tường lao động,
tuy nhiên những kết quả được nghiên cứu về dự báo thị trường lao động mới chỉ đề
cập chung mang tính quốc gia và chưa thể áp dụng cho các tỉnh/thành trong cả nước,
cũng chỉ đề cập đến giải pháp, dự báo về xu hướng, và chỉ mới dừng lại ở dự báo nhu
cầu việc làm và việc làm theo ngành nên cần phải triển khai tiếp dự báo việc làm theo
trình độ đào tạo, theo giáo dục nghề nghiệp và để từ đó xác định nhu cầu nhân lực
cho tương lai. Nhóm nghiên cứu của Trung tâm Quốc gia Dự báo và Thông tin Thị
trường lao động đã sử dụng mô hình dự báo của Thụy Điển áp dụng thử nghiệm cho
Hải Dương, đã tính toán và xây dựng một phần đầu ra của mô hình Thụy Điển, tuy
nhiên, hiện mới dừng lại ở xây dựng mô hình và thu thập dữ liệu cho mô hình. Những
khó khăn về cơ sở dữ liệu khi áp dụng các mô hình dự báo trong điều kiện Việt Nam
hiện nay đã được đề cập, song các phương án hoàn thiện CSDL cũng cần tiếp tục đề
3
xuất có sức thuyết phục mạnh hơn, việc đưa vào khai thác cơ sở dữ liệu điều tra về
cung - cầu lao động từ năm 2011 đến nay cũng chưa được các nghiên cứu thực hiện…
Trong các nghiên cứu đã thực hiện, cơ sở khoa học để hình thành dự báo thị
trường lao động chưa được giải quyết triệt để và những khó khăn khi áp dụng các mô
hình dự báo trong điều kiện Việt Nam hiện nay chưa được xác định rõ ràng. Điều này
đang đòi hỏi phải hệ thống hóa, bổ sung cả về lý luận và thực tiễn nhằm tăng sức
thuyết phục, độ tin cậy của các mô hình dự báo thị trường lao động, cũng như việc
nghiên cứu đưa ra mô hình nhắm khai thác dữ liệu đã có một cách hiệu quả.
Trong đề tài nghiên cứu này, chúng tôi nghiên cứu về ứng dụng khai phá dữ
liệu và các thuật toán Linear Regression, K-nearest neighbors, Decision trees và
Random forests để khai phá dữ liệu cho Dữ liệu tại Trung tâm dịch vụ việc làm tỉnh
Bình Dương với một cơ sở dữ liệu điều tra về cầu lao động của các Doanh nghiệp
trên địa bàn tỉnh Bình Dương bao gồm 5 bảng chính (5 năm, từ năm 2011 đến 2015)
với 38.739 dòng dữ liệu về thông tin cầu lao động của doanh nghiệp. Cơ sở dữ liệu
mô tả thông tin cầu lao động của Doanh nghiệp bao gồm 35 thuộc tính và trong quá
trình thực nghiệm chúng tôi tìm hiểu các yếu tố có thể tác động về thị trường lao động
và từ đó chọn lựa để đưa thêm vào dữ liệu dự báo. Từ thực nghiệm trên các mô hình
và dữ liệu nêu trên, so sánh các độ đo của hệ số tương quan, độ chính xác của kết quả
dự báo của các thuộc tính theo từng mô hình …từ đó chọn mô hình Phù hợp để thực
nghiệm dự báo và đưa ra kết quả dự báo nhu cầu lao động theo nhóm ngành nghề,
lĩnh vực đào tạo và trình độ chuyên môn kỹ thuật tại tỉnh Bình Dương.
Phần còn lại của đề tài này được tổ chức như sau: Chương 2 chúng tôi trình
bày các nghiên cứu liên quan, chương 3 sẽ giới thiệu các mô hình dự báo. Chương 4
trình bày đánh giá thực nghiệm và Phần 5 là kết luận.
4
CHƯƠNG 2.
CÁC NGHIÊN CỨU LIÊN QUAN
Ở phần nội dung chương 2 này, chúng tôi trình bày một số khái niệm về Thị
trường lao động, giới thiệu các phương pháp dự báo, phương pháp khai phá dữ liệu
và các nghiên cứu liên quan đã được công bố về thông tin thị trường lao động như:
mô hình thị trường lao động, thực trạng lao động việc làm tại Việt Nam; Quy hoạch
phát triển nhân lực Việt Nam giai đoạn 2011 – 2020; Cơ sở khoa học của dự báo nhu
cầu nhân lực trình độ cao đẳng, đại học ở Việt Nam và một số nghiên cứu liên quan
đến mô hình dự báo ngắn hạn, mô hình dự báo dài hạn trên một số nước.
2.1. Thị trường lao động
2.1.1.
Khái niệm và đặc điểm chung của thị trường lao động
Khái niệm thị trường lao động
Thị trường lao động (hoặc thị trường sức lao động) là nơi thực hiện các quan
hệ xã hội giữa người bán sức lao động (người lao động làm thuê) và người mua sức
lao động (người sử dụng sức lao động), thông qua các hình thức thỏa thuận về giá cả
(tiền công, tiền lương) và các điều kiện làm việc khác, trên cơ sở một hợp đồng lao
động bằng văn bản, bằng miệng, hoặc thông qua các dạng hợp đồng hay thỏa thuận
khác[2].
Đặc điểm thị trường lao động
Thị trường lao động hoạt động theo các quy luật khách quan của kinh tế thị
trường, đó là quy luật giá trị, quy luật cạnh tranh, quy luật cung - cầu…
Thị trường lao động hình thành, phát triển và hoạt động rất đa dạng với nhiều
phân lớp khác nhau: thị trường lao động trong nước, thị trường lao động ngoài nước;
thị trường lao động nông thôn, thị trường lao động thành thị...
5
2.1.2.
Các yếu tố thị trường lao động
Về cơ bản, thị trường lao động được tạo thành từ ba bộ phận chính đó là cung
lao động, cầu lao động và giá cả sức lao động hay mức tiền công, tiền lương mà tại
đó người sở hữu sức lao động đồng ý làm việc.
2.1.3.
Thông tin thị trường lao động
Thông tin thị trường lao động là các chỉ tiêu phản ánh trạng thái các thành tố
của thị trường lao động như: Cung lao động, cầu lao động, các điều kiện làm việc
(tiền lương, trợ cấp …) và các trung gian thị trường lao động.
2.1.4.
Hệ thống thông tin thị trường lao động
Hệ thống thông tin lao động và thị trường lao động là một cấu trúc hợp nhất
các yếu tố thông tin quản lý lao động và hình thành thị trường lao động tạo ra một cơ
sở dữ liệu và dòng thông tin quản lý lao động và thị trường lao động trên cơ sở thu
nhập, lưu giữ, truyền dẫn, xử lý và phổ biến thông tin thông qua tổ chức nhiều cấp,
có các nhóm thành phần thực hiện các chức năng nhất định trong một chỉnh thể thống
nhất.
Hệ thống thông tin lao động và thị trường lao động sử dụng công cụ máy tính
trong việc thu nhập, lưu trữ, xử lý thông tin. Công việc này được thực hiện qua môi
trường mạng INTERNET cung cấp thông tin cho các cơ quan, doanh nghiệp, trung
tâm giới thiệu việc làm….và người lao động [2].
2.2. Một số phương pháp dự báo
-
Có nhiều cách để phân loại các dự báo khác nhau. Nếu căn cứ vào độ dài
thời gian dự báo thì có thể phân thành ba loại [4], [9].
Dự báo dài hạn: Là những dự báo có thời gian dự báo từ 5 năm trở lên.
Thường dùng để dự báo những mục tiêu, chiến lược về kinh tế chính trị,
khoa học kỹ thuật trong thời gian dài ở tầm vĩ mô.
Dự báo trung hạn: Là những dự báo có thời gian dự báo từ 3 đến 5 năm.
Thường phục vụ cho việc xây dựng những kế hoạch trung hạn về kinh tế
6
văn hoá xã hội… ở tầm vi mô và vĩ mô.
Dự báo ngắn hạn: Là những dự báo có thời gian dự báo dưới 3 năm, loại dự
báo này thường dùng để dự báo hoặc lập các kế hoạch kinh tế, văn hoá, xã
hội chủ yếu ở tầm vi mô và vĩ mô trong khoảng thời gian ngắn nhằm phục
vụ cho công tác chỉ đạo kịp thời. Cách phân loại này chỉ mang tính tương
đối tuỳ thuộc vào từng loại hiện tượng để quy định khoảng cách thời gian
cho phù hợp với loại hiện tượng đó.
-
Dựa vào đối tượng dự báo, có thể chia dự báo thành: Dự báo khoa học, dự
báo kinh tế, dự báo xã hội, dự báo tự nhiên, thiên văn học…Căn cứ vào phương pháp
dự báo, có thể chia thành 3 nhóm [4], [9]:
-
Dự báo bằng phương pháp chuyên gia: Loại dự báo này được tiến hành trên
cơ sở tổng hợp, xử lý ý kiến của các chuyên gia thông thạo với hiện tượng được
nghiên cứu, từ đó có phương pháp xử lý thích hợp đề ra các dự đoán, các dự đoán này
được cân nhắc và đánh giá chủ quan từ các chuyên gia. Phương pháp này có ưu thế
trong trường hợp dự đoán những hiện tượng hay quá trình bao quát rộng, phức tạp,
chịu sự chi phối của khoa học- kỹ thuật, sự thay đổi của môi trường, thời tiết, chiến
tranh trong khoảng thời gian dài. Một cải tiến của phương pháp Delphi – là phương
pháp dự báo dựa trên cơ sở sử dụng một tập hợp những đánh giá của một nhóm
chuyên gia. Mỗi chuyên gia được hỏi ý kiến và rồi dự báo của họ được trình bày dưới
dạng thống kê tóm tắt. Việc trình bày những ý kiến này được thực hiện một cách gián
tiếp (không có sự tiếp xúc trực tiếp) để tránh những sự tương tác trong nhóm nhỏ qua
đó tạo nên những sai lệch nhất định trong kết quả dư báo. Sau đó người ta yêu cầu
các chuyên gia duyệt xét lại những dự báo của họ [4], [9].
-
Dự báo theo phương trình hồi quy: Theo phương pháp này, mức độ cần dự
báo phải được xây dựng trên cơ sở xây dựng mô hình hồi quy, mô hình này được xây
dựng phù hợp với đặc điểm và xu thế phát triển của hiện tượng nghiên cứu. Để xây
dựng mô hình hồi quy, đòi hỏi phải có tài liệu về hiện tượng cần dự báo và các hiện
tượng có liên quan. Loại dự báo này thường được sử dụng để dự báo trung hạn và dài
7
hạn ở tầm vĩ mô [4], [9].
Dự báo dựa vào dãy số thời gian: Là dựa trên cơ sở dãy số thời gian phản
-
ánh sự biến động của hiện tượng ở những thời gian đã qua để xác định mức độ của
hiện tượng trong tương lai.Trong luận án này, tác giả nhóm các phương pháp dự báo
thành 2 nhóm chính là các phương pháp định tính và các phương pháp định lượng
[4], [9].
Phương pháp dự báo định tính: Phương pháp này dựa trên cơ sở nhận xét
của những yếu tố liên quan, dựa trên những ý kiến về các khả năng có liên
hệ của những yếu tố liên quan này trong tương lai. Phương pháp định tính
có liên quan đến mức độ phức tạp khác nhau, từ việc khảo sát ý kiến được
tiến hành một cách khoa học để nhận biết các sự kiện tương lai hay từ ý
kiến phản hồi của một nhóm đối tưởng hưởng lợi (chịu tác động) nào đó.
Phương pháp dự báo định lượng: Các phương pháp dự báo định lượng
thường dựa trên số liệu quá khứ, những số liệu này giả sử có liên quan đến
tương lai và có thể tìm thấy được. Tất cả các mô hình dự báo theo định
lượng có thể sử dụng thông qua chuỗi thời gian và các giá trị này được quan
sát đo lường các giai đoạn theo từng chuỗi .Thông thường khi dự báo người
ta thường hay kết hợp cả phương pháp định tính và định lượng để nâng cao
mức độ chính xác của dự báo. Bên cạnh đó, vấn đề cần dự báo đôi khi không
thể thực hiện được thông qua một phương pháp dự báo đơn lẻ mà đòi hỏi
kết hợp nhiều hơn một phương pháp nhằm mô tả đúng bản chất sự việc cần
dự báo.
2.3. Khai phá dữ liệu
2.3.1. Giới thiệu về khai phá dữ liệu
Theo J.Han và M.Kamber, khai phá dữ liệu (Data Mining) là quá trình trích
chọn ra tri thức từ trong một tập hợp rất lớn dữ liệu [23].
8
Khai phá dữ liệu là một bước trong quá trình phát hiện tri thức trong cơ sở dữ liệu,
thực hiện một thuật toán khai phá dữ liệu để tìm ra các mẫu dữ liệu thích hợp [10].
Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức. Thuật
ngữ khai phá dữ liệu còn được một số nhà khoa học gọi là phát hiện tri thức trong cơ
sở dữ liệu (knowledge discovery in database _KDD) (theo Fayyad Smyth and
Piatestky-Shapiro 1989). Quá trình này diễn ra như Hình 2.1 [20], [24],[25].
Hình 2.1. Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với dữ liệu
được triết xuất thô. Nội dung của quá trình được mô tả như sau:
Gom dữ liệu (Gathering): Bước này thu thập dữ liệu từ các cơ sở dữ liệu,
các kho dữ liệu hay là dữ liệu từ các nguồn website.
Trích lọc dữ liệu (Selection): Bước này sẽ thực hiện việc lọc, lựa chọn dữ
liệu thu thập được theo các tiêu chuẩn nào đó.
Làm sạch và tiền xử lý dữ liệu (Cleansing Pre-processing Preparated): Giai
đoạn này dữ liệu sẽ được làm sạch, tiền xử lý để loại bỏ những dữ liệu dư thừa, vô
nghĩa và không có khả năng kết nối. Giai đoạn thứ ba là một bước rất quan trọng
trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu
là dữ liệu không đầy đủ hoặc không thống nhất, thiếu chặt chẽ. Vì vậy dữ liệu thường
9
chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. Chính vì vậy, đây là
quá trình rất quan trọng trong khai phá dữ liệu vì nếu dữ liệu không được làm sạch
và tiền xử lý sẽ cho ra những kết quả không chính xác.
Chuyển đổi dữ liệu (Transformed Data): Bước này dữ liệu sẽ được tổ chức
và sử dụng lại cho phù hợp hơn với mục đích khai phá dữ liệu.
Khai phá dữ liệu (Data Mining): Giai đoạn này sẽ sử dụng các thuật toán
để trích ra các mẫu từ dữ liệu thu thập được. Đây là bước tư duy trong khai phá dữ
liệu, các thuật toàn thường dùng để khai phá dữ liệu là thuật toán phân loại dữ liệu,
kết hợp dữ liệu, thuật toán mô hình hóa dữ liệu tuần tự.
Đánh giá kết quả mẫu (evaluation of result): Ở giai đoạn này các mẫu dữ liệu
sẽ được triết xuất ra từ các thuật toán khai phá dữ liệu. Các kết quả thu được đôi khi
bị sai lệch, vì vậy cần phải đưa ra những tiêu chuẩn để đánh giá cho các mẫu dữ liệu
để rút ra được những tri thức cần thiêt.
2.3.2. Các kỹ thuật khai phá dữ liệu phổ biến
Trong thực tế có nhiều kỹ thuật khai phá dữ liệu khác nhau nhằm thực hiện
hai chức năng mô tả và dự đoán [27-29].
Kỹ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả các tính chất hoặc các đặc
tính chung của dữ liệu trong cơ sở dữ liệu hiện có. Một số kỹ thuật khai phá trong
nhóm này là: phân cụm dữ liệu (Clustering), tổng hợp (Summarisation), trực quan
hoá (Visualization), phân tích sự phát triển và độ lệch (Evolution and deviation
analyst),…
Kỹ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào
các suy diễn trên cơ sở dữ liệu hiện thời. Một số kỹ thuật khai phá trong nhóm này
là: phân lớp (Classification), hồi quy (Regression), cây quyết định (Decision tree),
thống kê (statictics), mạng nơron (neural network), luật kết hợp,…
Một số kỹ thuật phổ biến thường được sử dụng để khai phá dữ liệu hiện nay là
[6]:
10
Phân lớp dữ liệu
Mục tiêu của phân lớp dữ liệu là thực hiện việc xây dựng các mô hình dự báo
nhằm mô tả hoặc phát hiện các lớp hoặc khái niệm cho các dự báo tiếp theo. Quá
trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu. Mô
hình được sử dụng để dự đoán nhãn lớp khi mà độ chính xác của mô hình chấp nhận
được. Một số phương phương pháp điển hình :
- Cây quyết định: là một công cụ mạnh và hiệu quả trong việc phân lớp và dự
báo. Các đối tượng dữ liệu được phân thành các lớp. Các giá trị của đối tượng dữ liệu
chưa biết sẽ được dự đoán, dự báo. Tri thức được rút ra trong kỹ thuật này thường
được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử dụng
[19], [21].
- Mạng nơron: Mạng nơron là một trong những kỹ thuật khai phá dữ liệu được
sử dụng phổ biến hiện nay, kỹ thuật này được phát triển dựa trên một nền tảng toán
học và mô hình thần kinh trung ương của con người. Kết quả của mạng nơron có khả
năng tạo ra các mô hình dự báo, dự đoán có mức độ chính xách và độ tin cậy cao.
Phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là nhóm các dữ liệu tương tự nhau trong tập
dữ liệu vào các cụm, sao cho các đối tượng thuộc cùng một lớp là tương đồng để có
thể phát hiện được các mẫu phân bố dữ liệu trong miền ứng dụng.
Khai phá luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các
giá trị dữ liệu trong cơ sở dữ liệu. Đầu ra của giải thuật luật kết hợp là tập luật kết
hợp tìm được.
Hồi quy
Phương pháp hồi quy là một bài toán điển hình trong phân tích thống kê và dự
báo, trong đó tiến hành dự đoán các giá trị của một hoặc một số biến phụ thuộc vào
- Xem thêm -