Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Chuyên ngành kinh tế Sử dụng data mining dự báo nhu cầu lao động cho một số ngành nghề trên địa bàn t...

Tài liệu Sử dụng data mining dự báo nhu cầu lao động cho một số ngành nghề trên địa bàn tỉnh bình dương

.PDF
67
1
50

Mô tả:

i UBND TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN KIM SƠN SỬ DỤNG DATA MINING DỰ BÁO NHU CẦU LAO ĐỘNG CHO MỘT SỐ NGÀNH NGHỀ TRÊN ĐỊA BÀN TỈNH BÌNH DƯƠNG LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 BÌNH DƯƠNG, NĂM 2019 ii UBND TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN KIM SƠN SỬ DỤNG DATA MINING DỰ BÁO NHU CẦU LAO ĐỘNG CHO MỘT SỐ NGÀNH NGHỀ TRÊN ĐỊA BÀN TỈNH BÌNH DƯƠNG LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. LÊ TUẤN ANH BÌNH DƯƠNG, NĂM 2019 iii LỜI CAM ĐOAN Tôi cam đoan luận văn này : “Sử dụng Data Mining dự báo nhu cầu lao động cho một số ngành nghề trên địa bàn tỉnh Bình Dương” là công trình nghiên cứu của riêng tôi. Các số liệu là thực tế, kết quả thực hiện nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các tài liệu tham khảo, sản phẩm/ nghiên cứu sử dụng cho luận văn này được trính dẫn theo đúng quy định. Bình Dương, ngày 07 tháng 3 năm 2019 Học viên thực hiện luận văn Nguyễn Kim Sơn iv LỜI CẢM ƠN Lời đầu tiên tôi xin bày tỏ lòng biết ơn chân thành PGS.TS. Lê Tuấn Anh, Thầy đã tận tình chỉ dẫn, định hướng và truyền đạt những kiến thức cho tôi suốt thời gian thực hiện luận văn này. Tôi xin bày tỏ long biết ơn ơn đến với quí Thầy Cô giáo trong khoa Kỹ thuật - Công nghệ, Phòng Đào tạo sau đại học – Trường đại học Thủ Dầu Một đã trang bị cho tôi những kiến thức nền tảng quan trọng và hỗ trợ tận tình trong suốt quá trình tôi theo học. Tôi xin chân thành cảm ơn Lãnh đạo Sở Lao động – Thương binh và Xã hội, Lãnh đạo Trung tâm Dịch vụ Việc làm tỉnh Bình Dương đã tạo điều kiện và cung cấp số liệu cho tôi hoàn thiện luận văn này. Mặc dù đã cố gắng song luận văn cũng không tránh khỏi những thiếu sót. Tôi rất mong nhận được những ý kiến đóng góp của Thầy Cô để tôi có thể hoàn thiện hơn đề tài của mình. Xin trân trọng cảm ơn. Bình Dương, ngày 07 tháng 3 năm 2019 Học viên thực hiện luận văn Nguyễn Kim Sơn v MỤC LỤC LỜI CẢM ƠN ................................................................................................. IV DANH MỤC CÁC CHỮ VIẾT TẮT ............................................................ VII DANH SÁCH BẢNG ................................................................................... VIII DANH SÁCH HÌNH VẼ ................................................................................. X CHƯƠNG 1. TỔNG QUAN .........................................................................1 CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN ........................................4 2.1. THỊ TRƯỜNG LAO ĐỘNG .............................................................4 2.1.1. Khái niệm và đặc điểm chung của thị trường lao động ................4 2.1.2. Các yếu tố thị trường lao động......................................................5 2.1.3. Thông tin thị trường lao động .......................................................5 2.1.4. Hệ thống thông tin thị trường lao động ........................................5 2.2. MỘT SỐ PHƯƠNG PHÁP DỰ BÁO ...............................................5 2.3. KHAI PHÁ DỮ LIỆU .......................................................................7 2.3.1. Giới thiệu về khai phá dữ liệu .......................................................7 2.3.2. Các kỹ thuật khai phá dữ liệu phổ biến ........................................9 2.4. CÁC NGHIÊN CỨU LIÊN QUAN .................................................11 CHƯƠNG 3. MÔ HÌNH DỰ BÁO, TIÊU CHÍ ĐÁNH GIÁ VÀ YẾU TỐ TÁC ĐỘNG ĐẾN DỰ BÁO CẦU LAO ĐỘNG ..........................................16 3.1. XÁC ĐỊNH BÀI TOÁN CHO MÔ HÌNH DỰ BÁO ......................16 3.2. MỘT SỐ THUẬT TOÁN XÂY DỰNG MÔ HÌNH DỰ BÁO .......17 3.2.1. Linear Regression .......................................................................17 3.2.2. K - Nearest Neighbors ................................................................18 3.2.3. Decision trees và Random forests ...............................................20 3.3. ĐỘ ĐO ĐÁNH GIÁ MÔ HÌNH DỰ BÁO ......................................24 3.4. CÁC YẾU TỐ TÁC ĐỘNG ĐẾN CẦU LAO ĐỘNG ....................25 3.4.1. Các yếu tố về chính sách .............................................................25 vi 3.4.2. Các yếu tố về kinh tế - xã hội .....................................................25 3.4.3. Các yếu tố khoa học công nghệ ..................................................26 3.4.4. Lựa chọn yếu tố tác động thêm vào dữ liệu dự báo. ...................26 CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .....................28 4.1. MÔ HÌNH THỰC NGHIỆM ...........................................................28 4.2. CHUẨN BỊ TẬP DỮ LIỆU .............................................................31 4.2.1. Thông tin về cơ sở dữ liệu ..........................................................31 4.2.2. Mô tả về cơ sở dữ liệu thực nghiệm ...........................................31 4.3. CÀI ĐẶT CHƯƠNG TRÌNH THỰC NGHIỆM .............................36 4.4. THỰC NGHIỆM MÔ HÌNH DỰ BÁO ...........................................36 4.4.1. Thực nghiệm, đánh giá mô hình dự báo .....................................36 4.4.1.1.Đánh giá kết quả thực nghiệm mô hình dựa trên các độ đo .36 4.4.1.2.Kiểm chứng số liệu dự báo với số liệu thực tế ......................42 4.4.2. Kết quả dự báo dựa trên Random forest .....................................45 KẾT LUẬN ....................................................................................................50 TÀI LIỆU THAM KHẢO ..............................................................................52 vii DANH MỤC CÁC CHỮ VIẾT TẮT Viết tắt ILO Tiếng Anh International Labour Tiếng Việt Tổ chức lao động Quốc tế Organization LR Linear Regression Hồi quy tuyến tính KNN K-nearest neighbors K láng giềng gần DTs Decision trees Cây quyết định RF Random forests Rừng ngẫu nhiên CSDL Cơ sở dữ liệu TTLĐ Thị trường lao động viii DANH SÁCH BẢNG Bảng 3.1. Độ lệch của kết quả số liệu dự báo so với số liệu thực tế năm 2015 của nhóm thuộc tính thông tin chung về số Lao động trong doanh nghiệp trên 2 mô hình ............................................................................... 16 Bảng 3.2. Hệ số tương quan giữa tổng số lao động đại học trở lên và GDP, dân số cả nước, dân số Bình Dương ......................................................... 26 Bảng 4.1. Bảng mô tả dữ liệu thực nghiệm dự báo .................................. 34 Bảng 4.2: kết quả độ đo các thuộc tính thông tin chung về số lao động .. 37 Bảng 4.3: kết quả độ đo các thuộc tính số lao động theo chuyên môn kỹ thuật ........................................................................................................... 38 Bảng 4.4: kết quả độ đo các thuộc tính số lao động theo lĩnh vực giáo dục đào tạo ....................................................................................................... 39 Bảng 4.5: kết quả độ đo các thuộc tính số lao động theo lĩnh vực nhà nghiên cứu ............................................................................................................. 40 Bảng 4.6: Kết quả độ đo trung bình của các thuộc tính trên các mô hình 41 Bảng 4.7: Số liệu thực tế, số liệu dự báo và độ lệch của kết quả số liệu dự báo so với số liệu thực tế năm 2015 của nhóm thuộc tính thông tin chung về số lao động trong doanh nghiệp trên 4 mô hình................................... 42 Bảng 4.8: Số liệu thực tế, số liệu dự báo và độ lệch của kết quả số liệu dự báo so với số liệu thực tế năm 2015 của nhóm thuộc tính số lao động theo chuyên môn kỹ thuật trên 4 mô hình ........................................................ 43 Bảng 4.9: Số liệu thực tế, số liệu dự báo và độ lệch của kết quả số liệu dự báo so với số liệu thực tế năm 2015 của nhóm thuộc tính số lao động theo lĩnh vực giáo dục đào tạo trên 4 mô hình.................................................. 43 ix Bảng 4.10: Số liệu thực tế, số liệu dự báo và độ lệch của kết quả số liệu dự báo so với số liệu thực tế năm 2015 của nhóm thuộc tính số lao động theo lĩnh vực nhà nghiên cứu trên 4 mô hình ................................................... 44 Bảng 4.11. Tỷ lệ phần trăm tập kiểm tra và kết quả độ lệch giữa số liệu dự báo so với số liệu thực tế năm 2015 trên thuộc tính tổng số lao động ..... 46 Bảng 4.12. Số cây trong rừng và kết quả độ lệch giữa số liệu dự báo so với số liệu thực tế năm 2015 trên thuộc tính tổng số lao động ....................... 47 Bảng 4.13: Độ chính xác của kết quả số liệu dự báo so với số liệu thực tế năm 2015 của nhóm thuộc tính thông tin chung về số Lao động trong doanh nghiệp theo số năm dự báo ....................................................................... 47 Bảng 4.14: Độ chính xác của kết quả số liệu dự báo so với số liệu thực tế năm 2015 của nhóm thuộc tính số lao động theo chuyên môn kỹ thuật theo số năm dự báo ........................................................................................... 48 Bảng 4.15: Độ chính xác của kết quả số liệu dự báo so với số liệu thực tế năm 2015 của nhóm thuộc tính số lao động theo lĩnh vực giáo dục đào tạo theo số năm dự báo ................................................................................... 48 Bảng 4.16: Độ chính xác của kết quả số liệu dự báo so với số liệu thực tế năm 2015 của nhóm thuộc tính số lao động theo lĩnh vực nhà nghiên cứu theo số năm dự báo ................................................................................... 48 Bảng 4.17: Độ chính xác trung bình kết quả dự báo của các thuộc tính với số năm dự báo là 01 năm và 02 năm ......................................................... 49 x DANH SÁCH HÌNH VẼ Hình 2.1. Quá trình khai phá dữ liệu .......................................................... 8 Hình 3.1: Mô hình hồi quy tuyến tính....................................................... 18 Hình 3.2: Mô hình Random forest cho vấn đề hồi quy ............................ 22 Hình 4.1: Mô hình thực nghiệm dự báo .................................................... 29 Hình 4.2: Biểu đồ so sánh kết quả trung bình độ đo các thuộc tính trên các mô hình...................................................................................................... 41 Hình 4.3: Biểu đồ độ chính xác của kết quả số liệu dự báo so với số liệu thực tế năm 2015 của giá trị trung bình độ chính xác các thuộc tính trên 4 mô hình...................................................................................................... 45 1 CHƯƠNG 1. TỔNG QUAN Trong chương này, chúng tôi sẽ trình bày một cách sơ lược về tỉnh Bình Dương, vai trò của nguồn lực trong phát triển kinh tế của Tỉnh, những khó khăn trong việc phân tích, dự báo thông tin thị trường lao động từ đó cho thấy sự cần thiết trong việc xây dựng mô hình dự báo về nhu cầu lao động đáp ứng yêu cầu cấp thiết của hoạt động thị trường lao động trên địa bàn tỉnh Bình Dương. Nguồn lực con người luôn là vấn đề quan trọng quyết định sức mạnh của đất nước đặc biệt trong bối cảnh toàn cầu hóa như hiện nay. Ở nước ta, Đảng và Nhà Nước luôn khẳng định quan điểm coi con người là trung tâm của sự phát triển, của công cuộc xây dựng và bảo vệ Tổ quốc. Hiện nay, trong điều kiện đẩy mạnh công nghiệp hóa và hội nhập quốc tế, phát triển nhân lực được coi là một trong ba khâu đột phá của chiến lược chuyển đổi mô hình phát triển kinh tế - xã hội của đất nước; đồng thời, phát triển nhân lực trở thành nền tảng phát triển bền vững và tăng lợi thế cạnh tranh quốc gia. Bình Dương là một tỉnh nằm ở vùng trọng điểm kinh tế phía Nam, hiện nay có 29 khu công nghiệp và hơn 12 cụm công nghiệp đang hoạt động với trên 32 ngàn doanh nghiệp đăng ký và hơn một triệu lao động đang làm việc, hàng năm Bình Dương cần thêm trên 45 ngàn lao động, trong đó lao động có tay nghề và có trình độ chuyên môn cao là trên 80%. Việc nghiên cứu đưa ra mô hình dự báo về nhu cầu lao động cho một số ngành nghề tại tỉnh Bình Dương là hết sức cần thiết trong việc góp phần xây dựng hệ thống thông tin thị trường lao động nhằm tạo bức tranh tổng thể về thị trường lao động, từ đó sẽ thúc đẩy công tác hỗ trợ người lao động, tạo điều kiện phục vụ người dân nhanh chóng và tốt hơn, thông qua hoạt động của Hệ thống thông tin thị trường lao động các ngành, cac cấp sẽ có kế hoạch cụ thể trong việc đào tạo – dạy nghề và các giải pháp thiết thực trong việc giới thiệu và giải quyết việc làm của tỉnh, định hướng hoạch định chiến lược cho tương lai. Hệ thống thông tin thị trường lao động phù hợp với xu thế phát triển, tăng hiệu quả các dịch vụ hỗ trợ giải quyết việc làm, tăng cơ hội giao dịch việc làm giữa người lao động và người sử dụng lao 2 động... Trong những năm gần đây, công nghệ thông tin phát triển mạnh mẽ và việc ứng dụng cộng nghệ thông tin trong nhiều lĩnh vực trong đời sống, kinh tế xã hội đã làm lượng dữ liệu được thu thập và lưu trữ ở các hệ thống thông tin tăng lên một cách nhanh chóng dẫn tới sự bùng nổ thông tin. Lượng dữ liệu đó là một tài nguyên vô giá nếu như chúng ta biết cách phát hiện và khai thác những thông tin hữu ích có trong đó, bên cạnh đó các phương pháp khai thác dữ liệu truyền thống ngày càng không đáp ứng được như cầu thục tế. Với những lý do đó, để đáp ứng nhu cầu xử lý, phân tích, sử dụng thông tin hiệu quả hơn, đã làm phát triển kỹ thuật mới và với kỹ thuật này cho phép ta khai thác được tri thức hữu dụng từ cơ sở dữ liệu (CSDL) lớn được gọi là các kỹ thuật khai phá dữ liệu. Các kỹ thuật khai phá dữ liệu ra đời đã cho phép ta khai thác được những tri thức hữu dụng bằng việc trích xuất những thông tin có mối quan hệ hoặc mối tương quan nhất định từ một kho dữ liệu lớn mà bình thường không thể nhận diện được từ đó giải quyết các bài toán tìm kiếm, dự báo các xu thế, các hành vi trong tương lai, và nhiều tính năng thông minh khác. Các kỹ thuật khai phá dữ liệu đã được ứng dụng trong nhiều lĩnh vực như: kinh tế, tài chính, y tế, giáo dục…. Nhừng năm qua, cũng đã có nhiều nghiên cứu về dự báo thị tường lao động, tuy nhiên những kết quả được nghiên cứu về dự báo thị trường lao động mới chỉ đề cập chung mang tính quốc gia và chưa thể áp dụng cho các tỉnh/thành trong cả nước, cũng chỉ đề cập đến giải pháp, dự báo về xu hướng, và chỉ mới dừng lại ở dự báo nhu cầu việc làm và việc làm theo ngành nên cần phải triển khai tiếp dự báo việc làm theo trình độ đào tạo, theo giáo dục nghề nghiệp và để từ đó xác định nhu cầu nhân lực cho tương lai. Nhóm nghiên cứu của Trung tâm Quốc gia Dự báo và Thông tin Thị trường lao động đã sử dụng mô hình dự báo của Thụy Điển áp dụng thử nghiệm cho Hải Dương, đã tính toán và xây dựng một phần đầu ra của mô hình Thụy Điển, tuy nhiên, hiện mới dừng lại ở xây dựng mô hình và thu thập dữ liệu cho mô hình. Những khó khăn về cơ sở dữ liệu khi áp dụng các mô hình dự báo trong điều kiện Việt Nam hiện nay đã được đề cập, song các phương án hoàn thiện CSDL cũng cần tiếp tục đề 3 xuất có sức thuyết phục mạnh hơn, việc đưa vào khai thác cơ sở dữ liệu điều tra về cung - cầu lao động từ năm 2011 đến nay cũng chưa được các nghiên cứu thực hiện… Trong các nghiên cứu đã thực hiện, cơ sở khoa học để hình thành dự báo thị trường lao động chưa được giải quyết triệt để và những khó khăn khi áp dụng các mô hình dự báo trong điều kiện Việt Nam hiện nay chưa được xác định rõ ràng. Điều này đang đòi hỏi phải hệ thống hóa, bổ sung cả về lý luận và thực tiễn nhằm tăng sức thuyết phục, độ tin cậy của các mô hình dự báo thị trường lao động, cũng như việc nghiên cứu đưa ra mô hình nhắm khai thác dữ liệu đã có một cách hiệu quả. Trong đề tài nghiên cứu này, chúng tôi nghiên cứu về ứng dụng khai phá dữ liệu và các thuật toán Linear Regression, K-nearest neighbors, Decision trees và Random forests để khai phá dữ liệu cho Dữ liệu tại Trung tâm dịch vụ việc làm tỉnh Bình Dương với một cơ sở dữ liệu điều tra về cầu lao động của các Doanh nghiệp trên địa bàn tỉnh Bình Dương bao gồm 5 bảng chính (5 năm, từ năm 2011 đến 2015) với 38.739 dòng dữ liệu về thông tin cầu lao động của doanh nghiệp. Cơ sở dữ liệu mô tả thông tin cầu lao động của Doanh nghiệp bao gồm 35 thuộc tính và trong quá trình thực nghiệm chúng tôi tìm hiểu các yếu tố có thể tác động về thị trường lao động và từ đó chọn lựa để đưa thêm vào dữ liệu dự báo. Từ thực nghiệm trên các mô hình và dữ liệu nêu trên, so sánh các độ đo của hệ số tương quan, độ chính xác của kết quả dự báo của các thuộc tính theo từng mô hình …từ đó chọn mô hình Phù hợp để thực nghiệm dự báo và đưa ra kết quả dự báo nhu cầu lao động theo nhóm ngành nghề, lĩnh vực đào tạo và trình độ chuyên môn kỹ thuật tại tỉnh Bình Dương. Phần còn lại của đề tài này được tổ chức như sau: Chương 2 chúng tôi trình bày các nghiên cứu liên quan, chương 3 sẽ giới thiệu các mô hình dự báo. Chương 4 trình bày đánh giá thực nghiệm và Phần 5 là kết luận. 4 CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN Ở phần nội dung chương 2 này, chúng tôi trình bày một số khái niệm về Thị trường lao động, giới thiệu các phương pháp dự báo, phương pháp khai phá dữ liệu và các nghiên cứu liên quan đã được công bố về thông tin thị trường lao động như: mô hình thị trường lao động, thực trạng lao động việc làm tại Việt Nam; Quy hoạch phát triển nhân lực Việt Nam giai đoạn 2011 – 2020; Cơ sở khoa học của dự báo nhu cầu nhân lực trình độ cao đẳng, đại học ở Việt Nam và một số nghiên cứu liên quan đến mô hình dự báo ngắn hạn, mô hình dự báo dài hạn trên một số nước. 2.1. Thị trường lao động 2.1.1. Khái niệm và đặc điểm chung của thị trường lao động  Khái niệm thị trường lao động Thị trường lao động (hoặc thị trường sức lao động) là nơi thực hiện các quan hệ xã hội giữa người bán sức lao động (người lao động làm thuê) và người mua sức lao động (người sử dụng sức lao động), thông qua các hình thức thỏa thuận về giá cả (tiền công, tiền lương) và các điều kiện làm việc khác, trên cơ sở một hợp đồng lao động bằng văn bản, bằng miệng, hoặc thông qua các dạng hợp đồng hay thỏa thuận khác[2].  Đặc điểm thị trường lao động Thị trường lao động hoạt động theo các quy luật khách quan của kinh tế thị trường, đó là quy luật giá trị, quy luật cạnh tranh, quy luật cung - cầu… Thị trường lao động hình thành, phát triển và hoạt động rất đa dạng với nhiều phân lớp khác nhau: thị trường lao động trong nước, thị trường lao động ngoài nước; thị trường lao động nông thôn, thị trường lao động thành thị... 5 2.1.2. Các yếu tố thị trường lao động Về cơ bản, thị trường lao động được tạo thành từ ba bộ phận chính đó là cung lao động, cầu lao động và giá cả sức lao động hay mức tiền công, tiền lương mà tại đó người sở hữu sức lao động đồng ý làm việc. 2.1.3. Thông tin thị trường lao động Thông tin thị trường lao động là các chỉ tiêu phản ánh trạng thái các thành tố của thị trường lao động như: Cung lao động, cầu lao động, các điều kiện làm việc (tiền lương, trợ cấp …) và các trung gian thị trường lao động. 2.1.4. Hệ thống thông tin thị trường lao động Hệ thống thông tin lao động và thị trường lao động là một cấu trúc hợp nhất các yếu tố thông tin quản lý lao động và hình thành thị trường lao động tạo ra một cơ sở dữ liệu và dòng thông tin quản lý lao động và thị trường lao động trên cơ sở thu nhập, lưu giữ, truyền dẫn, xử lý và phổ biến thông tin thông qua tổ chức nhiều cấp, có các nhóm thành phần thực hiện các chức năng nhất định trong một chỉnh thể thống nhất. Hệ thống thông tin lao động và thị trường lao động sử dụng công cụ máy tính trong việc thu nhập, lưu trữ, xử lý thông tin. Công việc này được thực hiện qua môi trường mạng INTERNET cung cấp thông tin cho các cơ quan, doanh nghiệp, trung tâm giới thiệu việc làm….và người lao động [2]. 2.2. Một số phương pháp dự báo - Có nhiều cách để phân loại các dự báo khác nhau. Nếu căn cứ vào độ dài thời gian dự báo thì có thể phân thành ba loại [4], [9].  Dự báo dài hạn: Là những dự báo có thời gian dự báo từ 5 năm trở lên. Thường dùng để dự báo những mục tiêu, chiến lược về kinh tế chính trị, khoa học kỹ thuật trong thời gian dài ở tầm vĩ mô.  Dự báo trung hạn: Là những dự báo có thời gian dự báo từ 3 đến 5 năm. Thường phục vụ cho việc xây dựng những kế hoạch trung hạn về kinh tế 6 văn hoá xã hội… ở tầm vi mô và vĩ mô.  Dự báo ngắn hạn: Là những dự báo có thời gian dự báo dưới 3 năm, loại dự báo này thường dùng để dự báo hoặc lập các kế hoạch kinh tế, văn hoá, xã hội chủ yếu ở tầm vi mô và vĩ mô trong khoảng thời gian ngắn nhằm phục vụ cho công tác chỉ đạo kịp thời. Cách phân loại này chỉ mang tính tương đối tuỳ thuộc vào từng loại hiện tượng để quy định khoảng cách thời gian cho phù hợp với loại hiện tượng đó. - Dựa vào đối tượng dự báo, có thể chia dự báo thành: Dự báo khoa học, dự báo kinh tế, dự báo xã hội, dự báo tự nhiên, thiên văn học…Căn cứ vào phương pháp dự báo, có thể chia thành 3 nhóm [4], [9]: - Dự báo bằng phương pháp chuyên gia: Loại dự báo này được tiến hành trên cơ sở tổng hợp, xử lý ý kiến của các chuyên gia thông thạo với hiện tượng được nghiên cứu, từ đó có phương pháp xử lý thích hợp đề ra các dự đoán, các dự đoán này được cân nhắc và đánh giá chủ quan từ các chuyên gia. Phương pháp này có ưu thế trong trường hợp dự đoán những hiện tượng hay quá trình bao quát rộng, phức tạp, chịu sự chi phối của khoa học- kỹ thuật, sự thay đổi của môi trường, thời tiết, chiến tranh trong khoảng thời gian dài. Một cải tiến của phương pháp Delphi – là phương pháp dự báo dựa trên cơ sở sử dụng một tập hợp những đánh giá của một nhóm chuyên gia. Mỗi chuyên gia được hỏi ý kiến và rồi dự báo của họ được trình bày dưới dạng thống kê tóm tắt. Việc trình bày những ý kiến này được thực hiện một cách gián tiếp (không có sự tiếp xúc trực tiếp) để tránh những sự tương tác trong nhóm nhỏ qua đó tạo nên những sai lệch nhất định trong kết quả dư báo. Sau đó người ta yêu cầu các chuyên gia duyệt xét lại những dự báo của họ [4], [9]. - Dự báo theo phương trình hồi quy: Theo phương pháp này, mức độ cần dự báo phải được xây dựng trên cơ sở xây dựng mô hình hồi quy, mô hình này được xây dựng phù hợp với đặc điểm và xu thế phát triển của hiện tượng nghiên cứu. Để xây dựng mô hình hồi quy, đòi hỏi phải có tài liệu về hiện tượng cần dự báo và các hiện tượng có liên quan. Loại dự báo này thường được sử dụng để dự báo trung hạn và dài 7 hạn ở tầm vĩ mô [4], [9]. Dự báo dựa vào dãy số thời gian: Là dựa trên cơ sở dãy số thời gian phản - ánh sự biến động của hiện tượng ở những thời gian đã qua để xác định mức độ của hiện tượng trong tương lai.Trong luận án này, tác giả nhóm các phương pháp dự báo thành 2 nhóm chính là các phương pháp định tính và các phương pháp định lượng [4], [9].  Phương pháp dự báo định tính: Phương pháp này dựa trên cơ sở nhận xét của những yếu tố liên quan, dựa trên những ý kiến về các khả năng có liên hệ của những yếu tố liên quan này trong tương lai. Phương pháp định tính có liên quan đến mức độ phức tạp khác nhau, từ việc khảo sát ý kiến được tiến hành một cách khoa học để nhận biết các sự kiện tương lai hay từ ý kiến phản hồi của một nhóm đối tưởng hưởng lợi (chịu tác động) nào đó.  Phương pháp dự báo định lượng: Các phương pháp dự báo định lượng thường dựa trên số liệu quá khứ, những số liệu này giả sử có liên quan đến tương lai và có thể tìm thấy được. Tất cả các mô hình dự báo theo định lượng có thể sử dụng thông qua chuỗi thời gian và các giá trị này được quan sát đo lường các giai đoạn theo từng chuỗi .Thông thường khi dự báo người ta thường hay kết hợp cả phương pháp định tính và định lượng để nâng cao mức độ chính xác của dự báo. Bên cạnh đó, vấn đề cần dự báo đôi khi không thể thực hiện được thông qua một phương pháp dự báo đơn lẻ mà đòi hỏi kết hợp nhiều hơn một phương pháp nhằm mô tả đúng bản chất sự việc cần dự báo. 2.3. Khai phá dữ liệu 2.3.1. Giới thiệu về khai phá dữ liệu Theo J.Han và M.Kamber, khai phá dữ liệu (Data Mining) là quá trình trích chọn ra tri thức từ trong một tập hợp rất lớn dữ liệu [23]. 8 Khai phá dữ liệu là một bước trong quá trình phát hiện tri thức trong cơ sở dữ liệu, thực hiện một thuật toán khai phá dữ liệu để tìm ra các mẫu dữ liệu thích hợp [10]. Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức. Thuật ngữ khai phá dữ liệu còn được một số nhà khoa học gọi là phát hiện tri thức trong cơ sở dữ liệu (knowledge discovery in database _KDD) (theo Fayyad Smyth and Piatestky-Shapiro 1989). Quá trình này diễn ra như Hình 2.1 [20], [24],[25]. Hình 2.1. Quá trình khai phá dữ liệu Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với dữ liệu được triết xuất thô. Nội dung của quá trình được mô tả như sau:  Gom dữ liệu (Gathering): Bước này thu thập dữ liệu từ các cơ sở dữ liệu, các kho dữ liệu hay là dữ liệu từ các nguồn website.  Trích lọc dữ liệu (Selection): Bước này sẽ thực hiện việc lọc, lựa chọn dữ liệu thu thập được theo các tiêu chuẩn nào đó.  Làm sạch và tiền xử lý dữ liệu (Cleansing Pre-processing Preparated): Giai đoạn này dữ liệu sẽ được làm sạch, tiền xử lý để loại bỏ những dữ liệu dư thừa, vô nghĩa và không có khả năng kết nối. Giai đoạn thứ ba là một bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là dữ liệu không đầy đủ hoặc không thống nhất, thiếu chặt chẽ. Vì vậy dữ liệu thường 9 chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. Chính vì vậy, đây là quá trình rất quan trọng trong khai phá dữ liệu vì nếu dữ liệu không được làm sạch và tiền xử lý sẽ cho ra những kết quả không chính xác.  Chuyển đổi dữ liệu (Transformed Data): Bước này dữ liệu sẽ được tổ chức và sử dụng lại cho phù hợp hơn với mục đích khai phá dữ liệu.  Khai phá dữ liệu (Data Mining): Giai đoạn này sẽ sử dụng các thuật toán để trích ra các mẫu từ dữ liệu thu thập được. Đây là bước tư duy trong khai phá dữ liệu, các thuật toàn thường dùng để khai phá dữ liệu là thuật toán phân loại dữ liệu, kết hợp dữ liệu, thuật toán mô hình hóa dữ liệu tuần tự.  Đánh giá kết quả mẫu (evaluation of result): Ở giai đoạn này các mẫu dữ liệu sẽ được triết xuất ra từ các thuật toán khai phá dữ liệu. Các kết quả thu được đôi khi bị sai lệch, vì vậy cần phải đưa ra những tiêu chuẩn để đánh giá cho các mẫu dữ liệu để rút ra được những tri thức cần thiêt. 2.3.2. Các kỹ thuật khai phá dữ liệu phổ biến Trong thực tế có nhiều kỹ thuật khai phá dữ liệu khác nhau nhằm thực hiện hai chức năng mô tả và dự đoán [27-29]. Kỹ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả các tính chất hoặc các đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có. Một số kỹ thuật khai phá trong nhóm này là: phân cụm dữ liệu (Clustering), tổng hợp (Summarisation), trực quan hoá (Visualization), phân tích sự phát triển và độ lệch (Evolution and deviation analyst),… Kỹ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên cơ sở dữ liệu hiện thời. Một số kỹ thuật khai phá trong nhóm này là: phân lớp (Classification), hồi quy (Regression), cây quyết định (Decision tree), thống kê (statictics), mạng nơron (neural network), luật kết hợp,… Một số kỹ thuật phổ biến thường được sử dụng để khai phá dữ liệu hiện nay là [6]: 10  Phân lớp dữ liệu Mục tiêu của phân lớp dữ liệu là thực hiện việc xây dựng các mô hình dự báo nhằm mô tả hoặc phát hiện các lớp hoặc khái niệm cho các dự báo tiếp theo. Quá trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu. Mô hình được sử dụng để dự đoán nhãn lớp khi mà độ chính xác của mô hình chấp nhận được. Một số phương phương pháp điển hình : - Cây quyết định: là một công cụ mạnh và hiệu quả trong việc phân lớp và dự báo. Các đối tượng dữ liệu được phân thành các lớp. Các giá trị của đối tượng dữ liệu chưa biết sẽ được dự đoán, dự báo. Tri thức được rút ra trong kỹ thuật này thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử dụng [19], [21]. - Mạng nơron: Mạng nơron là một trong những kỹ thuật khai phá dữ liệu được sử dụng phổ biến hiện nay, kỹ thuật này được phát triển dựa trên một nền tảng toán học và mô hình thần kinh trung ương của con người. Kết quả của mạng nơron có khả năng tạo ra các mô hình dự báo, dự đoán có mức độ chính xách và độ tin cậy cao.  Phân cụm dữ liệu Mục tiêu của phân cụm dữ liệu là nhóm các dữ liệu tương tự nhau trong tập dữ liệu vào các cụm, sao cho các đối tượng thuộc cùng một lớp là tương đồng để có thể phát hiện được các mẫu phân bố dữ liệu trong miền ứng dụng.  Khai phá luật kết hợp Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm được.  Hồi quy Phương pháp hồi quy là một bài toán điển hình trong phân tích thống kê và dự báo, trong đó tiến hành dự đoán các giá trị của một hoặc một số biến phụ thuộc vào
- Xem thêm -

Tài liệu liên quan