Đăng ký Đăng nhập
Trang chủ Luận văn thạc sĩ khai phá dữ liệu dựa trên báo cáo tình hình, kết quả giải quyết...

Tài liệu Luận văn thạc sĩ khai phá dữ liệu dựa trên báo cáo tình hình, kết quả giải quyết thủ tục hành chính thuế tại cục thuế bình dương

.PDF
81
1
140

Mô tả:

UBND TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT TRẦN NGUYỄN BẢO KHANH KHAI PHÁ DỮ LIỆU DỰA TRÊN BÁO CÁO TÌNH HÌNH, KẾT QUẢ GIẢI QUYẾT THỦ TỤC HÀNH CHÍNH THUẾ TẠI CỤC THUẾ BÌNH DƯƠNG CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG, NĂM 2020 UBND TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT TRẦN NGUYỄN BẢO KHANH KHAI PHÁ DỮ LIỆU DỰA TRÊN BÁO CÁO TÌNH HÌNH, KẾT QUẢ GIẢI QUYẾT THỦ TỤC HÀNH CHÍNH THUẾ TẠI CỤC THUẾ BÌNH DƯƠNG CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN QUỐC HUY BÌNH DƯƠNG, NĂM 2020 1 LỜI CAM ĐOAN Tôi cam đoan luận văn này: “Khai phá dữ liệu dựa trên báo cáo tình hình, kết quả giải quyết thủ tục hành chính thuế tại Cục thuế Bình Dương” là công trình nghiên cứu của riêng tôi. Các số liệu là thực tế, kết quả thực hiện nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nghiên cứu nào khác. Các tài liệu tham khảo, sản phẩm nghiên cứu sử dụng cho luận văn này được trích dẫn theo đúng quy định. Bình Dương, ngày 01 tháng 09 năm 2020 Học viên thực hiện luận văn Trần Nguyễn Bảo Khanh 2 LỜI CẢM ƠN Lời đầu tiên tôi xin bày tỏ lòng biết ơn chân thành TS Nguyễn Quốc Huy, Thầy đã tận tình chỉ dẫn, định hướng và truyền đạt những kiến thức cho tôi suốt thời gian thực hiện luận văn này. Tôi xin bày tỏ lòng biết ơn chân thành đến quí Thầy Cô giáo trong khoa Kỹ thuật - Công nghệ, Viện Đào tạo Sau đại học – Trường đại học Thủ Dầu Một đã trang bị cho tôi những kiến thức nền tảng quan trọng và hỗ trợ tận tình trong suốt quá trình tôi theo học. Tôi xin chân thành cảm ơn Lãnh đạo Cục thuế tỉnh Bình Dương cùng các anh em đồng nghiệp phòng Cục thuế tỉnh Bình Dương đã tạo điều kiện và cung cấp số liệu cho tôi hoàn thiện luận văn này. Cảm ơn gia đình đã quan tâm, động viên ủng hộ trong suốt thời gian tôi tham gia học tập và thực hiện luận văn này. Cảm ơn các anh chị đồng nghiệp, bạn bè lớp Cao học Hệ thống thông tin khóa 2017-2019 đã giúp đỡ và đồng hành cùng tôi trong suốt thời gian học tập tại Trường Đại học Thủ Dầu Một. Mặc dù đã cố gắng song luận văn cũng không tránh khỏi những thiếu sót. Tôi rất mong nhận được những ý kiến đóng góp của quý Thầy Cô để tôi có thể hoàn thiện hơn đề tài của mình. Xin trân trọng cảm ơn. 3 TÓM TẮT Ngày nay Ngành thuế Việt Nam nói chung và Cục thuế Bình Dương nói riêng thực hiện cải cách thủ tục hành chính mang đến sự hài lòng cho người nộp thuế và tăng nguồn thu ngân sách. Dự báo thực hiện cải cách thủ tục hành chính tại Cục thuế Bình Dương từ đó đưa ra giải pháp phù hợp để nâng cao chất lượng dịch vụ hành chính công là nội dung cấp thiết hiện nay. Trong nghiên cứu này chúng tôi đề xuất giải pháp Phân tích dự báo dịch vụ thủ tục hành chính thuế tại Cục thuế tỉnh Bình Dương bằng phương pháp học máy. Dựa trên số liệu các dịch vụ thủ tục hành chính thuế tại Cục thuế tỉnh Bình Dương trong thời gian 3 năm 2016, 2017 và 2018 đề tài đã tiến hành: Phân tích so sánh và trực quan hóa số liệu các dịch vụ thủ tục hành chính thuế để thấy được sự tăng trưởng và khác biệt giữa các quy trình thủ tục thuế và bức tranh tổng quát về các dịch vụ thủ tục hành chính thuế tỉnh Bình Dương. Từ các yếu tố ảnh hưởng tới thủ tục hành chính thuế và dữ liệu sử dụng dịch vụ thủ tục hành chính thuế, chúng tôi đã tiến hành Dự báo kết quả giải quy ết thủ tục hành chính tại Cục thuế tỉnh Bình Dương bằng 4 phương pháp học máy: Random Forest, Linear Regression, K-Nearest Neighbors và Decision Trees. Trên cơ sở thực nghiệm, đánh giá so sánh các kết quả đã đạt được của các mô hình, chúng tôi đã lựa chọn mô hình tối ưu để dự báo kết quả giải quyết thủ tục hành chính tại Cục thuế tỉnh Bình Dương. Kết quả thực nghiệm đã chứng minh rằng mô hình dự báo sử dụng phương pháp học máy Decision Trees có độ chính xác cao nhất. 4 MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM ƠN iv TÓM TẮT v MỤC LỤC vi DANH MỤC HÌNH viii DANH MỤC BẢNG ix DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT x Chương 1. GIỚI THIỆU CHUNG 1 1.1 Lý do thực hiện đề tài 1 1.2 Mục đích nghiên cứu 2 1.3 Đối tượng và phạm vi nghiên cứu 2 1.4 Phương pháp nghiên cứu 2 1.5 Ý nghĩa khoa học và thực tiễn 2 1.6 Bố cục luận văn 3 Chương 2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU CÓ LIÊN QUAN 4 2.1 Thủ tục hành chính thuế 4 2.2 Một số phương pháp dự báo 5 2.3 Khai phá dữ liệu 7 2.3.1 Giới thiệu về khai phá dữ liệu 7 2.3.2 Các kỹ thuật khai phá dữ liệu phổ biến 9 2.4 Các nghiên cứu liên quan 11 2.5 Hướng đề xuất nghiên cứu 13 Chương 3. MÔ HÌNH ĐỀ XUẤT 3.1 Mô hình đề xuất 14 3.2 Đặc trưng của mô hình đề xuất 14 3.2.1 Phân tích trực quan hóa số liệu giải quyết thủ tục hành chính thuế 14 3.2.2 Phân tích các yếu tố ảnh hưởng tới việc giải quyết thủ tục hành chính thuế 15 3.2.2.1 Các yếu tố về chính sách, chiến lược. 15 3.2.2.2 Các yếu tố về kinh tế - xã hội 16 3.2.2.3 Các yếu tố khoa học công nghệ 16 5 3.2.2.4 Lựa chọn yếu tố ảnh hưởng tới dự báo kết quả giải quyết thủ tục hành chính thuế. 17 3.2.3 Dự báo kết quả giải quyết thủ tục hành chính thuế 19 3.2.3.1 Linear Regression 19 3.2.3.2 K - Nearest Neighbors 20 3.2.3.3 Decision Trees 23 3.2.3.4 Random Forests 25 26 Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 29 4.1 Dữ liệu 29 4.2 Kết quả thực nghiệm 30 4.2.1 Phân tích trực quan hóa số liệu giải quyết thủ tục hành chính thuế 30 4.2.2 Thực nghiệm yếu tố ảnh hưởng đến dự báo kết quả giải quyết thủ tục hành chính thuế 38 4.2.3 Thực nghiệm mô hình dự báo 42 4.2.3.1 Đánh giá các giải thuật 42 4.2.3.2 Kết quả dự báo 44 Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 46 CÔNG TRÌNH CÔNG BỐ 47 TÀI LIỆU THAM KHẢO 48 6 DANH MỤC HÌNH Hình 2.1. Quá trình khai phá dữ liệu [10] 8 Hình 3.1. Mô hình đề xuất 14 Hình 3.2. Mô hình hồi quy tuyến tính 20 Hình 3.3. KNN 21 Hình 3.4. Mô hình Cây quyết định 24 Hình 3.5. Mô hình Random forest cho vấn đề hồi quy [6], [14] 26 Hình 3.6. Mô hình thực nghiệm dự báo 27 Hình 4.1. Sản lượng EMS nội tỉnh đơn vị Thủ Dầu Một 2018 31 Hình 4.2. Doanh thu EMS nội tỉnh đơn vị Thủ Dầu Một 2018 31 Hình 4.3. Sản lượng EMS liên tỉnh đơn vị Thủ Dầu Một 2018 31 Hình 4.4. Doanh thu EMS liên tỉnh đơn vị Thủ Dầu Một 2018 32 Hình 4.5. Sản lượng EMS quốc tế đơn vị Thủ Dầu Một 2018 32 Hình 4.6. Doanh thu EMS quốc tế đơn vị Thủ Dầu Một 2018 32 Hình 4.7. Tổng sản lượng EMS đơn vị Thủ Dầu Một 2018 33 Hình 4.8. Tổng doanh thu EMS đơn vị Thủ Dầu Một 2018 33 Hình 4.9. Tổng hợp các dịch vụ của đơn vị Thủ Dầu Một 34 Hình 4.10. Tổng hợp các dịch vụ nội tỉnh của đơn vị Thủ Dầu Một 34 Hình 4.11. Tổng hợp các dịch vụ liên tỉnh của đơn vị Thủ Dầu Một 35 Hình 4.12. Tổng hợp các dịch vụ quốc tế của đơn vị Thủ Dầu Một 35 Hình 4.13. Tổng sản lượng EMS Cục thuế tỉnh Bình Dương năm 2018 36 Hình 4.14. Tổng doanh thu EMS Cục thuế tỉnh Bình Dương năm 2018 36 Hình 4.15. Tổng sản lượng EMS COD Cục thuế tỉnh Bình Dương năm 2018 36 Hình 4.16. Tổng doanh thu EMS COD Cục thuế tỉnh Bình Dương năm 2018 37 Hình 4.17. Tổng sản lượng BPBK Cục thuế tỉnh Bình Dương năm 2018 37 Hình 4.18. Tổng doanh thu BPBK Cục thuế tỉnh Bình Dương năm 2018 38 Hình 4.19. Doanh thu các đơn vị Cục thuế tỉnh Bình Dương năm 2018 38 7 Hình 4.20. Độ đo Spearman giữa các yếu tố 8 39 DANH MỤC BẢNG Bảng 4.1. Độ đo Spearman giữa 6 yếu tố đặc trưng và doanh thu 40 Bảng 4.2. Độ đo Pearson giữa 6 yếu tố đặc trưng và doanh thu 41 Bảng 4.3. Độ đo Spearman giữa 6 yếu tố đặc trưng và doanh thu 41 Bảng 4.4. Tiêu chí đánh giá xếp loại KPI hàng tháng 42 Bảng 4.5. Kết quả đánh giá các phương pháp học máy với 36 mẫu dữ liệu 43 Bảng 4.6. Kết quả đánh giá các phương pháp học máy bộ dữ liệu 32 mẫu 43 Bảng 4.7. Kết quả đánh giá các phương pháp học máy bộ dữ liệu 28 mẫu 44 Bảng 4.8. Kết quả F1- score 45 Bảng 4.9. Bộ dữ liệu Test ngẫu nhiên 45 9 DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt LR Linear Regression Hồi quy tuyến tính KNN K-Nearest Neighbors K láng giềng gần DTs Decision Tree Cây quyết định RF Random Forests Rừng ngẫu nhiên CSDL Cơ sở dữ liệu TTHC Thủ tục hành chính QTT Quy trình thuế LT Luật thuế CST Chính sách thuế CLDV Chất lượng dịch vụ DN Doanh nghiệp DVHCC Dịch vụ hành chính công NNT Người nộp thuế CCT Công chức thuế 10 Chương 1 GIỚI THIỆU CHUNG 1.1 Lý do thực hiện đề tài Thế giới đang bước vào một cuộc cách mạng công nghiệp mới 4.0, một cuộc cách mạng hứa hẹn những điều trọng đại, ảnh hưởng đến mọi khía cạnh của cuộc sống trên toàn cầu mà hệ thống thuế thế giới nói chung cũng như hệ thống thuế Việt Nam nói riêng là một trong những trọng tâm của cuộc cách mạng này sự phát triển và mở rộng thị trường, mở rộng cạnh tranh trong mỗi quốc gia, hội nhập quốc tế với nhiều thuận lợi và cũng không ít khó khăn thách thức những yêu cầu thực tế diễn ra trong hội nhập là rất sôi động đòi hỏi một sự vận động hết sức mau lẹ trên mọi phương diện, không ngừng đổi mới, không chỉ đổi mới để thích nghi với những yêu cầu của thị trường hiện tại ngành thuế Việt Nam còn phải vươn trước gợi mở những yêu cầu của thị trường mới có cơ hội tồn tại và phát triển bền vững, đổi mới để phát triển đã trở thành quy luật tất yếu trong hội nhập. Khai phá dữ liệu giải quyết thủ tục hành chính thuế tại Tổng cục thế Việ t Nam đã được thực hiện trong những năm gần đây với các công cụ thô, nên tốn nhiều công sức, thời gian và độ chính xác chưa cao. Chính vì thế, để đáp ứng được sự phát triển nhanh của các công tác thuế đòi hỏi cần có một giải pháp hiện đại, hiệu quả. Trong nghiên cứu này chúng tôi đề xuất giải pháp dựa trên Khai phá dữ liệu dựa trên báo cáo tình hình, kết quả giải quyết thủ tục hành chính thuế tại Cục thuế Bình Dương.. Kết quả phân tích, trực quan hóa và dự đoán nhanh, chính xác sẽ là tiền đề giúp lãnh đạo hoạch định chính sách, chiến lược phù hợp cho tương lai. Do đó việc nghiên cứu phân tích, trực quan hóa dữ liệu và dự đoán kết qu ả giải quyết các thủ tục hành chính của Ngành thuế Việt Nam nói chung và của Cục thuế tỉnh Bình Dương nói riêng nhằm trợ giúp Ban lãnh đạo trong công tác quản lý là lý do chúng tôi chọn đề tài nghiên cứu: “Khai phá dữ liệu dựa trên báo 11 cáo tình hình, kết quả giải quyết thủ tục hành chính thuế tại Cục thuế Bình Dương”. 1.2 Mục đích nghiên cứu Mục đích nghiên cứu là phân tích, trực quan hóa dữ liệu và dự đoán kết quả giải quyết các thủ tục hành chính tại Cục thuế tỉnh Bình Dương dựa trên các phương pháp Khai phá dữ liệu. 1.3 Đối tượng và phạm vi nghiên cứu Đối tượng, phạm vi nghiên cứu Trên cơ sở dữ liệu thực tế thu thập được trong 3 năm 2016, 2017 và 2018 về báo cáo tình hình, kết quả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh Bình Dương. 1.4 Phương pháp nghiên cứu Đề tài sử dụng Phương pháp nghiên cứu phân tích dữ liệu, Phương pháp dự báo, Phương pháp so sánh và Phương pháp thực nghiệm để so sánh, đánh giá và phân tích các kết quả đạt được. 1.5 Ý nghĩa khoa học và thực tiễn Ý nghĩa khoa học của luận văn: luận văn tập trung phân tích so sách các số liệu thu thập được trong 3 năm 2016, 2017 và 2018 về báo cáo tình hình, kết quả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh Bình Dương, từ đó trực quan hóa dữ liệu, Phân tích các yếu tố ảnh hưởng, áp dụng vào các phương pháp học máy K-Nearest Neighbors và Decision Trees, Random Forest và Linear để dự báo kết quả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh Bình Dương bằng Khai phá dữ liệu. Ý nghĩa thực tiễn: chúng tôi đã xây dựng mô hình để phân tích, trực quan hóa và dự báo kết quả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh Bình Dương bằng Khai phá dữ liệu đồng thời xây dựng ứng dụng Web để trực quan hóa kết quả. 12 Chúng tôi đã đánh giá hệ thống trên nhiều khía cạnh để từ đó xây dựng được giải pháp tối ưu khi đưa ứng dụng vào sử dụng trong thực tiễn và tiến hành áp dụng triển khai thí điểm ứng dụng trong thực tiễn. 1.6 Bố cục luận văn Ngoài phần mở đầu, mục lục và danh mục, tài liệu tham khảo, luận văn có bố cục được chia thành 5 chương: Chương 1: Giới thiệu chung: Trình bày lý do thực hiện đề tài, giới thiệu chung, mục tiêu đối tượng phạm vi nghiên cứu. ý nghĩa khoa học và ý nghĩa thực tiễn Chương 2: Cơ sở lý thuyết và các nghiên cứu có liên quan chương này trình bày khái niện về công tác thuế, thủ tục hành chính thuế và một số phương pháp phân tích, trực quan hóa và dự báo và các nghiên cứu có liên quan. Chương 3: Mô hình đề xuất phân tích, trực quan hóa và dự báo kết quả gi ải quyết thủ tục hành chính thuế tại Cục thuế tỉnh Bình Dương . Chương 4: Thực nghiệm và đánh giá kết quả chương này trình bày về quá trình phân tích dữ liệu, trực quan hóa và dự báo kết quả bằng khai phá dữ liệu; thực nghiệm và đánh giá kết quả đạt được khi thực nghiệm. Chương 5: Kết luận và hướng phát triển. 13 Chương 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU CÓ LIÊN QUAN Trong chương này, chúng tôi trình bày về Thủ tục hành chính thuế của Ngành thuế Việt Nam nói chung cũng như Cục thuế Bình Dương nói riêng, các nghiên cứu liên quan đã được công bố về các thủ tục hành chính thuế. Chương này cũng trình bày một số phương pháp dự báo, phương pháp khai phá dữ liệu và một số nghiên cứu liên quan đến mô hình dự báo ngắn hạn, mô hình dự báo dài hạn trên một số nước từ đó lựa chọn phương pháp nghiên cứu thích hợp cho bài toán đặt ra 2.1 Thủ tục hành chính thuế Tổng cục thuế (TCT) là tổ chức được thành lập năm 1945 có chi nhánh rộng khắp trên 63 tỉnh thành trên toàn quốc hiện đang hỗ trợ các thủ tục hành chính thuế như: tài liệu, hoá đơn, chính sách thủ tục thuế từ người nộp thuế. Dịch vụ thủ tục hành chính thuế (DVTTHCT) là loại hàng hoá đặc biệt, sản phẩm dịch vụ vô hình, phục vụ chức năng công quyền, loại DVTTHCT do Cục thuế thực hiện, có đặc điểm sau: Quá trình thực hiện và cung cấp dịch vụ hành chính đều bị điều tiết rất chặt chẽ bởi quy định của pháp luật, mỗi người sử dụng dịch vụ đều có quyền ngang nhau trong việc sử dụng dịch vụ. Phạm vi giải quyết DVTTHCT Thủ tục “nộp thuế”: Thủ tục “khai báo thuế” Thủ tục “hoàn thuế “ Thủ tục “kiểm tra” Thủ tục “thanh tra” 14 Ưu điểm của các thủ tục hành chính: Thủ tục hành chính “khai báo thuế” nhanh, tiết kiệm thời gian, linh hoạt có độ tin cậy và uy tín cao. Thủ tục hành chính “nộp thuế” thuận lợi, nhanh, tiết kiệm thời gian, chi phí Thủ tục hành chính “hoàn thuế” nhanh, hỗ trợ kịp thời Thủ tục hành chính “kiểm tra” nhanh, chuyên nghiệp, Thủ tục hành chính “thanh tra” nhanh, chuyên nghiệp, phát hiện hành vi gian lận kịp thời, chống thất thoát nguồn ngân sách Một số nhược điểm của thủ tục hành chính thuế So với một số thủ tục hành chính khác, việc giải quyết hồ sơ còn chậm hơn Người nộp thuế phải mang đến tận nơi để giải quyết thủ tục hành chính thuế Kết quả giải quyết thủ tục hành chính thuế chưa được công khai minh bạch. 2.2 Một số phương pháp dự báo Có nhiều cách để phân loại các dự báo khác nhau. Nếu căn cứ vào độ dài thời gian dự báo thì có thể phân thành ba loại: [4], [9]. Dự báo dài hạn: Là những dự báo có thời gian dự báo từ 5 năm trở lên. Thường dùng để dự báo những mục tiêu, chiến lược về kinh tế chính trị, khoa học kỹ thuật trong thời gian dài ở tầm vĩ mô. Dự báo trung hạn: Là những dự báo có thời gian dự báo từ 3 đến 5 năm. Thường phục vụ cho việc xây dựng những kế hoạch trung hạn về kinh tế văn hoá xã hội… ở tầm vi mô và vĩ mô. 15 Dự báo ngắn hạn: Là những dự báo có thời gian dự báo dưới 3 năm, loại dự báo này thường dùng để dự báo hoặc lập các kế hoạch kinh tế,văn hoá, xã hội chủ yếu ở tầm vi mô và vĩ mô trong khoảng thời gian ngắn nhằm phục vụ cho công tác chỉ đạo kịp thời. Cách phân loại này chỉ mang tính tương đối tuỳ thuộc vào từng loại hiện tượng để quy định khoảng cách thời gian cho phù hợp với loại hiện tượng đó. Dựa vào đối tượng dự báo, có thể chia dự báo thành: Dự báo khoa học, dự báo kinh tế, dự báo xã hội, dự báo tự nhiên, thiên văn học…Căn cứ vào phương pháp dự báo, có thể chia thành 3 nhóm [4], [9]: Dự báo bằng phương pháp chuyên gia: Loại dự báo này được tiến hành trên cơ sở tổng hợp, xử lý ý kiến của các chuyên gia thông thạo với hiện tượng được nghiên cứu, từ đó có phương pháp xử lý thích hợp đề ra các dự đoán, các dự đoán này được cân nhắc và đánh giá chủ quan từ các chuyên gia. Phương pháp này có ưu thế trong trường hợp dự đoán những hiện tượng hay quá trình bao quát rộng, phức tạp, chịu sự chi phối của khoa học- kỹ thuật, sự thay đổi của môi trường, thời tiết, chiến tranh trong khoảng thời gian dài. Một cải tiến của phương pháp Delphi - là phương pháp dự báo dựa trên cơ sở sử dụng một tập hợp những đánh giá của một nhóm chuyên gia. Mỗi chuyên gia được hỏi ý kiến và rồi dự báo của họ được trình bày dưới dạng thống kê tóm tắt. Việc trình bày những ý kiến này được thực hiện một cách gián tiếp (không có sự tiếp xúc trực tiếp) để tránh những sự tương tác trong nhóm nhỏ qua đó tạo nên những sai lệch nhất định trong kết quả dự báo. Sau đó người ta yêu cầu các chuyên gia duyệt xét lại những dự báo của họ trên [4], [9]. Dự báo theo phương trình hồi quy: Theo phương pháp này, mức độ cần dự báo phải được xây dựng trên cơ sở xây dựng mô hình hồi quy, mô hình này được xây dựng phù hợp với đặc điểm và xu thế phát triển của hiện tượng nghiên cứu. Để xây dựng mô hình hồi quy, đòi hỏi phải có tài liệu về hiện tượng cần dự báo và các hiện tượng có liên quan. Loại dự báo này thường được sử dụng để dự báo trung hạn và dài hạn ở tầm vĩ mô [4], [9]. 16 Dự báo dựa vào dãy số thời gian: Là dựa trên cơ sở dãy số thời gian phản ánh sự biến động của hiện tượng ở những thời gian đã qua để xác định mức độ của hiện tượng trong tương lai. Trong luận án này, tác giả nhóm các phương pháp dự báo thành 2 nhóm chính là các phương pháp định tính và các phương pháp định lượng [4], [9]. Phương pháp dự báo định tính: Phương pháp này dựa trên cơ sở nhận xét của những yếu tố liên quan, dựa trên những ý kiến về các khả năng có liên hệ của những yếu tố liên quan này trong tương lai. Phương pháp định tính có liên quan đến mức độ phức tạp khác nhau, từ việc khảo sát ý kiến được tiến hành một cách khoa học để nhận biết các sự kiện tương lai hay từ ý kiến phản hồi của một nhóm đối tượng hưởng lợi (chịu tác động) nào đó. Phương pháp dự báo định lượng: Các phương pháp dự báo định lượng thường dựa trên số liệu quá khứ, những số liệu này giả sử có liên quan đến tương lai và có thể tìm thấy được. Tất cả các mô hình dự báo theo định lượng có thể sử dụng thông qua chuỗi thời gian và các giá trị này được quan sát đo lường các giai đoạn theo từng chuỗi. Thông thường khi dự báo người ta thường hay kết hợp cả phương pháp định tính và định lượng để nâng cao mức độ chính xác của dự báo. Bên cạnh đó, vấn đề cần dự báo đôi khi không thể thực hiện được thông qua một phương pháp dự báo đơn lẻ mà đòi hỏi kết hợp nhiều hơn một phương pháp nhằm mô tả đúng bản chất sự việc cần dự báo. 2.3 Khai phá dữ liệu 2.3.1 Giới thiệu về khai phá dữ liệu Lượng dữ liệu mà chúng ta tạo ra mỗi ngày ước tính khoảng trên vài tỷ tỷ byte/ngày. Chính vì vậy, hiện nay lượng dữ liệu mà con người thu thập và lưu trữ được trong các kho dữ liệu là rất lớn, nhiều khi vượt qua khả năng quản lý. Hiện tại, người ta đang đề cập đến khái niệm khủng hoảng phân tích dữ liệu tác nghiệp để cung cấp thông tin với yêu cầu chất lượng ngày càng cao cho những người ra quyết định trong các tổ chức tài chính, thương mại, khoa học, việc làm... Nhà 17 nghiên cứu John Naisbett đã cảnh báo về vấn đề này “Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức”. Với khối lượng dữ liệu tăng nhanh và khổng lồ như vậy, chính vì vậy các phương pháp thủ công truyền thống áp dụng để phân tích dữ liệu sẽ không hiệu quả, tốn kém và dễ dẫn đến những sai lệch. Nếu cho rằng các điện tử và các sóng điện tử chính là bản chất của công nghệ điện tử truyền thống thì dữ liệu, thông tin và tri thức hiện đang là tiêu điểm của một lĩnh vực mới trong nghiên cứu và ứng dụng về phát hiện tri thức (Knowledge Discovery) và khai phá dữ liệu (Data Mining). Thông thường chúng ta coi dữ liệu như một dãy các bit, hoặc các số và các ký hiệu, hoặc các “đối tượng” với một ý nghĩa nào đó khi được gửi cho một chương trình dưới một dạng nhất định. Chúng ta sử dụng các bit để đo lường các thông tin và xem nó như là các dữ liệu đã được lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu. Chúng ta có thể xem tri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng. Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện, hoặc có thể được học. Nói cách khác, tri thức có thể được coi là dữ liệu có độ trừu tượng và tổ chức cao. Phát hiện tri thức trong các cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được. Còn khai thác dữ liệu là một bước trong quy trình phát hiện tri thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Nói một cách khác, mục đích của phát hiện tri thức và khai phá dữ liệu chính là tìm ra các mẫu và/hoặc các mô hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi hàng núi dữ liệu. 18 Định nghĩa: “KDD (Knowledge Discovery in Databases) là quá trình không tầm thường nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được trong dữ liệu”. Còn các nhà thống kê thì xem Khai phá dữ liệu như là một qui trình phân tích được thiết kế để thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho các tập con mới của dữ liệu. Quy trình này bao gồm ba giai đoạn cơ bản: thăm dò, xây dựng mô hình hoặc định nghĩa mẫu, hợp thức/kiểm chứng. Quy trình phát hiện tri thức được mô tả tóm tắt như sau: Bước thứ nhất: Hình thành, xác định và định nghĩa bài toán là tìm hiểu lĩnh vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải hoàn thành. Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu. Bước thứ hai: Thu thập và tiền xử lý dữ liệu là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu, xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức. 19
- Xem thêm -

Tài liệu liên quan