UBND TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
TRẦN NGUYỄN BẢO KHANH
KHAI PHÁ DỮ LIỆU DỰA TRÊN BÁO CÁO TÌNH HÌNH,
KẾT QUẢ GIẢI QUYẾT THỦ TỤC HÀNH CHÍNH THUẾ
TẠI CỤC THUẾ BÌNH DƯƠNG
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SĨ
BÌNH DƯƠNG, NĂM 2020
UBND TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
TRẦN NGUYỄN BẢO KHANH
KHAI PHÁ DỮ LIỆU DỰA TRÊN BÁO CÁO TÌNH HÌNH,
KẾT QUẢ GIẢI QUYẾT THỦ TỤC HÀNH CHÍNH THUẾ
TẠI CỤC THUẾ BÌNH DƯƠNG
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN QUỐC HUY
BÌNH DƯƠNG, NĂM 2020
1
LỜI CAM ĐOAN
Tôi cam đoan luận văn này: “Khai phá dữ liệu dựa trên báo cáo tình
hình, kết quả giải quyết thủ tục hành chính thuế tại Cục thuế Bình Dương”
là công trình nghiên cứu của riêng tôi.
Các số liệu là thực tế, kết quả thực hiện nêu trong luận văn là trung thực
và chưa từng được ai công bố trong bất kỳ công trình nghiên cứu nào khác.
Các tài liệu tham khảo, sản phẩm nghiên cứu sử dụng cho luận văn này
được trích dẫn theo đúng quy định.
Bình Dương, ngày 01 tháng 09 năm 2020
Học viên thực hiện luận văn
Trần Nguyễn Bảo Khanh
2
LỜI CẢM ƠN
Lời đầu tiên tôi xin bày tỏ lòng biết ơn chân thành TS Nguyễn Quốc Huy,
Thầy đã tận tình chỉ dẫn, định hướng và truyền đạt những kiến thức cho tôi suốt
thời gian thực hiện luận văn này.
Tôi xin bày tỏ lòng biết ơn chân thành đến quí Thầy Cô giáo trong khoa
Kỹ thuật - Công nghệ, Viện Đào tạo Sau đại học – Trường đại học Thủ Dầu Một
đã trang bị cho tôi những kiến thức nền tảng quan trọng và hỗ trợ tận tình trong
suốt quá trình tôi theo học.
Tôi xin chân thành cảm ơn Lãnh đạo Cục thuế tỉnh Bình Dương cùng các
anh em đồng nghiệp phòng Cục thuế tỉnh Bình Dương đã tạo điều kiện và cung
cấp số liệu cho tôi hoàn thiện luận văn này.
Cảm ơn gia đình đã quan tâm, động viên ủng hộ trong suốt thời gian tôi
tham gia học tập và thực hiện luận văn này.
Cảm ơn các anh chị đồng nghiệp, bạn bè lớp Cao học Hệ thống thông tin
khóa 2017-2019 đã giúp đỡ và đồng hành cùng tôi trong suốt thời gian học tập tại
Trường Đại học Thủ Dầu Một.
Mặc dù đã cố gắng song luận văn cũng không tránh khỏi những thiếu sót.
Tôi rất mong nhận được những ý kiến đóng góp của quý Thầy Cô để tôi có thể
hoàn thiện hơn đề tài của mình.
Xin trân trọng cảm ơn.
3
TÓM TẮT
Ngày nay Ngành thuế Việt Nam nói chung và Cục thuế Bình Dương nói
riêng thực hiện cải cách thủ tục hành chính mang đến sự hài lòng cho người nộp
thuế và tăng nguồn thu ngân sách. Dự báo thực hiện cải cách thủ tục hành chính
tại Cục thuế Bình Dương từ đó đưa ra giải pháp phù hợp để nâng cao chất lượng
dịch vụ hành chính công là nội dung cấp thiết hiện nay. Trong nghiên cứu này
chúng tôi đề xuất giải pháp Phân tích dự báo dịch vụ thủ tục hành chính thuế tại
Cục thuế tỉnh Bình Dương bằng phương pháp học máy.
Dựa trên số liệu các dịch vụ thủ tục hành chính thuế tại Cục thuế tỉnh Bình
Dương trong thời gian 3 năm 2016, 2017 và 2018 đề tài đã tiến hành:
Phân tích so sánh và trực quan hóa số liệu các dịch vụ thủ tục hành chính
thuế để thấy được sự tăng trưởng và khác biệt giữa các quy trình thủ tục thuế và
bức tranh tổng quát về các dịch vụ thủ tục hành chính thuế tỉnh Bình Dương.
Từ các yếu tố ảnh hưởng tới thủ tục hành chính thuế và dữ liệu sử dụng
dịch vụ thủ tục hành chính thuế, chúng tôi đã tiến hành Dự báo kết quả giải quy
ết thủ tục hành chính tại Cục thuế tỉnh Bình Dương bằng 4 phương pháp học
máy: Random Forest, Linear Regression, K-Nearest Neighbors và Decision Trees.
Trên cơ sở thực nghiệm, đánh giá so sánh các kết quả đã đạt được của các mô
hình, chúng tôi đã lựa chọn mô hình tối ưu để dự báo kết quả giải quyết thủ tục
hành chính tại Cục thuế tỉnh Bình Dương. Kết quả thực nghiệm đã chứng minh
rằng mô hình dự báo sử dụng phương pháp học máy Decision Trees có độ chính
xác cao nhất.
4
MỤC LỤC
LỜI CAM ĐOAN
iii
LỜI CẢM ƠN
iv
TÓM TẮT
v
MỤC LỤC
vi
DANH MỤC HÌNH
viii
DANH MỤC BẢNG
ix
DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT
x
Chương 1. GIỚI THIỆU CHUNG
1
1.1 Lý do thực hiện đề tài
1
1.2 Mục đích nghiên cứu
2
1.3 Đối tượng và phạm vi nghiên cứu
2
1.4 Phương pháp nghiên cứu
2
1.5 Ý nghĩa khoa học và thực tiễn
2
1.6 Bố cục luận văn
3
Chương 2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU CÓ LIÊN QUAN
4
2.1 Thủ tục hành chính thuế
4
2.2 Một số phương pháp dự báo
5
2.3 Khai phá dữ liệu
7
2.3.1 Giới thiệu về khai phá dữ liệu
7
2.3.2 Các kỹ thuật khai phá dữ liệu phổ biến
9
2.4 Các nghiên cứu liên quan
11
2.5 Hướng đề xuất nghiên cứu
13
Chương 3. MÔ HÌNH ĐỀ XUẤT
3.1 Mô hình đề xuất
14
3.2 Đặc trưng của mô hình đề xuất
14
3.2.1 Phân tích trực quan hóa số liệu giải quyết thủ tục hành chính thuế
14
3.2.2 Phân tích các yếu tố ảnh hưởng tới việc giải quyết thủ tục hành chính thuế 15
3.2.2.1 Các yếu tố về chính sách, chiến lược.
15
3.2.2.2 Các yếu tố về kinh tế - xã hội
16
3.2.2.3 Các yếu tố khoa học công nghệ
16
5
3.2.2.4 Lựa chọn yếu tố ảnh hưởng tới dự báo kết quả giải quyết thủ tục hành chính
thuế.
17
3.2.3 Dự báo kết quả giải quyết thủ tục hành chính thuế
19
3.2.3.1 Linear Regression
19
3.2.3.2 K - Nearest Neighbors
20
3.2.3.3 Decision Trees
23
3.2.3.4 Random Forests
25
26
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ
29
4.1 Dữ liệu
29
4.2 Kết quả thực nghiệm
30
4.2.1 Phân tích trực quan hóa số liệu giải quyết thủ tục hành chính thuế
30
4.2.2 Thực nghiệm yếu tố ảnh hưởng đến dự báo kết quả giải quyết thủ tục hành
chính thuế
38
4.2.3 Thực nghiệm mô hình dự báo
42
4.2.3.1 Đánh giá các giải thuật
42
4.2.3.2 Kết quả dự báo
44
Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
46
CÔNG TRÌNH CÔNG BỐ
47
TÀI LIỆU THAM KHẢO
48
6
DANH MỤC HÌNH
Hình 2.1. Quá trình khai phá dữ liệu [10]
8
Hình 3.1. Mô hình đề xuất
14
Hình 3.2. Mô hình hồi quy tuyến tính
20
Hình 3.3. KNN
21
Hình 3.4. Mô hình Cây quyết định
24
Hình 3.5. Mô hình Random forest cho vấn đề hồi quy [6], [14]
26
Hình 3.6. Mô hình thực nghiệm dự báo
27
Hình 4.1. Sản lượng EMS nội tỉnh đơn vị Thủ Dầu Một 2018
31
Hình 4.2. Doanh thu EMS nội tỉnh đơn vị Thủ Dầu Một 2018
31
Hình 4.3. Sản lượng EMS liên tỉnh đơn vị Thủ Dầu Một 2018
31
Hình 4.4. Doanh thu EMS liên tỉnh đơn vị Thủ Dầu Một 2018
32
Hình 4.5. Sản lượng EMS quốc tế đơn vị Thủ Dầu Một 2018
32
Hình 4.6. Doanh thu EMS quốc tế đơn vị Thủ Dầu Một 2018
32
Hình 4.7. Tổng sản lượng EMS đơn vị Thủ Dầu Một 2018
33
Hình 4.8. Tổng doanh thu EMS đơn vị Thủ Dầu Một 2018
33
Hình 4.9. Tổng hợp các dịch vụ của đơn vị Thủ Dầu Một
34
Hình 4.10. Tổng hợp các dịch vụ nội tỉnh của đơn vị Thủ Dầu Một
34
Hình 4.11. Tổng hợp các dịch vụ liên tỉnh của đơn vị Thủ Dầu Một
35
Hình 4.12. Tổng hợp các dịch vụ quốc tế của đơn vị Thủ Dầu Một
35
Hình 4.13. Tổng sản lượng EMS Cục thuế tỉnh Bình Dương năm 2018
36
Hình 4.14. Tổng doanh thu EMS Cục thuế tỉnh Bình Dương năm 2018
36
Hình 4.15. Tổng sản lượng EMS COD Cục thuế tỉnh Bình Dương năm 2018
36
Hình 4.16. Tổng doanh thu EMS COD Cục thuế tỉnh Bình Dương năm 2018
37
Hình 4.17. Tổng sản lượng BPBK Cục thuế tỉnh Bình Dương năm 2018
37
Hình 4.18. Tổng doanh thu BPBK Cục thuế tỉnh Bình Dương năm 2018
38
Hình 4.19. Doanh thu các đơn vị Cục thuế tỉnh Bình Dương năm 2018
38
7
Hình 4.20. Độ đo Spearman giữa các yếu tố
8
39
DANH MỤC BẢNG
Bảng 4.1. Độ đo Spearman giữa 6 yếu tố đặc trưng và doanh thu
40
Bảng 4.2. Độ đo Pearson giữa 6 yếu tố đặc trưng và doanh thu
41
Bảng 4.3. Độ đo Spearman giữa 6 yếu tố đặc trưng và doanh thu
41
Bảng 4.4. Tiêu chí đánh giá xếp loại KPI hàng tháng
42
Bảng 4.5. Kết quả đánh giá các phương pháp học máy với 36 mẫu dữ liệu
43
Bảng 4.6. Kết quả đánh giá các phương pháp học máy bộ dữ liệu 32 mẫu
43
Bảng 4.7. Kết quả đánh giá các phương pháp học máy bộ dữ liệu 28 mẫu
44
Bảng 4.8. Kết quả F1- score
45
Bảng 4.9. Bộ dữ liệu Test ngẫu nhiên
45
9
DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT
Viết tắt
Tiếng Anh
Tiếng Việt
LR
Linear Regression
Hồi quy tuyến tính
KNN
K-Nearest Neighbors
K láng giềng gần
DTs
Decision Tree
Cây quyết định
RF
Random Forests
Rừng ngẫu nhiên
CSDL
Cơ sở dữ liệu
TTHC
Thủ tục hành chính
QTT
Quy trình thuế
LT
Luật thuế
CST
Chính sách thuế
CLDV
Chất lượng dịch vụ
DN
Doanh nghiệp
DVHCC
Dịch vụ hành chính công
NNT
Người nộp thuế
CCT
Công chức thuế
10
Chương 1
GIỚI THIỆU CHUNG
1.1 Lý do thực hiện đề tài
Thế giới đang bước vào một cuộc cách mạng công nghiệp mới 4.0, một
cuộc cách mạng hứa hẹn những điều trọng đại, ảnh hưởng đến mọi khía cạnh của
cuộc sống trên toàn cầu mà hệ thống thuế thế giới nói chung cũng như hệ thống
thuế Việt Nam nói riêng là một trong những trọng tâm của cuộc cách mạng này
sự phát triển và mở rộng thị trường, mở rộng cạnh tranh trong mỗi quốc gia, hội
nhập quốc tế với nhiều thuận lợi và cũng không ít khó khăn thách thức những
yêu cầu thực tế diễn ra trong hội nhập là rất sôi động đòi hỏi một sự vận động hết
sức mau lẹ trên mọi phương diện, không ngừng đổi mới, không chỉ đổi mới để
thích nghi với những yêu cầu của thị trường hiện tại ngành thuế Việt Nam còn
phải vươn trước gợi mở những yêu cầu của thị trường mới có cơ hội tồn tại và
phát triển bền vững, đổi mới để phát triển đã trở thành quy luật tất yếu trong hội
nhập.
Khai phá dữ liệu giải quyết thủ tục hành chính thuế tại Tổng cục thế Việ
t Nam đã được thực hiện trong những năm gần đây với các công cụ thô, nên tốn
nhiều công sức, thời gian và độ chính xác chưa cao. Chính vì thế, để đáp ứng
được sự phát triển nhanh của các công tác thuế đòi hỏi cần có một giải pháp hiện
đại, hiệu quả. Trong nghiên cứu này chúng tôi đề xuất giải pháp dựa trên Khai
phá dữ liệu dựa trên báo cáo tình hình, kết quả giải quyết thủ tục hành chính thuế
tại Cục thuế Bình Dương.. Kết quả phân tích, trực quan hóa và dự đoán nhanh,
chính xác sẽ là tiền đề giúp lãnh đạo hoạch định chính sách, chiến lược phù hợp
cho tương lai.
Do đó việc nghiên cứu phân tích, trực quan hóa dữ liệu và dự đoán kết qu
ả giải quyết các thủ tục hành chính của Ngành thuế Việt Nam nói chung và của
Cục thuế tỉnh Bình Dương nói riêng nhằm trợ giúp Ban lãnh đạo trong công tác
quản lý là lý do chúng tôi chọn đề tài nghiên cứu: “Khai phá dữ liệu dựa trên báo
11
cáo tình hình, kết quả giải quyết thủ tục hành chính thuế tại Cục thuế Bình
Dương”.
1.2 Mục đích nghiên cứu
Mục đích nghiên cứu là phân tích, trực quan hóa dữ liệu và dự đoán kết
quả giải quyết các thủ tục hành chính tại Cục thuế tỉnh Bình Dương dựa trên các
phương pháp Khai phá dữ liệu.
1.3 Đối tượng và phạm vi nghiên cứu
Đối tượng, phạm vi nghiên cứu Trên cơ sở dữ liệu thực tế thu thập được
trong 3 năm 2016, 2017 và 2018 về báo cáo tình hình, kết quả giải quyết thủ tục
hành chính thuế tại Cục thuế tỉnh Bình Dương.
1.4 Phương pháp nghiên cứu
Đề tài sử dụng Phương pháp nghiên cứu phân tích dữ liệu, Phương pháp
dự báo, Phương pháp so sánh và Phương pháp thực nghiệm để so sánh, đánh giá
và phân tích các kết quả đạt được.
1.5 Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học của luận văn: luận văn tập trung phân tích so sách các
số liệu thu thập được trong 3 năm 2016, 2017 và 2018 về báo cáo tình hình, kết
quả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh Bình Dương, từ đó trực
quan hóa dữ liệu, Phân tích các yếu tố ảnh hưởng, áp dụng vào các phương
pháp học máy K-Nearest Neighbors và Decision Trees, Random Forest và Linear
để dự báo kết quả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh Bình
Dương bằng Khai phá dữ liệu.
Ý nghĩa thực tiễn: chúng tôi đã xây dựng mô hình để phân tích, trực quan
hóa và dự báo kết quả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh Bình
Dương bằng Khai phá dữ liệu đồng thời xây dựng ứng dụng Web để trực quan
hóa kết quả.
12
Chúng tôi đã đánh giá hệ thống trên nhiều khía cạnh để từ đó xây dựng
được giải pháp tối ưu khi đưa ứng dụng vào sử dụng trong thực tiễn và tiến hành
áp dụng triển khai thí điểm ứng dụng trong thực tiễn.
1.6 Bố cục luận văn
Ngoài phần mở đầu, mục lục và danh mục, tài liệu tham khảo, luận văn có
bố cục được chia thành 5 chương:
Chương 1: Giới thiệu chung: Trình bày lý do thực hiện đề tài, giới thiệu
chung, mục tiêu đối tượng phạm vi nghiên cứu. ý nghĩa khoa học và ý nghĩa thực
tiễn
Chương 2: Cơ sở lý thuyết và các nghiên cứu có liên quan chương này
trình bày khái niện về công tác thuế, thủ tục hành chính thuế và một số phương
pháp phân tích, trực quan hóa và dự báo và các nghiên cứu có liên quan.
Chương 3: Mô hình đề xuất phân tích, trực quan hóa và dự báo kết quả gi
ải quyết thủ tục hành chính thuế tại Cục thuế tỉnh Bình Dương .
Chương 4: Thực nghiệm và đánh giá kết quả chương này trình bày về quá
trình phân tích dữ liệu, trực quan hóa và dự báo kết quả bằng khai phá dữ liệu;
thực nghiệm và đánh giá kết quả đạt được khi thực nghiệm.
Chương 5: Kết luận và hướng phát triển.
13
Chương 2
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU CÓ LIÊN QUAN
Trong chương này, chúng tôi trình bày về Thủ tục hành chính thuế của
Ngành thuế Việt Nam nói chung cũng như Cục thuế Bình Dương nói riêng, các
nghiên cứu liên quan đã được công bố về các thủ tục hành chính thuế. Chương
này cũng trình bày một số phương pháp dự báo, phương pháp khai phá dữ liệu và
một số nghiên cứu liên quan đến mô hình dự báo ngắn hạn, mô hình dự báo dài
hạn trên một số nước từ đó lựa chọn phương pháp nghiên cứu thích hợp cho bài
toán đặt ra
2.1 Thủ tục hành chính thuế
Tổng cục thuế (TCT) là tổ chức được thành lập năm 1945 có chi nhánh
rộng khắp trên 63 tỉnh thành trên toàn quốc hiện đang hỗ trợ các thủ tục hành
chính thuế như: tài liệu, hoá đơn, chính sách thủ tục thuế từ người nộp thuế.
Dịch vụ thủ tục hành chính thuế (DVTTHCT) là loại hàng hoá đặc biệt,
sản phẩm dịch vụ vô hình, phục vụ chức năng công quyền, loại DVTTHCT do
Cục thuế thực hiện, có đặc điểm sau: Quá trình thực hiện và cung cấp dịch vụ
hành chính đều bị điều tiết rất chặt chẽ bởi quy định của pháp luật, mỗi người sử
dụng dịch vụ đều có quyền ngang nhau trong việc sử dụng dịch vụ.
Phạm vi giải quyết DVTTHCT
Thủ tục “nộp thuế”:
Thủ tục “khai báo thuế”
Thủ tục “hoàn thuế “
Thủ tục “kiểm tra”
Thủ tục “thanh tra”
14
Ưu điểm của các thủ tục hành chính:
Thủ tục hành chính “khai báo thuế” nhanh, tiết kiệm thời gian, linh hoạt
có độ tin cậy và uy tín cao.
Thủ tục hành chính “nộp thuế” thuận lợi, nhanh, tiết kiệm thời gian, chi
phí
Thủ tục hành chính “hoàn thuế” nhanh, hỗ trợ kịp thời
Thủ tục hành chính “kiểm tra” nhanh, chuyên nghiệp,
Thủ tục hành chính “thanh tra” nhanh, chuyên nghiệp, phát hiện hành vi
gian lận kịp thời, chống thất thoát nguồn ngân sách
Một số nhược điểm của thủ tục hành chính thuế
So với một số thủ tục hành chính khác, việc giải quyết hồ sơ còn chậm
hơn
Người nộp thuế phải mang đến tận nơi để giải quyết thủ tục hành chính
thuế
Kết quả giải quyết thủ tục hành chính thuế chưa được công khai minh
bạch.
2.2 Một số phương pháp dự báo
Có nhiều cách để phân loại các dự báo khác nhau. Nếu căn cứ vào độ dài
thời gian dự báo thì có thể phân thành ba loại: [4], [9].
Dự báo dài hạn: Là những dự báo có thời gian dự báo từ 5 năm trở lên.
Thường dùng để dự báo những mục tiêu, chiến lược về kinh tế chính trị, khoa
học kỹ thuật trong thời gian dài ở tầm vĩ mô.
Dự báo trung hạn: Là những dự báo có thời gian dự báo từ 3 đến 5 năm.
Thường phục vụ cho việc xây dựng những kế hoạch trung hạn về kinh tế văn hoá
xã hội… ở tầm vi mô và vĩ mô.
15
Dự báo ngắn hạn: Là những dự báo có thời gian dự báo dưới 3 năm, loại
dự báo này thường dùng để dự báo hoặc lập các kế hoạch kinh tế,văn hoá, xã hội
chủ yếu ở tầm vi mô và vĩ mô trong khoảng thời gian ngắn nhằm phục vụ cho
công tác chỉ đạo kịp thời. Cách phân loại này chỉ mang tính tương đối tuỳ thuộc
vào từng loại hiện tượng để quy định khoảng cách thời gian cho phù hợp với loại
hiện tượng đó.
Dựa vào đối tượng dự báo, có thể chia dự báo thành: Dự báo khoa học, dự
báo kinh tế, dự báo xã hội, dự báo tự nhiên, thiên văn học…Căn cứ vào phương
pháp dự báo, có thể chia thành 3 nhóm [4], [9]:
Dự báo bằng phương pháp chuyên gia: Loại dự báo này được tiến hành
trên cơ sở tổng hợp, xử lý ý kiến của các chuyên gia thông thạo với hiện tượng
được nghiên cứu, từ đó có phương pháp xử lý thích hợp đề ra các dự đoán, các
dự đoán này được cân nhắc và đánh giá chủ quan từ các chuyên gia. Phương
pháp này có ưu thế trong trường hợp dự đoán những hiện tượng hay quá trình
bao quát rộng, phức tạp, chịu sự chi phối của khoa học- kỹ thuật, sự thay đổi của
môi trường, thời tiết, chiến tranh trong khoảng thời gian dài. Một cải tiến của
phương pháp Delphi - là phương pháp dự báo dựa trên cơ sở sử dụng một tập
hợp những đánh giá của một nhóm chuyên gia. Mỗi chuyên gia được hỏi ý kiến
và rồi dự báo của họ được trình bày dưới dạng thống kê tóm tắt. Việc trình bày
những ý kiến này được thực hiện một cách gián tiếp (không có sự tiếp xúc trực
tiếp) để tránh những sự tương tác trong nhóm nhỏ qua đó tạo nên những sai lệch
nhất định trong kết quả dự báo. Sau đó người ta yêu cầu các chuyên gia duyệt xét
lại những dự báo của họ trên [4], [9].
Dự báo theo phương trình hồi quy: Theo phương pháp này, mức độ cần dự
báo phải được xây dựng trên cơ sở xây dựng mô hình hồi quy, mô hình này được
xây dựng phù hợp với đặc điểm và xu thế phát triển của hiện tượng nghiên cứu.
Để xây dựng mô hình hồi quy, đòi hỏi phải có tài liệu về hiện tượng cần dự báo
và các hiện tượng có liên quan. Loại dự báo này thường được sử dụng để dự báo
trung hạn và dài hạn ở tầm vĩ mô [4], [9].
16
Dự báo dựa vào dãy số thời gian: Là dựa trên cơ sở dãy số thời gian phản
ánh sự biến động của hiện tượng ở những thời gian đã qua để xác định mức độ
của hiện tượng trong tương lai. Trong luận án này, tác giả nhóm các phương
pháp dự báo thành 2 nhóm chính là các phương pháp định tính và các phương
pháp định lượng [4], [9].
Phương pháp dự báo định tính: Phương pháp này dựa trên cơ sở nhận xét
của những yếu tố liên quan, dựa trên những ý kiến về các khả năng có liên hệ của
những yếu tố liên quan này trong tương lai. Phương pháp định tính có liên quan
đến mức độ phức tạp khác nhau, từ việc khảo sát ý kiến được tiến hành một cách
khoa học để nhận biết các sự kiện tương lai hay từ ý kiến phản hồi của một nhóm
đối tượng hưởng lợi (chịu tác động) nào đó.
Phương pháp dự báo định lượng: Các phương pháp dự báo định lượng
thường dựa trên số liệu quá khứ, những số liệu này giả sử có liên quan đến tương
lai và có thể tìm thấy được. Tất cả các mô hình dự báo theo định lượng có thể sử
dụng thông qua chuỗi thời gian và các giá trị này được quan sát đo lường các giai
đoạn theo từng chuỗi. Thông thường khi dự báo người ta thường hay kết hợp cả
phương pháp định tính và định lượng để nâng cao mức độ chính xác của dự báo.
Bên cạnh đó, vấn đề cần dự báo đôi khi không thể thực hiện được thông qua một
phương pháp dự báo đơn lẻ mà đòi hỏi kết hợp nhiều hơn một phương pháp
nhằm mô tả đúng bản chất sự việc cần dự báo.
2.3 Khai phá dữ liệu
2.3.1 Giới thiệu về khai phá dữ liệu
Lượng dữ liệu mà chúng ta tạo ra mỗi ngày ước tính khoảng trên vài tỷ tỷ
byte/ngày. Chính vì vậy, hiện nay lượng dữ liệu mà con người thu thập và lưu trữ
được trong các kho dữ liệu là rất lớn, nhiều khi vượt qua khả năng quản lý. Hiện
tại, người ta đang đề cập đến khái niệm khủng hoảng phân tích dữ liệu tác nghiệp
để cung cấp thông tin với yêu cầu chất lượng ngày càng cao cho những người ra
quyết định trong các tổ chức tài chính, thương mại, khoa học, việc làm... Nhà
17
nghiên cứu John Naisbett đã cảnh báo về vấn đề này “Chúng ta đang chìm ngập
trong dữ liệu mà vẫn đói tri thức”.
Với khối lượng dữ liệu tăng nhanh và khổng lồ như vậy, chính vì vậy các
phương pháp thủ công truyền thống áp dụng để phân tích dữ liệu sẽ không hiệu
quả, tốn kém và dễ dẫn đến những sai lệch.
Nếu cho rằng các điện tử và các sóng điện tử chính là bản chất của công
nghệ điện tử truyền thống thì dữ liệu, thông tin và tri thức hiện đang là tiêu điểm
của một lĩnh vực mới trong nghiên cứu và ứng dụng về phát hiện tri thức
(Knowledge Discovery) và khai phá dữ liệu (Data Mining).
Thông thường chúng ta coi dữ liệu như một dãy các bit, hoặc các số và
các ký hiệu, hoặc các “đối tượng” với một ý nghĩa nào đó khi được gửi cho một
chương trình dưới một dạng nhất định. Chúng ta sử dụng các bit để đo lường các
thông tin và xem nó như là các dữ liệu đã được lọc bỏ các dư thừa, được rút gọn
tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu. Chúng ta có thể xem
tri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ
giữa chúng. Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện,
hoặc có thể được học. Nói cách khác, tri thức có thể được coi là dữ liệu có độ
trừu tượng và tổ chức cao.
Phát hiện tri thức trong các cơ sở dữ liệu là một quy trình nhận biết các
mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và
có thể hiểu được. Còn khai thác dữ liệu là một bước trong quy trình phát hiện tri
thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số quy định
về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong
dữ liệu. Nói một cách khác, mục đích của phát hiện tri thức và khai phá dữ liệu
chính là tìm ra các mẫu và/hoặc các mô hình đang tồn tại trong các cơ sở dữ liệu
nhưng vẫn còn bị che khuất bởi hàng núi dữ liệu.
18
Định nghĩa: “KDD (Knowledge Discovery in Databases) là quá trình
không tầm thường nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và hiểu
được trong dữ liệu”.
Còn các nhà thống kê thì xem Khai phá dữ liệu như là một qui trình phân
tích được thiết kế để thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra
các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến và
sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã phát
hiện được cho các tập con mới của dữ liệu. Quy trình này bao gồm ba giai đoạn
cơ bản: thăm dò, xây dựng mô hình hoặc định nghĩa mẫu, hợp thức/kiểm chứng.
Quy trình phát hiện tri thức được mô tả tóm tắt như sau:
Bước thứ nhất: Hình thành, xác định và định nghĩa bài toán là tìm hiểu
lĩnh vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải
hoàn thành. Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và
cho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng
dụng và bản chất của dữ liệu.
Bước thứ hai: Thu thập và tiền xử lý dữ liệu là thu thập và xử lý thô, còn
được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu, xử lý việc thiếu dữ liệu, biến
đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm nhiều thời
gian nhất trong toàn bộ qui trình phát hiện tri thức.
19
- Xem thêm -