Đăng ký Đăng nhập
Trang chủ Phát hiện bất thường điện năng tiêu thụ dựa trên phân tích dữ liệu chuỗi thời gi...

Tài liệu Phát hiện bất thường điện năng tiêu thụ dựa trên phân tích dữ liệu chuỗi thời gian

.PDF
58
7
130

Mô tả:

ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA -------------------- NGUYỄN MINH HUẤN PHÁT HIỆN BẤT THƯỜNG ĐIỆN NĂNG TIÊU THỤ DỰA TRÊN PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ Mã số: 60.34.04.05 LUẬN VĂN THẠC SĨ TP. HỒ CHÍ MINH, tháng 12 năm 2018 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG - HCM Cán bộ hướng dẫn khoa học: PGS. TS. ĐẶNG TRẦN KHÁNH (Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 1 : ........................................................................... (Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 2 : ........................................................................... (Ghi rõ họ, tên, học hàm, học vị và chữ ký) Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM ngày . . . . . tháng . . . . năm . . . . . Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1. .............................................................. 2. .............................................................. 3. .............................................................. 4. .............................................................. 5. .............................................................. Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có). CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH & KT MÁY TÍNH ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN MINH HUẤN MSHV: 1670463 Ngày, tháng, năm sinh: 26/08/1981 Nơi sinh: Đồng Nai Chuyên ngành: Hệ thống thông tin quản lý Mã số : 60.34.04.05 I. TÊN ĐỀ TÀI: PHÁT HIỆN BẤT THƯỜNG ĐIỆN NĂNG TIÊU THỤ DỰA TRÊN PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN II. NHIỆM VỤ VÀ NỘI DUNG: - Nhiệm vụ: Thực hiện luận văn thạc sĩ với đề tài Phát hiện bất thường điện năng tiêu thụ dựa trên phân tích dữ liệu chuỗi thời gian. - Nội dung: + Làm rõ khái niệm bất thường cho tiêu thụ điện. + Tìm hiểu các phương pháp xác định bất thường. + Nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng là các doanh nghiệp. + Thiết kế thí nghiệm để đánh giá một số phương pháp xác định bất thường trên dữ liệu điện năng tiêu thụ thực tế của một số khách hàng là doanh nghiệp. + Thiết kế và xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo thời gian thực dành cho các đối tượng sử dụng là những người không phải là chuyên gia về phân tích dữ liệu. III. NGÀY GIAO NHIỆM VỤ : 15/01/2018 IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 17/06/2018 V. CÁN BỘ HƯỚNG DẪN: PGS. TS. ĐẶNG TRẦN KHÁNH Tp. HCM, ngày . . . . tháng .. . . năm 2019 CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KH & KTMT i LỜI CẢM ƠN Đầu tiên, tôi xin chân thành cảm ơn Thầy, PGS. TS Đặng Trần Khánh đã tận tình hướng dẫn tôi trong quá trình thực hiện luận văn tốt nghiệp. Thầy đã đưa ra nhiều ý tưởng, gợi ý nhiều phương pháp để tôi tìm hiểu, nghiên cứu và áp dụng trong luận văn này. Tôi xin chân thành cảm ơn các Thầy, Cô của trường Đại học Bách Khoa Thành phố Hồ Chí Minh đã truyền đạt những kiến thức quí giá giúp tôi ngày càng trưởng thành hơn trên con đường học vấn của mình. Tôi xin chân thành cảm ơn Ông Nguyễn Phước Đức, Phó Tổng Giám đốc Tổng công ty Điện lực miền Nam; Ông Trần Hữu Minh, Trưởng Ban Công nghệ thông tin và các đồng nghiệp tại Tổng công ty Điện lực miền Nam đã tạo điều kiện để tôi tham gia khóa học và thực hiện luận văn này. Con xin cảm ơn Ba, Mẹ luôn đặt niềm tin và luôn dõi theo con trên con đường tìm tòi học vấn và kiến thức. Cuối cùng, tôi cảm ơn vợ tôi, Nguyễn Lưu Thùy Ngân, đã luôn động viên, khuyến khích tôi hoàn thành chương trình học Thạc sĩ Hệ thống thông tin quản lý và hoàn thành luận văn tốt nghiệp. Thành phố Hồ Chí Minh, tháng 12 năm 2018 ii TÓM TẮT Ngày nay, với sự phổ biến của công tơ điện tử, dữ liệu điện năng tiêu thụ của khách hàng sử dụng điện được các Công ty Điện lực thu thập liên tục. Luận văn này nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng sử dụng điện để tìm ra phương pháp hiệu quả dùng để phát hiện bất thường trong quá trình sử dụng điện của khách hàng. Phương pháp phát hiện bất thường bao gồm 2 giai đoạn: Giai đoạn thứ nhất, giai đoạn dự báo, nhằm dự báo giá trị điện năng tiêu thụ trong tương lai, sau đó tính toán vùng giá trị bình thường. Giai đoạn thứ hai, giai đoạn xác định bất thường, là so sánh điện năng tiêu thụ thực tế với vùng giá trị bình thường để tìm ra các bất thường trong sử dụng điện của khách hàng. Đối với dự báo điện năng tiêu thụ trong tương lai, luận văn cài đặt thử nghiệm, so sánh hiệu quả của 04 phương pháp dự báo phổ biến hiện nay là: (1) Auto Regressive integrated Moving Average (ARIMA), (2) Holt-Winters, (3) Double Seasonal Holt-Winters và (4) phương pháp lai giữa mạng nơ ron và ARIMA. Các thử nghiệm được thực hiện trên dữ liệu điện năng tiêu thụ điện thực tế của một số khách hàng sử dụng điện của Tổng công ty Điện lực miền Nam (thông tin khách hàng đã được mã hóa). Bên cạnh đó, luận văn cũng xây dựng công cụ hỗ trợ phát hiện bất thường theo thời gian thực để minh họa cho phương pháp phát hiện bất thường mà luận văn sử dụng. iii ABSTRACT Nowadays, the use of digital electric-energy meter has become very popular. Thanks to digital electric-energy meters, the electricity company can easily gather electric-energy-consumption data in real time. This research compares different data analysis methods to find an effective method for detecting possible anomalies in electric-energy consumption; thus, is beneficial for both electric-energy consumers and suppliers. Our anomaly detection methods follow two broad steps: The first step is to predict the amount of electric-energy consumption at a moment in future and calculate a possible range of normal consumption. The second step is to compare the actual consumption value that is collected via the digital electric-energy meter with the predicted range; Values that fall outside this range are considered anomalies. For the first step, we study four different methods which have shown good results on other data sets in previous works: (1) Auto Regressive Integrated Moving Average (ARIMA), (2) Holt-Winters, (3) Double Seasonal Holt-Winters, and (4) A hybrid method between Neural Network and ARIMA (NNAR). All of the experiments are carried out on the real electric-energy consumption data of the Southern Electric Power Company – Vietnam (consumers’ information has been anonymized). Besides, we also built a tool to assist human in detecting anomalies to illustrate the methods implemented in this research. iv LỜI CAM ĐOAN CỦA TÁC GIẢ Tôi xin cam đoan những kết quả nghiên cứu được trình bày trong luận văn này do chính bản thân tôi thực hiện. Những nội dung tham khảo từ công trình khác đều được trích dẫn đầy đủ. v MỤC LỤC CHƯƠNG 1: MỞ ĐẦU ..............................................................................................1 1.1. Giới thiệu đề tài ................................................................................................1 1.2. Mục tiêu nghiên cứu .........................................................................................1 1.3. Đối tượng và phạm vi nghiên cứu ....................................................................2 1.4. Cấu trúc của luận văn .......................................................................................2 1.5. Đóng góp của luận văn .....................................................................................3 CHƯƠNG 2: TỔNG QUAN .......................................................................................4 2.1 Các công trình trình nghiên cứu liên quan.........................................................4 2.2. Hướng nghiên cứu của luận văn .......................................................................5 CHƯƠNG 3: CƠ SỞ LÝ THUYẾT ...........................................................................6 3.1. Phát hiện bất thường .........................................................................................6 3.1.1. Các dạng bất thường ...................................................................................6 3.1.2. Các phương pháp phát hiện bất thường......................................................6 3.1.3. Các kỹ thuật dùng để phát hiện bất thường phổ biến .................................7 3.1.3.1. Kỹ thuật phát hiện bất thường dựa trên phân lớp ................................7 3.1.3.2. Kỹ thuật phát hiện bất thường dựa trên phân cụm ...............................8 3.1.3.3. Kỹ thuật phát hiện bất thường dựa trên thống kê ................................9 3.2. Phân tích dữ liệu chuỗi thời gian ......................................................................9 3.2.1. Dữ liệu chuỗi thời gian ...............................................................................9 3.2.1.1. Định nghĩa ............................................................................................9 3.2.1.2. Chuỗi thời gian dừng .........................................................................10 3.2.1.3. Xu hướng và mùa vụ ..........................................................................10 3.2.2. Các phương pháp dự báo dựa trên phân tích dữ liệu chuỗi thời gian ......11 3.2.2.1. ARIMA ..............................................................................................11 3.2.2.2. Holt Winters .......................................................................................12 3.2.2.4. Phương pháp dự báo Double Season Exponential Smoothing ..........14 3.3. Phương pháp pháp hiện bất thường ................................................................16 3.4. Đánh giá độ chính xác của mô hình dự báo....................................................17 CHƯƠNG 4: PHƯƠNG PHÁP THÍ NGHIỆM .......................................................18 4.1. Dữ liệu ............................................................................................................18 vi 4.2. Phương pháp thí nghiệm .................................................................................23 4.2.1. Phương pháp thực hiện .............................................................................23 4.2.2. Dữ liệu thực hiện các mô hình dự báo .....................................................25 4.2.3. Công cụ thực hiện thí nghiệm ..................................................................25 4.3. Phương pháp đánh giá ....................................................................................25 CHƯƠNG 5: KẾT QUẢ THÍ NGHIỆM ..................................................................26 5.1. Thí nghiệm 1 ...................................................................................................26 5.1.1. Mục tiêu ....................................................................................................26 5.1.2. Dữ liệu ......................................................................................................26 5.1.3. Kết quả .....................................................................................................26 5.2. Thí nghiệm 2 ...................................................................................................28 5.2.1. Mục tiêu ....................................................................................................28 5.2.2. Dữ liệu ......................................................................................................28 5.2.3. Kết quả .....................................................................................................28 5.3. Thí nghiệm 3 ...................................................................................................29 5.3.1. Mục tiêu ....................................................................................................29 5.3.2. Dữ liệu ......................................................................................................29 5.3.3. Kết quả .....................................................................................................29 5.4. Thí nghiệm 4 ...................................................................................................30 5.4.1. Mục tiêu ....................................................................................................30 5.4.2. Dữ liệu ......................................................................................................31 5.4.3. Kết quả .....................................................................................................31 5.5. Thí nghiệm 5 ...................................................................................................38 5.5.1. Mục tiêu ....................................................................................................38 5.5.2. Dữ liệu ......................................................................................................38 5.5.3. Kết quả .....................................................................................................38 CHƯƠNG 6: CÔNG CỤ PHÁT HIỆN BẤT THƯỜNG .........................................39 6.1. Thiết kế hệ thống ............................................................................................39 6.2. Lớp cơ sở dữ liệu: ...........................................................................................40 6.3. Mô đun phân tích ............................................................................................41 6.4. Giao diện .........................................................................................................41 CHƯƠNG 7: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..........................................43 vii DANH MỤC CÁC TÀI LIỆU THAM KHẢO .........................................................44 HÌNH Hình 1 Bất thường toàn cục và bất thường cụ bộ. Nguồn [15]. ..................................6 Hình 2 Minh họa dữ liệu chuỗi thời gian ..................................................................10 Hình 3 Phân rã dữ liệu chuỗi thời gian với hàm decompose của ngôn ngữ R..........11 Hình 4 Cấu trúc mạng nơ ron nhân tạo. nguồn: https://cs231n.github.io .................15 Hình 5 Qui tắc 2-sigma của phân phối chuẩn. Nguồn [2].........................................16 Hình 6 Mô hình thu thập dữ liệu công tơ điện tử từ xa.............................................18 Hình 7 Mô hình phát tuyến của các trạm khách hàng ...............................................19 Hình 8 Biểu đồ phụ tải của 19 khách hàng kinh doanh ............................................19 Hình 9 Tổng hợp phụ tải theo ngày của 19 khách hàng............................................20 Hình 10 Tổng hợp phụ tải theo tuần của 19 khách hàng ..........................................20 Hình 11 Biểu đồ phụ tải của các khách hàng có ID là 7,9,17,19 ..............................21 Hình 12 Biểu đồ tần suất giá trị phụ tải (histogram) .................................................22 Hình 13 Biểu đồ phân bố dữ liệu, biểu đồ giá trị trung bình với độ lệch chuẩn (Sd) và biểu đồ giá trị trung vị và độ lệch từ trung vị (Mad) ............................................23 Hình 14 Qui trình phát hiện bất thường dữ liệu ........................................................24 Hình 15 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE trung bình) trên các tập dữ liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trượt trong 5 tuần .....................26 Hình 16 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE %) trên các tập dữ liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trong 5 tuần ...............................................27 Hình 17 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE trung bình) trên các tập dữ liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trượt trong 5 tuần .....................28 Hình 18 So sánh các mô hình dự báo của tổng hợp 19 khách hàng sử dụng điện ....29 Hình 19 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo ...............................30 Hình 20 Kết quả dự báo của các mô hình cho khách hàng có ID là 7 ......................31 Hình 21 Biểu đồ phụ tải của khách hàng có ID là 7 .................................................32 viii Hình 22 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của khách hàng có ID là 7................................................................................................32 Hình 23 Kết quả dự báo của các mô hình cho khách hàng có ID là 9 ......................33 Hình 24 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của khách hàng có ID là 9................................................................................................33 Hình 25 Kết quả dữ báo của các mô hình cho khách hàng có ID là 17 ....................34 Hình 26 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của khách hàng có ID là 17..............................................................................................35 Hình 27 Kết quả dữ báo của các mô hình cho khách hàng có ID là 19 ....................36 Hình 28 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của khách hàng có ID là 19..............................................................................................36 Hình 29 Biểu đồ phụ tải của khách hàng có ID là 19 ...............................................37 Hình 30 So sánh phương pháp phát hiện bất thường độ lệch chuẩn và độ lệch từ trung vị ......................................................................................................................38 Hình 31 Qui trình công cụ phát hiện bất thường ......................................................39 Hình 32 Giao diện công cụ phát hiện bất thường .....................................................42 BẢNG Bảng 1 Giá trị trung bình, độ lệch chuẩn, giá trị trung vị, độ lệch từ trung vị của các khách hàng có ID là 7,9,17,19...................................................................................22 Bảng 2 Giá trị MAPE (%) trung bình của các mô hình dự báo đối với dữ liệu của 1 trạm biến áp với các khoảng thời gian huấn luyện là 4 tuần, 16 tuần và 32 tuần. ....27 Bảng 3 Giá trị MAPE (%) của các mô hình dự báo đối với dữ liệu của 1 trạm biến áp với các khoảng thời gian huấn luyện là 4 tuần, 16 tuần và 32 tuần trong 5 tuần .27 Bảng 4 Giá trị MAPE trung bình của các mô hình dự báo đối với các khách hàng có ID lần lược là 7,9,17,19.............................................................................................29 Bảng 5 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo cho tổng hợp 19 khách hàng.................................................................................................................30 ix Bảng 6 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo của khách hàng có ID là 7 ...................................................................................................................32 Bảng 7 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo của khách hàng có ID là 9 ...................................................................................................................34 Bảng 8 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo của khách hàng có ID là 17 .................................................................................................................35 Bảng 9 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo của khách hàng có ID là 19 .................................................................................................................37 Bảng 10 Kết quả phát hiện bất thường ......................................................................38 Bảng 12 Thông tin bảng TBLPREDICTION ...........................................................40 1 CHƯƠNG 1: MỞ ĐẦU 1.1. Giới thiệu đề tài Phát hiện bất thường trong tiêu thụ điện là một vấn đề quan trọng đối với các khách hàng sử dụng điện và các các Công ty phân phối điện (Công ty Điện lực). Đối với khách hàng sử dụng điện, đặc biệt là đối với khách hàng sử dụng điện với mục đích sản xuất và kinh doanh (Doanh nghiệp), việc phát hiện bất thường có ý nghĩa rất quan trọng trong việc quản lý sử dụng điện, giúp tránh thất thoát điện và có kế hoạch quản lý và sử dụng điện tốt hơn nhằm tối ưu hóa chi phí sử dụng điện. Đối với các Công ty Điện lực, việc phát hiện bất thường trong quá trình sử dụng điện của khách hàng giúp việc lập kế hoạch và điều hành cung ứng điện tốt hơn, kiểm soát và điều tiết được thời điểm công suất đỉnh trong trường hợp thiếu điện. Việc kiểm soát tốt năng lượng điện sử dụng là một trong những giải pháp giúp đối phó với nguy cơ thiếu điện có thể xảy ra tại Việt Nam vào năm 2020 [1]. Theo Tập đoàn Điện lực Việt Nam, đến năm 2021-2023 hệ thống điện có khả năng không đáp ứng đủ nhu cầu và nhiều khả năng xảy ra tình trạng thiếu điện tại miền Nam [1]. Một số nguyên nhân của các bất thường trong sử dụng điện có thể liệt kê như: sử dụng nhiều đèn chiếu sáng không cần thiết; sử dụng các thiết bị, máy móc không phù hợp [2]; hay liên quan đến các lỗi do con người [3]. Phương pháp thông thường để phát hiện các bất thường trong sử dụng điện là phân tích dữ liệu được ghi nhận từ các thiết bị cảm biến như: cảm biến chuyển động, cảm biến nhiệt độ, máy ghi hình, … với chi phí lắp đặt các cảm biến và phân tích dữ liệu phát sinh cao [2]. Ngày nay, với việc ứng dụng công tơ điện tử để thu thập dữ liệu điện năng tiêu thụ với tần suất cao trong ngày có thể giúp phát hiện bất thường trong sử dụng điện và giảm số lượng cảm biến nêu trên. Hiện nay mỗi ngày, Tổng công ty Điện lực miền Nam đang thu thập và quản lý hơn 2 triệu dòng dữ liệu của các khách hàng là các công ty sản xuất, thương mại từ các công tơ điện tử. Việc phải rà soát, xử lý một số lượng lớn dữ liệu nêu trên gây khó khăn cho các bộ phận quản lý vận hành tại các Công ty Điện lực để phát hiện, cảnh báo cho khách hàng khi các hiện tượng bất thường xảy ra. Từ những vấn đề nêu trên, luận văn khái quát hóa bài toán cần giải quyết như sau: Từ dữ liệu điện năng tiêu thụ của khách hàng sử dụng điện, máy tính phát hiện các điểm dữ liệu bất thường và thông báo cho khách hàng sử dụng điện theo thời gian thực để có thể tiến hành rà soát, kiểm tra. 1.2. Mục tiêu nghiên cứu Từ bài toán cần giải quyết nêu trên, luận văn đề ra các mục tiêu nghiên cứu sau: - Làm rõ khái niệm bất thường cho tiêu thụ điện. - Tìm hiểu các phương pháp xác định bất thường. 2 - Nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng là các doanh nghiệp. - Thiết kế thí nghiệm để đánh giá một số phương pháp xác định bất thường trên dữ liệu điện năng tiêu thụ thực tế của một số khách hàng là doanh nghiệp. - Thiết kế và xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo thời gian thực dành cho các đối tượng sử dụng là những người không phải là chuyên gia về phân tích dữ liệu. 1.3. Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu của luận văn là dữ liệu điện năng tiêu thụ của một số khách hàng sử dụng điện là doanh nghiệp của Tổng công ty Điện lực miền Nam. Luận văn sẽ tìm hiểu một số phương pháp phát hiện bất thường, cài đặt so sánh kết quả của các phương pháp đó. Giới hạn của luận văn là sẽ thực hiện các thí nghiệm trên dữ liệu điện năng tiêu thụ là dữ liệu chuỗi thời gian một biến. Việc xác định bất thường theo thời gian thực có nghĩa là khi dữ liệu điện năng tiêu thụ được ghi vào hệ thống với tần suất 30 phút 1 lần, một phương pháp được dùng để xác định bất thường ngay lập tức sẽ đưa ra đề xuất dữ liệu điện năng tiêu thụ là bình thường hay bất thường. Bất thường trong tiêu thụ điện có nghĩa là sản lượng điện năng tiêu thụ trong một đơn vị thời gian vượt quá ngưỡng bình thường. Công cụ dùng để xác định bất thường không phải là một phần mềm hoàn chỉnh mà chỉ mang tính chất minh họa tính khả thi của phương pháp xác định bất thường của điện năng tiêu thụ mà luận văn đề xuất. Việc xây dụng phần mềm hoàn chỉnh có thể áp dụng trong thực tế đòi hỏi nhiều nguồn lực về chi phí và thời gian vượt quá giới hạn về nguồn lực của các nhân thực hiện luận văn. 1.4. Cấu trúc của luận văn Cấu trúc của luận văn được chia làm 7 chương, với các nội dung chính như sau: Chương 1: Mở đầu. Trình bày lý do chọn đề tài, mục đích, đối tượng và phạm vi nghiên cứu. Chương 2: Tổng quan. Phân tích, đánh giá các công trình nghiên cứu liên quan; nêu những vấn đề còn tồn tại; chỉ ra các vấn đề cần tập trung nghiên cứu giải quyết. Chương 3: Cơ sở lý thuyết. Trình bày định nghĩa các loại bất thường, các phương pháp xác định bất thường. Trình bày các phương pháp dự báo ngắn hạn, cách thức đánh giá hiệu quả của các phương pháp dự báo. Chương 4. Phương pháp thí nghiệm. Chương 5. Kết quả thí nghiệm. Chương 6. Công cụ xác định bất thường theo thời gian thực. Chương 7. Kết luận và hướng phát triển. 3 1.5. Đóng góp của luận văn - Tìm hiểu dữ liệu điện năng tiêu thụ của các khách hàng sử dụng điện với mục đích ngoài sinh hoạt. - Tìm hiểu và so sánh các mô hình dự báo ngắn hạn như: NNAR [2] [4], ARIMA và Holt-Winters [5], Double Seasonal Holt-Winters [6] trên dữ liệu điện năng tiêu thụ của một số khách hàng tại Tổng công ty Điện lực miền Nam. - So sánh kết quả 2 phương pháp xác định bất thường: Phương pháp thứ nhất dựa vào giá trị trung bình và độ lệch chuẩn [2]; Phương pháp thứ hai dựa vào giá trị trung vị và độ lệch từ trung vị [7]. - Xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo thời gian thực dựa trên giá trị được dự báo sử dụng 2 phương phát phát hiện bất thường nêu trên. 4 CHƯƠNG 2: TỔNG QUAN 2.1 Các công trình trình nghiên cứu liên quan Đã có nhiều nghiên cứu phát hiện bất thường bằng các thuật toán khai phá dữ liệu [2] [8]. Chou et al. [2] đề xuất một phương pháp phát hiện bất thường theo thời gian thực thông qua hai giai đoạn: - Giai đoạn đầu tiên dự báo tiêu thụ điện bằng thuật toán lai giữa mạng nơ-ron nhân tạo và ARIMA (Auto-Regressive Integrated Moving Average). - Giai đoạn thứ phát hiện bất thường bằng cách sử dụng giá trị chênh lệch giữa dữ liệu tiêu thụ thực tế và dự báo. Tương tự, Hill và Barbara [8] cũng đưa ra giải pháp mô hình hóa dữ liệu để phát hiện bất thường bằng cách dự báo sử dụng các mô hình naı¨ve, nearest cluster (NC), single-layer linear network (LN), và multilayer perceptron (MLP) và so sánh dữ liệu thực tế với khoảng giá trị Predict Interval (PI) được tính toán trên cơ sở giá trị dự báo để xác định các điểm dữ liệu bất thường. Dữ liệu của [2] là dữ liệu điện năng tiêu thụ của phòng thí nghiệm. Dữ liệu của [8] là dữ liệu đo tốc độ gió. Araya et al. [3] việc chỉ xem xét dữ liệu lịch sử để phát hiện ra các bất thường có thể đưa ra kết quả sai vì thiếu các thông tin liên quan đến ngữ cảnh khi xảy ra bất thường đó ví dụ như ngày làm việc, ngày nghỉ, giờ làm việc, giờ không làm việc đối với tiêu thụ điện. Araya et al. [3] cho rằng bất thường có thể đúng trong ngữ cảnh này nhưng trong ngữ cảnh khác thì không phải là bất thường và đề xuất giải pháp CCADSW (Collective Contextual Anomaly Detection using Sliding Window). Dữ liệu là điện năng tiêu thụ của hệ thống điều hòa không khí (Heating, ventilation, and air conditioning – HVAC) trong trường học và các dữ liệu bất thường được giả lập. Arjunan et al. [9] cũng đề xuất kỹ thuật phát hiện bất thường và giám sát năng lượng tiêu thụ cho nhóm khách hàng dựa trên dữ liệu được phân nhóm theo ngữ cảnh và dựa trên thông tin các khách hàng lân cận có chung hành vi. Dữ liệu điện năng tiêu thụ của các tòa nhà trong trường học và điện năng tiêu thụ của các căn hộ trong một tòa nhà. Arjunan et al. [9] đề xuất kỹ thuật phát hiện bất thường gồm 2 bước: - Bước 1: Tính điểm bất thường cho từng khách hàng. - Bước 2: Điều chỉnh điểm bất thường dựa vào thông tin điện năng tiêu thụ của các khàng lân cận. Kumar et al. [10] sử dụng phân cụm (Clustering) để phát hiện bất thường đối với dữ liệu quĩ đạo đường đi. Thuật toán clusiVAT của Kumar et al. [10] được phát triển và cải tiến từ các thuật toán VAT, iVAT, sVAT được đề suất bởi các nghiên cứu [11] [12] [13] để phân cụm cho dữ liệu lớn. Tuy nhiên, phương pháp xác định bất thường do Kumar et al. [10] đề xuất không phù hợp khi áp dụng cho dữ liệu điện năng 5 tiêu thụ của các khách hàng sử dụng điện vì dữ liệu có tính biến đổi lớn phụ thuộc vào các hành vi sử dụng điện của khách hàng. 2.2. Hướng nghiên cứu của luận văn Luận văn áp dụng phương pháp phát hiện bất thường theo thời gian thực được đề xuất bởi Chou et al. [2] và Hill và Barbara [8] là quá trình phát hiện bất thường bao gồm 2 giai đoạn: - Giai đoạn dự báo: + Giúp Công ty Điện lực dự báo đỉnh phụ tải tương lai để chủ động hơn trong điều hành cung ứng điện. + Giúp KH: Chủ động hơn trong việc xây dựng kế hoạch sử dụng điện. - Giai đoạn phát hiện bất thường: Giúp khách hàng xác định được những bất thường trong tiêu thụ điện. Đối với giai đoạn dự báo, luận văn so sánh các phương pháp dự báo được sử dụng bởi Chou [2] và Zhang [4] là NNAR, phương pháp ARIMA và Holt-Winters được sử dụng bởi các tác giả Laurinec [5] và phương pháp Double Seasonal HoltWinters (DSHW) được đề xuất bởi Taylor [6]. Các phương pháp dự báo được lựa chọn vì đây là các phương pháp dự báo phổ biến được áp dụng cho dữ liệu điện năng tiêu thụ và có kết quả tốt trong các nghiên cứu trên. Đối với giai đoạn xác định bất thường, luận văn sẽ so sánh hai phương pháp: Phương pháp thứ nhất dựa vào giá trị trung bình và độ lệch chuẩn [2]; Phương pháp thứ hai dựa vào giá trị trung vị và độ lệch từ trung vị [7]. Từ phương pháp xác định bất thường nêu trên, luận văn sẽ phát triển công cụ phát hiện bất thường theo thời gian thực có thể áp dụng thực tế cho dữ liệu của các khách hàng sử dụng điện tại Tổng công ty Điện lực miền Nam. 6 CHƯƠNG 3: CƠ SỞ LÝ THUYẾT 3.1. Phát hiện bất thường 3.1.1. Các dạng bất thường Chandola et al. [14] chia bất thường làm 3 loại chính sau: - Điểm bất thường: Nếu một điểm dữ liệu được coi là không bình thường đối với phần còn lại của dữ liệu thì điểm dữ liệu đó được xem như điểm bất thường. Đây là dạng bất thường cơ bản nhất và được sử dụng trong hầu hết các nguyên cứu liên quan đến phát hiện bất thường. - Chuỗi bất thường: Nếu một tập các điểm dữ liệu có liên quan với nhau dị thường đối với phần còn lại của tập dữ liệu thì được xem là chuỗi bất thường. Các điểm dữ liệu riêng biệt trong một chuỗi bất thường có thể không phải là bất thường, nhưng cùng xuất hiện trong một chuỗi dữ liệu thì được xem là bất thường. - Bất thường theo ngữ cảnh: Nếu một điểm hay một chuỗi dữ liệu được xem là bất thường đối với đối với một ngữ cảnh cụ thể thì được gọi là bất thường theo ngữ cảnh. Hochenbaum, Jordan et al. [15] đề xuất 2 dạng bất thường sau: Bất thường toàn cục và Bất thường cục bộ. - Bất thường toàn cục: Là bất thường xảy ra tại một thời điểm và khác biệt so với phần còn lại của chuỗi thời gian. - Bất thường cục bộ: Là bất thường xảy rả tại một thời điểm và khác biệt so với cùng ngữ cảnh hay mùa vụ, được so sánh giữa mức tối đa và mức tối thiểu theo cùng ngữ cảnh hay mùa vụ. Hình 1 Bất thường toàn cục và bất thường cụ bộ. Nguồn [15]. Luận văn đề xuất sử dụng định nghĩa bất thường theo [15] cho bất thường trong tiêu thụ điện năng vì dữ liệu điện năng tiêu thụ là loại dữ liệu có tính ngữ cảnh và mùa vụ cao. 3.1.2. Các phương pháp phát hiện bất thường Có nhiều phương pháp được đề xuất để phát hiện bất thường. Các phương pháp tiên tiến nhất hiện nay dựa trên các mô hình máy học thống kê dựa trên tập dữ liệu đủ lớn. Dữ liệu huấn luyện mô hình phát hiện bất thường có thể có nhãn hoặc không 7 có nhãn. Nhãn của một dữ liệu thể hiện điểm dữ liệu là bình thường hay là bất thường. Có thể chia các phương pháp này thành 3 dạng sau đây [14]: - Dạng 1: Các phương pháp phát hiện bất thường có giám sát: Là các phương pháp sử dụng các nhãn dữ liệu bình thường và bất thường để xây dựng mô hình phân loại hay dự báo một điểm dữ liệu mới chưa được gán nhãn là bình thường hay là bất thường. Để sử dụng phương pháp phát hiện bất thường có giám sát đòi hỏi phải tiêu tốn chi phí cho việc gán nhãn dữ liệu. Chandola et al. [14] cho rằng có 2 thách thức làm ảnh hưởng đến kết quả phát hiện bất thường có giám sát. Một là các điểm dữ liệu có nhãn là bất thường quá ít so với dữ liệu được gán nhãn bình thường trong tập dữ liệu huấn luyện. Hai là vấn đề khó khăn cho việc gán nhãn chính xác cho các dữ liệu bất thường. - Dạng 2: Các phương pháp phát hiện bất thường bán giám sát: Phương pháp này dựa trên việc tập dữ liệu huấn luyện được gán nhãn cho các điểm dữ liệu bình thường. Do phương pháp này không yêu cầu gán nhãn cho các điểm dữ liệu bất thường nên được dùng phổ biến hơn các phương pháp phát hiện bất thường có giám sát. Nội dung của phương pháp này là dùng tập dữ liệu huấn luyện để xây dựng mô hình cho các hành vi bình thường, sau đó dùng mô hình này để phát hiện bất thường cho tập dữ liệu kiểm tra. Thách thức của phương pháp này là tìm ra tất cả các dữ liệu được cho là bình thường của tập dữ liệu huấn luyện. - Dạng 3: Các phương pháp phát hiện bất thường không giám sát: Phương pháp này không sử dụng dữ liệu có nhãn. Thay vào đó, phương pháp này giả định rằng hành vi bình thường là thường xảy ra nhất. Các điểm dữ liệu bình thường được xem là các mẫu thường xảy ra nhất, và các điểm hoặc chuỗi bị lệch khỏi các mẫu này được xem là bất thường. 3.1.3. Các kỹ thuật dùng để phát hiện bất thường phổ biến 3.1.3.1. Kỹ thuật phát hiện bất thường dựa trên phân lớp Phát hiện bất thường dựa trên kỹ thuật phân lớp thuộc phương pháp phát hiện bất thường có giám sát hay bán giám sát. Kỹ thuật này được thực hiện thông qua 2 giai đoạn: Giai đoạn huấn luyện dùng để học mô hình phân lớp dựa trên dữ liệu huấn luyện có gán nhãn có sẵn; Giai đoạn thử nghiệm phân loại dữ liệu thử nghiệm là bình thường hay bất thường. Theo Chandola et al [14] kỹ thuật phát hiện bất thường bằng phân lớp dựa trên giả định có thể phân biệt điểm dữ liệu bình thường và bất thường thông qua các đặc trưng của dữ liệu. Một số đại diện của kỹ thuật phát hiện bất thường dựa trên phân lớp là: Neural Network [16], Bayesian Networks [17], Support Vector Machines [18] và Rule-based [19]. Ưu điểm: - Có thể ứng dụng tốt cho tập dữ liệu có nhiều lớp: phân biệt được các điểm dữ liệu thuộc nhiều lớp khác nhau. - Tốc độ ở giai đoạn thử nghiệm nhanh do các điểm dữ liệu kiểm thử được so sánh với mô hình được tính toán trước. 8 Nhược điểm: - Để phân loại nhiều lớp cần thiết phải gán nhãn chính xác cho các lớp bình thường khác nhau, việc này thường rất khó khăn. - Tốn nhiều thời gian cho giai đoạn huấn luyện dữ liệu. 3.1.3.2. Kỹ thuật phát hiện bất thường dựa trên phân cụm Kỹ thuật gom cụm dùng để nhóm các điểm dữ liệu tương đồng vào cùng một nhóm. Kỹ thuật gom cụm thuộc phương pháp phát hiện bất thường không giám sát. Dựa trên 3 giả thuyết khác nhau mà kỹ thuật gom cụm được [14] đề xuất chia làm 3 nhóm: - Nhóm thứ nhất dựa trên giả thuyết điểm dữ liệu bình thường thì thuộc về cùng một cụm trong khi đó điểm dữ liệu bất thường không thuộc về một cụm nào. Nhược điểm của kỹ thuật này là nó không được tối ưu để phát hiện bất thường do mục đích chính của nó là phân cụm. - Nhóm thứ hai dựa trên giả thuyết các điểm dữ liệu bình thường nằm gần trung tâm cụm, trong khi đó các điểm bất thường nằm xa trung tâm cụm hơn. Khoảng cánh đến điểm trung tâm cụm được dùng để đo độ bất thường cho từng điểm dữ liệu. - Nhóm thứ ba dựa trên giả thuyết các điểm dữ liệu bình thường thuộc về các cụm lớn và dày đặc, trong khi các điểm dữ liệu bất thường thuộc về các cụm nhỏ hoặc cụm thưa thớt. Kỹ thuật này yêu cầu tính toán mật độ và kích thước của các cụm. Một điểm dữ liệu bất thường nếu mật độ và hoặc kích thước của cụm nó thuộc về dưới một ngưỡng nào đó. Ưu điểm: - Do kỹ thuật này thuộc về phương pháp phát hiện bất thường không giám sát do đó không cần gán nhãn dữ liệu. - Giai đoạn phát hiện bất thường tốn ít thời gian hơn. - Có thể áp dụng cho các kiểu dữ liệu phức tạp. Nhược điểm: - Hiệu năng phục thuộc nhiều vào hiệu quả của thuật toán gom cụm. - Mục tiêu chính là gom cụm dữ liệu, do đó không tối ưu cho việc phát hiện bất thường. - Tiêu tốn nhiều chi phí tính toán cho giai đoạn huấn luyện dữ liệu. - Một số thuật toán gom cụm buộc mỗi điểm dữ liệu được gán cho một số cụm. Điều này có thể dẫn đến điểm bất thường được gán cho một cụm lớn, do đó được coi là trường hợp bình thường bởi các kỹ thuật hoạt động theo giả thuyết rằng bất thường không thuộc về bất kỳ cụm nào.
- Xem thêm -

Tài liệu liên quan

Tài liệu xem nhiều nhất