ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------
NGUYỄN MINH HUẤN
PHÁT HIỆN BẤT THƯỜNG ĐIỆN NĂNG TIÊU THỤ DỰA
TRÊN PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN
Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ
Mã số: 60.34.04.05
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 12 năm 2018
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG - HCM
Cán bộ hướng dẫn khoa học: PGS. TS. ĐẶNG TRẦN KHÁNH
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1 : ...........................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 2 : ...........................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày . . . . . tháng . . . . năm . . . . .
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. ..............................................................
2. ..............................................................
3. ..............................................................
4. ..............................................................
5. ..............................................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA KH & KT MÁY TÍNH
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN MINH HUẤN
MSHV: 1670463
Ngày, tháng, năm sinh: 26/08/1981
Nơi sinh: Đồng Nai
Chuyên ngành: Hệ thống thông tin quản lý
Mã số : 60.34.04.05
I. TÊN ĐỀ TÀI: PHÁT HIỆN BẤT THƯỜNG ĐIỆN NĂNG TIÊU THỤ DỰA TRÊN
PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN
II. NHIỆM VỤ VÀ NỘI DUNG:
- Nhiệm vụ: Thực hiện luận văn thạc sĩ với đề tài Phát hiện bất thường điện năng tiêu thụ
dựa trên phân tích dữ liệu chuỗi thời gian.
- Nội dung:
+ Làm rõ khái niệm bất thường cho tiêu thụ điện.
+ Tìm hiểu các phương pháp xác định bất thường.
+ Nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng là các doanh nghiệp.
+ Thiết kế thí nghiệm để đánh giá một số phương pháp xác định bất thường trên dữ liệu
điện năng tiêu thụ thực tế của một số khách hàng là doanh nghiệp.
+ Thiết kế và xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo thời gian thực
dành cho các đối tượng sử dụng là những người không phải là chuyên gia về phân tích dữ
liệu.
III. NGÀY GIAO NHIỆM VỤ : 15/01/2018
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 17/06/2018
V. CÁN BỘ HƯỚNG DẪN: PGS. TS. ĐẶNG TRẦN KHÁNH
Tp. HCM, ngày . . . . tháng .. . . năm 2019
CÁN BỘ HƯỚNG DẪN
TRƯỞNG KHOA KH & KTMT
i
LỜI CẢM ƠN
Đầu tiên, tôi xin chân thành cảm ơn Thầy, PGS. TS Đặng Trần Khánh đã tận
tình hướng dẫn tôi trong quá trình thực hiện luận văn tốt nghiệp. Thầy đã đưa ra nhiều
ý tưởng, gợi ý nhiều phương pháp để tôi tìm hiểu, nghiên cứu và áp dụng trong luận
văn này.
Tôi xin chân thành cảm ơn các Thầy, Cô của trường Đại học Bách Khoa Thành
phố Hồ Chí Minh đã truyền đạt những kiến thức quí giá giúp tôi ngày càng trưởng
thành hơn trên con đường học vấn của mình.
Tôi xin chân thành cảm ơn Ông Nguyễn Phước Đức, Phó Tổng Giám đốc Tổng
công ty Điện lực miền Nam; Ông Trần Hữu Minh, Trưởng Ban Công nghệ thông tin
và các đồng nghiệp tại Tổng công ty Điện lực miền Nam đã tạo điều kiện để tôi tham
gia khóa học và thực hiện luận văn này.
Con xin cảm ơn Ba, Mẹ luôn đặt niềm tin và luôn dõi theo con trên con đường
tìm tòi học vấn và kiến thức.
Cuối cùng, tôi cảm ơn vợ tôi, Nguyễn Lưu Thùy Ngân, đã luôn động viên,
khuyến khích tôi hoàn thành chương trình học Thạc sĩ Hệ thống thông tin quản lý và
hoàn thành luận văn tốt nghiệp.
Thành phố Hồ Chí Minh, tháng 12 năm 2018
ii
TÓM TẮT
Ngày nay, với sự phổ biến của công tơ điện tử, dữ liệu điện năng tiêu thụ của
khách hàng sử dụng điện được các Công ty Điện lực thu thập liên tục. Luận văn này
nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng sử dụng điện để tìm ra
phương pháp hiệu quả dùng để phát hiện bất thường trong quá trình sử dụng điện của
khách hàng.
Phương pháp phát hiện bất thường bao gồm 2 giai đoạn: Giai đoạn thứ nhất, giai
đoạn dự báo, nhằm dự báo giá trị điện năng tiêu thụ trong tương lai, sau đó tính toán
vùng giá trị bình thường. Giai đoạn thứ hai, giai đoạn xác định bất thường, là so sánh
điện năng tiêu thụ thực tế với vùng giá trị bình thường để tìm ra các bất thường trong
sử dụng điện của khách hàng.
Đối với dự báo điện năng tiêu thụ trong tương lai, luận văn cài đặt thử nghiệm,
so sánh hiệu quả của 04 phương pháp dự báo phổ biến hiện nay là: (1) Auto
Regressive integrated Moving Average (ARIMA), (2) Holt-Winters, (3) Double
Seasonal Holt-Winters và (4) phương pháp lai giữa mạng nơ ron và ARIMA. Các thử
nghiệm được thực hiện trên dữ liệu điện năng tiêu thụ điện thực tế của một số khách
hàng sử dụng điện của Tổng công ty Điện lực miền Nam (thông tin khách hàng đã
được mã hóa).
Bên cạnh đó, luận văn cũng xây dựng công cụ hỗ trợ phát hiện bất thường theo
thời gian thực để minh họa cho phương pháp phát hiện bất thường mà luận văn sử
dụng.
iii
ABSTRACT
Nowadays, the use of digital electric-energy meter has become very popular.
Thanks to digital electric-energy meters, the electricity company can easily gather
electric-energy-consumption data in real time. This research compares different data
analysis methods to find an effective method for detecting possible anomalies in
electric-energy consumption; thus, is beneficial for both electric-energy consumers
and suppliers.
Our anomaly detection methods follow two broad steps: The first step is to
predict the amount of electric-energy consumption at a moment in future and
calculate a possible range of normal consumption. The second step is to compare the
actual consumption value that is collected via the digital electric-energy meter with
the predicted range; Values that fall outside this range are considered anomalies.
For the first step, we study four different methods which have shown good
results on other data sets in previous works: (1) Auto Regressive Integrated Moving
Average (ARIMA), (2) Holt-Winters, (3) Double Seasonal Holt-Winters, and (4) A
hybrid method between Neural Network and ARIMA (NNAR). All of the
experiments are carried out on the real electric-energy consumption data of the
Southern Electric Power Company – Vietnam (consumers’ information has been
anonymized).
Besides, we also built a tool to assist human in detecting anomalies to illustrate
the methods implemented in this research.
iv
LỜI CAM ĐOAN CỦA TÁC GIẢ
Tôi xin cam đoan những kết quả nghiên cứu được trình bày trong luận văn này do
chính bản thân tôi thực hiện. Những nội dung tham khảo từ công trình khác đều được
trích dẫn đầy đủ.
v
MỤC LỤC
CHƯƠNG 1: MỞ ĐẦU ..............................................................................................1
1.1. Giới thiệu đề tài ................................................................................................1
1.2. Mục tiêu nghiên cứu .........................................................................................1
1.3. Đối tượng và phạm vi nghiên cứu ....................................................................2
1.4. Cấu trúc của luận văn .......................................................................................2
1.5. Đóng góp của luận văn .....................................................................................3
CHƯƠNG 2: TỔNG QUAN .......................................................................................4
2.1 Các công trình trình nghiên cứu liên quan.........................................................4
2.2. Hướng nghiên cứu của luận văn .......................................................................5
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT ...........................................................................6
3.1. Phát hiện bất thường .........................................................................................6
3.1.1. Các dạng bất thường ...................................................................................6
3.1.2. Các phương pháp phát hiện bất thường......................................................6
3.1.3. Các kỹ thuật dùng để phát hiện bất thường phổ biến .................................7
3.1.3.1. Kỹ thuật phát hiện bất thường dựa trên phân lớp ................................7
3.1.3.2. Kỹ thuật phát hiện bất thường dựa trên phân cụm ...............................8
3.1.3.3. Kỹ thuật phát hiện bất thường dựa trên thống kê ................................9
3.2. Phân tích dữ liệu chuỗi thời gian ......................................................................9
3.2.1. Dữ liệu chuỗi thời gian ...............................................................................9
3.2.1.1. Định nghĩa ............................................................................................9
3.2.1.2. Chuỗi thời gian dừng .........................................................................10
3.2.1.3. Xu hướng và mùa vụ ..........................................................................10
3.2.2. Các phương pháp dự báo dựa trên phân tích dữ liệu chuỗi thời gian ......11
3.2.2.1. ARIMA ..............................................................................................11
3.2.2.2. Holt Winters .......................................................................................12
3.2.2.4. Phương pháp dự báo Double Season Exponential Smoothing ..........14
3.3. Phương pháp pháp hiện bất thường ................................................................16
3.4. Đánh giá độ chính xác của mô hình dự báo....................................................17
CHƯƠNG 4: PHƯƠNG PHÁP THÍ NGHIỆM .......................................................18
4.1. Dữ liệu ............................................................................................................18
vi
4.2. Phương pháp thí nghiệm .................................................................................23
4.2.1. Phương pháp thực hiện .............................................................................23
4.2.2. Dữ liệu thực hiện các mô hình dự báo .....................................................25
4.2.3. Công cụ thực hiện thí nghiệm ..................................................................25
4.3. Phương pháp đánh giá ....................................................................................25
CHƯƠNG 5: KẾT QUẢ THÍ NGHIỆM ..................................................................26
5.1. Thí nghiệm 1 ...................................................................................................26
5.1.1. Mục tiêu ....................................................................................................26
5.1.2. Dữ liệu ......................................................................................................26
5.1.3. Kết quả .....................................................................................................26
5.2. Thí nghiệm 2 ...................................................................................................28
5.2.1. Mục tiêu ....................................................................................................28
5.2.2. Dữ liệu ......................................................................................................28
5.2.3. Kết quả .....................................................................................................28
5.3. Thí nghiệm 3 ...................................................................................................29
5.3.1. Mục tiêu ....................................................................................................29
5.3.2. Dữ liệu ......................................................................................................29
5.3.3. Kết quả .....................................................................................................29
5.4. Thí nghiệm 4 ...................................................................................................30
5.4.1. Mục tiêu ....................................................................................................30
5.4.2. Dữ liệu ......................................................................................................31
5.4.3. Kết quả .....................................................................................................31
5.5. Thí nghiệm 5 ...................................................................................................38
5.5.1. Mục tiêu ....................................................................................................38
5.5.2. Dữ liệu ......................................................................................................38
5.5.3. Kết quả .....................................................................................................38
CHƯƠNG 6: CÔNG CỤ PHÁT HIỆN BẤT THƯỜNG .........................................39
6.1. Thiết kế hệ thống ............................................................................................39
6.2. Lớp cơ sở dữ liệu: ...........................................................................................40
6.3. Mô đun phân tích ............................................................................................41
6.4. Giao diện .........................................................................................................41
CHƯƠNG 7: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..........................................43
vii
DANH MỤC CÁC TÀI LIỆU THAM KHẢO .........................................................44
HÌNH
Hình 1 Bất thường toàn cục và bất thường cụ bộ. Nguồn [15]. ..................................6
Hình 2 Minh họa dữ liệu chuỗi thời gian ..................................................................10
Hình 3 Phân rã dữ liệu chuỗi thời gian với hàm decompose của ngôn ngữ R..........11
Hình 4 Cấu trúc mạng nơ ron nhân tạo. nguồn: https://cs231n.github.io .................15
Hình 5 Qui tắc 2-sigma của phân phối chuẩn. Nguồn [2].........................................16
Hình 6 Mô hình thu thập dữ liệu công tơ điện tử từ xa.............................................18
Hình 7 Mô hình phát tuyến của các trạm khách hàng ...............................................19
Hình 8 Biểu đồ phụ tải của 19 khách hàng kinh doanh ............................................19
Hình 9 Tổng hợp phụ tải theo ngày của 19 khách hàng............................................20
Hình 10 Tổng hợp phụ tải theo tuần của 19 khách hàng ..........................................20
Hình 11 Biểu đồ phụ tải của các khách hàng có ID là 7,9,17,19 ..............................21
Hình 12 Biểu đồ tần suất giá trị phụ tải (histogram) .................................................22
Hình 13 Biểu đồ phân bố dữ liệu, biểu đồ giá trị trung bình với độ lệch chuẩn (Sd)
và biểu đồ giá trị trung vị và độ lệch từ trung vị (Mad) ............................................23
Hình 14 Qui trình phát hiện bất thường dữ liệu ........................................................24
Hình 15 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE trung bình) trên
các tập dữ liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trượt trong 5 tuần .....................26
Hình 16 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE %) trên các tập dữ
liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trong 5 tuần ...............................................27
Hình 17 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE trung bình) trên
các tập dữ liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trượt trong 5 tuần .....................28
Hình 18 So sánh các mô hình dự báo của tổng hợp 19 khách hàng sử dụng điện ....29
Hình 19 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo ...............................30
Hình 20 Kết quả dự báo của các mô hình cho khách hàng có ID là 7 ......................31
Hình 21 Biểu đồ phụ tải của khách hàng có ID là 7 .................................................32
viii
Hình 22 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của
khách hàng có ID là 7................................................................................................32
Hình 23 Kết quả dự báo của các mô hình cho khách hàng có ID là 9 ......................33
Hình 24 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của
khách hàng có ID là 9................................................................................................33
Hình 25 Kết quả dữ báo của các mô hình cho khách hàng có ID là 17 ....................34
Hình 26 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của
khách hàng có ID là 17..............................................................................................35
Hình 27 Kết quả dữ báo của các mô hình cho khách hàng có ID là 19 ....................36
Hình 28 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của
khách hàng có ID là 19..............................................................................................36
Hình 29 Biểu đồ phụ tải của khách hàng có ID là 19 ...............................................37
Hình 30 So sánh phương pháp phát hiện bất thường độ lệch chuẩn và độ lệch từ
trung vị ......................................................................................................................38
Hình 31 Qui trình công cụ phát hiện bất thường ......................................................39
Hình 32 Giao diện công cụ phát hiện bất thường .....................................................42
BẢNG
Bảng 1 Giá trị trung bình, độ lệch chuẩn, giá trị trung vị, độ lệch từ trung vị của các
khách hàng có ID là 7,9,17,19...................................................................................22
Bảng 2 Giá trị MAPE (%) trung bình của các mô hình dự báo đối với dữ liệu của 1
trạm biến áp với các khoảng thời gian huấn luyện là 4 tuần, 16 tuần và 32 tuần. ....27
Bảng 3 Giá trị MAPE (%) của các mô hình dự báo đối với dữ liệu của 1 trạm biến
áp với các khoảng thời gian huấn luyện là 4 tuần, 16 tuần và 32 tuần trong 5 tuần .27
Bảng 4 Giá trị MAPE trung bình của các mô hình dự báo đối với các khách hàng có
ID lần lược là 7,9,17,19.............................................................................................29
Bảng 5 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo cho tổng hợp 19
khách hàng.................................................................................................................30
ix
Bảng 6 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo của khách hàng
có ID là 7 ...................................................................................................................32
Bảng 7 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo của khách hàng
có ID là 9 ...................................................................................................................34
Bảng 8 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo của khách hàng
có ID là 17 .................................................................................................................35
Bảng 9 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo của khách hàng
có ID là 19 .................................................................................................................37
Bảng 10 Kết quả phát hiện bất thường ......................................................................38
Bảng 12 Thông tin bảng TBLPREDICTION ...........................................................40
1
CHƯƠNG 1: MỞ ĐẦU
1.1. Giới thiệu đề tài
Phát hiện bất thường trong tiêu thụ điện là một vấn đề quan trọng đối với các
khách hàng sử dụng điện và các các Công ty phân phối điện (Công ty Điện lực). Đối
với khách hàng sử dụng điện, đặc biệt là đối với khách hàng sử dụng điện với mục
đích sản xuất và kinh doanh (Doanh nghiệp), việc phát hiện bất thường có ý nghĩa rất
quan trọng trong việc quản lý sử dụng điện, giúp tránh thất thoát điện và có kế hoạch
quản lý và sử dụng điện tốt hơn nhằm tối ưu hóa chi phí sử dụng điện.
Đối với các Công ty Điện lực, việc phát hiện bất thường trong quá trình sử dụng
điện của khách hàng giúp việc lập kế hoạch và điều hành cung ứng điện tốt hơn, kiểm
soát và điều tiết được thời điểm công suất đỉnh trong trường hợp thiếu điện. Việc
kiểm soát tốt năng lượng điện sử dụng là một trong những giải pháp giúp đối phó với
nguy cơ thiếu điện có thể xảy ra tại Việt Nam vào năm 2020 [1]. Theo Tập đoàn
Điện lực Việt Nam, đến năm 2021-2023 hệ thống điện có khả năng không đáp ứng
đủ nhu cầu và nhiều khả năng xảy ra tình trạng thiếu điện tại miền Nam [1].
Một số nguyên nhân của các bất thường trong sử dụng điện có thể liệt kê như:
sử dụng nhiều đèn chiếu sáng không cần thiết; sử dụng các thiết bị, máy móc không
phù hợp [2]; hay liên quan đến các lỗi do con người [3].
Phương pháp thông thường để phát hiện các bất thường trong sử dụng điện là
phân tích dữ liệu được ghi nhận từ các thiết bị cảm biến như: cảm biến chuyển động,
cảm biến nhiệt độ, máy ghi hình, … với chi phí lắp đặt các cảm biến và phân tích dữ
liệu phát sinh cao [2]. Ngày nay, với việc ứng dụng công tơ điện tử để thu thập dữ
liệu điện năng tiêu thụ với tần suất cao trong ngày có thể giúp phát hiện bất thường
trong sử dụng điện và giảm số lượng cảm biến nêu trên.
Hiện nay mỗi ngày, Tổng công ty Điện lực miền Nam đang thu thập và quản lý
hơn 2 triệu dòng dữ liệu của các khách hàng là các công ty sản xuất, thương mại từ
các công tơ điện tử. Việc phải rà soát, xử lý một số lượng lớn dữ liệu nêu trên gây
khó khăn cho các bộ phận quản lý vận hành tại các Công ty Điện lực để phát hiện,
cảnh báo cho khách hàng khi các hiện tượng bất thường xảy ra.
Từ những vấn đề nêu trên, luận văn khái quát hóa bài toán cần giải quyết như
sau: Từ dữ liệu điện năng tiêu thụ của khách hàng sử dụng điện, máy tính phát hiện
các điểm dữ liệu bất thường và thông báo cho khách hàng sử dụng điện theo thời gian
thực để có thể tiến hành rà soát, kiểm tra.
1.2. Mục tiêu nghiên cứu
Từ bài toán cần giải quyết nêu trên, luận văn đề ra các mục tiêu nghiên cứu sau:
- Làm rõ khái niệm bất thường cho tiêu thụ điện.
- Tìm hiểu các phương pháp xác định bất thường.
2
- Nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng là các doanh
nghiệp.
- Thiết kế thí nghiệm để đánh giá một số phương pháp xác định bất thường
trên dữ liệu điện năng tiêu thụ thực tế của một số khách hàng là doanh nghiệp.
- Thiết kế và xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo
thời gian thực dành cho các đối tượng sử dụng là những người không phải là chuyên
gia về phân tích dữ liệu.
1.3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là dữ liệu điện năng tiêu thụ của một số
khách hàng sử dụng điện là doanh nghiệp của Tổng công ty Điện lực miền Nam. Luận
văn sẽ tìm hiểu một số phương pháp phát hiện bất thường, cài đặt so sánh kết quả của
các phương pháp đó. Giới hạn của luận văn là sẽ thực hiện các thí nghiệm trên dữ
liệu điện năng tiêu thụ là dữ liệu chuỗi thời gian một biến.
Việc xác định bất thường theo thời gian thực có nghĩa là khi dữ liệu điện năng
tiêu thụ được ghi vào hệ thống với tần suất 30 phút 1 lần, một phương pháp được
dùng để xác định bất thường ngay lập tức sẽ đưa ra đề xuất dữ liệu điện năng tiêu thụ
là bình thường hay bất thường. Bất thường trong tiêu thụ điện có nghĩa là sản lượng
điện năng tiêu thụ trong một đơn vị thời gian vượt quá ngưỡng bình thường.
Công cụ dùng để xác định bất thường không phải là một phần mềm hoàn chỉnh
mà chỉ mang tính chất minh họa tính khả thi của phương pháp xác định bất thường
của điện năng tiêu thụ mà luận văn đề xuất. Việc xây dụng phần mềm hoàn chỉnh có
thể áp dụng trong thực tế đòi hỏi nhiều nguồn lực về chi phí và thời gian vượt quá
giới hạn về nguồn lực của các nhân thực hiện luận văn.
1.4. Cấu trúc của luận văn
Cấu trúc của luận văn được chia làm 7 chương, với các nội dung chính như sau:
Chương 1: Mở đầu. Trình bày lý do chọn đề tài, mục đích, đối tượng và phạm
vi nghiên cứu.
Chương 2: Tổng quan. Phân tích, đánh giá các công trình nghiên cứu liên quan;
nêu những vấn đề còn tồn tại; chỉ ra các vấn đề cần tập trung nghiên cứu giải quyết.
Chương 3: Cơ sở lý thuyết. Trình bày định nghĩa các loại bất thường, các
phương pháp xác định bất thường. Trình bày các phương pháp dự báo ngắn hạn, cách
thức đánh giá hiệu quả của các phương pháp dự báo.
Chương 4. Phương pháp thí nghiệm.
Chương 5. Kết quả thí nghiệm.
Chương 6. Công cụ xác định bất thường theo thời gian thực.
Chương 7. Kết luận và hướng phát triển.
3
1.5. Đóng góp của luận văn
- Tìm hiểu dữ liệu điện năng tiêu thụ của các khách hàng sử dụng điện với mục
đích ngoài sinh hoạt.
- Tìm hiểu và so sánh các mô hình dự báo ngắn hạn như: NNAR [2] [4],
ARIMA và Holt-Winters [5], Double Seasonal Holt-Winters [6] trên dữ liệu điện
năng tiêu thụ của một số khách hàng tại Tổng công ty Điện lực miền Nam.
- So sánh kết quả 2 phương pháp xác định bất thường: Phương pháp thứ nhất
dựa vào giá trị trung bình và độ lệch chuẩn [2]; Phương pháp thứ hai dựa vào giá trị
trung vị và độ lệch từ trung vị [7].
- Xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo thời gian thực
dựa trên giá trị được dự báo sử dụng 2 phương phát phát hiện bất thường nêu trên.
4
CHƯƠNG 2: TỔNG QUAN
2.1 Các công trình trình nghiên cứu liên quan
Đã có nhiều nghiên cứu phát hiện bất thường bằng các thuật toán khai phá dữ
liệu [2] [8]. Chou et al. [2] đề xuất một phương pháp phát hiện bất thường theo thời
gian thực thông qua hai giai đoạn:
- Giai đoạn đầu tiên dự báo tiêu thụ điện bằng thuật toán lai giữa mạng nơ-ron
nhân tạo và ARIMA (Auto-Regressive Integrated Moving Average).
- Giai đoạn thứ phát hiện bất thường bằng cách sử dụng giá trị chênh lệch giữa
dữ liệu tiêu thụ thực tế và dự báo.
Tương tự, Hill và Barbara [8] cũng đưa ra giải pháp mô hình hóa dữ liệu để phát
hiện bất thường bằng cách dự báo sử dụng các mô hình naı¨ve, nearest cluster (NC),
single-layer linear network (LN), và multilayer perceptron (MLP) và so sánh dữ liệu
thực tế với khoảng giá trị Predict Interval (PI) được tính toán trên cơ sở giá trị dự báo
để xác định các điểm dữ liệu bất thường.
Dữ liệu của [2] là dữ liệu điện năng tiêu thụ của phòng thí nghiệm. Dữ liệu của
[8] là dữ liệu đo tốc độ gió.
Araya et al. [3] việc chỉ xem xét dữ liệu lịch sử để phát hiện ra các bất thường
có thể đưa ra kết quả sai vì thiếu các thông tin liên quan đến ngữ cảnh khi xảy ra bất
thường đó ví dụ như ngày làm việc, ngày nghỉ, giờ làm việc, giờ không làm việc đối
với tiêu thụ điện. Araya et al. [3] cho rằng bất thường có thể đúng trong ngữ cảnh này
nhưng trong ngữ cảnh khác thì không phải là bất thường và đề xuất giải pháp CCADSW (Collective Contextual Anomaly Detection using Sliding Window). Dữ liệu là
điện năng tiêu thụ của hệ thống điều hòa không khí (Heating, ventilation, and air
conditioning – HVAC) trong trường học và các dữ liệu bất thường được giả lập.
Arjunan et al. [9] cũng đề xuất kỹ thuật phát hiện bất thường và giám sát năng
lượng tiêu thụ cho nhóm khách hàng dựa trên dữ liệu được phân nhóm theo ngữ cảnh
và dựa trên thông tin các khách hàng lân cận có chung hành vi. Dữ liệu điện năng tiêu
thụ của các tòa nhà trong trường học và điện năng tiêu thụ của các căn hộ trong một
tòa nhà.
Arjunan et al. [9] đề xuất kỹ thuật phát hiện bất thường gồm 2 bước:
- Bước 1: Tính điểm bất thường cho từng khách hàng.
- Bước 2: Điều chỉnh điểm bất thường dựa vào thông tin điện năng tiêu thụ của
các khàng lân cận.
Kumar et al. [10] sử dụng phân cụm (Clustering) để phát hiện bất thường đối
với dữ liệu quĩ đạo đường đi. Thuật toán clusiVAT của Kumar et al. [10] được phát
triển và cải tiến từ các thuật toán VAT, iVAT, sVAT được đề suất bởi các nghiên cứu
[11] [12] [13] để phân cụm cho dữ liệu lớn. Tuy nhiên, phương pháp xác định bất
thường do Kumar et al. [10] đề xuất không phù hợp khi áp dụng cho dữ liệu điện năng
5
tiêu thụ của các khách hàng sử dụng điện vì dữ liệu có tính biến đổi lớn phụ thuộc
vào các hành vi sử dụng điện của khách hàng.
2.2. Hướng nghiên cứu của luận văn
Luận văn áp dụng phương pháp phát hiện bất thường theo thời gian thực được
đề xuất bởi Chou et al. [2] và Hill và Barbara [8] là quá trình phát hiện bất thường
bao gồm 2 giai đoạn:
- Giai đoạn dự báo:
+ Giúp Công ty Điện lực dự báo đỉnh phụ tải tương lai để chủ động hơn trong
điều hành cung ứng điện.
+ Giúp KH: Chủ động hơn trong việc xây dựng kế hoạch sử dụng điện.
- Giai đoạn phát hiện bất thường: Giúp khách hàng xác định được những bất
thường trong tiêu thụ điện.
Đối với giai đoạn dự báo, luận văn so sánh các phương pháp dự báo được sử
dụng bởi Chou [2] và Zhang [4] là NNAR, phương pháp ARIMA và Holt-Winters
được sử dụng bởi các tác giả Laurinec [5] và phương pháp Double Seasonal HoltWinters (DSHW) được đề xuất bởi Taylor [6]. Các phương pháp dự báo được lựa
chọn vì đây là các phương pháp dự báo phổ biến được áp dụng cho dữ liệu điện năng
tiêu thụ và có kết quả tốt trong các nghiên cứu trên.
Đối với giai đoạn xác định bất thường, luận văn sẽ so sánh hai phương pháp:
Phương pháp thứ nhất dựa vào giá trị trung bình và độ lệch chuẩn [2]; Phương pháp
thứ hai dựa vào giá trị trung vị và độ lệch từ trung vị [7].
Từ phương pháp xác định bất thường nêu trên, luận văn sẽ phát triển công cụ
phát hiện bất thường theo thời gian thực có thể áp dụng thực tế cho dữ liệu của các
khách hàng sử dụng điện tại Tổng công ty Điện lực miền Nam.
6
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT
3.1. Phát hiện bất thường
3.1.1. Các dạng bất thường
Chandola et al. [14] chia bất thường làm 3 loại chính sau:
- Điểm bất thường: Nếu một điểm dữ liệu được coi là không bình thường đối
với phần còn lại của dữ liệu thì điểm dữ liệu đó được xem như điểm bất thường. Đây
là dạng bất thường cơ bản nhất và được sử dụng trong hầu hết các nguyên cứu liên
quan đến phát hiện bất thường.
- Chuỗi bất thường: Nếu một tập các điểm dữ liệu có liên quan với nhau dị
thường đối với phần còn lại của tập dữ liệu thì được xem là chuỗi bất thường. Các
điểm dữ liệu riêng biệt trong một chuỗi bất thường có thể không phải là bất thường,
nhưng cùng xuất hiện trong một chuỗi dữ liệu thì được xem là bất thường.
- Bất thường theo ngữ cảnh: Nếu một điểm hay một chuỗi dữ liệu được xem là
bất thường đối với đối với một ngữ cảnh cụ thể thì được gọi là bất thường theo ngữ
cảnh.
Hochenbaum, Jordan et al. [15] đề xuất 2 dạng bất thường sau: Bất thường toàn
cục và Bất thường cục bộ.
- Bất thường toàn cục: Là bất thường xảy ra tại một thời điểm và khác biệt so
với phần còn lại của chuỗi thời gian.
- Bất thường cục bộ: Là bất thường xảy rả tại một thời điểm và khác biệt so với
cùng ngữ cảnh hay mùa vụ, được so sánh giữa mức tối đa và mức tối thiểu theo cùng
ngữ cảnh hay mùa vụ.
Hình 1 Bất thường toàn cục và bất thường cụ bộ. Nguồn [15].
Luận văn đề xuất sử dụng định nghĩa bất thường theo [15] cho bất thường trong
tiêu thụ điện năng vì dữ liệu điện năng tiêu thụ là loại dữ liệu có tính ngữ cảnh và
mùa vụ cao.
3.1.2. Các phương pháp phát hiện bất thường
Có nhiều phương pháp được đề xuất để phát hiện bất thường. Các phương pháp
tiên tiến nhất hiện nay dựa trên các mô hình máy học thống kê dựa trên tập dữ liệu
đủ lớn. Dữ liệu huấn luyện mô hình phát hiện bất thường có thể có nhãn hoặc không
7
có nhãn. Nhãn của một dữ liệu thể hiện điểm dữ liệu là bình thường hay là bất thường.
Có thể chia các phương pháp này thành 3 dạng sau đây [14]:
- Dạng 1: Các phương pháp phát hiện bất thường có giám sát: Là các phương
pháp sử dụng các nhãn dữ liệu bình thường và bất thường để xây dựng mô hình phân
loại hay dự báo một điểm dữ liệu mới chưa được gán nhãn là bình thường hay là bất
thường. Để sử dụng phương pháp phát hiện bất thường có giám sát đòi hỏi phải tiêu
tốn chi phí cho việc gán nhãn dữ liệu. Chandola et al. [14] cho rằng có 2 thách thức
làm ảnh hưởng đến kết quả phát hiện bất thường có giám sát. Một là các điểm dữ liệu
có nhãn là bất thường quá ít so với dữ liệu được gán nhãn bình thường trong tập dữ
liệu huấn luyện. Hai là vấn đề khó khăn cho việc gán nhãn chính xác cho các dữ liệu
bất thường.
- Dạng 2: Các phương pháp phát hiện bất thường bán giám sát: Phương pháp
này dựa trên việc tập dữ liệu huấn luyện được gán nhãn cho các điểm dữ liệu bình
thường. Do phương pháp này không yêu cầu gán nhãn cho các điểm dữ liệu bất
thường nên được dùng phổ biến hơn các phương pháp phát hiện bất thường có giám
sát. Nội dung của phương pháp này là dùng tập dữ liệu huấn luyện để xây dựng mô
hình cho các hành vi bình thường, sau đó dùng mô hình này để phát hiện bất thường
cho tập dữ liệu kiểm tra. Thách thức của phương pháp này là tìm ra tất cả các dữ liệu
được cho là bình thường của tập dữ liệu huấn luyện.
- Dạng 3: Các phương pháp phát hiện bất thường không giám sát: Phương pháp
này không sử dụng dữ liệu có nhãn. Thay vào đó, phương pháp này giả định rằng
hành vi bình thường là thường xảy ra nhất. Các điểm dữ liệu bình thường được xem
là các mẫu thường xảy ra nhất, và các điểm hoặc chuỗi bị lệch khỏi các mẫu này được
xem là bất thường.
3.1.3. Các kỹ thuật dùng để phát hiện bất thường phổ biến
3.1.3.1. Kỹ thuật phát hiện bất thường dựa trên phân lớp
Phát hiện bất thường dựa trên kỹ thuật phân lớp thuộc phương pháp phát hiện
bất thường có giám sát hay bán giám sát. Kỹ thuật này được thực hiện thông qua 2
giai đoạn: Giai đoạn huấn luyện dùng để học mô hình phân lớp dựa trên dữ liệu huấn
luyện có gán nhãn có sẵn; Giai đoạn thử nghiệm phân loại dữ liệu thử nghiệm là bình
thường hay bất thường. Theo Chandola et al [14] kỹ thuật phát hiện bất thường bằng
phân lớp dựa trên giả định có thể phân biệt điểm dữ liệu bình thường và bất thường
thông qua các đặc trưng của dữ liệu. Một số đại diện của kỹ thuật phát hiện bất thường
dựa trên phân lớp là: Neural Network [16], Bayesian Networks [17], Support Vector
Machines [18] và Rule-based [19].
Ưu điểm:
- Có thể ứng dụng tốt cho tập dữ liệu có nhiều lớp: phân biệt được các điểm dữ
liệu thuộc nhiều lớp khác nhau.
- Tốc độ ở giai đoạn thử nghiệm nhanh do các điểm dữ liệu kiểm thử được so
sánh với mô hình được tính toán trước.
8
Nhược điểm:
- Để phân loại nhiều lớp cần thiết phải gán nhãn chính xác cho các lớp bình
thường khác nhau, việc này thường rất khó khăn.
- Tốn nhiều thời gian cho giai đoạn huấn luyện dữ liệu.
3.1.3.2. Kỹ thuật phát hiện bất thường dựa trên phân cụm
Kỹ thuật gom cụm dùng để nhóm các điểm dữ liệu tương đồng vào cùng một
nhóm. Kỹ thuật gom cụm thuộc phương pháp phát hiện bất thường không giám sát.
Dựa trên 3 giả thuyết khác nhau mà kỹ thuật gom cụm được [14] đề xuất chia
làm 3 nhóm:
- Nhóm thứ nhất dựa trên giả thuyết điểm dữ liệu bình thường thì thuộc về cùng
một cụm trong khi đó điểm dữ liệu bất thường không thuộc về một cụm nào. Nhược
điểm của kỹ thuật này là nó không được tối ưu để phát hiện bất thường do mục đích
chính của nó là phân cụm.
- Nhóm thứ hai dựa trên giả thuyết các điểm dữ liệu bình thường nằm gần trung
tâm cụm, trong khi đó các điểm bất thường nằm xa trung tâm cụm hơn. Khoảng cánh
đến điểm trung tâm cụm được dùng để đo độ bất thường cho từng điểm dữ liệu.
- Nhóm thứ ba dựa trên giả thuyết các điểm dữ liệu bình thường thuộc về các
cụm lớn và dày đặc, trong khi các điểm dữ liệu bất thường thuộc về các cụm nhỏ hoặc
cụm thưa thớt. Kỹ thuật này yêu cầu tính toán mật độ và kích thước của các cụm. Một
điểm dữ liệu bất thường nếu mật độ và hoặc kích thước của cụm nó thuộc về dưới
một ngưỡng nào đó.
Ưu điểm:
- Do kỹ thuật này thuộc về phương pháp phát hiện bất thường không giám sát
do đó không cần gán nhãn dữ liệu.
- Giai đoạn phát hiện bất thường tốn ít thời gian hơn.
- Có thể áp dụng cho các kiểu dữ liệu phức tạp.
Nhược điểm:
- Hiệu năng phục thuộc nhiều vào hiệu quả của thuật toán gom cụm.
- Mục tiêu chính là gom cụm dữ liệu, do đó không tối ưu cho việc phát hiện bất
thường.
- Tiêu tốn nhiều chi phí tính toán cho giai đoạn huấn luyện dữ liệu.
- Một số thuật toán gom cụm buộc mỗi điểm dữ liệu được gán cho một số cụm.
Điều này có thể dẫn đến điểm bất thường được gán cho một cụm lớn, do đó được coi
là trường hợp bình thường bởi các kỹ thuật hoạt động theo giả thuyết rằng bất thường
không thuộc về bất kỳ cụm nào.
- Xem thêm -