Phương pháp lấy mẫu mới của tập dữ liệu lớn không cân bằng dựa trên biểu đồ lớp (lớp biên)
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI
-----o0o-----
ĐỀ CƯƠNG LUẬN VĂN THẠC SĨ
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số chuyên ngành: 60.48.01.01
Đề tài:
NGHIÊN CỨU PHƯƠNG PHÁP ĐIỀU CHỈNH MỨC ĐỘ
CÂN BẰNG DỮ LIỆU DỰA TRÊN RANH GIỚI LỚP
- Cơ sở đào tạo:
Trường Đại học Sư phạm Hà Nội
- Chuyên ngành:
Khoa học máy tính - Khóa 26 (2016 - 2018)
- Người hướng dẫn: TS. Đặng Xuân Thọ,Trường ĐHSP Hà Nội
- Học viên thực hiện: Trần Quang Sang
Đăk Lăk, tháng 10 năm 2017
0
ĐỀ CƯƠNG LUÂÂN VĂN THẠC SĨ
Đề tài: Nghiên cứu phương pháp điều chỉnh mức độ cân bằng dữ liệu
dựa trên ranh giới lớp
Người hướng dẫn: TS. Đặng Xuân Thọ, Trường Đại học Sư phạm Hà
Nội.
Người thực hiện: Trần Quang Sang, học viên Cao học K26, chuyên
ngành Khoa học máy tính, khoa Công nghệ thông tin, trường Đại học sư
phạm Hà Nội.
PHẦN 1: MỞ ĐẦU
1. Lý do chọn đề tài
Ngành công nghiệp IT đang thay đổi, các công ty đang dần phụ thuộc
vào công nghệ thông tin ngày khá nhiều, các dịch vụ IT quan trọng đang dịch
chuyển từ việc tập trung vận hành và lưu trữ sang việc xem xét công nghệ
thông tin như một công cụ thúc đẩy phát triển trong kinh doanh. Điều này đã
khởi động hàng loạt các thay đổi, các cải tiến làm xoay chuyển công nghiệp
IT hiện nay. Một trong các thay đổi đó chính là việc khai thác các dữ liệu, các
ứng dụng thuộc lĩnh vực Khai phá dữ liệu. Một số ứng dụng khai phá dữ liệu
điển hình:
•
Phân tích dữ liệu tài chính (Financial Data Analysis)
•
Công nghiệp bán lẻ (Retail Industry)
•
Công nghiệp viễn thông (Telecommunication Industry)
•
Phân tích dữ liệu sinh học (Biological Data Analysis)
•
Phát hiện xâm nhập (Intrusion Detection)
•
Một số ứng dụng trong khoa học (Scientific Applications)
Tuy nhiên một vấn đề khó khăn gặp phải khi ứng dụng khai phá dữ liệu vào
các bộ dữ liệu mất cân bằng thì kết quả so sánh khó thấy được sự khác biệt,
hiện nay một số nhà khoa học, một số chuyên gia đã có các nghiên cứu về
phân lớp dữ liêu, phân cụm dữ liệu đem lại sự hiệu quả hơn.
1
PHƯƠNG PHÁP NGHIÊN CỨU ĐIỀU CHỈNH MỨC ĐỘ CÂN BẰNG DỮ
LIỆU DỰA TRÊN RANH GIỚI LỚP [1] hứa hẹn có được một kết quả phản
ánh khá chính xác về dữ liệu mất cân bằng; điều đó có thể giúp ích cho các
ứng dựng khai phá dữ liệu trên các bộ dữ liệu mất cân bằng thuộc các lĩnh
vực tin sinh học, khai phá dữ liệu phân tán, khai phá dữ liệu thời gian thực,...
2. Mục đích nghiên cứu
- Tìm hiểu về khai phá dữ liệu, ứng dụng khai phái dữ liệu dựa trên các
bộ dữ liệu mất cân bằng
- Tìm hiểu về phương pháp nghiên cứu điều chỉnh mức độ cân bằng dữ
liệu dựa trên ranh giới lớp
3. Đối tượng nghiên cứu
Các phương pháp phân lớp dữ liệu trên các bộ dữ liệu mất cân bằng
4. Nhiệm vụ nghiên cứu
Tìm hiểu về khai phá dữ liệu, phân lớp dữ liệu
Tìm hiểu các phương pháp về làm cân bằng dữ liệu
Ứng dụng phương pháp nghiên cứu điều chỉnh mức độ cân bằng dữ
liệu dựa trên ranh giới lớp trên các bộ dữ liệu chuẩn.
5. Phạm vi nghiên cứu
Tập trung nghiên cứu các vấn đề về kiến thức khái phá dữ liệu, phân
lớp dữ liệu
Tìm hiểu về độ do, về ngôn ngữ R
Nghiên cứu phương pháp nghiên cứu điều chỉnh mức độ cân bằng dữ
liệu dựa trên ranh giới lớp trên các bộ dữ liệu chuẩn.
Viết ứng dụng, và đánh giá kết quả thực nghiệm
6. Phương pháp nghiên cứu
2
Nghiên cứu lý thuyết, đọc các giáo trình, các bài báo liên quan đến khai
phá dữ liệu, phân lớp dữ liệu
Tập hợp, phân tích, thực nghiệm, đối chiếu rút trích và viết luận văn
3
PHẦN 2: DỰ KIẾN NỘI DUNG LUẬN VĂN
Dự kiến nô i dung của luâ ôn văn gồm có 3 chương chính.
ô
MỞ ĐẦU
Chương I. Tổng quan về khai phá dữ liệu
1.1. Giới thiệu về khai phá dữ liệu
1.1.1. Vì sao phải khai phá tri thức, khai phá dữ liệu?
1.1.2. Ngành công nghiệp dựa trên dữ liệu
1.2. Khái niệm phát hiện tri thức trong cơ sở dữ liệu
1.2.1.Giải thích thuật ngữ
1.2.2. Quá trình phát hiện tri thức trong dữ liệu
1.2.3. Bước khai phá dữ liệu trong quá trình phát hiện tri thức từ
dữ liệu
1.2.4. Kiến trúc một hệ thống khai phá dữ liệu
1.3. Một số lĩnh vực ứng dụng khai phá dữ liệu điển hình
1.4. Các bài toán khai phá dữ liệu điển hình
1.5. Dữ liệu mất cân bằng và vấn đề hiện nay
1.6. Kết luận chương 1
4
Chương II. Kỹ thuật phân lớp dữ liệu dựa trên ranh giới lớp
2.1. Giới thiệu phân lớp dữ liệu
2.2. Một số phương pháp đã tiếp cận
2.3. Điều chỉnh dữ liệu mất cân bằng
2.4. Làm sạch dữ liệu sử dụng phân lớp
2.5. Thuật toán phân lớp dữ liệu dựa trên ranh giới lớp
2.4. Kết luận chương 2
Chương III. Cài đặt và thử nghiệm
3.1. Tiêu chí đánh giá
3.1.1 Ma trận nhầm lẫn
3.1.2 F-Measure
3.1.2 G-mean
3.2. Thử nghiệm và kết quả
3.3. Kết luận chương 3
KẾT LUẬN
- Các kết quả đạt được của luận văn
- Hướng nghiên cứu tiếp theo
5
TÀI LIÊÂU THAM KHẢO CHÍNH
Tiếng Anh:
[1] . Xing Sheng, Zhai Junhai, Wang Xiaolan, Yuan Ming (2015). A new
resampling method of imbalanced large data based on class boundary
[2] . Jiawei Han and Micheline Kamber (2006). Data Mining: Concepts
and Techniques, Second Edition
Tiếng Việt:
[3] . Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2016). Giáo
trình khai phá dữ liệu
[4] . Đỗ Ngọc Quỳnh (2017). Nghiên cứu phương pháp dec-svm phân lớp dữ
liệu mất cân bằng
[5] . Nguyễn Thị Lan Anh (2017). Thuật toán hmu trong bài toán phân lớp
dữ liệu mất cân bằng
6
PHẦN 3: KẾ HOẠCH THỰC HIỆN ĐỀ TÀI
Nội dung công việc
Thời gian thực hiện
- Nhận đề tài
Tháng 9/2017
- Tìm, đọc tài liệu, phác thảo đề cương
Tháng 10/2017
- Xin ý kiếm nhận xét của giảng viên hướng dẫn
về bản đề cương V0.1
Tháng 10/2017
- Viết và hoàn thành đề cương
Tháng 10-11/2017
- Tiếp tục xin ý kiến giảng viên để hoàn thiện bản Tuần thức 2 tháng
đề cương
11/2017
- Tiếp tục tìm và đọc tài liệu
Tháng 12/201701/2018
- Viết chương 1 và 2.
- Tìm hiểu về ngôn ngữ R
- Xin ý kiến nhận xét của giảng viên về bản luận
văn V.01
Tuần thứ 2 tháng
01/2018
- Xây dựng thuật toán, viết ứng dụng, viết
chương 3
Tháng 2 - 3/2018
- Xin ý kiến của giảng viên hướng dẫn về bản
luận văn V.02
Tuần đầu tháng
3/2018
- Hoàn chỉnh luận văn
Tháng 4/2018
- Làm các thủ tục chuẩn bị báo cáo luận văn
Tháng 5/2018
- Bảo vệ luận văn
Tháng 6/2018
....................., ngày ......... tháng ....... năm 201…..
Người thực hiê Ân
Người hướng dẫn
khoa học
Trần Quang Sang
TS. Đăng Xuân Thọ
7
Chủ tịch hô Âi đồng
xét duyê Ât
Ý TƯỞNG CỦA CỦA PHƯƠNG PHÁP NGHIÊN CỨU ĐIỀU CHỈNH
MỨC ĐỘ CÂN BẰNG DỮ LIỆU DỰA TRÊN RANH GIỚI LỚP
Bước 0:
Dữ liệu đầu vào là một ma trận gồm
m phần tử (bản ghi, mẫu), n thuộc
tính (cột) và b1,…,bn là các nhãn
(loại).
Bước 1:
Sắp xếp ma trận theo thuộc tính đầu
tiên
Nếu giá trị thuộc tính của các mẫu
liền kề là giống nhau thì căn cứ vào
các thuộc tính tiếp theo
Giả sử ở thuộc tính đầu tiên, các giá
trị a1=a2=a3 thì cần căn cứ vào các
thuộc tính b, c và d. Từ đó ta sẽ có
các ma trận Array1; Array2; Array3,
một cách tương ứng.
Điều này giải thích cho việc, nó có
thể có n-1 ma trận khi sắp xếp cho
từng thuộc tính
8
Bước 2:
Ở mổi ma trận đã sắp xếp ta sẽ thiết
lập yếu tố lớp biên (tham số biên) vào
ma trận này.
Khởi tạo tham số biên bằng 0
Nếu 2 phần tử liền kề khác nhãn thì
cộng mỗi tham số biên lên 1. Nếu
giống nhau thì không làm gì.
Căn cứ vào Array1; Array2; Array3 sẽ
xây dựng được các tham số biên cho
thuộc tính đầu tiên ở Array1’;
Array2’; Array3’
Bước 3:
Cộng dồn cột tham số ở các ma trận
Array1’; Array2’; Array3’
(lưu ý: cộng dồn theo từng dòng,
dòng a1 thì cộng dòng a1, dòng a2 thì
cộng dòng a2,…)
Bước 4:
Làm tương tự cho các thuộc tính còn
lại. Giả thiết rằng chúng ta tính toán
được như ma trận hình bên
Bước 5:
Thiết lập một ngưỡng K. Nếu chọn
9
K= 6 có nghĩa là chúng ta loại bỏ các
phần tử lớp đa số có giá trị vector
biên lớn hơn hoặc bằng 18. Điều đó
có ý nghĩa là loại bỏ các phần tử đa
số không nằm gần lớp biên hoặc
không có ý nghĩa đối với kết quả của
sự phân loại
Việc loại bỏ lớp đa số dựa vào
ngưỡng K thích hợp chúng không chỉ
cải thiện độ chính xác của sự phân
loại mà còn cải thiện độ đo G-mean
và F-measure
10
- Xem thêm -