Tài liệu 01tran quang sang

.DOC

343

142

tranquangsang859998 Báo vi phạm

Tải xuống 142

Mô tả:

Phương pháp lấy mẫu mới của tập dữ liệu lớn không cân bằng dựa trên biểu đồ lớp (lớp biên)

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI -----o0o----- ĐỀ CƯƠNG LUẬN VĂN THẠC SĨ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số chuyên ngành: 60.48.01.01 Đề tài: NGHIÊN CỨU PHƯƠNG PHÁP ĐIỀU CHỈNH MỨC ĐỘ CÂN BẰNG DỮ LIỆU DỰA TRÊN RANH GIỚI LỚP - Cơ sở đào tạo: Trường Đại học Sư phạm Hà Nội - Chuyên ngành: Khoa học máy tính - Khóa 26 (2016 - 2018) - Người hướng dẫn: TS. Đặng Xuân Thọ,Trường ĐHSP Hà Nội - Học viên thực hiện: Trần Quang Sang Đăk Lăk, tháng 10 năm 2017 0 ĐỀ CƯƠNG LUÂÂN VĂN THẠC SĨ Đề tài: Nghiên cứu phương pháp điều chỉnh mức độ cân bằng dữ liệu dựa trên ranh giới lớp Người hướng dẫn: TS. Đặng Xuân Thọ, Trường Đại học Sư phạm Hà Nội. Người thực hiện: Trần Quang Sang, học viên Cao học K26, chuyên ngành Khoa học máy tính, khoa Công nghệ thông tin, trường Đại học sư phạm Hà Nội. PHẦN 1: MỞ ĐẦU 1. Lý do chọn đề tài Ngành công nghiệp IT đang thay đổi, các công ty đang dần phụ thuộc vào công nghệ thông tin ngày khá nhiều, các dịch vụ IT quan trọng đang dịch chuyển từ việc tập trung vận hành và lưu trữ sang việc xem xét công nghệ thông tin như một công cụ thúc đẩy phát triển trong kinh doanh. Điều này đã khởi động hàng loạt các thay đổi, các cải tiến làm xoay chuyển công nghiệp IT hiện nay. Một trong các thay đổi đó chính là việc khai thác các dữ liệu, các ứng dụng thuộc lĩnh vực Khai phá dữ liệu. Một số ứng dụng khai phá dữ liệu điển hình: • Phân tích dữ liệu tài chính (Financial Data Analysis) • Công nghiệp bán lẻ (Retail Industry) • Công nghiệp viễn thông (Telecommunication Industry) • Phân tích dữ liệu sinh học (Biological Data Analysis) • Phát hiện xâm nhập (Intrusion Detection) • Một số ứng dụng trong khoa học (Scientific Applications) Tuy nhiên một vấn đề khó khăn gặp phải khi ứng dụng khai phá dữ liệu vào các bộ dữ liệu mất cân bằng thì kết quả so sánh khó thấy được sự khác biệt, hiện nay một số nhà khoa học, một số chuyên gia đã có các nghiên cứu về phân lớp dữ liêu, phân cụm dữ liệu đem lại sự hiệu quả hơn. 1 PHƯƠNG PHÁP NGHIÊN CỨU ĐIỀU CHỈNH MỨC ĐỘ CÂN BẰNG DỮ LIỆU DỰA TRÊN RANH GIỚI LỚP [1] hứa hẹn có được một kết quả phản ánh khá chính xác về dữ liệu mất cân bằng; điều đó có thể giúp ích cho các ứng dựng khai phá dữ liệu trên các bộ dữ liệu mất cân bằng thuộc các lĩnh vực tin sinh học, khai phá dữ liệu phân tán, khai phá dữ liệu thời gian thực,... 2. Mục đích nghiên cứu - Tìm hiểu về khai phá dữ liệu, ứng dụng khai phái dữ liệu dựa trên các bộ dữ liệu mất cân bằng - Tìm hiểu về phương pháp nghiên cứu điều chỉnh mức độ cân bằng dữ liệu dựa trên ranh giới lớp 3. Đối tượng nghiên cứu Các phương pháp phân lớp dữ liệu trên các bộ dữ liệu mất cân bằng 4. Nhiệm vụ nghiên cứu Tìm hiểu về khai phá dữ liệu, phân lớp dữ liệu Tìm hiểu các phương pháp về làm cân bằng dữ liệu Ứng dụng phương pháp nghiên cứu điều chỉnh mức độ cân bằng dữ liệu dựa trên ranh giới lớp trên các bộ dữ liệu chuẩn. 5. Phạm vi nghiên cứu Tập trung nghiên cứu các vấn đề về kiến thức khái phá dữ liệu, phân lớp dữ liệu Tìm hiểu về độ do, về ngôn ngữ R Nghiên cứu phương pháp nghiên cứu điều chỉnh mức độ cân bằng dữ liệu dựa trên ranh giới lớp trên các bộ dữ liệu chuẩn. Viết ứng dụng, và đánh giá kết quả thực nghiệm 6. Phương pháp nghiên cứu 2 Nghiên cứu lý thuyết, đọc các giáo trình, các bài báo liên quan đến khai phá dữ liệu, phân lớp dữ liệu Tập hợp, phân tích, thực nghiệm, đối chiếu rút trích và viết luận văn 3 PHẦN 2: DỰ KIẾN NỘI DUNG LUẬN VĂN Dự kiến nô i dung của luâ ôn văn gồm có 3 chương chính. ô MỞ ĐẦU Chương I. Tổng quan về khai phá dữ liệu 1.1. Giới thiệu về khai phá dữ liệu 1.1.1. Vì sao phải khai phá tri thức, khai phá dữ liệu? 1.1.2. Ngành công nghiệp dựa trên dữ liệu 1.2. Khái niệm phát hiện tri thức trong cơ sở dữ liệu 1.2.1.Giải thích thuật ngữ 1.2.2. Quá trình phát hiện tri thức trong dữ liệu 1.2.3. Bước khai phá dữ liệu trong quá trình phát hiện tri thức từ dữ liệu 1.2.4. Kiến trúc một hệ thống khai phá dữ liệu 1.3. Một số lĩnh vực ứng dụng khai phá dữ liệu điển hình 1.4. Các bài toán khai phá dữ liệu điển hình 1.5. Dữ liệu mất cân bằng và vấn đề hiện nay 1.6. Kết luận chương 1 4 Chương II. Kỹ thuật phân lớp dữ liệu dựa trên ranh giới lớp 2.1. Giới thiệu phân lớp dữ liệu 2.2. Một số phương pháp đã tiếp cận 2.3. Điều chỉnh dữ liệu mất cân bằng 2.4. Làm sạch dữ liệu sử dụng phân lớp 2.5. Thuật toán phân lớp dữ liệu dựa trên ranh giới lớp 2.4. Kết luận chương 2 Chương III. Cài đặt và thử nghiệm 3.1. Tiêu chí đánh giá 3.1.1 Ma trận nhầm lẫn 3.1.2 F-Measure 3.1.2 G-mean 3.2. Thử nghiệm và kết quả 3.3. Kết luận chương 3 KẾT LUẬN - Các kết quả đạt được của luận văn - Hướng nghiên cứu tiếp theo 5 TÀI LIÊÂU THAM KHẢO CHÍNH Tiếng Anh: [1] . Xing Sheng, Zhai Junhai, Wang Xiaolan, Yuan Ming (2015). A new resampling method of imbalanced large data based on class boundary [2] . Jiawei Han and Micheline Kamber (2006). Data Mining: Concepts and Techniques, Second Edition Tiếng Việt: [3] . Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2016). Giáo trình khai phá dữ liệu [4] . Đỗ Ngọc Quỳnh (2017). Nghiên cứu phương pháp dec-svm phân lớp dữ liệu mất cân bằng [5] . Nguyễn Thị Lan Anh (2017). Thuật toán hmu trong bài toán phân lớp dữ liệu mất cân bằng 6 PHẦN 3: KẾ HOẠCH THỰC HIỆN ĐỀ TÀI Nội dung công việc Thời gian thực hiện - Nhận đề tài Tháng 9/2017 - Tìm, đọc tài liệu, phác thảo đề cương Tháng 10/2017 - Xin ý kiếm nhận xét của giảng viên hướng dẫn về bản đề cương V0.1 Tháng 10/2017 - Viết và hoàn thành đề cương Tháng 10-11/2017 - Tiếp tục xin ý kiến giảng viên để hoàn thiện bản Tuần thức 2 tháng đề cương 11/2017 - Tiếp tục tìm và đọc tài liệu Tháng 12/201701/2018 - Viết chương 1 và 2. - Tìm hiểu về ngôn ngữ R - Xin ý kiến nhận xét của giảng viên về bản luận văn V.01 Tuần thứ 2 tháng 01/2018 - Xây dựng thuật toán, viết ứng dụng, viết chương 3 Tháng 2 - 3/2018 - Xin ý kiến của giảng viên hướng dẫn về bản luận văn V.02 Tuần đầu tháng 3/2018 - Hoàn chỉnh luận văn Tháng 4/2018 - Làm các thủ tục chuẩn bị báo cáo luận văn Tháng 5/2018 - Bảo vệ luận văn Tháng 6/2018 ....................., ngày ......... tháng ....... năm 201….. Người thực hiê Ân Người hướng dẫn khoa học Trần Quang Sang TS. Đăng Xuân Thọ 7 Chủ tịch hô Âi đồng xét duyê Ât Ý TƯỞNG CỦA CỦA PHƯƠNG PHÁP NGHIÊN CỨU ĐIỀU CHỈNH MỨC ĐỘ CÂN BẰNG DỮ LIỆU DỰA TRÊN RANH GIỚI LỚP Bước 0: Dữ liệu đầu vào là một ma trận gồm m phần tử (bản ghi, mẫu), n thuộc tính (cột) và b1,…,bn là các nhãn (loại). Bước 1: Sắp xếp ma trận theo thuộc tính đầu tiên Nếu giá trị thuộc tính của các mẫu liền kề là giống nhau thì căn cứ vào các thuộc tính tiếp theo Giả sử ở thuộc tính đầu tiên, các giá trị a1=a2=a3 thì cần căn cứ vào các thuộc tính b, c và d. Từ đó ta sẽ có các ma trận Array1; Array2; Array3, một cách tương ứng. Điều này giải thích cho việc, nó có thể có n-1 ma trận khi sắp xếp cho từng thuộc tính 8 Bước 2: Ở mổi ma trận đã sắp xếp ta sẽ thiết lập yếu tố lớp biên (tham số biên) vào ma trận này. Khởi tạo tham số biên bằng 0 Nếu 2 phần tử liền kề khác nhãn thì cộng mỗi tham số biên lên 1. Nếu giống nhau thì không làm gì. Căn cứ vào Array1; Array2; Array3 sẽ xây dựng được các tham số biên cho thuộc tính đầu tiên ở Array1’; Array2’; Array3’ Bước 3: Cộng dồn cột tham số ở các ma trận Array1’; Array2’; Array3’ (lưu ý: cộng dồn theo từng dòng, dòng a1 thì cộng dòng a1, dòng a2 thì cộng dòng a2,…) Bước 4: Làm tương tự cho các thuộc tính còn lại. Giả thiết rằng chúng ta tính toán được như ma trận hình bên Bước 5: Thiết lập một ngưỡng K. Nếu chọn 9 K= 6 có nghĩa là chúng ta loại bỏ các phần tử lớp đa số có giá trị vector biên lớn hơn hoặc bằng 18. Điều đó có ý nghĩa là loại bỏ các phần tử đa số không nằm gần lớp biên hoặc không có ý nghĩa đối với kết quả của sự phân loại Việc loại bỏ lớp đa số dựa vào ngưỡng K thích hợp chúng không chỉ cải thiện độ chính xác của sự phân loại mà còn cải thiện độ đo G-mean và F-measure 10

- Xem thêm -

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất