Tài liệu Khai phá dữ liệu văn bản bằng lý thuyết tập thô

.PDF

79668

199

nhattuvisu Báo vi phạm

Tải xuống 199

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG LA ĐỨC DŨNG KHAI PHÁ DỮ LIỆU VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SỸ 0KHOA HỌC MÁY TÍNH Thái Nguyên – 2011 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG LA ĐỨC DŨNG KHAI PHÁ DỮ LIỆU VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS Vũ Đức Thi. Thái Nguyên – 2011 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn a MỤC LỤC LỜI CẢM ƠN...................................................................................I LỜI CAM ĐOAN..............................................................................II DANH MỤC CÁC HÌNH VẼ ............................................................. III DANH MỤC CÁC BẢNG BIỂU ........................................................ IV DANH MỤC CHỮ VIẾT TẮT .............................................................V LỜI MỞ ĐẦU ........................................................................................ 1 CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ LÝ THUYẾT TẬP THÔ ....................................................................... 4 1.1 Khai phá dữ liệu văn bản ................................................................ 4 1.1.1 Khai phá dữ liệu .......................................................................... 4 1.1.1.1 Khái niệm ............................................................................. 4 1.1.1.2 Lịch sử nghiên cứu ................................................................ 5 1.1.1.3 Các khía cạnh khai phá chủ yếu ............................................ 5 1.1.1.4 Quy trình của DM ................................................................. 7 1.1.1.5 Các phương pháp của DM..................................................... 7 1.1.2 Khai phá dữ liệu văn bản ............................................................11 1.1.2.1 Khái niệm ............................................................................11 1.1.2.2 Các kỹ thuật khai phá văn bản..............................................13 1.2 Khai phá tri thức ứng dụng lý thuyết tập thô ...............................17 1.2.1 Khai phá tri thức theo cách tiếp cận tập thô ............................17 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn b 1.2.1.1 Một số khái niệm..................................................................17 1.2.1.1.1 Hệ thống thông tin............................................................17 1.2.1.1.2. Khái niêm về bảng quyết định………………………….19 1.2.1.1.3. Khái niệm quan hệ không phân biệt được trong hệ thông tin.20 1.2.1.1.4. Khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định...22 1.2.1.2. Tập thô trong không gian xấp xỉ............................................22 1.2.1.3 Khai phá tri thức theo cách tiếp cận tập thô............................25 1.2.2 Sự rời rạc hoá dữ liệu theo cách tiếp cận tập thô ........................27 1.2.3 Lựa chọn thuộc tính dựa trên tập thô ..........................................27 1.2.4 Khám phá luật bới bảng phân bố tổng quát dựa trên tập thô .......28 1.3 Kết luận chƣơng 1 ..........................................................................29 CHƢƠNG 2. MỘT SỐ PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU TRONG XỬ LÝ VĂN BẢN ................................................................................30 2.1. Biểu diễn văn bản ..........................................................................30 2.1.1. Biểu diễn văn bản ......................................................................30 2.1.2. Các phương pháp biểu diễn văn bản ..........................................30 2.1.2.1. Tiền xử lý văn bản ..............................................................30 2.1.2.2. Mô hình Logic ....................................................................32 2.1.2.3. Mô hình phân tích cú pháp .................................................34 2.1.2.4. Mô hình không gian vector .................................................35 2.1.2.5. Mô hình Boolean ................................................................36 2.1.2.6. Mô hình tần suất .................................................................37 2.1.2.7. Mô hình dựa trên tập mờ (Fuzzy Set) ..................................39 2.1.2.8. Mô hình tập thô dung sai (Tolerance Rough Set Model-TRSM) ........................................................................................................41 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn c 2.2. Các thuật toán lập nhóm văn bản .................................................43 2.2.1. Thuật toán K – Means ..............................................................43 2.2.2. Thuật toán lập nhóm theo cây phân cấp .....................................44 2.2.2.1. Thuật toán theo cây phân cấp từ trên xuống ( Top Down Hierachical Clustering) ....................................................................44 2.2.2.2. Thuật toán theo cây phân cấp từ dưới lên ( Bottom Up Hierachical Clustering) ....................................................................45 2.2.2.3. Giải thuật lập nhóm Non Hierachical Clustering Overlap ...45 2.2.2.4. Giải thuật lập nhóm Non Hierachical Clustering Non Overlap46 2.2.3. Xác định các thuật đại diện cho nhóm .......................................46 2.2.4. Độ tương tự giữa văn bản và nhóm văn bản ..............................47 2.3 Bài toán phân lớp văn bản .............................................................47 2.3.1 Bài toán ......................................................................................47 2.3.2 Các nghiên cứu liên quan ...........................................................48 2.4 Các phƣơng pháp phân lớp............................................................49 2.4.1 Phân lớp dựa trên thuật toán Naive Bayes ..................................49 2.4.2 Phương pháp K – Nearest Neighbor ( K-NN) .............................51 2.4.3 Phân lớp sử dụng Support Vector Machines (SVM) ...................52 2.5 Kết luận chƣơng 2 ..........................................................................54 CHƢƠNG 3. PHÂN LOẠI VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ ÁP DỤNG LÝ THUYẾT TẬP THÔ .........................................................55 3.1 Kiến trúc hệ thống phân loại văn bản tiếng Việt tự động ............55 3.2. Các chức năng của hệ thống .........................................................56 3.2.1 Xây dựng tập văn bản dùng cho huấn luyện ...............................56 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn d 3.2.2 Xây dựng tập từ dừng, từ tầm thường .........................................56 3.2.3 Xây dựng tập thuật ngữ ..............................................................56 3.2.4 Tiền xử lý văn bản đầu vào ........................................................56 3.2.5 Huấn luyện .................................................................................57 3.2.6 Phân lớp văn bản ........................................................................61 3.3 Kết luận chƣơng 3 ..........................................................................62 CHƢƠNG 4. XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ .........................................................................63 4.1 Môi trường và nền tảng ứng dụng .................................................63 4.2 Giao diện hệ thống ........................................................................65 4.3 Kết luận chương 4 .........................................................................67 PHỤ LỤC 1. DANH SÁCH CÁC TỪ DỪNG, TỪ TẦM THƢỜNG 73 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn I LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn đến trường Đại học Công nghệ, Đại học Thái Nguyên, Viện Công nghệ thông tin và các thầy cô giáo đã trực tiếp giảng dạy, hướng dẫn tôi trong quá trình học tập và định hướng quan trọng trong việc hình thành ý tưởng nghiên cứu. Tôi xin chân thành cảm ơn Chi bộ, BGĐ, BCH Công đoàn, Tổ Tự nhiên và cán bộ giáo viên, công nhân viên Trung tâm GDTX Thiệu Hóa đã động viên, giúp đỡ và tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu. Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc GS.TS Vũ Đức Thi, người thầy đã trực tiếp hướng dẫn và giúp đỡ tôi hoàn thành luận văn tốt nghiệp. Xin được cảm ơn bố mẹ, anh chị em gia đình nội ngoại tạo điều kiện về mọi mặt để bản thân hoàn thành tốt chương trình khóa học và bảo vệ luận văn hôm nay. Mặc dù đã có nhiều cố gắng, nhưng do thời gian có hạn và bản thân còn những hạn chế nhất định nên luận văn không tránh khỏi thiếu sót. Mong nhận được các ý kiến phê bình, góp ý của Hội đồng chấm luận văn, các thầy cô giáo và đồng nghiệp để công trình nghiên cứu được hoàn chỉnh hơn. Thái Nguyên, tháng 9 năm 2011 Tác giả La Đức Dũng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn II LỜI CAM ĐOAN Tôi xin cam đoan luận văn này là công trình do tôi tổng hợp và nghiên cứu. Trong luận văn có sử dụng một số tài liệu tham khảo như đã nêu trong phần tài liệu tham khảo. Tác giả Luận văn La Đức Dũng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn III DANH MỤC CÁC HÌNH VẼ Hình 1.1. Quy trình DM. ......................................................................... 7 Hình 1.2. Các chức năng chính của khai phá dữ liệu. .............................12 Hình 2.1. Mô tả tần suất các từ. ..............................................................32 Hình 2.2. Biểu diễn các vector văn bản trong không gian 2 chiều……...35 Hình 2.4 : Mô hình SVM. .......................................................................53 Hình 3.1. Kiến trúc hệ thống phân loại văn bản áp dụng lý thuyết tập thô.55 Hình 3.2. Quy trình tiền xử lý văn bản. ..................................................57 Hình 3.3. Thuật toán tiền xử lý văn bản. .................................................57 Hình 3.4 Cập nhật giá trị tần suất thuật ngữ............................................58 Hình 3.5. Thuật toán cập nhật trọng số cho các thuật ngữ. ......................58 Hình 3.6 Tạo lớp dung sai xấp xỉ cho các thuật ngữ. ..............................59 Hình 3.7. Thuật toán tạo lớp dung sai cho các thuật ngữ. .......................59 Hình 3.8 Sơ đồ tạo tập xấp xỉ. ................................................................60 Hình 3.9. Thuật toán tạo xấp xỉ trên và xấp xỉ dưới. ...............................60 Hình 3.10. Phân lớp văn bản. .................................................................61 Hình 3.11. Thuật toán phân lớp văn bản. ................................................62 Hình 4.1. Hệ thống phân loại văn bản tiếng Việt tự động. ....................653 Hình 4.2. Kho lưu trữ các văn bản dành cho huấn luyện.......................654 Hình 4.3 Mô tả file huấn luyện của hệ thống ........................................664 Hình 4.4. Hệ thống VLSP.....................................................................665 Hình 4.5 Bảng cơ sở dữ liệu. ................................................................675 Hình 4.6 Giao diện chính..........................................................................66 Hình 4.7. Giao diện huấn luyện................................................................66 Hình 4.8 Giao diện quy trình phân lớp………………………………….67 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn IV DANH MỤC CÁC BẢNG BIỂU Bảng 1.1. Ví dụ về hệ thống thông tin………………………………………….18 Bảng 1.2. Ví dụ về bảng quyết định………………………………………...….19 Bảng 2.1. Ví dụ về mô hình logic…………………………..………………….33 Bảng 2 .2. Ví dụ về mô hình không gian vector.................................................36 Bảng 2.3. Mô tả giá trị của mô hình Boolean.....................................................37 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn V DANH MỤC CHỮ VIẾT TẮT STT Chữ viết tắt Mô tả 1 KDD Knowledge Discovery in Database 2 CSDL Cơ sở dữ liệu 3 SVM Support Vector Machine 4 DM Data Mining 5 PRE-TEXT Tiền xử lý văn bản 6 CRE-CLUS Tạo lớp dung sai 7 UP-TERM Cập nhật trọng số thuật ngữ Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 LỜI MỞ ĐẦU 1. Tính cấp thiết của đề tài Với sự bùng nổ của công nghệ thông tin, trong những năm gần đây nó được áp dụng rộng rãi trong mọi lĩnh vực đời sống xã hội. Các chuyên gia cho rằng, hiện nay chúng ta đang sống trong một xã hội “rất giàu về thông tin nhưng nghèo về tri thức”. Chính vì vậy đòi hỏi phải phát triển các phương pháp khai phá, phát hiện ra những thông tin, tri thức có ích bị che lấp trong các “núi” dữ liệu phục vụ cho công việc của các nhà quản lý, các chuyên gia, từ đó thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh của các tổ chức, doanh nghiệp. Khai phá dữ liệu (Data Mining) là một lĩnh vực khoa học liên ngành mới xuất hiện gần đây nhằm đáp ứng nhu cầu này. Các kết quả nghiên cứu cùng với những ứng dụng thành công trong khai phá dữ liệu, khám phá tri thức cho thấy khai phá dữ liệu là một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống. Hiện nay, các cơ sở dữ liệu (CSDL) cần khai phá thường có kích thước rất lớn, chẳng hạn các CSDL tin-sinh-học (Bioinformatics), CSDL đa phương tiện, CSDL giao tác, CSDL văn bản,... Các CSDL này thường chứa tới hàng ngàn thuộc tính, gây rất nhiều khó khăn cho việc khai phá, thậm chí còn làm cho nhiệm vụ khai phá trở nên bất khả thi. Vấn đề đặt ra là phải tìm cách rút gọn số thuộc tính mà không làm những thông tin cần thiết phục vụ nhiệm vụ khai phá. Khai phá dữ liệu là một lĩnh vực liên quan đến rất nhiều ngành học như hệ cơ sở dữ liệu, thống kê, trực quan hóa với nhiều cách tiếp cận, sử dụng các kỹ thuật khác nhau như mạng nơron, lý thuyết tập thô, tập mờ, biểu diễn tri thức,... Khai phá dữ liệu là bước rất quan trọng nhằm trích suất ra các thông Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 tin có giá trị, có hiệu quả tiềm ẩn trong lượng dữ liệu lớn được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu. Để khai thác nguồn thông tin có hiệu quả thì các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống đang ngày càng không đáp ứng nhu cầu. Vì vậy việc nghiên cứu tổ chức khai thác dữ liệu văn bản để khám phá tri thức thông tin là vấn đề cần thiết. Xuất phát từ những lý do trên, chúng tôi chọn và nghiên cứu đề tài luận văn: “Khai phá dữ liệu văn bản bằng lý thuyết tập thô”. 2. Mục tiêu của luận văn Mục tiêu của luận văn là nghiên cứu lý thuyết tập thô phân loại văn bản tiếng Việt theo chủ đề. 3. Các đóng góp của luận văn Luận văn đã có ba đóng góp chính sau đây: - Đề xuất phương pháp: Đề tài đã đề xuất được phương pháp phân loại văn bản dựa trên lý thuyết tập thô. - Xây dựng hệ thống: Xây dựng hệ thống phân loại văn bản tiếng Việt theo chủ đề dựa trên phương pháp đã đề xuất. - Xây dựng kho ngữ liệu: Các văn bản tiếng Việt được tổng hợp từ các trang tin Việt nam http://www.vnexpress.net, http://vnbbnews.com và http://vietnamnet.vn. 4. Bố cục của luận văn Luận văn được bố cục thành 4 chương, gồm 74 trang. Chương 1 giới thiệu tổng quan về khai phá dữ liệu văn bản và lý thuyết tập thô. Chương 2 trình bày các phương pháp biểu diễn văn bản, phân nhóm và phân loại văn bản. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 Chương 3 trình bày kiến trúc hệ thống phân loại văn bản tự động và phương pháp phân loại văn bản áp dụng lý thuyết tập thô. Chương 4 Xây dựng hệ thống phân loại văn bản tiếng việt theo chủ đề Cuối cùng, luận văn đưa ra một số kết luận và đề xuất các hướng nghiên cứu trong tương lai. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4 CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ LÝ THUYẾT TẬP THÔ Trong chương này, chúng tôi trình bày tổng quan về khai phá dữ liệu bao gồm khai phá dữ liệu văn bản, các khía cạnh khai phá dữ liệu văn bản, các chu trình khai phá và tổng quan về lý thuyết tập thô. 1.1. Khai phá dữ liệu văn bản 1.1.1. Khai phá dữ liệu 1.1.1.1. Khái niệm Trước sự phát triển không ngừng của internet dẫn đến những kho dữ liệu đã lưu trữ một lượng dữ liệu khổng lồ, trong lượng dữ liệu khổng lồ đó ẩn chứa rất nhiều những thông tin quan trọng. Tuy nhiên, trước đây người ta vẫn thường sử dụng những phương pháp thủ công mà rất khó khăn để khai phá chúng. Những thông tin quan trọng luôn thôi thúc con người tìm cách để khai phá. Còn các hệ thống kho dữ liệu chỉ nhằm làm nhiệm vụ lưu trữ dữ liệu. Cùng với sự phát triển của kỹ thuật máy tính và kỹ thuật thông tin, thông tin ngày càng được phát triển mạnh mẽ, đã vượt qua mọi khả năng phân tích thủ công của con người, cho dù hệ thống kho dữ liệu có thể nâng cao khả năng tìm kiếm, thống kê… nhưng không thể phát hiện được những mối quan hệ và những quy luật nằm bên trong dữ liệu, đồng thời cũng không thể căn cứ vào những phương pháp phân tích truyền thống được nữa. Trong một biển dữ liệu khổng lồ, làm thế nào để lấy được những thông tin có giá trị có tri thức đã trở thành một nhiệm vụ vô cùng quan trọng, Con người mong muốn loại bỏ những dữ liệu thô để chắt lọc những dữ liệu tinh, Khai phá dữ liệu DM bắt nguồn từ đây. Nó xuất hiện vào cuối những năm 80 của thế kỷ 20, từ những năm 90 nó bắt đầu khởi phát, cho tới thế kỷ 21, rất nhiều các khái niệm gần Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 5 đúng với nó ví dụ KDD(Knowledge Discovery in Database), phân tích dữ liệu, Data Fusion, Data warehouse… Trong lúc này, một lĩnh vực nằm trong ngành trí tuệ nhân tạo là học máy đang không ngừng phát triển. Học máy làm nâng cao tính năng của những chương trình máy tính, thu nhận được từ nhiều ngành khoa học khác nhau bao gồm: trí tuệ nhân tạo, xác suất thống kê, tâm lý học, triết học… rồi căn cứ vào những mô hình học khác nhau để đưa ra phương pháp học, ví dụ: học không giám sát, học có giám sát, mạng noron và di truyền… Cuối cùng: Data Mining là việc tiến hành xử lý, khai phá từ trong kho dữ liệu lớn, không hoàn chỉnh, nhiều nhiễu, mơ hồ, để trích rút ra những thông tin có giá trị, có tri thức. 1.1.1.2. Lịch sử nghiên cứu Khái niệm về KDD lần đầu tiên được tổ chức vào ngày 20 tháng 8 năm 1989 tại hội nghị trí tuệ nhân tạo quốc tế lần thứ 11[32] thu hút các nhà khoa học từ 69 nước trên thế giới tham gia. Từ đó tới nay, rất nhiều các chuyên gia, học giả ở nhiều quốc gia đã nghiên cứu về DM. Các hiệp hội được hình thành như ACM SIGKDD, IEEE, ICDM, SDM, PAKDD, VLDB, FSKD, MLDM… Tại Việt Nam, khoảng 10 năm trở lại đây, ngày càng có nhiều các chuyên gia nghiên cứu DM và DM cũng ngày được phát triển, nó đang là một xu thế mới trong nghiên cứu để ứng dụng vào cuộc sống. 1.1.1.3. Các khía cạnh khai phá chủ yếu Nhiệm vụ chủ yếu là phân tích dữ liệu, phân lớp, phân loại, đo lường, đo độ lệch … Phân tích kết hợp (association analysic) Khai phá luật kết hợp do Rakesh Apwal và cộng sự cùng đưa ra. Giá trị giữa 2 biến hoặc hai biến trở lên tồn tại một tính quy luật được gọi là kết hợp. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 6 Luật kết hợp dữ liệu là một vấn đề khá quan trọng trong kho dữ liệu, để nhằm phát hiện ra tri thức. Kết hợp được phân thành kết hợp đơn giản, kết hợp time-series và kết hợp nhân quả. Mục đích của phân tích kết hợp là tìm ra mạng kết hợp tiềm ẩn trong kho dữ liệu. Phân lớp ( clustering ) Phân lớp là căn cứ vào tính chất của dữ liệu để phân thành từng lớp khác nhau. Trong một lớp dữ liệu có nhiều đặc tính tương thích, phân lớp là căn cứ vào các đặc trưng khái quát của dữ liệu để phân chúng thành từng lớp khác nhau, ví dụ như căn cứ vào mô hình phân bố của dữ liệu, quan hệ giữa các thuộc tính của dữ liệu. Phân loại ( classification ) Phân loại là tìm ra khái niệm miêu tả của một lớp nào đó, nó đại diện cho chỉnh thể tin tức của dữ liệu, rồi dựa vào hàm miêu tả, đồng thời dùng hàm mô tả này để miêu tả mô hình dữ liệu. Thông thường, dùng mô hình cây quyết định để biểu thị. Phân loại là lợi dụng việc huấn luyện tập dữ liệu thông qua một số các thuật toán nhất định để đạt được quy tắc phân loại. Dự đoán ( predication ) Dự đoán là lợi dụng lịch sử của dữ liệu để tìm ra được quy luật biến hóa, xây dựng mô hình, đồng thời từ mô hình đó để áp dụng vào loại dữ liệu trong tương lai để tiến hành khẳng định, khẳng định quan tâm tới độ tinh và tính chuẩn xác, thông thường dùng phương sai của khẳng định để đo lường. Mô hình chuỗi thời gian (time –series) Time –series chỉ sự thông qua sự tuần tự của thời gian tìm kiếm những mô hình phát sinh. Tựa như hồi quy, nó cũng dùng để nhận biết giá trị tương lai của dữ liệu. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 7 Độ lệch ( deviation) Trong độ lệch bao gồm rất nhiều tri thức, trong kho dữ liệu, dữ liệu tồn tại những khác biệt, phát hiện những khác biết trong kho dữ liệu là rất quan trọng. Độ lệch giữa kết quả quan sát được giữa giá trị trả về theo tính toán và kết quả thực tế. 1.1.1.4. Quy trình của DM Quy trình của DM theo sơ đồ như sau Đánh giá kết quả mẫu Tri thức Khai phá dữ liệu Làm sạch tiền xử lý dữ liệu Chuyển đổi dữ liệu Các mẫu Trích lọc dữ liệu Gom dữ liệu Internet Dữ liệu Dữ liệu Mục tiêu Dữ liệu qua tiền xử lý Dữ liệu đã chuyển đổi Hình 1.1. Quy trình DM (Fayyad et al., 1996). - Gom (tập hợp) dữ liệu (Gathering): Đây là bước đầu tiên trong quá trình khai phá dữ liệu, nó được khai thác trong một cơ sở dữ liệu, kho dữ liệu... - Trích lọc dữ liệu (Selection): Các dữ liệu được lựa chọn và phân chia theoo một số tiêu chuẩn nào đó. - Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleaning, Pre-processing and Preparation): Đây là giai đoạn hết sức quan trọng trong quá trình khai phá Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 8 dữ liệu, nó tiến hành xử lý các dữ liệu bị lỗi, dư thừa, không có giá trị và không có khả năng kết nối dữ liệu do quá trình gọm cụm không đủ tính chặt chẽ, logic thành dạng sao cho giải thuật khai phá dữ có thể hiểu được. - Chuyển đổi dữ liệu (Transformation): Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý - Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery) [21]: Chọn các thuật toán khai phá dữ liệu thích hợp khác nhau và thực hiện việc khai phá dữ liệu: Nhằm tìm được các mẫu có ý nghĩa dưới dạng biểu diễn tương ứng với ý nghĩa của nó. Thuật toán thường là các nguyên tắc phân loại, nguyên tắc kết hợp. - Đánh giá kết quả mẫu (Evaluation of Result) [21]: Giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Đặc điểm của mẫu là phải mới mẻ, độ mới có thể được đo tương đương với độ thay đổi trong dữ liệu hoặc bằng tri thức. Thông thường độ mới của mẫu được đánh giá bằng một hàm lôgic hoặc một hàm độ đo mới, độ bất ngờ của mẫu. Mẫu còn phải có khả năng sử dụng tiềm ẩn, phải có giá trị đối với dữ liệu mới độ chính xác nhất định. Tuy nhiên không phải bất cứ dữ liệu nào cũng đều hữu ích, đôi khi nó vẫn còn những sai lệch. 1.1.1.5. Các phương pháp của DM Các kỹ thuật của DM bao gồm học máy, trí tuệ nhân tạo và thống kê học. Trí tuệ nhân tạo được áp dụng trong học máy thông qua các giải pháp của trí tuệ nhân tạo để nâng cao hiệu quả học giải quyết những vấn đề khoa học và kỹ thuật còn tồn tại. Dưới đây là một số phương thức mà khai phá dữ liệu thường dùng: Mạng noron nhân tạo (Artificial neural networks ) Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 9 Mạng noron mô tả kết cấu của bộ não người, cơ sở là mô hình MP và phương pháp học Hebb. Nó có 3 mô hình mạng thần kinh chính: (1). Mạng lan truyền tiến (mô hình học không giám sát) (2). Mạng lan truyền ngược. Giống mô hình mạng Hopfield. (3). Mạng tự tổ chức như mô hình ART, Koholon thường dùng trong trường hợp phân cụm, phân lớp … Phƣơng pháp di truyền (Genetic Algorithms) Giải thuật di truyền là áp dụng quá trình tiến hóa của sinh vật, do yếu tố cấu thành: (1). Lựa chọn (Selection):Lựa chọn cá thể trong một quần thể để lai ghép (2). Lai ghép (Crossover) Là quá trình lựa chọn 2 cá thể độc lập để lai ghép (3). Biến dị (Mutation) Là quá trình biến dị trên từng cá thể ( ví dụ 0 biến 1, 1 biến 0…) để tạo ra một cá thể mới. Giải thuật di truyền thường dùng để sản sinh ra cá thể tốt hơn ở đời sau nhằm thỏa mãn một giá trị nào đó, thông qua quá trình di truyền, lai ghép, biến dị. Giải thuật này thường dùng trong tính toán và phân loại học máy. Cây quyết định (decision trees) Cây quyết định là sử dụng những thông tin lập luận để tìm kiếm những đặc trưng trong lượng thông tin lớn để tạo thành các điểm. Trên thực tế, người ta thường sử dụng và ảnh hưởng nhiều nhất bởi cây quyết định do Qiulan nghiên cứu và phương pháp ID3. Tập thô (Rough set) Tập thô được đề xuất bởi Zdzisław I. Pawlak vào năm 1980. Tập thô mô tả một cách hình thức tính xấp xỉ của một tập rõ bằng cận xấp xỉ trên và cận Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

- Xem thêm -

Tài liệu Khai phá dữ liệu văn bản bằng lý thuyết tập thô

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất