Tài liệu Tóm tắt văn bản tiếng việt theo chủ đề

.PDF

120

118

thanhphoquetoi Báo vi phạm

Tải xuống 118

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ----------------------------------------------- NGUYỄN HỒNG THÁI TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Lê Thanh Hương Hà Nội - 2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới cô giáo TS. Lê Thanh Hương đã tận tình hướng dẫn và giúp đỡ trong quá trình làm đồ án. Mặc dù em đã cố gắng hoàn thành luận văn này trong phạm vi khả năng cho phép nhưng chắc chắn không không thể tránh được những thiếu sót. Chúng em kính mong được nhận được sự thông cảm và sự chỉ bảo tận tình của các thầy cô và các bạn. Sinh viên: Nguyễn Hồng Thái Lớp: Cao học CNTT 2006-2008 Hà Nội 10/2008 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 0 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” LỜI NÓI ĐẦU Trong thời đại bùng nổ thông tin ngày nay, sự phát triển vượt bậc của công nghệ thông tin đã làm tăng đáng kể số lượng giao dịch trên mạng Internet đặc biệt là thư viện điện tử, sách báo điện tử…, mà thời gian luôn có hạn mà với mỗi người, ngày càng nhiều việc phải làm hơn. Và thế là vấn đề làm sao để khai thác thông tin một cách hiệu quả trong các hoạt động xử lý thông tin đã được nhiều người dùng tin quan tâm. Dĩ nhiên là đã xuất hiện hàng loạt các công cụ tìm kiếm tương đối thông minh như Google, Altavista, Yahoo…Song một vấn đề đặt ra là chúng ta không thể đọc hết tất cả các thông tin trên sách báo điện tử hay những gì mà các công cụ tìm kiếm đó đem lại. Để giải quyết vấn đề đó, người viết luận văn xin đề xuất giải pháp “Tóm tắt văn bản tiếng Việt theo chủ đề”. Mục đích của đề tài là trích rút nội dung chính của các văn bản tiếng Việt lại, hiển thị cho người đọc từ đó người sử dụng xem xét nội dung đó có cần đọc không? Nếu có người sử dụng tiến hành đọc chi tiết văn bản gốc, nếu không người sử dụng dừng lại, không cần phải đọc nữa. Hướng tiếp cận của người viết luận văn hướng đến các lĩnh vực trong nội dung văn bản cần tóm tắt. Các lĩnh vực này chính là cấu trúc về nội dung của các tờ báo điện tử, thư viện điện tử,… Người viết luận văn sử dụng các thành quả đạt về xử lý văn bản tiếng Việt như bài toán phân tách từ, bài toán phân nhóm, phân lớp văn bản, bài toán tóm tắt văn bản. Nội dung của luận văn gồm có 4 chương trong đó: Chương 1. Trình bầy về các cơ sở lý thuyết của lĩnh vực khai phá dữ liệu văn bản và xử lý ngôn ngữ tự nhiên. Đó là các lý thuyết chung về khai phá dữ liệu văn bản, mối liên quan giữa xử lý ngôn ngữ tự nhiên với khai phá dữ liệu văn bản. Đặc biệt người viết luận văn có đi sâu phân tích đặc điểm ngôn ngữ tiếng Việt. Chương 2. Trình bầy về thành tựu đạt được về các bài toán liên quan tới hướng tiếp cận tóm tắt văn bản tiếng Việt theo chủ đề. Đó là các bài toán tách từ, phân nhóm văn bản, phân lớp văn bản và tóm tắt văn bản. Chương 3. Trình bầy về mô hình, giải pháp cho bài toán tóm tắt văn bản theo chủ đề mà người viết luận văn đề xuất. Đó là mô hình xây dựng các lĩnh vực trước tạo Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 1 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” lên các chủ đề. Từ đó một văn bản đầu vào sẽ được trích rút ra chủ đề nội dung, chủ đề văn bản, chủ đề khái niệm…Dựa vào độ trích rút mà tiến hành đưa ra kết quả đầu ra. Chương 4. Trình bầy về phân tích thiết kế hệ thống, cài đặc và kiểm thử cho giải pháp mà người viết luận văn đề xuất. Đó là quá trình phân tách từ vựng của văn bản. Đó là quá trình tìm nội chính của chủ đề, đó là kết quả trích rút. Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 2 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Giải nghĩa 1. KDD Phát hiện tri thức trong cơ sở dữ liệu 2. TFxIDF Term Frequency times Inverse Document Frequency 3 IR 4. NLP 5. NLG 6. SVM 7. CFG Văn phạm phi ngữ cảnh 8. CSDL Cơ sở dữ liệu 9. POS 10. RST 11. HMM 12 LRMM Knowledge Discovery in Databases Hệ thu thập thông tin Information Retrieval Natural Language Processing Xử lý ngôn ngữ tự nhiên Natural Language Generating Sinh ngôn ngữ tự nhiên Support Vector Machine Mô hình máy vector hỗ trợ Context Free Grammar Part of Speech Từ loại Rhetorical Structure Theory Lý thuyết cấu trúc tu từ Hidden Markov Model Mô hình Markov ẩn Left Right Maximum Matching Tách từ dài nhất từ trái qua phải Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 3 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” DANH MỤC HÌNH VẼ Hình 1-1:Tiến trình khai phá dữ liệu và phát hiện tri thức (KDD) ......................................... 10 Hình 1-2: Quan hệ Dữ liệu – Thông tin – Tri thức ................................................................. 11 Hình 1-3: Chức năng dẫn đường văn bản trong VNExpress .................................................. 17 Hình 1-4: Các vector văn bản trong không gian có 3 thuật ngữ ............................................. 18 Hình 1-5: Phân tích cú pháp ................................................................................................... 27 Hình 2-1: Các phương pháp tách từ ........................................................................................ 36 Hình 2-2: Sơ đồ hệ thống WFST ............................................................................................ 42 Hình 2-3: Mô hình hệ thống IGATEC .................................................................................... 45 Hình 2-4: Ví dụ mô tả giải thuật k-means ............................................................................. 48 Hình 2-5: Tóm tắt trang tin ..................................................................................................... 58 Hình 2-6: Tóm tắt hoạt động để hiển thị trên thiết bị cầm tay ................................................ 58 Hình 2-7: Tóm tắt danh sách tìm kiếm từ Google và gợi ý đọc tiếp ...................................... 59 Hình 2-8: Tóm tắt tài liệu khoa học ........................................................................................ 59 Hình 2-9: Mô hình hệ Tóm tắt văn bản tổng quát .................................................................. 60 Hình 2-10: Mô hình một hệ Trích rút văn bản ........................................................................ 61 Hình 2-11: Quan hệ lẫn nhau giữa các đoạn trong văn bản .................................................... 63 Hình 3-1: Tập mẫu của chủ đề ................................................................................................ 77 Hình 3-2: Tính chủ đề trong cơ cấu đào tạo trường Cao đẳng công nghiệp Hà Nội .............. 78 Hình 3-3: Cây chủ đề trong báo điện tử www.vnexpress.net ................................................. 79 Hình 3-4: Tính chủ đề của mô hình tóm tắt văn bản theo chủ đề ........................................... 85 Hình 3-5: Mô hình tóm tắt văn bản theo chủ đề ..................................................................... 87 Hình 3-6: Tính chủ đề trong tòa soạn báo www.vnexpress.net .............................................. 90 Hình 3-7: Biểu thị việc tìm ra k khái niệm trong tập mẫu của chủ đề .................................... 92 Hình 3-8: Thuật toán Tách từ sử dụng phương pháp LRMM ................................................ 95 Hình 3-9: Thuật toán K-Mean ................................................................................................ 97 Hình 3-10: Minh họa việc khoanh vùng k văn bản gần nhất với k = 5 .................................. 97 Hình 4-1: Các chức năng hệ thống ....................................................................................... 103 Hình 4-2: Sơ đồ hệ thống ...................................................................................................... 104 Hình 4-3: Biểu đồ tập mẫu trên vnexpress.net và trên vietnamnet.vn .................................. 107 Hình 4–4: Biểu đồ kết quả đánh giá trích rút về nội dung .................................................... 111 Hình 4-5: Biểu đồ kết quả đánh giá trích rút về độ trơn ....................................................... 113 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 4 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” DANH MỤC BẢNG Bảng 1-1: Ví dụ về biểu diễn văn bản theo mô hình vector tần suất ...................................... 18 Bảng 1-2: So sánh đặc điểm tiếng Việt với đặc điểm tiếng Anh ............................................ 22 Bảng 2-1: Phương pháp đánh giá............................................................................................ 72 Bảng 2–2: Đánh giá nội dung văn bản trích rút ...................................................................... 75 Bảng 2-3: Đánh giá theo độ trơn của văn bản ........................................................................ 75 Bảng 3-1: Gán nhãn theo số đông ........................................................................................... 98 Bảng 3-2: Thí dụ cụ thể .......................................................................................................... 98 Bảng 4-1: Cơ sở dữ liệu cho tập phân tách từ....................................................................... 107 Bảng 4-2: Cơ sở dữ liệu cho tập trích rút văn bản ................................................................ 108 Bảng 4-3: Bảng chi tiết tập huấn luyện và tập kiểm thử....................................................... 109 Bảng 4-4: Kết quả đánh giá nội dung của trích rút theo người sử dụng ............................... 111 Bảng 4-5: Kết quả đánh giá nội dung của trích rút theo pp BLEU....................................... 112 Bảng 4-6: Kết quả đánh giá nội dung của trích rút ............................................................... 113 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 5 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” MỤC LỤC LỜI CẢM ƠN.......................................................................................................................... 0 LỜI NÓI ĐẦU ......................................................................................................................... 1 DANH MỤC TỪ VIẾT TẮT ................................................................................................. 3 DANH MỤC HÌNH VẼ .......................................................................................................... 4 DANH MỤC BẢNG................................................................................................................ 5 MỤC LỤC ............................................................................................................................... 6 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT ...................................................................................... 9 1.1. NHIỆM VỤ CỦA ĐỒ ÁN ....................................................................................... 9 1.2. KHAI PHÁ DỮ LIỆU VĂN BẢN .......................................................................... 9 1.2.1. Khái niệm khai phá dữ liệu văn bản ............................................................... 11 1.2.2.1. Thuật ngữ - Từ khóa – Khái niệm .............................................................. 12 1.2.2.2. Từ dừng ....................................................................................................... 13 1.2.2.3. Trọng số thuật ngữ ...................................................................................... 14 1.2.3. Các bài toán cơ bản trong xử lý văn bản ........................................................ 14 1.2.3.1. Tìm kiếm văn bản (Text Retrieval)............................................................. 14 1.2.3.2. Phân lớp văn bản (Text categorization, Text classification)....................... 15 1.2.3.3. Phân nhóm văn bản (Text clustering) ......................................................... 15 1.2.3.4. Tóm tắt văn bản (Text summarization)....................................................... 15 1.2.3.5. Dẫn đường văn bản (Text rounting) ........................................................... 16 1.2.4. Các phương pháp biểu diễn văn bản .............................................................. 17 1.2.5. Mô hình độ đo trong xử lý văn bản ................................................................. 20 1.3. XỬ LÝ VĂN BẢN GẮN LIỀN VỚI XỬ LÝ NGÔN NGỮ TỰ NHIÊN ............ 21 1.3.1. Tại sao xử lý văn bản lại gắn liền với xử lý ngôn ngữ tự nhiên? .................. 21 1.3.2. Một số khái niệm, thuật ngữ cơ bản trong ngôn ngữ .................................... 23 1.3.2.1. Thuật ngữ cơ bàn về ngôn ngữ ................................................................... 23 1.3.2.2. Từ loại ......................................................................................................... 24 1.3.2.3. Ngữ loại ...................................................................................................... 24 1.3.2.4. Các thành phần trong câu............................................................................ 24 1.3.3. Các bài toán trong ngôn ngữ tự nhiên ............................................................ 25 1.3.3.1. Bài toán phân tách từ vựng ......................................................................... 25 1.3.3.2. Bài toán gán nhãn từ loại ............................................................................ 26 1.3.3.3. Bài toán phân tích cú pháp .......................................................................... 27 1.3.3.4. Bài toán phân tích ngữ nghĩa ...................................................................... 28 1.3.4. Các đặc trưng của ngôn ngữ tiếng Việt .......................................................... 29 1.3.4.1. Một số đơn vị đặc trưng của tiếng việt ....................................................... 30 1.3.4.2. Các đặc điểm chính tả tiếng Việt ................................................................ 30 1.3.4.3. Từ tiếng Việt ............................................................................................... 31 1.3.4.4. Đánh giá về phương pháp xử lý tiếng Việt ................................................. 32 1.3.4.5. Các chuẩn font tiếng Việt được sử dụng..................................................... 32 Kết luận về xử lý ngôn ngữ tự nhiên ........................................................................... 33 KẾT CHƯƠNG ................................................................................................................. 34 CHƯƠNG 2: CÁC BÀI TOÁN SỬ DỤNG TRONG ĐỀ TÀI .......................................... 35 2.1. BÀI TOÁN TÁCH TỪ TIẾNG VIỆT .................................................................. 35 2.1.1. Những khó khăn trong tách từ tiếng Việt ....................................................... 35 2.1.2. Các phương pháp tách từ hiện nay ................................................................ 35 2.1.3. Các phương pháp tách từ tiếng Việt ............................................................... 40 2.1.4. So sánh các phương pháp tách từ tiếng Việt hiện nay................................... 46 2.2. BÀI TOÁN PHÂN NHÓM VĂN BẢN ................................................................ 47 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 6 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” 2.2.1. Khái niệm........................................................................................................... 47 2.2.2. Các giải thuật cơ bản ........................................................................................ 47 2.2.3. Kết luận về bài toán phân nhóm...................................................................... 49 2.3. BÀI TOÁN PHÂN LỚP VĂN BẢN ..................................................................... 49 2.3.1. Các phương pháp phân loại văn bản hiện nay. .............................................. 49 2.3.2. Các phương pháp phân loại văn bản tiếng Anh hiện hành. ......................... 50 2.3.3. Kết luận .............................................................................................................. 54 2.4. BÀI TOÁN TÓM TẮT VĂN BẢN ....................................................................... 55 2.4.1. Giới thiệu bài toán tóm tắt văn bản. ............................................................... 55 2.4.2. Khái niệm về Tóm tắt văn bản? ...................................................................... 57 2.4.3. Mô hình bài toán tóm tắt văn bản ................................................................... 59 2.4.4. Các phương pháp tóm tắt văn bản .................................................................. 61 2.4.5. Các phương pháp đánh giá .............................................................................. 70 2.4.6. Đánh giá ............................................................................................................. 71 2.4.7. Kết luận .............................................................................................................. 75 KẾT CHƯƠNG ................................................................................................................. 76 CHƯƠNG 3: GIẢI PHÁP TÓM TẮT VĂN BẢN THEO CHỦ ĐỀ ................................ 77 3.1. GIỚI THIỆU VỀ BÀI TOÁN TÓM TẮT VĂN BẢN THEO CHỦ ĐỀ .......... 77 3.1.1. Giới thiệu về tính chủ đề trong bài toán ......................................................... 77 3.1.2. Các khái niệm trong tóm tắt văn bản theo chủ đề ......................................... 80 3.1.3. Các đặc trưng trong tóm tắt văn bản theo chủ đề chủ đề ............................. 81 3.1.3.1. Đặc trưng ngôn ngữ của văn bản ................................................................ 81 3.1.3.2. Đặc trưng trong hệ thống tóm tắt tóm tắt văn bản theo chủ đề................... 84 3.1.4. Bài toán tóm tắt văn bản theo chủ đề.............................................................. 85 3.2. MÔ HÌNH TÓM TẮT VĂN BẢN THEO CHỦ ĐỀ .......................................... 85 3.2.1. Mô hình tổng thể ............................................................................................... 85 3.2.2. Phương pháp xây dựng chủ đề ........................................................................ 89 3.2.3. Xây dựng đặc trưng từ các phương pháp học trong các chủ đề................... 90 3.2.3.1. Học không giám sát – Phương pháp tìm khái niệm cho cho chủ đề ........... 91 3.2.3.2. Học có giám sát – Phương pháp tìm chủ đề cho văn bản cần tóm tăt. ....... 92 3.2.4. Các thuật toán sử dụng .................................................................................... 93 3.2.4.1. Thuật toán tách từ ....................................................................................... 93 3.2.4.2. Thuật toán phân nhóm K - Mean ................................................................ 95 3.2.4.3. Thuật toán phân lớp KNN........................................................................... 97 3.2.4.4. Thuật toán tóm tắt, trích rút ........................................................................ 99 KẾT CHƯƠNG ............................................................................................................... 101 CHƯƠNG 4: THIẾT KẾ, CÀI ĐẶT VÀ THỬ NGHIỆP PHẦN MỀM ....................... 103 4.1. XÁC ĐỊNH YÊU CẦU ....................................................................................... 103 4.2. PHÂN TÍCH THIẾT KẾ HỆ THỐNG .............................................................. 103 4.2.1. Thiết kế tổng thể ............................................................................................. 103 4.2.2. Chức năng hệ thống ........................................................................................ 104 4.3. CƠ SỞ DỮ LIỆU THỬ NGHIỆP....................................................................... 107 4.3.1. Tập 7 văn bản đã gán nhãn sẵn ..................................................................... 107 4.3.2. Tập kiểm thử trên vnexpress.net và vietnamnet.vn .................................... 107 4.4. KẾT QUẢ THỬ NGHIỆP .................................................................................. 109 4.4.1. Phương pháp đánh giá kết quả thử nghiệm ................................................... 109 4.4.2. Tóm tắt văn bản tiếng Việt theo chủ đề ........................................................ 110 4.5. ĐÁNH GIÁ THỬ NGHIỆM ............................................................................... 113 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................................... 114 TÀI LIỆU THAM KHẢO .................................................................................................. 116 Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 7 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 8 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1. Nhiệm vụ của đồ án Hiện nay, lĩnh vực khai phá dữ liệu văn bản đối với tiếng Việt vẫn là một điều mới mẻ với người Việt. Gần đây bài toán tóm tắt văn bản phục vụ cho công việc tóm tắt tin tức (tóm tắt trang tin) được nhiều nhà nghiên cứu quan tâm. Dựa trên cơ sở nền tảng vốn có về bài toán tách từ trong lĩnh vực ngôn ngữ tự nhiên, bài toán phân nhóm, phân lớp, tóm tắt văn bản trong lĩnh vực khai phá dữ liệu văn bản, người viết luận văn quyết định thử nghiệm bài toán tóm tắt văn bản tiếng Việt theo chủ đề. Đó là sự kết hợp của bài toán tóm tắt văn bản với bài toán phân nhóm, phân lớp và bài toán tách từ. Đây là một cách tiếp cận với cho bài toán tóm tắt văn bản tiếng Việt. Chính vì lí do đó nên gặp rất nhiều khó khăn như:  Khả năng liên kết giữa bài toán tách từ, phân nhóm, phân lớp với bài toán tóm tắt văn bản.  Tập mẫu cho bài toán tóm tắt văn bản  Khả năng đáp ứng tốc độ cũng như nội dung cho bài toán tóm tắt trang tin. Phần nhiệm vụ tách từ, phân nhóm, phân lớp của bài toán toán tóm tắt văn bản dựa trên kết quả của luận văn tác giả Hoàng Đức Đông [4]. 1.2. Khai phá dữ liệu văn bản Khai phá dữ liệu văn bản (Text Mining) là khái niệm ra đời từ những năm 90 của thế kỷ trước. Đến nay, khai phá dữ liệu văn bản đã có một nền tảng lý thuyết vững chắc. Khai phá dữ liệu văn bản bắt nguồn từ khái niệm rộng hơn là Khai phá dữ liệu (Data Mining), một khái niệm đề cập đến quá trình phát hiện, trích rút ra những thông tin hữu dụng từ một lượng lớn dữ liệu lưu trữ trong các loại cơ sở dữ liệu khác nhau [13]. Để hiểu rõ hơn về khái niệm khai phá dữ liệu văn bản chúng ta tìm hiểu khái niệm về khai phá dữ liệu và phát hiện tri thức trong cơ sở dữ liệu. Khái niệm phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases - KDD) mong muốn tìm ra những thông tin hữu ích ẩn chứa trong cơ sở dữ liệu. Trong đó, quá trình phát hiện tri thức gồm 7 giai đoạn là [13]: Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 9 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” 1. Làm sạch dữ liệu trước khi thu thập (Data Cleaning) 2. Tích hợp dữ liệu từ các nguồn khác nhau (Data Integration) 3. Chọn lựa dữ liệu ứng viên (Data Selection) 4. Biến đổi dữ liệu thành dạng chuẩn để xử lý (Data Transformation) 5. Khai phá dữ liệu (Data Mining) 6. Đánh giá kết quả (Evaluation) 7. Biểu diễn tri thức (Knowledge Presentation) Quá trình Phát hiện tri thức trong cơ sở dữ liệu được biểu diễn dưới hình vẽ sau [13]: Hình 1-1:Tiến trình khai phá dữ liệu và phát hiện tri thức (KDD) Quá trình Phát hiện tri thức tuân theo các giai đoạn phát triển: Dữ liệu - Thông tin Tri thức. Khi lưu trữ thông tin chúng ta có được dữ liệu. Dữ liệu thông thường không được sử dụng hết theo thời gian trở thành kho dữ liệu lớn. Trong quá trình phân tích, thống kê,… kho dữ liệu lớn này chúng ta thu được Thông tin. Thông tin được tổng hợp, khái quá hóa thành các quy luật, quy tắc chúng ta có được Tri thức. Quá trình Khai phá dữ liệu không chỉ dừng ở mức độ phát hiện mà nó thực hiện việc phân tích dữ liệu, để tìm ra những tri thức chưa từng được biết đến trước đó. Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 10 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hình 1-2: Quan hệ Dữ liệu – Thông tin – Tri thức Các ứng dụng Khai phá dữ liệu có xu hướng phát triển trong tương lai tạo ra các sản phẩn gần gũi và thân thiện hơn với con người. Điều này giúp cho con người thuận tiện khi tiếp xúc, nắm bắt thông tin về sản phẩn, qua đó đẩy mạnh quá trình phát triển thương mại. Oracle, IBM, Yahoo, Microsoft,… đã tích hợp những nghiên cứu Khai phá dữ liệu hết sức nghiêm túc và thành công của mình vào các họ sản phẩm, các nền tảng (platform) dành cho các doanh nghiệp cỡ lớn cũng như các ứng dụng phổ biến cho cá nhân người dùng. Các kỹ thuật của Khai phá dữ liệu cũng được áp dụng rộng rãi trong lĩnh vực Data warehousing (quá trình lưu trữ và quản lý tập trung các cơ sở dữ liệu khác nhau bằng các công cụ quản lý tiên tiến trong việc lưu trữ, truyền tải, phân tích và khai thác dữ liệu với dung lượng lưu trữ cực lớn và tốc độ xử lý cực mạnh) Như vậy trong quá trình Khai phá dữ liệu, khi dữ liệu là văn bản chúng ta có lĩnh vực Khai phá dữ liệu văn bản. Khai phá dữ liệu là một trong bảy giai đoạn của quá trình Phát hiện tri thức trong cơ sở dữ liệu. Là một quá trình phát triển trải qua các giai đọan Dữ liệu – Thông tin – Tri thức. 1.2.1. Khái niệm khai phá dữ liệu văn bản Chúng ta xem xét một số định nghĩa về văn bản. Văn bản: Là các tài liệu được thể hiện dưới dạng phi cấu trúc hoặc bán cấu trúc. Thông thường văn bản có định dạng là các file có đuôi ".txt". Văn bản được phân loại như sau [4]:  Dạng phi cấu trúc (unstructured): Là dạng văn bản chúng ta sử dụng hằng ngày được thể hiện dưới dạng ngôn ngữ tự nhiên của con người và chúng không Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 11 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” có một cấu trúc định dạng cụ thể nào. Ví dụ, các văn bản lưu dưới dạng tệp tin .txt.  Dạng bán cấu trúc (semi-structured): đây là các loại văn bản không được lưu trữ dưới dạng các bản ghi chặt chẽ mà được tổ chức qua các đánh dấu để thể hiện nội dung chính của văn bản. Ví dụ, các văn bản lưu dưới dạng tệp tin HTML, e-Mail, WordPad, DOC… Trong luận văn này người viết luận văn quan tâm đến những văn bản lưu trữ theo mã Unicode, có nội dung của văn bản là ngôn ngữ tiếng Việt. Khai phá dữ liệu văn bản là thực hiện công việc:  Trích ra, lấy ra các thông tin có ích, chưa được biết đến còn tiềm ẩn trong các kho dữ liệu văn bản lớn. Thu thập và phân tích dữ liệu bằng các công cụ tự động hoặc bán tự động từ các nguồn tài liệu đã có khác nhau để có được các tri thức mới, chưa được biết đến trước đó.  Phát hiện ra các mô tả chung của các lớp đối tượng, các từ khoá, các mối liên quan về mặt nội dung, sự phân loại của các đối tượng văn bản, v.v... Như vậy, Khai phá dữ liệu văn bản là công việc trích rút ra thông tin tiềm ẩn bằng các công cụ tự động hoặc bán tự động qua việc tìm các đặc trưng về đối tượng, từ khóa, các mối liên hệ ngữ nghĩa, thống kê, tổng hợp,… 1.2.2. Các khái niệm cơ bản trong xử lý văn bản Sau đây chúng ta tiến hành định nghĩa một số khái niệm thường xuất hiện trong lĩnh vực xử lý văn bản. đó là các khái niệm: Thuật ngữ (Term), Từ khóa (Keyword), khái niệm (Concept), từ dừng (Stopword), trọng số thuật ngữ (Centroid),… Các khái niệm này là thành phần nền tảng, xây dựng lên các mô hình, phương pháp xử lý văn bản. 1.2.2.1. Thuật ngữ - Từ khóa – Khái niệm Thuật ngữ (Term) Là các từ quan trọng xuất hiện trong một văn bản ở dạng nguyên thể, có nghĩa trong từ điển. Ví dụ với văn bản: “Sinh viên Đại Học Bách Khoa quyết tâm học tập, Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 12 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” nghiên cứu khoa học đạt thành tích cao chào mừng 50 năm thành lập trường”. các từ khóa có thể được tách ra là: “Sinh viên”, “quyết tâm”, “học tập”, “nghiên cứu”, “ khoa học”, “đạt ”, “thành tích”, “cao”, “chào mừng”, “thành lập”, “trường”. Từ khóa (Keyword) Là các thuật ngữ có nghĩa liên quan đến một lĩnh vực nào đó, ví dụ: “tin học”, “toán học”, “văn học” “xã hội học”. Là các từ thường hay được nhắc tới trong lĩnh vực đó, đồng thời các từ khóa này còn có ý nghĩa đặc trưng trong lĩnh vực đó. Số lượng từ khóa thường ít. Khái niệm (Concept) Xét trên góc độ ngôn ngữ khái niệm là các thuật ngữ nhưng nó là sự khái quát hóa, tổng quát hóa của nhiều thuật ngữ khác. Ví dụ khái niệm “máy tính” có thể chứa đựng các thuật ngữ khác như “bàn phím”, “chuột”, “phần cứng”, “phần mềm”, “CPU”, “ổ cứng”, “Internet”, “màn hình”, “số hóa”,… các từ này có một phần liên quan đến khái niệm “máy tính”. Xét về mặt mô hình toán học, chúng ta trừu tượng hóa khái niệm để định lượng hóa đượng khái niệm trong chủ đề. Chúng ta có khái niệm là hàm của các thuật ngữ. Trong đó trọng số của thuật ngữ thể hiện mức quan trọng của thuật ngữ đối với khái niệm. Cùng một số lượng thuật ngữ nhưng trọng số khác nhau chúng ta có các khái niệm khác nhau [12]. Đây là một định nghĩa mang tính chất định lượng thể hiện được công thức độ đo giúp chúng ta có thể tính toán, định lượng được khái niệm. 1.2.2.2. Từ dừng Từ dừng (Stopwords) Trong ngôn ngữ tự nhiên, rất nhiều từ trong câu hầu như không mang ý nghĩa về mặt nội dung trong tổng thể văn bản. Các từ này chỉ mang ý nghĩa về mặt cấu trúc câu. Về mặt Ngôn ngữ học đó thường là các loại từ như: giới từ, liên từ,… Các loại từ này xuất hiện thường xuyên trong các văn bản nhưng mang một lượng thông tin rất nhỏ về nội dung hay chủ đề của văn bản. Việc loại bỏ các từ như vậy cũng đồng nghĩa với việc trích rút những từ quan trọng trong văn bản (thuật ngữ) đồng thời nó còn làm giảm số chiều trong mô hình biểu diễn văn bản, những từ đó được gọi là từ dừng (stopwords). Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 13 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Từ dừng là các từ mang ít ý nghĩa trong việc xử lý văn bản vì nó thường xuất hiện trong hầu hết các văn bản. Một vài ví dụ về từ dừng: Thì, là, mà, rằng, Có thể, nếu, vì vậy, sau khi, thì, một số, với lại, quả thật, hầu như ... 1.2.2.3. Trọng số thuật ngữ Là độ quan trọng hay hàm lượng thông tin mà thuật ngữ đó mang lại cho văn bản. Trọng số của thuật ngữ là đại lượng dùng để đo sự khác biệt giữa văn bản chứa cùng thuật ngữ đó. Đại lượng này thường được xác định bằng tay hoặc đánh giá bằng số lần xuất hiện của thuật ngữ trong văn bản và số lần xuất hiện của thuật ngữ đó trong các văn bản khác. Trọng số của thuật ngữ tỉ lệ thuận với độ quan trọng của thuật ngữ với văn bản. Khi số lần xuất hiện của thuật ngữ trong văn bản càng nhiều thì thông tin mà nó mang lại càng lớn. Khi số lần xuất hiện của nó trong các văn bản khác càng ít thì thông tin mà nó mang lại càng ít. 1.2.3. Các bài toán cơ bản trong xử lý văn bản Các bài toán trong xử lý văn bản bao gồm: bài toán tìm kiếm văn bản (Text Retrieval), bài toán phân lớp văn bản (Text Categorization), bài toán phân nhóm văn bản (Text Clustering), bài toán tóm tắt văn bản (Text Summarization), bài toán định tuyến văn bản (Text Rounting). 1.2.3.1. Tìm kiếm văn bản (Text Retrieval) Tìm kiếm văn bản (hay còn gọi là truy hồi văn bản): Là quá trình tìm các văn bản trong một kho lưu trữ theo các yêu cầu của người dùng. Ở đây, các yêu cầu là các truy vấn và thường được biểu diễn dưới dạng thuật ngữ hay biểu thức logic giữa các thuật ngữ. Ví dụ: truy vấn “Text Mining” AND (“Categorization” OR “Summurization”). Ứng với truy vấn này search engine của hệ thống sẽ tìm tất cả các tài liệu về “Text Mining” có liên quan đến “Categorization” hoặc “Summarization”. Trên thực tế thì hầu hết các hệ thống chỉ được thiết kế để hiểu các truy vấn tương tự như “Text Mining” OR “Categorization” OR “Summarization”. Với câu truy vấn này hệ thống sẽ tìm kiếm các tài liệu theo mức phù hợp với cả ba thuật ngữ “Text Mining”, “Categorization”, và “Summarization”. Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 14 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Kết quả đầu ra của một phép truy vấn là danh sách các tài liệu được sắp xếp giảm dần theo mức độ phù hợp với câu truy vấn đầu vào. 1.2.3.2. Phân lớp văn bản (Text categorization, Text classification) Phân lớp văn bản được định nghĩa: Là quá trình gán các văn bản vào một hay nhiều lớp văn bản đã được xác định trước dựa trên nội dung của văn bản đó [4]. Người ta có thể phân lớp các văn bản một cách thủ công, tức là đọc từng văn bản và gán nó vào một lớp nào đó, cách này sẽ tốn rất nhiều thời gian và công sức khi số lượng văn bản lớn nên không khả thi. Do vậy cần phải có các phương pháp phân lớp tự động. Để phân lớp tự động người ta sử dụng các phương pháp học máy trong trí tuệ nhân tạo. Khi phân lớp, văn bản được gán vào một lớp theo một giá trị ngưỡng nào đó. Ngưỡng đặt ra tùy thuộc vào thuật toán và yêu cầu người dùng. 1.2.3.3. Phân nhóm văn bản (Text clustering) Phân nhóm văn bản (Hay còn gọi là lập cụm văn bản): Là việc tự động sinh ra các lớp văn bản dựa vào sự tương tự về nội dung của các văn bản. Số lượng các nhóm văn bản ở đây là chưa biết trước, chẳng hạn số nhóm có thể là 2,3 5,... Người dùng có thể chỉ ra số lượng các nhóm cần phân nhóm hoặc hệ thống sẽ tự phân nhóm. Đối với bài toán này, không bao giờ có một kết quả thỏa mãn hoàn toàn theo ý người dùng. Một lý do đơn giản để giải thích là máy không được học trước. Chúng ta phải thừa nhận rằng ngay cả con người cũng giải quyết bài toán này không giống nhau. Ví dụ, lập nhóm các từ “cầu thủ”, “cha cố”, “nến”, “trái bóng”; một người sẽ lập thành 2 nhóm là: con người (“cầu thủ” , “cha cố”) và sự vật (“nến”, “trái bóng”), trong khi đó người khác lại phân chúng thành 2 nhóm khác: nhà thờ (“cha cố”, “nến”) và bóng đá (“cầu thủ”, “trái bóng”). Do đó, việc đòi hỏi hệ thống tự động lập nhóm làm việc đúng tuyệt đối là điều không tưởng. 1.2.3.4. Tóm tắt văn bản (Text summarization) Tóm tắt văn bản là: bài toán tìm ra thể hiện nội dung của một văn bản thông qua một vài đoạn văn. Ứng dụng điển hình của bài toán này là trong tìm kiếm văn bản. Các kho lưu trữ bao gồm rất nhiều tài liệu và kích thước mỗi tài liệu có thể lên đến vài trăm trang. Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 15 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Giả sử khi bạn đọc muốn tìm một tài liệu về “Text Mining” và nhờ hệ thống tìm kiếm văn bản tìm giúp, hệ thống tìm kiếm sẽ đưa ra một danh sách các tài liệu với nội dung tương đối phù hợp với “Text Mining”. Nhưng để biết thực sự tài liệu đó có phù hợp với mình hay không, bạn đọc đành phải đọc toàn bộ hoặc đọc một phần trong tài liệu. Hệ thống tóm tắt văn bản sẽ làm cho việc tìm kiếm giảm nhẹ đi rất nhiều bằng cách tự động tóm lược nội dung của toàn bộ văn bản bởi một vài đoạn văn bản. Sau khi đọc qua đoạn tóm lược này, bạn đọc có thể biết được đây có phải là tài liệu chứa thông tin mà họ đang cần hay không. Người viết luận văn sẽ trình bầy kỹ hơn bài toán tóm tắt văn bản ở phần 1.3.3 trong chương này của đồ án. 1.2.3.5. Dẫn đường văn bản (Text rounting) Dẫn đường văn bản là sự tổ hợp giữa bài toán tìm kiếm văn bản và phân lớp, nhóm văn bản. Giống như phân lớp, nhóm văn bản, bài toán dẫn đường cũng đưa các văn bản về các lớp, nhóm khác nhau và việc xử lý này yêu cầu trong thời gian thực. Tuy nhiên, nó cũng giống như bài toán tìm kiếm, mỗi lớp, nhóm văn bản được gán với các thông tin cần thiết của một hay nhiều nhóm người dùng. Mỗi người dùng có thể thay đổi thêm bớt các yêu cầu của mình. Quá trình phản hồi có thể được sử dụng để nâng cao chất lượng tìm kiếm văn bản. Một ứng dụng điểu hình của bài toán dẫn đường văn bản là trong các trang tin điện tử. Khi đọc một tin mới, hệ thống sẽ tìm cách đưa ra danh sách các tin khác có liên quan đến đoạn tin đang đọc. Ứng dụng của bài toán này được sử dụng hết sức rộng rãi trên báo điện tử. Khi đọc một bài báo, phía dưới mỗi trang web sẽ có các liên kết đến các bài báo khác có liên quan về mặt nội dung (hình 1.3.). Bạn đọc có thể theo các thông tin dẫn đường này để theo dõi toàn bộ diễn biến của sự kiện. Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 16 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hình 1-3: Chức năng dẫn đường văn bản trong VNExpress 1.2.4. Các phương pháp biểu diễn văn bản Công việc biểu diễn văn bản là tiền đề giúp chúng xử lý được văn bản. Có rất nhiều phương pháp biểu diễn văn bản, song trong phạm vi đồ án người viết luận văn chỉ đi sâu vào phương pháp biểu diễn văn bản theo mô hình không gian vector. Cụ thể hơn là mô hình tần suất. Đây là phương pháp phổ biến được sử dụng trên Thế Giới Mô hình không gian vector coi mỗi văn bản được biểu diễn như một vector, thành phần của vector là các thuật ngữ riêng biệt trong văn bản gốc và được gán một giá trị trọng số xác định bởi hàm f. Có nhiều phương pháp để xác định trọng số của thuật ngữ trong văn bản như phương pháp dựa trên tần số xuất hiện của thuật ngữ, phương pháp dựa trên nghịch đảo tần số văn bản. Hình 1.4 là biểu diễn các vector văn bản trong không gian chỉ có 3 thuật ngữ. Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 17 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” văn bản 1 Thuật ngữ 2 văn bản 2 văn bản 3 Thuật ngữ 1 Thuật ngữ 3 Hình 1-4: Các vector văn bản trong không gian có 3 thuật ngữ Các thuật ngữ được sử dụng trong mô hình vector có thể là một từ hoặc một cụm từ và không phải là những từ dừng. Việc tách các thuật ngữ trong văn bản là một bài toán khó và phụ thuộc vào đặc trưng của từng ngôn ngữ. Ta xem xét ví dụ sau: có 2 văn bản Văn bản 1: Máy tính đã trở thành một công cụ không thể thiếu trong cuộc sống. Văn bản 2: Máy tính xuất hiện trong mọi lĩnh vực hoạt động của cuộc sống. Biểu diễn của 2 văn bản với trọng số của các thuật ngữ là tần số xuất hiện của chúng được cho trong bảng 1. STT Thuật ngữ Văn bản 1 Văn bản 2 1 Máy tính 1 1 2 trở thành 1 0 3 công cụ 1 0 5 Cuộc sống 1 1 6 Xuất hiện 0 1 7 lĩnh vực 0 1 8 không thể thiếu 1 0 9 Hoạt động 0 1 Bảng 1-1: Ví dụ về biểu diễn văn bản theo mô hình vector tần suất Trong mô hình tần suất, ma trận W = {wij} được xác định dựa trên tần số xuất hiện của thuật ngữ ti trong văn bản dj hoặc tần số xuất hiện của thuật ngữ ti trong toàn bộ cơ sở dữ liệu. Tùy theo các phương pháp khác nhau mà trọng số này được tính khác nhau. Chúng ta đi vào một số phương pháp cụ thể. Nguyễn Hồng Thái – Lớp cao học CNTT 2006-2008 18

- Xem thêm -

Tài liệu Tóm tắt văn bản tiếng việt theo chủ đề

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất