Tài liệu Phương pháp tóm tắt văn bản tiếng việt bằng textrank

.PDF

629

thanhphoquetoi Báo vi phạm

Tải xuống 67

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI TẠ HỒNG ĐÔNG LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN PHƢƠNG PHÁP TÓM TẮT VĂN BẢN TIẾNG VIỆT BẰNG TEXTRANK TẠ HỒNG ĐÔNG 2015-2017 HÀ NỘI - 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ PHƢƠNG PHÁP TÓM TẮT VĂN BẢN TIẾNG VIỆT BẰNG TEXTRANK TẠ HỒNG ĐÔNG CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60.48.02.018 NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. NGUYỄN LONG GIANG HÀ NỘI - 2017 i LỜI CAM ĐOAN Tác giả xin cam đoan luận văn đƣợc hoàn thành trên cơ sở nghiên cứu, tổng hợp và phát triển các nghiên cứu tóm tắt văn bản trong nƣớc và trên thế giới do tác giả thực hiện. Luận văn này là mới, các nghiên cứu trong luận văn do chính tác giả thực hiện, qua quá trình nghiên cứu đƣa ra và không sao chép nguyên bản từ bất kì một nguồn tài liệu nào khác. TÁC GIẢ LUẬN VĂN Tạ Hồng Đông ii LỜI CẢM ƠN Em xin chân thành cảm ơn các thầy cô, cán bộ viên chức Khoa Sau đại học của Viện Đại học Mở Hà Nội đã nhiệt tình quan tâm và tạo nhiều điều kiện thuận lợi cho em trong quá trình thực hiện luận văn thạc sỹ này. Em xin chân thành cảm ơn thầy giáo TS. Nguyễn Long Giang đã nhiệt tình hƣớng dẫn, động viên, hỗ trợ em trong suốt quá trình thực hiện luận văn, giúp em vƣợt qua những hạn chế của bản thân và những khó khăn trong quá trình nghiên cứu để hoàn thành luận văn thành công, đúng thời hạn. Em xin gửi lời cảm ơn tới các thầy cô đã giảng dạy em trong 02 năm học tập tại trƣờng, những ngƣời đã truyền đạt cho em không chỉ kiến thức, kinh nghiệm quý báu, mà cả những câu chuyện về cuộc sống, những bài học làm ngƣời ý nghĩa. Những kiến thức, bài học đó đã, đang và sẽ tiếp tục là hành trang, động lực giúp em tự hoàn thiện bản thân, vƣợt qua những khó khăn và vững bƣớc trên con đƣờng phía trƣớc. Em cũng xin cảm ơn thầy cô Phòng tin học quản lý - Viện Công Nghệ Thông Tin, Viện Hàn Lâm Khoa Học và Công Nghệ Việt Nam đã giúp đỡ, hỗ trợ em rất nhiều để hoàn thành luận văn này. Tôi cũng xin chân thành cảm ơn sự giúp đỡ nhiệt tình của bạn bè đã động viên, giúp đỡ trong thời gian học tập và nghiên cứu. Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, ngƣời thân và đồng nghiệp đã động viên, giúp đỡ và khuyến khích tôi vƣợt qua những lúc khó khăn trong cuộc sống, học tập và công việc. Xin chân thành cảm ơn! Hà Nội, tháng 12 năm 2017 Tác giả Tạ Hồng Đông iii MỤC LỤC LỜI CAM ĐOAN........................................................................................................i LỜI CẢM ƠN.............................................................................................................ii MỤC LỤC.................................................................................................................iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT................................................v DANH MỤC CÁC HÌNH VẼ...................................................................................vi CHƢƠNG 1. TỔNG QUAN TÓM TẮT VĂN BẢN.…………………………...….3 1.1. Giới thiệu chung về khai phá dữ liệu ............................................................... 3 1.1.1. Sự cần thiết của khai phá dữ liệu .............................................................. 3 1.1.2. Khai phá dữ liệu ........................................................................................ 3 1.2. Tóm tắt văn bản tự động ................................................................................... 7 1.2.1. Tóm tắt văn bản .......................................................................................... 7 1.2.2. Ứng dụng của tóm tắt văn bản ................................................................ 10 1.2.3. Phân loại tóm tắt ...................................................................................... 10 1.2.4. Mô hình tóm tắt văn bản .......................................................................... 14 1.2.5. Đánh giá văn bản tóm tắt ......................................................................... 18 1.2.6. Một số đặc trưng và khó khăn trong tóm tắt văn bản tiếng việt .............. 21 1.3. Phát biểu bài toán đơn văn bản tiếng Việt ................................................... 23 1.4. Kết luận chƣơng 1…………………………………………………………24 CHƢƠNG 2.TÓM TẮT ĐƠN VĂN BẢN THEO TEXTRANK………………….25 2.1. Thuật toán xếp hạng đồ thị ............................................................................. 25 2.1.1. PageRank.................................................................................................. 25 2.1.2. HITS.......................................................................................................... 28 2.1.3. Đánh giá và so sánh giữa PageRank và HITS ......................................... 31 2.2. Mô hình TextRank .......................................................................................... 31 2.2.1. Đồ thị vô hướng………………………………………………..……………….31 2.2.2. Đồ thị có trọng số……………………………………………………...….…32 2.2.3. Đồ thị hoá văn bản…………………………………………………..........…34 2.2.4. Sử dụng TextRank trích xuất từ khoá………………………………………34 2.2.5. Sử dụng TextRank trích rút câu……………………………………….…….39 2.3. Giải thuật TextRank ....................................................................................... .39 2.3.1. Giải thuật TextRank.................................................................................. 39 iv 2.3.2. Các phương thức tính độ tương đồng ...................................................... 41 2.3.3. Nhận xét giải thuật TextRank ................................................................... 43 2.4. Kết luận chƣơng 2…………………………………………………………...45 CHƢƠNG 3. XÂY DỰNG ỨNG DỤNG VÀ KẾT QUẢ ....................................... 45 3.1. Tổng quan ứng dụng tóm tắt văn bản. ............................................................ 45 3.2. Cài đặt ứng dụng tóm tắt văn bản ................................................................... 46 3.2.1. Mô hình giải quyết bài toán...................................................................... 46 3.2.2. Tiền xử lý văn bản. ................................................................................... 47 3.2.3. Xây dựng đồ thị câu.................................................................................. 49 3.2.4. Tính hạng câu trên đồ thị ......................................................................... 50 3.2.5. Sinh văn bản tóm tắt ................................................................................. 51 3.3. Thực nghiệm thuật toán .................................................................................. 51 3.3.1. Cài đặt chương trình ................................................................................ 51 3.3.2. Đánh giá ứng dụng ................................................................................... 57 3.4. Kết luận chƣơng 3………………………………………..………………….62 TÀI LIỆU THAM KHẢO PHỤ LỤC v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt ROUGE Tiếng Anh Recall-Oriented Tiếng Việt Understudy for Phƣơng pháp đánh giá độ tƣơng tự văn bản Gisting Evaluation HITS Hyperlinked - Induced Topic Search DUC Document Understanding Conference LNP Natural Language Processing TAC Text Analysis Conference Thuật toán tính hạng dựa trên phân tích liên kết Hội nghị chuyên về hiểu văn bản Phƣơng pháp xử lý ngôn ngữ tự nhiên Hội nghị thƣờng niên về phân tích văn bản vi DANH MỤC CÁC HÌNH VẼ Hình 1.1. Quy trình text mining……………………………………………………..7 Hình 1.2. Minh hoạ trang báo điện tử sử dụng công cụ tóm tắt văn bản ....................9 Hình 1.3. Mô hình tóm tắt văn bản tự động ............................................................ 15 Hình 2.1. Mô hình PageRank. .................................................................................. 26 Hình 2.2. Ý tƣởng PageRank ....................................................................................26 Hình 2.3. Mô tả khái quát ý tƣởng PageRank ..........................................................27 Hình 2.4. Trang Authority .........................................................................................29 Hình 2.5. Trang Hub. ...............................................................................................29 Hình 2.6. Mô hình trang Authority và trang Hub. ....................................................30 Hình 2.7. Mô hình trang Authority tốt và trang hub tốt ............................................30 Hình 2.8. Hệ thống để thực hiện 1 thuật toán xếp hạng dựa trên đồ thị…………..32 Hình 2. 9. Đƣờng cong hội tụ của phƣơng pháp xếp hạng dựa trên đồ thị với đồ thị vô hƣớng, có trọng số ………………………………………………………………….33 Hình 2.10. Đồ thị TextRank .....................................................................................40 Hình 2.11. Đồ thị TextRank với các giá trị trọng số và độ tƣơng đồng giữa các câu ...43 Hình 3.1. Các bƣớc thực hiện tóm tắt theo phƣơng pháp TextRank ........................46 Hình 3.2. Các bƣớc thực hiện JVnTextpro3 ……………………………………….47 Hình 3.3. Bảng PreText đầy đủ ...............................................................................51 Hình 3.4. Cấu trúc chƣơng trình ..............................................................................52 Hình 3.5. Giao diện chính của chƣơng trình ..........................................................53 Hình 3.6. Thanh chọn hiển thị yêu cầu ...................................................................53 Hình 3.7. Nút chọn tệp ............................................................................................53 Hình 3.8. Lựa chọn phần trăm độ dài tóm tắt ..........................................................54 Hình 3.9. Nút tóm tắt .............................................................................................54 Hình 3.10. Nút hiển thị đồ thị ..............................................................................54 Hình 3.11. Chọn số nút hiển thị ...............................................................................54 Hình 3.12. Nút hiển thị toàn bộ .................................................................................54 vii Hình 3.13. Nút hiển thị TextRank ...........................................................................54 Hình 3.14. Giao diện văn bản chi tiết ......................................................................55 Hình 3.15. Giao diện tóm tắt ...................................................................................55 Hình 3.16. Giao diện hiển thị đồ thị TextRank theo yêu cầu số nút ........................ 56 Hình 3.17. Giao diện hiển thị 100% số nút ..............................................................56 Hình 3.18. Giao diện hiển thị TextRank cho các câu .............................................. 57 Hình 3.19. Biểu đồ phân bố điểm đánh giá văn bản tóm tắt 6 tập mẫu……………59 viii MỞ ĐẦU 1. Tính cấp thiết đề tài Công nghệ thông tin, các dịch vụ trực tuyến đang phát triển mạnh mẽ kèm theo với là sự bùng nổ của internet đã mang đến một lƣợng thông tin khổng lồ cho con ngƣời. Rất nhiều ngƣời có nhu cầu tổng hợp và tóm tắt lại các thông tin để thuận lợi cho việc tổng hợp các thông tin đó. Tóm tắt dữ liệu tự động là một lĩnh vực rất quan trọng, nó bao gồm trong đó là học máy và khai phá dữ liệu. Bài toán tóm tắt dữ liệu tự động không chỉ dừng lại ở tóm tắt văn bản mà nó còn mở rộng ra các loại dữ liệu đa phƣơng tiện nhƣ hình ảnh, âm thanh và video. Xuất phát từ nhu cầu đó, các phƣơng pháp tóm tắt tự động đƣợc nghiên cứu và phát triển. Hiện nay trên thế giới, nhiều nhà khoa học và các công ty tỏ ra rất quan tâm đến bài toán tóm tắt văn bản tự động. Tại các hội nghị nổi tiếng nhƣ: DUC 20012007, TAC 2008, ACL 2001-2007…, tóm tắt văn bản tự động đã đƣợc đề cập đến nhiều trong các bài báo. Ngoài ra, có nhiều hệ thống tóm tắt văn bản độc lập hoặc tích hợp đƣợc phát triển nhƣ: MEAD, LexRank, chức năng tự động tóm tắt trong Microsoft Word. Tuy nhiên, kết quả của các nghiên cứu này vẫn chƣa đƣợc đánh giá cụ thể. Đồng thời một số công cụ có sẵn thì không thích hợp cho tiếng Việt nên kết quả tóm tắt rất thấp, chƣa đáp ứng đƣợc yêu cầu ngƣời dùng, ví dụ nhƣ công cụ AutoSummarizer của phần mềm Microsoft Word. Vì vậy tác giả lựa chọn nghiên cứu đề tài: “Phƣơng pháp tóm tắt văn bản tiếng Việt bằng TextRank” là thực sự cần thiết. 2. Mục tiêu nghiên cứu Tìm hiểu tổng quan về bài toán tóm tắt văn bản, thuật toán xếp hạng trên đồ thị TextRank và ứng dụng thuật toán TextRank xây dựng đồ thị câu, xếp hạng câu trên đồ thị. Trên cơ sở đó, xây dựng ứng dụng thử nghiệm tóm tắt đơn văn bản tiếng Việt bằng phƣơng pháp TextRank. Hệ thống đƣa ra việc trích chọn văn bản dựa vào phƣơng pháp textRank với mục tiêu tóm tắt một cách chủ động nhất với độ dài tóm tắt đi theo mong muốn của ngƣời sử dụng, giúp ngƣời sử dụng nắm bắt các thông tin một cách dễ dàng, nhanh chóng và chính xác nhất. 1 3. Đối tƣợng và phạm vi nghiên cứu 3.1 Đối tƣợng nghiên cứu - Các văn bản tiếng Việt. - Thuật toán TextRank và ứng dụng xếp hạng câu trên đồ thị câu 3.2 Phạm vi nghiên cứu Tóm tắt đơn văn bản tiếng Việt bằng phƣơng pháp TextRank sử dụng đồ thị câu. 4. Kết cấu của luận văn Luận văn đƣợc bao gồm 3 chƣơng nhƣ sau: Chƣơng 1: Tổng quan tóm tắt văn bản Phƣơng pháp này giới thiệu một cách khái quát về khai phá dữ liệu, khai phá văn bản và nền tảng chung nhất cho việc tóm tắt văn bản, cũng nhƣ việc đánh giá một văn bản tóm tắt nói riêng và đánh giá thuật toán khai phá nói chung. Chƣơng 2: Tóm tắt đơn văn bản theo TextRank Trình bày phƣơng pháp thuật toán TextRank để giải quyết bài toán tóm tắt văn bản đơn cũng nhƣ một số ý tƣởng để tạo nên thuật toán TextRank. Chƣơng 3: Xây dựng ứng dụng và kết quả của thuật toán TextRank Trình bày về việc xây dựng chƣơng trình sử dụng phƣơng pháp TextRank để tóm tắt đơn văn bản và kết quả cài đặt ứng dụng thử nghiệm của nó. Kết luận: Tóm lƣợc kết quả đạt đƣợc của luận văn và định hƣớng phát triển tƣơng lai. 2 CHƢƠNG 1 TỔNG QUAN TÓM TẮT VĂN BẢN 1.1. Giới thiệu chung về khai phá dữ liệu 1.1.1 Sự cần thiết của khai phá dữ liệu Khoảng hơn một thập kỷ trở lại đây, lƣợng thông tin đƣợc lƣu trữ trên các thiết bị điện tử (đĩa cứng, CD-ROM, băng từ…) không ngừng tăng lên. Sự tích lũy dữ liệu này xảy ra với một tốc độ bùng nổ. Ngƣời ta ƣớc đoán rằng lƣợng thông tin trên toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó số lƣợng cũng nhƣ kích cỡ của các cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chóng. Data Mining ra đời nhƣ một hƣớng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên. Có nhiều định nghĩa về Data Mining và sẽ đƣợc đề cập ở phần sau, tuy nhiên có thể tạm hiểu rằng Data Mining nhƣ là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu đƣợc tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó [4]. 1.1.2 Khai phá dữ liệu Khai phá dữ liệu đƣợc dùng để mô tả quá trình phát hiện ra tri thức trong CSDL. Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho việc dự báo trong kinh doanh, các hoạt động sản xuất,... Khai phá dữ liệu làm giảm chi phí về thời gian so với phƣơng pháp truyền thống trƣớc kia (ví dụ nhƣ phƣơng pháp thống kê) [4]. Sau đây là một số định nghĩa mang tính mô tả của nhiều tác giả về khai phá dữ liệu. Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phƣơng pháp đƣợc dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các mẫu chƣa biết bên trong dữ liệu” Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đó chúng ta tìm kiếm các mẫu thông tin chƣa biết và bất ngờ trong CSDL lớn” 3 Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình không tầm thƣờng nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu đƣợc”. Thuật ngữ Data Mining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lƣợng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện đƣợc dùng cũng có nghĩa tƣơng tự với từ Data Mining nhƣ Knowledge Mining (khai phá tri thức), Knowledge Extraction (chắt lọc tri thức), Data/patern Analysis (phân tích dữ liệu/mẫu), Data Archaeoloogy (khảo cổ dữ liệu), Data Dredging (nạo vét dữ liệu),... 1.1.2.1 Data Mining Quy trình Data Mining. Khai phá dữ liệu Đổi dạng Tri thức Tiền xử lý Mẫu Dữ liệu chuyển dạng Chọn lựa Dữ liệu đích Đánh giá và trình diễn Dữ liệu đã tiền xử lý Hình 1.1: Quy trình Data Mining 1. Làm sạch dữ liệu (Data cleaning & Preprocessing): Loại bỏ nhiễu và các dữ liệu không cần thiết. 2. Tích hợp dữ liệu (Data Integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (Data Warehouses & Data Marts) sau khi đã làm sạch và tiền xử lý (Data cleaning & Preprocessing). 3. Trích chọn dữ liệu (Data Selection): trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (Noisy data), dữ liệu không đầy đủ (Incomplete data)…. 4 4. Chuyển đổi dữ liệu: Các dữ liệu đƣợc chuyển đổi sang các dạng phù hợp cho quá trình xử lý. 5. Khai phá dữ liệu (Data Mining): Là một trong các bƣớc quan trọng nhất, trong đó sử dụng những phƣơng pháp thông minh để chắt lọc ra những mẫu dữ liệu. 6. Ƣớc lƣợng mẫu (Knowledge Evaluation): Quá trình đánh giá các kết quả tìm đƣợc thông qua các độ đo nào đó. 7. Biểu diễn tri thức (Knowledge Presentation): Quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho ngƣời dùng. Mục đích của khai phá dữ liệu: Khai phá dữ liệu cần sử dụng kiến thức từ nhiều ngành và nhiều lĩnh vực khác nhau nhƣ thống kê, trí tuệ nhân tạo, CSDL, tính toán song song,… Đặc biệt, nó rất gần gũi với lĩnh vực thống kê, sử dụng các phƣơng pháp thống kê để mô hình hóa dữ liệu và phát hiện các mẫu.  Ứng dụng tổng quan: - Cung cấp tri thức và hỗ trợ ra quyết định. - Dự báo. - Khái quát dữ liệu.  Ứng dụng thực tế: - Bảo hiểm, tài chính, thị trƣờng chứng khoán: phân tích tình hình tài chính của một công ty dựa trên báo cáo tài chính; dựa vào dữ liệu về thị trƣờng chứng khoán để dự đoán đƣợc giá cổ phiếu, phát hiện gian lận… - Thống kê phân tích dữ liệu và hỗ trợ ra quyết định. - Y học: dựa vào mối quan hệ giữa các triệu chứng để chuẩn đoán bệnh và hƣớng điều trị. - Mạng viễn thông: phân tích các cuộc gọi điện thoại để dự đoán hƣớng ngƣời dùng và đƣa ra dự đoán hƣớng dịch vụ. 5 -Bán hàng: phân tích các mặt hàng để dự đoán nhu cầu ngƣời dùng để đƣa ra hƣớng phát triển đúng cho nhà sản xuất… Ngoài ra, khai thác dữ liệu còn ứng dụng vào trong rất nhiều lĩnh vực khác nhau của đời sống giúp đƣa ra những giải pháp hiệu quả cho các vấn đề nan giải của đời sống. 1.1.2.2 Text Mining Text Mining là một dạng nhỏ của Data mining. Tóm tắt văn bản cũng là một phần chủ yếu của Text Mining. Một phần quan trọng các thông tin có sẵn từ lƣu trữ trong cơ sở dữ liệu văn bản (hoặc tài liệu cơ sở dữ liệu) gồm tập hợp rất lớn các tài liệu từ nhiều nguồn khác nhau, nhƣ báo mới, các bài báo nghiên cứu, sách, thƣ viện điện tử, các trang web hay thậm chí là hầu hết các thông tin chính phủ, công nghiệp, thƣơng mại và các viện nghiên cứu đều lƣu trữ dƣới dạng điện tử… Cơ sở dữ liệu văn bản phát triển nhanh do sự tăng lên đến chóng mặt của lƣợng thông tin điện tử có sẵn, các xuất bản điện tử, các loại khác của tài liệu điện tử, thƣ điện tử và World Wide Web (có thể xem nhƣ một lƣợng cơ sở dữ liệu lớn, liên kết và tự động)…. Gây khó khăn trong việc tiếp nhận nội dung chính của nó. Dữ liệu lƣu trữ trong CSDL văn bản là dữ liệu bán cấu trúc tức là chúng không hoàn toàn phi cấu trúc cũng không hoàn toàn cấu trúc. Ví dụ: một tài liệu có thể chứa một vài trƣờng cấu trúc nhƣ tiêu đề, tên tác giả, ngày xuất bản, phân loại. Nhƣng cũng có thể chứa một lƣợng lớn các trƣờng phi cấu trúc nhƣ phần tóm tắt hay nội dung của tài liệu. Từ những vấn đề nêu trên, các kỹ thuật tìm kiếm tỏ ra không tƣơng xứng vì ngƣời ta thậm chí không biết bên trong dữ liệu chứa gì nên thật khó để đƣa ra câu truy vấn hiệu quả cho việc truy vấn và trích rút các thông tin từ dữ liệu cũng nhƣ sắp xếp các thông tin dữ liệu. Do đó vấn đề đặt ra là làm sao có thể tìm kiếm và khai thác nguồn dữ liệu nhƣ vậy. Các kỹ thuật để giải quyết vấn đề này đƣợc gọi là Text Mining hay khai phá dữ liệu văn bản… 6 Quy trình: Nguồn dữ liệu Thu thập văn bản Tiền xử lý Làm sạch Phân tích Xử lý văn bản Hiển thị văn bản Hình 1.2: Quy trình Text Mining. Các bài toán điển hình: - Phân lớp văn bản. - Phân loại văn bản. - Đánh chỉ mục - tìm kiếm. - Tóm tắt văn bản… 1.2. Tóm tắt văn bản tự động 1.2.1. Tóm tắt văn bản Theo Inderjeet Mani, tóm tắt văn bản tự động nhằm đến mục đích: “Trích xuất nội dung từ một nguồn thông tin và trình bày nội dung quan trọng nhất cho 7 người sử dụng theo một khuôn dạng xúc tích và gây cảm xúc với người sử dụng hoặc chương trình cần nhắm đến”[14]. Kết quả đầu ra của một hệ thống tóm tắt văn bản phải đảm bảo các đặc điểm:  Giảm nội dung thông tin: Lƣợng nội dung trong văn bản tóm tắt phải ít hơn so với văn bản gốc, nhƣng phải đảm bảo vẫn còn những thông tin quan trọng, nổi bật. - Độ rút gọn: Là tỉ số giữa đơn vị ngữ liệu của văn bản kết quả trên số lƣợng đơn vị ngữ liệu của tập văn bản nào. - Tỷ lệ này có thể là câu/câu, từ/từ, tiếng/tiếng, thƣờng tính bằng (%) - Độ rút gọn tỉ lệ thuận với độ khó của thuật toán. - Các văn bản tóm tắt thƣờng có một chiều dài nhất định đƣợc mong muốn.  Nội dung thông tin: Phải trung thực hoặc tƣơng đƣơng với văn bản nguồn. - Phải liên quan,phù hợp với yêu cầu của ngƣời dùng. - Đƣợc đánh giá dựa trên hệ thống đánh giá SUMMAC, ROUGE … và tập các dữ liệu, kiểm thử mẫu (Corpus). Độ chính xác tỷ lệ thuận với độ khó của thuật toán.  Định dạng tốt: - Định dạng tốt về ngữ pháp và cấu trúc diễn ngôn (cấu trúc nội dung của từng loại văn bản) [6]. - Đọc và hiểu đƣợc đối với ngƣời dùng. - Một hệ thống đƣợc đánh giá cũng dựa trên độ dễ đọc, dễ hiểu để thay thế cho tiêu chí mức độ liên kết này. Điều cốt lõi của một hệ thống tóm tắt văn bản theo lĩnh vực khai phá văn bản đó là tìm ra những thành phần quan trọng trong văn bản tóm tắt. Các thành phần này đƣợc gọi là các đơn vị ngữ liệu. Đơn vị ngữ liệu ở đây có thể hiểu là đơn vị nhỏ nhất có nghĩa mà ta chọn để trích rút, tóm lƣợc ở câu hoặc đoạn. Các đơn vị ngữ liệu quan trọng sẽ có xác suất lớn để chứa ý chính hay nội dung quan trọng của cả đoạn văn hay văn bản. Và sau khi chọn ngữ liệu quan trọng, hệ thống tóm tắt có thể tóm lƣợc chúng, biến đổi chúng và sau cùng cho hiển thị ra màn hình, thống kê. 8 Hình 1.3: Minh hoạ trang báo điện tử sử dụng công cụ tóm tắt văn bản. Tuy nhiên, khi tóm tắt văn bản thì hai yêu cầu đƣợc quan tâm nhất đó là: - Văn bản tóm tắt phải ngắn hơn văn bản gốc. - Văn bản tóm tắt phải giữ đƣợc thông tin quan trọng của văn bản gốc. Do đó, trong quá trình tóm tắt văn bản ngƣời ta thƣờng để ý đến tỉ lệ nén và tỉ lệ thông tin. Tỷ lệ nén: Mô tả tỉ lệ nén về độ dài của văn bản tóm tắt so với văn bản gốc. rl  Ls Lo (1.1) Trong đó: o rl : Tỷ lệ nén. o Ls : Độ dài văn bản tóm tắt. o Lo : Độ dài văn bản gốc. Tỷ lệ thông tin (Retention ratio): Mô tả tỷ lệ nén về độ dài của văn bản tóm tắt so với văn bản gốc. rs  Cs Co (1.2) 9 o rs : Tỷ lệ thông tin. o cs : Số từ mang thông tin của văn bản tóm tắt. o co : Số từ mang thông tin của văn bản gốc. 1.2.2. Ứng dụng của tóm tắt văn bản Tóm tắt văn bản đƣợc ứng dụng vào rất nhiều hệ thống xử lý ngôn ngữ tự nhiên. Một số ứng dụng tiêu biểu: - Tóm tắt tin tức: Ứng dụng cho các hệ thống đọc báo. - Tóm tắt kết quả tìm kiếm trong máy tìm kiếm từ các search engineer. - Thu thập dữ liệu thông minh (trợ giúp thông minh việc đọc và khai thác thông tin). - Tóm tắt bài báo khoa học, giản lƣợc trên các thiết bị cầm tay. - Tóm tắt nội dung hội nghị, cuộc họp, webside, chƣơng trình phát thanh và truyền hình, sổ tay công việc. - Tóm tắt nội dung video, audio… Ngoài ra, một số module và kết quả của bài toán cũng là đầu vào hay những bƣớc tiền xử lý cho bài toàn khác của khai phá dữ liệu văn bản. 1.2.3. Phân loại tóm tắt Tùy thuộc vào nhân tố khác nhau của quá trình tóm tắt văn bản, các nhân tố khác nhau có thể phân loại thành những kiểu tóm tắt khác nhau. Trong luận văn này xin đề cập đến 4 nhân tố cơ bản làm cơ sở cho việc phân loại tóm tắt văn bản đó là: 1.2.3.1. Nhân tố về đầu vào  Tóm tắt đơn văn bản Từ một văn bản nguồn cho ra bản tóm tắt ngắn gọn của văn bản đó. Bài toán tóm tắt đơn văn bản cũng giống nhƣ các bài toán tóm tắt khác, là một quá trình tóm tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn văn bản ngắn gọn mô tả nội dung chính của văn bản đầu. Văn bản đơn có thể là một trang Web, một nội dung đăng trên mạng xã hội, một bài báo, một tài liệu dạng văn bản (ví dụ: .doc, 10 .txt)... Tóm tắt văn bản đơn là bƣớc làm cơ sở cho việc xử lý tóm tắt đa văn bản và các bài toán tóm tắt phức tạp hơn. Các phƣơng pháp nhằm giải quyết bài toán tóm tắt văn bản đơn cũng tập trung vào hai loại tóm tắt là: tóm tắt theo trích xuất và tóm tắt theo tóm lƣợc. - Tóm tắt theo trích xuất Đa số các phƣơng tóm tắt loại này tập trung vào việc trích xuất ra các câu hay các ngữ nổi bật từ các đoạn văn bản và kết hợp chúng lại thành một văn bản tóm tắt. Một số nghiên cứu giai đoạn đầu thƣờng sử dụng các đặc trƣng nhƣ vị trí của câu trong văn bản, tần số xuất hiện của từ, ngữ hay sử dụng các cụm từ khóa để tính toán trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn bản tóm tắt [12], [13]. Các kỹ thuật tóm tắt gần đây sử dụng các phƣơng pháp học máy và xử lý ngôn ngữ tự nhiên nhằm phân tích để tìm ra các thành phần quan trọng của văn bản. Sử dụng các phƣơng pháp học máy có thể kể đến phƣơng pháp của Kupiec, Pendersonand Chen năm 1995 sử dụng phân lớp Bayes để kết hợp các đặc trƣng lại với nhau [15] hay nghiên cứu của Lin và Hovy năm 1997 áp dụng phƣơng pháp học máy nhằm xác định vị trí của các câu quan trọng trong văn bản [14]. Bên cạnh đó việc áp dụng các phƣơng pháp phân tích ngôn ngữ tự nhiên nhƣ sử dụng mạng từ Wordnet của Barzilay và Elhadad vào năm 1997 [24]. - Tóm tắt theo tóm lƣợc Các phƣơng pháp tóm tắt không sử dụng trích xuất để tạo ra tóm tắt có thể xem nhƣ là một phƣơng pháp tiếp cận tóm tắt theo tóm lƣợc. Các hƣớng tiếp cận có thể kể đến nhƣ dựa vào trích xuất thông tin (Information Extraction), Ontology, hợp nhất và nén thông tin... Một trong những phƣơng pháp tóm tắt theo tóm lƣợc cho kết quả tốt là các phƣơng pháp dựa vào trích xuất thông tin, phƣơng pháp dạng này sử dụng các mẫu đã đƣợc định nghĩa trƣớc về một sự kiện hay là cốt truyện và hệ thống sẽ tự động điền các thông tin vào trong mẫu có sẵn rồi sinh ra kết quả tóm tắt. Mặc dù cho ra kết quả tốt tuy nhiên các phƣơng pháp dạng này thƣờng chỉ áp dụng trong một miền nhất định [15]. 11

- Xem thêm -

Tài liệu Phương pháp tóm tắt văn bản tiếng việt bằng textrank

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất