Tài liệu Tóm tắt đơn văn bản tiếng việt sử dụng chuỗi từ vựng 04

.PDF

hoangtuavartar Báo vi phạm

Tải xuống 98

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TR NG ĐẠI H C CÔNG NGH KIM XUÂN PHÚC TÓM TẮT ĐƠN VĂN BẢN TIẾNG VI T SỬ DỤNG CHUỖI TỪ VỰNG Ngành: Công ngh thông tin Chuyên ngành: H th ng thông tin Mã s : 60.48.01.04 LU N VĂN THẠC SĨ Ng ih ng d n khoa h c: PGS.TS. NGUYỄN PH ƠNG THÁI HÀ NỘI - 2015 LỜI CAM ĐOAN ‘Tôi xin cam đoan luận văn này là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả được trình bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan ở trong nước và quốc tế. Ngoại trừ các tài liệu tham khảo này, luận văn hoàn toàn là sản phẩm của riêng tôi.’ Hà Nội, ngày 20 tháng 10 năm 2015 Ký tên ........................................................................ i LỜI CẢM ƠN Lời đầu tiên tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS. Nguyễn Phương Thái, Ths. Vũ Huy Hiển đã tận tình chỉ bảo, giúp đỡ và hướng dẫn tôi trong suốt quá trình thực hiện luận văn này. Tôi xin chân thành cảm ơn quý thầy cô và nhà trường đã luôn tạo điều kiện thuận lợi nhất cho chúng tôi học tập và nghiên cứu. Cuối cùng tôi xin gửi lời cảm ơn tới gia đình, bạn bè của tôi. Những người luôn giành thời gian ở bên cạnh quan tâm, động viên, và giúp đỡ tôi hết mình trong suốt quá trình học tập cũng như làm luận văn tốt nghiệp này. Hà Nội, ngày 20 tháng 10 năm 2015 Ký tên ........................................................................ ii Mục lục 1 Tổng quan về tóm tắt văn bản tự động 1.1 Các tiếp cận trên thế giới . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Các tiếp cận trong nước . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Giải pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Mạng từ 2.1 Mạng từ tiếng Anh - Wordnet . . . . . . . . . . . . . 2.1.1 Thông tin chung . . . . . . . . . . . . . . . . 2.1.2 Các quan hệ trong mạng từ Wordnet . . . . . 2.2 Mạng từ tiếng Việt . . . . . . . . . . . . . . . . . . . 2.2.1 Từ điển của Laconec . . . . . . . . . . . . . . 2.2.2 Mạng từ tiếng Việt của đề tài KC.01.20/11-15 2.3 Sử dụng mạng từ tiếng Việt . . . . . . . . . . . . . . 3 Ứng dụng xích từ vựng trong 3.1 Xích từ vựng . . . . . . . . 3.2 Xây dựng xích từ vựng . . . 3.3 Sử dụng xích từ vựng . . . . tóm . . . . . . . . . 4 Thực nghiệm và các kết quả 4.1 Dữ liệu sử dụng . . . . . . . . . 4.2 Phương pháp đánh giá . . . . . 4.2.1 Đánh giá đồng chọn . . 4.2.2 Đánh giá tự động . . . . 4.3 Thực nghiệm . . . . . . . . . . 4.3.1 Môi trường thực nghiệm 4.3.2 Tiền xử lý . . . . . . . . 4.3.3 Đánh giá kết quả . . . . . . . . . . . . iii tắt văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 6 . . . . . . . 8 8 8 8 10 10 11 11 bản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 13 16 . . . . . . . . 18 18 20 20 21 22 22 22 22 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MỤC LỤC 4.4 iv Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5 KẾT LUẬN 30 5.1 Các công việc đã làm . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.2 Hướng nghiên cứu trong tương lai . . . . . . . . . . . . . . . . . . . . 30 Danh sách hình vẽ 1.1 Các bước tóm tắt văn bản tiếng Việt sử dụng xích từ vựng . . . . . . 3.1 Thuật toán tính toán các xích từ vựng . . . . . . . . . . . . . . . . . 16 v 7 Danh sách bảng 2.1 2.2 Số loạt đồng nghĩa phân theo loại của mạng từ tiếng Việt . . . . . . . 11 Số lượng từ tiếng Việt chia theo từng loại trong mạng từ . . . . . . . 11 3.1 Ví dụ về xếp hạng độ quan trọng các câu khi sử dụng xích từ vựng . 17 4.1 4.2 4.3 4.4 4.5 Thống kê chi tiết kho ngữ liệu Corpus_LTH . . . . . . . . . . . . . Tập văn bản sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . . Kết quả đánh giá khi sử dụng độ đo ROUGE-1 . . . . . . . . . . . Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Chính trị Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Khoa học Công nghệ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Văn hóa . Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Xã hội . . Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Khoa học Giáo dục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Kinh tế . 4.8 4.9 4.6 4.7 vi . . . . 18 19 23 23 . 23 . 23 . 23 . 24 . 24 Danh mục từ viết tắt ES AS CSDL TF-IDF PWN NLTK Extraction Summarization Abstraction Summarization Cơ sở dữ liệu Term Frequency – Inverse Document Frequency Princeton Wordnet Natural Language Toolkit vii MỞ ĐẦU Ngày nay, dưới sự bùng nổ của kỷ nguyên Internet, thông tin văn bản được lưu trữ trên mạng Internet trở nên vô cùng lớn. Hằng ngày, số lượng thông tin văn bản tăng lên không ngừng. Khối lượng thông tin khổng lồ này mang lại lợi ích không nhỏ cho con người, tuy nhiên cùng với đó là sự quá tải khiến cho chúng ta gặp rất nhiều khó khăn trong việc tìm kiếm, xử lý và tổng hợp thông tin. Để cải thiện khả năng tìm kiếm cũng như tăng hiệu qủa cho các công việc xử lý thông tin, tóm tắt tự động là giải pháp không thể thiếu để giải quyết vấn đề này. Đối với tiếng Việt, bài toán tóm tắt văn bản tiếng Việt đóng một vai trò quan trọng trong việc khai thác hiệu quả thông tin trong kho ngữ liệu văn bản tiếng Việt lớn. Nó có ứng dụng rất lớn trong các hệ thống như: tìm kiếm thông minh, đa ngôn ngữ, tổng hợp thông tin... Đối với lĩnh vực an ninh quốc phòng, tóm tắt tin tức có thể giúp cho cán bộ nghiệp vụ thu thập đủ các thông tin cần thiết và kịp thời theo dõi, đánh giá, xử lý nguồn thông tin một cách nhanh chóng. Nội dung luận văn này được chúng tôi trình bày như sau: • Chương 1: Tổng quan về tóm tắt văn bản tự động • Chương 2: Mạng từ • Chương 3: Xích từ vựng • Chương 4: Thực nghiệm và các kết quả • Chương 5: Kết luận Chúng tôi đưa ra cái nhìn khái quát về hiện trạng tóm tắt văn bản tại Chương 1. Ở Chương 2, chúng tôi giới thiệu về mạng từ bao gồm mạng từ tiếng Anh của trường đại học Princeton, các mạng từ tiếng Việt hiện có. Chúng tôi giới thiệu các kiến thức chung và các cách áp dụng xích từ vựng ở Chương 3. Trong Chương 4, chúng 1 DANH SÁCH BẢNG 2 tôi trình bày các thực nghiệm và các kết quả mà chúng tôi đã đạt được. Cuối cùng, chúng tôi đưa ra kết luận và các công việc trong tương lai ở Chương 5. Chương 1 Tổng quan về tóm tắt văn bản tự động 1.1 Các tiếp cận trên thế giới Trên thế giới, bài toán tóm tắt văn bản xuất hiện từ lâu và không phải là bài toán mới. Những kỹ thuật sơ khai được áp dụng để tóm tắt văn bản đã được đề xuất từ những năm 50 của thế kỷ trước (Baxendale, 1958), (Luhn, 1958). Sau đó, những kỹ thuật này tiếp tục được nghiên cứu và đạt nhiều kết quả ngày càng tốt hơn cho nhiều loại ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng Nhật, tiếng Trung. . . Các nghiên cứu tập trung vào hai hướng chính: tóm tắt rút trích (ES - Extraction Summarization) và tóm tắt tóm lược (AS - Abstraction Summarization) theo (Jezek and Steinberger, 2008). Hầu hết các nghiên cứu về tóm tắt văn bản là tóm tắt trích rút vì nó dễ thực hiện và có tốc độ nhanh hơn so với tóm tắt tóm lược. Hướng tiếp cận tóm tắt trích rút chủ yếu là dựa vào các đặc trưng quan trọng của văn bản để tính trọng số câu để trích rút. Trong khi đó, tóm tắt tóm lược là dựa vào các kỹ thuật xử lý ngôn ngữ tự nhiên kết hợp với thông tin về ngôn ngữ để tạo ra các tóm tắt cuối cùng. Phần lớn các phương pháp tóm tắt trích rút đều tập trung trích rút ra các câu hay các từ ngữ nổi bật từ các đoạn văn bản và kết hợp chúng lại thành một văn bản tóm tắt. Một số nghiên cứu trong giai đoạn đầu thường sử dụng các đặc trưng như vị trí của câu trong văn bản, tần số xuất hiện của từ, ngữ hay tính toán độ quan trọng của các câu sử dụng các cụm từ khóa hay các thuộc tính riêng biệt qua đó chọn ra các câu có trọng số cao nhất cho văn bản tóm tắt theo (Luhn, 1958), 3 1.2. Các tiếp cận trong nước 4 (Edmundson, 1969), (Carbonell and Goldstein, 1998). Các kỹ thuật tóm tắt gần đây có sử dụng các phương pháp học máy và xử lý ngôn ngữ tự nhiên nhằm phân tích để tìm ra các thành phần quan trọng của văn bản. Kupiec và cộng sự trong (Kupiec et al., 1995) sử dụng phân lớp Bayes để kết hợp các đặc trưng lại với nhau. Lin và Hovy (Lin and Hovy, 1997) áp dụng phương pháp học máy nhằm xác định vị trí của các câu quan trọng trong văn bản. Sử dụng các phương pháp phân tích ngôn ngữ tự nhiên trong tóm tắt văn bản có thể kể đến phương pháp sử dụng cơ sở dữ liệu (CSDL) từ vựng Wordnet của Barzilay và Elhadad (Barzilay and Elhadad, 1997). Mặc dù không sử dụng đến phân tích ngữ nghĩa ở mức sâu nhưng việc sử dụng các phương pháp dựa trên kinh nghiệm (heuristic) trong các hệ thống này đem lại kết quả tương đối khả quan. Ví dụ, hệ thống của Hovy và Lin (Hovy and Lin, 1999) dựa trên vị trí câu trong văn bản và các từ gợi ý để đánh trọng số cho câu. Nomoto và Matsumoto (Nomoto and Matsumoto, 2001) sử dụng học không giám sát để khai thác sự liên hệ của các khái niệm trong văn bản. Các phương pháp tóm tắt không sử dụng trích rút để tạo ra tóm tắt có thể xem như là các phương pháp theo tiếp cận tóm tắt tóm lược. Các hướng tiếp cận có thể kể đến như dựa trên thực thể hoặc dựa trên phân tích cấu trúc diễn ngôn của văn bản. Cách tiếp cận dựa trên thực thể xây dựng một cách biểu diễn các thực thể, mô hình hóa các thực thể trong văn bản và mối liên hệ giữa chúng. Điển hình cho cách tiếp cận này là hệ thống của Salton và cộng sự (Salton et al., 1996). Hệ thống này tự động sinh ra các liên kết ngữ nghĩa (ở dạng chỉ dẫn liên kết: hypertext) giữa các đoạn trong văn bản. Đoạn càng nhiều liên kết thì càng quan trọng. Trên cơ sở đó, các đoạn quan trọng được đưa vào bản tóm tắt. 1.2 Các tiếp cận trong nước Đối với tiếng Việt, bài toán tóm tắt văn bản vẫn là bài toán khó do những đặc trưng ngôn ngữ chỉ có ở tiếng Việt. Số lượng các nghiên cứu về tóm tắt văn bản tiếng Việt vẫn còn ít so với các nghiên cứu cho tiếng Anh. Phần lớn các nghiên cứu hiện nay chỉ là các nghiên cứu ngắn hạn, đơn lẻ và dừng lại ở mức đề tài tốt nghiệp hay luận văn thạc sĩ, tiến sĩ hay đề tài nghiên cứu khoa học cấp bộ như các nghiên cứu trong (Thanh-Hương, 2014), (Thu-Hà, 2012), (Quốc-Định and Quang-Dũng, 2012), (Nguyen et al., 2005), (Quang-Uy et al., 2012), (Ha et al., 2005).... Các tiếp cận được công bố về tóm tắt văn bản thường dựa trên hướng trích xuất, tuy nhiên vẫn 1.2. Các tiếp cận trong nước 5 có hai hướng tiếp cận là tóm tắt trích rút và tóm tắt tóm lược. Mặt khác, tại Việt Nam, chưa có một kho ngữ liệu chuẩn nào được công bố để phục vụ cho tóm tắt văn bản nên hầu hết các thử nghiệm được tiến hành đều dựa trên những kho ngữ liệu tự xây dựng. Do vậy, việc đánh giá hiệu quả của từng phương pháp vẫn cần phải xem xét kỹ hơn. Ở Việt Nam, một số kết quả nghiên cứu về tóm tắt văn bản tiếng Việt đã được công bố. Tuy nhiên, phần lớn các nghiên cứu đó mới chỉ là các nghiên cứu ngắn hạn và đơn lẻ ở mức đề tài tốt nghiệp đại học, luận văn thạc sĩ và tiến sĩ. Các bài báo công bố kết quả nghiên cứu về tóm tắt văn bản không nhiều và phần lớn dựa trên trích xuất. Tuy nhiên vẫn có hai hướng là tóm tắt trích rút và tóm tắt theo tóm lược. Với tóm tắt trích rút có thể kể đến các công trình của Nguyễn Lê Minh và cộng sự trong (Nguyen et al., 2005), Hà Thành Lê và cộng sự trong (Ha et al., 2005), Đỗ Phúc và Hoàng Kiếm (Phúc and Kiếm, 2004). Nguyễn Lê Minh và cộng sự (Nguyen et al., 2005) tóm tắt văn bản dựa trên trích rút và sử dụng phương pháp SVM để phân loại câu quan trọng và câu không quan trọng trong văn bản. Các đặc trưng được sử dụng trong việc học bao gồm vị trí câu, chiều dài câu, độ liên quan chủ đề, tần suất từ, cụm từ chính và khoảng cách từ. Hà Thành Lê và cộng sự (Ha et al., 2005) kết hợp một số phương pháp trích rút đặc trưng trong trích rút văn bản tiếng Việt như đặc trưng về tần suất từ TFxIDF, vị trí, từ tiêu đề, từ liên quan. Các đặc trưng được kết hợp tuyến tính với nhau để tính trọng số mỗi câu trong văn bản gốc. Đỗ Phúc, Hoàng Kiếm (Phúc and Kiếm, 2004) giới thiệu phương pháp trích rút các ý chính từ văn bản hỗ trợ tạo tóm tắt văn bản tiếng Việt dựa trên việc sử dụng cây hậu tố để phát hiện các dãy từ phổ biến trong các câu của văn bản, dùng từ điển để tìm các dãy từ có nghĩa, dùng WordNet tiếng Việt hoặc từ điển đồng hiện để giải quyết vấn đề ngữ nghĩa của các từ. Cuối cùng dùng kỹ thuật gom cụm để gom các các câu trong văn bản (vector đặc trưng cho câu) và hình thành các vector đặc trưng cụm, sau đó rút ra các câu chứa nhiều thành phần của các vector đặc trưng cụm. Nguyễn Nhật An (An, 2014) đã sử dụng phương pháp trích rút dựa trên bộ hệ số đặc trưng với những đặc trưng bao gồm độ dài thực từ trong câu, vị trí câu, số lượng thực thể là số, tên riêng, trọng số TF.ISF, so sánh độ tương đồng với câu trung tâm và kết hợp với các phương pháp học máy bao gồm giải thuật di truyền và thuật toán bỏ phiếu để qua đó tự động học ra bộ hệ số đặc trưng, sau đó trích rút được những câu quan trọng trong văn bản. Ngoài ra Lê Thanh Hương trong 1.3. Giải pháp đề xuất 6 (Thanh-Hương, 2014) đã đồ thị hóa các câu trong văn bản dưới dạng đồ thị, qua đó kết hợp với giải thuật Page-rank để chọn ra những câu quan trọng trong văn bản, tùy thuộc vào tỉ lệ trích rút, văn bản cuối cùng sẽ được sinh ra. Với các tiếp cận theo hướng tóm tắt tóm lược, Nguyễn Lê Minh và cộng sự (Nguyen et al., 2005) sử dụng cây cú pháp nhằm rút gọn câu tiếng Việt. Tuy nhiên, các hệ thống phân tích cú pháp tiếng Việt hiện nay có độ chính xác chưa cao nên cách tiếp cận này vẫn chưa thực sự khả thi. 1.3 Giải pháp đề xuất Có thể thấy rằng, các tiếp cận tóm tắt văn bản tiếng Việt vẫn phần lớn dựa vào cấu trúc câu và chưa tận dụng được thông tin ngữ nghĩa giữa các từ trong câu. Với bài toán tóm tắt văn bản tiếng Anh, Barzilay và Elhadad trong (Barzilay and Elhadad, 1997) đã sử dụng được thông tin ngữ nghĩa liên kết các từ trong câu (xích từ vựng) dựa theo Wordnet và đạt được những kết quả khả quan trong tóm tắt văn bản. Trong luận văn này, chúng tôi đề xuất phương pháp tóm tắt văn bản tiếng Việt dựa vào xích từ vựng, các thông tin từ vựng được lấy từ Wordnet tiếng Việt từ đề tài KC.01.20/11-15 do Phương-Thái và các cộng sự xây dựng theo (Nguyen et al., 2015). Chúng tôi sử dụng xích từ vựng như một thông tin độc lập để đánh giá độ quan trọng của các câu trong văn bản, từ đấy trích rút ra những câu quan trọng nhất để tạo ra một văn bản tóm tắt từ văn bản gốc. Hình 1.1 dưới đây mô tả quy trình tóm tắt văn bản của chúng tôi. Trước tiên văn bản gốc sẽ được đi qua bước tiền xử lý, tại bước này, văn bản sẽ được tách từ và gán nhãn từ loại. Sau đó, chúng tôi xây dựng các xích từ vựng có trong văn bản và xếp hạng độ quan trọng các câu trong văn bản dựa vào xích từ vựng này. Cuối cùng, tùy thuộc vào tỉ lệ tóm tắt, chúng tôi đưa ra kết quả tương ứng. 1.3. Giải pháp đề xuất Hình 1.1: Các bước tóm tắt văn bản tiếng Việt sử dụng xích từ vựng 7 Chương 2 Mạng từ Trong chương này, chúng tôi sẽ trình bày những kiến thức cơ sở về mạng từ tiếng Anh của trường đại học Princeton, các mạng từ tiếng Việt hiện có. 2.1 2.1.1 Mạng từ tiếng Anh - Wordnet Thông tin chung WordNet là một cơ sở dữ liệu từ vựng tiếng Anh lớn được xây dựng bởi Đại học Princeton bắt đầu từ năm 1985 với mục đích phục vụ việc phân tích văn bản tự động, xử lý ngôn ngữ tự nhiên, trí tuệ nhân tạo, v.v. Tính đến năm 2006, WordNet bao gồm 155287 từ. Những từ trong WordNet được nhóm lại thành các bộ từ đồng nghĩa (synonym sets - synsets), thể hiện một khái niệm khác biệt. Synsets được liên kết với nhau bằng các quan hệ ngữ nghĩa. Có thể coi WordNet như một từ điển, tuy nhiên WordNet có 1 vài sự khác biệt so với từ điển thông thường. Thứ nhất là những từ trong WordNet không sắp xếp theo thứ tự bảng chữ cái alphabet mà được tổ chức thành một cơ sở dữ liệu, thứ hai là trong WordNet các từ được nhóm lại thành các tập đồng nghĩa, với những từ trong cùng một tập thì sẽ có giải nghĩa (glossary) giống nhau. 2.1.2 Các quan hệ trong mạng từ Wordnet Như ta đã biết, các tập từ đồng nghĩa trong WordNet có sự liên quan nhất định với nhau thông qua các mối quan hệ về ngữ nghĩa, dựa vào các quan hệ này mà ta có thể xét xem hai từ có liên quan gì đến nhau, hay nói cách khác là ta có thể xác định 8 2.1. Mạng từ tiếng Anh - Wordnet 9 được tính tương đồng của hai từ với nhau. Trong WordNet, có các quan hệ ngữ nghĩa chính là: Synonymy–Antonymy (đồng nghĩa - trái nghĩa), Hypernymy–Hyponymy (Bao nghĩa - Thuộc nghĩa), Meronymy–Holonymy (Phân nghĩa - Tổng nghĩa). Quan hệ Synonymy (Đồng nghĩa) Quan hệ này đóng vai trò chính yếu trong tổ chức từ vựng của WordNet vì biểu diễn tính tương tự về nghĩa giữa các hình thái từ về mặt từ vựng. Chính mối quan hệ này là cơ sở để các nhà xây dựng WordNet tập hợp các hình thái từ có cùng nghĩa thành các synset. Synonymy được xác định bởi khái niệm như sau: “Hai biểu thức là tương đương về nghĩa trong một ngữ cảnh C nếu sự thay thế giữa chúng trong C không làm thay đổi giá trị đúng”. Tất cả những từ trong cùng một synset thì đều có quan hệ synonym với nhau theo nghĩa của synset đó. Ví dụ ta có synset car, auto, automobile, machine, motorcar thì car là synonym với auto, automobile, machine, và motocar theo nghĩa: A motor vehicle with four wheels; usually propelled by an internal combustion engine; "he needs a car to get to work”. Lưu ý rằng nếu nghĩa A1 của từ A có quan hệ X với nghĩa B1 của từ B, thì mọi từ (nghĩa) trong synset của A1 đều có quan hệ X với B1. Quan hệ Antonymy (Trái nghĩa) Quan hệ antonymy xác định mối quan hệ trái nghĩa của hai từ trong WordNet. Từ trái nghĩa (antonym) của một từ đôi lúc là phủ định trực tiếp nhưng không phải luôn luôn là phủ định trong các trường hợp. Quan hệ antonymy cung cấp quy tắc tổ chức tính từ trong WordNet và những vấn đề phức tạp phát sinh khi quan hệ antonymy nằm trong mối quan hệ ngữ nghĩa giữa các từ. Ví dụ: peace là antonym của war. Quan hệ hypernymy và hyponymy (Bao nghĩa và thuộc nghĩa) Không giống như cặp quan hệ synonymy và antonymy, quan hệ hyponymy và hypernymy cho biết mối quan hệ về ngữ nghĩa giữa các khái niệm, trong đó nghĩa của khái niệm này bao hàm nghĩa của khái niệm kia hay ngược lại. Cặp quan hệ hyponymy và hypernymy còn có thể được xem là cặp quan hệ thượng danh (superordination) và hạ danh (subordination), hay cặp quan hệ tập con(subset) và tập cha (superset), hoặc cặp quan hệ IS-A và HAS-A. Một khái niệm được biểu diễn bởi synset x, x’, ... được gọi là hyponymy của khái niệm y, y’, ... nếu mệnh đề“x is a (kind of) y”là đúng. 2.2. Mạng từ tiếng Việt 10 Ví dụ với hai từ car và vehicle: thì vehicle là hypernym của car, car là hyponym của vehicle. Theo Lyons, quan hệ hyponymy là quan hệ có tính chất bắc cầu và phản xứng trong (Lyons, 1977). Theo quan hệ hyponymy, việc thêm ít nhất một thuộc tính mới vào khái niệm chi tiết sẽ giúp phân biệt khái niệm đó với một hoặc những khái niệm tổng quát có các thuộc tính mà nó thừa kế. Quy định này cung cấp nguyên tắc phân cấp cho việc xây dựng quan hệ danh từ trong WordNet. Quan hệ meronymty và holonymy (Phân nghĩa - Tổng nghĩa) Quan hệ meronymy và holonymy là mối quan hệ toàn thể–bộ phận giữa hai synset danh từ. Winston đã chia quan hệ meronymy và holonymy thành các loại như sau trong (Winston et al., 1987): • Thành phần - Đối tượng (Component - Object). Ví dụ: branch - tree • Thành viên - Tập hợp (Member - Collection). Ví dụ: tree - forest • Vật liệu - Đối tượng (Stuff - Object). Ví dụ: aluminium - airplane • Phần - Khối (Portion - Mass). Ví dụ: slice - cake • Đặc điểm - Hoạt động (Feature - Activity). Ví dụ: paying - shopping • Địa điểm - Nơi chốn (Place - Area). Ví dụ: Princeton - New Jersey • Gia đoạn - Quá trình (Phase - Process). Ví dụ: addolescence - growing up 2.2 Mạng từ tiếng Việt 2.2.1 Từ điển của Laconec Từ điển Laconec 1 là một trong những từ điển đầu tiên công bố tại Việt Nam xây dựng dựa theo cấu trúc của mạng từ tiếng Anh. Tư tưởng của Laconec là sử dụng mạng từ tiếng Anh làm hạt nhân, Laconec sẽ dịch tương ứng những thuật ngữ tiếng Anh ra tiếng Việt và các ngôn ngữ khác như tiếng Việt, tiếng Nhật hay Thái. Phần lớn những dữ liệu của các ngôn ngữ không phải tiếng Việt của Laconec đến từ những nguồn miễn phí trên mạng. Ưu điểm của từ điển Laconec là số lượng từ khá lớn và có thể sử dụng miễn phí. Tuy nhiên một nhược điểm lớn của từ điển Laconec là 1 http://www.laconec.com 2.3. Sử dụng mạng từ tiếng Việt 11 không có giao diện lập trình cho các lập trình viên có thể tận dụng và khai thác sức mạnh của mạng từ, ngoài ra cách thức hướng dẫn làm mạng từ không được trình bày đầy đủ cũng như các lý giải khoa học về mạng từ chưa thực sự rõ ràng. 2.2.2 Mạng từ tiếng Việt của đề tài KC.01.20/11-15 Mạng từ tiếng Việt của đề tài KC.01.20/11-15 do Phương-Thái và các cộng sự xây dựng theo (Nguyen et al., 2015), đây là mạng từ xây dựng dựa trên một phần của mạng từ tiếng Anh (Princeton Wordnet), ngoài ra mạng từ cũng bổ xung những đặc trưng ngôn ngữ tiếng Việt do vậy mạng từ không phải là bản dịch đơn thuần từ chiều tiếng Anh sang tiếng Việt. Tài nguyên của mạng từ được cung cấp dưới định dạng của Princeton Wordnet, do đó có thể được sử dụng và tích hợp trong nhiều thư viện mã nguồn mở. Do phiên bản chúng tôi sử dụng chưa phải là phiên bản hoàn thiện của mạng từ nên tính đến phiên bản ngày 24/11/2015, các con số thống kê về mạng từ được đưa ra trong bảng 2.1. Chi tiết về số lượng từ của từng loại được chúng tôi thể hiện trong bảng 2.2. Bảng 2.1: Số loạt đồng nghĩa phân theo loại của mạng từ tiếng Việt Danh từ Động từ Tính từ Tổng 16785 9257 5725 31767 Bảng 2.2: Số lượng từ tiếng Việt chia theo từng loại Danh từ Động từ Số lượng từ tiếng Việt 45180 35066 Số lượng từ tiếng Việt khi loại bỏ trùng lặp và 33994 17121 không phân biệt viết hoa hay thường 2.3 trong mạng từ Tính từ 19772 10998 Sử dụng mạng từ tiếng Việt Chúng tôi sử dụng mạng từ tiếng Việt đã được cung cấp ở định dạng của Princeton Wordnet, do vậy có khá nhiều lựa chọn để tích hợp vào công cụ tóm tắt văn bản, có thể kể đến như thư viện JWI2 do viện công nghệ thông tin Massachusetts phát 2 http://projects.csail.mit.edu/jwi 2.3. Sử dụng mạng từ tiếng Việt 12 triển hay thư viện NLTK 3 được cộng đồng xử lý ngôn ngữ tự nhiên phát triển trên nền tảng ngôn ngữ Python. Trong nghiên cứu ở luận văn này, chúng tôi sử dụng thư viện NLTK để phù hợp với việc tích hợp các công cụ khác vào chương trình. 3 http://www.nltk.org/news.html

- Xem thêm -

Tài liệu Tóm tắt đơn văn bản tiếng việt sử dụng chuỗi từ vựng 04

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất