Đăng ký Đăng nhập
Trang chủ Phát triển một sồ công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt...

Tài liệu Phát triển một sồ công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt

.PDF
131
184
108

Mô tả:

ỦY BAN NHÂN DÂN TP. HỒ CHÍ MINH SỞ KHOA HỌC – CÔNG NGHỆ ------------------------- BÁO CÁO KẾT QUẢ Đề tài: PHÁT TRIỂN MỘT SỒ CÔNG CỤ HỖ TRỢ PHÂN TÍCH, TỔNG HỢP VĂN BẢN TIẾNG VIỆT Chủ nhiệm đề tài : PGS. TS. ĐỖ PHÚC Cơ quan chủ trì: Trường Đại học Công nghệ Thông tin, ĐHQG-HCM Địa chỉ: 34 Trương Định, Quận 3, Tp. Hồ Chí Minh Điện thoại: (08) 9301471 == Năm 2007 == 1 DANH SÁCH CÁN BỘ THAM GIA TT Họ và tên Học vị Ngành chuyên môn Đơn vị công tác 1 Đỗ Phúc Tiến sĩ Tin học Trường ĐHCNTT 2 Lê Khắc Cường Tiến sĩ Ngữ Văn Báo chí ĐHKHXHNV 3 Hồ Anh Thư Thạc sĩ Tin học Trường ĐHCNTT 4 Thạc sĩ Tin học Trường ĐHCNTT 5 Nguyễn T Kim Phụng Mai Xuân Hùng Thạc sĩ Tin học Trường ĐHCNTT 6 Dương Khai Phong Cử nhân Tin học Trường ĐHCNTT MỤC LỤC CHƯƠNG 1: TỔNG QUAN 1.1. MỞ ĐẦU 1.2. MỤC TIÊU CỦA ĐỀ TÀI 1.2.1.Nghiên cứu đặc trưng văn bản tiếng Việt 1.2.2. Xây dựng kho ngữ liệu 1.2.3.Nghiên cứu, xây dựng các công cụ phân loại, tạo tổng lược văn bản tiếng Việt trong lĩnh vực công nghệ thông tin. 1.3. CẤU TRÚC CÁC CHƯƠNG MỤC CỦA BÁO CÁO 3 CHƯƠNG 2: RÚT TRÍCH CỤM DANH TỪ ĐỂ ĐẶC TRƯNG VĂN BẢN 2.1 MỞ ĐẦU 2.2.TÁCH CÂU 2.3. TÁCH TỪ 2.4. XÁC ĐỊNH TỪ LOẠI 2.4.1. Thuật toán gán nhãn từ loại 2.4.2. Bộ gán nhãn VNQTAG cho tiếng Việt 2.5. TRÍCH CỤM DANH TỪ 2.6. XÂY DỰNG PHẦN MỀM TRÍCH CỤM DANH TỪ TIẾNG VIỆT 2.7. KẾT CHƯƠNG 5 5 6 7 8 9 11 15 17 CHƯƠNG 3: XÂY DỰNG TỪ ĐIỂN TỔNG HỢP VÀ KHO NGỮ 2 1 2 2 2 2 LIỆU GÁN NHÃN TỪ LOẠI 3.1. XÂY DỰNG TỪ ĐIỂN TỪ ĐỒNG NGHĨA, GẦN NGHĨA 3.1.1.Từ điển LDOCE 3.1.2.Nghiên cứu cấu trúc WORDNET 3.1.3.Khoảng cách ngữ nghĩa 3.1.4. Nguồn dữ liệu để xây dựng từ điển đồng nghĩa, gần nghĩa 3.1.5. Xây dựng từ điển tổng hợp 3.2. XÂY DỰNG CÁC KHO NGỮ LIỆU 3.2.1 Chuẩn hoá dạng ngữ liệu 3.2.2. Xây dựng kho ngữ liệu có gán nhãn từ loại gồm các bài báo tiếng Việt trong lĩnh vực 3.2.3. Xây dựng kho ngữ liệu phục vụ thuật toán phân loại văn bản 3.2.4. Xây dựng kho ngữ liệu phục vụ thuật toán trích lược nội dung 3.2.5. Xây dựng kho ngữ liệu phục vụ kiểm tra thuật toán gom cụm bằng mạng Kohonen 3.3. KẾT CHƯƠNG CHƯƠNG 4: PHÁT TRIỂN HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP NAÏVE BAYES VÀ ỨNG DỤNG ĐỂ PHÂN LỚP THÔNG ĐIỆP TIẾNG VIỆT TRÊN DIỄN ĐÀM THẢO LUẬN QUA MẠNG 4.1. MỞ ĐẦU 4.2. CÁC TIẾP CẤN PHÂN LỚP 4.3. MÔ HÌNH PHÂN LỚP BẰNG PHƯƠNG PHÁP NAÏVE BAYES 4.3.1. Đặc trưng văn bản cho phân lớp Bayes 4.3.2. Mô hình phân lớp Bayes 4.3.3. Xây dựng bộ phân lớp văn bản Naive Bayes 4.3.4. Đánh giá 4.4. XÂY DỰNG HỆ THỐNG PHÂN LỚP THÔNG ĐIỆP TRÊN DIỄN ĐÀN THẢO LUẬN THEO TIẾP CẬN BAYES 4.4.1. Diễn đàn thảo luận 4.4.2. Vấn đề cần giải quyết 4.4.3. Xây dựng hệ thống 4.4.4. Quy trình thực hiện 4.4.5. Cơ sở dữ liệu lưu trữ thông điệp 4.4.6. Xây dựng Website diễn đàn thảo luận 4.4.7. Quá trình trích chọn đặc trưng thông điệp 4.4.8. Kết qủa thực hiện 4.5. KẾT CHƯƠNG 18 18 19 22 23 27 28 28 28 28 29 30 30 31 31 32 32 38 40 43 44 44 44 43 46 47 51 52 54 57 CHƯƠNG 5: TÓM TẮT VĂN BẢN THEO CÁCH TRÍCH LƯỢC 5.1. MỞ ĐẦU 5.2. CÁC NGHIÊN CỨU LIÊN QUAN 58 58 3 5.3. CÁC YÊU CẦU ĐỐI VỚI TÓM TẮT VĂN BẢN 5.4.CÁC PHƯƠNG PHÁP TÓM TẮT VĂN BẢN TỰ ĐỘNG 5.4.1.Hướng phân tích ngôn ngữ “nông” 5.4.2.Hướng phân tích ngôn ngữ “sâu” 5.5. CẤU TRÚC CỦA CHƯƠNG TRÌNH TẠO TRÍCH LƯỢC VĂN BẢN 5.6.TÓM TẮT THEO HƯỚNG TRÍCH LƯỢC TÀI LIỆU WEB 5.7.TÓM TẮT TRANG WEB DỰA VÀO NGỮ CẢNH CỦA TRANG WEB 5.7.1. Mở đầu 5.7.2.Ngữ cảnh của tài liệu Web 5.7.3.Các công việc chính 5.8.VẤN ĐỀ ĐÁNH GIÁ KẾT QUẢ TÓM TẮT 5.8.1. Giới thiệu 5.8.2. Đặc điểm của các phương pháp đánh giá 5.8.3.Đánh giá bên trong 5.8.4. Đánh giá bên ngoài 5.8.5.So sánh các phương pháp đánh giá bên trong và đánh giá- bên ngoài 5.9. MỘT SỐ TIÊU CHÍ ĐÁNH GIÁ 5.9.1. Độ đo mức độ chính xác và mức bao phủ 5.9.2. Độ đo dựa trên nội dung 5.10. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ 5.10.1. Phương pháp đánh giá độ tương tự về nội dung 5.10.2. Độ tương quan phù hợp 5.10.3. Phương pháp đánh giá theo độ chính xác và độ hồi tưởng 5.11. KẾT CHƯƠNG 60 61 62 62 63 67 68 68 69 69 72 72 73 73 74 74 74 74 74 75 75 75 76 76 CHƯƠNG 6: XÂY DỰNG CHƯƠNG TRÌNH TRÍCH LƯỢC VĂN BẢN 6.1.MỞ ĐẦU 6.2. QUY TRÌNH XỬ LÝ 6.3. PHƯƠNG PHÁP XỬ LÝ 6.3.1.Trích thông tin trang Web và phân vùng tạm thời 6.3.2. Trích thông tin ngữ cảnh của trang Web 6.3.3.Tách câu 6.3.4.Tách từ 6.3.5. Gán nhãn từ loại 6.3.6. Phát hiện các cụm từ 6.3.7. Loại bỏ các câu không hợp lệ 6.3.8.Biểu diễn câu vào không gian vec-tơ 6.3.9.Xác định vùng văn bản chính 6.3.10.Gom cụm các câu 6.3.11.Rút câu trội 6.4. XÂY DỰNG HỆ THỐNG 6.4.1. Mô tả chương trình 4 77 77 79 79 81 83 83 83 83 84 84 85 85 86 88 88 6.4.2. Kết quả thử nghiệm 6.5.KẾT CHƯƠNG 90 99 CHƯƠNG 7: GOM CỤM VĂN BẢN BẰNG MẠNG KOHONEN VÀ TRÍCH LƯỢC NỘI DUNG CHÍNH CỦA NHIỀU VĂN BẢN 7.1. MỞ ĐẦU 7.2. TẠO VECTƠ ĐẶC TRƯNG 7.2.1. Tìm tập hợp các cụm danh từ phổ biến 7.2.2. Điều chỉnh thành phần của vector đặc trưng văn bản hoặc đặc trưng câu 7.2.3. Tạo vector đặc trưng câu và vector đặc trưng văn bản 7.3. GOM CỤM VĂN BẢN BẰNG MẠNG KOHONEN 7.3.1. Mạng Kohonen 7.3.2. Gom cụm từ lớp ra Kohonen 7.3.3. Thuật giải huấn luyện mạng Kohonen 7.3.4. Đặc trưng các cụm trên lớp ra Kohonen 7.3.5. Cải tiến thuật giải huấn luyện mạng Kohonen 7.4. TRUY VẤN TƯƠNG TỰ THÔNG QUA LỚP RA KOHONEN 7.5. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ GOM CỤM 7.5.1. Các hệ số để đánh giá 7.5.2.Thử nghiệm và đánh giá 7.6. TRÍCH RÚT CÂU QUAN TRỌNG 7.6.1. Trích các câu quan trọng 7.6.2. Trích các câu đặc biệt 7.7. KẾT CHƯƠNG 100 100 100 100 103 104 104 104 105 106 106 108 109 109 112 118 118 118 118 CHƯƠNG 8: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN 8.1. CÁC KẾT QUẢ CỦA ĐỀ TÀI 8.2. DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC Đà CÔNG BỐ CÓ LIÊN QUAN ĐẾN ĐỀ TÀI 8.3.. DANH SÁCH CÁC HỌC VIÊN CAO HỌC Đà BẢO VỆ THÀNH CÔNG LUẬN VĂN THẠC SỸ THEO HƯỚNG ĐỀ TÀI 8.4. HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 128 PHỤ LỤC Bộ chú thích từ lọai mức 2 Chuỗi từ lọai xác định cụm danh từ Danh mục một số từ khóa trong từng chủ đề Từ điển đồng nghĩa Từ điển CVDIC Computer ontology Tập thuật ngữ tin học có liên quan Hướng dẫn sử dụng các phần mềm cài đặt theo đề tài Tuyển tập các bài báo khoa học đã công bố có liên quan đến đề tài 132 133 134 138 139 143 147 158 167 5 125 126 127 CHƯƠNG 1 TỔNG QUAN 1.1. MỞ ĐẦU Hầu hết các thông tin trên Internet đều ở dạng văn bản và khối lượng thông tin này là rất lớn ( chiếm khoảng 80% lượng thông tin trên Internet). Do vậy cần phải có các phần mềm tin học hỗ trợ phân tích, tổng hợp thông tin văn bản như phân loại văn bản, truy vấn văn bản, tóm lược văn bản... nhằm hỗ trợ nhu cầu khai thác, xử lý thông tin nhanh chóng và hiệu quả. Trên thế giới đã có nhiều sản phẩm phần mềm hỗ trợ phân tích, tổng hợp thông tin văn bản. Có thể liệt kê một số sản phẩm tiêu biểu theo hướng này như: - - - Text Analyst của hãng Megaputer: Phần mềm này sử dụng mạng Hopfield để phát hiện các khái niệm tiềm ẩn trong văn bản và tạo sơ đồ liên hệ giữa các khái niệm. Sau đó có thể truy vấn theo khái niệm, tóm tắt nội dung văn bản. Intelligent Miner for Text của hãng IBM: Phần mềm này có các tính năng phân tích văn bản ( gom cụm văn bản, phân loại văn bản, rút trích khái niệm, nhận dạng ngôn ngữ. . .). Phần mềm được phát triển trên nền mạng nơron, dàn khái niệm, phân tích thông tin đa ngữ và từ điển tương đồng. WEBSOM của Đại học Helsinki, Phần Lan: Dự án này dựa trên mạng Kohonen và có khả năng gom cụm thông tin trong thư viện số thành các cụm (tập hợp văn bản có nội dung gần nhau). Các cụm được biểu diễn trực quan thành bản đồ văn bản trên màn hình. Do vậy có thể khái quát và nắm bắt nhanh chóng nội dung của khối ngữ liệu gồm nhiều văn bản. Chức năng AutoSummarize của phần mềm Microsoft Word với khả năng tạo trích lược các câu quan trọng trong văn bản tiếng Anh. Bên cạnh đó, phần mềm có có khả năng thống kê từ, câu, độ khó của văn bản... Tuy vậy, các hệ thống phần mềm trên chỉ xử lý văn bản tiếng Anh. Hiện nay, số lượng trang Web tiếng Việt ngày càng phong phú, các nguồn dữ liệu văn bản điện 6 tử tiếng Việt được đưa lên Web ngày càng phát triển. Vì thế cần phải đầu tư nghiên cứu phát triển các phần mềm hỗ trợ phân tích, tổng hợp văn bản tiếng Việt. Trong nuớc, một số nhà nghiên cứu đã tập trung vào vấn đề này. Tại Khoa Hệ thống thông tin (trường Đại học Công nghệ Thông tin); Khoa CNTT (trường Đại học Khoa học Tự nhiên); Khoa tiếng Việt, Khoa Ngữ văn-Báo chí (trường Đại học Khoa học Xã hội và Nhân văn) đã có một số đề tài nghiên cứu về các đặc thù trong ngữ pháp tiếng Việt, đề xuất các phương án biểu diễn văn bản tiếng Việt, xử lýphân tích văn bản tiếng Việt bằng máy tính. Một số công trình tiêu biểu có liên quan đến đề tài nghiên cứu như sau: • GS. Nguyễn Đức Dân-TS. Đặng Thái Minh (1999) đã nghiên cứu xây dựng từ điển tần số tiếng Việt phục vụ nghiên cứu ngôn ngữ học so sánh. Các tác giả đã sử dụng phương pháp thống kê trên khối ngữ liệu truyện ký, dùng tần suất của từ nhằm phát hiện các từ đặc trưng cho văn bản. Xây dựng từ điển tần số của dòng truyện ký và tiến hành một số thao tác so sánh đặc trưng văn bản theo mô hình vector. • GS. Hoàng Kiếm- TS. Đỗ Phúc (2002) đã nghiên cứu sử dụng cây hậu tố mở rộng nhằm rút trích các dãy từ phổ biến trong tập ngữ liệu gồm nhiều văn bản tiếng Anh. Sau đó dùng dãy từ phổ biến tạo không gian vector nhằm đặc trưng văn bản bằng vector với các thành phần có giá trị nhị phân, hoặc số thực qua hệ số tf-idf theo các dãy từ phổ biến ... Bên cạnh đó, các tác giả còn nghiên cứu sử dụng từ điển đồng hiện và WordNet để xem xét ngữ nghĩa tiếng Anh của các thành phần trong vector ứng với các từ gần nghĩa hoặc đồng nghĩa và gom cụm bài báo hỗ trợ truy vấn tương đồng trong thư viện số hoá. • GS. Hoàng Kiếm-Th Sĩ Huỳnh Ngọc Tín (2003) đã sử dụng mạng neuron GHSOM kết hợp với các kết quả nghiên cứu về tiếng Việt của GS. Cao Xuân Hạo về đề và thuyết. Nhóm tác giả đã sử dụng các dấu hiện nhận dạng đề và thuyết là các từ “thì”, “là”, “mà” để tách các đoạn trong câu và phát hiện thành phần phổ biến của đoạn. • TS. Nguyễn Thị Minh Huyền (2003) và cộng sự đã nghiên cứu gán nhãn từ loại dựa trên hệ thống từ loại do nhóm đề xuất. Nhóm tác giả đã xây dựng từ điển tiếng Việt có từ loại và sử dụng phần mềm gán nhãn từ loại VNQTAG để thực hiện gán nhãn từ loại dựa trên khối ngữ liệu học. • TS. Đinh Điền và cộng sự (2004) đã xây dựng kho ngữ liệu song ngữ Anh Việt phục vụ dịch máy. Tác giả đã phát triển thuật toán TBL và mô hình BTL…giải quyết một số bài toán quan trọng trong tiếng Anh, tiếng Việt như tách từ, gán nhãn từ loại, khử nhập nhằng, dịch máy… Các kết quả trên là cơ sở bước đầu giúp nhóm đề tài triển khai đề tài nghiên cứu xây dựng phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng Việt. 1.2. MỤC TIÊU CỦA ĐỀ TÀI Đề tài tập trung nghiên cứu các nội dung sau: 1.2.1.Nghiên cứu đặc trưng văn bản tiếng Việt 7 - Một số khía cạnh của từ vựng, ngữ pháp, ngữ nghĩa trong văn bản tiếng Việt. - Các phương pháp đặc trưng văn bản nói chung và văn bản tiếng Việt nói riêng - Các phương pháp tách từ, gán nhãn từ loại, trích cụm danh từ ... 1.2.2. Xây dựng kho ngữ liệu - Xây dựng kho ngữ liệu trong lĩnh vực CNTT - Xây dựng từ điển đồng nghĩa trong lĩnh vực CNTT. 1.2.3.Nghiên cứu, xây dựng các công cụ phân loại, tạo tổng lược văn bản tiếng Việt trong lĩnh vực công nghệ thông tin. a ) Công cụ phân loại văn bản trong lĩnh vực CNTT - Nghiên cứu các phương pháp phân loại văn bản hiện có. - Phát triển mô hình phân loại văn bản tiếng Việt trong lĩnh vực CNTT có xem xét ngữ nghĩa. b) Công cụ tạo tóm tắt văn bản trong lĩnh vực CNTT. − Nghiên cứu các phương pháp tạo tóm lược văn bản. − Phát triển mô hình trích lược văn bản tiếng Việt trong lĩnh vực CNTT có xem xét ngữ nghĩa. 1.3. CẤU TRÚC CÁC CHƯƠNG MỤC CỦA BÁO CÁO Chương 1: Tổng quan Chương này trình bày tổng quan về đề tài nghiên cứu, xác định nhiệm vụ nghiên cứu, các bài toán cần giải quyết và cấu trúc của các chương mục trong báo cáo. Chương 2: Rút trích cụm danh từ để đặc trưng văn bản Chương này trình bày nghiên cứu về các công đoạn tách câu, tách từ, gán nhãn từ loại, rút trích cụm danh từ và xây dựng phần mềm rút trích cụm danh từ trong văn bản tiếng Việt. Chương 3: Xây dựng từ điển tổng hợp và kho ngữ liệu Chương này trình bày cách xây dựng từ điển đồng nghĩa, gần nghĩa các từ trong lĩnh vực CNTT nhằm giải quyết vấn đề ngữ nghĩa trong các xử lý văn bản tiếng Việt. Chương này trình bày cấu trúc của các từ điển Wordnet, LDOCE, khoảng cách ngữ nghĩa để đo sự tương đồng về nghĩa của các từ. Dựa trên các nguồn dữ liệu như: từ điển Wordnet, từ điển LDOCE, từ điển các từ đồng nghĩa, các từ liên quan trong lĩnh vực CNTT, nhóm đề tài đã xây dựng từ điển đồng nghĩa, gần nghĩa các thuật ngữ trong lĩnh vực CNTT. Nhiệm vụ thứ hai của nhóm đề tài là xây dựng các kho ngữ liệu phục vụ cho việc triển khai các chức năng như tách từ, gán nhãn từ loại, phân loại văn bản, trích lược nội dung. Các chức năng này đều được xây dựng theo tiếp cận học máy, do đó cần tập dữ liệu huấn luyện để huấn luyện mô hình hoặc kiểm tra độ chính xác của mô hình đề xuất. Nhóm đề tài đã sưu tầm và tổ chức 8 kho ngữ liệu tách từ, gán từ loại, ngữ liệu phục vụ bài toán phân lớp thông điệp, ngữ liệu để đánh giá kết quả trích lược nội dung văn bản. Chương 4 : Phát triển hệ thống phân loại văn bản tiếng Việt bằng phương pháp Naive Bayes và ứng dụng để phân lớp thông điệp trên diễn đàn thảo luận qua mạng Chương này trình bày mô hình phân lớp Naive Bayes để phân lớp văn bản, cách đặc trưng văn bản cho mô hình Naive Bayes.Cách bổ sung ngữ nghĩa vào bài tóan phân lọai văn bản. Bên cạnh đó, chương này cũng trình bày một ứng dụng phân loại thông điệp tiếng Việt trên diễn đàn thảo luận qua mạng nhằm mục tiêu hỗ trợ công việc quản lý nôi dung trên diễn đàn thảo luận. Chương 5: Tóm tắt vằn bản theo hướng trích lược Chương này trình bày các nghiên cứu về tóm tắt văn bản theo hướng tóm lược và theo hướng trích lược. Những vấn đề liên quan đến trích lược trang Web tiếng Việt có xem xét ngữ cảnh của trang Web. Vấn đề đánh giá kết quả tóm tắt văn bản. Chương 6: Xây dựng chương trình trích lược văn bản Chương này trình bày các bước xây dựng chương trình trích lược văn bản gồm các công việc như trích thông tin trang Web và phân vùng tạm thời, trích thông tin ngữ cảnh của trang Web, tách câu, tách từ, gán nhãn từ loại, phát hiện cụm danh từ, so sánh nghĩa của từ, biểu diễn câu trong không gian vec-tơ các cụm danh từ phổ biến, gom cụm các câu và trích câu trội. Bên cạnh đó, chương này cũng trình bày các thử nghiệm của chương trình cài đặt và đối sánh kết quả với chức năng autosummarize của Microsoft Word và kết qủa do chuyên gia tạo ra. Chương 7: Gom cụm văn bản bằng mạng Kohonen và trích lược nội dung chính của nhiều văn bản Chương này trình bày cách bước xây dựng chương trình trích lược nội dung chính nhiều văn bản bao gồm biểu diễn văn bản bằng cụm danh từ, cách rút gọn chiều của vector đặc trưng dựa vào các thành phần đồng nghĩa hoặc gần nghĩa qua đồ thị đồng hiện, mạng Kohonen và bài toán gom cụm nhiều văn bản. Qúa trình trích rút các câu trội từ các cụm văn bản có nội dung tương tự nhau. Chương 8: Tổng kết và hướng phát triển Chương này tổng kết các kết qủa đã làm được và định hướng các nghiên cứu trong tương lai. Bên cạnh đó, chương này còn liệt kê 07 công trình khoa học đã công bố và danh sách 05 học viên cao học đã bảo vệ thành công luận văn có liên quan đến đề tài nghiên cứu. 9 CHƯƠNG 2 RÚT TRÍCH CỤM DANH TỪ ĐỂ ĐẶC TRƯNG VĂN BẢN 2.1 MỞ ĐẦU Các tiếp cận trước đây đã sử dụng các dãy từ phổ biến (dãy từ được lặp đi lặp lại nhiều lần trong văn bản) [5],[6],[9] để đặc trưng văn bản. Do dùng dãy từ nên không thể xử lý ngữ nghĩa của các từ. Trong đề tài này, chúng tôi sử dụng cụm danh từ phổ biến làm yếu tố đặc trưng văn bản. Các danh từ và cụm danh từ thường mô tả các khái niệm chính trong văn bản, tạo điều kiện đưa ngữ nghĩa vào bài toán phân lớp văn bản, trích lược nội dung như: vấn đề từ đồng nghĩa, từ gần nhau, từ liên quan về nghĩa nhằm nâng cao hiệu quả phân lớp văn bản. Trong tiếng Việt, đa phần danh từ và cụm danh từ thường mang ý nghĩa chuyển tải nội dung của câu. Để trích cụm danh từ tiếng Việt cũng có nhiều cách tiếp cận khác nhau, từ việc học luật chuyển đổi từ ngữ liệu mà công trình của E. Brill là một giải pháp tiêu biểu đến tiếp cận sử dụng luật do chuyên gia ngôn ngữ tạo nên. Trong nghiên cứu này, chúng tôi chọn giải pháp tách từ, gán từ loại, sau đó dựa trên cấu trúc cụm danh từ để trích rút cụm danh từ từ các từ đã được gán từ loại vì thiếu các nguồn ngữ liệu đã được chú giải cụm danh từ tiếng Việt. Trong tiếng Anh, các từ được nhận diện dựa vào khoảng trắng và dấu chấm câu. Đối với tiếng Việt, khoảng trắng không phải là dấu hiệu để nhận diện ranh giới từ. Do đó bài toán tách từ, gán nhãn từ loại, trích cụm danh từ là một công việc phức tạp trong quá trình xử lý văn bản tiếng Việt. 2.2. TÁCH CÂU Quá trình tách câu nói chung là một công việc khó. Hiện có hai tiếp cận để giải quyết bài toán tách câu. Tiếp cận 1 sử dụng ngữ liệu và dùng thuật toán để rút ra các luật hoặc tạo bộ nhân diện điểm tách câu. Tiếp cận 2 sử dụng luật để xác định câu, Trong đề tài này, chúng tôi sử dụng tiếp cận 2 và xây dựng một số luật tách câu như sau: Đoạn văn bản sẽ được duyệt tuần tự và sẽ được cho ngắt câu khi gặp các ký tự ngắt câu như “.” (chấm), “!” (chấm than), “?” (chấm hỏi), với điều kiện ký tự kế tiếp (có thể có các ký tự “khoảng trắng” ở giữa) là ký tự viết in. Cách làm trên loại bỏ được các trường hợp không phải ngắt câu như: - Dấu “.” không phải là ngắt câu mà là dấu trong chuỗi số. Lúc này ký tự kế tiếp dấu chấm phải là số, không phải ký tự viết in. - Dấu “.” trong một loạt “dấu ba chấm” bên trong câu, chưa phải là cuối câu. Lấy một số ví dụ: 10 Œ Đoạn văn bản“Hôm nay là một ngày đẹp trời. Chúng ta sẽ đi cắm trại ngoài trời” sẽ được ngắt ở giữa từ “trời” và từ “chúng” để thành hai câu. Œ Đoạn văn bản “Trong vườn có 1.200 cây các loại, trong đó đa số là cây ăn trái như cam, quýt, đào, lê, mận, … và một số cây cảnh như cau, tùng, …” chỉ thuộc một câu. Luật trên vẫn chưa đủ để phân biệt hết các trường hợp xuất hiện dấu chấm. Ta xử lý thêm cho các trường hợp có xuất hiện dấu chấm nhưng không tách câu như sau: - Chuỗi link, hay địa chỉ Web (URL). ƒ Dấu hiệu nhận diện: có chứa ký tự “.” hay “/” và chứa một trong các chuỗi con sau (ở đây chỉ liệt kê một số chuỗi thông dụng trong các địa chỉ Web): “http”, “.com”, “.net”, “.edu”, “.vn”, “.org”, “.htm”, “.html”, “.asp”, “.jsp”, “.php”, “.gif”, “.jpg”, “.bmp”, “.pdf”, “.ps”, “.txt”, “.exe”, “.wav”, “.m3u”, “.mp3”. ƒ Ví dụ: http://www.citd.edu.vn - Ký hiệu viết tắt ƒ Danh sách các ký tự viết tắt được xử lý: “GS.”, “PGS.”, “TS.”, “VS.”, “TSKH.”, “NCS.”, “ThS.”, “BS.”, “NS.”, “DS.”, “YS.”, “LS.”, “KS.”, “CN.”, “GĐ.”, “PGĐ.”, “TP.”, “Tp.”, “KCN.”. - Các chuỗi có chứa nhiều dấu chấm liên tục, chẳng hạn ƒ Chuỗi version (ví dụ: version 1.2.1). Chuỗi dạng này có chứa nhiều ký tự số. ƒ Địa chỉ IP (ví dụ: 172.9.10.1). Chuỗi dạng này cũng chứa nhiều ký tự số. ƒ Chuỗi định dạng cho một kiểu ghi nào đó (ví dụ: “version của chương trình này phải được ghi theo dạng Vx.x.x.x”). 2.3. TÁCH TỪ Theo [21], các nghiên cứu tách từ hiện nay được chia làm ba hướng: hướng thứ nhất là hướng tiếp cận dựa trên luật, trong hướng này có các mô hình Longest Matching, Greedy Matching; với các mô hình này thì từ điển từ là quan trọng. Hướng thứ hai là hướng tiếp cận dựa trên xác suất thống kê, hướng này dựa trên ngữ cảnh của từ bằng cách xem xét thông tin các từ lân cận, sau đó đưa ra quyết định tách từ thích hợp. Tiếp cận theo hướng này, các mô hình hiện nay áp dụng đều là mô hình Markov ẩn bậc 1 (Hidden Markov Model - HMM) dựa vào thuật toán Viterbi. Hướng thứ ba phần lớn đều là mô hình lai, kết hợp một số mô hình ngôn ngữ khác nhau như: WFST (Automat lai với HMM), hướng giảm các lỗi: TBL (Transformation-Based Error-Driven Learning). Hướng này đòi hỏi nhiều thao tác nên việc xử lý trở nên chậm nhưng độ chính xác rất tốt. Trong đề tài, chúng tôi sử dụng tiếp cận theo cách của nhóm tác gỉa [21]. Theo tiếp cận này, bài toán tách từ tiếng Việt là một bài toán thống kê chuyển đổi trạng thái. Đầu tiên câu được xử lý loại bỏ các lỗi về cách trình bày một câu, và chuẩn hóa về cách bỏ dấu, cách viết các ký tự y, i…trong tiếng Việt. Sau đó, câu được đưa vào mô hình WFST (Weighted Finite State Transducer) để nhận diện từ láy, danh từ riêng, tên riêng người Việt, tên riêng người nước ngoài.. Mô hình thực hiện tách câu thành các từ đi liền nhau theo các trạng thái có thể, nhận diện từ và gán trọng số thích hợp dựa vào tự điển (trọng số ước lượng thường rất nhỏ nên lấy log (=-log(tần suất từ/kích thước tập mẫu)). Mô hình WFST căn cứ trên các trọng 11 số này để chọn ra một cách tách từ thích hợp. Sau khi có được tất cả trạng thái tách từ có thể có của câu, với mỗi trạng thái, mô hình tính tổng trọng số và chọn trạng thái tách từ đúng nhất là câu có tổng trọng số nhỏ nhất. Ví dụ 2.1. Cho câu: Câu = “Hai công ty vừa ký kết hợp đồng sản xuất.” Tách câu thành các trạng thái có thể: Trạng thái 1: “Hai # công ty # vừa # ký # kết hợp # đồng # sản xuất.” Trạng thái 2: “Hai # công ty # vừa # ký kết # hợp đồng # sản xuất.” Trọng số trong từ điển: “hai” = 8.68 “công ty” = 12.31 “vừa” = 6.31 “ký” = 7.3 “ký kết” = 8.24 “kết hợp” = 7.43 “hợp đồng” = 10.85 “đồng” = 7.33 Tính: (1) : 8.68 + 12.31 + 6.31+ 7.3 + 7.43 + 7.33 = 49.36 (2) : 8.68 + 12.31 + 6.31 + 8.24 + 10.85 = 46.39 ⇒ Câu tách được chọn: “Hai # công ty # vừa # ký kết # hợp đồng # sản xuất.” Sau khi qua mô hình WFST, nếu câu cần tách vẫn còn nhập nhằng (điều này được xác định thông qua một ngưỡng nào đó) thì sử dụng tiếp mô hình mạng nơron (neural) khử các nhập nhằng và chọn ra cách tách từ phù hợp nhất (xem thêm [21]). 2.4. XÁC ĐỊNH TỪ LOẠI Theo các nhà ngôn ngữ học, hiện nay có hai quan niệm từ loại khác nhau trong tiếng Việt, dẫn đến hình thành nên hai bộ chú thích từ loại cũng khác nhau, bộ từ loại thứ nhất gồm 8 từ loại và bộ từ loại thứ hai được chia nhỏ hơn gồm 48 từ loại [8]. Việc phân tích từ loại phải dựa trên ngữ cảnh của từ loại với các từ loại khác trong văn bản. Mỗi từ có thể có nhiều từ loại, tùy theo ngữ cảnh cụ thể từ sẽ có một từ loại xác định. Vấn đề đặt ra là làm thế nào để xác định từ loại đúng của một từ trong ngữ cảnh đang xét. Công việc gán nhãn từ loại (POS tagging) cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó. Để nâng cao hiệu suất khai thác văn bản, chức năng gán nhãn từ loại cho từ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng như trong các hệ dịch máy. Tiến trình gán nhãn từ loại được chia làm 3 bước: • Tách câu thành chuỗi các từ (giai đoạn tách từ). • Tìm cho mỗi từ tất cả các nhãn từ loại mà nó có thể có. Các nhãn này có thể nhận biết dựa vào từ điển hoặc kho văn bản đã gán nhãn bằng tay. Đối với một từ mới chưa có trong từ điển thì dùng một nhãn ngầm định hoặc gắn cho nó tất cả các nhãn. • Quyết định kết quả gán nhãn, loại bỏ nhập nhằng và lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn có thể có của nó. Có nhiều phương pháp để thực hiện việc này, trong đó có phương pháp của Eric Brill [16] (hướng giảm các lỗi). và các phương pháp xác suất [28]. Ngoài ra còn có các hệ thống sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp. Từ giữa những năm 1980, các hệ thống học sử dụng từ điển để phân tích cú pháp và kết hợp với kho văn bản mẫu để học cách phát hiện từ loại cho mỗi từ. Cách làm này cho thấy khả năng hiện thực tốt hơn, khả thi hơn là xây dựng một từ điển và một bộ quy tắc ngữ pháp đầy đủ [8]. Bộ gán nhãn tự động xác suất QTAG là một hệ thống sử dụng từ điển liệt 12 kê các từ loại có thể cho một từ kết hợp với kho văn bản mẫu để loại bỏ nhập nhằng, do nhóm nghiên cứu Corpus Research thuộc trường Đại học Tổng hợp Birmingham, Anh quốc phát triển. Dựa trên hướng này, ở Việt Nam nhóm nghiên cứu Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương đã sửa đổi phần mềm QTAG thành phần mềm VnQTAG cho tiếng Việt nhằm thích nghi với văn bản tiếng Việt [8]. 2.4.1. Thuật toán gán nhãn từ loại Chương trình VnQTAG được nhóm tác giả trên chỉnh sửa lại thành phiên bản dùng để gán nhãn từ loại cho từ trong văn bản tiếng Việt. VnQTAG là chương trình gán nhãn từ loại tự động dựa vào thống kê tức là dựa vào xác suất. Thử nghiệm thực tế, chương trình này cho kết quả có độ chính xác khá cao. Ở đây trình bày các phần chính của chương trình VnQTAG cũng như chương trình QTAG, chi tiết có thể xem trong [8]. QTAG là một bộ gán nhãn xác suất độc lập với ngôn ngữ. Phương pháp xử lý của QTAG có thể mô tả tổng quát như sau. Nó học từ vựng, bộ nhãn từ loại, cùng với xác suất từ vựng và xác suất ngữ cảnh từ một kho ngữ liệu đã được gán nhãn bằng tay. Dựa vào những dữ liệu đã học được này, bộ gán nhãn tìm những nhãn có thể được và tần số của nó cho từng từ trong kho dữ liệu mới đã được tách từ. Nếu việc tìm kiếm một từ trong danh sách từ vựng đã học thất bại thì tất cả các nhãn sẽ được gán cho từ đó. Cuối cùng, bộ gán nhãn thực hiện bước loại bỏ nhập nhằng bằng cách sử dụng thông tin về xác suất phân bố từ vựng đã được học trước đó. Khi sửa đổi phần mềm QTAG thành phần mềm VnQTAG, tác giả [8] đã thực hiện một số thay đổi sau: - Đưa vào kho từ vựng của bộ gán nhãn tất cả các mục từ có trong từ điển từ vựng của nhóm tác giả và các mục từ có trong tập huấn luyện - Khi gặp đơn vị mới trong tập văn bản gần gán nhãn, kiểm tra nếu đơn vị đó là số hay tên riêng thì gán nhãn số hay tên riêng. - Ngoài ra, một mô-đun đoán nhận từ loại cho một từ mới dựa vào hậu tố của từ đó – không áp dụng cho tiếng Việt – cũng được loại bỏ. Dữ liệu đầu vào của chương trình VnQTAG là văn bản đã được phân tách từ trong từng câu (kết quả của bước tách từ ở phần trên), kết quả đầu ra của chương trình là một từ loại tương ứng sẽ được gán cho từng từ trong văn bản. Hệ thống sử dụng đồng thời từ điển để liệt kê các từ loại có thể cho một từ, và một kho văn bản mẫu để loại bỏ nhập nhằng. Cùng với chương trình mã nguồn mở, tác giả đã cung cấp một tự điển, một tập dữ liệu huấn luyện khoảng gần 100.000 từ và 2 bộ chú thích (bộ tag) từ loại ở hai mức. Bộ chú thích từ loại thứ nhất gồm các chú thích cho: Danh từ (N), Động từ (V), Tính từ (A), Đại từ (P), Từ chỉ định (D), Trạng từ (R), Trạng từ vị trí (S), Liên từ (C), Số (M), Thán từ (I), Còn lại (X). Bộ chú thích mức 2 phân rã từng loại chú thích ở trên thành các chú thích từ loại chi tiết hơn. Bộ chú thích mức 2 sẽ gán nhãn cho từ chi tiết hơn nhưng lại có xác suất gán sai cao hơn bộ chú thích mức 1. Việc sử dụng bộ chú thích như thế nào là tùy thuộc vào nhu cầu sử dụng sau khi đã gán nhãn. Khi thay đổi bộ chú thích thì dữ liệu huấn luyện cũng phải được gán nhãn mẫu theo các nhãn tương ứng với bộ chú thích đó. 13 Bộ gán nhãn QTAG là một bộ gán nhãn trigram. QTAG làm việc trên một cửa sổ chứa 3 từ, sau khi đã bổ sung thêm 2 từ giả ở đầu và cuối văn bản. Các từ được lần lượt đọc và thêm vào cửa sổ mỗi khi cửa sổ di chuyển từ trái sang phải, mỗi lần một vị trí. Nhãn được gán cho mỗi từ đã lọt ra ngoài cửa sổ là nhãn kết quả cuối cùng. Thủ tục gán nhãn: 1. Đọc từ (token) kế tiếp. 2. Tìm từ đó trong từ điển. 3. Nếu không tìm thấy, gán cho từ đó tất cả các nhãn từ loại (tag) có thể 4. Với mỗi nhãn: a. tính Pw = P(tag|token) là xác suất từ token có nhãn tag b. tính Pc = P(tag|t1,t2), là xác suất nhãn tag xuất hiện sau các nhãn t1, t2, là nhãn tương ứng của hai từ đứng trước từ token. c. tính Pw,c = Pw * Pc, kết hợp hai xác suất trên. 5. Lặp lại phép tính cho hai nhãn khác trong cửa sổ Sau mỗi lần tính lại (3 lần cho mỗi từ), các xác suất kết quả được kết hợp để cho ra xác suất toàn thể của nhãn được gán cho từ. Vì các giá trị này thường nhỏ, nên chúng được tính trong biểu thức logarit cơ số 10. Giá trị xác suất tính được cho mỗi nhãn tương ứng với một từ thể hiện độ tin cậy của phép gán nhãn này cho từ đang xét. 2.4.2. Bộ gán nhãn VNQTAG cho tiếng Việt Đầu vào của chương trình là một văn bản đã được tách từ, mỗi từ nằm trên một dòng. Kết quả gán nhãn là nhãn có khả năng cao nhất được sắp gần từ nhất, kế tiếp là các nhãn có khả năng thấp hơn (hình 2.3). Hình 2.1. Từ điển từ vựng Ví dụ 2.2. Kho văn bản mẫu đã gán nhãn (hình 2.2). 14 Hình 2.2. Kho văn bản mẫu đã gán nhãn Ví dụ 2.3. văn bản được tách từ và gán nhãn ở mức 8 từ loại N( danh từ),V(động từ), A( tính từ),P ( đại từ), J(phụ từ), C( kết từ); I ( trợ từ), E ( cảm từ ). . ⇒ Hình 2.3. Văn bản đã được tách từ và kết quả gán nhãn từ loại 2.5. TRÍCH CỤM DANH TỪ Bài toán nhận dạng cụm danh từ được áp dụng trong các ứng dụng trích chọn thông tin, việc tìm kiếm dựa trên danh từ mang nhiều ý nghĩa hơn là chỉ dựa trên từng từ đơn lẻ. Bài toán phân loại, tạo chỉ mục tài liệu trong lĩnh vực khai thác dữ 15 liệu, bài toán tìm từ đồng nghĩa, gần nghĩa sẽ hiệu quả hơn nếu làm việc trên đơn vị tìm kiếm là danh từ, cụm danh từ. Để giúp tăng độ chính xác của các hệ thống tra cứu thông tin người ta đã thử nghiệm sử dụng cụm danh từ, cụm động từ như là các chỉ mục thay thế cho từ khóa. Cấu tạo chung của cụm danh từ gồm có ba phần: phần phụ trước, phần trung tâm và phần phụ sau (xem [1]): Tất cả những cái bàn mới mua ấy Phần phụ trước Phần trung tâm Phần phụ sau ‰ Vị trí các thành tố: Bảng 2.1: Bảng vị trí các thành tố -3 -2 -1 0 1 2 ‰ Cụm danh từ có danh từ làm phần trung tâm, ví dụ: “một ngôi nhà nhỏ” thì từ “nhà” ở trên chính là danh từ trung tâm, đứng ở vị trí (0) trong bảng 2.1. Cụm danh từ đơn giản nhất chỉ có một danh từ. Những thành tố phụ có thể thêm vào gồm: danh từ loại thể hoặc tính từ, danh từ, động từ, mệnh đề phụ... Phần phụ trước đặt trước danh từ trung tâm bao gồm: Một số đại từ hay còn gọi là đại từ chỉ số lượng (tất cả, hết thảy ...), đứng ở vị trí (-3) trong bảng 2.1. − Số từ hay còn gọi là từ chỉ số lượng (một, hai, ba, vài, dăm, mươi, vài ba, những, các, mỗi...), đứng ở vị trí (-2) trong bảng 2.1. − Danh từ loại thể hay còn gọi là từ chỉ xuất (con, chiếc, cái, ngôi...), đứng ở vị trí (-1) trong bảng 2.1. − Thứ tự các từ như sau: − Từ chỉ tổng lượng từ chỉ số lượng từ chỉ loại thể từ trung tâm Phần phụ sau đặt sau danh từ trung tâm bao gồm: − Từ nêu đặc trưng miêu tả như: tính từ (đẹp, xấu ...), danh từ, động từ, số từ, đại từ, mệnh đề phụ (mà tôi thấy, mà nó làm ...), đứng ở vị trí (1) trong bảng 2.1. Ví dụ: Phòng mới Phòng thiếu nhi Phòng đọc Phòng mười lăm Phòng (của) chúng tôi Đây là những yếu tố rất đa dạng về cấu tạo và ý nghĩa. Về cấu tạo, nó có thể do một từ hay một ngữ bất kì tạo thành. Ví dụ: học sinh 16 nam, một việc tốt, sách dạy nấu ăn, chiếc xe tôi mới mua…Về ý nghĩa, nó có thể bổ sung hay hạn định ý nghĩa cho danh từ trung tâm. ị trí này có thể có nhiều yếu tố và được nối trực tiếp (không có quan hệ từ) hay gián tiếp (có quan hệ từ) với danh từ trung tâm. Ví dụ: những công nhân tiên tiến, có nhiều sáng kiến kinh nghiệm của nhà máy dệt Thành Công… (có 3 yếu tố phụ xuất hiện ở vị trí 1, các yếu tố “tiên tiến”, “có nhiều sáng kiến kinh nghiệm” được nối trực tiếp, yếu tố “nhà máy dệt Thành Công” được nối gián tiếp qua giới từ của với danh từ trung tâm là công nhân.) − Từ chỉ định (này, kia, nọ, ấy, đó, nào...). Đây là yếu tố kết thúc cụm danh từ, đứng ở vị trí (2) trong bảng 2.1. − Thứ tự các từ như sau: Từ trung tâm từ miêu tả từ chỉ định Nói chung cấu trúc của thành tố sau của cụm danh từ phức tạp hơn nhiều so với thành tố trước. Việc xác định cấu trúc cụm danh từ một cách tường minh là rất khó.Sau khi tách từ, dựa vào bộ chú thích tám từ loại (danh từ (N), động từ (V), tính từ (A), đại từ (P), phụ từ (J), kết từ (C), trợ từ (I), cảm từ(E) ), chương trình tiến hành gán nhãn từ loại ở mức tám từ loại và trích ra từ loại nào là danh từ, cụm danh từ. Để đặc trưng cho văn bản và giảm độ phức tạp tính toán, chúng tôi áp dụng giải pháp được nêu trong [12]. Đối với bài toán phát hiện cụm danh từ cho tiếng Việt, hiện nay có nghiên cứu của tác giả Lại Thị Hạnh [7] cho kết quả có độ chính xác khoảng 70%. Giải pháp này lấy ý tưởng từ thuật toán TBL do E. Brill khởi xướng Trong [7], tác giả đã sử dụng phương pháp học luật chuyển đổi để cho ra các luật chuyển đổi trạng thái của một từ trong một một chuỗi văn bản là nằm trong hay nằm ngoài một cụm danh từ [16]. Các luật này sau đó được dùng để xác định các cụm danh từ cho các văn bản. Đầu vào của hệ thống phát hiện cụm danh từ này là văn bản đã được tách từ và gán nhãn từ loại. Kết quả xác định cụm danh từ thử nghiệm của tác giả có độ chính xác 70% với tập dữ liệu thử khoảng 37.000 từ, trong đó 90% được dùng làm ngữ liệu để học luật và 10% dùng để thử nghiệm. Để phục vụ bài toán phân lớp và tóm tắt văn bản, chúng tôi dùng một số luật để phát hiện một số cụm danh từ đơn giản, như những ngữ dạng ghép của các danh từ (gồm một chuỗi các danh từ đi liền nhau). Trước khi đưa ra các luật, ta phân tích một số đặc điểm cấu tạo của cụm danh từ tiếng Việt như bên dưới. Đối với tiếng Anh, cụm danh từ thường gốm 3 phần: Tiền chỉ định – Tiền bổ nghĩa – Danh từ chính Còn đối với tiếng Việt, thành phần bổ nghĩa cho danh từ thì đứng sau nhưng lại có thể có thêm phần chỉ định (determiner) ở phía sau, nên cụm danh từ sẽ như sau : Tiền chỉ định – Danh từ chính – Bổ nghĩa - Hậu chỉ định 17 - Thành phần tiền chỉ định: ƒ Danh từ loại thể như: cái, chiếc, cuộc, … ƒ Danh từ số lượng: một, mỗi, những, … - Thành phần hậu chỉ định: ƒ Đại từ không gian, thời gian: ấy, này, đó, … - Thành phần bổ nghĩa: (ở đây ta bỏ qua dạng bổ nghĩa là một mệnh đề) ƒ Tính từ kích thước ƒ Tính từ chỉ phẩm chất như: tốt, xấu, … ƒ Tính từ chỉ tuổi tác ƒ Tính từ chỉ chiều dài ƒ Tính từ chỉ màu sắc ƒ Danh từ phụ Ngay cả những bổ nghĩa là tính từ có thể sẽ tạo nên những cụm danh từ chỉ đối tượng cá biệt, ảnh hưởng đến việc xác định tần số xuất hiện mục từ. Các cách kết hợp này của cụm danh từ sẽ được biểu diễn thành một chuỗi các loại từ liên tiếp nhau để tạo thành một trường hợp phát hiện cụm danh từ, ta tạm gọi là 1 luật hình thành cụm danh từ. Việc phát hiện cụm danh từ sẽ thực hiện bằng cách duyệt tuần tự câu và so khớp với từng luật hình thành cụm danh từ. Nếu khớp thì cho ghi nhận có thêm cụm danh ngữ mới. Các luật hình thành cụm danh từ sẽ được lưu trong file text và cho phép bổ sung hay sửa đổi, mỗi luật hình thành cụm danh từ được biểu diễn bằng 1 chuỗi dạng như sau: loại từ loại từ - …, với loại từ là 1 thành phần ngữ pháp có thể tham gia kết hợp tạo nên cụm danh từ. Ví dụ một trường hợp như sau: N – N – A. (Các ký hiệu N, A … là các ký hiệu cho các từ loại thuộc bộ tag mức 1 được kế thừa từ chương trình VnQTAG[8]).Ta có thêm nhận định rằng, các danh từ riêng không cần được ghép vào trong một ngữ. Dựa trên cấu trúc cụm danh từ tiếng Việt, chúng tôi xây dựng các công thức sau để rút trích cụm danh từ trong văn bản tiếng Việt đã được gán nhãn từ loại: 1 2 3 4 5 6 7 8 9 10 11 12 ….. Nc Nc Nc Nc Nc Nc Nc Nt Nu Nu Nu Nu Nc Na An Aa Nc Nc Cm Nc An Aa Nc Ng An Aa Nc ( chi tiết xin xem phụ lục) Tuy vậy không phải tất cả các cụm danh từ trích ra đều là những cụm danh từ có nghĩa. Các cụm danh từ trích ra sẽ được lọc lại dựa trên tập các cụm danh từ học 18 được từ dữ liệu huấn luyện và từ dữ liệu bổ sung. Các cụm danh từ học được xây dựng bằng tay, và được bổ sung trong quá trình học lại dữ liệu huấn luyện. Tiếp cận này có thể không trích hết các cụm danh từ, nhưng trong giải pháp đặc trưng văn bản bằng các cụm danh từ phổ biến, danh từ phổ biến phục vụ cho công tác phân lớp, các danh từ, cụm danh từ phát hiện được đã tạo cơ hội cho chúng tôi tiến hành các công đoạn xem xét nghĩa của từ về sau này. Văn bản Tách từ Gán nhãn từ loại Trích danh từ, cụm danh từ Tập các cụm danh từ đại diện cho văn bản Hình 2.4: Quá trình rút trích từ khóa của văn bản 2.6. XÂY DỰNG PHẦN MỀM TRÍCH CỤM DANH TỪ TIẾNG VIỆT 19 Hình 2.5. Giao diện phần mềm trích cụm danh từ Màn hình của phần mềm rút trích cụm danh từ ( hình 2.5) được chia thành 2 cửa sổ chính, cửa sổ bên trái hiển thị cây thư mục cho phép người dùng chọn văn bản cần xử lý trong trường hợp muốn xử lý một văn bản. Cửa sổ bên phải chứa các cụm danh từ thu được. Trong màn hình trên có hai chức năng chính: • Chức năng “thực hiện trên thư mục”: Với chức năng này hệ thống cho phép thực thi tất cả các văn bản trong thư mục mình đang xét. Điều này cho phép người dùng chọn xử lý cùng lúc nhiều văn bản, giảm chi phí các thao tác điều khiển chương trình. • Chức năng “Thực hiện trên một văn bản”: Chỉ cho phép người dùng xử lý trên một văn bản, điều này cho phép người sử dụng có thể kiểm tra dễ dàng các kết quả thu được. Hình 2.6. Màn hình nội dung văn bản Màn hình rút trích một số cụm danh từ: 20
- Xem thêm -

Tài liệu liên quan