Nghiên cứu các phương pháp xử lý tiếng Việt ứng dụng cho tóm tắt văn bản

  • Số trang: 59 |
  • Loại file: PDF |
  • Lượt xem: 21 |
  • Lượt tải: 0
tailieuonline

Đã đăng 27372 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LÊ QUÝ TÀI NGHIÊN CỨU CÁC PHƢƠNG PHÁP XỬ LÝ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN LUẬN VĂN THẠC SĨ Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LÊ QUÝ TÀI NGHIÊN CỨU CÁC PHƢƠNG PHÁP XỬ LÝ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. PHẠM BẢO SƠN Hà Nội - 2011 i LỜI CAM ĐOAN Tôi xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm nghiên cứu, tìm hiểu của riêng cá nhân tôi. Trong toàn bộ nội dung của luận văn, những điều đƣợc trình bày hoặc là của cá nhân tôi hoặc là đƣợc tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và đƣợc trích dẫn hợp pháp. Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Hà Nội, tháng 6 năm 2011 TÁC GIẢ LUẬN VĂN Lê Quý Tài ii LỜI CẢM ƠN Trƣớc hết tôi xin xin gửi lời cảm ơn đặc biệt tới TS. Phạm Bảo Sơn, ngƣời đã định hƣớng đề tài và tận tình hƣớng dẫn chỉ bảo tôi trong suốt quá trình thực hiện luận văn cao học này. Tôi xin chân thành cảm ơn các thầy cô trƣờng Đại học Công nghệ, Đại học Quốc Gia Hà Nội đã tận tình giảng dạy và truyền đạt những kiến thức, những kinh nghiệm quý báu trong suốt khóa học cao học. Cuối cùng, tôi xin dành một tình cảm biết ơn tới gia đình và những ngƣời thân đã luôn ở bên cạnh, động viên, chia sẻ cùng tôi trong suốt thời gian học cao học cũng nhƣ quá trình thực hiện luận văn cao học. iii MỤC LỤC LỜI CAM ĐOAN..................................................................................................... i LỜI CẢM ƠN ......................................................................................................... ii MỤC LỤC .............................................................................................................iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ........................................... v DANH MỤC CÁC BẢNG ..................................................................................... vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ................................................................ vii MỞ ĐẦU ................................................................................................................ 1 Chƣơng 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN .............................................. 3 1.1 Tổng quan ...................................................................................................... 3 1.1.1 Khái niệm .............................................................................................. 3 1.1.2 Lịch sử phát triển của tóm tắt văn bản ..................................................... 3 1.1.3 Phân loại các phƣơng pháp tóm tắt văn bản ............................................. 4 1.2 Mô hình tóm tắt văn bản ................................................................................ 6 1.2.1 Các phƣơng pháp áp dụng trong pha phân tích ........................................ 7 1.2.2 Các phƣơng pháp áp dụng trong pha biến đổi.......................................... 8 1.2.3 Các phƣơng pháp trong pha tổng hợp kết quả.......................................... 9 1.3 Các phƣơng pháp đánh giá ............................................................................. 9 1.3.1 Các phƣơng pháp đánh giá trong .......................................................... 10 1.3.2 Các phƣơng pháp đánh giá ngoài .......................................................... 11 Chƣơng 2 BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT .............................. 12 2.1 Một số hƣớng tiếp cận bài toán tóm tắt văn bản ........................................... 12 2.2 Đặc điểm tiếng Việt ..................................................................................... 13 2.2.1 Đặc điểm chung .................................................................................... 13 2.2.2 Yếu tố ngoại lai trong từ tiếng Việt ...................................................... 14 2.2.3 Từ đồng nghĩa ....................................................................................... 14 2.2.4 Đặc điểm chính tả ................................................................................. 15 2.2.5 Bảng mã tiếng Việt trên máy tính .......................................................... 16 2.3 Phƣơng pháp cho bài toán tóm tắt văn bản tiếng Việt ................................... 17 iv Chƣơng 3. ỨNG DỤNG PHƢƠNG PHÁP CẤU TRÚC ĐỂ TÓM TẮT VĂN BẢN TIẾNG VIỆT......................................................................................................... 20 3.1 Mô hình tóm tắt sử dụng phƣơng pháp cấu trúc ........................................... 20 3.2 Tiền xử lý văn bản ....................................................................................... 21 3.3 Xử lý từ ....................................................................................................... 22 3.4 Xây dựng đồ thị liên kết ............................................................................... 24 3.5 Sinh văn bản tóm tắt .................................................................................... 28 Chƣơng 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ ........................................................ 33 4.1 Môi trƣờng thử nghiệm ................................................................................ 33 4.2 Dữ liệu thử nghiệm ...................................................................................... 33 4.3 Phƣơng pháp đánh giá.................................................................................. 33 4.4 Kết quả thực nghiệm .................................................................................... 36 4.4.1 Thử nghiệm xác định ngƣỡng................................................................ 36 4.4.2 Kết quả thử nghiệm đối với từng phiên bản ........................................... 37 KẾT LUẬN ........................................................................................................... 42 TÀI LIỆU THAM KHẢO ..................................................................................... 44 PHỤ LỤC ............................................................................................................. 46 v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT STT Tên đầy đủ Ký hiệu, viết tắt Inverse document frequency 1 IDF 2 IR Tần số tài liệu ngược Information Retrieval Tìm kiếm thông tin Term frequency 3 TF Tần số từ vi DANH MỤC CÁC BẢNG Bảng 1 Bậc của các nút sắp theo thứ tự giảm dần của văn bản Text(1).txt ............ 29 Bảng 2 Đánh giá sự liên quan của văn bản tóm tắt và văn bản GS ........................ 34 Bảng 3 Kết quả thử nghiệm với các ngƣỡng khác nhau ........................................ 36 Bảng 4 Chất lƣợng của văn bản tóm tắt bởi Microsoft Word ................................ 37 Bảng 5 Kết quả thử nghiệm với phiên bản 1 ......................................................... 38 Bảng 6 Kết quả thử nghiệm với phiên bản 2 ......................................................... 38 Bảng 7 Kết quả thử nghiệm với phiên bản 3 ......................................................... 39 Bảng 8 So sánh kết quả các phiên bản và MS Word ............................................. 39 Bảng 9 So sánh các văn bản tóm tắt đƣợc thực hiện bởi 2 ngƣời ........................... 40 vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1 Kiến trúc của hệ thống tóm tắt văn bản tự động .......................................... 6 Hình 2 Đồ thị liên kết các câu trong văn bản (gồm 11 câu, 30 liên kết trên 0,2) .... 19 Hình 3 Mô hình tóm tắt văn bản sử dụng phƣơng pháp cấu trúc ........................... 20 Hình 4 Đồ thị liên kết của văn bản Text(1).txt ...................................................... 27 Hình 5 Bản tóm tắt của Text(1).txt thực hiện bởi con ngƣời, tỉ lệ nén 10% ........... 35 Hình 6 Đồ thị kết quả tóm tắt với các ngƣỡng....................................................... 36 Hình 7 So sánh kết quả tóm tắt của các phiên bản và MS Word ............................ 40 1 MỞ ĐẦU Ngày nay, với sự phát triển nhƣ vũ bão của công nghệ thông tin, Internet cũng nhƣ các dịch vụ trực tuyến, ngày càng có nhiều thông tin đƣợc tạo ra. Ta có thể truy cập các thông tin đó qua sách, báo, Internet và các phƣơng tiện truyền thông. Hơn nữa, nhu cầu đọc, tìm kiếm và lƣu trữ thông tin của con ngƣời cũng ngày càng tăng lên. Tuy nhiên, với một lƣợng lớn thông tin nhƣ vậy thì ngƣời ta không thể nào có đủ thời gian và sức lực để đọc hết đƣợc chúng. Giải pháp là tóm tắt lại các văn bản đó, từ đó giúp tiết kiệm thời gian và công sức nhƣng vẫn có thể đọc và xử lý đƣợc nhiều văn bản. Tóm tắt văn bản tự động đã bắt đầu đƣợc nghiên cứu từ những năm 50 của thế kỉ trƣớc. Đã có nhiều công trình nghiên cứu về lĩnh vực này và có đƣợc những kết quả đáng kể. Tóm tắt văn bản đã đƣợc sử dụng trong các phần mềm xử lý văn bản (Microsoft Office Word…), trong khai phá cơ sở dữ liệu văn bản (Oracle…), trong các ứng dụng tìm kiếm thông tin trực tuyến (hệ thống tìm kiếm Google, Yahoo…) và đều thu đƣợc những kết quả rất đáng khích lệ. Tuy nhiên, đối với Tiếng Việt, do sự phức tạp của ngôn ngữ nên hiện chƣa có nhiều công trình nghiên cứu về tóm tắt văn bản và kết quả của các công trình nghiên cứu về tóm tắt văn bản tiếng Việt còn hạn chế so với các ngôn ngữ khác mà đặc biệt là so với tiếng Anh. Vì vậy, chúng tôi chọn đề tài: “Nghiên cứu các phương pháp xử lý tiếng Việt ứng dụng cho tóm tắt văn bản” nhằm nghiên cứu những vấn đề tổng quan về xử lý ngôn ngữ tự nhiên và một số phƣơng pháp tóm tắt văn bản tiên tiến đã đƣợc ứng dụng và thu đƣợc kết quả khả quan đối với tiếng Anh; đồng thời nghiên cứu những đặc điểm của tiếng Việt nhằm cải tiến và ứng dụng những phƣơng pháp đó để có thể xây dựng ứng dụng tóm tắt văn bản tiếng Việt. Nội dung của luận văn đƣợc chia làm 4 chƣơng: Chƣơng 1. Tổng quan về tóm tắt văn bản Chƣơng này trình bày những vấn đề tổng quan về bài toán tóm tắt văn bản, một số hƣớng tiếp cận hiện đại và các phƣơng pháp đánh giá kết quả của văn bản tóm tắt. Chƣơng 2. Bài toán tóm tắt văn bản tiếng Việt Chƣơng này trình bày về bài toán tóm tắt văn bản tiếng Việt và một số khó khăn gặp phải do các đặc điểm của tiếng Việt (ngữ âm, ngữ pháp, chính tả…), và một số vấn đề về tiếng Việt trên máy tính (bảng mã, font chữ…), từ đó lựa chọn phƣơng pháp phù hợp cho bài toán tóm tắt văn bản. 2 Chƣơng 3. Ứng dụng phương pháp cấu trúc để tóm tắt văn bản tiếng Việt Chƣơng này trình bày về việc sử dụng phƣơng pháp sử dụng cấu trúc văn bản kết hợp với từ điển từ dừng và từ điển đồng nghĩa để xây dựng chƣơng trình tóm tắt văn bản tiếng Việt. Chƣơng 4. Thực nghiệm và đánh giá Chƣơng này trình bày về phƣơng pháp đƣợc sử dụng để đánh giá hệ thống tóm tắt và các kết quả thực nghiệm. 3 Chƣơng 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 1.1 Tổng quan 1.1.1 Khái niệm Tóm tắt văn bản là một lĩnh vực của xử lý ngôn ngữ tự nhiên, đã đƣợc bắt đầu nghiên cứu từ những năm 50 của thế kỉ trƣớc. Có nhiều định nghĩa về tóm tắt văn bản: [19] định nghĩa tóm tắt văn bản là quá trình rút trích ra các thông tin quan trọng từ một hoặc nhiều văn bản để tạo ra văn bản ngắn gọn cho mỗi hoặc nhóm ngƣời dùng, cho từng tác vụ hay nhiều tác vụ khác nhau. [21] định nghĩa hệ thống tóm tắt văn bản là hệ thống đƣa ra dạng biểu diễn ngắn gọn của thông tin đầu vào căn cứ theo yêu cầu của ngƣời dùng. Radev (2002) [22] định nghĩa văn bản tóm tắt là văn bản đƣợc tạo từ một hoặc nhiều văn bản khác mà truyền tải đƣợc những thông tin quan trọng trong văn bản gốc nhƣng có độ dài không quá ½ văn bản gốc (thƣờng ngắn hơn đáng kể). Theo Partha Lal (2002) [16] thì tóm tắt văn bản là việc thể hiện nội dung văn bản dƣới dạng giản lƣợc một cách tự động nhằm đáp ứng yêu cầu nào đó từ phía ngƣời dùng. Đỗ Phúc, Hoàng Kiếm (2006) [5] định nghĩa tóm tắt văn bản tự động là việc tìm các ý chính của văn bản. Tựu chung lại, có ba đặc điểm quan trọng cần phải xem xét trong hệ thống tóm tắt văn bản: 1) Bản tóm tắt có thể đƣợc tạo ra từ một hoặc nhiều văn bản. 2) Bản tóm tắt cần truyền tải các thông tin quan trọng. 3) Bản tóm tắt cần phải ngắn. 1.1.2 Lịch sử phát triển của tóm tắt văn bản Tóm tắt văn bản bắt đầu từ những năm cuối thập kỉ 1950 với nghiên cứu của Luhn (1958) [17] dựa trên tần số từ. Ý tƣởng cơ bản của phƣơng pháp tần số từ dựa trên kiến thức cho rằng tần số của từng từ trong văn bản là một độ đo hữu dụng để đánh giá tầm quan trọng của chúng. Tiếp theo đó là phƣơng pháp tóm tắt dựa trên vị trí của các câu trong văn bản của Baxendale (1958), và những nghiên cứu của Edmundson (1969) [14] về vị trí của các câu trong văn bản và các từ/cụm từ mang ý nghĩa tổng quát (từ/cụm từ dấu hiệu). Theo đó, những câu bắt đầu và kết thúc của đoạn văn/bài viết hay những câu 4 chứa những từ nhƣ “important” (đặc biệt), “result are” (kết quả là), “paper introduce” (bài báo giới thiệu về)… là những câu có ý nghĩa quan trọng. Đầu những năm 1970, tiếp tục có những nghiên cứu với hƣớng tiếp cận ngoài (sử dụng các cụm từ dấu hiệu) và đƣợc ứng dụng trong các phần mềm thƣơng mại (Pollock và Zamora). Những năm 1980, phát triển nhiều nghiên cứu với nhiều hƣớng khác nhau, đặc biệt là hƣớng tiếp cận mức thực thể dựa trên trí tuệ nhân tạo nhƣ sử dụng script (Lehnert 1981), (DeJong 1982), các luật sản xuất và logic (Fum 1985), mạng ngữ nghĩa (Reimer và Hahn 1988), cũng nhƣ các hƣớng tiếp cận kết hợp (Rau 1989) hay (Aretoulaki 1994). Willam B. Cavnar (1994): biểu diễn văn bản dựa trên n-gram thay cho cách biểu diễn truyền thống bằng từ khoá. Chinatsu Anoe (1997) đã phát triển hệ DimSum để tóm tắt văn bản sử dụng xử lý ngôn ngữ tự nhiên và kĩ thuật thống kê dựa trên hệ thống tf-idf, sử dụng WordNet để xem xét ngữ nghĩa của từ và đề xuất một số kĩ thuật lƣợng giá. Jaine Carbonell (1998) đã tóm tắt văn bản bằng cách xếp hạng các câu trội (câu chứa các ý chính của văn bản) và rút ra các câu trội. Jade Goldstein (1999): phân loại tóm tắt dựa trên độ đo liên quan, phƣơng pháp sử dụng kết hợp giữa ngữ học, thống kê. Mỗi câu đƣợc đặc trƣng bằng các đặc tính ngữ học và độ đo thống kê. J.Larocca Neto (2000) đã tạo tóm tắt văn bản dựa trên các dãy từ trong câu đƣợc chọn theo hệ số tf, sau đó dùng kỹ thuật gom cụm (clustering) để tạo tóm tắt. Yoshio (2001) đã tạo tóm tắt văn bản tiếng Nhật. Có 2 phƣơng pháp là rút câu dựa trên từ khoá và rút câu dựa trên kiến trúc ngữ nghĩa trong đó có xây dựng độ đo mối liên kết giữa hai từ. Hiện nay, một số nghiên cứu về xử lý ngôn ngữ tự nhiên cũng bƣớc đầu đƣợc áp dụng trong tóm tắt văn bản. Mặt khác, các nghiên cứu về tóm tắt đa văn bản, đa ngôn ngữ và tóm tắt đa phƣơng tiện cũng bắt đầu phát triển. 1.1.3 Phân loại các phƣơng pháp tóm tắt văn bản Có nhiều tiêu chí để phân loại các phƣơng pháp tóm tắt văn bản, sau đây là một số cách phân loại tiêu biểu [15]: Căn cứ vào dạng tóm tắt, ta có thể chia thành: - Trích xuất (extract): bản tóm tắt hoàn toàn chứa các “dãy từ” đƣợc sao chép nguyên dạng từ văn bản nguồn. “Dãy từ” ở đây có thể là cụm từ, câu hoặc đoạn văn. Tuy nhiên, với dạng trích xuất thì văn bản tóm tắt thiếu cấu kết cần thiết, các câu 5 đƣợc trích ra có thể không phản ánh nội dung. Nói chung văn bản tóm tắt không đƣợc “trơn” do đƣợc “lắp ghép” từ các câu, đoạn văn đƣợc trích ra. - Tóm tắt (abstracts): văn bản tóm tắt nói chung là không chứa các “dãy từ” trong văn bản nguồn mà là đƣợc “viết lại” một cách tự động. Với dạng này, ngƣời ta cần nhiều kĩ thuật xử lý ngôn ngữ. Hiện tại, đây vẫn là vấn đề khó, chƣa thể giải quyết đƣợc một cách triệt để. Căn cứ vào mức độ xử lý, có thể chia thành 2 dạng: - Tiếp cận mức ngoài (surface-level): thông tin đƣợc miêu tả dƣới dạng khái niệm về các đặc trƣng nông (shallow feature). Các đặc trƣng nông bao gồm các thuật ngữ (term) quan trọng qua thống kê (dựa vào tần số của các thuật ngữ trong văn bản), các thuật ngữ quan trọng dựa vào vị trí, các thuật ngữ trong các cụm từ dấu hiệu hay các thuật ngữ trong câu truy vấn của ngƣời dùng. Kết quả là một bản tóm tắt dạng trích xuất (extract). - Tiếp cận mức sâu (deeper-level): ở mức này, bản tóm tắt có thể là dạng trích xuất hoặc dạng tóm tắt (abstract) và cần phải sử dụng đến sinh tổng hợp ngôn ngữ tự nhiên. Với dạng tiếp cận này, phải cần đến những phân tích về mặt ngữ nghĩa, chẳng hạn sử dụng hƣớng tiếp cận thực thể để xây dựng dạng biểu diễn của các thực thể văn bản (đơn vị văn bản) và mối quan hệ giữa các thực thể rồi từ đó tìm ra phần quan trọng. Mối quan hệ giữa các thực thể gồm quan hệ ngữ nghĩa nhƣ: đồng nghĩa, trái nghĩa, nghĩa hẹp, nghĩa rộng…, quan hệ cú pháp: dựa trên cây phân tích cú pháp và các mối quan hệ khác. Căn cứ vào mục đích của bản tóm tắt, có thể chia làm 3 dạng: - Trình bày sơ lƣợc (indicative): Đƣa ra những thông tin ngắn gọn về chủ đề chính của văn bản. Dạng tóm tắt này thƣờng đƣợc sử dụng trong các hệ thống tìm kiếm thông tin. Thông thƣờng, độ dài của văn bản tóm tắt loại này chỉ từ 5 đến 10% độ dài của toàn bộ văn bản. - Tóm tắt cung cấp tin tức (Informative): Cung cấp các chủ đề con của toàn bộ văn bản, kiểu tóm tắt này có độ dài từ 20-30% văn bản gốc. - Phê bình và đánh giá: Văn bản tóm tắt đƣa ra những quan điểm của ngƣời tóm tắt về chủ đề đƣợc đƣa ra. Tuy nhiên, kiểu tóm tắt này dƣờng nhƣ vƣợt quá tầm của các hệ thống tóm tắt tự động hiện nay. Việc phân loại tóm tắt dựa theo mục đích nhƣ trên không loại trừ lẫn nhau, có thể một bản tóm tắt vừa có chức năng cung cấp tin tức lại vừa là kiểu trình bày sơ lƣợc. Căn cứ vào người sử dụng, có thể chia thành các dạng: 6 - Tóm tắt chung: với kiểu tóm tắt này thì mọi chủ đề chính trong văn bản đều có tầm quan trọng nhƣ nhau, văn bản tóm tắt hƣớng đến một cộng đồng đông đảo ngƣời đọc. - Tóm tắt dựa trên câu truy vấn: kết quả trả về dựa trên câu truy vấn của ngƣời dùng. - Tóm tắt hƣớng đến ngƣời dùng hoặc chủ đề: văn bản tóm tắt đáp ứng nhu cầu của ngƣời dùng cụ thể hoặc chủ đề cụ thể nào đó. Căn cứ vào số lượng văn bản tóm tắt: Tóm tắt đơn văn bản: thực hiện tóm tắt trên một văn bản hoặc tóm tắt đa văn bản: thực hiện tóm tắt trên nhiều văn bản khác nhau. Căn cứ vào ngôn ngữ tóm tắt: Tóm tắt trên một ngôn ngữ hoặc tóm tắt trên nhiều ngôn ngữ khác nhau. 1.2 Mô hình tóm tắt văn bản Tổng hợp kết quả Biến đổi Phân tích Tài liệu Văn bản tóm tắt Hình 1 Kiến trúc của hệ thống tóm tắt văn bản tự động Đầu vào của hệ thống có thể là một hoặc nhiều tài liệu, văn bản hay các thông tin đa phƣơng tiện nhƣ ảnh, âm thanh, video. Hệ thống tóm tắt hiện nay thƣờng tập trung vào việc xử lý đầu là văn bản (có thể mở rộng cho các thông tin dạng khác). Điều quan trọng trong việc tóm tắt văn bản là mức độ nén, tức là tỉ lệ giữa độ dài của văn bản tóm tắt so với văn bản gốc (đôi khi cũng đƣợc tính bằng phần bù của tỉ số này). Thông thƣờng, tỉ lệ nén đƣợc tính dựa trên độ dài của văn bản, hoặc có thể tính bằng nội dung thông tin. Tỉ lệ nén dao động từ 1% đến 30%, nếu tỉ lệ nén giảm thì thông tin sẽ bị mất nhiều hơn. Văn bản tóm tắt có thể là văn bản liền mạch hoặc văn bản rời rạc. Quá trình tóm tắt có thể chia thành 3 pha: phân tích văn bản đầu vào, biến đổi, tổng hợp chỉnh sửa cho phù hợp với yêu cầu đầu ra. 7 1.2.1 Các phƣơng pháp áp dụng trong pha phân tích Trong pha này, văn bản nguồn đƣợc phân tích để xác định các đơn vị ngữ liệu và các đặc trƣng của chúng, kết quả của pha này là đầu vào cho pha biến đổi. Các phƣơng pháp áp dụng trong pha này bao gồm: a)Phương pháp thống kê Các phƣơng pháp thuộc loại này sử dụng các số liệu thống kê về độ quan trọng của các từ, cụm từ, câu hoặc đoạn văn. Các phƣơng pháp thống kê gồm: - Dựa vào vị trí: + Chủ đề, tiêu đề: tiêu đề hay chủ đề của các đoạn văn thƣờng chứa các từ và ngữ quan trọng. + Câu ở đầu hoặc cuối đoạn: xác suất câu đầu đoạn hay câu cuối đoạn chứa ý chính của cả đoạn là rất lớn, đặc biệt là câu đầu đoạn. Ngoài ra các đoạn đầu và cuối văn bản cũng quan trọng hơn các đoạn giữa. + Minh hoạ, chú thích: trong các câu chú thích, câu minh hoạ cho ảnh hay đồ thị thƣờng chứa các thông tin quan trọng. - Dựa vào cụm từ dấu hiệu: Các cụm từ dấu hiệu có đặc điểm thống kê rất tốt. Sau các cụm từ này thƣờng là các từ hay câu quan trọng. Có hai loại cụm từ dấu hiệu : thứ nhất là các cụm từ mang ý nhấn mạnh, sau cụm từ này đoạn văn quan trọng; chẳng hạn “nói chung là”, “đặc biệt là”, “tóm lại”, “cuối cùng thì”, “trong bài viết này tôi muốn chỉ ra”, “bài viết nói về”, “nội dung gồm”... Thứ hai là các cụm từ không quan trọng, sau cụm từ này là các thành phần không có nhiều giá trị trong việc tóm tắt, chẳng hạn: “hiếm khi mà”, “bài này không nói đến”, “không thể nào…” - Dựa vào thống kê tần suất từ: Độ quan trọng của từ phụ thuộc vào số lần xuất hiện của từ đó trong văn bản. Có thể dùng các kĩ thuật nhƣ tf-idf, tập thuật ngữ thƣờng xuyên (frequent item set) để xác định tần suất từ. b) Phương pháp cấu trúc Các phƣơng pháp này sử dụng các mối liên hệ cấu trúc - ngữ pháp - ngữ nghĩa để xác định các đơn vị ngữ liệu quan trọng. Tƣ tƣởng chính của các phƣơng pháp này là những đơn vị ngữ liệu nào có chứa các thành phần liên quan nhiều với các thành phần khác sẽ có mức độ quan trọng cao. Việc đánh giá các mối quan hệ sẽ dựa trên các mạng ngữ nghĩa hoặc các quan hệ cú pháp. - Phương pháp sử dụng quan hệ giữa câu, đoạn Phƣơng pháp này xác định mối quan hệ giữa các đoạn trong văn bản hay các câu trong đoạn với nhau thông qua việc tính toán mức độ liên quan giữa chúng. Các 8 độ Cosine, Jaccard… đƣợc chọn để xác định độ tƣơng đồng giữa các câu hay đoạn văn bản đó. Sau đó, ta chọn ra đoạn hay câu có độ liên quan lớn nhất. + Phƣơng pháp chuỗi từ vựng (lexical chains) Phƣơng pháp liên kết từ vựng sử dụng các từ điển quan hệ từ vựng để xây dựng các chuỗi từ liên kết với nhau về mặt ngữ nghĩa. Sau khi xây dựng đƣợc chuỗi các từ vựng này, ta đánh giá độ mạnh của chúng và chọn ra những câu phù hợp. Morris và Hirst (1991) là những ngƣời đƣa ra mô hình tính chuỗi từ vựng đầu tiên. Chuỗi từ vựng không những chỉ dùng trong tóm tắt văn bản mà còn đƣợc coi là lý thuyết tổng quát của vấn đề ngữ nghĩa trong xử lý ngôn ngữ tự nhiên + Phƣơng pháp liên kết tham chiếu (word coreferences) Phƣơng pháp này gọi là phƣơng pháp trích chọn trùng lặp (anaphora-based method). Theo phƣơng pháp này, các cụm trùng lặp đƣợc chọn ra, phân rã xem đâu là từ (cụm từ) tham chiếu và từ (cụm từ) đƣợc tham chiếu. Sau khi phân tách các cụm trùng lặp, chúng ta tạo chuỗi các từ (cụm từ) tham chiếu đến cùng một từ đƣợc tham chiếu. Chuỗi dài nhất sẽ đƣợc coi là trọng tâm của đoạn, các câu chứa các từ trong chuỗi này có một độ ƣu tiên nào đó thì sẽ đƣợc chọn. Kết thúc pha phân tích sẽ là việc tổng hợp các chỉ số đánh giá độ quan trọng của các đơn vị ngữ liệu và thực hiện việc chọn các đơn vị ngữ liệu nào có độ quan trọng lớn làm đầu vào cho pha sau. Có thể nhận thấy các phƣơng pháp thống kê dễ cài đặt hơn các phƣơng pháp cấu trúc. Việc cài đặt các phƣơng pháp thống kê đơn thuần chỉ là các công thức toán học, còn để cài đặt các phƣơng pháp cấu trúc thì lại cần thực hiện rất nhiều kĩ thuật về cấu trúc dữ liệu và thậm chí là các kĩ thuật trong lĩnh vực trí tuệ nhân tạo. 1.2.2 Các phƣơng pháp áp dụng trong pha biến đổi Pha biến đổi có nhiệm vụ biến đổi đơn vị ngữ liệu đƣợc trích xuất trong pha phân tích nhƣ cụm từ, câu, đoạn văn. Thông thƣờng pha biến đổi thực hiện rút gọn bản thân bên trong một câu, rồi có thể rút gọn đoạn mà không gây ảnh hƣởng đến độ chính xác. Các phƣơng pháp trong pha biến đổi gồm: [7]. a) Giản lược về cấu trúc câu Lƣợc bỏ các thành phần thừa, ít mang ý nghĩa trong câu, giúp cấu trúc câu đƣợc thu gọn lại. Công việc này thƣờng dựa trên phân tích cú pháp và phân tích ngữ nghĩa các thành phần trong câu. Áp dụng phân tích cú pháp chúng ta đƣợc các cấu trúc của câu, qua đó ta có thể thay thế thành phần bằng những thành phần tƣơng đƣơng, ghép thành phần có nghĩa tƣơng đƣơng theo một luật nào đó. Phƣơng pháp này có thể làm câu ngắn gọn hơn, tuy nhiên khó bảo toàn đƣợc văn phong. b) Giản lược về mặt ngữ nghĩa 9 Thay thế hoặc loại bỏ các từ, cụm từ có ý nghĩa cụ thể bằng những từ, cụm từ ý nghĩa lúc này sẽ tổng quát, điển hình là: - Trừu trƣợng hoá khái niệm: thay thế các khái niệm cụ thể bằng khái niệm chung. - Thay thế ngữ tƣơng đƣơng: thay thế các ngữ đóng vai trò nhƣ nhau trong câu bằng một ngữ chung. 1.2.3 Các phƣơng pháp trong pha tổng hợp kết quả a) Phương pháp hiển thị phân đoạn Các đơn vị ngữ liệu đƣợc trích xuất hay giản lƣợc từ các pha trƣớc đƣợc liên kết lại thành đoạn theo đúng thứ tự trong văn bản gốc, không thêm bớt từ nối và cũng không sắp xếp lại. Văn bản kết quả của phƣơng pháp này có độ dễ đọc và dễ hiểu kém, thậm chí lủng củng vì các đơn vị ngữ liệu có thể bị mập mờ tham chiếu, không có từ nối hoặc thừa từ. b) Phương pháp hiển thị liên kết Với phƣơng pháp này, ta sẽ đƣa thêm các thông tin bổ sung vào văn bản tóm tắt. Hai phƣơng pháp thƣờng đƣợc áp dụng trong sử dụng mẫu (template) ngữ liệu huấn luyện (corpus). 1.3 Các phƣơng pháp đánh giá Đánh giá một bản tóm tắt là một công việc khó bởi không tồn tại một bản tóm tắt lý tƣởng cho một (hoặc một tập) văn bản đƣa ra [11]. Hơn nữa, việc đánh giá nội dung tóm tắt cũng rất khó khăn. Trƣờng hợp kết quả là một câu trả lời cho một câu hỏi, ta có thể xác định đƣợc câu trả lời đó đúng hay sai, nhƣng trong các trƣờng hợp khác, thật khó trả lời liệu đầu ra là phải một kết quả đúng hay không? Thực tế luôn có khả năng một hệ thống sinh ra một bản tóm tắt tốt nhƣng lại sai khác với bản tóm tắt do ngƣời thực hiện. Bên cạnh đó, khi việc đánh giá đƣợc thực hiện bởi con ngƣời thì chi phí đánh giá sẽ rất cao. Mặt khác, tóm tắt văn bản còn liên quan đến tỉ lệ nén văn bản, do đó, việc đánh giá bản tóm tắt cần phải quan tâm đến vấn đề này, khi đó độ phức tạp và chi phí đánh giá sẽ tăng cao [18]. Có nhiều kiểu đánh giá khác nhau tuỳ thuộc vào kiểu tóm tắt của hệ thống. Có thể là đánh giá trong (intrinsic) – tập trung vào chất lƣợng bản tóm tắt và đánh giá ngoài (extrinsic) – tập trung vào nhiệm vụ (McKeown 1998). Các tiêu chí đánh giá: - Độ mạch lạc (Coherence): đánh giá mức độ rõ ràng của văn bản tóm tắt, tính súc tích, khả năng có thể đọc và hiểu đƣợc của bài viết… 10 - Độ hàm chứa thông tin (Informationess): tỉ lệ thông tin của văn bản gốc trong văn bản tóm tắt. - Độ liên quan (Relevance): xác định mức độ phù hợp của văn bản tóm tắt với chủ đề cho trƣớc (chủ đề có thể là một câu truy vấn). - Độ dễ đọc hiểu (Reading Comprehence): một ngƣời đƣợc giao việc đọc văn bản kết quả, sau đó trả lời các câu hỏi, hệ thống sẽ phải cho điểm và từ đó đƣa ra phần trăm những câu trả lời đúng. 1.3.1 Các phƣơng pháp đánh giá trong a) So sánh với văn bản tóm tắt khác Ý tƣởng cơ bản của phƣơng pháp này là đem văn bản do hệ thống tóm tắt so sánh với các bản tóm tắt khác (có thể do hệ thống tóm tắt khác thực hiện hoặc do con ngƣời thực hiện). Thông thƣờng là đem so sánh với văn bản tóm tắt do con ngƣời thực hiện. Việc so sánh giữa các bản tóm tắt này có thể do con ngƣời thực hiện hoặc có thể thực hiện tự động. Khi so sánh, có thể sử dụng một số độ đo sau [18]: - Độ chính xác (Precision) và độ bao phủ (Recall). Tuy nhiên, 2 độ đo này chƣa đủ để phân biệt các bản tóm tắt, các bản tóm tắt khác nội dung nhƣng vẫn có cùng độ đo. - Độ đo hạng câu (Sentence Rank): thay thế cho độ bao phủ, khi đó, một bản tóm tắt đƣợc đặc trƣng bởi hạng của các câu trong các bản tóm tắt thích hợp. Hạng của các câu trong bản tóm tắt do hệ thống thực hiện và trong các bản tóm tắt dùng để so sánh có thể tính bằng độ đo tƣơng quan. Độ do này áp dụng đối với hệ thống tóm tắt dạng trích xuất. - Độ đo dựa trên nội dung (Content-Based): dựa trên sự tƣơng tự về mặt từ vựng, và có thể áp dụng đối với cả 2 dạng tóm tắt. Tuy nhiên, độ đo này hữu dụng với các bản tóm tắt trích xuất, hoặc với các bản tóm tắt dạng abstract nhƣng có mức độ cắt-dán cao (tức là văn bản tóm tắt đƣợc tạo bởi nhiều từ, cụm từ, câu nguyên dạng trong văn bản nguồn). b) So sánh với văn bản nguồn Với phƣơng pháp này, ta đem so sánh văn bản tóm tắt với văn bản nguồn để xác định mức độ hàm chứa thông tin của văn bản tóm tắt [18]. Các độ đo dựa trên nội dung nhƣ trên có thể sử dụng để đánh giá. Paice và Jones (1993) đã đƣa ra phƣơng pháp sử dụng thống kê để xác định mỗi thuật ngữ có phải là thuật ngữ trung tâm hay không phải thuật ngữ trung tâm. Tiếp đó, phân loại vào các nhóm Chính xác (Correct), không chính xác (Incorrect) và thiếu (Missing). 11 Hệ thống tóm tắt TIPSTER SUMMAC đánh giá các bản tóm tắt dạng Q&A (Question and Answer – Hỏi và trả lời) (Mani, Firmin, House, Chrzanowski, Klein, Hirschman, Sundhem, Obrst (1998). Hệ thống này thay vì biểu diễn các khái niệm ở mức sâu thì chỉ xác định xem trong văn bản tóm tắt có hay không những khái niệm then chốt trong văn bản nguồn. Theo phƣơng pháp tóm tắt này thì ta đƣa vào một văn bản nguồn và một chủ đề, rồi thực hiện tóm tắt dựa trên chủ đề đó để trả lời cho câu hỏi. Khi đó, ta có thể xác định xem câu trả lời có Chính xác (chứa câu trả lời đúng), hoặc Đúng một phần (chứa một phần câu trả lời) hay Thiếu (không chứa câu trả lời). 1.3.2 Các phƣơng pháp đánh giá ngoài Ý tƣởng cơ bản của các phƣơng pháp đánh giá ngoài là đánh giá tác dụng của bản tóm tắt với các nhiệm vụ khác nhau [18]. - Đánh giá mức độ liên quan (relevance): ý tƣởng của phƣơng pháp này là đƣa ra một văn bản và một chủ đề, đánh giá xem mức độ liên quan của văn bản với chủ đề đó. - Đánh giá mức độ đọc hiểu: trƣớc tiên, một ngƣời đƣợc đọc các văn bản tóm tắt từ một hoặc nhiều văn bản, sau đó trả lời các câu hỏi kiểm tra. Hệ thống tự động tính điểm các câu trả lời và đánh giá tỉ lệ trả lời đúng. Nếu bản tóm tắt cho phép trả lời các câu hỏi giống nhƣ khi đọc toàn bộ văn bản nguồn thì bản tóm tắt đó có khả năng cung cấp thông tin cao. Hovey và Marcu (1998) thực hiện đo mức độ cung cấp thông tin dựa trên việc ngƣời ta có thể khôi phục lại các thông tin quan trọng trong văn bản khi đọc bản tóm tắt của văn bản đó. Bằng thực nghiệm, tác giả tiến hành dựng lại văn bản gốc dựa trên việc đọc văn bản tóm tắt kết hợp phỏng đoán.
- Xem thêm -