Tài liệu Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc

  • Số trang: 99 |
  • Loại file: PDF |
  • Lượt xem: 46 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 27125 tài liệu

Mô tả:

BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ******** BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI : XÂY DỰNG HỆ THỐNG RÚT TRÍCH CÁC NỘI DUNG CHÍNH CỦA VĂN BẢN KHOA HỌC DỰA TRÊN CẤU TRÚC TẠ NGUYỄN Biên Hòa, Tháng 6/2012 MỤC LỤC Trang Mở đầu....................................................................................................................... 1 1. Tóm lược đề tài ................................................................................................... 1 2. Mục tiêu đề tài..................................................................................................... 2 3. Nội dung thực hiện đề tài..................................................................................... 2 4. Phạm vi ứng dụng ............................................................................................... 3 Chương 1 : Tổng quan về tóm tắt văn bản tự động ................................................ 4 1.1. Giới thiệu ............................................................................................................. 4 1.2. Mô hình tóm tắt văn bản ....................................................................................... 5 1.3. Phân loại bài toán tóm tắt văn bản ........................................................................ 6 1.4. Các phương pháp tóm tắt văn bản......................................................................... 9 1.5. Tình hình nghiên cứu trong và ngoài nước ......................................................... 10 1.5.1. Ngoài nước ................................................................................................. 10 1.5.2. Trong nước .................................................................................................. 12 1.6. Một số hệ thống tóm tắt văn bản trên thế giới ..................................................... 13 Chương 2 : Cơ sở lý thuyết về xử lý và tóm tắt văn bản tiếng Việt ...................... 16 2.1. Một số đặc điểm của ngôn ngữ tiếng Việt ........................................................... 16 2.1.1. Văn bản, chủ đề văn bản và cấu trúc văn bản ............................................. 16 2.1.2. Tiêu đề của văn bản...................................................................................... 17 2.1.3. Đoạn văn ...................................................................................................... 18 2.1.4. Câu và cấu trúc câu tiếng Việt ..................................................................... 19 2.1.5. Từ ................................................................................................................ 23 2.2. Bài toán tách câu ................................................................................................ 24 2.2.1. Giới thiệu bài toán........................................................................................ 24 2.2.2. Dấu hiệu đặc trưng nhận dạng câu ................................................................ 25 2.3. Bài toán tách từ tiếng việt ................................................................................... 26 2.3.1. Giới thiệu bài toán........................................................................................ 26 2.3.2. Các phương pháp tách từ .............................................................................. 28 2.3.2.1. Phương pháp dựa trên otomat .............................................................. 28 2.3.2.2. Dùng mô hình n-gram và phương pháp xác suất thống kê ..................... 30 2.3.2.3. Sử dụng giải thuật di truyền và thống kê trên Internet ........................... 31 2.4. Các thách thức của quá trình rút trích văn bản khoa học ..................................... 32 2.4.1. Văn phong.................................................................................................... 32 2.4.2. Lỗi văn phạm ............................................................................................... 32 Chương 3 : Phương pháp rút trích ý chính trong văn bản tiếng Việt .................. 33 3.1. Các phương pháp rút trích .................................................................................. 33 3.1.1. Các phương pháp thống kê (Statistical Methods).......................................... 33 3.1.1.1. Phương pháp vị trí (Position-Based) ..................................................... 34 3.1.1.2. Phương pháp cụm từ gợi ý (Cue phrases-Based) ................................... 35 3.1.1.3. Phương pháp thống kê tần suất từ (Word frequency-Based) .................. 36 3.1.2 . Phương pháp mạng ngữ nghĩa ..................................................................... 36 3.1.2.1. Phương pháp quan hệ lẫn nhau ............................................................. 36 3.1.2.2. Phương pháp liên kết từ vựng ( Lexical Chains ) .................................. 36 3.1.2.3. Phương pháp Liên kết tham chiếu ( Word Coreferences ) ..................... 36 3.1.2.4. Phương pháp quan hệ câu ( Discourse-Based )...................................... 37 3.1.3. Kết luận về các phương pháp trong giai đoạn phân tích ................................ 37 3.1.4. Hướng tiếp cận của đề tài ............................................................................. 38 3.2. Mô hình rút trích ý chính của văn bản khoa học ................................................. 39 3.2.1. Mô hình tổng quát ........................................................................................ 39 3.2.1.1. Giai đoạn tiền xử lý văn bản ................................................................. 41 3.2.1.2. Giai đoạn tách và lọc câu ...................................................................... 41 3.2.1.3. Giai đoạn rút trích cơ sở........................................................................ 45 3.2.1.4. Giai đoạn phân lớp câu ......................................................................... 55 3.2.1.5. Tính độ quan trọng của câu ................................................................... 56 3.2.2. Đánh giá kết quả tóm tắt, rút trích ................................................................ 59 3.2.2.1. Phương pháp thủ công .......................................................................... 61 3.2.2.2. Các phương pháp đánh giá khác............................................................ 61 Chương 4 : Thử nghiệm và đánh giá kết quả ........................................................ 65 4.1. Kiến trúc và các chức năng chương trình ............................................................ 65 4.1.1. Tiền xử lý..................................................................................................... 65 4.1.2. Tách từ toàn văn bản .................................................................................... 65 4.1.3. Tách câu....................................................................................................... 66 4.1.4. Lọc câu ........................................................................................................ 66 4.1.5. Rút trích cơ sở .............................................................................................. 67 4.1.6. Phân lớp câu................................................................................................. 68 4.1.7. Đánh giá câu ................................................................................................ 68 4.1.8. Hiển thị kết quả xử lý ................................................................................... 69 4.2. Thực nghiệm chương trình ................................................................................. 69 4.2.1. Giao diện tiền xử lý, tách từ và huấn luyện văn bản ..................................... 70 4.2.2. Giao diện tách câu ........................................................................................ 71 4.2.3. Giao diện phân lớp câu................................................................................. 72 4.2.4. Giao diện hiển thị kết quả............................................................................. 73 4.2.5. Giao diện hiển thị thành phần quan trọng của bài báo khoa học.................... 73 4.3. Đánh giá kết quả................................................................................................. 74 4.3.1. Đánh giá kết quả xử lý tổng quát .................................................................. 74 4.3.2. Đánh giá kết quả thực nghiệm từ hai công thức sử dụng............................... 76 4.3.3. Đánh giá từ phía người đọc .......................................................................... 83 Kết Luận .................................................................................................................. 89 Tài liệu tham khảo .................................................................................................. 91 DANH MỤC HÌNH ẢNH Hình 1.1 : Mô hình hệ thống tóm tắt văn bản ........................................................................ 5 Hình 1.2: Mô hình một hệ thống rút trích văn bản ................................................................. 6 Hình 1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word .................................. 14 Hình 1.4 Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ ........................................... 15 Hình 2. 1 Xây dựng ôtômát âm tiết....................................................................................... 28 Hình 2. 2 Xây dựng ôtômát từ vựng ..................................................................................... 29 Hình 2. 3 Một tình huống nhập nhằng .................................................................................. 29 Hình 3. 1 Quy trình tổng quát rút trích ý chính văn bản khoa học ......................................... 40 Hình 4. 1 Mô hình tách từ tiếng Việt và huấn luyện ............................................................. 65 Hình 4. 2 Mô hình huấn luyện từ ghép ................................................................................ 66 Hình 4. 3 Mô hình tách câu .................................................................................................. 66 Hình 4. 4 Mô hình lọc câu.................................................................................................... 67 Hình 4. 5 Mô hình Rút trích cơ sở ........................................................................................ 67 Hình 4. 6 Mô hình phân lớp câu ........................................................................................... 68 Hình 4. 7 Mô hình đánh giá câu .......................................................................................... 69 Hình 4. 8 Giao diện tiền xử lý, tách từ và huấn luyện ........................................................... 70 Hình 4. 9 Giao diện tách câu ................................................................................................ 71 Hình 4. 10 Giao diện phân lớp và đánh giá câu .................................................................... 72 Hình 4. 11 Giao diện hiển thị kết quả ................................................................................... 73 Hình 4. 12 Giao diện hiển thị thành phần quan trọng của bài báo khoa học .......................... 73 Hình 4. 13 Kết quả rút trích theo quan niệm của Makoto và R.C. Balabantara ...................... 80 DANH MỤC BẢNG BIỂU Bảng 3.1 Các ký hiệu kết thúc câu ....................................................................................... 41 Bảng 3.2 Một số trường hợp ngoại lệ trong nhận dạng tách câu ........................................... 42 Bảng 3.3 Thống kê theo độ dài của từ trong từ điển http://dict.vietfun.com .......................... 44 Bảng 3.4 Các thành phần trong bài báo khoa học ................................................................ 46 Bảng 3.5 Khảo sát về sự xuất hiện các thành phần bài báo khoa học .................................... 50 Bảng 3.6 Ví dụ về độ hồi tưởng ........................................................................................... 62 Bảng 4. 1 Lọc kết quả theo tỷ lệ 4.21% ................................................................................ 74 Bảng 4. 2 Lọc kết quả theo tỷ lệ 7% ..................................................................................... 75 Bảng 4. 3 Kết quả 10 câu điểm cao nhất của ISS .................................................................. 77 Bảng 4. 4 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm thông thường ............... 78 Bảng 4. 5 Kết quả khác nhau của ISS ................................................................................... 79 Bảng 4. 6 Kết quả khác nhau của Tf*Idf theo quan niệm thông thường ................................ 79 Bảng 4. 7 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C. Balabantara .......................................................................................................................... 81 Bảng 4. 8 Kết quả khác nhau của ISS so với Tf*Idf theo quan niệm Makoto và R.C. Balabantara .......................................................................................................................... 82 Bảng 4. 9 Kết quả khác nhau của Tf*Idf theo quan niệm Makoto và R.C. Balabantara ......... 82 Bảng 4. 10 Kết quả tiếp theo của Tf*Idf theo quan niệm Makoto và R.C. Balabantara ......... 83 Bảng 4. 11 Chi tiết kết quả rút trích...................................................................................... 84 Bảng 4. 12 Kết quả và tỷ lệ rút trích giữa người và EMIS .................................................... 87 1 Mở đầu 1. Tóm lược đề tài Hiện nay, với sự phát triển không ngừng của công nghệ, máy tính nói chung hay Word Wide Web (www) nói riêng là một môi trường phổ biến dùng để lưu trữ các thông tin. Với hàng tỷ trang web đang tồn tại, đi kèm với nó là một khối lượng thông tin vô cùng to lớn. Lượng thông tin khổng lồ đó đem lại lợi ích không nhỏ dành cho con người. Chính vì sự khổng lồ của thông tin đó dẫn đến việc tìm kiếm và tổng hợp thông tin không thuận lợi, gây nhiều khó khăn để có được một kết quả tìm kiếm đúng mục đích và ít tốn kém thời gian. Người ta mất quá nhiều thời gian để có thể đọc hết một tài liệu điện tử vài chục trang thậm chí nhiều hơn chỉ để cuối cùng rút ra kết luận là nội dung tài liệu đó không đúng mục đích tìm kiếm của mình. Rút trích các ý chính trong văn bản một cách tự động là một bài toán được đặt ra trước nhu cầu thực tế đó, việc tự động rút trích ý chính các tài liệu sẽ giúp người dùng tiết kiệm thời gian trong việc sàng lọc và tổng hợp tri thức , nâng cao chất lượng và tăng hiệu quả đánh chỉ mục cho máy tìm kiếm. Đồng thời cũng là cơ sở cho các bài toán tóm tắt văn bản, truy hồi thông tin,… Các dạng rút trích văn bản thường do con người xử lý, nghĩa là do những người có hiểu biết tốt về chuyên ngành đọc rồi rút ra các tri thức, nhưng cũng không khỏi mang ý niệm chủ quan của người xử lý văn bản, trong khi đặc điểm của văn bản khoa học là trong mỗi văn bản, tác giả – nhà khoa học – luôn mong muốn trình bày, thậm chí là khẳng định một ý tưởng khoa học, cần được trình bày lại dù là dưới dạng tóm tắt một cách hết sức khách quan[27]. Khác với việc chúng ta đọc rồi tự rút ra cho mình những ý chính trong toàn bộ văn bản như lâu nay mọi người thường làm, ở đây đề tài muốn đề cập đến một quy trình cho phép máy tính có thể tự động rút trích ý chính từ văn bản tương đối chính xác nhất mà cụ thể là các văn bản khoa học trong ngành công nghệ thông tin như bài báo khoa học và toàn văn báo cáo. Nhận thấy đây là một đề tài mang tính khoa học cao, là nền tảng của nhiều ứng 2 dụng thực tế và quan trọng là từ phương pháp nghiên cứu đề tài này có thể mở rộng để nghiên cứu việc rút trích ý chính của nhiều loại văn bản khác nhau thuộc các lĩnh vực khác nhau. Nên tác giả quyết định chọn đề tài Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc để làm đề tài nghiên cứu. Đề tài tập trung vào việc nghiên cứu, khảo sát, đánh giá và đề xuất ra một phương pháp rút trích ý chính của văn bản khoa học phù hợp với ngôn ngữ tiếng Việt, bên cạnh đó áp dụng phương pháp này vào việc xây dựng một hệ thống rút trích văn bản khoa học với kết quả đầu ra tốt nhất. 2. Mục tiêu đề tài Đề xuất một quy trình rút trích các câu có nội dung mang thông tin quan trọng trong văn bản khoa học dựa trên phương pháp thống kê và cấu trúc tài liệu một cách chặt chẽ, đưa ra thuật toán phù hợp từ đó xây dựng ứng dụng phát triển hệ thống rút trích văn bản khoa học trong lĩnh vực công nghệ thông tin. 3. Nội dung thực hiện đề tài - Nghiên cứu hệ thống từ vựng, câu trong tiếng Việt. - Thu thập số lượng lớn các bài báo khoa học, các tin tức và toàn văn báo cáo trong lĩnh vực công nghệ phần mềm ngành công nghệ thông tin. Khảo sát cách viết và cấu trúc các loại tài liệu đó. - Tìm hiểu các công cụ xử lý văn bản của nước ngoài. - Tìm hiểu cách thức tương tác với văn bản. - Tìm hiểu các vấn đề với văn bản tiếng Việt và cách giải quyết. - Xây dựng quy trình rút trích ý chính trong văn bản khoa học : § Xác định, phân loại đối tượng văn bản : bài báo khoa học, toàn văn … § Tiền xử lý, chuẩn hóa văn bản § Xác định thông tin văn bản : tên tác giả, năm phát hành, tên văn bản, số trang, số từ ... § Xác định cấu trúc của toàn bộ văn bản : chương, phần, đoạn,… § Xác định các chuỗi từ vựng quan trọng, từ khóa, chủ đề của văn bản. § Xác định những câu chứa các từ có trong tên đề tài. Xác định câu nào hay đoạn nào có cùng lúc các từ thuộc chủ đề xuất hiện nhiều nhất. 3 § Xác định các vị trí quan trọng trong văn bản thường chứa ý chính. § Xây dựng bộ từ điển các cụm từ đặc trưng xác định ý chính (Các cụm từ mà theo sau nó hay đứng trước nó là ý chính) . § Chọn lựa câu chứa ý chính làm kết quả đầu ra tốt nhất. - Xác định các ý chính của các tài liệu thu thập được theo chủ quan bản thân. Khảo sát cách xác định ý chính của những người có kinh nghiệm trong việc viết các tài liệu, các văn bản khoa học, từ đó đưa ra đánh giá, nhận xét về các ý chính trong văn bản khoa học. - Nghiên cứu các thuật toán rút trích văn bản từ đó đưa ra giải pháp phù hợp. - Xây dựng hệ thống rút trích ý chính văn bản khoa học tự động. - Thử nghiệm hệ thống trên dữ liệu thực tế để đánh giá tính hiệu quả cũng như độ chính xác của quy trình đề xuất. 4. Phạm vi ứng dụng Chương trình được xây dựng có thể áp dụng xử lý tất cả các văn bản khoa học tiếng Việt như bài báo khoa học và toàn văn báo cáo thuộc lĩnh vực Công nghệ thông tin. 4 Chương 1 : Tổng quan về tóm tắt văn bản tự động 1.1. Giới thiệu Tóm tắt văn bản tự động là một trong những nội dung quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Qua việc tóm tắt, các ý chính trong tài liệu được sàng lọc và trình bày một cách cô đọng góp phần tạo ra một văn bản ngắn gọn xúc tích nhưng vẫn mang đầy đủ thông tin mà tài liệu muốn đề cập, vì thế nó có giá trị thực tiễn to lớn và được ứng dụng hiệu quả trong các hệ thống tìm kiếm, trích lọc thông tin. Theo Inderjeet Mani tác giả của đề tài Advances in AutomaticText Summarization, mục đích của tóm tắt văn bản tự động là: “Tóm tắt văn bản tự động nhằm mục đích trích xuất nội dung từ một nguồn thông tin và trình bày các nội dung quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích và gây cảm xúc đối với người sử dụng hoặc một chương trình cần đến”[12]. Và để thực hiện được công việc tóm tắt đòi hỏi người đọc phải rút ra được những ý chính của văn bản, chính vì thế có thể nói đây là quá trình quan trọng nhất trong công đoạn tóm tắt. Bài toán tóm tắt văn bản là một trong những bài toán mang lại ứng dụng to lớn nhất trong lĩnh vực khai phá văn bản. Một số biến thể của bài toán này như sinh mục lục tự động, sinh ý chính tài liệu, sinh tiêu đề văn bản... Những thuật toán dùng trong tóm tắt văn bản cũng được áp dụng trong các bài toán tương tự như tóm tắt hình ảnh, âm thanh hay nói chung là những dữ liệu đa phương tiện. Điểm cốt lõi của một hệ thống tóm tắt văn bản là tìm ra những thành phần quan trọng trong văn bản cần tóm tắt. Các thành phần này được gọi là các đơn vị văn bản. Đơn vị văn bản ở đây có thể hiểu là đơn vị nhỏ nhất mà ta chọn để trích rút như mệnh đề hoặc câu. Các đơn vị văn bản quan trọng sẽ có xác suất lớn để chứa ý chính hay nội dung quan trọng của cả đoạn văn hay văn bản. Sau khi chọn được các đơn vị văn bản quan trọng, hệ thống có thể trích rút và biến đổi chúng và sau cùng hiển thị ra màn hình, thống kê kết quả hay sinh ra các dữ liệu mới cho các hệ thống khác. 5 1.2. Mô hình tóm tắt văn bản Một hệ thống tóm tắt văn bản thông thường bao gồm những giai đoạn sau (Hình 1.1) : Đầu vào : Văn bản Đầu ra : Bản tóm tắt Phân tích Rút trích Biến đổi Trình bày Hình 1.1 : Mô hình hệ thống tóm tắt văn bản • Phân tích ( Analysis ) Phân tích văn bản đầu vào để đưa ra những thông tin dùng để tìm kiếm, đánh giá các thành phần quan trọng cũng như các tham số đầu vào cho việc tóm tắt. • Rút trích (Extraction) Rút trích các phần thông tin quan trọng theo mục đích của hệ thống. • Biến đổi ( Transformation ) Từ các thông tin rút được, biến đổi để giản lược và thống nhất, kết quả là các thành phần dùng để tóm tắt. • Trình bày ( Presentation ) Từ các thành phần dùng để tóm tắt, liên kết chúng lại thành đoạn theo một thứ tự nào đó hoặc theo cấu trúc văn bản rồi hiển thị phù hợp với yêu cầu người dùng. 6 Một hệ thống tóm tắt thông thường bao gồm đầy đủ các giai đoạn trên, nhưng một hệ thống trích rút văn bản chỉ gồm giai đoạn phân tích, rút trích và trình bày (Hình 1.2), không có giai đoạn biến đổi nhằm bảo toàn ngữ nghĩa cho từng câu trong văn bản. Đầu vào : Văn bản Đầu ra : Các thành phần trích chọn Phân tích Rút trích Trình bày Hình 1.2: Mô hình một hệ thống rút trích văn bản Chúng ta có thể thấy rằng một hệ thống rút trích thì thường thực hiện ít bước hơn, tập trung vào giai đoạn phân tích là chính. Các phương pháp thường dùng trong hệ thống rút trích văn bản thường là các phương pháp thống kê, học trên ngữ liệu. Tuy thực hiện ít giai đoạn hơn nhưng các giai đoạn trong hệ này mang tính quan trọng cao vì nó ảnh hưởng đến kết quả tóm tắt văn bản. Chính vì thế để có thể mang lại một diễn giải tóm tắt tốt thì yêu cầu mặc nhiên là phải tạo ra hệ thống rút trích tốt. 1.3. Phân loại bài toán tóm tắt văn bản Bài toán tóm tắt văn bản được chia thành nhiều loại, mỗi loại được sử dụng cho các mục đích khác nhau, các yêu cầu khác nhau. Mỗi bài toán cũng phải áp dụng các phương pháp và kỹ thuật riêng. Không có một thuật toán hay quy trình nào có thể đáp ứng yêu cầu của tất cả các bài toán đó. Vì vậy để mang lại sự chính xác trong tóm tắt hay rút trích yêu cầu phải nghiên cứu thật kỹ cấu trúc văn bản, dữ liệu, mục đích bài toán. 7 • Tóm tắt đơn văn bản và Tóm tắt đa văn bản Khi xét dữ liệu đầu vào một hệ thống tóm tắt văn bản, ta có thể chia thành hai dạng là tóm tắt đơn văn bản (Single-Document) hoặc tóm tắt đa văn bản (MultiDocument). - Tóm tắt đơn văn bản là từ một văn bản nguồn cho ra bản ngắn gọn của văn bản đó. - Tóm tắt đa văn bản là từ nhiều văn bản nguồn cũng cho ra một đoạn tóm tắt. Tóm tắt đa văn bản thì có độ phức tạp hơn, vì ngoài những công việc của tóm tắt đơn văn bản, tóm tắt đa văn bản còn phải thực hiện các công việc như phân tích, thống nhất dạng trình bày, …. Ngoài ra, tóm tắt đa văn bản còn phải đối mặt với các vấn đề như dư thừa trùng lặp dữ liệu giữa các văn bản nguồn, nội dung các văn bản nguồn phân tán, độ rút gọn yêu cầu cao, thời gian xử lý cần phải nhanh trong khi sự phức tạp trong xử lý lớn. Chính vì thế việc xét độ tương đồng ngữ nghĩa giữa các thành phần sau khi rút trích là một vấn đề quan trọng mà tóm tắt đa văn bản cần quan tâm. • Rút trích và tóm tắt Khi xét đến kết quả đầu ra một hệ thống tóm tắt văn bản, chúng ta có thể chia thành hai dạng tóm tắt là trích rút (Extraction) và tóm tắt (Abstraction). Việc phân biệt hai dạng tóm tắt này là rất cơ bản và quan trọng. - Trích rút là quá trình thu gọn văn bản mà trong đó kết quả ra chứa các đơn vị ngữ liệu nguyên gốc có thông tin quan trọng của văn bản nguồn. - Tóm tắt là quá trình thu gọn văn bản mà trong đó kết quả ra có một số các đơn vị ngữ liệu mới được sinh ra từ các đơn vị ngữ liệu văn bản nguồn. Nhằm tạo ra sự trôi chảy và mạch lạc trong kết quả tóm tắt nhưng vẫn giữ nguyên ý chính của văn bản. • Tóm tắt chỉ định, tóm tắt thông tin và tóm tắt đánh giá Khi xét đến chức năng của ứng dụng tóm tắt chúng ta có thể chia thành ba loại ứng dụng tóm tắt sau : - Tóm tắt chỉ định ( Indicative ) : Là kiểu tóm tắt giúp người đọc quyết định xem có nên đọc tiếp nữa không. Ví dụ như loại ứng dụng sinh tiêu đề, tóm 8 lược kết quả tìm kiếm, tóm lược tin tức… - Tóm tắt thông tin ( Informative ) : Là kiểu tóm tắt tóm lược tất cả các nội dung quan trọng nhất của văn bản gốc, văn bản tạo ra có thể thay thế được cho văn bản gốc. Ví dụ như tóm tắt một truyện dài thành đoạn văn một hai trang - Tóm tắt đánh giá ( Evaluative ) : Là kiểu tóm tắt mà trong kết quả ra có cả đánh giá của người tóm tắt. Ví dụ như lời tựa một quyển sách hay bản thảo một bài báo. Kiểu tóm tắt này không gặp trong một hệ tóm tắt văn bản tự động. • Tóm tắt chung và tóm tắt hướng truy vấn Nếu xét về mục đích, chúng ta có thể chia thành hai loại là tóm tắt chung và tóm tắt hướng truy vấn. - Tóm tắt chung ( Generic ) : Tóm tắt theo quan điểm ban đầu của tác giả văn bản gốc (khách quan). - Tóm tắt hướng truy vấn ( Query-Oriented ) : Tóm tắt theo quan điểm mong muốn của người dùng ứng dụng thông qua các tham số truyền vào câu truy vấn. Tóm tắt hướng truy vấn được cài đặt và áp dụng nhiều hơn nhưng trong lĩnh vực hẹp hơn, đi sâu vào các chuyên ngành cụ thể. • Tóm tắt cơ bản và Tóm tắt chuyên môn Nếu xét theo trình độ người dùng thì chúng ta có thể chia thành hai dạng là tóm tắt cơ bản và tóm tắt chuyên môn. • Tóm tắt cơ bản : dành cho người thông thường. Ví dụ : Các ứng dụng tóm tắt thông thường, chung chung như tóm tắt trang tin, tóm tắt tiểu thuyết văn học… • Tóm tắt chuyên môn : dành cho người đã có nền tảng, chuyên môn. Những bản tóm tắt ra chứa đựng những thuật ngữ, khái niệm, công việc chuyên môn. Ví dụ : ứng dụng hỗ trợ thông minh giúp bác sĩ tóm lược và so sánh các phương pháp điều trị, ứng dụng tóm tắt các bài báo về toán học… 9 • Tóm tắt đơn ngôn ngữ, tóm tắt đa ngôn ngữ và tóm tắt đan xen ngôn ngữ Dựa vào số lượng các ngôn ngữ trong văn bản nguồn và văn bản kết quả, có ba loại ứng dụng tóm tắt : - Tóm tắt đơn ngôn ngữ : Văn bản nguồn chỉ có một loại ngôn ngữ. Kết quả ra là văn bản ngôn ngữ đó. - Tóm tắt đa ngôn ngữ : Mỗi văn bản nguồn chỉ có một loại ngôn ngữ. Nhưng ứng dụng có khả năng tóm tắt trên nhiều loại ngôn ngữ. Tùy vào văn bản nguồn hoặc tham số đưa vào mà hệ thống tóm tắt trên một ngôn ngữ được chọn. - Tóm tắt đan xen ngôn ngữ : Trong văn bản nguồn chứa hai hay nhiều ngôn ngữ khác nhau, hệ thống có thể tùy vào từng đơn vị ngữ liệu mà nhận dạng và tóm tắt cho phù hợp. Đây là loại tóm tắt phức tạp nhất trong ba loại phân chia theo số lượng ngôn ngữ 1.4. Các phương pháp tóm tắt văn bản Việc tóm tắt bằng máy là một vấn đề hết sức khó khăn bởi nó yêu cầu phải hiểu cả nội dung của văn bản và những thông tin liên quan đến vấn đề ngữ nghĩa, tu từ học, quan hệ giữa các câu trong một đoạn văn cho trước. Cho đến thời điểm này đã có rất nhiều các công trình nghiên cứu về việc trích rút văn bản, chủ yếu là xử lý ngôn ngữ tiếng Anh và đa số các công trình nghiên cứu sử dụng phương pháp học có giám sát. Ở Việt Nam hay đối với ngôn ngữ tiếng Việt thì việc tóm tắt văn bản để đảm bảo độ chính xác như mong muốn thì vẫn phải làm bằng tay. Tuy nhiên, ngày nay với khối lượng thông tin quá lớn việc xử lý nhiều văn bản một cách thủ công là một trở ngại vô cùng khó khăn. Cùng với sự phong phú của tiếng Việt và với sự đa dạng trong cách viết hay nói cách khác là cấu trúc đa dạng của văn bản càng làm cho độ phức tạp của bài toán gia tăng. Các phương pháp tóm tắt văn bản khác nhau chủ yếu ở cách đánh giá và xác định các đơn vị văn bản (ĐVVB) quan trọng. Phần lớn các phương pháp tóm tắt văn bản cổ điển đều dựa trên kết quả thống kê như : - Phương pháp dựa trên tần suất xuất hiện từ (TFxIDF) 10 - Phương pháp sử dụng tiêu đề (title-based) - Phương pháp dựa trên vị trí (position) của câu trong đoạn, của đoạn trong văn bản,... - … Các phương pháp như vậy đều được đưa ra dựa trên ý tưởng: các ĐVVB quan trọng nói nhiều tới nội dung chính của văn bản, do đó trong các ĐVVB này phải xuất hiện nhiều từ ngữ liên quan tới nội dung của văn bản. Tùy theo từng phương pháp, các từ ngữ quan trọng là các từ ngữ xuất hiện nhiều lần trong văn bản, các từ ngữ xuất hiện trong tiêu đề của văn bản, hoặc các từ ngữ xuất hiện ở câu đầu, câu cuối của văn bản,…Trong các nghiên cứu gần đây về tóm tắt văn bản, người ta thường sử dụng t h ê m các phương pháp dựa trên ngữ nghĩa để nâng cao độ chính xác. Song, trong phạm vi tóm tắt văn bản tiếng Việt, đến nay đa phần các nghiên cứu đều sử dụng hoặc cải tiến các phương pháp dựa trên thống kê. [22] Để tự động hóa quá trình tóm tắt một văn bản tiếng Việt thông thường trải qua hai giai đoạn. Trước tiên, các yếu tố chính của văn bản như tiêu đề, các phân đoạn chính, các câu quan trọng sẽ được trích rút ra từ văn bản gốc bằng các phương pháp ngữ học hoặc thống kê, sau đó các phần rút ra sẽ được xét độ tương đồng, sắp xếp, thêm các từ, ngữ chuyển câu, chuyển đoạn để tạo ra một bản tóm tắt cô động và đầy đủ ý. Với đề tài này đề tài tiếp cận với việc tóm tắt văn bản tự động theo dạng tóm tắt trích lọc sử dụng phương pháp thống kê tính toán độ quan trọng của các đơn vị văn bản đồng thời kết hợp khảo sát cấu trúc tài liệu để trích rút trực tiếp các phần quan trọng trong văn bản gốc làm tiền đề hỗ trợ việc tóm tắt văn bản tự động với đối tượng tập trung vào các văn bản khoa học trong lĩnh vực công nghệ thông tin, ngành công nghệ phần mềm. 1.5. Tình hình nghiên cứu trong và ngoài nước 1.5.1. Ngoài nước Vấn đề rút trích tự động các ý chính trong văn bản cũng nhận được nhiều sự quan tâm của các nhà công nghệ thông tin trên thế giới. Có thể thấy rõ nhất là qua công cụ AutoSummarize trong phần mềm Microsoft Word của tập đoàn Microsoft. Có thể nói sơ qua cơ chế làm việc của công cụ này là nó sẽ tính điểm cho các câu chứa từ được lặp lại nhiều lần. Những câu được nhiều điểm nhất sẽ được gợi ý đưa ra cho 11 người dùng. Tuy nhiên đối với các văn bản tiếng Việt thì công cụ này cho kết quả không có tính chính xác cao. Ngoài ra cũng có các bài báo đề cập đến các công trình nghiên cứu liên quan đến vấn đề xử lý ngôn ngữ tự nhiên trong việc rút trích tự động ý chính trong văn bản như : - Đề tài Extracting Sentence Segments for Text Summarization : A Machine Learning Approach - tạm dịch là rút trích các phân đoạn câu phục vụ cho việc tóm tắt văn bản : một phương pháp tiếp cận học máy - của Wesley T.Chuang làm việc tại Computer Science Department, UCLA, Los Angeles, CA 90095, USA và Jihoon Yang làm việc tại HRL Laboratories, LLC, 3011 Malibu Canyon Road, CA 90265, USA. [28] - Đề tài Automatic Evaluation of Summaries Using N-gram Co-Occurrence Statistics - tạm dịch là Đánh giá tự động phần tóm tắt sử dụng N-gram kết hợp với thống kê tần suất - của tác giả Chin-Yew Lin and Eduard Hovy vào năm 2003.[2] - Đề tài A Frequent Term and Semantic Similarity based Single Document Text Summarization Algorithm - tạm dịch là tóm tắt đơn văn bản dựa trên tần suất và sự tương đồng ngữ nghĩa - của Naresh Kumar Nagwani and Shrish Verma vào năm 2011.[17] - Đề tài Challeging issues of automatic summarization: Relevance Detection and quality-based evaluation - tạm dịch là Các thách thức trong việc tóm tắt tự động : Mức độ phát hiện phù hợp và việc đánh giá dựa trên chất lượng - của Elena Lloret và Manuel Palomar vào năm 2010.[8] - Đề tài Citation Summarization Through Keyphrase Extraction - tạm dịch là Trích dẫn tóm tắt thông qua việc rút trích cụm từ - của Vahed Qazvinian,Dragomir R. Radev,Arzucan ¨Ozg¨ur được đăng trong Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010), trang 895–903, tháng 8/2010 12 - Đề tài A Survey of Text Summarization Extractive Techniques, tạm dịch là Một khảo sát về kỹ thuật rút trích tóm tắt văn bản, của tác giả Vishal Gupta và Gurpreet Singh Lehal vào năm 2010.[26] - Đề tài Corpus based Automatic Text Summarization System with HMM Tagger, tạm dịch là Kho ngữ liệu dựa trên hệ thống tóm tắt văn bản tự động với việc gán nhãn dùng mô hình Markov ẩn, của tác giả M.Suneetha, S. Sameen Fatima vào năm 2011.[14] Các đề tài trên đều có ưu điểm nhất định nhưng hầu hết các đề tài đều tập trung xử lý ngôn ngữ tiếng nước ngoài, đa số là các văn bản tiếng Anh. Để áp dụng cho các tài liệu tiếng Việt thì không có được độ chính xác mong muốn do đặc điểm ngôn ngữ tiếng Việt phức tạp và có rất nhiều điểm khác biệt so với ngôn ngữ khác. 1.5.2. Trong nước Trong nước có thể kể đến công trình nghiên cứu của GS.TSKH Hoàng Kiếm và TS. Đỗ Phúc về đề tài Rút trích ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội dung dựa trên việc sử dụng cây hậu tố để phát hiện các dãy từ phổ biến trong các câu của văn bản, dùng từ điển để tìm các dãy từ có nghĩa để giải quyết vấn đề ngữ nghĩa của các từ..Cuối cùng dùng kỹ thuật gom cụm để gom các câu trong văn bản và hình thành các vector đặc trưng cụm.[5] Ngoài ra, trong nước hiện cũng có một đề tài nữa là Xây dựng hệ thống tự động rút trích nội dung chính trong các văn bản điện tử tiếng Việt của Đỗ Văn Long, Châu Thu Trân, Dương Quốc Thắng và Trần Minh Vũ [6] làm việc tại Phân viện công nghệ thông tin tại Thành phố Hồ Chí Minh thuộc Viện Khoa học và công nghệ Việt Nam. Đề tài là sự kết hợp giữa việc phân loại văn bản theo cấu trúc của nhà ngôn ngữ với kỹ thuật xử lý ngôn ngữ tự nhiên của tin học. Ý tưởng chính của hệ thống là rút trích nội dung chính của văn bản từ việc xác định những đặc trưng và cấu trúc văn bản thông dụng. Phương pháp này tạo ra một bản tóm tắt cô động, đủ ý thông qua việc thu thập và tập hợp các câu, cụm từ mang nội dung chính trong văn bản. Bên cạnh đó bài báo Thử đề xuất quy trình tự động tóm tắt văn bản khoa học, của PGS.TS Vương Toàn (2007) [27] cũng là một trong các đề tài liên quan trong lĩnh vực này. Tác giả đã thử đề xuất quy trình làm việc để máy tính có thể tiến hành 13 tự động tóm tắt văn bản khoa học (tỉ lệ 1/10). Công việc đã được thử nghiệm ở một số ví dụ kiểu như trên cho thấy kết quả là đáng khích lệ. Tuy nhiên, trong một số trường hợp tương tự, do những câu được cắt tự động rất có thể trở thành câu cụt hoặc thừa từ nên gây mất mát thông tin. Các đề tài trên đều có những ưu điểm nhất định của nó, tuy nhiên phạm vi xử lý văn bản của nó quá rộng, hầu như không xác định cụ thể cho một loại văn bản nào. Nếu đầu vào là một truyện ngắn, một quyển tiểu thuyết hay một bài báo khoa học thuộc những lĩnh vực khác nhau thì kết quả đầu ra có độ chính xác như thế nào ? Đó chính là vấn đề mà đề tài này sẽ tập trung tìm hiểu vào một loại hình tài liệu, đó là văn bản khoa học trong ngành công nghệ thông tin nhằm đem lại kết quả có độ chính xác tốt nhất với yêu cầu của người dùng. 1.6. Một số hệ thống tóm tắt văn bản trên thế giới Hiện tại, trên thế giới đã có rất nhiều nghiên cứu và dự án xây dựng các ứng dụng tóm tắt văn bản. Các ứng dụng này có thể đáp ứng rất nhiều các mục đích khác nhau. Có thể kể ra một số ứng dụng tóm tắt văn bản tiêu biểu như sau : • SumUM [11] Hệ thống Tóm lược văn bản kỹ thuật của nhóm nghiên cứu xử lý ngôn ngữ tự nhiên trường Đại học Montréal, Canada. SumUM có thể thực hiện cả chức năng tóm tắt chỉ định và tóm tắt thông tin rất tốt. • Microsoft Word AutoSummaryTool Microsoft cũng cài đặt chức năng Trích rút và sinh tiêu đề trong Microsoft Word từ phiên bản Word '97. Chúng ta có thể thử bằng cách chọn Tools AutoSummarize trên thanh công cụ (có thể khác tùy vào phiên bản). Công cụ này cho phép chúng ta chọn thông số về độ rút gọn, trích rút hay sinh tiêu đề... 14 Hình 1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word • SUMMARIST [9] Một hệ thống Trích rút văn bản năm thứ tiếng (tiếng Anh, tiếng Nhật, tiếng Tây Ban Nha, tiếng Ả-rập và tiếng Hàn Quốc). Hiện tại SUMMARIST đang nghiên cứu để cải tiến trở thành một hệ thống Tóm lược văn bản và hỗ trợ nhiều ngôn ngữ hơn như tiếng Pháp và Indonesia. • MEAD [7] Nền tảng cho các hệ thống Tóm tắt nhiều văn bản và đa ngôn ngữ. Đây là một bộ công cụ xây dựng trên nền Linux và Solaris, sử dụng ngôn ngữ Perl - Một ngôn ngữ có khả năng xử lý văn bản rất linh hoạt và mạnh mẽ. MEAD biểu diễn, lưu trữ dữ liệu ở dạng XML, cung tấp cho chúng ta khung ứng dụng để cài đặt các ứng dụng Tóm tắt văn bản cho ngôn ngữ mà ta muốn. Ngoài ra MEAD cũng cung cấp các công cụ để xây dựng các ứng dụng đánh giá hệ thống tóm tắt theo các tiêu chí và các tập mẫu nổi tiếng. MEAD được xây dựng bởi các chuyên gia nổi tiếng về Xử lý ngôn ngữ ở khắp nơi trên thế giới dưới sự tài trợ của Chương trình Nghiên cứu Công nghệ thông tin của Tổ chức Khoa học quốc gia Mỹ. MEAD được cung cấp ở dạng mã nguồn mở để nghiên cứu và kế thừa. Hiện tại phiên bản mới nhất của MEAD là MEAD v3.07..
- Xem thêm -