BỘ GIÁO DỤC ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
********
BÁO CÁO
NGHIÊN CỨU KHOA HỌC
ĐỀ TÀI :
XÂY DỰNG HỆ THỐNG RÚT TRÍCH
CÁC NỘI DUNG CHÍNH CỦA VĂN BẢN
KHOA HỌC DỰA TRÊN CẤU TRÚC
TẠ NGUYỄN
Biên Hòa, Tháng 6/2012
MỤC LỤC
Trang
Mở đầu....................................................................................................................... 1
1.
Tóm lược đề tài ................................................................................................... 1
2.
Mục tiêu đề tài..................................................................................................... 2
3.
Nội dung thực hiện đề tài..................................................................................... 2
4.
Phạm vi ứng dụng ............................................................................................... 3
Chương 1 : Tổng quan về tóm tắt văn bản tự động ................................................ 4
1.1. Giới thiệu ............................................................................................................. 4
1.2. Mô hình tóm tắt văn bản ....................................................................................... 5
1.3. Phân loại bài toán tóm tắt văn bản ........................................................................ 6
1.4. Các phương pháp tóm tắt văn bản......................................................................... 9
1.5. Tình hình nghiên cứu trong và ngoài nước ......................................................... 10
1.5.1. Ngoài nước ................................................................................................. 10
1.5.2. Trong nước .................................................................................................. 12
1.6. Một số hệ thống tóm tắt văn bản trên thế giới ..................................................... 13
Chương 2 : Cơ sở lý thuyết về xử lý và tóm tắt văn bản tiếng Việt ...................... 16
2.1. Một số đặc điểm của ngôn ngữ tiếng Việt ........................................................... 16
2.1.1. Văn bản, chủ đề văn bản và cấu trúc văn bản ............................................. 16
2.1.2. Tiêu đề của văn bản...................................................................................... 17
2.1.3. Đoạn văn ...................................................................................................... 18
2.1.4. Câu và cấu trúc câu tiếng Việt ..................................................................... 19
2.1.5. Từ ................................................................................................................ 23
2.2. Bài toán tách câu ................................................................................................ 24
2.2.1. Giới thiệu bài toán........................................................................................ 24
2.2.2. Dấu hiệu đặc trưng nhận dạng câu ................................................................ 25
2.3. Bài toán tách từ tiếng việt ................................................................................... 26
2.3.1. Giới thiệu bài toán........................................................................................ 26
2.3.2. Các phương pháp tách từ .............................................................................. 28
2.3.2.1. Phương pháp dựa trên otomat .............................................................. 28
2.3.2.2. Dùng mô hình n-gram và phương pháp xác suất thống kê ..................... 30
2.3.2.3. Sử dụng giải thuật di truyền và thống kê trên Internet ........................... 31
2.4. Các thách thức của quá trình rút trích văn bản khoa học ..................................... 32
2.4.1. Văn phong.................................................................................................... 32
2.4.2. Lỗi văn phạm ............................................................................................... 32
Chương 3 : Phương pháp rút trích ý chính trong văn bản tiếng Việt .................. 33
3.1. Các phương pháp rút trích .................................................................................. 33
3.1.1. Các phương pháp thống kê (Statistical Methods).......................................... 33
3.1.1.1. Phương pháp vị trí (Position-Based) ..................................................... 34
3.1.1.2. Phương pháp cụm từ gợi ý (Cue phrases-Based) ................................... 35
3.1.1.3. Phương pháp thống kê tần suất từ (Word frequency-Based) .................. 36
3.1.2 . Phương pháp mạng ngữ nghĩa ..................................................................... 36
3.1.2.1. Phương pháp quan hệ lẫn nhau ............................................................. 36
3.1.2.2. Phương pháp liên kết từ vựng ( Lexical Chains ) .................................. 36
3.1.2.3. Phương pháp Liên kết tham chiếu ( Word Coreferences ) ..................... 36
3.1.2.4. Phương pháp quan hệ câu ( Discourse-Based )...................................... 37
3.1.3. Kết luận về các phương pháp trong giai đoạn phân tích ................................ 37
3.1.4. Hướng tiếp cận của đề tài ............................................................................. 38
3.2. Mô hình rút trích ý chính của văn bản khoa học ................................................. 39
3.2.1. Mô hình tổng quát ........................................................................................ 39
3.2.1.1. Giai đoạn tiền xử lý văn bản ................................................................. 41
3.2.1.2. Giai đoạn tách và lọc câu ...................................................................... 41
3.2.1.3. Giai đoạn rút trích cơ sở........................................................................ 45
3.2.1.4. Giai đoạn phân lớp câu ......................................................................... 55
3.2.1.5. Tính độ quan trọng của câu ................................................................... 56
3.2.2. Đánh giá kết quả tóm tắt, rút trích ................................................................ 59
3.2.2.1. Phương pháp thủ công .......................................................................... 61
3.2.2.2. Các phương pháp đánh giá khác............................................................ 61
Chương 4 : Thử nghiệm và đánh giá kết quả ........................................................ 65
4.1. Kiến trúc và các chức năng chương trình ............................................................ 65
4.1.1. Tiền xử lý..................................................................................................... 65
4.1.2. Tách từ toàn văn bản .................................................................................... 65
4.1.3. Tách câu....................................................................................................... 66
4.1.4. Lọc câu ........................................................................................................ 66
4.1.5. Rút trích cơ sở .............................................................................................. 67
4.1.6. Phân lớp câu................................................................................................. 68
4.1.7. Đánh giá câu ................................................................................................ 68
4.1.8. Hiển thị kết quả xử lý ................................................................................... 69
4.2. Thực nghiệm chương trình ................................................................................. 69
4.2.1. Giao diện tiền xử lý, tách từ và huấn luyện văn bản ..................................... 70
4.2.2. Giao diện tách câu ........................................................................................ 71
4.2.3. Giao diện phân lớp câu................................................................................. 72
4.2.4. Giao diện hiển thị kết quả............................................................................. 73
4.2.5. Giao diện hiển thị thành phần quan trọng của bài báo khoa học.................... 73
4.3. Đánh giá kết quả................................................................................................. 74
4.3.1. Đánh giá kết quả xử lý tổng quát .................................................................. 74
4.3.2. Đánh giá kết quả thực nghiệm từ hai công thức sử dụng............................... 76
4.3.3. Đánh giá từ phía người đọc .......................................................................... 83
Kết Luận .................................................................................................................. 89
Tài liệu tham khảo .................................................................................................. 91
DANH MỤC HÌNH ẢNH
Hình 1.1 : Mô hình hệ thống tóm tắt văn bản ........................................................................ 5
Hình 1.2: Mô hình một hệ thống rút trích văn bản ................................................................. 6
Hình 1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word .................................. 14
Hình 1.4 Giao diện SweSUM - Hệ thống Tóm tắt đa ngôn ngữ ........................................... 15
Hình 2. 1 Xây dựng ôtômát âm tiết....................................................................................... 28
Hình 2. 2 Xây dựng ôtômát từ vựng ..................................................................................... 29
Hình 2. 3 Một tình huống nhập nhằng .................................................................................. 29
Hình 3. 1 Quy trình tổng quát rút trích ý chính văn bản khoa học ......................................... 40
Hình 4. 1 Mô hình tách từ tiếng Việt và huấn luyện ............................................................. 65
Hình 4. 2 Mô hình huấn luyện từ ghép ................................................................................ 66
Hình 4. 3 Mô hình tách câu .................................................................................................. 66
Hình 4. 4 Mô hình lọc câu.................................................................................................... 67
Hình 4. 5 Mô hình Rút trích cơ sở ........................................................................................ 67
Hình 4. 6 Mô hình phân lớp câu ........................................................................................... 68
Hình 4. 7 Mô hình đánh giá câu .......................................................................................... 69
Hình 4. 8 Giao diện tiền xử lý, tách từ và huấn luyện ........................................................... 70
Hình 4. 9 Giao diện tách câu ................................................................................................ 71
Hình 4. 10 Giao diện phân lớp và đánh giá câu .................................................................... 72
Hình 4. 11 Giao diện hiển thị kết quả ................................................................................... 73
Hình 4. 12 Giao diện hiển thị thành phần quan trọng của bài báo khoa học .......................... 73
Hình 4. 13 Kết quả rút trích theo quan niệm của Makoto và R.C. Balabantara ...................... 80
DANH MỤC BẢNG BIỂU
Bảng 3.1 Các ký hiệu kết thúc câu ....................................................................................... 41
Bảng 3.2 Một số trường hợp ngoại lệ trong nhận dạng tách câu ........................................... 42
Bảng 3.3 Thống kê theo độ dài của từ trong từ điển http://dict.vietfun.com .......................... 44
Bảng 3.4 Các thành phần trong bài báo khoa học ................................................................ 46
Bảng 3.5 Khảo sát về sự xuất hiện các thành phần bài báo khoa học .................................... 50
Bảng 3.6 Ví dụ về độ hồi tưởng ........................................................................................... 62
Bảng 4. 1 Lọc kết quả theo tỷ lệ 4.21% ................................................................................ 74
Bảng 4. 2 Lọc kết quả theo tỷ lệ 7% ..................................................................................... 75
Bảng 4. 3 Kết quả 10 câu điểm cao nhất của ISS .................................................................. 77
Bảng 4. 4 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm thông thường ............... 78
Bảng 4. 5 Kết quả khác nhau của ISS ................................................................................... 79
Bảng 4. 6 Kết quả khác nhau của Tf*Idf theo quan niệm thông thường ................................ 79
Bảng 4. 7 Kết quả 10 câu điểm cao nhất của Tf*Idf theo quan niệm Makoto và R.C.
Balabantara .......................................................................................................................... 81
Bảng 4. 8 Kết quả khác nhau của ISS so với Tf*Idf theo quan niệm Makoto và R.C.
Balabantara .......................................................................................................................... 82
Bảng 4. 9 Kết quả khác nhau của Tf*Idf theo quan niệm Makoto và R.C. Balabantara ......... 82
Bảng 4. 10 Kết quả tiếp theo của Tf*Idf theo quan niệm Makoto và R.C. Balabantara ......... 83
Bảng 4. 11 Chi tiết kết quả rút trích...................................................................................... 84
Bảng 4. 12 Kết quả và tỷ lệ rút trích giữa người và EMIS .................................................... 87
1
Mở đầu
1. Tóm lược đề tài
Hiện nay, với sự phát triển không ngừng của công nghệ, máy tính nói chung
hay Word Wide Web (www) nói riêng là một môi trường phổ biến dùng để lưu trữ các
thông tin. Với hàng tỷ trang web đang tồn tại, đi kèm với nó là một khối lượng thông
tin vô cùng to lớn. Lượng thông tin khổng lồ đó đem lại lợi ích không nhỏ dành cho
con người. Chính vì sự khổng lồ của thông tin đó dẫn đến việc tìm kiếm và tổng hợp
thông tin không thuận lợi, gây nhiều khó khăn để có được một kết quả tìm kiếm đúng
mục đích và ít tốn kém thời gian. Người ta mất quá nhiều thời gian để có thể đọc hết
một tài liệu điện tử vài chục trang thậm chí nhiều hơn chỉ để cuối cùng rút ra kết luận
là nội dung tài liệu đó không đúng mục đích tìm kiếm của mình.
Rút trích các ý chính trong văn bản một cách tự động là một bài toán được đặt
ra trước nhu cầu thực tế đó, việc tự động rút trích ý chính các tài liệu sẽ giúp người
dùng tiết kiệm thời gian trong việc sàng lọc và tổng hợp tri thức , nâng cao chất lượng
và tăng hiệu quả đánh chỉ mục cho máy tìm kiếm. Đồng thời cũng là cơ sở cho các bài
toán tóm tắt văn bản, truy hồi thông tin,…
Các dạng rút trích văn bản thường do con người xử lý, nghĩa là do những người
có hiểu biết tốt về chuyên ngành đọc rồi rút ra các tri thức, nhưng cũng không khỏi
mang ý niệm chủ quan của người xử lý văn bản, trong khi đặc điểm của văn bản khoa
học là trong mỗi văn bản, tác giả – nhà khoa học – luôn mong muốn trình bày, thậm
chí là khẳng định một ý tưởng khoa học, cần được trình bày lại dù là dưới dạng tóm tắt
một cách hết sức khách quan[27].
Khác với việc chúng ta đọc rồi tự rút ra cho mình những ý chính trong toàn bộ
văn bản như lâu nay mọi người thường làm, ở đây đề tài muốn đề cập đến một quy
trình cho phép máy tính có thể tự động rút trích ý chính từ văn bản tương đối chính
xác nhất mà cụ thể là các văn bản khoa học trong ngành công nghệ thông tin như bài
báo khoa học và toàn văn báo cáo.
Nhận thấy đây là một đề tài mang tính khoa học cao, là nền tảng của nhiều ứng
2
dụng thực tế và quan trọng là từ phương pháp nghiên cứu đề tài này có thể mở rộng để
nghiên cứu việc rút trích ý chính của nhiều loại văn bản khác nhau thuộc các lĩnh vực
khác nhau. Nên tác giả quyết định chọn đề tài Xây dựng hệ thống rút trích các nội
dung chính của văn bản khoa học dựa trên cấu trúc để làm đề tài nghiên cứu. Đề
tài tập trung vào việc nghiên cứu, khảo sát, đánh giá và đề xuất ra một phương pháp
rút trích ý chính của văn bản khoa học phù hợp với ngôn ngữ tiếng Việt, bên cạnh đó
áp dụng phương pháp này vào việc xây dựng một hệ thống rút trích văn bản khoa học
với kết quả đầu ra tốt nhất.
2. Mục tiêu đề tài
Đề xuất một quy trình rút trích các câu có nội dung mang thông tin quan trọng
trong văn bản khoa học dựa trên phương pháp thống kê và cấu trúc tài liệu một cách
chặt chẽ, đưa ra thuật toán phù hợp từ đó xây dựng ứng dụng phát triển hệ thống rút
trích văn bản khoa học trong lĩnh vực công nghệ thông tin.
3. Nội dung thực hiện đề tài
-
Nghiên cứu hệ thống từ vựng, câu trong tiếng Việt.
-
Thu thập số lượng lớn các bài báo khoa học, các tin tức và toàn văn báo cáo
trong lĩnh vực công nghệ phần mềm ngành công nghệ thông tin. Khảo sát cách
viết và cấu trúc các loại tài liệu đó.
-
Tìm hiểu các công cụ xử lý văn bản của nước ngoài.
-
Tìm hiểu cách thức tương tác với văn bản.
-
Tìm hiểu các vấn đề với văn bản tiếng Việt và cách giải quyết.
-
Xây dựng quy trình rút trích ý chính trong văn bản khoa học :
§ Xác định, phân loại đối tượng văn bản : bài báo khoa học, toàn văn …
§ Tiền xử lý, chuẩn hóa văn bản
§ Xác định thông tin văn bản : tên tác giả, năm phát hành, tên văn bản, số
trang, số từ ...
§ Xác định cấu trúc của toàn bộ văn bản : chương, phần, đoạn,…
§ Xác định các chuỗi từ vựng quan trọng, từ khóa, chủ đề của văn bản.
§ Xác định những câu chứa các từ có trong tên đề tài. Xác định câu nào
hay đoạn nào có cùng lúc các từ thuộc chủ đề xuất hiện nhiều nhất.
3
§ Xác định các vị trí quan trọng trong văn bản thường chứa ý chính.
§ Xây dựng bộ từ điển các cụm từ đặc trưng xác định ý chính (Các cụm từ
mà theo sau nó hay đứng trước nó là ý chính) .
§ Chọn lựa câu chứa ý chính làm kết quả đầu ra tốt nhất.
-
Xác định các ý chính của các tài liệu thu thập được theo chủ quan bản thân.
Khảo sát cách xác định ý chính của những người có kinh nghiệm trong việc viết
các tài liệu, các văn bản khoa học, từ đó đưa ra đánh giá, nhận xét về các ý
chính trong văn bản khoa học.
-
Nghiên cứu các thuật toán rút trích văn bản từ đó đưa ra giải pháp phù hợp.
-
Xây dựng hệ thống rút trích ý chính văn bản khoa học tự động.
-
Thử nghiệm hệ thống trên dữ liệu thực tế để đánh giá tính hiệu quả cũng như độ
chính xác của quy trình đề xuất.
4. Phạm vi ứng dụng
Chương trình được xây dựng có thể áp dụng xử lý tất cả các văn bản khoa học
tiếng Việt như bài báo khoa học và toàn văn báo cáo thuộc lĩnh vực Công nghệ thông
tin.
4
Chương 1 : Tổng quan về tóm tắt văn bản tự động
1.1. Giới thiệu
Tóm tắt văn bản tự động là một trong những nội dung quan trọng trong lĩnh
vực xử lý ngôn ngữ tự nhiên. Qua việc tóm tắt, các ý chính trong tài liệu được sàng lọc
và trình bày một cách cô đọng góp phần tạo ra một văn bản ngắn gọn xúc tích nhưng
vẫn mang đầy đủ thông tin mà tài liệu muốn đề cập, vì thế nó có giá trị thực tiễn to lớn
và được ứng dụng hiệu quả trong các hệ thống tìm kiếm, trích lọc thông tin.
Theo Inderjeet Mani tác giả của đề tài Advances in AutomaticText
Summarization, mục đích của tóm tắt văn bản tự động là: “Tóm tắt văn bản tự động
nhằm mục đích trích xuất nội dung từ một nguồn thông tin và trình bày các nội dung
quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích và gây cảm xúc đối
với người sử dụng hoặc một chương trình cần đến”[12]. Và để thực hiện được công
việc tóm tắt đòi hỏi người đọc phải rút ra được những ý chính của văn bản, chính vì
thế có thể nói đây là quá trình quan trọng nhất trong công đoạn tóm tắt.
Bài toán tóm tắt văn bản là một trong những bài toán mang lại ứng dụng to lớn
nhất trong lĩnh vực khai phá văn bản. Một số biến thể của bài toán này như sinh
mục lục tự động, sinh ý chính tài liệu, sinh tiêu đề văn bản... Những thuật toán dùng
trong tóm tắt văn bản cũng được áp dụng trong các bài toán tương tự như tóm tắt hình
ảnh, âm thanh hay nói chung là những dữ liệu đa phương tiện.
Điểm cốt lõi của một hệ thống tóm tắt văn bản là tìm ra những thành phần
quan trọng trong văn bản cần tóm tắt. Các thành phần này được gọi là các đơn vị
văn bản. Đơn vị văn bản ở đây có thể hiểu là đơn vị nhỏ nhất mà ta chọn để trích
rút như mệnh đề hoặc câu. Các đơn vị văn bản quan trọng sẽ có xác suất lớn để chứa ý
chính hay nội dung quan trọng của cả đoạn văn hay văn bản. Sau khi chọn được các
đơn vị văn bản quan trọng, hệ thống có thể trích rút và biến đổi chúng và sau cùng
hiển thị ra màn hình, thống kê kết quả hay sinh ra các dữ liệu mới cho các hệ thống
khác.
5
1.2. Mô hình tóm tắt văn bản
Một hệ thống tóm tắt văn bản thông thường bao gồm những giai đoạn sau (Hình
1.1) :
Đầu vào : Văn bản
Đầu ra : Bản tóm tắt
Phân tích
Rút trích
Biến đổi
Trình bày
Hình 1.1 : Mô hình hệ thống tóm tắt văn bản
• Phân tích ( Analysis )
Phân tích văn bản đầu vào để đưa ra những thông tin dùng để tìm kiếm, đánh
giá các thành phần quan trọng cũng như các tham số đầu vào cho việc tóm tắt.
• Rút trích (Extraction)
Rút trích các phần thông tin quan trọng theo mục đích của hệ thống.
• Biến đổi ( Transformation )
Từ các thông tin rút được, biến đổi để giản lược và thống nhất, kết quả là các
thành phần dùng để tóm tắt.
• Trình bày ( Presentation )
Từ các thành phần dùng để tóm tắt, liên kết chúng lại thành đoạn theo một thứ
tự nào đó hoặc theo cấu trúc văn bản rồi hiển thị phù hợp với yêu cầu người dùng.
6
Một hệ thống tóm tắt thông thường bao gồm đầy đủ các giai đoạn trên, nhưng
một hệ thống trích rút văn bản chỉ gồm giai đoạn phân tích, rút trích và trình bày (Hình
1.2), không có giai đoạn biến đổi nhằm bảo toàn ngữ nghĩa cho từng câu trong văn
bản.
Đầu vào : Văn bản
Đầu ra : Các thành phần trích chọn
Phân tích
Rút trích
Trình bày
Hình 1.2: Mô hình một hệ thống rút trích văn bản
Chúng ta có thể thấy rằng một hệ thống rút trích thì thường thực hiện ít bước hơn,
tập trung vào giai đoạn phân tích là chính. Các phương pháp thường dùng trong hệ
thống rút trích văn bản thường là các phương pháp thống kê, học trên ngữ liệu. Tuy
thực hiện ít giai đoạn hơn nhưng các giai đoạn trong hệ này mang tính quan trọng cao
vì nó ảnh hưởng đến kết quả tóm tắt văn bản. Chính vì thế để có thể mang lại một diễn
giải tóm tắt tốt thì yêu cầu mặc nhiên là phải tạo ra hệ thống rút trích tốt.
1.3. Phân loại bài toán tóm tắt văn bản
Bài toán tóm tắt văn bản được chia thành nhiều loại, mỗi loại được sử dụng cho
các mục đích khác nhau, các yêu cầu khác nhau. Mỗi bài toán cũng phải áp dụng các
phương pháp và kỹ thuật riêng. Không có một thuật toán hay quy trình nào có thể đáp
ứng yêu cầu của tất cả các bài toán đó. Vì vậy để mang lại sự chính xác trong tóm tắt
hay rút trích yêu cầu phải nghiên cứu thật kỹ cấu trúc văn bản, dữ liệu, mục đích bài
toán.
7
• Tóm tắt đơn văn bản và Tóm tắt đa văn bản
Khi xét dữ liệu đầu vào một hệ thống tóm tắt văn bản, ta có thể chia thành hai
dạng là tóm tắt đơn văn bản (Single-Document) hoặc tóm tắt đa văn bản (MultiDocument).
-
Tóm tắt đơn văn bản là từ một văn bản nguồn cho ra bản ngắn gọn của văn bản
đó.
-
Tóm tắt đa văn bản là từ nhiều văn bản nguồn cũng cho ra một đoạn tóm tắt.
Tóm tắt đa văn bản thì có độ phức tạp hơn, vì ngoài những công việc của tóm
tắt đơn văn bản, tóm tắt đa văn bản còn phải thực hiện các công việc như phân
tích, thống nhất dạng trình bày, …. Ngoài ra, tóm tắt đa văn bản còn phải đối
mặt với các vấn đề như dư thừa trùng lặp dữ liệu giữa các văn bản nguồn, nội
dung các văn bản nguồn phân tán, độ rút gọn yêu cầu cao, thời gian xử lý cần
phải nhanh trong khi sự phức tạp trong xử lý lớn. Chính vì thế việc xét độ tương
đồng ngữ nghĩa giữa các thành phần sau khi rút trích là một vấn đề quan trọng
mà tóm tắt đa văn bản cần quan tâm.
• Rút trích và tóm tắt
Khi xét đến kết quả đầu ra một hệ thống tóm tắt văn bản, chúng ta có thể chia
thành hai dạng tóm tắt là trích rút (Extraction) và tóm tắt (Abstraction). Việc phân biệt
hai dạng tóm tắt này là rất cơ bản và quan trọng.
-
Trích rút là quá trình thu gọn văn bản mà trong đó kết quả ra chứa các đơn vị
ngữ liệu nguyên gốc có thông tin quan trọng của văn bản nguồn.
-
Tóm tắt là quá trình thu gọn văn bản mà trong đó kết quả ra có một số các đơn
vị ngữ liệu mới được sinh ra từ các đơn vị ngữ liệu văn bản nguồn. Nhằm tạo ra
sự trôi chảy và mạch lạc trong kết quả tóm tắt nhưng vẫn giữ nguyên ý chính
của văn bản.
• Tóm tắt chỉ định, tóm tắt thông tin và tóm tắt đánh giá
Khi xét đến chức năng của ứng dụng tóm tắt chúng ta có thể chia thành ba loại
ứng dụng tóm tắt sau :
-
Tóm tắt chỉ định ( Indicative ) : Là kiểu tóm tắt giúp người đọc quyết định
xem có nên đọc tiếp nữa không. Ví dụ như loại ứng dụng sinh tiêu đề, tóm
8
lược kết quả tìm kiếm, tóm lược tin tức…
-
Tóm tắt thông tin ( Informative ) : Là kiểu tóm tắt tóm lược tất cả các nội
dung quan trọng nhất của văn bản gốc, văn bản tạo ra có thể thay thế được
cho văn bản gốc. Ví dụ như tóm tắt một truyện dài thành đoạn văn một hai
trang
-
Tóm tắt đánh giá ( Evaluative ) : Là kiểu tóm tắt mà trong kết quả ra có cả
đánh giá của người tóm tắt. Ví dụ như lời tựa một quyển sách hay bản thảo
một bài báo. Kiểu tóm tắt này không gặp trong một hệ tóm tắt văn bản tự
động.
• Tóm tắt chung và tóm tắt hướng truy vấn
Nếu xét về mục đích, chúng ta có thể chia thành hai loại là tóm tắt chung và
tóm tắt hướng truy vấn.
- Tóm tắt chung ( Generic ) : Tóm tắt theo quan điểm ban đầu của tác giả văn
bản gốc (khách quan).
-
Tóm tắt hướng truy vấn ( Query-Oriented ) : Tóm tắt theo quan điểm mong
muốn của người dùng ứng dụng thông qua các tham số truyền vào câu truy
vấn. Tóm tắt hướng truy vấn được cài đặt và áp dụng nhiều hơn nhưng
trong lĩnh vực hẹp hơn, đi sâu vào các chuyên ngành cụ thể.
• Tóm tắt cơ bản và Tóm tắt chuyên môn
Nếu xét theo trình độ người dùng thì chúng ta có thể chia thành hai dạng là tóm
tắt cơ bản và tóm tắt chuyên môn.
• Tóm tắt cơ bản : dành cho người thông thường.
Ví dụ : Các ứng dụng tóm tắt thông thường, chung chung như tóm tắt trang
tin, tóm tắt tiểu thuyết văn học…
• Tóm tắt chuyên môn : dành cho người đã có nền tảng, chuyên môn. Những
bản tóm tắt ra chứa đựng những thuật ngữ, khái niệm, công việc chuyên
môn.
Ví dụ : ứng dụng hỗ trợ thông minh giúp bác sĩ tóm lược và so sánh các
phương pháp điều trị, ứng dụng tóm tắt các bài báo về toán học…
9
• Tóm tắt đơn ngôn ngữ, tóm tắt đa ngôn ngữ và tóm tắt đan xen ngôn
ngữ
Dựa vào số lượng các ngôn ngữ trong văn bản nguồn và văn bản kết quả, có ba
loại ứng dụng tóm tắt :
- Tóm tắt đơn ngôn ngữ : Văn bản nguồn chỉ có một loại ngôn ngữ. Kết quả
ra là văn bản ngôn ngữ đó.
- Tóm tắt đa ngôn ngữ : Mỗi văn bản nguồn chỉ có một loại ngôn ngữ. Nhưng
ứng dụng có khả năng tóm tắt trên nhiều loại ngôn ngữ. Tùy vào văn bản
nguồn hoặc tham số đưa vào mà hệ thống tóm tắt trên một ngôn ngữ được
chọn.
- Tóm tắt đan xen ngôn ngữ : Trong văn bản nguồn chứa hai hay nhiều ngôn
ngữ khác nhau, hệ thống có thể tùy vào từng đơn vị ngữ liệu mà nhận dạng
và tóm tắt cho phù hợp. Đây là loại tóm tắt phức tạp nhất trong ba loại phân
chia theo số lượng ngôn ngữ
1.4. Các phương pháp tóm tắt văn bản
Việc tóm tắt bằng máy là một vấn đề hết sức khó khăn bởi nó yêu cầu phải
hiểu cả nội dung của văn bản và những thông tin liên quan đến vấn đề ngữ nghĩa,
tu từ học, quan hệ giữa các câu trong một đoạn văn cho trước.
Cho đến thời điểm này đã có rất nhiều các công trình nghiên cứu về việc trích
rút văn bản, chủ yếu là xử lý ngôn ngữ tiếng Anh và đa số các công trình nghiên cứu
sử dụng phương pháp học có giám sát. Ở Việt Nam hay đối với ngôn ngữ tiếng Việt
thì việc tóm tắt văn bản để đảm bảo độ chính xác như mong muốn thì vẫn phải làm
bằng tay. Tuy nhiên, ngày nay với khối lượng thông tin quá lớn việc xử lý nhiều văn
bản một cách thủ công là một trở ngại vô cùng khó khăn. Cùng với sự phong phú của
tiếng Việt và với sự đa dạng trong cách viết hay nói cách khác là cấu trúc đa dạng của
văn bản càng làm cho độ phức tạp của bài toán gia tăng.
Các phương pháp tóm tắt văn bản khác nhau chủ yếu ở cách đánh giá và xác định
các đơn vị văn bản (ĐVVB) quan trọng. Phần lớn các phương pháp tóm tắt văn bản cổ
điển đều dựa trên kết quả thống kê như :
-
Phương pháp dựa trên tần suất xuất hiện từ (TFxIDF)
10
-
Phương pháp sử dụng tiêu đề (title-based)
-
Phương pháp dựa trên vị trí (position) của câu trong đoạn, của đoạn trong
văn bản,...
-
…
Các phương pháp như vậy đều được đưa ra dựa trên ý tưởng: các ĐVVB quan
trọng nói nhiều tới nội dung chính của văn bản, do đó trong các ĐVVB này phải xuất
hiện nhiều từ ngữ liên quan tới nội dung của văn bản. Tùy theo từng phương pháp, các
từ ngữ quan trọng là các từ ngữ xuất hiện nhiều lần trong văn bản, các từ ngữ xuất hiện
trong tiêu đề của văn bản, hoặc các từ ngữ xuất hiện ở câu đầu, câu cuối của văn
bản,…Trong các nghiên cứu gần đây về tóm tắt văn bản, người ta thường sử dụng
t h ê m các phương pháp dựa trên ngữ nghĩa để nâng cao độ chính xác. Song, trong
phạm vi tóm tắt văn bản tiếng Việt, đến nay đa phần các nghiên cứu đều sử dụng hoặc
cải tiến các phương pháp dựa trên thống kê. [22]
Để tự động hóa quá trình tóm tắt một văn bản tiếng Việt thông thường trải qua
hai giai đoạn. Trước tiên, các yếu tố chính của văn bản như tiêu đề, các phân đoạn
chính, các câu quan trọng sẽ được trích rút ra từ văn bản gốc bằng các phương pháp
ngữ học hoặc thống kê, sau đó các phần rút ra sẽ được xét độ tương đồng, sắp xếp,
thêm các từ, ngữ chuyển câu, chuyển đoạn để tạo ra một bản tóm tắt cô động và đầy đủ
ý. Với đề tài này đề tài tiếp cận với việc tóm tắt văn bản tự động theo dạng tóm tắt
trích lọc sử dụng phương pháp thống kê tính toán độ quan trọng của các đơn vị văn
bản đồng thời kết hợp khảo sát cấu trúc tài liệu để trích rút trực tiếp các phần quan
trọng trong văn bản gốc làm tiền đề hỗ trợ việc tóm tắt văn bản tự động với đối tượng
tập trung vào các văn bản khoa học trong lĩnh vực công nghệ thông tin, ngành công
nghệ phần mềm.
1.5. Tình hình nghiên cứu trong và ngoài nước
1.5.1. Ngoài nước
Vấn đề rút trích tự động các ý chính trong văn bản cũng nhận được nhiều sự
quan tâm của các nhà công nghệ thông tin trên thế giới. Có thể thấy rõ nhất là qua
công cụ AutoSummarize trong phần mềm Microsoft Word của tập đoàn Microsoft. Có
thể nói sơ qua cơ chế làm việc của công cụ này là nó sẽ tính điểm cho các câu chứa từ
được lặp lại nhiều lần. Những câu được nhiều điểm nhất sẽ được gợi ý đưa ra cho
11
người dùng. Tuy nhiên đối với các văn bản tiếng Việt thì công cụ này cho kết quả
không có tính chính xác cao.
Ngoài ra cũng có các bài báo đề cập đến các công trình nghiên cứu liên quan
đến vấn đề xử lý ngôn ngữ tự nhiên trong việc rút trích tự động ý chính trong văn bản
như :
- Đề tài Extracting Sentence Segments for Text Summarization : A Machine
Learning Approach - tạm dịch là rút trích các phân đoạn câu phục vụ cho việc
tóm tắt văn bản : một phương pháp tiếp cận học máy - của Wesley T.Chuang
làm việc tại Computer Science Department, UCLA, Los Angeles, CA 90095,
USA và Jihoon Yang làm việc tại HRL Laboratories, LLC, 3011 Malibu
Canyon Road, CA 90265, USA. [28]
- Đề tài Automatic Evaluation of Summaries Using N-gram Co-Occurrence
Statistics - tạm dịch là Đánh giá tự động phần tóm tắt sử dụng N-gram kết hợp
với thống kê tần suất - của tác giả Chin-Yew Lin and Eduard Hovy vào năm
2003.[2]
-
Đề tài A Frequent Term and Semantic Similarity based Single Document Text
Summarization Algorithm - tạm dịch là tóm tắt đơn văn bản dựa trên tần suất và
sự tương đồng ngữ nghĩa - của Naresh Kumar Nagwani and Shrish Verma vào
năm 2011.[17]
-
Đề tài Challeging issues of automatic summarization: Relevance Detection and
quality-based evaluation - tạm dịch là Các thách thức trong việc tóm tắt tự động
: Mức độ phát hiện phù hợp và việc đánh giá dựa trên chất lượng - của Elena
Lloret và Manuel Palomar vào năm 2010.[8]
-
Đề tài Citation Summarization Through Keyphrase Extraction - tạm dịch là
Trích dẫn tóm tắt thông qua việc rút trích cụm từ - của Vahed
Qazvinian,Dragomir R. Radev,Arzucan ¨Ozg¨ur được đăng trong Proceedings
of the 23rd International Conference on Computational Linguistics (Coling
2010), trang 895–903, tháng 8/2010
12
-
Đề tài A Survey of Text Summarization Extractive Techniques, tạm dịch là Một
khảo sát về kỹ thuật rút trích tóm tắt văn bản, của tác giả Vishal Gupta và
Gurpreet Singh Lehal vào năm 2010.[26]
-
Đề tài Corpus based Automatic Text Summarization System with HMM Tagger,
tạm dịch là Kho ngữ liệu dựa trên hệ thống tóm tắt văn bản tự động với việc gán
nhãn dùng mô hình Markov ẩn, của tác giả M.Suneetha, S. Sameen Fatima vào
năm 2011.[14]
Các đề tài trên đều có ưu điểm nhất định nhưng hầu hết các đề tài đều tập trung
xử lý ngôn ngữ tiếng nước ngoài, đa số là các văn bản tiếng Anh. Để áp dụng cho các
tài liệu tiếng Việt thì không có được độ chính xác mong muốn do đặc điểm ngôn ngữ
tiếng Việt phức tạp và có rất nhiều điểm khác biệt so với ngôn ngữ khác.
1.5.2. Trong nước
Trong nước có thể kể đến công trình nghiên cứu của GS.TSKH Hoàng Kiếm và
TS. Đỗ Phúc về đề tài Rút trích ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội
dung dựa trên việc sử dụng cây hậu tố để phát hiện các dãy từ phổ biến trong các câu
của văn bản, dùng từ điển để tìm các dãy từ có nghĩa để giải quyết vấn đề ngữ nghĩa
của các từ..Cuối cùng dùng kỹ thuật gom cụm để gom các câu trong văn bản và hình
thành các vector đặc trưng cụm.[5]
Ngoài ra, trong nước hiện cũng có một đề tài nữa là Xây dựng hệ thống tự động
rút trích nội dung chính trong các văn bản điện tử tiếng Việt của Đỗ Văn Long, Châu
Thu Trân, Dương Quốc Thắng và Trần Minh Vũ [6] làm việc tại Phân viện công nghệ
thông tin tại Thành phố Hồ Chí Minh thuộc Viện Khoa học và công nghệ Việt Nam.
Đề tài là sự kết hợp giữa việc phân loại văn bản theo cấu trúc của nhà ngôn ngữ với kỹ
thuật xử lý ngôn ngữ tự nhiên của tin học. Ý tưởng chính của hệ thống là rút trích nội
dung chính của văn bản từ việc xác định những đặc trưng và cấu trúc văn bản thông
dụng. Phương pháp này tạo ra một bản tóm tắt cô động, đủ ý thông qua việc thu thập
và tập hợp các câu, cụm từ mang nội dung chính trong văn bản.
Bên cạnh đó bài báo Thử đề xuất quy trình tự động tóm tắt văn bản khoa học,
của PGS.TS Vương Toàn (2007) [27] cũng là một trong các đề tài liên quan trong
lĩnh vực này. Tác giả đã thử đề xuất quy trình làm việc để máy tính có thể tiến hành
13
tự động tóm tắt văn bản khoa học (tỉ lệ 1/10). Công việc đã được thử nghiệm ở một số
ví dụ kiểu như trên cho thấy kết quả là đáng khích lệ. Tuy nhiên, trong một số trường
hợp tương tự, do những câu được cắt tự động rất có thể trở thành câu cụt hoặc thừa từ
nên gây mất mát thông tin.
Các đề tài trên đều có những ưu điểm nhất định của nó, tuy nhiên phạm vi xử lý
văn bản của nó quá rộng, hầu như không xác định cụ thể cho một loại văn bản nào.
Nếu đầu vào là một truyện ngắn, một quyển tiểu thuyết hay một bài báo khoa học
thuộc những lĩnh vực khác nhau thì kết quả đầu ra có độ chính xác như thế nào ? Đó
chính là vấn đề mà đề tài này sẽ tập trung tìm hiểu vào một loại hình tài liệu, đó là văn
bản khoa học trong ngành công nghệ thông tin nhằm đem lại kết quả có độ chính xác
tốt nhất với yêu cầu của người dùng.
1.6.
Một số hệ thống tóm tắt văn bản trên thế giới
Hiện tại, trên thế giới đã có rất nhiều nghiên cứu và dự án xây dựng các ứng
dụng tóm tắt văn bản. Các ứng dụng này có thể đáp ứng rất nhiều các mục đích khác
nhau. Có thể kể ra một số ứng dụng tóm tắt văn bản tiêu biểu như sau :
• SumUM [11]
Hệ thống Tóm lược văn bản kỹ thuật của nhóm nghiên cứu xử lý ngôn ngữ tự
nhiên trường Đại học Montréal, Canada. SumUM có thể thực hiện cả chức năng tóm
tắt chỉ định và tóm tắt thông tin rất tốt.
• Microsoft Word AutoSummaryTool
Microsoft cũng cài đặt chức năng Trích rút và sinh tiêu đề trong Microsoft
Word từ phiên bản Word '97. Chúng ta có thể thử bằng cách chọn Tools AutoSummarize trên thanh công cụ (có thể khác tùy vào phiên bản). Công cụ này cho
phép chúng ta chọn thông số về độ rút gọn, trích rút hay sinh tiêu đề...
14
Hình 1.3 Giao diện và kết quả trích rút văn bản của Microsoft Word
• SUMMARIST [9]
Một hệ thống Trích rút văn bản năm thứ tiếng (tiếng Anh, tiếng Nhật, tiếng Tây
Ban Nha, tiếng Ả-rập và tiếng Hàn Quốc). Hiện tại SUMMARIST đang nghiên cứu để
cải tiến trở thành một hệ thống Tóm lược văn bản và hỗ trợ nhiều ngôn ngữ hơn như
tiếng Pháp và Indonesia.
• MEAD [7]
Nền tảng cho các hệ thống Tóm tắt nhiều văn bản và đa ngôn ngữ. Đây là một
bộ công cụ xây dựng trên nền Linux và Solaris, sử dụng ngôn ngữ Perl - Một ngôn ngữ
có khả năng xử lý văn bản rất linh hoạt và mạnh mẽ. MEAD biểu diễn, lưu trữ dữ liệu
ở dạng XML, cung tấp cho chúng ta khung ứng dụng để cài đặt các ứng dụng Tóm tắt
văn bản cho ngôn ngữ mà ta muốn. Ngoài ra MEAD cũng cung cấp các công cụ để xây
dựng các ứng dụng đánh giá hệ thống tóm tắt theo các tiêu chí và các tập mẫu nổi
tiếng. MEAD được xây dựng bởi các chuyên gia nổi tiếng về Xử lý ngôn ngữ ở khắp
nơi trên thế giới dưới sự tài trợ của Chương trình Nghiên cứu Công nghệ thông tin của
Tổ chức Khoa học quốc gia Mỹ. MEAD được cung cấp ở dạng mã nguồn mở để
nghiên cứu và kế thừa. Hiện tại phiên bản mới nhất của MEAD là MEAD v3.07..
- Xem thêm -