BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI
TẠ HỒNG ĐÔNG
LUẬN VĂN THẠC SỸ
CÔNG NGHỆ THÔNG TIN
PHƢƠNG PHÁP TÓM TẮT
VĂN BẢN TIẾNG VIỆT BẰNG TEXTRANK
TẠ HỒNG ĐÔNG
2015-2017
HÀ NỘI - 2017
BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI
LUẬN VĂN THẠC SỸ
PHƢƠNG PHÁP TÓM TẮT
VĂN BẢN TIẾNG VIỆT BẰNG TEXTRANK
TẠ HỒNG ĐÔNG
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 60.48.02.018
NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. NGUYỄN LONG GIANG
HÀ NỘI - 2017
i
LỜI CAM ĐOAN
Tác giả xin cam đoan luận văn đƣợc hoàn thành trên cơ sở nghiên cứu, tổng
hợp và phát triển các nghiên cứu tóm tắt văn bản trong nƣớc và trên thế giới do tác
giả thực hiện.
Luận văn này là mới, các nghiên cứu trong luận văn do chính tác giả thực
hiện, qua quá trình nghiên cứu đƣa ra và không sao chép nguyên bản từ bất kì một
nguồn tài liệu nào khác.
TÁC GIẢ LUẬN VĂN
Tạ Hồng Đông
ii
LỜI CẢM ƠN
Em xin chân thành cảm ơn các thầy cô, cán bộ viên chức Khoa Sau đại học
của Viện Đại học Mở Hà Nội đã nhiệt tình quan tâm và tạo nhiều điều kiện thuận
lợi cho em trong quá trình thực hiện luận văn thạc sỹ này.
Em xin chân thành cảm ơn thầy giáo TS. Nguyễn Long Giang đã nhiệt tình
hƣớng dẫn, động viên, hỗ trợ em trong suốt quá trình thực hiện luận văn, giúp em
vƣợt qua những hạn chế của bản thân và những khó khăn trong quá trình nghiên cứu
để hoàn thành luận văn thành công, đúng thời hạn.
Em xin gửi lời cảm ơn tới các thầy cô đã giảng dạy em trong 02 năm học tập
tại trƣờng, những ngƣời đã truyền đạt cho em không chỉ kiến thức, kinh nghiệm quý
báu, mà cả những câu chuyện về cuộc sống, những bài học làm ngƣời ý nghĩa.
Những kiến thức, bài học đó đã, đang và sẽ tiếp tục là hành trang, động lực giúp em
tự hoàn thiện bản thân, vƣợt qua những khó khăn và vững bƣớc trên con đƣờng phía
trƣớc.
Em cũng xin cảm ơn thầy cô Phòng tin học quản lý - Viện Công Nghệ Thông
Tin, Viện Hàn Lâm Khoa Học và Công Nghệ Việt Nam đã giúp đỡ, hỗ trợ em rất
nhiều để hoàn thành luận văn này.
Tôi cũng xin chân thành cảm ơn sự giúp đỡ nhiệt tình của bạn bè đã động
viên, giúp đỡ trong thời gian học tập và nghiên cứu.
Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, ngƣời thân và đồng nghiệp đã
động viên, giúp đỡ và khuyến khích tôi vƣợt qua những lúc khó khăn trong cuộc
sống, học tập và công việc.
Xin chân thành cảm ơn!
Hà Nội, tháng 12 năm 2017
Tác giả
Tạ Hồng Đông
iii
MỤC LỤC
LỜI CAM ĐOAN........................................................................................................i
LỜI CẢM ƠN.............................................................................................................ii
MỤC LỤC.................................................................................................................iii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT................................................v
DANH MỤC CÁC HÌNH VẼ...................................................................................vi
CHƢƠNG 1. TỔNG QUAN TÓM TẮT VĂN BẢN.…………………………...….3
1.1. Giới thiệu chung về khai phá dữ liệu ............................................................... 3
1.1.1. Sự cần thiết của khai phá dữ liệu .............................................................. 3
1.1.2. Khai phá dữ liệu ........................................................................................ 3
1.2. Tóm tắt văn bản tự động ................................................................................... 7
1.2.1. Tóm tắt văn bản .......................................................................................... 7
1.2.2. Ứng dụng của tóm tắt văn bản ................................................................ 10
1.2.3. Phân loại tóm tắt ...................................................................................... 10
1.2.4. Mô hình tóm tắt văn bản .......................................................................... 14
1.2.5. Đánh giá văn bản tóm tắt ......................................................................... 18
1.2.6. Một số đặc trưng và khó khăn trong tóm tắt văn bản tiếng việt .............. 21
1.3. Phát biểu bài toán đơn văn bản tiếng Việt ................................................... 23
1.4. Kết luận chƣơng 1…………………………………………………………24
CHƢƠNG 2.TÓM TẮT ĐƠN VĂN BẢN THEO TEXTRANK………………….25
2.1. Thuật toán xếp hạng đồ thị ............................................................................. 25
2.1.1. PageRank.................................................................................................. 25
2.1.2. HITS.......................................................................................................... 28
2.1.3. Đánh giá và so sánh giữa PageRank và HITS ......................................... 31
2.2. Mô hình TextRank .......................................................................................... 31
2.2.1. Đồ thị vô hướng………………………………………………..……………….31
2.2.2. Đồ thị có trọng số……………………………………………………...….…32
2.2.3. Đồ thị hoá văn bản…………………………………………………..........…34
2.2.4. Sử dụng TextRank trích xuất từ khoá………………………………………34
2.2.5. Sử dụng TextRank trích rút câu……………………………………….…….39
2.3. Giải thuật TextRank ....................................................................................... .39
2.3.1. Giải thuật TextRank.................................................................................. 39
iv
2.3.2. Các phương thức tính độ tương đồng ...................................................... 41
2.3.3. Nhận xét giải thuật TextRank ................................................................... 43
2.4. Kết luận chƣơng 2…………………………………………………………...45
CHƢƠNG 3. XÂY DỰNG ỨNG DỤNG VÀ KẾT QUẢ ....................................... 45
3.1. Tổng quan ứng dụng tóm tắt văn bản. ............................................................ 45
3.2. Cài đặt ứng dụng tóm tắt văn bản ................................................................... 46
3.2.1. Mô hình giải quyết bài toán...................................................................... 46
3.2.2. Tiền xử lý văn bản. ................................................................................... 47
3.2.3. Xây dựng đồ thị câu.................................................................................. 49
3.2.4. Tính hạng câu trên đồ thị ......................................................................... 50
3.2.5. Sinh văn bản tóm tắt ................................................................................. 51
3.3. Thực nghiệm thuật toán .................................................................................. 51
3.3.1. Cài đặt chương trình ................................................................................ 51
3.3.2. Đánh giá ứng dụng ................................................................................... 57
3.4. Kết luận chƣơng 3………………………………………..………………….62
TÀI LIỆU THAM KHẢO
PHỤ LỤC
v
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
Viết tắt
ROUGE
Tiếng Anh
Recall-Oriented
Tiếng Việt
Understudy
for
Phƣơng pháp đánh giá độ
tƣơng tự văn bản
Gisting Evaluation
HITS
Hyperlinked - Induced Topic Search
DUC
Document Understanding Conference
LNP
Natural Language Processing
TAC
Text Analysis Conference
Thuật toán tính hạng dựa trên
phân tích liên kết
Hội nghị chuyên về hiểu văn
bản
Phƣơng pháp xử lý ngôn ngữ
tự nhiên
Hội nghị thƣờng niên về phân
tích văn bản
vi
DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Quy trình text mining……………………………………………………..7
Hình 1.2. Minh hoạ trang báo điện tử sử dụng công cụ tóm tắt văn bản ....................9
Hình 1.3. Mô hình tóm tắt văn bản tự động ............................................................ 15
Hình 2.1. Mô hình PageRank. .................................................................................. 26
Hình 2.2. Ý tƣởng PageRank ....................................................................................26
Hình 2.3. Mô tả khái quát ý tƣởng PageRank ..........................................................27
Hình 2.4. Trang Authority .........................................................................................29
Hình 2.5. Trang Hub. ...............................................................................................29
Hình 2.6. Mô hình trang Authority và trang Hub. ....................................................30
Hình 2.7. Mô hình trang Authority tốt và trang hub tốt ............................................30
Hình 2.8. Hệ thống để thực hiện 1 thuật toán xếp hạng dựa trên đồ thị…………..32
Hình 2. 9. Đƣờng cong hội tụ của phƣơng pháp xếp hạng dựa trên đồ thị với đồ thị
vô hƣớng, có trọng số ………………………………………………………………….33
Hình 2.10. Đồ thị TextRank .....................................................................................40
Hình 2.11. Đồ thị TextRank với các giá trị trọng số và độ tƣơng đồng giữa các câu ...43
Hình 3.1. Các bƣớc thực hiện tóm tắt theo phƣơng pháp TextRank ........................46
Hình 3.2. Các bƣớc thực hiện JVnTextpro3 ……………………………………….47
Hình 3.3. Bảng PreText đầy đủ ...............................................................................51
Hình 3.4. Cấu trúc chƣơng trình ..............................................................................52
Hình 3.5. Giao diện chính của chƣơng trình ..........................................................53
Hình 3.6. Thanh chọn hiển thị yêu cầu ...................................................................53
Hình 3.7. Nút chọn tệp ............................................................................................53
Hình 3.8. Lựa chọn phần trăm độ dài tóm tắt ..........................................................54
Hình 3.9. Nút tóm tắt
.............................................................................................54
Hình 3.10. Nút hiển thị đồ thị
..............................................................................54
Hình 3.11. Chọn số nút hiển thị ...............................................................................54
Hình 3.12. Nút hiển thị toàn bộ .................................................................................54
vii
Hình 3.13. Nút hiển thị TextRank ...........................................................................54
Hình 3.14. Giao diện văn bản chi tiết ......................................................................55
Hình 3.15. Giao diện tóm tắt ...................................................................................55
Hình 3.16. Giao diện hiển thị đồ thị TextRank theo yêu cầu số nút ........................ 56
Hình 3.17. Giao diện hiển thị 100% số nút ..............................................................56
Hình 3.18. Giao diện hiển thị TextRank cho các câu .............................................. 57
Hình 3.19. Biểu đồ phân bố điểm đánh giá văn bản tóm tắt 6 tập mẫu……………59
viii
MỞ ĐẦU
1. Tính cấp thiết đề tài
Công nghệ thông tin, các dịch vụ trực tuyến đang phát triển mạnh mẽ kèm
theo với là sự bùng nổ của internet đã mang đến một lƣợng thông tin khổng lồ cho
con ngƣời. Rất nhiều ngƣời có nhu cầu tổng hợp và tóm tắt lại các thông tin để
thuận lợi cho việc tổng hợp các thông tin đó. Tóm tắt dữ liệu tự động là một lĩnh
vực rất quan trọng, nó bao gồm trong đó là học máy và khai phá dữ liệu. Bài toán
tóm tắt dữ liệu tự động không chỉ dừng lại ở tóm tắt văn bản mà nó còn mở rộng ra
các loại dữ liệu đa phƣơng tiện nhƣ hình ảnh, âm thanh và video. Xuất phát từ nhu
cầu đó, các phƣơng pháp tóm tắt tự động đƣợc nghiên cứu và phát triển.
Hiện nay trên thế giới, nhiều nhà khoa học và các công ty tỏ ra rất quan tâm
đến bài toán tóm tắt văn bản tự động. Tại các hội nghị nổi tiếng nhƣ: DUC 20012007, TAC 2008, ACL 2001-2007…, tóm tắt văn bản tự động đã đƣợc đề cập đến
nhiều trong các bài báo. Ngoài ra, có nhiều hệ thống tóm tắt văn bản độc lập hoặc
tích hợp đƣợc phát triển nhƣ: MEAD, LexRank, chức năng tự động tóm tắt trong
Microsoft Word. Tuy nhiên, kết quả của các nghiên cứu này vẫn chƣa đƣợc đánh
giá cụ thể. Đồng thời một số công cụ có sẵn thì không thích hợp cho tiếng Việt nên
kết quả tóm tắt rất thấp, chƣa đáp ứng đƣợc yêu cầu ngƣời dùng, ví dụ nhƣ công cụ
AutoSummarizer của phần mềm Microsoft Word.
Vì vậy tác giả lựa chọn nghiên cứu đề tài: “Phƣơng pháp tóm tắt văn bản
tiếng Việt bằng TextRank” là thực sự cần thiết.
2. Mục tiêu nghiên cứu
Tìm hiểu tổng quan về bài toán tóm tắt văn bản, thuật toán xếp hạng trên đồ
thị TextRank và ứng dụng thuật toán TextRank xây dựng đồ thị câu, xếp hạng câu
trên đồ thị. Trên cơ sở đó, xây dựng ứng dụng thử nghiệm tóm tắt đơn văn bản tiếng
Việt bằng phƣơng pháp TextRank.
Hệ thống đƣa ra việc trích chọn văn bản dựa vào phƣơng pháp textRank với mục
tiêu tóm tắt một cách chủ động nhất với độ dài tóm tắt đi theo mong muốn của
ngƣời sử dụng, giúp ngƣời sử dụng nắm bắt các thông tin một cách dễ dàng, nhanh
chóng và chính xác nhất.
1
3. Đối tƣợng và phạm vi nghiên cứu
3.1 Đối tƣợng nghiên cứu
- Các văn bản tiếng Việt.
- Thuật toán TextRank và ứng dụng xếp hạng câu trên đồ thị câu
3.2 Phạm vi nghiên cứu
Tóm tắt đơn văn bản tiếng Việt bằng phƣơng pháp TextRank sử dụng đồ thị câu.
4. Kết cấu của luận văn
Luận văn đƣợc bao gồm 3 chƣơng nhƣ sau:
Chƣơng 1: Tổng quan tóm tắt văn bản
Phƣơng pháp này giới thiệu một cách khái quát về khai phá dữ liệu, khai phá
văn bản và nền tảng chung nhất cho việc tóm tắt văn bản, cũng nhƣ việc đánh giá
một văn bản tóm tắt nói riêng và đánh giá thuật toán khai phá nói chung.
Chƣơng 2: Tóm tắt đơn văn bản theo TextRank
Trình bày phƣơng pháp thuật toán TextRank để giải quyết bài toán tóm tắt
văn bản đơn cũng nhƣ một số ý tƣởng để tạo nên thuật toán TextRank.
Chƣơng 3: Xây dựng ứng dụng và kết quả của thuật toán TextRank
Trình bày về việc xây dựng chƣơng trình sử dụng phƣơng pháp TextRank để
tóm tắt đơn văn bản và kết quả cài đặt ứng dụng thử nghiệm của nó.
Kết luận: Tóm lƣợc kết quả đạt đƣợc của luận văn và định hƣớng phát triển tƣơng
lai.
2
CHƢƠNG 1
TỔNG QUAN TÓM TẮT VĂN BẢN
1.1. Giới thiệu chung về khai phá dữ liệu
1.1.1 Sự cần thiết của khai phá dữ liệu
Khoảng hơn một thập kỷ trở lại đây, lƣợng thông tin đƣợc lƣu trữ trên các
thiết bị điện tử (đĩa cứng, CD-ROM, băng từ…) không ngừng tăng lên. Sự tích lũy
dữ liệu này xảy ra với một tốc độ bùng nổ. Ngƣời ta ƣớc đoán rằng lƣợng thông tin
trên toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó số lƣợng cũng nhƣ kích
cỡ của các cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chóng.
Data Mining ra đời nhƣ một hƣớng giải quyết hữu hiệu cho câu hỏi vừa đặt
ra ở trên. Có nhiều định nghĩa về Data Mining và sẽ đƣợc đề cập ở phần sau, tuy
nhiên có thể tạm hiểu rằng Data Mining nhƣ là một công nghệ tri thức giúp khai
thác những thông tin hữu ích từ những kho dữ liệu đƣợc tích trữ trong suốt quá trình
hoạt động của một công ty, tổ chức nào đó [4].
1.1.2 Khai phá dữ liệu
Khai phá dữ liệu đƣợc dùng để mô tả quá trình phát hiện ra tri thức trong
CSDL. Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho việc dự báo
trong kinh doanh, các hoạt động sản xuất,... Khai phá dữ liệu làm giảm chi phí về
thời gian so với phƣơng pháp truyền thống trƣớc kia (ví dụ nhƣ phƣơng pháp thống
kê) [4].
Sau đây là một số định nghĩa mang tính mô tả của nhiều tác giả về khai phá
dữ liệu.
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phƣơng pháp
đƣợc dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ
và các mẫu chƣa biết bên trong dữ liệu”
Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thông tin chƣa biết và bất ngờ trong CSDL lớn”
3
Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình không tầm
thƣờng nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu
đƣợc”.
Thuật ngữ Data Mining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ
một số lƣợng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện đƣợc dùng cũng có nghĩa
tƣơng tự với từ Data Mining nhƣ Knowledge Mining (khai phá tri thức),
Knowledge Extraction (chắt lọc tri thức), Data/patern Analysis (phân tích dữ
liệu/mẫu), Data Archaeoloogy (khảo cổ dữ liệu), Data Dredging (nạo vét dữ liệu),...
1.1.2.1 Data Mining
Quy trình Data Mining.
Khai phá
dữ liệu
Đổi dạng
Tri thức
Tiền xử
lý
Mẫu
Dữ liệu
chuyển
dạng
Chọn lựa
Dữ liệu
đích
Đánh giá
và trình
diễn
Dữ liệu
đã tiền
xử lý
Hình 1.1: Quy trình Data Mining
1. Làm sạch dữ liệu (Data cleaning & Preprocessing): Loại bỏ nhiễu và các dữ
liệu không cần thiết.
2. Tích hợp dữ liệu (Data Integration): quá trình hợp nhất dữ liệu thành những
kho dữ liệu (Data Warehouses & Data Marts) sau khi đã làm sạch và tiền xử lý
(Data cleaning & Preprocessing).
3. Trích chọn dữ liệu (Data Selection): trích chọn dữ liệu từ những kho dữ liệu
và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình
này bao gồm cả việc xử lý với dữ liệu nhiễu (Noisy data), dữ liệu không đầy đủ
(Incomplete data)….
4
4. Chuyển đổi dữ liệu: Các dữ liệu đƣợc chuyển đổi sang các dạng phù hợp cho
quá trình xử lý.
5. Khai phá dữ liệu (Data Mining): Là một trong các bƣớc quan trọng nhất,
trong đó sử dụng những phƣơng pháp thông minh để chắt lọc ra những mẫu dữ liệu.
6. Ƣớc lƣợng mẫu (Knowledge Evaluation): Quá trình đánh giá các kết quả tìm
đƣợc thông qua các độ đo nào đó.
7. Biểu diễn tri thức (Knowledge Presentation): Quá trình này sử dụng các kỹ
thuật để biểu diễn và thể hiện trực quan cho ngƣời dùng.
Mục đích của khai phá dữ liệu:
Khai phá dữ liệu cần sử dụng kiến thức từ nhiều ngành và nhiều lĩnh vực
khác nhau nhƣ thống kê, trí tuệ nhân tạo, CSDL, tính toán song song,… Đặc biệt,
nó rất gần gũi với lĩnh vực thống kê, sử dụng các phƣơng pháp thống kê để mô hình
hóa dữ liệu và phát hiện các mẫu.
Ứng dụng tổng quan:
- Cung cấp tri thức và hỗ trợ ra quyết định.
- Dự báo.
- Khái quát dữ liệu.
Ứng dụng thực tế:
- Bảo hiểm, tài chính, thị trƣờng chứng khoán: phân tích tình hình tài chính
của một công ty dựa trên báo cáo tài chính; dựa vào dữ liệu về thị trƣờng chứng
khoán để dự đoán đƣợc giá cổ phiếu, phát hiện gian lận…
- Thống kê phân tích dữ liệu và hỗ trợ ra quyết định.
- Y học: dựa vào mối quan hệ giữa các triệu chứng để chuẩn đoán bệnh và
hƣớng điều trị.
- Mạng viễn thông: phân tích các cuộc gọi điện thoại để dự đoán hƣớng
ngƣời dùng và đƣa ra dự đoán hƣớng dịch vụ.
5
-Bán hàng: phân tích các mặt hàng để dự đoán nhu cầu ngƣời dùng để đƣa ra
hƣớng phát triển đúng cho nhà sản xuất…
Ngoài ra, khai thác dữ liệu còn ứng dụng vào trong rất nhiều lĩnh vực khác
nhau của đời sống giúp đƣa ra những giải pháp hiệu quả cho các vấn đề nan giải của
đời sống.
1.1.2.2 Text Mining
Text Mining là một dạng nhỏ của Data mining. Tóm tắt văn bản cũng là một
phần chủ yếu của Text Mining.
Một phần quan trọng các thông tin có sẵn từ lƣu trữ trong cơ sở dữ liệu văn
bản (hoặc tài liệu cơ sở dữ liệu) gồm tập hợp rất lớn các tài liệu từ nhiều nguồn
khác nhau, nhƣ báo mới, các bài báo nghiên cứu, sách, thƣ viện điện tử, các trang
web hay thậm chí là hầu hết các thông tin chính phủ, công nghiệp, thƣơng mại và
các viện nghiên cứu đều lƣu trữ dƣới dạng điện tử… Cơ sở dữ liệu văn bản phát
triển nhanh do sự tăng lên đến chóng mặt của lƣợng thông tin điện tử có sẵn, các
xuất bản điện tử, các loại khác của tài liệu điện tử, thƣ điện tử và World Wide Web
(có thể xem nhƣ một lƣợng cơ sở dữ liệu lớn, liên kết và tự động)…. Gây khó khăn
trong việc tiếp nhận nội dung chính của nó.
Dữ liệu lƣu trữ trong CSDL văn bản là dữ liệu bán cấu trúc tức là chúng
không hoàn toàn phi cấu trúc cũng không hoàn toàn cấu trúc. Ví dụ: một tài liệu có
thể chứa một vài trƣờng cấu trúc nhƣ tiêu đề, tên tác giả, ngày xuất bản, phân loại.
Nhƣng cũng có thể chứa một lƣợng lớn các trƣờng phi cấu trúc nhƣ phần tóm tắt
hay nội dung của tài liệu.
Từ những vấn đề nêu trên, các kỹ thuật tìm kiếm tỏ ra không tƣơng xứng vì
ngƣời ta thậm chí không biết bên trong dữ liệu chứa gì nên thật khó để đƣa ra câu
truy vấn hiệu quả cho việc truy vấn và trích rút các thông tin từ dữ liệu cũng nhƣ
sắp xếp các thông tin dữ liệu. Do đó vấn đề đặt ra là làm sao có thể tìm kiếm và
khai thác nguồn dữ liệu nhƣ vậy. Các kỹ thuật để giải quyết vấn đề này đƣợc gọi là
Text Mining hay khai phá dữ liệu văn bản…
6
Quy trình:
Nguồn dữ liệu
Thu thập văn bản
Tiền xử lý
Làm sạch
Phân tích
Xử lý văn bản
Hiển thị văn bản
Hình 1.2: Quy trình Text Mining.
Các bài toán điển hình:
- Phân lớp văn bản.
- Phân loại văn bản.
- Đánh chỉ mục - tìm kiếm.
- Tóm tắt văn bản…
1.2. Tóm tắt văn bản tự động
1.2.1. Tóm tắt văn bản
Theo Inderjeet Mani, tóm tắt văn bản tự động nhằm đến mục đích: “Trích
xuất nội dung từ một nguồn thông tin và trình bày nội dung quan trọng nhất cho
7
người sử dụng theo một khuôn dạng xúc tích và gây cảm xúc với người sử dụng
hoặc chương trình cần nhắm đến”[14].
Kết quả đầu ra của một hệ thống tóm tắt văn bản phải đảm bảo các đặc
điểm:
Giảm nội dung thông tin: Lƣợng nội dung trong văn bản tóm tắt phải ít hơn
so với văn bản gốc, nhƣng phải đảm bảo vẫn còn những thông tin quan trọng, nổi bật.
- Độ rút gọn: Là tỉ số giữa đơn vị ngữ liệu của văn bản kết quả trên số
lƣợng đơn vị ngữ liệu của tập văn bản nào.
- Tỷ lệ này có thể là câu/câu, từ/từ, tiếng/tiếng, thƣờng tính bằng (%)
- Độ rút gọn tỉ lệ thuận với độ khó của thuật toán.
- Các văn bản tóm tắt thƣờng có một chiều dài nhất định đƣợc mong muốn.
Nội dung thông tin: Phải trung thực hoặc tƣơng đƣơng với văn bản nguồn.
- Phải liên quan,phù hợp với yêu cầu của ngƣời dùng.
- Đƣợc đánh giá dựa trên hệ thống đánh giá SUMMAC, ROUGE … và tập
các dữ liệu, kiểm thử mẫu (Corpus). Độ chính xác tỷ lệ thuận với độ khó của
thuật toán.
Định dạng tốt:
- Định dạng tốt về ngữ pháp và cấu trúc diễn ngôn (cấu trúc nội dung của
từng loại văn bản) [6].
- Đọc và hiểu đƣợc đối với ngƣời dùng.
- Một hệ thống đƣợc đánh giá cũng dựa trên độ dễ đọc, dễ hiểu để thay thế
cho tiêu chí mức độ liên kết này.
Điều cốt lõi của một hệ thống tóm tắt văn bản theo lĩnh vực khai phá văn
bản đó là tìm ra những thành phần quan trọng trong văn bản tóm tắt. Các thành
phần này đƣợc gọi là các đơn vị ngữ liệu. Đơn vị ngữ liệu ở đây có thể hiểu là đơn
vị nhỏ nhất có nghĩa mà ta chọn để trích rút, tóm lƣợc ở câu hoặc đoạn. Các đơn vị
ngữ liệu quan trọng sẽ có xác suất lớn để chứa ý chính hay nội dung quan trọng
của cả đoạn văn hay văn bản. Và sau khi chọn ngữ liệu quan trọng, hệ thống tóm
tắt có thể tóm lƣợc chúng, biến đổi chúng và sau cùng cho hiển thị ra màn hình,
thống kê.
8
Hình 1.3: Minh hoạ trang báo điện tử sử dụng công cụ tóm tắt văn bản.
Tuy nhiên, khi tóm tắt văn bản thì hai yêu cầu đƣợc quan tâm nhất đó là:
- Văn bản tóm tắt phải ngắn hơn văn bản gốc.
- Văn bản tóm tắt phải giữ đƣợc thông tin quan trọng của văn bản gốc.
Do đó, trong quá trình tóm tắt văn bản ngƣời ta thƣờng để ý đến tỉ lệ nén và
tỉ lệ thông tin.
Tỷ lệ nén: Mô tả tỉ lệ nén về độ dài của văn bản tóm tắt so với văn bản gốc.
rl
Ls
Lo
(1.1)
Trong đó:
o
rl : Tỷ lệ nén.
o Ls : Độ dài văn bản tóm tắt.
o Lo : Độ dài văn bản gốc.
Tỷ lệ thông tin (Retention ratio): Mô tả tỷ lệ nén về độ dài của văn bản tóm tắt so
với văn bản gốc.
rs
Cs
Co
(1.2)
9
o
rs : Tỷ lệ thông tin.
o
cs : Số từ mang thông tin của văn bản tóm tắt.
o
co : Số từ mang thông tin của văn bản gốc.
1.2.2. Ứng dụng của tóm tắt văn bản
Tóm tắt văn bản đƣợc ứng dụng vào rất nhiều hệ thống xử lý ngôn ngữ tự
nhiên.
Một số ứng dụng tiêu biểu:
- Tóm tắt tin tức: Ứng dụng cho các hệ thống đọc báo.
- Tóm tắt kết quả tìm kiếm trong máy tìm kiếm từ các search engineer.
- Thu thập dữ liệu thông minh (trợ giúp thông minh việc đọc và khai thác
thông tin).
- Tóm tắt bài báo khoa học, giản lƣợc trên các thiết bị cầm tay.
- Tóm tắt nội dung hội nghị, cuộc họp, webside, chƣơng trình phát thanh và
truyền hình, sổ tay công việc.
- Tóm tắt nội dung video, audio…
Ngoài ra, một số module và kết quả của bài toán cũng là đầu vào hay những
bƣớc tiền xử lý cho bài toàn khác của khai phá dữ liệu văn bản.
1.2.3. Phân loại tóm tắt
Tùy thuộc vào nhân tố khác nhau của quá trình tóm tắt văn bản, các nhân tố
khác nhau có thể phân loại thành những kiểu tóm tắt khác nhau. Trong luận văn này
xin đề cập đến 4 nhân tố cơ bản làm cơ sở cho việc phân loại tóm tắt văn bản đó là:
1.2.3.1. Nhân tố về đầu vào
Tóm tắt đơn văn bản
Từ một văn bản nguồn cho ra bản tóm tắt ngắn gọn của văn bản đó. Bài toán
tóm tắt đơn văn bản cũng giống nhƣ các bài toán tóm tắt khác, là một quá trình tóm
tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn văn bản ngắn gọn mô tả
nội dung chính của văn bản đầu. Văn bản đơn có thể là một trang Web, một nội
dung đăng trên mạng xã hội, một bài báo, một tài liệu dạng văn bản (ví dụ: .doc,
10
.txt)... Tóm tắt văn bản đơn là bƣớc làm cơ sở cho việc xử lý tóm tắt đa văn bản và
các bài toán tóm tắt phức tạp hơn. Các phƣơng pháp nhằm giải quyết bài toán tóm
tắt văn bản đơn cũng tập trung vào hai loại tóm tắt là: tóm tắt theo trích xuất và tóm
tắt theo tóm lƣợc.
- Tóm tắt theo trích xuất
Đa số các phƣơng tóm tắt loại này tập trung vào việc trích xuất ra các câu
hay các ngữ nổi bật từ các đoạn văn bản và kết hợp chúng lại thành một văn bản
tóm tắt. Một số nghiên cứu giai đoạn đầu thƣờng sử dụng các đặc trƣng nhƣ vị trí của
câu trong văn bản, tần số xuất hiện của từ, ngữ hay sử dụng các cụm từ khóa để tính
toán trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn bản
tóm tắt [12], [13].
Các kỹ thuật tóm tắt gần đây sử dụng các phƣơng pháp học máy và xử lý
ngôn ngữ tự nhiên nhằm phân tích để tìm ra các thành phần quan trọng của văn bản.
Sử dụng các phƣơng pháp học máy có thể kể đến phƣơng pháp của Kupiec,
Pendersonand Chen năm 1995 sử dụng phân lớp Bayes để kết hợp các đặc trƣng lại
với nhau [15] hay nghiên cứu của Lin và Hovy năm 1997 áp dụng phƣơng pháp học
máy nhằm xác định vị trí của các câu quan trọng trong văn bản [14]. Bên cạnh đó
việc áp dụng các phƣơng pháp phân tích ngôn ngữ tự nhiên nhƣ sử dụng mạng từ
Wordnet của Barzilay và Elhadad vào năm 1997 [24].
- Tóm tắt theo tóm lƣợc
Các phƣơng pháp tóm tắt không sử dụng trích xuất để tạo ra tóm tắt có thể
xem nhƣ là một phƣơng pháp tiếp cận tóm tắt theo tóm lƣợc. Các hƣớng tiếp cận có
thể kể đến nhƣ dựa vào trích xuất thông tin (Information Extraction), Ontology, hợp
nhất và nén thông tin...
Một trong những phƣơng pháp tóm tắt theo tóm lƣợc cho kết quả tốt là các
phƣơng pháp dựa vào trích xuất thông tin, phƣơng pháp dạng này sử dụng các mẫu
đã đƣợc định nghĩa trƣớc về một sự kiện hay là cốt truyện và hệ thống sẽ tự động
điền các thông tin vào trong mẫu có sẵn rồi sinh ra kết quả tóm tắt. Mặc dù cho ra
kết quả tốt tuy nhiên các phƣơng pháp dạng này thƣờng chỉ áp dụng trong một miền
nhất định [15].
11
- Xem thêm -