ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
------------
NGUYỄN THỊ HIỆP THUẬN
TÓM TẮT VĂN BẢN TIẾNG VIỆT
SỬ DỤNG HỆ THỐNG HỌC SÂU
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 8.48.01.01
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 08 năm 2021
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM
Cán bộ hướng dẫn khoa học : PGS.TS. Quản Thành Thơ
Cán bộ chấm nhận xét 1 : TS. Lê Thanh Vân
Cán bộ chấm nhận xét 2 : TS. Nguyễn Lưu Thùy Ngân
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG
Tp. HCM ngày 06 tháng 08 năm 2021(trực tuyến).
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. TS. Nguyễn Đức Dũng
-
Chủ tịch
2. TS. Nguyễn Tiến Thịnh
-
Thư ký
3. TS. Lê Thanh Vân
-
Phản biện 1
4. TS. Nguyễn Lưu Thùy Ngân
-
Phản biện 2
5. TS. Lê Anh Cường
-
Uỷ viên
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành
sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA KHOA HỌC
VÀ KỸ THUẬT MÁY TÍNH
i
ĈҤ,+Ӑ&48Ӕ&*,$73+&0
75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$
&Ӝ1*+Ñ$;+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0
ĈӝFOұS7ӵGR+ҥQKSK~F
1+,ӊ09Ө/8Ұ19Ă17+Ҥ&6Ƭ
+ӑWrQKӑFYLrQ1JX\ӉQ7Kӏ+LӋS7KXұQ06+9
1Jj\WKiQJQăPVLQK1ѫLVLQK/kPĈӗQJ
&KX\rQQJjQK.KRDKӑFPi\WtQK0mVӕ
, 7Ç1Ĉӄ7¬, 7yPWҳWYăQEҧQWLӃQJ9LӋWVӱGөQJKӋ WKӕQJKӑFVkX
,, 1+,ӊ09Ө9¬1Ӝ,'81* ;k\GӵQJP{KuQKKӑFVkXFy NKҧQăQJWyPWҳWFiFYăQ
EҧQEiRFKtWKjQKFiFÿRҥQYăQQJҳQÿҫ\ÿӫQJӳQJKƭDYjFҩXWU~FKӧSOêWUX\ӅQWҧLQӝL
GXQJYăQEҧQJӕF
,,,
1*¬<*,$21+,ӊ09Ө
,9
1*¬<+2¬17+¬1+1+,ӊ09Ө
9
&È1%Ӝ+ѬӞ1*'Ү1 3*6764XҧQ7KjQK7Kѫ
7S+&0QJj\WKiQJQăP
&È1%Ӝ+ѬӞ1*'Ү1
+ӑWrQYjFKӳNt
&+Ӫ1+,ӊ0%Ӝ0Ð1Ĉ¬27Ҥ2
+ӑWrQYjFKӳNt
75ѬӢ1*.+2$.+2$+Ӑ&9¬.Ӻ7+8Ұ70È<7Ë1+
+ӑWrQYjFKӳNt
Lời cảm ơn
Để hoàn thành bài luận văn này, tôi muốn gửi lời cảm ơn chân thành đến Ban giám hiệu
và các thầy cô Trường Đại học Bách Khoa Thành phố Hồ Chí Minh, đã dạy dỗ và hướng
dẫn tôi trong suốt những năm học vừa qua.
Trong quá trình thực hiện luận văn, nhận được sự hỗ trợ về kiến thức, tài nguyên, ý
tưởng và kinh nghiệm từ bạn bè, đồng nghiệp của mình, nay tôi xin chân thành cảm ơn
mọi người đã cùng tôi hoàn thiện bài luận văn này.
Trên tất cả, lời cảm ơn chân thành nhất xin được gửi đến thầy hướng dẫn đề tài - Phó
Giáo sư, Tiến sĩ Quản Thành Thơ. Cảm ơn thầy đã luôn theo sát, định hướng và hỗ trợ,
đưa ra những góp ý quan trọng cho công trình nghiên cứu này của tôi.
Cuối cùng, vì những hạn chế về mặt thời gian cũng như khả năng trong cách trình bày
và viết báo cáo nên không thể tránh khỏi những thiếu sót, rất mong nhận được sự thông
cảm và những ý kiến đóng góp từ quý thầy cô và các bạn để giúp tôi hoàn thiện luận văn
này tốt hơn.
Chân thành cảm ơn.
Học viên thực hiện
Nguyễn Thị Hiệp Thuận
iii
Tóm tắt luận văn
Những năm gần đây, cùng với sự phát triển nhanh chóng của các kênh truyền thông xã
hội, nhiều người dùng từ người viết chuyên nghiệp đến người dùng phổ thông đã đăng các
bài viết chất lượng cao dưới dạng blog, ghi chú hoặc bình luận. Tuy nhiên, một lượng lớn
các bài viết gốc thường không có phần tóm tắt và tiêu đề, cần được thêm vào bởi các biên
tập viên theo cách thủ công để tổng hợp, phân tích hoặc đăng tải ở các diễn đàn chuyên
nghiệp. Nhiệm vụ này rất quan trọng vì phần tóm tắt và tiêu đề không chỉ giúp bài viết
trở nên chuyên nghiệp hơn mà còn giúp người đọc nắm bắt thông tin nhanh chóng và đầy
đủ hơn. Từ nhu cầu thực tế đó, tôi nghiên cứu xây dựng mô hình nhằm tự động hoá nhiệm
vụ này. Cụ thể, luận văn này sẽ giới thiệu và đề xuất mô hình Forcing-Seq2Seq, một mô
hình tóm tắt văn bản tối ưu và ứng dụng cụ thể vào mục đích đặt tiêu đề tự động cho
văn bản. Mô hình Forcing-Seq2Seq được xây dựng kết hợp ưu điểm của các mô hình xử
lý ngôn ngữ tự nhiên truyền thống và các mô hình học sâu nâng cao. Tôi đã thử nghiệm
phương pháp tiếp cận của mình với bộ dữ liệu thực và thu được kết quả ban đầu đầy hứa
hẹn, trên cả số liệu đánh giá tự động bằng giải thuật và đánh giá thủ công của con người.
Trong luận văn này, Chương 1 giới thiệu tổng quan về đề tài nghiên cứu. Phần này sẽ
trình bày lý do ra đời của mô hình Forcing-Seq2Seq và giới thiệu bài toán tóm tắt văn
bản. Ở Chương 2 tập trung thảo luận các nghiên cứu có liên quan đến đề tài này, tập
trung phân tích các ưu nhược điểm của các cách tiếp cận nhằm đưa ra giải pháp phù hợp
cho bài toán. Đồng thời phần này cũng giới thiệu các lý thuyết liên quan dùng để xây
dựng mô hình Forcing-Seq2Seq. Giải pháp đề xuất được trình bày cụ thể trong phần tiếp
theo. Chương 3 thảo luận và phân tích chi tiết mô hình Forcing-Seq2Seq . Trong Chương
4, quá trình hiện thực đề tài bao gồm chuẩn bị tập dữ liệu và huấn luyện hệ thống sẽ được
tập trung thảo luận cũng như các kết quả thực nghiệm sẽ được trình bày. Chương 5 đưa
ra những đánh giá độ chính xác và tính thực tiễn của mô hình Forcing-Seq2Seq. Và cuối
cùng, tổng kết các kết quả đạt được cũng như các phân tích về mô hình Forcing-Seq2Seq
và định hướng nghiên cứu trong tương lai sẽ được trình bày trong Chương 6.
iv
Thesis outline
With the rapid growth of social media channels, many users from professional writers to
general users have posted high-quality articles in the form of blogs, notes or comments.
However, a large number of original articles are often untitled, needing to be manually
added by editors for synthesis, analysis, or publication in professional forums. To automate
this task, this thesis introduce and propose the Forcing-Seq2Seq system, an automatic title
generation system. The Forcing-Seq2Seq architecture is built combining the advantages
of traditional natural language processing models and advanced deep learning models. We
tested our approach with real data sets and got promising initial results, on both automatic
and human evaluation metrics.
In this thesis, Chapter 1 provides an overview of the research topic. In this part, I will
explain the purpose for the Forcing-Seq2Seq system and introduce the text summarization
problem. Chapter 2 show some research related to this topic, focusing on analyzing the
advantages and disadvantages of the approaches in order to provide a suitable solution
to the problem. At the same time, this part also introduces the relevant theories used to
build the Forcing-Seq2Seq system. The proposed solution is presented in detail in the next
section. Chapter 3 discusses and analyzes the Forcing-Seq2Seq model in detail. In Chapter
4, the process of implementing the topic including preparing the data set and training the
system will be discussed and the experimental results will be presented. Chapter 5 gives
an assessment of the accuracy and practicality of the Forcing-Seq2Seq model. And finally,
the summary of the obtained results as well as the analysis of the Forcing-Seq2Seq model
and directions for further research will be presented in Chapter 6.
v
Lời cam đoan
Luận văn của tôi có tham khảo các tài liệu từ nhiều nguồn khác nhau và các nguồn tham
khảo này đều được trích dẫn rõ ràng trong phần tài liệu tham khảo. Ngoài những phần
được trích dẫn, tôi xin cam đoan toàn bộ nội dung báo cáo là tự soạn thảo dựa trên những
tìm hiểu và kết quả thực tế do thí nghiệm mà có.
Tôi sẽ hoàn toàn chịu xử lý theo quy định nếu có bất kỳ sai phạm nào xảy ra liên quan
đến những gì đã cam đoan.
Hồ Chí Minh, ngày 18 tháng 07 năm 2021
Học viên thực hiện
Nguyễn Thị Hiệp Thuận
vi
Mục lục
Mục lục
vii
Danh sách hình vẽ
ix
Danh sách bảng
Chương 1
Giới thiệu
1
Giới thiệu đề tài . . .
2
Lý do chọn đề tài . .
3
Phạm vi đề tài . . .
4
Quá trình thực hiện .
x
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
2
2
. .
.
. .
. .
. .
. .
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
4
6
8
8
11
12
13
.
.
.
.
.
.
.
.
.
15
15
16
16
17
17
18
20
20
21
Chương 4
Hiện thực
1
Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
Kết quả huấn luyện trên mô hình Forcing-Seq2Seq . . . . . . . . . . . . . .
3
Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
23
23
24
Chương 5
Đánh giá
1
Đánh giá tự động . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
Đánh giá với con người . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
26
26
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Chương 2
Công trình liên quan
1
Các công trình liên quan . . . . . . . . . . . .
1.1
Phương pháp tóm tắt văn bản dựa trên
1.2
Phương pháp tóm tắt văn bản dựa trên
2
Các mô hình nền tảng . . . . . . . . . . . . .
2.1
Mô hình Seq2Seq và cơ chế Attention .
2.2
Hệ số TF-IDF . . . . . . . . . . . . .
2.3
Cơ chế Teacher Forcing . . . . . . . .
2.4
Mô hình ngôn ngữ (Language Model) .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . .
trích xuất [1]
tóm lược [2]
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
Chương 3
Mô hình đề xuất
1
Tổng quan . . . . . . . . . . . . . . . . . . . . . .
2
Cấu trúc của hệ thống Forcing-Seq2Seq . . . . .
2.1
Tiền xử lý văn bản . . . . . . . . . . . . .
2.2
Mô hình Seq2Seq cơ chế attention . . . . .
2.3
Mô hình ngôn ngữ . . . . . . . . . . . . .
2.4
Mô hình TF-IDF và cơ chế Teacher forcing
3
Phương pháp đánh giá . . . . . . . . . . . . . . .
3.1
Phương pháp đánh giá tự động . . . . . .
3.2
Phương pháp đánh giá bằng con người . .
vii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Chương 6
Tổng kết
1
Kết luận . . . . . . . . . . . . . .
2
Đánh giá ưu, nhược điểm . . . . .
2.1
Ưu điểm . . . . . . . . . .
2.2
Nhược điểm . . . . . . . .
3
Hướng phát triển trong tương lai
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
28
28
28
28
28
28
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ
31
Tài liệu tham khảo
48
viii
Danh sách hình vẽ
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Ví dụ minh hoạ giao diện trang chủ báo điện tử . . . . . . . . . . . .
Kiến trúc hệ thống tóm tắt văn bản dựa trên phương pháp trích xuất
Tổng quan kiến trúc mô hình Seq2Seq . . . . . . . . . . . . . . . . .
Cấu trúc mạng encoder . . . . . . . . . . . . . . . . . . . . . . . . . .
Cấu trúc mạng decoder . . . . . . . . . . . . . . . . . . . . . . . . . .
Ví dụ minh hoạ mô hình sử dụng cơ chế Teacher Forcing . . . . . . .
Kiến trúc tổng thể của mô hình F orcing − Seq2Seq . . . . . . . . .
Kiến trúc mô hình Seq2Seq kết hợp với cơ chế attention . . . . . . . .
Huấn luyện mô hình ngôn ngữ . . . . . . . . . . . . . . . . . . . . . .
Sử dụng mô hình ngôn ngữ sửa lỗi ngữ pháp . . . . . . . . . . . . . .
Sử dụng cơ chế Teacher Forcing tăng hiệu quả tạo tiêu đề . . . . . .
Mẫu đánh giá kết quả mô hình đề xuất của tình nguyện viên . . . .
Ví dụ tiêu đề được sinh ra từ mô hình Base − Seq2Seq . . . . . . . .
Mô hình TF-IDF xác định từ quan trọng nhất trong văn bản gốc . .
Tạo tiêu đề tự động với mô hình Forcing- Seq2Seq . . . . . . . . . . .
ix
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
5
8
9
9
13
15
17
18
19
20
22
23
24
24
Danh sách bảng
1
2
3
4
Các tiêu đề tự động tạo ra từ mô hình đề xuất . .
Bảng kết quả đánh giá - điểm BLEU . . . . . . .
Kết quả đánh giá bằng con người - Điểm hợp lý .
Kết quả đánh giá bằng con người - Điểm khả thi
x
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25
26
27
27
Chương 1
1
Giới thiệu
Giới thiệu đề tài
Ngày nay, thế giới đã và đang chứng kiến sự phát triển nhanh chóng của mạng xã hội, nơi
mọi người tìm thấy một kênh thuận tiện để bày tỏ ý tưởng, quan điểm và cảm xúc của
mình. Có một số blog, bài đăng và bình luận được thực hiện bởi những người dùng phổ
thông rất thú vị và thu hút nhiều sự chú ý của khán giả. Những bài viết đó nhiều lần được
các biên tập viên lựa chọn để xuất bản thành những bài báo chất lượng cao. Tuy nhiên,
vì là những người viết không chuyên nghiệp, người dùng thường không viết phần tóm tắt
và đặt tiêu đề cho bài viết của họ mà thay vào đó các biên tập viên sẽ đảm nhận công
việc này. Nhiệm vụ này rất quan trọng vì phần tóm tắt và tiêu đề không chỉ giúp bài viết
trở nên chuyên nghiệp hơn mà còn giúp người đọc nắm bắt thông tin nhanh chóng và đầy
đủ hơn. Hình 1 là ví dụ minh hoạ giao diện trang chủ của các trang báo điện tử thường
hiện thị phần tóm tắt và tiêu đề các bài báo giúp người đọc nắm bắt nhanh thông tin và
lựa chọn bài viết phù hợp với nhu cầu của mình. Tuy nhu cầu thực tế là vậy nhưng với số
lượng bài viết khổng lồ, công việc tóm tắt bài viết và đặt tiêu đề này làm tiêu tốn tương
đối nhiều thời gian và sức lực để xử lý. Đồng thời, vì không phải là tác giả của bài viết,
người biên tập thường khó nắm bắt hết quan điểm và nội dung người viết muốn truyền
tải làm cho nội dung phần tóm tắt và tiêu đề không bám sát bài viết gốc.
Hình 1: Ví dụ minh hoạ giao diện trang chủ báo điện tử
Từ nhu cầu thực tế đó cùng với sự phát triển vượt bậc của các kỹ thuật trí tuệ nhân
tạo, tôi tập trung nghiên cưú để xây dựng 1 mô hình tự động tóm tắt bài viết tối ưu, ứng
dụng cụ thể giải quyết nhu cầu tạo tiêu đề cho bài viết. Với mô hình này, tiêu đề bài viết
sẽ được tạo ra tự động trong thời gian ngắn mà vẫn đảm bảo độ dài và văn phạm hợp lý,
đồng thời tiêu đề tự động cũng truyền tải được nội dung trọng tâm của văn bản gốc.
1
2
Lý do chọn đề tài
Các bất cập và nhu cầu thực tế đã đề cập bên trên vô tình xuất hiện khi tôi nghiên cứu
các bài toán xử lý ngôn ngữ tự nhiên áp dụng trên dữ liệu báo chí. Việc thiếu sót tiêu đề
cho các bài báo không chỉ gây khó khăn và tốn thời gian cho việc đọc hiểu dữ liệu mà còn
dẫn đến việc thiếu dữ liệu, khó khăn, làm giảm độ hiệu quả của các bài phân tích, tổng
hợp. Tôi nhận thấy nhu cầu tóm tắt văn bản nhằm tạo tiêu đề tự động không chỉ cần thiết
cho người đọc mà còn hỗ trợ được rất nhiều cho các bài toán, hệ thống xử lý ngôn ngữ tự
nhiên như : phân loại văn bản, rút trích thông tin, tìm kiếm nội dung, chọn lọc tài liệu,
hỗ trợ hệ thống trả lời câu hỏi ...
Từ những vấn đề trên, tôi quyết định xây dựng mô hình tóm tắt văn bản ứng dụng
giải quyết bài toán tự động đặt tiêu đề cho các bài viết. Đầu tiên là trên tập dữ liệu các
bài viết đánh giá thực phẩm của Amazon - một tập dữ liệu tiếng anh phổ biến có sẳn với
chất lượng đảm bảo. Sau đó, tôi muốn phát triển mô hình này thành hệ thống tổng quan
có thể áp dụng trên tất cả các loại bài viết, cho cả tiếng việt và tiếng anh. Khi áp dụng
mô hình này, tiêu đề tự động được tạo ra giúp tự động hoá quá trình đặt tiêu đề thủ công
của biên tập viên. Đồng thời, hệ thống này cũng giúp bổ sung dữ liệu tiêu đề tóm tắt, là
đầu vào chất lượng cho các bài phân tích, thống kê, xử lý ngôn ngữ tự nhiên.
3
Phạm vi đề tài
Để tập trung giải quyết các vấn đề thực tiễn được nêu lên ở trên, phạm vi đề tài được giới
hạn như sau:
• Xây dựng một mô hình tóm tắt văn bản cải tiến, ứng dụng vào giải quyết bài toán
tự động tạo tiêu đề từ văn bản gốc.
• Văn bản sử dụng là các bài bình luận về thực phẩm trên trang web Amazon đã được
thu thập và công khai trên diễn đàn Kaggle.
• Đánh giá được mô hình về mức độ hoàn thiện, độ chính xác và tính ứng dụng của
kết quả.
• Tổng hợp, trình bày và bảo vệ kết quả đề tài như một công trình nghiên cứu khoa
học hoàn thiện.
4
Quá trình thực hiện
Quá trình thực hiện luận văn này trải qua 4 giai đoạn:
Giai đoạn 1: Tìm hiểu những công trình nghiên cứu liên quan đến bài toán tóm tắt
văn bản và tự động tạo tiêu đề. Công việc đầu tiên là tìm hiểu các công trình liên quan,
các phương pháp trước đây để giải quyết bài toán tóm tắt văn bản. Sau đó tập trung vào
các công trình, mô hình nhằm mục đích tối ưu kết quả tóm tắt văn bản, hướng đến giải
quyết nhu cầu tạo tiêu đề tự động.
2
Giai đoạn 2: Xây dựng hệ thống tự động tạo tiêu đề từ kiến thức đã thu thập được
theo yêu cầu đã đặt ra. Hệ thống xây dựng phải vừa giải quyết được yêu cầu đã đặt ra,
khắc phục các hạn chế của các công trình trước đây, vừa phải có đặc tính nổi bật hơn và
tạo ra kết quả tốt hơn, hiệu quả và có tính ứng dụng cao hơn các công trình đã nghiên
cứu.
Giai đoạn 3: Đây là giai đoạn thu thập dữ liệu để huấn luyện. Nhằm mục đích xây
dựng và đo đạc độ chính xác cũng như tính ứng dụng của mô hình tự động đặt tiêu đề,
tôi đã tiến hành tìm kiếm và thu thập một tập dữ liệu đầy đủ, đúng với nhu cầu của bài
toán để huấn luyện và để đánh giá mô hình.
Giai đoạn 4: Đây là giai đoạn đánh giá kết quả. Sau khi xây dựng mô hình, tôi đánh
giá mô hình của mình bằng cả phương pháp tự động và đánh giá thủ công của các tình
nguyện viên, qua đó đánh giá được độ chính xác, tính khả quan và thực nghiệm của kết
quả mô hình cũng như rút ra được ưu, nhược điểm và định hướng cải thiện, phát triển mô
hình này trong tương lai.
3
Chương 2
1
Công trình liên quan
Các công trình liên quan
Như đã đề cập ở trên, tôi tập trung tìm hiểu các công trình hướng tới giải quyết bài toán
tóm tắt văn bản và các phương pháp cải tiến các công trình này phù hợp với ứng dụng tự
động tạo tiêu đề. Thực tế hiện tại, thông qua tìm kiếm tôi cũng nhận thấy không có dự
án nghiên cứu cụ thể nào giải quyết chính xác vấn đề tự động tạo tiêu đề của một bài viết
mặc dù nhu cầu này rất cần thiết. Nhìn chung, nhiệm vụ tự động tạo tiêu đề có thể được
coi là một trường hợp cụ thể của bài toán tóm tắt văn bản.
Cụ thể, một bản tóm tắt văn bản được định nghĩa là một đoạn văn được tạo ra từ một
hoặc nhiều văn bản, truyền tải thông tin quan trọng và tổng quát của văn bản gốc và ngắn
hơn đáng kể so với văn bản gốc, thường có độ dài không quá một nữa độ dài văn bản gốc.
Tự động tóm tắt văn bản là nhiệm vụ tạo ra một bản tóm tắt ngắn gọn và trôi chảy trong
khi vẫn giữ được nội dung thông tin chính và ý nghĩa tổng thể của văn bản gốc.
Vào năm 1958, Luhn của IBM đã trình bày phương pháp tóm tắt tự động đầu tiên cho
các bài báo kĩ thuật sử dụng phương pháp thống kê thông qua tần suất và phân bố của
các từ trong văn bản [3]. Trong suốt hơn 60 năm phát triển của tóm tắt văn bản, cùng với
tốc độ phát triển vũ bão của ngành khoa học máy tính đã có rất nhiều các phương pháp
được đề xuất nhằm mục đích xây dựng các hệ thống tóm tắt văn bản tự động với độ chính
xác tăng dần, đạt được những thành tựu nhất định, ứng dụng trong nhiều lĩnh vực đời
sống [4] [5].
Các nghiên cứu về tóm tắt văn bản tập trung vào hai phương pháp tiếp cận chính là
phương pháp dựa trên trích xuất 1 và phương pháp dựa trên tóm lược 2 , với nhiều công
trình đạt được kết quả khả quan mà tôi đã tìm hiểu và sẽ trình bày dưới đây.
1.1
Phương pháp tóm tắt văn bản dựa trên trích xuất [1]
Trong 2 cách tiếp cận, cách tiếp cận dựa trên trích xuất phổ biến hơn, bởi độ phức tạp
không quá lớn và vẫn đảm bảo được yêu cầu của một văn bản tóm tắt cần đạt được.
Cách tiếp cận này chọn ra các câu văn, cụm từ mang ý nghĩa chính và quan trọng
nhất của văn bản gốc, sau đó tổng hợp lại tạo ra một bản tóm tắt. Nó sẽ cân nhắc độ
quan trọng của các câu văn, cụm từ và xếp hạng chúng dựa trên mức độ quan trọng và
tương đồng lẫn nhau. Từ đó lựa ra các câu văn, cụm từ quan trọng nhất dựa trên điểm
đánh giá và tổng hợp thành bản tóm tắt mà không thay đổi hay thêm bớt bất kì từ ngữ
nào của văn bản gốc. Có nhiều phương pháp xây dựng công thức tính điểm cho mỗi câu
trong văn bản gốc. Một số nghiên cứu giai đoạn đầu thường sử dụng các đặc trưng như vị
trí của câu trong văn bản, tần số xuất hiện của từ ngữ hay sử dụng các cụm từ khóa để
tính toán trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn bản
tóm tắt [6]. Các kỹ thuật tóm tắt gần đây hơn sử dụng các phương pháp học máy và xử
1
2
Extraction-based
Ábstraction-based
4
lý ngôn ngữ tự nhiên nhằm phân tích để tìm ra các thành phần quan trọng của văn bản.
Các công trình tiêu biểu có thể kể đến phương pháp của Kupiec,Penderson and Chen năm
1995 sử dụng phân lớp Bayes để kết hợp các đặc trưng lại với nhau [7], công trình nghiên
cứu của Lin và Hovy năm 1997 áp dụng phương pháp học máy nhằm xác định vị trí của
các câu quan trọng trong văn bản [8] và phương pháp áp dụng các phân tích ngôn ngữ tự
nhiên như sử dụng mạng từ Wordnet của Barzilay và Elhadad vào năm 1997 [9].Một trong
những phương pháp nổi bật nhất có thể kể đến phương pháp Text-Rank [10], một phương
pháp cải tiến của kĩ thuật Page-Rank tính điểm các đỉnh trong lý thuyết đồ thị để tính
điểm các câu trong bài viết dựa vào mức độ liên kết của mỗi câu văn với các câu văn khác.
Phương pháp TF-IDF 3 - phương thức thống kê phổ biến thường được sử dụng trong truy
xuất thông tin văn bản cũng được sử dụng như một công thức tính điểm quan trọng của
các câu văn trong văn bản [11].
Hình 2 miêu tả tổng quan các bước thực hiện tóm tắt văn bản theo phương pháp trích
xuất.
Hình 2: Kiến trúc hệ thống tóm tắt văn bản dựa trên phương pháp trích xuất
Dưới đây là một ví dụ minh hoạ cho kết quả tóm tắt văn bản dựa trên phương pháp
trích xuất:
Văn bản gốc: Joseph và Mary cưỡi một con lừa đi tham gia sự kiện hằng năm
ở Jerusalem. Cũng ở thành phố này, Mary sinh ra đứa bé đặt tên là Jesus.
3
Term frequency – inverse document frequency
5
Văn bản tóm tắt bằng phương pháp trích xuất: Joseph và Mary tham gia sự
kiện ở Jerusalem. Mary sinh Jesus.
Ưu điểm của phương pháp tóm tắt văn bản dựa trên trích xuất là thuật toán đơn giản,
dể hiểu, dể thực hiện và thời gian huấn luyện khá nhanh, tuy nhiên khuyết điểm là dể sai
ngữ pháp và văn bản tóm tắt thường rời rạc, thiếu mạch lạc, tự nhiên.
1.2
Phương pháp tóm tắt văn bản dựa trên tóm lược [2]
Các phương pháp tóm tắt văn bản dựa trên tóm lược sẽ xây dựng một mạng neural để
huấn luyện các mối quan hệ giữa đầu vào và đầu ra, phương pháp này không chỉ đơn thuần
là sao chép các từ từ văn bản gốc như tóm tắt văn bản dựa trên trích xuất mà là sinh ra
các cụm từ, câu văn mới ngắn gọn, xúc tích thể hiện nội dung văn bản gốc như cách con
người thực hiện tóm tắt văn bản. Các phương pháp tóm tắt văn bản dựa trên tóm lược
chọn các từ dựa trên sự hiểu biết ngữ nghĩa, ngay cả khi những từ đó không xuất hiện
trong văn bản gốc. Khi phương pháp này được áp dụng để tóm tắt văn bản, nó có thể
khắc phục sự không nhất quán về ngữ pháp của phương pháp tóm tắt văn bản dựa trên
trích xuất, tạo nên các bản tóm tắt trôi chảy, mạch lạc và tự nhiên hơn.
Dưới đây là một ví dụ minh hoạ cho kết quả tóm tắt văn bản dựa trên phương pháp
tóm lược:
Văn bản gốc: Joseph và Mary cưỡi một con lừa đi tham gia sự kiện hằng năm ở
Jerusalem. Cũng ở thành phố này, Mary sinh ra đứa bé đặt tên là Jesus.
Văn bản tóm tắt bằng phương pháp dựa trên tóm lược: Joseph và Mary đến
Jerusalem, nơi mà Jesus.
Phương pháp tóm tắt văn bản dựa trên tóm lươc có vẻ ưu việt hơn so với phương pháp
tóm tắt văn bản dựa trên trích xuất, văn bản sinh ra thường nhất quán về mặt ngữ pháp
và trôi chảy mạch lạc hơn . Tuy nhiên phương pháp này thường đòi hỏi sử dụng các giải
thuật học sâu 4 phức tạp và thời gian huấn luyện lâu hơn. Chính vì vậy các thuật toán
tóm tắt văn bản bằng phương pháp tóm lược đến nay vẫn còn hạn chế về độ chính xác và
tốc độ thực thi khi áp dụng thực tế, đặc biệt là trên các văn bản dài.
Với mục tiêu chính là giải quyết bài toán tạo tiêu đề tự động, phương pháp tóm tắt
dựa trên tóm lược phát huy được nhiều thế mạnh khi sinh ra văn bản mới ngắn gọn, xúc
tích mạch lạc, thể hiện được các ý chính của văn bản gốc bằng các từ ngữ linh hoạt. Chính
vì vậy, tôi tập trung tìm hiểu một số nghiên cứu nổi bật theo phương pháp này, nhằm học
hỏi kinh nghiệm để xây dựng kiến trúc mô hình của bài luận văn này. Các công trình liên
được trình bày chi tiết dưới đây:
• Trong một nghiên cứu khá nổi tiếng gần đây: "Abstractive and Extractive Text Summarization using Document Context Vector and Recurrent Neural Networks" [12],
tác giả đề xuất mô hình xây dựng vector ngữ cảnh văn bản 5 kết hợp cùng mô hình
Mô hình mã hóa và giải mã 6 (Seq2Seq), áp dụng cho cả 2 hướng tiếp cận trích xuất
4
Deep learning
Document Context Vector
6
Sequence-to-Sequence
5
6
và tóm lược để giải quyết bài toán tóm tắt văn bản. Từ so sánh các kết quả thực
nghiệm, các tác giả chứng minh được rằng việc áp dụng mô hình xây dựng vector
ngữ cảnh văn bản kết hợp mô hình Seq2Seq theo hướng tiếp cận tóm lược đã đạt
được kết quả tốt hơn và có tính khả thi cao cho cả văn bản ngắn và dài.
• Mô hình deep-recurrent-generative-decoder (DRGD) [13] được giới thiệu năm 2017,
một kiến trúc mới nhằm đưa ra những cải tiến tăng độ hiểu quả cho phương pháp
tóm tắt dựa trên tóm lược. Mô hình này là một kiến trúc mạng Seq2Seq có định
hướng được kết hợp cùng mô hình deep recurrent generative decoder (DRGN). Kết
quả được cải tiến nhờ việc học những thông tin tiềm ẩn trong văn bản nhờ mô hình
Biến tiềm ẩn lặp lại 7 . Đầu ra của mô hình này được tạo ra dựa trên cả thông tin
tiềm ẩn được xác định dựa vào mô hình Biến tiềm ẩn lặp lại và trạng thái kết quả
của mô hình Seq2Seq. Cấu trúc này đạt được những cải tiến rõ rệt so với các nghiên
cứu trước đó.
• Năm 2015, một nghiên nghiên cứu có mục đích gần với nghiên cứu của tôi được
báo cáo chi tiết trong bài báo "Generating news headlines with recurrent neural
networks" [14], trong đó các tác giả mô tả một ứng dụng của mô hình Seq2Seq với
các nốt mạng Bộ nhớ ngắn dài hạn8 (LSTM) kết hợp với cơ chế chú ý 9 để hoàn thiện
mô hình sinh ra dòng tít nổi bật từ nội dung các bài báo. Mô hình này tạo ra một
bản tóm tắt ngắn gọn, hợp lệ và đúng ngữ pháp. Mô hình này cũng là nguồn cảm
hứng và tiền đề cho tôi nghiên cứu, tìm hiểu các phương pháp xây dựng mô hình cải
tiến hơn nữa phương pháp được đề xuất trong bài báo trên.
Sau khi tìm hiểu các bài nghiên cứu, tôi nhận thấy rằng dù có nhiều điểm tương đồng
với bài toán tóm tắt văn bản, mô hình tạo tiêu đề tự động cũng thể hiện nhiều vấn đề
khác biệt mà các mô hình trước đây chưa giải quyết được, có thể kể đến là :
• Tiêu đề tạo ra thường phải ngắn gọn hơn rất nhiều so với phần tóm tắt. Nếu như
phần tóm tắt thường là một đoạn văn có độ dài không quá một nữa độ dài văn bản
gốc thì tiêu đề thường chỉ được tóm gọn trong một đến hai câu văn.
• Dù giảm độ dài đáng kể, tiêu đề vẫn phải nắm bắt được các từ khóa chính và quan
trọng nhất của văn bản gốc, thường là các đối tượng chính được đề cập trong văn
bản gốc. Trong phạm vi các văn bản là bài viết về thực phẩm, mỗi bài viết thường
nhắc đến đánh giá một hoặc một vài loại thực phẩm, tiêu đề tự động yêu cầu phải
trích xuất được thông tin chủ chốt này.
• Tiêu đề tạo ra cần đảm bảo đúng đắn về mặt ngữ pháp và từ ngữ, tránh các hiện
lặp từ hay xảy ra ở tóm tắt văn bản.
• Cùng với đó, tiêu đề tạo tự động vẫn cần duy trì văn phong của tác giả bài viết gốc.
7
Recurrent Latent Variable
Long short-term memory
9
Attention mechanism
8
7
Hướng tới giải quyết các vấn đề trên, tôi nghiên cứu sâu hơn những ưu điểm của các mô
hình hiện có và nắm bắt các kiến trúc mới phù hợp với bài toán nhằm mục đích kết hợp
tại ra mô hình tạo tiêu đề tự động có kết quả tối ưu nhất, giải quyết được các yêu cầu đề
ra ở trên. Các mô hình nền tảng liên quan sẽ được trình bày chi tiết dưới đây.
2
Các mô hình nền tảng
2.1
Mô hình Seq2Seq và cơ chế Attention
Ngày nay, mô hình Seq2Seq là một trong những mô hình mạng neural được sử dụng nhiều
nhất trong các công trình nghiên cứu xử lý ngôn ngữ tự nhiên như dịch máy 10 , trợ lý ảo
11
, nhận dạng đối tượng 12 . Chính vì lẽ đó nên nó cũng được ứng dụng rộng rãi trong các
mô hình tóm tắt văn bản dựa trên tóm lược.
Với mỗi ứng dụng, mô hình Seq2Seq được xây dựng với các thông tin đầu vào và đầu
ra tương ứng với mục đích giải quyết bài toán. Với bài toán dịch máy,đầu vào là chuỗi văn
bản từ ngôn ngữ gốc và đầu ra là chuỗi văn bản ở ngôn ngữ đích. Ví dụ bài toán dịch máy
từ tiếng anh sang tiếng việt: đầu vào là "I go to school" thì đầu ra sẽ là "Tôi đi học". Với
bài toán tóm tắt văn bản, đầu vào sẽ là văn bản gốc và đầu ra sẽ là bản tóm tắt tương
ứng với văn bản gốc đó. Với mục đích đó, chúng ta có thể thực hiện bài toán này bằng mô
hình Many-to-many Seq2seq với đầu vào và đầu ra có độ dài khác nhau.
Cụ thể, mô hình Seq2Seq bao gồm 2 phần: bộ mã hóa 13 và bộ giải mã 14 với chức năng
đúng như tên gọi của nó. Bộ mã hóa chuyển đổi một tài liệu đầu vào thành vector trạng
thái và bộ giải mã tạo thành đoạn tóm tắt từ vector đó. Hình 3 mô tả tổng quan kiến trúc
mô hình Seq2Seq.
Hình 3: Tổng quan kiến trúc mô hình Seq2Seq
Encoder: Cấu trúc mạng Encoder được mô tả trong hình 4.
10
Machine translation
Chatbot
12
Named Entity Recognition
13
Encoder
14
Decoder
11
8
Hình 4: Cấu trúc mạng encoder
Một mạng lưới nhiều lớp mạng noron (trong đó các mạng RNN15 , LSTM16 thường cho
hiệu suất tốt nhất), lưới mạng này nhận vào lần lượt các phần tử của văn bản đầu vào,
thu thập thông tin của các phần tử này và truyền về phía trước.
Công thức của lớp i có thể biểu diễn như sau:
hi = f (W (hh) hi−1 + W (hx) xi )
(1)
Đây là công thức đại diện cho mỗi tầng mạng , trong đó kết quả của mạng thứ i là sự
kết hợp có trọng số của mạng trước đó (i-1) và phần tử thứ i nhận vào.
Encoder Vector:
Là vector sinh ra từ kết quả tầng cuối cùng của mạng encoder, đóng gói tất cả thông
tin từ văn bản đầu vào. Vector này được sử dụng là đầu vào cho mạng Decoder
Decoder: Cấu trúc mạng Decoder được mô tả trong hình 5.
Hình 5: Cấu trúc mạng decoder
Decoder cũng là một mạng lưới nhiều tầng noron, nhận nhiệm vụ dự đoán cho mỗi đầu
ra y theo từng bước dự đoán i. và là các mã thông báo đặc biệt được thêm
15
16
Recurrent Neural Network
Long Short Term Nemory
9
- Xem thêm -