Tài liệu Tóm tắt văn bản tiếng việt sử dụng hệ thống học sâu nguyễn thị hiệp thuận. tp. hồ chí minh đại học bách khoa, 2021. b

.PDF

137

thanhphoquetoi Báo vi phạm

Tải xuống 137

Mô tả:

ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA ------------ NGUYỄN THỊ HIỆP THUẬN TÓM TẮT VĂN BẢN TIẾNG VIỆT SỬ DỤNG HỆ THỐNG HỌC SÂU Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 8.48.01.01 LUẬN VĂN THẠC SĨ TP. HỒ CHÍ MINH, tháng 08 năm 2021 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM Cán bộ hướng dẫn khoa học : PGS.TS. Quản Thành Thơ Cán bộ chấm nhận xét 1 : TS. Lê Thanh Vân Cán bộ chấm nhận xét 2 : TS. Nguyễn Lưu Thùy Ngân Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM ngày 06 tháng 08 năm 2021(trực tuyến). Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1. TS. Nguyễn Đức Dũng - Chủ tịch 2. TS. Nguyễn Tiến Thịnh - Thư ký 3. TS. Lê Thanh Vân - Phản biện 1 4. TS. Nguyễn Lưu Thùy Ngân - Phản biện 2 5. TS. Lê Anh Cường - Uỷ viên Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có). CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH i ĈҤ,+Ӑ&48Ӕ&*,$73+&0 75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$ &Ӝ1*+Ñ$;+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0 ĈӝFOұS7ӵGR+ҥQKSK~F 1+,ӊ09Ө/8Ұ19Ă17+Ҥ&6Ƭ +ӑWrQKӑFYLrQ1JX\ӉQ7Kӏ+LӋS7KXұQ06+9 1Jj\WKiQJQăPVLQK1ѫLVLQK/kPĈӗQJ &KX\rQQJjQK.KRDKӑFPi\WtQK0mVӕ , 7Ç1Ĉӄ7¬, 7yPWҳWYăQEҧQWLӃQJ9LӋWVӱGөQJKӋ WKӕQJKӑFVkX ,, 1+,ӊ09Ө9¬1Ӝ,'81* ;k\GӵQJP{KuQKKӑFVkXFy NKҧQăQJWyPWҳWFiFYăQ EҧQEiRFKtWKjQKFiFÿRҥQYăQQJҳQÿҫ\ÿӫQJӳQJKƭDYjFҩXWU~FKӧSOêWUX\ӅQWҧLQӝL GXQJYăQEҧQJӕF ,,, 1*¬<*,$21+,ӊ09Ө ,9 1*¬<+2¬17+¬1+1+,ӊ09Ө 9 &È1%Ӝ+ѬӞ1*'Ү1 3*6764XҧQ7KjQK7Kѫ 7S+&0QJj\WKiQJQăP &È1%Ӝ+ѬӞ1*'Ү1 +ӑWrQYjFKӳNt &+Ӫ1+,ӊ0%Ӝ0Ð1Ĉ¬27Ҥ2 +ӑWrQYjFKӳNt 75ѬӢ1*.+2$.+2$+Ӑ&9¬.Ӻ7+8Ұ70È<7Ë1+ +ӑWrQYjFKӳNt Lời cảm ơn Để hoàn thành bài luận văn này, tôi muốn gửi lời cảm ơn chân thành đến Ban giám hiệu và các thầy cô Trường Đại học Bách Khoa Thành phố Hồ Chí Minh, đã dạy dỗ và hướng dẫn tôi trong suốt những năm học vừa qua. Trong quá trình thực hiện luận văn, nhận được sự hỗ trợ về kiến thức, tài nguyên, ý tưởng và kinh nghiệm từ bạn bè, đồng nghiệp của mình, nay tôi xin chân thành cảm ơn mọi người đã cùng tôi hoàn thiện bài luận văn này. Trên tất cả, lời cảm ơn chân thành nhất xin được gửi đến thầy hướng dẫn đề tài - Phó Giáo sư, Tiến sĩ Quản Thành Thơ. Cảm ơn thầy đã luôn theo sát, định hướng và hỗ trợ, đưa ra những góp ý quan trọng cho công trình nghiên cứu này của tôi. Cuối cùng, vì những hạn chế về mặt thời gian cũng như khả năng trong cách trình bày và viết báo cáo nên không thể tránh khỏi những thiếu sót, rất mong nhận được sự thông cảm và những ý kiến đóng góp từ quý thầy cô và các bạn để giúp tôi hoàn thiện luận văn này tốt hơn. Chân thành cảm ơn. Học viên thực hiện Nguyễn Thị Hiệp Thuận iii Tóm tắt luận văn Những năm gần đây, cùng với sự phát triển nhanh chóng của các kênh truyền thông xã hội, nhiều người dùng từ người viết chuyên nghiệp đến người dùng phổ thông đã đăng các bài viết chất lượng cao dưới dạng blog, ghi chú hoặc bình luận. Tuy nhiên, một lượng lớn các bài viết gốc thường không có phần tóm tắt và tiêu đề, cần được thêm vào bởi các biên tập viên theo cách thủ công để tổng hợp, phân tích hoặc đăng tải ở các diễn đàn chuyên nghiệp. Nhiệm vụ này rất quan trọng vì phần tóm tắt và tiêu đề không chỉ giúp bài viết trở nên chuyên nghiệp hơn mà còn giúp người đọc nắm bắt thông tin nhanh chóng và đầy đủ hơn. Từ nhu cầu thực tế đó, tôi nghiên cứu xây dựng mô hình nhằm tự động hoá nhiệm vụ này. Cụ thể, luận văn này sẽ giới thiệu và đề xuất mô hình Forcing-Seq2Seq, một mô hình tóm tắt văn bản tối ưu và ứng dụng cụ thể vào mục đích đặt tiêu đề tự động cho văn bản. Mô hình Forcing-Seq2Seq được xây dựng kết hợp ưu điểm của các mô hình xử lý ngôn ngữ tự nhiên truyền thống và các mô hình học sâu nâng cao. Tôi đã thử nghiệm phương pháp tiếp cận của mình với bộ dữ liệu thực và thu được kết quả ban đầu đầy hứa hẹn, trên cả số liệu đánh giá tự động bằng giải thuật và đánh giá thủ công của con người. Trong luận văn này, Chương 1 giới thiệu tổng quan về đề tài nghiên cứu. Phần này sẽ trình bày lý do ra đời của mô hình Forcing-Seq2Seq và giới thiệu bài toán tóm tắt văn bản. Ở Chương 2 tập trung thảo luận các nghiên cứu có liên quan đến đề tài này, tập trung phân tích các ưu nhược điểm của các cách tiếp cận nhằm đưa ra giải pháp phù hợp cho bài toán. Đồng thời phần này cũng giới thiệu các lý thuyết liên quan dùng để xây dựng mô hình Forcing-Seq2Seq. Giải pháp đề xuất được trình bày cụ thể trong phần tiếp theo. Chương 3 thảo luận và phân tích chi tiết mô hình Forcing-Seq2Seq . Trong Chương 4, quá trình hiện thực đề tài bao gồm chuẩn bị tập dữ liệu và huấn luyện hệ thống sẽ được tập trung thảo luận cũng như các kết quả thực nghiệm sẽ được trình bày. Chương 5 đưa ra những đánh giá độ chính xác và tính thực tiễn của mô hình Forcing-Seq2Seq. Và cuối cùng, tổng kết các kết quả đạt được cũng như các phân tích về mô hình Forcing-Seq2Seq và định hướng nghiên cứu trong tương lai sẽ được trình bày trong Chương 6. iv Thesis outline With the rapid growth of social media channels, many users from professional writers to general users have posted high-quality articles in the form of blogs, notes or comments. However, a large number of original articles are often untitled, needing to be manually added by editors for synthesis, analysis, or publication in professional forums. To automate this task, this thesis introduce and propose the Forcing-Seq2Seq system, an automatic title generation system. The Forcing-Seq2Seq architecture is built combining the advantages of traditional natural language processing models and advanced deep learning models. We tested our approach with real data sets and got promising initial results, on both automatic and human evaluation metrics. In this thesis, Chapter 1 provides an overview of the research topic. In this part, I will explain the purpose for the Forcing-Seq2Seq system and introduce the text summarization problem. Chapter 2 show some research related to this topic, focusing on analyzing the advantages and disadvantages of the approaches in order to provide a suitable solution to the problem. At the same time, this part also introduces the relevant theories used to build the Forcing-Seq2Seq system. The proposed solution is presented in detail in the next section. Chapter 3 discusses and analyzes the Forcing-Seq2Seq model in detail. In Chapter 4, the process of implementing the topic including preparing the data set and training the system will be discussed and the experimental results will be presented. Chapter 5 gives an assessment of the accuracy and practicality of the Forcing-Seq2Seq model. And finally, the summary of the obtained results as well as the analysis of the Forcing-Seq2Seq model and directions for further research will be presented in Chapter 6. v Lời cam đoan Luận văn của tôi có tham khảo các tài liệu từ nhiều nguồn khác nhau và các nguồn tham khảo này đều được trích dẫn rõ ràng trong phần tài liệu tham khảo. Ngoài những phần được trích dẫn, tôi xin cam đoan toàn bộ nội dung báo cáo là tự soạn thảo dựa trên những tìm hiểu và kết quả thực tế do thí nghiệm mà có. Tôi sẽ hoàn toàn chịu xử lý theo quy định nếu có bất kỳ sai phạm nào xảy ra liên quan đến những gì đã cam đoan. Hồ Chí Minh, ngày 18 tháng 07 năm 2021 Học viên thực hiện Nguyễn Thị Hiệp Thuận vi Mục lục Mục lục vii Danh sách hình vẽ ix Danh sách bảng Chương 1 Giới thiệu 1 Giới thiệu đề tài . . . 2 Lý do chọn đề tài . . 3 Phạm vi đề tài . . . 4 Quá trình thực hiện . x . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 2 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 4 6 8 8 11 12 13 . . . . . . . . . 15 15 16 16 17 17 18 20 20 21 Chương 4 Hiện thực 1 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Kết quả huấn luyện trên mô hình Forcing-Seq2Seq . . . . . . . . . . . . . . 3 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 23 23 24 Chương 5 Đánh giá 1 Đánh giá tự động . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Đánh giá với con người . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 26 26 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Chương 2 Công trình liên quan 1 Các công trình liên quan . . . . . . . . . . . . 1.1 Phương pháp tóm tắt văn bản dựa trên 1.2 Phương pháp tóm tắt văn bản dựa trên 2 Các mô hình nền tảng . . . . . . . . . . . . . 2.1 Mô hình Seq2Seq và cơ chế Attention . 2.2 Hệ số TF-IDF . . . . . . . . . . . . . 2.3 Cơ chế Teacher Forcing . . . . . . . . 2.4 Mô hình ngôn ngữ (Language Model) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . trích xuất [1] tóm lược [2] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Chương 3 Mô hình đề xuất 1 Tổng quan . . . . . . . . . . . . . . . . . . . . . . 2 Cấu trúc của hệ thống Forcing-Seq2Seq . . . . . 2.1 Tiền xử lý văn bản . . . . . . . . . . . . . 2.2 Mô hình Seq2Seq cơ chế attention . . . . . 2.3 Mô hình ngôn ngữ . . . . . . . . . . . . . 2.4 Mô hình TF-IDF và cơ chế Teacher forcing 3 Phương pháp đánh giá . . . . . . . . . . . . . . . 3.1 Phương pháp đánh giá tự động . . . . . . 3.2 Phương pháp đánh giá bằng con người . . vii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Chương 6 Tổng kết 1 Kết luận . . . . . . . . . . . . . . 2 Đánh giá ưu, nhược điểm . . . . . 2.1 Ưu điểm . . . . . . . . . . 2.2 Nhược điểm . . . . . . . . 3 Hướng phát triển trong tương lai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 28 28 28 28 28 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 31 Tài liệu tham khảo 48 viii Danh sách hình vẽ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Ví dụ minh hoạ giao diện trang chủ báo điện tử . . . . . . . . . . . . Kiến trúc hệ thống tóm tắt văn bản dựa trên phương pháp trích xuất Tổng quan kiến trúc mô hình Seq2Seq . . . . . . . . . . . . . . . . . Cấu trúc mạng encoder . . . . . . . . . . . . . . . . . . . . . . . . . . Cấu trúc mạng decoder . . . . . . . . . . . . . . . . . . . . . . . . . . Ví dụ minh hoạ mô hình sử dụng cơ chế Teacher Forcing . . . . . . . Kiến trúc tổng thể của mô hình F orcing − Seq2Seq . . . . . . . . . Kiến trúc mô hình Seq2Seq kết hợp với cơ chế attention . . . . . . . . Huấn luyện mô hình ngôn ngữ . . . . . . . . . . . . . . . . . . . . . . Sử dụng mô hình ngôn ngữ sửa lỗi ngữ pháp . . . . . . . . . . . . . . Sử dụng cơ chế Teacher Forcing tăng hiệu quả tạo tiêu đề . . . . . . Mẫu đánh giá kết quả mô hình đề xuất của tình nguyện viên . . . . Ví dụ tiêu đề được sinh ra từ mô hình Base − Seq2Seq . . . . . . . . Mô hình TF-IDF xác định từ quan trọng nhất trong văn bản gốc . . Tạo tiêu đề tự động với mô hình Forcing- Seq2Seq . . . . . . . . . . . ix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 5 8 9 9 13 15 17 18 19 20 22 23 24 24 Danh sách bảng 1 2 3 4 Các tiêu đề tự động tạo ra từ mô hình đề xuất . . Bảng kết quả đánh giá - điểm BLEU . . . . . . . Kết quả đánh giá bằng con người - Điểm hợp lý . Kết quả đánh giá bằng con người - Điểm khả thi x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 26 27 27 Chương 1 1 Giới thiệu Giới thiệu đề tài Ngày nay, thế giới đã và đang chứng kiến sự phát triển nhanh chóng của mạng xã hội, nơi mọi người tìm thấy một kênh thuận tiện để bày tỏ ý tưởng, quan điểm và cảm xúc của mình. Có một số blog, bài đăng và bình luận được thực hiện bởi những người dùng phổ thông rất thú vị và thu hút nhiều sự chú ý của khán giả. Những bài viết đó nhiều lần được các biên tập viên lựa chọn để xuất bản thành những bài báo chất lượng cao. Tuy nhiên, vì là những người viết không chuyên nghiệp, người dùng thường không viết phần tóm tắt và đặt tiêu đề cho bài viết của họ mà thay vào đó các biên tập viên sẽ đảm nhận công việc này. Nhiệm vụ này rất quan trọng vì phần tóm tắt và tiêu đề không chỉ giúp bài viết trở nên chuyên nghiệp hơn mà còn giúp người đọc nắm bắt thông tin nhanh chóng và đầy đủ hơn. Hình 1 là ví dụ minh hoạ giao diện trang chủ của các trang báo điện tử thường hiện thị phần tóm tắt và tiêu đề các bài báo giúp người đọc nắm bắt nhanh thông tin và lựa chọn bài viết phù hợp với nhu cầu của mình. Tuy nhu cầu thực tế là vậy nhưng với số lượng bài viết khổng lồ, công việc tóm tắt bài viết và đặt tiêu đề này làm tiêu tốn tương đối nhiều thời gian và sức lực để xử lý. Đồng thời, vì không phải là tác giả của bài viết, người biên tập thường khó nắm bắt hết quan điểm và nội dung người viết muốn truyền tải làm cho nội dung phần tóm tắt và tiêu đề không bám sát bài viết gốc. Hình 1: Ví dụ minh hoạ giao diện trang chủ báo điện tử Từ nhu cầu thực tế đó cùng với sự phát triển vượt bậc của các kỹ thuật trí tuệ nhân tạo, tôi tập trung nghiên cưú để xây dựng 1 mô hình tự động tóm tắt bài viết tối ưu, ứng dụng cụ thể giải quyết nhu cầu tạo tiêu đề cho bài viết. Với mô hình này, tiêu đề bài viết sẽ được tạo ra tự động trong thời gian ngắn mà vẫn đảm bảo độ dài và văn phạm hợp lý, đồng thời tiêu đề tự động cũng truyền tải được nội dung trọng tâm của văn bản gốc. 1 2 Lý do chọn đề tài Các bất cập và nhu cầu thực tế đã đề cập bên trên vô tình xuất hiện khi tôi nghiên cứu các bài toán xử lý ngôn ngữ tự nhiên áp dụng trên dữ liệu báo chí. Việc thiếu sót tiêu đề cho các bài báo không chỉ gây khó khăn và tốn thời gian cho việc đọc hiểu dữ liệu mà còn dẫn đến việc thiếu dữ liệu, khó khăn, làm giảm độ hiệu quả của các bài phân tích, tổng hợp. Tôi nhận thấy nhu cầu tóm tắt văn bản nhằm tạo tiêu đề tự động không chỉ cần thiết cho người đọc mà còn hỗ trợ được rất nhiều cho các bài toán, hệ thống xử lý ngôn ngữ tự nhiên như : phân loại văn bản, rút trích thông tin, tìm kiếm nội dung, chọn lọc tài liệu, hỗ trợ hệ thống trả lời câu hỏi ... Từ những vấn đề trên, tôi quyết định xây dựng mô hình tóm tắt văn bản ứng dụng giải quyết bài toán tự động đặt tiêu đề cho các bài viết. Đầu tiên là trên tập dữ liệu các bài viết đánh giá thực phẩm của Amazon - một tập dữ liệu tiếng anh phổ biến có sẳn với chất lượng đảm bảo. Sau đó, tôi muốn phát triển mô hình này thành hệ thống tổng quan có thể áp dụng trên tất cả các loại bài viết, cho cả tiếng việt và tiếng anh. Khi áp dụng mô hình này, tiêu đề tự động được tạo ra giúp tự động hoá quá trình đặt tiêu đề thủ công của biên tập viên. Đồng thời, hệ thống này cũng giúp bổ sung dữ liệu tiêu đề tóm tắt, là đầu vào chất lượng cho các bài phân tích, thống kê, xử lý ngôn ngữ tự nhiên. 3 Phạm vi đề tài Để tập trung giải quyết các vấn đề thực tiễn được nêu lên ở trên, phạm vi đề tài được giới hạn như sau: • Xây dựng một mô hình tóm tắt văn bản cải tiến, ứng dụng vào giải quyết bài toán tự động tạo tiêu đề từ văn bản gốc. • Văn bản sử dụng là các bài bình luận về thực phẩm trên trang web Amazon đã được thu thập và công khai trên diễn đàn Kaggle. • Đánh giá được mô hình về mức độ hoàn thiện, độ chính xác và tính ứng dụng của kết quả. • Tổng hợp, trình bày và bảo vệ kết quả đề tài như một công trình nghiên cứu khoa học hoàn thiện. 4 Quá trình thực hiện Quá trình thực hiện luận văn này trải qua 4 giai đoạn: Giai đoạn 1: Tìm hiểu những công trình nghiên cứu liên quan đến bài toán tóm tắt văn bản và tự động tạo tiêu đề. Công việc đầu tiên là tìm hiểu các công trình liên quan, các phương pháp trước đây để giải quyết bài toán tóm tắt văn bản. Sau đó tập trung vào các công trình, mô hình nhằm mục đích tối ưu kết quả tóm tắt văn bản, hướng đến giải quyết nhu cầu tạo tiêu đề tự động. 2 Giai đoạn 2: Xây dựng hệ thống tự động tạo tiêu đề từ kiến thức đã thu thập được theo yêu cầu đã đặt ra. Hệ thống xây dựng phải vừa giải quyết được yêu cầu đã đặt ra, khắc phục các hạn chế của các công trình trước đây, vừa phải có đặc tính nổi bật hơn và tạo ra kết quả tốt hơn, hiệu quả và có tính ứng dụng cao hơn các công trình đã nghiên cứu. Giai đoạn 3: Đây là giai đoạn thu thập dữ liệu để huấn luyện. Nhằm mục đích xây dựng và đo đạc độ chính xác cũng như tính ứng dụng của mô hình tự động đặt tiêu đề, tôi đã tiến hành tìm kiếm và thu thập một tập dữ liệu đầy đủ, đúng với nhu cầu của bài toán để huấn luyện và để đánh giá mô hình. Giai đoạn 4: Đây là giai đoạn đánh giá kết quả. Sau khi xây dựng mô hình, tôi đánh giá mô hình của mình bằng cả phương pháp tự động và đánh giá thủ công của các tình nguyện viên, qua đó đánh giá được độ chính xác, tính khả quan và thực nghiệm của kết quả mô hình cũng như rút ra được ưu, nhược điểm và định hướng cải thiện, phát triển mô hình này trong tương lai. 3 Chương 2 1 Công trình liên quan Các công trình liên quan Như đã đề cập ở trên, tôi tập trung tìm hiểu các công trình hướng tới giải quyết bài toán tóm tắt văn bản và các phương pháp cải tiến các công trình này phù hợp với ứng dụng tự động tạo tiêu đề. Thực tế hiện tại, thông qua tìm kiếm tôi cũng nhận thấy không có dự án nghiên cứu cụ thể nào giải quyết chính xác vấn đề tự động tạo tiêu đề của một bài viết mặc dù nhu cầu này rất cần thiết. Nhìn chung, nhiệm vụ tự động tạo tiêu đề có thể được coi là một trường hợp cụ thể của bài toán tóm tắt văn bản. Cụ thể, một bản tóm tắt văn bản được định nghĩa là một đoạn văn được tạo ra từ một hoặc nhiều văn bản, truyền tải thông tin quan trọng và tổng quát của văn bản gốc và ngắn hơn đáng kể so với văn bản gốc, thường có độ dài không quá một nữa độ dài văn bản gốc. Tự động tóm tắt văn bản là nhiệm vụ tạo ra một bản tóm tắt ngắn gọn và trôi chảy trong khi vẫn giữ được nội dung thông tin chính và ý nghĩa tổng thể của văn bản gốc. Vào năm 1958, Luhn của IBM đã trình bày phương pháp tóm tắt tự động đầu tiên cho các bài báo kĩ thuật sử dụng phương pháp thống kê thông qua tần suất và phân bố của các từ trong văn bản [3]. Trong suốt hơn 60 năm phát triển của tóm tắt văn bản, cùng với tốc độ phát triển vũ bão của ngành khoa học máy tính đã có rất nhiều các phương pháp được đề xuất nhằm mục đích xây dựng các hệ thống tóm tắt văn bản tự động với độ chính xác tăng dần, đạt được những thành tựu nhất định, ứng dụng trong nhiều lĩnh vực đời sống [4] [5]. Các nghiên cứu về tóm tắt văn bản tập trung vào hai phương pháp tiếp cận chính là phương pháp dựa trên trích xuất 1 và phương pháp dựa trên tóm lược 2 , với nhiều công trình đạt được kết quả khả quan mà tôi đã tìm hiểu và sẽ trình bày dưới đây. 1.1 Phương pháp tóm tắt văn bản dựa trên trích xuất [1] Trong 2 cách tiếp cận, cách tiếp cận dựa trên trích xuất phổ biến hơn, bởi độ phức tạp không quá lớn và vẫn đảm bảo được yêu cầu của một văn bản tóm tắt cần đạt được. Cách tiếp cận này chọn ra các câu văn, cụm từ mang ý nghĩa chính và quan trọng nhất của văn bản gốc, sau đó tổng hợp lại tạo ra một bản tóm tắt. Nó sẽ cân nhắc độ quan trọng của các câu văn, cụm từ và xếp hạng chúng dựa trên mức độ quan trọng và tương đồng lẫn nhau. Từ đó lựa ra các câu văn, cụm từ quan trọng nhất dựa trên điểm đánh giá và tổng hợp thành bản tóm tắt mà không thay đổi hay thêm bớt bất kì từ ngữ nào của văn bản gốc. Có nhiều phương pháp xây dựng công thức tính điểm cho mỗi câu trong văn bản gốc. Một số nghiên cứu giai đoạn đầu thường sử dụng các đặc trưng như vị trí của câu trong văn bản, tần số xuất hiện của từ ngữ hay sử dụng các cụm từ khóa để tính toán trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn bản tóm tắt [6]. Các kỹ thuật tóm tắt gần đây hơn sử dụng các phương pháp học máy và xử 1 2 Extraction-based Ábstraction-based 4 lý ngôn ngữ tự nhiên nhằm phân tích để tìm ra các thành phần quan trọng của văn bản. Các công trình tiêu biểu có thể kể đến phương pháp của Kupiec,Penderson and Chen năm 1995 sử dụng phân lớp Bayes để kết hợp các đặc trưng lại với nhau [7], công trình nghiên cứu của Lin và Hovy năm 1997 áp dụng phương pháp học máy nhằm xác định vị trí của các câu quan trọng trong văn bản [8] và phương pháp áp dụng các phân tích ngôn ngữ tự nhiên như sử dụng mạng từ Wordnet của Barzilay và Elhadad vào năm 1997 [9].Một trong những phương pháp nổi bật nhất có thể kể đến phương pháp Text-Rank [10], một phương pháp cải tiến của kĩ thuật Page-Rank tính điểm các đỉnh trong lý thuyết đồ thị để tính điểm các câu trong bài viết dựa vào mức độ liên kết của mỗi câu văn với các câu văn khác. Phương pháp TF-IDF 3 - phương thức thống kê phổ biến thường được sử dụng trong truy xuất thông tin văn bản cũng được sử dụng như một công thức tính điểm quan trọng của các câu văn trong văn bản [11]. Hình 2 miêu tả tổng quan các bước thực hiện tóm tắt văn bản theo phương pháp trích xuất. Hình 2: Kiến trúc hệ thống tóm tắt văn bản dựa trên phương pháp trích xuất Dưới đây là một ví dụ minh hoạ cho kết quả tóm tắt văn bản dựa trên phương pháp trích xuất: Văn bản gốc: Joseph và Mary cưỡi một con lừa đi tham gia sự kiện hằng năm ở Jerusalem. Cũng ở thành phố này, Mary sinh ra đứa bé đặt tên là Jesus. 3 Term frequency – inverse document frequency 5 Văn bản tóm tắt bằng phương pháp trích xuất: Joseph và Mary tham gia sự kiện ở Jerusalem. Mary sinh Jesus. Ưu điểm của phương pháp tóm tắt văn bản dựa trên trích xuất là thuật toán đơn giản, dể hiểu, dể thực hiện và thời gian huấn luyện khá nhanh, tuy nhiên khuyết điểm là dể sai ngữ pháp và văn bản tóm tắt thường rời rạc, thiếu mạch lạc, tự nhiên. 1.2 Phương pháp tóm tắt văn bản dựa trên tóm lược [2] Các phương pháp tóm tắt văn bản dựa trên tóm lược sẽ xây dựng một mạng neural để huấn luyện các mối quan hệ giữa đầu vào và đầu ra, phương pháp này không chỉ đơn thuần là sao chép các từ từ văn bản gốc như tóm tắt văn bản dựa trên trích xuất mà là sinh ra các cụm từ, câu văn mới ngắn gọn, xúc tích thể hiện nội dung văn bản gốc như cách con người thực hiện tóm tắt văn bản. Các phương pháp tóm tắt văn bản dựa trên tóm lược chọn các từ dựa trên sự hiểu biết ngữ nghĩa, ngay cả khi những từ đó không xuất hiện trong văn bản gốc. Khi phương pháp này được áp dụng để tóm tắt văn bản, nó có thể khắc phục sự không nhất quán về ngữ pháp của phương pháp tóm tắt văn bản dựa trên trích xuất, tạo nên các bản tóm tắt trôi chảy, mạch lạc và tự nhiên hơn. Dưới đây là một ví dụ minh hoạ cho kết quả tóm tắt văn bản dựa trên phương pháp tóm lược: Văn bản gốc: Joseph và Mary cưỡi một con lừa đi tham gia sự kiện hằng năm ở Jerusalem. Cũng ở thành phố này, Mary sinh ra đứa bé đặt tên là Jesus. Văn bản tóm tắt bằng phương pháp dựa trên tóm lược: Joseph và Mary đến Jerusalem, nơi mà Jesus. Phương pháp tóm tắt văn bản dựa trên tóm lươc có vẻ ưu việt hơn so với phương pháp tóm tắt văn bản dựa trên trích xuất, văn bản sinh ra thường nhất quán về mặt ngữ pháp và trôi chảy mạch lạc hơn . Tuy nhiên phương pháp này thường đòi hỏi sử dụng các giải thuật học sâu 4 phức tạp và thời gian huấn luyện lâu hơn. Chính vì vậy các thuật toán tóm tắt văn bản bằng phương pháp tóm lược đến nay vẫn còn hạn chế về độ chính xác và tốc độ thực thi khi áp dụng thực tế, đặc biệt là trên các văn bản dài. Với mục tiêu chính là giải quyết bài toán tạo tiêu đề tự động, phương pháp tóm tắt dựa trên tóm lược phát huy được nhiều thế mạnh khi sinh ra văn bản mới ngắn gọn, xúc tích mạch lạc, thể hiện được các ý chính của văn bản gốc bằng các từ ngữ linh hoạt. Chính vì vậy, tôi tập trung tìm hiểu một số nghiên cứu nổi bật theo phương pháp này, nhằm học hỏi kinh nghiệm để xây dựng kiến trúc mô hình của bài luận văn này. Các công trình liên được trình bày chi tiết dưới đây: • Trong một nghiên cứu khá nổi tiếng gần đây: "Abstractive and Extractive Text Summarization using Document Context Vector and Recurrent Neural Networks" [12], tác giả đề xuất mô hình xây dựng vector ngữ cảnh văn bản 5 kết hợp cùng mô hình Mô hình mã hóa và giải mã 6 (Seq2Seq), áp dụng cho cả 2 hướng tiếp cận trích xuất 4 Deep learning Document Context Vector 6 Sequence-to-Sequence 5 6 và tóm lược để giải quyết bài toán tóm tắt văn bản. Từ so sánh các kết quả thực nghiệm, các tác giả chứng minh được rằng việc áp dụng mô hình xây dựng vector ngữ cảnh văn bản kết hợp mô hình Seq2Seq theo hướng tiếp cận tóm lược đã đạt được kết quả tốt hơn và có tính khả thi cao cho cả văn bản ngắn và dài. • Mô hình deep-recurrent-generative-decoder (DRGD) [13] được giới thiệu năm 2017, một kiến trúc mới nhằm đưa ra những cải tiến tăng độ hiểu quả cho phương pháp tóm tắt dựa trên tóm lược. Mô hình này là một kiến trúc mạng Seq2Seq có định hướng được kết hợp cùng mô hình deep recurrent generative decoder (DRGN). Kết quả được cải tiến nhờ việc học những thông tin tiềm ẩn trong văn bản nhờ mô hình Biến tiềm ẩn lặp lại 7 . Đầu ra của mô hình này được tạo ra dựa trên cả thông tin tiềm ẩn được xác định dựa vào mô hình Biến tiềm ẩn lặp lại và trạng thái kết quả của mô hình Seq2Seq. Cấu trúc này đạt được những cải tiến rõ rệt so với các nghiên cứu trước đó. • Năm 2015, một nghiên nghiên cứu có mục đích gần với nghiên cứu của tôi được báo cáo chi tiết trong bài báo "Generating news headlines with recurrent neural networks" [14], trong đó các tác giả mô tả một ứng dụng của mô hình Seq2Seq với các nốt mạng Bộ nhớ ngắn dài hạn8 (LSTM) kết hợp với cơ chế chú ý 9 để hoàn thiện mô hình sinh ra dòng tít nổi bật từ nội dung các bài báo. Mô hình này tạo ra một bản tóm tắt ngắn gọn, hợp lệ và đúng ngữ pháp. Mô hình này cũng là nguồn cảm hứng và tiền đề cho tôi nghiên cứu, tìm hiểu các phương pháp xây dựng mô hình cải tiến hơn nữa phương pháp được đề xuất trong bài báo trên. Sau khi tìm hiểu các bài nghiên cứu, tôi nhận thấy rằng dù có nhiều điểm tương đồng với bài toán tóm tắt văn bản, mô hình tạo tiêu đề tự động cũng thể hiện nhiều vấn đề khác biệt mà các mô hình trước đây chưa giải quyết được, có thể kể đến là : • Tiêu đề tạo ra thường phải ngắn gọn hơn rất nhiều so với phần tóm tắt. Nếu như phần tóm tắt thường là một đoạn văn có độ dài không quá một nữa độ dài văn bản gốc thì tiêu đề thường chỉ được tóm gọn trong một đến hai câu văn. • Dù giảm độ dài đáng kể, tiêu đề vẫn phải nắm bắt được các từ khóa chính và quan trọng nhất của văn bản gốc, thường là các đối tượng chính được đề cập trong văn bản gốc. Trong phạm vi các văn bản là bài viết về thực phẩm, mỗi bài viết thường nhắc đến đánh giá một hoặc một vài loại thực phẩm, tiêu đề tự động yêu cầu phải trích xuất được thông tin chủ chốt này. • Tiêu đề tạo ra cần đảm bảo đúng đắn về mặt ngữ pháp và từ ngữ, tránh các hiện lặp từ hay xảy ra ở tóm tắt văn bản. • Cùng với đó, tiêu đề tạo tự động vẫn cần duy trì văn phong của tác giả bài viết gốc. 7 Recurrent Latent Variable Long short-term memory 9 Attention mechanism 8 7 Hướng tới giải quyết các vấn đề trên, tôi nghiên cứu sâu hơn những ưu điểm của các mô hình hiện có và nắm bắt các kiến trúc mới phù hợp với bài toán nhằm mục đích kết hợp tại ra mô hình tạo tiêu đề tự động có kết quả tối ưu nhất, giải quyết được các yêu cầu đề ra ở trên. Các mô hình nền tảng liên quan sẽ được trình bày chi tiết dưới đây. 2 Các mô hình nền tảng 2.1 Mô hình Seq2Seq và cơ chế Attention Ngày nay, mô hình Seq2Seq là một trong những mô hình mạng neural được sử dụng nhiều nhất trong các công trình nghiên cứu xử lý ngôn ngữ tự nhiên như dịch máy 10 , trợ lý ảo 11 , nhận dạng đối tượng 12 . Chính vì lẽ đó nên nó cũng được ứng dụng rộng rãi trong các mô hình tóm tắt văn bản dựa trên tóm lược. Với mỗi ứng dụng, mô hình Seq2Seq được xây dựng với các thông tin đầu vào và đầu ra tương ứng với mục đích giải quyết bài toán. Với bài toán dịch máy,đầu vào là chuỗi văn bản từ ngôn ngữ gốc và đầu ra là chuỗi văn bản ở ngôn ngữ đích. Ví dụ bài toán dịch máy từ tiếng anh sang tiếng việt: đầu vào là "I go to school" thì đầu ra sẽ là "Tôi đi học". Với bài toán tóm tắt văn bản, đầu vào sẽ là văn bản gốc và đầu ra sẽ là bản tóm tắt tương ứng với văn bản gốc đó. Với mục đích đó, chúng ta có thể thực hiện bài toán này bằng mô hình Many-to-many Seq2seq với đầu vào và đầu ra có độ dài khác nhau. Cụ thể, mô hình Seq2Seq bao gồm 2 phần: bộ mã hóa 13 và bộ giải mã 14 với chức năng đúng như tên gọi của nó. Bộ mã hóa chuyển đổi một tài liệu đầu vào thành vector trạng thái và bộ giải mã tạo thành đoạn tóm tắt từ vector đó. Hình 3 mô tả tổng quan kiến trúc mô hình Seq2Seq. Hình 3: Tổng quan kiến trúc mô hình Seq2Seq Encoder: Cấu trúc mạng Encoder được mô tả trong hình 4. 10 Machine translation Chatbot 12 Named Entity Recognition 13 Encoder 14 Decoder 11 8 Hình 4: Cấu trúc mạng encoder Một mạng lưới nhiều lớp mạng noron (trong đó các mạng RNN15 , LSTM16 thường cho hiệu suất tốt nhất), lưới mạng này nhận vào lần lượt các phần tử của văn bản đầu vào, thu thập thông tin của các phần tử này và truyền về phía trước. Công thức của lớp i có thể biểu diễn như sau: hi = f (W (hh) hi−1 + W (hx) xi ) (1) Đây là công thức đại diện cho mỗi tầng mạng , trong đó kết quả của mạng thứ i là sự kết hợp có trọng số của mạng trước đó (i-1) và phần tử thứ i nhận vào. Encoder Vector: Là vector sinh ra từ kết quả tầng cuối cùng của mạng encoder, đóng gói tất cả thông tin từ văn bản đầu vào. Vector này được sử dụng là đầu vào cho mạng Decoder Decoder: Cấu trúc mạng Decoder được mô tả trong hình 5. Hình 5: Cấu trúc mạng decoder Decoder cũng là một mạng lưới nhiều tầng noron, nhận nhiệm vụ dự đoán cho mỗi đầu ra y theo từng bước dự đoán i. và là các mã thông báo đặc biệt được thêm 15 16 Recurrent Neural Network Long Short Term Nemory 9

- Xem thêm -

Tài liệu Tóm tắt văn bản tiếng việt sử dụng hệ thống học sâu nguyễn thị hiệp thuận. tp. hồ chí minh đại học bách khoa, 2021. b

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất