Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Công nghệ thông tin Phát hiện kế thừa văn bản trên dữ liệu twitter...

Tài liệu Phát hiện kế thừa văn bản trên dữ liệu twitter

.PDF
67
195
78

Mô tả:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- ĐẶNG NGỌC TÚ PHÁT HIỆN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU TWITTER LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – 2019 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- ĐẶNG NGỌC TÚ PHÁT HIỆN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU TWITTER CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGÔ XUÂN BÁCH HÀ NỘI – 2019 i LỜI CAM ĐOAN Để có được kết quả học tập đến ngày hôm nay, em xin chân thành gửi đến các thầy cô giáo trong khoa Công Nghệ Thông Tin – Học Viện Công Nghệ Bưu Chính Viễn Thông nói riêng và các thầy cô giáo của trường Học Viện Công Nghệ Bưu Chính Viễn Thông nói chung lời cảm ơn chân thành nhất. Các thầy cô luôn luôn nhiệt huyết truyền đạt cho em những kiến thức về bộ môn và những kinh nghiệm trong thực tế. Và đặc biệt để hoàn thành luận văn này, em xin chân thành cảm ơn thầy TS. Ngô Xuân Bách đã tận tâm hướng dẫn em thực hiện và tìm hiểu mọi vấn đề. Nếu không có những chỉ dẫn của thầy thì rất khó để em có thể tự mình hoàn thành luận văn này. Một lần nữa em xin gửi lời cảm ơn chân thành nhất tới thầy. Bên cạnh đó, em xin gửi lời cảm ơn đến gia đình và những người bạn đã luôn tạo điều kiện tốt nhất và luôn hỗ trợ giúp đỡ em khi gặp khó khăn. Luận văn được thực hiện trong khoảng 2 tháng. Đây cũng là bước đầu em đi sâu tìm hiểu, nghiên cứu và thực nghiệm một đề tài của ngành công nghệ thông tin về xử lý ngôn ngữ tự nhiên. Do vậy, sẽ còn nhiều thiếu sót, em rất mong nhận được những ý kiến đóng góp của quý Thầy Cô và các bạn để em có thể hoàn thiện luận văn một cách tốt nhất. Em xin chân thành cảm ơn! Hà Nội, ngày 13 tháng 02 năm 2019 Đặng Ngọc Tú ii LỜI CẢM ƠN Trước tiên, tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong khoa sau Đại Học nói riêng và các thầy cô giáo của trường Học Viện Công Nghệ Bưu Chính Viễn Thông nói chung lời cảm ơn chân thành nhất. Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới TS. Ngô Xuân Bách người đã tận tình chỉ bảo, hướng dẫn tôi trong suốt quá trình tìm hiểu, nghiên cứu để hoàn thành luận văn tốt nghiệp của mình. Nếu không có những hỗ trợ về kiến thức chuyên môn của thầy thì chắc chắn tôi không thể hoàn thành đúng thời hạn. Đồng thời, tôi xin cảm ơn tới gia đình, những người thân yêu luôn bên cạnh, động viên, giúp đỡ tôi trong suốt quá trình học tập. Bên cạnh đó tôi cũng xin gửi lời cảm ơn đến các anh chị và các bạn trong lớp M17CQIS01-B đã chia sẻ những kinh nghiệm, kiến thức quý báu cho tôi trong quá trình nghiên cứu thực hiện luận văn. Thời gian thực hiện luận văn còn khá ngắn, kinh nghiệm về lĩnh vực xử lý ngôn ngữ tự nhiên của bản thân còn hạn chế, luận văn cũng còn nhiều thiếu sót rất mong nhận được những ý kiến đóng góp của quý Thầy Cô và các bạn để tôi có thể hoàn thiện luận văn một cách tốt nhất. Xin trân trọng cảm ơn! Hà Nội, ngày 13 tháng 02 năm 2019 Tác giả Đặng Ngọc Tú iii MỤC LỤC LỜI CAM ĐOAN ....................................................................................................... i LỜI CẢM ƠN ............................................................................................................ii BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH................................................. v BẢNG DANH SÁCH TỪ VIẾT TẮT .................................................................... vi MỤC LỤC HÌNH ẢNH ..........................................................................................vii MỤC LỤC BẢNG BIỂU ...................................................................................... viii LỜI MỞ ĐẦU ............................................................................................................ 1 CHƯƠNG 1 TỔNG QUAN BÀI TOÁN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU TWITTER ......................................................... Error! Bookmark not defined. 1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên ............................................................. 4 1.2. Khát quát về kế thừa văn bản ........................................................................... 5 1.2.1 Khái niệm kế thừa văn bản ........................................................................ 5 1.2.2. Khái niệm kế thừa văn bản ....................................................................... 6 1.2.3. Phát biểu bài toàn phát hiện kế thừa văn bản ........................................... 7 1.3. Phát hiện kế thừa văn bản trên dữ liệu Twitter ............................................... 8 1.3.1. Khái niệm. ............................................................................................... 8 1.3.2. Phát biểu bài toàn phát hiện kế thừa văn bản trên dữ liệu Twitter. ......... 9 1.4. Các nghiên cứu liên quan.............................................................................. 11 1.5. Kết luận chương 1 .......................................................................................... 12 CHƯƠNG 2 PHƯƠNG PHÁP PHÁT HIỆN KẾ THỪA VĂN BẢN SỬ DỤNG THUẬT TOÁN PHÂN LỚP .................................................................................. 13 2.1. Giải pháp phát hiện kế thừa văn bản trên dữ liệu Twitter ............................ 13 2.2. Tiền xử lý dữ liệu ........................................................................................... 17 2.3.1. Jaro-Winkler distance ............................................................................. 18 2.3.2. Levenshtein distance .............................................................................. 19 2.3.3. Euclidean distance .................................................................................. 20 2.3.4. Cosine similarity..................................................................................... 20 2.3.5. N-gram distance ..................................................................................... 21 iv 2.3.6. Matching coefficient............................................................................... 23 2.3.7. Dice coefficient ...................................................................................... 23 2.3.8. Jaccard coefficient ................................................................................. 23 3.1. Các phương pháp học máy ............................................................................. 24 3.1.1. Máy vector hỗ trợ SVM (Support Vector Machine) .............................. 24 3.1.2. Thuật toán IBK ....................................................................................... 28 3.1.3. Các phương pháp cây quyết định ........................................................... 29 4.1. Kết luận chương 2 .......................................................................................... 32 CHƯƠNG 3 THỰC NGHIỆM VÀ KẾT QUẢ .................................................... 33 3.1. Dữ liệu thực nghiệm....................................................................................... 33 3.1.1. Mô tả dữ liệu thực nghiệm ..................................................................... 33 3.1.2. Trích chọn đặc trưng .............................................................................. 36 3.2. Thiết lập thực nghiệm ................................................................................... 37 3.2.1. Yêu cầu cho thực nghiệm ....................................................................... 37 3.2.3. Phương pháp đánh giá tập dữ liệu .......................................................... 38 3.2.3. Chọn công cụ thực nghiệm .................................................................... 41 3.2.4. Giới thiệu chuẩn dữ liệu đầu vào cho thực nghiệm (ARFF) .................. 45 3.3. Tiến hành thực nghiệm và đánh giá kết quả thực nghiệm ............................. 47 3.3.1. Kết quả thực nghiệm với các thuật toán cho ba nhãn ............................ 47 3.3.2. Thực nghiệm với sự kết hợp các đặc trưng ............................................ 49 3.3.3. Thực nghiệm so sánh giữa thuật toán J48 với các phương pháp học máy khác................................................................................................................... 50 3.4. Kết luận chương 3 .......................................................................................... 51 KẾT LUẬN .............................................................................................................. 52 DANH MỤC TÀI LIỆU THAM KHẢO ............................................................... 54 DANH MỤC WEBSITE THAM KHẢO .............................................................. 56 PHỤ LỤC ................................................................................................................. 57 v BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH Tư tiếng anh Ý nghĩa Accuracy Mức độ dự đoán (phân lớp) chính xác của hệ thống Atrribute Regation File Format IBK Định dạng tập tin thuộc tính liên quan ID3 Thuật toán Decision Tree Natural Language Processing Xử lý ngôn ngữ tự nhiên Là tần suất xuất hiện của n kí tự ( hoặc từ ) liên tiếp nhau có trong dữ liệu Độ chính xác trong tập dữ liệu tìm được thì bao nhiêu cái (phân loại) đúng Thuật toán Random forest Độ hồi tưởng trong số các tồn tại, tìm ra được bao nhiêu cái (phân loại). N-grams Precision Random Forest Recall Thuật toán K-nearest nèighbors Support Vector Machine Máy vector hỗ trợ (SVM) Tweets Twitter Trạng thái người dùng trên mạng xã hội Twitter Mạng xã hội twitter Weka Bộ phần mềm học máy vi BẢNG DANH SÁCH TỪ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt CD Comparison Documents Tài liệu so sánh CON Contradiction Mẫu thuẫn DUC Document Understanding Conference Hiểu tài liệu ENT Entailment Liên quan H Hypothesis Giả thuyết IE Information Extraction Trích xuất thông tin IR Information Retrieval Thu thập thông tin KKN K-Nearest Neighbors algorithm Thuật toán láng giềng MT Machine Translation Dịch máy NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên PP Paraphrase Acquisition Thu thập diễn giải QA Question Answering Hệ hỏi đáp RC Reading Comprehension Đọc hiểu RTE Recognizing Textual Entailment Phát hiện kế thừa văn bản SUM Summarization Tóm tắt SVM Support vector machine Máy hỗ trợ vector T Text Văn bản TAC Text Analysis Conference Phân tích tài liệu TE Textual Entailment Kế thừa văn bản UNK Unknown Không liên quan vii MỤC LỤC HÌNH ẢNH Hình 1.1: Số lượng người sử dụng một số mạng xã hội lớn ....................................... 9 Hình 1.2. Sơ đồ giả thiết bài toán .............................................................................. 11 Hình 2.1: Mô hình giai đoạn huấn luyện ................................................................. 14 Hình 2.2: Mô hình giai đoạn phân lớp ..................................................................... 16 Hình 2.3: Ánh xạ dữ liệu từ không gian gốc sang không gian đặc trưng cho phép phân chia dữ liệu bởi siêu phẳng ............................................................................... 25 Hình 2.4: Siêu phẳng với lề cực đại cho phép phân chia các hình vuông khỏi các hình tròn trong không gian đặc trọng ........................................................................ 25 Hình 2.5: Minh họa bài toán phân 2 lớp bằng phương pháp SVM ........................... 27 Hình 2.6: Ví dụ cây quyết định ................................................................................. 30 Hình 2.7: Mã giải của thuật toán phân lớp dựa trên cây quyết định ......................... 31 Hình 3.1: Dữ liệu thực nghiệm lấy file XML trong bộ dữ liệu của Twitter ............. 34 Hình 3.2: Dữ liệu được bóc tách thành cặp văn bản(T) và giả thuyết(H)................. 35 Hình 3.3: Hình ảnh stopword .................................................................................... 35 Hình 3.4: Trích chọn đặc trưng theo 08 phương pháp .............................................. 36 Hình 3.5: Minh họa K-fold cross validation ............................................................. 39 Hình 3.6: Giao diện weka ver 3.8.3 .......................................................................... 43 Hình 3.7. Màn hình Weka Explorer .......................................................................... 43 Hình 3.9: Giao diện weka khi tiến hành thực nghiệm .............................................. 45 Hình 3.10: Khuân dạng của tập dữ liệu dạng chuẩn Arff ......................................... 46 Hình 3.11: Ví dụ minh họa một phần biểu diễn của ARFF linh hoạt ....................... 47 viii MỤC LỤC BẢNG BIỂU Bảng 1.1: Ví dụ về kế thừa văn bản ............................................................................ 7 Bảng 1.2: Ví dụ kế thưa với ba nhãn......................................................................... 10 Bảng 3.1: Bộ dữ liệu thực nghiệm ............................................................................ 37 Bảng 3.2: Bảng ma trận nhầm lẫn ............................................................................. 41 Bảng 3.3: Kết quả thực nghiệm độ đo chạy trên thuật toán tree J48 ........................ 48 Bảng 3.4: Kết quả thực nghiệm giữa độ đo của thuật toán chạy trên tree J48.......... 48 Bảng 3.5: Bảng kết quả thực nghiệm với sự kết hợp đặc trưng ................................ 49 Bảng 3.6: Bảng kết quả thực nghiệm sử dụng công cụ weka với các thuật toán ...... 50 Bảng 3.7: Bảng biểu đồ so sánh các phương pháp SVM .......................................... 51 1 LỜI MỞ ĐẦU Trong những năm vừa qua, lĩnh vực xử lý ngôn ngữ tự nhiên đã thu hút được sự quan tâm đặc biệt của các nhà nghiên cứu và đạt được nhiều thành tựu đáng kể. Trong đó, thành công của nhiều ứng dụng ngôn ngữ tự nhiên tự động là do hiểu chính xác ngữ nghĩa của văn bản dự theo cấu trúc cú phát bằng cách sử dụng máy tính. Điều này đã trở thành thách thức với những văn bản cùng diễn đạt một ý nghĩa nhưng sử dụng các cấu trúc và từ ngữ khác nhau. Các ứng dụng ngôn ngữ tự nhiên tự động đã tận dụng các thành phần được làm mịn để xử lý hiệu quả hơn các văn bản có cấu trúc phức tạp. Một trong nhưng bài toán xử lý văn bản là việc suy luận ngữ nghĩa của một đoạn văn bản từ một đoạn trích trong văn bản tiềm năng khác. Bài toán này trở thành một hướng nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên và được biết đến như bài toán phát hiện kế thừa văn bản (Recognixing Textual Entailment: RTE). Bài toán phát hiện kế thừa văn bản lần đầu tiên được Degan và Glickman đề xuất [3]. Cho hai đoạn văn bản bài toán phát hiện kế thừa văn bản có mục định xác định xem nghĩa của văn bản này có thể được suy luận (kế thừa) từ văn bản còn lại hay không. Từ nhu cầu thực tế của các lĩnh vực khác trong xử lý ngôn ngữ tự nhiên, bài toán phát hiện kế thừa văn bản đã nhận được sự quan tâm của các nhà khoa học và các nhóm nghiên cứu trên thế giới. Từ năm 2004 đến này, hội nghị RTE đã tổ chức thường niên hàng năm nhằm mục đích so sánh và tổng hợp lại các phương pháp phát hiện kế thừa văn bản tốt. Hội nghị RTE tiến hành trong khuôn khổ các hội nghị thường niên Hiểu tài liệu (DUC: Document Understanding Conference, 2001-2007) và Phân tích xử lý văn bản (TAC: Text Analysis Conference, từ năm 2008 tới nay). Gần đây, một trong nhưng thách thức của bài toán phát hiện kế thừa văn bản là phát hiện mối quan hệ kế thừa cho những văn bản được viết bằng các ngôn ngữ khác nhau:Anh, Tây Ban Nha, Pháp,…Chính vì thế, bài toán phát hiện kế thừa văn trên dữ liệu Twitter. Với sự phát triển nhanh chóng và mạnh mẽ của những mạng xã hội hiện đại như ngày nay như: facebook, google +, twitter, v.v. Việc ứng dụng phát hiện kế 2 thừa văn bản trong hệ hỏi đáp (QA), trích xuất thông tin (IE), tóm tắt văn bản (Summarization), và đánh giá dịch máy MT) cần một mô hình cho hiện tượng biến đổi này để phát hiện xem một ý nghĩa cụ thể nào đó có được suy luận ra từ các biến thể văn bản khác nhau. Đã có nhiều công trình nghiên cứu liên quan đến bài toán phát hiện kế thừa văn bản theo các phương pháp khác nhau từ nhiều nguồn dữ liệu mà Twitter là một nguồn dữ liệu phổ biến. Vì những lý do trên, cùng với mong muốn làm chủ công nghệ, làm chủ và mở rộng các nghiên cứu về học máy ứng dụng vào bài toán phát hiện kế thừa văn bản, dưới sự hướng dẫn của TS. Ngô Xuân Bách và thông qua tìm hiểu, phương pháp kế thừa văn bản trên tập dữ liệu Twitter, tôi đã mạnh dạn tìm hiểu đề tài “Phát hiện kế thừa văn bản trên dữ liệu Twitter” nhằm mục đích sử dụng học máy để đưa ra phát hiện kế thừa văn bản trong việc tự động trả lời của con người dưới dạng ngôn ngữ tự nhiên bằng cách truy suất thông tin từ một tập hợp dữ liệu. Luận văn tập trung vào bài toán phát hiện kế thừa văn bản trên dữ liệu Twitter, phân loại làm ba nhãn là: liên quan(Entailment), mâu thuẫn(Contradiction), không liên quan (Unknown). Các đặc trưng này sẽ được biểu diễn dưới dạng vector và làm đầu vào cho các thuật toán. Sau khi thu được kết quả của các mô hình phân lớp: Decision tree (J48, Random forest) [30] , Support vector machine(SVM) [8] và IBK [4], luận văn sử dụng phương pháp lập sơ đồ để kiểm tra và lựa chọn kết quả tốt nhất. Kết quả thực nghiệm tốt nhất đạt được khi sử dụng thuật toán Decision tree (J48). Cụ thể kết quả thực nghiệm cho kết quả tốt nhất với bài toán “ Phát hiện kế thừa văn bản trên dữ liệu Twitter ”. Nội dung của luận văn gồm 03 chương: Chương 1: Giới thiệu tổng quát khái quát về bài toán phát hiện kế thừa văn bản Luận văn giới thiệu khái niệm kế thừa văn bản, phát biểu bài toán phát hiện kế thừa văn bản, sau đó, luận văn giới thiệu về bài toán phát hiện kế thừa văn bản trên dữ liệu Twitter. 3 Chương 2: Phương pháp phát hiện kế thừa văn bản sử dụng thuật toán phân lớp. Nội dung của chương là trình bày một số phương pháp trích chọn lấy đặc trưng để giải quyết bài toán, các phương pháp học máy thống kê được sử dụng để tiến hành thực nghiệm cho bài toán phát hiện kế thừa văn bản dựa trên dữ liệu mạng xã hội Twitter. Chương 3: Thực nghiệm và đánh giá Nội dung chương nhằm nêu rõ và chi tiết các bước trong quá trình giải quyết bài toán. Trong chương này cũng sẽ trình bày quá trình thực hiện và thực nghiệm, đưa ra một số đánh giá, nhận xét các kết quả thu được. Kết luận và định hướng phát triển tiếp theo: Tóm lược kết quả đã đạt được của luận văn, chỉ ra những khuyết điểm cần khắc phục và đưa ra định hướng nghiên cứu tiếp theo. 4 CHƯƠNG 1 TỔNG QUAN BÀI TOÁN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU TWITTER Chương này của luận văn trình bày nội dung chính là: Giới thiệu chung về lĩnh vực xử lý ngôn ngữ tự nhiên và các ứng dụng trong thực tế. Giới thiệu về bài toán phát hiện kế thừa văn bản và phát hiện kế thừa văn bản trên dữ liệu Twitter. Giới thiệu về mạng xã hội Twitter và tổng quan về bài toán phát hiện kế thừa văn bản trên dữ liệu Twitter. Các nghiên cứu liên quan đến bài toán dã được thực hiện và đưa ra trên thế giới cũng như ở Việt Nam Trình bày các nội dung sẽ thực hiện trong luận văn để đạt được mục tiêu đặt ra, các nghiên cứu, đóng góp của luận văn 1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) [4] [9] là một lĩnh vực nghiên cứu của trí tuệ nhân tạo, tập trung vào nghiên cứu các phương pháp, kỹ thuật cho phép xử lý ngôn ngữ tự nhiên bằng máy tính, từ đó xây dựng các chương trình, hệ thống máy tính xử lý ngôn ngữ của con người. Xử lý ngôn ngữ tự nhiên được áp dụng trong nhiều bài toán và ứng dụng thực tế, trong nhiều lĩnh vực: Nhận dạng chữ viết: Có hai kiểu nhận dạng. Thứ nhất là nhận dạng chữ in, thứ hai, phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay không có khuôn dạng rõ ràng và thay đổi từ người này sang người khác. Với chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thư viện thành văn bản điện tử trong thời gian ngắn. Nhận dạng chữ viết của con người có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử). 5 Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản tương ứng. Giúp thao tác của con người trên các thiết bị nhanh hơn và đơn giản hơn. Đây cũng là bước đầu tiên cần phải thực hiện trong ước mơ thực hiện giao tiếp giữa con người với robot. Nhận dạng tiếng nói có khả năng trợ giúp người khiếm thị rất nhiều. Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói. Giống như nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho người khiếm thị, nhưng ngược lại nó là bước cuối cùng trong giao tiếp giữa robot với người. Dịch máy (machine translate): Như tên gọi đây là chương trình dịch tự động từ ngôn ngữ này sang ngôn ngữ khác. Tìm kiếm và truy xuất thông tin: Đặt câu hỏi và chương trình tự tìm ra nội dung phù hợp nhất. Thông tin ngày càng đầy lên theo cấp số nhân, đặc biệt với sự trợ giúp của internet việc tiếp cận thông tin trở lên dễ dàng hơn bao giờ hết. Việc khó khăn lúc này là tìm đúng nhất thông tin mình cần giữa bề bộn tri thức và đặc biệt thông tin đó phải đáng tin cậy. Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn theo mong muốn nhưng vẫn chứa những nội dung thiết yếu nhất. Khai phá dữ liệu: Từ rất nhiều tài liệu khác nhau phát hiện ra tri thức mới. Thực tế để làm được điều này rất khó, nó gần như là mô phỏng quá trình học tập, khám phá khoa học của con người, đây là lĩnh vực đang trong giai đoạn đầu phát triển. 1.2. Khát quát về kế thừa văn bản Trong cuộc sống hằng ngày, bằng việc sử dụng ngôn ngữ tự nhiên, chúng ta có thể diễn đạt một vấn đề theo nhiều cách khác nhau với các từ ngữ và cấu trúc cú pháp khác nhau. Vấn đề biến đổi này trong biểu diễn ngữ nghĩa có thể được xem như là vấn đề nhập nhằng trong ngôn ngữ tự nhiên. Các ứng dụng trong xử lý ngôn ngữ tự nhiên như: hệ hỏi đáp (QA), trích xuất thông tin (IE), tóm tắt văn bản (Summarization), và đánh giá dịch máy MT) cần một 6 mô hình cho hiện tượng biến đổi này để phát hiện xem một ý nghĩa cụ thể nào đó có được suy luận ra từ các biến thể văn bản khác nhau hay không. Vào năm 2004, phát hiện kế thừa văn bản (RTE) đã được đề xuất như một bài toán tổng quát để thu thập các nhu cầu liên quan đến suy luận ngữ nghĩa trên nhiều ứng dụng xử lý ngôn ngữ tự nhiên. Từ năm 2004 đến nay, hội nghị RTE đã tổ chức thường niênhàng năm (RTE-1 đến RTE-8) nhằm mục đích đánh giá, so sánh các phương pháp tiếp cận của các nhà nghiên cứu. Ba hội nghị RTE đầu tiên (RTE1 năm 2005, RTE-2 năm 2006 và RTE-3 năm 2007) được tổ chức tại chuỗi PASCAL (Pattern Analysis, Statistical Modeling and Computational Learning). Các hội nghị RTE còn lại (RTE-4 năm 2008,RTE-5 năm 2009, RTE-6 năm 2010, RTE-7 năm 2011 và RTE-8 năm 2012) được tổ chức thuộc hội nghị Phân tích xử lý văn bản (TAC: Text Analysis Conference) của NIST (National Institute of Standards and Technology). Hội nghị Phân tích và xử lý văn bản TAC được tổ chức để khuyến khích nghiên cứu xử lý ngôn ngữ tự nhiên và các ứng dụng liên quan bằng cách cung cấp tập các dữ liệu kiểm thử lớn, các thủ tục đánh giá và một diễn đàn để các nhóm nghiên cứu chia sẻ kết quả của họ. 1.2.2. Khái niệm kế thừa văn bản Hiện nay, khái niệm kế thừa văn bản có thể định nghĩa theo nhiều cách khác nhau. Theo Glickman và Dagan [3], kế thừa văn bản là một mối quan hệ giữa một văn bản T nhất quán T với một thể hiện ngôn ngữ của nó – giả thuyết H (H là một hệ quả của T), ký hiệu là T → H nếu như ý nghĩa của H, đặt vào ngữ cảnh của T thì có thể suy ra ý nghĩa của H. Một cách chung nhất thì văn bản T được gọi là kế thừa giả thuyết H nếu như sự thật về H có thể suy luận được từ T. Điều này có nghĩa là T bao hàm ý nghĩa của H khi đọc cả hai. Do vậy, ta có thể nói T kế thừa H khi một số biểu diễn của H có thể trùng khớp (qua một số bước chuyển đổi bảo toàn ngữ nghĩa) với một số (hoặc một phần của) các biểu diễn của T, ở một cấp độ chi tiết và trừu tượng nhất định. 7 Dưới đây là một số ví dụ minh họa để giải thích về khái niệm kế thừa văn bản. STT 1 2 3 4 5 Văn bản Giả thuyết Bountiful đã tới saiu khi chiến tranh kết thúc, cập vịnh San Francisco vào ngày 21 tháng 8 năm 1945.Bountiful sau đó được chỉ Bountiful đã tới San định làm tài bệnh viện ở Yokosuka, khởi Francisco vào tháng 8 hành từ San Francisco vào ngày 1 tháng 11 năm 1945. năm 1945. Tập đoàn Boeing đặt tại Chicago đã hủy bỏ ba đơn hang vào năm 2006 mà Air Canada đã đặt. Dưới tiêu đề “Greed instead of quanlity”, Die Tageszeitung của Đưucs nói chẳng có điều tốt đẹp việc thâu tóm xuất bản Berliner Verlag của hai quỹ đầu tư của Anh và Mỹ. Scott Island đã được thuyền trưởng William Colbeck người chỉ huy của Morning, con tài cứu viện cho cuộc viễn chinh của thuyền trưởng Robert F.Scott, tìm ra vào tháng 12 năm 1902 Chiếc xe hơi đã và vào hòm thư thuộc về James Clark, 68 tuổi, một người quen của gia đình James Jones. Kế thừa YES Trụ sở của tập đoàn Boeing năm ở Canada NO Hai quỹ đầu tư của Anh và Mỹ đã thâu tóm Berliner Verlag. YES Thuyền trưởng Scott đã đặt chân tới đảo Scott Island vào tháng 12 năm 1902 NO Clark là người họ hang của Jones NO Bảng 1.1: Ví dụ về kế thừa văn bản 1.2.3. Phát biểu bài toán phát hiện kế thừa văn bản Bài toán phát hiện kế thừa văn bản là bài toán xác định quan hệ kế thừa giữa văn bản T và giả thuyết H. Việc phân loại mối quan hệ kế thừa giữa văn bản và giả thuyết có thể theo 2 cách dựa trên số nhãn kế thừa mà hệ thống gán cho một cặp văn bản giả thuyết. Phân loại kế thừa 3 lớp bao gồm các nhãn :  Kế thừa: Khi T kế thừa H. 8   Mâu thuẫn: Khi T không kế thừa H. Không xác định: Khi không có đủ điều kiện để xác định xem T kế thừa H hay không. Phân loại kế thừa 2 lớp: Trong phân loại 2 lớp, mối quan hệ mâu thuẫn và không xác định đều được phân vào lớp “Không kế thừa”. 2 lớp sử dụng là:   Kế thừa: Khi T kế thừa H. Không kế thừa: Khi nội dung trong T mẫu thuẫn với nội dung trong H hoặc không xác định được quan hệ giữa T và H. Hiện nay, đa số các hệ thống phát hiện kế thừa sử dụng sự phân lớp nhị phân (hai nhãn). Việc phán quyết kế thừa được gán nhãn là YES/NO (YES: trong trường hợp kế thừa và NO nếu ngược lại). Trong khóa luận này, em tiến hành thực nghiệm theo nhãn nhị phân như trên. Dựa trên tiếp cận về quan hệ kế thừa trên, bài toán được phát biểu như sau: Đầu vào: Tập các cặp câu văn bản T và giả thuyết H thuộc cùng một chủ đề. Đầu ra: Gán nhãn kế thừa YES/NO với từng cặp. 1.3. Phát hiện kế thừa văn bản trên dữ liệu Twitter 1.3.1. Khái niệm Sự bùng nổ thông tin được viết bằng các ngôn ngữ khác nhau trên web đã giúp cho người sử dụng có cơ hội tiếp cận và truyền tải thông tin về một chủ đề bằng ngôn ngữ của họ. Với sự phát triển nhanh chóng và mạnh mẽ của những mạng xã hội hiện đại như ngày nay như: facebook, google +, twitter, v.v. Việc ứng dụng phát hiện kế thừa văn bản trong hệ hỏi đáp (QA), trích xuất thông tin (IE), tóm tắt văn bản (Summarization), và đánh giá dịch máy MT) cần một mô hình cho hiện tượng biến đổi này để phát hiện xem một ý nghĩa cụ thể nào đó có được suy luận ra từ các biến thể văn bản khác nhau. Đã có nhiều công trình nghiên cứu liên quan đến bài toán phát hiện kế thừa văn bản theo các phương pháp khác nhau từ nhiều nguồn dữ liệu mà Twitter là một nguồn dữ liệu phổ biến. 9 2.5 2 1.5 Facebook Twitter 1 Google+ 0.5 0 2015 2016 Qúy I - 2017 Hình 1.1: Số lượng người sử dụng một số mạng xã hội lớn[17] Bài toán kế thừa văn bản dữ liệu trên mạng xã hội Twitter là một bài toán nhằm phát hiện sự kế thừa về thực thể trên mạng xã hội Twitter. Tuy nhiên, việc kế thừa văn bản với dữ liệu Twitter gặp khá nhiều khó khăn và thách thức. Khác với các văn bản truyền thống, các tweet rất ngắn (tối đa 140 ký tự). Có thể nói mỗi tweet chỉ là một câu hoặc một tiêu đề hơn là một tài liệu. Hơn nữa các tweet có rất nhiều từ viết tắt, từ nóng, từ sai chính tả và viết không đúng cú pháp, chất lượng và độ tin cậy thấp. Những yếu tố này làm giảm hiệu quả kế thừa văn bản dựa trên cách xử lý truyền thống. 1.3.2. Phát biểu bài toán phát hiện kế thừa văn bản trên dữ liệu Twitter. Phát hiện kế thừa văn bản là bài toán phát hiện mối quan hệ kế thừa giữa văn bản T và giả thuyết H.[2] Bài toán được phát biểu như sau:  Đầu vào: Tập các cặp văn bản – giả thuyết thuộc cùng một chủ đề.  Đầu ra: Tập các cặp văn bản – giả thuyết đã được gán nhãn kế thừa “Entailment” / “Contradiction”/“Unknown”. - “Entailment”: tương ứng với trường hợp văn bản (T) kế thừa giả thuyết (H). 10 - “Contradiction”: tương ứng với trường hợp văn bản (T) mâu thuẫn kế thừa giả thuyết (H). - “Unknown”: tương ứng với trường hợp văn bản (T) không liên quan tới giả thuyết (H). Văn bản STT 12 người hiện đã chết vì tay súng đã tấn 1 công Paris HQ của tạp chí Charlie Hebdo URL Giả thuyết Kế thừa 11 người chết vì một vụ tấn công Tạp chí Paris. URL Contradiction CharlieHebdo URL 2 12 người hiện đã chết vì tay súng đã tấn công Paris HQ của tạp chí Charlie Hebdo Tạp chí Charlie Hebdo URL đưa ra con số là 12 người URL chết bởi một vụ bổ Entailment súng 12 người hiện đã chết vì tay súng đã tấn 3 công Paris HQ của tạp chí Charlie Hebdo URL Vụ nổ đánh bom tại Paris làm nhiều người chết và bị thương do khủng bố của IS Bảng 1.2: Ví dụ kế thừa với ba nhãn Unknown
- Xem thêm -

Tài liệu liên quan