Đăng ký Đăng nhập
Trang chủ “nghiên cứu, tìm hiểu mô hình phân lớp câu hỏi và ứng dụng trên hệ thống hỗ trợ ...

Tài liệu “nghiên cứu, tìm hiểu mô hình phân lớp câu hỏi và ứng dụng trên hệ thống hỗ trợ sinh viên của viện đại học mở hà nội

.PDF
73
172
77

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI NGUYỄN THỊ KHÁNH QUYÊN LUẬN VĂN THẠC SỸ 2015 - 2017 CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN CÔNG NGHỆ THÔNG TIN NGHIÊN CỨU, TÌM HIỂU MÔ HÌNH PHÂN LỚP CÂU HỎI VÀ ỨNG DỤNG TRÊN HỆ THỐNG HỖ TRỢ SINH VIÊN CỦA VIỆN ĐẠI HỌC MỞ HÀ NỘI NGUYỄN THỊ KHÁNH QUYÊN HÀ NỘI - 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ NGHIÊN CỨU, TÌM HIỂU MÔ HÌNH PHÂN LỚP CÂU HỎI VÀ ỨNG DỤNG TRÊN HỆ THỐNG HỖ TRỢ SINH VIÊN CỦA VIỆN ĐẠI HỌC MỞ HÀ NỘI NGUYỄN THỊ KHÁNH QUYÊN CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60.48.02.018 HƯỚNG DẪN KHOA HỌC: TS. ĐINH TUẤN LONG HÀ NỘI - 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng cá nhân tôi, không sao chép của ai do tôi tự nghiên cứu, đọc, dịch tài liệu, tổng hợp và thực hiện. Nội dung lý thuyết trong trong luận văn tôi có sử dụng một số tài liệu tham khảo như đã trình bày trong phần tài liệu tham khảo. Các số liệu, chương trình phần mềm và những kết quả trong luận văn là trung thực và chưa được công bố trong bất kỳ một công trình nào khác. Hà Nội, ngày tháng năm 2017 Học viên thực hiện Nguyễn Thị Khánh Quyên i LỜI CẢM ƠN Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Thầy giáo, TS. Đinh Tuấn Long đã tận tình chỉ bảo, hướng dẫn và giúp đỡ tôi trong suốt quá trình thực hiện bài luận văn tốt nghiệp này. Tôi xin gửi lời cảm ơn tới các thầy, cô Viện Đại học Mở Hà Nội, những người đã tận tâm chỉ dạy những kiến thức quý báu, giúp đỡ và góp ý cho tôi trong suốt thời gian học tập và nghiên cứu tại trường. Bên cạnh đó, tôi cũng xin gửi lời cảm ơn chân thành tới các anh chị, các bạn học viên cùng học tập nghiên cứu tại Viện Đại học Mở Hà Nội đã hỗ trợ và đồng hành cùng tôi trong quá trình học tập cũng như thực hiện bài luận văn này. Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè và đồng nghiệp, những người thân yêu luôn bên cạnh, quan tâm, động viên và khuyến khích tôi trong suốt học tập và cuộc sống. Tôi xin chân thành cảm ơn! Hà Nội, ngày tháng năm 2017 Học Viên Nguyễn Thị Khánh Quyên ii MỤC LỤC LỜI CAM ĐOAN ...................................................................................................... i LỜI CẢM ƠN ........................................................................................................... ii MỤC LỤC ................................................................................................................ iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT ............................................v DANH SÁCH BẢNG .............................................................................................. vi DANH SÁCH HÌNH VẼ ........................................................................................ vii MỞ ĐẦU ....................................................................................................................1 CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP CÂU HỎI .....................................3 1.1 Tổng quan về hệ thống hỏi đáp ......................................................................... 3 1.1.1 Đặt vấn đề................................................................................................ 3 1.1.2 Hệ thống hỏi đáp (Question Answering System) .................................... 4 1.2 Bài toán phân lớp câu hỏi .................................................................................. 8 1.2.1 Định nghĩa phân lớp câu hỏi ................................................................... 8 1.3 Biểu diễn câu hỏi ............................................................................................... 9 1.4 Taxonomy câu hỏi ............................................................................................. 9 1.5 Các đặc trưng phân lớp .................................................................................... 13 1.5.1 Các đặc trưng về từ vựng ...................................................................... 13 1.5.2 Các đặc trưng về cú pháp ...................................................................... 15 1.5.3 Các đặt trưng về ngữ nghĩa ................................................................... 18 1.6. Kết luận chương.............................................................................................. 19 CHƯƠNG 2: MỘT SỐ MÔ HÌNH PHÂN LỚP CÂU HỎI VÀ GIẢI THUẬT ...................................................................................................................................20 2.1 Tiếp cận bài toán phân lớp câu hỏi .................................................................. 20 2.1.1 Tiếp cận dựa trên luật ............................................................................ 20 2.1.2 Tiếp cận dựa trên học máy ................................................................... 21 2.2 Mô hình phân lớp câu hỏi ................................................................................ 23 2.2.1 Mô hình phân lớp phẳng ....................................................................... 23 iii 2.2.2 Mô hình phân lớp phân cấp ................................................................... 25 2.3 Một số giải thuật phân lớp câu hỏi .................................................................. 26 2.3.1 Giải thuật học máy có giám sát ............................................................. 26 2.3.2 Giải thuật học máy bán giám sát ........................................................... 34 2.4. Kết luận chương.............................................................................................. 40 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................................41 3.1 Ứng dụng mô hình phân lớp ............................................................................. 41 3.1.1 Thực trạng ............................................................................................. 41 3.1.2 Mô hình phân lớp câu hỏi ứng dụng ..................................................... 41 3.1.3 Mô hình xử lý dữ liệu ............................................................................ 43 3.2 Tình trạng hệ thống hỏi đáp ............................................................................. 48 3.3 Thực nghiệm với dữ liệu trên hệ thống hỗ trợ sinh viên trực tuyến Viện Đại học Mở Hà Nội ........................................................................................................ 50 3.3.1 Thu thập dữ liệu .................................................................................... 50 3.3.2 Xử lý dữ liệu.......................................................................................... 51 3.3.3 Kết quả thực nghiệm ............................................................................. 57 3.3 Kết luận ........................................................................................................ 58 KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO.....................................59 TÀI LIỆU THAM KHẢO ......................................................................................60 PHỤ LỤC .................................................................................................................62 iv DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT STT Viết tắt 1 Tiếng Anh Tiếng Việt QA Question Answering systems TREC Text Retrieval Conference kNN K - Nearest Neighbors Thuật toán k láng giềng gần NB Naïve Bayes Thuật toán Naïve Bayes SVM Support Vector Machine Máy vector hỗ trợ POS Part – Of - Speech SNoW Sparse Network Winnows Hệ thống hỏi đáp 2 3 4 5 6 7 v of Mạng lọc thưa DANH SÁCH BẢNG Bảng 1.1. Taxonomy câu hỏi của Li và Roth............................................................11 Bảng 2.1. Bộ phân lớp câu hỏi của Dragomir Radev................................................24 Bảng 2.2. Bảng dữ liệu huấn luyện của ví dụ người chơi tennis ..............................30 Bảng 3. 1: Môi trường thực nghiệm ..........................................................................43 Bảng 3.2: Bộ phân lớp câu hỏi trên hệ thống hỗ trợ sinh viên .................................51 Bảng 3.3: Bộ phân lớp câu hỏi chia theo ngành học .................................................52 Bảng 3.4: Thống kê kết quả tìm kiếm nhãn lớp có độ phân lớp chính xác cao với dữ liệu tại hệ thống hỗ trợ sinh viên Viện ĐH Mở Hà Nội ....................................55 Bảng 3.5: Thống kê câu hỏi sinh viên theo ngành học .............................................56 Bảng 3.6: Kết quả thực nghiệm với dữ liệu tại hệ thống hỗ trợ sinh viên trực tuyến Viện Đại học Mở Hà Nội ...................................................................................58 vi DANH SÁCH HÌNH VẼ Hình 1.1. Mô hình hệ thống hỏi đáp với các lĩnh vực liên quan .................................5 Hình 1.2. Kiến trúc của một hệ thống hỏi đáp ............................................................6 Hình 2.1. Mô hình giai đoạn huấn luyện. ..................................................................22 Hình 2.2. Chi tiết giai đoạn huấn luyện. ...................................................................23 Hình 2.3. Mô hình giai đoạn phân lớp ......................................................................23 Hình 2.4. Bộ phân lớp đa cấp của Li và Roth ...........................................................26 Hình 2.5. Mô hình phân lớp câu hỏi với SVM .........................................................28 Hình 2.6. Sơ đồ thực hiện giải thuật Sefl-training ....................................................36 Hình 2.7. Sơ đồ giải thuật Co-training ......................................................................37 Hình 2.8. Sơ đồ giải thuật Tri-training ......................................................................39 Hình 3.1. Mô hình phân lớp áp dụng ........................................................................42 Hình 3.2. Chương trình xử lý dữ liệu ........................................................................43 Hình 3.3. Sơ đồ giải thuật tham lam loại bỏ nhãn lớp có độ phân lớp chính xác cao ...................................................................................................................................47 Hình 3.4. Mô hình xử lý của hệ thống H113 hiện tại ...............................................48 Hình 3.5. Nội dung file câu hỏi đã được gán nhãn từ loại ........................................53 Hình 3.6. Ánh xạ đặc trưng câu hỏi gán nhãn lớp ....................................................54 Hình 3.7. Nội dung file theo định dạng SVM ...........................................................54 Hình 3.8. Biểu đồ chính các theo lớp câu hỏi ...........................................................56 Hình 3.9. Biểu đồ thống kê độ chính xác câu hỏi theo ngành ..................................57 vii MỞ ĐẦU 1. Tính cấp thiết của đề tài Trong thời đại công nghệ phát triển hiện nay, sự bùng nổ mạnh mẽ của Internet toàn cầu cùng với các nhu cầu tìm kiếm thông tin ngày càng cao của con người. Chỉ cần một thao tác tìm kiếm đơn giản trên Internet, người dùng đã có thể nhận về một khối lượng khổng lồ những thông tin liên quan tới nội dung tìm kiếm. Tuy nhiên, chính vì thế mà sự dễ dàng đó mang đến cho người dùng nhiều khó khăn trong việc chiết lọc những thông tin thực sự hữu ích. Vậy nên, hệ thống hỏi đáp tự động đã ra đời nhằm mục đích phục vụ tốt hơn những nhu cầu của con người. Hệ thống hỏi đáp đã nhận được sự quan tâm đặc biệt của các nhà nghiên cứu, các công ty lớn (như Google, Microsoft, IBM…), các hội nghị lớn về trích chọn thông tin, xử lý ngôn ngữ tự nhiên (TREC, ACL…) và đã đạt được những kết quả nhất định. Quy trình hoạt động của một hệ thống hỏi đáp tự động có nhiều bước, trong đó bước phân lớp câu hỏi đóng một vai trò quan trọng trong việc làm giảm thông tin tìm kiếm và tăng độ chính xác của kết quả tìm kiếm. Tuy nhiên, việc nghiên cứu về hệ thống hỏi đáp nói chung và bài toán phân lớp câu hỏi là một nhiệm vụ gặp không ít khó khăn. Các hướng tiếp cận, mô hình phân lớp hay những giải thuật phân lớp sử dụng trong quá trình nghiên cứu và thực hiện đều có những ưu điểm và nhược điểm nhất định. Trong phạm vi đề tài, tác giả tập trung tìm hiểu và nghiên cứu những vấn đề cơ bản trong mô hình phân lớp câu hỏi và ứng dụng trên hệ thống của Viện Đại học Mở Hà Nội với tên đề tài “Nghiên cứu, tìm hiểu mô hình phân lớp câu hỏi và ứng dụng trên hệ thống hỗ trợ sinh viên của Viện Đại học Mở Hà Nội”. 2. Mục tiêu của luận văn Đề tài nhằm mục tiêu  Tìm hiểu các kiến thức cơ bản của bài toán phân loại câu hỏi  Ứng dụng các mô hình học máy để giải quyết bài toán phân loại câu hỏi. 3. Bố cục của luận văn Nội dung của đề tài gồm 3 chương chính sau: 1 Chương 1: Tổng quan về phân lớp câu hỏi Trong chương này sẽ giới thiệu về hệ thống hỏi đáp, trình bày tổng quan về bài toán phân lớp câu hỏi, cách tiếp cận bài toán câu hỏi và các đặc trưng phân lớp câu hỏi. Chương 2: Một số mô hình phân lớp câu hỏi và giải thuật Chương này sẽ trình bày tổng quan về các cách tiếp cận bài toán câu hỏi, một số mô hình phân lớp câu hỏi và các giải thuật học máy sử dụng trong bài toán phân lớp câu hỏi. Chương 3: Thực nghiệm và đánh giá Ứng dụng mô hình phân lớp câu hỏi, trình bày các kết quả thực nghiệp khi áp dụng mô hình phân lớp câu hỏi với dữ liệu câu hỏi thực nghiệm tại hệ thống hỗ trợ sinh viên Viện Đại học Mở Hà Nội, trình bày những đánh giá và kết luận sau thực nghiệm. 2 CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP CÂU HỎI 1.1 Tổng quan về hệ thống hỏi đáp 1.1.1 Đặt vấn đề Câu hỏi đặt ra trong tình hình phát triển của Internet hiện nay và sự phát triển nhanh chóng của lượng thông tin khổng lồ trên Web là “Làm thế nào để việc tìm kiếm thông tin đạt hiệu quả nhất?”. Thay vì phải đọc rất nhiều các tài liệu liên quan đến thông tin để có thể tìm ra được câu trả lời mong muốn, người sử dụng và tìm kiếm mong muốn được hệ thống website trả về các câu trả lời chính xác, ngắn gọn và nhanh chóng nhất. Các hệ thống hỏi đáp (Question Answering System – QA) khi đó phải cung cấp các phần thông tin chính xác cho các câu hỏi ghi nhận tương ứng. Trong giai đoạn xử lý câu hỏi của hệ thống hỏi đáp, việc phân lớp câu hỏi là một nhiệm vụ rất quan trọng. Nhiệm vụ của phân lớp câu hỏi như sau: Cho một câu hỏi, ánh xạ câu hỏi đó tới trong k lớp, các lớp đó cung cấp một gợi ý ngữ nghĩa về câu trả lời sau khi được tìm kiếm. Mục đích của sự phân lớp này là giảm thiểu các câu trả lời không có tiềm năng, giai đoạn này được xử lý tại quá trình hạ lưu để lựa chọn câu trả lời chính xác từ một lượn các câu trả lời có tiềm năng. Phân lớp câu hỏi trong hệ thống hỏi đáp có 2 yêu cầu chính. Thứ nhất, nó cung cấp các gợi ý về loại câu trả lời mà cho phép tiếp tục xử lý để xác định vị trí chính xác và xác minh câu trả lời. Thứ hai, nó cung cấp thông tin trong quá trình xử lý hạ lưu được sử dụng để lựa chọn các chiến lược cho từng câu trả lời cụ thể. Hãy xem xét ví dụ cụ thể sau đây để hiểu hơn về các khía cạnh của việc phân lớp câu hỏi: Câu hỏi 1: “Quy định khen thưởng cho sinh viên Viện Đại học Mở như thế nào?”. Những từ khóa như “Quy định”, “Khen thưởng”, “sinh viên Viện Đại học Mở” là cơ sở để tìm ra những câu trả lời phù hợp. Mục đích của câu hỏi này là tìm ra được những quy định, quy chế để có thể công nhận khen thưởng cho sinh viên tại Viện Đại học Mở Hà Nội. Câu hỏi 2: “Chương trình đào tạo của Viện Đại học Mở Hà Nội hoạt động theo quy chế nào?”. Xem xét câu hỏi trên, ta nhận thấy rằng một câu trả lời liên quan đến 3 lớp “quy chế đào tạo chính quy” hay “quy chế đào tạo hệ từ xa” sẽ có ích hơn là chỉ biết đến lớp “quy chế”. Viện Đại học Mở Hà Nội hiện nay đào tạo theo rất nhiều hệ: chính quy, từ xa. Quy chế bao gồm rất nhiều loại như quý chế đào tạo, quy chế học tập, quy chế tuyển sinh…Nếu hệ thống đã xác định được mục đích câu hỏi là về quy chế đào tạo thuộc hệ đào tạo nào thì không gian tìm kiếm để đưa ra câu trả lời sẽ nhanh và chính xác hơn nhiều. Trong phân lớp câu hỏi, việc xác định ngữ nghĩa rõ ràng của câu hỏi mang lại những lợi ích to lớn. Tuy nhiên câu hỏi không phải lúc nào cũng đơn giản, mà chúng thường rất phức tạp, có nhiều ngữ nghĩa mập mờ, khó xác định. Trong quá trình phân lớp câu hỏi, nếu hệ thống hạn chế được số lượng lớp phải dự đoán thì hiệu suất phân lớp sẽ tăng lên. Vì vậy, ngoài việc xác định ngữ nghĩa câu hỏi, thì việc lựa chọn sử dụng mô hình phân lớp nào cũng rất quan trọng. Đó là bước đầu thực sự cần trong nhiệm vụ phân lớp. 1.1.2 Hệ thống hỏi đáp (Question Answering System) 1.1.2.1. Giới thiệu hệ thống hỏi đáp Hệ thống hỏi đáp đầu tiên được ra đời từ những năm 1960. Ví dụ tiêu biểu cho hệ thống hỏi đáp trong thời gian đó là hệ thống BASEBALL được phát triển năm 1961 do nhóm tác giả Green, Chomsky, và Laughery. Hệ thống này dùng để trả lời các câu hỏi viết bằng ngôn ngữ tự nhiên trong một lĩnh vực đặc biệt là về trò chơi bóng chày trong ở giải đấu của Mỹ trong một mùa giải. Một hệ thống khác tương tự như BASEBALL đã được phát triển bởi Woods năm 1973 và được đặt tên là LUNAR. LUNAR có thể trả lời các câu hỏi liên quan đến các mẫu đas trở về từ tàu thăm dò trên mặt trăng Apolo. Hệ thống này dịch các câu hỏi trong ngôn ngữ tự nhiên thành một câu truy vấn tương ứng trong cơ sở dữ liệu. Hầu hết các nghiên cứu trước đây chủ yếu là các hệ thống hỏi đáp trong một lĩnh vực đặc biệt hoặc là có sự giới hạn trong việc hỏi đáp. Do thiếu kiến thức để cung cấp câu trả lời cho câu hỏi miền mở, các nghiên cứu về hệ thống hỏi đáp nằm im trong vài thập kỷ cho đến khi sự xuất hiện của các trang web. Với số lượng lớn của các dữ liệu trên web, cần phải thực hiện các truy vấn web, do đó các nhiệm vụ về hỏi 4 đáp lại được tập trung nghiên cứu. Sự tập trung nghiên cứu về hỏi đáp đặc biệt tăng khi hội nghị truy hồi văn bản (Text REtrieval Conference-Trec) bắt đầu một chủ để về hỏi đáp vào năm 1990. Một vài kĩ thuật từ truy hồi thông tin, xử lý ngôn ngữ tự nhiên và học máy đã được dùng trong các hệ thống hỏi đáp. Các nghiên cứu gần đây trên các hệ thống hỏi đáp miền mở điển hình thường dựa trên các kĩ thuật truy hồi thông tin (Information Retrieval-IR). Các hệ thống hỏi đáp dựa trên truy hồi thông tin cố gắng tìm kiếm câu trả lời cho câu hỏi bằng cách xử lý các tài liệu, thường từ web và tìm kiếm một phần của văn bản đó có thể là câu trả lời cho câu hỏi Khái niệm về hệ thống hỏi đáp (Question Answering – QA) được hiểu như sau: QA là một hệ thống được xây dựng để thực hiện việc tìm kiếm câu trả lời cho một câu hỏi của người dùng. Hệ thống hỏi đáp liên quan đến 3 lĩnh vực lớn đó là xử lý ngôn ngữ tự nhiên (Natural Language Processing), tìm kiếm thông tin (Information Retrieval) và rút trích thông tin (Information Extraction). Hình 1.1: Mô hình hệ thống hỏi đáp với các lĩnh vực liên quan Hệ thống hỏi đáp có 2 loại:  Hệ thống hỏi đáp miền đóng (Closed-domain Question Answering): Hệ thống này liên quan đến các câu hỏi trong một lĩnh vực cụ thể, chẳng hạn như lĩnh vực y học hay lĩnh vực khoa học. 5  Hệ thống hỏi đáp miền mở (Open-domain Question Answering): hệ thống này liên quan đến các câu hỏi gần như về tất cả mọi thứ. 1.1.2.2. Cấu trúc của một hệ thống hỏi đáp Thông thường hệ thống hỏi đáp xử lý 3 nhiệm vụ quan trọng chính: xử lý câu hỏi, xử lý tài liệu và xử lý câu trả lời. Hình 1.2: Kiến trúc của một hệ thống hỏi đáp  Xử lý câu hỏi: Xử lý câu hỏi thông thường bao gồm các công việc như biểu diễn câu hỏi, dẫn xuất đến loại câu trả lời mong đợi và trích xuất từ khóa. Phân tích được thực hiện để xây dựng xấu trúc câu hỏi. Thông thường, cấu trúc biểu diễn câu hỏi là một cây cú pháp hoặc cây phụ thuộc. Sau đó cấu trúc này được sử dụng để xác định vị trí và xác minh các câu trả lời trong các tài liệu hay đoạn văn đã được trích xuất.  Xử lý tài liệu: Bước này sử dụng câu truy vấn được tạo ra ở bước xử lý câu hỏi để tìm các tài liệu liên quan đến câu hỏi. Giao đoạn này bao gồm mở rộng từ khóa, trích chọn tài 6 liệu, và xác định đoạn văn liên quan. Mở rộng từ khóa là sử dụng các từ khóa được trích xuất trong giai đoạn xử lý câu hỏi ở trên và tìm kiếm chúng trong một từ điển đồng nghĩa hoặc các tài nguyên khác, và thêm các điều kiện tìm kiếm để lấy ra càng nhiều tài liệu liên quan càng tốt. Ví dụ từ khóa “kill” có thể được mở rộng thành “murder” và “assassinate”. Các tài liệu được trích chọn dựa trên các từ khóa mở rộng. Từ đó, một đoạn hoặc một phần của mỗi tài liệu này có chứa câu trả lời tiềm năng sẽ được xác định. Phân loại câu hỏi được sử dụng ở đây: nó có thể xác định chiến lược tìm kiếm để tìm kiếm các ứng viên đúng. Tùy thuộc vào các lớp câu hỏi, truy vấn tìm kiếm có thể được chuyển đổi thành một hình thức mà là thích hợp nhất cho việc tìm kiếm câu trả lời.  Xử lý câu trả lời: Bước này phân tích tập tài liệu trả về từ bước xử lý tài liệu và sử dụng các thông tin hữu ích do bước xử lý câu hỏi cung cấp để đưa ra câu trả lời chính xác nhất. Các ứng cử viên câu trả lời được xếp hạng theo khả năng của mình trong việc trong cùng một lớp như lớp câu hỏi và câu trả lời xếp hạng cao nhất sẽ được coi là câu trả lời cuối cùng của câu hỏi. 1.1.2.3. Mục đích của việc phân lớp câu hỏi Như đã phân tích ở trên, hiệu suất của việc phân lớp câu hỏi có ảnh hướng đáng kể đến hiệu suất tổng thể của hệ thống hỏi đáp. Việc phân lớp câu hỏi càng hiệu quả thì hiệu suất của hệ thống hỏi đáp càng cao. Có hai động cơ thúc đẩy chính về việc phân lớp câu hỏi đó là: xác định câu trả lời và lựa chọn chiến lược tìm kiếm. Xác định câu trả lời: Khi biết được loại câu hỏi không chỉ có thể thu gọn được không gian tìm kiếm cần tìm câu trả lời, nó còn có thể tìm kiếm chính xác câu trả lời trong một tập lớn các ứng viên trả lời. Ví dụ cùng xem xét câu hỏi sau: “Ai là Viện trưởng của Viện Đại học Mở Hà Nội”. Chúng ta cùng thấy đây là dạng câu hỏi liên quan đến ai, con người, hệ thống sẽ đưa ra các câu trả lời liên quan đến thực thể có được xác định là người mà không cần phải kiểm tra toàn bộ các đoạn văn bản để tìm ở đâu có thể chứa câu trả lời hoặc không. 7 Lựa chọn chiến lược tìm kiếm: Lớp câu hỏi có thể có được sử dụng để lựa chọn chiến lược tìm kiếm khi câu hỏi được viết dưới dạng một truy vấn để tìm kiếm trên máy tìm kiếm. Cho ví dụ đưa ra câu hỏi: “Địa điểm chính của Viện Đại học Mở Hà Nội ở đâu?” Xác định được lớp câu hỏi này là “nơi trốn”, các mẫu tìm kiếm cho việc xác định câu trả lời có thể dùng là “Địa chỉ của Viện Đại học Mở Hà Nội là ở….” Hay “Viện Đại học Mở Hà Nội ở…”. Việc lựa chọn chiến lược tìm kiếm theo các lớp như vậy tốt hơn nhiều việc tìm kiếm đơn giản thông thường. 1.2 Bài toán phân lớp câu hỏi 1.2.1 Định nghĩa phân lớp câu hỏi Phân lớp câu hỏi được định nghĩa theo nhiều cách khác nhau, áp dụng định nghĩa phân lớp văn bản, Hakhan Sundblad đã đưa ra một số định nghĩa phân lớp câu hỏi như sau: Phân lớp câu hỏi [5, tr.9-10] là nhiệm vụ gán 1 giá trị đúng hoặc sai tới mỗi cặp (𝑞𝑗, 𝑐𝑖) ∈ 𝑄 × 𝐶, trong đó Q là miền các câu hỏi và 𝐶 = {𝐶1, 𝐶2, … , 𝐶|𝐶|} là tập các lớp đã được định nghĩa trước. Cặp (qj,ci) được gán cho giá trị là T chỉ ra rằng câu hỏi qj thuộc phân loại ci và được gán cho giá trị là F nếu qj không thuộc phân loại ci. Phân lớp câu hỏi là một bước xử lý quan trọng trong các hệ thống hỏi đáp. Mục đích của hệ thống hỏi đáp là đưa ra được một câu trả lời ngắn gọn, súc tích hơn là những tài liệu liên quan chứa câu trả lời. Trong ngôn ngữ tự nhiên, một câu hỏi có thể liên quan và ảnh hưởng bởi nhiều lĩnh vực khác nhau nên lượng câu trả lời liên quan cũng rất lớn. Việc phân lớp câu hỏi sẽ cung cấp các thông tin ràng buộc về loại câu trả lời. Nhờ đó, hệ thống đưa ra một hoặc nhiều chiến lược làm giảm không gian tìm kiếmcác câu trả lời tiềm năng trong kho ngữ liệu khổng lồ. Phát biểu bài toán phân lớp câu hỏi Bài toán phân loại câu hỏi có thể được phát biểu như sau: Input: - Cho trước một tập các câu hỏi - Tập các chủ đề (phân loại) được định nghĩa 8 Output: - Nhãn ci của câu hỏi qj. 1.3 Biểu diễn câu hỏi Xác định loại câu hỏi mang một ý nghĩa to lớn trong việc phân tích các câu hỏi bởi mỗi loại câu hỏi sẽ có những đặc trưng và cách tiếp cận khác nhau, từ đó lựa chọn một mô hình biểu diễn câu hỏi thích hợp. Có nhiều loại câu hỏi như: câu hỏi định nghĩa, mô tả, tổng hợp, đánh giá, liệt kê...Trong câu hỏi, người ta có thể sử dụng từ ngữ phức tạp và đa dạng để diễn đạt cùng nội dung làm cho việc xác định lớp câu hỏi phù hợp trở nên khó khăn. Các loại câu hỏi này nên đưa về những dạng cây hỏi đơn giản hoặc loại câu hỏi phức tạp. Mỗi loại câu hỏi cần có những chiến lược phân lớp phù hợp cũng như biểu diễn bởi các mô mình riêng. Một trong những mô hình đơn giản và thường được sử dụng là mô hình không gian vector. Trong mô hình này, các câu hỏi được thể hiện trong một không gian có số chiều lớn, trong đó mỗi chiều của không gian tương ứng với một từ trong câu hỏi. Phương pháp này có thể biểu diễn một cách hình tượng như sau: mỗi câu hỏi được biểu diễn dưới dạng 𝑥⃗ (vector đặc trưng của câu hỏi đó). Trong đó, 𝑥⃗ = (x1, x2….,xn) và n là số lượng đặc trưng hay số chiều của vector câu hỏi, xi là trọng số của đặc trưng thứ i với I ≤ 1 ≤ n. 1.4 Taxonomy câu hỏi Trong Q&A Roadmap đã chỉ ra rằng taxonomy câu hỏi là rất cần thiết trong nghiên cứu về Q&A. Các nghiên cứu về taxonomy câu hỏi đã được nhiều nhà nghiên cứu quan tâm, trên các mặt về ngôn ngữ học, triết học, xã hội học, có nền tảng lý thuyết lẫn thực nghiệm. Khái niệm taxonomy mang nhiều ý nghĩa khác nhau, nhưng về bản chất, taxonomy là sự định danh, phân loại một số tính chất, đặc điểm. Taxonomy được xem là một hình thức của hệ phân cấp và có chứa các phần tử gọi là các nút. Mối quan hệ chủ yếu giữa các nút là quan hệ cha – con và giữa các nút con đồng cấp với nhau thì không tồn tại mối quan hệ nào. 9 Một taxonomy được mô tả theo cấu trúc hình cây, trên đỉnh của cấu trúc là nút gốc và dưới nó là các nút con, tập nút con của các nút cha không giao nhau. Khi duyệt cây từ nút cha đến các nút con, thông tin tại các nút con chi tiết và rõ ràng hơn nút cha. Khi xác định được nút cha, các nút con cũng sẽ được xác định. Điều này mang lại hiệu quả trong tìm kiếm, truy vấn dữ liệu vì dựa vào nút cha, việc xác định miền thông tin cần tìm rõ ràng hơn và được giới hạn. Năm 1972, Robinson và Rackstraw đã nghiên cứu về cách sử dụng các từ để hỏi trong tiếng Anh, theo đó “the Five Ws” (Who, What, When, Where, Why, và How) là cách phân loại câu hỏi thông thường và đơn giản nhất. Có lẽ bởi “the Five Ws” là cách suy nghĩ rất tự nhiên khi đặt câu hỏi của người dùng tiếng Anh nên nó rất phổ biến trong các tài liệu và trong hỏi đáp thông thường. Robinson và Rackstraw đã dành 2 tập sách [8,9] để khảo sát về wh-words, hình thức câu hỏi dựa vào whwords và câu trả lời cho các câu hỏi này. Robinson và Rackstraw định nghĩa whwords là “tập hoàn toàn của các từ để hỏi về mặt từ vựng” (“the total set of lexically marked interrogative words”). Họ đưa ra một taxonomy câu hỏi 7 lớp bao gồm:Who, Which, What, When, Where, Why, How. Có hai vấn đề với taxonomy trên là: Câu hỏi không nhất thiết phải là câu có sử dụng từ để hỏi wh-words và không phải câu nào có sử dụng từ để hỏi wh-words cũng đều là câu hỏi. Một câu hỏi có dạng của một câu phát biểu nhưng có thể được hiểu và chấp nhận như là một câu hỏi. Ví dụ xem xét câu sau: “I’m looking for the name of the General Secretary of the United Nations” tương đương với câu “Who was the General Secretary of the United Nations?”. Các cách nói tu từ, biểu cảm rất hay sử dụng các từ wh-words ví dụ câu “What a beautiful house!” hay “Why not?” đều không phải là các câu có mục đích hỏi. Một vài hệ thống Q&A trong hội nghị TREC sử dụng wh-words như là các tiêu chuẩn chính trong phân tích và biểu diễn logic của câu hỏi [11,12]. Một số hệ thống chia nhỏ các lớp câu hỏi wh-words thành các lớp con nhằm cho phép hệ thống Q&A có thể nhận diện được “kiểu ngữ nghĩa (semantic types) của câu trả lời mong muốn”. Dan Moldovan và đồng nghiệp đưa ra một taxonomy phân loại câu hỏi phân cấp theo cả từ để hỏi lẫn loại câu trả lời mong muốn tương ứng 10 Ngoài ra, cùng với nghiên cứu về vấn đề này, Li và Roth [12, 13] đã đưa ra taxonomy phân cấp theo sự phân loại ngữ nghĩa tự nhiên của câu trả lời cho các câu hỏi được khảo sát từ hội nghị TREC. Cấu trúc phân cấp bao gồm 6 lớp câu hỏi thô (coarse classes) là ABBREVIATION (viết tắt), ENTITY (thực thể), DESCRIPTION (mô tả), HUMAN (con người), LOCATION (địa điểm) và NUMERIC VALUE (giá trị số). Mỗi lớp câu hỏi thô lại được phân chia thành các lớp con (fine class). Taxonomy câu hỏi của Li và Roth được trình bày chi tiết trong bảng dưới đây. Taxonomy này cùng bộ dữ liệu câu hỏi đã gán nhãn của Li và Roth được nhiều nhóm nghiên cứu sử dụng lại bởi nó bao phủ được hầu hết các loại câu hỏi thường gặp trong thực tế. Bảng 1.1: Taxonomy câu hỏi của Li và Roth Nhãn lớp Số lượng câu hỏi Ý nghĩa Số lượng kiểm tra ABBREV Sự tóm tắt abbreviation Tóm tắt 16 1 expansion ý nghĩa viết tắt 70 8 ENTITY Thực thể animal Động vật 112 16 body Cơ thể 16 2 color Màu sắc 40 10 creative Sự sáng tạo 207 0 currency Tiền tệ 4 6 disease/ medical Bệnh tật và y học 103 2 event Sự kiện 56 2 food Thực phẩm 103 4 instrument Dụng cụ chơi nhạc 10 1 language Ngôn ngữ 16 2 letter Ký tự 9 0 other Thực thể khác 217 12 plant Thực vật 13 5 11
- Xem thêm -

Tài liệu liên quan