Xây dựng hệ tóm tắt ý kiến về các sản phẩm từ nhiều người dùng cho văn bản tiếng Việt

  • Số trang: 51 |
  • Loại file: PDF |
  • Lượt xem: 16 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ HẢI YẾN XÂY DỰNG HỆ TÓM TẮT Ý KIẾN VỀ CÁC SẢN PHẨM TỪ NHIỀU NGƯỜI DÙNG CHO VĂN BẢN TIẾNG VIỆT LUẬN VĂN THẠC SĨ Hà Nội – 2011 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ HẢI YẾN XÂY DỰNG HỆ TÓM TẮT Ý KIẾN VỀ CÁC SẢN PHẨM TỪ NHIỀU NGƯỜI DÙNG CHO VĂN BẢN TIẾNG VIỆT LUẬN VĂN THẠC SĨ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 Người hướng dẫn khoa học: TS. Nguyễn Lê Minh Hà Nội - 2011 4 MỤC LỤC LỜI CAM ĐOAN .............................................................................................. 1 MỤC LỤC ......................................................................................................... 4 DANH MỤC HÌNH VẼ ..................................................................................... 6 KÝ TỰ VIẾT TẮT ............................................................................................. 7 LỜI CẢM ƠN .................................................................................................... 8 MỞ ĐẦU ........................................................................................................... 9 Chƣơng 1- GIỚI THIỆU BÀI TOÁN TÓM TẮT VĂN BẢN .......................... 11 1.1. Định nghĩa tóm tắt văn bản .................................................................... 11 1.2. Quy trình tóm tắt tự động văn bản. ......................................................... 12 1.3. Một số ứng dụng của tóm tắt văn bản ..................................................... 12 1.4. Sự phân loại các phƣơng pháp tóm tắt. ................................................... 13 1.5. Tóm tắt đa văn bản ................................................................................. 15 1.5.1. Giới thiệu ......................................................................................... 15 1.5.2. Tiêu chuẩn về chất lƣợng của tóm tắt đa văn bản ............................. 15 1.5.3. Các yêu cầu của tóm tắt đa văn bản: ................................................ 16 1.6. Bài toán tóm tắt ý kiến đánh giá về sản phẩm từ nhiều ngƣời dùng. ....... 17 Chƣơng 2 - KIẾN THỨC CƠ SỞ ..................................................................... 20 2.1. Khai thác ý kiến ..................................................................................... 20 2.1.1. Định nghĩa ....................................................................................... 20 2.1.2. Bối cảnh lịch sử ............................................................................... 20 2.1.3. Các cơ sở khoa học .......................................................................... 21 2.2. Khai phá luật kết hợp (Assocition Rules) ............................................... 27 2.2.1. Giới thiệu ......................................................................................... 27 2.2.2. Các bƣớc để tìm ra luật kết hợp ....................................................... 29 2.3. Phƣơng pháp tính độ tƣơng đồng câu sử dụng độ đo Cosine. ................. 30 2.4. Kỹ thuật tối đa biên liên quan – MMR ................................................... 30 Chƣơng 3 - SỬ DỤNG KỸ THUẬT TÓM TẮT ĐA VĂN BẢN CHO BÀI TOÁN TÓM TẮT Ý KIẾN ĐÁNH GIÁ VỀ SẢN PHẨM TỪ NHIỀU NGƢỜI DÙNG. ............................................................................................................. 32 3.1. Xử lý các đánh giá trực tuyến của khách hàng........................................ 32 3.2. Tóm tắt văn bản tự động......................................................................... 34 3.3. Tóm tắt dựa trên cấu trúc chủ đề ............................................................ 35 3.3.1. Quá trình tiền xử lý dữ liệu (Pre-processing) ................................... 36 3.3.2. Xác định chủ đề (Topic Identification). ............................................ 36 3.3.3. Trích chọn các câu ứng cử viên (Candidate sentence extraction) ..... 39 3.3.4. Bƣớc xử lý cuối cùng và trình bày bản tóm tắt ................................. 39 5 Chƣơng 4 - THỬ NGHIỆM VÀ ĐÁNH GIÁ ................................................... 41 4.1. Môi trƣờng thử nghiệm .......................................................................... 41 4.2. Dữ liệu thử nghiệm ................................................................................ 41 4.3. Quá trình thử nghiệm ............................................................................. 44 4.4. Kết quả thử nghiệm ................................................................................ 45 4.4.1. Kết quả xác định danh sách các mục từ chính: ................................. 45 4.4.2. Bản tóm tắt cuối cùng ...................................................................... 46 4.5. Đánh giá thử nghiệm ................................................................................. 46 KẾT LUẬN ...................................................................................................... 50 TÀI LIỆU THAM KHẢO ................................................................................ 51 6 DANH MỤC HÌNH VẼ Hình 1: Một ví dụ về tóm tắt ý kiến dựa trên thuộc tính .................................... 24 Hình 2: Tóm tắt các ý kiến dựa vào thuộc tính của máy ảnh kỹ thuật số ........... 24 Hình 3: So sánh các ý kiến đánh giá về 2 máy ảnh kỹ thuật số. ........................ 24 Hình 4: Xếp hạng các chủ đề dựa vào tập các đánh giá về điện thoại Nokia .... 38 Hình 5: Bản tóm tắt cuối cùng .......................................................................... 40 Hình 6: Kết quả thử nghiệm xác định danh sách các mục từ chính................... 45 Hình 7: Kết quả thử nghiệm của bản tóm tắt .................................................... 46 Hình 8: Bản tóm tắt được tạo ra bằng phương pháp tóm tắt dựa vào phân cụm trên tập các đánh giá về điện thoại Nokia. ....................................................... 47 7 KÝ TỰ VIẾT TẮT CRF FS HMM IR MMR NLP PDA SMS TF TID WAP Conditional Random Field Frequent Word Sequences Hidden Markov Model Information retrieval Maximal Marginal Relevance Natural Language Processing Personal Digital Assistant Short Message Services Term frequency Transaction Identifier Wireless Application Protocol 9 MỞ ĐẦU Với việc phát triển nhanh chóng của thương mại điện tử, ngày càng có nhiều các sản phẩm được rao bán trên mạng và cũng ngày càng nhiều người mua sản phẩm trực tuyến. Để tăng cường sự hài lòng của khách hàng và kinh nghiệm mua sắm, một thực tế phổ biến cho các nhà kinh doanh trực tuyến là cho phép khách hàng của họ có thể đánh giá hoặc phát biểu ý kiến về các sản phẩm mà họ đã mua. Với việc ngày càng nhiều người dùng sử dụng mua bán trực tuyến thì số lượng người đánh giá về sản phẩm ngày càng tăng lên. Kết quả là, số lượng ý kiến mà một sản phẩm nhận được tăng lên nhanh chóng. Hơn nữa, rất nhiều ý kiến đánh giá là dài nhưng chỉ có một vài câu có nội dung về đánh giá sản phẩm. Điều này thực sự khó khăn cho một khách hàng tiềm năng có thể đọc chúng để thực hiện một quyết định đúng đắn về việc có nên mua sản phẩm hay không. Nếu anh/cô ấy chỉ đọc một vài ý kiến thì có thể nhận được một cái nhìn không đúng đắn về sản phẩm. Số lượng lớn các ý kiến cũng gây ra khó khăn cho các nhà sản xuất để theo dõi ý kiến khách hàng đối với các sản phẩm của họ. Đối với một nhà sản xuất, đó là những khó khăn truyền thống vì rất nhiều các trang web kinh doanh có thể bán cùng một sản phẩm và các nhà sản xuất có thể (hầu như) sản xuất rất nhiều loại sản phẩm. Bằng cách dựa vào những lợi thế của công nghệ thông tin, các công ty sản xuất có thể thu thập thông tin khách hàng trong một quy mô lớn để cung cấp chiến lược cũng như hỗ trợ kỹ thuật cho sản phẩm của họ phục vụ cho việc thiết kế, phát triển sản phẩm và tiếp thị bán hàng. Khảo sát thống kê là một phương pháp tiếp cận chung được áp dụng rộng rãi để thu thập thông tin của khách hàng và hành vi của khách hàng. Tuy nhiên, các nghiên cứu trước đây sử dụng thông tin của khách hàng chủ yếu tập trung vào tính toán và phân tích dữ liệu cho mục đích giới thiệu sản phẩm, cá nhân hoá, và phân tích các nhân tố làm tăng cường lòng trung thành của khách hàng. Tuy nhiên, dữ liệu văn bản chiếm một phần đáng kể của thông tin khách hàng đã phần nào bị bỏ qua. Trong khi đó, tính toán và phân tích dữ liệu được cấu trúc và tổ chức tốt với các ứng dụng cơ sở dữ liệu, điều này làm cho họ xử lý tương đối dễ dàng. Một vài kỹ thuật được thành lập để phân tích và quản lý những dữ liệu này. Ví dụ: phân tích xử lý trực tuyến (OLAP) và khai thác dữ liệu. Ngược lại, dữ liệu văn bản viết bằng ngôn ngữ tự nhiên lại thường được lưu trữ dưới dạng văn bản không có cấu trúc hoặc bán cấu trúc. Xử lý dữ liệu văn bản yêu cầu không thể thiếu kiến thức từ các lĩnh vực khác nhau như: cơ sở dữ liệu, truy vấn thông tin, học máy và xử lý ngôn ngữ tự nhiên. Vì vậy, tồn tại một mức độ khó khăn hơn trong xử lý thông tin văn bản. 10 Tương tự như các dữ liệu số, dữ liệu văn bản cung cấp thông tin phong phú trong việc thúc đẩy sự thu thập thông tin về kinh doanh cũng như thông tin về sự cạnh tranh, đặc biệt là với sự phát triển bùng nổ của trang web dựa trên các ứng dụng kinh doanh.. Hiện nay, nhu cầu về kỹ thuật tiên tiến đã tăng lên rất nhiều để giảm thời gian cần thiết để có được các thông tin và tri thức hữu ích từ tập hợp dữ liệu lớn văn bản như email, bản ghi nhớ, các trang web và thậm chí cả tin nhắn. Khách hàng là những người được mời hoặc tự phát tham gia đánh giá bằng văn bản để chia sẻ kinh nghiệm của họ, ý kiến và khuyến nghị đối với các sản phẩm khác nhau. Một số người tiêu dùng hành động một cách chuyên nghiệp bằng những phương pháp khác nhau để so sánh các sản phẩm tương tự từ sự khác nhau về thương hiệu và đưa ra ý kiến ủng hộ hoặc phản đối. Những đánh giá sản phẩm là rất cần thiết đối với việc thiết kế và sản xuất sản phẩm của nhà sản xuất, nhà sản xuất có thể hiểu rõ hơn những điều khách hàng quan tâm và cải tiến sản phẩm cho phù hợp. Tuy nhiên, việc xử lý thông tin quan trọng như vậy không phải là một nhiệm vụ nhỏ. Số lượng đánh giá một cách trực tiếp của khách hàng có thể phát triển rất nhanh chóng và nó là tốn thời gian để thực sự đọc qua tất cả chúng bằng “tay”. Làm thế nào để đối phó với các số lượng lớn khách hàng đánh giá và lựa chọn thông tin hữu ích từ họ đã trở thành một nhiệm vụ quan trọng nhưng đầy thách thức. Với thực tế ở trên, luận văn tiến hành nghiên cứu, giải quyết và đề xuất phương pháp tập hợp mối quan tâm của khách hàng từ việc đánh giá sản phẩm trực tuyến bằng cách sử dụng tóm tắt văn bản tự động. Cơ sở của đề tài là các kết quả nghiên cứu đã được công bố trên thế giới về bài toán tóm tắt văn bản tự động. Luận văn cũng tiến hành thử nghiệm tóm tắt trên một tập các đánh giá về một sản phẩm cụ thể. Ngoài phần mở đầu và kết luận, kết cấu của luận văn bao gồm 4 chương: - Chương 1: “Giới thiệu bài toán tóm tắt văn bản” tóm tắt một số các ứng dụng của tóm tắt văn bản, phát biểu bài toán tóm tắt ý kiến về sản phẩm từ nhiều người dùng. - Chương 2: “Kiến thức cơ sở” trình bày một số thuật toán, phương pháp sử dụng trong quá trình tóm tắt. - Chương 3: “Sử dụng kỹ thuật tóm tắt đa văn bản cho bài toán tóm tắt” sẽ đi sâu vào phương pháp tóm tắt cụ thể để giải quyết bài toán chính của luận văn. - Chương 4: “Thử nghiệm và đánh giá” sẽ trình bày quá trình thử nghiệm của luận văn và các kết quả đạt được trong quá trình thử nghiệm. Đồng thời cũng đưa ra các phân tích và đánh giá về kết quả đạt được. 11 Chƣơng 1- GIỚI THIỆU BÀI TOÁN TÓM TẮT VĂN BẢN 1.1. Định nghĩa tóm tắt văn bản Tóm tắt được định nghĩa là một văn bản được tạo ra từ một hoặc nhiều văn bản mà văn bản này chứa đựng các thông tin quan trọng trong văn bản gốc đồng thời ngắn gọn hơn văn bản gốc. Như vậy, tóm tắt văn bản là một quá trình chắt lọc hầu hết các thông tin quan trọng từ một hay nhiều văn bản nguồn để tạo ra một bản tóm tắt ngắn gọn, cô đọng cho những người dùng hay nhiệm vụ cụ thể. Khi việc tóm tắt được thực hiện bằng khả năng của một máy tính, nghĩa là tự động, thì gọi là tóm tắt văn bản tự động. Như vậy, tóm tắt văn bản tự động là quá trình mà một máy tính tạo ra một phiên bản ngắn hơn của văn bản so văn bản gốc (hoặc một tập hợp các văn bản) nhưng vẫn còn giữ hầu hết các thông tin quan trọng của văn bản gốc. Quá trình này có thể được xem như quá trình nén và có thể sẽ bị mất thông tin. Như vậy, một hệ thống tóm tắt văn bản phải xác định các phần quan trọng và giữ chúng lại. Nhưng cái gì là quan trọng lại dựa trên nhu cầu của người sử dụng hoặc mục đích của bản tóm tắt. Tóm tắt văn bản = quá trình làm giảm độ dài hoặc giảm độ phức tạp về nội dung của văn bản gốc, mà không làm mất ý chính. Mặc dù trong thực tế, tóm tắt văn bản hướng truyền thống là tập trung vào văn bản đầu vào. Đầu vào của quá trình tóm tắt có thể bao gồm các thông tin đa phương tiện như hình ảnh, âm thanh hay video cũng như những thông tin trực tuyến hay những siêu văn bản. Hơn nữa, chúng ta có thể nói việc tóm tắt chỉ trên một văn bản hoặc nhiều văn bản. Trong trường hợp việc tóm tắt được thực hiện trên nhiều văn bản thì quá trình tóm tắt được gọi là tóm tắt đa văn bản (Multidocument Summarization (MDS)) và các văn bản nguồn có thể là một ngôn ngữ hay nhiều ngôn ngữ khác nhau. Đầu ra của hệ thống tóm tắt có thể là một đoạn trích hoặc một bản tóm tắt. Chúng ta có thể phân biệt giữa các bản tóm tắt tổng quát và các bản tóm tắt mà người dùng tập trung vào. Tóm lại: Bài toán tóm tắt văn bản bao gồm Đầu vào: - Văn bản gốc - Tỷ lệ nén hoặc độ dài bản tóm tắt (tỷ lệ nén=độ dài bản tóm tắt/độ dài văn bản gốc) Đầu ra: 12 Văn bản đã tóm tắt Chất lượng của bản tóm tắt thường là khác nhau do các độ đo là: - Tính dễ hiểu - Tính chặt chẽ - Tính mạch lạc - Tính rõ ràng, dễ đọc 1.2. Quy trình tóm tắt tự động văn bản. Theo truyền thống, việc tóm tắt đã được phân thành ba giai đoạn chính. Theo phương pháp tiếp cận của Sparck Jones, đó là: - Thể hiện lại văn bản từ văn bản ban đầu. - Chuyển đổi văn bản đã biểu diễn thành một biểu diễn tóm tắt. - Cuối cùng là sinh ra một bản tóm tắt văn bản từ biểu diễn tóm tắt Một quá trình tổng hợp tự động có thể được chia thành ba bước: - Bước tiền xử lý: một đại diện có cấu trúc của văn bản ban đầu thu được. - Bước xử lý: một thuật toán phải chuyển đổi cấu trúc văn bản vào một cấu trúc bản tóm tắt. - Bước cuối cùng thu được một bản tóm tắt từ cấu trúc bản tóm tắt ở trên. Để việc tóm tắt được hiệu quả thì đòi hỏi phải phân tích rõ ràng và chi tiết các nhân tố bối cảnh. Sparck Jones đã phân chia ra thành 3 nhân tố chính: các nhân tố đầu vào, các nhân tố mục đích và nhân tố đầu ra. - Các nhân tố đầu vào. Các đặc trưng quan trọng của văn bản đã được tóm tắt xác định cách mà một bản tóm tắt có thể đạt được. Các đặc trưng này có thể là: hình thức văn bản (ví dụ như cấu trúc văn bản); loại chủ đề (bình thường, chuyên ngành hoặc hạn chế) hay số đơn vị đầu vào (một hoặc nhiều tài liệu). - Các nhân tố mục đích: Đây thường là những nhân tố quan trọng nhất. Chúng có thể là ba loại: tình hình đề cập đến bối cảnh trong bản tóm tắt được sử dụng, người đọc bản tóm tắt và mục đích sử dụng (tóm tắt để làm việc gì?). - Các nhân tố đầu ra: nội dung, định dạng và phong cách. 1.3. Một số ứng dụng của tóm tắt văn bản - Trong hội thảo: Độc giả được mời tới hội nghị để thảo luận. Nếu có một bản tóm tắt về nội dung cuộc thảo luận thì sẽ giúp họ tiết kiệm được thời gian hơn. - Tóm tắt văn bản cũng có thể hữu ích cho việc hiển thị văn bản trên thiết bị cầm tay như PDA. 13 - Tóm tắt tin tức tới định dạng SMS hay WAP cho điện thoại di động hay PDA. - Cho phép máy tính “giả” (synthetical) đọc các bản tóm tắt. - Tiến hành tìm kiếm bằng các ngôn ngữ nước ngoài và nhận về được một bản dịch tóm tắt tự động. - Trong các máy tìm kiếm (search engine): tóm tắt các thông tin trong danh sách kết quả bởi các máy tìm kiếm. Đưa ra các mô tả ngắn gọn về các kết quả tìm kiếm được(như máy tìm kiếm Google). - Tóm tắt hội nghị: tìm hiểu những gì đã trình bày tại hội nghị. - Các thiết bị cầm tay: tạo ra một bản tóm tắt ngắn gọn của một cuốn sách theo kích thước của màn hình. - Hỗ trợ cho người tàn tật: tóm lược văn bản và đọc nó cho người mù. 1.4. Sự phân loại các phƣơng pháp tóm tắt. * Nếu so sánh các hình thức của bản tóm tắt thì có 2 phương pháp tóm tắt: - Trích chọn (Extracts): đây là những bản tóm tắt hoàn chỉnh bao gồm các trình tự từ đã được sao chép từ các tài liệu gốc giống với chuỗi các từ có thể được sử dụng các cụm từ, các câu hoặc các đoạn văn. Phương pháp này bị mâu thuẫn, thiếu sự cân bằng, và thiếu sự gắn kết. Các câu có thể được trích xuất ra khỏi bối cảnh, liên quan đến sự trùng lặp có thể bị phá vỡ. - Trừu tượng (Abstracts): là những bản tóm tắt chứa các trình tự từ không có trong văn bản ban đầu. Cho đến bây giờ nó là một nhiệm vụ quá khó cho máy tính để giải quyết nó thành công. Một bản tóm tắt có thể chứa các từ không xuất hiện trong bản gốc. Phương pháp tóm tắt Abstract vẫn còn khá yếu, vì vậy hầu hết các nghiên cứu đã tập trung vào các phương pháp trích chọn. * Nếu dựa vào mức độ của quá trình tóm tắt lại có thể chia ra: - Hướng tiếp cận mức độ nông (Surface-level ): trong hướng tiếp cận này, thông tin được trình bày theo quan điểm: nói sơ qua về các đặc tính và kết hợp chúng với nhau. Các đặc tính đó ví dụ như: thống kê những từ ngữ nổi bật, những vị trí nổi bật, những từ ngữ gợi ý những cụm từ, tên miền cụ thể hoặc những từ ngữ truy vấn của người dùng. Kết quả là ta có 1 dạng đoạn trích. - Hướng tiếp cận mức độ sâu (Deep-level ): hướng tiếp cận này có thể tạo ra các trích lục hoặc tóm tắt. Các trường hợp sau này sử dụng tổng hợp liên quan đến thế hệ ngôn ngữ tự nhiên. Chúng cần một số phân tích 14 ngữ nghĩa, ví dụ như có thể sử dụng các phương pháp tiếp cận thực thể và xây dựng một đại diện của các thực thể văn bản (đơn vị văn bản) và các mối quan hệ giữa chúng để xác định các phần nổi bật. Chúng cũng có thể sử dụng phương pháp luận và mô hình cấu trúc văn bản, ví dụ như: đánh dấu siêu văn bản hoặc cấu trúc tu từ. * Nếu dựa vào mục đích tóm tắt thì có thể phân loại thành: - Các bản tóm tắt chỉ báo (Indicative summaries) đưa ra những thông tin viết tắt về các chủ đề chính của một tài liệu. Các tóm tắt này phải giữ các đoạn quan trọng nhất và thường được sử dụng như là một phần kết thúc của các hệ thống IR, được trả lại bởi hệ thống tìm kiếm thay cho một tài liệu đầy đủ. Mục đích của các bản tóm tắt này là để giúp người dùng quyết định xem tài liệu ban đầu có đáng để đọc hay không. Độ dài của bản tóm tắt này có phạm vi bằng từ 5 đến 10% của các văn bản hoàn chỉnh. - Các bản tóm tắt cung cấp nhiều thông tin (Informative summaries) cung cấp một bản thay thế cho tài liệu đầy đủ, giữ lại những chi tiết quan trọng, đồng thời giảm khối lượng thông tin. Thông tin tóm tắt thường là 20-30% thông tin của văn bản gốc. - Các tóm tắt theo kiểu bình luận hay đánh giá (Critical or Evaluative summaries) nắm bắt những quan điểm của tác giả bản tóm tắt về một chủ đề nhất định. Mục điểm báo, tạp chí là ví dụ điển hình, nhưng các mục này là một đoạn rất nhỏ ngoài phạm vi của các hệ thống tóm tắt tự động ngày nay. * Nếu dựa vào người đọc thì có thể phân loại tóm tắt thành: - Tóm tắt chung: khi các kết quả được hướng tới một cộng đồng người đọc lớn, tất cả các chủ đề chính là quan trọng như nhau. - Tóm tắt dựa trên câu hỏi: khi kết quả được dựa trên một câu hỏi ví dụ như "Những nguyên nhân nào dẫn đến lạm phát cao? " - Tóm tắt tập trung người dùng hoặc tập trung chủ đề: phù hợp với sự quan tâm của một số người dùng đặc biệt hoặc chỉ nhấn mạnh những chủ đề đặc biệt. * Nếu dựa vào số lượng các văn bản có giá trị trong cơ sở dữ liệu văn bản thì có thể phân loại tóm tắt thành: - Tóm tắt đơn văn bản: việc tóm tắt được thực hiện trên một văn bản. - Tóm tắt đa văn bản: việc tóm tắt được thực hiện từ nhiều văn bản * Ngoài ra còn một số cách để phân loại các loại tóm tắt: - Tóm tắt đơn ngôn ngữ với đa ngôn ngữ. 15 - Tóm tắt bài báo khoa học, báo cáo hoặc tin tức ... - Tóm tắt chung hoặc tóm tắt có liên quan truy vấn. ... 1.5. Tóm tắt đa văn bản 1.5.1. Giới thiệu Tóm tắt đa văn bản cũng là một quy trình tự động nhằm mục đích khai thác thông tin từ nhiều bài viết có cùng một chủ đề. Kết quả nhận được là bản tóm tắt cho người dùng cá nhân, vì vậy, với những người dùng chuyên nghiệp họ nhanh chóng làm quen được với những thông tin chứa trong một nhóm lớn các tài liệu. Bằng cách như vậy, hệ thống tóm tắt đa văn bản thực hiện việc tập hợp những tin tức ở bước tiếp theo khi mà thông tin ngày nay đang trong tình trạng quá tải. Tóm tắt đa văn bản tạo ra các báo cáo thông tin chính xác và toàn diện. Nhiều ý kiến khác nhau được đặt lại với nhau và được phác thảo ra, tất cả các chủ đề được mô tả từ nhiều quan điểm trong một tài liệu duy nhất. Trong khi mục tiêu của một bản tóm tắt ngắn gọn là để đơn giản hóa việc tìm kiếm thông tin và giảm thời gian bằng cách tập trung vào hầu hết các tài liệu nguồn có liên quan. Một cách toàn diện, bản thân tóm tắt đa văn bản đã bao gồm các thông tin cần thiết, do đó hạn chế sự cần thiết phải truy nhập vào các tập tin ban đầu khi có yêu cầu về sàng lọc thông tin. Tóm tắt tự động đưa ra các thông tin đã được trích xuất từ nhiều nguồn thuật toán khác nhau mà không có bất kỳ sự biên tập hoặc sự can thiệp chủ quan của con người, do đó làm cho nó hoàn toàn không thiên vị. Nhiệm vụ tóm tắt đa văn bản đã trở thành phức tạp hơn nhiều hơn so với nhiệm vụ tóm tắt một văn bản duy nhất. Khó khăn này xuất phát từ việc đa dạng chuyên đề không thể tránh khỏi trong một tập hợp lớn các tài liệu. Ý tưởng về hệ thống tóm tắt đa văn bản không chỉ đơn giản là rút ngắn các văn bản nguồn nhưng trình bày thông tin tổ chức xung quanh các khía cạnh quan trọng để trình bày những quan điểm đa dạng về chủ đề này. Khi đạt được chất lượng như vậy, một bản tóm tắt đa văn bản tự động được hiểu là giống như một cái nhìn tổng quan về một chủ đề đã đưa ra. 1.5.2. Tiêu chuẩn về chất lƣợng của tóm tắt đa văn bản - Cấu trúc rõ ràng: bao gồm một đề cương về nội dung chính mà từ đó dễ dàng chuyển đến được các phần nội dung của văn bản đầy đủ. - Văn bản trong các phần được chia thành các đoạn có ý nghĩa. 16 - Từng bước một có thể chuyển đổi từ nhiều khía cạnh tổng quát đến các khía cạnh chuyên đề cụ thể hơn. - Có khả năng đọc tốt (good readability) 1.5.3. Các yêu cầu của tóm tắt đa văn bản: Có hai loại tình huống trong đó tóm tắt đa văn bản sẽ hữu ích: - Người sử dụng là phải đối mặt với một tập các tài liệu tương tự nhau và họ muốn đánh giá một cách tổng quan các thông tin trong tập hợp đó. - Có một tập hợp các tài liệu về các chủ đề có liên quan với nhau được trích xuất từ nhiều tập hợp khác nhau là kết quả của một truy vấn hoặc một cụm chủ đề đã được liên kết. Trong trường hợp đầu tiên, nếu tập hợp là đủ lớn, nó chỉ có ý nghĩa tới cụm đầu tiên và phân loại tài liệu. Sau đó, thử hoặc tóm tắt mỗi cụm mà mỗi cụm này có liên kết chặt chẽ với nhau. Trong trường hợp thứ hai, có thể xây dựng một bản tóm tắt tổng hợp văn bản có chứa các điểm chính của chủ đề, được tăng cường bằng thông tin cơ bản không dự phòng và / hoặc truy vấn có liên quan. Người sử dụng tìm kiếm thông tin theo các nhu cầu và mục tiêu khác nhau. Khi một nhóm ba người tạo ra một bản tóm tắt đa văn bản của 10 bài báo về các thử nghiệm của Microsoft trong một ngày nhất định, một người tóm tắt tập trung vào các chi tiết được trình bày ở cuộc họp, một người tóm tắt tập trung vào tất cả các ý kiến của các sự kiện trong ngày, và người thứ ba xem mức độ của các mục tiêu và kết quả của cuộc thử nghiệm. Như vậy, một ý tưởng tóm tắt đa văn bản sẽ có thể giải quyết các mức độ chi tiết khác nhau và là khó khăn để hiểu ngôn ngữ tự nhiên. Một giao diện cho hệ thống tổng hợp nhu cầu để có thể cho phép người dùng nhập thông tin tìm kiếm mục tiêu, thông qua một truy vấn, một nền tảng hồ sơ cá nhân quan tâm và / hoặc một cơ chế thông tin phản hồi có liên quan. Dưới đây là một danh sách các yêu cầu đối với tóm tắt đa văn bản: - Phân nhóm: có khả năng phân nhóm để các tài liệu và các đoạn tương tự với nhau tìm ra được các thông tin liên quan với nhau. - Khả năng gộp: có khả năng tìm kiếm và trích xuất các điểm chính trên nhiều văn bản. - Tránh sự dư thừa: có khả năng làm cho việc dư thừa là tối thiểu giữa các đoạn trong bản tóm tắt. - Tiêu chuẩn gắn kết trong bản tóm tắt: khả năng phối hợp các đoạn văn bản theo cách có lợi cho người đọc. Yêu cầu này có thể bao gồm: 17 + Trật tự văn bản: Tất cả các đoạn văn bản của tài liệu được xếp hạng từ cao nhất rồi đến tất cả các đoạn tài liệu tiếp theo xếp hạng thứ 2, v.v.. + Xếp hạng thứ tự: những thông tin đưa ra đầu tiên hầu hết là các thông tin có ích vì vậy người đọc có thể có được tối đa các nội dung thông tin ngay cả khi họ dừng lại không đọc bản tóm tắt. + Sự gắn kết chủ đề : Nhóm các đoạn văn với nhau bằng cách phân nhóm chủ đề sử dụng các tiêu chuẩn tương tự giữa các đoạn và trình bày thông tin bằng cách xếp hạng các nhóm trọng tâm. + Thứ tự thời gian: Các đoạn văn bản được xếp thứ tự theo thời gian dựa trên sự xuất hiện của các sự kiện. - Sự gắn kết: Các bản tóm tắt được tạo ra có thể đọc được và có liên quan đến người sử dụng. - Ngữ cảnh: Bao gồm các ngữ cảnh có khả năng vì vậy người đọc có thể hiểu được bản tóm tắt. - Xác định các mâu thuẫn nguồn gốc: Các bài viết thông thường có lỗi (chẳng hạn như: thay vì viết là tỷ thì lại viết là triệu, vv), tóm tắt đa văn bản phải có khả năng nhận biết và báo cáo các mâu thuẫn nguồn gốc. - Cập nhật bản tóm tắt: Một bản tóm tắt đa văn bản mới phải đưa được vào trong nó bản tóm tắt trước đó. Trong trường hợp này, rất cần hệ thống để theo dõi và phân loại các sự kiện. - Một giao diện người dùng có hiệu quả: + Attributability: Người dùng muốn có thể truy cập dễ dàng vào một đoạn văn bản nguồn. Điều này có thể được tóm tắt trên 1 tài liệu. + Mối liên hệ: Người dùng muốn xem xét mối liên hệ giữa các đoạn văn bản nguồn với các đoạn văn bản được hiển thị mà để từ đó có thể nêu bật sự mâu thuẫn trong văn bản nguồn. + Lựa chọn nguồn văn bản: Người dùng muốn có thể lựa chọn hoặc loại bỏ các thông tin khác khau. Ví dụ, người dùng có thể muốn loại bỏ các thông tin từ một số báo cáo tin tức nước ngoài thiếu tin cậy. + Bối cảnh: Người dùng muốn có thể “phóng to” trong phạm vi xung quanh các đoạn văn được lựa chọn. + Redirection: Người dùng sẽ có thể làm nổi bật một phần nào đó của tóm tắt tổng hợp và đưa ra một lệnh tới hệ thống đã chỉ ra. 1.6. Bài toán tóm tắt ý kiến đánh giá về sản phẩm từ nhiều ngƣời dùng. 18 Hiện nay, có 2 hình thức lấy ý kiến của khách hàng về sản phẩm rất phổ biến trên các trang web thương mại: - Nhà sản xuất đưa ra một mẫu đánh giá trước cho người dùng, người dùng chỉ có thể đánh giá theo các phương án đã có sẵn. Ví dụ: Bạn thấy giao diện của điện thoại Nokia hiện tại mà bạn đang dùng có tiện lợi hay không? a. Có tiện lợi b. Không tiện lợi c. Không có ý kiến gì Khách hàng nếu muốn đánh giá chỉ có thể chọn 1 trong 3 phương án đã cho trước như vậy. Nếu có nhiều khách hàng cùng đánh giá, thì phía nhà sản xuất sản phẩm có thể đưa ra được bản tóm tắt cuối cùng bao gồm: số người (phần trăm người) chọn phương án a (tích cực), số người (phần trăm người) chọn phương án b (tiêu cực), số người (phần trăm người) chọn phương án c (trung lập). Bản tóm tắt như ở trên thường được thực hiện khi nhà sản xuất đã tung một sản phẩm mới ra thị trường và nhà sản xuất cần thăm dò ý kiến của khách hàng về sản phẩm mới của họ. Tuy nhiên, nếu nhà sản xuất muốn phát triển sản phẩm thì rất khó để phát hiện các khách hàng đang cần gì ở sản phẩm của mình. - Nhà sản xuất đưa ra một câu hỏi về sản phẩm và khách hàng có thể tự đưa ra, tự viết các ý kiến đánh giá liên quan đến sản phẩm đó. Ví dụ: Bạn hãy đánh giá điện thoại Nokia hiện tại mà bạn đang dùng? Khách hàng có thể đánh giá như sau: - Tôi thấy điện thoại Nokia này có chất lượng pin rất tốt. - Giá cả của chiếc điện thoại Nokia này rất hợp lý. ...... Phía nhà sản xuất tập hợp các ý kiến đã đánh giá của khách hàng theo cách: những khía cạnh nào của sản phẩm được đánh giá nhiều nhất sẽ được xếp ở trên và cứ lần lượt như vậy. Với bản tóm tắt này thì nhà sản xuất hoàn toàn có thể biết được khách hàng đang hài lòng về khía cạnh (mặt) nào của sản phẩm (nhiều khách hàng đánh giá) và cần phát triển về khía cạnh (mặt) nào của sản phẩm trong thế hệ sản phẩm tiếp theo. Trong bản luận văn này tập trung và cách đánh giá thứ 2. Như vậy, có thể phát biểu một cách ngắn gọn bài toán tóm tắt ý kiến về sản phẩm từ nhiều người dùng như sau: 19 Input: Cho trước một tập hợp các văn bản đánh giá (là tập hợp nhiều ý kiến đánh giá về 1 sản phẩm cụ thể từ nhiều khách hàng, mỗi khách hàng cho 1 hay nhiều ý kiến về 1 sản phẩm cụ thể cho trước) Output: Sinh ra 1 bản tóm tắt, trong đó các khía cạnh của sản phẩm được đánh giá được sắp theo thứ tự từ đánh giá nhiều nhất đến ít nhất. Đồng thời đưa ra được những ý kiến tương ứng với các khía cạnh của sản phẩm đã được đánh giá. 20 Chƣơng 2 - KIẾN THỨC CƠ SỞ 2.1. Khai thác ý kiến 2.1.1. Định nghĩa Cho 1 tập các văn bản đánh giá D có chứa các ý kiến (các quan điểm) về một đối tượng. Khai thác ý kiến nhằm mục đích trích xuất các thuộc tính và các thành phần của đối tượng đã được đánh giá trong mỗi văn bản d D và xác định các ý kiến bình luận là tích cực, tiêu cực hay trung lập. 2.1.2. Bối cảnh lịch sử Văn bản thông tin trên thế giới có thể được phân loại thành hai loại chính: sự kiện và ý kiến. Văn bản sự kiện là các báo cáo khách quan về các thực thể và các sự kiện trên thế giới. Văn bản ý kiến là các báo cáo chủ quan phản ánh quan điểm hay nhận thức của người dân về các thực thể và các sự kiện. Phần lớn các nghiên cứu trước đây về xử lý thông tin văn bản hầu như chỉ tập trung vào khai thác và thu nhận các thông tin thực tế, ví dụ: truy vấn thông tin, tìm kiếm Web, khai thác văn bản, xử lý ngôn ngữ tự nhiên. Tuy nhiên, các ý kiến là rất quan trọng để đưa ra quyết định. Điều này không chỉ đúng cho các cá nhân mà cũng đúng đối với tổ chức. Trước khi có Web, khi một cá nhân cần phải đưa ra quyết định, anh ta/cô ta thường hỏi ý kiến từ bạn bè và gia đình. Khi một tổ chức cần lấy ý kiến của công chúng về sản phẩm và dịch vụ của mình, tổ chức đó thường tiến hành khảo sát và tập trung vào các nhóm. Với Web, đặc biệt là với sự bùng nổ nhanh chóng của người sử dụng tạo ra nội dung trên Web, thế giới đã được thay đổi. Mỗi người có thể đưa các ý kiến về sản phẩm lên các trang web kinh doanh và thể hiện quan điểm trên hầu hết các lĩnh vực trong các diễn đàn Internet, các nhóm thảo luận và blog. Giờ đây, khi muốn mua một sản phẩm, người ta không cần thiết phải hỏi ý kiến bạn bè và gia đình bởi vì có rất nhiều ý kiến của người dùng đã từng sử dụng sản phẩm được cung cấp ở trên trang web. Đối với một công ty, có thể không cần phải tiến hành việc khảo sát mà tổ chức tập trung thành các nhóm hoặc tận dụng tư vấn bên ngoài để tìm ra ý kiến của người tiêu dùng hay quan điểm về các sản phẩm của công ty hay các sản phẩm của các đối thủ cạnh tranh. Tuy nhiên, việc tìm ra được nguồn ý kiến và giám sát chúng trên Web vẫn có thể là một nhiệm vụ khó khăn bởi vì có một số lượng lớn các nguồn khác nhau tồn tại trên web và từng nguồn lại chứa một khối lượng thông tin khổng lồ. Trong nhiều trường hợp, ý kiến được ẩn trong các bài viết được đưa lên diễn đàn 21 và blog. Nó gây ra khó khăn cho người đọc để tìm kiếm các nguồn có liên quan, trích xuất câu thích hợp, đọc chúng, tổng hợp và tổ chức chúng thành các hình thức thích hợp. Như vậy, một hệ thống tóm tắt và khai thác ý kiến tự động là cần thiết. Khai thác ý kiến còn được gọi là phân tích quan điểm được phát triển từ nhu cầu này. Trong phần tiếp theo, xin đưa ra một số nội dung: - Mô hình trừu tượng của khai thác ý kiến - Phân loại quan điểm - Tóm tắt và khai thác ý kiến dựa vào các thuộc tính - Khai thác ý kiến từ những câu so sánh 2.1.3. Các cơ sở khoa học Mô hình khai thác ý kiến Nhìn chung, các ý kiến có thể được thể hiện trên bất cứ điều gì, ví dụ như một sản phẩm, một dịch vụ, một chủ đề, một cá nhân, một tổ chức hoặc một sự kiện. Thuật ngữ đối tượng được sử dụng để biểu diễn cho các thực thể ở trên. Một đối tượng có một tập các thành phần (hoặc các bộ phận) và một tập các thuộc tính (feature). Mỗi thành phần lại có thể có một tập các thành phần con và một tập các thuộc tính con. Và như vậy, một đối tượng có thể được phân cấp theo thứ tự dựa trên một phần của mối quan hệ. Định nghĩa đối tượng: Một đối tượng O là một thực thể (có thể là một sản phẩm, một chủ đề, một người, một sự kiện hoặc một tổ chức). Đó là cặp O: (T, A) trong đó: - T là một hệ thống phân cấp hoặc phân loại của các thành phần (hoặc các bộ phận) và các thành phần con của O. - A là một tập hợp các thuộc tính của O. Mỗi thành phần lại có các tập thành phần con và tập các thuộc tính con. Một đối tượng có thể được biểu diễn dưới dạng 1 cây trong đó: gốc là đối tượng. Mỗi nút không phải nút gốc là một thành phần hoặc thành phần con của đối tượng. Mỗi liên kết biểu diễn một mối quan hệ. Mỗi nút được liên kết với một tập các thuộc tính. Một ý kiến có thể được thể hiện trên bất kỳ nút nào và bất kỳ thuộc tính nào của nút. Tuy nhiên, đối với một người dùng bình thường, có lẽ là quá phức tạp để sử dụng một đại diện phân cấp (cây). Để đơn giản hóa thì không sử dụng cấu trúc cây phân cấp. Từ “thuộc tính” (feature) được sử dụng để đại diện cho cả các thành phần và các thuộc tính. Sử dụng các thuộc tính cho các đối tượng (đặc biệt là sản phẩm) là khá phổ biến trong thực tế. Lưu ý rằng trong định nghĩa này, đối tượng chính là một tính năng, đó là nút gốc của cây. 22 Lấy một văn bản đánh giá d, có thể là đánh giá sản phẩm, mà một diễn đàn hoặc blog đánh giá về một đối tượng đặc biệt O. Trong trường hợp tổng quát, d bao gồm một chuỗi các câu d = . Định nghĩa thuộc tính rõ ràng và thuộc tính ẩn: Nếu thuộc tính f xuất hiện trong tài liệu đánh giá d thì thuộc tính f được gọi là thuộc tính rõ ràng trong d. Ví dụ: “Tuổi thọ của pin của máy ảnh này là rất ngắn”. (Thuộc tính rõ ràng: tuổi thọ của pin) “Máy ảnh này quá to” (Thuộc tính ẩn: kích thước) Định nghĩa ý kiến thông qua một thuộc tính: thông qua ý kiến về một thuộc tính f của đối tượng O được đánh giá trong d là một nhóm các câu liên tiếp trong d thể hiện một quan điểm tích cực hay tiêu cực về f. Điều này có nghĩa là có thể là một chuỗi các câu (ít nhất là một) cùng thể hiện một ý kiến về một đối tượng hoặc một tính năng của đối tượng. Nó cũng có thể là một câu thể hiện ý kiến về nhiều thuộc tính. Ví dụ: “chất lượng hình ảnh của máy ảnh này là tốt, nhưng tuổi thọ pin thì ngắn”. Định nghĩa Ý kiến rõ ràng và ý kiến ẩn): - Ý kiến rõ ràng: thường là một câu chủ quan. Ví dụ: "Chất lượng hình ảnh của máy ảnh này là tuyệt vời." - Ý kiến ẩn: một câu khách quan. Ví dụ: "Tai nghe đã bị hỏng hai ngày nay" Định nghĩa người đánh giá: Người đánh giá cụ thể là một người hoặc một tổ chức đưa ra ý kiến đánh giá đó. Trong trường hợp các ý kiến về sản phẩm được đăng tải trên diễn đàn và blog, người đánh giá thường là các tác giả của các bài viết. Những người đánh giá thường rất quan trọng trong các bài báo vì họ thường tuyên bố một cách rõ ràng về cá nhân hay tổ chức đưa ra ý kiến đó. Ví dụ, người đánh giá ở trong câu “John bày tỏ sự bất đồng về hiệp ước” chính là "John". Định nghĩa (định hướng ngữ nghĩa của một ý kiến): Định hướng ngữ nghĩa của một ý kiến về một tính năng f là ý kiến tích cực, tiêu cực hoặc trung lập. Với mô hình cho một đối tượng và một tập các ý kiến dựa vào thuộc tính của đối tượng ta có thể định nghĩa mô hình khai thác ý kiến dựa trên thuộc tính. Mô hình khai thác ý kiến dựa trên thuộc tính: Cho một đối tượng O và một tập hữu hạn các thuộc tính F = {f1, f2, ..., fn}, trong đó bao gồm các đối tượng chính nó. Mỗi thuộc tính fi F có thể được biểu diễn với một tập hợp hữu hạn các từ hay các cụm từ Wi là từ đồng nghĩa. Đó là một tập hợp các từ đồng nghĩa tương ứng với bộ W ={W1, W2, ..., Wn}
- Xem thêm -