Đăng ký Đăng nhập
Trang chủ Nghiên cứu phương pháp trích chọn đặc trưng trong bài toán khai phá quan điểm và...

Tài liệu Nghiên cứu phương pháp trích chọn đặc trưng trong bài toán khai phá quan điểm và ứng dụng

.PDF
51
17954
61

Mô tả:

4 MỤC LỤC Trang phụ bìa............................................................................................................. 2 Lời cam đoan ............................................................................................................. 3 MỤC LỤC ................................................................................................................. 4 Danh mục các bảng ................................................................................................... 6 Danh mục các hình vẽ, đồ thị .................................................................................... 7 MỞ ĐẦU ................................................................................................................... 8 Chƣơng 1. GIỚI THIỆU ........................................................................................... 9 1.1. Khai phá quan điểm........................................................................................ 9 1.2. Trích chọn đặc trƣng và khai phá quan điểm dựa trên đặc trƣng ................ 10 1.2.1. Một số khái niệm cơ bản...................................................................... 11 1.2.2. Trích chọn đặc trƣng và khai phá quan điểm dựa trên đặc trƣng ........ 13 Tóm tắt chƣơng 1 ................................................................................................ 15 Chƣơng 2. MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM ..................... 16 2.1. Một số nghiên cứu về trích chọn đặc trƣng trong khai phá quan điểm ....... 16 2.2. Phƣơng pháp trích chọn đặc trƣng dựa trên tập phổ biến ............................ 17 2.3. Phƣơng pháp trích chọn đặc trƣng dựa trên lan truyền kép ......................... 20 2.4. Vấn đề gộp nhóm đặc trƣng ......................................................................... 25 2.5. Nhận xét ....................................................................................................... 26 Tóm tắt chƣơng 2 ................................................................................................ 27 Chƣơng 3. BÀI TOÁN TRÍCH CHỌN ĐẶC TRƢNG MÁY ẢNH SỐ TRONG KHAI PHÁ QUAN ĐIỂM ...................................................................................... 28 3.1. Mô tả bài toán và ý tƣởng giải quyết............................................................ 28 3.2. Xây dựng mô hình hệ thống ......................................................................... 28 3.2.1. Pha 1 - Xây dựng cơ sở dữ liệu đặc tả sản phẩm................................. 29 3.2.2. Pha 2 - Sinh tập ứng viên đặc trƣng..................................................... 31 5 3.2.3. Pha 3 - Xếp hạng, nhóm gộp................................................................ 35 3.2.3.1. Xếp hạng đặc trƣng ...................................................................... 36 3.2.3.2. Nhóm gộp đặc trƣng .................................................................... 36 Tóm tắt chƣơng 3 ................................................................................................ 39 Chƣơng 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ ....................................................... 40 4.1. Môi trƣờng và các công cụ sử dụng thực nghiệm ........................................ 40 4.2. Xây dựng tập dữ liệu .................................................................................... 41 4.2.1. Xây dựng tập dữ liệu đánh giá ............................................................. 42 4.2.2. Xây dựng tập dữ liệu đặc tả ................................................................. 42 4.3. Thực nghiệm và đánh giá ............................................................................. 42 4.3.1. Trích chọn đặc trƣng ............................................................................ 42 4.3.2. Xếp hạng đặc trƣng .............................................................................. 46 4.3.3. Nhóm gộp đặc trƣng ............................................................................ 47 4.3.3.1. Đánh giá độ chính xác.................................................................. 48 4.3.3.1. Đánh giá độ giảm dƣ thừa ............................................................ 48 Tóm tắt chƣơng 4 ................................................................................................ 49 KẾT LUẬN ............................................................................................................. 50 Kết quả đạt đƣợc của luận văn ............................................................................ 50 Định hƣớng tƣơng lai .......................................................................................... 50 Tài liệu tham khảo ................................................................................................... 51 6 Danh mục các bảng Bảng 4.1. Cấu hình hệ thống thử nghiệm............................................................ 40 Bảng 4.2. Công cụ phần mềm sử dụng................................................................ 40 Bảng 4.3: Dữ liệu 8 loại máy ảnh thực nghiệm .................................................. 43 Bảng 4.4: Kết quả thực nghiệm độ chính xác các phương pháp Hu, DP, nDP . 44 Bảng 4.5: Kết quả thực nghiệm độ hồi tưởng các phương pháp Hu, DP, nDP . 44 Bảng 4.6: Kết quả thực nghiệm độ đo F1 các phương pháp Hu, DP, nDP ....... 45 Bảng 4.7: Kết quả thực nghiệm độ chính xác xếp hạng 50% ứng viên đặc trưng đầu tiên (so với không xếp hạng) ........................................................................ 46 Bảng 4.8: Kết quả thực nghiệm độ hồi tưởng và độ đo F1 xếp hạng 50% ứng viên đặc trưng đầu tiên (so với không xếp hạng) ................................................ 46 Bảng 4.9: Kết quả độ chính xác, độ giảm dư thừa của nhóm gộp đặc trưng ..... 49 7 Danh mục các hình vẽ, đồ thị Hình 1.1: Một ứng dụng của khai phá tổng hợp quan điểm dựa trên đặc trưng . 9 Hình 1.2: Các bước cơ bản trong tổng hợp quan điểm dựa trên đặc trưng ....... 10 Hình 1.3: Ví dụ biểu diễn cây đối tượng ............................................................. 11 Hình 1.4: Ví dụ minh họa một số khái niệm cơ bản trong khai phá quan điểm từ một bài đánh giá trên trang web http://epinions.com ......................................... 13 Hình 1.5: Ví dụ về tổng hợp quan điểm dựa trên đặc trưng ............................... 14 Hình 2.1: Mô hình trích chọn đặc trưng của Hu và Liu ..................................... 17 Hình 2.3: Cây phân tích cú pháp câu “The camera has good screen” .............. 21 Hình 2.2: Các loại mối quan hệ phụ thuộc ngữ pháp giữa A và B ..................... 21 Hình 3.1: Mô hình hệ thống trích chọn đặc trưng .............................................. 29 Hinh 3.2: Pha 1. Xây dựng cơ sở dữ liệu đặc tả sản phẩm ................................ 29 Hình 3.3 : Mô tả cấu trúc các đặc trưng của một loại máy ảnh......................... 31 Hinh 3.4 : Pha 2. Sinh tập ứng viên đặc trưng ................................................... 32 Hình 3.5: Mô tả file xml xử lý ngôn ngữ tự nhiên cho file văn bản đánh giá ..... 33 Hình 3.6: Pha 3. Xếp hạng, đối sánh .................................................................. 35 Hình 4.1: Cấu trúc cài đặt chương trình ............................................................ 41 Hình 4.2: Mô tả một phần cây phân cấp đặc trưng máy ảnh ............................. 47 8 MỞ ĐẦU Với sự phát triển của Internet và các hệ thống bán hàng trực tuyến, thông tin đặc tả và các đánh giá nhận xét của ngƣời dùng về các sản phẩm ngày càng phong phú. Tuy nhiên số lƣợng thông tin này trên Internet là vô cùng lớn, gây khó khăn cho ngƣời mua hàng trong việc phân tích tổng hợp các ý kiến của những ngƣời dùng trƣớc để đƣa ra quyết định mua hay không mua một sản phẩm. Do vậy, một bài toán đặt ra là cần tổng hợp nguồn đánh giá sản phẩm phong phú này, cùng với nó là bài toán con trích chọn đặc trƣng biểu diễn đối tƣợng đƣợc ngƣời dùng đề cập đến trong các đánh giá. Đây chính là bài toán mà luận văn tập trung giải quyết. Luận văn định hƣớng tìm hiểu các phƣơng pháp trích chọn đặc trƣng biểu diễn đối tƣợng ta quan tâm, trên cơ sở đó đề xuất phƣơng pháp phù hợp và thử nghiệm hệ thống trong bài toán trích chọn đặc trƣng sản phẩm máy ảnh. Cấu trúc luận văn gồm 4 chƣơng Chương 1: Đặt vấn đề và giới thiệu tổng quan bài toán khai phá quan điểm nói chung cũng nhƣ một số khái niệm liên quan trong khai phá quan điểm dựa trên đặc trƣng, từ đó phát biểu bài toán trích chọn đặc trƣng trong ngữ cảnh khai phá quan điểm về đặc trƣng sản phẩm. Chương 2: Trình bày một số giải pháp và mô hình hệ thống trích chọn đặc trƣng biểu diễn đối tƣợng làm cơ sở cho việc khai phá và tóm tắt quan điểm đƣợc thể hiện trong văn bản. Trên cơ sở tìm hiểu, luận văn sẽ đề xuất một phƣơng pháp tiếp cận để giải quyết bài toán trích chọn đặc trƣng trong khai phá quan điểm. Chương 3: Ứng dụng phƣơng pháp đề xuất vào hệ thống trích chọn đặc trƣng biểu diễn đối tƣợng máy ảnh. Chương 4: Kết quả thực nghiệm trích chọn đặc trƣng trên mô hình hệ thống đề xuất. Phần kết luận: Tóm lƣợc những nội dung chính đạt đƣợc của luận văn đồng thời cũng chỉ ra những điểm cần khắc phục và đƣa ra những định hƣớng nghiên cứu trong tƣơng lai. 9 Chƣơng 1. GIỚI THIỆU 1.1. Khai phá quan điểm Hình 1.1: Một ứng dụng của khai phá tổng hợp quan điểm dựa trên đặc trưng Trên thế giới nói chung và ở Việt Nam nói riêng, thƣơng mại điện tử đã trở nên phổ biến và ngày càng phát triển. Một phần quan trọng trong thƣơng mại điện tử là bán hàng trực tuyến. Số lƣợng ngƣời mua hàng trực tuyến gia tăng, số lƣợng đánh giá, nhận xét của ngƣời dùng về các sản phẩm cũng ngày càng nhiều. Một sản phẩm thông dụng có thể có hàng trăm, hàng nghìn đánh giá. Cùng với các trang web bán hàng trực tuyến là các trang web đánh giá sản phẩm nhƣ epinions.com, dpreview.com,.... Các trang web này là nơi ngƣời tiêu dùng viết các đánh giá của mình về một sản phẩm nào đó. Các đánh giá đƣợc đăng trên một trang web loại này cần tuân theo một số quy định do các trang web đó đƣa ra và sẽ đƣợc chấm điểm bởi đông đảo ngƣời dùng của trang web căn cứ vào độ tin cậy, hợp lý và hữu dụng mà các đánh giá này mang lại. Chính bởi vậy, các bài đánh giá từ các trang web loại này đƣợc coi là nguồn tổng hợp lớn các đánh giá sản phẩm “tin cậy” từ khách hàng. Đây là nguồn thông tin quan trọng, cung cấp cho ngƣời mua hàng cái nhìn toàn diện hơn về một sản phẩm mà họ định mua. Còn đối với nhà sản xuất, đánh giá của khách hàng là cơ sở để tiến hành cải tiến, hoàn thiện sản phẩm của mình. Tuy nhiên, một vấn đề đặt ra là số lƣợng các ý kiến đánh giá rất lớn. Điều này gây khó khăn cho cả ngƣời mua hàng và nhà sản xuất. Ngƣời mua hàng sẽ gặp khó khăn trong việc tổng hợp ý kiến của những ngƣời tiêu dùng trƣớc để đƣa ra quyết định mua hay không mua một sản phẩm. Còn nhà sản xuất thì khó theo dõi, nắm bắt đƣợc tất cả phản hồi của ngƣời tiêu dùng về sản phẩm của mình. Thực tế trên làm nảy sinh yêu cầu tổng hợp tất cả nhận xét của khách hàng về các đặc trƣng của sản phẩm trên một trang web đánh giá sản phẩm. Giải quyết một yêu cầu thực tế nhƣ trên chính là 10 nhiệm vụ của bài toán khai phá quan điểm, cụ thể hơn là của bài toán khai phá và tổng hợp quan điểm dựa trên đặc trƣng. Khai phá quan điểm thuộc vào lĩnh vực khai phá văn bản, liên quan đến việc áp dụng các giải pháp của xử lý ngôn ngữ tự nhiên và của học máy để trích xuất và xác định quan điểm đƣợc thể hiện trong văn bản. Khai phá quan điểm dựa trên đặc trƣng là một trong ba bài toán cơ bản trong khai phá quan điểm, bao gồm: bài toán phân lớp quan điểm, bài toán khai phá và tổng hợp quan điểm dựa trên đặc trƣng và bài toán khai phá quan hệ so sánh. Bài toán khai phá và tổng hợp quan điểm dựa trên đặc trƣng nhằm mục tiêu tạo ra một bản tổng hợp quan điểm dựa trên các đặc trƣng của sản phẩm đƣợc ngƣời dùng đề cập trong văn bản và từ đó xác định các ý kiến đánh giá đƣợc đƣa ra. Về cơ bản, việc tổng hợp quan điểm dựa trên đặc trƣng đƣợc thực hiện nhƣ sau: Xác định các đặc trƣng của đối tƣợng Xác định và phân loại các ý kiến về đặc trƣng đối tƣợng Tạo ra bản tổng hợp ý kiến theo đặc trƣng đối tƣợng Hình 1.2: Các bước cơ bản trong tổng hợp quan điểm dựa trên đặc trưng Nhƣ vậy, một nhiệm vụ quan trọng để giải quyết bài toán loại này là xác định các đặc trƣng đối tƣợng mà ngƣời dùng nhận xét, đánh giá. Đây chính là nội dung trọng tâm mà luận văn tìm hiểu giải quyết. 1.2. Trích chọn đặc trƣng và khai phá quan điểm dựa trên đặc trƣng Trong bài toán khai phá và tổng hợp quan điểm dựa trên đặc trƣng, vấn đề quan trọng cần giải quyết đầu tiên là trích chọn các đặc trƣng biểu diễn đối tƣợng đƣợc đề cập đến trong các đánh giá. Trong phần này luận văn sẽ trình bày một số khái niệm liên quan đến đặc trƣng trong bài toán khai phá quan điểm dựa trên đặc trƣng và mô hình hóa cơ bản của bài toán này. 11 1.2.1. Một số khái niệm cơ bản Đối tượng (Object) và đặc trưng của đối tượng Nhìn chung, các quan điểm có thể biểu đạt đánh giá về bất cứ điều gì, chẳng hạn, một sản phẩm, một cá nhân, một tổ chức, một sự kiện, một chủ đề…Chúng ta sử dụng thuật ngữ tổng quát đối tƣợng để chỉ các thực thể đƣợc đánh giá đó. Đối tƣợng có tập các thành phần (components) và tập các thuộc tính (attributes). Một đối tƣợng có thể đƣợc phân rã căn cứ vào mối quan hệ thành phần “part-of”, mỗi thành phần có thể có các thành phần con….Chẳng hạn, một sản phẩm (ô tô, máy ảnh kĩ thuật số…) có thể có các thành phần khác nhau, một sự kiện có thể có các sự kiện con, một chủ đề có thể có các chủ đề con,… Một đối tƣợng O là một thực thể (một sản phẩm, một ngƣời, một sự kiện…), có liên hệ tới 1 cặp, O: (T, A), với T là một cấu trúc phân cấp của các thành phần. A là tập các thuộc tính của đối tƣợng O. Mỗi thành phần thuộc đối tƣợng O lại có tập các thành phần và tập các thuộc tính của nó. Một đối tƣợng O đƣợc biểu diễn nhƣ một cây. Gốc chính là đối tƣợng O. Mỗi nốt không là gốc là một thành phần hoặc thành phần con của O. Mỗi nhánh liên kết thể hiện mối quan hệ “part-of”. Mỗi nốt cũng liên hệ với một tập các thuộc tính. Ví dụ Canon PowerShot S100 battery battery life lens view finder battery size Hình 1.3: Ví dụ biểu diễn cây đối tượng Một sản phẩm máy ảnh có tập các thành phần nhƣ ống kính (lens), pin (battery), ống ngắm (view-finder)…và tập các thuộc tính nhƣ chất lƣợng ảnh (picture quality), kích thƣớc (size), trọng lƣợng (weight),…. Thành phần pin cũng có tập thuộc tính của nó nhƣ tuổi thọ pin (battery life), kích cỡ pin (battery size), trọng lƣợng pin (battery weigh),… 12 Quan điểm có thể đƣợc thể hiện trên đối tƣợng (nốt gốc), chẳng hạn nhƣ: “Tôi không thích máy ảnh này” (“I do not like this camera”), hoặc trên một thuộc tính của đối tƣợng, nhƣ “Chất lƣợng ảnh của máy ảnh này kém” (“The picture quality of this camera is poor”), trên một thành phần của đối tƣợng nhƣ “Ống kính của máy ảnh này kém” (“The lens of this camera is bad”) hoặc trên thuộc tính của một thành phần, chẳng hạn nhƣ “Tuổi thọ pin của máy ảnh này ngắn” (“The battery life of this camera is too short”). Nhƣ vậy thành phần và thuộc tính chính là đặc trƣng quan điểm (hay đặc trƣng) của đối tƣợng. Để đơn giản từ “đặc trƣng” đƣợc sử dụng để thể hiện cả thành phần và thuộc tính của đối tƣợng. Đặc trƣng có hai loại là đặc trƣng ẩn và đặc trƣng hiện. Nếu đặc trƣng f xuất hiện tƣờng minh trong tài liệu biểu đạt quan điểm đánh giá r thì f đƣợc gọi là một đặc trƣng hiện trong r. Nếu f không xuất hiện tƣờng minh trong r nhƣng đƣợc ngầm nói đến thì f đƣợc gọi là một đặc trƣng ẩn trong r. Ví dụ Đặc trƣng “tuổi thọ pin” (battery life) trong câu “Tuổi thọ pin của máy ảnh này rất ngắn.” (“The battery life of this camera is too short”) là một đặc trƣng hiện. Đặc trƣng “kích thƣớc” (size) trong câu “Máy ảnh này quá nhỏ.” (“This camera is too small”) là một đặc trƣng ẩn. Quan điểm - Từ quan điểm: Từ thể hiện đƣợc quan điểm của ngƣời đánh giá đƣợc gọi là từ quan điểm. - Quan điểm hiện và quan điểm ẩn: Một quan điểm hiện về một đặc trƣng f là một câu chủ quan mà trực tiếp biểu đạt một quan điểm tích cực hoặc tiêu cực. Một quan điểm ẩn về một đặc trƣng f là một câu khách quan mà ám chỉ một quan điểm tích cực hay tiêu cực. - Đoạn đánh giá về một đặc trƣng: Đoạn văn bản đánh giá về một đặc trƣng f của đối tƣợng O trong s là một tập các câu liên tiếp trong s diễn tả quan điểm tích cực, tiêu cực hay trung lập về đặc trƣng f. - Ngƣời đánh giá: Là ngƣời hay tổ chức cụ thể đƣa ra lời đánh giá. Với các đánh giá về sản phẩm trên diễn đàn hay blog, ngƣời đánh giá chính là tác giả của đánh giá hay bài viết. 13 Hình 1.4: Ví dụ minh họa một số khái niệm cơ bản trong khai phá quan điểm từ một bài đánh giá trên trang web http://epinions.com 1.2.2. Trích chọn đặc trưng và khai phá quan điểm dựa trên đặc trưng Một tài liệu biểu đạt quan điểm đánh giá tích cực về một đối tƣợng nào đó không có nghĩa rằng tác giả có quan điểm tích cực về mọi khía cạnh của sản phẩm. Cũng nhƣ vậy, một tài liệu biểu đạt quan điểm tiêu cực không có nghĩa tác giả có quan điểm tiêu cực về mọi khía cạnh của đối tƣợng đó. Để nắm đƣợc những khía cạnh chi tiết nhƣ vậy, cần tiến đến mức đặc trƣng. Nhƣ vậy, bài toán khai phá quan điểm dựa trên đặc trƣng có hai nhiệm vụ nhƣ sau: - Phát hiện và lấy ra các đặc trƣng của sản phẩm đƣợc đề cập. Chẳng hạn câu “Tuổi thọ pin của máy ảnh này quá ngắn” (“The battery life of this camera is too short”), bình luận trên đặc trƣng “tuổi thọ pin” (battery life) của sản phẩm “máy ảnh này” (this camera). - Xác định quan điểm về các đặc trƣng là tích cực, tiêu cực hay trung lập. Trong câu trên, quan điểm về đặc trƣng “tuổi thọ pin” là tiêu cực. Nhƣ vậy, bài toán khai phá quan điểm dựa trên đặc trƣng thực hiện tại mức đặc trƣng. Chẳng hạn, trong một đánh giá của một sản phẩm, bài toán này nhằm phát hiện các đặc trƣng của sản phẩm mà đƣợc bình luận bởi ngƣời tiêu dùng và xác định bình luận về đặc trƣng đó là tích cực hay tiêu cực. Một tổng hợp có cấu trúc sẽ đƣợc tạo ra từ kết quả khai phá này. Một đối tƣợng đƣợc biểu diễn với một tập hữu hạn các đặc trƣng, F = {f1, f2, .. fn}. Mỗi đặc trƣng fi trong F có thể đƣợc biểu diễn bởi một tập hữu hạn các từ hoặc cụm từ đồng nghĩa Wi. Tức là, có một tập các từ đồng nghĩa tƣơng ứng W = {W1, W2, …, Wn} cho n đặc trƣng. Vì mỗi đặc trƣng fi trong F có một tên (kí hiệu bởi fi), nên fi ∈ Wi. Mỗi tác giả hoặc ngƣời đánh giá j bình luận trên một tập con các đặc trƣng Sj ⊆ F. Với mỗi đặc trƣng fk ∈ Sj mà ngƣời đánh giá j bình 14 luận, một từ hoặc cụm từ Wk sẽ đƣợc chọn để mô tả đặc trƣng, và sau đó biểu đạt một quan điểm tích cực hay tiêu cực của ngƣời đánh giá j. Đầu vào: Tập D các tài liệu d có quan điểm đánh giá. Đầu ra: Một tập các cặp, mỗi cặp kí hiệu bởi (f, SO), với f là một đặc trƣng và SO là hƣớng quan điểm (tích cực hay tiêu cực) đƣợc biểu đạt trong d trên đặc trƣng f. Chú ý rằng mô hình này không xem xét độ mạnh của mỗi quan điểm, nghĩa là, không xem xét quan điểm là tiêu cực (tích cực) mạnh hay tiêu cực (tích cực) yếu, nhƣng độ mạnh của mỗi quan điểm có thể đƣợc thêm vào. Có nhiều cách để sử dụng kết quả từ mô hình này. Cách đơn giản là tạo ra tổng hợp dựa trên đặc trƣng của các quan điểm trên đối tƣợng. Canon PowerShot S100 Feature: picture quality Positive: 123 Negative: 6 Feature: size Positive: 82 Negative: 10 …. Hình 1.5: Ví dụ về tổng hợp quan điểm dựa trên đặc trưng Nhƣ vậy, bài toán khai phá quan điểm dựa trên đặc trƣng có một số tình huống sau: Tình huống 1: Không biết F và W. Với tình huống này, ta cần thực hiện ba nhiệm vụ: - Xác định và trích chọn các đặc trƣng đối tƣợng đƣợc bình luận trong mỗi tài liệu d ∈ D - Nhóm các từ đồng nghĩa của đặc trƣng, vì những ngƣời khác nhau có thể sử dụng các từ hoặc cụm từ khác nhau để biểu đạt cùng một đặc trƣng. - Xác định hƣớng quan điểm trên các đặc trƣng là tích cực, tiêu cực hay trung lập Tình huống 2: Biết F nhưng không biết W. 15 Tình huống này tƣơng tự nhƣ tình huống 1 nhƣng nhiệm vụ 2 chuyển thành vấn đề đối chiếu các đặc trƣng phát hiện đƣợc với tập đặc trƣng F đã biết. Tình huống 3: Biết W và F. Với tình huống này chúng ta chỉ cần xác định hƣớng quan điểm trên đặc trƣng sau khi tất cả các câu chứa quan điểm về đặc trƣng đƣợc trích chọn. Luận văn tập trung giải quyết nhiệm vụ 1 và 2 trong hai tình huống đầu tiên. Đó chính là nội dung của bài toán trích chọn đặc trƣng. Đầu vào: Các nhận xét, đánh giá của ngƣời dùng về một sản phẩm cụ thể trên một trang web đánh giá. Ví dụ: sản phẩm máy ảnh kỹ thuật số Canon PowerShot S100 trên website epinions.com. Đầu ra: Một danh sách các đặc trƣng của sản phẩm đƣợc ngƣời dùng đề cập trong bài đánh giá. Tóm tắt chƣơng 1 Trong chƣơng này, luận văn giới thiệu tổng quan bài toán khai phá quan điểm nói chung cũng nhƣ một số khái niệm liên quan trong khai phá quan điểm dựa trên đặc trƣng, từ đó phát biểu bài toán trích chọn đặc trƣng trong ngữ cảnh khai phá quan điểm về đặc trƣng sản phẩm. Chƣơng tiếp theo luận văn trình bày một số giải pháp trích chọn đặc trƣng biểu diễn đối tƣợng làm cơ sở cho việc khai phá và tóm tắt quan điểm đƣợc thể hiện trong văn bản. 16 Chƣơng 2. MỘT SỐ PHƢƠNG PHÁP GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN ĐẶC TRƢNG TRONG KHAI PHÁ QUAN ĐIỂM 2.1. Một số nghiên cứu về trích chọn đặc trƣng trong khai phá quan điểm Những nghiên cứu gần đây về trích chọn đăc trƣng trong khai phá quan điểm chủ yếu đƣợc thực hiện từ các đánh giá sản phẩm trong các trang web bán hàng trực tuyến hoặc các trang web chuyên về đánh giá sản phẩm nhƣ epinions.com, dpreview.com,…Phần này sẽ tổng quan một số hƣớng nghiên cứu gần đây giải quyết nhiệm vụ trích chọn đặc trƣng trong bài toán khai phá và tổng hợp quan điểm dựa trên đặc trƣng. Hu và Liu [12] đề xuất một kỹ thuật học không giám sát dựa trên khai phá tập mục phổ biến để trích chọn các đặc trƣng sản phẩm. Ý tƣởng chính của kỹ thuật này là ngƣời dùng thƣờng sử dụng các từ giống nhau cho một đặc trƣng khi bình luận về sản phẩm, do đó các tập mục phổ biến là danh từ và cụm danh từ trong các đánh giá có nhiều khả năng là các đặc trƣng sản phẩm. Popescu và Etzinoni [19] cũng dựa trên ý tƣởng tƣơng tự Hu và Liu [12], tuy nhiên có đƣa ra giải pháp cải thiện phƣơng pháp, loại đi những cụm từ phổ biến nhiều khả năng không là đặc trƣng. Thuật toán của họ đòi hỏi cần biết trƣớc lớp đối tƣợng sản phẩm, từ đó xác định một danh từ hay cụm danh từ có phải là đặc trƣng của sản phẩm đó hay không trên cơ sở tính độ đo PMI (Pointwise Mutual Information) giữa danh từ hay cụm danh từ đó với các mẫu bộ phận toàn thể có dạng nhƣ “of xx”, “xx has”, “xx comes with”,…, trong đó xx là từ hay cụm từ chỉ lớp đối tƣợng sản phẩm. Tuy nhiên, phƣơng pháp này cần truy vấn Web tìm các mẫu bộ phận - toàn thể để tính độ đo PMI nên chi phí thời gian là đáng kể, hơn nữa phải dựa trên một hệ thống trích chọn thông tin độc lập miền trên nền Web là KnowItAll. Guang Qiu và các cộng sự [20] đề xuất phƣơng pháp lan truyền kép dựa trên phát hiện một số mẫu quan hệ cú pháp giữa từ quan điểm và đặc trƣng, kết hợp lặp lan truyền để mở rộng tập từ quan điểm và đặc trƣng tìm đƣợc. Phƣơng pháp này sử dụng một bộ phân tích cú pháp phụ thuộc để mô tả các mẫu quan hệ làm cơ sở cho việc trích chọn. Ngoài ra, để giải quyết bài toán trích chọn đặc trƣng trong khai phá quan điểm còn có một số nghiên cứu khác dựa trên các phƣơng pháp thống kê nhƣ phƣơng pháp dựa trên mô hình mạng Markov ẩn [8], phƣơng pháp dựa trên mô hình cực đại hóa Entropy [23], phƣơng pháp dựa trên các trƣờng ngẫu nhiên có điều kiện [15], phƣơng pháp dựa trên phân tích chủ đề [17]. 17 2.2. Phƣơng pháp trích chọn đặc trƣng dựa trên tập phổ biến Đây là phƣơng pháp do Hu và Liu đề xuất trong [12]. Ý tƣởng cơ bản của phƣơng pháp này là sử dụng một phƣơng pháp học không giám sát để tìm ra các đặc trƣng hiện là danh từ hoặc cụm danh từ. Phƣơng pháp này đòi hỏi một số lƣợng lớn các bình luận và đƣợc mô tả nhƣ trong hình dƣới đây: Tập dữ liệu đánh giá Tiền xử lý Trích chọn ứng viên đặc trƣng phổ biến Tỉa ứng viên đặc trƣng Trích chọn từ quan điểm Tập đặc trƣng phổ biến Tập từ quan điểm Trích chọn đặc trƣng không phổ biến Tập đặc trƣng không phổ biến Hình 2.1: Mô hình trích chọn đặc trưng của Hu và Liu Đầu vào của hệ thống trích chọn đặc trƣng theo mô hình của Hu và Liu là tập dữ liệu các đánh giá về sản phẩm. Tập dữ liệu này sau bƣớc tiền xử lý (tách câu, tách từ, gán nhãn từ loại) đƣợc đƣa vào module trích chọn các đặc trƣng phổ biến, kết quả thu đƣợc là một tập các đặc trƣng đƣợc nhiều ngƣời đánh giá (phổ biến ở đây có nghĩa là xuất hiện trong tập dữ liệu đánh giá nhiều hơn một ngƣỡng phổ biến đƣợc xác định qua thực nghiệm). Dựa vào kết quả trên, trích chọn ra các từ thể hiện ý kiến và cuối cùng là xác định các đặc trƣng không phổ biến (có số lần xuất hiện thấp). Mô hình gồm có các bƣớc cơ bản sau: Tiền xử lý 18 Xuất phát từ nhận xét các đặc trƣng sản phẩm thƣờng là danh từ hoặc cụm danh từ, bƣớc tiền xử lý này nhằm mục đích xác định các danh từ, cụm danh từ trong tập dữ liệu dánh giá. Các tác giả sử dụng một công cụ xử lý ngôn ngữ tự nhiên NLPProcessor để tách câu, tách từ và gán nhãn từ vựng trong từng câu. Mỗi câu đƣợc lƣu vào một cơ sở dữ liệu đánh giá cùng với thông tin từ vựng của mỗi từ trong câu đó. Một file giao tác đƣợc tạo ra để chuẩn bị cho bƣớc sinh các đặc trƣng phổ biến dựa trên thuật toán khai phá tập mục phổ biến. Trong file này, mỗi dòng tƣơng ứng các danh từ và cụm danh từ trong một câu. Một số bƣớc tiền xử lý khác cũng cần đƣợc thực hiện, bao gồm loại từ dừng, chuyển về từ gốc. Trích chọn ứng viên đặc trưng phổ biến Ở bƣớc này, các tác giả tập trung trích chọn các đặc trƣng đƣợc nhiều ngƣời dùng đề cập tới trong các đánh giá dựa trên khai phá tập mục phổ biến trong thuật toán Apriori. Đầu vào là file giao tác gồm các danh từ và cụm danh từ đƣợc tạo ra ở bƣớc tiền xử lý, đầu ra là các tập mục phổ biến, tức các danh từ hay cụm danh từ xuất hiện phổ biến trong file giao tác. Ý tƣởng sử dụng khai phá tập mục phổ biến ở đây dựa trên nhận xét nhƣ sau: ngƣời dùng thƣờng sử dụng các từ giống nhau cho một đặc trƣng khi bình luận về sản phẩm, do đó, các tập mục phổ biến là danh từ và cụm danh từ trong các đánh giá có nhiều khả năng chính là các đặc trƣng sản phẩm ta cần trích chọn. Thuật toán Apriori bao gồm bai bƣớc. Bƣớc đầu, thuật toán tìm tất cả các tập mục phổ biến từ tập các giao tác lƣu trong một file mà thỏa mãn một độ phổ biến tối thiểu đƣợc xác định qua thực nghiệm. Bƣớc hai, thuật toán sinh ra các luật từ các tập mục phổ biến tìm đƣợc ở bƣớc trƣớc. Tuy nhiên, với mục đích tìm ra các đặc trƣng phổ biến của sản phẩm, mô hình của Hu và Liu chỉ áp dụng bƣớc đầu tiên tìm các tập mục phổ biến với độ dài không quá ba từ xuất phát từ nhận xét: một đặc trƣng sản phẩm thƣờng chứa không quá ba từ. Các tập mục phổ biến tìm đƣợc với độ dài không quá ba từ chính là các ứng viên đặc trƣng. Tỉa ứng viên đặc trưng Các ứng viên đặc trƣng thu đƣợc sẽ tiếp tục đƣợc xử lý cắt tỉa để loại bớt các ứng viên không chính xác và dƣ thừa. Trong mô hình đề xuất, Hu và Liu giới thiệu hai loại cắt tỉa sau: Cắt tỉa đảm bảo tính chặt chẽ 19 Bƣớc cắt tỉa này kiểm tra các thuộc tính có nhiều hơn hai từ trở lên để loại bỏ những cụm từ vô nghĩa. Khi thực hiện khai phá tập mục phổ biến, thuật toán chỉ quan tâm tới số lần xuất hiện của các từ, tức là độ hỗ trợ của từ, chứ không quan tâm tới vị trí xuất hiện của từ trong câu. Do đó trong các tập mục phổ biến tìm đƣợc có khả năng chứa các cụm từ vô nghĩa. Để loại bỏ đƣợc các kết quả vô nghĩa, các tác giả đƣa ra khái niệm "cụm từ chặt chẽ" nhƣ sau: + Giả sử f là một cụm từ phổ biến gồm n từ tạo ra từ thuật toán khai phá tập mục phổ biến, f = {w1, w2, …,wn}. Nếu tồn tại một câu s chứa toàn bộ w1, w2, …,wn và khoảng cách giữa wi và wi+1 trong s không quá ba thì f đƣợc coi là "chặt" đối với s. + Nếu f xuất hiện trong m câu thuộc tập dữ liệu đánh giá, và f là "chặt" đối với ít nhất hai trong m câu trên thì f là một cụm từ chặt chẽ. Cắt tỉa dư thừa Bƣớc cắt tỉa này nhằm loại bỏ các đặc trƣng dƣ thừa. Ví dụ, sau khai phá tập mục phổ biến, hệ thống thu đƣợc hai ứng viên đặc trƣng là “life” và “battery life”, khi đó “life” là ứng viên đặc trƣng dƣ thừa và cần loại bỏ. Tuy nhiên, với trƣờng hợp “optical zoom” và “zoom” thì chƣa thể khẳng định “zoom” là đặc trƣng dƣ thừa. Chính vì vậy, các tác giả đƣa ra một phƣơng pháp để xác định đặc trƣng dƣ thừa dựa trên độ hỗ trợ hoàn toàn, ký hiệu p-support. Độ đo p- support đƣợc định nghĩa nhƣ sau: p-support của một đặc trƣng f đƣợc tính bằng phần trăm số câu chứa đặc trƣng f mà không chứa đặc trƣng f’, trong đó f là chuỗi con của f’. Ví dụ, trong tập dữ liệu đánh giá, đặc trƣng “zoom” có độ hỗ trợ là 5%, “optical zoom” có độ hỗ trợ là 2% thì p-support của “zoom” sẽ là 3%. Nếu một đặc trƣng f có giá trị p-support nhỏ hơn ngƣỡng p-support cực tiểu qua thực nghiệm và tồn tại một đặc trƣng f’ sao cho f là chuỗi con của f’ thì f là đặc trƣng dƣ thừa và bị loại bỏ. Trích chọn các từ quan điểm Việc trích chọn các từ quan điểm trong các đánh giá đƣợc các tác giả tiến hành nhƣ sau: mỗi câu trong cơ sở dữ liệu đánh giá mà chứa đặc trƣng phổ biến thì trích chọn ra tính từ ở gần đặc trƣng đó nhất làm từ quan điểm. Trích chọn các đặc trưng không phổ biến 20 Các từ quan điểm đi cùng các đặc trƣng phổ biến có thể đƣợc sử dụng để tìm kiếm các đặc trƣng không phổ biến. Chẳng hạn, “picture” là một đặc trƣng phổ biến. Trong câu “The pictures are absolutely amazing”, “amazing” là một từ quan điểm tích cực, “software” có thể đƣợc trích rút làm đặc trƣng từ câu “The software is amazing”. Xuất phát từ nhận xét trên, các tác giả trích chọn các đặc trƣng không phổ biến nhƣ sau: với tập các đánh giá sản phẩm, tập các đặc trƣng phổ biến và tập các từ quan điểm tìm đƣợc ở bƣớc trên, thực hiện duyệt tất cả các câu trong tập đánh giá, nếu câu nào không chứa các đặc trƣng phổ biến, nhƣng có các từ quan điểm thì thực hiện trích chọn danh từ, cụm danh từ gần từ đó nhất và đƣa vào tập các đặc trƣng không phổ biến. 2.3. Phƣơng pháp trích chọn đặc trƣng dựa trên lan truyền kép Đây là phƣơng pháp do Guang Qiu và các cộng sự đề xuất trong [20]. Ý tƣởng phƣơng pháp này dựa trên phát hiện một số mẫu quan hệ cú pháp phụ thuộc giữa từ quan điểm và đặc trƣng. Các mẫu quan hệ này đƣợc xác định thông qua một bộ phân tích cú pháp phụ thuộc. Khi xác định đƣợc các mẫu quan hệ và một trong hai thành phần (đặc trƣng hoặc từ quan điểm), hệ thống sẽ trích chọn đƣợc thành phần còn lại. Quá trình trích chọn này đƣợc lặp cho đến khi không tìm ra đƣợc đặc trƣng hoặc từ quan điểm nào mới. Phƣơng pháp này đƣợc gọi là lan truyền kép vì thông tin giữa từ quan điểm và đặc trƣng đƣợc lan truyền sau mỗi bƣớc lặp, từ đó mở rộng tập từ quan điểm và tập đặc trƣng tìm đƣợc. Vì có thể chỉ cần một tập nhỏ từ quan điểm ban đầu (tập hạt giống từ quan điểm) để bắt đầu tiến trình lan truyền nên phƣơng pháp này còn đƣợc xem nhƣ một phƣơng pháp học bán giám sát. Mối quan hệ giữa đặc trưng và từ quan điểm Việc xác định mối quan hệ giữa đặc trƣng và từ quan điểm chính là điểm mấu chốt trong thuật toán trích chọn dựa trên lan truyền kép. Ký hiệu OF-Rel chỉ mối quan hệ giữa từ quan điểm và đặc trƣng, OO-Rel chỉ mối quan hệ giữa các từ quan điểm và FF-Rel chỉ mối quan hệ giữa các đặc trƣng. Để xác định mối quan hệ giữa đặc trƣng và từ quan điểm, các tác giả sử dụng một bộ phân tích cú pháp phụ thuộc (dependency parser). Cú pháp phụ thuộc Cú pháp phụ thuộc (dependency grammar) mô tả mối quan hệ giữa các từ trong một câu. Sau khi đƣợc phân tích bởi một bộ phân tích cú pháp phụ thuộc, các từ trong câu đƣợc liên kết với nhau theo một quan hệ nào đó. Chẳng hạn 21 trong câu, “The camera has good screen”, “good” là một từ quan điểm và “screen” là một đặc trƣng của máy ảnh mà ta cần tìm. Sau khi phân tích, ta có từ “good” phụ thuộc từ “screen” trong mối quan hệ “mod”, nghĩa là “good” là bổ ngữ của “screen”. has subj camera det The obj good mod screen Hình 2.3: Cây phân tích cú pháp câu “The camera has good screen” Có hai loại quan hệ phụ thuộc giữa hai từ: Quan hệ phụ thuộc trực tiếp và quan hệ phụ thuộc gián tiếp. Quan hệ phụ thuộc trực tiếp chỉ ra một từ phụ thuộc vào một từ khác mà không qua một hoặc một số từ trung gian (chẳng hạn nhƣ B phụ thuộc trực tiếp A trong ví dụ (a)), hoặc cả hai từ cùng phụ thuộc trực tiếp vào một từ thứ ba (chẳng hạn nhƣ A và B cùng phụ thuộc trực tiếp vào D nhƣ ví dụ (b)). Quan hệ phụ thuộc gián tiếp chỉ ra một từ phụ thuộc vào một từ khác thông qua một hoặc một số từ trung gian (chẳng hạn nhƣ B phụ thuộc A thông qua từ trung gian D nhƣ trong ví dụ (c)), hoặc cả hai từ cùng phụ thuộc gián tiếp vào một từ thứ ba thông qua một hoặc một số từ trung gian (chẳng hạn nhƣ A và B cùng phụ thuộc gián tiếp vào D thông qua các từ trung gian I1 và I2 tƣơng ứng nhƣ trong ví dụ (d)). Hình 2.2: Các loại mối quan hệ phụ thuộc ngữ pháp giữa A và B Trong [20], các tác giả sử dụng công cụ Stanford POS để gán nhãn từ loại và Minipar để phân tích cú pháp phụ thuộc. Một số mối quan hệ phụ thuộc đƣợc 22 Minipar trích chọn và sử dụng trong thuật toán lan truyền kép bao gồm: mối quan hệ giữa đặc trƣng và từ quan điểm {mod, pnmod, subj, s, obj, obj2, desc}, mối quan hệ giữa các đặc trƣng {conj}, mối quan hệ giữa các từ quan điểm {conj}. Luật lan truyền Trong thuật toán lan truyền các tác giả đề xuất bốn bƣớc lan truyền con: (1) trích chọn đặc trƣng sử dụng từ quan điểm và mối quan hệ OF-Rel, (2) trích chọn đặc trƣng sử dụng đặc trƣng và mối quan hệ FF-Rel, (3) trích chọn từ quan điểm sử dụng đặc trƣng và mối quan hệ OF-Rel, (4) trích chọn từ quan điểm sử dụng từ quan điểm và mối quan hệ OO-Rel. Dƣới đây là bốn loại luật tƣơng ứng với bốn bƣớc lan truyền con trên. Ý nghĩa các ký hiệu nhƣ sau: t (o): đặc trƣng (từ quan điểm) trích chọn đƣợc từ các luật {T}({O}): tập đặc trƣng (tập từ quan điểm) đã biết POS(T), POS(O): thông tin gán nhãn từ loại của đặc trƣng, từ quan điểm TDep, ODep: quan hệ phụ thuộc của đặc trƣng, từ quan điểm {NN}, {JJ}: tập các từ loại của đặc trƣng, từ quan điểm {MR}: tập các mối quan hệ phụ thuộc giữa đặc trƣng và từ quan điểm OF-Rel, bao gồm {mod, pnmod, subj, s, obj, obj2, desc} {CONJ}: tập mối quan hệ phụ thuộc giữa các đặc trƣng FF-Rel hay từ quan điểm OO-Rel, bao gồm{conj} →: sự phụ thuộc, ví dụ 𝑂 → 𝑂𝐷𝑒𝑝 → 𝑇 nghĩa là 𝑂 phụ thuộc 𝑇 thông qua quan hệ cú pháp 𝑂𝐷𝑒𝑝 ==: bằng hoặc tƣơng đƣơng (1) Trích chọn đặc trưng t sử dụng từ quan điểm O và mối quan hệ OF-Rel R11 𝑂 → 𝑂𝐷𝑒𝑝 → 𝑇, 𝑂 ∈ 𝑂 , 𝑂𝐷𝑒𝑝 ∈ 𝑀𝑅 , 𝑃𝑂𝑆 𝑇 ∈ 𝑁𝑁 →𝑡=𝑇 Ví dụ: “The camera has a good screen” (good → mod → screen). Trong câu này, “good” là từ quan điểm O đã biết, “good” phụ thuộc “screen” theo mối quan hệ 23 OF-Rel là “mod”. Vì vậy với “good” là từ quan điểm biết trƣớc, suy ra đƣợc “screen” là một đặc trƣng. R12 𝑂 → 𝑂𝐷𝑒𝑝 → 𝐻 ← 𝑇𝐷𝑒𝑝 ← 𝑇, 𝑂 ∈ 𝑂 , 𝑂𝐷𝑒𝑝 ∈ 𝑀𝑅 , 𝑇𝐷𝑒𝑝 ∈ 𝑀𝑅 , 𝑃𝑂𝑆 𝑇 ∈ 𝑁𝑁 →𝑡=𝑇 Ví dụ: “The picture turned out quite nicely” (nicely → pnmod → turned ← subj ← picture). Trong câu này, “nicely” là từ quan điểm đã biết, “nicely” phụ thuộc vào “turned” theo mối quan hệ “pnmod” và “picture” phụ thuộc vào “turned” theo mối quan hệ “subj”. Vì vậy, với “nicely” là từ quan điểm biết trƣớc, suy ra đƣợc “picture” là một đặc trƣng (2) Trích chọn từ quan điểm o sử dụng đặc trưng T và mối quan hệ OF-Rel R21 𝑂 → 𝑂𝐷𝑒𝑝 → 𝑇, 𝑇 ∈ 𝑇 , 𝑂𝐷𝑒𝑝 ∈ 𝑀𝑅 , 𝑃𝑂𝑆 𝑂 ∈ 𝐽𝐽 →𝑜=𝑂 Ví dụ: “The camera has a good screen”. Tƣơng tự nhƣ ví dụ minh họa luật R11, nhƣng ở đây “screen” là đặc trƣng T biết trƣớc, mối quan hệ OF-Rel ở đây là “mod” và “good” là từ quan điểm đƣợc suy ra. R22 𝑂 → 𝑂𝐷𝑒𝑝 → 𝐻 ← 𝑇𝐷𝑒𝑝 ← 𝑇, 𝑇 ∈ 𝑇 , 𝑂𝐷𝑒𝑝 ∈ 𝑀𝑅 , 𝑇𝐷𝑒𝑝 ∈ 𝑀𝑅 , 𝑃𝑂𝑆 ∈ 𝐽𝐽 →𝑜=𝑂 Ví dụ: “The picture turned out quite nicely”. Tƣơng tự nhƣ ví dụ minh họa luật R12, nhƣng ở đây “picture” là đặc trƣng T biết trƣớc, mối quan hệ OF-Rel ở đây là “pnmod” và “subj”, và “nicely” là từ quan điểm đƣợc suy ra. (3) Trích chọn đặc trưng t sử dụng đặc trưng T và mối quan hệ FF-Rel R31 𝑇𝑖 𝑗 → 𝑇𝑖 → 𝑡 = 𝑇𝑖 𝑗 𝐷𝑒𝑝 → 𝑇𝑗 𝑖 , 𝑇𝑗 𝑖 ∈ 𝑇 , 𝑇𝑖 𝑗 𝐷𝑒𝑝 ∈ 𝐶𝑂𝑁𝐽 , 𝑃𝑂𝑆 𝑇𝑖 𝑗 ∈ 𝑁𝑁 𝑗 Ví dụ:”The camera gives the tremendous flexibility in shutter speed and aperture priority” (priority → conj → speed). Trong câu này, “shutter speed” là đặc trƣng T biết trƣớc, mối quan hệ FF-Rel ở đây là “conj”, và “aperture priority” là đặc trƣng đƣợc trích chọn.
- Xem thêm -

Tài liệu liên quan