Đăng ký Đăng nhập
Trang chủ Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứ...

Tài liệu Nghiên cứu một số phương pháp trích chọn đặc trưng trong khai phá quan điểm và ứng dụng

.PDF
66
162
110

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ THỊ BÍCH HẢO NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG TRONG KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2016 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ THỊ BÍCH HẢO NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG TRONG KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS NGUYỄN VIỆT ANH THÁI NGUYÊN – 2016 i LỜI CẢM ƠN Trước hết tôi xin bày tỏ lòng biết ơn sâu sắc và gửi lời cảm ơn đặc biệt nhất tới Thầy TS. Nguyễn Việt Anh, người đã định hướng đề tài, cung cấp cho tôi những kiến thức, những tài liệu và tận tình hướng dẫn chỉ bảo tôi trong suốt quá trình thực hiện đề tài luận văn cao học này, từ những ý tưởng trong đề cương nghiên cứu, phương pháp nghiên cứu, phương pháp giải quyết vấn đề cho đến những lần kiểm tra cuối cùng để hoàn thành luận văn này. Tôi xin gửi lời cảm ơn chân thành tới Ban Giám hiệu Nhà trường, Phòng Đào tạo sau đại học, Đại học Công nghệ thông tin và truyền thông Thái Nguyên đã tạo điều kiện tốt nhất giúp tôi trong suốt quá trình học tập. Cuối cùng tôi xin gửi lời cảm ơn đến gia đình, bạn bè những người đã luôn động viên khuyến khích tôi trong suốt quá trình học tập cũng như thực hiện đề tài luận văn của mình. Thái Nguyên, ngày 6 tháng 4 năm 2016 Học viên Lê Thị Bích Hảo ii LỜI CAM ĐOAN Tôi xin cam đoan nội dung trình bày trong luận văn này là do tôi tự nghiên cứu tìm hiểu dựa trên các tài liệu và tôi trình bày theo ý hiểu của bản thân dưới sự hướng dẫn trực tiếp của Thầy TS. Nguyễn Việt Anh. Các nội dung nghiên cứu, tìm hiểu và kết quả thực nghiệm là hoàn toàn trung thực. Luận văn này của tôi chưa từng được ai công bố trong bất cứ công trình nào. Trong quá trình thực hiện luận văn này tôi đã tham khảo đến các tài liệu của một số tác giả, tôi đã ghi rõ tên tài liệu, nguồn gốc tài liệu, tên tác giả và tôi đã liệt kê trong mục “DANH MỤC TÀI LIỆU THAM KHẢO” ở cuối luận văn. Học viên Lê Thị Bích Hảo iii MỤC LỤC Trang Trang bìa phụ Lời cảm ơn ...............................................................................................................i Lời cam đoan.......................................................................................................... ii Mục lục ................................................................................................................. iii Danh mục các bảng, hình vẽ, đồ thị ........................................................................iv MỞ ĐẦU ................................................................................................................ 1 Chương 1: TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM ................................... 4 1.1 Khai phá quan điểm ....................................................................................... 4 1.1.1 Giới thiệu chung ...................................................................................... 4 1.1.2 Những thách thức trong khai phá quan điểm với dữ liệu đánh giá ............ 5 1.1.3 Các định nghĩa trong khai phá quan điểm ................................................ 6 1.1.4 Các bài toán trong khai phá quan điểm .................................................... 9 1.2 Khai phá quan điểm dựa trên đặc trưng ........................................................ 11 1.2.1 Mô hình khai thác ý kiến dựa trên thuộc tính ......................................... 12 1.2.2 Trích xuất khía cạnh .............................................................................. 15 1.2.3 Dự đoán cực .......................................................................................... 16 1.2.4 Nhóm các khía cạnh .............................................................................. 17 1.2.5 Phân giải đồng tham chiếu (Coreference resolution) .............................. 18 1.2.6 Đánh giá ................................................................................................ 18 Chương 2: MỘT SỐ PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN ĐẶC TRƯNG TRONG KHAI PHÁ QUAN ĐIỂM ........... 21 2.1. Phương pháp trích chọn đặc trưng dựa trên tập phổ biến ............................. 21 2.2 Phương pháp trích chọn đặc trưng dựa trên lan truyền kép .......................... 26 2.3 Mô hình giải quyết bài toán khai phá quan điểm dựa vào đặc trưng cho tiếng Việt ... 34 Chương 3: ỨNG DỤNG VÀO HỆ THỐNG TRÍCH CHỌN ĐẶC TRƯNG CHO ĐIỆN THOẠI DI ĐỘNG ....................................................... 37 3.1 Mô tả bài toán và ý tưởng giải quyết ............................................................ 37 iv 3.2 Xây dựng mô hình hệ thống ......................................................................... 37 3.2.1 Xây dựng cơ sở dữ liệu đặc tả sản phẩm ............................................... 40 3.2.2 Sinh tập ứng viên đặc trưng ................................................................... 41 3.3.3 Nhóm gộp các đặc trưng ........................................................................ 43 3.3 Thực nghiệm và đánh giá ............................................................................. 45 3.3.1 Môi trường và các công cụ sử dụng ....................................................... 46 3.3.2 Bước tiền xử lý dữ liệu: ......................................................................... 47 3.3.4 Trích chọn các tính năng dựa theo thuật toán lan truyền kép .................. 51 3.3.5 Gộp nhóm tính năng .............................................................................. 53 3.3.6 Đánh giá chung cho toàn hệ thống ......................................................... 54 KẾT LUẬN .......................................................................................................... 56 TÀI LIỆU THAM KHẢO ................................................................................... 57 iv DANH MỤC CÁC BẢNG Trang Bảng 3.1 Các nhãn từ loại và giải thích.................................................................. 40 Bảng 3.2 Tổng hợp những tính năng được quan tâm nhất ...................................... 54 DANH MỤC CÁC HÌNH VẼ ĐỒ THỊ Hình 1.1 Ví dụ biểu diễn cây đối tượng ................................................................... 8 Hình 1.2 Quan hệ giữa các nhiệm vụ ..................................................................... 10 Hình 2.1 Mô hình trích chọn đặc trưng của Hu và Liu ........................................... 22 Hình 2.2 Các loại mối quan hệ phụ thuộc ngữ pháp giữa A và B ........................... 27 Hình 2.3 Mô hình khai phá quan điểm dựa trên tính năng của Ha [6] ................... 35 Hình 3.1 Mô hình giải quyết bài toán..................................................................... 39 1 MỞ ĐẦU Trên thế giới nói chung và ở Việt Nam nói riêng, thương mại điện tử đã trở nên phổ biến và ngày càng phát triển. Một phần quan trọng trong thương mại điện tử là bán hàng trực tuyến. Số lượng người mua hàng trực tuyến gia tăng, số lượng đánh giá, nhận xét của người dùng về các sản phẩm cũng ngày càng nhiều. Một sản phẩm thông dụng có thể có hàng trăm, hàng nghìn đánh giá. Cùng với các trang web bán hàng trực tuyến là các trang web đánh giá sản phẩm như epinions.com, dpreview.com, vnreview.vn, trustedreviews.com, tinhte.vn, .... Các trang web này là nơi người tiêu dùng viết các đánh giá của mình về một sản phẩm nào đó. Các đánh giá được đăng trên một trang web loại này cần tuân theo một số quy định do các trang web đó đưa ra và sẽ được chấm điểm bởi đông đảo người dùng của trang web căn cứ vào độ tin cậy, hợp lý và hữu dụng mà các đánh giá này mang lại. Chính bởi vậy, các bài đánh giá từ các trang web loại này được coi là nguồn tổng hợp lớn các đánh giá sản phẩm tin cậy từ khách hàng. Đây là nguồn thông tin quan trọng, cung cấp cho người mua hàng cái nhìn toàn diện hơn về một sản phẩm mà họ định mua. Còn đối với nhà sản xuất, đánh giá của khách hàng là cơ sở để tiến hành cải tiến, hoàn thiện sản phẩm của mình. Tuy nhiên, một vấn đề đặt ra là số lượng các ý kiến đánh giá rất lớn. Điều này gây khó khăn cho cả người mua hàng và nhà sản xuất. Người mua hàng sẽ gặp khó khăn trong việc tổng hợp ý kiến của những người tiêu dùng trước để đưa ra quyết định mua hay không mua một sản phẩm. Còn nhà sản xuất thì khó theo dõi, nắm bắt được tất cả phản hồi của người tiêu dùng về sản phẩm của mình. Thực tế trên làm nảy sinh yêu cầu tổng hợp tất cả nhận xét của khách hàng về các đặc trưng của sản phẩm trên một trang web đánh giá sản phẩm. Theo cuộc khảo sát hơn 2000 người Mỹ trưởng thành cho thấy 81% người dùng internet (chiếm tỷ lệ 60% người Mỹ) đã thực hiện việc tìm hiểu về một sản phẩm thông qua internet. Có từ 73% đến 87% số người nói rằng các nhận xét về sản phẩm có sự ảnh hưởng quan trọng đến việc lựa chọn mua sản phẩm của họ. Như vậy, quan điểm của người khác giúp chúng ta có thêm thông tin khi quyết định một 2 vấn đề, nó ảnh hưởng rất lớn đến hành vi của chúng ta. Tại Việt Nam theo báo cáo thương mại điện tử của Bộ công thương công bố năm 2014 [1] loại mặt hàng được mua trực tuyến là đồ công nghệ điện tử chiếm tới 61%, yếu tố được quan tâm khi mua sắm là 81% người ra rằng uy tín của người bán hàng 64% theo thương hiệu của sản phẩm; thống kê năm 2015 của Google [2] về người dùng internet có xu hướng theo lời khuyên trực tuyến 50% để mua đồ. Việc giúp người có ý định mua có thể tham khảo tốt hơn ý kiến người dùng, hay giúp nhà cung cấp sản phẩm biết được cộng đồng đang quan tâm đến sản phẩm của mình trên những khía cạnh nào, chính là động lực để học viên nghiên cứu đề tài. Đối với bài toán trên cũng đã có rất nhiều các công trình nghiên cứu và ứng dụng trên thế giới trong hơn một thập kỷ qua và đã đưa ra nhiều kết quả đáng chú ý được mô tả tổng hợp bởi một số nhà nghiên cứu uy tín trong ngành như Bing Liu [3] hay Moghaddam [4]… và đó là trên thế giới, trong nước đề tài này cũng đang nhận được nhiều sự chú ý quan tâm của các nhà nghiên cứu trong những năm gần đây, nổi bật có các nhóm tác giả Bảo Sơn [5] và nhóm của Hà Thụy [6], [7] đã đưa ra một số kết quả là mô hình áp dụng đối với một số bộ dữ liệu tiếng Việt và bộ từ điển miền Tiếng Việt… Luận văn định hướng tìm hiểu các phương pháp trích chọn đặc trưng trong khai phá quan điểm để biểu diễn đối tượng được quan tâm, trên cơ sở đó đề xuất phương pháp và thử nghiệm ứng dụng hệ thống trong bài toán trích chọn đặc trưng sản phẩm cụ thể là điện thoại di động, từ những dữ liệu thu thập được trên website diễn dàn đánh giá sản phẩm. Với ý nghĩa thực tế có thể ứng dụng trong thị trường trong nước, học viên xin được đề xuất nghiên cứu và đưa ra mô hình ứng dụng của mình. Mô hình bao gồm các bước từ thu thập dữ liệu, tiền xử lý dữ liệu, đến ứng dụng các thuật toán mô hình lan truyền kép để trích chọn ra các đặc trưng, sử dụng phân cụm để gộp nhóm các đặc trưng. Cuối cùng là đưa ra những đánh giá đối với riêng hiệu quả thuật toán, bộ dữ liệu, kết quả đạt được và đánh giá về tính khả thi ứng dụng mô hình. 3 Cấu trúc của luận văn sẽ chia thành 4 phần chính: Phần I. Mô tả tổng quan về bài toán khai phá quan điểm, trong đó nêu rõ những vấn đề nổi bật trong bài toán này tiếp tới là đi sâu hơn vào bài toán khai phá quan điểm dựa trên đặc trưng, những bài toán con cần giải quyết và phương pháp đánh giá. Những vấn đề nêu trên đều có giới thiệu các nghiên cứu trong và ngoài nước liên quan. Phần II. Mô tả cụ thể chi tiết các phương pháp giải quyết bài toán trích trọn đặc trưng nổi bật trên thế giới, phân tích và đưa ra quyết định ứng dụng vào mô hình giải quyết bài toán của mình. Phần III. Phát biểu bài toán và đưa ra mô hình ứng dụng đối với bài toán trích chọn đặc trưng cho miền dữ liệu tiếng Việt về sản phẩm điện thoại di động. Tiếp theo là đưa ra kết quả thực nghiệm và những phân tích chủ quan của học viên về kết quả đạt được của mô hình. Phần IV. Kết luận tổng kết quá trình thực hiện luận văn, những khó khăn, thách thức, những kết quả đạt được và định hướng hướng nghiên cứu áp dụng tiếp theo. 4 Chương 1 TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM 1.1 Khai phá quan điểm 1.1.1 Giới thiệu chung Khai phá quan điểm là lĩnh vực nghiên cứu mà cố gắng để làm cho hệ thống tự động xác định quan điểm của con người từ văn bản được viết bằng ngôn ngữ tự nhiên. Khai phá quan điểm nghiên cứu về ý kiến, tình cảm, quan niệm chủ quan, đánh giá, thái độ, thẩm định, cảm xúc… được thể hiện trong văn bản. Những điều đó được thể hiện qua các nhận xét, blog, các cuộc thảo luận, tin tức, bình luận, phản hồi… hay các tài liệu khác. Khai phá quan điểm dựa trên ngôn ngữ tính toán, truy vấn thông tin, khai thác văn bản, xử lý ngôn ngữ tự nhiên, học máy, thống kê và phân tích dự đoán. Đây là lĩnh vực khai phá văn bản, liên quan đến việc áp dụng các giải pháp của xử lý ngôn ngữ tự nhiên và của học máy để trích xuất và xác định quan điểm được thể hiện trong văn bản. Khai phá quan điểm dựa trên đặc trưng là một trong ba bài toán cơ bản trong khai phá quan điểm, bao gồm: bài toán phân lớp quan điểm, bài toán khai phá và tổng hợp quan điểm dựa trên đặc trưng và bài toán khai phá quan hệ so sánh. Bài toán khai phá và tổng hợp quan điểm dựa trên đặc trưng nhằm mục tiêu tạo ra một bản tổng hợp quan điểm dựa trên các đặc trưng của sản phẩm được người dùng đề cập trong văn bản và từ đó xác định các ý kiến đánh giá được đưa ra. Đối tượng dữ liệu được quan tâm hiện nay [8] phân bố ở trên các mạng xã hội, các dự án cộng tác, các blog, các cộng đồng,… đều là các bài đánh giá nêu quan điểm trực tuyến. Đặc điểm của những bài đánh giá trực tuyến thường là đánh giá cho một sản phẩm hay một dịch vụ cụ thể, có dạng văn bản, có thể có đánh giá theo tiêu chí thang điểm hay là những cụm câu ngắn tổng kết tính năng ưu nhược và thường được viết với ngôn ngữ tự nhiên đa dạng. Ngoài ra các nguồn đề thu thập ý kiến có thể là từ những phản hồi của khách hàng qua thư điện tử mail, cuộc gọi yêu cầu hỗ trợ đến 5 trung tâm dịch vụ; từ tin tực báo cáo, từ những diễn đàn thảo luận, facebook, tweets… đều có kiểu không tập trung và vụn vặt; đặc biệt là thuần văn bản. Những đánh giá kiểu này sẽ giúp ích rất nhiều khách hàng cũng như nhà sản xuất. Khách hàng thì có thể giúp họ ra quyết định khi mua sản phẩm hoặc dịch vụ. Với các nhà sản xuất đây là nguồn phản hồi để đánh giá hiệu quả, mà theo truyền thống những nhà sản xuất phải thường dành nhiều tiền cho việc thu thập ý kiến, khảo sát,… Tất nhiên rằng ý kiến của một người không đủ để quyết định hành động trừ ngoại lệ người đó được biết đến như một chuyên gia và có những lời khuyên bổ ích được đánh giá cao, thì việc tổng hợp ý kiến từ rất nhiều người mới có tính thuyết phục cao hơn, khai phá quan điểm chính là để phát hiện những mẫu dạng những những ý kiến đó. Vấn đề là có quá nhiều các bài đánh giá cần phải xem xét, nhiều khía cạnh được quan tâm, hơn nữa rằng người dùng viết ý kiến của mình theo phong cách riêng thường không có cấu trúc và đúng ngữ pháp, cũng có quá nhiều bài gây nhiễu chất lượng thấp, spam,… Như vậy, một nhiệm vụ quan trọng để giải quyết bài toán loại này là xác định các đặc trưng đối tượng mà người dùng nhận xét, đánh giá. Đây chính là nội dung trọng tâm mà luận văn tìm hiểu giải quyết. 1.1.2 Những thách thức trong khai phá quan điểm với dữ liệu đánh giá Đặc điểm của một bài đánh giá trực tuyến thường là gồm các thực thể, người nêu quan điểm và thời gian đưa ra quan điểm đó; những bài đánh giá này có thể gặp được ở các blog, các diễn dàn forum,… mà đều không rõ cụ thể về thực thể hay khía cạnh nào, thường được nêu ra không theo chủ đề hay cấu trúc nào, ngoài ra còn có thể so sánh với nhiều loại khác, thậm chí cả những thông tin không hề liên quan. Có thể kể đến những thách thức trong quá trình khai phá quan điểm dựa trên khía cạnh bao gồm: 6 Một khía cạnh được thể hiện bằng nhiều từ khác nhau. Với ví dụ rằng “ảnh chụp từ con này đẹp hơn hình của con samsung Galaxy” cùng nói về một tính năng ảnh chụp nhưng có thể nói bằng những cách khác nhau. Những từ quan điểm thể hiện mực độ đánh giá giống nhau. Ví dụ như “cái này thường thôi, dùng tạm khi cần” Gây khó khăn rất lớn trong quá trình thu thập dữ liệu đó là nhiễu, những thông tin dư thừa không liên quan có thể lẫn vào, thậm chí chiếm phần lớn nội dung, do người dùng khá tự do và không có luật gì rằng buộc. Việc xếp hạng hay các khía cạnh được thể hiện không rõ ràng. Ngôn ngữ người dùng đã nhập nhằng và đôi khi họ chỉ nêu lên những ý kiến trung lập không thể hiện rõ thái độ tích cực hay tiêu cực, ví dụ như trong câu “thiết kế của em này to” không rõ người dùng cảm thấy tốt hay không. Có sự so sánh các quan điểm. Hẳn nhiên việc so sánh là thường diễn ra và cần phân biệt khía cạnh đang đề cập đến là nói về sản phẩm nào… ví dụ như câu “về chụp ảnh thì Samsung thua xa iPhone, cơ mà giá thì ngon hơn nhiều” 1.1.3 Các định nghĩa trong khai phá quan điểm Sau đây sẽ là hệ thống một số khái niệm trong lĩnh vực khai phá quan điểm này, được định nghĩa bởi B.Liu [9]. “Một quan điểm là một phát biểu, cách nhìn, thái độ hoặc định giá chủ quan về một thực thể hay một khía cạnh của thực thể nào đó”. “Một ý kiến có thể được phân loại thành kiểu tiêu cực, tích cực hay trung lập. Có thể gọi là hướng quan điểm hay cực của quan điểm”. Từ quan điểm: “Từ thể hiện được quan điểm của người đánh giá được gọi là từ quan điểm”. Quan điểm hiện và quan điểm ẩn: “Một quan điểm hiện về một đặc trưng f là một câu chủ quan mà trực tiếp biểu đạt một quan điểm tích cực hoặc tiêu cực. Một quan điểm ẩn về một đặc trưng f là một câu khách quan mà ám chỉ một quan điểm tích cực hay tiêu cực”. 7 Ví dụ: Câu = “Điện thoại Blackberry có thiết kế rất nam tính”. Quan điểm của người dùng trên đặc trưng “nội dung” (điện thoại Blackberry) là một quan điểm hướng tích cực, vì sử dụng từ quan điểm “hay”. Đoạn đánh giá về một đặc trưng: Đoạn văn bản đánh giá về một đặc trưng f của đối tượng O trong s là một tập các câu liên tiếp trong s diễn tả quan điểm tích cực, tiêu cực hay trung lập về đặc trưng f. Người đánh giá: Là người hay tổ chức cụ thể đưa ra lời đánh giá. Với các đánh giá về sản phẩm trên diễn đàn hay blog, người đánh giá chính là tác giả của đánh giá hay bài viết. Đối tượng và đặc trưng của đối tượng Nhìn chung, các quan điểm có thể biểu đạt đánh giá về bất cứ điều gì, chẳng hạn, một sản phẩm, một cá nhân, một tổ chức, một sự kiện, một chủ đề…Chúng ta sử dụng thuật ngữ tổng quát đối tượng để chỉ các thực thể được đánh giá đó. Đối tượng có tập các thành phần và tập các thuộc tính. Một đối tượng có thể được phân rã căn cứ vào mối quan hệ thành phần “part-of”, mỗi thành phần có thể có các thành phần con….Chẳng hạn, một sản phẩm (ô tô, điện thoại di động, máy ảnh kĩ thuật số…) có thể có các thành phần khác nhau, một sự kiện có thể có các sự kiện con, một chủ đề có thể có các chủ đề con,… Một đối tượng O là một thực thể (một sản phẩm, một người, một sự kiện…), có liên hệ tới 1 cặp, O: (T, A), với T là một cấu trúc phân cấp của các thành phần. A là tập các thuộc tính của đối tượng O. Mỗi thành phần thuộc đối tượng O lại có tập các thành phần và tập các thuộc tính của nó. Để làm rõ hai khái niệm thành phần và thuộc tính trong định nghĩa đối tượng ở trên, có một ví dụ đơn giản như sau: Xét đối tượng là điện thoại Nokia N72. Đối tượng này có một tập các thành phần, như: pin, màn hình và một tập các thuộc tính như chất lượng âm thanh, kích cỡ, cảm ứng. Thành phần pin cũng có một tập các thuộc tính như: chất lượng pin, kích cỡ pin. 8 Một đối tượng O được biểu diễn như một cây. Gốc chính là đối tượng O. Mỗi nốt không là gốc là một thành phần hoặc thành phần con của O. Mỗi nhánh liên kết thể hiện mối quan hệ “part-of”. Mỗi nốt cũng liên hệ với một tập các thuộc tính. Nokia N72 Pin Chất lượng Màn hình Kích cỡ Cảm ứng Hình 1.1 Ví dụ biểu diễn cây đối tượng Một sản phẩm máy ảnh có tập các thành phần như pin, màn hình…và tập các thuộc tính như chất lượng pin, kích cỡ pin, cảm ứng. Thành phần pin cũng có tập thuộc tính của nó như chất lượng pin, kích cỡ pin, trọng lượng pin. Quan điểm có thể được thể hiện trên đối tượng (nút gốc), chẳng hạn như: “Tôi không thích điện thoại này”, hoặc trên một thuộc tính của đối tượng, như “Chất lượng ảnh của điện thoại này kém”, trên một thành phần của đối tượng như “Camera của điện thoại này kém” hoặc trên thuộc tính của một thành phần, chẳng hạn như “Tuổi thọ pin của điện thoại này ngắn”. Như vậy thành phần và thuộc tính chính là đặc trưng quan điểm (hay đặc trưng) của đối tượng. Để đơn giản từ “đặc trưng” được sử dụng để thể hiện cả thành phần và thuộc tính của đối tượng. Đặc trưng có hai loại là đặc trưng ẩn và đặc trưng hiện. Nếu đặc trưng f xuất hiện tường minh trong tài liệu biểu đạt quan điểm đánh giá r thì f được gọi là một đặc trưng hiện trong r. Nếu f không xuất hiện tường minh trong r nhưng được ngầm nói đến thì f được gọi là một đặc trưng ẩn trong r. 9 Ví dụ Đặc trưng “tuổi thọ pin” trong câu “Tuổi thọ pin của điện thoại này rất ngắn.” là một đặc trưng hiện. Đặc trưng “kích thước” trong câu “Điện thoại này quá nhỏ.” là một đặc trưng ẩn. Không rõ người dùng cảm thấy phù hợp hay không hài lòng. Định nghĩa một cách toán học một quan điểm Quan điểm ( , , , , ) là một bộ gồm 5 thành phần với : là một thực thể mục tiêu : là một khía cạnh của một thực thể : là người giữ quan điểm i : là thời gian quan điểm được thể hiện : là hướng quan điểm của người về tính năng của thực thể tại thời gian Định nghĩa không chỉ áp dụng cho đối tượng là sản phẩm, mà còn có thể là các dịch vụ, công ty, …tuy nhiên đôi khi việc thu thập năm thành phần có thể khó khăn, dẫn đến có thể gây hạn chế tính chính xác của quan điểm nếu thiếu chúng. 1.1.4 Các bài toán trong khai phá quan điểm Mục đích phải khám phá đầy đủ tất các các thành phần của một quan điểm, chuyển đổi các dạng văn bản không có cấu trúc thành có cấu trúc, cũng phục vụ cho việc phân tích và đánh giá chất lượng. Và tiếp tới sẽ nêu qua những dạng bài toán có trong lĩnh vực khai phá quan điểm này. Trước hết lại nói cấu trúc của một đánh giá là bao gồm các câu, mỗi câu chứa các cụm từ, trong đánh giá quan điểm có cấp bậc là từ cấp văn bản, cấp câu và cuối cùng là cấp cụm từ. Đầu tiên khai phá quan điểm ở cấp văn bản thường là phân loại ra các chủ đề (Subjectivity Classification) xác định các văn bản thể hiện quan điểm hay không; 10 phân loại ý kiến, xác định cực của ý kiến là tích cực hay tiêu cực; dự đoán những quan điểm hữu ích (Opinion helpfulness estimate), bài toán ước lượng những đánh giá hữu ích; phát hiện những quan điểm không ý nghĩa spam (Opinion Spam Detection). Với cấp khai phá ở mức câu, việc khai phá tập trung vào tổng kết các quan điểm (opinion summarization) [10] là trích xuất ra những câu có ý nghĩa chính cho mỗi sản phẩm hay mỗi khía cạnh; tiếp theo là khai phá qua các quan điểm so sánh (OM in Comparative sentences) bao gồm xác định ra những câu so sánh và trích xuất là ý định so sánh. Ở cấp thấp nhất là khai phá quan điểm từ cấp cụm từ nhằm khai phá khía cạnh xác định các tính năng và xếp hạng từ những đánh giá. Bài toán lớn gồm rất nhiều bài toán con và có những quan hệ theo như bảng sau: Subjectivity Classification (Phân loại chủ đề) Sentiment Analysic (Phân tích quan điểm) Opinion Search and Retrieval (Truy hồi và tìm kiếm) Opinion Question Answering (Trả lời câu hỏi về quan điểm) Opinion summarization (Tổng kết quan điểm) Opinion Spam Dectection (Phát hiện quan điểm không ý nghĩa) Aspect – based Opinion Mining (KPQĐ dựa trên khía cạnh) Opinion Helpfulness Est. (Ước lượng quan điểm hữu ích) OM in Comparative sentences (KPQĐ trong câu so sánh) Hình 1.2 Quan hệ giữa các nhiệm vụ 11 Một trong những vấn đề cần xem xét thêm là những từ vựng chỉ quan điểm, đối với ngôn ngữ tiếng Anh đã được rất nhiều nhà nghiên cứu xây dựng bộ từ điển cho loại từ vựng này có thể kế đến như bộ là MPQA1, SentiWordNet 2,… với mỗi từ có xác suất phân bố qua độ tích cực, tiêu cực và mục tiêu; bộ từ điển của Bing Liu thì bao gồm danh sách các từ tiêu cực và tích cực, bộ cảm xúc,... trong đó có thể kể đến gần đây YanghiuRao [11] và cộng sự có đóng góp xây dựng bộ từ điển từ cảm xúc đối với miền tin tức trực tuyến. Với bài toán phân tích ý kiến có một số hạn chế là tri thức của quan hệ phân cấp của các thuộc tính sản phẩm không được tận dụng tối đa, các đánh giá hoặc vài đề cập đến những thuộc tính được gắn kết phức tạp với nhau. Những tổng hợp về bài toán này có thể tìm hiểu thêm ở [3] của tác giả B. Liu, ngoài ra có một số công trình nghiên cứu có đề cập đến giải quyết những vấn đề này nổi bật đó là việc gán nhãn các thuộc tính của sản phẩm bằng cách học theo cấp dựa vào cây thực thể từ quan điểm (Sentiment ontology tree) [12], hay là sử dụng phương pháp phân tích đánh giá khía cạnh ẩn dựa trên hồi quy [13]; đối với dữ liệu tiếng Việt cũng có nhóm nghiên cứu của Kieu và cộng sự [5]. Phần tiếp tới sẽ mô tả một bài toán quan trọng là khai phá quan điểm dựa trên đặc trưng (Aspect-based opinion mining). 1.2 Khai phá quan điểm dựa trên đặc trưng Trong bài toán khai phá và tổng hợp quan điểm dựa trên đặc trưng, vấn đề quan trọng cần giải quyết đầu tiên là trích chọn các đặc trưng biểu diễn đối tượng được đề cập đến trong các bài viết về sản phẩm, hay có thể như trong các bài đánh giá, nhận xét. Trong phần này luận văn sẽ trình bày một số khái niệm liên quan đến đặc trưng trong bài toán khai phá quan điểm dựa trên đặc trưng và mô hình hóa cơ bản của bài toán này, sau đó là mô tả những bài toán con cũng với tình hình nghiên cứu những năm gần đây. 1 2 mpqa.cs.pitt.edu/ sentiwordnet.isti.cnr.it 12 1.2.1 Mô hình khai thác ý kiến dựa trên thuộc tính Một tài liệu biểu đạt quan điểm đánh giá tích cực về một đối tượng nào đó không có nghĩa rằng tác giả có quan điểm tích cực về mọi khía cạnh của sản phẩm. Cũng như vậy, một tài liệu biểu đạt quan điểm tiêu cực không có nghĩa tác giả có quan điểm tiêu cực về mọi khía cạnh của đối tượng đó. Để nắm được những khía cạnh chi tiết như vậy, cần tiến đến mức đặc trưng. Như vậy, bài toán khai phá quan điểm dựa trên đặc trưng có hai nhiệm vụ như sau: - Phát hiện và lấy ra các đặc trưng của sản phẩm được đề cập. Chẳng hạn câu “Tuổi thọ pin của điện thoại này quá ngắn”, bình luận trên đặc trưng “tuổi thọ pin” của sản phẩm “điện thoại này”. - Xác định quan điểm về các đặc trưng là tích cực, tiêu cực hay trung lập. Trong câu trên, quan điểm về đặc trưng “tuổi thọ pin” là tiêu cực. Do đó bài toán khai phá quan điểm dựa trên đặc trưng thực hiện tại mức đặc trưng. Chẳng hạn, trong một đánh giá của một sản phẩm, bài toán này nhằm phát hiện các đặc trưng của sản phẩm mà được bình luận bởi người tiêu dùng và xác định bình luận về đặc trưng đó là tích cực hay tiêu cực. Một tổng hợp có cấu trúc sẽ được tạo ra từ kết quả khai phá này. Mô tả một cách hình thức như sau: Một đối tượng được biểu diễn với một tập hữu hạn các đặc trưng, F = {f1, f2, .. fn}. Mỗi đặc trưng fi trong F có thể được biểu diễn bởi một tập hữu hạn các từ hoặc cụm từ đồng nghĩa Wi. Tức là, có một tập các từ đồng nghĩa tương ứng W = {W1, W2, …, Wn} cho n đặc trưng. Vì mỗi đặc trưng fi trong F có một tên (kí hiệu bởi fi), nên fi ∈ Wi. Mỗi tác giả hoặc người đánh giá j bình luận trên một tập con các đặc trưng Sj ⊆ F. Với mỗi đặc trưng fk ∈ Sj mà người đánh giá j bình luận, một từ hoặc cụm từ Wk sẽ được chọn để mô tả đặc trưng, và sau đó biểu đạt một quan điểm tích cực hay tiêu cực của người đánh giá j. Đầu vào: Tập D các tài liệu d có quan điểm đánh giá. 13 Đầu ra: Một tập các cặp, mỗi cặp kí hiệu bởi (f, SO), với f là một đặc trưng và SO là hướng quan điểm (tích cực hay tiêu cực) được biểu đạt trong d trên đặc trưng f. Chú ý rằng mô hình này không xem xét độ mạnh của mỗi quan điểm, nghĩa là, không xem xét quan điểm là tiêu cực (tích cực) mạnh hay tiêu cực (tích cực) yếu, nhưng độ mạnh của mỗi quan điểm có thể được thêm vào. Có nhiều cách để sử dụng kết quả từ mô hình này. Cách đơn giản là tạo ra tổng hợp dựa trên đặc trưng của các quan điểm trên đối tượng. Như vậy, bài toán khai phá quan điểm dựa trên đặc trưng có một số tình huống sau: Tình huống 1: Không biết F và W. Với tình huống này, ta cần thực hiện ba nhiệm vụ sau: + Nhiệm vụ 1: Xác định và trích chọn các đặc trưng đối tượng được bình luận trong mỗi tài liệu d ∈ D + Nhiệm vụ 2: Nhóm các từ đồng nghĩa của đặc trưng, vì những người khác nhau có thể sử dụng các từ hoặc cụm từ khác nhau để biểu đạt cùng một đặc trưng. + Nhiệm vụ 3: Xác định hướng quan điểm trên các đặc trưng là tích cực, tiêu cực hay trung lập Tình huống 2: Biết F nhưng không biết W. Tình huống này tương tự như tình huống 1 nhưng nhiệm vụ 2 chuyển thành vấn đề đối chiếu các đặc trưng phát hiện được với tập đặc trưng F đã biết. Tình huống 3: Biết W và F. Với tình huống này chúng ta chỉ cần xác định hướng quan điểm trên đặc trưng sau khi tất cả các câu chứa quan điểm về đặc trưng được trích chọn. Luận văn tập trung giải quyết nhiệm vụ 1 và 2 trong hai tình huống đầu tiên. Đó chính là nội dung của bài toán trích chọn đặc trưng. Đầu vào: Các nhận xét, đánh giá của người dùng về một sản phẩm cụ thể trên một trang web đánh giá.
- Xem thêm -

Tài liệu liên quan