Tài liệu Phân tích cảm xúc hướng khía cạnh cho các bình luận việt ngữ

.PDF

108

thanhphoquetoi Báo vi phạm

Tải xuống 108

Mô tả:

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA ——————– * ——————— PHẠM PHƯƠNG UYÊN PHÂN TÍCH CẢM XÚC HƯỚNG KHÍA CẠNH CHO CÁC BÌNH LUẬN VIỆT NGỮ Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP. HỒ CHÍ MINH, tháng 8 năm 2021 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG TP.HCM Cán bộ hướng dẫn khoa học: PGS. TS. QUẢN THÀNH THƠ Cán bộ chấm nhận xét 1: TS. LÊ THANH VÂN Cán bộ chấm nhận xét 2: TS. NGUYỄN LƯU THÙY NGÂN Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG TP.HCM ngày 02 tháng 8 năm 2021. Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1. Chủ tịch hội đồng: TS. NGUYỄN ĐỨC DŨNG 2. Thư ký hội đồng: NGUYỄN TIẾN THỊNH 3. Phản biện 1: TS. LÊ THANH VÂN 4. Phản biện 2: TS. NGUYỄN LƯU THÙY NGÂN 5. Ủy viên: TS. LÊ ANH CƯỜNG Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có). CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC & KĨ THUẬT MÁY TÍNH ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc _______________________ _______________________ NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phạm Phương Uyên MSHV: 1770322 Ngày, tháng, năm sinh: 26/02/1994 Nơi sinh: Đồng Nai Chuyên ngành: Khoa học Máy tính Mã số: 60.48.01.01 I. TÊN ĐỀ TÀI: Phân tích cảm xúc hướng khía cạnh cho các bình luận Việt ngữ / Aspect-based sentiment analysis for Vietnamese comments II. NHIỆM VỤ VÀ NỘI DUNG: Tiếp cận bài toán phân tích cảm xúc hướng khía cạnh (Aspect Base Sentiment Analysis ABSA) với dữ liệu chữ viết tiếng Việt từ mạng xã hội bằng phương pháp sử dụng mô hình đào tạo trước hiện đại để giải quyết các nhiệm vụ con liên quan. Thử nghiệm phương pháp trên dữ liệu thực. So sánh và đánh giá các giải pháp. III. NGÀY GIAO NHIỆM VỤ: 22/02/2021 IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 13/6/2021 V. CÁN BỘ HƯỚNG DẪN: PGS. TS. Quản Thành Thơ Tp. HCM, ngày 16 tháng 07 năm 2021 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên và chữ ký) (Họ tên và chữ ký) TRƯỞNG KHOA KHOA HỌC & KĨ THUẬT MÁY TÍNH (Họ tên và chữ ký) Lời cảm ơn Xin gửi lời cảm ơn đến thầy hướng dẫn của tôi, PGS. TS. Quản Thành Thơ vì đã cho tôi những trải nghiệm tri thức sâu sắc trong quá trình thực hiện luận văn. Xin cảm ơn những kinh nghiệm, kiến thức cùng những ý tưởng tuyệt vời mà thầy đem đến cho các học trò của thầy. Những giờ thảo luận cùng các anh chị, các bạn mà thầy chủ nhiệm đã giúp tôi từng bước tiếp nhận nhiều kiến thức quý báu cùng những kinh nghiệm học tập và nghiên cứu, làm hành trang cho tôi thực hiện luận văn này. Xin chân thành cảm ơn các thầy cô trong khoa Khoa học và Kỹ thuật Máy tính, cùng đội ngũ giảng viên và nhân viên của trường Đại học Bách Khoa - ĐHQG TP.HCM đã tận tình giảng dạy, hỗ trợ tôi trong thời gian theo học tại trường, theo cách này hay cách khác. Xin gửi lòng biết ơn sâu sắc đến những người thân của tôi, cha mẹ, người bạn đời và con gái đã là động lực to lớn và hỗ trợ tôi cả về vật chất và tinh thần, đồng hành và tạo điều kiện cho tôi trong suốt quá trình học tập và nghiên cứu, để tôi có thể hoàn thiện luận văn cuối cùng. Với năng lực và kiến thức có hạn, luận văn này chắc chắn không tránh khỏi những sai thiếu, rất mong nhận được những ý kiến đóng góp của các thầy cô trong hội đồng đánh giá và phản biện. Xin được lắng nghe và chân thành cảm ơn. TP. Hồ Chí Minh, ngày 16 tháng 7 năm 2021 v Tóm tắt nội dung Trong phạm vi của luận văn, tôi đề xuất, hiện thực và thử nghiệm một giải pháp khả dụng cho bài toán Phân tích cảm xúc hướng khía cạnh cho dữ liệu mạng xã hội và bình luận Việt ngữ. Bài toán đã được nghiên cứu rộng rãi trên thế giới với dữ liệu Anh ngữ trong khi với tiếng Việt, các nghiên cứu vẫn còn hạn chế. Một số mô hình tân tiến mới được nghiên cứu những năm gần đây cùng với phương pháp học chuyển giao đã mở ra một tiềm năng to lớn cho các các nhiệm vụ xử lý ngôn ngữ tiếng Việt tự nhiên, đặc biệt là các nghiên cứu có tính ứng dụng thực tiễn. Dựa trên mô hình ngôn ngữ BERT, tôi tiếp cận bài toán cho dữ liệu bình luận tiếng Việt bằng cách giải quyết hai nhiệm vụ con Nhận diện khía cạnh và Phân loại cảm xúc liên quan khía cạnh theo phương pháp tinh chỉnh có giám sát mô hình đào tạo trước. Các kết quả thực nghiệm cho thấy giải pháp đề xuất đạt được những hiệu quả khả quan trên cả hai nhiệm vụ con, đặc biệt là nhiệm vụ Phân loại cảm xúc liên quan khía cạnh vốn đã tốn không ít nỗ lực nghiên cứu. vi Abstract Aspect-Based Sentiment Analysis (ABSA) has elevated its importance to many applications in data-centric strategies, where real-life data from assessments can be leveraged to create value for businesses and customers. ABSA has been widely studied around the world with English datasets while Vietnamese works are rather limited in both quantity and quality. Recently, deep transfer learning in the form of pretrained language models has become ubiquitous in NLP and has contributed to the state-of-the-art on a wide range of tasks. In this work, I first introduce a dataset which labels are assigned manually by our contributors and then automatically revised by machine, then I perform some post-training approaches to solve two subtasks of ABSA - the Aspect Recognition (AR) subtask and the Aspect-Targeted Sentiment Classification (ATSC) subtask - by leveraging novel model BERT pre-trained for Vietnamese. I attempt, within the scope of this thesis, to propose, implement and evaluate a possible solution for the ABSA problem in Vietnamese comment textual data of social networks. Experimental results demonstrate that the proposed approach is highly effective in both subtasks, especially the ATSC task which has been involved in a lot of research efforts. vii Lời cam kết của tác giả Tôi, người ký tên tại đây, xin cam đoan rằng luận văn với đề tài “Phân tích cảm xúc hướng khía cạnh cho dữ liệu mạng xã hội Việt ngữ” bao gồm toàn bộ công trình và kết quả được trình bày trong văn bản này là của cá nhân tôi, và đảm bảo: toàn bộ công việc này được tôi thực hiện trong khuôn khổ chương trình đào tạo thạc sĩ hướng ứng dụng tại khoa Khoa học và Kỹ thuật Máy tính, trường Đại học Bách Khoa TP.HCM; các tài liệu tham khảo và trích dẫn sử dụng trong luận văn đều được dẫn nguồn đầy đủ. TP.HCM, ngày 16 tháng 7 năm 2021 Người viết Phạm Phương Uyên Mục lục 1 Giới thiệu 1 1.1 Lý do chọn đề tài và ý nghĩa thực tiễn . . . . . . . . . . . . . . . . . . . . . 2 1.2 Mô tả bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.2 Những khó khăn và thách thức . . . . . . . . . . . . . . . . . . . . . 5 1.2.3 Nhiệm vụ luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Cấu trúc luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3 2 Những nghiên cứu liên quan và cơ sở lý thuyết 9 2.1 Tình hình nghiên cứu trên thế giới . . . . . . . . . . . . . . . . . . . . . . . 10 2.2 Bài toán ABSA cho tiếng Việt Nam . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Về bài toán phân lớp đa nhãn . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3.1 Tổng quan về bài toán phân lớp đa nhãn . . . . . . . . . . . . . . . 13 2.3.2 Sử dụng mạng thần kinh cho bài toán phân loại đa lớp . . . . . . . 16 2.3.3 Một số vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.4 Phương pháp học chuyển giao sử dụng mô hình tiền huấn luyện . . . . . 20 2.5 Mô hình biến đổi chuỗi hiện đại Transformer . . . . . . . . . . . . . . . . . 22 2.5.1 Cơ chế chú-ý (Attention mechanism) . . . . . . . . . . . . . . . . . . 23 2.5.2 Mạng kết nối đầy đủ từng vị trí (Position-wise fully connected layers) 25 2.5.3 Lớp nhúng từ (Embedding) và Softmax . . . . . . . . . . . . . . . . 26 2.5.4 Mã hóa vị trí (Positional encoding) . . . . . . . . . . . . . . . . . . . 26 2.5.5 Những thành tựu nổi bật . . . . . . . . . . . . . . . . . . . . . . . . 26 Mô hình tiền huấn luyện BERT . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.6.1 28 2.6 Mô hình ngôn ngữ BERT . . . . . . . . . . . . . . . . . . . . . . . . viii Mục lục 2.7 3 Thực nghiệm và các kết quả đáng chú ý . . . . . . . . . . . . . . . . 31 2.6.3 Một số biến thể của BERT . . . . . . . . . . . . . . . . . . . . . . . . 32 2.6.4 phoBERT - Mô hình tiền huấn luyện BERT cho tiếng Việt . . . . . . 34 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 37 3.1 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.1.1 Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.2 Mô hình cơ sở . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.3 Giải pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.3.1 Phát hiện khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.3.2 Phân loại cảm xúc theo khía cạnh . . . . . . . . . . . . . . . . . . . 43 3.3.3 Phương pháp đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Cài đặt thí nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.4.1 Tạo các bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.4.2 Cài đặt huấn luyện cho bài toán con AR . . . . . . . . . . . . . . . . 46 3.4.3 Cài đặt huấn luyện cho bài toán con ATSC . . . . . . . . . . . . . . 47 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.5 Kết quả và Thảo luận 49 4.1 50 4.2 5 2.6.2 Dữ liệu và Giải pháp đề xuất 3.4 4 ix Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Kết quả thực nghiệm cho bài toán AR trên mô hình tinh chỉnh BERT 50 4.1.2 Kết quả thực nghiệm cho bài toán ATSC trên mô hình tinh chỉnh BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Kết luận 58 5.1 Kết quả đạt được . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.2 Các hạn chế và vấn đề tồn đọng . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.3 Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.4 Tổng kết luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Tài liệu tham khảo 62 Phụ lục 66 Danh mục nhãn khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Tổng hợp và thống kê dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 Mục lục x Dữ liệu cho nhiệm vụ AR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 Dữ liệu cho nhiệm vụ ATSC . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Danh sách hình vẽ 1.1 Các nhiệm vụ con của bài toán ABSA . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1 Các phương pháp học chuyển giao và thích ứng miền . . . . . . . . . . . . . . 20 2.2 Kiến trúc mô hình Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.3 Đa-chú-ý là tổ hợp song song nhiều lớp tự chú-ý. . . . . . . . . . . . . . . . . . 24 2.4 Tiền huấn luyện mô hình BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.1 Phát hiện khía cạnh (AR) sử dụng mô hình tiền huấn luyện BERT . . . . . . . 42 3.2 Bộ phân loại đa nhãn sử dụng perceptron . . . . . . . . . . . . . . . . . . . . . 43 3.3 Phân loại cảm xúc theo khía cạnh (ATSC) sử dụng BERT . . . . . . . . . . . . 44 3.4 Kiến trúc hợp nhất 2 mô-đun cho bài toán ABSA . . . . . . . . . . . . . . . . . 45 1 Số lượng mẫu trong tập dữ liệu huấn luyện cho nhiệm vụ con ATSC . . . . . 74 2 Số lượng mẫu trong tập dữ liệu thẩm định cho nhiệm vụ con ATSC . . . . . . 74 3 Số lượng mẫu trong tập dữ liệu kiểm nghiệm cho nhiệm vụ con ATSC . . . . 75 xi Danh sách bảng 2.1 Ví dụ một tập dữ liệu đa nhãn . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2 Biến đổi dữ liệu theo cách 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3 Biến đổi dữ liệu theo cách 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.4 Biến đổi dữ liệu theo cách 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.5 4 bộ dữ liệu tương ứng với 4 nhóm chính được tạo ra theo cách 4 . . . . . . . . 15 4.1 Các số liệu đánh giá trung bình . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.2 Kết quả trên tập dữ liệu thẩm định các mô hình phát hiện khía cạnh trên từng nhãn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 52 Một số kết quả thực nghiệm trên mô-đun ATSC (1)-Các kết quả tốt; (2)-Các kết quả chưa tốt; (3)-Các kết quả rất tốt . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.4 Đánh giá mô-đun ATSC trên các tập dữ liệu . . . . . . . . . . . . . . . . . . . . 54 4.5 Một số suy luận chính xác của mô hình . . . . . . . . . . . . . . . . . . . . . . 54 4.6 Trường hợp này, ngay cả con người cũng khó xác định được nhãn đúng! . . . 55 4.7 Một số trường hợp mô hình suy luận hợp lý hơn nhãn thực . . . . . . . . . . . 55 4.8 Những trường hợp suy luận sai của mô hình . . . . . . . . . . . . . . . . . . . 55 1 Danh mục các khía cạnh cho sản phẩm sữa . . . . . . . . . . . . . . . . . . . . 67 2 Số lượng mẫu dữ liệu trong các bộ dữ liệu tương ứng với nhãn . . . . . . . . . 68 3 Số lượng mẫu dữ liệu trong các tập dữ liệu theo số nhãn có trong mỗi mẫu . 69 4 Mộ số mẫu dữ liệu minh họa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5 Số lượng mẫu trong các bộ dữ liệu nhãn nhị phân . . . . . . . . . . . . . . . . 73 6 Dữ liệu minh họa trong tập huấn luyện cho nhiệm vụ ATSC . . . . . . . . . . 74 7 Dữ liệu minh họa trong tập thẩm định cho nhiệm vụ ATSC . . . . . . . . . . . 75 8 Dữ liệu minh họa trong tập kiểm nghiệm cho nhiệm vụ ATSC . . . . . . . . . 76 xii Các từ viết tắt NLP Natural Language Processing ABSA Aspect-Based Sentiment Analysis AR Aspect Recognition ATSC Aspect-Targeted Sentiment Classification BERT Bidirectional Encoder Representations from Transformers TF-IDF Term Frequency — Inverse Document Frequency APC Aspect Polarity Classification ATE Aspect Term Extraction AEN Attention Encoder Networks MHA Multi-Head Attention CNN Convolution Neural Network LSTM Long Short-Term Memory SVM Support Vector Machine RNCRF Recursive Neural Conditional Random Fields xiii 1 Giới thiệu Bài toán Phân tích cảm xúc hướng khía cạnh với dữ mạng xã hội tiếng Việt không còn quá xa lạ đối với chúng ta, tuy nhiên khi triển khai thực tế, những khó khăn rất thông thường của bài toán này lại thường chiếm rất nhiều thời gian để giải quyết, và thường không được lưu tâm thỏa đáng, nên mặc dù đem lại nhiều lợi ích, nó vẫn chưa được sử dụng rộng rãi. Đó chính là lý do tôi chọn đề tài này cho luận văn thạc sĩ của mình. Phần này sẽ mô tả bài toán và những vấn đề liên quan, những khó khăn cũng như thách thức của bài toán khi triển khai trong ứng dụng thực tế một cách rõ ràng, rành mạch và đầy đủ, đồng thời cũng bao gồm phát biểu yêu cầu, nhiệm vụ của luận văn và làm rõ những nội dung công việc của đề tài này. 1 1.1. Lý do chọn đề tài và ý nghĩa thực tiễn 1.1 | Lý do chọn đề tài và ý nghĩa thực tiễn Từ cả quan điểm học thuật lẫn thương mại, phân tích cảm xúc càng ngày càng được coi là một nhiệm vụ quan trọng. Với sự phát triển của thương mại điện tử cùng các chiến dịch kinh doanh lấy khách hàng làm trung tâm, với sự ra đời và chuyển dịch của các doanh nghiệp theo định hướng dữ liệu, việc nắm bắt thị trường thông qua các quan điểm được bày tỏ một cách tự nhiên trở nên có giá trị lớn. Các phương pháp tiếp cận thô sơ đã từng cố gắng phát hiện thái cực cảm xúc tổng thể của một câu, đoạn văn hoặc của đoạn văn bản, không kể đến các thực thể được đề cập cũng như các khía cạnh của chúng. Đối mặt với sự đa dạng ngày càng tăng của dữ liệu hiện đại, nhiệm vụ phân tích cảm xúc có cân nhắc chủ thể và khía cạnh được đặt ra, nghiên cứu và ứng dụng rộng rãi. Phân tích trải nghiệm khách hàng và định vị sản phẩm là những hoạt động quan trọng bậc nhất của doanh nghiệp hiện nay. Phân tích dữ liệu mạng xã hội là một trong những kênh đo lường hiệu quả của doanh nghiệp trong quá trình xây dựng và phát triển, bởi vì dữ liệu mạng xã hội cho thấy cách mọi người nói về thương hiệu trên mạng xã hội. Không chỉ đơn giản là đếm và thống kê, bài toán phân tích cảm xúc (là một phần của bài toán hiểu ngôn ngữ tự nhiên) có nhiệm vụ là xem xét đến thái độ và ý kiến của người dùng, từ đó các doanh nghiệp có thể thấy được điểm mạnh, điểm yếu trong các dịch vụ và sản phẩm của mình, nhờ vậy có thể đưa ra các chiến lược quan trọng để đáp ứng được nhu cầu của thị trường trong các giai đoạn tiếp theo. Một khó khăn lớn trong phân tích dữ liệu chữ viết từ mạng xã hội là, các loại dữ liệu có độ hoàn chỉnh thấp, độ nhiễu cao ảnh hưởng đến việc phân tích và đòi hỏi các công tác tiền xử lý phức tạp hơn. Khó khăn thứ hai của nó là tính dàn trải của các mẫu dữ liệu. Nói một cách dễ hiểu, các bình luận từ mạng xã hôi như Facebook, Twitter,... thường đi liên tiếp nhau theo luồng và bị ngắt quãng, đan xen giữa các luồng khác nhau, nên việc trích xuất khía cạnh gặp khó khăn và thường cũng khó xác định được trạng thái cảm xúc đối với một khía cạnh cụ thể. Một vấn đề khác của loại dữ liệu này, đó là tính mất cân bằng. Những luồng trao đổi thường có nội dung rất dài dòng và phần lớn nội dung không liên quan đến sản phẩm chúng ta đang tìm hiểu. Tức là số lượng mẫu dữ liệu có nhãn (positive) chiếm tỉ lệ khá nhỏ trong tập mẫu. Đây lại chính là vấn đề về mất cân đối dữ liệu, một trong những yếu điểm của các mô hình học máy đã được nghiên cứu từ lâu. 2 1.1. Lý do chọn đề tài và ý nghĩa thực tiễn Việc phân tích cảm xúc hướng khía cạnh có rất nhiều ý nghĩa thực tiễn trong cuộc sống, đặc biệt là đối với các doanh nghiệp và các nhà cung cấp dịch vụ, sản phẩm. Vận dụng phân tích cảm xúc trong doanh nghiệp có thể mang đến tác dụng trong những hoạt động như: Quản trị thương hiệu: Các phân tích về động cơ đằng sau quyết định mua hàng của khách hàng, từ đó có các chiến lượng phù hợp làm tăng giá trị thương hiệu. Nắm bắt xu hướng: Phân tích các bình luận, hội thoại từ mạng xã hội giúp doanh nghiệp nhanh chóng nắm bắt đối tượng quan tâm của khách hàng qua từng thời điểm, giúp chỉnh sửa kịp thời bất cứ tiêu cực nào đồng thời phát huy tối đa thế mạnh của mình. Cải thiện văn hóa doanh nghiệp: dữ liệu từ mạng xã hội và các trang tin tức, việc làm có thể phản ánh chính xác thái độ, niềm tin và tình cảm của nhân sự đối với doanh nghiệp. Hiện nay, việc xây dựng văn hóa doanh nghiệp chính là cách tốt nhất để tăng năng suất cũng như mức độ trung thành của các nhân viên khi làm việc tại doanh nghiệp. Chăm sóc khách hàng: Các hoạt động tìm hiểu nhu cầu của khách hàng, tăng cường sự gắn kết và cải thiện các chiến lược thị trường đều bắt nguồn từ việc phân tích các thông tin trực tiếp từ khách hàng và những đánh giá của họ cho sản phẩm. 3 1.2. Mô tả bài toán 1.2 | Mô tả bài toán 1.2.1 | Phát biểu bài toán Bài toán ABSA là một bài toán đa nhiệm vụ. Có nhiều cách gọi tên khác nhau các bài toán con của bài toán này tùy theo quan điểm và cách tiếp cận của người nghiên cứu. Các bài toán con lại được chia theo 2 nhóm. Nhóm thứ nhất tập trung vào các khía cạnh và nhóm thứ hai tập trung vào phân loại cảm xúc. Hình 1.1 minh họa các nhiệm vụ con1 như sau của bài toán ABSA theo (author?) [1]: Hình 1.1: Các nhiệm vụ con của bài toán ABSA Trích xuất cụm từ khía cạnh (Aspect term extraction - ATE): Với một tập hợp các câu và các thực thể được xác định trước (ví dụ: nhà hàng), ta sẽ xác định các cụm từ khía cạnh có trong câu và trả về một danh sách chứa tất cả các cụm từ khía cạnh riêng biệt. Ví dụ, trong câu: “Mình thích nhân viên và cách phục vụ ở đây, nhưng đồ ăn không ngon’’ Thực thể ở đây là nhà hàng và các từ ngữ khía cạnh là “nhân viên”, “cách phục vụ” và “đồ ăn”. Phân cực cảm xúc cho khía cạnh (Aspect term polarity - ATP): Đối với một tập hợp 1 https://www.aclweb.org/portal/content/semeval-2014-task-4-aspect-based-sentiment-analysis 4 1.2. Mô tả bài toán các thuật ngữ khía cạnh trong câu, ta cần xác định xem thái độ đối với các cụm từ khía cạnh đó là tích cực, tiêu cực hay trung tính. Đôi khi có thể có cả xung đột, tức là cả tích cực và tiêu cực. Ví dụ: cũng với câu bình luận như trên, cảm xúc cho khía cạnh nhân viên và cách phục vụ là tích cực, trong khi ở khía cạnh đồ ăn thì tiêu cực. Phát hiện loại khía cạnh (Aspect category detection - ACD, Aspect Recognition AR): Với một tập hợp các danh mục khía cạnh được xác định trước (ví dụ: giá cả, thực phẩm), mục tiêu là xác định các danh mục khía cạnh được thảo luận trong một câu nhất định. Các loại khía cạnh thường thô hơn so với các thuật ngữ khía cạnh của Nhiệm vụ con 1 và chúng không nhất thiết xuất hiện như các thuật ngữ trong câu đã cho. Ví dụ: Cho danh mục đã định nghĩa trước là {Khẩu vị, Dịch vụ, Giá cả} và câu: “Chỗ này mắc nhưng ngon”, cần xác định được danh mục nhắc đến là Khẩu vị vàGiá cả. Phân cực cảm xúc cho danh mục khía cạnh (Aspect category polarity - ACP): Với các danh mục định nghĩa sẵn như bài toán con 3, ta xác định phân cực cảm xúc tương ứng với từng danh mục khía cạnh (nếu có). Ví dụ, cũng với câu: “Chỗ này mắc nhưng ngon”, Ta có phân loại cảm xúc theo danh mục khía cạnh như sau: Giá cả: Tiêu cực, Khẩu vị: Tích cực 1.2.2 | Những khó khăn và thách thức Nội dung “Phân tích cảm xúc hướng khía cạnh cho dữ liệu mạng xã hội tiếng Việt” đã phát biểu lên những thách thức dễ thấy ở những điểm sau: (1) Cảm xúc hướng khía cạnh (2) Dữ liệu mạng xã hội (3) Dữ liệu tiếng Việt Với (1) ta có thể thấy, khó khăn ở việc cần xác định được nhiều loại khía cạnh trong 5 1.2. Mô tả bài toán một câu bình luận, nhiều loại cảm xúc khác nhau, thậm chí trái ngược nhau và phải liên kết được thái độ của người viết với khía cạnh tương ứng. Bởi vì chúng ta cần làm việc với dữ liệu mạng xã hội nên mặc dù là dữ liệu chữ viết, chúng thường mang phong cách của văn nói, dẫn đến nhiều sự nhập nhằng trong ngôn từ. Các loại nhập nhằng có thể được kể đến như sau: Có nhiều đánh giá khác nhau cho cùng một khía cạnh. Ví dụ: “Nhân viên thân thiện nhưng hơi chậm” Ta chỉ có 1 khía cạnh nhưng lại được đánh giá bởi 2 thái cực trái ngược nhau hoàn toàn (thân thiện-tích cực, chậm-tiêu cực). Khía cạnh có xuất hiện trong câu bình luận nhưng lại không có một từ khía cạnh (aspect term) cụ thể nào. Ví dụ: “Đồ ăn vừa ngon vừa rẻ” Ở đây, người bình luận có đề cập tới khía cạnh Giá cả nhưng chỉ dùng từ ngữ thể hiện thái độ (polarity expression) là rẻ với hàm ý tích cực. Từ khía cạnh và từ thái độ hoàn toàn không liên quan với nhau, ví dụ: “Đồ ăn ở đây rẻ lắm” Ở đây người bình luận nhắc tới đồ ăn, là một từ khía cạnh, nhưng lại không hề thể hiện cảm nhận của mình về mùi vị đồ ăn, mà lại thể hiện sự cảm thán về giá cả, vốn không hề xuất hiện từ ngữ khía cạnh nào liên quan. So sánh không tường minh, ví dụ: “Chất lượng không tương xứng với giá cả” Với khả năng hiểu ngôn ngữ của con người, ta hoàn toàn hiểu rằng đối với chủ thể bình luận, 2 khía cạnh là Chất lượng và Giá cả đều được nhắc đến với thái độ tiêu cực. Tuy nhiên ở đây không xuất hiện từ ngữ cảm xúc nào, chỉ có sự so sánh giữa 2 khía cạnh. Với (2), ta có thể thấy những khó khăn ở việc dữ liệu có rất nhiều nhiễu, các câu không liên quan chủ đề trong một cuộc hội thoại, các từ viết sai chính tả, tiếng lóng, tiếng bồi, ... Bên cạnh đó, dữ liệu trong cuộc hội thoại có tính chất liên tiếp, câu này tiếp theo câu khác trong những đề tài lồng ghép, dẫn đến rất khó nắm bắt được đúng đối tượng mà những người nói đang nhắc tới tại một vị trí cụ thể trong hội thoại. Khó khăn thứ (3) là ở chính bản thân ngôn ngữ Việt Nam của chúng ta. Về cơ bản, ngôn ngữ Việt vẫn còn gặp khó khăn nhiều trong NLP bởi đặc trưng là khó về ngữ pháp, 6 1.2. Mô tả bài toán từ vụng và cả cách viết 1 từ có nhiều âm tiết. Bên cạnh đó, dữ liệu tiếng Việt cũng không dồi dào để phục vụ cho nghiên cứu. 1.2.3 | Nhiệm vụ luận văn Luận văn này sẽ giải quyết các vấn đề sau trong bài toán phân tích cảm xúc hướng khía cạnh cho dữ liệu mạng xã hội tiếng Việt: Thu thập, trích xuất, gán nhãn và tổng hợp dữ liệu từ mạng xã hội liên quan tới một thực thể nhất định, ở đây là sản phẩm sữa bột cho trẻ em. Xây dựng quy trình tiền xử lý bao gồm chọn lọc, trích xuất và chuẩn hóa dữ liệu sẵn sàng đưa vào phân tích. Xây dựng bộ dữ liệu huấn luyện, bộ dữ liệu thẩm định và bộ dữ liệu kiểm nghiệm từ dữ liệu thực tế. Thử nghiệm và so sánh các mô hình vận dụng mô hình tiền huấn luyện trên các bài toán con. Tổng kết và đề xuất các giải pháp triển khai ứng dụng thực tế và các khả năng mở rộng cho các bài toán tương tự. 7

- Xem thêm -

Tài liệu Phân tích cảm xúc hướng khía cạnh cho các bình luận việt ngữ

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất