ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
——————– * ———————
PHẠM PHƯƠNG UYÊN
PHÂN TÍCH CẢM XÚC HƯỚNG KHÍA CẠNH
CHO CÁC BÌNH LUẬN VIỆT NGỮ
Chuyên ngành:
Khoa Học Máy Tính
Mã số:
60.48.01.01
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 8 năm 2021
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG TP.HCM
Cán bộ hướng dẫn khoa học: PGS. TS. QUẢN THÀNH THƠ
Cán bộ chấm nhận xét 1: TS. LÊ THANH VÂN
Cán bộ chấm nhận xét 2: TS. NGUYỄN LƯU THÙY NGÂN
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG TP.HCM ngày 02
tháng 8 năm 2021.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. Chủ tịch hội đồng: TS. NGUYỄN ĐỨC DŨNG
2. Thư ký hội đồng: NGUYỄN TIẾN THỊNH
3. Phản biện 1: TS. LÊ THANH VÂN
4. Phản biện 2: TS. NGUYỄN LƯU THÙY NGÂN
5. Ủy viên: TS. LÊ ANH CƯỜNG
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng khoa quản lý chuyên ngành sau
khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA
KHOA HỌC & KĨ THUẬT MÁY TÍNH
ĐẠI HỌC QUỐC GIA TP.HCM
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Độc lập - Tự do - Hạnh phúc
_______________________
_______________________
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Phạm Phương Uyên
MSHV: 1770322
Ngày, tháng, năm sinh: 26/02/1994
Nơi sinh: Đồng Nai
Chuyên ngành: Khoa học Máy tính
Mã số: 60.48.01.01
I. TÊN ĐỀ TÀI:
Phân tích cảm xúc hướng khía cạnh cho các bình luận Việt ngữ / Aspect-based sentiment analysis for Vietnamese comments
II. NHIỆM VỤ VÀ NỘI DUNG:
Tiếp cận bài toán phân tích cảm xúc hướng khía cạnh (Aspect Base Sentiment Analysis ABSA) với dữ liệu chữ viết tiếng Việt từ mạng xã hội bằng phương pháp sử dụng mô hình
đào tạo trước hiện đại để giải quyết các nhiệm vụ con liên quan. Thử nghiệm phương
pháp trên dữ liệu thực. So sánh và đánh giá các giải pháp.
III. NGÀY GIAO NHIỆM VỤ: 22/02/2021
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 13/6/2021
V. CÁN BỘ HƯỚNG DẪN: PGS. TS. Quản Thành Thơ
Tp. HCM, ngày 16 tháng 07 năm 2021
CÁN BỘ HƯỚNG DẪN
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
(Họ tên và chữ ký)
TRƯỞNG KHOA KHOA HỌC & KĨ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
Lời cảm ơn
Xin gửi lời cảm ơn đến thầy hướng dẫn của tôi, PGS. TS. Quản Thành Thơ vì
đã cho tôi những trải nghiệm tri thức sâu sắc trong quá trình thực hiện luận văn. Xin
cảm ơn những kinh nghiệm, kiến thức cùng những ý tưởng tuyệt vời mà thầy đem
đến cho các học trò của thầy. Những giờ thảo luận cùng các anh chị, các bạn mà thầy
chủ nhiệm đã giúp tôi từng bước tiếp nhận nhiều kiến thức quý báu cùng những
kinh nghiệm học tập và nghiên cứu, làm hành trang cho tôi thực hiện luận văn này.
Xin chân thành cảm ơn các thầy cô trong khoa Khoa học và Kỹ thuật Máy tính,
cùng đội ngũ giảng viên và nhân viên của trường Đại học Bách Khoa - ĐHQG
TP.HCM đã tận tình giảng dạy, hỗ trợ tôi trong thời gian theo học tại trường, theo
cách này hay cách khác.
Xin gửi lòng biết ơn sâu sắc đến những người thân của tôi, cha mẹ, người bạn
đời và con gái đã là động lực to lớn và hỗ trợ tôi cả về vật chất và tinh thần, đồng
hành và tạo điều kiện cho tôi trong suốt quá trình học tập và nghiên cứu, để tôi có
thể hoàn thiện luận văn cuối cùng.
Với năng lực và kiến thức có hạn, luận văn này chắc chắn không tránh khỏi
những sai thiếu, rất mong nhận được những ý kiến đóng góp của các thầy cô trong
hội đồng đánh giá và phản biện. Xin được lắng nghe và chân thành cảm ơn.
TP. Hồ Chí Minh, ngày 16 tháng 7 năm 2021
v
Tóm tắt nội dung
Trong phạm vi của luận văn, tôi đề xuất, hiện thực và thử nghiệm một giải pháp
khả dụng cho bài toán Phân tích cảm xúc hướng khía cạnh cho dữ liệu mạng xã hội
và bình luận Việt ngữ. Bài toán đã được nghiên cứu rộng rãi trên thế giới với dữ liệu
Anh ngữ trong khi với tiếng Việt, các nghiên cứu vẫn còn hạn chế. Một số mô hình
tân tiến mới được nghiên cứu những năm gần đây cùng với phương pháp học chuyển
giao đã mở ra một tiềm năng to lớn cho các các nhiệm vụ xử lý ngôn ngữ tiếng Việt
tự nhiên, đặc biệt là các nghiên cứu có tính ứng dụng thực tiễn. Dựa trên mô hình
ngôn ngữ BERT, tôi tiếp cận bài toán cho dữ liệu bình luận tiếng Việt bằng cách giải
quyết hai nhiệm vụ con Nhận diện khía cạnh và Phân loại cảm xúc liên quan khía
cạnh theo phương pháp tinh chỉnh có giám sát mô hình đào tạo trước. Các kết quả
thực nghiệm cho thấy giải pháp đề xuất đạt được những hiệu quả khả quan trên cả
hai nhiệm vụ con, đặc biệt là nhiệm vụ Phân loại cảm xúc liên quan khía cạnh vốn
đã tốn không ít nỗ lực nghiên cứu.
vi
Abstract
Aspect-Based Sentiment Analysis (ABSA) has elevated its importance to many
applications in data-centric strategies, where real-life data from assessments can be
leveraged to create value for businesses and customers. ABSA has been widely studied around the world with English datasets while Vietnamese works are rather limited in both quantity and quality. Recently, deep transfer learning in the form of pretrained language models has become ubiquitous in NLP and has contributed to the
state-of-the-art on a wide range of tasks. In this work, I first introduce a dataset which
labels are assigned manually by our contributors and then automatically revised by
machine, then I perform some post-training approaches to solve two subtasks of
ABSA - the Aspect Recognition (AR) subtask and the Aspect-Targeted Sentiment
Classification (ATSC) subtask - by leveraging novel model BERT pre-trained for Vietnamese. I attempt, within the scope of this thesis, to propose, implement and evaluate a possible solution for the ABSA problem in Vietnamese comment textual data
of social networks. Experimental results demonstrate that the proposed approach is
highly effective in both subtasks, especially the ATSC task which has been involved
in a lot of research efforts.
vii
Lời cam kết của tác giả
Tôi, người ký tên tại đây, xin cam đoan rằng luận văn với đề tài “Phân tích cảm xúc hướng
khía cạnh cho dữ liệu mạng xã hội Việt ngữ” bao gồm toàn bộ công trình và kết quả được
trình bày trong văn bản này là của cá nhân tôi, và đảm bảo: toàn bộ công việc này được tôi
thực hiện trong khuôn khổ chương trình đào tạo thạc sĩ hướng ứng dụng tại khoa Khoa học và Kỹ
thuật Máy tính, trường Đại học Bách Khoa TP.HCM; các tài liệu tham khảo và trích dẫn sử dụng
trong luận văn đều được dẫn nguồn đầy đủ.
TP.HCM, ngày 16 tháng 7 năm 2021
Người viết
Phạm Phương Uyên
Mục lục
1
Giới thiệu
1
1.1
Lý do chọn đề tài và ý nghĩa thực tiễn . . . . . . . . . . . . . . . . . . . . .
2
1.2
Mô tả bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.2.1
Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.2.2
Những khó khăn và thách thức . . . . . . . . . . . . . . . . . . . . .
5
1.2.3
Nhiệm vụ luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
Cấu trúc luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.3
2
Những nghiên cứu liên quan và cơ sở lý thuyết
9
2.1
Tình hình nghiên cứu trên thế giới . . . . . . . . . . . . . . . . . . . . . . .
10
2.2
Bài toán ABSA cho tiếng Việt Nam . . . . . . . . . . . . . . . . . . . . . . .
12
2.3
Về bài toán phân lớp đa nhãn . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.3.1
Tổng quan về bài toán phân lớp đa nhãn . . . . . . . . . . . . . . .
13
2.3.2
Sử dụng mạng thần kinh cho bài toán phân loại đa lớp . . . . . . .
16
2.3.3
Một số vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.4
Phương pháp học chuyển giao sử dụng mô hình tiền huấn luyện . . . . .
20
2.5
Mô hình biến đổi chuỗi hiện đại Transformer . . . . . . . . . . . . . . . . .
22
2.5.1
Cơ chế chú-ý (Attention mechanism) . . . . . . . . . . . . . . . . . .
23
2.5.2
Mạng kết nối đầy đủ từng vị trí (Position-wise fully connected layers) 25
2.5.3
Lớp nhúng từ (Embedding) và Softmax . . . . . . . . . . . . . . . .
26
2.5.4
Mã hóa vị trí (Positional encoding) . . . . . . . . . . . . . . . . . . .
26
2.5.5
Những thành tựu nổi bật . . . . . . . . . . . . . . . . . . . . . . . .
26
Mô hình tiền huấn luyện BERT . . . . . . . . . . . . . . . . . . . . . . . . .
28
2.6.1
28
2.6
Mô hình ngôn ngữ BERT . . . . . . . . . . . . . . . . . . . . . . . .
viii
Mục lục
2.7
3
Thực nghiệm và các kết quả đáng chú ý . . . . . . . . . . . . . . . .
31
2.6.3
Một số biến thể của BERT . . . . . . . . . . . . . . . . . . . . . . . .
32
2.6.4
phoBERT - Mô hình tiền huấn luyện BERT cho tiếng Việt . . . . . .
34
Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
37
3.1
Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
3.1.1
Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
3.2
Mô hình cơ sở . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
3.3
Giải pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
3.3.1
Phát hiện khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
3.3.2
Phân loại cảm xúc theo khía cạnh . . . . . . . . . . . . . . . . . . .
43
3.3.3
Phương pháp đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . .
45
Cài đặt thí nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
3.4.1
Tạo các bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
3.4.2
Cài đặt huấn luyện cho bài toán con AR . . . . . . . . . . . . . . . .
46
3.4.3
Cài đặt huấn luyện cho bài toán con ATSC . . . . . . . . . . . . . .
47
Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
3.5
Kết quả và Thảo luận
49
4.1
50
4.2
5
2.6.2
Dữ liệu và Giải pháp đề xuất
3.4
4
ix
Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1
Kết quả thực nghiệm cho bài toán AR trên mô hình tinh chỉnh BERT 50
4.1.2
Kết quả thực nghiệm cho bài toán ATSC trên mô hình tinh chỉnh
BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
Kết luận
58
5.1
Kết quả đạt được . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.2
Các hạn chế và vấn đề tồn đọng . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.3
Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
5.4
Tổng kết luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
Tài liệu tham khảo
62
Phụ lục
66
Danh mục nhãn khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
Tổng hợp và thống kê dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
Mục lục
x
Dữ liệu cho nhiệm vụ AR . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
Dữ liệu cho nhiệm vụ ATSC . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
Danh sách hình vẽ
1.1
Các nhiệm vụ con của bài toán ABSA . . . . . . . . . . . . . . . . . . . . . . . .
4
2.1
Các phương pháp học chuyển giao và thích ứng miền . . . . . . . . . . . . . .
20
2.2
Kiến trúc mô hình Transformer . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.3
Đa-chú-ý là tổ hợp song song nhiều lớp tự chú-ý. . . . . . . . . . . . . . . . . .
24
2.4
Tiền huấn luyện mô hình BERT . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
3.1
Phát hiện khía cạnh (AR) sử dụng mô hình tiền huấn luyện BERT . . . . . . .
42
3.2
Bộ phân loại đa nhãn sử dụng perceptron . . . . . . . . . . . . . . . . . . . . .
43
3.3
Phân loại cảm xúc theo khía cạnh (ATSC) sử dụng BERT . . . . . . . . . . . .
44
3.4
Kiến trúc hợp nhất 2 mô-đun cho bài toán ABSA . . . . . . . . . . . . . . . . .
45
1
Số lượng mẫu trong tập dữ liệu huấn luyện cho nhiệm vụ con ATSC . . . . .
74
2
Số lượng mẫu trong tập dữ liệu thẩm định cho nhiệm vụ con ATSC . . . . . .
74
3
Số lượng mẫu trong tập dữ liệu kiểm nghiệm cho nhiệm vụ con ATSC . . . .
75
xi
Danh sách bảng
2.1
Ví dụ một tập dữ liệu đa nhãn . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.2
Biến đổi dữ liệu theo cách 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.3
Biến đổi dữ liệu theo cách 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
2.4
Biến đổi dữ liệu theo cách 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.5
4 bộ dữ liệu tương ứng với 4 nhóm chính được tạo ra theo cách 4 . . . . . . . .
15
4.1
Các số liệu đánh giá trung bình . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
4.2
Kết quả trên tập dữ liệu thẩm định các mô hình phát hiện khía cạnh trên từng
nhãn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3
52
Một số kết quả thực nghiệm trên mô-đun ATSC (1)-Các kết quả tốt; (2)-Các kết
quả chưa tốt; (3)-Các kết quả rất tốt . . . . . . . . . . . . . . . . . . . . . . . . . .
53
4.4
Đánh giá mô-đun ATSC trên các tập dữ liệu . . . . . . . . . . . . . . . . . . . .
54
4.5
Một số suy luận chính xác của mô hình . . . . . . . . . . . . . . . . . . . . . .
54
4.6
Trường hợp này, ngay cả con người cũng khó xác định được nhãn đúng! . . .
55
4.7
Một số trường hợp mô hình suy luận hợp lý hơn nhãn thực . . . . . . . . . . .
55
4.8
Những trường hợp suy luận sai của mô hình . . . . . . . . . . . . . . . . . . .
55
1
Danh mục các khía cạnh cho sản phẩm sữa . . . . . . . . . . . . . . . . . . . .
67
2
Số lượng mẫu dữ liệu trong các bộ dữ liệu tương ứng với nhãn . . . . . . . . .
68
3
Số lượng mẫu dữ liệu trong các tập dữ liệu theo số nhãn có trong mỗi mẫu .
69
4
Mộ số mẫu dữ liệu minh họa . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
5
Số lượng mẫu trong các bộ dữ liệu nhãn nhị phân . . . . . . . . . . . . . . . .
73
6
Dữ liệu minh họa trong tập huấn luyện cho nhiệm vụ ATSC . . . . . . . . . .
74
7
Dữ liệu minh họa trong tập thẩm định cho nhiệm vụ ATSC . . . . . . . . . . .
75
8
Dữ liệu minh họa trong tập kiểm nghiệm cho nhiệm vụ ATSC . . . . . . . . .
76
xii
Các từ viết tắt
NLP Natural Language Processing
ABSA Aspect-Based Sentiment Analysis
AR Aspect Recognition
ATSC Aspect-Targeted Sentiment Classification
BERT Bidirectional Encoder Representations from Transformers
TF-IDF Term Frequency — Inverse Document Frequency
APC Aspect Polarity Classification
ATE Aspect Term Extraction
AEN Attention Encoder Networks
MHA Multi-Head Attention
CNN Convolution Neural Network
LSTM Long Short-Term Memory
SVM Support Vector Machine
RNCRF Recursive Neural Conditional Random Fields
xiii
1
Giới thiệu
Bài toán Phân tích cảm xúc hướng khía cạnh với dữ mạng xã hội tiếng Việt không
còn quá xa lạ đối với chúng ta, tuy nhiên khi triển khai thực tế, những khó khăn rất
thông thường của bài toán này lại thường chiếm rất nhiều thời gian để giải quyết, và
thường không được lưu tâm thỏa đáng, nên mặc dù đem lại nhiều lợi ích, nó vẫn chưa
được sử dụng rộng rãi. Đó chính là lý do tôi chọn đề tài này cho luận văn thạc sĩ của
mình. Phần này sẽ mô tả bài toán và những vấn đề liên quan, những khó khăn cũng
như thách thức của bài toán khi triển khai trong ứng dụng thực tế một cách rõ ràng,
rành mạch và đầy đủ, đồng thời cũng bao gồm phát biểu yêu cầu, nhiệm vụ của luận
văn và làm rõ những nội dung công việc của đề tài này.
1
1.1. Lý do chọn đề tài và ý nghĩa thực tiễn
1.1 | Lý do chọn đề tài và ý nghĩa thực tiễn
Từ cả quan điểm học thuật lẫn thương mại, phân tích cảm xúc càng ngày càng được
coi là một nhiệm vụ quan trọng. Với sự phát triển của thương mại điện tử cùng các chiến
dịch kinh doanh lấy khách hàng làm trung tâm, với sự ra đời và chuyển dịch của các
doanh nghiệp theo định hướng dữ liệu, việc nắm bắt thị trường thông qua các quan
điểm được bày tỏ một cách tự nhiên trở nên có giá trị lớn. Các phương pháp tiếp cận thô
sơ đã từng cố gắng phát hiện thái cực cảm xúc tổng thể của một câu, đoạn văn hoặc của
đoạn văn bản, không kể đến các thực thể được đề cập cũng như các khía cạnh của chúng.
Đối mặt với sự đa dạng ngày càng tăng của dữ liệu hiện đại, nhiệm vụ phân tích cảm xúc
có cân nhắc chủ thể và khía cạnh được đặt ra, nghiên cứu và ứng dụng rộng rãi.
Phân tích trải nghiệm khách hàng và định vị sản phẩm là những hoạt động quan
trọng bậc nhất của doanh nghiệp hiện nay. Phân tích dữ liệu mạng xã hội là một trong
những kênh đo lường hiệu quả của doanh nghiệp trong quá trình xây dựng và phát triển,
bởi vì dữ liệu mạng xã hội cho thấy cách mọi người nói về thương hiệu trên mạng xã hội.
Không chỉ đơn giản là đếm và thống kê, bài toán phân tích cảm xúc (là một phần của bài
toán hiểu ngôn ngữ tự nhiên) có nhiệm vụ là xem xét đến thái độ và ý kiến của người
dùng, từ đó các doanh nghiệp có thể thấy được điểm mạnh, điểm yếu trong các dịch vụ
và sản phẩm của mình, nhờ vậy có thể đưa ra các chiến lược quan trọng để đáp ứng được
nhu cầu của thị trường trong các giai đoạn tiếp theo.
Một khó khăn lớn trong phân tích dữ liệu chữ viết từ mạng xã hội là, các loại dữ liệu
có độ hoàn chỉnh thấp, độ nhiễu cao ảnh hưởng đến việc phân tích và đòi hỏi các công
tác tiền xử lý phức tạp hơn.
Khó khăn thứ hai của nó là tính dàn trải của các mẫu dữ liệu. Nói một cách dễ hiểu,
các bình luận từ mạng xã hôi như Facebook, Twitter,... thường đi liên tiếp nhau theo
luồng và bị ngắt quãng, đan xen giữa các luồng khác nhau, nên việc trích xuất khía cạnh
gặp khó khăn và thường cũng khó xác định được trạng thái cảm xúc đối với một khía
cạnh cụ thể.
Một vấn đề khác của loại dữ liệu này, đó là tính mất cân bằng. Những luồng trao đổi
thường có nội dung rất dài dòng và phần lớn nội dung không liên quan đến sản phẩm
chúng ta đang tìm hiểu. Tức là số lượng mẫu dữ liệu có nhãn (positive) chiếm tỉ lệ khá
nhỏ trong tập mẫu. Đây lại chính là vấn đề về mất cân đối dữ liệu, một trong những yếu
điểm của các mô hình học máy đã được nghiên cứu từ lâu.
2
1.1. Lý do chọn đề tài và ý nghĩa thực tiễn
Việc phân tích cảm xúc hướng khía cạnh có rất nhiều ý nghĩa thực tiễn trong cuộc
sống, đặc biệt là đối với các doanh nghiệp và các nhà cung cấp dịch vụ, sản phẩm. Vận
dụng phân tích cảm xúc trong doanh nghiệp có thể mang đến tác dụng trong những hoạt
động như:
Quản trị thương hiệu: Các phân tích về động cơ đằng sau quyết định mua hàng của
khách hàng, từ đó có các chiến lượng phù hợp làm tăng giá trị thương hiệu.
Nắm bắt xu hướng: Phân tích các bình luận, hội thoại từ mạng xã hội giúp doanh
nghiệp nhanh chóng nắm bắt đối tượng quan tâm của khách hàng qua từng thời
điểm, giúp chỉnh sửa kịp thời bất cứ tiêu cực nào đồng thời phát huy tối đa thế
mạnh của mình.
Cải thiện văn hóa doanh nghiệp: dữ liệu từ mạng xã hội và các trang tin tức, việc
làm có thể phản ánh chính xác thái độ, niềm tin và tình cảm của nhân sự đối với
doanh nghiệp. Hiện nay, việc xây dựng văn hóa doanh nghiệp chính là cách tốt
nhất để tăng năng suất cũng như mức độ trung thành của các nhân viên khi làm
việc tại doanh nghiệp.
Chăm sóc khách hàng: Các hoạt động tìm hiểu nhu cầu của khách hàng, tăng cường
sự gắn kết và cải thiện các chiến lược thị trường đều bắt nguồn từ việc phân tích
các thông tin trực tiếp từ khách hàng và những đánh giá của họ cho sản phẩm.
3
1.2. Mô tả bài toán
1.2 | Mô tả bài toán
1.2.1 | Phát biểu bài toán
Bài toán ABSA là một bài toán đa nhiệm vụ. Có nhiều cách gọi tên khác nhau các
bài toán con của bài toán này tùy theo quan điểm và cách tiếp cận của người nghiên cứu.
Các bài toán con lại được chia theo 2 nhóm. Nhóm thứ nhất tập trung vào các khía cạnh
và nhóm thứ hai tập trung vào phân loại cảm xúc. Hình 1.1 minh họa các nhiệm vụ con1
như sau của bài toán ABSA theo (author?) [1]:
Hình 1.1: Các nhiệm vụ con của bài toán ABSA
Trích xuất cụm từ khía cạnh (Aspect term extraction - ATE): Với một tập hợp các
câu và các thực thể được xác định trước (ví dụ: nhà hàng), ta sẽ xác định các cụm từ khía
cạnh có trong câu và trả về một danh sách chứa tất cả các cụm từ khía cạnh riêng biệt.
Ví dụ, trong câu:
“Mình thích nhân viên và cách phục vụ ở đây, nhưng đồ ăn không ngon’’
Thực thể ở đây là nhà hàng và các từ ngữ khía cạnh là “nhân viên”, “cách phục vụ” và
“đồ ăn”.
Phân cực cảm xúc cho khía cạnh (Aspect term polarity - ATP): Đối với một tập hợp
1 https://www.aclweb.org/portal/content/semeval-2014-task-4-aspect-based-sentiment-analysis
4
1.2. Mô tả bài toán
các thuật ngữ khía cạnh trong câu, ta cần xác định xem thái độ đối với các cụm từ khía
cạnh đó là tích cực, tiêu cực hay trung tính. Đôi khi có thể có cả xung đột, tức là cả tích
cực và tiêu cực.
Ví dụ: cũng với câu bình luận như trên, cảm xúc cho khía cạnh nhân viên và cách phục
vụ là tích cực, trong khi ở khía cạnh đồ ăn thì tiêu cực.
Phát hiện loại khía cạnh (Aspect category detection - ACD, Aspect Recognition AR): Với một tập hợp các danh mục khía cạnh được xác định trước (ví dụ: giá cả, thực
phẩm), mục tiêu là xác định các danh mục khía cạnh được thảo luận trong một câu nhất
định. Các loại khía cạnh thường thô hơn so với các thuật ngữ khía cạnh của Nhiệm vụ
con 1 và chúng không nhất thiết xuất hiện như các thuật ngữ trong câu đã cho.
Ví dụ: Cho danh mục đã định nghĩa trước là {Khẩu vị, Dịch vụ, Giá cả} và câu:
“Chỗ này mắc nhưng ngon”,
cần xác định được danh mục nhắc đến là Khẩu vị vàGiá cả.
Phân cực cảm xúc cho danh mục khía cạnh (Aspect category polarity - ACP): Với
các danh mục định nghĩa sẵn như bài toán con 3, ta xác định phân cực cảm xúc tương
ứng với từng danh mục khía cạnh (nếu có). Ví dụ, cũng với câu:
“Chỗ này mắc nhưng ngon”,
Ta có phân loại cảm xúc theo danh mục khía cạnh như sau: Giá cả: Tiêu cực, Khẩu
vị: Tích cực
1.2.2 | Những khó khăn và thách thức
Nội dung “Phân tích cảm xúc hướng khía cạnh cho dữ liệu mạng xã hội tiếng Việt”
đã phát biểu lên những thách thức dễ thấy ở những điểm sau:
(1) Cảm xúc hướng khía cạnh
(2) Dữ liệu mạng xã hội
(3) Dữ liệu tiếng Việt
Với (1) ta có thể thấy, khó khăn ở việc cần xác định được nhiều loại khía cạnh trong
5
1.2. Mô tả bài toán
một câu bình luận, nhiều loại cảm xúc khác nhau, thậm chí trái ngược nhau và phải liên
kết được thái độ của người viết với khía cạnh tương ứng. Bởi vì chúng ta cần làm việc với
dữ liệu mạng xã hội nên mặc dù là dữ liệu chữ viết, chúng thường mang phong cách của
văn nói, dẫn đến nhiều sự nhập nhằng trong ngôn từ. Các loại nhập nhằng có thể được
kể đến như sau:
Có nhiều đánh giá khác nhau cho cùng một khía cạnh.
Ví dụ: “Nhân viên thân thiện nhưng hơi chậm”
Ta chỉ có 1 khía cạnh nhưng lại được đánh giá bởi 2 thái cực trái ngược nhau hoàn
toàn (thân thiện-tích cực, chậm-tiêu cực).
Khía cạnh có xuất hiện trong câu bình luận nhưng lại không có một từ khía cạnh
(aspect term) cụ thể nào.
Ví dụ: “Đồ ăn vừa ngon vừa rẻ”
Ở đây, người bình luận có đề cập tới khía cạnh Giá cả nhưng chỉ dùng từ ngữ thể
hiện thái độ (polarity expression) là rẻ với hàm ý tích cực.
Từ khía cạnh và từ thái độ hoàn toàn không liên quan với nhau, ví dụ:
“Đồ ăn ở đây rẻ lắm”
Ở đây người bình luận nhắc tới đồ ăn, là một từ khía cạnh, nhưng lại không hề thể
hiện cảm nhận của mình về mùi vị đồ ăn, mà lại thể hiện sự cảm thán về giá cả, vốn
không hề xuất hiện từ ngữ khía cạnh nào liên quan.
So sánh không tường minh, ví dụ: “Chất lượng không tương xứng với giá cả”
Với khả năng hiểu ngôn ngữ của con người, ta hoàn toàn hiểu rằng đối với chủ thể
bình luận, 2 khía cạnh là Chất lượng và Giá cả đều được nhắc đến với thái độ tiêu
cực. Tuy nhiên ở đây không xuất hiện từ ngữ cảm xúc nào, chỉ có sự so sánh giữa 2
khía cạnh.
Với (2), ta có thể thấy những khó khăn ở việc dữ liệu có rất nhiều nhiễu, các câu
không liên quan chủ đề trong một cuộc hội thoại, các từ viết sai chính tả, tiếng lóng,
tiếng bồi, ... Bên cạnh đó, dữ liệu trong cuộc hội thoại có tính chất liên tiếp, câu này tiếp
theo câu khác trong những đề tài lồng ghép, dẫn đến rất khó nắm bắt được đúng đối
tượng mà những người nói đang nhắc tới tại một vị trí cụ thể trong hội thoại.
Khó khăn thứ (3) là ở chính bản thân ngôn ngữ Việt Nam của chúng ta. Về cơ bản,
ngôn ngữ Việt vẫn còn gặp khó khăn nhiều trong NLP bởi đặc trưng là khó về ngữ pháp,
6
1.2. Mô tả bài toán
từ vụng và cả cách viết 1 từ có nhiều âm tiết. Bên cạnh đó, dữ liệu tiếng Việt cũng không
dồi dào để phục vụ cho nghiên cứu.
1.2.3 | Nhiệm vụ luận văn
Luận văn này sẽ giải quyết các vấn đề sau trong bài toán phân tích cảm xúc hướng
khía cạnh cho dữ liệu mạng xã hội tiếng Việt:
Thu thập, trích xuất, gán nhãn và tổng hợp dữ liệu từ mạng xã hội liên quan tới
một thực thể nhất định, ở đây là sản phẩm sữa bột cho trẻ em.
Xây dựng quy trình tiền xử lý bao gồm chọn lọc, trích xuất và chuẩn hóa dữ liệu
sẵn sàng đưa vào phân tích.
Xây dựng bộ dữ liệu huấn luyện, bộ dữ liệu thẩm định và bộ dữ liệu kiểm nghiệm
từ dữ liệu thực tế.
Thử nghiệm và so sánh các mô hình vận dụng mô hình tiền huấn luyện trên các bài
toán con.
Tổng kết và đề xuất các giải pháp triển khai ứng dụng thực tế và các khả năng mở
rộng cho các bài toán tương tự.
7
- Xem thêm -