TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ
Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THÔNG TIN
DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC
Mã số:
Chuyên đề:
Phát biểu bài toán rút trích thông tin trên cơ sở
phân tích cảm xúc
Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc
Người chủ trì thực hiện chuyên đề : ThS.Nguyễn Tấn Lộc
Bình Dương, 08/01/2018
Mục lục
1. Đặt vấn đề .............................................................................................................................. 1
1.1 Phân tích cảm xúc là gì? ................................................................................................... 1
1.2 Các vấn đề khó khăn ......................................................................................................... 3
1.3 Tóm tắt lược sử nghiên cứu .............................................................................................. 4
2. Phương pháp nghiên cứu, cách tiếp cận ................................................................................. 8
3. Nội dung nghiên cứu và kết quả đạt được ............................................................................. 8
4. Kết luận và kiến nghị .............................................................................................................. 8
5. Tài liệu tham khảo.................................................................................................................. 9
Danh mục chữ viết tắt
TF: term frequency
IDF: inverse document frequency
TF.IDF: term frequency. inverse document frequency
DTM: document term matrix
Logistic: hồi quy logistic.
P(A): Xác xuất sự kiện A
NER: Named Entity Recognition
SoA: Sentiment analysis – Phân tích cảm xúc
PHÁT BIỂU BÀI TOÁN RÚT TRÍCH THÔNG TIN
TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC
1. Đặt vấn đề
1.1 Phân tích cảm xúc là gì?
Phân tích cảm xúc được ứng dụng trong nhiều ngành để trích xuất tri
thức, cảm xúc và quan điểm của khách hàng. Rút trích cảm xúc khách hàng có
vai trò quan trọng trong quá trình ra quyết, đưa ra chiến lược kinh doanh hợp
lý.. Những quyết định này có thể từ việc mua sản phẩm trực tuyến hoặc dịch
vụ ăn uống, tất cả các cảm xúc, quan điểm ảnh hưởng rất lớn đến cuộc sống
hàng ngày. Rút trích thông tin quan điểm và cảm xúc là một lĩnh vực nghiên
cứu của xử lý ngôn ngữ tự nhiên. Nhiệm vụ trích xuất thông tin từ các dòng tin
bình luận, trích dẫn để xác định ý kiến, cảm xúc của người dùng về một một
chủ đề cụ thể, thường cố gắng trích cảm xúc có trong toàn bộ tài liệu là tích
cực hay tiêu cực. Do đó, nghiên cứu phân tích cảm xúc không chỉ tác động
quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, mà còn tác động sâu sắc về
khoa học quản lý, khoa học chính trị, kinh tế và khoa học xã hội bởi tất cả các
lĩnh vực đều bị ảnh hưởng bởi ý kiến các chủ thể.
Ngôn ngữ của con người rất phức tạp. Vì vậy, diễn giải ngôn ngữ cho máy tính
hiểu và phân tích các ngữ pháp, vùng miền ứng dụng hay ngữ cảnh, tiếng lóng
và lỗi chính là một quá trình khó khăn.
Ngữ điệu ngôn ngữ kết hợp với ngữ cảnh có thể ảnh hưởng đến ngữ cảnh thậm
chí mô tả nó còn khó khăn hơn.
1
Hình 1.các trạng thái
cảm xúc
Ví dụ: “My flight was delayed. Brilliant!”
Con người khá trực quan khi giải thích giai điệu của một bài viết. Hầu hết mọi
người giải thích rằng người bình luận cảm xúc mỉa mai, châm biếm. Chúng ta
biết rằng đối với hầu hết những người có chuyến bay trễ không phải là một trải
nghiệm tốt . Bằng cách áp dụng ngữ cảnh này cho câu này, có thể dễ dàng xác
định cảm xúc là tiêu cực.
Nếu không áp dụng ngữ cảnh, máy tính phân tích câu trên có thể thấy từ
"Brilliant" và nó phân loại là tích cực.
Giả sử bạn muốn biết mọi người trên Yelp nghĩ rằng thực phẩm nhà hàng Việt
Nam là tốt hay xấu, món ăn nào là phổ biến nhất.
Phân tích cảm xúc bộ dữ liệu nhà hàng Yelp sẽ giúp chúng ta trả lời câu hỏi
này. Doanh nghiệp thậm chí có thể tìm hiểu lý do tại sao mọi người nghĩ rằng
thực phẩm là tốt hay xấu, bằng cách trích xuất các từ chính xác cho thấy lý do
tại sao người ta hoặc không thích thức ăn. Trích xuất món ăn phổ biến và các
chủ đề xuất hiện nhiều nhất. Doanh nghiệp ngay lập tức có một ý tưởng tốt hơn
về lý do tại sao người tiêu dùng không hài lòng.
Doanh nghiệp muốn đạt được tầm nhìn sâu sắc về khảo sát và tìm kiếm thông
qua nghiên cứu thị trường, thay vì phải dành rất nhiều ngân sách và thời gian
để tiến hành các cuộc điều tra và gọi điện thoại khách hàng? Thông qua các
2
công cụ khai thác văn bản, bạn sẽ nhận được câu trả lời trong vài giây và kết
quả rất khách quan từ mạng xã hội.
Phân tích cảm xúc có thể được xác định trên nhiều cấp độ. Cấp mức tài liệu
(Một cách nhìn tổng thể tiêu cực hoặc tích cực chung) và cảm xúc của từng từ
hoặc cụm từ trong tài liệu.
Hình 2. Mô
hình tính toán trọng số từ, cụm từ
1.2 Các vấn đề khó khăn
Hình 3. các vấn đề thách thức
-
Đảo ngược cảm xúc: à một vấn đề quan trọng nhất cần được giải quyết
trong phân tích cảm xúc. Vấn đề này phát sinh do sự dịch chuyển trạng thái
phân cực như phủ định (ví dụ: "Tôi không thích phở") và tương phản (ví dụ
"phở thì ngon, nhưng không phải sở thích của tôi"). Câu “Tôi không thích
phở” rất giống với
câu “Tôi thích phở”. Vì vậy phát hiện đảo ngược phân cực có ý nghĩa rất
quan trọng cho trích xuất quan điểm và cảm xúc.
3
-
Phân loại cảm xúc: các thuật toán học máy chưa phân loại được độ mạnh
cảm xúc, chỉ dừng lại tích cực hay tiêu cực. Trong khi đó, cảm xúc từ các
bình luận phản ánh đa dạng và mức độ ảnh hưởng cảm xúc là khác nhau.
"Tích cực", "tích cực hơn", "Tiêu cực", “ rất tiêu cực " và "trung tính". Bằng
cách tăng hạng phân loại chính xác cải thiện độ chính xác làm cơ sở cho
trích xuất cảm xúc.
-
Dữ liệu thưa: dữ liệu phát sinh từ một số nguồn giới hạn ký tự giới hạn
trong vi blog / các trang web truyền thông xã hội. Chẳn hạn, giới hạn bình
luận trong twitter là 140 ký tự. Chủ thể sẽ không diễn đạt ý kiến của họ một
cách rõ ràng.
-
Tóm lại, Tất cả ba các vấn đề liên quan chặt chẽ đến tính chính xác cảm xúc
và trong một bài viết thường tồn tại các phát biểu mâu thuẫn nhau, đối với
những câu văn nói ngắn gọn hoặc không theo quy tắc, thì người nói thường
lồng nhiều ý kiến vào trong một câu.
1.3 Tóm tắt lược sử nghiên cứu
Trong phần này, chúng tôi khảo sát các phương pháp và các hướng tiếp cận
phân tích cảm xúc. Dữ liệu văn bản tiềm ẩn rất nhiều tri thức có giá trị do con
người tạo ra nhằm chia sẻ với cộng đồng chẳn hạn như kinh nghiệm,ý kiến và
cảm xúc trải qua. Mỗi khi cần đưa ra một quyết định gì, chúng ta thường tham
khảo đến ý kiến của cộng đồng bằng cách tìm kiếm trên Internet. Các công cụ
khai phá quan điểm thực hiện một cách tự động và hệ thống trích xuất các khía
cạnh liên quan cho một vấn đề cụ thể, trên cơ sở phân tích ý kiến, chúng ta đưa
ra các quyết định hành động hợp lý.
Hình 4. Các
hướng tiếp cận phân tích cảm xúc
4
Nhiệm vụ phân tích cảm xúc là xác định các quan điểm, các đặc trưng khía
cạnh, các thực thể và xác định chủ thể. Công việc khai thác tri thức giúp họ hiểu rõ
hơn về khách hàng, sản phẩm, dịch vụ đề (B. Agarwal et al.,2013)[1]. Mục tiêu tự
động hóa trích xuất đặc trưng đối tượng và phân loại cảm xúc (Basant et al.,
2015)[2] dựa trên xử lý ngôn ngữ tự nhiên từ nguồn các bình luận.
Mục tiêu chính thực hiện phân loại cảm xúc là xếp hạng các chỉ số đánh giá cảm
xúc diễn giải trong văn bản. Nó được xem xét ở 03 mức độ : Tài liệu (RuiXia
et.al.,2016)[3].(Ainur et al.,2010)[4], câu từ (Noura et al., 2010)[5], và mức khía
cạnh đặc trưng đối tượng (Haochen et.al.,2015)[6].
Trong nghiên cứu này, chúng tôi phân tích cảm xúc dựa vào nguồn dữ liệu thu
thập từ dịch vụ Yelp. Yelp là một tập đoàn đa quốc gia của Hoa Kỳ được thành lập
vào 2004 nhằm giúp mọi người định vị doanh nghiệp dựa trên rên mạng xã hội chức
năng và đánh giá xếp hạng dịch vụ. Hàng triệu người sử dụng dịch vụ Yelp cung cấp
một khối dữ liệu khổng lồ và ảnh hưởng đến quyết định lựa chọn thực phẩm của
người tiêu dùng. Do đó, các bình luận từ Yelp trở thành chỉ số đánh giá cho chất
lượng ngành dịch vụ ẩm thực. Những năm gần đây, nhiều công trình nghiên cứu tiếp
cận khai thác dữ liệu nhằm rút trích cảm xúc và diễn giải ý nghĩa.
Hướng tiếp cận phương pháp học máy được sử dụng rộng rãi cho lĩnh vực xử lý
ngôn ngữ tự nhiên chẳn hạn như: (RuiXia et al.,2016) đề xuất mô hình PSDEE để
phát hiện cảm xúc không nhất quán trong văn bản. Nghiên cứu này trình bày mô
hình ba giai đoạn để phân loại cảm xúc:(1) phát hiện chuyển đổi phân cực, (2) loại
bỏ phân cực trong các phủ định, và (3) chuyển đổi phân cực theo mô hình tổ hợp.
(Haochen Zhou et al.,2015)[6] xây dựng mô hình POSLDA lựa chọn các đặc trưng
văn bản. Nó thực hiện tách các lớp ngữ nghĩa (danh từ, động từ, tính từ và trạng từ)
và các lớp cú pháp ( giới từ, và từ liên kết), xác định các từ có ý nghĩa và bổ sung
thông tin các thực thể cụ thể. (James Huang et al,.2014.) Nhóm tác giả áp dụng
Latent Dirichlet Allocation (LDA) khám phá các chủ đề ẩn , dự đoán xếp hạng sao
mỗi chủ đề ẩn đồng thời liên hệ thông tin thời gian cao điểm của nhà hàng, rút trích
thông tin chi tiết thú vị và chắc chắn hữu ích cho chủ nhà hàng.
(Ruhui Shen, et al,2016) xây dựng các mô hình hồi quy tuyến tính, hồi quy LASSO ,
hồi quy học máy vector (SVM) và thước đo RMSLE để tiên lượng và trích lọc các
bình luận hữu ích dựa trên cơ sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống
kê, phổ biến và khác các tính năng định tính được trích từ người dùng, doanh nghiệp.
5
Trong nghiên cứu này, chúng tôi tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây
dựng mô hình hồi quy logistic phân loại cảm xúc.(2) trích xuất thông tin các bình
luận quan trọng chứa cảm xúc tốt nhất và tệ nhất ẩm thực theo quốc gia.
Tiêu đề
T
Giải quyết
Phương
Bộ
Độ chính
vấn đề
pháp
dữ liệu
xác
T
1
Movie Reivew
87.1%
Hạn chế
Độ chính
RuiXia,
Dịch chuyển
Các quy tắc
FengXu et
phân cực cảm
PSDEE và
xác chưa
al (2016)
xúc
phương pháp
cao
thống kê
2
V.K
Dịch chuyển
Từ điển cảm
Singh,
phân cực cảm
xúc
R.Piryani
et al
Movie Reivew
SWN(AC
Khó mở
C)
rộng từ
xúc và độ
=77.6%
điển, không
chính xác
SWN(AA
xác định
AVC)-
được ngữ
78.7%
cảnh.
Alchemy=
77.4%
3
Y. Ainur,
Kết hợp trích
SVM
Movie
92.2%
Y. Yisong
xuất các câu
et al
hữu ích làm cơ
mức độ
(2010)
sở phân loại
cảm xúc
cảm xúc ở
chỉ có tích
mức tài liệu
cực và tiêu
Reviews
Không
phản ánh
cực
4
A. Basant,
dựa trên các
Ontology,
restaurant
80.1%
Khó mở
M. Namit
thông tin phổ
ConcepNet
review
a
biến và ngữ
ontology
cảnh
cho các
rộng
domain
5
Hao chen
Topic
POSLDA,
TripAdvisor
95%
Chỉ mới
6
Zhou and
modelling,
Maximum
thực hiện
Fei Song
Lựa chọn các
Entropy
cho
đặc trưng, chia classifier
unigram
tách ngữ nghĩa
và cú pháp câu
6
Huang, J.,
Phát hiện chủ
Latent
Rogers,
đề phụ - Topic
Dirichlet
S., & Joo
modelling
Allocation
Yelp
Không đề
Chỉ thực
cập
hiện
unigram
(LDA)
7
Ruhui
Dự đoán và
Mô hình
Shen,
trích lọc các
tuyến tính
Jialiang
bình luận hữu
Locally
cảnh bình
Shen,
ích cho các
Weighted
luận
Yuhong Li nhà hàng địa
8
RMSLE
Không phát
of 0.47769 hiện ngữ
Regression
(2016)
phương
(LOESS)
Yan
Các vấn đề
Kỹ thuật
Zhao,Hon
chuyển đổi cú
glei, et al
pháp câu
(2015)
Yelp
Chinese blog
No_comp
Kỹ thuật
cộng hưởng
_ssc=
cộng hưởng
cảm xúc
88.78%
cảm xúc
trước khi
Manual_c
chưa đạt độ
thực hiện
omp_ssc=
chính xác
phân tích
88.5%
cao
cảm xúc
Bảng 1. So sánh các hướng tiếp cận phân tích cảm xúc
Trong nước, Nhóm tác giả Huong Nguyen Thi Xuan, Anh Cuong Le, (2012) [15]
thực hiện phân loại câu văn chứa xúc cảm hay không chứa cảm xúc dựa trên 22 mẫu
phân tích trên mẫu cơ sở cú pháp (syntax-based patterns). Phương pháp phân tích của
các tác giả [15] dựa vào phân tích từ vựng để xác định từ loại từ trong câu văn bản và
sử dụng mẫu cú pháp để nhận dạng tính từ, cụm tính từ tương ứng; trợ động từ, động
từ và cụm động từ; danh từ và cụm danh trên cơ sở cú pháp mà các tác giả đề xuất để
thực hiện trích xuất.
7
2. Phương pháp nghiên cứu, cách tiếp cận
-
Thu thập tài liệu của các tác giả trong, ngoài nước có liên quan đến đề tài.
-
Nghiên cứu và phát triển lý thuyết phục vụ đề tài.
-
Xây dựng mô hình dựa trên các thuật toán học máy và đánh giá hiệu suất
-
Nghiên cứu thực nghiệm ,đánh giá kết quả dựa vào phương pháp thống kê.
3. Nội dung nghiên cứu và kết quả đạt được
- Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và các ứng dụng của
lĩnh vực trong đời sống.
- Thực nghiện phân tích cảm xúc dựa trên các mô hình học máy.
- Trích xuất các bình luận tích cực và tiêu cực nhất.
- Trên cơ sở phân tích cảm xúc, chúng tôi tiến hành rút trích tri thức các đặc
trừng và các khía cạnh của các thực thể đang được quan tâm nhằm nắm bắt
khuynh hướng cảm xúc khách hàng nhà hàng Yelps về chất lượng thái độ
dịch vụ, tóm tắt ẩm thực từng quốc gia, các món ăn phổ biến.
- Hỗ trợ ra quyết định dựa trên cơ sở phân tích quan điểm, cảm xúc của công
chúng về một vấn đề nào đó cần quan tâm.
4. Kết luận và kiến nghị
- Trong nghiên cứu này, Tôi thực hiện khảo sát và so sánh hướng tiếp
cận phân loại cảm xúc dựa vào các thuật toán học máy, từ điển và ontology và
đánh giá các kỹ thuật rút trích thông tin dựa trên cơ sở phân loại cảm xúc. Cụ
thể đề tài đạt được một số cột mốc quan như sau.
-
Nghiên cứu tổng quan về phân tích cảm xúc các ứng dụng thực tế cuộc sống.
-
Nghiên cứu các phương pháp rút trích thông tin và các phương pháp phân
tích cảm xúc.
-
Xây dựng mô hình thử nghiệm rút trích thông tin theo truy vấn từ dữ liệu
-
Đánh giá thử nghiệm dữ liệu thuật toán hồi quy logistic và lựa chọn tham số
tối ưu để nâng cao độ chính xác thuật toán.
8
5. Tài liệu tham khảo
[1] B. Agarwal and N. Mittal, “Optimal feature selection for sentiment analysis,”
in Proceedings of the 14th International Conference on Intelligent Text Processing and
Computational Linguistics (CICLing 13), vol. 7817, pp. 13–24, 2013.
[2]
A. Basant, M. Namita, B. Pooja, Sonal
Common-Sense
and
Context
Garg
Information”
“Sentiment
Hindawi
Analysis
Publishing
Using
Corporation
Computational Intelligence and Neuroscience (2015)
[3] RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and ensemble: A
three stage model for document-level sentiment analysis” Information Processing and
Management 52 (2016) 36– 45.
[4] Y. Ainur, Y. Yisong, C. Claire “Multi-level structured models for document-level
sentiment classification”.Proceedings of the 2010 Conference on Empirical Methods in
Natural Language Processing, MIT, Massachusetts, Association for Computational
Linguistics, USA (2010), pp. 1046-1056.
[5] F. Noura, C. Elie, A.A. Rawad, H. Hazem “Sentence-level and document-level
sentiment mining for arabic texts”.Proceeding IEEE International Conference on Data
Mining Workshops (2010).
[6]
Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based on a
generalized probabilistic topic and syntax model” Proceedings of the Twenty-Eighth
International Florida Artificial Intelligence Research Society Conference, Association
for the Advancement of Artificial Intelligence (2015).
[7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D. (2014). Categorizing
health-related cues to action: using Yelp reviews of restaurants in Hawaii. New Review
of Hypermedia and Multimedia, 20(4), 317-340.
[8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J. L. (2012).
Why people use Yelp. com: An exploration of uses and gratifications. Computers in
Human Behavior, 28(6), 2274-2279.
[9] Huang, J., Rogers, S., & Joo, E. (2014). “Improving restaurants by extracting
subtopics from yelp reviews” iConference 2014 (Social Media Expo).
[10] Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ” Predicting
usefulness of Yelp reviews with localized linear regression models”, 2016 7th IEEE
International Conference on Software Engineering and Service Science (ICSESS)
[11]
Solov'ev A. N., Antonova A. Ju., Pazel'skaia A. G., (2012), Using sentiment-
analysis for text information extraction. I-Teco (Moscow).
9
[12] Wanxiang Che, Yanyan Zhao, Honglei Guo, Zhong Su, and Ting Liu,” Sentence
Compression for spect-Based Sentiment Analysis” IEEE/ACM TRANSACTIONS ON
AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 23, NO. 12,
DECEMBER 2015.
[13] P.D. Turney,(2000), “Learning algorithms for keyphrase extraction” Information
Retrieval vol. 2, no. 4, pp. 303 - 336.
[14] I.H. Witten, G.W. Paynter, E. Frank, C. Gutwin and C.G. Nevill-Manning.(1999)
“KEA: Practical automatic Keyphrase Extraction.” The proceedings of Digital Libraries
'99: The Fourth ACM Conference on Digital Libraries, pp. 254-255.
[15] Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen, (2012) ”Linguistic
Features for Subjectivity classification“ Asian Language Processing (IALP), 2012
International Conference.
Xác nhận thực hiện chuyên đề
Chủ nhiệm đề tài
10
- Xem thêm -