Tài liệu Khảo sát, phân tích hiện trạng các công trình đã nghiên cứu và đề xuất hƣớng nghiên cứu mới

.PDF

tailieuonline Báo vi phạm

Tải xuống 80

Mô tả:

TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THÔNG TIN DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC Mã số: Chuyên đề: Khảo sát, phân tích hiện trạng các công trình đã nghiên cứu và đề xuất hƣớng nghiên cứu mới Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc Ngƣời chủ trì thực hiện chuyên đề : ThS.Nguyễn Tấn Lộc Bình Dƣơng, 08/01/2018 Mụ c lụ c 1. Đặt vấn đề ........................................................................................................................... 1 2. Phương pháp nghiên cứu .................................................................................................... 1 3. Nội dung nghiên cứu ........................................................................................................... 1 3.1 Phương pháp rút trích thông tin ................................................................................... 4 3.1.1 Trích rút cụm từ ......................................................................................................... 5 3.1.2 Rút trích dựa trên nhận dạng thực thể ....................................................................... 5 3.2 Phương pháp phân loại cảm xúc dựa trên học máy .......................................................... 6 3.2.1 Học có giám sát (Supervised Learning) .................................................................... 6 3.2.2 Học không giám sát ................................................................................................... 7 4. Kết luận và kiến nghị ........................................................................................................... 8 5. Tài liệu tham khảo ............................................................................................................... 9 Danh mục chữ viết tắt TF: term frequency IDF: inverse document frequency TF.IDF: term frequency. inverse document frequency DTM: document term matrix Logistic: hồi quy logistic. P(A): Xác xuất sự kiện A NER: Named Entity Recognition SoA: Sentiment analysis – Phân tích cảm xúc 1. Đặt vấn đề Trong phần này, chúng tôi khảo sát các phương pháp và các hướng tiếp cận phân tích cảm xúc. Dữ liệu văn bản tiềm ẩn rất nhiều tri thức có giá trị do con người tạo ra nhằm chia sẻ với cộng đồng chẳn hạn như kinh nghiệm,ý kiến và cảm xúc trải qua. Mỗi khi cần đưa ra một quyết định gì, chúng ta thường tham khảo đến ý kiến của cộng đồng bằng cách tìm kiếm trên Internet. Các công cụ khai phá quan điểm thực hiện một cách tự động và hệ thống trích xuất các khía cạnh liên quan cho một vấn đề cụ thể, trên cơ sở phân tích ý kiến, chúng ta đưa ra các quyết định hợp lý. 2. Phƣơng pháp nghiên cứu  Thu thập tài liệu của các tác giả trong, ngoài nước liên quan đến đề tài.  Nghiên cứu các bài báo và phát triển lý thuyết phục vụ đề tài.  Nghiên cứu thực nghiệm và đánh giá kết quả dựa vào phương pháp thống kê 3. Nội dung nghiên cứu Hình 1. Các hướng tiếp cận phân tích cảm xúc Nhiệm vụ phân tích cảm xúc là xác định các quan điểm, các đặc trưng khía cạnh, các thực thể và xác định chủ thể. Công việc khai thác tri thức giúp họ hiểu rõ hơn về khách hàng, sản phẩm, dịch vụ đề (B. Agarwal et al.,2013)[1]. Mục tiêu tự động hóa trích xuất đặc trưng đối tượng và phân loại cảm xúc (Basant et al., 2015)[2] dựa trên xử lý ngôn ngữ tự nhiên từ nguồn các bình luận. Mục tiêu chính thực hiện phân loại cảm xúc là xếp hạng các chỉ số đánh giá cảm xúc diễn giải trong văn bản. Nó được xem xét ở 03 mức độ : Tài liệu (RuiXia et.al.,2016)[3].(Ainur et al.,2010)[4], câu từ (Noura et al., 2010)[5], và mức khía cạnh đặc trưng đối tượng (Haochen et.al.,2015)[6]. 1 Trong nghiên cứu này, chúng tôi phân tích cảm xúc dựa vào nguồn dữ liệu thu thập từ dịch vụ Yelp. Yelp là một tập đoàn đa quốc gia của Hoa Kỳ được thành lập vào 2004 nhằm giúp mọi người định vị doanh nghiệp dựa trên rên mạng xã hội chức năng và đánh giá xếp hạng dịch vụ. Hàng triệu người sử dụng dịch vụ Yelp cung cấp một khối dữ liệu khổng lồ và ảnh hưởng đến quyết định lựa chọn thực phẩm của người tiêu dùng. Do đó, các bình luận từ Yelp trở thành chỉ số đánh giá cho chất lượng ngành dịch vụ ẩm thực. Những năm gần đây, nhiều công trình nghiên cứu tiếp cận khai thác dữ liệu nhằm rút trích cảm xúc và diễn giải ý nghĩa. Hướng tiếp cận phương pháp học máy được sử dụng rộng rãi cho lĩnh vực xử lý ngôn ngữ tự nhiên chẳn hạn như: (RuiXia et al.,2016) đề xuất mô hình PSDEE để phát hiện cảm xúc không nhất quán trong văn bản. Nghiên cứu này trình bày mô hình ba giai đoạn để phân loại cảm xúc:(1) phát hiện chuyển đổi phân cực, (2) loại bỏ phân cực trong các phủ định, và (3) chuyển đổi phân cực theo mô hình tổ hợp. (Haochen Zhou et al.,2015)[6] xây dựng mô hình POSLDA lựa chọn các đặc trưng văn bản. Nó thực hiện tách các lớp ngữ nghĩa (danh từ, động từ, tính từ và trạng từ) và các lớp cú pháp ( giới từ, và từ liên kết), xác định các từ có ý nghĩa và bổ sung thông tin các thực thể cụ thể. (James Huang et al,.2014.) Nhóm tác giả áp dụng Latent Dirichlet Allocation (LDA) khám phá các chủ đề ẩn , dự đoán xếp hạng sao mỗi chủ đề ẩn đồng thời liên hệ thông tin thời gian cao điểm của nhà hàng, rút trích thông tin chi tiết thú vị và chắc chắn hữu ích cho chủ nhà hàng. (Ruhui Shen, et al,2016) xây dựng các mô hình hồi quy tuyến tính, hồi quy LASSO , hồi quy học máy vector (SVM) và thước đo RMSLE để tiên lượng và trích lọc các bình luận hữu ích dựa trên cơ sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống kê, phổ biến và khác các tính năng định tính được trích từ người dùng, doanh nghiệp. Trong nghiên cứu này, chúng tôi tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây dựng mô hình hồi quy logistic phân loại cảm xúc.(2) trích xuất thông tin các bình luận quan trọng chứa cảm xúc tốt nhất và tệ nhất ẩm thực theo quốc gia. 2 TT Tiêu đề Giải quyết vấn Phƣơng pháp đề 1 RuiXia, Dịch chuyển Các quy tắc FengXu et phân cực cảm PSDEE và al (2016) xúc phương pháp Bộ Độ chính dữ liệu xác Movie Reivew 87.1% Hạn chế Độ chính xác chưa cao thống kê 2 V.K Dịch chuyển Từ điển cảm SWN(AC Khó mở rộng Singh, phân cực cảm xúc C) từ điển, R.Piryani xúc và độ =77.6% không xác et al chính xác SWN(AA định được AVC)- ngữ cảnh. Movie Reivew 78.7% Alchemy= 77.4% 3 Y. Ainur, Kết hợp trích Y. Yisong xuất các câu ánh mức độ et al (2010) hữu ích làm cơ cảm xúc chỉ sở phân loại có tích cực cảm xúc ở và tiêu cực SVM Movie Reviews 92.2% Không phản mức tài liệu 4 A. Basant, dựa trên các Ontology, restaurant M. Namita thông tin phổ ConcepNet review 80.1% Khó mở rộng ontology cho biến và ngữ các domain cảnh 5 TripAdvisor Chỉ mới thực Hao chen Topic POSLDA, Zhou and modelling, Maximum hiện cho Fei Song Lựa chọn các Entropy unigram 95% đặc trưng, chia classifier tách ngữ nghĩa và cú pháp câu 6 Huang, J., Phát hiện chủ Latent Rogers, S., đề phụ - Topic Dirichlet Yelp Không đề Chỉ thực cập hiện unigram 3 & Joo modelling Allocation (LDA) 7 Ruhui Dự đoán và Mô hình Shen, trích lọc các tuyến tính Jialiang bình luận hữu Locally cảnh bình Shen, ích cho các Weighted luận Yuhong Li nhà hàng địa Regression phương (LOESS) Yan Các vấn đề Kỹ thuật Zhao,Hong chuyển đổi cú lei, et al pháp câu (2016) 8 (2015) Yelp RMSLE of Không phát 0.47769 hiện ngữ No_comp Kỹ thuật cộng hưởng _ssc= cộng hưởng cảm xúc 88.78% cảm xúc trước khi Manual_c chưa đạt độ thực hiện omp_ssc= chính xác phân tích 88.5% cao Chinese blog cảm xúc Bảng 1. So sánh các hướng tiếp cận phân tích cảm xúc Trong nước, Nhóm tác giả Huong Nguyen Thi Xuan, Anh Cuong Le, (2012) [15] thực hiện phân loại câu văn chứa xúc cảm hay không chứa cảm xúc dựa trên 22 mẫu phân tích trên mẫu cơ sở cú pháp (syntax-based patterns). Phương pháp phân tích của các tác giả [15] dựa vào phân tích từ vựng để xác định từ loại từ trong câu văn bản và sử dụng mẫu cú pháp để nhận dạng tính từ, cụm tính từ tương ứng; trợ động từ, động từ và cụm động từ; danh từ và cụm danh trên cơ sở cú pháp mà các tác giả đề xuất để thực hiện trích xuất. 3.1 Phƣơng pháp rút trích thông tin Trích xuất thông tin là tìm ra các thông tin cấu trúc, thông tin cần thiết từ một tài liệu, trong khi truy vấn thông tin là tìm ra các tài liệu liên quan, hoặc một phần tài liệu liên quan từ kho dữ liệu như thư viện số hoặc nguồn tài liệu online để phản hồi cho người dùng tùy vào một truy vấn cụ thể. Các công trình nghiên cứu truy vấn và rút trích thông tin hiện nay hướng tới các phương pháp tối ưu nhằm cho kết quả phản hồi tốt hơn, gần đúng hoặc đúng với nhu cầu người dùng và tập trung vào các hướng sau. 4 Rút trích các thuật ngữ (Terminology extraction): tìm kiếm các thuật ngữ chính có liên quan, thể hiện ngữ nghĩa, nội dung, chủ đề tài liệu hay một tập các tài liệu. Rút trích các thực thể (named entity recognition): việc rút trích ra các thực thể tập trung vào các phương pháp nhận diện các đối tượng, thực thể như: tên người, tên công ty, tên tổ chức, một địa danh, nơi chốn. Rút trích quan hệ (Relationship Extraction): cần xác định mối quan hệ giữa các thực thể đã nhận biết từ tài liệu. 3.1.1 Trích rút cụm từ Turney (2000) được xem là người đầu tiên giải quyết bài toán rút trích các keyphrase dựa trên phương pháp học giám sát [13], trong khi các nghiên cứu khác dùng heuristic, kỹ thuật phân tích n-gram, phương pháp như mạng Neural. KEA [14] là một thuật toán trích xuất các cụm từ khóa (keyphrases) từ dữ liệu văn bản. KEA xác định danh sách các cụm ứng viên dùng các phương pháp từ vựng học, sau đó tiến hành tính toán giá trị đặc trưng cho mỗi ứng viên, tiếp đến dùng thuật toán học máy để tiên đoán xem các cụm ứng viên nào là các cụm từ khóa. Hiện nay KEA được xem là một thuật toán đơn giản và hiệu quả nhất để rút các keyphrases. KEA dùng phương pháp học máy Naïve Bayes để huấn luyện và rút trích các keyphrase. 3.1.2 Rút trích dựa trên nhận dạng thực thể Nhận diện thực thể có tên (NER-Named Entity Recognition) là một công việc thuộc lĩnh vực trích xuất thông tin nhằm tìm kiếm, xác định và phân lớp các thành tố trong văn bản không cấu trúc thuộc vào các nhóm thực thể được xác định trước như tên người, tổ chức, vị trí, biểu thức thời gian, con số, giá trị tiền tệ, tỉ lệ phần trăm, v.v. Thực thể có tên (Named Entity) có rất nhiều ứng dụng, đặc biệt trong các lĩnh vực như hiểu văn bản, dịch máy, truy vấn thông tin, và hỏi đáp tự động. Nhận diện thực thể có tên gồm 2 tác vụ con sau đây.  Nhận diện thực thể có tên trong văn bản đầu vào.  Gán nhãn cho các thực thể có tên đã nhận diện được . Nhận diện thực thể đơn ngữ 5 Nhận diện thực thể có tên trên đơn ngữ là hướng tiếp cận đầu tiên và đa dạng nhất tính đến hiện nay. Sự đa dạng của nó nằm ở việc phát triển trên nhiều ngôn ngữ đặc biệt là các ngôn ngữ khan hiếm tài nguyên như tiếng Việt, Hoa... Trong khi đó, với các ngôn ngữ như tiếng Anh, việc nhận diện thực thể có tên đã đạt được độ chính xác rất cao. Một số ứng dụng nhận diện thực thể được công bố như: Standford NER, OpenNLP, NETTagger, GATE.. Gán nhãn thực thể Sau khi nhận dạng ra được các thực thể có tên, ta sẽ tiến hành gán nhãn cho thực thể. loại nhãn, số lượng nhãn rất đa dạng, phụ thuộc vào mục đích ứng dụng. Nhãn thực thể gồm các loại :  Con người : tên người và họ, bí danh, nghệ danh, ...  Tổ chức: tên tổ chức, cơ quan, chính phủ, công ty, các thực thể mang tính tổ chức ...  Địa điểm: tỉnh, thành phố, vùng lãnh thổ, vùng nước, núi, quỹ đạo, cấu trúc địa điểm, các loại công trình ...  Thời gian: biểu thức về thời gian trong ngày  Tiền tệ: biểu thức tiền tệ  Phần trăm: phần trăm Tuy nhiên, một số công trình nghiên cứu chỉ tập trung vào việc xác định và gán nhãn 3 loại nhãn: con người, tổ chức, địa điểm bởi vì các nhãn còn lại tương đối dễ nhận dạng dựa vào từ điển, đặc trưng ngôn ngữ. 3.2 Phƣơng pháp phân loại cảm xúc dựa trên học máy 3.2.1 Học có giám sát (Supervised Learning) Phương pháp học có giám sát là một kỹ thuật của ngành Khoa học máy tính để xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đầu vào (thường dạng vec-tơ), và đầu ra mong muốn. Đầu ra của một hàm là dự đoán một nhãn cho một đối tượng. Các bước thực hiện một bài toán: 6 - Để thực hiện phân lớp, phải chuẩn bị một tập dữ liệu huấn luyện, để có tập dữ liệu huấn luyện được gán nhãn cho dữ liệu ban đầu, đây được gọi là bước thu thập tập dữ liệu huấn luyện. - Lựa chọn một thuật toán phân lớp, xây dựng mô hình để học tập dữ liệu huấn luyện. Hay nói cách khác, dùng tập dữ liệu huấn luyện để huấn luyện chương trình phân lớp. Thuật ngữ học có giám sát được hiểu là học với dữ liệu đã được gán nhãn trước (các dữ liệu kèm theo nhãn tương ứng này coi như đã được giám sát). - Sử dụng một tập dữ liệu kiểm tra đã được gán nhãn trước, để kiểm tra tính đúng đắn mô hình. Sau đó, có thể dùng mô hình để phân lớp cho dữ liệu mới. Một vài thuật toán học giám sát:  Thuật toán hồi quy logistic, Naïve Bayes.  Thuật toán Máy vector hỗ trợ (Support Vector Machine).  Phương pháp K láng giềng gần nhất (K Nearest Neighbours – KNN). 3.2.2 Học không giám sát - Học không có giám sát là một phương pháp của ngành học máy tìm ra một mô hình phù hợp với các quan sát. Trong học không có giám sát, một tập dữ liệu đầu vào được thu thập. Học không có giám sát thường xử lý với các đối tượng đầu vào như là một tập các biến ngẫu nhiên. Sau đó, một mô hình kết hợp sẽ được xây dựng cho tập dữ liệu đó. Có thể hiểu đơn giản như sau Học không giám sát là học với tập dữ liệu huấn luyện ban đầu hoàn toàn chưa được gán nhãn thường sử dụng cho lớp bài toán gom cụm, phân cụm (Clustering). Các bước để giải quyết một bài toán học không giám sát: - Để thực hiện phân cụm, trước tiên cần một tập dữ liệu huấn luyện (training dataset) – là một tập các ví dụ học (training examples/instances). Trong đó, mỗi ví dụ học chỉ chứa thông tin biểu diễn (ví dụ: một vector các giá trị thuộc tính), mà không có bất kỳ thông tin gì về nhãn lớp hoặc giá trị đầu ra mong muốn (expected output). 7 - Áp dụng một thuật toán học không có giám sát (ví dụ k-Means) để học hàm/mô hình mục tiêu (trong trường hợp này là hàm phân cụm ứng với thuật toán được chọn). - Sử dụng một phương pháp thử nghiệm (có thể kết hợp với một tập dữ liệu có gán nhãn) để đánh giá hiệu năng, chất lượng của hàm mục tiêu học được. Một số thuật toán học không giám sát: Có rất nhiều thuật toán học không giám sát được ra đời và phát triển nhằm khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất đa dạng. Việc lựa chọn sử dụng thuật toán nào mục đích của từng bài toán. K-means, HAC (Hierarchical Agglomerative Clustering), SOM (Self-Organizing Map)… 4. Kết luận và kiến nghị Trong chuyên đề này, chúng tôi đã thực hiện khảo sát lược sử các hướng tiếp cận cho bài toán rút trích thông tin. - Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và các ứng dụng của lĩnh vực trong đời sống và thực nghiện phân tích cảm xúc với các mô hình học máy. - Trích xuất nhóm cụm từ quan trọng để hỗ trợ ra quyết định dựa trên cơ sở cảm xúc của công chúng về một vấn đề nào đó cần quan tâm. - Khảo sát các thuật toán học máy giám sát và không giám sát, các hướng tiếp cận ontology và từ điển phục vụ cho công việc xây dựng mô hình. 8 5. Tài liệu tham khảo [1] B. Agarwal and N. Mittal, “Optimal feature selection for sentiment analysis,” in Proceedings of the 14th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 13), vol. 7817, pp. 13–24, 2013. [2] A. Basant, M. Namita, B. Pooja, Sonal Garg “Sentiment Analysis Using Common-Sense and Context Information” Hindawi Publishing Corporation Computational Intelligence and Neuroscience (2015) [3] RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and ensemble: A three stage model for document-level sentiment analysis” Information Processing and Management 52 (2016) 36– 45. [4] Y. Ainur, Y. Yisong, C. Claire “Multi-level structured models for document-level sentiment classification”.Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, MIT, Massachusetts, Association for Computational Linguistics, USA (2010), pp. 1046-1056. [5] F. Noura, C. Elie, A.A. Rawad, H. Hazem “Sentence-level and documentlevel sentiment mining for arabic texts”.Proceeding IEEE International Conference on Data Mining Workshops (2010). [6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based on a generalized probabilistic topic and syntax model” Proceedings of the Twenty-Eighth International Florida Artificial Intelligence Research Society Conference, Association for the Advancement of Artificial Intelligence (2015). [7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D. (2014). Categorizing health-related cues to action: using Yelp reviews of restaurants in Hawaii. New Review of Hypermedia and Multimedia, 20(4), 317-340. [8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J. L. (2012). Why people use Yelp. com: An exploration of uses and gratifications. Computers in Human Behavior, 28(6), 2274-2279. [9] Huang, J., Rogers, S., & Joo, E. (2014). “Improving restaurants by extracting subtopics from yelp reviews” iConference 2014 (Social Media Expo). 9 [10] Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ” Predicting usefulness of Yelp reviews with localized linear regression models”, 2016 7th IEEE International Conference on Software Engineering and Service Science (ICSESS) [11] Solov'ev A. N., Antonova A. Ju., Pazel'skaia A. G., (2012), Using sentiment-analysis for text information extraction. I-Teco (Moscow). [12] Wanxiang Che, Yanyan Zhao, Honglei Guo, Zhong Su, and Ting Liu,” Sentence Compression for spect-Based Sentiment Analysis” IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 23, NO. 12, DECEMBER 2015. [13] P.D. Turney,(2000), “Learning algorithms for keyphrase extraction” Information Retrieval vol. 2, no. 4, pp. 303 - 336. [14] I.H. Witten, G.W. Paynter, E. Frank, C. Gutwin and C.G. Nevill- Manning.(1999) “KEA: Practical automatic Keyphrase Extraction.” The proceedings of Digital Libraries '99: The Fourth ACM Conference on Digital Libraries, pp. 254-255. [15] Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen, (2012) ”Linguistic Features for Subjectivity classification“ Asian Language Processing (IALP), 2012 International Conference. Xác nhận thực hiện chuyên đề Chủ nhiệm đề tài 10

- Xem thêm -

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất