Tài liệu Xử lý nhập nhằng nghĩa của từ sử dụng học máy không giám sát

.PDF

398

117

phuongtran99439 Báo vi phạm

Tải xuống 117

Mô tả:

Xử lý nhập nhằng nghĩa của từ sử dụng học máy không giám sát Word sense disambiguation and induction used unsupervised machine learning NXB H. : ĐHCN, 2014 Số trang 86 tr. + Trần Thị Hiền Đại học Công nghệ Luận văn ThS ngành: Kỹ thuật phần mềm; Mã số: 60480103 Người hướng dẫn: TS. Nguyễn Phương Thái Năm bảo vệ: 2014 Keywords: Xử lý ngôn ngữ tự nhiên; Xử lý nhập nhằng nghĩa; Phương pháp học không giám sát; Công nghệ thông tin Content Xử lý nhập nhằng ngữ nghĩa của từ là một trong những vấn đề được rất nhiều nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên quan tâm đến. Vì vậy có nhiều cách tiếp cận khác nhau để giải quyết vấn đề xử lý nhập nhằng ngữ nghĩa chẳng hạn như các phương pháp dựa vào tri thức (knowledge-based methods) [1] và các phương pháp dựa vào kho ngữ liệu (corpus-based methods). Đối với phương pháp thứ hai, phương pháp có thể sử dụng là học có giám sát, học không có giám sát và kết hợp của hai phương pháp này. Nói chung, các phương pháp học có giám sát cho ra kết quả với độ chính xác cao hơn nhưng nhược điểm của phương pháp này đòi hỏi tiêu tốn công sức trong việc xây dựng tập dữ liệu gán nhãn, nó lại không nhận biết được nghĩa của từ trong trường hợp mới. Trong khi đó phương pháp không giám sát khắc phục được hai nhược điểm này. Do đó, phương pháp học không giám sát là một hướng đi rất được chú ý để giải quyết vấn đề này. Nó sẽ phân cụm các trường hợp xuất hiện của từ trong văn bản, mỗi cụm thể hiện một nghĩa. WSI (Word Sense Induction) là một hướng tiếp cận không giám sát cho vấn đề này, WSI đã cho thấy lợi thế của nó cho việc xử lý nhập nhằng nghĩa của từ trong một số lĩnh vực mà dữ liệu huấn luyện được chú thích không có sẵn hoặc số lượng nghĩa của các từ khác nhau phụ thuộc vào mục đích khác nhau. Trong khi có nhiều phương pháp cho WSI, thì phân cụm theo ngữ cảnh là một trong những giải pháp hiệu quả nhất và được sử dụng rộng rãi. Luận văn tập trung vào việc áp dụng một mô hình Bayes phi tham số (Nonparametric Bayesian model) - Hierarchical Dirichlet Process ( HDP) cho bài toán WSI. Kết quả được thể hiện thông qua việc so sánh với phương pháp Latent Dirichlet Allocation (LDA) - một mô hình Bayes có tham số của Blei và Jordan [3] cho vấn đề này, và còn được so sánh với phương pháp của Blei và Lafferty [2] đó là Correlated Topic Model (CTM) với cùng một tập dữ liệu ở bài toán số 14 trong cuộc thi SemEval - 2010. Ta thấy rằng mô hình HDP vượt trội về chất lượng xác định nghĩa và có ưu điểm là xác định một cách tự động số lượng nghĩa biến đổi trên một từ thì LDA, CTM lại cần một số nghĩa cố định trước được xây dựng bằng tay. Đó là sự vượt trội hơn của cách tiếp cận WSI dựa trên HDP so với các cách tiếp cận khác. Ngoài phần kết luận, luận văn được trình bày thành 4 chương với nội dung được trình bày như sau: 1 Chương 1: Giới thiệu về WSI, WSD và các phương pháp tiếp cận cho WSI, WSD, đồng thời giới thiệu về mục tiêu và kết quả sẽ trình bày trong luận văn. Chương 2: Bài toán mô hình chủ đề và các tiếp cận điển hình Ở chương này trình bày tổng quan về mô hình chủ đề, các tiếp cận điển hình như: LDA, CTM (mô hình Bayes có tham số ), HDP (mô hình Bayes phi tham số) và cách sử dụng chúng trong WSI. Chương 3: Sử dụng phương pháp HDP cho WSI Với tính linh hoạt trong việc xác định nghĩa của từ một cách tự động. Trong khuôn khổ luận văn quan tâm đến việc xác định nghĩa của từ dựa vào phương pháp HDP. Ở chương này trình bày sâu hơn về phương pháp HDP và so sánh với phương pháp LDA và CTM. Chúng ta sẽ thấy rõ hơn về ưu, nhược điểm của phương pháp này thông qua kết quả thực nghiệm ở chương 4. Chương 4: Đánh giá và kết quả thực nghiệm Trong phần này đưa ra chi tiết về phương pháp được sử dụng để đánh giá hệ thống WSI, mô tả dữ liệu ở bài toán số 14 của cuộc thi SemEval - 2010 được sử dụng để huấn luyện, thử nghiệm trong hệ thống này và mô tả chi tiết thực nghiệm xây dựng hệ thống WSI của ta. Tiếp theo là kết quả công việc bao gồm hiệu suất của hệ thống trên tập dữ liệu ở bài toán số 14 của cuộc thi SemEval – 2010 và so sánh kết quả với hai phương pháp CTM, LDA. Cuối cùng là kết luận, hướng phát triển, tài liệu tham khảo và phụ lục. Phần kết luận trình bày tóm tắt kết quả thu được và đề xuất hướng nghiên cứu tiếp theo. References [1] Agirre, Eneko; Edmonds, Philip (2006.) “Word Sense Disambiguation: Algorithms and Applications”; Springer. [2] Blei, D. M. and Lafferty, J. D. (2006). “Correlated topic models”. In Advances in Neural Information Processing System 18 (Y. Weiss, B. Scholkopf and J. Platt, eds). MIT Press, Cambridge, MA. [3] Blei, D. M., NG, A. and Jordan, M. (2003). “Latent Dirichlet allocation”. Journal of Machine Learning Research 3, pp. 993-1022. [4] Chong Wang (2010). Code for HDP with C++ . http://www.cs.princeton.edu/~blei/topicmodeling.html. [5] D. M. Blei, J.D. Lafferty (2007). “A correlated topic model of Science”. The Annals of Applied Statistics, 2007, Vol. 1, No. 1, pp. 17-35 [6] David Blei (2011). “Introduction to Probabilistic Topic models”. [7] Eneko Agirre and Aitor Soroa (2007). Semeval-2007 Task 02: “Evaluating Word Sense Induction And Discrimination Systems”. In Proceedings of the 4th International Workshop on Semantic Evaluations, SemEval 2007, pp. 7–12. [8] Hoang T.T, Nguyen P.T, (2012). “Word Sense Induction Using Correlated Topic Model”. [9] Ioannis P. Klapaflis and Suresh Manandhar (2007). “UOY: A hypergraph 53 model for word sense induction and disambiguation”. Proceedings of the 4th International Workshop on Semantic Evaluation (SemEval-2007), pp 414-417. [10] J. Knopp, J. V¨olker, and S.P. Ponzetto (2013). “ Topic Modeling for Word Sense Induction”. Springer-Verlag Berlin Heidelberg 2013, pp 97–103. 2 [11] Patrick Pantel and Dekang Lin (2002). “Discovering word senses from text”. In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data minin , pp 613-619. [12] Samuel Brody and Mirella Lapata (2009). “Bayesian Word Sense Induction”. Proceeding of the 12th Conference of the European Chapter of the ACL, pp. 103-111. [13] Stefan Borda (2006). “Word Sense Induction: Triplet-Based Clustering And Automatic Evaluation”. In Proceedings of the 11th EACL, pp. 137–144. [14] Suresh Manandhar, Ioannis P. Klapftis, Dmitriy Dligach and Sameer S. Pradhan (2010). SemEval-2010 Task 14: Word Sense Induction and Disambiguation. [15] Wilks Y., Stevenson M (1997). “Sense Tagging: Semantic Tagging with a Lexicon”. In Proceedings of SIGLEX Workshop on Tagging Text with Laxical Semantics: Why, What and How?, Washington, D.C. [16] Xuchen Yao and Benjamin Van Durme (2011). “Nonparametric Bayesian Word Sense Induction”. Proceedings of the TextGraphs-6 Workshop, pp. 10-14. [17] Y. W. Teh, M. I. Jordan, M. J. Beal, and D. M. Blei (2006). “Hierarchical Dirichlet Processes”. Journal of the American Statistical Association, 101(476) pp. 1566–1581. [18] Zellig Harris (1954). Distributional Structure, pp 146-162. 3

- Xem thêm -

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất