Xử lý nhập nhằng nghĩa của từ
sử dụng học máy không giám sát
Word sense disambiguation and induction used unsupervised machine learning
NXB H. : ĐHCN, 2014 Số trang 86 tr. +
Trần Thị Hiền
Đại học Công nghệ
Luận văn ThS ngành: Kỹ thuật phần mềm; Mã số: 60480103
Người hướng dẫn: TS. Nguyễn Phương Thái
Năm bảo vệ: 2014
Keywords: Xử lý ngôn ngữ tự nhiên; Xử lý nhập nhằng nghĩa; Phương pháp học không
giám sát; Công nghệ thông tin
Content
Xử lý nhập nhằng ngữ nghĩa của từ là một trong những vấn đề được rất nhiều nhà nghiên
cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên quan tâm đến. Vì vậy có nhiều cách tiếp cận khác
nhau để giải quyết vấn đề xử lý nhập nhằng ngữ nghĩa chẳng hạn như các phương pháp dựa vào
tri thức (knowledge-based methods) [1] và các phương pháp dựa vào kho ngữ liệu (corpus-based
methods). Đối với phương pháp thứ hai, phương pháp có thể sử dụng là học có giám sát, học
không có giám sát và kết hợp của hai phương pháp này. Nói chung, các phương pháp học có giám
sát cho ra kết quả với độ chính xác cao hơn nhưng nhược điểm của phương pháp này đòi hỏi tiêu
tốn công sức trong việc xây dựng tập dữ liệu gán nhãn, nó lại không nhận biết được nghĩa của từ
trong trường hợp mới. Trong khi đó phương pháp không giám sát khắc phục được hai nhược điểm
này. Do đó, phương pháp học không giám sát là một hướng đi rất được chú ý để giải quyết vấn đề
này. Nó sẽ phân cụm các trường hợp xuất hiện của từ trong văn bản, mỗi cụm thể hiện một nghĩa.
WSI (Word Sense Induction) là một hướng tiếp cận không giám sát cho vấn đề này, WSI đã cho
thấy lợi thế của nó cho việc xử lý nhập nhằng nghĩa của từ trong một số lĩnh vực mà dữ liệu huấn
luyện được chú thích không có sẵn hoặc số lượng nghĩa của các từ khác nhau phụ thuộc vào mục
đích khác nhau.
Trong khi có nhiều phương pháp cho WSI, thì phân cụm theo ngữ cảnh là một trong
những giải pháp hiệu quả nhất và được sử dụng rộng rãi. Luận văn tập trung vào việc áp dụng một
mô hình Bayes phi tham số (Nonparametric Bayesian model) - Hierarchical Dirichlet Process (
HDP) cho bài toán WSI. Kết quả được thể hiện thông qua việc so sánh với phương pháp Latent
Dirichlet Allocation (LDA) - một mô hình Bayes có tham số của Blei và Jordan [3] cho vấn đề
này, và còn được so sánh với phương pháp của Blei và Lafferty [2] đó là Correlated Topic
Model (CTM) với cùng một tập dữ liệu ở bài toán số 14 trong cuộc thi SemEval - 2010. Ta thấy
rằng mô hình HDP vượt trội về chất lượng xác định nghĩa và có ưu điểm là xác định một cách tự
động số lượng nghĩa biến đổi trên một từ thì LDA, CTM lại cần một số nghĩa cố định trước được
xây dựng bằng tay. Đó là sự vượt trội hơn của cách tiếp cận WSI dựa trên HDP so với các cách
tiếp cận khác.
Ngoài phần kết luận, luận văn được trình bày thành 4 chương với nội dung được trình bày
như sau:
1
Chương 1: Giới thiệu về WSI, WSD và các phương pháp tiếp cận cho WSI, WSD, đồng thời giới
thiệu về mục tiêu và kết quả sẽ trình bày trong luận văn.
Chương 2: Bài toán mô hình chủ đề và các tiếp cận điển hình
Ở chương này trình bày tổng quan về mô hình chủ đề, các tiếp cận điển hình như: LDA,
CTM (mô hình Bayes có tham số ), HDP (mô hình Bayes phi tham số) và cách sử dụng chúng
trong WSI.
Chương 3: Sử dụng phương pháp HDP cho WSI
Với tính linh hoạt trong việc xác định nghĩa của từ một cách tự động. Trong khuôn khổ
luận văn quan tâm đến việc xác định nghĩa của từ dựa vào phương pháp HDP. Ở chương này trình
bày sâu hơn về phương pháp HDP và so sánh với phương pháp LDA và CTM. Chúng ta sẽ thấy
rõ hơn về ưu, nhược điểm của phương pháp này thông qua kết quả thực nghiệm ở chương 4.
Chương 4: Đánh giá và kết quả thực nghiệm
Trong phần này đưa ra chi tiết về phương pháp được sử dụng để đánh giá hệ thống WSI,
mô tả dữ liệu ở bài toán số 14 của cuộc thi SemEval - 2010 được sử dụng để huấn luyện, thử
nghiệm trong hệ thống này và mô tả chi tiết thực nghiệm xây dựng hệ thống WSI của ta. Tiếp
theo là kết quả công việc bao gồm hiệu suất của hệ thống trên tập dữ liệu ở bài toán số 14 của
cuộc thi SemEval – 2010 và so sánh kết quả với hai phương pháp CTM, LDA.
Cuối cùng là kết luận, hướng phát triển, tài liệu tham khảo và phụ lục. Phần kết luận trình
bày tóm tắt kết quả thu được và đề xuất hướng nghiên cứu tiếp theo.
References
[1]
Agirre, Eneko; Edmonds, Philip (2006.) “Word Sense Disambiguation: Algorithms and
Applications”; Springer.
[2]
Blei, D. M. and Lafferty, J. D. (2006). “Correlated topic models”. In Advances in Neural
Information Processing System 18 (Y. Weiss, B. Scholkopf and J. Platt, eds). MIT Press,
Cambridge, MA.
[3]
Blei, D. M., NG, A. and Jordan, M. (2003). “Latent Dirichlet allocation”. Journal of
Machine Learning Research 3, pp. 993-1022.
[4]
Chong Wang (2010). Code for HDP with C++ .
http://www.cs.princeton.edu/~blei/topicmodeling.html.
[5]
D. M. Blei, J.D. Lafferty (2007). “A correlated topic model of Science”. The Annals of
Applied Statistics, 2007, Vol. 1, No. 1, pp. 17-35
[6]
David Blei (2011). “Introduction to Probabilistic Topic models”.
[7]
Eneko Agirre and Aitor Soroa (2007). Semeval-2007 Task 02: “Evaluating Word Sense
Induction And Discrimination Systems”. In Proceedings of the 4th International
Workshop on Semantic Evaluations, SemEval 2007, pp. 7–12.
[8]
Hoang T.T, Nguyen P.T, (2012). “Word Sense Induction Using Correlated Topic
Model”.
[9]
Ioannis P. Klapaflis and Suresh Manandhar (2007). “UOY: A hypergraph 53 model for
word sense induction and disambiguation”. Proceedings of the 4th International
Workshop on Semantic Evaluation (SemEval-2007), pp 414-417.
[10]
J. Knopp, J. V¨olker, and S.P. Ponzetto (2013). “ Topic Modeling for Word Sense
Induction”. Springer-Verlag Berlin Heidelberg 2013, pp 97–103.
2
[11]
Patrick Pantel and Dekang Lin (2002). “Discovering word senses from text”. In
Proceedings of the eighth ACM SIGKDD international conference on Knowledge
discovery and data minin , pp 613-619.
[12]
Samuel Brody and Mirella Lapata (2009). “Bayesian Word Sense Induction”. Proceeding
of the 12th Conference of the European Chapter of the ACL, pp. 103-111.
[13]
Stefan Borda (2006). “Word Sense Induction: Triplet-Based Clustering And Automatic
Evaluation”. In Proceedings of the 11th EACL, pp. 137–144.
[14]
Suresh Manandhar, Ioannis P. Klapftis, Dmitriy Dligach and Sameer S. Pradhan (2010).
SemEval-2010 Task 14: Word Sense Induction and Disambiguation.
[15]
Wilks Y., Stevenson M (1997). “Sense Tagging: Semantic Tagging with a Lexicon”. In
Proceedings of SIGLEX Workshop on Tagging Text with Laxical Semantics: Why, What
and How?, Washington, D.C.
[16]
Xuchen Yao and Benjamin Van Durme (2011). “Nonparametric Bayesian Word Sense
Induction”. Proceedings of the TextGraphs-6 Workshop, pp. 10-14.
[17]
Y. W. Teh, M. I. Jordan, M. J. Beal, and D. M. Blei (2006). “Hierarchical Dirichlet
Processes”. Journal of the American Statistical Association, 101(476) pp. 1566–1581.
[18]
Zellig Harris (1954). Distributional Structure, pp 146-162.
3
- Xem thêm -