Đăng ký Đăng nhập
Trang chủ Nghiên cứu xác định đồng sở chỉ và ứng dụng cho tiếng việt...

Tài liệu Nghiên cứu xác định đồng sở chỉ và ứng dụng cho tiếng việt

.PDF
14
83
92

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN —————————— Nguyễn Việt Hùng NGHIÊN CỨU XÁC ĐỊNH ĐỒNG SỞ CHỈ VÀ ỨNG DỤNG CHO TIẾNG VIỆT Chuyên ngành: Cơ sở toán cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Lê Hồng Phương Hà Nội - 2015 LỜI CẢM ƠN Trong quá trình học tập và nghiên cứu, em đã nhận được sự hướng dẫn tận tình của thầy Lê Hồng Phương và cô Nguyễn Thị Minh Huyền. Em xin chân thành cảm ơn thầy, cô đã giúp đỡ em rất nhiều trong học tập cũng như trong công việc. Em xin gửi lời cảm ơn tới các thầy, cô giáo đã nhiệt tình giảng dạy các chuyên đề Cao học cho chúng em. Em cũng xin được cảm ơn gia đình, bạn bè, đồng nghiệp, những người luôn quan tâm, động viên em trong quá trình học tập và làm luận văn. Hà Nội, ngày 29 tháng 11 năm 2015 Học viên Nguyễn Việt Hùng i Mục lục Danh sách bảng v Danh sách hình vẽ vi Giới thiệu 1 1 Tổng quan về xác định đồng sở chỉ 4 1.1 Bài toán xác định đồng sở chỉ . . . . . . . . . . . . . . . . . . . 5 1.2 Cách giải quyết bài toán xác định đồng sở chỉ . . . . . . . . . . 7 1.2.1 Xác định các đề cập . . . . . . . . . . . . . . . . . . . . 7 1.2.2 Xác định quan hệ đồng sở chỉ . . . . . . . . . . . . . . . 8 Phương pháp xác định đồng sở chỉ . . . . . . . . . . . . . . . . 11 1.3.1 Phương pháp phân loại . . . . . . . . . . . . . . . . . . . 11 1.3.2 Phương pháp phân cụm . . . . . . . . . . . . . . . . . . 12 1.3.3 Phương pháp lai . . . . . . . . . . . . . . . . . . . . . . 13 Đánh giá kết quả xác định đồng sở chỉ . . . . . . . . . . . . . . 14 1.4.1 Ngữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.4.2 Độ đo đánh giá . . . . . . . . . . . . . . . . . . . . . . . 14 1.3 1.4 2 Phương pháp xác định đồng sở chỉ bằng sàng nhiều lượt 22 2.1 Kiến trúc hệ thống . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.2 Một số quá trình xử lý của hệ thống . . . . . . . . . . . . . . . 25 2.2.1 Xác định các đề cập . . . . . . . . . . . . . . . . . . . . 25 2.2.2 Xử lý các cụm đơn . . . . . . . . . . . . . . . . . . . . . 26 2.2.3 Đầu vào và đầu ra của mỗi bước sàng . . . . . . . . . . . 26 ii 2.2.4 Xác định đại diện của các cụm . . . . . . . . . . . . . . 27 2.2.6 Việc gộp các cụm . . . . . . . . . . . . . . . . . . . . . . 27 Các lượt sàng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.3.1 Xác định người nói . . . . . . . . . . . . . . . . . . . . . 28 2.3.2 So khớp chuỗi chặt . . . . . . . . . . . . . . . . . . . . . 29 2.3.3 So khớp chuỗi nới lỏng . . . . . . . . . . . . . . . . . . . 29 2.3.4 Một số trường hợp chính xác cao . . . . . . . . . . . . . 29 2.3.5 So khớp từ chính chặt . . . . . . . . . . . . . . . . . . . 30 2.3.6 So khớp từ chính biến thể . . . . . . . . . . . . . . . . . 30 2.3.7 So khớp từ chính là danh từ riêng . . . . . . . . . . . . . 30 2.3.8 So khớp từ chính nới lỏng . . . . . . . . . . . . . . . . . 30 2.3.9 Xác định đồng sở chỉ cho các đại từ . . . . . . . . . . . . 31 Kết quả cho tiếng Anh . . . . . . . . . . . . . . . . . . . . . . . 31 2.4.1 Ngữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.4.2 2.4 26 2.2.5 2.3 Chia sẻ đặc trưng giữa các đề cập trong một cụm . . . . Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3 Ứng dụng cho tiếng Việt 3.1 33 Công cụ tách từ, gán nhãn từ loại . . . . . . . . . . . . . 33 3.1.2 Kho ngữ liệu có gán nhãn cú pháp thành phần . . . . . . 34 3.1.3 Kho ngữ liệu có gán nhãn cú pháp phụ thuộc . . . . . . 34 3.1.4 Kho ngữ liệu có gán nhãn vai nghĩa . . . . . . . . . . . . 34 Phương pháp sàng nhiều lượt cho tiếng Việt . . . . . . . . . . . 35 3.2.1 Các lượt sàng . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2.2 Xác định đặc trưng của các đề cập cho tiếng Việt . . . . 41 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.3.1 Ngữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.3.2 3.3 33 3.1.1 3.2 Các công cụ đã có cho xử lý tiếng Việt . . . . . . . . . . . . . . Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 42 Kết luận 43 Tài liệu tham khảo 45 iii Phụ lục 49 VietTreebank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Một số quan hệ phụ thuộc cho tiếng Việt . . . . . . . . . . . . . . . . 49 Phân tích vai nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 iv Danh sách bảng 1.1 Các đặc trưng cơ bản của mô hình xác định đồng sở chỉ học máy 9 1.2 Các bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.1 Các lượt sàng trong tiếng Anh . . . . . . . . . . . . . . . . . . . 28 2.2 Các bộ dữ liệu thử nghiệm . . . . . . . . . . . . . . . . . . . . . 32 2.3 Kết quả hệ thống hệ thống Stanford với một số bộ dữ liệu . . . 32 2.4 Kết quả hệ thống Stanford tại cuộc thi năm 2013 . . . . . . . . 32 3.1 Các lượt sàng áp dụng cho tiếng Việt . . . . . . . . . . . . . . . 35 3.2 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 42 3.3 Tập nhãn từ loại trong VietTreeBank . . . . . . . . . . . . . . . 49 3.4 Tập nhãn cụm từ trong VietTreeBank . . . . . . . . . . . . . . 50 3.5 Các nhãn chức năng cú pháp trong VietTreebank . . . . . . . . 50 v Danh sách hình vẽ 1.1 Phân tích cú pháp thành phần của một câu trong tiếng Việt . . . . . . 7 2.1 Kiến trúc hệ thống xác định đồng sở chỉ của Stanford [17] . . . . . . . 23 3.1 Phân tích cú pháp câu "Tôi đã mua quyển sách mà thầy giáo giới thiệu." 37 3.2 Phân tích cú pháp câu "Quyển sách rất hay." . . . . . . . . . . . . . . 38 3.3 Phân tích cú pháp câu "Hà Nội, thủ đô của Việt Nam, đang bị ô nhiễm." 39 3.4 Phân tích cú pháp câu "Hà Nội là thủ đô của Việt Nam." . . . . . . . 40 3.5 Câu tiếng Anh được gán nhãn vai nghĩa. vi . . . . . . . . . . . . . . . . 54 Giới thiệu Trong ngôn ngữ học, thuật ngữ đồng sở chỉ được dùng để nói về quan hệ giữa các cụm từ cùng chỉ tới một thực thể. Xác định đồng sở chỉ là quá trình tìm các cụm từ trong văn bản cùng tham chiếu tới một thực thể. Xác định đồng sở chỉ là một vấn đề cơ bản trong ngôn ngữ tự nhiên. Đây là một bước quan trọng trong việc phân tích và hiểu ngữ nghĩa của văn bản. Ví dụ: John là một nhạc sĩ. Anh ấy chơi một ca khúc mới. Một cô gái chăm chú lắng nghe ca khúc. "Đây là bài hát yêu thích của tôi", John nói với cô ấy. Để hiểu được đoạn văn bản trên, trước tiên chúng ta cần phải xác định các đối tượng được nói tới (đề cập) trong văn bản. Có 11 (sự) đề cập trong đoạn văn trên là: [John]1 là [một nhạc sĩ]2 . [Anh ấy]3 chơi [một ca khúc mới]4 . [Một cô gái]5 chăm chú lắng nghe [ca khúc]6 . "[Nó]7 là [bài hát yêu thích của [tôi]9 ]8 ", [John]1 0 nói với [cô ấy]1 1. Các đề cập này nói tới 3 đối tượng: • Một người nhạc sĩ tên John: [John]1 , [một nhạc sĩ]2 , [Anh ấy]3 , [tôi]9 , [John]1 0. • Một cô gái nghe nhạc của John: [Một cô gái]5 , [cô ấy]1 1. • Một bài hát mới của John: [một ca khúc mới]4 , [ca khúc]6 , [Nó]7 , [bài hát yêu thích của tôi]8 . Bài toán xác định đồng sở chỉ đã được nghiên cứu nhiều cho tiếng Anh và vẫn là vấn đề thời sự. Các phương pháp luận đã áp dụng cho tiếng Anh cũng được phát triển rộng rãi cho các ngôn ngữ khác [5]. Bài toán xác định đồng sở chỉ được giải quyết thông qua hai bước: • Bước 1: Xác định các đề cập trong văn bản; 1 • Bước 2: Xác định quan hệ đồng sở chỉ giữa các đề cập này. Bước 1 có thể được giải quyết bằng cách xác định các cụm danh từ trong văn bản, đây thường là các đề cập trong văn bản. Bước 2 là trọng tâm để giải quyết bài toán. Trong đa số các trường hợp, khi nói tới việc xác định đồng sở chỉ cho văn bản, người ta tập trung vào giải quyết bước này. Bài toán xác định đồng sở chỉ có thể mô hình hóa theo hai cách: • Xác định mỗi cặp đề cập có quan hệ đồng sở chỉ hay không. • Phân cụm các đề cập sao cho các đề cập trong mỗi cụm tham chiếu đến cùng một thực thể. Theo mô hình thứ nhất, bài toán này được đưa về bài toán phân lớp. Còn theo mô hình thứ hai, ta có một bài toán phân cụm. Một số hệ thống có thể sử dụng cả hai mô hình trên. Tiêu biểu là hệ thống xác định đồng sở chỉ với kiến trúc sàng nhiều lượt của nhóm xử lý ngôn ngữ trường Đại học Stanford cho kết quả tốt với tiếng Anh và đã được áp dụng cho các ngôn ngữ khác với kết quả khả quan [17]. Với tiếng Việt, các nghiên cứu về đồng sở chỉ chưa nhiều, và chỉ tập trung vào một số bài toán riêng như xác định các thực thể định danh [23] [15] [22] [20], xác định hồi chỉ của một số đại từ đặc biệt. Do vậy, mục tiêu của luận văn là nghiên cứu xây dựng một hệ thống xác định đồng sở chỉ trong văn bản tiếng Việt. Yêu cầu đầu tiên cho mọi hệ thống xác định đồng sở chỉ là xác định đặc trưng cho xác đề cập (hoặc cụm đề cập). Trong luận văn này, bộ đặc trưng của tiếng Anh được sử dụng làm cơ sở để xây dựng bộ đặc trưng cho tiếng Việt với một số thay đổi cho phù hợp với đặc điểm ngôn ngữ. Quá trình xác định các đặc trưng của đề cập (hoặc cặp đề cập) cần rất nhiều thông tin, càng nhiều thông tin được xác định, kết quả xác định đồng sở chỉ sẽ càng chính xác. Trong tiếng Anh, đã có rất nhiều các công cụ hỗ trợ để xác định các đặc trưng này. Với tiếng Việt, có rất nhiều hạn chế về các công cụ xử lý ngôn ngữ cơ bản: chưa có WordNet cho tiếng Việt, cũng chưa có các công cụ có độ chính xác cao được chia sẻ để thực hiện các công việc như xác định 2 các thực thể định danh (NER), chưa có các từ điển thống nhất để xác định các thông tin hình thái như giống đực/cái, chỉ người/chỉ vật,... Một công việc cần thiết để xác định đồng sở chỉ cho tiếng Việt là cần xây dựng bộ các công cụ để hỗ trợ xác định các quan hệ và đặc trưng của các đề cập. Trong quá trình ứng dụng cho tiếng Việt, thực nghiệm được tiến hành trên kho ngữ liệu Viettreebank [16] thuộc đề tài VLSP 1 gồm 10000 câu đã được phân tích cú pháp. Kho ngữ liệu này được bổ sung thông tin cú pháp phụ thuộc [8] và thông tin về vai nghĩa [6] để xác định các đặc trưng cho mô hình. Luận văn có cấu trúc gồm 3 phần chính: • Chương 1 trình bày tổng quan về bài toán xác định đồng sở chỉ, các cách tiếp cận giải bài toán xác định đồng sở chỉ. • Chương 2 trình bày về hệ thống xác định đồng sở chỉ theo kiến trúc sàng nhiều lượt. • Chương 3 trình bày về việc ứng dụng sàng nhiều lượt để xác định đồng sở chỉ cho tiếng Việt và thực nghiệm. 1 http://vlsp.vietlp.org:8080 3 Hình 3.2: Phân tích cú pháp câu "Quyển sách rất hay." cụm này ngăn cách nhau bởi dấu "," và tách biệt với vị ngữ bởi dấu ",". Vị ngữ chỉ định Cặp cụm danh từ được liên kết bằng vị ngữ chỉ định sẽ có quan hệ đồng sở chỉ. Trường hợp này được nhận biết thông qua phân tích cú pháp bằng tìm các mệnh đề có cụm vị ngữ có vị từ chính là "là". Mệnh đề cần tìm sẽ có cấu trúc dạng "NP VP(là NP)". Ví dụ: Hà Nội là thủ đô của Việt Nam. Trong ví dụ này, cụm NP "Hà Nội" có cụm vị ngữ VP "là thủ đô của Việt Nam" - với vị từ chính "là" và cụm NP "thủ đô của Việt Nam". Một cách đơn giản hơn để xác định các cặp đề cập trong trường hợp này là sử dụng kết quả của phân tích vai nghĩa. Ta sẽ tìm tất cả các trường hợp xuất hiện của REL "là". Các cặp cụm danh từ trong ARG-0 và ARG-1 có quan hệ đồng sở chỉ. So khớp từ chính chặt chẽ Trong hiện tượng này, hai cụm danh từ có từ chính giống nhau, có sự tương đồng về cấu trúc cú pháp (cây cú pháp bao trùm nhau) có quan hệ đồng sở chỉ. Cách thức để nhận biết trong trường hợp này là so sánh hai cây cú pháp, nếu một cây là cây con của cây kia thì hai đề cập sẽ có quan hệ đồng sở chỉ. 38 Hình 3.3: Phân tích cú pháp câu "Hà Nội, thủ đô của Việt Nam, đang bị ô nhiễm." Phân cụm các đề cập còn lại Ở bước này, các cụm thu được sau các bước so khớp trước sẽ chọn ra các đề cập đại diện và được xác định xác đặc trưng để tiến hành phân cụm. Thuật toán phân cụm được sử dụng là DBSCAN với chỉ số MinPts = 2. Khoảng cách giữa hai đề cập được tính theo công thức: dist(N Pi , N Pj ) = f ∈F wf ∗ incompatibilityf (N Pi , N Pj ) trong đó, • F là tập hợp các đặc trưng • f là một đặc trưng • wf là trọng số của đặc trưng f 39 Hình 3.4: Phân tích cú pháp câu "Hà Nội là thủ đô của Việt Nam." • incompatibilityf là một hàm số tính khoảng cách của hai đề cập theo đặc trưng f, hàm này trả về giá trị giữa 0 và 1. Các đặc trưng được sử dụng được cho trong bảng: Danh sách các từ 10 1 nếu tất cả các từ thuộc đề cập này thuộc đề cập kia, 0 nếu ngược lại. Từ chính 1 1 nếu khác từ chính, 0 nếu cùng từ chính. Khoảng cách câu 5 (khoảng cách số câu)/(tổng số câu). Khoảng cách đoạn 5 (khoảng cách đoạn)/(tổng số đoạn). Là chuỗi con -∞ 1 nếu một đề cập là chuỗi con của đề cập còn lại Số ít, số nhiều ∞ 1 nếu không thể cùng loại, 0 nếu ngược lại Tên riêng ∞ 1 nếu cùng là tên riêng, 0 nếu ngược lại 40 3.2.2 Xác định đặc trưng của các đề cập cho tiếng Việt Vấn đề quan trọng nhất trong hệ thống xác định đồng sở chỉ cho tiếng Việt chính là xác định các thông tin và các đặc trưng cho các đề cập. Các đặc trưng này có thể là các đặc trưng để so khớp một cặp đề cập hoặc để phân cụm các đề cập. Với tiếng Việt, do không có sẵn các công cụ bổ trợ như công cụ xác định và phân lớp theo thực thể định danh (NER), các từ điển riêng (mỗi công cụ của một nhóm nghiên cứu đều có các từ điển riêng như: từ điển các tên gọi khác nhau, các danh sách các từ đặc biệt để xác định người người nói,...), WordNet, việc xác định các đặc trưng của các đề cập cũng là một bài toán khó. Phương pháp được đề xuất trong báo cáo để giải quyết vấn đề này là phân tích cú pháp và phân tích vai nghĩa. Quá trình phân tích cú pháp cho chúng ta thông tin về ngữ pháp của văn bản, giúp xác định các cụm danh từ, từ chính của cụm danh từ, nhãn từ loại,... Phân tích vai nghĩa sẽ giúp làm rõ quan hệ giữa các cụm từ trong câu thông qua động từ [6]. Thông tin này giúp xác định các quan hệ đặc biệt giữa các đề cập và dễ dàng xác định người nói. 3.3 Thực nghiệm Các thực nghiệm được tiến hành để đánh giá khả năng ứng dụng kiến trúc sàng nhiều lượt cho tiếng Việt. 3.3.1 Ngữ liệu Thực nghiệm được tiến hành trên 3000 câu trong 50 văn bản được lấy từ kho ngữ liệu VietTreebank gồm 10000 câu đã được phân tích cú pháp thành phần. 3000 câu này đã được bổ sung thông tin về cú pháp phụ thuộc [8] và thông tin về vai nghĩa [6] và được xác định đồng sở chỉ thủ công. 41
- Xem thêm -

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất