Ứng dụng ngôn ngữ truy vấn PML -TQ trong truy vấn Treebank Tiếng Việt

  • Số trang: 84 |
  • Loại file: PDF |
  • Lượt xem: 19 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ XUÂN HƢƠNG ỨNG DỤNG NGÔN NGỮ TRUY VẤN PML-TQ TRONG TRUY VẤN TREEBANK TIẾNG VIỆT LUẬN VĂN THẠC SĨ Hà Nội – 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ XUÂN HƢƠNG ỨNG DỤNG NGÔN NGỮ TRUY VẤN PML-TQ TRONG TRUY VẤNTREEBANK TIẾNG VIỆT Ngành: Công Nghê ̣ Thông Tin Chuyên ngành: Hệ Thống Thông Tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ HƢỚNG DẪN KHOA HỌC: TS. NGUYỄN PHƢƠNG THÁI Hà Nội – 2013 3 MỤC LỤC MỤC LỤC 3 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 4 DANH MỤC HÌNH VẼ 5 DANH MỤC CÁC BẢNG BIỂU 6 MỞ ĐẦU 7 CHƢƠNG 1 1.1 1.2 Các bài toán về xử lý ngôn ngữ tự nhiên Kho ngữ liệu, treebank và ứng dụng CHƢƠNG 2 TIN 2.1 2.2 2.3 4.1 4.2 TRUY VẤN DỮ LIỆU VIETTREEBANK VỚI PML-TQ Giới thiệu về công cụ TrEd Chuyển đổi VietTreebank sang định dạng PML Truy vấn dữ liệu với PML-TQ CHƢƠNG 4 8 8 12 XÂY DỰNG TREEBANK VÀ VẤN ĐỀ TRUY VẤN THÔNG 15 Xây dựng treebank Các định dạng treebank của một số ngôn ngữ khác Ngôn ngữ truy vấn PML-TQ CHƢƠNG 3 3.1 3.2 3.3 TỔNG QUAN KẾT QUẢ THỰC NGHIỆM Môi trƣờng thực nghiệm Một số đánh giá 15 22 29 32 32 33 35 58 58 59 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 63 PHỤ LỤC I 65 PHỤ LỤC II 79 4 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT  Treebank: Kho ngữ liệu  TrEd: Phần mềm Tree Editor  PML (Prague Markup Language): Lƣợc đồ mã hóa treebank dựa trên định dạng XML.  PML-TQ (Prague Markup Language - Tree Query): Ngôn ngữ truy vấn cho kho ngữ liệu đƣợc mã hóa dƣới dạng PML  POS (Part of speech): Từ loại (Ví dụ nhƣ: danh từ, tính từ, động từ…)  VLSP: Đề tài "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt" – Mã số: KC01.01/06-10 5 DANH MỤC HÌNH VẼ Hình 1. Ứng dụng treebank trong bài toán dịch tự động ......................... 14 Hình 2. Ví dụ minh họa định dạng Penn Treebank.................................. 24 Hình 3. Ví dụ minh họa định dạng VietTreebank .................................... 24 Hình 4. Ví dụ về phần đầu của định dạng mã hóa Tiger-XML ............... 25 Hình 5. Ví dụ về phần thân của định dạng mã hóa Tiger-XML .............. 26 Hình 6. Ví dụ định dạng CoNLL ST ........................................................ 27 Hình 7. Ví dụ minh họa định dạng Penn Arabic Treebank...................... 29 Hình 8. Dữ liệu đƣợc thể hiện dƣới dạng đồ họa hình cây ...................... 31 Hình 9. Giao diện làm việc của công cụ TrEd ......................................... 32 Hình 10. Lƣu đồ giải thuật chuyển đổi sang PML ................................. 34 Hình 11. Cụm danh từ đầy đủ là chủ ngữ .............................................. 39 Hình 12. Cụm danh từ có bốn phần tử trung tâm .................................. 40 Hình 13. Cụm từ chỉ số lƣợng có cả phụ từ và số từ ............................. 42 Hình 14. Câu trần thuật là một tít báo .................................................... 44 Hình 15. Câu hỏi có – không ................................................................. 48 Hình 16. động từ. Câu có tân ngữ trực tiếp và tân ngữ gián tiếp bổ nghĩa cho ................................................................................................. 50 Hình 17. Câu ghép song song ................................................................ 52 Hình 18. Cấu trúc câu đơn có trạng ngữ chỉ nguyên nhân..................... 53 6 DANH MỤC CÁC BẢNG BIỂU Bảng 1. Tổng hợp các bƣớc xây dựng một treebank ................................ 15 Bảng 2. Tập nhãn từ loại trong VietTreebank .......................................... 17 Bảng 3. Tập nhãn cụm từ.......................................................................... 18 Bảng 4. Tập nhãn mệnh đề ....................................................................... 18 Bảng 5. Tập nhãn chức năng cú pháp....................................................... 19 Bảng 6. Các công cụ hỗ trợ xây dựng treebank tiếng Việt....................... 21 Bảng 7. Bảng nhãn từ loại trong Penn Treebank...................................... 22 Bảng 8. Bảng nhãn cú pháp trong Penn Treebank ................................... 23 Bảng 9. Ví dụ câu ở dạng VietTreebank .................................................. 31 Bảng 10. Ví dụ dữ liệu đƣợc chuyển sang định dạng PML ................... 31 Bảng 11. Bảng so sánh cấu trúc Penn với PML tƣơng ứng. .................. 33 Bảng 12. Tổng hợp các cấu trúc câu trần thuật ...................................... 44 Bảng 13. Tổng hợp các nhãn chức năng đi kèm với nhãn SBAR .......... 46 Bảng 14. Tổng hợp các nhãn chức năng có SBAR làm bổ ngữ ............. 47 Bảng 15. Mẫu Câu có tân ngữ trực tiếp, gián tiếp bổ nghĩa cho động từ... ................................................................................................. 50 Bảng 16. Danh sách nhãn chức năng cú pháp và số lần đƣợc gán ......... 55 Bảng 17. Danh sách nhãn phân loại và số lần đƣợc gán ........................ 56 Bảng 18. Danh sách nhãn từ loại và số lần đƣợc gán............................. 56 Bảng 19. Các từ và số lần xuất hiện ....................................................... 57 Bảng 20. Các mã lệnh truy vấn độ lớn của cây ...................................... 59 Bảng 21. So sánh treebank tiếng Việt với các ngôn ngữ khác ............... 61 7 MỞ ĐẦU Kho ngữ liệu với các chú giải cú pháp (treebank) là một thành phần đóng vai trò quan trong lĩnh vực xử lý ngôn ngữ tự nhiên. Trong lĩnh vực xử lý ngôn ngữ tự nhiên có rất nhiều bài toán cần đến kho ngữ liệu nhƣ: dịch tự động, phân tích dữ liệu văn bản, nhận dạng tiếng nói, tìm kiếm thông tin, ... Để xây dựng đƣợc kho ngữ liệu, các nhà khoa học thực hiện qua hai pha. Pha 1 xây dựng một bộ dữ liệu tự động. Tại pha 1 này các nhà khoa học thƣờng sử dụng các ứng dụng, chƣơng trình máy tính để thực hiện tự động các tác vụ nhƣ: tách câu, tách từ, gán nhãn cú pháp. Pha 2: Tinh chỉnh dữ liệu. Tuy nhiên để có đƣợc một kho ngữ liệu hữu dụng thì các nhà khoa học cần phải đầu tƣ rất nhiều thời gian, công sức để tinh chỉnh lại dữ liệu đã đƣợc tạo ở pha 1. Một trong những khó khăn hiện nay trong việc tinh chỉnh kho ngữ liệu là phƣơng pháp tìm kiếm thông tin hiệu quả trên kho ngữ liệu và các công cụ hỗ trợ để tìm kiếm. Luận văn này là một nỗ lực trong việc đề xuất giải pháp tìm kiếm trên kho ngữ liệu bằng việc chuyển đổi và sử dụng định dạng PML và sử dụng ngôn ngữ truy vấn PML-TQ cùng công cụ hỗ trợ việc tìm kiếm TrEd. Ƣu điểm của giải pháp này là có thể tìm kiếm trên nhiều định dạng Treebank khác nhau theo một cách thống nhất. Đồng thời luận văn cũng đƣa racác đặc điểm ngữ pháp tiếng Việt, các đặc trƣng về mặt ngữ pháp cùng với các câu hỏi truy vấn liên quan đƣợc phát biểu dƣới dạng không hình thức bằng ngôn ngữ tự nhiên. Sau đó câu hỏi này đƣợc chuyển đổi thành các câu lệnh truy vấn hình thức bằng ngôn ngữ PML-TQ để thực hiện tìm kiếm thông tin với công cụ TrEd. 8 CHƢƠNG 1 TỔNG QUAN 1.1 Các bài toán về xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên là một lĩnh vựcliên ngành bao gồm khoa học máy tính, trí tuệ nhân tạo, ngôn ngữ học để giải quyết vấn đề tƣơng tác, trao đổi thông tin giữa con ngƣời với các hệ thống máy tính thông qua ngôn ngữ tự nhiên. Do đó xử lý ngôn ngữ tự nhiên cũng liên quan tới lĩnh vực tƣơng tác ngƣời-máy. Xử lý ngôn ngữ tự nhiên hiện nay còn rất nhiều khó khăn,thách thức cần giải quyết đó chính là các vấn đề liên quan tới việc hiểu ngôn ngữ tự nhiên – có nghĩa là cho phép máy tính có thể hiểu đƣợc ý nghĩa mà con ngƣời cần truyền đạt trong các văn bản hoặc các đầu vào khác là ngôn ngữ tự nhiên. Lịch sử của xử lý ngôn ngữ tự nhiên bắt đầu vào thập niên 1950. Vào năm 1950, Alan Turing đã xuất bản một bài báo với tựa đề “Máy tính và tính thông minh” theo đó ông đã đề xuất một thủ tục gọi là Bộ kiểm tra Turing để phục vụ việc phân loại, đánh giá mức độ thông minh của máy tính. Kể từ đó đến nay đã có rất nhiều phƣơng pháp, giải thuật đã đƣợc nghiên cứu, đề xuất để giải quyết các bài toán liên quan đến vấn đề xử lý ngôn ngữ tự nhiên. Một trong những phƣơng pháp điển hình đó là phƣơng pháp máy học. Dƣới đây là một số bài toán điển hình trong lĩnh vực xử lý ngôn ngữ tự nhiên:  Tóm tắt tự động: Sinh ra các bản tóm tắt nội dung có nghĩatừ một chuỗi các văn bản. Bài toán này thƣờng đƣợc áp dụng để sinh ra các bản tóm tắt từ một văn bản với khuôn dạng định sẵn nhƣ: các bài viết trong mục tài chính của một tờ báo.  Dịch tự động: Tự động dịch một văn bản từ một ngôn ngữ này sang một ngôn ngữ khác. Đây là một trong những bài toán khó, và nó thuộc vào phân lớp “trí tuệ nhân tạo toàn diện” (AI-complete) bởi vì để thực hiện đƣợc nó cần rất nhiều các kiến thức có liên quan tới việc nhận thức của một con ngƣời nhƣ: ngữ pháp, ngữ nghĩa, các sự thực hiển nhiên trong thế giới thực… 9  Nhận dạng chữ (OCR): Đây là bài toán giúp biến đổi từ một văn bản dạng hình ảnh thành dạng văn bản chữ thông thƣờng.  Nhận dạng giọng nói: Cho một đoạn âm thanh của một ngƣời nói, xác định câu văn của lời nói đó. Bài toán này ngƣợc với bài toán chuyển đổi văn bản thành lời nói và nó thuộc một trong những bài toán cực khó của lớp bài toán “Trí tuệ nhân tạo toàn diện”. Đối với lời nói tự nhiên thì hầu nhƣ không có điểm dừng trong khi nói, do vậy phân tách lời nói là một bài toán nằm trong bài toán nhận dạng giọng nói. Thêm vào đó khi nói các từ có thể bị trộn vào nhau do có sự luyến âm do việc biến đổi từ các tín hiệu tƣơng tự thành các từ đơn lẻ là một công việc rất khó.  Trả lời câu hỏi tự động: Cho một câu hỏi dƣới dạng ngôn ngữ tự nhiên và đƣa ra câu trả cho câu hỏi đó. Các câu hỏi thông thƣờng thƣờng có câu trả lời xác định nhƣ “Thủ đô của Việt Nam tên là gì?” tuy nhiên cũng cần phải xử lý cả những câu hỏi mở nhƣ “Ý nghĩa của cuộc đời là gì?”  Phân tích mối liên hệ: bài toán này liên quan đến một loạt các bài toán nhỏ hơn. Một trong những bài toán đó là việc xác định cấu trúc của các đoạn văn bản đƣợc nối với nhau. Ví dụ nhƣ mối liên hệ giữa các câu nhƣ:câu bổ nghĩa,câu giải thích, câu đối lập. Một bài toán khác nữa đó là nhận diện và phân loại câu trong chuỗi văn bản nhƣ: câu hỏi có-không, câu hỏi về nội dung, câu trần thuật, câu khẳng định…  Phân tíchhình thái từ (morphological segmentation): Chia tách các từ thành các đơn vị từ nguyên tử (morpheme) và xác định phân loại cho các đơn vị từ đó. Mức độ khó của vấn đề này phụ thuộc nhiều vào độ phức tạp hình thái từcủa một ngôn ngữ cụ thể (cấu trúc của từ là một ví dụ).Đối với tiếng Anhthì hình thái từ tƣơng đối đơn giản. Ví dụ từ “open” có thể có các hình thái từ nhƣ “open, opens, opened, openning”. Do đó bài toán xử lý này đối với tiếng Anh tƣơng đối đơn giản vì chúng ta có thể mô hình hóa hình vị từ thành các từ riêng lẻ. Tuy nhiên đối với các ngôn ngữ khác, ví dụ ngôn ngữ Thổ Nhĩ Kỳ, thì cách tiếp cận này là không thể do mỗi một từ có thể có có hàng ngàn hình dạng từ khác nhau. 10  Nhận dạng tên riêng: Giả sử có một chuỗi văn bản, cần xác định xem những thành phần nào trong văn bản đó tƣơng ứng với các tên riêng, ví dụ nhƣ tên ngƣời hay tên địa điểm, đồng thời xác định phân loại cho thành phần đó, ví dụ nhƣ ngƣời, địa điểm, tổ chức. Trong tiếng Anh việc sử dụng thông tin các tên riêng thƣờng đƣợc bắt đầu bằng chữ cái viết hoa để nhận dạng thành phần tên riêng tuy nhiên thông tin này không thể dùng để xác định phân loại cho tên riêng đó. Trong khi đó đối với một số ngôn ngữ khác nhƣtiếng Trung Quốc, tiếng Ả-rập thì không có chữ cái viết hoa. Thêm nữa có những ngôn ngữ nhƣ tiếng Đức thì cũng không thể dùng thông tin chữ cái viết hoa để làm thông tin nhận dạng thành phần tên riêng vì trong tiếng Đức thì tất cả các danh từ đều bắt đầu bằng chữ hoa, mà không quan tâm danh từ đó có liên quan đến tên riêng hay không.  Gán nhãn từ loại: Cho một câu, xác định từ loại của từng từ trong câu. Tuy nhiên trong thực tế tùy vào ngôn ngữthì một từ có thể là từ loại này hoặc từ loại khác tùy vào ngữ cảnh. Ví dụ trong tiếng Việt thì từ “đá” có thể mang nghĩa của một động từ hoặc là danh từ. Do đó bài toán này có nhiều khó khăn khi phải xử lý vấn đề nhập nhằng trong ngôn ngữ.  Phân tích cú pháp: Xây dựng cây cú pháp của một câu cho trƣớc. Do ngữ pháp của ngôn ngữ tự nhiên thƣờng chứa đựng yếu tố nhập nhằng và một câu văn thƣờng có thể có nhiều hơn một ý nghĩa. Vì vậy trong thực tế, một câu có thể có hàng ngàn cách phân tích cú pháp.  Phân tích tính cảm xúc: Trích xuất các thông tin quan trọng từ một tập các văn bản để xác định “tính phân cực” (chiều hƣớng cảm xúc, ý nghĩ) của các đối tƣợng cụ thể. Điều này đặc biệt hữu ích trong việc xác định xu hƣớng của các ý kiến đƣợc công khai trên các mạng xã hội và nó cũng giúp ích cho các hoạt động tiếp thị.  Phân tách và nhận dạng chủ đề: Cho một chuỗi văn bản, tách nó thành các văn bản theo chủ đề và xác định chủ đề của các văn bản đó.  Phân tách từ: Phân tách một chuỗi văn bản liên tục thành các từ riêng lẻ. Đối với ngôn ngữ nhƣ tiếng Anh, thì đây là việc đơn giản, do các từ 11 thƣờng đƣợc phân tách bởi khoảng trống. Tuy nhiên đối với một số ngôn nhƣ: Trung Quốc, Nhật Bản, Thái Lan thì các từ không đƣợc phân tách theo cách trên. Do đó công việc phân tách từ đối với các ngôn ngữ này là một công việc đòi hỏi việc kết hợp các kiến thức liên quan tới từ vựng, hình thái của từ trong ngôn ngữ cụ thể.  Giải quyết vấn đề nhập nhằng nghĩa của từ: Đối với từ có nhiều hơn một nghĩa, chúng ta thƣờng chọn nghĩa phù hợp nhất tùy thuộc vào ngữ cảnh. Đối với bài toán này, chúng ta thƣờng cho ra một danh sách các từ và các nghĩa tƣơng ứng.  Hiểu ngôn ngữ tự nhiên: Chuyển đổi một tập các văn bản thành một dạng thông tin hình thức, ví dụ nhƣ cấu trúc logic bậc 1 mà các chƣơng trình máy tính có thể sử dụng đƣợc. Bài toán hiểu ngôn ngữ tự nhiên liên quan đến việc xác định đƣợc ý nghĩa cần truyền tải là gì trong số các ngữ nghĩa có thể có của một văn bản. Giải pháp xây dựng một metamodel (mô hình siêu đặc tả) cho ngôn ngữ và ontology (bộ dữ liệu mô tả nhận thức của con ngƣời về thế giới tự nhiên và xã hội) có thể là hiệu quả tuy nhiên đây chỉ là những giải pháp mang tính kinh nghiệm. Phƣơng pháp đặc tả hình thức hóa một cách rõ ràng của các ngữ nghĩa ngôn ngữ tự nhiên mà không quan tâm đến các dụng ý là một hƣớng tiếp cận đƣợc mong đợi cho vấn đề xây dựng một nền tảng mô hình hình thức hóa đặc tả ngữ nghĩa.  Sinh ngôn ngữ tự nhiên: Chuyển đổi thông tin từ dữ liệu máy tính thành ngôn ngữ con ngƣời có thể đọc đƣợc. Trên đây là một sô bài toán điển hình trong lĩnh vực xử lý ngôn ngữ tự nhiên, một lĩnh vực mà còn nhiều thách thức đối với các nhà khoa học. Trong các bài toán đã nêu ở trên, ở các mức độ khác nhau, rất nhiều các bài toán cần tới kho ngữ liệu treebank cho quá trình xử lý, tính toán nhƣ: dịch tự động, sinh ngôn ngữ tự nhiên, tóm tắt…Do đó việc xây dựng một kho ngữ liệu treebank đầy đủ, hữu dụng là một công việc rất quan trọng đối với vấn đề giải quyết các bài toán về xử lý ngôn ngữ nói riêng và nghiên cứu khoa họcnói chung. 12 1.2 Kho ngữ liệu, treebank và ứng dụng Một treebank là một kho dữ liệu văn bản đã đƣợc phân tích cú pháp từ một kho dữ liệu văn bản thô, theo đó mỗi câu trong văn bản đều đƣợc phân tích các yếu tố cú pháp ví dụ nhƣ gán chú giải cấu trúc cú pháp cho câu. Cấu trúc cú pháp thƣờng đƣợc biểu diễn dƣới dạng hình cây do vậy chúng ta sử dụng thuật ngữ là treebank. Thông thƣờng thuật ngữ kho ngữ liệu cú pháp và thuật ngữ treebank thƣờng có thể thay thế tƣơng ứng cho nhau trong quá trình sử dụng. Một treebank đƣợc xây dựng dựa trên một tập văn bản đã đƣợc phân tích và gán nhãn từ loại. Sau đó, các treebank có thể đƣợc tinh chỉnh thêm với các thông tin về ngữ nghĩa và các thông tin ngôn ngữ họckhác. Các treebank có thể đƣợc các nhà ngôn ngữ học xây dựng hoàn toàn thủ công hoặc theo cách bán tự động. Theo cách bán tự động thì các công cụ phân tích cú pháp sẽ tự động gán thông tin và đƣa ra một cấu trúc cú pháp, sau đó các nhà ngôn ngữ học sẽ kiểm tra và chỉnh sửa lại nếu cần. Trong thực tế thì việc kiểm tra, hoàn thiện toàn bộ quá trình phân tích cú pháp của một kho ngôn ngữ tự nhiên là một công việc tốn rất nhiều công sức và thời gian. Việc tinh chỉnh và gán nhãn có thể mất tới hàng năm. Các yếu tố nhƣ mức độ chi tiết của các thông tin chú thích cú pháp, sự đóng góp của các nhà ngôn ngữ học sẽ quyết định độ khó và thời gian hoàn thành của việc xây dựng một treebank. Sau khi treebank đƣợc xây dựng và hoàn thiện, nó có thể ứng dụng vào rất nhiều bài toán khác nhau trong lĩnh vực xử lý ngôn ngữ tự nhiên cũng nhƣ phục vụ cho công tác nghiên cứu ngôn ngữ nói chung của các nhà ngôn ngữ học. 1.2.1 Ứng dụng trong lĩnh vực nghiên cứu ngôn ngữ Trong thực tế, treebank là một nguồn thông tin vô cùng hữu ích cho nhiều hình thức nghiên cứu ngôn ngữ dựa trên các tập ngữ liệu. Các nghiên cứu này không chỉ bó hẹp trong các vấn đề về quy tắc cú pháp mà còn mở rộng đến việc nghiên cứu các hiện tƣợng ngôn ngữ dựa trên các đặc điểm quy tắc cú pháp đó. Một trong những ƣu điểm của việc dùng treebank so với các kho ngữ liệu thô đó là nó cho phép chúng ta có thể đặt các câu hỏi một cách chính xác, do đó chúng ta nhận đƣợc tập câu trả lời chính xác hơn nhờ việcloại bớt đi các dữ liệu không 13 mong muốn.Lấy một ví dụ cụ thể, từ “đi” trong tiếng Việt vừa là động từ, vừa là phụ từ, vừa là trợ từ.  Ví dụ từ “đi” đóng vai trò là động từ (V): Cô gái đi nhanh nhƣ chạy  Ví dụ từ “đi” đóng vai trò là phụ từ (R): Mỗi lần gặp tôi, hắn kể đi kể lại một chuyện  Ví dụ từ “đi” đóng vai trò là trợ từ (T): Mọi ngƣời hãy góp gió đi Nhƣ vậy nếu sử dụng treebank chúng ta có thể đƣa ra đƣợc tất cả các câu cú pháp có từ “đi” với vai trò là trợ từ một cách chính xác để nghiên cứu mà không bị lẫn các câu có từ đi với vai trò là động từ hay phụ từ.Tuy nhiên để có thể sử dụng hiệu quả treebank cho việc nghiên cứu thì cần có các công cụ phù hợp hỗ trợ việc đặt câu hỏi truy vấn, duyệt dữ liệu. Ngoài việc sử dụng treebank cho việc nghiên cứu các hiện tƣợng cú pháp, treebank cũng còn đƣợc ứng dụng để nghiên cứu các vấn đề về định tính, định lƣợng của ngôn ngữ. Bằng việc sử dụng các công cụ truy vấn thông tin, chúng ta có thể trích xuất rất nhiều thông tin nhƣ: - Tần suất xuất hiện của một từ cụ thể trong kho ngữ liệu - Tần suất sử dụng của các loại từ loại: từ loại nào thƣờng đƣợc sử dụng nhất, từ loại nào ít đƣợc sử dụng nhất - Liệt kê các từ chƣa đƣợc phân loại 1.2.2 Ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên Treebank đƣợc ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên theo hai hƣớng: Hƣớng thứ nhất: Treebank đƣợc dùng nhƣ là bộ dữ liệu đểkiểm chứng độ chính xác hay đánh giá tốc độ xử lý của các hệ thống xử lý ngôn ngữ tự nhiên. Ví dụ sau khi một bộ tách từ tự động đƣợc xây dựng xong, chúng ta cần đánh giá độ chính xác của việc tách từ tự động. Để đánh giá chúng ta cần nạp vào một kho ngữ liệu thô để chƣơng trình thực hiện. Kết quả là chƣơng trình sẽ cho ra một kho ngữ liệu đã đƣợc phân tách từ. Nhƣ vậy để đánh giá độ chính xác ta cần 14 so sánh kết quả tách từ từ chƣơng trình tự động này với kho ngữ liệu đã đƣợc phân tách gán nhãn chuẩn. Hƣớng thứ hai: Treebank đƣợc dùng nhƣ là dữ liệu đầu vào cho quá trình phân tích, xử lý của các hệ thống nhƣ: dịch tự động, chuyển đổi dạng văn bản sang tiếng nói, nhận dạng văn bản từ ảnh,…Trong các bài toán này, treebank thƣờng đƣợc sử dụng nhằm nâng cao độ chính xác của kết quả đầu ra. Ngôn ngữ nguồn Bộ xử lý ngôn ngữ Ngôn ngữ đích Treebank Hình 1. Ứng dụng treebank trong bài toán dịch tự động 15 CHƢƠNG 2 XÂY DỰNG TREEBANK VÀ VẤN ĐỀ TRUY VẤN THÔNG TIN 2.1 Xây dựng treebank 2.1.1 Tổng quan các bƣớc xây dựng treebank Xây dựng treebank là một quá trình đòi hỏi tốn nhiều công sức và thời gian. Mỗi nhóm nghiên cứu xây dựng treebank có thể có sự khác nhau về một số chi tiết, tuy nhiên, các bƣớc xây dựng một treebank có thể đƣợc tóm lƣợc nhƣ trình bày trong bảng 1 Bƣớc Các công việc - Tìm hiểu các vấn đề về ngôn ngữ: phân biệt câu, phân biệt từ, từ loại… Tìm hiểu và thiết kế - Thiết kế các nhãn từ loại - Thiết kế định dạng mã hóa treebank - Lập tài liệu hƣớng dẫn gán nhãn - Lựa chọn nguồn văn bản và số lƣợng Xây dựng bộ ngữ liệu thô - Xây dựng bộ dữ liệu thô từ nguồn văn bản đã lựa chọn với số lƣợng đƣợc ấn định - Tách câu văn bản thành các từ đơn lẻ Gán nhãn dữ liệu Duyệt và tinh chỉnh - Gán nhãn từ loại, nhãn cú pháp,nhãn phân loại cho các đơn vị từ - Thực hiện các bƣớc xem xét, đánh giá để đảm bảo các đơn vị từ đƣợc gán nhãn đúng đắn - Thực hiện lại bƣớc gán nhãn nếu cần thiết Lƣu thông tin Bảng 1. - Lƣu các thông tin đã đƣợc phân tích và gán nhãn vào cơ sở dữ liệu với định dạng đã đƣợc thiết kế ở bƣớc đầu tiên Tổng hợp các bƣớc xây dựng một treebank 16 Trong các bƣớc nêu trên thì bƣớc gán nhãn dữ liệu có thể thực hiện một cách thủ công hoàn toàn hoặc bán thủ công bằng cách sử dụng các công cụ phần mềm nhƣ: bộ tách câu, bộ tách từ, bộ gán nhãn cú pháp…Đối với mỗi một ngôn ngữ sẽ có các bộ công cụ phần mềm tƣơng ứng. Các công cụ hỗ trợ cho việc xây dựng treebank tiếng Việt sẽ đƣợc trình bày chi tiết trong mục 2.1.3 2.1.2 Xây dựng treebank tiếng Việt Với tiếng Việt, treebank đƣợc nghiên cứu xây dựng trong khuôn khổđề tài VLSP [3] và có tên làVietTreebank. Mục tiêu củaVietTreebank là xây dựngđƣợc một kho ngữ liệu chú giải cú pháp với độ lớn là 10.000 câu. Tập nhãn của VietTreebank đƣợc thiết kế[2] gồm có:  Tập nhãn từ loại. Về nguyên tắc,các thông tin về từ có thể đƣợc chứa trong nhãn từ loại bao gồm: từ loại cơ sở (danh từ, động từ,...), thông tin hình thái (số ít, số nhiều, thì, ngôi,…), thông tin về phân loại con (ví dụ động từ đi với danh từ, động từ đi với mệnh đề,...), thông tin ngữ nghĩa, hay một số thông tin cú pháp khác. Với đặc điểm của tiếng Việt, tập nhãn từ loại chỉ chứa thông tin về từ loại cơ sở mà không bao gồm các thông tin nhƣ hình thái, phân loại con,... Các nhãn từ loại: STT Tên Chú thích 1 N Danh từ 2 Np Danh từ riêng 3 Nc Danh từ chỉ loại 4 Nu Danh từ đơn vị 5 V Động từ 6 A Tính từ 7 P Đại từ 17 8 L Định từ 9 M Số từ 10 R Phụ từ 11 E Giới từ 12 C Liên từ 13 I Thán từ 14 T Trợ từ 15 U Từ đơn lẻ 16 Y Từ viết tắt 17 X Các từ không phân loại đƣợc Bảng 2. Tập nhãn từloại trong VietTreebank  Tập nhãn các thành phần cú pháp. Tập nhãn này chứa các nhãn mô tả các thành phần cú pháp cơbản là cụm từ và mệnh đề. Nhãn thành phần cú pháp là thông tin cơ bản nhất trên cây cú pháp, nó tạo thành xƣơng sống của cây cú pháp. Tập nhãn cú pháp của các ngôn ngữ khác nhau là khác nhau (ở một tỉlệ nhất định) vì hai nguyên nhân. Nguyên nhân cơ bản nhất là do sự khác biệt về ngôn ngữ. Chẳng hạn nhƣ trong tiếng Trung, từ chỉ loại có chức năng làm bổ nghĩa trƣớc cho danh từ. Từ chỉ loại lại có thể đƣợc kết hợp với sốtừ trong phần phụ trƣớc của cụm danh từ. Vì vậy nhóm thiết kế Chinese Treebank (CTB) đã đặt ra nhãn cụm từ chỉ loại. Đây là một điểm khác biệt với treebank tiếng Anh (PTB). Nguyên nhân thứ hai là do kỹ thuật thiết kế tập nhãn. Chẳng hạn nhƣ với các cụm từ nghi vấn, PTB có bốn loại nhãn là WHNP, WHPP, WHADJP,WHADVP. Trong khi CTB lại chỉ đặt ra một nhãn chức năng là WH. Nhãn này sẽ đƣợc dùng kèm với nhãn cụm từ khi trong cụm từ đó có từ dùng để hỏi. Nhƣ vậy vẫn đủ để mô tả các cụm từ nghi vấn (NP-WH, PP-WH, ADJP-WH, ADVP-WH). Các nhãn cụm từ: 18 STT Tên Chú thích NP Cụm danh từ VP Cụm động từ AP Cụm tính từ RP Cụm phụ từ PP Cụm giới từ QP Cụm từ chỉ số lƣợng MDP Cụm từ tình thái WHNP Cụm danh từ nghi vấn (ai, cái gì, con gì, v.v.) WHAP Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao, v.v.) WHRP Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn, v.v. WHPP Cụm giới từ nghi vấn (với ai, bằng cách nào, v.v.) Bảng 3. Tập nhãn cụm từ Các nhãn mệnh đề: STT Tên Chú thích S Câu trần thuật (khẳng định hoặc phủ định) SQ Câu hỏi SE Câu cảm thán SC Câu mệnh lệnh SBAR Mệnh đề phụ (bổ nghĩa cho danh từ, động từ, và tính từ) … … Bảng 4. Tập nhãn mệnh đề  Tập nhãnchức năng ngữ pháp: Nhãn chức năng của một thành phần cú pháp cho biết vai trò của nó trong thành phần cú pháp mức cao hơn. Nhãn chức năng cú pháp đƣợc gán cho các thành phần chính trong câu nhƣ chủ 19 ngữ, vị ngữ, tân ngữ. Nhờ thông tin do nhãn chức năng cung cấp ta có thể xác định các loại quan hệ ngữ pháp cơ bản sau đây: o Chủ-vị o Đề-thuyết o Phần chêm o Bổ ngữ o Phụ ngữ o Sự kết hợp Các nhãn chức năng cú pháp STT Tên Chú thích SBJ Nhãn chức năng chủ ngữ OBJ Nhãn chức năng tân ngữ trực tiếp IO Nhãn chức năng tân ngữ gián tiếp TPC Nhãn chức năng chủ đề PRD Nhãn chức năng vị ngữ không phải cụm động từ … Bảng 5. … Tập nhãn chức năng cú pháp Việc thực hiện gán nhãnđƣợc thực hiện qua ba bƣớc: tách từ, gán nhãn từ loại và gán nhãn cú pháp. Quá trình gán nhãn thực hiện tài liệu hƣớng dẫn gán nhãn[2]. Một số ví dụ gán nhãn cú pháp: - Gán nhãn cho cụm danh từ: NP Cấu trúc cơ bản của một cụm danh từ: Với cụm danh từ: “quả bóng màu xanh”, ta có: 20 (NP(Nu quả) (N bóng) (N màu xanh) ) - Gán nhãn cho cụm động từ: VP Giống nhƣ cụm danh từ, cấu tạo một cụm động từ về cơ bản nhƣ sau: <động từ trung tâm> Với cụm động từ: “đang ăn cơm”, ta có: (VP (R đang) (V ăn) (NP cơm)) - Gán nhãn cho câu trần thuật: S Theo quan điểm coi cấu trúc chủ-vị là cấu trúc chủ đạo của câu tiếng Việt, một câu trần thuật gồm hai phần là chủ ngữ và vị ngữ: Trong đó chủ ngữ thƣờng là cụm danh từ, còn vị ngữ thƣờng là cụm động từ hoặc cụm tính từ. Với một số ngôn ngữ nhƣ tiếng Anh, vị ngữ luôn là cụm động từ. Với câu: “Anh yêu em”, ta có: (S (NP-SBJ Anh) (VP (V yêu) (NP-OBJ em)) (. .)) Toàn bộ quy trình, quy tắc gán nhãn đƣợc trình bày chi tiết và đầy đủ trong tài liệu hƣớng dẫn gán nhãn của nhóm thực hiện đề tài xây dựng treebank tiếng Việt[2]. 2.1.3 Các công cụ hỗ trợ xây dựng treebank tiếng Việt
- Xem thêm -