Xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm Tag

  • Số trang: 52 |
  • Loại file: PDF |
  • Lượt xem: 351 |
  • Lượt tải: 0
tailieuonline

Đã đăng 27429 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHUẤT THỊ THỦY XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Khuất Thị Thủy XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG Chuyên ngành: Bảo đảm toán học cho máy tính và hệ thống tính toán Mã số : 60.46.35 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS. Nguyễn Thị Minh Huyền Hà Nội – 2012 MỤC LỤC DANH MỤC CHỮ VIẾT TẮT ........................................................................ 2 DANH MỤC HÌNH .......................................................................................... 3 MỞ ĐẦU ........................................................................................................... 4 Chương 1 Hệ hình thức văn phạm TAG ........................................................... 6 1.1. Văn phạm phi ngữ cảnh ......................................................................... 6 1.2. Văn pha ̣m TAG ...................................................................................... 7 1.3. Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh của dự án XTAG ..................................................................................................... 16 1.4. Định dạng TAGML cho cơ sở dữ liệu TAG ........................................ 19 Chương 2 Xây dựng cơ sở dữ liệu dựa trên từ điển và quy tắc ngữ pháp ...... 24 2.1. Giới thiệu về từ điển............................................................................. 24 2.2. Xây dựng cơ sở dữ liệu ........................................................................ 26 Chương 3 Trích rút tự động văn phạm TAG từ treebank tiếng Việt .............. 32 3.1. Trích rút tự động văn phạm TAG từ treebank tiếng Việt .................... 32 3.2. Đánh giá kết quả của hai phương pháp ................................................ 39 KẾT LUẬN ..................................................................................................... 42 TÀI LIỆU THAM KHẢO ............................................................................... 43 PHỤ LỤC ........................................................................................................ 45 Luận văn tốt nghiệp DANH MỤC CHỮ VIẾT TẮT API Application Programming Interface LMF Lexical Markup Framework LLP2 Loria LTAG Parser 2 LTAG Lexicalized Tree Adjoining Grammar TAG Tree Adjoining Grammar TAGML Tree Adjoining Grammars Markup Language XML eXtensible Markup Language Học viên: Khuất Thị Thủy 2 Luận văn tốt nghiệp DANH MỤC HÌNH Hình 1.1 Mô tả cây khởi tạo 9 Hình 1.2 Mô tả cây phụ trợ 9 Hình 1.3 Cây khởi tạo 9 Hình 1.4 Cây phụ trợ 9 Hình 1.5 Phép thế 10 Hình 1.6 Minh họa cho phép thế 10 Hình 1.7 Phép kết nối cây 11 Hình 1.8 Minh họa cho phép kết nối cây 12 Hình 1.9 Sơ đồ phép thế cây với cấu trúc đặc trưng 12 Hình 1.10 Sơ đồ phép kết nối cây với cấu trúc đặc trưng 13 Hình 1.11 Các cây cơ sở của câu “Yesterday John saw Marry” 13 Hình 1.12 Dẫn xuất của câu “Yesterday John saw Marry” 14 Hình 1.13 Cây cú pháp của câu “Yesterday John saw Marry” 14 Hình 1.14 cây dẫn xuất của câu “Yesterday John saw Marry” 15 Hình 1.15 Cây minh họa cho họ cây nội động từ 18 Hình 1.16 Cây minh họa cho họ cây ngoại động từ 18 Hình 1.17 Cây minh họa cho họ cây mà động từ có chính xác hai bổ ngữ 19 Hình 1.18 Các cây phụ trợ là giới từ 19 Học viên: Khuất Thị Thủy 3 Luận văn tốt nghiệp MỞ ĐẦU Phân tích cú pháp là một trong những bài toán cơ bản và quan trọng trong xử lý ngôn ngữ tự nhiên. Kết quả của phân tích cú pháp được sử dụng trong rất nhiều ứng dụng như dịch máy, hỏi đáp, trích chọn thông tin… Phân tích cú pháp đưa ra các mô tả về quan hệ giữa các thành phần trong câu. Bài toán phân tích cú pháp liên quan tới hai khía cạnh: Khía cạnh thứ nhất là phân tích cú pháp thành phần tức là xác định các thành phần ngữ đoạn trong câu; khía cạnh thứ hai là phân tích cú pháp phụ thuộc tức là xác định sự phụ thuộc về ngữ nghĩa giữa các từ trong câu. Mỗi bộ phân tích cú pháp đều cần tập các quy tắc của ngôn ngữ (chính là các đặc tả hình thức của ngôn ngữ đang xét), các quy tắc này thì được biểu diễn bởi một hệ hình thức văn phạm cụ thể nào đó. Các hình thức văn phạm thường được sử dụng trong phân tích cú pháp là văn phạm phi ngữ cảnh và các văn phạm hợp nhất. Hợp nhất văn phạm TAG là một trong những văn phạm được sử dụng phổ biến hiện nay. Đầu vào của bài toán phân tích cú pháp là câu đã được phân tách thành các từ, trong đó mỗi từ có đặc điểm hình thái xác định. Quá trình kiểm tra cú pháp tiến hành phân tích và tổ hợp các từ ở đầu vào, dựa trên các luật cú pháp để loại bỏ các trường hợp bất quy tắc và từng bước dựng lên cấu trúc cú pháp (cây cú pháp) của câu. Kết quả cần đạt được là hình thái của câu. Do đó, để bộ phân tích cú pháp hoạt động được thì cần có cơ sở dữ liệu là một văn phạm theo một hệ hình thức văn phạm cụ thể nên việc xây dựng cơ sở dữ liệu cho phân tích cú pháp là việc làm hết sức quan trọng. Trong khuôn khổ của luận văn tốt nghiệp cao học em xin trình bày nghiên cứu của mình với đề tài: “Xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG”. Nội dung của luận văn được bố cục như sau: Học viên: Khuất Thị Thủy 4 Luận văn tốt nghiệp Chương 1 trình bày tổng quan về hệ hình thức văn phạm TAG: Các cây cơ sở, các thao tác trong TAG, cây dẫn xuất; cơ sở dữ liệu cho phân tích cú pháp tiếng Anh với TAG, chuẩn mã hóa dữ liệu cho TAG. Đóng góp của luận văn được trình bày ở chương 2. Chương này trình bày thuật toán để xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG bằng phương pháp dựa trên từ điển và quy tắc ngữ pháp. Chương 3 của luận văn trình bày một phương pháp xây dựng cơ sở dữ liệu khác là trích rút tự động văn phạm TAG từ Treebank tiếng Việt và đưa ra các đánh giá đối với kết quả xây dựng cơ sở dữ liệu của hai phương pháp trên. Học viên: Khuất Thị Thủy 5 Luận văn tốt nghiệp Chƣơng 1 Hệ hình thức văn phạm TAG Trước khi trình bày về cơ sở dữ liệu cho phân tích cú pháp với hệ hình thức TAG thì chương này trình bày các kiến thức cơ sở về hình thức văn phạm TAG. 1.1. Văn phạm phi ngữ cảnh Văn phạm hay văn phạm sinh là một bộ bốn (Σ, V, σ, P) trong đó: - Σ: Bảng chữ cái chính hay bảng chữ cái từ của văn phạm; - V: Bảng chữ cái phụ hay bảng chữ cái hỗ trợ của văn phạm; Σ, V là các tập hữu hạn và khác trống; V’ = Σ  V - Bảng chữ cái hỗn hợp hay bảng chữ cái đầy đủ của văn phạm; Σ  V = Ø; - σ  V và được gọi là tiên đề hay ký hiệu xuất phát của văn phạm; - P = {φ → ψ | φ  (Σ  V)+, ψ  (Σ  V)*, →  (Σ  V)}: Sơ đồ hay tập quy tắc của văn phạm; r = φ → ψ được gọi là quy tắc (hay quy tắc thế hoặc quy tắc sinh) của văn phạm; φ - vế trái, ψ - vế phải của quy tắc r. Quy tắc r được gọi là quy tắc kết (hoặc quy tắc kết thúc) nếu ψ   và không một ký hiệu nào thuộc ψ mà lại xuất hiện ở vế trái của quy tắc trong P ([6]). Văn phạm phi ngữ cảnh là văn phạm mà mọi quy tắc đều có dạng A → α, trong đó A là ký hiệu không kết và α là xâu bất kỳ. Văn phạm phi ngữ cảnh thường được lựa chọn để biểu diễn cấu trúc cú pháp của các ngôn ngữ tự nhiên vì nó đủ mạnh để mô tả hầu hết những cấu trúc của ngôn ngữ tự nhiên. Văn phạm phi ngữ cảnh khi được sử dụng để biểu diễn cấu trúc cú pháp thì các ký hiệu kết thúc tương ứng với các từ trong ngôn Học viên: Khuất Thị Thủy 6 Luận văn tốt nghiệp ngữ, các ký hiệu không kết thúc tương ứng với các phân loại cú pháp (hay từ loại). Tiên đề biểu diễn phân loại "câu". Các quy tắc sinh biểu diễn các quy tắc ngữ pháp. Ta có thể chia chúng thành các qui tắc từ vựng (chứa ít nhất một ký hiệu kết thúc) và các qui tắc ngữ đoạn (không chứa ký hiệu kết thúc nào). Với mỗi từ trong từ vựng có một tập các qui tắc sinh chứa từ này trong vế phải. Tuy nhiên văn phạm phi ngữ cảnh vẫn còn nhiều mặt hạn chế (sẽ được trình bày rõ trong phần ưu điểm của TAG) nên trên thực tế cần phát triển những văn phạm có khả năng thể hiện ý nghĩa ngôn ngữ học tốt hơn. TAG là một hình thức văn phạm như thế. 1.2. Văn pha ̣m TAG Văn phạm kết nối cây (Tree Adjoining Grammar - TAG) là hệ hình thức viết lại dạng cây, được đưa ra nửa cuối thập kỷ 80. Khác với văn phạm phi ngữ cảnh – hệ hình thức viết lại dạng xâu, TAG thao tác với các đối tượng cơ bản là các đối tượng có cấu trúc (cây). Vì vậy, TAG cho phép sinh ra các mô tả cấu trúc chứ không phải tập các xâu. TAG sử dụng hai loại cây cơ bản để biểu diễn các cấu trúc tương ứng với các đơn vị ngôn ngữ: Cây khởi tạo biểu diễn thành phần bắt buộc của câu; Cây phụ trợ biểu diễn cấu trúc cho phép thêm vào các thành phần phụ của câu. 1.2.1. Đinh ̣ nghiã hình thức của văn pham ̣ TAG Văn phạm TAG gồm 5 thành phần (N, Σ, I, A, S) trong đó ([7]): N: tập hữu hạn các kí hiệu không kết thúc Σ: tập hữu hạn các kí hiệu kết thúc I: tập hữu hạn các cây khởi tạo. Trong cây khởi tạo thì các nút lá được đánh nhãn là kí hiệu kết thúc hoặc không kết thúc. Các nút mà tại đó có nhãn là kí hiệu không kết thúc thì được đánh dấu thêm kí hiệu thay thế, kí hiệu thay thế này được đánh dấu trên cây bằng một dấu mũi tên đi xuống (xem hình 1.1). Học viên: Khuất Thị Thủy 7 Luận văn tốt nghiệp Hình 1.1: Mô tả cây khởi tạo A: tập hữu hạn các cây phụ trợ. Cây phụ trợ có chứa một nút lá trùng tên với nút gốc (mang kí hiệu không kết thúc). Ở nút lá này được đánh dấu với kí hiệu * ở bên cạnh và được gọi là nút chân của cây phụ trợ (xem hình 1.2). Mỗi cây phụ trợ chỉ có một nút chân. Hình 1.2 : Mô tả cây phụ trợ Ví dụ cây khởi tạo (xem hình 1.3) NP V S NP↓ Harry likes VP V NP↓ peanuts Hình 1.3: Cây khởi ta ̣o Ví dụ cây phụ trợ (xem hình 1.4) S S NP↓ V VP S* V does think Hình 1.4: Cây phu ̣ trơ ̣ Học viên: Khuất Thị Thủy 8 S*↓ Luận văn tốt nghiệp S: tiên đề, S  N. Tập các cây thuộc tập I  A được gọi là cây cơ sở. 1.2.2. Các phép toán của TAG Một cây (tương ứng với một cấu trúc câu) trong văn phạm TAG được tạo thành từ sự kết hợp các cây cơ sở của TAG bằng hai phép toán là phép thế và phép kết nố i cây, trong đó phép kết nố i cây giữ vai trò quan trọng trong TAG. 1.2.2.1 Phép thế Các nút tại đó thực hiện phép thế được bổ sung thêm ký hiệu ↓. Phép thế thực hiê ̣n viê ̣c thay t hế một cây có nhãn Y vào một cây có nhãn Y ↓. Phép thế là bắt buộc tại các nút có ký hiệu thế. Phép thế được minh họa bởi hình 1.5 Hinh 1.5: Phép thế Ví dụ: NP S John S NP↓ VP V NP NP↓ John V saw saw Hình 1.6: Minh ho ̣a cho phép thế Học viên: Khuất Thị Thủy VP 9 NP↓ Luận văn tốt nghiệp 1.2.2.2. Phép kết nố i cây Phép kết nố i cây dùng để xây dựng một cây mới γ từ một cây phụ trợ β (nút gốc của β được đánh nhãn là X) và một cây α khác (cây α có thể là cây khởi tạo, hoặc cây phụ trợ hoặc cây dẫn được từ các cây ban đầu bằng các phép toán). Phép toán có thể xem như là hai lần thực hiện sự thay thế như sau: Cây con tại nút X của cây α bị gỡ bỏ, cây β được thay thế vào nút X và cây con gỡ bỏ lúc trước thì được thế vào nút chân của cây β. Phép toán được minh họa như trong hình 1.7 Hình 1.7: Phép kết nố i cây Ví dụ được minh họa trong hình 1.8. Khả năng thực hiện của hai phép toán kết nối và thế trên các cây còn bị ràng buộc bởi cấu trúc đặc trưng gắn trên mỗi nút của cây. Cấu trúc đặc trưng của một đối tượng là một tập hợp các cặp thuộc tính và giá trị thuộc tính gắn với đối tượng đó. Trong TAG thì các thuộc tính được phân thành hai loại: thuộc tính trên và thuộc tính dưới. Các thuộc tính trên chứa các thông tin liên quan tới nút cha, các thuộc tính dưới chứa các thông tin liên quan tới các nút con. Khi thực hiện phép kết nối hay phép thế thì phép hợp nhất các cấu trúc đặc trưng cũng được thực hiện trên các nút mà tại đó phép thế và phép kết nối được thực hiện. Nếu phép hợp nhất không thực hiện được (khi các thuộc tính Học viên: Khuất Thị Thủy 10 Luận văn tốt nghiệp sinh ra không thống nhất) thì thao tác (kết nối hoặc thế) không được phép thực hiện. Phép thế, phép kết nối với các nút được gắn thêm cấu trúc đặc trưng lần lượt được minh họa trong hình 1.9 và 1.10. S ADV S NP↓ S* VP Yesterday V saw S ADV Yesterday S VP NP↓ V NP↓ saw Hình 1.8: Minh ho ̣a cho phép kết nố i cây Hình 1.9: Sơ đồ phép thế cây với cấu trúc đặc trƣng Học viên: Khuất Thị Thủy 11 NP↓ Luận văn tốt nghiệp Hình 1.10: Sơ đồ phép kết nối cây với cấu trúc đặc trƣng 1.2.3. Cây dẫn xuấ t trong TAG Sự tạo thành một cây từ các cây cơ sở thông qua 2 phép toán thế và kết nố i cây được go ̣i là một cây dẫn được. Cây cú pháp là cây dẫn được mà mọi nút lá đều là kí hiệu kết. Ví dụ, cho các cây cơ sở sau: S S ADV NP↓ S* Yesterday VP V NP↓ saw NP NP John Marry Hình 1.11: Các cây cơ sở của câu “Yesterday John saw Marry” Thực hiện quá trình dẫn xuất để được cây cú pháp của câu “Yesterday John saw Marry” được minh họa trong hình với nối, biểu diễn cho phép thế Học viên: Khuất Thị Thủy 12 biểu diễn cho phép Luận văn tốt nghiệp S ADV S S* NP↓ VP Yesterday NP NP↓ V John NP saw Marry Hình 1.12: Dẫn xuất của câu “Yesterday John saw Marry” Và cây cú pháp của câu trên là cây sau: S ADV S VP NP Yesterday V NP saw Marry John Hình 1.13: Cây cú pháp của câu “Yesterday John saw Marry” Đối với văn phạm phi ngữ cảnh, cho một cây dẫn được ở một thời điểm là đủ để xác định ngay các quy tắc dẫn xuất đã thực hiện. Ví dụ với cây ở hình 1.13 ta suy ra dẫn xuất thực hiện là: Học viên: Khuất Thị Thủy 13 Luận văn tốt nghiệp S  ADV S VP V NP ADV  yesterday V  saw S  NP VP NP Marry NP  John Còn với TAG thì không đúng thế nữa (xem hình 1.12), từ cây phân tích chúng ta không thể biết nó được tạo thành từ bao nhiêu cây cơ sở và những cây đó là cây nào cũng như các cây đó được kết hợp với nhau tại những nút nào. Để giải quyết vấn đề này trong TAG đưa ra một khái niệm là cây dẫn xuất. Cây này cho phép xem xét và lưu giữ mọi thông tin về việc sử dụng phép thay thế, phép kết nối trong quá trình dẫn xuất cây trong TAG. Cây dẫn xuất có cấu tạo như sau:  Mỗi nút là tên của một cây cơ sở  Các cung biểu diễn phép toán: nét liền biểu diễn phép nối, nét đứt biểu diễn phép thế  Mỗi nút gán một địa chỉ: Nút gốc có địa chỉ 0, nút con thứ k của nút có địa chỉ j thì sẽ có địa chỉ là j.k Ví dụ cây dẫn xuất của câu “Yesterday John saw Marry” được biểu diễn trong hình 1.14 saw John (1.1) Marry (2.2) Yesterday (0) Hình 1.14: cây dẫn xuất của câu “Yesterday John saw Marry” 1.2.4. Ưu điểm của văn phạm TAG Mỗi hệ hình thức văn phạm có một miền xác định phụ thuộc cục bộ (domain of locality), đó là phạm vi mà trong đó các phụ thuộc khác nhau (về Học viên: Khuất Thị Thủy 14 Luận văn tốt nghiệp cú pháp và ngữ nghĩa) có thể được mô tả. Trong văn phạm phi ngữ cảnh thì miền xác định phụ thuộc là một mức trên cây tương ứng với một quy tắc sinh. Xét văn phạm G: S → NP VP (1) NP → Harry (4) VP → V NP (2) NP → peanuts (5) VP → VP ADV (3) V → likes (6) ADV → passionately (7) Dễ thấ y các tham tố của vị từ không thuô ̣c cùng mô ̣t miề n xác đinh ̣ phu ̣ thuô ̣c. Trong văn pha ̣m G ở trên hai tham tố của vị từ likes nằ m trên hai miề n xác định phụ thuộc: S NP VP và VP V NP. Hai tham tố này có thể đươ ̣c phân bố trên cùng mô ̣t pha ̣m vi nế u ta sử du ̣ng luâ ̣t S NP V NP thay cho hai luâ ̣t trên. Tuy nhiên nế u làm như vâ ̣y thì cấ u trúc của nút VP sẽ bi ̣mấ t đi. Một hệ hình thức gồm các quy tắc cú pháp từ vựng hoá sẽ có tính mô tả ngôn ngữ học cao, làm cho các quy tắc gắn với các từ mô tả được đặc trưng riêng của từ đó. Cần chú ý rằng không phải tất cả các quy tắc của CFG đều từ vựng hoá được. Trong ví dụ trên, bốn quy tắc (4), (5), (6), (7) đã được từ vựng hóa vì chúng là các quy tắc si nh từ vựng. Ba quy tắc (1), (2), (3) không phải là các quy tắc sinh từ vựng . Nhưng hai quy tắc (2), (3) sẽ được từ vựng hóa khi thay thế V bởi likes và thay ADV bởi passionately, còn quy tắc (1) thì không thể từ vựng hóa đươ ̣c. Như vậy, so với văn phạm phi ngữ cảnh thì văn phạm TAG có những ưu điểm sau:  Miền phụ thuộc được mở rộng do đó TAG có khả năng mô tả phụ thuộc ngữ nghĩa giữa các thành phần.  Văn phạm TAG có khả năng biểu diễn mạnh hơn văn phạm phi ngữ cảnh. Tất cả các văn phạm phi ngữ cảnh đều có thể chuyển thành TAG, điều ngược lại không đúng. Học viên: Khuất Thị Thủy 15 Luận văn tốt nghiệp  Văn phạm TAG có thể từ vựng hóa được còn văn phạm phi ngữ cảnh thì không. Văn phạm TAG hiện được nghiên cứu và sử dụng rộng rãi. Phần tiếp theo sẽ trình bày về cơ sở dữ liệu của dự án XTAG – cơ sở dữ liệu cho phân tích cú pháp tiếng Anh dựa trên hệ hình thức TAG. Việc tìm hiểu cơ sở dữ liệu này cho phép ta có cái nhìn tổng thể về một cơ sở dữ liệu đầy đủ cho phân tích cú pháp của một ngôn ngữ. 1.3. Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh của dự án XTAG XTAG là một dự án sử dụng hệ hình thức văn phạm TAG dùng cho tiếng Anh, được nghiên cứu bởi các nhà khoa học thuộc Viện Nghiên cứu khoa học nhận dạng, Đại học Pennsylvania (Institute for Research in Cognitive Science, University of Pennsylvania). Nhóm XTAG đã xây dựng được một lượng lớn các cây cơ sở dùng cho phân tích cú pháp tiế ng Anh . Các cây này được đặt trong cơ sở dữ liệu cây trong hê ̣ thố ng phân tích XTAG . Cơ sở dữ liệu này chứa các cây đã đươ ̣c từ vựng hóa với các nút neo và quy tắ c ngữ pháp có thể kế t hơ ̣p với cây khác . Tuy nhiên để giảm bớt công việc tìm kiếm khi phân tích thì các cây có đặc điểm chung được xếp thành một nhóm. Mỗi nhóm này gọi là một họ cây . Các cây này đươ ̣c phân xế p thành các họ cây theo các khung phân loại và quy tắc ngữ pháp , ví dụ như ho ̣ các cây ngoa ̣i đô ̣ng từ chỉ có mô ̣t đố i số là cu ̣m danh từ làm bổ ngữ , họ cây ngoại động từ có hai đối số là hai cụm danh từ làm bổ ngữ, họ cây nội động từ không có bổ ngữ, … Với tiếng Anh thì cấu trúc cú pháp của câu là có động từ làm trung tâm nên các tập các cây khởi tạo chứa cấu trúc cú pháp của câu sẽ là cây có gắn với một nút neo là động từ. Các cây phụ trợ được xây dựng có thể từ danh từ, bổ ngữ, định ngữ, giới từ ,.... Học viên: Khuất Thị Thủy 16 Luận văn tốt nghiệp Ví dụ về một số họ cây thuộc lớp động từ: Nội động từ: Tnx0V Đây là họ cây của các động từ mà không cần có bổ ngữ. Cụm trạng từ, cụm giới từ và các định ngữ khác có thể được thêm vào trong câu nhưng không nhất thiết phải có. Ví dụ như eat, sleep, dance,…. Cây mô tả cho lớp động từ này minh họa trong hình 1.15. Hình 1.15: Cây minh họa cho họ cây nội động từ Ngoại động từ: Tnx0Vnx1 Đây là họ cây được chọn bởi các động từ mà chỉ yêu cầu một đối tượng NP làm bổ ngữ. NP có thể là một cấu trúc đầy đủ, bao gồm các danh động từ hay là một câu đầy đủ. Điều này không bao gồm quan điểm xây dựng động từ. Ví dụ eat, dance, take, …Cây mô tả lớp động từ này minh họa trong hình 1.16 Hình 1.16: Cây minh họa cho họ cây ngoại động từ Học viên: Khuất Thị Thủy 17 Luận văn tốt nghiệp Lớp có 2 bổ ngữ: Tnx0Vnx2nx1 Đây là họ cây được chọn bởi các động từ có chính xác 2 bổ ngữ NP. Cây minh họa cho các động từ thuộc lớp này Hình 1.17: Cây minh họa cho họ cây mà động từ có chính xác hai bổ ngữ Ví dụ với họ các cây phụ trợ là giới từ Hình 1.18: Các cây phụ trợ là giới từ Như vậy, với cú pháp tiếng Anh thì nhóm XTAG đã dựa trên quy tắc ngữ pháp để xây dựng cơ sở dữ liệu. Vận dụng cách xây dựng của họ thì đối với tiếng Việt cũng xây dựng tập các cây khởi tạo là các thành phần chính (nòng cốt) của câu, cây phụ trợ là các thành phần tham gia làm phụ tố cho nòng cốt. Nhưng khác với tiếng Anh thì tiếng Việt ngoài cú pháp câu với Học viên: Khuất Thị Thủy 18
- Xem thêm -