Tài liệu Phân tích cú pháp phụ thuộc.pptx

  • Số trang: 28 |
  • Loại file: PPTX |
  • Lượt xem: 102 |
  • Lượt tải: 0
thucaothi349968

Tham gia: 25/12/2016

Mô tả:

Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyềền thông ĐÊỀ TÀI PHẪN TÍCH CÚ PHÁP PHỤ THUỘC G I Ả N G V I Ê N H Ư Ớ N G DẪẪ N : T S . N G U Y ỄỄ N T H Ị THU HƯƠNG NHÓM SINH VIÊN TH ỰC HI ỆN: NHÓM 6 PHẪỀN I. TỔNG QUAN PHÂN TÍCH CÚ PHÁP NGÔN NGỮ TỰ NHIÊN 2 06/21/2019 1. BIỂU DIÊẪN CÚ PHÁP 3 Biểu diễễn thành phầần Biểu diễễn phụ thuộc S N V VP N V N NP D PP N P D P NP D N N D They killed the man with a gun They killed the man with a gun 06/21/2019 2. HAI KHÁI NIỆM PHẪN TÍCH CÚ PHÁP 4  GRAMMAR PARSING    Cho một văn phạm và một xâu đâầu vào Tìm một sốố hoặc tâốt cả các phân tích được gán cho bởi .  Bài toán well-defined abstract; khống dựa trên thực nghiệm. TEXT PARSING   Cho một đoạn văn bản trong ngốn ngữ , xác định phép phân tích đúng cho mốỗi câu . Bài toán xâốp xỉ dựa trên thực nghiệm; khống rõ tính well-defined abstract. 06/21/2019 3. CÁC TIÊU CHÍ ĐÁNH GIÁ 5 Xét   một hệ thốống được sử dụng để phân tích các đoạn văn bản thuộc ngốn ngữ . Robustness Với mốỗi trong , gán ít nhâốt một phân tích cho tâốt cả các câu . Disambiguation Với mốỗi trong , gán nhiêầu nhâốt một phân tích cho tâốt cả các câu . Accuracy Với mốỗi trong , gán một phân tích đúng cho tâốt cả các câu . Efficiency Với mốỗi trong , xử lý một xâu trong thời gian và khống gian là tuyêốn tính với độ dài . 06/21/2019 4. HAI PHƯƠNG PHÁP PHẪN TÍCH CÚ PHÁP ĐOẠN 6VĂN BẢN (1)  HƯỚ   NG VĂN PHẠM  Xâốp xỉ dựa vào văn phạm:  Một sốố vâốn đêầ trọng tâm: Robustness, disambiguation và efficiency. HƯỚNG DỮ LIỆU  Xâốp xỉ quy nạp:  Mố hình hình thức định nghĩa các phân tích hợp lệ. Một đọan văn bản mâỗu .  Sơ đốầ suy luận quy nạp .   Một sốố vâốn đêầ trọng tâm: Accuracy và efficiency. 06/21/2019 4. HAI PHƯƠNG PHÁP PHẪN TÍCH CÚ PHÁP ĐOẠN 7VĂN BẢN (2) SO SÁNH HAI PHƯƠNG PHÁP Hướng văn phạm Hướng dữ liệu Robustness Disambiguation Accuracy Eficiency 06/21/2019 PHẪỀN II. PHÂN TÍCH CÚ PHÁP PHỤ THUỘC 8 06/21/2019 1. VĂN PHẠM9PHỤ THUỘC KHÁI NIỆM PHỤ THUỘC  Ý tưởng cơ bản:  Câốu trúc cú pháp của một câu bao gốầm các phâần tử từ vựng được liên kêốt với nhau thống qua các mốối quan hệ nhị phân bâốt đốối xứng gọi là các phụ thuộc.  Mốỗi quan hệ phụ thuộc bao gốầm một thành phâần trung tâm (head) và một thành phâần phụ thuộc (dependent) PU PRED ATT PC OBJ SBJ ATT ATT ATT ROOT Economic news had little effect on financial markets . Head Dependent 06/21/2019 1. VĂN PHẠM10PHỤ THUỘC MỘT SỐỐ DẠNG QUAN HỆ PHỤ THUỘC  Hai dạng quan hệ phụ thuộc thường được tìm thâốy trong nhiêầu tài liệu hiện nay là head-complement và headmodifier. Head-modifier Head-complement PU PRED ATT PC OBJ SBJ ATT ATT ATT ROOT Economic news had little effect on financial markets . 06/21/2019 1. VĂN PHẠM11PHỤ THUỘC  MỘT SỐỐ DẠNG QUAN HỆ PHỤ THUỘC  Tốần tại một sốố trường hợp khống rõ ràng  Một nhóm các động từ (auxillary verb main verb)  Các mệnh đêầ phụ (complementizer verb)  Các mệnh đêầ tương đương (coordinator conjuncts)  Các mệnh đêầ giới ngữ (preposition nominal)  Dâốu câu  Ví dụ: I can see that they rely on this and that . 06/21/2019 2. PHẪN TÍCH CÚ PHÁP PHỤ THUỘC 12  HƯỚ   NG VĂN PHẠM Mô hình của Gaifman  Một hệ phụ thuộc bao gốầm ba tập luật:    : Các luật có dạng , dùng để chỉ từ loại có th ể xuâốt hi ện v ới các t ừ loại như các dependents. : Các luật gán cho mốỗi từ loại X một dãy các từ thuộc vêầ nó. : Một luật gán danh sách tâốt cả các từ loại một sự kiện có th ể dâỗn đêốn việc hình thành một câu.  Một câu chứa các từ được phân tích băầng cách gán cho nó một dãy các từ loại và một quan hệ phụ thuộc giữa các từ sao cho 6 điêầu kiện xác định được giữ. 06/21/2019 2. PHẪN TÍCH CÚ PHÁP PHỤ THUỘC 13 PHƯƠNG PHÁP PHẪN TÍCH CÚ PHÁP PHỤ THUỘC HƯỚNG VĂN PHẠM Văn phạm phụ thuộc và văn phạm phi ngữ cảnh  Văn phạm phụ thuộc (Gaifman) và văn phạm phi ngữ cảnh là tương đương yêốu. Chúng đêầu mố tả lớp ngốn ngữ phi ngữ cảnh.  Bâốt kỳ hệ phụ thuộc nào đêầu có thể chuyển thành văn ph ạm phi ngữ cảnh tương đương mạnh. Chiêầu ngược lại chỉ đúng với một tập con chặt của văn phạm phi ngữ cảnh.  Kêốt luận văn phạm phụ thuộc chỉ là một biêốn thể chặt của văn phạm phi ngữ cảnh là chưa đâầy đủ (chưa xét đêốn non-projective dependency structure).  Sự tương đốầng của hai loại văn phạm cho phép sử dụng cùng các phương pháp phân tích cú pháp. 06/21/2019 2. PHẪN TÍCH CÚ PHÁP PHỤ THUỘC 14 PH ƯƠNG PHÁP PHẪN TÍCH CÚ PHÁP PHỤ THUỘC HƯỚNG  VĂN PHẠM Mô hình bilexcical grammar của Eisner (2000)  Văn phạm bao gốầm hai thành phâần: 1. 2. Một tập các kí hiệu kêốt thúc (từ), chứa ký hiệu đặc biệt ROOT. Với mốỗi từ , một cặp automata hữu hạn đơn định và . Mốỗi automata châốp nhận một tập con chính quy nào đâốy của .  Ngốn ngữ được định nghĩa như sau: 1. 2. 3. 4. Một cây phụ thuộc là một cây có gốốc mà trong đó, mốỗi node là m ột t ừ từ , nút gốốc là ROOT. Có xét thứ tự các node con. Cây phụ thuộc có tính văn phạm nêốu với mọi từ , châốp nh ận dãy con trái của và châốp nhận dãy con phải của . Một xâu được sinh bởi với phân tích nêốu là một cây phụ thuộc có tính văn phạm và liệt kê nhãn của theo thứ tự trung tốố t ạo ra theo sau b ởi ROOT. Ngốn ngữ là tập các xâu đợc sinh bởi . 06/21/2019 2. PHẪN TÍCH CÚ PHÁP PHỤ THUỘC 15 PHƯƠNG PHÁP PHẪN TÍCH CÚ PHÁP PHỤ THUỘC HƯỚNG DỮ LIỆU Mô hình của Eisner (1996)  Đưa ra khái niệm Weighted Bilexical Grammar (WBG).  Đêầ xuâốt 3 mố hình xác suâốt khác nhau để thực hiện phân tích cú pháp phụ thuộc, hay nói cách khác, 3 chiêốn lược đánh trọng sốố khác nhau bên trong framework của WBG.  Nghiên cứu này có hai ảnh hưởng quan trọng:  Chỉ ra răầng mố hình xác suâốt sinh mâỗu và phương pháp học có giám sát có thể được áp dụng đốối với các biểu diêỗn phụ thuộc để thu được tính chính xác tương đốối.  Chỉ ra răầng các mố hình này có thể được kêốt hợp với các kyỗ thuật phân tích cú pháp hiệu quả để tận dụng các thuộc tính đặc biệt của câốu trúc cú pháp. 06/21/2019 2. PHẪN TÍCH CÚ PHÁP PHỤ THUỘC 16 PHƯƠNG PHÁP PHẪN TÍCH CÚ PHÁP PHỤ THUỘC HƯỚNG DỮ LIỆU  Một sốố cống trình tiêu biểu Cách tiêốp cận của Collins et al. (1999)  Cách tiêốp cận của Samuelsson (2000)  Cách tiêốp cận của Wang & Harper (2004)  Cách tiêốp cận trong tài liệu này tương tự cách tiêốp cận theo hướng quyêốt định của Yumada & Masumoto (2003).  06/21/2019 2. PHẪN TÍCH CÚ PHÁP PHỤ THUỘC 17  TIÊỀ   M NĂNG CỦA PHẪN TÍCH CÚ PHÁP PHỤ THUỘC  Các liên kêốt phụ thuộc sát hơn với các mốối quan h ệ ngữ nghĩa.  Cây phụ thuộc chứa một nodetừ Chỉ phải liên kêốt các node có săỗn, khống phải sinh ra các node mới, tiêốp cận được trực tiêốp hơn  Phân tích cú pháp phụ thuộc seỗ thao tác, xử lý trên từng từ một Khống phải đợi toàn bộ cụm từ. 06/21/2019 3. FRAMEWORK 18  CÁC   ĐỊNH NGHĨA CƠ BẢN  Định nghĩa 1. Một đoạn văn bản là một dãy các câu  Định nghĩa 2. Một câu là một dãy các tokens  Định nghĩa 3. Một token là một dãy các ký tự  Với một câu , ta định nghĩa hàm: 06/21/2019 3. FRAMEWORK 19  ĐỐỀ  THỊ PHỤ THUỘC  Định nghĩa 4. Cho một tập các kiểu phụ thuộc, một đốầ thị phụ thuộc ứng với một câu là một đốầ thị có hướng được gán nhãn , trong đó:  Định nghĩa 5. Một đốầ thị phụ thuộc là đúng đăốn khi và chỉ khi 1. 2. Node 0 là node gốốc. liên thống. 06/21/2019 3. FRAMEWORK 20  ĐỐỀ  THỊ PHỤ THUỘC CÓ TÍNH CHIÊỐU  Định nghĩa 6. Một đốầ thị phụ thuộc có tính chiêốu là một đốầ thị phụ thuộc đúng đăốn thỏa mãn những điêầu kiện sau: 3. Tâốt cả các node có nhiêầu nhâốt một head. Nghĩa là, nêốu thì khống tốần tại một node sao cho và . 4. Đốầ thị là á chu trình. Nghĩa là, nêốu thì khống có 5. Đốầ thị có tính chiêốu. Nghĩa là, nêốu thì với mọi sao cho hoặc . 06/21/2019
- Xem thêm -