Tài liệu Chương iii- phân tích cú pháp

  • Số trang: 60 |
  • Loại file: PDF |
  • Lượt xem: 496 |
  • Lượt tải: 0
tranvantruong

Đã đăng 3224 tài liệu

Mô tả:

CHƯƠNG III- Phân tích cú pháp
CHƢƠNG III Phân tích cú pháp Mục tiêu: -Nắm đƣợc vai trò của giai đoạn phân tích cú pháp - Văn phạm phi ngữ cảnh (context- free grammar),cách phân tích cú pháp từ dƣới lên- từ trên xuống (top-down and bottom-up parsing) -Bộ phân tích cú pháp LR 1 Vai trò của bộ phân tích cú pháp • Đây là giai đoạn thứ 2 của quá trình biên dịch • Nhiệm vụ chính: Nhận chuỗi các token từ bộ phân tích từ vựng và xác định chuỗi đó có đƣợc sinh ra bởi văn phạm của ngôn ngữ nguồn không Source Lexical Token program analyzer Get next token Parser Parse Rest of tree front end Symbol table 2 • Các phƣơng pháp phân tích cú pháp (PTCP) chia làm hai loại: Phân tích từ trên xuống (top- down parsing) và phân tích từ dƣới lên (bottom- up parsing) • Trong quá trình biên dịch xuất hiện nhiều lỗi trong giai đoạn PTCP do đó bộ phân tích cú pháp phải phát hiện và thông báo lỗi chính xác cho ngƣời lập trình đồng thơi không làm chậm những chƣơng trình đƣợc viết đúng 3 Văn phạm phi ngữ cảnh • Để định nghĩa cấu trúc của ngôn ngữ lập trình ta dùng văn phạm phi ngữ cảnh (Context-free grammars) hay gọi tắt là một văn phạm • Một văn phạm bao gồm: - Các kí hiệu kết thúc (terminals): Chính là các - - token Các kí hiệu chƣa kết thúc (nonterminals): Là các biến kí hiệu tập các xâu kí tự Các luật sinh (productions): Xác định cách thức hình thành các xâu từ các kí hiệu kết thúc và chƣa kết thúc 4 Ví dụ 3.1: Văn phạm sau định nghĩa các biểu thức số học đơn giản E  E A E | (E) | -E | id A+|-|*|/| Trong đó E, A là các kí tự chƣa kết thúc (E còn là kí tự bắt đầu), các kí tự còn lại là các kí tự kết thúc 5 • Dẫn xuất (derivation): Ta nói A   nếu A   là một luật sinh ( đọc là dẫn xuất hoặc suy ra) • Nếu 1  2  ...... n thì ta nói rằng 1 dẫn xuất n • Kí hiệu: * là dẫn xuất 0 bƣớc, + là dẫn xuất 1 bƣớc • Cho văn phạm G với kí tự bắt đầu là S, L(G) là ngôn ngữ đƣợc sinh bởi G. Mọi xâu trong L(G) chỉ chứa các kí hiệu kết thúc của G 6 • Ta nói một xâu wL(G) nếu và chỉ nếu S + w, w đƣợc gọi là một câu (sentence) của văn phạm G • Một ngôn ngữ đƣợc sinh bởi văn phạm phi ngữ cảnh đƣợc gọi là ngôn ngữ phi ngữ cảnh (context- free language) • Hai văn phạm đƣợc gọi là tƣơng đƣơng nếu sinh ra cùng một ngôn ngữ • Nếu S *  ( có thể chứa kí hiệu chƣa kết thúc) thí ta nói  là một dạng câu (sentence form) của G. Một câu là một dạng câu không 7 chứa kí hiệu chƣa kết thúc Ví dụ 3.2: Xâu –(id+id) là một câu của văn phạm trong ví dụ 3.1 vì E  -E  -(E)  -(E+E) -(id+E)  (id+id) • Một dẫn xuất đƣợc gọi là trái nhất (leftmost) nếu tại mỗi bƣớc kí hiệu chƣa kết thúc ngoài cùng bên trái đƣợc thay thế, kí hiệu lm. Nếu S *lm  thì  đƣợc gọi là dạng câu trái • Tƣơng tự ta có dẫn xuất phải nhất (rightmost) hay còn gọi là dẫn xuất chính tắc, kí hiệu rm 8 • Cây phân tích cú pháp (parse tree) là dạng biểu diễn hình học của dẫn xuất. Ví dụ parse tree cho biểu thức –(id+id) là: E E ( E ) E | id + E | id 9 • Tính mơ hồ của văn phạm (ambiguity): Một văn phạm sinh ra nhiều hơn một parse tree cho một câu đƣợc gọi là văn phạm mơ hồ. Nói cách khác một văn phạm mơ hồ sẽ sinh ra nhiều hơn một dẫn xuất trái nhất hoặc dẫn xuất phải nhất cho cùng một câu. • Loại bỏ sự mơ hồ của văn phạm: Ta xét ví dụ văn phạm sau Stmt  if expr then stmt | if expr then stmt else stmt | other 10 • Văn phạm trên là mơ hồ vì với cùng một câu lệnh "if E1 then if E2 then S1 else S2" sẽ có hai parse tree: 11 • Ðể loại bỏ sự mơ hồ này ta đƣa ra qui tắc "Khớp mỗi else với một then chƣa khớp gần nhất trƣớc đó". Với qui tắc này, ta viết lại văn phạm trên nhƣ sau : Stmt  matched_stmt | unmatched_stmt matched_stmt  if expr then matched_stmt else matched_stmt | other unmatched_stmt  if expr then Stmt | if expr then matched_stmt else unmatched_stmt 12 • Loại bỏ đệ qui trái: Một văn phạm đƣợc gọi là đệ qui trái (left recursion) nếu tồn tại một dẫn xuất có dạng A + A (A là 1 kí hiệu chƣa kết thúc,  là một xâu). • Các phƣơng pháp phân tích từ trên xuống không thể xử lí văn phạm đệ qui trái, do đó cần phải biến đổi văn phạm để loại bỏ các đệ qui trái • Ðệ qui trái có hai loại : Loại trực tiếp: Có dạng A + A Loại gián tiếp: Gây ra do dẫn xuất của hai 13 hoặc nhiều bƣớc • Với đệ qui trái trực tiếp: Ta nhóm các luật sinh thành A  A1 | A2 |..... | Am | 1 | 2 |.....| n Thay luật sinh trên bởi các luật sinh sau: A  1A' | 2A' |..... | nA' A'  1A' | 2A' |..... | mA' |  Ví dụ 3.3: Thay luật sinh A  A |  bởi A  A' A'  A' |  14 • Với đệ qui trái gián tiếp: Ta dùng thuật toán sau 1. Sắp xếp các ký hiệu không kết thúc theo thứ tự A1, A2, ..., An 2. for i:=1 to n do begin for j:=1 to i -1 do begin Thay luật sinh dạng Ai  Aj bởi luật sinh Ai  1 | 2 |.....| k trong đó Aj  1 | 2 |.....| k là tất cả các luật sinh hiện tại end; 15 • Tạo ra nhân tố trái (left factoring) là một phép biến đổi văn phạm rất có ích để có đƣợc một văn phạm thuận tiện cho việc phân tích dự đoán • Ý tƣởng cơ bản là khi không rõ luật sinh nào trong hai luật sinh khả triển có thể dùng để khai triển một ký hiệu chƣa kết thúc A, chúng ta có thể viết lại các A- luật sinh nhằm "hoãn" lại việc quyết định cho đến khi thấy đủ yếu tố cho một lựa chọn đúng. 16 Ví dụ 3.3: Ta có hai luật sinh stmt  if expr then stmt else stmt | if expr then stmt Sau khi đọc token if, ta không thể ngay lập tức quyết định sẽ dùng luật sinh nào để mở rộng stmt • Cách tạo nhân tố trái: Giả sử có luật sinh A   1 |  2 |..... |  n |  ( là tiền tố chung dài nhất của các luật sinh,  không bắt đầu bởi ) Luật sinh trên đƣợc biến đổi thành: 17 A   A' |  Phân tích cú pháp từ trên xuống • Phân tích cú pháp (PTCP) từ trên xuống đƣợc xem nhƣ một cố gắng tìm kiếm một dẫn xuất trái nhất cho chuỗi nhập. Nó cũng có thể xem nhƣ một cố gắng xây dựng cây phân tích cú pháp bắt đầu từ nút gốc và phát sinh dần xuống lá • PTCP từ trên xuống đơn giản hơn PTCP từ dƣới lên nhƣng bị giới hạn về mặt hiệu quả • Có một số kĩ thuật PTCP từ trên xuống nhƣ: PTCP đệ qui lùi, PTCP đoán trƣớc, 18 • PTCP đoán trƣớc không đệ qui (nonrecursive predictive parsing) hoạt động theo mô hình sau: INPUT STACK X Y Z $ a + b $ Predictive parsing OUTPUT program Parsing table M 19 • INPUT là bộ đệm chứa chuỗi cần phân tích, kết thúc bởi ký hiệu $ • STACK chứa một chuỗi các ký hiệu văn phạm với ký hiệu $ nằm ở đáy STACK. Khởi đầu STACK chứa kí hiệu bắt đầu S trên đỉnh • Parsing table M là một mảng hai chiều dạng M[A,a], trong đó A là ký hiệu chƣa kết thúc, a là ký hiệu kết thúc hoặc $. • Bộ phân tích cú pháp đƣợc điều khiển bởi Predictive parsing program 20
- Xem thêm -