Xử lý truy vấn và quản lý giao tác trong cơ sở dữ liệu

  • Số trang: 83 |
  • Loại file: PDF |
  • Lượt xem: 10 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đào Thị Thu Vân XỬ LÝ TRUY VẤN VÀ QUẢN LÝ GIAO TÁC LUẬN VĂN THẠC SĨ Hà Nội - 2005 MỤC LỤC MỞ ĐẦU ....................................................................................................... 3 CHƢƠNG 1 XỬ LÝ VÀ TỐI ƢU TRUY VẤN ................................... 4 1.1 Chuyển các truy vấn SQL thành đại số quan hệ ................................ 5 1.2 Các thuật toán cơ bản thực hiện phép toán truy vấn .......................... 8 1.2.1 Sắp xếp ngoài ............................................................................ 8 1.2.2 Thực thi phép chọn (SELECT) ............................................... 11 1.2.3 Thực thi phép nối (JOIN) ....................................................... 15 1.2.4 Thực thi phép chiếu và các phép toán tập hợp ......................... 21 1.2.5 Thực thi các phép toán kết hợp................................................ 23 1.2.6 Thực thi phép nối ngoài - Outer Join ....................................... 24 1.2.7 Các phép toán kết hợp sử dụng đƣờng ống .............................. 25 1.3 Sử dụng các luật dự đoán trong tối ƣu truy vấn ............................. 26 1.3.1 Các ký hiệu với cây truy vấn và đồ thị truy vấn....................... 26 1.3.2 Tối ƣu kinh nghiệm của các cây truy vấn ................................ 30 1.3.3. Chuyển cây truy vấn thành phƣơng án thực thi truy vấn ......... 37 1.4 Sử dụng ƣớc lƣợng chọn lọc và ƣớc lƣợng chi phí trong tối ƣu truy vấn ............................................................................................... 38 1.4.1 Các thành phần chi phí cho việc thực thi truy vấn .................. 39 1.4.2 Thông tin danh mục sử dụng trong các hàm giá ...................... 40 1.4.3 Ví dụ của các hàm giá đối với phép SELECT ........................ 41 1.4.4 Ví dụ của các hàm giá đối với phép JOIN ............................... 43 1.4.5 Các truy vấn có quan hệ và thứ tự nối phức tạp ....................... 46 1.4.6 Ví dụ minh hoạ cho việc tối ƣu truy vấn dựa trên giá ............... 48 1.5 Tối ƣu truy vấn ngữ nghĩa ............................................................ 51 1.6 Tổng kết ...................................................................................... 51 1 CHƢƠNG 2 XỬ LÝ GIAO TÁC.............................................................. 53 2.1 Giới thiệu về xử lý giao tác ................................................................. 53 2.1.1 Hệ thống đơn ngƣời dùng - hệ thống đa ngƣời dùng .................... 53 2.1.2 Các giao tác, thao tác đọc - ghi và các vùng đệm DBMS ............. 54 2.1.3 Tại sao điều khiển đồng thời là cần thiết ...................................... 56 2.1.4 Tại sao khôi phục là cần thiết ....................................................... 59 2.2 Các khái niệm hệ thống và giao tác .................................................... 61 2.2.1 Các trạng thái giao tác và các phép toán bổ xung ......................... 61 2.2.2 File log hệ thống .......................................................................... 62 2.2.3 Điểm xác nhận của một giao tác .................................................. 63 2.3 Các đặc tính mong muốn của giao tác ................................................. 64 2.4 Lịch biểu và sự khôi phục ................................................................... 64 2.4.1 Lịch biểu của các giao tác ............................................................ 65 2.4.2 Miêu tả đặc tính các lịch biểu dựa trên việc khôi phục ................. 66 2.5 Xếp thứ tự của lịch biểu ...................................................................... 68 2.5.1 Các lịch biểu theo thứ tự, không theo thứ tự và lịch biểu có thứ tự xung đột ............................................................................................... 68 2.5.2. Kiểm tra thứ tự xung đột của một lịch biểu ................................. 72 2.5.3 Sử dụng tính thứ tự ...................................................................... 77 2.5.4 Tƣơng đƣơng khung nhìn và trật tự khung nhìn ........................... 78 2.5.5 Các kiểu tƣơng đƣơng khác của các lịch biểu .............................. 79 2.6 Tổng kết ............................................................................................. 79 KẾT LUẬN .................................................................................................. 81 TÀI LIỆU THAM KHẢO ............................................................................ 82 2 MỞ ĐẦU Khi dữ liệu đƣợc lƣu trữ trên máy tính thì việc sử dụng nó nhƣ thế nào để có hiệu quả là một thách thức đối với ngƣời sử dụng. Để khai thác một cơ sở dữ liệu tốt cần phải có một hệ quản trị cơ sở dữ liệu tốt. Việc xử lý các truy vấn, quản lý giao tác là hai chức năng quan trọng của một hệ quản trị cơ sở dữ liệu. Tìm hiểu về lý thuyết và thực tiễn của hai chức năng này có ý nghĩa trong việc xây dựng các hệ quản trị cơ sở dữ liệu. Thông qua việc nghiên cứu một số tài liệu khoa học có liên quan, trong luận văn này chúng tôi đã đi sâu tìm hiểu các vấn đề với đề tài “xử lý truy vấn và quản lý các giao tác”. Luận văn bao gồm hai chƣơng: Chƣơng 1: Xử lý và tối ƣu truy vấn Một truy vấn trên cơ sở dữ liệu là một biểu thức đại số quan hệ, thực hiện một loạt các thao tác trên cơ sở dữ liệu quan hệ để lấy ra các thông tin cần thiết cho việc quản lý. Nghiên cứu về xử lý và tối ƣu truy vấn là nghiên cứu các thuật toán thực hiện các phép toán đại số quan hệ cũng nhƣ tìm cách thực hiện biểu thức đại số quan hệ theo một trật tự nào đó để có câu trả lời nhanh nhất. Chƣơng 2: Quản lý giao tác Quản lý giao tác là rất cần thiết, đặc biệt khi các giao tác xẩy ra đồng thời và có cạnh tranh nhau một số khoản mục dữ liệu trong cơ sở dữ liệu, tính nhất quán có thể không còn đƣợc bảo toàn nữa. Do vậy hệ thống cần điều khiển sự tƣơng tác giữa các giao tác đồng thời. Do kinh nghiệm làm việc với cơ sở dữ liệu còn ít, chắc chắn trong luận văn còn nhiều thiếu sót. Chúng tôi chân thành mong đƣợc các thầy, các cô, và bạn bè đóng góp ý kiến. 3 CHƢƠNG 1 XỬ LÝ VÀ TỐI ƯU TRUY VẤN Trong chƣơng này trình bầy các kỹ thuật mà hệ quản trị cơ sở dữ liệu (DBMS) sử dụng để xử lý, tối ƣu hoá và thực thi các truy vấn bậc cao. Một truy vấn đƣợc trình bầy trong một ngôn ngữ bậc cao, nhƣ SQL, đầu tiên phải đƣợc kiểm tra, phân tích và xác nhận tính hợp lệ. Bộ quét sẽ xác định các dấu hiệu ngôn ngữ, nhƣ các từ khóa SQL, tên các thuộc tính và tên các quan hệ trong nội dung câu truy vấn, trong khi đó bộ phân tích sẽ kiểm tra cú pháp của truy vấn để xác định xem nó có đƣợc trình bầy phù hợp với các luật cú pháp của ngôn ngữ truy vấn hay không. Một truy vấn cũng phải đƣợc xác nhận tính hợp lệ bằng cách kiểm tra tất cả các tên quan hệ và thuộc tính là hợp lệ, và các tên có ý nghĩa trong lƣu đồ cơ sở dữ liệu cụ thể đƣợc truy vấn. Sau đó một biểu diễn bên trong của truy vấn đƣợc tạo ra, thƣờng là nhƣ một cấu trúc dữ liệu cây gọi là một cây truy vấn. Cũng có thể biểu diễn truy vấn bằng cách sử dụng một cấu trúc dữ liệu đồ thị gọi là đồ thị truy vấn. Sau đó DBMS sẽ phải đƣa ra một chiến lƣợc thực hiện để lấy ra kết quả của truy vấn từ các file cơ sở dữ liệu. Một truy vấn thƣờng có nhiều chiến lƣợc thực hiện, và quá trình chọn một chiến lƣợc phù hợp để xử lý một truy vấn gọi là tối ƣu truy vấn. [1, 3, 4, 5, 6, 7] Hình 1.1 thể hiện các bƣớc khác nhau của việc xử lý một truy vấn bậc cao. Bộ tối ƣu truy vấn có nhiệm vụ tạo ra một phƣơng án thực hiện và bộ tạo mã tạo ra chƣơng trình để thực hiện phƣơng án đó. Bộ xử lý cơ sở dữ liệu thời gian chạy có nhiệm vụ chạy chƣơng trình truy vấn trong kiểu thông dịch hoặc biên dịch để tạo ra kết quả của truy vấn. Nếu có một lỗi chạy chƣơng trình đƣợc tạo ra thì bộ xử lý cơ sở dữ liệu thời gian chạy sẽ sinh ra một thông báo lỗi. Thuật ngữ tối ƣu đƣợc sử dụng ở đây là không chính xác vì trong một vài trƣờng hợp, phƣơng án thực hiện đƣợc lựa chọn không phải là chiến lƣợc tốt nhất, nó chỉ là một chiến lƣợc hiệu quả và hợp lý cho việc thực hiện truy vấn. Việc tìm ra một chiến lƣợc tốt nhất thƣờng phải mất nhiều thời gian, ngoại trừ những truy vấn đơn giản, và có thể yêu cầu thông tin về việc các file 4 đƣợc cài đặt nhƣ thế nào và ngay cả nội dung của các file, những thông tin đó có thể không có trong từ điển hệ quản trị cơ sở dữ liệu. Vì vậy, lập kế hoạch của một chiến lƣợc thực hiện là chính xác hơn tối ƣu truy vấn. Truy vấn viết trong ngôn ngữ bậc cao Scanning, parsing, validating Dạng biểu diễn bên trong Query Optimiser Phương án thực hiện Query Code Generator Chương trình thực hiện truy vấn Runtime Database Processor Kết quả của truy vấn Hình 1.1 Các bước điển hình khi xử lý một truy vấn bậc cao 1.1 Chuyển các truy vấn SQL thành đại số quan hệ Một truy vấn SQL đầu tiên chuyển đổi thành một biểu thức đại số quan hệ mở rộng tƣơng đƣơng, đƣợc biểu diễn nhƣ là cấu trúc dữ liệu cây truy vấn, và sau đó đƣợc tối ƣu. Thông thƣờng các truy vấn SQL đƣợc phân tích thành các khối truy vấn, tạo nên các đơn vị cơ sở mà có thể chuyển đổi thành những 5 phép toán đại số và đƣợc tối ƣu. Một khối truy vấn chứa một biểu thức SELECT – FROM – WHERE đơn và có thể có các mệnh đề Group by và Having nếu chúng là một phần của biểu thức. Vì vậy các truy vấn đƣợc lồng bên trong một truy vấn đƣợc xác định nhƣ các khối truy vấn riêng rẽ. [6] Xét các quan hệ sau: EMPLOYEE, DEPARTMENT, WORKS-ON và PROJECT. EMPLOYEE FNAME LNAME SSN ADDESS BDATE SEX SALAR Y DNO DEPARTMENT DNAME DNUMBER MGRSSN MGRSTARTDATE PROJECT PNAME PNUMBER PLOCATION DNUM WORKS-ON ESSN PNO HOURS Bảng 1.1 Các quan hệ Trong đó: Quan hệ EMPLOYEE chứa thuộc tính của các nhân viên: FNAME: tên của các nhân viên LNAME: họ và tên đệm của nhân viên SSN: mã nhân viên BDATE: ngày sinh của mỗi nhân viên ADDESS: địa chỉ của nhân viên SEX: giới tính của nhân viên SALARY: mức lƣơng của từng nhân viên 6 DNO: mã số phòng ban mà nhân viên đó làm việc Quan hệ DEPARTMENT chứa thông tin về các phòng ban: DNAME: tên của mỗi phòng ban DNUMBER: mã số của mỗi phòng ban MGRSSN: mã số của ngƣời quản lý từng phòng MGRSTARTDATE: ngày bắt đầu làm quản lý của ngƣời quản lý phòng ban Quan hệ PROJECT chứa thông tin về các dự án: PNAME: tên của dự án PNUMBER: mã số dự án PLOCATION: nơi thực hiện dự án DNUM: mã số của phòng thực hiện dự án Quan hệ WORKS-ON chứa thông tin về thời gian làm việc của mỗi nhân viên: ESSN: mã số của nhân viên PNO: mã số dự án mà nhân viên đó tham gia HOURS: số giờ mà nhân viên đó thực hiện Xét truy vấn SQL sau trên quan hệ EMPLOYEE trong bảng 1.1 SELECT LNAME, FNAME FROM EMPLOYEE WHERE SALARY > (SELECT MAX(SALARY) FROM EMPLOYEE WHERE DNO=5); Truy vấn này chứa một truy vấn con lồng bên trong và vì vậy có thể đƣợc tách thành 2 khối: Khối trong là: SELECT MAX (SALARY) FROM EMPLOYEE WHERE DNO=5 7 Và khối ngoài là: SELECT LNAME, FNAME FROM EMPLOYEE WHERE SALARY > c Với c biểu diễn kết quả do khối trong trả lại. Khối trong có thể đƣợc chuyển thành biểu thức quan hệ mở rộng nhƣ sau: FMAX SALARY(DNO=5(EMPLOYEE)) Và khối ngoài đƣợc chuyển sang biểu thức quan hệ nhƣ sau: LNAME, FNAME(SALARY>C (EMPLOYEE)) Sau đó bộ tối ƣu truy vấn sẽ chọn một phƣơng án thực hiện cho từng khối. Chú ý rằng trong ví dụ ở trên khối trong chỉ cần thực hiện một lần để đƣa ra lƣơng lớn nhất, sau đó khối ngoài sử dụng lƣơng lớn nhất này nhƣ là hằng số c. Truy vấn đó gọi là truy vấn lồng nhau không liên kết. Việc tối ƣu các truy vấn lồng nhau liên kết sẽ khó khăn hơn nhiều. [1, 5] 1.2 Các thuật toán cơ bản thực hiện phép toán truy vấn Một hệ quản trị cơ sở dữ liệu (RDBMS) phải có các thuật toán để thực hiện các kiểu phép toán quan hệ khác nhau có thể xuất hiện trong một chiến lƣợc thực hiện truy vấn. Các phép toán bao gồm phép toán đại số quan hệ cơ bản và mở rộng, hoặc là tổ hợp các phép toán này. Với mỗi phép toán (hoặc một tổ hợp phép toán) nhƣ thế, thƣờng phải có sẵn một hoặc nhiều thuật toán để thực hiện nó. [1, 5, 6, 8] 1.2.1 Sắp xếp ngoài Sắp xếp là một trong các thuật toán cơ bản đƣợc sử dụng trong xử lý truy vấn. Ví dụ, khi một truy vấn SQL chỉ ra một mệnh đề Order by, kết quả truy vấn phải đƣợc sắp xếp. Sắp xếp cũng là một bộ phận then chốt trong các thuật toán đƣợc sử dụng cho phép nối (Join) hoặc các phép toán khác nhƣ phép hợp (Union), phép giao (Intersection) và trong các thuật toán loại bỏ bản 8 ghi trùng nhau đối với phép chiếu (Project) khi một truy vấn SQL chỉ ra tuỳ chọn Distinct trong mệnh đề Select. Sắp xếp ngoài đề cập đến các thuật toán sắp xếp phù hợp với các file lớn đƣợc lƣu trữ trên đĩa mà không xếp vào bộ nhớ chính, ví dụ hầu hết các file cơ sở dữ liệu. Thuật toán sắp xếp ngoài thƣờng sử dụng chiến lƣợc sắp xếp trộn, nó bắt đầu bằng việc sắp xếp các file con nhỏ, gọi là các run, của file chính và sau đó trộn các run đã đƣợc sắp xếp tạo nên các file con lớn hơn và các file con đó lại đƣợc trộn với nhau. Giống nhƣ các thuật toán khác, thuật toán sắp xếp trộn đòi hỏi một không gian phòng đợi (buffer space) trong bộ nhớ chính, ở đó việc sắp xếp và trộn các run đƣợc thực hiện. Thuật toán cơ bản đƣợc đƣa ra ở hình 1.2 gồm hai giai đoạn: (1) giai đoạn sắp xếp, (2) giai đoạn trộn. Trong giai đoạn sắp xếp, các run của file có thể đặt vừa vào bộ đệm có sẵn sẽ đƣợc đọc vào trong bộ nhớ chính và đƣợc sắp xếp bằng cách dùng một thuật toán sắp xếp trong rồi đƣợc ghi trở lại vào đĩa nhƣ các file con đƣợc sắp xếp tạm thời. Kích cỡ của run và số lƣợng run ban đầu (n R) đƣợc chỉ ra bởi các khối file (b) và không gian phòng đợi có sẵn (nB). Ví dụ: nếu nB=5 khối và b=1024 khối thì nR=(b/nB) hoặc 205 run ban đầu. Mỗi run có cỡ 5 khối (ngoại trừ run cuối cùng sẽ có 4 khối). Vì vậy, sau pha sắp xếp, 205 run đƣợc sắp xếp nhƣ là một file con trên đĩa. [1,6] set i  1; j  b; kN ; m  (j/k); while (i <= m) do { read next k blocks of the file into the buffer or if there are less than k blocks remaining, then read in the remaining blocks; 9 sort the records in the buffer and write as a temporary subfile; ii+1; } set i  1 ; p  logk-1 m; j  m; while (j <=p ) do { n  1 ; q  j/(k-1); while (n <= q ) do { read next k –1 subfiles or remaining subfiles (from previous pass) one block at a time; merge and write as new subfile; n  n=1; } j  q; i  i+1; } Hình 1.2 Phác thảo của thuật toán sắp xếp trộn cho sắp xếp ngoài Trong giai đoạn trộn, các run đã sắp xếp đƣợc trộn trong một hoặc nhiều đƣờng (pass). Mức độ trộn (dM) là số các run có thể đƣợc trộn với nhau trong mỗi đƣờng. Trong mỗi đƣờng, cần một khối phòng đệm để lƣu các run đã đƣợc trộn và cần một khối phòng đêm khác để lƣu kết quả trộn. Vì vậy dM là số nhỏ hơn trong (nB-1) và nR, số các pass là (logdM(nR)). Trong ví dụ trên, dM=4 (trộn bốn đƣờng), nhƣ vậy 205 run đầu tiên sẽ đƣợc trộn thành 52 10 run ở cuối đoạn đầu tiên. Sau đó chƣơng trình trộn thành 13 run, tiếp đó thành 4 run và sau đó thành 1 file. Điều đó nghĩa là cần 4 pass. Cực tiểu d M của 2 cho thực hiện tồi nhất của thuật toán, đó là: (2*b)+(2*(b*(log2b))). Số hạng đầu tiên biểu diễn số các khối truy cập đối với giai đoạn sắp xếp, bởi vì mỗi khối đƣợc truy cập hai lần, một lần để đọc vào bộ nhớ và một lần để ghi các bản ghi trở lại đĩa sau khi đã sắp xếp. Số hạng thứ hai biểu diễn số các khối truy cập đối với giai đoạn trộn, với giả thiết trƣờng hợp xấu nhất dM của 2. Nói chung, log lấy cơ số dM và biểu thức đối với số khối truy cập trở thành: (2*b)+(2*(b*(logd M b))) 1.2.2 Thực thi phép chọn (SELECT) [6, 8] Có rất nhiều lựa chọn cho việc thực thi một phép toán SELECT. Trong phần này, trình bầy một số thuật toán để thực thi phép SELECT. Để minh hoạ, sử dụng các phép toán sau đƣợc chỉ ra trong cơ sở dữ liệu quan hệ của bảng 1.1 ở trang 7 (OP1): SSN=‟123456789‟(EMPLOYEE) (OP2): DNUMBER>5(DEPARTMENT) (OP3): DNO=5(EMPLOYEE) (OP4): (DNO=5) AND (SALARY>3000) AND (SEX=‟F‟) (EMPLOYEE) (OP5): (ESSN=‟123456789‟) AND (PNO=10)(WORK_ON) Các phƣơng pháp tìm kiếm đối với phép chọn đơn giản: Có nhiều phƣơng pháp tìm kiếm để chọn các bản ghi từ một file. Chúng đƣợc biết đến nhƣ các bộ quét file để tìm kiếm và lấy ra các bản ghi thoả mãn điều kiện chọn. Nếu thuật toán tìm kiếm đòi hỏi việc sử dụng chỉ số thì tìm kiếm chỉ số đƣợc gọi là quét chỉ số. Các phƣơng pháp tìm kiếm sau đây (từ S1 đến S6) là các ví dụ về các phƣơng pháp tìm kiếm có thể đƣợc sử dụng để thực hiện phép toán chọn. S1: Tìm kiếm tuyến tính: lấy ra từng bản ghi trong file và kiểm tra xem các giá trị thuộc tính của chúng có thoả mãn điều kiện chọn hay không. 11 S2: Tìm kiếm nhị phân: nếu điều kiện chọn đòi hỏi một phép so sánh bằng trên thuộc tính khoá mà trên đó file đƣợc sắp xếp , thì tìm kiếm nhị phân (hiệu quả hơn tìm kiếm tuyến tính) sẽ đƣợc sử dụng. Ví dụ trong OP1 nếu file EMPLOYEE đƣợc sắp xếp thứ tự theo thuộc tính SSN. S3: Sử dụng chỉ số sơ cấp: Nếu điều kiện chọn đòi hỏi một phép so sánh bằng trên một thuộc tính khoá với chỉ số sơ cấp. Ví dụ trong OP1 nếu file EMPLOYEE có SSN=„123456789‟ thì sử dụng chỉ số sơ cấp để lấy ra các bản ghi. Chú ý rằng điều kiện này lấy ra nhiều nhất là một bản ghi. S4: Sử dụng một chỉ số sơ cấp để lấy ra nhiều bản ghi: Nếu điều kiện so sánh là >, >=, <, <= trên trƣờng khoá. Ví dụ: trong OP2 với file DEPARTMENT lấy ra những bản ghi có DNUMBER>5 thì sử dụng chỉ số để tìm bản ghi thoả mãn điều kiện bằng tƣơng ứng (DNUMBER=5), sau đó lấy ra tất cả các bản ghi tiếp theo bản ghi đó trong một file đƣợc sắp xếp. Còn với điều kiện DNUMBER<5, thì lấy ra tất cả các bản ghi đi trƣớc. S5: Sử dụng một chỉ số nhóm để lấy ra nhiều bản ghi: Nếu điều kiện chọn đòi hỏi một phép so sánh bằng trên thuộc tính không phải là khoá. Ví dụ: DNO=5 trong OP3, hãy sử dụng chỉ số đó để lấy ra tất cả các bản ghi thoả mãn điều kiện. S6: Sử dụng chỉ số thứ cấp (B+-tree) trên một phép so sánh bằng: Phƣơng pháp này có thể đƣợc sử dụng để lấy ra một bản ghi đơn nếu trƣờng chỉ số là một khoá hoặc lấy ra nhiều bản ghi nếu trƣờng chỉ số không phải là khoá. Phƣơng pháp này cũng có thể sử dụng đối với các phép so sánh liên quan đến >, >=, <, <=. Phƣơng pháp S1 áp dụng cho bất kỳ file nào, còn tất cả các phƣơng pháp khác phụ thuộc vào có đƣờng dẫn truy cập thích hợp trên thuộc tính đƣợc sử dụng trong điều kiện chọn. Phƣơng thức S4 và S6 có thể đƣợc sử dụng để lấy ra các bản ghi trong một phạm vi nhất định, ví dụ 30000<=SALARY<=35000. Các truy vấn bao gồm các điều kiện nhƣ thế đƣợc gọi là các truy vấn vùng. 12 Các phƣơng pháp tìm kiếm cho lựa chọn phức tạp: Nếu điều kiện của phép SELECT là một điều kiện liên kết, tức là điều kiện đó đƣợc tạo thành từ nhiều điều kiện đơn, kết nối với nhau bằng toán tử logic liên kết AND nhƣ OP4, thì DBMS có thể sử dụng các phƣơng pháp sau đây để thực thi. S7: Phép chọn có điều kiện liên kết sử dụng một chỉ số đơn: nếu một thuộc tính đòi hỏi bất kỳ điều kiện đơn giản nào trong điều kiện liên kết mà có một đƣờng dẫn truy cập cho phép sử dụng một trong các phƣơng thức từ S2 đến S6, thì hãy sử dụng điều kiện này để lấy ra các bản ghi và sau đó kiểm tra xem mỗi bản ghi lấy ra đó có thoả mãn các điều kiện đơn còn lại trong điều kiện liên kết hay không. S8: Phép chọn có điều kiện liên kết sử dụng chỉ số phức hợp: Nếu hai hay nhiều thuộc tính đòi hỏi so sánh bằng trong điều kiện liên kết và có tồn tại một chỉ số phức hợp (hoặc cấu trúc băm) trên các trƣờng đƣợc tổ hợp, ví dụ: nếu một chỉ số đƣợc tạo ra trên khoá phức (ESSN, PNO) của file WORKS_ON trong OP5 thì có thể sử dụng chỉ số một cách trực tiếp. S9: Phép chọn có điều kiện liên kết bằng phép giao của các con trỏ bản ghi: Nếu các chỉ số thứ cấp (hoặc các đƣờng dẫn truy nhập khác) là có trong điều kiện liên kết là đơn giản, và nếu các chỉ số đó chứa con trỏ bản ghi thì nó đƣợc sử dụng để lấy ra tập con trỏ bản ghi thoả mãn điều kiện đơn. Giao của các tập con trỏ bản ghi này sẽ trả lại các con trỏ bản ghi thoả mãn điều kiện liên kết và đƣợc sử dụng để lấy ra các bản ghi một cách trực tiếp. Nếu chỉ có một vài điều kiện có các chỉ số thứ cấp thì mỗi bản ghi đƣợc lấy ra sau đó sẽ đƣợc kiểm tra xem nó có thoả mãn các điều kiện còn lại hay không. Mỗi khi một điều kiện đơn đặc tả phép chọn, nhƣ là OP1, OP2 hoặc OP3, thì chỉ có thể kiểm tra xem trong điều kiện đó có tồn tại một đƣờng dẫn truy cập trên thuộc tính không. Nếu có tồn tại đƣờng dẫn thì phƣơng pháp tƣơng ứng với đƣờng dẫn đó đƣợc sử dụng, ngƣợc lại phƣơng pháp tìm kiếm tuyến tính S1 có thể đƣợc sử dụng. Sự tối ƣu hoá truy vấn đối với phép toán Select là cần thiết, nhất là đối với những điều kiện lựa chọn hội và với bất kỳ khi nào có nhiều hơn một thuộc tính đƣợc đòi hỏi trong điều kiện có đƣờng 13 dẫn. Bộ tối ƣu sẽ chọn đƣờng dẫn để lấy ra các bản ghi theo cách hiệu quả nhất bằng cách ƣớc tính các chi phí khác nhau và lựa chọn phƣơng pháp có ƣớc lƣợng chi phí tối thiểu. Khi bộ truy vấn lựa chọn giữa nhiều điều kiện đơn trong điều kiện liên kết, nó thƣờng xem xét tính lựa chọn của từng điều kiện. Tính lựa chọn (s) đƣợc định nghĩa là tỉ số giữa số bản ghi thoả mãn điều kiện trên tổng số bản ghi có trong file (hay quan hệ), và do đó giá trị này nằm giữa 0 và 1, nếu nhƣ độ chọn lọc là 0 thì không có bản ghi nào thỏa mãn điều kiện và là 1 nếu tất cả các bản ghi đều thoả mãn điều kiện. Mặc dù độ chọn lọc chính xác của tất cả các điều kiện có thể không sẵn có, sự ƣớc lƣợng của độ chọn lọc đƣợc giữ trong danh mục DBMS và đƣợc sử dụng bởi bộ lọc. Ví dụ, với điều kiện bằng trên thuộc tính khoá của quan hệ r(R), s=1/|r(R)| với |r(R)| là bản ghi trong quan hệ r(R). Với một điều kiện bằng trên thuộc tính có các giá trị phân biệt i, s đƣợc ƣớc lƣợng bởi (|r(R)|/i)/(|r(R)|) hoặc l/i, giả sử các bản ghi đó đƣợc phân bổ đều giữa các giá trị phân biệt. Cùng với giả thiết này, |r(R)|/i bản ghi sẽ thoả mãn một điều kiện bằng trên thuộc tính này. Tổng quát, số các bản ghi thoả mãn một điều kiện lựa chọn với độ chọn lọc s đƣợc ƣớc lƣợng là |r(R)|)*s. Ƣớc lƣợng càng nhỏ thì độ thoả dụng càng cao. So sánh phép chọn có điều kiện đơn và điều kiện liên kết (AND), hoặc điều kiện tách rời (OR) (các điều kiện đơn giản đƣợc nối với nhau bởi toán tử kết nối logic OR hoặc AND) thì phép chọn có điều kiện tách khó xử lý và tối ƣu hơn. Ví dụ, xét OP4‟: (OP4‟): (DNO=5) OR (SALARY>3000) OR (SEX=‟F‟)(EMPLOYEE) Với một điều kiện nhƣ vậy thì một phép tối ƣu ít có thể đƣợc thực hiện bởi vì tất cả các bản ghi thoả mãn điều kiện là hợp của các bản ghi thoả mãn các điều kiện riêng lẻ. Do đó, nếu bất kỳ một điều kiện nào không có một đƣờng dẫn truy nhập thì chúng ta buộc phải sử dụng cách tìm kiếm tuyến tính. Nếu đƣờng dẫn truy nhập tồn tại trên từng điều kiện thì tối ƣu hoá lựa chọn bằng cách lấy ra những bản ghi hoặc địa chỉ bản ghi thoả mãn điều kiện, và sau đó áp dụng phép toán tập hợp để loại trừ bản ghi giống nhau. 14 1.2.3 Thực thi phép nối (JOIN) Phép nối là một trong những phép toán tốn nhiều thời gian nhất trong xử lý truy vấn. Rất nhiều phép nối bắt gặp trong các truy vấn là nối bằng (EQUIJOIN) và nối tự nhiên (NATURAL JOIN). Trong chƣơng này, khi nói nối có nghĩa là EQUIJOIN (hoặc NATURAL JOIN). Có nhiều cách để thực thi một phép nối 2 chiều, đó là một phép nối trên 2 file. Các phép nối gồm nhiều hơn 2 file đƣợc gọi là phép nối nhiều chiều. Trong phần này nói về các kỹ thuật để thực thi phép nối 2 chiều. Xét các thuật toán đối với phép nối có dạng: R A=B S Với A và B là các thuộc tính so sánh của R và S tƣơng ứng. Các phƣơng pháp nối có thể đƣợc mở rộng thành một dạng nối tổng quát hơn. Bốn kỹ thuật phổ biến nhất cho việc thực hiện một phép nối đƣợc minh hoạ bằng các phép toán ví dụ sau: (OP6): EMPLOYEE (OP7): DEPARTMENT DNO=DNUMBER DEPARTMENT MGRSSN=SSN EMPLOYEE Các phƣơng pháp để thực thi phép nối [1, 6]: J1. Nối lặp lồng nhau: Với mỗi bản ghi t trong R (vòng lặp ngoài), lấy ra tất cả các bản ghi s từ S (vòng lặp trong) và kiểm tra xem nếu 2 bản ghi đó có thoả điều kiện nối t[A]=s[B] hay không. J2. Nối lặp đơn: Nếu một chỉ số (hoặc một khoá băm) tồn tại với một trong 2 thuộc tính nối, ví dụ là B của S, lấy ra từng bản ghi t trong R, tại một thời điểm chỉ lấy ra 1 bản ghi (vòng lặp đơn), sau đó sử dụng cấu trúc truy nhập để lấy ra tất cả các bản ghi tƣơng xứng s từ S thoả s[B]=t[A] một cách trực tiếp. J3. Sắp xếp trộn: Nếu các bản ghi của R và S đƣợc sắp xếp một cách vật lý (có thứ tự) bởi giá trị của các thuộc tính nối A và B một cách riêng biệt, khi đó có thể thực thi phép nối một hiệu quả. Cả 2 file đƣợc quét đồng thời 15 theo thứ tự của các thuộc tính nối và đối chiếu các bản ghi có cùng giá trị với A và B. Nếu các file không đƣợc sắp xếp thì trƣớc tiên chúng đƣợc sắp xếp bằng cách sử dụng các thuật toán sắp xếp ngoài. Trong phƣơng pháp này, các cặp của các khối file đƣợc sao chép vào trong bộ đệm theo thứ tự và các bản ghi của từng file đó chỉ đƣợc quét một lần để đối chiếu với file khác trừ khi cả A và B không là các thuộc tính khoá, trong trƣờng hợp này thì phƣơng pháp cần phải đƣợc sửa đổi phù hợp. Phác hoạ của thuật toán sắp xếp trộn đƣợc đƣa ra trong hình 1.3(a). R(i) đƣợc sử dụng để chỉ bản ghi thứ i trong R. Sự khác nhau của sắp xếp trộn khi sử dụng các chỉ số thứ cấp tồn tại trên cả 2 thuộc tính nối. Các chỉ số cung cấp khả năng quét các bản ghi theo thứ tự của các thuộc tính nối, nhƣng bản thân các bản ghi lại nằm rải rác trên toàn bộ các khối file, vì vậy phƣơng pháp này tỏ ra khá kém hiệu quả, bởi vì truy nhập vào các bản ghi có thể bao hàm việc truy cập đến một khối đĩa khác. (a) sort the tuples in R on attribute A; (assume R has n tuples (records)) sort the tuples in S on attribute B; (assume S has m tuples (records)) set i  1, j 1; while ( i  n) and (j  m) do{ if R(i) A > S(j) B  then set j  j +1 elseif R(i) A < S(j) B  then set i i +1 else { (*R(i) A = S(j) B  , so we output a matched tuple*) output the combined tuple < R(i), S(j)> to T; (* output other tuples that match R(i),if any*) set l j +1; while (l m) and (R(i)[A] = S(j)[B]) do { output the combined tuple < R(i), S(l)> to T; set l  l + 1 } 16 (* output other tuples that match S(i),if any*) set k  i + 1; while( k  n) and (R(k) A = S(j) B  do { output the combined tuple < R(k), S (j)> to T; set k  k + 1 } set i  k, j  l } } (b) create a tuple t [ ] in T‟ for each tuple t in R; (* T‟ contains the projection result before duplicate elimination*) if includes a key of R then T  T‟ else { sort the tuples in T‟; set i 1, j 2; while i  n do { output the tuple T‟(i) to T; while T‟[i] = T‟[j] and j  n do j  j + 1; (*eliminate duplicates*) i  j; j  i +1 } } (* T conntains the projeclion result after duplicate elimination*) Hình 1.3. Thực thi phép toán JOIN, PROJECT, UNION, INTERSECTION và SET DIFFERENCE sử dụng sắp xếp trộn với R có n bộ giá trị và S có m bộ giá trị (a) Thực thi phép toán T  R A=B S, (b) thực thi phép T  (R) J4. Nối băm (hash join): Các bản ghi của các file S và R đều đƣợc băm vào 1 file băm nhƣ nhau, sử dụng cùng hàm băm nhƣ nhau trên các thuộc tính 17 nối A của R và B của S nhƣ là các khoá băm. Đầu tiên, một lần truy cập qua file có số bản ghi ít hơn (ví dụ là R) băm các bản ghi của nó vào file băm; công việc đó đƣợc gọi là pha phân mảnh bởi vì các bản ghi của R đƣợc phân mảnh vào trong vùng băm. Pha tiếp theo đƣợc gọi là pha tham dò, một lần truy cập qua file khác (file S) và băm từng bản ghi của S để thăm dò vùng tƣơng ứng và các bản ghi trên đƣợc kết hợp với tất cả các bản ghi tƣơng xứng từ R trong vùng đó. (c). sort the tuples in R and S using the same unique sort attribules; set i  1, j  1; while( i <= n) and(j <= m) do { if R(i) > S(j) then { output S(j) to T; set j  j+1; } elseif R(i) < S(j) then { output R(i) to T; set i  i+1 } else set j  j+1; } if (i <= n) then add tuples R(i) to R(n) to T; if (j <= m) then add tuples s(J) to S(m) to T; (d) sort the tuples in R and R using the same unique sort attribules; set i  1; j  1; while( i <= n) and (j <= m) do { if R (i)>S(j) then set j <- j+1 elseif R(i) < S(j) then set i<-i+1 else { output R(i) to T; Set i  i+1,j  j+1 } } (e). Sort the tuples in R and S using the same unique sort attribules; Set i  1, j  1; While ( i <= n) and (j <= m) 18 Do { if R(i)>S(j) then set j  j + 1 elseif R(i) < S(j) then { output R(i) to T set i  i+1 } else set i  i+1, j  j+1 } If (i<=n) then add tuplessR(i) to R(n) to T; Hình 1.3 Thực thi phép JOIN, PROJECT, UNION, INTERSECTION và SET DIFFERENCE sử dụng sắp xếp trộn với R có n bộ giá trị và S có m bộ giá trị. (c) Thực thi phép toán T  R  S. (d) Thực thi phép T  R  S. (e) Thực thi phép T  R – S Trên thực tế, các kỹ thuật J1 đến J4 đƣợc thực hiện bằng việc truy cập đến toàn bộ các khối đĩa của file hơn là các bản ghi riêng lẻ. Phụ thuộc vào không gian bộ đệm sẵn sàng trong bộ nhớ mà số các khối đƣợc đọc từ một file có thể đƣợc điều chỉnh. Trong phép nối lặp lồng nhau, nó tạo ra một sự khác nhau giữa file đƣợc chọn cho vòng lặp ngoài và file đƣợc chọn cho vòng lặp trong. Nếu EMPLOYEE đƣợc sử dụng cho vòng lặp ngoài, mỗi khối của EMPLOYEE đƣợc đọc một lần và bản thân file DEPARTMENT (với từng khối của nó) đƣợc đọc 1 lần cho mỗi lần lặp ứng với (nB-2) khối của file EMPLOYEE. Kết quả là thu đƣợc công thức sau [6]: Tổng số lần truy cập khối cho file ngoài = bE Số lần truy cập của (nB-2) khối đối với vòng lặp ngoài = (bE/(nB-2) Tổng số lần truy cập khối cho file trong là = bD*(bE/(nB-2) Do đó tổng số các lần truy cập khối đƣợc tính theo công thức sau: bE + ((bE/(nB-2)*bD) = 2000 + ((2000/5)*10) = 6000 lần truy cập khối 19
- Xem thêm -