Tổ chức khai thác dữ liệu giao thông vận tải

  • Số trang: 67 |
  • Loại file: PDF |
  • Lượt xem: 32 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ DIỄM HÀ TỔ CHỨC KHAI THÁC DỮ LIỆU GIAO THÔNG VẬN TẢI Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS Đỗ Trung Tuấn Hà Nội – 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ DIỄM HÀ TỔ CHỨC KHAI THÁC DỮ LIỆU GIAO THÔNG VẬN TẢI Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS Đỗ Trung Tuấn Hà Nội – 2012 - 2- Mục lục Lời cảm ơn 1 Mục lục 2 Danh mục các từ viết tắt 4 Danh mục hình vẽ 5 Mở đầu 6 Chương 1. Thực trạng giao thông Việt Nam và nhu cầu tổ chức dữ liệu giao thông vận tải 8 1.1. Thực trạng giao thông ở Việt Nam nói chung và thành phố Hải Phòng nói riêng8 1.2. Nhu cầu quản lý dữ liệu các cung đường trên địa bàn Hải Phòng 10 1.3. Kết luận chương 10 Chương 2. Về cơ sở dữ liệu phân tán 11 2.1. So sánh cơ sở dữ liệu phân tán và cơ sở dữ liệu tập trung 11 2.2. Sự cần thiết của cơ sở dữ liệu phân tán 2.2.1. Sự phát triển của các cơ cấu tổ chức 2.2.2. Giảm chi phí truyền thông 2.2.3. Hiệu quả công việc 2.2.4. Độ tin cậy và tính sẵn sàng 14 14 14 14 15 2.3. Kiến trúc cơ bản của CSDL phân tán 15 2.4. Hệ quản trị cơ sở dữ liệu phân tán 2.4.1. Phân loại hệ quản trị CSDL phân tán 2.4.2. Mô hình kiến trúc hệ quản trị CSDL phân tán 18 18 20 2.5. Thiết kế cơ sở dữ liệu phân tán 2.5.1. Thiết kế quan niệm 2.5.2. Phân mảnh dữ liệu 2.5.3. Cấp phát 21 22 23 31 2.6. Kiểm soát dữ liệu ngữ nghĩa 2.6.1. Quản lý khung nhìn 2.6.2. An toàn dữ liệu 2.6.3. Kiểm soát tính toàn vẹn ngữ nghĩa 35 35 37 39 2.7. Kết luận chương 40 - 3- Chương 3. Thiết kế, xây dựng cơ sở dữ liệu các cung đường trên địa bàn Hải Phòng 41 3.1. Đảm bảo dữ liệu cho bài toán 41 3.2. Hạ tầng công nghệ thông tin sử dụng trong bài toán 3.2.1. Hệ quản trị Cơ sở dữ liệu SQL Server 3.2.2. Visual Studio và Ngôn ngữ lập trình C sharp 3.2.3. Kết nối Visual Studio 2008 với CSDL SQL Server 2005 42 42 44 50 3.3. Phân tích, thiết kế cơ sở dữ liệu cung đường 3.3.1. Lược đồ quan niệm của CSDL 3.3.2. Phân đoạn dữ liệu 3.3.3. Định vị dữ liệu 51 53 57 57 3.4. Các chức năng cơ bản của chương trình cài đặt 3.4.1. Tìm kiếm 3.4.2. Quản lý người dùng 3.4.3. Quản lý dữ liệu đường 57 57 60 62 3.5. Kết luận chương 64 Kết luận Kết quả đạt được Hướng nghiên cứu tiếp Tài liệu tham khảo 65 65 65 66 - 4- Danh mục các từ viết tắt ANSI American National Standards Institute CLR Server Common Language Runtime RCS Revision Control System CNTT Công nghệ Thông tin CSDL Cơ sở dữ liệu CSDLPT Cơ sở dữ liệu phân tán DB Database DC Data Communication DD Data Dictionary DDB Distributed DataBase DDBMS Distributed Data Base Management System GTVT Giao thông vận tải HDM Highway Development and Management System IDE Integrated Development Environment ISO International Organization for Standardization LINQ Language-Integrated Query RCS Revision Control System SQL Structured Query Language TNGT Tai nạn giao thông WPF Windows Presentation Foundation XML eXtensible Markup Language - 5- Danh mục hình vẽ Hình 1.1. Tai nạn giao thông......................................................................... 8 Hình 1.2 . Giao thông Hải Phòng .................................................................. 9 Hình 2.1. Mô hình CSDL phân tán ............................................................. 11 Hình 2.2. Cơ sở dữ liệu phân tán ................................................................ 12 Hình 2.3. Kiến trúc cơ bản của CSDL phân tán ......................................... 16 Hình 2.4. Các phân mảnh và mô hình vật lý cho một quan hệ toàn cục .... 17 Hình 3.1. Khuôn dạng dữ liệu đầu vào ....................................................... 42 Hình 3.2 . Giải pháp Data Warehouse ........................................................ 43 Bảng 3.1. Các từ khóa của ngôn ngữ C# .................................................... 49 Hình 3.3. Màn hình hệ thống ...................................................................... 51 Hình 3.4. Cài đặt hệ thống .......................................................................... 51 Hình 3.5. Bảng Quan................................................................................... 53 Hình 3.6. Bảng Duong ................................................................................ 54 Hình 3.7. Bảng LoaiMatDuong................................................................... 54 Hình 3.8. Bảng KieuDuong......................................................................... 55 Hình 3.9. Bảng LoaiGiaoCat....................................................................... 55 Hình 3.10. Bảng ToChucGiaoThong .......................................................... 55 Hình 3.11. Bảng MucDoHuHong ............................................................... 56 Hình 3.12. Lược đồ E-R .............................................................................. 56 Hình 3.13. Lược đồ quan hệ ........................................................................ 57 Hình 3.14. Chức năng Tìm kiếm................................................................. 58 Hình 3.15. Quản lý người dùng .................................................................. 60 Hình 3.16. Quản lý đường ........................................................................... 62 - 6- Mở đầu Hiện nay, cùng với xu hướng phát triển chung, nhu cầu về dữ liệu ngày càng tăng, đối với mọi ngành kinh tế quốc dân nói chung, và ngành giao thông vận tải nói riêng. Hệ thống đường xá liên tỉnh, liên huyện, liên xã cần được quản lý một cách khoa học. Việc sử dụng công nghệ thông tin ngày càng quen thuộc trong ngành Giao thông vận tải. Theo phương pháp quản lý trong ngành hiện nay, các đơn vị quản lý giao thông tại các cung đường thường xuyên có báo cáo về các Sở giao thông như: lưu lượng tham gia giao thông, số vụ tai nạn xảy ra, chất lượng các cung đường, công tác bảo dưỡng duy tu, giám sát cung đường, ... Với cách tổ chức đó sẽ tốn thời gian và dữ liệu có thể không đồng bộ. Do vậy, việc ứng dụng các kiến thức về cơ sở dữ liệu phân tán để tổ chức dữ liệu về giao thông là cần thiết và có vai trò quan trọng trong công tác quản lý giao thông vận tải của chúng ta hiện nay. Luận văn chọn đề tài “Tổ chức, khai thác dữ liệu giao thông vận tải ” với mục đích tìm hiểu về tổ chức dữ liệu trên địa bàn phân tán; trên cơ sở đó phân tích, thiết kế cơ sở dữ liệu các cung đường nhằm nâng cao công tác quản lý trong ngành giao thông. Do vấn đề tổ chức, khai thác dữ liệu của ngành giao thông vận tải nói chung, của Hải Phòng nói riêng yêu cầu nhiều khối lượng công việc, trong khuôn khổ luận văn này, hạn chế chỉ với dữ liệu về cung đường bộ trên địa bàn Hải Phòng. Trong phạm vi thực hiện của đề tài sẽ phân tích, thiết kế cơ sở dữ liệu các cung đường trên địa bàn thành phố Hải Phòng. Luận văn chia thành các chương: 1. Thực trạng giao thông Việt Nam và nhu cầu tổ chức dữ liệu các cung đường trên địa bàn thành phố Hải Phòng; 2. Về Cơ sở dữ liệu phân tán; 3. Thiết kế, xây dựng hệ thống Cơ sở dữ liệu phân tán với Visual Studio 2008, hệ quản trị Cơ sở dữ liệu SQL server. Cuối luận văn là phần kết luận và tài liệu tham khảo. - 7- Việc tham gia ứng dụng công nghệ thông tin vào ngành giao thông vận tải đòi hỏi nhiều cố gắng. Nỗ lực sử dụng công nghệ để thu thập tình hình về giao thông vận tải nói chung, về dữ liệu các cung đường trên địa bàn thành phố nói riêng là cần thiết. Học viên làm việc tại cơ sở đào tạo thuộc ngành giao thông vận tải, được khuyến khích thực hiện đề tài này, dù những kết quả mới chỉ là bước đầu. Những kết quả của học viên nhằm mục đích thử nghiệm, phục vụ trực tiếp công tác đào tạo trong trường. - 8- Chương 1. Thực trạng giao thông Việt Nam và nhu cầu tổ chức dữ liệu giao thông vận tải 1.1. Thực trạng giao thông ở Việt Nam nói chung và thành phố Hải Phòng nói riêng Việt nam là một đất nước có hệ thống chính trị ổn định trong khu vực và trên thế giới, là một nước chỉ có duy nhất một Đảng Chính trị lãnh đạo, tình trạng khủng bố hầu như không có. Thế nhưng, tình trạng thiệt mạng do tai nạn giao thông thì lại quá nhiều, bình quân mỗi năm có 09 ngàn đến 13 ngàn người thiệt mạng do TNGT, thiệt hại kinh tế ước tính đến cả tỷ USD/năm bằng cả trị giá xuất khẩu lúa gạo (Việt nam có sản lượng xuất khẩu lúa gạo đứng thứ hai trên thế giới). Theo báo cáo của bộ Giao thông vận tải, tai nạn giao thông trong 10 năm qua tăng liên tục, đặc biệt từ năm 2001 tăng đột biến. Năm 2002 tai nạn đã làm chết 10.866 người, bị thương 29.449 người. [07]. Hình 1.1. Tai nạn giao thông Hệ thống đường bộ của chúng ta hầu như chưa đạt tiêu chuẩn kỹ thuật : - Độ nghiêng, độ bám dính mặt đường, độ phẵng, tầm nhìn... chưa đảm bảo cũng là nguyên nhân gây ra tai nạn giao thông. - Hệ thống đèn tín hiệu cảnh báo chỉ dẫn được thiết kế thi công chưa đồng bộ cũng là nguyên nhân làm ùn tắc giao thông ở các chổ đường giao nhau và gây ra tai nạn giao thông. Hải Phòng là thành phố lớn thứ ba của Việt Nam và lớn thứ hai ở miền - 9- Bắc, và là một trong năm thành phố trực thuộc Trung ương, đô thị loại một trung tâm cấp quốc gia. Đến ngày 01/04/2009, dân số Hải Phòng là 1.837.302 người, trong đó dân cư thành thị chiếm 46,1% và dân cư nông thôn chiếm 53,9%. Thành phố Hải Phòng có khoảng 600 tuyến đường, nằm trong 07 quận nội thành. Các con phố của Hải Phòng thường nhỏ hẹp, thường xảy ra tình trạng tắc đường vào giờ cao điểm, tuy nhiên chưa tới mức trầm trọng như thủ đô Hà Nội và thành phố Hồ Chí Minh [08]. Hình 1.2 . Giao thông Hải Phòng Theo thống kê của Ban An toàn giao thông - Sở giao thông vận tải Hải Phòng, hiện nay thành phố có 38 điểm hay xảy ra ùn tắc giao thông và gần 20 điểm “nóng” về tai nạn giao thông… Hạ tầng giao thông chưa xứng tầm: Hải Phòng có 50 tuyến phố chính nội đô, tổng chiều dài hơn 60 km cùng các tuyến Quốc lộ 5, Quốc lộ10, Quốc lộ 37 dài hơn 100 km; hệ thống tỉnh lộ dài 176 km, đường liên thôn, huyện dài gần 1000 km… Nhưng từ năm 1955 đến nay, sau 56 năm giải phóng Hải Phòng, những tuyến đường này vẫn chưa được mở rộng. Trong khi dân số thời điểm đó là 20 vạn người, còn số dân hiện nay lên tới xấp xỉ 02 triệu người, nên ùn tắc giao thông thường xuyên xảy ra [08]. Với đặc thù là thành phố Cảng biển cửa ngõ của Miền Bắc, nhu cầu vận chuyển hàng hóa thông qua cảng biển Hải Phòng bằng đường bộ chiếm tỉ trọng lớn, đường và các nút giao thông khu vực cảng chật hẹp, thiếu các bãi đỗ xe chờ giao nhận hàng dẫn đến hiệu quả khai thác kém. Năng lực vận tải bằng đường bộ năm 2011 là 44 triệu tấn hàng hoá và không có xu hướng giảm xuống. Sự gia tăng quá nhanh của phương tiện vận tải trong khi cơ sở hạ tầng giao thông đường bộ chưa đáp ứng kịp, xuất hiện nhiều vấn đề cần được giải quyết như ùn - 10- tắc giao thông, mất an toàn giao thông, trật tự vệ sinh đô thị… [08]. Với tình hình chung ở nước ta hiện nay, công tác bảo trì giao thông đường bộ được thực hiện chủ yếu dựa trên việc đánh giá chủ quan về điều kiện hiện trạng của đường, trong khi đó mô hình HDM-4 (Mô hình quản lý và phát triển đường bộ được xây dựng và phát triển bởi Ngân hàng Thế giới và các tổ chức quốc tế khác, nhằm kết hợp yếu tố kỹ thuật, kinh tế và môi trường trong phân tích đánh giá hiệu quả đầu tư của dự án và phân tích chiến lược quản lý và phát triển bền vững mạng lưới đường bộ; được khuyến cáo sử dụng năm 1999) cần một lượng dữ liệu định lượng rất đồ sộ về giao thông như đặc điểm hình học đường và sự hư hỏng của mặt đường để phân tích tìm chiến lược và kế hoạch duy tu tối ưu cả về khía cạnh kỹ thuật và kinh tế trong các trường hợp khác nhau về nguồn vốn. Do vậy cần có các kế hoạch để thu thập, quản lý và lưu trữ số liệu để ngoài việc phục vụ cho các phân tích chiến lược duy tu, còn giúp cho việc hiệu chỉnh, kiểm chứng, và cập nhập mô hình HDM-4 cho phù hợp với điều kiện của Việt Nam. Mặt khác, một trong những yếu tố góp phần đảm bảo giao thông đô thị là việc quản lý tình trạng các cung đường. Việc thống kê đầy đủ tình trạng về các cung đường sẽ giúp cho những người quản lý thấy rõ được chất lượng qua số liệu cụ thể, chính xác, khách quan và khoa học. Từ đó đưa ra những thông báo và quyết định phù hợp. 1.2. Nhu cầu quản lý dữ liệu các cung đường trên địa bàn Hải Phòng Hiện nay, thành phố Hải Phòng có khoảng 600 tuyến đường, thuộc địa bàn 07 quận nội thành. Tổ chức, khai thác thông tin về các cung đường nhằm quản lý và xử lý kịp thời tình trạng giao thông. Mặt khác, góp phần xây dựng Ngân hàng lưu trữ dữ liệu đường bộ theo mô hình HDM, phục vụ cho công tác quản lý và bảo trì mạng lưới đường bộ kịp thời, có hệ thống và hiệu quả hơn theo chiến lược xây dựng và phát triển hệ thống giao thông Việt Nam. Để phù hợp với yêu cầu trên, có thể xây dựng hệ cơ sở dữ liệu theo mô hình Hệ thống phân tán. Dữ liệu tổ chức và lưu trữ ở vị trí khác nhau, cụ thể là tại các quận và được tích hợp lại với nhau thông qua mạng máy tính, chương trình ứng dụng làm việc trên cơ sở truy cập dữ liệu ở những điểm khác nhau đó. 1.3. Kết luận chương Với tình hình thực tế về giao thông hiện nay, cần thiết xây dựng một hệ thống cơ sở dữ liệu thống nhất, đồng bộ về các cung đường. Để phù hợp với yêu cầu trên, có thể xây dựng hệ cơ sở dữ liệu theo mô hình Hệ thống phân tán. - 11- Chương 2. Về cơ sở dữ liệu phân tán Một CSDL phân tán là một tập hợp nhiều CSDL có liên đới logic và được phân bố trên một mạng máy tính. - Tính chất phân tán: Toàn bộ dữ liệu của CSDL phân tán không được cư trú ở một nơi mà cư trú trên nhiều trạm thuộc mạng máy tính, điều này giúp chúng ta phân biệt CSDL phân tán với CSDL tập trung đơn lẻ. - Tương quan logic: Toàn bộ dữ liệu của CSDL phân tán có một số các thuộc tính ràng buộc chúng với nhau, điều này giúp chúng ta có thể phân biệt một CSDL phân tán với một tập hợp CSDL cục bộ hoặc các tệp cư trú tại các vị trí khác nhau trong một mạng máy tính [03]. Hình 2.1. Mô hình CSDL phân tán Trong hệ thống cơ sở dữ liệu phân tán gồm nhiều trạm, mỗi trạm có thể khai thác các giao tác truy nhập dữ liệu trên nhiều trạm khác. 2.1. So sánh cơ sở dữ liệu phân tán và cơ sở dữ liệu tập trung Cơ sở dữ liệu tập trung cùng với cơ sở dữ liệu không qua thiết kế hình thành trước khi có cơ sở dữ liệu phân tán. Hai hình thức này phát triển trên cơ sở tự phát và hệ thống tập trung. Như vậy hai hình thức này không đáp ứng được yêu cầu tổ chức và công việc trên phạm vi lớn. Cơ sở dữ liệu phân tán được thiết kế khác cơ sở dữ liệu tập trung. Do đó cần đối sánh các đặc trưng của cơ sở dữ liêu phân tán với cơ sở dữ liệu tập trung để thấy được lợi ích của cơ sở dữ liệu phân tán. Đặc trưng mô tả cơ sở dữ liệu - 12- tập trung là điều khiển tập trung, độc lập dữ liệu, giảm bớt dư thừa, cơ cấu vật lý phức tạp đối với khả năng truy cập, toàn vẹn, hồi phục, điều khiển tương tranh, biệt lập và an toàn dữ liệu [01]. Hình 2.2. Cơ sở dữ liệu phân tán Điều khiển tập trung: Điều khiển tập trung các nguồn thông tin của công việc hay tổ chức. Có người quản trị đảm bảo an toàn dữ liệu. Trong cơ sở dữ liệu phân tán: không đề cập đến vấn đề điều khiển tập trung. Người quản trị cơ sở dữ liệu chung phân quyền cho người quản trị cơ sở dữ liệu địa phương [03]. Độc lập dữ liệu: là một trong những nhân tố tác động đến cấu trúc cơ sở dữ liệu để tổ chức dữ liệu chuyển cho chương trình ứng dụng. Tiện lợi chính của độc lập dữ liệu là các chương trình ứng dụng không bị ảnh hưởng khi thay đổi cấu trúc vật lý của dữ liệu. Trong cơ sở dữ liệu phân tán, độc lập dữ liệu có tầm quan trọng cũng như trong cơ sở dữ liệu truyền thống. Khái niệm cơ sở dữ liệu trong suốt mô tả hoạt động chương trình trên cơ sở dữ liệu phân tán được viết như làm việc trên cơ sở dữ liệu tập trung. Hay nói cách khác tính đúng đắn của chương trình không bị ảnh hưởng bởi việc di chuyển dữ liệu từ nơi này sang nơi khác trong mạng máy tính. Tuy nhiên tốc độ làm việc bị ảnh hưởng do có thời gian di chuyển dữ liệu [03]. Giảm dư thừa dữ liệu: Trong cơ sở dữ liệu tập trung, tính dư thừa hạn chế được càng nhiều càng tốt vì:  Dữ liệu không đồng nhất khi có vài bản sao của cùng cơ sở dữ liệu logic; để tránh được nhược điểm này giải pháp là chỉ có một bản sao duy nhất.  Giảm không gian lưu trữ. Giảm dư thừa có nghĩa là cho phép nhiều ứng dụng cùng truy cập đến một cơ sở dữ liệu mà không cần đến nhiều bản sao ở những nơi chương trình ứng dụng cần. - 13-  Trong cơ sở dữ liệu truyền thống tính dư thừa dữ liệu cũng cần quan tâm vì: - Tính cục bộ của chương trình ứng dụng sẽ tăng nếu dữ liệu đặt ở mọi nơi mà chương trình ứng dụng cần. - Khả năng sẵn sàng của hệ thống cao bởi vì khi có lỗi ở một nơi nào đó trong hệ thống thì không cản trở hoạt động của chương trình ứng dụng. Nói chung, nguyên nhân đối lập với tính dư thừa đưa ra trong môi trường truyền thống vẫn còn đúng cho hệ thống phân tán và vì vậy công việc định giá mức độ tốt của tính dư thừa đòi hỏi định giá lại công việc lựa chọn mức độ dư thừa dữ liệu. Cơ sở dữ liệu phân tán khắc phục được hai nhược điểm này vì dữ liệu được chia ra thành nhiều phần nhỏ và chỉ có một bản sao logic tổng thể duy nhất để tiện cho việc truy cập dữ liệu. Cấu trúc vật lý và khả năng truy cập: người sử dụng truy cập đến cơ sở dữ liệu tập trung phải thông qua cấu trúc truy cập phức tạp: định vị cơ sở dữ liệu, thiết lập đường truyền ... Trong cơ sở dữ liệu phân tán, cấu trúc truy cập phức tạp không phải là công cụ chính để truy cập hiệu quả đến cơ sở dữ liệu. Hiệu quả có nghĩa là thời gian tìm kiếm và chuyển dữ liệu nhỏ nhất, chi phí truyền thông thấp nhất. Mỗi cách thức truy cập cơ sở dữ liệu phân tán viết bởi người lập trình hoặc tạo ra bởi một bộ tối ưu. Công việc viết ra một cách thức truy cập cơ sở dữ liệu phân tán cũng giống như viết chương trình duyệt trong cơ sở dữ liệu tập trung. Công việc mà chương trình duyệt này làm là xác định xem có thể truy cập đến được bao nhiêu cơ sở dữ liệu. Tính toàn vẹn, hồi phục và điều khiển tương tranh: Mặc dù trong cơ sở dữ liệu, tính toàn vẹn, hồi phục và điều khiển đồng thời liên quan nhiều vấn đề liên quan lẫn nhau. Mở rộng hơn vấn đề này là việc cung cấp các giao tác. Giao tác là đơn vị cơ bản của việc thực hiện: giao tác cụ thể là bó công việc được thực hiện toàn bộ hoặc không được thực hiện [03]. Trong cơ sở dữ liệu phân tán, vấn đề điều khiển giao tác tự trị có ý nghĩa quan trọng: hệ thống điều phối phải chuyển đổi các quỹ thời gian cho các giao tác liên tiếp. Như vậy giao tác tự trị là phương tiện đạt được sự toàn vẹn trong cơ sở dữ liệu. Có hai mối nguy hiểm của giao tác tự trị là lỗi và tương tranh. - 14- Thứ nhất, trong cơ sở dữ liệu phân tán với cấp độ tự trị cao ở mỗi điểm, người có dữ liệu địa phương sẽ cảm thấy an toàn hơn vì họ có thể tự bảo vệ dữ liệu của mình thay vì phụ thuộc vào người quản trị hệ thống tập trung. Thứ hai, vấn đề an toàn thực chất với hệ thống phân tán không giống như các hệ thống thông thường khác mà còn liên quan đến mạng truyền thông. Như vậy trong cơ sở dữ liệu phân tán vấn đề an toàn cơ sở dữ liệu phức tạp hơn. Tính biệt lập và an toàn: trong cơ sở dữ liệu truyền thống, người quản trị hệ thống có quyền điều khiển tập trung, người sử dụng có chắc chắn được phân quyền mới truy cập vào được dữ liệu. Điểm quan trọng là trong cách tiếp cận cơ sở dữ liệu tập trung, không cần thủ tục điều khiển chuyên biệt. Trong cơ sở dữ liệu phân tán, những người quản trị địa phương cũng phải giải quyết vấn đề tương tự như người quản trị cơ sở dữ liệu truyền thống. 2.2. Sự cần thiết của cơ sở dữ liệu phân tán 2.2.1. Sự phát triển của các cơ cấu tổ chức Cùng với sự phát triển của xã hội, nhiều cơ quan, xí nghiệp có cơ cấu tổ chức không tập trung, hoạt động phân tán trên phạm vi rộng. Vì vậy thiết kế và cài đặt cơ sở dữ liệu phân tán là phù hợp, đáp ứng mọi nhu cầu truy xuất và khai thác dữ liệu. Cùng với sự phát triển của công nghệ viễn thông, tin học, động cơ thúc đẩy kinh tế, việc tổ chức các trung tâm máy tính lớn và tập trung trở thành vấn đề cần nghiên cứu. Cơ cấu tổ chức và vấn đề kinh tế là một trong những nguyên nhân quan trọng nhất của sự phát triển cơ sở dữ liệu phân tán. 2.2.2. Giảm chi phí truyền thông Trong thực tế, sử dụng một số ứng dụng mang tính địa phương sẽ làm giảm chi phí truyền thông. Bởi vậy, việc tối ưu hoá tính địa phương của các ứng dụng là một trong những mục tiêu chính của việc thiết kế và cài đặt một CSDLPT. 2.2.3. Hiệu quả công việc Sự tồn tại một số hệ thống xử lý điạ phương đạt được thông quan việc xử lý song song. Vấn đề này có thể thích hợp với mọi hệ đa xử lý. CSDLPT có thuận lợi trong phân tích dữ liệu phản ánh điều kiện phụ thuộc của các ứng dụng, cực đại hoá tính địa phương của ứng dụng. Theo cách này tác động qua lại giữa các bộ xử lý được làm cực tiểu. Công việc được phân chia giữa các bộ xử lý khác nhau và tránh được các tắc nghẽn thông tin trên mạng truyền thông hoặc các - 15- dịch vụ chung của toàn hệ thống. Sự phân tán dữ liệu phản ánh hiệu quả làm tăng tính địa phương của các ứng dụng [04]. 2.2.4. Độ tin cậy và tính sẵn sàng Cách tiếp cận CSDLPT, cho phép truy nhập độ tin cậy và tính sẵn sàng cao hơn. Tuy nhiên, để đạt được mục đích đó là vấn đề không đơn giản đòi hỏi kỹ thuật phức tạp. Những lỗi xuất hiện trong một CSDLPT có thể xảy ra nhiều hơn vì số các thành phần cấu thành lớn hơn, nhưng ảnh hưởng của lỗi chỉ ảnh hưởng tới các ứng dụng sử dụng các trạm lỗi. Sự hỏng hóc của toàn hệ thống hiếm khi xảy ra. CSDLPT là sự tập hợp các dữ liệu thuộc cùng một hệ thống về mặt logic nhưng phân bố trên các trạm của mạng máy tính. Công nghệ CSDLPT là sự kết hợp giữa hai vấn đề phân tán và hợp nhất:  Phân tán : phân tán dữ liệu trên các trạm của mạng;  Hợp nhất : hợp nhất về mặt logic các dữ liệu phân tán sao cho chúng xuất hiện với người sử dụng giống như với CSDL đơn lẻ duy nhất. Công nghệ CSDL phân tán mới thực sự phát triển trong những năm gần đây nhờ sự phát triển của kỹ thuật tính toán, kỹ thuật truyền thông và mạng máy tính. Những ứng dụng được xây dựng trên CSDL phân tán đã xuất hiện nhiều trên thị trường và từng bước chứng minh tính ưu việt của nó so với CSDL tập trung. Tuy nhiên, hệ cơ sở dữ liệu phân tán cũng có những hạn chế như:  Phần mềm phức tạp và kinh phí tốn kém;  Phải xử lý các thay đổi thông báo trong mọi địa điểm;  Khó kiểm soát tính toàn vẹn dữ liệu với nhiều bản sao dữ liệu được phân bố khắp mọi nơi; Nói chung, kỹ thuật thiết kế cơ sở dữ liệu phân tán phức tạp nhưng hệ cơ sở dữ liệu phân tán cũng cần thiết cho xu hướng phát triển kinh tế hiện nay. 2.3. Kiến trúc cơ bản của CSDL phân tán Đây không là kiến trúc tường minh cho tất cả các CSDL phân tán, tuy vậy kiến trúc này thể hiện tổ chức của bất kỳ một CSDL phân tán nào. - 16- Sơ đồ tổng thể Sơ đồ phân đoạn Sơ đồ định vị Sơ đồ ánh xạ địa phương 1 DBMS của vị trí 1 CSDL địa phương tại vị trí 1 Sơ đồ ánh xạ địa phương 2 Các vị trí khác… DBMS của vị trí 2 CSDL địa phương tại vị trí 2 Hình 2.3. Kiến trúc cơ bản của CSDL phân tán Theo Phạm Thế Quế[02]: (1) Lược đồ toàn cục Lược đồ toàn cục định nghĩa tất cả dữ liệu được chứa trong cơ sở dữ liệu phân tán như trong cơ sở dữ liệu tập trung. Vì vậy, lược đồ toàn cục được định nghĩa chính xác như định nghĩa lược đồ cơ sở dữ liệu tập trung. Tuy nhiên, mô hình dữ liệu lược đồ toàn cục cần phải tương thích với việc định nghĩa các ánh xạ tới các mức của cơ sở dữ liệu phân tán. Vì vậy mô hình dữ liệu quan hệ sẽ được sử dụng trong kiến trúc mô hình tham chiếu cơ sở dữ liệu phân tán, định nghĩa một tập các quan hệ toàn cục. (2) Lược đồ phân mảnh Mỗi quan hệ toàn cục có thể chia thành nhiều phần không chồng lặp lên nhau được gọi là phân mảnh. Ánh xạ giữa các quan hệ toàn cục và phân mảnh được định nghĩa là lược đồ phân mảnh. Ánh xạ này là mối quan hệ một-nhiều. Ví dụ, nhiều phân mảnh tương ứng với một quan hệ toàn cục, nhưng chỉ một quan hệ toàn cục tương ứng với một phân mảnh. Các phân mảnh được chỉ ra bằng tên của quan hệ toàn cục với một chỉ số (chỉ số phân mảnh). Ví dụ, Ri chỉ đến phân mảnh thứ i trong quan hệ toàn cục R. - 17- Các kiểu phân mảnh dữ liệu bao gồm phân mảnh ngang và phân mảnh dọc và một kiểu phân mảnh phức tạp hơn là sự hết hợp của 2 loại trên. Trong tất cả các kiểu phân mảnh, một phân mảnh có thể được định nghĩa bằng một biểu thức ngôn ngữ quan hệ cho các quan hệ toàn cục như là các toán hạng và kết quả đầu ra là các phân mảnh. (3) Lược đồ cấp phát Các phân mảnh là những phần logic của các quan hệ toàn cục được chứa ở một hay nhiều trạm trong mạng. Lược đồ cấp phát xác định các phân mảnh được chứa ở những trạm nào. Tất cả các phân mảnh tương ứng với cùng một quan hệ R và được lưu ở dùng một trạm j tạo thành một mô hình vật lý của quan hệ toàn cục lên trạm j. Do đó, có một ánh xạ một-một giữa một mô hình vật lý và một cặp là một quan hệ toàn cục được định danh và một chỉ số trạm tương ứng với một mô hình vật lý. Ký hiệu Rji tương ứng với mô hình vật lý mảnh thứ i của quan hệ R trên trạm j. Có thể định nghĩa một bản sao của một phân mảnh tại một trạm cho trước và kí hiệu bằng tên quan hệ toàn cục R và hai chỉ số. Ví dụ R32 để chỉ bản sao của phân mảnh R2 được chứa ở trạm 3. Hai mô hình vật lý có thể giống nhau, ví là bản sao của nhau. Lược đồ các trạm phụ thuộc: gồm lược đồ ánh xạ cục bộ, DBMS của các trạm cục bộ, cơ sở dữ liệu ở trạm đó. R1 trạm 1 R2 trạm 2 R3 trạm 3 Quan hệ toàn cục Phân mảnh Mô hình vật lý Hình 2.4. Các phân mảnh và mô hình vật lý cho một quan hệ toàn cục - 18- (4) Lược đồ ánh xạ cục bộ Do ba mức đầu các trạm độc lập, nên chúng không phụ thuộc vào mô hình dữ liệu của DBMS cục bộ. Ở mức thấp hơn, nó cần phải ánh xạ mô hình vật lý thành các đối tượng được thao tác bởi các DBMS cục bộ. Ánh xạ này được gọi là lược đồ ánh xạ cục bộ và phụ thuộc vào kiểu của DBMS cục bộ. Trong hệ thống không đồng nhất có các kiểu khác nhau của ánh xạ cục bộ tại các trạm khác nhau. Yếu tố quan trọng nhất để thiết kế kiến trúc này là: - Phân mảnh và cấp phát dữ liệu; - Quản lí dư thừa dữ liệu; - Sự độc lập của các DBMS cục bộ; (5) DBMS ở các trạm cục bộ độc lập Tính năng trong suốt trong ánh xạ cục bộ cho phép xây dựng một hệ thống cơ sở dữ liệu phân tán đồng nhất hoặc không đồng nhất. Trong hệ thống đồng nhất, các lược đồ độc lập của một trạm được định nghĩa sử dụng cùng một mô hình như DBMS cục bộ nhưng trong hệ thống không đồng nhất thì các lược đồ ánh xạ cục bộ dùng để phối hợp các kiểu khác nhau của DBMS… 2.4. Hệ quản trị cơ sở dữ liệu phân tán Theo Phạm Thế Quế[02]: Trong hệ quản trị CSDL phân tán, sự phân tán dữ liệu là trong suốt đối với người sử dụng. Việc quản lý các dữ liệu phân tán đòi hỏi mỗi trạm cài đặt các thành phần hệ thống sau:  Phần quản lý cơ sở dữ liệu (DB);  Phần truyền thông dữ liệu (DC);  Từ điển dữ liệu(DD) được mở rộng để thể hiện thông tin về phân tán dữ liệu trong mạng máy tính;  Phần cơ sở dữ liệu phân tán (DDB). Các hệ QTCSDL phân tán thường hỗ trợ về điều khiển tương tranh và khôi phục các tiến trình phân tán. Khả năng truy cập từ xa có thể thực hiện được bằng hai cách: Truy cập từ xa trực tiếp và gián tiếp. 2.4.1. Phân loại hệ quản trị CSDL phân tán (1) Hệ quản trị CSDL phân tán thuần nhất: CSDLPT có được bằng cách chia một CSDL thành một tập các CSDL cục - 19- bộ và được quản lý bởi cùng một hệ QTCSDL. CSDLPT có thuần nhất hay không được phụ thuộc bởi các yêu tố phần cứng, hệ điều hành và các hệ quản trị CSDL cục bộ. Tuy nhiên, hạn chế quan trọng tại hệ QTCSDL cục bộ, bởi vì nó phụ thuộc vào sự quản lý hệ điều hành mạng truyền thông. Hệ quản trị CSDL phân tán Hệ QTCSDL Hệ QTCSDL Database Database Hệ QTCSDL Database Hình 2.5. Kiến trúc mô hình hệ QTCSDLPT thuần nhất (2) Hệ quản trị CSDL phân tán không thuần nhất: CSDLPT không thuần nhất được tích hợp bởi một tập các CSDL cục bộ được quản lý bởi các hệ QTCSDL khác nhau. Hệ QTCSDLPT không thuần nhất thêm việc chuyển đổi các mô hình dữ liệu của các hệ QTCSDL khác nhau để thống nhất việc quản lý. Hệ quản trị CSDL1 Database Hệ quản trị CSDL2 Database Hệ quản trị CSDL3 Database Hình 2.6. Kiến trúc mô hình hệ QTCSDLPT không thuần nhất
- Xem thêm -