ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ DIỄM HÀ
TỔ CHỨC KHAI THÁC DỮ LIỆU
GIAO THÔNG VẬN TẢI
Ngành:
Công nghệ Thông tin
Chuyên ngành:
Hệ thống Thông tin
Mã số:
60 48 05
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS Đỗ Trung Tuấn
Hà Nội – 2012
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ DIỄM HÀ
TỔ CHỨC KHAI THÁC DỮ LIỆU
GIAO THÔNG VẬN TẢI
Ngành:
Công nghệ Thông tin
Chuyên ngành:
Hệ thống Thông tin
Mã số:
60 48 05
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS Đỗ Trung Tuấn
Hà Nội – 2012
- 2-
Mục lục
Lời cảm ơn
1
Mục lục
2
Danh mục các từ viết tắt
4
Danh mục hình vẽ
5
Mở đầu
6
Chương 1.
Thực trạng giao thông Việt Nam và nhu cầu tổ chức dữ liệu giao thông vận tải
8
1.1. Thực trạng giao thông ở Việt Nam nói chung và thành phố Hải Phòng nói riêng8
1.2. Nhu cầu quản lý dữ liệu các cung đường trên địa bàn Hải Phòng
10
1.3. Kết luận chương
10
Chương 2.
Về cơ sở dữ liệu phân tán
11
2.1. So sánh cơ sở dữ liệu phân tán và cơ sở dữ liệu tập trung
11
2.2. Sự cần thiết của cơ sở dữ liệu phân tán
2.2.1. Sự phát triển của các cơ cấu tổ chức
2.2.2. Giảm chi phí truyền thông
2.2.3. Hiệu quả công việc
2.2.4. Độ tin cậy và tính sẵn sàng
14
14
14
14
15
2.3. Kiến trúc cơ bản của CSDL phân tán
15
2.4. Hệ quản trị cơ sở dữ liệu phân tán
2.4.1. Phân loại hệ quản trị CSDL phân tán
2.4.2. Mô hình kiến trúc hệ quản trị CSDL phân tán
18
18
20
2.5. Thiết kế cơ sở dữ liệu phân tán
2.5.1. Thiết kế quan niệm
2.5.2. Phân mảnh dữ liệu
2.5.3. Cấp phát
21
22
23
31
2.6. Kiểm soát dữ liệu ngữ nghĩa
2.6.1. Quản lý khung nhìn
2.6.2. An toàn dữ liệu
2.6.3. Kiểm soát tính toàn vẹn ngữ nghĩa
35
35
37
39
2.7. Kết luận chương
40
- 3-
Chương 3.
Thiết kế, xây dựng cơ sở dữ liệu các cung đường trên địa bàn Hải Phòng
41
3.1. Đảm bảo dữ liệu cho bài toán
41
3.2. Hạ tầng công nghệ thông tin sử dụng trong bài toán
3.2.1. Hệ quản trị Cơ sở dữ liệu SQL Server
3.2.2. Visual Studio và Ngôn ngữ lập trình C sharp
3.2.3. Kết nối Visual Studio 2008 với CSDL SQL Server 2005
42
42
44
50
3.3. Phân tích, thiết kế cơ sở dữ liệu cung đường
3.3.1. Lược đồ quan niệm của CSDL
3.3.2. Phân đoạn dữ liệu
3.3.3. Định vị dữ liệu
51
53
57
57
3.4. Các chức năng cơ bản của chương trình cài đặt
3.4.1. Tìm kiếm
3.4.2. Quản lý người dùng
3.4.3. Quản lý dữ liệu đường
57
57
60
62
3.5. Kết luận chương
64
Kết luận
Kết quả đạt được
Hướng nghiên cứu tiếp
Tài liệu tham khảo
65
65
65
66
- 4-
Danh mục các từ viết tắt
ANSI
American National Standards Institute
CLR
Server Common Language Runtime
RCS
Revision Control System
CNTT
Công nghệ Thông tin
CSDL
Cơ sở dữ liệu
CSDLPT
Cơ sở dữ liệu phân tán
DB
Database
DC
Data Communication
DD
Data Dictionary
DDB
Distributed DataBase
DDBMS
Distributed Data Base Management System
GTVT
Giao thông vận tải
HDM
Highway Development and Management System
IDE
Integrated Development Environment
ISO
International Organization for Standardization
LINQ
Language-Integrated Query
RCS
Revision Control System
SQL
Structured Query Language
TNGT
Tai nạn giao thông
WPF
Windows Presentation Foundation
XML
eXtensible Markup Language
- 5-
Danh mục hình vẽ
Hình 1.1. Tai nạn giao thông......................................................................... 8
Hình 1.2 . Giao thông Hải Phòng .................................................................. 9
Hình 2.1. Mô hình CSDL phân tán ............................................................. 11
Hình 2.2. Cơ sở dữ liệu phân tán ................................................................ 12
Hình 2.3. Kiến trúc cơ bản của CSDL phân tán ......................................... 16
Hình 2.4. Các phân mảnh và mô hình vật lý cho một quan hệ toàn cục .... 17
Hình 3.1. Khuôn dạng dữ liệu đầu vào ....................................................... 42
Hình 3.2 . Giải pháp Data Warehouse ........................................................ 43
Bảng 3.1. Các từ khóa của ngôn ngữ C# .................................................... 49
Hình 3.3. Màn hình hệ thống ...................................................................... 51
Hình 3.4. Cài đặt hệ thống .......................................................................... 51
Hình 3.5. Bảng Quan................................................................................... 53
Hình 3.6. Bảng Duong ................................................................................ 54
Hình 3.7. Bảng LoaiMatDuong................................................................... 54
Hình 3.8. Bảng KieuDuong......................................................................... 55
Hình 3.9. Bảng LoaiGiaoCat....................................................................... 55
Hình 3.10. Bảng ToChucGiaoThong .......................................................... 55
Hình 3.11. Bảng MucDoHuHong ............................................................... 56
Hình 3.12. Lược đồ E-R .............................................................................. 56
Hình 3.13. Lược đồ quan hệ ........................................................................ 57
Hình 3.14. Chức năng Tìm kiếm................................................................. 58
Hình 3.15. Quản lý người dùng .................................................................. 60
Hình 3.16. Quản lý đường ........................................................................... 62
- 6-
Mở đầu
Hiện nay, cùng với xu hướng phát triển chung, nhu cầu về dữ liệu ngày
càng tăng, đối với mọi ngành kinh tế quốc dân nói chung, và ngành giao thông
vận tải nói riêng. Hệ thống đường xá liên tỉnh, liên huyện, liên xã cần được quản
lý một cách khoa học. Việc sử dụng công nghệ thông tin ngày càng quen thuộc
trong ngành Giao thông vận tải. Theo phương pháp quản lý trong ngành hiện
nay, các đơn vị quản lý giao thông tại các cung đường thường xuyên có báo cáo
về các Sở giao thông như: lưu lượng tham gia giao thông, số vụ tai nạn xảy ra,
chất lượng các cung đường, công tác bảo dưỡng duy tu, giám sát cung đường, ...
Với cách tổ chức đó sẽ tốn thời gian và dữ liệu có thể không đồng bộ.
Do vậy, việc ứng dụng các kiến thức về cơ sở dữ liệu phân tán để tổ chức
dữ liệu về giao thông là cần thiết và có vai trò quan trọng trong công tác quản lý
giao thông vận tải của chúng ta hiện nay.
Luận văn chọn đề tài “Tổ chức, khai thác dữ liệu giao thông vận tải ” với
mục đích tìm hiểu về tổ chức dữ liệu trên địa bàn phân tán; trên cơ sở đó phân
tích, thiết kế cơ sở dữ liệu các cung đường nhằm nâng cao công tác quản lý
trong ngành giao thông. Do vấn đề tổ chức, khai thác dữ liệu của ngành giao
thông vận tải nói chung, của Hải Phòng nói riêng yêu cầu nhiều khối lượng công
việc, trong khuôn khổ luận văn này, hạn chế chỉ với dữ liệu về cung đường bộ
trên địa bàn Hải Phòng.
Trong phạm vi thực hiện của đề tài sẽ phân tích, thiết kế cơ sở dữ liệu các
cung đường trên địa bàn thành phố Hải Phòng.
Luận văn chia thành các chương:
1. Thực trạng giao thông Việt Nam và nhu cầu tổ chức dữ liệu các cung
đường trên địa bàn thành phố Hải Phòng;
2. Về Cơ sở dữ liệu phân tán;
3. Thiết kế, xây dựng hệ thống Cơ sở dữ liệu phân tán với Visual Studio
2008, hệ quản trị Cơ sở dữ liệu SQL server.
Cuối luận văn là phần kết luận và tài liệu tham khảo.
- 7-
Việc tham gia ứng dụng công nghệ thông tin vào ngành giao thông vận tải
đòi hỏi nhiều cố gắng. Nỗ lực sử dụng công nghệ để thu thập tình hình về giao
thông vận tải nói chung, về dữ liệu các cung đường trên địa bàn thành phố nói
riêng là cần thiết. Học viên làm việc tại cơ sở đào tạo thuộc ngành giao thông
vận tải, được khuyến khích thực hiện đề tài này, dù những kết quả mới chỉ là
bước đầu. Những kết quả của học viên nhằm mục đích thử nghiệm, phục vụ trực
tiếp công tác đào tạo trong trường.
- 8-
Chương 1.
Thực trạng giao thông Việt Nam và nhu cầu tổ chức
dữ liệu giao thông vận tải
1.1. Thực trạng giao thông ở Việt Nam nói chung và thành phố Hải Phòng
nói riêng
Việt nam là một đất nước có hệ thống chính trị ổn định trong khu vực và
trên thế giới, là một nước chỉ có duy nhất một Đảng Chính trị lãnh đạo, tình
trạng khủng bố hầu như không có. Thế nhưng, tình trạng thiệt mạng do tai nạn
giao thông thì lại quá nhiều, bình quân mỗi năm có 09 ngàn đến 13 ngàn người
thiệt mạng do TNGT, thiệt hại kinh tế ước tính đến cả tỷ USD/năm bằng cả trị
giá xuất khẩu lúa gạo (Việt nam có sản lượng xuất khẩu lúa gạo đứng thứ hai
trên thế giới). Theo báo cáo của bộ Giao thông vận tải, tai nạn giao thông trong
10 năm qua tăng liên tục, đặc biệt từ năm 2001 tăng đột biến. Năm 2002 tai nạn
đã làm chết 10.866 người, bị thương 29.449 người. [07].
Hình 1.1. Tai nạn giao thông
Hệ thống đường bộ của chúng ta hầu như chưa đạt tiêu chuẩn kỹ thuật :
- Độ nghiêng, độ bám dính mặt đường, độ phẵng, tầm nhìn... chưa đảm bảo
cũng là nguyên nhân gây ra tai nạn giao thông.
- Hệ thống đèn tín hiệu cảnh báo chỉ dẫn được thiết kế thi công chưa đồng bộ
cũng là nguyên nhân làm ùn tắc giao thông ở các chổ đường giao nhau và
gây ra tai nạn giao thông.
Hải Phòng là thành phố lớn thứ ba của Việt Nam và lớn thứ hai ở miền
- 9-
Bắc, và là một trong năm thành phố trực thuộc Trung ương, đô thị loại một trung
tâm cấp quốc gia. Đến ngày 01/04/2009, dân số Hải Phòng là 1.837.302 người,
trong đó dân cư thành thị chiếm 46,1% và dân cư nông thôn chiếm 53,9%.
Thành phố Hải Phòng có khoảng 600 tuyến đường, nằm trong 07 quận nội
thành. Các con phố của Hải Phòng thường nhỏ hẹp, thường xảy ra tình trạng tắc
đường vào giờ cao điểm, tuy nhiên chưa tới mức trầm trọng như thủ đô Hà Nội
và thành phố Hồ Chí Minh [08].
Hình 1.2 . Giao thông Hải Phòng
Theo thống kê của Ban An toàn giao thông - Sở giao thông vận tải Hải
Phòng, hiện nay thành phố có 38 điểm hay xảy ra ùn tắc giao thông và gần 20
điểm “nóng” về tai nạn giao thông…
Hạ tầng giao thông chưa xứng tầm: Hải Phòng có 50 tuyến phố chính nội
đô, tổng chiều dài hơn 60 km cùng các tuyến Quốc lộ 5, Quốc lộ10, Quốc lộ 37
dài hơn 100 km; hệ thống tỉnh lộ dài 176 km, đường liên thôn, huyện dài gần
1000 km… Nhưng từ năm 1955 đến nay, sau 56 năm giải phóng Hải Phòng,
những tuyến đường này vẫn chưa được mở rộng. Trong khi dân số thời điểm đó
là 20 vạn người, còn số dân hiện nay lên tới xấp xỉ 02 triệu người, nên ùn tắc
giao thông thường xuyên xảy ra [08].
Với đặc thù là thành phố Cảng biển cửa ngõ của Miền Bắc, nhu cầu vận
chuyển hàng hóa thông qua cảng biển Hải Phòng bằng đường bộ chiếm tỉ trọng
lớn, đường và các nút giao thông khu vực cảng chật hẹp, thiếu các bãi đỗ xe chờ
giao nhận hàng dẫn đến hiệu quả khai thác kém. Năng lực vận tải bằng đường
bộ năm 2011 là 44 triệu tấn hàng hoá và không có xu hướng giảm xuống. Sự gia
tăng quá nhanh của phương tiện vận tải trong khi cơ sở hạ tầng giao thông
đường bộ chưa đáp ứng kịp, xuất hiện nhiều vấn đề cần được giải quyết như ùn
- 10-
tắc giao thông, mất an toàn giao thông, trật tự vệ sinh đô thị… [08].
Với tình hình chung ở nước ta hiện nay, công tác bảo trì giao thông đường
bộ được thực hiện chủ yếu dựa trên việc đánh giá chủ quan về điều kiện hiện
trạng của đường, trong khi đó mô hình HDM-4 (Mô hình quản lý và phát triển
đường bộ được xây dựng và phát triển bởi Ngân hàng Thế giới và các tổ chức
quốc tế khác, nhằm kết hợp yếu tố kỹ thuật, kinh tế và môi trường trong phân
tích đánh giá hiệu quả đầu tư của dự án và phân tích chiến lược quản lý và phát
triển bền vững mạng lưới đường bộ; được khuyến cáo sử dụng năm 1999) cần
một lượng dữ liệu định lượng rất đồ sộ về giao thông như đặc điểm hình học
đường và sự hư hỏng của mặt đường để phân tích tìm chiến lược và kế hoạch
duy tu tối ưu cả về khía cạnh kỹ thuật và kinh tế trong các trường hợp khác nhau
về nguồn vốn. Do vậy cần có các kế hoạch để thu thập, quản lý và lưu trữ số liệu
để ngoài việc phục vụ cho các phân tích chiến lược duy tu, còn giúp cho việc
hiệu chỉnh, kiểm chứng, và cập nhập mô hình HDM-4 cho phù hợp với điều kiện
của Việt Nam.
Mặt khác, một trong những yếu tố góp phần đảm bảo giao thông đô thị là
việc quản lý tình trạng các cung đường. Việc thống kê đầy đủ tình trạng về các
cung đường sẽ giúp cho những người quản lý thấy rõ được chất lượng qua số
liệu cụ thể, chính xác, khách quan và khoa học. Từ đó đưa ra những thông báo
và quyết định phù hợp.
1.2. Nhu cầu quản lý dữ liệu các cung đường trên địa bàn Hải Phòng
Hiện nay, thành phố Hải Phòng có khoảng 600 tuyến đường, thuộc địa bàn
07 quận nội thành. Tổ chức, khai thác thông tin về các cung đường nhằm quản
lý và xử lý kịp thời tình trạng giao thông. Mặt khác, góp phần xây dựng Ngân
hàng lưu trữ dữ liệu đường bộ theo mô hình HDM, phục vụ cho công tác quản lý
và bảo trì mạng lưới đường bộ kịp thời, có hệ thống và hiệu quả hơn theo chiến
lược xây dựng và phát triển hệ thống giao thông Việt Nam. Để phù hợp với yêu
cầu trên, có thể xây dựng hệ cơ sở dữ liệu theo mô hình Hệ thống phân tán. Dữ
liệu tổ chức và lưu trữ ở vị trí khác nhau, cụ thể là tại các quận và được tích hợp
lại với nhau thông qua mạng máy tính, chương trình ứng dụng làm việc trên cơ
sở truy cập dữ liệu ở những điểm khác nhau đó.
1.3. Kết luận chương
Với tình hình thực tế về giao thông hiện nay, cần thiết xây dựng một hệ
thống cơ sở dữ liệu thống nhất, đồng bộ về các cung đường. Để phù hợp với yêu
cầu trên, có thể xây dựng hệ cơ sở dữ liệu theo mô hình Hệ thống phân tán.
- 11-
Chương 2.
Về cơ sở dữ liệu phân tán
Một CSDL phân tán là một tập hợp nhiều CSDL có liên đới logic và được
phân bố trên một mạng máy tính.
- Tính chất phân tán: Toàn bộ dữ liệu của CSDL phân tán không được cư
trú ở một nơi mà cư trú trên nhiều trạm thuộc mạng máy tính, điều này giúp
chúng ta phân biệt CSDL phân tán với CSDL tập trung đơn lẻ.
- Tương quan logic: Toàn bộ dữ liệu của CSDL phân tán có một số các
thuộc tính ràng buộc chúng với nhau, điều này giúp chúng ta có thể phân biệt
một CSDL phân tán với một tập hợp CSDL cục bộ hoặc các tệp cư trú tại các vị
trí khác nhau trong một mạng máy tính [03].
Hình 2.1. Mô hình CSDL phân tán
Trong hệ thống cơ sở dữ liệu phân tán gồm nhiều trạm, mỗi trạm có thể
khai thác các giao tác truy nhập dữ liệu trên nhiều trạm khác.
2.1. So sánh cơ sở dữ liệu phân tán và cơ sở dữ liệu tập trung
Cơ sở dữ liệu tập trung cùng với cơ sở dữ liệu không qua thiết kế hình
thành trước khi có cơ sở dữ liệu phân tán. Hai hình thức này phát triển trên cơ sở
tự phát và hệ thống tập trung. Như vậy hai hình thức này không đáp ứng được
yêu cầu tổ chức và công việc trên phạm vi lớn.
Cơ sở dữ liệu phân tán được thiết kế khác cơ sở dữ liệu tập trung. Do đó
cần đối sánh các đặc trưng của cơ sở dữ liêu phân tán với cơ sở dữ liệu tập trung
để thấy được lợi ích của cơ sở dữ liệu phân tán. Đặc trưng mô tả cơ sở dữ liệu
- 12-
tập trung là điều khiển tập trung, độc lập dữ liệu, giảm bớt dư thừa, cơ cấu vật lý
phức tạp đối với khả năng truy cập, toàn vẹn, hồi phục, điều khiển tương tranh,
biệt lập và an toàn dữ liệu [01].
Hình 2.2. Cơ sở dữ liệu phân tán
Điều khiển tập trung: Điều khiển tập trung các nguồn thông tin của công
việc hay tổ chức. Có người quản trị đảm bảo an toàn dữ liệu.
Trong cơ sở dữ liệu phân tán: không đề cập đến vấn đề điều khiển tập
trung. Người quản trị cơ sở dữ liệu chung phân quyền cho người quản trị cơ sở
dữ liệu địa phương [03].
Độc lập dữ liệu: là một trong những nhân tố tác động đến cấu trúc cơ sở dữ
liệu để tổ chức dữ liệu chuyển cho chương trình ứng dụng. Tiện lợi chính của
độc lập dữ liệu là các chương trình ứng dụng không bị ảnh hưởng khi thay đổi
cấu trúc vật lý của dữ liệu. Trong cơ sở dữ liệu phân tán, độc lập dữ liệu có tầm
quan trọng cũng như trong cơ sở dữ liệu truyền thống. Khái niệm cơ sở dữ liệu
trong suốt mô tả hoạt động chương trình trên cơ sở dữ liệu phân tán được viết
như làm việc trên cơ sở dữ liệu tập trung. Hay nói cách khác tính đúng đắn của
chương trình không bị ảnh hưởng bởi việc di chuyển dữ liệu từ nơi này sang nơi
khác trong mạng máy tính. Tuy nhiên tốc độ làm việc bị ảnh hưởng do có thời
gian di chuyển dữ liệu [03].
Giảm dư thừa dữ liệu: Trong cơ sở dữ liệu tập trung, tính dư thừa hạn chế
được càng nhiều càng tốt vì:
Dữ liệu không đồng nhất khi có vài bản sao của cùng cơ sở dữ liệu
logic; để tránh được nhược điểm này giải pháp là chỉ có một bản sao
duy nhất.
Giảm không gian lưu trữ. Giảm dư thừa có nghĩa là cho phép nhiều
ứng dụng cùng truy cập đến một cơ sở dữ liệu mà không cần đến
nhiều bản sao ở những nơi chương trình ứng dụng cần.
- 13-
Trong cơ sở dữ liệu truyền thống tính dư thừa dữ liệu cũng cần quan
tâm vì:
-
Tính cục bộ của chương trình ứng dụng sẽ tăng nếu dữ liệu đặt ở mọi
nơi mà chương trình ứng dụng cần.
-
Khả năng sẵn sàng của hệ thống cao bởi vì khi có lỗi ở một nơi nào
đó trong hệ thống thì không cản trở hoạt động của chương trình ứng
dụng.
Nói chung, nguyên nhân đối lập với tính dư thừa đưa ra trong môi trường
truyền thống vẫn còn đúng cho hệ thống phân tán và vì vậy công việc định giá
mức độ tốt của tính dư thừa đòi hỏi định giá lại công việc lựa chọn mức độ dư
thừa dữ liệu.
Cơ sở dữ liệu phân tán khắc phục được hai nhược điểm này vì dữ liệu được
chia ra thành nhiều phần nhỏ và chỉ có một bản sao logic tổng thể duy nhất để
tiện cho việc truy cập dữ liệu.
Cấu trúc vật lý và khả năng truy cập: người sử dụng truy cập đến cơ sở dữ
liệu tập trung phải thông qua cấu trúc truy cập phức tạp: định vị cơ sở dữ liệu,
thiết lập đường truyền ...
Trong cơ sở dữ liệu phân tán, cấu trúc truy cập phức tạp không phải là công
cụ chính để truy cập hiệu quả đến cơ sở dữ liệu. Hiệu quả có nghĩa là thời gian
tìm kiếm và chuyển dữ liệu nhỏ nhất, chi phí truyền thông thấp nhất.
Mỗi cách thức truy cập cơ sở dữ liệu phân tán viết bởi người lập trình hoặc
tạo ra bởi một bộ tối ưu. Công việc viết ra một cách thức truy cập cơ sở dữ liệu
phân tán cũng giống như viết chương trình duyệt trong cơ sở dữ liệu tập trung.
Công việc mà chương trình duyệt này làm là xác định xem có thể truy cập đến
được bao nhiêu cơ sở dữ liệu.
Tính toàn vẹn, hồi phục và điều khiển tương tranh: Mặc dù trong cơ sở dữ
liệu, tính toàn vẹn, hồi phục và điều khiển đồng thời liên quan nhiều vấn đề liên
quan lẫn nhau. Mở rộng hơn vấn đề này là việc cung cấp các giao tác. Giao tác
là đơn vị cơ bản của việc thực hiện: giao tác cụ thể là bó công việc được thực
hiện toàn bộ hoặc không được thực hiện [03].
Trong cơ sở dữ liệu phân tán, vấn đề điều khiển giao tác tự trị có ý nghĩa
quan trọng: hệ thống điều phối phải chuyển đổi các quỹ thời gian cho các giao
tác liên tiếp. Như vậy giao tác tự trị là phương tiện đạt được sự toàn vẹn trong
cơ sở dữ liệu. Có hai mối nguy hiểm của giao tác tự trị là lỗi và tương tranh.
- 14-
Thứ nhất, trong cơ sở dữ liệu phân tán với cấp độ tự trị cao ở mỗi điểm,
người có dữ liệu địa phương sẽ cảm thấy an toàn hơn vì họ có thể tự bảo vệ dữ
liệu của mình thay vì phụ thuộc vào người quản trị hệ thống tập trung.
Thứ hai, vấn đề an toàn thực chất với hệ thống phân tán không giống như
các hệ thống thông thường khác mà còn liên quan đến mạng truyền thông.
Như vậy trong cơ sở dữ liệu phân tán vấn đề an toàn cơ sở dữ liệu phức tạp
hơn.
Tính biệt lập và an toàn: trong cơ sở dữ liệu truyền thống, người quản trị hệ
thống có quyền điều khiển tập trung, người sử dụng có chắc chắn được phân
quyền mới truy cập vào được dữ liệu. Điểm quan trọng là trong cách tiếp cận cơ
sở dữ liệu tập trung, không cần thủ tục điều khiển chuyên biệt.
Trong cơ sở dữ liệu phân tán, những người quản trị địa phương cũng phải
giải quyết vấn đề tương tự như người quản trị cơ sở dữ liệu truyền thống.
2.2. Sự cần thiết của cơ sở dữ liệu phân tán
2.2.1. Sự phát triển của các cơ cấu tổ chức
Cùng với sự phát triển của xã hội, nhiều cơ quan, xí nghiệp có cơ cấu tổ
chức không tập trung, hoạt động phân tán trên phạm vi rộng. Vì vậy thiết kế và
cài đặt cơ sở dữ liệu phân tán là phù hợp, đáp ứng mọi nhu cầu truy xuất và khai
thác dữ liệu. Cùng với sự phát triển của công nghệ viễn thông, tin học, động cơ
thúc đẩy kinh tế, việc tổ chức các trung tâm máy tính lớn và tập trung trở thành
vấn đề cần nghiên cứu.
Cơ cấu tổ chức và vấn đề kinh tế là một trong những nguyên nhân quan
trọng nhất của sự phát triển cơ sở dữ liệu phân tán.
2.2.2. Giảm chi phí truyền thông
Trong thực tế, sử dụng một số ứng dụng mang tính địa phương sẽ làm giảm
chi phí truyền thông. Bởi vậy, việc tối ưu hoá tính địa phương của các ứng dụng
là một trong những mục tiêu chính của việc thiết kế và cài đặt một CSDLPT.
2.2.3. Hiệu quả công việc
Sự tồn tại một số hệ thống xử lý điạ phương đạt được thông quan việc xử lý
song song. Vấn đề này có thể thích hợp với mọi hệ đa xử lý. CSDLPT có thuận
lợi trong phân tích dữ liệu phản ánh điều kiện phụ thuộc của các ứng dụng, cực
đại hoá tính địa phương của ứng dụng. Theo cách này tác động qua lại giữa các
bộ xử lý được làm cực tiểu. Công việc được phân chia giữa các bộ xử lý khác
nhau và tránh được các tắc nghẽn thông tin trên mạng truyền thông hoặc các
- 15-
dịch vụ chung của toàn hệ thống. Sự phân tán dữ liệu phản ánh hiệu quả làm
tăng tính địa phương của các ứng dụng [04].
2.2.4. Độ tin cậy và tính sẵn sàng
Cách tiếp cận CSDLPT, cho phép truy nhập độ tin cậy và tính sẵn sàng cao
hơn. Tuy nhiên, để đạt được mục đích đó là vấn đề không đơn giản đòi hỏi kỹ
thuật phức tạp. Những lỗi xuất hiện trong một CSDLPT có thể xảy ra nhiều hơn
vì số các thành phần cấu thành lớn hơn, nhưng ảnh hưởng của lỗi chỉ ảnh hưởng
tới các ứng dụng sử dụng các trạm lỗi. Sự hỏng hóc của toàn hệ thống hiếm khi
xảy ra.
CSDLPT là sự tập hợp các dữ liệu thuộc cùng một hệ thống về mặt logic
nhưng phân bố trên các trạm của mạng máy tính. Công nghệ CSDLPT là sự kết
hợp giữa hai vấn đề phân tán và hợp nhất:
Phân tán : phân tán dữ liệu trên các trạm của mạng;
Hợp nhất : hợp nhất về mặt logic các dữ liệu phân tán sao cho chúng xuất
hiện với người sử dụng giống như với CSDL đơn lẻ duy nhất.
Công nghệ CSDL phân tán mới thực sự phát triển trong những năm gần
đây nhờ sự phát triển của kỹ thuật tính toán, kỹ thuật truyền thông và mạng máy
tính. Những ứng dụng được xây dựng trên CSDL phân tán đã xuất hiện nhiều
trên thị trường và từng bước chứng minh tính ưu việt của nó so với CSDL tập
trung.
Tuy nhiên, hệ cơ sở dữ liệu phân tán cũng có những hạn chế như:
Phần mềm phức tạp và kinh phí tốn kém;
Phải xử lý các thay đổi thông báo trong mọi địa điểm;
Khó kiểm soát tính toàn vẹn dữ liệu với nhiều bản sao dữ liệu được phân
bố khắp mọi nơi;
Nói chung, kỹ thuật thiết kế cơ sở dữ liệu phân tán phức tạp nhưng hệ cơ sở
dữ liệu phân tán cũng cần thiết cho xu hướng phát triển kinh tế hiện nay.
2.3. Kiến trúc cơ bản của CSDL phân tán
Đây không là kiến trúc tường minh cho tất cả các CSDL phân tán, tuy vậy
kiến trúc này thể hiện tổ chức của bất kỳ một CSDL phân tán nào.
- 16-
Sơ đồ tổng thể
Sơ đồ phân đoạn
Sơ đồ định vị
Sơ đồ ánh xạ địa phương
1
DBMS của vị trí 1
CSDL địa phương tại vị trí 1
Sơ đồ ánh xạ địa phương 2
Các vị trí khác…
DBMS của vị trí 2
CSDL địa phương tại vị trí 2
Hình 2.3. Kiến trúc cơ bản của CSDL phân tán
Theo Phạm Thế Quế[02]:
(1) Lược đồ toàn cục
Lược đồ toàn cục định nghĩa tất cả dữ liệu được chứa trong cơ sở dữ liệu
phân tán như trong cơ sở dữ liệu tập trung. Vì vậy, lược đồ toàn cục được định
nghĩa chính xác như định nghĩa lược đồ cơ sở dữ liệu tập trung. Tuy nhiên, mô
hình dữ liệu lược đồ toàn cục cần phải tương thích với việc định nghĩa các ánh
xạ tới các mức của cơ sở dữ liệu phân tán. Vì vậy mô hình dữ liệu quan hệ sẽ
được sử dụng trong kiến trúc mô hình tham chiếu cơ sở dữ liệu phân tán, định
nghĩa một tập các quan hệ toàn cục.
(2) Lược đồ phân mảnh
Mỗi quan hệ toàn cục có thể chia thành nhiều phần không chồng lặp lên
nhau được gọi là phân mảnh. Ánh xạ giữa các quan hệ toàn cục và phân mảnh
được định nghĩa là lược đồ phân mảnh. Ánh xạ này là mối quan hệ một-nhiều.
Ví dụ, nhiều phân mảnh tương ứng với một quan hệ toàn cục, nhưng chỉ một
quan hệ toàn cục tương ứng với một phân mảnh. Các phân mảnh được chỉ ra
bằng tên của quan hệ toàn cục với một chỉ số (chỉ số phân mảnh). Ví dụ, Ri chỉ
đến phân mảnh thứ i trong quan hệ toàn cục R.
- 17-
Các kiểu phân mảnh dữ liệu bao gồm phân mảnh ngang và phân mảnh dọc
và một kiểu phân mảnh phức tạp hơn là sự hết hợp của 2 loại trên. Trong tất cả
các kiểu phân mảnh, một phân mảnh có thể được định nghĩa bằng một biểu thức
ngôn ngữ quan hệ cho các quan hệ toàn cục như là các toán hạng và kết quả đầu
ra là các phân mảnh.
(3) Lược đồ cấp phát
Các phân mảnh là những phần logic của các quan hệ toàn cục được chứa ở
một hay nhiều trạm trong mạng. Lược đồ cấp phát xác định các phân mảnh được
chứa ở những trạm nào. Tất cả các phân mảnh tương ứng với cùng một quan hệ
R và được lưu ở dùng một trạm j tạo thành một mô hình vật lý của quan hệ toàn
cục lên trạm j. Do đó, có một ánh xạ một-một giữa một mô hình vật lý và một
cặp là một quan hệ toàn cục được định danh và một chỉ số trạm tương ứng với
một mô hình vật lý. Ký hiệu Rji tương ứng với mô hình vật lý mảnh thứ i của
quan hệ R trên trạm j.
Có thể định nghĩa một bản sao của một phân mảnh tại một trạm cho trước
và kí hiệu bằng tên quan hệ toàn cục R và hai chỉ số. Ví dụ R32 để chỉ bản sao
của phân mảnh R2 được chứa ở trạm 3. Hai mô hình vật lý có thể giống nhau, ví
là bản sao của nhau.
Lược đồ các trạm phụ thuộc: gồm lược đồ ánh xạ cục bộ, DBMS của các
trạm cục bộ, cơ sở dữ liệu ở trạm đó.
R1 trạm 1
R2 trạm 2
R3 trạm 3
Quan hệ toàn cục
Phân mảnh
Mô hình vật lý
Hình 2.4. Các phân mảnh và mô hình vật lý cho một quan hệ toàn cục
- 18-
(4) Lược đồ ánh xạ cục bộ
Do ba mức đầu các trạm độc lập, nên chúng không phụ thuộc vào mô hình
dữ liệu của DBMS cục bộ. Ở mức thấp hơn, nó cần phải ánh xạ mô hình vật lý
thành các đối tượng được thao tác bởi các DBMS cục bộ. Ánh xạ này được gọi
là lược đồ ánh xạ cục bộ và phụ thuộc vào kiểu của DBMS cục bộ. Trong hệ
thống không đồng nhất có các kiểu khác nhau của ánh xạ cục bộ tại các trạm
khác nhau. Yếu tố quan trọng nhất để thiết kế kiến trúc này là:
- Phân mảnh và cấp phát dữ liệu;
- Quản lí dư thừa dữ liệu;
- Sự độc lập của các DBMS cục bộ;
(5) DBMS ở các trạm cục bộ độc lập
Tính năng trong suốt trong ánh xạ cục bộ cho phép xây dựng một hệ thống
cơ sở dữ liệu phân tán đồng nhất hoặc không đồng nhất. Trong hệ thống đồng
nhất, các lược đồ độc lập của một trạm được định nghĩa sử dụng cùng một mô
hình như DBMS cục bộ nhưng trong hệ thống không đồng nhất thì các lược đồ
ánh xạ cục bộ dùng để phối hợp các kiểu khác nhau của DBMS…
2.4. Hệ quản trị cơ sở dữ liệu phân tán
Theo Phạm Thế Quế[02]:
Trong hệ quản trị CSDL phân tán, sự phân tán dữ liệu là trong suốt đối với
người sử dụng. Việc quản lý các dữ liệu phân tán đòi hỏi mỗi trạm cài đặt các
thành phần hệ thống sau:
Phần quản lý cơ sở dữ liệu (DB);
Phần truyền thông dữ liệu (DC);
Từ điển dữ liệu(DD) được mở rộng để thể hiện thông tin về phân tán dữ
liệu trong mạng máy tính;
Phần cơ sở dữ liệu phân tán (DDB).
Các hệ QTCSDL phân tán thường hỗ trợ về điều khiển tương tranh và khôi
phục các tiến trình phân tán. Khả năng truy cập từ xa có thể thực hiện được bằng
hai cách: Truy cập từ xa trực tiếp và gián tiếp.
2.4.1. Phân loại hệ quản trị CSDL phân tán
(1) Hệ quản trị CSDL phân tán thuần nhất:
CSDLPT có được bằng cách chia một CSDL thành một tập các CSDL cục
- 19-
bộ và được quản lý bởi cùng một hệ QTCSDL.
CSDLPT có thuần nhất hay không được phụ thuộc bởi các yêu tố phần
cứng, hệ điều hành và các hệ quản trị CSDL cục bộ. Tuy nhiên, hạn chế quan
trọng tại hệ QTCSDL cục bộ, bởi vì nó phụ thuộc vào sự quản lý hệ điều hành
mạng truyền thông.
Hệ quản trị CSDL phân tán
Hệ QTCSDL
Hệ QTCSDL
Database
Database
Hệ QTCSDL
Database
Hình 2.5. Kiến trúc mô hình hệ QTCSDLPT thuần nhất
(2) Hệ quản trị CSDL phân tán không thuần nhất:
CSDLPT không thuần nhất được tích hợp bởi một tập các CSDL cục bộ
được quản lý bởi các hệ QTCSDL khác nhau. Hệ QTCSDLPT không thuần nhất
thêm việc chuyển đổi các mô hình dữ liệu của các hệ QTCSDL khác nhau để
thống nhất việc quản lý.
Hệ quản trị CSDL1
Database
Hệ quản trị
CSDL2
Database
Hệ quản trị
CSDL3
Database
Hình 2.6. Kiến trúc mô hình hệ QTCSDLPT không thuần nhất
- Xem thêm -