Đăng ký Đăng nhập
Trang chủ Nguyen bao...

Tài liệu Nguyen bao

.PDF
84
548
147

Mô tả:

Tìm hiểu về Big data và nền tảng tính toán phân tán Hadoop
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC NGUYỄN BẢO TÌM HIỂU VỀ BIG DATA VÀ NỀN TẢNG TÍNH TOÁN PHÂN TÁN HADOOP LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN Thừa Thiên Huế, 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC NGUYỄN BẢO TÌM HIỂU VỀ BIG DATA VÀ NỀN TẢNG TÍNH TOÁN PHÂN TÁN HADOOP CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC ĐỊNH HƯỚNG NGHIÊN CỨU NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. NGUYỄN MẬU HÂN Thừa Thiên Huế, 2016 LỜI CAM ĐOAN Tôi xin cam đoan bản luận văn này là công trình nghiên cứu riêng của tôi, không sao chép ở bất kỳ công trình khoa học nào trước đây. Các kết quả nêu trong luận văn có nguồn gốc rõ ràng và được trích dẫn đầy đủ. Tôi xin hoàn toàn chịu trách nhiệm về luận văn này. Học viên Nguyễn Bảo LỜI CẢM ƠN Đầu tiên, tôi xin chân thành cảm ơn quý thầy cô giáo Khoa Công nghệ thông tin và Phòng Đào tạo Sau đại học-Trường Đại học Khoa học Huế đã tận tình hướng dẫn, truyền đạt kiến thức, tạo điều kiện thuận lợi trong quá trình học tập và thực hiện luận văn tốt nghiệp. Tôi xin gửi lời biết ơn chân thành đến thầy giáo PGS.TS. Nguyễn Mậu Hân, người đã tận tình hướng dẫn và góp ý cho tôi trong suốt quá trình nghiên cứu, cho tôi nhiều lời động viên cũng như những hướng dẫn quý báu để tôi có thể thực hiện tốt được đề tài này. Xin cám ơn Ban giám hiệu, toàn thể giáo viên và nhân viên Trường PT DTNT tỉnh Quảng Trị đã giúp đỡ, tạo điều kiện thuận lợi để tôi hoàn thành khóa học. Trong quá trình thực hiện đề tài, không thể không kể đến sự giúp đỡ, đóng góp ý kiến và những lời động viên từ phía gia đình, người thân, đồng nghiệp và bạn bè xung quanh, điều này thật sự là động lực lớn giúp tôi hoàn thành tốt đề tài nghiên cứu của mình. Xin chân thành cám ơn! Huế, ngày 20 tháng 6 năm 2016 Học viên Nguyễn Bảo MỤC LỤC Lời cam đoan ............................................................................................................... Mục lục ......................................................................................................................... Các chữ viết tắt ............................................................................................................ Danh mục các bảng ..................................................................................................... Danh mục các hình vẽ ................................................................................................. MỞ ĐẦU .................................................................................................................... 1 Chương 1. TỔNG QUAN VỀ TÍNH TOÁN PHÂN TÁN VÀ BIG DATA .......... 5 1.1. GIỚI THIỆU SƠ LƯỢC VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN ........................5 1.2. XỬ LÝ PHÂN TÁN VÀ HỆ THỐNG PHÂN TÁN .......................................7 1.2.1. Khái niệm xử lý phân tán ......................................................................... 7 1.2.2. Hệ thống phân tán..................................................................................... 7 1.3. HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN .................................................................7 1.3.1. Hệ cơ sở dữ liệu phân tán là gì? ............................................................... 7 1.3.2. Sự cần thiết của HCSDL phân tán ............................................................ 8 1.3.3. Khả năng truy cập từ xa của hệ CSDLPT ................................................ 9 1.4. GIỚI THIỆU VỀ BIG DATA........................................................................10 1.4.1. Giới thiệu về Big Data ............................................................................ 10 1.4.2. Big Data là gì? ........................................................................................ 12 1.4.3. Các đặc điểm và thành phần của Big Data ............................................. 12 1.4.4. Mô hình xử lý Big Data .......................................................................... 15 1.4.5. Thách thức của Big Data với thực tế công nghệ thông tin hiện đại. ...... 16 1.4.6. Ứng dụng của Big Data trong thực tế..................................................... 18 1.5. TIỂU KẾT CHƯƠNG 1 ................................................................................20 Chương 2. TÍNH TOÁN PHÂN TÁN VỚI HADOOP ........................................ 21 2.1. TỔNG QUAN NỀN TẢNG TÍNH TOÁN PHÂN TÁN HADOOP .............21 2.1.1. Lịch sử Hadoop ...................................................................................... 21 2.1.2. Khái niệm Hadoop.................................................................................. 22 2.1.3. Các thành phần Hadoop ......................................................................... 23 2.1.4. Ưu, nhược điểm của Hadoop .................................................................. 24 2.2. TỔNG QUAN VỀ MAPREDUCE ................................................................26 2.2.1. Nguyên nhân và lịch sử ra đời ................................................................ 26 2.2.2. Khái niệm về MapReduce ...................................................................... 26 2.2.3. Cú pháp MapReduce .............................................................................. 27 2.2.4. Cơ chế hoạt động MapReduce trong Hadoop ........................................ 30 2.3. HỆ THỐNG TẬP TIN PHÂN TÁN (HDFS) ................................................38 2.3.1. Giới thiệu về HDFS ................................................................................ 38 2.3.2. Kiến trúc và hoạt động của HDFS.......................................................... 38 2.4. TIỂU KẾT CHƯƠNG 2 ................................................................................42 Chương 3. XỬ LÝ BIG DATA VÀ ỨNG DỤNG ................................................. 43 3.1. XỬ LÝ BIG DATA VỚI HORNWORKS SANBOX...................................43 3.1.1. Giới thiệu Hortonworks Data Platform .................................................. 43 3.1.2. Những đặc tính quan trọng của Hortonworks Data Platform................. 44 3.1.3 Các thành phần của Hortonworks Data Platform .................................... 44 3.1.4. Cài đặt Hortonworks Sandbox 1.2 trên Windows .................................. 50 3.2. BÀI TOÁN ....................................................................................................51 3.2.1. Mô tả bài toán: ........................................................................................ 51 3.2.2. Dữ liệu đầu vào, đầu ra của bài toán: ..................................................... 51 3.2.3. Cài đặt bài toán trên Hortonworks Sandbox 1.2: ................................... 53 3.3. ĐÁNH GIÁ HORTONWORKS SANDBOX VÀ SQL TRONG XỬ LÝ BIG DATA ........................................................................................................................56 3.3.1. Đánh giá hiệu năng xử lý truy vấn ......................................................... 56 3.3.2. Kết luận .................................................................................................. 60 3.4. TIỂU KẾT CHƯƠNG 3 ................................................................................60 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................................. 61 1. KẾT QUẢ ĐẠT ĐƯỢC TRONG LUẬN VĂN...............................................61 2. MỘT SỐ HẠN CHẾ ĐỀ TÀI ...........................................................................61 3. HƯỚNG PHÁT TRIỂN....................................................................................61 TÀI LIỆU THAM KHẢO ...................................................................................... 63 PHỤ LỤC CÀI ĐẶT ............................................................................................... 64 DANH MỤC CÁC CHỮ VIẾT TẮT CSDL Cơ sở dữ liệu CSDLPT Cơ sở dữ liệu phân tán DDBMS Distributed Database Management System GFS Google File System HCSDL Hệ cơ sở dữ liệu HDFS Hadoop Distributed File System HQTCSDL Hệ quản trị cơ sở dữ liệu HWS Hortonworks Sandbox MR MapReduce NDFS Nutch Distributed File System DANH MỤC CÁC BẢNG Trang Bảng 2.1: Giai đoạn Map..........................................................................................36 Bảng 2.2: Giai đoạn Reduce .....................................................................................37 Bảng 2.3: Kết quả bài toán đếm từ ...........................................................................37 Bảng 3.1: Cấu trúc file dữ liệu đầu vào ....................................................................52 Bảng 3.2: Số bản ghi và dung lượng dữ liệu được lưu trữ trên SQL .......................56 Bảng 3.3: Kết quả test lần 1 với bộ dữ liệu khoảng 0,1 GB .....................................57 Bảng 3.4: Kết quả test lần 2 với bộ dữ liệu khoảng 0,6 GB .....................................58 Bảng 3.5: Dung lượng 4 file dữ liệu từ năm 1987 đến 2008 ....................................58 Bảng 3.6: Kết quả test lần 3 với bộ dữ liệu khoảng 4,1 GB .....................................58 Bảng 3.7: Kết quả test lần 4 với bộ dữ liệu khoảng 17 GB ......................................59 Bảng 3.8: Bảng tổng hợp kết quả 4 lần test với các bộ dữ liệu khác nhau...............59 DANH MỤC CÁC HÌNH Trang Hình 1.1 Mô hình cơ sở dữ liệu phân tán ...................................................................6 Hình 1.2: Hệ cơ sở dữ liệu phân tán ...........................................................................8 Hình 1.3: Truy cập CSDL từ xa .................................................................................9 Hình 1.4: Truy cập CSDL từ xa thông qua chương trình phụ trợ ............................10 Hình 1.5: Các nguồn dữ liệu của Big Data ..............................................................11 Hình 1.6: Biểu diễn 3 đặc điểm của Big Data ..........................................................12 Hình 1.7: Các thành phần của Big Data ...................................................................14 Hình 1.8: Mô hình xử lý Big Data ...........................................................................15 Hình 1.9: Một số công ty tham gia lĩnh vực Big Data .............................................18 Hình 1.10: Dự đoán của Google Flu Trends ............................................................20 Hình 2.1: Các thành phần Hadoop ...........................................................................24 Hình 2.2: Mô hình MR .............................................................................................27 Hình 2.3: Hoạt động của hàm Map ..........................................................................28 Hình 2.4: Hoạt động của hàm Reduce .....................................................................29 Hình 2.5: Mô hình hoạt động MapReduce trong Hadoop ........................................30 Hình 2.6: Sự liên lạc đầu tiên giữa TaskTracker thực thi map task và JobTracker .....31 Hình 2.7: Cơ chế hoạt động của map task ................................................................32 Hình 2.8: TaskTracker hoàn thành map task ...........................................................33 Hình 2.9: Cơ chế hoạt động của Reduce task ..........................................................34 Hình 2.10: TaskTracker hoàn thành Reduce task ....................................................35 Hình 2.11: Quá trình thực hiện MapReduce với bài toán đếm từ ............................38 Hình 2.12: Quá trình client đọc tập tin trong HDFS ................................................40 Hình 2.13: Quá trình client ghi tập tin trong HDFS .................................................41 Hình 3.1: Hortonworks Data Platform .....................................................................43 Hình 3.2: Các thành phần của Hortonworks Data Platform ....................................44 Hình 3.3: Data Management của Hortonworks Data Platform ................................44 Hình 3.4: Data Access của Hortonworks Data Platform..........................................45 Hình 3.5: Data Governance and Integration của Hortonworks Data Platform ........47 Hình 3.6: Security của Hortonworks Data Platform ................................................48 Hình 3.7: Cluster Operations của Hortonworks Data Platform ...............................49 Hình 3.8: Trang download dữ liệu thông tin các chuyến bay ..................................51 Hình 3.9: Câu lệnh truy vấn tính thời gian trễ trung bình các chuyến bay ..............54 Hình 3.10: Kết quả truy vấn thời gian trễ trung bình các hãng máy bay .................54 Hình 3.11: Thông tin chi tiết thời gian thực hiện câu truy vấn MapReduce ............55 Hình 3.12: Biểu đồ so sánh thời gian xử lý truy vấn HWS và SQL ........................59 MỞ ĐẦU 1. TÍNH CẤP THIẾT ĐỀ TÀI Ngày nay, với sự phát triển của công nghệ thông tin và sự tăng trưởng bùng nổ thông tin theo cấp số nhân. Những công ty hàng đầu về công nghệ thông tin như Google, Yahoo, Amazon, Microsoft, Facebook, Twitter… đang đối mặt với một khối lượng dữ liệu khổng lồ. Theo tài liệu của Intel vào tháng 9/2013, hiện nay thế giới đang tạo ra 1 petabyte dữ liệu trong mỗi 11 giây và nó tương đương với một đoạn video HD dài 13 năm. Bản thân các công ty, doanh nghiệp cũng đang sở hữu Big Data của riêng mình, chẳng hạn như trang bán hàng trực tuyến eBay sử dụng hai trung tâm dữ liệu với dung lượng lên đến 40 petabyte để chứa những truy vấn, tìm kiếm, đề xuất cho khách hàng cũng như thông tin về hàng hóa của mình. Nhà bán lẻ online Amazon.com thì phải xử lý hàng triệu hoạt động mỗi ngày cũng như những yêu cầu từ khoảng nửa triệu đối tác bán hàng. Trên Twitter có 500 triệu dòng tweet mới mỗi ngày, Facebook thì có 1, 15 tỉ thành viên, tạo ra một mớ khổng lồ dữ liệu văn bản, tập tin, video… dưới mọi hình thức khác nhau (có cấu trúc, phi cấu trúc, bán cấu trúc). Sự tăng trưởng này khiến nhiều nhà cung cấp dịch vụ web đang phải đối mặt với thách thức trong việc thu thập, phân tích và chia sẻ một lượng lớn dữ liệu, chẳng hạn như dữ liệu thu thập được bởi trình thu thập web, nhật ký tìm kiếm, nhật ký web... Bằng cách phân tích các dữ liệu, các công ty này đạt được một lợi thế cạnh tranh bằng cách cải thiện dịch vụ web của họ, cung cấp các lựa chọn quảng cáo tốt hơn, phát hiện các hoạt động gian lận và cho phép khai thác dữ liệu trên quy mô lớn. Tuy nhiên, khi kích thước của dữ liệu đang tăng trưởng nhanh thì việc xử lý dữ liệu trên các bộ xử lý đơn không thể đáp ứng yêu cầu. Vì vậy, nhiều nhà khoa học trong nước và trên thế giới đang nghiên cứu các công nghệ, thuật toán để giải quyết bài toán về lưu trữ, xử lý và phân tích các loại dữ liệu lớn (Big Data) một cách nhanh nhất, đáp ứng được yêu cầu của các nhà quản trị kinh tế hoặc phân tích thị trường…. Một trong những giải pháp để xử lý Big Data là mô hình MapReduce trên một môi trường framework Hadoop. Mô hình 1 MapReduce chạy trên nền tảng Hadoop cho phép chạy các ứng dụng phân tán trên một cluster lớn được xây dựng trên những phần cứng thông thường, đem lại rất nhiều tính năng ưu việt trong việc lưu trữ và tính toán xử lý song song, phân tán trên nhiều máy chủ với số liệu rất lớn trong thời gian rất ngắn. Do vậy chi phí triển khai MapReduce sẽ rẻ hơn. Sự ra đời của MapReduce đã mở ra cho các doanh nghiệp cơ hội xử lý các nguồn dữ liệu đồ sộ với chi phí thấp và thời gian nhanh hơn. Xuất phát từ thực tế trên tôi chọn “Tìm hiểu về Big Data và nền tảng tính toán phân tán Hadoop” làm đề tài luận văn của mình. 2. TỔNG QUAN TÀI LIỆU Năm 2004, Google công bố nền tảng MapReduce. MapReduce là giải pháp được các kỹ sư của Google tìm ra khi họ đang cố gắng mở rộng bộ máy tìm kiếm của mình. Sau khi ra đời, MapReduce nhanh chóng trở thành một đối tượng nghiên cứu và áp dụng của các doanh nghiệp cần xử lý khối lượng dữ liệu lớn. MapReduce đã mở ra cho các doanh nghiệp cơ hội xử lý các nguồn dữ liệu đồ sộ với chi phí thấp và thời gian xử lý nhanh hơn. Trước MapReduce, các doanh nghiệp muốn xử lý hàng petabyte (triệu gigabyte) dữ liệu để tìm mối quan hệ liên quan đến nghiệp vụ phải rất cân nhắc khi đầu tư cho việc đầy mạo hiểm này vì chi phí và thời gian cần thiết là trở ngại. Với việc áp dụng MapReduce, Amazon có thể xử lý được các file log phát sinh trong quá trình bán hàng trên mạng, phục vụ cho việc dự đoán xu hướng mua hàng của khách hàng, các sản phẩm đang được mua nhiều…Facebook có thể xử lý được khối lượng hơn 10 tỷ hình ảnh mà họ đang lưu trữ để rút trích các thông tin về kích thước hình ảnh, phát hiện các hình ảnh xấu. Cho đến nay, ngoài Google, đã có rất nhiều giải pháp cài đặt bằng nhiều ngôn ngữ khác nhau MapReduce như Qizmt (C#), Skynet (Ruby) và Greenplum (Python, Perl, SQL). Vào năm 2005, Dough Cutting đã áp dụng thành công MapReduce vào ứng dụng Search Engine mã nguồn mở của mình. Sau đó, nhận ra được các tiềm năng to lớn của MapReduce, Cutting đã tách MapReduce ra thành một dự án riêng biệt với tên 2 gọi Apache Hadoop. Hiện nay, Hadoop đã trở thành giải pháp mã nguồn mở hàng đầu hỗ trợ mô hình MapReduce. Bằng cách tập trung vào cốt lõi của thuật toán, sử dụng MapReduce tiết kiệm được khá nhiều chi phí xây dựng các máy chủ lưu trữ dữ liệu. Ngoài Google, các hãng Yahoo, Facebook, Rackspace, …cũng đều đã sử dụng MapReduce để xử lý dữ liệu. Hiện nay, người ta bắt đầu sử dụng MapReduce cho việc phát triển các đám mây điện toán, thuật ngữ Cloud MapReduce hứa hẹn mở ra một hướng mới. 3. MỤC TIÊU NGHIÊN CỨU - Nghiên cứu tổng quan về cơ sở dữ liệu phân tán và Big Data. - Nghiên cứu mô hình lập trình MapReduce trên nền tảng Hadoop. 4. ĐỐI TƯỢNG NGHIÊN CỨU - Cơ sở dữ liệu phân tán, Big Data - Mô hình lập trình MapReduce, nền tảng phân tán Hadoop 5. PHƯƠNG PHÁP NGHIÊN CỨU a. Nghiên cứu lý thuyết - Tìm hiểu, phân tích và tổng hợp các bài báo, tài liệu về cơ sở dữ liệu phân tán, MapReduce và Hadoop b. Nghiên cứu thực nghiệm - Tìm hiểu và cài đặt mô hình lập trình MapReduce trên nền Hadoop. - Phân tích, thiết kế, cài đặt chương trình ứng dụng trên công cụ xử lý Big Data là Hortonworks Sandbox. 6. PHẠM VI NGHIÊN CỨU Tổng quan về Big Data, mô hình lập trình MapReduce dựa trên nền tảng Hadoop và ứng dụng 3 7. NỘI DUNG NGHIÊN CỨU - Tìm hiểu tổng quan về cơ sở dữ liệu phân tán và Big Data - Tìm hiểu về xử lý dữ liệu phân tán theo mô hình MapReduce với Hadoop. - Ứng dụng mô hình MapReduce để xử lý Big Data trên Hortonworks Sandbox 8. BỐ CỤC LUẬN VĂN Luận văn chia làm 3 chương: Chương 1. Tổng quan về cơ sở dữ liệu phân tán và Big Data Trong chương này trình bày tổng quan về cơ sở dữ liệu phân tán: mô hình lập trình, xử lý phân tán, hệ thống truy cập dữ liệu từ xa trong hệ thống phân tán. Giới thiệu tổng quan về Big Data: khái niệm, vai trò, mô hình, đặc điểm, thành phần, cấu trúc và ứng dụng. Chương 2. Tính toán phân tán với Hadoop Trong chương này trình bày về một các tổng quan nhất về Apche Hadoop, hệ thống file phân tán Distributed File System trong Hadoop và mô hình xử lý phân tán MapReduce. Chương 3. Xử lý Big Data và ứng dụng Chương này trình bày về công cụ để xử lý Big Data bằng Hortonworks Sandbox. Cài đặt ứng dụng để xử lý phân tích dữ liệu Big Data trên công cụ Hortonworks Sandbox và so sánh với SQL. 4 Chương 1. TỔNG QUAN VỀ TÍNH TOÁN PHÂN TÁN VÀ BIG DATA 1.1. GIỚI THIỆU SƠ LƯỢC VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN Ngày nay cùng với sự phát triển của các công ty, tổ chức, doanh nghiệp… trên thế giới đặt ra vấn đề tổ chức sao cho kinh doanh có hiệu quả nhất và nắm bắt thông tin nhanh nhất khi các cơ sở của công ty, tổ chức, doanh nghiệp, … hiện ở những địa điểm xa nhau điều này làm cho hệ thống cơ sở dữ liệu truyền thống không thể đáp ứng được. Vì vậy một hệ thống làm việc trên cơ sở dữ liệu phân tán phù hợp với xu hướng hiện nay, hệ thống này thỏa mãn được yêu cầu của các công ty, tổ chức, doanh nghiệp, … lợi điểm về tổ chức và kỹ thuật của CSDLPT là giải quyết được những hạn chế của CSDL tập trung và phù hợp xu hướng phát triển tự nhiên với cơ cấu không tập trung của các tổ chức, công ty, doanh nghiệp… Vậy cơ sở dữ liệu phân tán là gì? Một cơ sở dữ liệu (CSDL) phân tán là một tập hợp dữ liệu, mà về mặt logic tập hợp này cùng một hệ thống, nhưng về mặt vật lý dữ liệu đó được trải trên các vị trí khác nhau của một mạng máy tính.[1] Có hai điểm quan trọng được nêu ra trong định nghĩa: - Phân tán: dữ liệu không cư trú trên một vị trí mà được phân bổ rộng khắp trên nhiều máy tính đặt tại nhiều vị trí khác nhau, đây là điểm phân biệt một cơ sở dữ liệu phân tán với một cơ sở dữ liệu tập trung. - Tương quan logic: dữ liệu trong hệ phân tán có một số thuộc tính ràng buộc chúng với nhau. Điều này giúp chúng ta có thể phân biệt một cơ sở dữ liệu phân tán với một tập hợp cơ sở dữ liệu tập trung, các file dữ liệu được lưu trữ tại nhiều vị trí khác nhau, điều này thường thấy trong các ứng dụng mà hệ thống sẽ phân quyền khi truy nhập dữ liệu trong môi trường mạng. Các lý do sau đây sẽ chỉ rõ sự cần thiết của cơ sở dữ liệu phân tán đối với các công ty, tổ chức, doanh nghiệp… 5 Một là, nhu cầu dùng chung cơ sở dữ liệu. Hai là, các tổ chức kinh tế có nhiều trụ sở phân tán ở nhiều vị trí địa lý khác nhau tạo sự khó khăn trong việc quản lý cơ sở dữ liệu tổng thể. Ba là, làm thế nào để quản lý các luồng dữ liệu và sử dụng chung dữ liệu, chương trình của tổ chức. Hình 1.1 Mô hình cơ sở dữ liệu phân tán Trong đó mỗi trạm được xem như là một chi nhánh cùng giao tiếp với các trạm khác trên cùng một mạng máy tính có cài đặt các hệ quản trị cơ sở dữ liệu. Các đặc điểm của cơ sở dữ liệu phân tán: + Tính phân tán: Dữ liệu không cư trú trên một vị trí mà được phân bố rộng khắp trên nhiều máy tính đặt tại nhiều vị trí khác nhau. Đây là điểm phân biệt một cơ sở dữ liệu phân tán với một cơ sở dữ liệu tập trung. + Tính tương quan logic: Dữ liệu trong hệ phân tán có một số thuộc tính ràng buộc chúng với nhau. 6 Điều này giúp chúng ta có thể phân biệt một cơ sở dữ liệu phân tán với một tập hợp cơ sở dữ liệu tập trung. Các file dữ liệu được lưu trữ tại nhiều vị trí khác nhau, điều này thường thấy trong các ứng dụng mà hệ thống sẽ phân quyền truy nhập dữ liệu trong môi trường mạng. 1.2. XỬ LÝ PHÂN TÁN VÀ HỆ THỐNG PHÂN TÁN 1.2.1. Khái niệm xử lý phân tán Xử lý phân tán là việc thực hiện các tác vụ xử lý phức tạp trên nhiều hệ thống. Không gian nhớ và bộ xử lý của nhiều máy cùng hoạt động chia nhau các tác vụ xử lý. Các phần tử trong mạng máy tính cùng phối hợp thực hiện những công việc được gán cho chúng. Phần tử ở đây để chỉ một máy tính hoặc một thiết bị tính toán có khả năng thực hiện chương trình trên nó. Máy tính trung tâm sẽ giám sát và quản lý các tiến trình này. 1.2.2. Hệ thống phân tán Hệ thống phân tán là tập hợp các máy tính độc lập liên kết với nhau thành một mạng máy tính được cài đặt các hệ cơ sở dữ liệu và các phần mềm hệ thống phân tán khả năng cho nhiều người sử dụng truy cập chia sẽ thông tin chung. 1.3. HỆ CƠ SỞ DỮ LIỆU PHÂN TÁN 1.3.1. Hệ cơ sở dữ liệu phân tán là gì? Hệ cơ sở dữ liệu phân tán có thể xem như những công cụ làm cho quá trình xử lý dữ liệu phân tán dễ dàng hơn và hiệu quả hơn. Khái niệm hệ cơ sở dữ liệu phân tán ở đây bao gồm cả khái niệm cơ sở dữ liệu phân tán và hệ quản trị cơ sở dữ liệu phân tán (ví dụ HQTCSDL Oracle, SQL SERVER, DB2…). 7 Hình 1.2: Hệ cơ sở dữ liệu phân tán 1.3.2. Sự cần thiết của HCSDL phân tán Trong những năm gần đây, công nghệ cơ sở dữ liệu phân tán đã trở thành một lĩnh vực quan trọng của công nghệ thông tin, tính cần thiết của nó ngày càng được nâng cao. Có nhiều nguyên nhân thúc đẩy sự phát triển của các hệ CSDLPT. Thứ nhất là, sự phát triển của các cơ cấu tổ chức. Nhiều công ty, tổ chức doanh nghiệp có cơ cấu tổ chức không tập trung ngày càng nhiều, hoạt động phân tán trên phạm vi rộng. Vì vậy thiết kế và cài đặt cơ sở dữ liệu phân tán là phù hợp, đáp ứng mọi nhu cầu truy xuất và khai thác dữ liệu. Thứ hai là, giảm chi phí truyền thông. Trong thực tế, sử dụng một số ứng dụng mang tính địa phương sẽ làm giảm chi phí truyền thông. Bởi vậy, việc tối ưu hóa tính địa phương của các ứng dụng là một trong những mục tiêu chính của việc thiết kế và cài đặt một CSDLPT. Thứ ba là, hiệu quả công việc. Công việc được phân chia giữa các bộ xử lý khác nhau và tránh được các tắc nghẽn thông tin trên mạng truyền thông hoặc các dịch vụ chung của toàn hệ thống. Sự phân tán dữ liệu hiệu quả làm tăng tính địa phương của các ứng dụng. Thứ tư là, độ tin cậy và tính sẵn sàng. Cách tiếp cận CSDLPT, cho phép truy cập độ tin cậy và tính sẵn sàng cao hơn. Những lỗi xuất hiện lỗi trong CSDLPT có 8 thể xảy ra nhiều hơn vì số thành phần cấu thành nhiều hơn, nhưng ảnh hưởng của lỗi chỉ ảnh hưởng tới các ứng dụng sử dụng ở trạm lỗi. Sự hỏng hóc của toàn hệ thống hiếm khi xảy ra. Từ những tính ưu việt của CSDLPT so với CSDL tập trung cho thấy CSDLPT ngày càng đã xuất hiện nhiều trên thị trường, khẳng định sự cần thiết của nó. 1.3.3. Khả năng truy cập từ xa của hệ CSDLPT Khả năng truy cập từ xa có thể thực hiện bằng hai cách: + Cách thứ nhất là trình ứng dụng yêu cầu truy cập từ xa, yêu cầu này được định tuyến tự động bởi DDBMS (Distributed Database Management System- hệ thống quản lý cơ sở dữ liệu phân tán) tới máy chủ dữ liệu. Được thực hiện tại máy chủ chứa cơ sở dữ liệu và gửi lại kết quả. Hình 1.3: Truy cập CSDL từ xa + Cách thứ hai là trình ứng dụng yêu cầu truy cập từ xa, yêu cầu này được chuyển đến cho một trình ứng dụng trung gian, sau đó được trình ứng dụng trung gian yêu cầu truy cập từ xa yêu cầu này được định tuyến tự động bởi DDBMS tới máy chủ dữ liệu. Được thực hiện tại máy chủ chứa cơ sở dữ liệu và gửi lại kết quả. 9
- Xem thêm -

Tài liệu liên quan