Nghiên cứu giải pháp xây dựng cơ sở dữ liệu tích hợp về thủ tục hành chính

  • Số trang: 77 |
  • Loại file: PDF |
  • Lượt xem: 43 |
  • Lượt tải: 1
tailieuonline

Đã đăng 27429 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ------------ NGÔ THANH MINH NGHIÊN CỨU GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TÍCH HỢP VỀ THỦ TỤC HÀNH LUẬN VĂN THẠC SĨ Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ------------ NGÔ THANH MINH NGHIÊN CỨU GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TÍCH HỢP VỀ THỦ TỤC HÀNH Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 604805 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Phùng Văn Ổn Hà Nội - 2011 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ------------ NGÔ THANH MINH NGHIÊN CỨU GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TÍCH HỢP VỀ THỦ TỤC HÀNH LUẬN VĂN THẠC SĨ Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ------------ NGÔ THANH MINH NGHIÊN CỨU GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TÍCH HỢP VỀ THỦ TỤC HÀNH Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 604805 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Phùng Văn Ổn Hà Nội - 2011 2 MỤC LỤC LỜI CẢM ƠN ..................................................................................................................6 BẢNG CÁC TỪ VIẾT TẮT ........................................................................................... 7 DANH MỤC HÌNH VẼ ..................................................................................................8 MỞ ĐẦU ......................................................................................................................... 9 CHƢƠNG 1: GIỚI THIỆU CHUNG ............................................................................10 1.1. TÍCH HỢP DỮ LIỆU ........................................................................................ 10 1.1.1. Giới thiệu ...................................................................................................10 1.1.2. Vấn đề tích hợp dữ liệu ...............................................................................10 1.1.3. Vai trò của tích hợp dữ liệu trong tổ chức..................................................11 1.1.4. Đặc trưng của tích hợp dữ liệu ...................................................................13 1.1.5. Tiêu chuẩn về tích hợp dữ liệu ....................................................................14 1.1.6. Các biến số ảnh hưởng đến lựa chọn kỹ thuật và công nghệ tích hợp..............15 1.2. TỔNG QUAN VỀ DATA WAREHOUSE ....................................................... 17 1.2.1. Định nghĩa ..................................................................................................17 1.2.2. Các đặc trưng của kho dữ liệu....................................................................17 1.2.3. Các thành phần của Data Warehouse ........................................................18 1.2.4. Mô hình dữ liệu nhiều chiều .......................................................................20 1.2.5. Ứng dụng của kho dữ liệu ...........................................................................20 1.3. CƠ SỞ DỮ LIỆU QUỐC GIA VỀ TỦ TỤC HÀNH CHÍNH .......................... 21 1.3.1. Giới thiệu ....................................................................................................21 1.3.2. Tìm hiểu chung về thủ tục hành chính ........................................................23 1.3.3. Mô hình dữ liệu của cơ sở dữ liệu thủ tục hành chính ...............................24 1.3.4. Mô hình mạng CSDL quốc gia về thủ tục hành chính ................................26 CHƢƠNG 2: PHÂN TÍCH MỘT SỐ GIẢI PHÁP TÍCH HỢP DỮ LIỆU .................28 2.1. NỀN TẢNG VỀ TÍCH HỢP DỮ LIỆU ............................................................ 28 2.1.1. Tích hợp dữ liệu từ điểm nhìn Logic ...........................................................28 2.1.2. Cách tiếp cận có cấu trúc ...........................................................................28 2.1.3. Cách tiếp cận ngữ nghĩa ............................................................................29 2.1.4. Cách tiếp cận tích hợp thông minh .............................................................29 2.1.5. Xử lý truy vấn trong các hệ thống tích hợp dữ liệu ....................................30 2.1.6. Thực thi truy vấn trong kho dữ liệu trung tâm (data warehouse) ..............30 2.2. CÁC KỸ THUẬT TÍCH HỢP DỮ LIỆU .......................................................... 31 2.2.1. Kỹ thuật hợp nhất dữ liệu (Data Consolidation) ........................................32 2.2.2. Kỹ thuật liên hiệp dữ liệu (Data Federation) .............................................34 2.2.3. Kỹ thuật lan truyền dữ liệu (Data Propagation) ........................................34 2.2.4. Kỹ thuật lai .................................................................................................35 2.3. CÁC CÔNG NGHỆ TÍCH HỢP DỮ LIỆU....................................................... 36 2.3.1. Công nghệ ETL (Extract, Transform and Load) ........................................37 2.3.2. Công nghệ EII (Enterprise Information Integration) .................................40 4 2.3.3. Công nghệ EAI (Enterprise Application Integration) ................................44 2.3.4. Công nghệ EDR (Enterprise Data Replication) .........................................49 2.3.5. Công nghệ ECM (Enterprise Content Management) .................................49 2.4. NHẬN XÉT VÀ ĐÁNH GIÁ ............................................................................50 CHƢƠNG 3: GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TÍCH HỢP THỦ TỤC HÀNH CHÍNH THEO CHUẨN CÔNG NGHỆ ETL ..................................................53 3.1. MỤC ĐÍCH ........................................................................................................53 3.2. YÊU CẦU ..........................................................................................................53 3.3. LƢỢC ĐỒ TỔNG THỂ CỦA HỆ THỐNG ...................................................... 53 3.4. THIẾT KẾ KIẾN TRÚC PHÂN TẦNG CỦA HỆ THỐNG .................................54 3.4.1. Tầng truyền thông .......................................................................................55 3.4.2. Tầng trừu tượng cơ sở dữ liệu ....................................................................58 3.4.3. Tầng ánh xạ lược đồ và tích hợp ................................................................61 3.4.4. Tầng xử lý truy vấn tích hợp .......................................................................63 3.4.5. Tầng lưu trữ trung gian ..............................................................................64 3.4.6. Khung nhìn người dùng ..............................................................................64 3.4.7. Các tiện ích .................................................................................................65 3.5. THIẾT KẾ GIAO DIỆN ỨNG DỤNG .............................................................. 65 3.6. MÔI TRƢỜNG PHÁT TRIỂN HỆ THỐNG .................................................... 65 3.7. LẬP TRÌNH .......................................................................................................66 3.8. KẾT QUẢ THỬ NGHIỆM GIẢI PHÁP TÍCH HỢP DỮ LIỆU ....................... 70 3.8.1. Một số giao diện trong chương trình ..........................................................70 3.8.2. Kết quả đạt được .........................................................................................73 KẾT LUẬN ...................................................................................................................73 TÀI LIỆU THAM KHẢO ............................................................................................. 75 5 BẢNG CÁC TỪ VIẾT TẮT Stt Tên đầy đủ Tên viết tắt 1 CNTT Công nghệ thông tin 2 CSDL Cơ sở dữ liệu 3 CDC Changed Data Capture 4 CDI Customer Data Integration 5 DBMS Database Management System 6 EDR Enterprise Data Replication 7 EAI Enterprise Application Integration 8 ESB 9 EI Enterprise Service Bus Enterprise Integration 10 ECM 11 EII Enterprise Content Management Enterprise Information Integration 12 ETL Extract, Transform, and Load 13 MOM Message Oriented Middleware 14 TTHC Thủ tục hành chính 15 SOAP Simple Object Access Protocol 16 SOA 17 OLAP Service Oriented Architecture Online Analytical Processing 18 XML eXtensible Markup Language 19 WSDL Web Services Description Language 7 DANH MỤC HÌNH VẼ Hình 1: Bốn mức của tích hợp kinh doanh doanh nghiệp .............................................12 Hình 2: Các thành phần của một giải pháp tích hợp dữ liệu ........................................14 Hình 4: Mô hình dữ liệu nhiều chiều.............................................................................20 Hình 6: Tích hợp dữ liệu với một kho dữ liệu trung tâm .............................................31 Hình 7: Các kỹ thuật tích hợp: consolidation, federation và propagation ...........32 Hình 8: Mô hình đẩy và kéo của Data Consolidation ...................................................33 Hình 9: Quá trình xử lý của ETL ...................................................................................39 Hình 10. EII cho phép các ứng dụng sử dụng thông tin từ các nguồn khác nhau. EII server đánh giá các yêu cầu thông tin, các truy vấn các nguồn dữ liệu độc lập và cung cấp đầu ra theo yêu cầu của các ứng dụng ....................................................................43 Hình 11: Mô hình hoạt động của Web Service. ............................................................ 45 Hình 12: Kiến trúc point-to-point và hub-and-spoke .................................................... 47 Hình 13: Kiến trúc Bus dịch vụ doanh nghiệp .............................................................. 48 Hình 14: Kiến trúc tích hợp dữ liệu doanh nghiệp ........................................................ 51 Hình 15: Công cụ tích hợp dữ liệu kết nối các CSDL không đồng nhất ....................... 53 Hình 16: Lƣợc đồ Liên hiệp và ETL ...........................................................................54 Hình 17: Kiến trúc phân tầng hệ thống tích hợp CSDL ................................................55 Hình 18: Các lớp truyền thông CSDL ...........................................................................56 Hình 19: Khung nhìn độc lập với CSDL .......................................................................59 Hình 20: Tầng tích hợp dữ liệu ..................................................................................... 61 Hình 21: Xử lý truy vấn ................................................................................................ 63 Hình 22: Dữ liệu đƣợc lƣu trữ trong CSDL nhúng ...................................................... 64 Hình 23: Giao diện mẫu của chƣơng trình ....................................................................65 Hình 24: Giao diện chính của chƣơng trình ..................................................................71 Hình 25: Giao diện kết nối đến cơ sở dữ liệu ................................................................ 71 Hình 26: Giao diện trích xuất dữ liệu từ CSDL ............................................................ 72 Hình 27: Giao diện tích hợp dữ liệu ..............................................................................73 Hình 28: Giao diện tiện ích truy vấn đến các CSDL đã kết nối ....................................73 8 MỞ ĐẦU Ngày nay, Công nghệ thông tin (CNTT) đã đƣợc ứng dụng rộng rãi trong nhiều lĩnh vực của đời sống xã hội nhƣ: Kinh tế, Chính trị, Văn hóa, Xã hội... Việc ứng dụng CNTT một cách hiệu quả sẽ mang lại giá trị kinh tế rất lớn, qua đó thúc đẩy nền kinh tế phát triển, theo kịp các nƣớc đang phát triển. Trong những năm qua Đảng và Nhà nƣớc ta rất quan tâm, chú trọng đến chiến lƣợc phát triển và ứng dụng CNTT trong sự nghiệp đổi mới đất nƣớc. Đặc biệt là thúc đẩy ứng dụng CNTT trong các cơ quan quản lý nhà nƣớc. Văn phòng Chính phủ là cơ quan trực tiếp tham mƣu, giúp việc cho Chính phủ và Thủ tƣớng Chính phủ trong việc chỉ đạo, điều hành các hoạt động chung của bộ máy hành chính nhà nƣớc. Vì vậy việc thu thập và tích hợp thông tin luôn luôn đóng một vai trò quan trọng. Thời gian qua Văn phòng Chính phủ đã từng bƣớc đẩy mạnh ứng dụng CNTT trong công tác quản lý, chỉ đạo điều hành của mình một cách có hiệu quả, qua đó các hệ thống thông tin lần lƣợt đƣợc thiết lập từ Trung ƣơng đến địa phƣơng, trong đó có Cơ sở dữ liệu Quốc gia về thủ tục hành chính. Tuy nhiên vấn đề về tích hợp các hệ thống thông tin từ các địa phƣơng về Trung ƣơng trong đó có CSDL về thủ tục hành chính chƣa thực sự đƣợc quan tâm đúng mức. Vì lý do đó nên tôi đã lựa chọn đề tài: "Nghiên cứu giải pháp xây dựng cơ sở dữ liệu tích hợp về thủ tục hành chính" để thực hiện trong luận văn của mình. Luận văn có bố cục như sau: Mở đầu Chƣơng 1: Giới thiệu chung Chƣơng này giới thiệu tổng quan về các vấn đề về tích hợp dữ liệu nhƣ: Đặc trƣng, vai trò và tiêu chuẩn của tích hợp dữ liệu cũng nhƣ các khái niệm liên quan đến kho dữ liệu (data warehouse); đồng thời giới thiệu tổng quan về Cơ sở dữ liệu Quốc gia về thủ tục hành chính. Chƣơng 2: Phân tích một số giải pháp tích hợp dữ liệu Chƣơng này thực hiện nghiên cứu, phân tích và đánh giá một số giải pháp kỹ thuật và Công nghệ phục vụ cho việc tích hợp dữ liệu. Qua đó lựa chọn một giải pháp phù hợp với yêu cầu đặt ra về tích hợp dữ liệu tại chƣơng 3. Chƣơng 3: Giải pháp xây dựng cơ sở dữ liệu tích hợp thủ tục hành chính theo chuẩn công nghệ ETL Chƣơng này sẽ thiết kế, xây dựng một giải pháp phần mềm dựa trên chuẩn công nghệ ETL (Extract, Transform, and Load) để thực hiện việc tích hợp các thủ tục hành chính từ các địa phƣơng về kho CSDL tập trung của thủ tục hành chính. Kết luận Tài liệu tham khảo 9 CHƢƠNG 1: GIỚI THIỆU CHUNG 1.1. TÍCH HỢP DỮ LIỆU 1.1.1. Giới thiệu Việc tích hợp các hệ thống thông tin với mục đích là nhằm vào sự kết hợp các hệ thống đƣợc lựa chọn để tạo thành một hệ thống thông tin đầy đủ, thống nhất và đƣa đến cho ngƣời dùng cảm giác nhƣ là đang tƣơng tác với một hệ thống thông tin độc lập. Vì vậy có hai lý do cho sự tích hợp: Thứ nhất, đƣa ra một tập các hệ thống thông tin đang tồn tại, tạo ra một khung nhìn tích hợp nhằm truy cập thông tin đƣợc dễ dàng. Thứ hai, đƣa ra thông tin và dữ liệu cần thiết từ các hệ thống thông tin bổ sung khác mà đƣợc kết hợp để đạt đƣợc các lợi ích và thỏa mãn các yêu cầu cần thiết. Trong lĩnh vực thông minh kinh doanh (Business Intellegence - BI), thông tin tích hợp có thể đƣợc sử dụng cho truy vấn và báo cáo trong hoạt động kinh doanh, đối với phân tích thống kê, xử lý phân tích trực tuyến (OLAP), và khai phá dữ liệu (data mining) nhằm để dự báo, ra quyết định, lập kế hoạch doanh nghiệp và cuối cùng là để đạt đƣợc thuận lợi trong quá trình cạnh tranh. Trong môi trƣờng các tổ chức, doanh nghiệp, vấn đề tích hợp thông thƣờng đƣợc đề cập đến nhƣ tích hợp doanh nghiệp (Enterprise Integration - EI). EI có nghĩa là khả năng tích hợp thông tin và các chức năng từ sự đa dạng các hệ thống thông tin trong doanh nghiệp. Điều này bao gồm tích hợp thông tin doanh nghiệp (Enterprise information integration - EII) mà liên quan đến tích hợp ở mức dữ liệu và thông tin và tích hợp ứng dụng doanh nghiệp (Enterprise application integration - EAI) tập trung vào việc tích hợp ở mức logic ứng dụng. 1.1.2. Vấn đề tích hợp dữ liệu Nhƣ trên đã nói, việc tích hợp các hệ thống thông tin với mục đích là đƣa đến cho ngƣời dùng cảm giác nhƣ đang tƣơng tác với hệ thống thông tin độc lập. Qua đó ngƣời dùng đƣợc cung cấp một khung nhìn logic đồng nhất về dữ liệu mà đƣợc phân tán về mặt vật lý của các nguồn dữ liệu không đồng nhất. Và nhƣ vậy, tất cả dữ liệu phải đƣợc trình bày lại sử dụng cùng một nguyên tắc trìu tƣợng (mô hình dữ liệu toàn cục thống nhất và ngữ nghĩa thống nhất). Việc này bao gồm việc xác định và giải quyết các xung đột về lƣợc đồ và dữ liệu đối với cấu trúc và ngữ nghĩa của dữ liệu. Thông thƣờng, ban đầu các hệ thống thông tin không đƣợc thiết kế cho việc tích hợp dữ liệu. Trong khi mục đích là luôn luôn mong muốn có sự đồng nhất về dữ liệu, cũng nhƣ thống nhất về khung nhìn dữ liệu từ các nguồn khác nhau. Do đó khi tích hợp các nguồn và dữ liệu khác nhau mà không phù hợp thì chúng ta sẽ phải kết hợp chúng lại thành nhóm bằng cách thêm vào các chức năng chuyển đổi làm cho phù hợp. Bài toán tích hợp dữ liệu cụ thể có thể phụ thuộc vào các yếu tố sau: - Khung nhìn kiến trúc của hệ thống thông tin 10 - Nội dung và các chức năng của các thành phần hệ thống - Nội dung thông tin đƣợc quản lý bởi các thành phần hệ thống (dữ liệu vừa kiểu chữ, kiểu số, dữ liệu multimedia, dữ liệu có cấu trúc, bán cấu trúc, phi cấu trúc). - Các yêu cầu liên quan đến quyền tự trị của các thành phần hệ thống - Mục đích sử dụng của hệ thống thông tin tích hợp (truy cập chỉ đọc, hoặc để ghi) - Yêu cầu về hiệu suất và - Tài nguyên sẵn có (thời gian, tiền bạc, nguồn nhân lực, kiến thức...) Ngoài ra còn có một số các yếu tố khác cần đƣợc quan tâm, chúng bao gồm sự khác nhau về: - Phần cứng và hệ điều hành - Phần mềm quản lý dữ liệu - Các mô hình dữ liệu, lƣợc đồ, và ngữ nghĩa dữ liệu - Phần mềm trung gian - middleware - Giao diện ngƣời dùng 1.1.3. Vai trò của tích hợp dữ liệu trong tổ chức Tích hợp dữ liệu có vai trò rất quan trọng trong các tổ chức và doanh nghiệp. Bởi vì nó cho phép dữ liệu đƣợc chia sẻ một cách đầy đủ, xuyên suốt trong một tổ chức mà không cần phải thiết lập các dịch vụ tích hợp trên mỗi ứng dụng. Sẽ là lãng phí rất lớn nếu mỗi ứng dụng phải thực hiện việc chuyển đổi dữ liệu thành dữ liệu có thể đọc đƣợc. Bằng việc sử dụng tích hợp dữ liệu, nó cho phép các thông tin tự động đƣợc tích hợp tại các thời điểm mà dữ liệu cần đến khi truy cập. Nếu dữ liệu không đƣợc tích hợp từ các hệ thống khác nhau thì chúng ta sẽ phải tích hợp một cách thủ công và kết quả là lãng phí tài nguyên. Do đó, việc tích hợp dữ liệu từ các hệ thống thông tin khác nhau thành kho dữ liệu trung tâm phục vụ cho việc xử lý tập trung là rất có hiệu quả trong các tổ chức và doanh nghiệp. Tích hợp CSDL đã trở thành một công nghệ mà đƣợc nhiều công ty đầu tƣ, xây dựng đặc biệt khi số lƣợng và khả năng kết nối dữ liệu tăng lên. Khi con ngƣời cần truy cập nhiều dữ liệu và chia sẽ dữ liệu giữa các phòng ban, các công ty nhận thức rõ rằng tất cả các dữ liệu đƣợc tích hợp trong một CSDL là một sự tiết kiệm thời gian và công sức rất lớn. Tích hợp dữ liệu là cần thiết để đạt đƣợc giá trị gia tăng từ những tài nguyên, thành phần đang tồn tại và lƣu trữ phân tán. Tích hợp kinh doanh doanh nghiệp (enterprise business integration) có thể đƣợc thực hiện tại bốn mức khác nhau trong hệ thống đó là: Mức dữ liệu, mức ứng dụng, quá trình kinh doanh và tƣơng tác ngƣời dùng (xem hình vẽ sau), có nhiều giải pháp công nghệ và công cụ phù hợp cho việc tích hợp tại các mức đó mà chúng ta sẽ tìm 11 hiểu và phân tích ở chƣơng sau. Nhƣ ta thấy, có một xu hƣớng trong định hƣớng công nghệ cho các ứng dụng CNTT là hỗ trợ đa mức tích hợp, và do đó cần thiết để thiết kế một kiến trúc tích hợp mà có thể kết hợp bốn mức của tích hợp kinh doanh doanh nghiệp. Hình 1: Bốn mức của tích hợp kinh doanh doanh nghiệp Tích hợp dữ liệu: Cung cấp một khung nhìn thống nhất về dữ liệu kinh doanh mà nằm rải rác ở khắp nơi trong tổ chức. Khung nhìn thống nhất này có thể xây dựng sử dụng nhiều kỹ thuật và công nghệ khác nhau. Nó có thể là một khung nhìn vật lý về dữ liệu mà thu đƣợc từ các nguồn dữ liệu khác nhau và hợp nhất lại bên trong một kho dữ liệu đƣợc tích hợp nhƣ data warehouse, hoặc nó có thể là một khung nhìn liên hợp ảo về dữ liệu khác loại nhau mà đƣợc thu thập tại thời gian truy cập dữ liệu. Một tùy chọn thứ ba là cung cấp một khung nhìn về dữ liệu mà đã đƣợc tích hợp bởi sự truyền dữ liệu từ một CSDL này đến CSDL khác. Tích hợp ứng dụng: Cung cấp một khung nhìn về các ứng dụng kinh doanh mà tập trung bên trong hoặc bên ngoài một tổ chức. Khung nhìn thống nhất này đƣợc hoàn thiện bởi quản lý và sắp xếp luồng các sự kiện (giao dịch, thông điệp hoặc dữ liệu) giữa các ứng dụng. Tích hợp các ứng dụng giống nhƣ tích hợp dữ liệu, đƣa ra một sự đa dạng các kỹ thuật triển khai khác nhau và các công nghệ phụ thuộc vào yêu cầu của một yêu cầu của dự án. Tích hợp tiến trình kinh doanh (Business Process Integration) cung cấp khung nhìn thống nhất về tiến trình kinh doanh của một tổ chức, công cụ thiết kế tiến trình doanh cho phép nhà phát triển phân tích, mô hình và tái tạo tiến trình kinh doanh và các hoạt động của chúng. Công cụ quản lý tiến trình kinh doanh sau đó đƣợc triển khai và quản lý các tiến trình đó qua sử dụng các công nghệ tích hợp ứng dụng bên dƣới. Lợi ích quan trọng của tích hợp tiến trình kinh doanh là thiết kế ra diện mạo của phân tích tiến 12 trình kinh doanh và việc thiết kế đƣợc tách biệt với việc quản lý tiến trình kinh doanh vật lý và triển khai ứng dụng. Các nhà cung cấp ngày càng hỗ trợ cả tích hợp tiến trình kinh doanh và tích hợp ứng dụng với một tập các sản phẩm độc lập. Hầu hết data warehousing và các nhà cung cấp nhận thức rằng các sản phẩm tích hợp dữ liệu cũng sẽ xem xét dữ liệu doanh nghiệp từ quan điểm tiến trình kinh doanh. Tích hợp tương tác người dùng cung cấp cho ngƣời dùng với một giao diện cá nhân hóa độc lập và bảo mật cho nội dung kinh doanh (tiến trình kinh doanh, ứng dụng và dữ liệu) để thực hiện công việc của mình. Giao diện này cũng cho phép ngƣời dùng cộng tác và chia sẻ dữ liệu với mỗi cổng thông tin điện tử doanh nghiệp khác, đó là một ví dụ về sản phẩm có hỗ trợ tích hợp tƣơng tác ngƣời dùng. Vấn đề quan trọng với tích hợp tại mức tƣơng tác ngƣời dùng là mặc dù ngƣời dùng đƣa ra khung nhìn thống nhất về đa hệ thống khác nhau, nhƣng khung nhìn này sẽ làm xuất hiện sự thiếu sót về tiến trình kinh doanh, ứng dụng và tích hợp dữ liệu giữa các hệ thống đó. Tức là ngƣời dùng sẽ vẫn cần sự điều hƣớng giữa các ứng dụng và các kho dữ liệu khác nhau. Bốn mức của tích hợp kinh doanh doanh nghiệp không hoạt động trong sự cô lập. Trong một môi trƣờng kinh doanh tích hợp đầy đủ, việc tích hợp thƣờng xảy ra giữa các mức tích hợp khác nhau. Trong môi trƣờng data warehousing một số công cụ tích hợp dữ liệu làm việc với phần mềm tích hợp ứng dụng để nắm bắt các sự kiện từ luồng ứng dụng, chuyển đổi và nạp các dữ liệu sự kiện vào trong kho dữ liệu tác nghiệp (operational data store - ODS) hoặc data warehouse. Các kết quả phân tích về dữ liệu tích hợp thƣờng đƣợc trình diễn cho ngƣời dùng thông qua biểu đồ kinh doanh mà hoạt động dƣới sự kiểm soát của một Cổng thông tin doanh nghiệp (Enterprise portal) thực hiện tích hợp tƣơng tác ngƣời dùng . Nó rất quan trọng cho cả cán bộ CNTT và nhà cung cấp để thấy rõ rằng tích hợp dữ liệu không thể đƣợc xem xét trong sự cô lập, thay vì chiến lƣợc tích hợp dữ liệu và cơ sở hạ tầng phải đƣợc đƣa vào tài khoản ứng dụng, tiến trình kinh doanh và chiến lƣợc tích hợp tƣơng tác ngƣời dùng của tổ chức. Một định hƣớng công nghệ ở đây là xây dựng môi trƣờng kinh doanh tích hợp dùng một kiến trúc hƣớng dịch vụ (SOA). Trong môi trƣờng SOA tiến trình kinh doanh, ứng dụng, dữ liệu tích cực và các hành động đƣợc phân tách thành các dịch vụ đơn để có thể tƣơng tác một cách riêng rẻ. Thông thƣờng SOA đƣợc triển khai bởi sử dụng web service bởi vì công nghệ này thƣờng độc lập với hệ nền của các nhà cung cấp và dễ triển khai hơn các cách tiếp cận SOA trƣớc đây. 1.1.4. Đặc trƣng của tích hợp dữ liệu Tích hợp dữ liệu bao gồm một Framework về các ứng dụng, các kỹ thuật, các công nghệ và các sản phẩm cho việc cung cấp một khung nhìn thống nhất và nhất quán về dữ liệu kinh doanh doanh nghiệp (xem hình vẽ sau). - Các ứng dụng là các giải pháp đƣợc xây dựng theo yêu cầu và đƣợc phát triển bởi nhà cung cấp mà đƣợc sử dụng một hay nhiều sản phẩm tích hợp dữ liệu. 13 - Các sản phẩm là các giải pháp thƣơng mại đƣợc đóng gói mà hỗ trợ một hoặc nhiều công nghệ tích hợp dữ liệu. - Các công nghệ thực thi một hay nhiều kỹ thuật tích hợp dữ liệu - Các kỹ thuật là các cách tiếp cận độc lập công nghệ cho việc tích hợp dữ liệu. Hình 2: Các thành phần của một giải pháp tích hợp dữ liệu 1.1.5. Tiêu chuẩn về tích hợp dữ liệu Tiêu chuẩn về tích hợp dữ liệu mà chúng ta cần quan tâm là data currency, hiệu suất (performance), chi phí (cost), tính đóng gói (encapsulation), sự tổng hợp dữ liệu (data synthesis), truy cập dữ liệu, quản trị, tác dụng phụ, toàn vẹn dữ liệu và khả năng mở rộng. - Data currency tập trung vào làm tƣơi “fresh” dữ liệu từ một CSDL nguồn. Phụ thuộc vào kỹ thuật tích hợp, đó có thể là độ trễ thời gian trong việc tạo ra dữ liệu trong một CSDL (nguồn) tồn tại cho các ngƣời dùng và ứng dụng của CSDL khác (đích). Khoảng thời gian trễ có thể ngắn từ hàng phút hoặc hàng giờ đến thời gian dài nhƣ hàng tuần hay hàng tháng. Đối với một số ngƣời dùng và các ứng dụng thì thời gian trễ đôi khi là một vấn đề quan trọng cần đƣợc quan tâm. - Hiệu suất (performance) tập trung vào tốc độ thực hiện của kỹ thuật tích hợp. Nó đƣợc xem xét để làm thế nào để truy vấn nhanh hơn các cập nhật và các phép toán trên dữ liệu khi các phép toán đó tác động đến nhiều CSDL khác nhau. - Chi phí (Cost) không chỉ bao gồm chi phí về các sản phẩm tích hợp mà còn bao gồm cả chi phí triển khai. Ở mức thấp nhất, mỗi một sản phẩm tích hợp sẽ yêu cầu một số cấu hình và khả năng quản trị dữ liệu. Phụ thuộc vào kỹ thuật tích hợp dữ liệu và môi trƣờng máy tính của tiện ích hiện tại, chúng cũng có thể là chi phí phần cứng, chi phí mạng, và chi phí phát triển phần mềm đối với các phần mềm mới hoặc nâng cấp phần mềm đang tồn tại. 14 - Tính đóng gói (encapsulation): Nếu dữ liệu đƣợc đóng gói kém thì sẽ gây khó khăn cho ngƣời dùng và ứng dụng. Ngƣời dùng sẽ gặp khó khăn trong việc sử dụng CSDL trong mô hình ad-hoc. Để truy vấn dữ liệu, đƣa ra các báo cáo ad-hoc, thực hiện phân tích trực tuyến, ngƣời dùng phải biết về vị trí của dữ liệu. Cũng vậy, việc đóng gói kém sẽ tạo ra sự phụ thuộc vào các ứng dụng. Các ứng dụng đó phải biết về vị trí của dữ liệu để có thể kết nối, làm việc và phải biết về các luật kinh doanh (business rules) và các ràng buộc áp dụng khi làm việc với dữ liệu. Về lâu dài, các sự phụ thuộc đó làm tăng kinh phí bảo trì/phát triển phần mềm ứng dụng và tạo ra sự khó khăn trong việc quản trị CSDL. - Tiêu chuẩn tổng hợp dữ liệu, kiểm tra xem ngƣời dùng làm việc nhƣ thế nào với dữ liệu từ nhiều nguồn khác nhau. Thuật ngữ tổng hợp dữ liệu - data synthesis thƣờng đƣợc sử dụng cho các hoạt động mà “kết hợp” dữ liệu từ nhiều CSDL. ”sự kết hợp” dữ liệu có thể bao gồm các hoạt động thống kê, tính toán, liên kết và so sánh. Tiêu chuẩn này thƣờng đƣợc sử dụng để xác định nơi nào mà ở đó các hoạt động hay các phép toán đƣợc thực hiện. Ví dụ tổng hợp dữ liệu có thể xảy ra trong chính CSDL, trong ứng dụng hay trong phần mềm trung gian – middleware. - Tiêu chuẩn về truy cập dữ liệu tập trung vào loại truy cập nào của giải pháp tích hợp đƣợc thực hiện cho ngƣời dùng và các ứng dụng. Truy cập dữ liệu bao gồm truy cập để tạo, đọc, cập nhật và xóa dữ liệu, miễn là việc truy cập đƣợc định hƣớng tốt: Các ngƣời dùng và ứng dụng của một CSDL có thể truy cập đến một CSDL thứ hai, nhƣng các sản phẩm tích hợp có thể không cung cấp cho các ngƣời dùng và ứng dụng trên CSDL thứ hai truy cập đến CSDL thứ nhất. - Tiêu chuẩn quản trị: Nhƣ đã đề cập ở trên, có một liên kết ngƣợc giữa đóng gói (encapsulation) và quản trị: Tốt nhất trong đóng gói thì dễ nhất trong quản trị, bên cạnh đó, tác động của các ứng dụng trong việc quản trị CSDL có thể liên quan đến quản trị sao lƣu, phục hay bảo mật. - Tiêu chuẩn hiệu ứng phụ thƣờng đƣợc dùng để phân loại sự ảnh hƣởng của các kỹ thuật tích hợp lên các ứng dụng và các thành phần khác của môi trƣờng máy tính. - Tiêu chuẩn về toàn vẹn dữ liệu cho biết các kỹ thuật tích hợp quản lý các giao dịch mà áp dụng cho nhiều CSDL tốt đến mức độ nào. Các kỹ thuật tích hợp dữ liệu khác nhau sẽ có khả năng recovery, commit và Rollback khác nhau. - Tiêu chuẩn về khả năng mở rộng đánh giá kỹ thuật tích hợp thực hiện tốt nhƣ thế nào khi số lƣợng CSDL đƣợc tích hợp tăng lên theo thời gian. 1.1.6. Các biến số ảnh hƣởng đến lựa chọn kỹ thuật và công nghệ tích hợp Một số các biến số ảnh hƣởng đến việc lựa chọn kỹ thuật và công nghệ cho việc tích hợp dữ liệu, các biến số đó đƣợc liệt kê nhƣ dƣới đây: 15  Loại dữ liệu nguồn: - Có cấu trúc - Structured - Bán cấu trúc - Semi-structured (nhƣ XML) - Không có cấu trúc - Unstructured - Ứng dụng đóng gói - Packaged application - EAI - Web service - Metadata  Tổ chức dữ liệu nguồn - Đồng nhất hay hỗn hợp - Tập trung hay phân tán (Dữ liệu tích hợp và metadata) - Liên hợp (metadata đƣợc tích hợp) hay phân tán (metadata không đƣợc tích hợp)  Yêu cầu chuyển đổi dữ liệu nguồn - Tổ chức lại dữ liệu - Data restructuring - Làm sạch dữ liệu - Data cleansing - Điều hòa dữ liệu - Data reconciliation - Kết hợp dữ liệu - Data aggregation  Lƣu hành (currency) dữ liệu đích và truy cập - Thời gian thực - Real time - Gần thời gian thực - Điểm thời gian - Chỉ đọc hoặc đọc - ghi  Kỹ thuật và phƣơng pháp tích hợp dữ liệu - Kỹ thuật hợp nhất (consolidation), liên hợp (federation), lan truyền (propagation) và CDC (changed data capture) - Sự kiện đẩy hoặc kéo theo yêu cầu (push or on-demand pull) - Đồng bộ hoặc không đồng bộ ( synchronous or asynchronous)  Công nghệ tích hợp dữ liệu - ETL, EII, EAI, EDR, ECM  Quy mô dữ liệu - Số lƣợng nguồn dữ liệu - Kích thƣớc lƣu trữ dữ liệu - Tính hay thay đổi lƣu trữ dữ liệu 16 Theo thời gian khi số lƣợng các ứng dụng tích hợp tăng lên hầu hết các biến số tích hợp dữ liệu đó càng có ý nghĩa và cần đƣợc quan tâm. Cho nên một khi thiết kế một kiến trúc tích hợp dữ liệu cần phải hỗ trợ tất cả các biến số trên. Trong thực tế, kiến trúc tích hợp dữ liệu thƣờng xây dựng từng phần một và đƣợc bổ sung vào kiến trúc để thỏa mãn các yêu cầu của mỗi ứng dụng mới. 1.2. TỔNG QUAN VỀ DATA WAREHOUSE 1.2.1. Định nghĩa Định nghĩa do W.H.Inmon đề xƣớng : Data Warehouse là tập hợp dữ liệu tƣơng đối ổn định (không hay thay đổi), cập nhật theo thời gian, đƣợc tích hợp theo hƣớng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý. Data Warehouse là một cơ sở dữ liệu quan hệ đƣợc xây dựng cho mục đích truy vấn và phân tích dữ liệu mang tính lịch sử, nó không phải là loại cơ sở dữ liệu giao dịch (transaction database). Khác với cơ sở dữ liệu giao dịch thông thƣờng, Data Warehouse đƣợc bổ sung thêm bộ công cụ kết xuất, chuyển đổi và tích hợp dữ liệu (Extraction, Transformation, Loading – ETL), bộ phân tích dữ liệu trực tuyến (Online Analyst Processing – OLAP), và các bộ công cụ quản trị các tiến trình thu thập dữ liệu. 1.2.2. Các đặc trƣng của kho dữ liệu 1.2.2.1. Hƣớng chủ đề Hƣớng chủ đề có nghĩa là kho dữ liệu đƣợc tổ chức xung quanh các chủ đề chính nhƣ khách hàng, sản phẩm, sản xuất . Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà ra quyết định mà không tập trung vào các xử lý thông thƣờng. Cung cấp cho ngƣời dùng một khung nhìn toàn vẹn, đơn giản và đầy đủ về các sự kiện quanh các chủ đề. 1.2.2.2. Tính tích hợp Dữ liệu trong kho dữ liệu đƣợc xây dựng bằng cách tổng hợp dữ liệu từ nhiều nguồn khác nhau và các nguồn có tổ chức khác nhau: Cơ sở dữ liệu, các file excel, các flat file hoặc các raw file. Khi đƣa vào kho dữ liệu, các dữ liệu đƣợc làm sạch và tích hợp dữ liệu nhằm đảm bảo tính nhất quán của dữ liệu. 1.2.2.3. Tính bền vững Dữ liệu trong kho dữ liệu đƣợc chuyển đổi từ môi trƣờng tác nghiệp và đƣợc lƣu trữ trong một thời gian dài, khi dữ liệu đƣợc chuyển đổi vào đây thì các thao tác cập nhật và xóa dữ liệu thƣờng không xảy ra. Dữ liệu trong kho dữ liệu chỉ có hai thao tác: Chèn mới và đọc dữ liệu. 1.2.2.4. Gắn với thời gian Phạm vi về thời gian của dữ liệu đƣợc lƣu trữ trong kho dữ liệu dài hơn so với các hệ thống tác nghiệp, nếu nhƣ dữ liệu tác nghiệp chỉ có giá trị hiện thời kho dữ liệu 17 cung cấp thông tin lịch sử lâu dài vì thế nó cung cấp một cái nhìn đầy đủ và nhiều thông tin hơn. Trong kho dữ liệu thời gian đƣợc lƣu trữ nhƣ một thành phần của khóa chính để đảm bảo tính duy nhất của dữ liệu và cung cấp một đặc trƣng thời gian của dữ liệu. Dữ liệu trong kho luôn gắn với một giá trị thời gian nhất định 1.2.2.5. Dữ liệu tổng hợp Dữ liệu đƣợc tích hợp vào các bảng tổng hợp trong kho dữ liệu nhằm phục vụ cho các mục đích xử lý và phân tích. Ngoài ra còn có các bảng ghi dữ liệu chi tiết các sự kiện nhằm cung cấp các thông tin chi tiết . 1.2.3. Các thành phần của Data Warehouse Một hệ thống data warehouse về mặt lô gích đƣợc cho là có 4 thành phần: - Nguồn dữ liệu (Operational Source Systems). - Khu vực xử lý (Staging Area). - Khu vực trình bày (Data Presentation Area) hay kho dữ liệu. - Công cụ truy cập dữ liệu (Data Access Tools) hay ngƣời dùng cuối Các thành phần trên tƣơng tác với nhau nhƣ sau: - Data từ Nguồn dữ liệu đƣợc nạp vào Khu vực xử lý. - Data đã qua xử lý đƣợc nạp từ Khu vực xử lý vào Khu vực trình bày. - Công cụ truy cập dữ liệu do ngƣời dùng cuối thao tác sẽ làm việc trên dữ liệu trong Khu vực trình bày. Hình 3: Kiến trúc kho dữ liệu 18 Nguồn dữ liệu: Nguồn dữ liệu của kho dữ liệu bao gồm từ rất nhiều nguồn khác nhau và có cấu trúc dữ liệu khác nhau: - Dữ liệu từ hệ thống tác nghiệp: Đây là nguồn dữ liệu chính để xây dựng kho dữ liệu, chứa các dữ liệu chi tiết hiện tại của hệ thống tác nghiệp. - Dữ liệu từ hệ thống phân tích : Đây là dữ liệu đƣợc tổng hợp từ dữ liệu nguồn đã cũ và tổ chức lại theo nhiều phƣơng pháp khác nhau. - Dữ liệu từ bên ngoài: đây là các dữ liệu từ các nguồn ngoài hệ thống của công ty, có thể do các tổ chức khác thu thập và tạo ra, nó đƣợc sử dụng cho các yêu cầu phân tích dữ liệu. - Dữ liệu từ các hệ thống nguồn thƣờng hỗn tạp và chứa nhiều cấu trúc khác nhau ví dụ: các cơ sở dữ liệu, từ các file excel, các file thô, hay dạng XML... Vì thế trƣớc khi đƣa vào kho dữ liệu cần phải chuyển đổi và tích hợp dữ liệu. Khu vực xử lý (Data Staging Area): Ở khu vực này dữ liệu đƣợc sử dụng các kỹ thuật làm sạch và chuyển đổi để đảm bảo tính nhất quán dữ liệu trƣớc khi đƣa vào kho dữ liệu đích. Thông thƣờng ngƣời ta sử dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL). Công cụ này thực hiện các thao tác trích xuất dữ liệu, chuyển đổi dữ liệu, tải dữ liệu vào kho dữ liệu. Kho dữ liệu Kho dữ liệu là cơ sở dữ liệu đƣợc tổ chức lại theo mô hình hình sao hay mô hình bông tuyết. Mô hình đƣợc phi chuẩn hóa, chấp nhận sự dƣ thừa dữ liệu trong lƣu trữ dữ liệu, chính vì thế mô hình dữ liệu đơn giản hơn nên việc truy vấn dễ dàng hơn và tốc độ xử lý cũng nhanh hơn mô hình dữ liệu đƣợc chuẩn hóa. Ngoài ra kho dữ liệu còn chứa các dữ liệu khác nhƣ. Siêu dữ liệu: Đây là dữ liệu chứa định nghĩa của dữ liệu đƣợc lƣu trữ trong kho dữ liệu. Siêu dữ liệu định nghĩa nên các thành phần của kho dữ liệu, cách thức dữ liệu đƣợc tải vào kho dữ liệu, lƣu lại quá trình hoạt động của kho dữ liệu. Siêu dữ liệu gồm có các dạng sau: - Dữ liệu định nghĩa và cách thức ánh xạ dữ liệu vào các bảng trong kho dữ liệu. - Dữ liệu định nghĩa và giải thích cấu trúc của các bảng bên trong kho dữ liệu. - Dữ liệu định nghĩa cấu trúc dữ liệu ở hệ thống nguồn. - Dữ liệu định nghĩa và chú thích về tiến trình ETL. - Dữ liệu định nghĩa các luật về chất lƣợng dữ liệu, các mức độ sai lệch của dữ liệu và cách thức xử lý. 19 - Dữ liệu theo dõi tiến trình xử lý các bản ghi trong kho dữ liệu. - Dữ liệu chứa các sự kiện hoạt động của các ứng dụng. Bảng sự kiện tổng hợp: Các bảng tổng hợp này lƣu dữ các dữ liệu tính toán đƣợc nhằm trả lời một cách nhanh nhất các câu hỏi của ngƣời dùng đƣa ra. Đây là dữ liệu có thể tính toán đƣợc từ các bảng khác tuy nhiên để tăng tốc độ xử lý dữ liệu này đƣợc lƣu trữ để không phải tính toán lại mỗi khi có truy vấn. Công cụ truy cập: Mặc dù không hoàn toàn chính xác, nhƣng có thể hiểu đây là các công cụ để làm báo cáo (reporting). Ở mức thấp nhất, đó có thể là một công cụ soạn SQL đơn giản. Ở mức cao hơn, đó có thể là các bộ công cụ chuyên về báo cáo nhƣ Business Objects, Cognos, Oracle BI... Các công cụ phân tích (analytics) cũng ngày càng đƣợc sử dụng rộng rãi. Những công cụ kể trên đều bao gồm các công cụ để tạo report một trực quan (bằng cách sinh ra các SQL) và các công cụ phân tích truy cập vào các OLAP databases (cube). 1.2.4. Mô hình dữ liệu nhiều chiều Đây là mô hình tổ chức dữ liệu xoay quanh các chủ đề nhằm trả lời một cách nhanh nhất các câu hỏi trong nghiệp vụ của ngƣời quản lý. Có thể nhìn dữ liệu đƣợc tổ chức nhƣ là một khối, trong đó mỗi chiều là một chủ đề trong nghiệp vụ. Hình 4: Mô hình dữ liệu nhiều chiều Ở hình trên, khối dữ liệu gồm có 3 chiều: khách hàng, sản phẩm , thời gian. Mỗi ô trong đó là một bản ghi đƣợc lƣu giữ trong bảng sự kiện. Với mô hình này ngƣời dùng có thể dễ dàng đặt ra các câu hỏi theo các tiêu chí khác nhau, việc trả lời truy vấn cũng dễ dàng hơn và tốc độ xử lý nhanh hơn tổ chức theo mô hình bảng quan hệ. 1.2.5. Ứng dụng của kho dữ liệu Ngày nay, kho dữ liệu đƣợc triển khai trong các tổ chức và doanh nghiệp với nhiều mục đích khác nhau nhƣ tạo các báo cáo tổng hợp, tích hợp dữ liệu,quản 20
- Xem thêm -