Khai thác dữ liệu và xử lý phân tích trực tuyến

  • Số trang: 86 |
  • Loại file: PDF |
  • Lượt xem: 11 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

Đ Ạ I H Ọ C Q U Ố C G IA IIÀ NỘI KHOA CÔNG NGHỆ -----------oOo-.......... — NGUYỄN THÊ QUYỂN KHAI THÁC D ữ LIỆU VÀ XỬ LÝ PHÂN TÍCH TRỨC TUYẾN 1AJẬN VÃN THẠC s ĩ KHOA HỌC Chuyên ngành: Công Nghệ Thông Tin Mã số: 010110 Người hướng dẫn khoa học: PGS TS Đoàn Vãn Ban _ — ------- 0/Y. IU_)C - uoc HA NO' Ị TRUNGTẦMTHỎM( TiN niƯVỌỊ Nc V \ữ /M * _____________________ _ __ _ \ Hà Nội - Năm 2002 MỌC LỤC ■ ■ Trang: Phần m ỏ đầu Chương 1: 01 HỆ TRỢ GIÚP QUYÊT ĐịhH Dựfl VÀO Dữ LIỆU 1.1 H ệ trợ giúp quyết đ ị n h .............................................................................................................0 4 1 .1 .1 Giới t h i ệ u ..............................................................................................................................0 4 1 .1 .2 H ệ trợ giúp quyết đ ị n h .................................................................................................... 0 5 1 .1 .3 P h â n loại các h ệ trợ giúp q u yết đ ị n h .........................................................................0 6 1 .2 H ệ trợ giúp quyết đ ịn h dựa vào d ữ l i ệ u ............................................................................. 0 7 1 .2 .1 T iêp c ậ n KDL và O L A P ................................................................................................. 0 7 1 .2 .2 T G Q D dựa vào d ữ liệu trê n c ơ sở K D L & O L A P ................................................ 0 9 1 .2 .3 T iến trình T G Q Đ dựa vào d ữ liệu c h o bài toán cụ t h ể .......................................10 Chương 2: KHO DỮ LIỆU - DflTfl WAREHOUSE 2.1 T h à n h p h ầ n cấu th à n h m ộ t K D L ......................................................................................... 13 2 . 1 .1 Siêu d ữ liệu - M e ta d a t a ................................................................................................... 13 2 . 1 . 2 C ác n g u ồ n d ữ l i ệ u ............................................................................................................. 14 2 . 1 . 3 H ệ th ố n g x ử lý giao dịch trực tuyến - O L T P ......................................................... 1 4 2 . 1 .3 . 1 N hững đ ặc điểm của h ệ th ố n g O L T P ..............................................................15 2 . 1 . 3 . 2 C ác cô n g cụ thu th ậ p , làm sạch và ch u y ển đổi d ữ liệu n g u ồ n ........... 16 2 . 1 . 4 C ơ sở d ữ liệu K D L ............................................................................................................. 18 2 . 1 . 5 K h o d ữ liệu - D a ta w a re h o u s e .....................................................................................19 2 . 1 .5 . 1 Đ ịn h n g h ĩ a ................................................................................................................... 19 2 . 1 . 5 . 2 Đ ặc đ iểm d ữ liệu tro n g K D L ...............................................................................2 0 2 . 1 . 6 K ho d ữ liệu c h ủ đ ề - D a t a m a r t ....................................................................................21 2 . 2 S ử d ụ n g K D L ................................................................................................................................ 2 2 2 . 3 P h ư ơ n g p h á p xây d ự n g K D L ..................................................................................................2 3 2 . 4 T h iế t k ế c ơ sở d ữ liệu ch o K D L ............................................................................................2 4 2 . 4 . 1 G iản đ ồ h ìn h s a o - S t a r ....................................................................................................2 5 2 . 4 .2 G iản đ ồ h ìn h tuyết rơi - S n o w f l a k e .......................................................................... 2 7 2 . 4 .3 G iản đ ồ kết h ợ p ................................................................................................................. 2 8 2 . 4 .4 N h ữ n g v ấn đề liên q u a n tới thiết k ế g iản đ ồ h ìn h s a o ....................................... 2 8 2 . 4 .4 . 1 Đ á n h chỉ s ô ................................................................................................................2 8 2 . 4 . 4 . 2 C hỉ thị về m ứ c ........................................................................................................... 2 9 2 . 4 . 5 N hữ n g n h â n tố thiết k ế c ầ n p h ải được c ân n h ắ c ................................................ 3 0 2 .5 Q u ả n lý và q u ả n trị K D L ..........................................................................................................3 2 Chưởng 3: xđ LÝ PHÂN TÍCH TRựC TUYÊN \lè KHfil THÁC DỮ LIỆU 3 .1 Giới thiệu m ộ t s ố kỹ th u ật khai th ác d ữ l i ệ u ...................................................................3 3 3 .1 .1 M ạng n e u r o n .......................................................................................................................3 3 3 . 1 .2 Giải th u ật di tr u y ề n ........................................................................................................... 3 5 3 . 1 .2 . 1 Tái t ạ o ..........................................................................................................................3 6 3 . 1 . 2 . 2 T ạ p lai........................................................................................................................... 3 7 3 . 1 . 2 . 3 Đ ột b i ế n .......................................................................................................................3 8 3 . 1 . 3 O L A P ..................................................................................................................................... 3 9 3 .2 X ử 10 p h â n tích trực tuyến - O L A P ......................................................................................4 0 3 .2 .1 Đ ịnh n ghĩa O L A P ............................................................................................................. 4 0 3 . 2 . 2 N guyên tắc của O L A P .....................................................................................................4 1 3 . 2 . 3 T iế p c ậ n đ a c h i ề u .............................................................................................................. 4 3 3 . 2 . 4 S ự p h â n tích đa c h i ề u ......................................................................................................4 5 3 . 2 . 5 Kiến trúc khối của O L A P .............................................................................................. 4 5 3 . 2 .5 . 1 Giới thiệu kiến trúc k h ố i ....................................................................................... 4 5 3 . 2 . 5 . 2 Khối (C ube)................................................................................................................. 4 7 3 . 2 . 5 . 3 C h iều (D im e n s io n )................................................................................................... 5 0 3 . 2 . 5 . 4 C ác đ ơ n vị đ o lường (M e a s u re ) ...........................................................................54 3 . 2 . 5 . 5 C á c p h â n h o ạ c h ( P a rtitio n )..................................................................................5 4 3 . 2 . 5 . 6 C á c p h ư ơ n g p h á p lưu trữ d ữ liệu (MOLAP, R O L A P , H O L A P ) .........5 5 3 .3 T h u ậ t to á n chỉ s ố h ó a các khu n g nhìn trong xử lý p h â n tích trực tuyến k h o d ữ l i ệ u ............................................................... 5 7 3 . 3 .1 M ột s ố khái n iệm c ơ b ả n .................................................................................................5 8 3 .3 .1 .1 C ác khối dữ liệu co n (subcube)..........................................................................5 8 3 . 3 . 1 . 2 C âu hỏi (Q ueries)................................................................................................... 5 9 3 . 3 . 1 . 3 Chỉ số (Indexes)......................................................................................................5 9 3 . 3 . 1 . 4 Q u a n hệ tính to án và p h ụ t h u ộ c ..................................................................... 6 0 3 .3 .2 T h u ật toán c h ọ n view và i n d e x .................................................................................6 2 3 .3 .3 Kết l u ậ n ..............................................................................................................................6 6 Chương 4: THIẼT KÊ HỆ TRỢ GIÚP QUỴÊT ĐỊNH Dựơ VÀO DỮ LIỆU 4 .1 Giới thiệu hệ t h ố n g ................................................................................................................. 6 7 4 .1 .1 Mục tiêu của hệ t h ố n g ..................................................................................................6 7 4 .1 .2 T ổ chức của hệ t h ố n g ................................................................................................... 6 7 4 .2 Cài đặi. hệ t h ố n g .......................................................................................................................6 8 4 .2 .1 Chức n ăn g tạo lập C S D L đa c h i ề u ..........................................................................6 8 4 . 2 .2 C hức n ăn g p h â n tích, hiển thị dữ l i ệ u .................................................................... 6 9 4 . 2 .3 C hức n ăn g tạo và thực hiện các Q u e r y ................................................................. 6 9 4 . 3 C hư ơ ng trình cài đ ặ t .............................................................................................................. 6 9 4 . 4 Ví dụ m inh h ọ a ........................................................................................................................ 7 6 Phần kết luận Tài liêu tham khảo 79 82 1 - PHÂN MỞ Đ â u 1. Đ ăt vấn đề Trong các hoạt động sản xuất, kinh doanh hiện nay luôn cần có sự đáp ứng nhanh nhạy, tức thời đối với các thay đổi liên tục của môi trường kinh doanh (khách hàng, cạnh tranh, qui luật kinh tế, luật lệ nhà nước, tình hình sản xuất, kinh doanh, tài chính của doanh nghiệp, ...)• Vì vậy các nhà quán lý buộc phải thường xuyên ra cùng lúc nhiều quyết định dứng đắn (mà chúng sẽ ánh hưởng đáng kế đến xu hướng hoạt dộng và sự cạng tranh của doanh nghiệp) một cách nhanh chỏng. Do đó vấn để trợ giúp quyết định trở nên rất cần thiết. Người ta cần phải thu thập, tổng hựp và phân tích dữ liệu từ nhiều nguồn khác nhau mội cách nhanh và hiệu quả thì mới có thể ra được những quyết định nhanh chóng và phù hợp. Điều này dẫn đến việc cẩn phát triển những hệ thông tinh thông biết cách làm iliê nào để nít tía và phân tích dữ liệu cho người sử dụng. Các nhà quản lý, điểu hành không những cần biết được công việc đang diễn ra như thế nào trong tổ chức của mình mà còn cần biết cái gì sẽ xảy ru sau dó, có nghĩa là thông tin mang tính phân tích và hệ thông dể hỗ trợ quyết định. Tuy nhiên việc xây dựng một hệ thống như thế vấp phải một số hạn chế về mặt kỹ thuật, đặc biệt là khi kích thước cũng như dộ phức tạp của môi trường ứngdụng lăng lên. Những hệ thống thông tin xây dựng theo phương pháp truyền lliống không còn đáp ứng được các yêu cầu của người sử dụng và các nhà quản lý hệ thòng thông tin. Hiện nay, đã có rất nhiều phần mềm cung cấp cho người sử dụng những khả năng truy vấn và lập các báo cáo thông tin, đặc biệt là các hệ quản trị CSDL quan hệ. Tuy nhiên, CSDL quan hệ, với cấu trúc hai chiều (dòng và cột), đã không được thiết kế để cung cấp các quan điểm đa chiểu trên dữ liêu đầu vào của các phân tích phức tạp. Sử dụng các hệ thống này, chúng ta sẽ gặp rất nhiều khó khăn và bấl tiện trong việc tổ chức dữ liệu đa chiều vào các bảng hai chiểu, không thể triển khai dữ liệu phân tích với số lượng lớn, công cụ phân tích để tạo ra các dữ liệu quyết định không mạnh, thuận tiện, linh hoạt, nhanh chóng, và nhất là không dễ dàng để sử dụng đối với các nhà quản lý, những người ra quyết định. P h á n HÌO íìán 2 - Như vậy, cần thiết phải xây ciựng một hệ thống mới có khả năng lổ chức dữ liệu đa chiểu và có khả năng phân tích dữ liệu linh hoại dể trả lời được các truy vấn da chiểu một cách dễ dàng, nhanh chóng nhằm hỗ n ợ cho việc ra quyếl định của các nhà quản lý. 2. Mục tiêu của luận văn Luận văn dề cập đến việc xây dựng một hệ trợ giúp quyết định dựa vào dữ liệu, sử dụng phương pháp luận xử lý phân tích trực luyến (OLAP). Luận văn sẽ tập trung vào hai công việc chính là nghiên cứu vấn đề tổ chức cơ sở dữ liệu đa chiều, phân tích và hiển thị clữ liệu để irợ giúp ra quyết định. Hệ trợ giúp quyết định theo tiếp cận này, có ihể giúp cho nhà quán lý thiết lập một mô hình OLAP cho ứng dụng cụ thể của mình trong việc tổ chức cơ sở dữ liệu đa chiều, và giúp cho họ dễ dàng uốn nắn hoạt dộng phân tích, tìm kiếm thông tin theo những khía cạnh khác nhau của dĩr liệu, nhằm Ihu Ihập được tối đa những gì họ cần hiểu rõ, để (ừ dó có thể ra dược những quyêi định tốt nhất một cách nhanh chóng. Không giống với các hệ trự giúp quyết định truyền thống thường được xây dựng với mục đích đưa ra giải pháp tối ưu cho một bài toán cụ thể, trong một phạm vi ứng dụng hẹp, hệ trợ giúp quyết định dựa vào dữ liệu hướng đến việc giúp người sử dụng có thể khai thác dược tối da khả năng liềm ẩn của một khối lượng dữ liệu lớn, nhằm thu được những thông tin tổng hợp ở đủ các khía cạnh khác nhau của dữ liệu, để từ đó có thể ra các quyết định đúng một cách nhanh chóng. Do đặc điểm này, phạm vi ứng dụng của hệ trự giúp quyết định dựa vào dữ liệu là rộng. Nó có thể được sử dụng để trợ giúp quyết định cho các bài toán khác nhau, trong những lĩnh vực khác nhau. 3. B ô cục của luận văn Luận văn bao gồm 4 chương C hương 1: Chủ yếu giới thiệu vể hệ trự giúp quyếl định dựa vào dữ liệu (hai thành phần chính: kho dữ liệu (Data Waeihouse - KDL) và OLAP) và tiến trình trự giúp quyết định dựa vào dữ liệu. r i u u i m o (lau 3 - Chương 2: Trình bày những lý thuyết chung về mó hình KDL, phương pháp xây dựng và thiết kế cơ sở dữ liệu cho KDL. Chương 3: Giới thiệu một sỏ kỹ thuật khai thác dữ liệu, trình bày những lý thuyết cư bản về xử lý phân tích trực tuyến, các khái niệm và các đặc trưng của liếp cận đa chiểu. Chương 4: Thiết kế và cài dặt hệ thống, với hai thành phần chính là chức năng tạo lập cơ sở dữ liệu đa chiều và chức năng phân tích, hiển thị dữ liệu. r i i ầ n m ờ dầu 4 - CHƯƠNG Ị ; HỆ TRỢ GIÚP QGỴÊT ĐỊNH DỢ6 VÀO DỬ LIỆU 1.1 HỆ TRỢ GIÚP QUYẾT ĐỊNH 1 .1 .1 Giới thiệu Ngay từ những năm 60 việc sử dụng các phương tiện tin học để tổ chức và khai thác các CSDL đã được phát triển. Kể từ đó trở đi, lất nhiều CSDL đã dược tổ chức, phát triển và khai thác ớ mọi qui mô và ở khắp các lĩnh vực hoạt động của con người và xã hội. Nhiều hệ quản trị CSDL mạnh với các công cụ phong phú và thuận tiện đã giúp cho con người khai Ihác có hiệu quả các nguồn tài nguyên dữ liệu. Mô hình CSDL quan hệ và ngôn ngữ vấn đáp chuẩn (SQL) đã có vai trò hết sức quan trọng trong việc tổ chức và khai thác các CSDL đó. Giai đoạn đầu những năm 60 là thập kỷ của kỹ thuậl Ihu thập dữ liệu, tiếp dó là thời kỳ của kỹ thuật truy nhập dữ liệu, với những ứng dụng như Hệ thông tin quản lý MIS Ị8 ], 121 ] tập trung xử lý dữ liệu, thông tin Iheo các ihủ tục có cấu uúc nhằm hỗ trợ điều khiển, dự báo và giám sát công việc. Và đáu thập kỷ 70, mội loại hình ứng dụng mới ra đời đó là Hệ trợ giúp quyết định DSS 113] nhằm mục đích hỗ trợ các nhà quản lý cấp cao và ra quyết định điều hành. Khái niệm DSS được Scott Morton dưa ra dầu những năm 70 với ihuật ngữ hệ thống hỗ trợ quản lý MSS [8 ], [21). Hệ thống được xác định: “Hệ ihôìig dựa trên sự tương tác máy tính, giúp người ra quyết định dùng các dữ liệu và mô hình để giải các bài toán không có cấu trúc - nhữns bài toán mờ. phức tap với lời giải không hoàn chỉnh” . Theo Gorry và Scott Morton (năm 1971), các vấn đề xử lý có thể được phãn chia thành: có cấu trúc, nửa cấu trúc và không có cấu trúc [21]. Trong đó các hệ thông tin quản lý MIS được dùng để giải quyết loại bài toán thứ nhất. Còn đối với lớp các bài toán thứ hai và thứ ba là phạm vi giải quyết của DSS, hệ chuyên gia ES. Hệ trợ giúp quyết định là những hệ ứng dụng xây dựng trên máy tính nhằm giải quyết các bài toán, các vấn đề có cấu trúc kém. Vui trò chính của hệ trợ giúp quyết định là nhằm mục đích giúp các nhà ra quyết định giải quyết những vấn đề, trong l l ẹ tr ợ g iú p quvet (lịnli dựa vùi) dừ lie II 5 - những hoàn cảnh chưa dược dịnh nglũa rõ ràng, các nhà ra quyết định có thể sẽ chưa biết rõ vấn đề cũng như giải pháp, liêu chuẩn đánh giá sự thành công của lựa chọn. Sự ra đời của hệ trợ giúp quyết định đánh dấu bước phát Iriển quan trọng trong lĩnh vực ứng dụng tin học trong quản lý và diều hành công việc, kế từ đó nó đã không ngừng được nghiên cứu và phát triển cả về lý thuyết và thực tế Iiiến khai ứng dụng. DSS tỏ ra có một thế mạnh nổi trội, rất cần thiết cho lãnh đạo và quản lý khiến nhiều tổ chức quan tâm nghiên cứu đầu tư xây dựng và phái triển. 1 . 1 . 2 H ệ trơ giúp quyết đinh Hệ trợ giúp quyết định ban dầu rất thô sơ, được phát triển từ các phần mềm bảng tính. Hệ trợ giúp quyết định sau đó sử dụng các mô hình tối ưu của việc nghiên cứu các hoạt động nghiệp vụ và khoa học quản lý (OR/MS), sử dụng các kỹ thuật như là qui hoạch tuyến tính. Phân tích “What i f ’ dã trớ nèn dặc biệt phù hợp với các mô hình OR. Sử dụng cách tưưng tác fron_ends, những người làm quyết định có thể khám phá ra các khá năng và những gợi ý tốt hưu là những phán đoán cảm tính trong việc ra quyết định. Hộ trợ giúp quyết định trở nên tinh thông hơn khi sử dụng các kỹ thuật trí luệ nhân tạo. Những hệ thống này có thể được xem như nlnìng hệ thống dựa trên tri thức (Knovvledege-Based Systems) [15]. Với mục đích là làm như thế nào dó dể có thể giúp Mguời sử đụng thực hiện các phân lích nhằm đề xuất dược các quyết định cần ihiêì, cluing ta có thể quan niệm rằng bấi cú ioại hệ thông nào tuân thủ một mô hình tổ chức và xử lý riêng biệt của 11Ó, mà có thể trợ giúp việc ra quyết định, dều được xem là mội hệ trợ giúp quyết định. Các loại hệ trợ giúp quyết định truyền thống như sử dụng báng tính, tối ưu toán học, phân tích sô' hay mồ hình mô phỏng sẽ vãn tiếp tục phát huy được tác dụng trong việc giải quyết nhiều vấn đé. Tuy nhiên những người làm những công việc sử dụng tri thức trong doanh nghiệp ngày càng yêu cầu hệ thống phái biết nhiều hơn, và phải làm dược nhiều hưn trong việc Huy xuất, tống hợp và phân tích thông tin. Họ sẽ càng lúc càng phụ thuộc nhiều hưn vào hệ thống để có ihể l i e t r ơ iỉiÚỊ) qiiveì (lịnh (lưa VIÌO d ừ lieit 6 - ra các quyết định nhanh chóng, với độ till cậy cao hơn. Đày là xu hướng phái triển của hê thống thông tin nói chung và của hệ irợ giúp quyết định nói riêng. 1 . 1 . 3 P hân loại cá c hệ trợ giú p quyết đinh Hì nh 1-1. Phân loại các hệ thông till quán lý Hệ xử lý tác vụ: mục đích chính của các hệ xử lý tác vụ là giữ cho việc ghi nhận các giao tác được chính xác. Hệ thống này được xây dựng để chỉ có thể làm ra những quyết định đơn giản trong việc xác định dữ liệu được ghi nhận là có hợp lệ hay không. Hệ xử lý tác vụ làm công việc hợp lệ hoá trước khi ghi nhận giao tác để CSDL dưực trong sạch hơn. Hệ t r ợ giúp quyết định: bao gồm những hệ thống dược thiết kế để trợ giúp các nhà quản lý ra quyết định. Khác với hệ xử lý giao tác phục vụ cho các hoạt động hàng ngày, một hệ trợ giúp quyết định phục vụ cho những mục tiêu dài hạn hơn và có thể cần đến một vài ý kiến, phán đoán dóng góp từ các chuyên gia. Nlui cầu cần thiết thêm các phán đoán của con người sẽ nhiều hơn nến bài toán đặt ra kliỏng có cấu trúc chặt chẽ, khiến cho hệ thống khó có thể nấm bất được lất cả những sắc thái của tình huống tạo ra quyết định. Hiện nay hệ trợ giúp quyết định có thể được chia thành hai hướng cơ bản. Hướng đầu tiên, dựa vào mô hình, tiếp tục theo xu hướng của các hệ trợ giúp quyết định cũ. Giá trị của hệ thống này là ở chất lượng của mô hình của I1Ó. Khả năng phân tích của nó được dựa trên một lý thuyết hay trên một mô hình mạnh, cùng với một giao diện tốt để làm cho mô hình dễ sử dụng. ỉ lẹ trọ ÍỊĨIÌỊỈ quyết (linh (lựu vao tíìi liẹu 7 - Loại thứ hai của các hệ trợ giúp quyếl định là dựa vào dữ liệu. Giá liị của hệ thống này là ở khả năng tổ chức một lưựng lớn dữ liệu và khá năng tổng hợp, phân tích dữ liệu của nó. Với sự phát triển cao của các kỹ th u ật mạng và CSDL, hệ trợ giúp quyết định hướng theo dữ liệu là inộl thành tựu lớn. Đây là mộl hước ngoặt thú vị từ tiếp cận truyền thống sang tiếp cận mới trong đó cấu Irúc và dữ liệu tách nhau ra và được tổ chức động trong KDL [20], phán ánh bước tiến quan trọng về CSDL tương tác của các hệ trợ giúp quyết định. Với tiếp cận mới này, dữ liệu dóng vai trò cung ứng và là động lực cho một hệ trợ giúp quyết định làm ra những thông tin cần thiết khác. Tuy nhiên dữ liệu được thu thập từ nhiều nguồn rấl da dạng. Người sử dụng sẽ như bưi trong đống dữ liệu phức tạp nhưng nhiều tiềm ẩn, nhiều diều lũru ích này. Vì vậy yêu cầu lớn nhất đặt ru với hệ trợ giúp quyết định loại này là xử lý, phân tích để phát hiện được nhĩrng thông till bổ ích tỉr các kho dữ liệu đó. 1.2 HỆ T R Ợ GIÚP QUYẾT ĐỊNH D ự A VÀO DỮ LIỆU 1 .2 .1 T iếp cậ n KDL và OLAP Hoạt động xử lý thông tin có ihể được phân ihành hai loại: phân tích tác vụ (operations analysis) và phân tích hướng quyết định (decision orienled analysis). KDL và O LA P có thổ được xem như là các thành phần của hoạt động xử lý thông tin hướng quyết định dựa trên phân tích (Analysis based decision oriented information processing). Trong dó, KDL dóng vai trò cung cấp dữ liệu và OLAP đóng vai trò phân tích, khai thác các dữ liệu này. Nói một cách khác, để có thể trợ giúp quyết định dựa vào dữ liệu cần xây dựng hai thành phần quan Irọng là KDL và OLAR Để có khả năng cung cấp những dữ liệu quyết định cho những người ra quyết định, cần sử dụng một cách lưu chứa dữ liệu cho phép họ quản lý, khai thác dữ liệu dễ dàng hơn. Cách lưu chứa dữ liệu này là KDL. Một KDL là mội CSDL dược thiết kế để trả lời các câu hỏi của doanh nghiệp. Nó là nơi chứa nhiều loại dữ liệu doanh nghiệp từ các nguồn khác nhau (các hệ thống xử lý tác vụ). Dữ liệu từ những nguồn này được chuyển dịch vào trong KDL, được đánh chỉ mục, và dược kết nối lại để có llìể được truy xuất nhanh chóng và dễ dàng hơn, phục vụ cho các ứng dụng irợ giúp ra quyết ỉ ỉ ẹ trọ íỊÌúp qitvếí (lịnli (lựa rao (lù liẹu 8 - định. Về trực giác, KDL dược hiếu như là một kho dữ liệu ổn định phản ánh hoạt động của một dưn vị trong quá khứ. Và một khi dữ liệu đã dược thu thập, người sử dụng còn cần có một phương cách tốt để dễ dàng khai thác chúng, nhằm truy xuất dược các mẫu dữ liệu m à họ quan tâm. Hệ thống OLAP giúp cho họ làm điều này. Có vài cách tiếp cận khác nhau tới việc biểu diễn OLAP, nhưng chung nhất là tiếp cận lưu chứa dữ liệu đa chiCu. Biếu diễn này cho ta một ma trận được định chiều của các ô. Sẽ có các ô chứa dữ liệu nhập từ ngoài (các phần tử dữ liệu cơ sở) và các ó còn lại sẽ được tính toán từ các tiến trình gộp và chuyển dịch dữ liệu. Hệ thống OLAP là một hệ thống quản lý dữ liệu giàu năng lực. Nó cho phép người sử dụng cắt lát dữ liệu theo nhiều khía cạnh khác nhau. Và nếu người sử dụng cần thiết quan tâm chi liết hơn vé mẫu dừ liệu nào đó, họ có thể khoan sâu xuống (drill_down) chi tiết của dữ liệu. Hệ ihống OLAP cho phép người sử dụng “tiến sâu” vào dữ liệu và khám phá chúng ở nhiều mức. Người sử dụng có thể truy xuất được những dữ liệu cần thiết một cách nhanh chóng và dễ dàng, mà không cần thực hiện lại công việc lập trình. Các yêu cầu chức năng chính yếu của một hệ thống OLA P là: truy xất và lính loán nhanh, có khả năng phân tích mạnh, linh hoạt (định nghĩa linh hoạt: phân lích linh hoạt, giao diện linh hoạt, hiển thị dữ liệu linh hoạt) và hỗ trợ nhiều người sử dụng (cũng như các hệ thống thông tin khác, các hệ thống OLAP vẫn cùng các yêu cầu chức năng như: sự chính xác và thích hợp với thời gian. Tuy nhiên chúng lại là các hệ Ihống duy nhất cố gắng cung cấp thêm các yêu cầu chức năng đặc biệt quan trọng đó là: khả năng truy xuất nhanh, linh hoạt, thuận tiện tới số lượng lớn các dữ liệu được phát sinh từ các nguồn dữ liệu nhập có thể thay đổi thường xuyên, và hỗ trợ nhiều người sử dụng, trên mạng lưới). OLAP nhấm tới việc đáp ứng xu hướng gia tăng số lượng và sự phức tạp của các dữ liệu cần thiết cho việc ra quyết định, tới việc gia tăng số người đang sử dụng một nguồn dữ liệu góp chung, tới việc gia tăng số lượng công việc cần thiết ra các quyết định không theo k ế hoạch, và tới sự gia tãng việc phân phối dữ liệu và xử lý liên quan đến một truy vấn. Hẹ trợ iỊÌúp qiiyet (lịnh dựa vao (lù liẹu 9 - Tóm lại: muốn có khả năng cùng lúc nhìn vào nhiều CSDL khác nhau, qua việc kếi hợp dữ liệu của chúng dổ làm cho chúng có [hổ được Iruy vấn dễ dàng hơn, thì KDL là một lựa chọn lốt. Còn nếu chúng ta muốn cung cấp cho người sử dụng khả năng phán tích dữ liêu nhanh chóng và phong phú thì giải pháp OLAP là thích họp. Dưới đây là sơ đồ về hệ thôìig KDL và OLAP: Đầu tiên dữ liệu lừ các nguồn dữ liệu từ xa khác nhau (của các hệ lliống xử lý tác vụ) được nạp vào. Trong quá trình nạp, dữ liệu cần đưực đổi sanh dạng chung nhất, được làm sạch, và được chuyển dịch thành những kết quả gộp tương đối mà có ihể hữu dụng cho việc phân tích. Cuối cùng dĩr liệu được dật vào KDL và dược đánh chỉ mục để có thể truy xuất được nhanh. Mộl khi dữ liệu dã ớ trong KDL, xử lý OLAP trở nên quan trọng cho việc trả lơi các truy vấn. Các hệ thống OLAP cho chúng ta khám phá dữ liệu trong những cách hướng tới việc ra quyết định. Các hệ thống OLAP cần có các giao diện đổ họa cho phép người sử dụng nhìn thấy dữ liệu trong dạng số (như bảng) và trong những dạng biểu diễn dồ họa (như biểu đổ thanh). Người sử dụng có thể khoan sâu xuống bằng việc chọn vào các vùng trên màn hình để xem chi tiết hơn. Hình 1-2. K D L và liê thông O L A P 1 . 2 . 2 TG Q Đ dựa v à o dữ liệu trên cơ s ỏ KDL & OLAP Hệ thống OLA P cho chúng ta khám phá dữ liệu theo chiều hướng đi đến sự quyết định. Nó cho phép chúng ta thực hiện các cách cắl lát khác nhau theo những kliía ỉ l ẹ Irọ lịiitp q n y e l í/ị III! d u a vào (lừ l i e II 10 - cạnh khác nhau một cách dể dàng. Nói mội cách khác, chúng ta sẽ có khả năng truy xuất và xem dữ liệu lừ nhiều khía cạnh khác nhau. Nhưng quan trọng hơn là hệ thống sẽ cho chúng ta những lối vào bên trong dữ liệu để tìm hiểu, dựa trên chính những đặc tính của dữ liệu. Hệ thống cũng sẽ cho cluing ta khoan sâu vào trong dữ liệu để truy xuất dược những llìông till chi tiết ở những mức độ khác nhau mà chúng ta có thể cần đến. Điểm quan trọng cuối cùng là những công cụ OLAP thường nhanh và dễ sử dụng. Chúng ta có thể lướt qua hàng megabytes hay gigabytes dữ liệu mà khổng phải đợi hàng giờ mới nhìn thấy được kết quả. Hệ thống OLAP lất khác với hệ quản trị CSDL truyền thống: không chỉ dừng lại ớ việc truy vấn tĩnh, người sử dụng còn có thể uốn nắn việc tìm kiếm dữ liệu, sao cho phù hợp với những nhu cầu chính xác của họ. Và vì hệ thống OLAP cung cấp cho người sử lỉụng khả năng tiến sấu vào dữ liệu, cắt lát, khoan xuống các thông iin chi tiết, nên người sử dụng sẽ có thể hiểu rõ hơn về tlữ liệu, để từ đó có thể ra các quyết định phù hợp, mội cách nhanh chóng. Hệ thong OLAP cho phép người sử dụng khiến cho dữ liệu nói chuyện với chính chúng. Với mục đích có thể hiểu được các loại dữ liệu để sử dụng và cách lổ chức chúng, ta cần làm việc với những nhà ra quyết dinh. Họ sẽ cho chúng la biết họ sẽ sử dụng các dữ liệu như thê nào và lìlũrng câu hỏi nào mà họ mong muốn được trá lời. Chính từ trong việc tổ chức mô hình OLAP, chúng ta sẽ khám phá ra được những loại dữ liệu nào đang sẵn có, và những dữ liệu sơ cấp nào cần được thu thập dể có thể phục vụ tốt cho việc tạo ra những quyết định hiệu quả. Như vậy trợ giúp quyết định hướng theo dữ liệu nhằm vào việc lổ chức hiệu quả KDL và sử dụng giải pháp OLAP để cung cấp tỏi da các thông tin theo xu hướng quyêì định cho người sử dụng, trự giúp cho họ làm ra dược những quyết định phù hợp một cách dễ dàng và nhanh chóng nhất. 1 . 2 . 3 T iến trình TGQĐ dựa vào dữ liệu ch o bài toán cụ th ể Hợ trự g iú p qtiyeí (lịnli dưa vào (lừ lie II 11 - 1. Xác định yêu cầu bài toán 1.1 Xác định các vấn dề gặp phải " 1 it_______________________ '1.... ' ' .............” .... aL 1.2 Xác định các mục tiêu cần dạt đến X I ~ ................... .......... 2. Xây dựng m ô hình O LA P cho bài toán 2.1 Xác dinh các khối dữ liêu cơ sờ .... ".... - ' ............. ...... —...... *............................ , 4 ...... 1 JT ________________________________ ............. .... 2.2 Định nghĩa cấu trúc các chiểu 1 II -------------------------------aLk 2.3 Định nghĩa các c ôn g thức/luậl cần thiết cho lính loán ........ — .................— : .... ..... .........£ L 3. Phân tích dữ liệu - Ra quyếi dinh 3.1 Chỉ dinh yêu cầu truy vấn ....... ........ ..... -.... T 1 ■,1,-“ ... - •- - ..... -............. - , aL Xc______________________ _]_L________________ _____ 3.2 Nhãn xét kết quà truy vấn .........— — .... . ■“'TI ■ ----■ -------------------------------------------------ai. ________________________________ 3.3 Ra quyêì định Hì nh 1-3. Tiến trình T G Q Đ dựa vào dừ liệu cho bài toán cụ thế Trước khi thiết kê mô hình OLAP cho bài toán, cluing ta cần xác định lõ các vấn đề gặp phải trong các tình huống xem xét. Nó có thổ là sự không ổn định, sự mất cân đối, sự sút giảm hay sự kém hiệu quả của hoạt đỏng kinh doanh chẳng hạn. Các vấn đề được nêu ra căn cứ vào việc tìm hiểu tình huống thực tế một cách khách quan và toàn diện. Trên cơ sở các nhận định này, chúng ta sẽ đặt ra những mục tiêu cần đạt tới. Ví dụ như: khắc phục hoặc giảm thiểu hạn chế, cái tiến hiệu q u ả , ... Để ứng dụng OLAP, chúng ta cần xây dựng một mô hình phục vụ cho phân tích OLAP dựa trên tình huống của bài toán, các vấn đề, và các mục tiêu đã xem xét. Đó là quá trình xác định các khối dữ liệu dự định tổ chức, định nghĩa cấu trúc các chiều và định nghĩa các công thức/luật cần thiết cho tính toán. Trcng việc xác định các khối dữ liệu, sẽ phát sinh ra vấn đề tại sao lại lổ chức n khôi mà không là 111 khối, tổ chức những khối nào là có lợi nhất? Tương tự, trong việc tổ chức cấu trúc các chiều, cũng như việc định nghĩa các công thức, sẽ đặt ra những câu hỏi: phân cấp chiều như vậy dã phù hợp và đầy đủ chưa, các công Ihức định nghĩa như vây dã đúng chưa, hợp lý không? Tất cả các vấn đẻ này phần lớn phụ thuôc vào việc cân nhấc hiộu quả xử lý đối với bài toán cụ thể, vào sự phân tích tình huông, hoàn cảnh thực tế một cách đầy H ệ trợ g iú p (J iiy e i (lịnli (lựa vào (lù liệII 12 - đủ, và cả trên điều kiện triển khai llurc hiện mô hình: thiết bị phần cứng, ưu, khuyết của hệ thống OLAP sử dụng, ... Khó lạo lập dược một chuẩn mực, phương pháp để xây dựng mô hình OLAP cho tất cả các bài toán, mà công việc này chủ yếu lùy thuộc vào bài toán cụ thế, vào môi trường triển khai và cả vào kinh n g h iệm ,... Trên cơ sở mô hình OLAP, CSDL OLAP đã dược thiết lập, người khai thác hệ thống sẽ uốn nắn việc tìm kiếm thông tin của mình bằng cách liên lục đặt ra những yêu cầu truy vấn, thực hiện, rồi nhận xét kết quả, nhằm tìm hiểu rõ dần những nội dung tiềm ẩn của dữ liệu nguồn (thu thập được theo những vấn dề đang quan tâm), để tiến tới chỗ có đủ cơ sớ nhận định, từ đó ra được các quyết định cần thiết. Ở đây, việc trợ giúp ra quyếl định không nhằm dưa ra cho người sử dụng một số phương án khả dĩ hiệu quả để giúp họ lựa chọn hoặc đưa hẳn ra một plnrơng án khả dĩ tôi ưu để giúp họ quyết định như các hệ trợ giúp quyết định dựa vào mô hình thường làm, mà nó tạo phương tiện đổ cung cấp nhiều nhất các lliông tin phong phú, đa dạng, trên các khía cạnh, ở các mức khác nhau một cách nhanh chóng, giúp cho người khai thác có thể uốn nắn việc tìm kiếm dữ liệu, hầu nắm bắi dược đến lôi đa những gì họ cần hiểu lõ, để chính họ sẽ ra những quyết định phù hợp . Và như vậy ihì người khai thác cần là chuyên gia về lĩnh vực của bài toán ứng dụng cụ thể. Tuy nhiên không như khuynh hướng của hệ trợ giúp quyết định dựa vào mò hình: phần lớn phạm vi ứng dụng là hẹp cho từng vấn dề cụ thể và chỉ giúp quyết định được một vài vấn đề, hệ thống trợ giúp quyết định dựa vào dữ liệu, có phạm vi ứng dụng là lất rộng và có Ihể giúp ra nhiều quyết định khác nhau. Trong mỗi ứng (lụng cụ thể, chúng ta chỉ cẩn thiết lập mô hình OLAP lương ứng cho nó, là có thể hỗ nợ ra quyết định. l l ẹ trọ giú p quvết (lịnh dưa vào (lừ liẹu 13 CHƯONG 2 : - KHO D Ở LIỆU - D fiT fl W A R E H O U S E Hiện nay hầu hết các tổ chức đều đang phải đương dầu với sự thay đổi của thị trường. Người ta thấy rằng để có thể đưa ra một quyết định đúng đắn, trước hết phải có khả năng nhanh chóng truy nhập tới tất cả các loại iliỏng tin. Đôi với một tổ chức nào đó, để có thể có quyết định đúng đắn, cần nghiên cứu cả những dữ liệu quá khứ, phân tích nhằm định ra toàn bộ các xu hướng có thể. Trong bối cảnh công nghệ thông tin phát triển, dữ liệu được tập trung trong nluìng cơ sở dữ liệu khổng lổ, nhu cầu truy cập vào tất cả các thông tin là cần thiết. Cách có hiệu quá nhất đế trợ giúp nhu cầu truy nhập thông tin là tổ chức KDL. 2.1 TH ẢNH PHẦN CẤU THẢNH MỘT KDL Các thành phần cấu thành KDL cung cấp một khung cơ bản để hao đổi về kiến trúc, cấu trúc và các chiến lược của KDL. 2 . 1 . 1 S iêu dừ liêu - Metadata • Trong việc tổ chức KDL, không những người dùng đầu cuối mà nguy cả những nhăn viên quản trị dều cần liuy nhập loàn bộ Ihỏng Ún Irong báng gồm các dối tượng, cũng như các thuộc tính. Do đó họ muốn biết một số vấn đề: ■ Có thể tìm thấy dữ liệu ở đâu? K h o d ù Hen - Data Ware hou se 14 - a Tồn lại những loại thông tin, dữ liệu nào? ■ Dữ liệu thuộc loại nào, có dạng ra sao? ■ Trong các cơ sở dữ liệu khác nhau thì dữ liệu có liên quan với nhau như thế nào? ■ Dữ liệu được lấy từ đâu và I1Ó thuộc ai quản lý? Vì vậy hình thành một dạng cơ sớ dữ liệu khác đưực gọi là Metadata nhằm IĨ1Ỏ tá cấu trúc nội dung của cơ sở dữ liệu chính. Trong môi tnrờng cơ sở dữ liệu phức hợp, một M etadata phù hợp là không thể thiếu bởi nó định ra cấu trúc cơ sở dữ liệu tác nghiệp và cả cấu trúc KDL. Một vấn dề xuất hiện thường xuyên Irong KDL là khả năng giao tiếp với người sử (lụng cuối vể những thông tin bên trong KDL và cách thức chúng được truy nhập. Chính Metadata là cách dể người sử dụng và các ứng dụng có thể tiếp cận được với những thông tin được lưu trữ trong KDL. Nó có thể định nghĩa tất cả các phần tử dữ liệu và các thuộc tính của chúng. Metadata cần được thu thập khi KDL được Ihiết kế và xây dựng. Metadata phái có sẵn cho tất cả những người sử dụng KDL để hướng dẫn họ dùng KDL. Các công cụ trợ giúp cũng được thiết lập và cần được đánh giá trước khi quyết định mua nó. 2 . 1 . 2 C ác n g u ồ n dữ liệu Bao gồm các hệ thống trong và ngoài của một tổ chức, lất phong phú vê chủng loại. Các hệ thống nằm trong được coi như các hệ tlìống nguồn hoặc các hệ thống đã có sẩn. ■ Hệ thống đã có trước (LS): là một hệ thông lác nghiệp hỗ trợ kinh doanh. Hệ thống này dã từng được phát triển sử dụng các công nghệ có sẩn và vẫn phù hợp với các nhu cầu của kinh doanh. Các hệ thông này có thể dược thực hiện trong nhiều năm và có lẽ không có hoặc có rất ÍI minh chứng bằng lài liệu. * Dữ liệu ngoài: là dữ liệu không nằm trong các hệ thống tác nghiệp của một tổ chức, là những dữ liệu do người sử dụng cuối yêu cầu để diền vào bức tranh tổng thể các nhu cầu kinh doanh của họ. Các LS được phát triển xung quanh các vùng kinh doanh phục vụ cho dự án. Các ứng dụng được phát triển cùng với dữ liệu mà các dữ liệu này lại đáp ứng nhiều nhu cầu khác nhau. Cùng là một dữ liệu nhưng lại có lèn khác nhau, hoặc thuộc các hệ K h o (lữ lien - Dala \\ (II ơlioiisi' 15 - thống đo lường khác nhau. Kết quá cuối cùng là các nguồn dữ liệu cán dược dánli giá và các định nghĩa cần được đưa vào Metadata dể nhắm tới các ván đề sau: ♦ Xác định các nguồn khác nhau, các cấu irúc file khác nhau, các nền (platform) khác nhau. ♦ Hiểu dược dữ liệu nào có trong các hệ thông nguồn dang lổn tại, các định nghĩa kinh doanh của dữ liệu, và bất kỳ các luật kinh doanh nào cho dữ liệu. ♦ Phát hiện sự giao nhau về thông tin của các hệ thõng khác nhau. ♦ Quyết định dữ liệu tốt nhất trong các hệ thống. Mỗi hệ thống cần được đánh giá để quyết định hệ thống nào có dữ liệu rõ ràng và chính xác hơn. 2 . 1 . 3 H ệ th ố n g xử lý g ia o dich trực tuyên - OLTP [4] Dữ liệu phát sinh từ các hoạt dộng hàng ngày được iliu thập, xử lý để phục vụ côi '15 viôc nghiệp vụ cụ thể của một tổ chức thường dược gọi là dữ liệu lác nghiệp và hoạt động thu thập xử lý loại dữ liệu này được gọi là xử lý giao dịch trực tuyến (OLTP). Dữ liệu tại các CSDL tác nghiệp điíực lây lừ nhiều nguồn khác nhau nên dể bị nhiễu, hỗn tạp - dữ liệu không sạch, không loàn vẹn. Do đó việc kiếm tra dữ liệu, làm sạch dữ liệu phải được tiến hành ngay tại đây nhằm báo đảm tính toàn vẹn, tính dứng dắn của dữ liệu dể phục vụ cho việc xây dựng KDL và liự giúp ra quyếi định sau này. 2 . 1 . 3 . 1 N hững đ ặc đ iếm của hệ th ốn g OLTP ■ Trợ giúp số lượng lớn những người sử dụng dồng thời trong việc thêm và sửa đổi dữ liệu. ■ Diễn tả trạng thái thay đổi bắt buộc của tổ chức nhưng không lưu lại lịch sử của nó. ■ Chứa đựng những số lưựng lớn các dữ liệu, bao gồm dữ liệu tổng quái để kiểm soát những sự thực hiện. ■ Được điểu chỉnh để đáp ứng nhanh tới sự thực hiên tích cực. ■ Cung cấp cơ sở hạ tầng công nghệ để hỗ trự giúp các thao tác thường ngày của một tổ chức. Kho (lữ liệu - Data W a r e h o u s e 16 - Chính từ những đặc diêm này, nếu chúng ta sử dụng cư sở dữ liệu OLTP cho phân tích trực tuyến thì thường gặp những khó khăn sau: ■ Các yêu cầu phân tích, tổng kết những khối lượng lớn dữ liệu, ảnh hướng tới khả năng của hệ thống. * Sự thực hiện của hệ thống khi đáp ứng những yêu cầu phân tích phức tạp có thể chậm hoặc không ổn định, cung cấp sự hỗ irợ không dầy dủ cho những người sử dụng trong phân tích trực tuyến. ■ Sự thay đổi dữ liệu thường xuyên gây trở ngại cho tính tin cậy của thông tin phân tích. ■ An ninh trở nên phức tạp hơn khi sự phân tích trực tuyến được kết hợp với xử lý giao dịch trực tuyến. KDL với nhiệm vụ tổ chức dữ liệu cho mục đích phân tích đã giải quyết được các khó khăn trên bằng việc cung cấp những khóa chính. Cấc KDL: ■ Có thể kết hợp dữ liệu lừ những nguồn dữ liệu hỗn tạp vào trong một cấu trúc thuần nhất dơn. ■ Tổ chức số liệu trong những cấu trúc dơn gian hóa cho hiệu quá của các yêu cầu có tính phân tích hơn là cho việc xử lý giao dịch. ■ Chứa dữ liệu thay đổi, đó là tính hợp lệ, chắc chắn, và hợp lý hoá trong phân tích. ■ Cung cấp dữ liệu ổn dịnh biểu diễn cho lịch sử kinh doanh. ■ Được cộp nhật định kỳ dữ liệu bổ sung hơn ià những giao dịch thường xuyên. ■ Nlũrng yêu cầu an toàn dơn giản. ■ Cung cấp một cơ sở dữ liệu dược tổ chức cho OLAP hưn là cho OLTP. 2 . 1 . 3 . 2 Các cô n g cụ thu thập, làm sạch và chuyển đôi dữ liệu nguồn Một phần quan trọng trong cài đặt là sử dụng những tlữ liệu dã dược linh chế lừ những hệ thống tác nghiệp và dưa chúng vào một khuôn dạng thích hợp cho các ứng dụng thông tin. Những công cụ này thực hiện tất cả các công việc chuyển đổi, tóm tắt, những thay dổi quan Irọng, những thay đổi về cấu Iníc và những cô dọng cần thiết cho sự chuyển đổi dữ liệu riêng lẽ thành thông tin có thể được dùng trong nlũrng công cụ hỗ trợ quyết định. Nó sản sinh ra những chương trình và kiểm soát K h o d ừ liệu - Data \ \ a r e h o u s e
- Xem thêm -