Đăng ký Đăng nhập
Trang chủ Thiết kế và triển khai kho dữ liệu khách hàng dùng dịch vụ viễn thông của Tổng C...

Tài liệu Thiết kế và triển khai kho dữ liệu khách hàng dùng dịch vụ viễn thông của Tổng Công ty Bưu chính Viễn thông Việt Nam (VNPT)

.PDF
135
344
137

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN TRUNG THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG CỦA TỔNG CÔNG TY BƯU CHÍNH VIỄN THÔNG VIỆT NAM (VNPT) LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2008 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN TRUNG THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG CỦA TỔNG CÔNG TY BƯU CHÍNH VIỄN THÔNG VIỆT NAM (VNPT) Chuyên ngành: Công nghệ thông tin Mã số: 1 01 10 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: PGS.TS. Đặng Hữu Đạo HÀ NỘI - 2008 1 MỤC LỤC MỤC LỤC ...................................................................................................................... 1 DANH SÁCH HÌNH VẼ ............................................................................................... 3 CÁC THUẬT NGỮ VÀ VIẾT TẮT ............................................................................ 5 MỞ ĐẦU ......................................................................................................................... 6 Chƣơng 1: TỔNG QUAN ............................................................................................. 8 1.1. Thị trường viễn thông ...................................................................................................... 8 1.2. Dữ liệu ngành viễn thông ................................................................................................ 9 1.3. Mục tiêu của luận văn.................................................................................................... 10 1.4. Phạm vi của luận văn ..................................................................................................... 10 1.5. Công cụ thực hiện .......................................................................................................... 10 1.6. Phương pháp xây dựng kho dữ liệu ............................................................................... 12 Chƣơng 2: TỔNG QUAN VỀ DATA WAREHOUSE ............................................. 15 2.1. Định nghĩa kho dữ liệu .................................................................................................. 15 2.2. Đặc tính của kho dữ liệu ................................................................................................ 16 2.3. Kho dữ liệu và các cơ sở dữ liệu ................................................................................... 17 2.4. Lợi ích của kho dữ liệu .................................................................................................. 18 2.5. Kho dữ liệu hiện nay ..................................................................................................... 18 2.6. Xu hướng tương lai của kho dữ liệu .............................................................................. 20 2.7. Kiến trúc của kho dữ liệu .............................................................................................. 22 2.7.1. Nguồn dữ liệu ......................................................................................................... 23 2.7.2. Công cụ trích xuất chuyển đổi và nạp dữ liệu (ETL) ............................................. 24 2.7.3. Siêu dữ liệu ............................................................................................................. 24 2.7.4. Kho dữ liệu chủ đề.................................................................................................. 25 2.7.5. Các công cụ truy vấn, tạo báo cáo, phân tích dữ liệu ............................................. 26 2.8. Tổ chức dữ liệu lôgíc ..................................................................................................... 26 2.8.1. Lược đồ kho dữ liệu ............................................................................................... 26 2.8.2. Mô hình dữ liệu đa chiều ........................................................................................ 28 2.8.3. Bảng sự kiện ........................................................................................................... 29 2.8.4. Bảng chiều .............................................................................................................. 30 2.8.5. Bảng sự kiện tổng hợp ............................................................................................ 30 2.9. Tổ chức dữ liệu vật lý .................................................................................................... 31 2.9.1. Phân vùng ............................................................................................................... 31 2.9.2. Chỉ mục .................................................................................................................. 31 Chƣơng 3: PHÂN TÍCH, THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG........................................... 33 3.1. Phân tích ........................................................................................................................ 33 3.1.1. Tìm hiểu hệ thống nguồn CCBS ............................................................................ 33 3.1.2. Xác định yêu cầu phân tích .................................................................................... 37 3.2. Thiết kế .......................................................................................................................... 42 3.2.1. Kiến trúc của kho dữ liệu ....................................................................................... 43 3.2.2. Thiết kế mô hình dữ liệu......................................................................................... 45 2 3.2.2. Thiết kế mô hình vật lý ........................................................................................... 72 3.2.4. Thiết kế trích xuất chuyển đổi nạp dữ liệu ............................................................. 84 3.2.5. Thiết kế công cụ báo cáo, tra cứu động .................................................................. 92 3.2.6. Thiết kế công cụ quản trị hệ thống ......................................................................... 99 3.3. Cài đặt, triển khai ........................................................................................................ 101 3.3.1. Cài đặt hệ thống .................................................................................................... 101 3.3.2. Triển khai.............................................................................................................. 101 Chƣơng 4: KẾT QUẢ VÀ HƢỚNG PHÁT TRIỂN .............................................. 103 4.1. Kết quả......................................................................................................................... 103 4.2. Giao diện chương trình ................................................................................................ 103 4.3. Báo cáo phân tích ........................................................................................................ 107 4.4. Hướng phát triển của đề tài ......................................................................................... 115 KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................... 117 TÀI LIỆU THAM KHẢO......................................................................................... 118 Phụ lục 1: SƠ ĐỒ CSDL BẢNG SỰ KIỆN CỦA DWH ........................................ 119 Phụ lục 2: LỆNH SCRIPT CỦA CÁC ÁNH XẠ ETL SẢN SINH TỪ OWB ..... 125 Phụ lục 3: CÂU LỆNH SQL LẤY DỮ LIỆU CỦA CÁC BÁO CÁO PHÂN TÍCH131 3 DANH SÁCH HÌNH VẼ Hình 1. Hình 2. Hình 3. Hình 4. Hình 5. Hình 6. Hình 7. Hình 8. Hình 9. Hình 10. Hình 11. Hình 12. Hình 13. Hình 14. Hình 15. Hình 16. Hình 17. Hình 18. Hình 19. Hình 20. Hình 21. Hình 22. Hình 23. Hình 24. Hình 25. Hình 26. Hình 27. Hình 28. Hình 29. Hình 30. Hình 31. Hình 32. Hình 33. Hình 34. Hình 35. Hình 36. Hình 37. Hình 38. Hình 39. Hình 40. Hình 41. Hình 42. Hình 43. Hình 44. Hình 45. Hình 46. Mô hình thác nước với thiết lập cơ sở hạ tầng và quản lý dự án..................12 Định nghĩa DWH ..........................................................................................15 Kiến trúc DWH cơ bản .................................................................................22 Kiến trúc DWH với Staging Area ................................................................ 23 Kiến trúc kho dữ liệu với Staging Area và Data Mart..................................23 Lược đồ hình sao ..........................................................................................27 Lược đồ bông tuyết rơi .................................................................................28 Mô hình đa chiều ..........................................................................................28 Hệ thống CCBS tổng thể ..............................................................................34 Kiến trúc của DWH thử nghiệm ...............................................................43 Sơ đồ kho dữ liệu Bán hàng ......................................................................46 Chiều thời gian ..........................................................................................47 Phân cấp thời gian .....................................................................................48 Chiều dịch vụ viễn thông ..........................................................................48 Chiều khách hàng ......................................................................................49 Chiều kênh giao tiếp..................................................................................50 Chiều điểm giao dịch ................................................................................51 Phân cấp điểm giao dịch ...........................................................................51 Chiều địa chỉ .............................................................................................52 Phân cấp địa chỉ ........................................................................................52 Chiều kiểu yêu cầu ....................................................................................53 Chiều khuyến mãi .....................................................................................53 Sơ đồ kho dữ liệu Phát triển thuê bao .......................................................54 Chiều thuê bao ...........................................................................................55 Chiều đơn vị quản lý .................................................................................56 Chiều đối tượng khách hàng .....................................................................56 Sơ đồ kho dữ liệu chủ đề Điều hành thi công ...........................................57 Chiều hướng giao ......................................................................................57 Sơ đồ kho dữ liệu Khiếu nại......................................................................58 Chiều nhóm khiếu nại ...............................................................................58 Sơ đồ kho dữ liệu Xử lý khiếu nại ............................................................59 Chiều kết quả khiếu nại .............................................................................60 Sơ đồ kho dữ liệu Cước khách hàng .........................................................60 Chiều mã vùng ..........................................................................................61 Chiều kiểu dịch vụ ....................................................................................62 Chiều đối tượng khách hàng .....................................................................63 Sơ đồ kho dữ liệu tổng hợp cước khách hàng ..........................................63 Chiều thanh toán .......................................................................................64 Chiều khoản mục cước ..............................................................................65 Sơ đồ kho dữ liệu thanh toán nợ khách hàng ............................................65 Chiều hình thức thanh toán .......................................................................66 Sơ đồ kho dữ liệu nợ cước khách hàng .....................................................66 Sơ đồ kho dữ liệu nhắc nợ cước khách hàng ............................................67 Sơ đồ kho dữ liệu khóa mở nợ cước .........................................................67 Sơ đồ kho dữ liệu xử lý nợ cước ...............................................................68 Chiều hình bước xử lý nợ ..........................................................................68 4 Hình 47. Hình 48. Hình 49. Hình 50. Hình 51. Hình 52. Hình 53. Hình 54. Hình 55. Hình 56. Hình 57. Hình 58. Hình 59. Hình 60. Hình 61. Hình 62. Hình 63. Hình 64. Hình 65. Hình 66. Hình 67. Hình 68. Hình 69. Hình 70. Hình 71. Hình 72. Hình 73. Hình 74. Hình 75. Hình 76. Hình 77. Hình 78. Hình 79. Hình 80. Hình 81. Hình 82. Hình 83. Hình 84. Hình 85. Hình 86. Hình 87. Hình 88. Hình 89. Hình 90. Hình 91. Hình 92. Hình 93. Hình 94. Sơ đồ kho dữ liệu báo hỏng ......................................................................69 Chiều tình trạng .........................................................................................69 Sơ đồ kho dữ liệu xử lý báo hỏng .............................................................70 Chiều nguyên nhân ....................................................................................70 Sơ đồ kho dữ liệu sử dụng dịch vụ viễn thông.........................................71 Sơ đồ kho dữ liệu sử dụng dịch vụ gia tăng ..............................................71 Kiến trúc vật lý kho dữ liệu viễn thông.....................................................72 Mô hình quan hệ bán hàng ........................................................................74 Bảng thống kê cuộc gọi theo giờ bắt đầu. .................................................79 Bảng thống kê cuộc gọi theo dịch vụ. .......................................................80 Bảng thống kê cuộc gọi theo mã vùng. .....................................................80 Bảng thống kê doanh thu...........................................................................80 Bảng thống kê tiền nợ cước ......................................................................81 Bảng thống kê tiền thanh toán ...................................................................81 Bảng tổng hợp cước sử dụng khách hàng .................................................82 Bảng tổng hợp tiền nợ khách hàng ............................................................82 Bảng tổng hợp tiền thanh toán khách hàng ...............................................82 Sơ đồ ánh xạ DICHVU_VT_MAP ...........................................................85 Sơ đồ ánh xạ DIACHI_MAP ....................................................................86 Sơ đồ ánh xạ KIEU_YC_MAP .................................................................86 Sơ đồ ánh xạ KHACHHANG_MAP ........................................................86 Sơ đồ ánh xạ THANHTOAN_MAP .........................................................87 Sơ đồ ánh xạ THUEBAO_MAP ...............................................................87 Sơ đồ ánh xạ DANGKY_DVVT_MAP ....................................................87 Sơ đồ ánh xạ PHATTRIEN_TB_MAP .....................................................88 Sơ đồ ánh xạ DIEUHANH_TC_MAP ......................................................88 Sơ đồ ánh xạ KHIEUNAI_MAP ...............................................................89 Sơ đồ ánh xạ XL_KHIEUNAI_MAP .......................................................89 Sơ đồ ánh xạ BAOHONG_MAP ..............................................................89 Sơ đồ ánh xạ XL_BAOHONG_MAP .......................................................90 Sơ đồ ánh xạ CT_CUOC_KH_MAP ........................................................90 Sơ đồ ánh xạ TH_CUOC_KH_MAP ........................................................90 Sơ đồ ánh xạ CT_NO_KH_MAP..............................................................91 Sơ đồ ánh xạ CT_TTNO_KH_MAP .........................................................91 Sơ đồ ánh xạ SUDUNG_DVVT_MAP ....................................................91 Mô hình báo cáo truyền thống ..................................................................92 Mô hình báo cáo từ xa sử dụng Webservice .............................................93 Kiến trúc và công nghệ hệ thống báo cáo, tra cứu ....................................94 Mô hình cở sở dữ liệu của hệ thống báo cá, tra cứu .................................95 Mô hình cở sở dữ liệu của công cụ quản trị hệ thống .............................100 Giao diện chính .......................................................................................104 Giao diện định nghĩa báo cáo và tra cứu .................................................104 Giao diện chung hiển thị báo cáo ............................................................104 Giao diện tra cứu động ............................................................................105 Giao diện cấu hình form nhập dữ liệu từ điển ........................................105 Giao diện chung nhập dữ liệu từ điển .....................................................106 Giao diện định nghĩa quyền ....................................................................106 Giao diện phân quyền cho nhóm người dùng .........................................107 5 CÁC THUẬT NGỮ VÀ VIẾT TẮT  BI (Business Intelligence): Quản trị doanh nghiệp thông minh.  CCBS (Customer Care and Billing System): Hệ thống Tính cước và Chăm sóc khách hàng.  CDI (Customer Data Integration): Tích hợp dữ liệu khách hàng.  CSDL: Cơ sở dữ liệu.  CRM (Customer relationship management): Quản lý mối quan hệ với khách hàng.  DM (Data mart): Kho dữ liệu chủ đề.  DOLAP (Database Online Analytical Processing): Xử lý phân tích trực tuyến CSDL.  DWH (Data Warehouse): Kho dữ liệu.  EIS (Executive Information System): Hệ thống thông tin điều hành.  ETL (Extract Transform Load): Trích xuất chuyển đổi dữ liệu.  HOLAP (Hybric Online Analytical Processing): Xử lý phân tích trực tuyến kết hợp.  MDM (Master Data Management): Quản lý dữ liệu chủ.  MOLAP (Multi dimensional Online Analytical Processing): Xử lý phân tích trực tuyến đa chiều.  ODS (Operational data store): Kho dữ liệu vận hành.  OLTP (Online Transaction Processing): Xử lý giao dịch trực tuyến.  OLAP (Online Analytical Processing): Xử lý phân tích trực tuyến.  OWB (Oracle Warehouse Builder): Công cụ xây dựng kho dữ liệu của Oracle.  SOA (Service-Oriented Architecture): Kiến trúc hướng dịch vụ.  ROLAP (Relational Online Analytical Processing): Xử lý phân tích trực tuyến quan hệ  VNPT (Vietnam Posts and Telecommunications Group): Tập đoàn Bưu chính Viễn thông Việt nam.  VLDB (Very large DB): Cơ sở dữ liệu rất lớn. 6 MỞ ĐẦU Trong nền kinh tế thị trường hiện nay, thông tin là yếu tố sống còn đối với bất kỳ một doanh nghiệp nào. Việc nắm bắt thông tin giúp cho các doanh nghiệp hoạch định chiến lược kinh doanh cho mình một cách chính xác. Sự ra đời của công nghệ kho dữ liệu (Data Warehouse - DWH) trong những năm gần đây đã đáp ứng nhu cầu quản lý, lưu trữ một khối lượng dữ liệu lớn và có khả năng khai thác dữ liệu đa chiều và theo chiều sâu nhằm hỗ trợ việc ra quyết định của các nhà quản lý. Trong nước hiện nay có rất nhiều doanh nghiệp đã và đang nghiên cứu, tiến hành triển khai hệ thống DWH. Đối với nước ngoài, hệ thống kho dữ liệu được áp dụng từ lâu và đã phát huy được những hiệu quả rất lớn giúp ích cho các doanh nghiệp trong việc hoạch định chiến lược kinh doanh cũng như việc nghiên cứu phát triển các ứng dụng. Đối với Tổng công ty Bưu chĩnh Viễn thông Việt Nam (VNPT), xây dựng hệ thống Data Warehouse có ý nghĩa hết sức quan trọng. Ngoài việc thu thập lưu trữ các thông tin từ các hệ thống như Tính cước và chăm sóc khách hàng nói chung và các hệ thống khác nói riêng hệ thống DWH còn cung cấp các thông tin hữu ích giúp cho các nhà phát triển cập nhật các thay đổi hệ thống một cách nhanh chóng. Hơn thế nữa, hệ thống còn cung cấp cho nhà quản lý những thông tin quan trọng chính xác và nhanh chóng giúp họ có tầm nhìn chiến lược và hỗ trợ nhà quản lý ra những quyết định kịp thời và có lợi nhất cho doanh nghiệp trong điều kiện cạnh tranh của ngành viễn thông đang diễn ra rất gay gắt. Xuất phát từ thực tế đó, đồ án tốt nghiệp này trình bày về việc ứng dụng công nghệ kho dữ liệu trên môi trường Oracle vào “Thiết kế và triển khai kho dữ liệu khách hàng sử dụng dịch vụ viễn thông của Tổng công ty Bưu chinh Viễn thông Việt Nam (VNPT)” được thực hiện với mong muốn xây dựng được một DWH ban đầu để hỗ trợ VNPT đặc biệt là các Viễn thông tỉnh trong việc quản lý, điều hành doanh nghiệp. Nội dung luận văn này bao gồm các phần chính như sau: Mở đầu Đây là phần giới thiệu chung về lý do chọn luận văn, cũng như bố cục chung của luận văn. Chương 1: Tổng quan. Nội dung chính của chương này là trình bày tổng quan về thị trường viễn thông; dữ liệu của ngành viễn thông; mục tiêu và phạm vi của luận văn; công cụ và phương pháp xây dựng DWH. Chương 2: Tổng quan về DWH. 7 Nội dung chính của chương này là trình bày tổng quan về DWH gồm định nghĩa, đặc tính, lợi ích, xu hướng tương lai, kiến trúc, tổ chức lô gíc, tổ chức vật lý của DWH. Chương 3: Phân tích, thiết kế và triến khai DWH khách hàng sử dụng dịch vụ viễn thông. Nội dung chính của chương này bao gồm: Tìm hiểu hệ thống nguồn CCBS; xác định yêu cầu phân tích; thiết kế mô hình dữ liệu dựa trên yêu cầu phân tích và CSDL (Cở sở dữ liệu) của Hệ thống Tính cước và Chăm sóc khách hàng (Customer Care and Billing System – CCBS); thiết kế mô hình vật lý; thiết kế trích xuất chuyển đổi và nạp số liệu từ hệ thống CCBS vào DWH; xây dựng công cụ báo cáo, tra cứu động và quản trị hệ thống; cài đặt và triển khai DWH. Chương 4: Kết quả và hướng phát triển. Nội dung chính của chương này là trình bày các kết quả của luận văn; một số giao diện của công cụ báo cáo, tra cứu, quản trị hệ thống; một số báo cáo phân tích; hướng phát triển của luận văn. Kết luận và kiến nghị Phần này nêu các kết luận của luận văn và đưa ra các khuyến nghị áp dụng. Các tài liệu và địa chỉ tham khảo. Các phụ lục liên quan. 8 Chƣơng 1: TỔNG QUAN Tóm lược nội dung: Nội dung chính của chương này là trình bày tổng quan về thị trường viễn thông; dữ liệu của ngành viễn thông; mục tiêu và phạm vi của luận văn; công cụ và phương pháp xây dựng DWH. 1.1. Thị trường viễn thông Trong thập niên qua, mọi lĩnh vực công nghiệp đã có kinh nghiệm biến đổi sâu sắc trong môi trường kinh doanh của họ. Việc bãi bỏ các quy định (cho phép thị trường viễn thông tự do cạnh tranh), sự cạnh tranh, sự tiến bộ công nghệ và toàn cầu hóa kết hợp lại tạo ra sức ép khổng lồ lên những nhà cung cấp lĩnh vực viễn thông và khả năng của họ phản ứng lại với những sự thay đổi này. Những nhà cung cấp trong lĩnh vực viễn thông hôm nay đang phải đối mặt với những thách thức như: - Tiếp tục cạnh tranh xuất phát từ việc cho phép thị trường viễn thông tự do cạnh tranh. - Tỷ lệ dời bỏ nhà cung cấp cao trong sự gia tăng thâm nhập thị trường. - Sự suy giảm mang tính hệ thống lợi ích sử dụng dịch vụ thoại. - Những yêu cầu cơ sở hạ tầng do cuộc chạy đua về công nghệ mới. - Sự suy giảm về sự thu nhận. Trong công nghiệp viễn thông, sự tự do cạnh tranh dẫn đến sự cạnh tranh không chỉ trong nước mà mang tính quốc tế. Điều này làm cho thị phần bị chia sẽ và đe dọa những nguồn lợi tức. Sự cạnh tranh đã tạo ra những sản phẩm mới ra thị trường. 3G, VOIP, dịch vụ định vị, ứng dụng dữ liệu di động và sự tích hợp đa phương tiện,…có quy mô rủi ro cao bổ sung tới nền công nghiệp mà yêu cầu sự đầu tư vốn lớn để nâng cấp mạng lưới, tính cước, sự hỗ trợ và cơ sở hạ tầng khác. Trong lúc đó những lợi tức và những lợi nhuận trong kinh doanh dịch vụ thoại suy giảm mang tính hệ thống. Trong những năm qua, thị trường viễn thông ở Việt Nam phát triển rất nhanh. Với chính sách mở cửa, khuyến khích cạnh tranh của Nhà nước, trên thị trường đã xuất hiện nhiều nhà cung cấp dịch vụ mới, cạnh tranh gay gắt với VNPT, khiến cho thị phần của VNPT bị chia sẻ đáng kể. Đặc biệt, trong điều kiện Việt Nam đã chính thức gia nhập WTO, thị trường viễn thông sẽ ngày càng sôi động hơn, VNPT sẽ phải đối mặt với sự cạnh tranh ngày càng gay gắt hơn không chỉ với các đối thủ trong nước mà còn với các đối thủ nước ngoài. Để có thể đứng vững và phát triển trong môi trường kinh doanh mới, VNPT cần phải không ngừng nâng cao năng lực cạnh tranh nói chung và đặc biệt là nâng cao năng lực cạnh tranh dịch vụ di động, băng thông rộng. 9 Tính đến cuối năm 2007, có 44 triệu thuê bao điện thoại; trong đó thuê bao di động 30 triệu thuê bao chiếm 75,5%; mật độ điện thoại đạt 52 máy / 100 dân; 1,2 triệu thuê bao ADSL; đã có 18,64 triệu người sử dụng Internet (quy đổi). Trên thị trường viễn thông, nhu cầu về dịch vụ điện thoại cố định có chiều hướng giảm dần và giữ mức tăng khoảng 9% trong giai đoạn 2007-2011 do người tiêu dùng chuyển hướng sang sử dụng các dịch vụ di động và băng rộng. Cạnh tranh sôi động nhất đang diễn ra trên thị trường di động giữa 7 nhà cung cấp dịch vụ như Vinaphone, Mobifone, Viettel, EVN Telecom, SPT, HTC, GTel qua đó thúc đẩy thị trường di động đạt mức tăng trưởng nhanh. Các mạng di động của Việt Nam hiện thời vẫn theo chuẩn 2G hay 2.5 G cung cấp chủ yếu dịch vụ thoại và một số loại dịch vụ giá trị gia tăng như SMS, WAP, GPRS. Hiện các nhà khai thác di động đang tập trung chuyển đổi sang mạng 3G, nhưng với tốc độ chậm chạp do còn gặp nhiều khó khăn về dịch vụ nội dung thông tin và thiết bị đầu cuối đắt đỏ. Dự kiến đến 2011, thị trường dịch vụ 3G đạt khoảng 3 triệu thuê bao chiểm 6% tổng thuê bao di động. Hàng loạt dịch vụ điện thoại cố định không dây ra đời thời gian qua đã tạo điều kiện cho người sử dụng có cơ hội thử nghiệm và lựa chọn. Trước Gphone của VNPT, Tập đoàn Điện lực Việt Nam (EVN) đã cho ra đời dịch vụ điện thoại cố định không dây E-Com và Tổng Cty Viễn thông Quân đội tung ra HomePhone. WiMAX đang được các doanh nghiệp viễn thông thử nghiệm. Hiện nay VNPT cũng đã thử nghiệm dịch vụ WiMax thành công ở trên Lào Cai, đang triển khai thử nghiệm ở Hà Nội và TP. HCM. Cạnh tranh thị trường viễn thông lâu nay chủ yếu là cạnh tranh bằng giá, mà chưa phải là bằng chất lượng và cách thức phục vụ. Cuộc đua giữa các đại gia ngày càng quyết liệt, bên cạnh các gói giảm cước cũng như dịch vụ mới, các doanh nghiệp trong lĩnh vực này cũng cần nâng cao chất lượng của dịch vụ vì đây mới là vấn đề mấu chốt trong chiến lược thu hút khách hàng về với doanh nghiệp mình. Chính vì thế sự cạnh trang quyết liệt này sẽ còn diễn ra không chỉ trên mặt trận giá cước mà còn cả về chất lượng của dịch vụ. 1.2. Dữ liệu ngành viễn thông Ngành công nghiệp viễn thông lưu trữ một khối lượng dữ liệu khổng lồ, bao gồm chi tiết cuộc gọi, thông tin cảnh báo trình trạng của hệ thống mạng viễn thông và thông tin dữ liệu về khách hàng: - Dữ liệu chi tiết cuộc gọi( call detail data ): Mỗi một cuộc gọi của khách hàng trên mạng viễn thông đều phát sinh một mẫu tin chi tiết cuộc gọi. Các mẫu tin này bao gồm các thông tin đặc tả thuộc tính quan trọng của cuộc gọi như: số chủ gọi, số bị gọi, thời gian bắt đầu và thời gian đàm thoại. Thông thường các dữ liệu chi tiết cuộc gọi không được sử dụng trực tiếp cho các ứng dụng data 10 mining mà thường kết hợp với thông tin cá nhân khách hàng để tổng quát hóa thành thông tin về hành vi sử dụng điện thoại của khách hàng. - Dữ liệu trạng thái mạng ( network data ): Mạng viễn thông có cấu hình rất phức tạp, được cấu trúc bởi hàng ngàn thiết bị viễn thông kết nối với nhau. Các thông điệp trạng thái (status message) của mỗi thiết bị phải được lưu trữ thành một kho dữ liệu trạng thái mạng (network data) và chúng được phân tích theo trình tự để hỗ trợ chức năng quản lý mạng. Mỗi thông điệp trạng thái ít nhất phải bao gồm thời gian phát sinh và thông tin mã hóa về lỗi hay trạng thái của thiết bị. - Dữ liệu khách hàng ( customer data ): Cũng như các lĩnh vực kinh doanh lớn khác, các thông tin về khách hàng cần được lưu trữ để dùng cho các ứng dụng như tính cước, tiếp thị... Thông tin về khách hàng bao gồm số điện thoại, họ tên, địa chỉ và các thuộc tính quan trọng khác như quá trình thanh toán nợ, quá trình sử dụng các dịch vụ, thu nhập... Thông thường dữ liệu khách hàng phải được kết hợp với các dữ liệu khác, (ví dụ như dữ liệu chi tiết cuộc gọi) trong khi sử dụng data mining. 1.3. Mục tiêu của luận văn Xây dựng và triển khai DWH khách hàng sử dụng dịch vụ viễn thông cho Viễn thông tỉnh dựa trên việc tìm hiểu và phân tích hệ thống nguồn CCBS mà các viễn thông tỉnh đang sử dụng nhằm hỗ trợ lảnh đạo, các phòng ban,…đưa ra các chiến lược kinh doanh nhanh chóng chính xác. Xây dựng được CSDL tương đối hoàn chỉnh cho DWH; xây dựng các ánh xạ thu thập số liều từ hệ thống nguồn CCBS; xây dựng công cụ báo cáo, tra cứu và quản trị hệ thống; xây dựng được một số báo cáo phân tích ban đầu. Trong thiết kế hệ thống hướng tới tính mở và thiết kế tổng thể để dễ dàng mở rộng và áp dụng cho các doanh nghiệp viễn thông khác. 1.4. Phạm vi của luận văn Xây dựng DWH đặc biệt là DWH viễn thông là một quá trình lâu dài với nhiều công việc. Trong luận văn này, dữ liệu DWH được xây dựng chủ yếu tập trung vào dữ liệu khách hàng và dữ liệu chi tiết cuộc gọi (Dữ liệu từ hệ thống nguồn CCBS). Quy mô hệ thống thử nghiệm được xây dựng áp dụng cho một Viễn Thông Tỉnh của Tập Đoàn Bưu Chính Viễn Thông Việt Nam VNPT. Mỗi Viễn Thông Tỉnh coi như mô hình thu nhỏ của VNPT, là nơi cung cấp đầy đủ các dịch vụ viễn thông tại địa bàn đó như dịch vụ: Điện thoại cố định, điện thoại di động, dịch vụ Gphone, điện thoại vệ tinh, Internet, kênh thuê riêng,….Tập trung thiết kế mô hình dữ liệu và thu thập số liệu từ hệ thống nguồn CCBS, thiết kế một số các báo cáo, tra cứu cơ bản. 1.5. Công cụ thực hiện  Hệ quản trị cở sở dữ liệu cho kho dữ liệu: 11 Một số yêu cầu kĩ thuật dùng để đánh giá khả năng của hệ quản trị cơ sở dữ liệu trong quá trình xây dựng DWH: - Có khả năng mở rộng: khả năng mở rộng là yêu cầu rất cần thiết trong việc xây dựng kho dữ liệu vì có nhiều trường hợp, ban đầu kho dữ liệu có thể có kích thước vừa phải nhưng sau đó do nhu cầu phát triển nên kho dữ liệu cần được mở rộng thêm. - Hỗ trợ cơ sở dữ liệu lớn: do đặc trưng của kho dữ liệu là có kích thước lớn. - Năng lực tính toán song song: Kho dữ liệu lớn cũng đồng nghĩa với việc sẽ có nhiều dữ liệu cần được xử lý, do đó khả năng tính toán song song của hệ thống là rất cần thiết. - Khả năng quản trị: quản trị và bảo trì một Kho dữ liệu lớn là một công việc rất phức tạp như sao lưu và phục hồi dữ liệu, đòi hỏi những công cụ trợ giúp hữu hiệu, tiện lợi và dễ sử dụng. Đối với kho dữ liệu lớn công việc bảo trì và quản trị không được làm gián đoạn hoạt động của hệ thống. - Đáp ứng được các truy vấn phức tạp, có nhiều điều kiện và phải tham chiếu đến nhiều liên kết khác nhau. - Hỗ trợ đánh chỉ mục và truy vấn hình sao nhằm cải thiện thời gian truy vấn. - Hỗ trợ các công cụ xử lý phân tích trực tuyến. Trong những năm gần đây, trên thế giới xu hướng phát triển của thị trường cung cấp các giải pháp cho công nghệ kho dữ liệu dần dần thuộc về các hãng CSDL truyền thống như Oracle, DB2, Microsoft Sql Server,... Oracle là một trong số các hãng hàng đầu trên thế giới về lĩnh vực quản trị cơ sở dữ liệu có công nghệ xây dựng DWH tiên tiến (Theo báo cáo thị phần hệ thống Quản lý cơ sở dữ liệu trên toàn cầu của Gartner, Oracle chiếm 47,1% thị phần năm 2006). Đặc biệt Oracle 11g hỗ trợ rất nhiều cho cở sở dữ liệu rất lớn. - Oracle Database 11g có khả năng đáng kể về nén và phân vùng dữ liệu mới đối với khả năng quản lý lưu trữ và vòng đời dữ liệu với chi phí hiệu qủa hơn. - Oracle Database 11g tự động hóa nhiều hoạt động phân vùng dữ liệu thủ công và mở rộng phương pháp phân vùng theo khoảng giá trị, hash và liệt kê phân vùng hiện có để có khoảng đệm, tham chiếu và phân vùng ảo theo cột. - Thêm vào đó, Oracle Database 11g cung cấp một bộ hoàn chỉnh các lựa chọn phân vùng hỗn hợp cho phép quản lý lưu trữ được thực hiện theo các qui định kinh doanh. - Oracle Database 11g đưa đến khả năng nén dữ liệu tiên tiến cho cả dữ liệu có cấu trúc và không có cấu trúc được xử lý trong quy trình giao dịch, lưu trữ dữ liệu và các môi trường quản trị nội dung. Tỷ lệ nén tất cả các dữ liệu lớn từ 2 - 3 lần hoặc cao hơn có thể đạt được với khả năng nén tiên tiến mới trong Oracle Database 11g. 12 - Khối dữ liệu xử lý giao dịch trực tuyến (Online Transaction Processing – OLAP) nhúng được tăng cường để hoạt động như những thông số hiển thị được cụ thể hóa trong cơ sở dữ liệu. Hệ thống Tính cước và Chăm sóc khách hàng ở hầu hết Viễn thông các tỉnh có CSDL là Oracle. Nếu chọn Oracle làm hệ quản trị cở sở cho kho dữ liệu sẽ dễ dàng cho việc xây dựng công cụ thu thập số liệu.  Công cụ xây dựng và quản trị kho dữ liệu Oracle Warehouse Builder, công cụ xây dựng DWH của hãng Oracle, cho phép người phân tích và thiết kế hệ thống xây dựng DWH đáp ứng được các yêu cầu kĩ thuật trên đây là sự lựa chọn của đồ án nhằm xây dựng kho dữ liệu. Công cụ này thường đi kèm với Oracle Database.  Công cụ xây dựng quản trị báo cáo Crystal Report thiết kế các mẫu báo cáo phân tích. Crystal Report Server quản trị hệ thống báo cáo từ xa.  Ngôn ngữ lập trình Sử dụng ngôn ngữ C#, Asp.Net để xây dựng hệ thống báo cáo động và quản trị hệ thống kho dữ liệu. 1.6. Phương pháp xây dựng kho dữ liệu Dựa trên cở sở của công nghệ phần mềm như mô hình thác nước để xây dựng DWH, nó bao gồm các bước chính sau: Nghiên cứu khả thi, yêu cầu, kiến trúc, thiết kế, phát triển, kiểm thử, triển khai, hoạt động. Có thể bổ sung vào mô hình thác nước hai bước thiết lập cơ sở hạ tầng và quản lý dự án. Hình 1. Mô hình thác nước với thiết lập cơ sở hạ tầng và quản lý dự án 13 Có thể cải tiến bằng nhiều cách: nhận dạng các tác vụ lặp, định nghĩa các tác vụ một cách nhất quán, xác định các tiêu chuẩn đảm bảo chất lượng và sự đầy đủ của dữ liệu, định nghĩa việc quản lí tác vụ, tối ưu hóa các tác vụ. Chu trình xây dựng một DWH chủ đề bao gồm nhiều pha. Ta sẽ xem xét chi tiết về từng pha cụ thể trong quá trình xây dựng kho dữ liệu chủ đề bằng công cụ Oracle Warehouse Builder. Việc xây dựng kho dữ liệu thử nghiệm sử dụng Oracle Warehouse Builder có thể chia thành các giai đoạn sau:  Phân tích yêu cầu: o Tìm hiểu hệ thống nguồn. o Xác định yêu cầu  Thiết kế mô hình dữ liệu: o Xác định, thiết kế các chiều (dimension table). o Xác định, thiết kế các bảng fact (fact table). o Xác định, thiết kế các khối cube (Lược đồ hình sao).  Thiết kế vật lý: o Kiến trúc DWH o Ước lượng dung lượng o Tạo cấu trúc database: từ các định nghĩa logic ở giai đoạn đầu, sử dụng các DDL (Data definition Language) để xây dựng kho cùng với các lược đồ vật lý. o Xác định, thiết kế các bảng tổng hợp (summary table), view và materiallized view. o Phân vùng. o Chỉ mục.  Thiết kế trích xuất chuyển đổi và nạp số liệu (Extract Transform Load - ETL): Các lệnh PL/SQL, SQL*Loader sẽ trích lọc, ánh xạ, chuyển đổi dữ liệu vào DWH. o Ánh xạ các chiều o Ánh xạ bảng sự kiện  Xây dựng hệ thống báo cáo, quản trị hệ thống o Xây dựng hệ thống báo cáo động o Xây dựng công cụ quản trị hệ thống  Cài đặt, triển khai và quản trị dữ liệu: o Cài đặt các thành phần của hệ thống. o Tạo cấu trúc cở sở dữ liệu DWH. Lúc này cơ sở hạ tầng của kho dữ liệu đã được hoàn chỉnh. 14 o Thu thập số liệu ban đầu. Sử dụng các công cụ Proccess flow và schedule tạo các luồng công việc và đặt lịch cho chúng. o Quản trị người dùng, xây dựng báo cáo tra cứu, quản trị dữ liệu. 15 Chƣơng 2: TỔNG QUAN VỀ DATA WAREHOUSE Tóm lược nội dung: Nội dung chính của chương này là trình bày tổng quan về DWH gồm định nghĩa, đặc tính, lợi ích, xu hướng tương lai, kiến trúc, tổ chức lô gíc, tổ chức vật lý của DWH. 2.1. Định nghĩa kho dữ liệu Định nghĩa do W.H. Inman đề xướng: DWH được hiểu là một tập hợp các dữ liệu tương đối ổn định (không hay thay đổi), cập nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý. Hình 2. Định nghĩa DWH Hƣớng chủ đề (subject-oriented):  Được tổ chức xung quanh các chủ đề chính, như khách hàng (customer), sản phẩm (product), bán hàng (sales).  Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý giao dịch hàng ngày.  Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ đề. Tích hợp (integrated):  Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp, đa bộ: Cơ sở dữ liệu quan hệ (relational databases), flat files, các bảng ghi giao dịch trực tuyến.  Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng: 16 – Đảm bảo sự đồng nhất trong các quy ước tên, cấu trúc mã hóa, các đơn vị đo, thuộc tính,…giữa các nguồn khác nhau . – Khi dữ liệu được chuyển đến kho dữ liệu, nó sẽ được chuyển đổi. Biến thời gian (time-variant):  Yêu cầu quan trong cho kho dữ liệu là phạm vi về thời gian dài hơn so với các hệ thống tác nghiệp. – Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị hiện thời. – Dữ liệu của kho dữ liệu: cung cấp thông tin lịch sử (ví dụ như, 5-10 năm trước).  Yếu tố thời gian được lưu trữ trong CSDL Bền vững (non-volatile):  Là một lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác nghiệp.  Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu. – Không yêu cầu các cơ chế xử lý giao dịch, phục hồi và điều khiển tương tranh. – Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: Nạp dữ liệu và truy cập dữ liệu. 2.2. Đặc tính của kho dữ liệu Trước hết ta tìm hiểu khái niệm về vùng chủ đề (Subject Area – SA): một SA là một chủ đề được tách ra từ tập hợp lớn các chủ đề mà người sử dụng cuối quan tâm trong một lĩnh vực tác nghiệp cụ thể nào đó. Những đặc điểm cơ bản của DWH:  Tính tích hợp Khái niệm tích hợp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất. Một kho dữ liệu là một khung nhìn tổng thể thống nhất các khung nhìn khác nhau. Ví dụ: một hệ thống tác nghiệp như bán hàng hoặc tiếp thị có thể có chung một dạng thông tin về khách hàng, nhưng các vấn đề về tài chính cần một khung nhìn khác cho thông tin về khách hàng. Một kho sẽ có một khung nhìn toàn thể về một khách hàng. Khung nhìn đó bao gồm các phần dữ liệu khác nhau từ các hệ thống tác nghiệp khác nhau.  Gắn thời gian Mỗi bản ghi của kho dữ liệu chứa một yếu tố thời gian như một phần của khóa chính để bảo đảm tính duy nhất của mỗi bản ghi và cung cấp một đặc trưng về thời gian cho dữ liệu. Toàn bộ 17 dữ liệu trong kho được tạo ra và gắn liền với một giá trị thời gian nhất định.  Có tính lịch sử Các thông tin trong kho dữ liệu được tập trung theo thời gian và thể hiện một khung nhìn của một chủ đề trong một giai đoạn.  Chỉ đọc Dữ liệu trong kho là dữ liệu chỉ đọc và chỉ có thể tra cứu, không được sửa đổi bởi người sử dụng cuối.  Không biến động Tính không biến động của kho dữ liệu được hiểu theo nghĩa: dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xóa, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo.  Dữ liệu tổng hợp và chi tiết Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu. Dữ liệu tác nghiệp chính là thông tin mức thấp nhất. Dữ liệu tổng hợp được tích hợp lại qua nhiều giai đoạn khác nhau. 2.3. Kho dữ liệu và các cơ sở dữ liệu DWH về bản chất cũng là một database bình thường, các hệ quản trị cơ sở dữ liệu quản lý và lưu trữ nó như các database thông thường (tuy nhiên có hỗ trợ thêm về quản lý dữ liệu lớn và truy vấn). Thực ra nét khác biệt của DWH so với database là ở quan niệm, cách nhìn vấn đề: - Trước tiên DWH là database rất lớn (very large database-VLDB). - Database hướng về xử lý thời gian thực, DWH hướng về tính ổn định. - Database phục vụ xử lý transaction, cập nhật. Datawarehouse thường chỉ đọc, phục vụ cho những nhu cầu báo cáo. VD: Chúng ta sẽ yêu cầu hãy cho biết trong 5 năm, bộ phận phần mềm đã làm được những dự án nào từ đó chúng ta sẽ có quyết định về hiệu năng của nhóm này. - DWH sẽ lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQLserver thậm chí cả File thông thưởng rồi làm sạch chúng và đưa vào cấu trúc của nó-đó là VLDB(very large database). DWH rất lớn nên muốn cho từng bộ phận chuyên biệt người sử dụng cuối cùng có thể khai thác thông dễ dàng thì bản thân DWH phải được chuyên hoá, phân ra thành những chủ đề, do đó những chủ đề chuyên môn hóa đó tạo thành một Database chuyên biệt-đó là Data mart. VD: DWH của Microsoft là rất lớn, trong một núi thông tin đó làm sao khai thác? Vì thế có rất nhiều Data mart về kinh doanh, tiếp thị, kỹ thuật, testing,…. Có một điểm lưu ý ở đây là có một công cụ hay đúng hơn là một chuẩn công cụ mà mọi hệ quản trị Database hỗ trợ cho việc truy vấn thông tin 18 trong Datamart rồi đưa ra những quyết định, nhận dịnh những thông tin trong Datamart - Đó là OLAP, bộ phân tích trực tuyến. - Một điểm quan trọng là Database thường được chuẩn hóa (Dạng chuẩn 1, 2, 3, BCK) để khai thác. DWH phải phi chuẩn hoá rồi sau đó có thể chuẩn hoá theo start chema trong Data mart, điều này đồng nghĩa vớI việc DWH sẽ trùng lắp thông tin. Thật ra điều này theo tôi nghĩ là hiển nhiên vì việc chuẩn hoá nhằm tránh sự trùng lắp thông tin, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá, sửa, tuy nhiên DWH là Database rất lớn phục vụ cho báo cáo, truy vấn chỉ đọc nên việc trùng lắp thông tin sẽ giúp thao tác tìm kiếm sẽ nhanh hơn. Đây cũng là một quy luật: Càng trùng lắp thông tin thì tìm kiếm càng dễ dàng và ngược lại. 2.4. Lợi ích của kho dữ liệu Tạo ra những quyết định có ảnh hưởng lớn: Một DWH cho phép trích rút tài nguyên nhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các báo cáo dựa vào cơ sở dữ liệu hoạt động và sản xuất. Điều này tạo ra sự tiết kiệm đáng kể. Có kho dữ liệu cũng trích rút tài nguyên khan hiếm của hệ thống sản xuất khi thực thi một chương trình quá lâu hoặc các báo cáo và các câu truy vấn phức hợp. Công việc kinh doanh trở nên thông minh hơn: Tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa tầng của kho dữ liệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết của công việc kinh doanh cho đến mức độ cao hơn - mức độ tổng quát. Đảm bảo được dữ liệu chính xác và đáng tin cậy do đảm bảo được là trong kho dữ liệu chỉ chứa duy nhất dữ liệu có chất lượng cao và ổn định (trusted data). Dịch vụ khách hàng được nâng cao: Một doanh nghiệp có thể giữ gìn mối quan hệ với khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách hàng qua một kho dữ liệu riêng. Tái sáng tạo những tiến trình kinh doanh: Sự cho phép phân tích không ngừng thông tin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương thức kinh doanh do đó có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra những tiến trình này lại. Chỉ khi xác định chính xác các nhu cầu từ kho dữ liệu thì mới giúp ta đánh giá được những hạn chế và mục tiêu kinh doanh một cách chính xác hơn. Tái sáng tạo hệ thống thông tin: Một DWH là nền tảng cho các yêu cầu dữ liệu trong mọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là đưa ra thói quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều hành theo chuẩn quốc tế. 2.5. Kho dữ liệu hiện nay Ngày nay, hầu hết các kho dữ liệu đang được dùng cho quản trị doanh nghiệp thông minh làm tăng mối quan hệ khách hàng (CRM - Customer Relationship
- Xem thêm -

Tài liệu liên quan