Tài liệu Nghiên cứu xây dựng nội dung, cấu trúc hệ thống cơ sở dữ liệu thống kê kinh tế xã hội tổng hợp quốc gia

  • Số trang: 25 |
  • Loại file: PDF |
  • Lượt xem: 155 |
  • Lượt tải: 0
okyeuniterd

Tham gia: 20/08/2016

Mô tả:

ĐỀ TÀI KHOA HỌC SỐ: 2.1.3-TC05-06 NGHIÊN CỨU, XÂY DỰNG NỘI DUNG, CẤU TRÚC CƠ SỞ DỮ LIỆU THỐNG KÊ KINH TẾ - XÃ HỘI TỔNG HỢP QUỐC GIA 1. Cấp đề tài : Tổng cục 2. Thời gian nghiên cứu : 2005-2006 3. Đơn vị chủ trì : Vụ thống kê Tổng hợp 4. Đơn vị quản lý : Viện Khoa học Thống kê 5. Chủ nhiệm đề tài : CN. Nguyễn Thị Ngọc Vân 6. Những ngƣời phối hợp nghiên cứu: KS. Phạm Thị Thanh TS. Trần Kim Đồng CN. Phạm Huy Tú TS. Thiều Văn Tiến CN. Nguyễn Thị Chiến 7. Điểm đánh giá nghiệm thu đề tài: 8,75 / Xếp loại: Khá 45 PHẦN I MỘT SỐ VẤN ĐỀ CHUNG VỀ CSDL TỔNG HỢP I. Một số khái niệm 1. Dữ liệu Trong máy tính, thuật ngữ dữ liệu đƣợc xem nhƣ là các sự kiện đƣợc biết đến mà có thể ghi lại và lƣu trữ trên các thiết bị ghi nhớ của máy tính. Dữ liệu tạo nên nội dung của cơ sở dữ liệu, tuy nhiên nó không quyết định tính hiệu quả của cơ sở dữ liệu vì tính hiệu quả đƣợc thể hiện qua việc thiết kế và khai thác cơ sở dữ liệu. 2. Cơ sở dữ liệu Có thể định nghĩa cơ sở dữ liệu nhƣ là một bộ sƣu tập có tổ chức của các dữ liệu liên quan logic với nhau và đƣợc các hệ ứng dụng của một tổ chức cụ thể nào đó sử dụng. 3. Cơ sở dữ liệu thống kê kinh tế - xã hội Cơ sở dữ liệu thống kê kinh tế - xã hội là tập hợp có tổ chức các dữ liệu về kinh tế và xã hội có liên quan với nhau, đƣợc cập nhật và lƣu trữ một cách hợp lý trong c¸c ph-¬ng tiÖn mang tin ®iÖn tö vµ m¹ng tin häc sao cho c¸c ch-¬ng tr×nh m¸y tÝnh cã thÓ trî gióp ngƣời sử dụng khai th¸c c¸c th«ng tin tõ c¬ së d÷ liÖu nµy mét c¸ch dÔ dàng. Cơ sở dữ liệu thống kê kinh tế - xã hội gồm cơ sở dữ liệu thống kê kinh tế - xã hội vi mô và cơ sở dữ liệu thống kê kinh tế - xã hội vĩ mô. 4. Cơ sở dữ liệu thống kê kinh tế - xã hội tổng hợp Cơ sở dữ liệu thống kê kinh tế - xã hội tổng hợp là tập hợp những thông tin kinh tế - xã hội theo thời gian, đơn vị hành chính đã đƣợc tổng hợp từ kết quả các cuộc điều tra thống kê mẫu, điều tra thống kê toàn bộ, tổng điều tra thống kê; các báo cáo thống kê và c¸c nguån thu thập khác. Những thông tin này đƣợc nhập, lƣu trữ và đƣợc tổ chức một cách hợp lý trong các phƣơng tiện mang tin điện tử, mạng tin học. 5. Cơ sở dữ liệu thống kê kinh tế - xã hội tổng hợp quốc gia Cơ sở dữ liệu thống kờ kinh tế - xã hội tổng hợp quốc gia là tập hợp những dữ liệu thống kê kinh tế - xã hội tổng hợp trên phạm vi cả nƣớc do ngành Thống kê xây dựng. Những dữ liệu này đƣợc chuẩn hoá, cập nhật và lƣu trữ một cách hợp lý trong các phƣơng tiện mang tin điện tử, mạng tin học 46 sao cho các chƣơng trình máy tính có thể trợ giúp ngƣời sử dụng đã đƣợc phân quyền truy nhập khai thác một cách dễ dàng, thuận tiện các thông tin theo yêu cầu, mục đích riêng. 6. Các bảng danh mục + Bảng danh mục đơn vị hành chính + Bảng phân ngành kinh tế quốc dân + Bảng danh mục sản phẩm + Bảng danh mục nghề nghiệp + Bảng danh mục giáo dục, đào tạo + Bảng danh mục dân tộc Việt Nam. PHẦN II ĐỀ XUẤT NỘI DUNG VÀ CẤU TRÚC CSDL TỔNG HỢP I. Một số nguyên tắc xây dựng CSDL tổng hợp Vì CSDL tổng hợp là sản phẩm cuối cùng của ngành Thống kê đƣợc ứng dụng công nghệ tin học tuyệt đối ở tất cả các bƣớc: Nhập dữ liệu, kiểm tra dữ liệu, quản lý dữ liệu, khai thác dữ liệu, ngƣời dùng tin sẽ sử dụng những dữ liệu khai thác đƣợc từ CSDL tổng hợp để phục vụ mục đích nghiên cứu riêng của mỗi đối tƣợng nên quá trình xây dựng CSDL tổng hợp phải đảm bảo một số nguyên tắc sau đây: 1. CSDL tổng hợp phải đáp ứng tốt nhất nhu cầu của người sử dụng thông tin thống kê Nhu cầu thông tin của các đối tƣợng cũng đa dạng và phong phú hơn, điều này đòi hỏi ngƣời phổ biến thông tin phải nhanh chóng tiếp cận và ứng dụng tiến bộ của công nghệ thông tin vào công tác phổ biến thông tin để ngƣời sử dụng có thể tiếp cận đƣợc với thông tin một cách nhanh nhất và tiện lợi nhất. Một số loại thông tin thống kê chủ yếu sau đây đƣợc ngƣời dùng tin quan tâm: + Thông tin tổng hợp vĩ mô + Thông tin tháng, quý, năm + Thông tin chuyên ngành + Thông tin khác. 47 2. CSDL phải mang tính đồng bộ và toàn diện Tính toàn diện thể hiện ở chỗ CSDL tổng hợp phải bao gồm những chỉ tiêu liên quan đến các hoạt động kinh tế - xã hội chủ yếu đang diễn ra trong nền kinh tế. Tính đồng bộ của CSDL tổng hợp chính là mối liên hệ, sự kết nối giữa số liệu các chỉ tiêu với những dữ liệu có liên quan đến chỉ tiêu để làm rõ hơn về chỉ tiêu và số liệu của chỉ tiêu nhƣ: khái niệm/định nghĩa, nguồn số liệu…, này đƣợc để trong các metadata của CSDL tổng hợp. 3. CSDL phải mang tính kịp thời Dữ liệu trong CSDL tổng hợp phải đƣợc cập nhật thƣờng xuyên, liên tục, tránh sự trậm trễ làm cho dữ liệu bị lạc hậu. Tính kịp thời còn đòi hỏi mọi sự thay đổi, điều chỉnh có liên quan đến dữ liệu phải đƣợc thể hiện ngay trong CSDL tổng hợp. 4. CSDL phải đáp ứng khả năng truy cập Nguyên tắc này đòi hỏi hệ quản trị CSDL phải đảm bảo hệ thống hoạt động thƣờng xuyên, tránh tình trạng ngƣời sử dụng không truy cập đƣợc vào bất kỳ một bảng nào của CSDL 5. CSDL phải khả thi CSDL tổng hợp mang tính khả thi thể hiện ở những yếu tố sau đây có khả thi hay không: - Yếu tố cơ sở vật chất kỹ thuật; - Yếu tố con ngƣời; - Kinh phí cũng là một nhân tố quan trọng quyết định CSDL tổng hợp đƣợc triển khai nhanh hay chậm và có đảm bảo chất lƣợng tối ƣu hay không. II. Nội dung và đối tƣợng sử dụng CSDL tổng hợp 1. Nội dung 1.1 Hệ thống các chỉ tiêu Nội dung chính của CSDL tổng hợp là những thông tin liên quan đến hệ thống các chỉ tiêu thống kê, vì vậy các chỉ tiêu này phải đƣợc lựa chọn sao cho đảm bảo các nguyên tắc đã đƣợc đề cập trên đây. Hiện nay, Hệ thống chỉ tiêu thống kê quốc gia đƣợc Thủ tƣớng Chính phủ phê duyệt và ban hành 48 theo Quyết định số 305/2005/QĐ-TTg ngày 24 tháng 11 năm 2005 là hệ thống chỉ tiêu thống kê đầy đủ nhất mang tính pháp lý có thể đáp ứng tốt nhất nhu cầu của ngƣời sử dụng thông tin thống kê. Hệ thống chỉ tiêu thống kê quốc gia gồm 24 nhóm với 381 chỉ tiêu: (1) Nhóm chỉ tiêu về đất đai, khí hậu, hành chính 8 chỉ tiêu; (2) Nhóm chỉ tiêu về dân số 15 chỉ tiêu; (3) Nhóm chỉ tiêu về lao động, việc làm 15 chỉ tiêu; (4) Nhóm chỉ tiêu về cơ sở kinh tế, hành chính, sự nghiệp 15 chỉ tiêu; (5) Nhóm chỉ tiêu về đầu tƣ 12 chỉ tiêu; (6) Nhóm chỉ tiêu về tài khoản quốc gia 14 chỉ tiêu; (7) Nhóm chỉ tiêu về tài chính công 7 chỉ tiêu; (8) Nhóm chỉ tiêu về tiền tệ, chứng khoán 13 chỉ tiêu; (9) Nhóm chỉ tiêu về bảo hiểm 8 chỉ tiêu; (10) Nhóm chỉ tiêu về nông, lâm nghiệp và thủy sản 22 chỉ tiêu; (11) Nhóm chỉ tiêu về công nghiệp và xây dựng 10 chỉ tiêu; (12) Nhóm chỉ tiêu về thƣơng mại 16 chỉ tiêu; (13) Nhóm chỉ tiêu về giá cả 8 chỉ tiêu; (14) Nhóm chỉ tiêu về du lịch 7 chỉ tiêu; (15) Nhóm chỉ tiêu về giao thông, vận tải 20 chỉ tiêu; (16) Nhóm chỉ tiêu về bƣu chính viễn thông 8 chỉ tiêu; (17) Nhóm chỉ tiêu về khoa học công nghệ 10 chỉ tiêu; (18) Nhóm chỉ tiêu về giáo dục và đào tạo 57 chỉ tiêu; (19) Nhóm chỉ tiêu về y tế và chăm sóc sức khoẻ 26 chỉ tiêu; (20) Nhóm chỉ tiêu về văn hoá, thông tin, thể thao 36 chỉ tiêu; (21) Nhóm chỉ tiêu về mức sống dân cƣ 14 chỉ tiêu; (22) Nhóm chỉ tiêu về trật tự, an toàn xã hội và tƣ pháp 13 chỉ tiêu; (23) Nhóm chỉ tiêu về bảo vệ môi trƣờng 20 chỉ tiêu; (24) Nhóm chỉ tiêu về tiến bộ phụ nữ 7 chỉ tiêu. Trong CSDL tổng hợp, mỗi chỉ tiêu đều có những phân tổ, kỳ công bố cũng nhƣ nguồn thu thập phù hợp với nội dung của từng chỉ tiêu (chi tiết xem trong báo cáo kết quả đề tài). 1.2. Hệ thống các bảng danh mục, bảng phân loại Bất kỳ một hệ thống tin học hóa nào cũng bao gồm một loạt các danh mục có liên quan để mọi dữ liệu trong CSDL của hệ thống trở nên có ý nghĩa. CSDL các bảng danh mục, bảng phân loại gồm toàn bộ các bảng danh mục có liên quan đến phân tổ của các chỉ tiêu nhƣ: Bảng danh mục các đơn vị hành chính; bảng danh mục dân tộc; bảng danh mục hàng hoá xuất, nhập khẩu; bảng danh mục sản phẩm; bảng phân ngành kinh tế quốc dân... Hệ thống các bảng danh mục, bảng phân loại đƣợc mã hóa có vai trò rất quan trọng trong việc thu thập thông tin, xử lý thông tin, liên kết và chia sẻ thông tin. 49 1.3. Hệ thống các metadata (Thông tin siêu dữ liệu) CSDL metadata lƣu trữ những thông tin rất cần thiết cho ngƣời khai thác CSDL tổng hợp, nội dung CSDL này gồm những khái niệm; định nghĩa; phƣơng pháp tính từng chỉ tiêu thống kê; nguồn thu thập dữ liệu; thực trạng dữ liệu (Chính thức hay sơ bộ/ƣớc tính); thời điểm thay đổi đơn vị hành chính, trong đó có sự xác định những thay đổi địa giới các tỉnh theo thời gian. Từ CSDL này, ngƣời sử dụng có thể xác định đƣợc thời gian tồn tại, thời điểm tách/nhập của các tỉnh; thời điểm thay đổi các bảng danh mục, bảng phân loại; nguyên nhân điều chỉnh số liệu… Những thông tin này giúp ngƣời dùng tin hiểu đầy đủ và chính xác hơn về nội dung, phạm vi cũng nhƣ phƣơng pháp tính của mỗi chỉ tiêu. 2. Đối tượng sử dụng CSDL tổng hợp 2.1. Nhóm người khai thác dữ liệu trong CSDL 2.2. Nhóm người quản trị và cập nhật dữ liệu cho CSDL tổng hợp. III. Cấu trúc, chức năng của CSDL tổng hợp 1. Cấu trúc 1.1. Yêu cầu của cấu trúc a. Xây dựng hệ thống mở Xây dựng hệ thống mở cho CSDL tổng hợp là một yêu cầu cần thiết và gồm những nội dung sau: - Mở về số lƣợng các chỉ tiêu - Mở về các bảng danh mục, bảng phân ngành kinh tế. b. Kết nối với các bảng danh mục, bảng phân loại và CSDL siêu dữ liệu - metadata c. Đảm bảo các nhu cầu của ngƣời sử dụng - Ngƣời sử dụng CSDL tổng hợp trích xuất đƣợc dữ liệu một cách linh hoạt, mềm dẻo trên những dữ liệu đã có trong CSDL tổng hợp. - Thực hiện một số tính toán thông dụng trên dữ liệu có trong CSDL tổng hợp nhƣ tính tổng, tính hiệu, tính cơ cấu, tính tốc độ phát triển, tính số trung bình, v.v... - Đƣa những dữ liệu đã trích xuất và tính toán từ CSDL tổng hợp vào môi trƣờng làm việc mà họ đang sử dụng, ví dụ nhƣ bảng tính MS Excel trên cơ sở định dạng của dữ liệu đƣa ra đảm bảo đƣợc yêu cầu cho việc nhập vào trong các môi trƣờng khác. 50 - Ngƣời sử dụng có đƣợc thông tin về nguyên nhân của sự thay đổi dữ liệu của chỉ tiêu. - Minh họa số liệu thống kê bằng các loại đồ thị thông dụng. - Truy nhập đƣợc thông tin về khái niệm, định nghĩa, phƣơng pháp tính các chỉ tiêu, phạm vi số liệu, chu kỳ số liệu. - Ngƣời sử dụng có thể khai thác CSDL tổng hợp thông qua ngôn ngữ tiếng Việt và tiếng Anh. 1.2. Cấu trúc của CSDL tổng hợp Để thoả mãn những yêu cầu trên đây, cấu trúc của CSDL tổng hợp phải đƣợc thiết kế sao cho phù hợp nhất, đảm bảo tính ổn định và linh hoạt, không bị thay đổi khi có sự điều chỉnh bất cứ một dữ liệu nào trong hệ thống chỉ tiêu cũng nhƣ trong các bảng danh mục, các bảng phân loại của CSDL, tạo điều kiện thuận lợi cho ngƣời sử dụng. Trong thực tế, ngƣời ta thƣờng chia các CSDL thành 03 loại: CSDL vĩ mô, CSDL vi mô và CSDL các chỉ tiêu. Trong đó, cấu trúc của CSDL vi mô và CSDL vĩ mô đều không thoả mãn những yêu cầu đƣợc đề cập trên đây. Sau đây chúng ta sẽ nghiên cứu 02 cấu trúc chủ yếu nhất để trên cơ sở đó chọn lựa 01 cấu trúc tối ƣu nhất: Cấu trúc 1: Số liệu các chỉ tiêu được tổ chức thành các bảng ba chiều: + Một chiều là các chỉ tiêu; + Một chiều là các đơn vị hành chính; + Một chiều là thời gian. Với các hệ thống ứng dụng khác nhau, cấu trúc trên có thể xoay quanh trục ba chiều trên. Tuy nhiên, cách tổ chức này có một số bất cập sau: Một là, hệ thống các chỉ tiêu thống kê tổng hợp có định kỳ cung cấp khác nhau cho mỗi chỉ tiêu (tháng, quý, năm, 2 năm….); nhiều chỉ tiêu trƣớc mắt chƣa thu thập đƣợc số liệu và do vậy trong bảng số liệu trên sẽ có nhiều ô trống. Hai là, trong CSDL tổng hợp, số liệu đƣợc thu thập từ rất nhiều nguồn, ví dụ chỉ tiêu dân số có năm đƣợc thu thập từ tổng điều tra dân số, có năm đƣợc thu thập từ điều tra mẫu hay số dự báo, ƣớc tính. Thông tin về nguồn thu thập từ đâu là rất quan trọng đối với ngƣời sử dụng dữ liệu. Vì vậy, với cấu trúc trên, nếu mỗi nguồn dữ liệu ứng với mỗi bảng, mỗi dòng hay mỗi chỉ tiêu thì có thể giải quyết đƣợc, nhƣng trong thực tế thì có trƣờng hợp một số ô trong các bảng trên có thể ứng với các nguồn thu thập khác nhau và nhƣ 51 vậy khó có thể đƣa ra cách tổ chức hợp lý nào cho việc lƣu thông tin về nguồn dữ liệu cho mỗi ô của bảng. Ba là, vì mỗi phân tổ của chỉ tiêu chỉ có thể đƣa về thành các chỉ tiêu nên cách tổ chức dữ liệu theo bảng này không đáp ứng đƣợc yêu cầu hệ thống mở. Cấu trúc 2: Với cấu trúc này thì bảng dữ liệu là bảng chính trong CSDL tổng hợp sẽ gồm các cột sau: + Mã chỉ tiêu + Mã đơn vị hành chính + Mã thời gian + Mã bảng danh mục phân tổ + mã số trong danh mục + Mã nguồn + Dữ liệu CSDL tổng hợp này chỉ gồm một bảng dữ liệu, hoặc cũng có thể chia thành nhiều bảng cho từng năm, từng loại thời kỳ… Bảng dữ liệu này đƣợc liên kết với các bảng thuộc nhóm siêu dữ liệu nhƣ: Các bảng danh mục; bảng phân ngành; định nghĩa, giải thích, cách tính toán chỉ tiêu, thay đổi địa giới các tỉnh… Nhƣ vậy, số liệu trong CSDL tổng hợp quốc gia là các chỉ số kinh tế - xã hội từ nhiều nguồn số liệu khác nhau, là số liệu của các chỉ tiêu mà không phải là số liệu của bảng biểu. Ở đây, các chỉ tiêu đƣợc phân chia thành các phân tổ nhỏ theo từng cấp để dễ dàng cho việc lựa chọn chỉ tiêu mong muốn, có thể sử dụng chính cách phân loại các chỉ tiêu trong hệ thống chỉ tiêu thống kê quốc gia để tổ chức phân loại chỉ tiêu trong hệ thống này. Trong hệ thống này, những giải thích về từng chỉ tiêu (Khái niệm, định nghĩa và phƣơng pháp tính) là rất cần thiết cho ngƣời sử dụng số liệu. Các thông tin giải thích này đƣợc để riêng trong một bảng của CSDL và chức năng khai thác dữ liệu cho phép ngƣời sử dụng lấy thông tin siêu dữ liệu này đồng thời với việc chiết xuất dữ liệu của các chỉ tiêu. Cấu trúc các bảng trong CSDL tổng hợp cụ thể nhƣ sau:  Bảng số liệu Đây là bảng chính, bảng trung tâm của CSDL tổng hợp gồm những số liệu của các chỉ tiêu, toàn bộ dữ liệu của các chỉ tiêu kinh tế - xã hội đƣợc lƣu trữ trong một bảng vật lý của cơ sở dữ liệu có tên là Solieu. Bảng dữ liệu này đƣợc liên kết với các bảng thuộc nhóm siêu dữ liệu: Các bảng phân loại, bảng danh mục, bảng phân tổ… 52  Bảng danh mục chỉ tiêu Bảng này chứa danh sách (Mã và tên) của các chỉ tiêu, bao gồm cả các phân nhóm của chỉ tiêu. Các mã nhóm, lớp dùng để phân loại các chỉ tiêu trong hệ thống theo các nhóm. Các chỉ tiêu con thực chất cũng là một chỉ tiêu, đƣợc lƣu trữ hoàn toàn giống với một chỉ tiêu nhƣng là một phân tổ nhỏ của chỉ tiêu.  Bảng danh mục loại chỉ tiêu Bảng này liên quan trực tiếp đến bảng danh mục chỉ tiêu, đƣợc dùng để xác định mỗi dòng trong bảng danh mục chỉ tiêu là một chỉ tiêu cụ thể, một chỉ tiêu con hay chỉ là tên cho một nhóm chỉ tiêu.  Bảng giải thích Những thông tin giải thích cho các chỉ tiêu đƣợc thể hiện trong bảng này, gồm toàn bộ các giải thích: Khái niệm, định nghĩa, phƣơng pháp tính cho từng chỉ tiêu.  Bảng danh mục loại số liệu Trong bảng này, số liệu của chỉ tiêu đƣợc giải thích rõ là số ƣớc tính, sơ bộ hay chính thức.  Bảng danh mục đơn vị hành chính Bảng này mô tả tên đơn vị hành chính, năm bắt đầu sử dụng danh mục đơn vị hành chính, năm kết thúc sử dụng danh mục đơn vị hành chính, trạng thái của danh mục đơn vị hành chính…  Bảng thay đổi danh mục đơn vị hành chính Xây dựng bảng này nhằm xác định những thay đổi địa giới các đơn vị hành chính theo thời gian. Từ bảng này có thể xác định đƣợc một tỉnh đã tồn tại từ năm nào đến năm nào, trƣớc đó đƣợc thành lập bằng cách tách ra từ tỉnh nào, nếu hiện không còn tồn tại nữa thì nó đã đƣợc sát nhập vào tỉnh nào và khi nào. 2. Chức năng CSDL tổng hợp theo kết cấu trên có các chức năng cơ bản sau đây: 2.1. Quản lý danh mục hệ thống chỉ tiêu 2.2. Quản lý thông tin mô tả chỉ tiêu thống kê quốc gia 2.3. Quản lý thông tin về các bảng phân loại 2.4. Quản lý số liệu các chỉ tiêu 2.5. Khai thác dữ liệu 2.6. Quản trị hệ thống 53 IV. Lựa chọn giải pháp phần mềm 1. Yêu cầu Giải pháp phần mềm xây dựng CSDL tổng hợp phải đảm bảo các yêu cầu sau:  Đảm bảo tính mở của cấu trúc CSDL tổng hợp  Đảm bảo độ tin cậy, tính xác thực của dữ liệu trong CSDL tổng hợp.  Đảm bảo tính an toàn thông qua việc quản lý quyền truy nhập và các biện pháp đảm bảo an ninh mạng và an ninh CSDL tổng hợp.  Chƣơng trình ứng dụng phải phát triển trên môi trƣờng đơn giản, tiện lợi cho nhiều ngƣời có thể sử dụng đƣợc.  Các ứng dụng khai thác dữ liệu phải đảm bảo tính mềm dẻo, cho phép ngƣời sử dụng lựa chọn dữ liệu theo mục đích của họ. 2. Lựa chọn phần mềm nhập dữ liệu Dữ liệu đầu vào của CSDL tổng hợp là dữ liệu của rất nhiều chuyên ngành/lĩnh vực khác nhau, vì vậy chúng là đầu ra của rất nhiều phần mềm khác nhau, hoặc cũng có thể đó là các thông tin đƣợc trình bầy trên các báo cáo bằng giấy nhƣ báo cáo vốn đầu tƣ thực hiện của các doanh nghiệp Nhà nƣớc; báo cáo văn hoá, y tế, giáo dục; báo cáo của các địa phƣơng…với những cách tổ chức và khuôn mẫu hoàn toàn không giống nhau. Do đó phải tìm một giải pháp chung phù hợp để cập nhật các loại thông tin khác nhau cho hệ CSDL này. Sau đây chúng ta sẽ phân tích những ƣu điểm của 03 giải pháp chủ yếu và những khó khăn khi áp dụng để từ đó lựa chọn giải pháp tối ƣu nhất: Giải pháp thứ nhất: Khi các thông tin tổng hợp đƣợc tính toán trong các hệ thống xử lý/các phần mềm khác thì các chỉ tiêu cần thiết sẽ tự động đƣợc chọn lọc và chuyển thẳng vào CSDL tổng hợp. Cách thức cập nhật dữ liệu này là giải pháp tốt nhất nhƣng bị phụ thuộc vào các hệ thống xử lý khác đã đƣợc tin học hóa đến mức độ nào, có chức năng chuyển đổi, cập nhật dữ liệu vào CSDL tổng hợp hay chƣa. Chính vì vậy, giải pháp này không phù hợp để cập nhật dữ liệu cho CSDL tổng hợp trong điều kiện dữ liệu hiện nay của ngành Thống kê. Giải pháp thứ hai: Hệ thống CSDL tổng hợp có chức năng đọc dữ liệu từ một tệp dữ liệu có cấu trúc chuẩn và cập nhật dữ liệu cần thiết vào CSDL tổng hợp. Ở cách cập nhật này, mức độ tự động thấp hơn so với cách thứ nhất, nhƣng nó có thể đáp ứng cho cả những chỉ tiêu chƣa đƣợc tin học hóa việc xử lý mà đƣợc tính toán bằng phần mềm nhƣ EXCEL hay một số phần mềm tính 54 toán khác. Việc thiết kế và lập chƣơng trình để đọc dữ liệu từ một tệp chuẩn và chuyển vào CSDL tổng hợp không khó nhƣng tệp dữ liệu lại phải rất chuẩn xác. Khó khăn ở đây chính là dữ liệu cần thu thập cho CSDL tổng hợp rất đa dạng nên việc tạo ra các tệp EXCEL chuẩn xác không hề đơn giản, tốn kém công sức. Đây chính là nguyên nhân làm cho giải pháp cập nhật này không hiệu quả và không đƣợc chọn để ứng dụng cho CSDL tổng hợp. Giải pháp thứ ba: là giải pháp đƣợc coi là khả thi nhất hiện nay, theo giải pháp này thì dữ liệu đƣợc cập nhật từ bàn phím, đây là cách nhập truyền thống, một thuận lợi cơ bản khi thực hiện giải pháp này là hiện nay phần lớn các thông tin thống kê tổng hợp đều đã nằm ở dạng các tệp dữ liệu văn bản/bảng tính điện tử, vì vậy modun nhập dữ liệu từ bàn phím chỉ cần đƣợc thiết kế sao cho đảm bảo tính linh hoạt, giúp ngƣời nhập dữ liệu có thể tạo ra các form bảng/biểu xoay đƣợc nhiều chiều và thứ tự các dòng/cột không cứng nhắc đúng nhƣ trong danh mục các phân loại mà nguợc lại, ngƣời nhập dữ liệu có thể thay đổi thứ tự này hoặc chỉ lựa chọn một phần các dòng/cột cần thiết, nhờ vậy họ có thể “copy” dữ liệu từ môi trƣờng bên ngoài và dán vào “form” nhập liệu thay vì phải gõ lại vừa tốn kém công sức vừa dễ sai sót. 3. Lựa chọn phần mềm khai thác dữ liệu Việc khai thác CSDL tổng hợp của ngƣời sử dụng thông tin thống kê trong và ngoài nƣớc sẽ đƣợc thực hiện qua mạng Internet thông qua chƣơng trình ứng dụng trên Web, đây là giải pháp đơn giản và hiệu quả nhất hiện nay. Trong chƣơng trình ứng dụng này, dựa trên những giao diện đơn giản, ngƣời sử dụng có thể trích xuất dữ liệu mà họ cần từ CSDL tổng hợp. Chƣơng trình ứng dụng trong môi trƣờng Web này cho phép ngƣời sử dụng thực hiện đƣợc những mục đích sau đây: 3.1. Tra cứu thông tin theo từng chỉ tiêu 3.2. Tra cứu thông tin theo chiều phân tổ 3.3. Tính toán trên số liệu đã chọn 3.4. Xoay chiều biểu số liệu 3.5. Chuyển biểu số liệu ra các định dạng khác 3.6. Lập biểu đồ từ số liệu đã trích xuất 3.7. Kết nối với các bảng danh mục và các metadata liên quan đến các dữ liệu về giải thích, định nghĩa, khái niệm và cách tính các chỉ tiêu, nguồn dữ liệu và những thay đổi của dữ liệu. 55 V. Giải pháp bảo mật an toàn 1. Giải pháp bảo mật kho dữ liệu Đối với một hệ thống, kho dữ liệu cần đƣợc bảo vệ gồm: Hệ thống phần cứng (Máy chủ kho dữ liệu); hệ thống mạng (Hệ thống mạng LAN tại TCTK và mạng WAN ngành Thống kê); CSDL của các kho dữ liệu. Việc xây dựng hệ thống an toàn bảo mật dữ liệu cho các kho dữ liệu cần đảm bảo những nguyên tắc sau đây: - Đảm bảo bí mật của thông tin: Hệ thống bảo mật phải bảo đảm thông tin trong hệ thống không đƣợc phổ biến khi không đƣợc phép. - Đảm bảo sự thống nhất, toàn vẹn của thông tin: Tránh đƣợc việc sửa đổi trái phép thông tin. - Đảm bảo khả năng hiệu lực: Có thể khởi động khi hệ thống cần. - Khả năng xác nhận tính hợp lệ: Có khả năng xác định tính hợp lệ của ngƣời sử dụng, của hệ thống.... - Đảm bảo khả năng thừa nhận: Đảm bảo rằng thông tin đã đƣợc gửi đi và thông tin đã đƣợc đọc - Có khả năng kiểm soát truy nhập: Đảm bảo chỉ những ngƣời đƣợc phép mới có quyền truy nhập thông tin. 2. Giải pháp an toàn bảo mật Để đảm bảo sự an toàn bảo mật cho hệ thống kho dữ liệu của CSDL tổng hợp, một hệ thống các giải pháp sau đây sẽ đƣợc xây dựng: - Giải pháp chống truy nhập bất hợp pháp - Giải pháp bảo vệ hệ thống phần cứng - Giải pháp bảo mật hệ điều hành - Giải pháp bảo mật phần mềm ứng dụng - Giải pháp bảo mật CSDL tổng hợp - Giải pháp kiểm soát nội dung thông tin trên mạng - Giải pháp phân quyền ngƣời sử dụng - Giải pháp mã hoá dữ liệu. 56 3. Giải pháp bảo mật CSDL tổng hợp - Bảo mật CSDL tổng hợp nhằm chống việc sao chép hoặc sửa đổi dữ liệu một cách bất hợp pháp của ngƣời sử dụng hệ thống. - Giải pháp phân quyền ngƣời sử dụng: Phân quyền ngƣời sử dụng theo nhiều mức. 4. An toàn bảo mật trong các hệ thống ứng dụng Để ngăn cản sự mất mát, điều chỉnh hoặc lạm dụng dữ liệu ngƣời dùng trong hệ thống ứng dụng, cần phải thiết kế xây dựng các biện pháp kiểm soát và lƣu dấu vết hoặc ghi nhật ký các hoạt động vào trong các hệ thống ứng dụng, bao gồm những ứng dụng do chính ngƣời dùng viết, điều này đòi hỏi phải xác thực dữ liệu đầu vào, quá trình xử lý bên trong và dữ liệu đầu ra, đây là vấn đề cần đƣợc xác định rõ ràng dựa trên yêu cầu bảo mật và phân tích các rủi ro. 5. An toàn bảo mật các file hệ thống Mục đích của an toàn bảo mật các file hệ thống là duy trì tính toàn vẹn của hệ thống, đây là trách nhiệm của từng ngƣời dùng hoặc từng nhóm phát triển đối với hệ thống ứng dụng hoặc phần mềm mà họ quản lý, gồm: - Kiểm soát các phần mềm điều hành - Kiểm soát truy nhập tới thư viện mã nguồn của chương trình. 6. An toàn bảo mật trong quá trình phát triển và hỗ trợ Nhằm duy trì an toàn bảo mật của phần mềm hệ thống ứng dụng và thông tin, mọi thay đổi hệ thống có mục đích đều phải đƣợc xem xét nhằm kiểm tra xem có có sự vi phạm nào trong vấn đề bảo mật đối với hệ thống hoặc môi trƣờng vận hành. - Thay đổi các thủ tục kiểm soát - Kiểm tra kỹ thuật các thay đổi của hệ điều hành. PHẦN III VẬN DỤNG PHẦN MỀM ỨNG DỤNG CỦA CSDL TỔNG HỢP ĐỀ XUẤT 1. Chiết xuất dữ liệu Nhƣ phần trên đã đề cập, các ứng dụng đƣợc phát triển để khai thác dữ liệu sẽ đƣợc áp dụng để chiết xuất dữ liệu từ cơ sở dữ liệu tổng hợp. Với cách tổ chức cơ sở dữ liệu nhƣ trên, cách thức chọn lọc các tiêu chí theo các chỉ tiêu, 57 thời gian và đơn vị hành chính để chiết xuất dữ liệu sẽ trở nên đơn giản, các chỉ tiêu đã đƣợc phân thành các cấp nên việc lựa chọn chỉ tiêu cần thiết dễ dàng hơn. Dƣới đây là hình minh hoạ lựa chọn chỉ tiêu cần lấy từ dữ liệu dân số: Tƣơng tự nhƣ vậy, có thể chọn các thông tin về thời gian cũng nhƣ đơn vị hành chính cần thiết để chiết xuất dữ liệu: 58 Nhƣ vậy, số liệu cần lấy ra từ CSDL tổng hợp đã đƣợc xác định với các thông tin về chỉ tiêu, thời gian và đơn vị hành chính. Tuy nhiên, số liệu lấy ra cần phải đƣợc trình bày rõ ràng, hợp lý để ngƣời dùng tin có thể tận dụng ngay kết quả chiết xuất để thực hiện những mục đích riêng của mình mà không cần phải bỏ thêm công sức trình bày lại, ở đây chƣơng trình cho phép ta có thể xoay bảng kết quả theo ba chiều của số liệu: 59 Ngoài ra, ta cũng có thể đặt tên cho bảng kết quả đầu ra cũng nhƣ xác định phông chữ cho tên/nội dung bảng biểu đó, ứng dụng này đƣợc minh hoạ nhƣ sau: Cuối cùng, những dữ liệu đã đƣợc chọn có thể đƣợc đƣa vào trong môi trƣờng của MS Excel, là môi trƣờng quen thuộc với hầu hết những ngƣời dùng tin. Trong bảng kết quả, tuỳ theo các chỉ tiêu đƣợc đặt ở chiều nào mà đơn vị hành chính đƣợc ghép thêm vào dòng hay cột của biểu. 60 Ngoài cách trình bày số liệu theo bảng biểu, chƣơng trình còn cho phép ngƣời sử dụng trình bày các dữ liệu khai thác đƣợc dƣới dạng các biểu đồ, nhƣ hình minh họa dƣới đây: 61 2. Khai thác CSDL các bảng danh mục Chƣơng trình ứng dụng đƣợc phát triển với các giao diện WEB cung cấp chức năng khai thác các thông tin liên quan đến các chỉ tiêu từ các bảng danh mục, cho phép download danh mục về để sử dụng theo cấp hoặc toàn bộ, từ đó cho phép tìm kiếm thông tin theo mã danh mục, theo nội dung danh mục. Dƣới đây là ví dụ các giao diện truy cập danh mục: Ngƣời sử dụng có thể chọn bất kỳ danh mục nào để xem nội dung và trích xuất dữ liệu từ danh mục đó, ở đây chúng ta chọn danh mục các đơn vị hành chính Việt Nam: Ngƣời sử dụng cũng có thể tìm kiếm nội dung danh mục theo từ khoá bất kỳ hoặc theo cấp bằng chức năng tìm kiếm đối với danh mục ngành kinh tế quốc dân, trong ví dụ này ta khai thác cấp 2 và mã ngành „01‟, kết quả hiển thị nhƣ sau: 62 3. Khai thác metadata Chúng ta sẽ lựa chọn giao diện là trang WEB để có thể dễ dàng tìm kiếm, truy cập thông tin liên quan đến các chỉ tiêu theo các đƣờng link đến chỉ tiêu mà mình quan tâm. Ví dụ: Để khai thác thông tin về một chỉ tiêu, ngƣời sử dụng có thể chọn nhóm chỉ tiêu bao gồm các chỉ tiêu. Ví dụ nhóm chỉ tiêu phát triển kinh tế có những chỉ tiêu sau: 63 Để có đƣợc dữ liệu về khái niệm/định nghĩa và cách tính của chỉ tiêu tổng sản phẩm trong nƣớc (GDP), ngƣời sử dụng có thể dùng đƣờng link, và thông tin chi tiết về chỉ tiêu này sẽ đƣợc hiển thị nhƣ sau: KẾT LUẬN VÀ KIẾN NGHỊ Thông tin thống kê kinh tế - xã hội của hệ thống thống kê Nhà nƣớc là nguồn thông tin quan trọng và cần thiết cho cho các nhà lãnh đạo, quản lý trong việc đánh giá tình hình thực hiện, xây dựng chính sách và hoạch định chiến lƣợc phát triển kinh tế - xã hội của cả nƣớc nói chung và của từng địa phƣơng, từng ngành/lĩnh vực nói riêng. Đặc biệt trong xu thế hội nhập, toàn cầu hoá hiện nay, Việt Nam đang từng bƣớc đẩy nhanh quá trình này thì thông tin thống kê là nguồn thông tin không thể thiếu đối với các nhà kinh tế và đầu tƣ nƣớc ngoài muốn nghiên cứu về Việt Nam, đồng thời việc cung cấp thông tin thống kê cho một số tổ chức quốc tế là quyền lợi và nghĩa vụ của Việt Nam trong quan hệ quốc tế trên lĩnh vực ngoại giao, chính trị, kinh tế, văn hoá... Mặt khác, thông tin thống kê là nguồn tài liệu quan trọng giúp các nhà nghiên cứu khoa học, học sinh, sinh viên... thực hiện những công trình/đề tài nghiên cứu riêng của mình. Vì vậy, phổ biến thông tin thống kê là khâu quan trọng trong hoạt động thống kê, thực hiện truyền tải những con số biết nói tới ngƣời dùng tin. Nhiệm vụ nâng cao chất lƣợng phổ biến thông tin thống kê nằm trong chƣơng trình nâng cao năng lực của ngành Thống kê, đây là nhiệm vụ quan trọng, thƣờng xuyên của toàn Ngành nhằm đáp ứng tốt hơn yêu cầu ngày càng cao về số lƣợng, chất lƣợng cũng nhƣ về hình thức phổ biến thông tin thống kê của mọi đối tƣợng sử dụng. Điều này đòi hỏi ngƣời làm công tác thống kê phải nắm đƣợc nhu cầu của ngƣời dùng tin, đồng thời phải biết tiếp thu, ứng dụng những công nghệ tiên tiến vào hoạt động phổ biến thông tin thống kê để thông tin đến với ngƣời dùng nhanh và tiện lợi nhất. Trên ý nghĩa đó, việc nghiên cứu xây dựng nội dung, cấu trúc CSDL tổng hợp là cần thiết nhằm khắc phục tình trạng số liệu hiện đang nằm rải rác tại nhiều đơn vị trong Tổng cục gây khó khăn cho ngƣời sử dụng khi có nhu cầu. 64
- Xem thêm -