Tài liệu Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ giữa kho dữ liệu truyền thống và kho tài liệu

  • Số trang: 9 |
  • Loại file: PDF |
  • Lượt xem: 308 |
  • Lượt tải: 0
minhminh

Đã đăng 411 tài liệu

Mô tả:

TẠP CHÍ KHOA HỌC, Đại học Huế, Tập 74B, Số 5, (2012), 55-63 XÂY DỰNG KIẾN TRÚC KHO TÀI LIỆU DỰA TRÊN MỐI LIÊN HỆ GIỮA KHO DỮ LIỆU TRUYỀN THỐNG VÀ KHO TÀI LIỆU Lê Văn Hòa Khoa Du lịch, Đại học Huế Tóm tắt. Trong quá trình tìm hiểu về các thành phần, quy trình xây dựng kho tài liệu và vai trò của kho tài liệu, từ đó thấy được sự cần thiết của kho tài liệu đối với các doanh nghiệp và tổ chức cần thực hiện việc ra quyết định nhanh với độ chính xác cao. Dựa vào sự tương đồng giữa các giai đoạn trong quy trình xây dựng kho dữ liệu truyền thống và kho tài liệu, bài viết này đã đề xuất kiến trúc kho tài liệu. Kiến trúc kho tài liệu đề xuất có độ tin cậy và độ chính xác cao nhờ việc tham khảo các công trình nghiên cứu, các công trình này đã chứng minh sự tương đồng giữa các quy trình xây dựng kho dữ liệu truyền thống và kho tài liệu. 1. Đặt vấn đề Theo [3], người ta đã thống kê chỉ có 20% dữ liệu là dữ liệu có cấu trúc và được lưu trữ trong cơ sở dữ liệu quan hệ, trong khi khoảng 80% là dữ liệu không có cấu trúc văn bản và được lưu trữ trong các hình thức khác nhau của tài liệu như báo cáo, các bài báo tin tức, e-mail, và các trang web là chủ yếu. Chính vì dữ liệu có cấu trúc trong các tổ chức và doanh nghiệp chiếm tỉ lệ thấp do đó khi xây dựng kho dữ liệu truyền thống sẽ ảnh hưởng đến chất lượng kho dữ liệu và độ tin cậy của việc đưa ra quyết định. Chính vì những lý do đó, kho tài liệu được đề xuất để có thể đưa dữ liệu bán cấu trúc và phi cấu trúc vào kho. Chính nhờ những khẳng định thuyết phục của Sullivan [5] về mối tương đồng giữa các quy trình trong quá trình xây dựng kho dữ liệu truyền thống và kho tài liệu, bài viết này đã đề xuất kiến trúc kho tài liệu dựa trên mối liên hệ giữa kho dữ liệu truyền thống và kho tài liệu. 2. Kho dữ liệu truyền thống và những vấn đề tồn tại Kho dữ liệu là tập hợp dữ liệu hướng chủ thể, tích hợp, biến thời gian và bền vững hỗ trợ ra quyết định [2]. Theo [1], mục tiêu chính của kho dữ liệu là nhằm đáp ứng các tiêu chuẩn cơ bản sau: - Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng. - Hỗ trợ để có thể thực hiện tốt và có hiệu quả công việc, như có những quyết định hợp lý, nhanh giúp cho năng suất cao hơn, thu được lợi nhuận cao hơn, v.v. 55 Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ… 56 - Giúp cho tổ chức xác định, quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác. - Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau. Theo [1], kiến trúc hệ thống kho dữ liệu truyền thống gồm 3 tầng: - Tầng thu thập - Tầng xử lý phân tích trực tuyến (OLAP) - Tầng thể hiện Hình 1. Kiến trúc hệ thống kho dữ liệu truyền thống Kho dữ liệu truyền thống và những vấn đề đang tồn tại: Theo [3], dữ liệu có cấu trúc được thể hiện trong một hình thức quan hệ và phi cấu trúc trong văn bản. Theo thống kê chỉ có 20% các dữ liệu sẵn có được cấu trúc và được lưu trữ trong cơ sở dữ liệu quan hệ, trong khi khoảng 80% là không có cấu trúc văn bản và được lưu trữ trong các hình thức khác nhau của tài liệu như báo cáo, các bài báo tin tức, e-mail, và các trang web. Chính vì dữ liệu có cấu trúc chiếm tỉ lệ thấp do đó ảnh hưởng đến chất lượng kho dữ liệu và độ tin cậy của việc đưa ra quyết định. Vì vậy, để có được thông tin tri thức nghiệp vụ hoàn chỉnh, kết hợp và phân tích dữ liệu văn bản là rất cần thiết. Thông qua phân tích các dữ liệu có cấu trúc, chẳng hạn thông tin ở đâu, khi nào, ai, và bằng cách nào để có thể được trích xuất. Thông qua phân tích các thông tin để đưa ra lý do tại sao nó đã được thực hiện. LÊ VĂN HÒA 57 3. Kiến trúc kho tài liệu 3.1. Các thành phần chính của kho tài liệu Theo [5], thành phần của kho tài liệu bao gồm 5 thành phần chính: - Nguồn tài liệu - Máy chủ xử lý văn bản - Văn bản cơ sở và các kho lưu trữ khác - Kho siêu dữ liệu - Hồ sơ người sử dụng. 3.1.1. Nguồn tài liệu Nguồn tài liệu là các văn bản. Có ba kiểu nguồn tài liệu phân biệt bao gồm: Nguồn bên trong, internet và các dịch vụ. Nguồn bên trong: Trong một tổ chức, tài liệu và các loại văn bản khác như: email, máy chủ file, trong kho tài liệu, và trong hệ thống quản lý tài liệu. Trong khi những hệ thống quản lý file, chúng không thể cung cấp đặc trưng phân tích tổng hợp văn bản trong khai phá văn bản và truy xuất thông tin thông minh. Internet: Internet là nguồn văn bản tích hợp có khả năng lớn nhất cung cấp cho chúng ta. Một vài kiểu khác nhau của kho văn bản trên internet, bao gồm: WWW, máy chủ Gopher, và máy chủ FTP. Trong đó, dữ liệu tại WWW thật khó để phân loại toàn bộ nội dung của WWW. Các dịch vụ: Các dịch vụ cung cấp truy cập đến CSDL riêng cho những khách hàng của các doanh nghiệp và các tổ chức. 3.1.2. Máy chủ xử lý văn bản Trong môi trường kho tài liệu, có 4 kiểu máy chủ phân biệt: Máy chủ thu thập tài liệu, máy chủ phân tích văn bản, máy chủ xuất bản và phân tán, máy chủ lưu trữ. 3.1.2.1. Thu thập tài liệu Tập hợp máy chủ thu thập tài liệu và xử lý văn bản. Xử lý thu thập có thể xảy ra theo 3 cách Xử lý tập văn bản sử dụng danh sách tiền định nghĩa nguồn cho thu thập tự động trực tiếp: Hầu hết các văn bản đưa vào kho tài liệu thông qua tiền định nghĩa thu thập trực tiếp. Trong kịch bản này, một danh nguồn được duy trì trong CSDL, và chương trình thu thập, hay tập hợp các chương trình, những file thật sự đưa vào kho tài liệu. Xử lý tập văn bản sử dụng tiền danh sách định nghĩa chủ đề cho tìm kiếm trực tiếp: Chúng ta không thể biết trong kho tài liệu bao gồm những tài liệu gì. Nếu ứng Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ… 58 dụng chính của kho tài liệu của chúng ta có khả năng cạnh tranh thông minh và phân tích tài liệu thì chúng ta sẽ muốn để biết thông tin để đưa ra quyết định chính xác. Tài liệu được tự động đưa vào: Một vài kiểu tài liệu, đặc biệt là phát hiện luật bên trong, chiến lược đánh giá và các loại thông tin hạn chế, không nên được mở tự động đưa vào kho tài liệu. 3.1.2.2. Máy chủ phân tích văn bản Máy chủ phân tích văn bản cung cấp 2 thao tác: Tiền xử lý và xử lý chính. Tiền xử lý: Công việc của máy chủ tiền xử lý là để chứng thực định dạng tài liệu và nếu cần thì chuyển đổi tài liệu sang một định dạng có thể chấp nhận được cho công cụ xử lý văn bản khác. Ngôn ngữ văn bản cũng được chứng thực và nếu cần thiết được chuyển đổi vào trong đối tượng ngôn ngữ có thể chấp nhận được. Xử lý chính: Mục đích của máy chủ xử lý chính là đưa văn bản vào hình thức phù hợp cho việc tìm kiếm hiệu quả và khai phá văn bản. Quá trình thao tác bao gồm lập chỉ mục, phân cụm, trích chọn đặc trưng và tổng hợp. Thao tác xử lý chính được tính toán trong kho tài liệu. 3.1.2.3. Xuất bản và phân tán Thông thường giá trị của thông tin tri thức nghiệp vụ bị mất nếu nó không được phân tán đến đúng người hay không được xuất bản trong thời gian quản lý. Để bảo tồn giá trị của thông tin văn bản gốc, nó phải trình diễn cho người sử dụng một cách phụ thuộc vào nội dung. 3.1.3. Văn bản cơ sở và các kho lưu trữ khác Chúng ta có một vài tùy chọn cho việc lưu trữ văn bản trong kho tài liệu. Chúng bao gồm: Văn bản cơ sở, cơ sở dữ liệu hỗ trợ văn bản, file hệ thống, kết hợp file hệ thống và CSDL. 3.1.4. Kho siêu văn bản Siêu văn bản là tài liệu mô tả thông tin, những văn bản và là một phần then chốt của môi trường kho tài liệu. Siêu dữ liệu thỏa mãn một vài mục đích: - Tăng khả năng tìm kiếm rõ ràng và khả năng nhớ lại - Cho phép mở rộng các tùy chọn tìm kiếm, như là: theo tác giả, ngày xuất bản,.. - Phân loại văn bản - Cho biết mối quan hệ chất lượng giữa các mức, tính tin cậy, và đúng lúc. 3.1.5. Hồ sơ người sử dụng Người sử dụng yêu cầu mục đích cụ thể về kế hoạch tiếp thị, sự thay đổi tốc độ LÊ VĂN HÒA 59 và những ảnh hưởng về giá cả. Ngoài ra, người sử dụng quan tâm đến việc sử dụng dài hạn và nhất quán. Ví dụ: người quản lý sản phẩm quan tâm đến giá cả hiện tại của sản phẩm, kế hoạch tiếp thị và bán sản phẩm, thông tin về đối thủ cạnh tranh, điều kiện tiếp thị và những nhân tố khác ảnh hưởng đến việc bán hàng. 3.2. So sánh kho tài liệu và kho dữ liệu truyền thống [6] Giống nhau Kho tài liệu Kho dữ liệu truyền thống 1. Cả hai cùng quy trình xây dựng và chúng có thể được triển khai theo giản đồ hình sao hay bông tuyết để thiết kế quy trình mô hình 2. Cùng chung tài liệu nghiệp vụ hay dữ liệu từ nguồn hỗn tạp 3. Người sử dụng có thể xử lý phân tích trực tuyến thông qua kết quả được thiết lập Có ý định đạt được tri thức nghiệp vụ Có ý định đạt được tri thức nghiệp vụ định hướng văn bản (text–oriented) định hướng số (numeric–oriented) Khác nhau Tài nguyên được thu thập từ báo cáo điều tra thị trường, báo cáo trạng thái dự án, lời phàn nàn của khác hàng, thư điện tử, quảng cáo cạnh tranh Tài nguyên được thu thập từ CSDL bên trong các điểm bán hàng, hệ thống ERP, hệ thống thanh toán, hay hệ thống quản lý tài chính Nó lọc những tài liệu không cần thiết Nó tích hợp dữ liệu theo một vài và định hướng giúp người sử dụng trả chiều và có khuynh hướng giúp lời câu hỏi vì sao người sử dụng trả lời một số câu hỏi ai, cái gì, khi nào, ở đâu và người nào / cái nào Nâng cao chất lượng với công nghệ Nâng cao chất lượng với công nghệ khai phá văn bản cho việc tóm tắt tài khai phá dữ liệu cho việc tóm tắt, liệu hay phân loại tài liệu phân lớp, phân cụm dữ liệu đã được định dạng hay tìm sự kết hợp Nguồn dữ liệu nên được tích hợp trong Nguồn dữ liệu có thể được tích hợp file hệ thống hay CSDL XML trong CSDL quan hệ 3.3. Quy trình kho tài liệu Kho tài liệu bao gồm 6 quy trình chính: - Chứng thực nguồn tài liệu - Truy xuất tài liệu - Thao tác tiền xử lý - Thao tác phân tích văn bản Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ… 60 - Quản lý kho tài liệu - Hỗ trợ thao tác người dùng cuối Theo [5], ba bước truy xuất tài liệu, thao tác tiền xử lý, thao tác phân tích văn bản tương ứng quá trình xử lý chiết, chuyển đổi và nạp trong kho dữ liệu truyền thống. Trong khi 2 bước cuối, quản lý kho tài liệu và hỗ trợ thao tác người dùng cuối, giống như duy trì kho dữ liệu. 3.3.1. Chứng thực nguồn tài liệu Bước đầu tiên trong quy trình tài liệu là để chứng thực tài liệu được đưa vào kho. Trước hết, chúng ta mô tả 3 cách để chứng thực tài liệu: danh sách nguồn, tìm theo từ khóa, và tìm theo chủ đề. Tìm tiềm năng nguồn tài liệu: Bắt đầu với tìm kiếm Web rộng là cách thông dụng nhất của việc tìm kiếm tiềm năng nguồn tài liệu nhưng có những kỹ thuật khác như là luật thông thường, sẽ được cung cấp kết quả chất lượng cao. 3.3.2. Truy xuất tài liệu Quy trình truy xuất tài liệu là tương tự như giai đoạn chiết dữ liệu trong kho dữ liệu truyền thống. Chúng ta đã chứng thực nguồn của tài liệu, chúng ta cần lập lịch truy xuất chúng. Khi chúng ta nhìn thấy thảo luận về kiến trúc của kho tài liệu, máy chủ truy xuất hoạt động như là một đại lý để thu thập tài liệu và nạp chúng vào kho. Không giống như kho dữ liệu, chúng không có công cụ đặc biệt giống như những trình cung cấp bởi Informatica, Sagent được thiết kế để đưa văn bản vào kho tài liệu. Có một vài nhân tố để xem xét khi phát triển bộ lập lịch truy xuất tài liệu. - Khả năng băng thông - Tốc độ truy xuất của đối tượng trang Web - Bản sao lập lịch của máy chủ file bên trong - Quyền ưu tiên của đối tượng tài liệu 3.3.3. Các thao tác tiền xử lý Tương tự bước chuyển đổi dữ liệu trong kho dữ liệu. Để xử lý toàn bộ tài liệu trong kho, ba bước tiền xử lý cơ bản nên thực hiện: Đặc tính tập chứng thực: Nhiều người trong chúng ta quen làm việc với bảng mã ASCII. Có 2 tập đặc tính có phương pháp chiếm ưu thế cho miêu tả đặc tính trong ứng dụng máy tính. Một tiêu chuẩn mới hơn, UNICODE nổi trội hơn về phối hợp giải mã bởi vì nó có khả năng đưa ra nhiều đặc tính hơn ASCII. Định dạng quá trình chuyển đổi: Tài liệu đến trong vô số định dạng. Có một vài từ xử lý thông thường, bảng tính, sự trình diễn, và lấy ra định dạng. Quá trình này phụ thuộc vào công cụ xử lý sẽ được sử dụng trong các bước sau, những tài liệu có thể LÊ VĂN HÒA 61 cần để được chuyển đổi đến một định dạng đích có thể chấp nhận được trong các ứng dụng. Chứng thực ngôn ngữ và máy dịch: Một vài công cụ, như công cụ phân loại phân tích, là ngôn ngữ đặc biệt, khi chứng thực ngôn ngữ được sử dụng trong một tài liệu quan trọng. Tài liệu với thẻ đánh dấu một vài ngôn ngữ đặc biệt sử dụng thẻ siêu dữ liệu. Chương trình chứng thực ngôn ngữ phải được xác định. Nếu một tài liệu có giá trị cao nhưng không phải trong ngôn ngữ phù hợp cho công cụ xử lý văn bản, thì nó phải được dịch. 3.3.4. Các thao tác phân tích văn bản Thao tác phân tích văn bản giống như thao tác nạp dữ liệu vào kho tài liệu. Thao tác tiền xử lý đã được hoàn tất, công việc thật sự bắt đầu. Thao tác này bao gồm: Lập chỉ mục, trích chọn đặc trưng, phân loại, tóm tắt, phân cụm, máy dịch. 3.3.5. Quản lý kho tài liệu Bây giờ chúng ta đã tạo ra một kho tài liệu và mở nó trên Web và phần còn lại là của tổ chức, chúng ta phải quản lý và chăm sóc để nó hoạt động bình thường. Thêm vào đó để xử lý những nhiệm vụ được mô tả ở trước, người quản trị kho tài liệu sẽ tìm chúng với một vài nhiệm vụ cơ bản, bao gồm: Duy trì hệ thống, duy trì siêu dữ liệu, lưu trữ, cắt tỉa và làm linh khiết 3.3.6. Thao tác hỗ trợ người dùng cuối Thao tác người dùng cuối là thao tác quan trọng nhất của kho tài liệu. Tài liệu có thể được tập hợp, chuyển đổi, và dịch khi cần thiết, đánh chỉ mục, gom vào vùng đơn giản, tóm tắt, đưa đến người đọc, và cuối cùng lưu trữ trong kho tài liệu. Bây giờ người dùng cuối, từ phân tích công việc trong siêu thị và kế hoạch để đưa ra chiến lược tìm kiếm cạnh tranh thông minh đưa ra phía trước để giải quyết phàn nàn của khách hàng. 3.4. Kiến trúc kho tài liệu Dựa trên Các thành phần chính của kho tài liệu, Quy trình kho tài liệu và mối liên hệ giữa kho dữ liệu truyền thống và kho tài liệu, tôi xây dựng kiến trúc kho tài liệu Các thành phần trong kiến trúc kho tài liệu: Nguồn dữ liệu tác nghiệp là dữ liệu văn bản và dữ liệu từ các nguồn tài liệu không có cấu trúc. Đây là dữ liệu chiếm phần lớn trong các doanh nghiệp và tổ chức. Máy chủ thu thập tài liệu có nhiệm vụ chiết dữ liệu từ các nguồn dữ liệu tác nghiệp thông qua việc truy xuất tài liệu từ nguồn dữ liệu tác nghiệp. Dữ liệu sau khi chiết sẽ qua quá trình tiền xử lý để chuyển dữ liệu về định dạng thích hợp trong kho dữ liệu, đồng thời trong quá trình này dữ liệu sẽ được làm sạch. Máy chủ phân tích văn bản có nhiệm vụ đưa đữ liệu sau khi chuyển đổi vào kho Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ… 62 tài liệu. Thao tác này bao gồm: Lập chỉ mục, trích chọn đặc trưng, phân loại, tóm tắt, phân cụm, máy dịch. Sau quá trình này dữ liệu từ nguồn tác nghiệp sẽ được đưa vào kho để phục vụ quá trình phân tích và trích rút tri thức. Kho tài liệu đặc trưng với 4 thuộc tính: - Văn bản không có cấu trúc đơn giản hay kiểu văn bản đơn giản - Văn bản được trích rút từ nhiều nguồn - Đặc trưng chủ yếu của văn bản được tự động chiết và lưu trữ rõ ràng - Kho tài liệu được thiết kế để tích hợp ngữ nghĩa văn bản được quan hệ. Văn bản Truy xuất tài liệu Máy chủ thu thập tài liệu Kho văn bản Khối văn bản Tiền xử lý Nguồn tài liệu không có cấu trúc Máy chủ phân tích văn bản  Lập chỉ mục  Trích chọn đặc trưng  Phân loại Chợ văn bản  Tóm tắt  Phân cụm  Máy dịch Hình 2. Kiến trúc kho tài liệu 4. Kết luận và hướng phát triển Bài viết đã phân tích vai trò của kho dữ liệu, những vấn đề còn tồn tại ảnh hưởng đến chất lượng kho dữ liệu và độ tin cậy của việc đưa ra quyết định. Đồng thời, bài viết đã chỉ ra được mối liên hệ giữa kho dữ liệu truyền thống và kho tài liệu làm nền tảng cho việc xây dựng kiến trúc kho tài liệu. Nhờ vào kiến trúc kho tài liệu chúng ta có thể biết được quy trình để xây dựng kho dữ liệu từ nguồn dữ liệu là các văn bản và tài liệu không có cấu trúc. Bài viết chỉ dừng lại ở mức độ xây dựng kiến trúc kho tài liệu dựa vào các công trình nghiên cứu của các tác giả. Hướng phát triển của đề tài sẽ xây dựng một kho dữ liệu văn bản dựa vào kiến trúc đã xây dựng. LÊ VĂN HÒA 63 TÀI LIỆU THAM KHẢO [1]. Nguyễn Thanh Bình, Trần Hiếu, Xây dựng hệ thống tích hợp thông tin hỗ trợ cho hệ thống tư vấn học tập trực tuyến, Luận văn thạc sĩ khoa học, Đại học Khoa học – Đại học Huế, Huế, 2007. [2]. Nguyễn Thanh Bình, Lê Văn Hòa, Giải pháp Web cho dịch vụ xây dựng kho dữ liệu. Luận văn thạc sĩ khoa học, Trường Đại học Khoa học – Đại học Huế, Huế, 2010. [3]. Byung-Kwon Park, Il-Yeol Song, Toward Total Business Intelligence Incorporating Structured and Unstructured Data, Uppsala – Sweden, 2011. [4]. Frank S.C. Tseng, Design of a multi-dimensional query expression for document warehouses, Department of Information Management, National Kaohsiung First University of Science and Technology, Kaohsiung 811, Taiwan, ROC, 2004. [5]. Sullivan, Dan, Document Warehousing and Text Mining, John Wiley, 2011. [6]. Shufu, Wu, Document Warehousing, Dept. of Information Management, NTU, 2004. [7]. Kalli Srinivasa Nageswara Prasad, Prof. S. Ramakrishna, Text Analytics to Data Warehousing, International Journal on Computer Science and Engineering, 2010. BUILDING AN ARCHITECTURE OF THE DOCUMENT WAREHOUSES BASED ON THE RELATIONSHIPS BETWEEN TRADITIONAL DATA WAREHOUSES AND DOCUMENT WAREHOUSES Le Van Hoa Faculty of Hospitality and Tourism, Hue University Abstract. This paper represents the process of learning the components, the process of building document warehouses and the role of document warehouses which lead to the awareness toward the need document warehousing with businesses and organizations that need quick decisions with high precision. Based on the similarity between the stages in the process of building traditional data warehouses and document warehouses, the architecture of the document warehouses is proposed. The reliability and high accuracy of proposed architecture could be ensured by means of the researches that demonstrate the similarities between the process of building a traditional data warehouses and document warehouses.
- Xem thêm -