Tài liệu Ứng dụng Web ngữ nghĩa trong lưu trữ và quản lí các tài liệu số

.PDF

40640

nhattuvisu Báo vi phạm

Tải xuống 86

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  Lương Đỗ Long ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƢU TRƢ̃ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ LUẬN VĂN THẠC SĨ KHOA HỌC HÀ NỘI - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  Lương Đỗ Long ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƢU TRƢ̃ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ KHOA HỌC Cán bộ hướng dẫn khoa học : PGS. TS Đỗ Trung Tuấ n HÀ NỘI - 2011 MỤC LỤC Chƣơng 1. TỔNG QUAN VỀ WEB NGƢ̃ NGHĨA .................................................1 1.1. Khái niệm Web ngữ nghĩa và Siêu dữ liệu .....................................................1 1.1.1. Khái niệm ................................................................................................1 1.1.2. Siêu dƣ̃ liê ̣u .............................................................................................2 1.2. Kiế n trúc Web ngƣ̃ nghiã ...............................................................................3 1.3 Ngôn ngƣ̃ Cơ cấ u mô tả tài nguyên và Bản thể luâ ̣n ........................................8 1.3.1 Ngôn ngƣ̃ mô tả tài nguyên RDF ..............................................................8 1.3.2 Bản thể luận ........................................................................................... 15 1.3.3 Lƣơ ̣c đồ RDF và truy vấ n RDF............................................................... 16 Kết luận .............................................................................................................. 23 Chƣơng 2. TIẾP CẬN WEB NGƢ̃ NGHĨA TRONG LƢU TRƢ̃ VÀ QUẢN LÍ TÀI LIỆU SỐ ................................................................................................................ 24 2.1 Web ngƣ̃ nghiã và thƣ viê ̣n số ....................................................................... 24 2.1.1 Thƣ viê ̣n số ngƣ̃ nghiã ............................................................................ 24 2.1.2. Tổ chƣ́c tri thƣ́c trong thƣ viê ̣n .............................................................. 26 2.1.3. Web ngƣ̃ nghiã trong thƣ viê ̣n số ........................................................... 26 2.2. Kiế n trúc của thƣ viê ̣n số ngƣ̃ nghiã ............................................................. 30 2.3. Bản thể luận cho thƣ viện số ngữ nghĩa ....................................................... 31 2.3.1. Bản thể luâ ̣n biể u ghi thƣ mu ̣c ............................................................... 31 2.3.2. Bản thể luận cho cấu trúc nội dung ........................................................ 33 2.3.3. Cơ bản về sƣ̣ phân loa ̣i .......................................................................... 34 2.3.4. Xây dƣ̣ng Bản thể luâ ̣n .......................................................................... 36 2.4. Thƣ viê ̣n số ngữ nghĩa và mạng xã hội......................................................... 37 2.5. Tìm kiếm trong thƣ viện ngữ nghĩa .............................................................. 38 2.5.1. Tìm kiếm dựa trên sự phân loại ............................................................. 38 i 2.5.2. Tìm kiếm ngữ nghĩa .............................................................................. 38 Kết luận .............................................................................................................. 40 Chƣơng 3. Xây dƣ̣ng thƣ viê ̣n số ngƣ̃ nghiã dƣ̣a trên phầ n mề m JeromeDL ........... 41 3.1 Giới thiê ̣u phầ n mề m JeromeDL ................................................................... 41 3.2. Kiến trúc và Bản thể luận trong JeromeDL .................................................. 42 3.2.1. Kiến trúc của JeromeDL ........................................................................ 42 3.2.2. Bản thể luận trong JeromeDL ................................................................ 44 3.3. Truy vấn trong JeromeDL ............................................................................ 48 3.4. Sử dụng JeromeDL ...................................................................................... 51 Kết luận .............................................................................................................. 53 KẾT LUẬN VÀ HƢỚNG PHÁ T TRIỂN .............................................................. 54 TÀI LIỆU THAM KHẢO ...................................................................................... 56 ii Bảng kí hiệu thuật ngữ viết tắt Tên viế t tắ t WWW Tiế ng Viêṭ Mạng toàn cầu Tiế ng Anh W3C Tổ chức Mạng toàn cầu World Wide Web World Wide Web Consortium RDF Cơ cấu mô tả tài nguyên Resource Description Framework RDFS Lƣợc đồ Cơ cấu mô tả tài Resource Description Framework nguyên Scheme XML Ngôn ngữ đánh dấu mở rộng iii eXtensible Markup Language Danh mục hình ảnh Hình 1.1. Kiến trúc của Web ngữ nghĩa ..........................................................................................4 Hình 1.2. Đồ thị RDF ................................................................................................................... 11 Hình 1.3. Quan hệ kế thừa ............................................................................................................ 17 Hình 1.4. Không gian miền và giới hạn của thuộc tính RDFS ....................................................... 20 Hình 2.1. Các thành phần hỗ trợ thƣ viện số ngữ nghĩa ................................................................. 26 Hình 2.2. Biể u diễn cấ u trúc tài liê ̣u dƣới da ̣ng RDF ..................................................................... 29 Hình 2.3. Kiế n trúc thƣ viê ̣n số ngữ nghĩa .................................................................................... 31 Hình 2.4. Bản thể luận BibTeX .................................................................................................... 32 Hình 2.5. Một dạng cây phân cấp ................................................................................................. 35 Hình 2.6. Một Bản thể luận Cys ................................................................................................... 35 Hình 2.7. Quá trình tìm kiếm trong th ƣ viê ̣n số ngữ nghĩa ............................................................ 39 Hình 2.8. Quá trình chia sẻ dữ liê ̣u RDF ....................................................................................... 39 Hình 3.1. Giao diện của JeromeDL .............................................................................................. 42 Hình 3.2. Kiến trúc của JeromeDL ............................................................................................... 43 Hình 3.3. Bản thể luận MarcOnt ................................................................................................... 44 Hình 3.4. Bản thể luận cấu trúc nội dung ...................................................................................... 46 Hình 3.5. Mạng xã hội trong JeromeDL ....................................................................................... 48 Hình 3.6. Các bƣớc trong truy vấn JeromeDL............................................................................... 49 Hình 3.7. Giao diện chức năng tìm kiếm ngữ nghĩa ...................................................................... 52 Hình 3.8. Giao diện chức năng xuất bản tài liệu ............................................................................ 52 iv Danh mục bảng biểu Bảng 1. Các lớp trong RDFS ........................................................................................................ 18 Bảng 2. Các thuộc tính trong RDFS ............................................................................................. 19 Bảng 3. Các lớp, thuộc tính, thể hiện của Bản thể luận MarcOnt ................................................... 45 Bảng 4. Các lớp, thuộc tính, thể hiện của Bản thể luận cấu trúc nội dung ...................................... 47 v MỞ ĐẦU Web ngƣ̃ nghiã (hay Semantic Web) là thế hệ mở rộng của Web hiện tại đƣợc đƣa ra bởi Tim Berners-Lee vào khoảng năm 1998. Mục tiêu ban đầu của Semantic Web là để hỗ trợ ngƣời dùng tìm kiếm thông tin trên mạng một cách nhanh chóng, chuẩn xác và thông minh hơn so với các công cụ tìm kiếm truyền thống. Theo đinh ̣ nghiã của tổ chƣ́c World Wide Web Consort ium (W3C), web ngƣ̃ nghĩa là sự mở rộng của WWW hiê ̣n ta ̣i bằ ng cách thêm vào các mô tả ý nghiã (hay ngƣ̃ nghiã ) của thông tin dƣới dạng mà chƣơng trình mà máy tính có thể hiểu đƣợc và do vậy cho phép xử lí thông tin có hiệu quả hơn. Web ngƣ̃ nghiã cố gắ ng làm sao để máy tính hiểu đƣợc các khái niệm , mố i quan hê ̣ giƣ̃a các khái niê ̣m , các thuộc tính và các tiến trình của chúng . Trong trƣờng hơ ̣p này , máy tính có khả năng ra kết luâ ̣n và trić h xuấ t ra thông tin mới và có giá tri ̣tƣ̀ các dƣ̃ liê ̣u đã tồ n ta ̣i . Web ngƣ̃ nghĩa không phải là Trí tuệ nhân tạo (AI), nhƣng nó có thể xem là mô ̣t loa ̣i web thông minh, hay thế hê ̣ phát triể n tiế p theo của web . Nề n tảng cơ bản làm nên web ngƣ̃ nghiã là các siêu dƣ̃ liê ̣u (metadata) và bản thể luận . Siêu dƣ̃ liê ̣u có thể hiể u đơn giản là dƣ̃ liê ̣u về dƣ̃ liê ̣u , còn bản thể luận định nghĩa về các từ vựng đƣợc sử dụng trong các miền ứng dụng khác nha u. Các siêu dữ liệu có thể dùng để biểu diễn cho mo ̣i loa ̣i tài nguyên (thƣ̣c thể hoă ̣c các khái niê ̣m ). Mô ̣t cách để biể u diễn các khái niệm, và mối quan hệ giữa chúng trong một tài liệu là sử dụng ngôn ngữ mô tả tài nguyên RDF (Resource Description Framework). Các tài liệu số (tài nguyên ) thƣờng đƣờng lƣu trƣ̃ và truy câ ̣p qua các cổ ng thông tin và các thƣ viê ̣n số . Các thƣ viện số ngoài chức năng lƣu trữ các tài liệu số , còn có chức năng cho phé p ngƣời sƣ̉ du ̣ng tim ̀ kiế m các tài liê ̣u có liên quan mô ̣t cách nhanh nhất . Các siêu dữ liệu là một trong những cách tiếp cận cho việc biên mục, phân loa ̣i và hỗ trơ ̣ tim ̀ kiế m các tài liê ̣u số . Trong cách biể u diễn bởi các s iêu dƣ̃ liê ̣u, các tài liệu số đƣợc ―cấu trúc hóa‖ vào các siêu dữ liệu . Bấ t kì thông tin nào trong các thƣ viê ̣n số cũng có thể đƣơ ̣c biể u diễn bởi các siêu dƣ̃ liê ̣u , với cách biể u diễn này sẽ thuâ ̣n lơ ̣i cho viê ̣c quản lí và ngƣời dùng dễ dàng tìm kiếm ra các tài liệu gố c. Ngoài ra , cách tiếp cận này cho phép các thƣ viện số dễ dàng chia sẻ các tài nguyên với nhau dƣ̣a trên mô ̣t chuẩ n đă ̣c tả chung . Viê ̣c tić h hơ ̣p ngƣ̃ nghiã vào các vi thƣ viê ̣n số dƣ̣a trên kiế n trúc của Web ngƣ̃ nghiã làm cho thƣ viê ̣n số có nhiề u ƣu điể m hơn so với cách tiế p câ ̣n thông thƣờng. Luâ ̣n văn này tìm hiể u chung nhấ t về kiế n trúc của web ngƣ̃ nghiã , dƣ̣a trên cách tiếp cận web ngữ nghĩa , tìm hiể u cách tić h hơ ̣p ngƣ̃ nghiã vào các thƣ viên số . Cấ u trúc của luâ ̣n văn gồ m 3 chƣơng: Chương 1: Tổ ng quan về Web ngữ nghiã Tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa , các thành phần cơ bản làm nên web ngữ nghĩa. Chương 2: Tiế p câ ̣n Web ngữ trong lưu trữ và quản lí tài liêụ số Tìm hiểu mô ̣t trong nhƣ̃ng cách quản lí tài liê ̣u số đ ó là thƣ viện số . Nghiên cƣ́u cách tích hợp ngữ nghĩa vào các tài nguyên trong thƣ viê ̣n số : cơ chế biên mu ̣c và phân loại dựa trên ngữ nghĩa Chương 3: Xây dựng thư viê ̣ n số ngữ nghiã dựa trên phầ n mề m JeromeDL Giới thiê ̣u phầ n mề m mã nguồ n mở JeromeDL trong viê ̣c xây dƣ̣ng các thƣ viê ̣n số ngƣ̃ nghiã . vii Chƣơng 1. TỔNG QUAN VỀ WEB NGƢ̃ NGHĨA Trong chƣơng này , sẽ giới thiệu công nghệ cơ bản đƣợc sử dụng trong luận văn, bao gồ m đinh ̣ nghiã về web ngƣ̃ nghiã , nhƣ̃ng nồ lƣ̣c trong viê ̣c xây dƣ̣ng web ngƣ̃ nghiã tƣ̀ web hiê ̣n ta ̣i , giới thiê ̣u kiế n trúc web ngƣ̃ nghiã của tổ chức World WideWeb Consortium (W3C). Tìm hiểu về Bản thể luận và ngôn ngữ bản thể luận. 1.1. Khái niệm Web ngƣ̃ nghiã và Siêu dữ liệu 1.1.1. Khái niệm Sau khi ra đời của Internet và World Wide Web (WWW), rấ t nhiề u nhƣ̃ng nỗ lƣ̣c đã đƣơ ̣c thƣ̣c hiê ̣n và các công nghê ̣ đƣơ ̣c phát triể n nhằ m mu ̣c đić h làm cho World Wide Web tố t hơn , nhanh hơn, và thông minh hơn . Nhiề u công nghê ̣ , kiế n nghị sau khi xuất hiện đã trở thành chuẩn chung chỉ trong mô ̣t thời gi an ngắ n . Mô ̣t trong nhƣ̃ng nỗ lƣ̣c này là web ngƣ̃ nghiã . Web ngƣ̃ nghiã có thể đƣơ ̣c xem là sƣ̣ mở rô ̣ng của web hiê ̣n ta ̣i . Web ngƣ̃ nghiã không phải là Trí tuê ̣ nhân ta ̣o , nhƣng có thể xem là mô ̣t da ̣ng web thông minh. Web ngƣ̃ nghiã là sự mở rộng của WWW bằng cách thêm vào các mô tả ngữ nghĩa của thông tin dƣới dạng mà chƣơng trình máy tính có thể ―hiểu‖ và do vậy cho phép xử lý thông tin hiệu quả hơn [3]. Xét về mặt bản chất, Semantic Web ngƣ̃ nghĩa chỉ là một công cụ để con ngƣời cũng nhƣ máy tính sử dụng để biểu diễn thông tin, hay nói chính xác hơn thì Web ngƣ̃ nghiã chỉ là một dạng dữ liệu trên Web. Khác với các dạng thức dữ liệu đƣợc trình bày trong HTML, dữ liệu trong Semantic Web đƣợc đánh dấu, phân lớp, mô hình hóa, đƣợc bổ sung thêm các thuộc tính, các mối liên hệ… theo các lĩnh vực cụ thể, qua đó giúp cho các phần mềm máy tính có thể hiểu đƣợc dữ liệu và tự động xử lý đƣợc những dữ liệu đó. Có thể kể ra đây những ƣu điểm của web ngữ nghĩa so với web hiện tại:  Máy tính có thể hiểu đƣợc thông tin trên Web: Web ngữ nghĩa định nghĩa các khái niệm và bổ sung quan hệ dƣới dạng máy tính có thể hiểu đƣợc. Do 1 đó, việc tìm kiếm, đánh giá, xử lý, tích hợp thông tin có thể đƣợc tiến hành một cách tự động.  Thông tin đƣợc tìm kiếm nhanh chóng và chính xác hơn: Với Web ngữ nghĩa, máy tính có thể xác định một thực thể thuộc lớp hay thuộc tính cụ thể nào dựa trên ngữ cảnh chứa nó. Do đó thu hẹp không gian tìm kiếm và cho kết quả nhanh, chính xác hơn.  Khả năng suy luận thông minh: Dựa vào các luật suy diễn trên cơ sở tri thức về các thực thể, máy tính có khả năng sinh ra những kết luận mới.  Dữ liệu liên kết động: Thay thế cách liên kết sử dụng hyperlink tĩnh trong Web cũ, Web ngữ nghĩa liên kết dữ liệu từ nhiều nguồn khác nhau một cách hiệu quả hơn dựa trên định danh của tài nguyên (URI) và quan hệ giữa chúng. Cách liên kết này đôi khi còn đƣợc gọi là liên kết bằng siêu dữ liệu. Trong web ngƣ̃ nghiã , với sƣ̣ trơ ̣ giúp của các công nghê ̣ khác , chúng ta có thể trơ ̣ giúp cho má y tính hiể u đƣơ ̣c các khái niê ̣m , mố i quan hê ̣ giƣ̃a chúng , xƣ̉ lí nhanh chóng, chính xác các truy vấn từ ngƣời dùng. 1.1.2. Siêu dữ liêụ Mô ̣t trong nhƣ̃ng nề n tảng cơ bản làm nên web ngƣ̃ nghiã là các siêu dƣ̃ liê ̣u . Siêu dữ liệu dùng để mô tả tài nguyên thông tin , còn gọi là dữ liệu về dữ liệu . Mỗi thƣ̣c thể hay khái niê ̣m có thể có mô ̣t hay nhiề u siêu dƣ̃ liê ̣u . Cho ví du ̣, mô ̣t khóa luâ ̣n tố t nghiê ̣n có [mô ̣t tác giả ], [tên khóa luâ ̣n ], [cán bộ hƣớng dẫ n], ... là các siêu dƣ̃ liê ̣u về khóa luâ ̣n . Chúng ta có thể đơn giản hóa việc phân loại và truy vấn dữ liệu bằng cách dùng các siêu dữ liệu. Mối liên hệ giữa siêu dữ liệu và tài nguyên thông tin mà nó mô tả có thể đƣợc thể hiện ở một trong hai cách sau:  Các phần tử metadata đƣợc chứa trong một biểu ghi tách biệt bên ngoài đối tƣợng mô tả.  Các phần tử metadata có thể đƣợc nhúng (gắn) vào bên trong tài nguyên mà nó mô tả. Trƣớc đây với tài liệu truyền thống, các mô tả dữ liệu nằm ngoài đối tƣợng mô tả, nhƣ vậy siêu dữ liệu đƣợc lƣu trữ một cách tách biệt bên ngoài đối tƣơng mô tả. 2 Với tài liệu số , siêu dữ liệu của chúng đƣợc nhúng (gắn) trong bản thân tài nguyên hoặc liên kết với tài nguyên mà nó mô tả nhƣ trong trƣờng hợp các thẻ meta của tài liệu HTML i. Sơ đồ siêu dữ liêụ Sơ đồ siêu dữ liệu là tập hợp những yếu tố siêu dữ liệu đƣợc thiết kế cho mô tả một dạng tài nguyên thông tin cụ thể. Nhƣ vậy siêu dữ liệu là sơ đồ hình thức đƣợc xác định để mô tả tài nguyên thông tin cho đối tƣợng số hoặc không số. Thí dụ tập hợp yếu tố siêu dữ liệu Dublin Core có sơ đồ bao gồm 15 yếu tố cơ bản để mô tả tài nguyên thông tin. ii. Ngữ nghiã Định nghĩa các yếu tố hoặc ý nghĩa đực gán cho các yếu tố siêu dữ liệu thì đƣợc gọi là ngữ nghĩa của sơ đồ. Mỗi sơ đồ siêu dữ liệu có ngữ nghĩa và cú pháp đƣợc quy định riêng. Ví dụ trong yếu tố siêu dữ liệu Dublin Core yếu tố ―Creator‖ – dùng để xác định là tác giả của tài liệu, hoặc yếu tố ―Title‖ – đƣợc hiểu là nhan đề của tài liệu. iii. Nô ̣i dung Giá trị (dữ liệu) của từng yếu tố đƣợc gọi là nội dung . Đó chính là giá trị của mỗi yếu tố siêu dữ liệu . Nhờ các sơ đồ dữ liệu , các chƣơng trình xử lý tự động sẽ nhận biết đoạn dữ liệu nào sẽ thuộc thành phần nào , chẳng hạn đoạn dữ liệu này đƣợc nhâ ̣n biết là nhan đề, đoạn dữ liệu kia đƣợc nhận biết là tác giả của tài liệu. 1.2. Kiế n trúc Web ngƣ̃ nghiã Để có đƣợc những khả năng nhƣ đã đề cập ở phần trên , web ngƣ̃ nghiã cầ n có mô ̣t ha ̣ tầ ng chă ̣t chẽ với nhiề u lớp hỗ trơ ̣ . Dƣới đây là kiế n trúc tổ ng quát nhấ t của web ngƣ̃ nghiã do tổ chƣ́c W3C đề xuấ t: 3 Giao di n ng ng v i ng ng Tin c y Ch ng minh Logic Truy v n: SPARQL n th lu n: OWL Lu t: RIF M t RDFS Trao đ i d li u RDF XML URI Unicode Hình 1.1. Kiến trúc của Web ngữ nghĩa i. Unicode và đinh ̣ danh tài nguyên thố ng nhấ t Tầ ng thấ p nhấ t là tài nguyên (mô ̣t đố i tƣơ ̣ng, mô ̣t thƣ̣c thể hay mô ̣t khái niê ̣m , v.v...), chúng đƣợc mô tả bằng các định danh tài nguyên thống nhất - Uniform Resource Identifier (URI). Mục đích của tầng này là xác định tính duy nhất của mỗi tài nguyên . Mô ̣t tài nguyên có duy nhấ t mô ̣ t URI , tâ ̣p con của URI là đinh ̣ vi ̣tài nguyên thố ng nhấ t : Uniform Resource Locator (URL), nó chứa phƣơng thức truy câ ̣p và vi ̣trí của tài liê ̣u trên ma ̣ng . Mô ̣t tâ ̣p con khác của URI là tên tài nguyên thố ng nhấ t : Uniform Resource Name (URN), cho phép xác đinh ̣ mô ̣t tài nguyên mà không cầ n phải chƣ́a điạ chỉ và phƣơng thƣ́c truy câ ̣p đế n nó , ví dụ chỉ số ISBN là mô ̣t URN . Viê ̣c sƣ̉ du ̣ng URI là rấ t quan tro ̣ng , vì nó cho phép xây dựng một hệ thố ng phân tán , trong đó các tài nguyên nằ m ở nhiề u nơi khác nhau trên ma ̣ng . Mô ̣t biế n thể khác của URI là đinh ̣ danh tài nguyên đƣơ ̣c quố c tế hóa : Internationalized Resource Identifier (IRI), nó cho phép sử đụng các kí tự Unicode trong định danh [1]. Để mã hóa các thông tin , dƣ̃ liê ̣u ta sƣ̉ du ̣ng chuẩ n mã hóa Unicode , đây là chuẩ n thố ng nhấ t dùng để mã hóa các tâ ̣p kí tƣ̣ quố c tế . Nó cho phép tất cả các ngôn ngƣ̃ của tấ t cả các nƣớc có thể đƣơ ̣c mã hóa thố ng nhấ t , tránh hiện tƣợng mỗi quốc gia la ̣i sƣ̉ du ̣ng mô ̣t chuẩ n mã hóa riêng, gây khó khăn cho trao đổ i dƣ̃ liê ̣u. 4 ii. Biể u diễn XML Tầ ng tiế p theo là Ngôn ngƣ̃ đánh dẫu mở rô ̣ng : Extensible Markup Language (XML), nó đƣợc dùng để biểu diễn dữ liê ̣u mà máy tính có thể hiể u và xƣ̉ lí dƣ̃ liê ̣u đƣơ ̣c. XML là công nghê ̣ chiń h và là chuẩ n của web hiê ̣n ta ̣i và trong tƣơng lai . Với XML, máy tính có thể tích hợp và tƣơng tác trao đổi dữ liệu với nhau . XML cung cấp một phƣơng tiện dùng văn bản để mô tả thông tin và áp dụng một cấu trúc kiểu cây cho thông tin đó. Tại mức căn bản, mọi thông tin đều thể hiện dƣới dạng text, chen giữa là các thẻ đánh dấu với nhiệm vụ ký hiệu sự phân chia thông tin thành một cấu trúc có thứ bậc của các dữ liệu ký tự, các phần tử dùng để chứa dữ liệu, và các thuộc tính của các phần tử đó. Đơn vị cơ sở của XML là các ký tự theo định nghĩa của Bộ ký tự toàn cầu (Universal Character Set). Các ký tự đƣợc kết hợp theo các tổ hợp chuỗi hợp lệ để tạo thành một tài liệu XML. Tài liệu này gồm một hoặc nhiều thực thể, mỗi thực thể thƣờng là một phần nào đó của các ký tự thuộc tài liệu, đƣợc mã hóa dƣới dạng một chuỗi các bit và lƣu trữ trong một tệp văn bản. Các tệp XML có thể dùng cho nhiều loại dữ liệu đa phƣơng tiện. RFC3023 định nghĩa các loại "application/xml" và "text/xml", với ý rằng dữ liệu đƣợc biểu diễn bằng XML mà không nói gì đến ngữ nghĩa của dữ liệu. Bằng cách cho phép các tên dữ liệu , cấu trúc thứ bậc đƣợc phép , và ý nghĩa của các phần tử và thuộc tính có tính chất mở và có thể đƣợc định nghĩa bởi một lƣơ ̣c đồ tùy biến đƣợc (XML Scheme), XML cung cấp một cơ sở cú pháp (Document Type Definition - DTD) cho việc tạo lập các ngôn ngữ đánh dấu dựa XML theo yêu cầu. Cú pháp chung của các ngôn ngữ đó là cố định — các tài liệu phải tuân theo các quy tắc chung của XML, bảo đảm rằng tất cả các phần mềm hiểu XML ít ra cũng phải có khả năng đọc (phân tích cú pháp) và hiểu bố cục tƣơng đối của thông tin trong các tài liệu đó . Lƣơ ̣c đồ chỉ bổ sung một tập các ràng buộc cho các quy tắc cú pháp . Các lƣơ ̣c đồ thƣờng hạn chế tên của phần tử và thuộc tính và các cấu trúc thứ bậc đƣợc phép, ví dụ, chỉ cho phép một phần tử tên 'ngày sinh' chứa một phần tử tên 'ngày' và một phần tử có tên 'tháng', mỗi phần tử phải chứa đúng một ký tự. Có một khái niệm rất quan trọng trong XML là Không gian tên XML (XML namespace). Không gian tên XML là cơ chế cho phép gom các tên phân tƣ̉ và thuô ̣c tính vào một nhóm. Nó thƣờng xuyên đƣợc dùng để phối hợp việc dùng tên phần tử (hay thuô ̣c tính ) tƣ̀ nhiề u nguồ n khác nhau trong mô ̣t tài liê ̣u XML , mà vẫn tránh đƣơ ̣c nguy cơ trùng tên. Mô ̣t Không gian tên là tập hợp các tên có thể dùng trong tài 5 liê ̣u XML , nhƣ tên các phầ n tƣ̉ , thuô ̣c tin ́ h ,..., nó gom các tên này vào các vùng riêng. iii. Trao đổ i dữ liêụ RDF Cơ cấ u mô tả tài nguyên - RDF đƣợc W3C giới thiệu để cung cấp một cú pháp chuẩn để tạo, thay đổi và sử dụng các chú thích trong Web ngữ nghĩa. Một mệnh đề RDF là một bộ ba có dạng: [chủ đề], [thuộc tính], [đốitƣợng]. Trong đó, [chủ đề] là tài nguyên mà đƣợc mô tả bằng [thuộc tính] và [đối tƣợng]. [Thuộc tính] thể hiện mối quan hệ giữa [chủ đề] và [đối tƣợng]. Còn [đối tƣợng] ở đây có thể là một tài nguyên hoặc một giá trị. Ba thành phần trên trong RDF đều là các URI. Ví dụ về biểu diễn RDF của siêu dữ liệu Dublin Core: Lƣơng Đõ Long Cá c dạng khảo sá t hà m só Giới thiệu cá c da ̣ng khảo sá t hà m só th ƣờng hay gặp trong cá c kì thi đại học 2000-01-20 Chi tiế t về RDF sẽ đƣơ ̣c đề câ ̣p chi tiế t ở phầ n sau. iv. Lươ ̣c đồ RDF Để xác đinh ̣ r a cấ u trúc và ngƣ̃ nghiã của RDF , ngôn ngƣ̃ lƣơ ̣c đồ RDF : RDF Scheme (hay RDFS) đã đƣơ ̣c đề xuấ t . RDFS là một ngôn ngữ Bản thể luận đơn giản của web ngữ nghĩa, đƣợc coi là một ngôn ngữ cơ sở của web ngữ nghĩa. RDFS cung cấ p mô ̣t phƣơng tiê ̣n đ ể đặc tả các từ vựng mô tả tính chất và quan hệ giữa các tài nguyên RDF, bao gồ m: - Định nghĩa các lớp tài nguyên - Định nghĩa các quan hệ giữa các lớp - Định nghĩa các loại thuộc tính mà các lớp trên có 6 v. Định nghĩa các mối quan hệ giữa các thuộc tính. Bản thể luận Đối với mỗi miền ứng dụng cụ thể , sẽ có một tập các khái niệm và các mối quan hê ̣, ràng buộc giữa chúng tạo thành một bản thể luận . Mô ̣t khái niê ̣m có thể là mô ̣t lớp, mô ̣t thuô ̣c tính của mô ̣t lớp h ay bô ̣ tƣ̀ vƣ̣ng sƣ̉ du ̣ng trong miề n ƣ́ng du ̣ng đó. Bộ từ vựng bản thể luâ ̣n đƣợc xây dựng trên cơ sở tầng RDF và RDFS , cung cấp biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên web và có khả năng hỗ trợ lập luận. Để xây dựng đƣợc các bộ từ vựng này, ngƣời ta đã sử dụng các ngôn ngữ bản thể luâ ̣n để biểu diễn chúng nhƣ : RDFS, OIL, DAML, DAML+OIL, hay ngôn ngƣ̃ bản thể luận cho web (OWL), ... Các ngôn ngữ này cung cấp khả năng biểu diễn và hỗ trợ lập luận khác nhau và chúng dựa trên nền tảng là các ngôn ngữ logic mô tả tƣơng ứng khác nhau. Để cung cấ p các luâ ̣t suy diễn dƣ̣a trên các ngôn ngƣ̃ bản thể luâ ̣n , mô ̣t số ngôn ngƣ̃ luâ ̣t đang đƣơ ̣c phát triể n và chuẩ n hóa , chẳ ng ha ̣n, ngôn ngƣ̃ Qui tắ c trao đổ i đinh ̣ da ̣ng (Rule Interchange Format RIF ). Để truy vấ n dƣ̃ liê ̣u RDF trong mô ̣t cơ sở tri thƣ́c , ngôn ngƣ̃ truy vấ n RDF : Simple Protocol and RDF Query Language – SPARQL đã đƣơ ̣c đề xuấ t . Ngôn ngƣ̃ SPARQL là ngôn ngƣ̃ truy vấ n tƣơng tƣ̣ nhƣ ngôn ngƣ̃ truy vấ n có cấ u trúc SQL dùng để thao tác với các hệ hệ quản trị CSDL quan hệ vi. Tầ ng Logic Việc biểu diễn các tài nguyên dƣới dạng các bộ từ vựng ontology có mục đích là để máy có thể lập luận đƣợc. Mà cơ sở lập luận chủ yếu dựa vào logic. Chính vì vậy mà các ontology đƣợc ánh xạ sang logic , cụ thể là logic mô tả để có thể hỗ trợ lập luận. Vì logic mô tả có biểu diễn ngữ nghĩa hình thức và cung cấp các dịch vụ lập luận, là cơ sở để hỗ trợ máy tin ́ h có thể lập luận và hiểu tài nguyên. vii. Tầ ng chứng minh Tầng này đƣa ra các luật để suy luận. Cụ thể từ các thông tin đã có ta có thể suy ra các thông tin mới. Ví dụ: A là cha của B, A là em trai C thì khi đó ta có thông tin mới là C là bác của B. Để có đƣợc các suy luận này thì cơ sở là FOL (FirstOrder-Logic). Và tầng này hiện nay các nhà nghiên cứu đang xây dựng các ngôn ngữ luật cho nó nhƣ: SWRL, RuleML. 7 Để đảm bảo dƣ̃ liê ̣u đầ u vào đáng tin câ ̣y , có thể sử dụng mật mã , chẳ ng ha ̣n nhƣ sƣ̉ du ̣ng chƣ̃ kí điê ̣n tƣ̉ để thẩ m đinh ̣ xuấ t xƣ́ của nguồ n dƣ̃ liê ̣u [2] viii. Tầng xác nhận Đảm bảo tính tin cậy của các ứng dụng trên Web ngữ nghĩa . Ví dụ : có một mê ̣nh đề : X là A, một mê ̣nh đề khác la ̣i xác đinh ̣ X không là A , nhƣ thế Web ngữ nghĩa là không đáng tin cậy? Câu trả lời ở đây đƣợc xem xét trong các ngữ cảnh. Mỗi ứng dụng trên web ngữ nghĩa sẽ có một ngữ cảnh cụ thể, chính vì thế các mệnh đề trên có thể nằm trong các ngữ cảnh khác nhau khi đó ngữ nghĩa tƣơng ứng khác nhau nên các mệnh đề đó vẫn đúng, đáng tin cậy trong ngữ cảnh của nó. Để có đƣợc sự chứng minh về độ tin cậy thì các lập luận đƣợc áp dụng là không đơn điệu và có các cơ chế kiểm tra chứng minh kết hợp với công nghệ chữ ký điện tử để xác nhận độ tin cậy. Các ngôn ngữ chứng minh là ngôn ngữ cho ta chứng minh một mệnh đề là đúng hay sai. ix. Giao diêṇ ngườ i dùng và ứng du ̣ng Đây là tầ ng trƣ̣c tiế p giao tiế p với ngƣời dùng và ƣ́ng du ̣ng , tầ ng này cung cấ p giao diê ̣n cho ngƣời dùng và các dich ̣ vu ̣ khác truy câ ̣p . 1.3 Ngôn ngƣ̃ Cơ cấ u mô tả tài nguyên và Bản thể luâ ̣n 1.3.1 Ngôn ngữ mô tả tài nguyên RDF Ngôn ngữ biểu diễn dữ liệu và tri thức là một khía cạnh quan trọng của Semantic Web. Nhƣ đã đề câ ̣p ở bên trên, XML là nề n tảng cơ bản làm nên web ngƣ̃ nghĩa, tuy nhiên XML không đủ khả năng để ta ̣o ra ngƣ̃ nghiã trong web. Mă ̣c dù XML cho phép ngƣời dùng thêm dƣ̃ liê ̣u tùy ý vào cấ u trúc tài liê ̣u nhƣng nó không đề cập gì đến ngữ nghĩa của tài liệu hàm chứa. Ngôn ngƣ̃ Cơ cấ u mô tả tài nguyên - RDF đƣơ ̣c đề xuấ t nhằ m khắ c phu ̣c nhƣ̃ng nhƣơ ̣c điể m của XML không thể giải quyế t đƣơ ̣c . Đinh ̣ nghiã cơ bản của ngôn ngƣ̃ RDF là dùng để mã hóa các siêu dƣ̃ liê ̣u của các tài nguyên vào mô ̣t bô ̣ ba (RDF Triple): [chủ ngữ], [vị ngữ] và [đố i tƣơ ̣ng]. Ta biế t rằ ng mỗi mô ̣t thƣ̣c thể hay khái niệm đều có các thuộc tính , mỗi thuô ̣c tin ́ h đề u có các giá tri ̣ , vì vậy mọi tài nguyên cũng đề u có thể đƣơ ̣c biể u diễn qua ngôn ngƣ̃ RDF. XML cung cấp cú pháp để mã hóa dữ liệu, RDF là một cơ cấu chỉ ra điều gì đó về dữ liệu. RDF cung cấp một mô hình dữ liệu, và một cú pháp đơn giản sao cho 8 các hệ thống độc lập có thể trao đổi và sử dụng nó. RDF đƣợc thiết kế sao cho hệ thống máy tính có thể hiểu đƣợc và có thể đọc đƣợc thông tin, chứ không phải để trình bày dữ liệu cho ngƣời dùng. Là một thành phần của Web ngƣ̃ nghiã , đƣợc đặt trên XML, RDF sử dụng cú pháp của XML để biểu diễn thông tin, điều này có nghĩa là các tài liệu RDF đƣợc viết bằng XML. Ngôn ngữ XML dùng để biểu diễn thông tin trong RDF đƣợc gọi là RDF/XML. Thông qua định dạng này, các thông tin trong RDF có thể đƣợc trao đổi dễ dàng giữa các hệ thống máy tính cũng nhƣ các hệ điều hành hay các ngôn ngữ lập trình ứng dụng khác nhau. RDF mô tả các nguồn tài nguyên bởi bô ̣ ba [chủ ngữ], [vị ngữ], [ đố i tƣơ ̣ng]. Một [vị ngữ] là một khía cạnh , tính chất, thuộc tính, hay mối liên hệ mô tả cho một tài nguyên. Một phát biể u bao gồm một tài nguyên riêng biệt , một thuộc tính đƣợc đặt tên, và giá trị thuộc tính cho tài nguyên đó ([đố i tƣơ ̣ng]). Giá trị này cơ bản có thể là một tài nguyên khác hay một giá trị mang tính nghĩa đen hay dạng chuỗi văn bản tùy ý . [Chủ ngữ] và đối tƣợng đƣợc xác định qua Định danh tài nguyên thống nhấ t – URI, chẳ ng ha ̣n chúng có thể là mô ̣t liên kế t của mô ̣t trang w eb. Các [vị ngữ] cũng đƣợc xác định qua URI , do đó bấ t kì ai cũng có thể đinh ̣ nghiã ra mô ̣t khái niê ̣m mới, mô ̣t thuô ̣c tính mới, bằ ng cách chỉ cầ n đinh ̣ nghiã URI cho chúng . Bởi vì RDF sƣ̉ du ̣ng URI để biể u diễn các thông ti n trong mô ̣t tài liê ̣u , các URI đảm bảo rằ ng các khái niê ̣m không chỉ chƣ́a văn bản thuầ n túy mà nó còn là đinh ̣ danh tài nguyên duy nhấ t mà tấ t cả ngƣời dùng có thể tim . Trong ̀ kiế m đƣơ ̣c trên ma ̣ng RDF, các URI đóng một vai trò rất quan trọng: Chúng ta có thể tạo ra các (siêu) dữ liệu dựa trên bất kỳ một nguồn tài nguyên nào trên Web, ngữ nghĩa đƣợc đƣa vào các nguồn tài nguyên Web thông qua các URI, và URI cho phép liên kết giữa các phần tử dữ liệu thông qua các thuộc tính. i. Mô hi n ̀ h dữ liêụ RDF Sự kết hợp của một nguồn tài nguyên ([chủ ngữ]), một thuộc tính ([vị ngữ]) và một giá trị của thuộc tính đƣợc ([đố i tƣơ ̣ng]) đƣợc đặt trong một Phát_biể u . Ví dụ một câu nói nhƣ sau : ―Giám đố c của công ty Garden Network là Nguyễn Văn A‖ . Nhƣ vậy, ta có thể biểu diễn bởi một Phát_biể u với các ―thông số‖ sau: - Chủ ngƣ̃ của Phát_biể u RDF là: ―Công ty Garden Network‖ Tính chất là: ―Giám đố c‖ Đối tƣợng là: ―Nguyễn Văn A‖ 9 Mô hình cơ bản của RDF gồm ba bộ phận sau:  Tài nguyên: là tất cả những gì đƣợc mô tả bằng biểu thức RDF  Thuộc tính: là đặc tính hay quan hệ mô tả tính chất tài nguyên  Phát_biểu: mỗi phát biểu gồm ba thành phần sau - [Chủ ngữ]: địa chỉ hay vị trí tài nguyên muốn mô tả. - [Vị ngữ]: xác định tính chất của tài nguyên. - [ Đối tƣợng]: nội dung gán cho thuộc tính. RDF và Cơ sở dữ liêụ quan hê ̣ ii. Trong các Cơ sở dƣ̃ liê ̣u quan hê ̣ truyề n thố ng , dƣ̃ liê ̣u đƣơ ̣c lƣu dƣới da ̣ng các bảng. Trong mỗi bảng , mỗi hàng là mô ̣t bản ghi không có giới h ạn về số lƣợng các trƣờng. Ví dụ ta có bảng sau: ISBN Tên Tác giả NXB Số trang Giá bán 10001111 Lâ ̣p triǹ h C Lê A ĐHQG 250 45.000 10111112 Vi xƣ̉ lí Trầ n H Giáo dục 300 50.000 Nế u lƣu các dƣ̃ liê ̣u trên dƣới da ̣ng RDF , đòi hỏi c ác dữ liệu phải đƣợc chia nhỏ để lƣu dƣới dạng các bộ ba: ISBN Tên 10001111 Lâ ̣p trình C 10111112 Vi xƣ̉ lí Phát_biể u: {10001111, Tên, ―Lâ ̣p trin ̀ h C‖} So với CSDL quan hê ̣, cách lƣu trữ dƣới dạng RDF có những ƣu điểm sau: - Tổ chƣ́c dƣ̃ liê ̣u đơn giản, đồ ng nhấ t nên thông tin dễ dàng chỉnh sƣ̉a - Cấ u trúc bô ̣ ba giúp ta dễ truy xuấ t các thông tin bởi các hê ̣ thố ng suy luâ ̣n, tìm kiếm ngữ nghĩa. Cũng nhờ vậy mà những bộ xử lí RDF có thể suy ra nhƣ̃ng tri thƣ́c mới - Chia sẻ dƣ̃ liê ̣u trên ma ̣ng nhờ sƣ̣ đồ ng nhấ t. 10 iii. Đồ thị RDF Tâ ̣p hơ ̣p các bô ̣ ba ta ̣o thành đồ thi ̣RDF (đồ thi ̣có hƣớng ). Các nút trong đồ thị là [chủ ngữ] và [đố i tƣơ ̣ng], các cung trong đồ thị là [Vị ngữ] và luôn có hƣờng tƣ̀ [chủ ngữ] tới [đố i tƣơ ̣ng]. Dùng đồ thị làm cho thông tin thể hiện rõ ràng và dễ hình dung hơn. ng ng it ng Hình 1.2. Đồ thị RDF iv. Cú pháp của RDF Mô hình RDF thể hiện một mô hình ở mức trừu tƣợng để định nghĩa siêu dƣ̃ liê ̣u. Cú pháp RDF đƣợc dùng để tạo ra và trao đổi siêu dƣ̃ liê ̣u, vì thế RDF dựa trên cú pháp XML. Cú pháp cơ bản của RDF có dạng nhƣ sau: [1] RDF ::= [''] description* [''] [2] description ::= '' propertyElt* '' [3] idAboutAttr ::= idAttr | aboutAttr [4] aboutAttr ::= 'about="' URI-reference '"' [5] idAttr ::= 'ID="' IDsymbol '"' [6] propertyElt ::= '<' propName '>' value ''| '<' propName resourceAttr '/>' [7] propName ::= Qname [8] value ::= description | string [9] resourceAttr ::= 'resource="'tham chiếu URI'"' [10] Qname ::= [ NSprefix ':' ] name [11] URI-reference ::= string, interpreted per [URI] [12] IDsymbol ::= (bất kỳ ID nào hợp lệ nào của XML) [13] name ::= (bất kỳ tên hợp lệ nào của XML) [14] NSprefix ::= (bất kỳ tiếp đầu ngữ namespace hợp lệ nào) [15] string ::= (b t kỳ chuõ i nào Ví dụ: Xét phát biểu sau {ketquasoxo.html, create-date, ―10-10-2010‖} Cú pháp RDF/XML để biểu diễn cho phát biểu trên nhƣ sau: 11

- Xem thêm -

Tài liệu Ứng dụng Web ngữ nghĩa trong lưu trữ và quản lí các tài liệu số

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất