Ứng dụng Web ngữ nghĩa trong lưu trữ và quản lí các tài liệu số

  • Số trang: 66 |
  • Loại file: PDF |
  • Lượt xem: 10 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  Lương Đỗ Long ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƢU TRƢ̃ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ LUẬN VĂN THẠC SĨ KHOA HỌC HÀ NỘI - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ  Lương Đỗ Long ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƢU TRƢ̃ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ KHOA HỌC Cán bộ hướng dẫn khoa học : PGS. TS Đỗ Trung Tuấ n HÀ NỘI - 2011 MỤC LỤC Chƣơng 1. TỔNG QUAN VỀ WEB NGƢ̃ NGHĨA .................................................1 1.1. Khái niệm Web ngữ nghĩa và Siêu dữ liệu .....................................................1 1.1.1. Khái niệm ................................................................................................1 1.1.2. Siêu dƣ̃ liê ̣u .............................................................................................2 1.2. Kiế n trúc Web ngƣ̃ nghiã ...............................................................................3 1.3 Ngôn ngƣ̃ Cơ cấ u mô tả tài nguyên và Bản thể luâ ̣n ........................................8 1.3.1 Ngôn ngƣ̃ mô tả tài nguyên RDF ..............................................................8 1.3.2 Bản thể luận ........................................................................................... 15 1.3.3 Lƣơ ̣c đồ RDF và truy vấ n RDF............................................................... 16 Kết luận .............................................................................................................. 23 Chƣơng 2. TIẾP CẬN WEB NGƢ̃ NGHĨA TRONG LƢU TRƢ̃ VÀ QUẢN LÍ TÀI LIỆU SỐ ................................................................................................................ 24 2.1 Web ngƣ̃ nghiã và thƣ viê ̣n số ....................................................................... 24 2.1.1 Thƣ viê ̣n số ngƣ̃ nghiã ............................................................................ 24 2.1.2. Tổ chƣ́c tri thƣ́c trong thƣ viê ̣n .............................................................. 26 2.1.3. Web ngƣ̃ nghiã trong thƣ viê ̣n số ........................................................... 26 2.2. Kiế n trúc của thƣ viê ̣n số ngƣ̃ nghiã ............................................................. 30 2.3. Bản thể luận cho thƣ viện số ngữ nghĩa ....................................................... 31 2.3.1. Bản thể luâ ̣n biể u ghi thƣ mu ̣c ............................................................... 31 2.3.2. Bản thể luận cho cấu trúc nội dung ........................................................ 33 2.3.3. Cơ bản về sƣ̣ phân loa ̣i .......................................................................... 34 2.3.4. Xây dƣ̣ng Bản thể luâ ̣n .......................................................................... 36 2.4. Thƣ viê ̣n số ngữ nghĩa và mạng xã hội......................................................... 37 2.5. Tìm kiếm trong thƣ viện ngữ nghĩa .............................................................. 38 2.5.1. Tìm kiếm dựa trên sự phân loại ............................................................. 38 i 2.5.2. Tìm kiếm ngữ nghĩa .............................................................................. 38 Kết luận .............................................................................................................. 40 Chƣơng 3. Xây dƣ̣ng thƣ viê ̣n số ngƣ̃ nghiã dƣ̣a trên phầ n mề m JeromeDL ........... 41 3.1 Giới thiê ̣u phầ n mề m JeromeDL ................................................................... 41 3.2. Kiến trúc và Bản thể luận trong JeromeDL .................................................. 42 3.2.1. Kiến trúc của JeromeDL ........................................................................ 42 3.2.2. Bản thể luận trong JeromeDL ................................................................ 44 3.3. Truy vấn trong JeromeDL ............................................................................ 48 3.4. Sử dụng JeromeDL ...................................................................................... 51 Kết luận .............................................................................................................. 53 KẾT LUẬN VÀ HƢỚNG PHÁ T TRIỂN .............................................................. 54 TÀI LIỆU THAM KHẢO ...................................................................................... 56 ii Bảng kí hiệu thuật ngữ viết tắt Tên viế t tắ t WWW Tiế ng Viêṭ Mạng toàn cầu Tiế ng Anh W3C Tổ chức Mạng toàn cầu World Wide Web World Wide Web Consortium RDF Cơ cấu mô tả tài nguyên Resource Description Framework RDFS Lƣợc đồ Cơ cấu mô tả tài Resource Description Framework nguyên Scheme XML Ngôn ngữ đánh dấu mở rộng iii eXtensible Markup Language Danh mục hình ảnh Hình 1.1. Kiến trúc của Web ngữ nghĩa ..........................................................................................4 Hình 1.2. Đồ thị RDF ................................................................................................................... 11 Hình 1.3. Quan hệ kế thừa ............................................................................................................ 17 Hình 1.4. Không gian miền và giới hạn của thuộc tính RDFS ....................................................... 20 Hình 2.1. Các thành phần hỗ trợ thƣ viện số ngữ nghĩa ................................................................. 26 Hình 2.2. Biể u diễn cấ u trúc tài liê ̣u dƣới da ̣ng RDF ..................................................................... 29 Hình 2.3. Kiế n trúc thƣ viê ̣n số ngữ nghĩa .................................................................................... 31 Hình 2.4. Bản thể luận BibTeX .................................................................................................... 32 Hình 2.5. Một dạng cây phân cấp ................................................................................................. 35 Hình 2.6. Một Bản thể luận Cys ................................................................................................... 35 Hình 2.7. Quá trình tìm kiếm trong th ƣ viê ̣n số ngữ nghĩa ............................................................ 39 Hình 2.8. Quá trình chia sẻ dữ liê ̣u RDF ....................................................................................... 39 Hình 3.1. Giao diện của JeromeDL .............................................................................................. 42 Hình 3.2. Kiến trúc của JeromeDL ............................................................................................... 43 Hình 3.3. Bản thể luận MarcOnt ................................................................................................... 44 Hình 3.4. Bản thể luận cấu trúc nội dung ...................................................................................... 46 Hình 3.5. Mạng xã hội trong JeromeDL ....................................................................................... 48 Hình 3.6. Các bƣớc trong truy vấn JeromeDL............................................................................... 49 Hình 3.7. Giao diện chức năng tìm kiếm ngữ nghĩa ...................................................................... 52 Hình 3.8. Giao diện chức năng xuất bản tài liệu ............................................................................ 52 iv Danh mục bảng biểu Bảng 1. Các lớp trong RDFS ........................................................................................................ 18 Bảng 2. Các thuộc tính trong RDFS ............................................................................................. 19 Bảng 3. Các lớp, thuộc tính, thể hiện của Bản thể luận MarcOnt ................................................... 45 Bảng 4. Các lớp, thuộc tính, thể hiện của Bản thể luận cấu trúc nội dung ...................................... 47 v MỞ ĐẦU Web ngƣ̃ nghiã (hay Semantic Web) là thế hệ mở rộng của Web hiện tại đƣợc đƣa ra bởi Tim Berners-Lee vào khoảng năm 1998. Mục tiêu ban đầu của Semantic Web là để hỗ trợ ngƣời dùng tìm kiếm thông tin trên mạng một cách nhanh chóng, chuẩn xác và thông minh hơn so với các công cụ tìm kiếm truyền thống. Theo đinh ̣ nghiã của tổ chƣ́c World Wide Web Consort ium (W3C), web ngƣ̃ nghĩa là sự mở rộng của WWW hiê ̣n ta ̣i bằ ng cách thêm vào các mô tả ý nghiã (hay ngƣ̃ nghiã ) của thông tin dƣới dạng mà chƣơng trình mà máy tính có thể hiểu đƣợc và do vậy cho phép xử lí thông tin có hiệu quả hơn. Web ngƣ̃ nghiã cố gắ ng làm sao để máy tính hiểu đƣợc các khái niệm , mố i quan hê ̣ giƣ̃a các khái niê ̣m , các thuộc tính và các tiến trình của chúng . Trong trƣờng hơ ̣p này , máy tính có khả năng ra kết luâ ̣n và trić h xuấ t ra thông tin mới và có giá tri ̣tƣ̀ các dƣ̃ liê ̣u đã tồ n ta ̣i . Web ngƣ̃ nghĩa không phải là Trí tuệ nhân tạo (AI), nhƣng nó có thể xem là mô ̣t loa ̣i web thông minh, hay thế hê ̣ phát triể n tiế p theo của web . Nề n tảng cơ bản làm nên web ngƣ̃ nghiã là các siêu dƣ̃ liê ̣u (metadata) và bản thể luận . Siêu dƣ̃ liê ̣u có thể hiể u đơn giản là dƣ̃ liê ̣u về dƣ̃ liê ̣u , còn bản thể luận định nghĩa về các từ vựng đƣợc sử dụng trong các miền ứng dụng khác nha u. Các siêu dữ liệu có thể dùng để biểu diễn cho mo ̣i loa ̣i tài nguyên (thƣ̣c thể hoă ̣c các khái niê ̣m ). Mô ̣t cách để biể u diễn các khái niệm, và mối quan hệ giữa chúng trong một tài liệu là sử dụng ngôn ngữ mô tả tài nguyên RDF (Resource Description Framework). Các tài liệu số (tài nguyên ) thƣờng đƣờng lƣu trƣ̃ và truy câ ̣p qua các cổ ng thông tin và các thƣ viê ̣n số . Các thƣ viện số ngoài chức năng lƣu trữ các tài liệu số , còn có chức năng cho phé p ngƣời sƣ̉ du ̣ng tim ̀ kiế m các tài liê ̣u có liên quan mô ̣t cách nhanh nhất . Các siêu dữ liệu là một trong những cách tiếp cận cho việc biên mục, phân loa ̣i và hỗ trơ ̣ tim ̀ kiế m các tài liê ̣u số . Trong cách biể u diễn bởi các s iêu dƣ̃ liê ̣u, các tài liệu số đƣợc ―cấu trúc hóa‖ vào các siêu dữ liệu . Bấ t kì thông tin nào trong các thƣ viê ̣n số cũng có thể đƣơ ̣c biể u diễn bởi các siêu dƣ̃ liê ̣u , với cách biể u diễn này sẽ thuâ ̣n lơ ̣i cho viê ̣c quản lí và ngƣời dùng dễ dàng tìm kiếm ra các tài liệu gố c. Ngoài ra , cách tiếp cận này cho phép các thƣ viện số dễ dàng chia sẻ các tài nguyên với nhau dƣ̣a trên mô ̣t chuẩ n đă ̣c tả chung . Viê ̣c tić h hơ ̣p ngƣ̃ nghiã vào các vi thƣ viê ̣n số dƣ̣a trên kiế n trúc của Web ngƣ̃ nghiã làm cho thƣ viê ̣n số có nhiề u ƣu điể m hơn so với cách tiế p câ ̣n thông thƣờng. Luâ ̣n văn này tìm hiể u chung nhấ t về kiế n trúc của web ngƣ̃ nghiã , dƣ̣a trên cách tiếp cận web ngữ nghĩa , tìm hiể u cách tić h hơ ̣p ngƣ̃ nghiã vào các thƣ viên số . Cấ u trúc của luâ ̣n văn gồ m 3 chƣơng: Chương 1: Tổ ng quan về Web ngữ nghiã Tìm hiểu chung nhất về kiến trúc của web ngữ nghĩa , các thành phần cơ bản làm nên web ngữ nghĩa. Chương 2: Tiế p câ ̣n Web ngữ trong lưu trữ và quản lí tài liêụ số Tìm hiểu mô ̣t trong nhƣ̃ng cách quản lí tài liê ̣u số đ ó là thƣ viện số . Nghiên cƣ́u cách tích hợp ngữ nghĩa vào các tài nguyên trong thƣ viê ̣n số : cơ chế biên mu ̣c và phân loại dựa trên ngữ nghĩa Chương 3: Xây dựng thư viê ̣ n số ngữ nghiã dựa trên phầ n mề m JeromeDL Giới thiê ̣u phầ n mề m mã nguồ n mở JeromeDL trong viê ̣c xây dƣ̣ng các thƣ viê ̣n số ngƣ̃ nghiã . vii Chƣơng 1. TỔNG QUAN VỀ WEB NGƢ̃ NGHĨA Trong chƣơng này , sẽ giới thiệu công nghệ cơ bản đƣợc sử dụng trong luận văn, bao gồ m đinh ̣ nghiã về web ngƣ̃ nghiã , nhƣ̃ng nồ lƣ̣c trong viê ̣c xây dƣ̣ng web ngƣ̃ nghiã tƣ̀ web hiê ̣n ta ̣i , giới thiê ̣u kiế n trúc web ngƣ̃ nghiã của tổ chức World WideWeb Consortium (W3C). Tìm hiểu về Bản thể luận và ngôn ngữ bản thể luận. 1.1. Khái niệm Web ngƣ̃ nghiã và Siêu dữ liệu 1.1.1. Khái niệm Sau khi ra đời của Internet và World Wide Web (WWW), rấ t nhiề u nhƣ̃ng nỗ lƣ̣c đã đƣơ ̣c thƣ̣c hiê ̣n và các công nghê ̣ đƣơ ̣c phát triể n nhằ m mu ̣c đić h làm cho World Wide Web tố t hơn , nhanh hơn, và thông minh hơn . Nhiề u công nghê ̣ , kiế n nghị sau khi xuất hiện đã trở thành chuẩn chung chỉ trong mô ̣t thời gi an ngắ n . Mô ̣t trong nhƣ̃ng nỗ lƣ̣c này là web ngƣ̃ nghiã . Web ngƣ̃ nghiã có thể đƣơ ̣c xem là sƣ̣ mở rô ̣ng của web hiê ̣n ta ̣i . Web ngƣ̃ nghiã không phải là Trí tuê ̣ nhân ta ̣o , nhƣng có thể xem là mô ̣t da ̣ng web thông minh. Web ngƣ̃ nghiã là sự mở rộng của WWW bằng cách thêm vào các mô tả ngữ nghĩa của thông tin dƣới dạng mà chƣơng trình máy tính có thể ―hiểu‖ và do vậy cho phép xử lý thông tin hiệu quả hơn [3]. Xét về mặt bản chất, Semantic Web ngƣ̃ nghĩa chỉ là một công cụ để con ngƣời cũng nhƣ máy tính sử dụng để biểu diễn thông tin, hay nói chính xác hơn thì Web ngƣ̃ nghiã chỉ là một dạng dữ liệu trên Web. Khác với các dạng thức dữ liệu đƣợc trình bày trong HTML, dữ liệu trong Semantic Web đƣợc đánh dấu, phân lớp, mô hình hóa, đƣợc bổ sung thêm các thuộc tính, các mối liên hệ… theo các lĩnh vực cụ thể, qua đó giúp cho các phần mềm máy tính có thể hiểu đƣợc dữ liệu và tự động xử lý đƣợc những dữ liệu đó. Có thể kể ra đây những ƣu điểm của web ngữ nghĩa so với web hiện tại:  Máy tính có thể hiểu đƣợc thông tin trên Web: Web ngữ nghĩa định nghĩa các khái niệm và bổ sung quan hệ dƣới dạng máy tính có thể hiểu đƣợc. Do 1 đó, việc tìm kiếm, đánh giá, xử lý, tích hợp thông tin có thể đƣợc tiến hành một cách tự động.  Thông tin đƣợc tìm kiếm nhanh chóng và chính xác hơn: Với Web ngữ nghĩa, máy tính có thể xác định một thực thể thuộc lớp hay thuộc tính cụ thể nào dựa trên ngữ cảnh chứa nó. Do đó thu hẹp không gian tìm kiếm và cho kết quả nhanh, chính xác hơn.  Khả năng suy luận thông minh: Dựa vào các luật suy diễn trên cơ sở tri thức về các thực thể, máy tính có khả năng sinh ra những kết luận mới.  Dữ liệu liên kết động: Thay thế cách liên kết sử dụng hyperlink tĩnh trong Web cũ, Web ngữ nghĩa liên kết dữ liệu từ nhiều nguồn khác nhau một cách hiệu quả hơn dựa trên định danh của tài nguyên (URI) và quan hệ giữa chúng. Cách liên kết này đôi khi còn đƣợc gọi là liên kết bằng siêu dữ liệu. Trong web ngƣ̃ nghiã , với sƣ̣ trơ ̣ giúp của các công nghê ̣ khác , chúng ta có thể trơ ̣ giúp cho má y tính hiể u đƣơ ̣c các khái niê ̣m , mố i quan hê ̣ giƣ̃a chúng , xƣ̉ lí nhanh chóng, chính xác các truy vấn từ ngƣời dùng. 1.1.2. Siêu dữ liêụ Mô ̣t trong nhƣ̃ng nề n tảng cơ bản làm nên web ngƣ̃ nghiã là các siêu dƣ̃ liê ̣u . Siêu dữ liệu dùng để mô tả tài nguyên thông tin , còn gọi là dữ liệu về dữ liệu . Mỗi thƣ̣c thể hay khái niê ̣m có thể có mô ̣t hay nhiề u siêu dƣ̃ liê ̣u . Cho ví du ̣, mô ̣t khóa luâ ̣n tố t nghiê ̣n có [mô ̣t tác giả ], [tên khóa luâ ̣n ], [cán bộ hƣớng dẫ n], ... là các siêu dƣ̃ liê ̣u về khóa luâ ̣n . Chúng ta có thể đơn giản hóa việc phân loại và truy vấn dữ liệu bằng cách dùng các siêu dữ liệu. Mối liên hệ giữa siêu dữ liệu và tài nguyên thông tin mà nó mô tả có thể đƣợc thể hiện ở một trong hai cách sau:  Các phần tử metadata đƣợc chứa trong một biểu ghi tách biệt bên ngoài đối tƣợng mô tả.  Các phần tử metadata có thể đƣợc nhúng (gắn) vào bên trong tài nguyên mà nó mô tả. Trƣớc đây với tài liệu truyền thống, các mô tả dữ liệu nằm ngoài đối tƣợng mô tả, nhƣ vậy siêu dữ liệu đƣợc lƣu trữ một cách tách biệt bên ngoài đối tƣơng mô tả. 2 Với tài liệu số , siêu dữ liệu của chúng đƣợc nhúng (gắn) trong bản thân tài nguyên hoặc liên kết với tài nguyên mà nó mô tả nhƣ trong trƣờng hợp các thẻ meta của tài liệu HTML i. Sơ đồ siêu dữ liêụ Sơ đồ siêu dữ liệu là tập hợp những yếu tố siêu dữ liệu đƣợc thiết kế cho mô tả một dạng tài nguyên thông tin cụ thể. Nhƣ vậy siêu dữ liệu là sơ đồ hình thức đƣợc xác định để mô tả tài nguyên thông tin cho đối tƣợng số hoặc không số. Thí dụ tập hợp yếu tố siêu dữ liệu Dublin Core có sơ đồ bao gồm 15 yếu tố cơ bản để mô tả tài nguyên thông tin. ii. Ngữ nghiã Định nghĩa các yếu tố hoặc ý nghĩa đực gán cho các yếu tố siêu dữ liệu thì đƣợc gọi là ngữ nghĩa của sơ đồ. Mỗi sơ đồ siêu dữ liệu có ngữ nghĩa và cú pháp đƣợc quy định riêng. Ví dụ trong yếu tố siêu dữ liệu Dublin Core yếu tố ―Creator‖ – dùng để xác định là tác giả của tài liệu, hoặc yếu tố ―Title‖ – đƣợc hiểu là nhan đề của tài liệu. iii. Nô ̣i dung Giá trị (dữ liệu) của từng yếu tố đƣợc gọi là nội dung . Đó chính là giá trị của mỗi yếu tố siêu dữ liệu . Nhờ các sơ đồ dữ liệu , các chƣơng trình xử lý tự động sẽ nhận biết đoạn dữ liệu nào sẽ thuộc thành phần nào , chẳng hạn đoạn dữ liệu này đƣợc nhâ ̣n biết là nhan đề, đoạn dữ liệu kia đƣợc nhận biết là tác giả của tài liệu. 1.2. Kiế n trúc Web ngƣ̃ nghiã Để có đƣợc những khả năng nhƣ đã đề cập ở phần trên , web ngƣ̃ nghiã cầ n có mô ̣t ha ̣ tầ ng chă ̣t chẽ với nhiề u lớp hỗ trơ ̣ . Dƣới đây là kiế n trúc tổ ng quát nhấ t của web ngƣ̃ nghiã do tổ chƣ́c W3C đề xuấ t: 3 Giao di n ng ng v i ng ng Tin c y Ch ng minh Logic Truy v n: SPARQL n th lu n: OWL Lu t: RIF M t RDFS Trao đ i d li u RDF XML URI Unicode Hình 1.1. Kiến trúc của Web ngữ nghĩa i. Unicode và đinh ̣ danh tài nguyên thố ng nhấ t Tầ ng thấ p nhấ t là tài nguyên (mô ̣t đố i tƣơ ̣ng, mô ̣t thƣ̣c thể hay mô ̣t khái niê ̣m , v.v...), chúng đƣợc mô tả bằng các định danh tài nguyên thống nhất - Uniform Resource Identifier (URI). Mục đích của tầng này là xác định tính duy nhất của mỗi tài nguyên . Mô ̣t tài nguyên có duy nhấ t mô ̣ t URI , tâ ̣p con của URI là đinh ̣ vi ̣tài nguyên thố ng nhấ t : Uniform Resource Locator (URL), nó chứa phƣơng thức truy câ ̣p và vi ̣trí của tài liê ̣u trên ma ̣ng . Mô ̣t tâ ̣p con khác của URI là tên tài nguyên thố ng nhấ t : Uniform Resource Name (URN), cho phép xác đinh ̣ mô ̣t tài nguyên mà không cầ n phải chƣ́a điạ chỉ và phƣơng thƣ́c truy câ ̣p đế n nó , ví dụ chỉ số ISBN là mô ̣t URN . Viê ̣c sƣ̉ du ̣ng URI là rấ t quan tro ̣ng , vì nó cho phép xây dựng một hệ thố ng phân tán , trong đó các tài nguyên nằ m ở nhiề u nơi khác nhau trên ma ̣ng . Mô ̣t biế n thể khác của URI là đinh ̣ danh tài nguyên đƣơ ̣c quố c tế hóa : Internationalized Resource Identifier (IRI), nó cho phép sử đụng các kí tự Unicode trong định danh [1]. Để mã hóa các thông tin , dƣ̃ liê ̣u ta sƣ̉ du ̣ng chuẩ n mã hóa Unicode , đây là chuẩ n thố ng nhấ t dùng để mã hóa các tâ ̣p kí tƣ̣ quố c tế . Nó cho phép tất cả các ngôn ngƣ̃ của tấ t cả các nƣớc có thể đƣơ ̣c mã hóa thố ng nhấ t , tránh hiện tƣợng mỗi quốc gia la ̣i sƣ̉ du ̣ng mô ̣t chuẩ n mã hóa riêng, gây khó khăn cho trao đổ i dƣ̃ liê ̣u. 4 ii. Biể u diễn XML Tầ ng tiế p theo là Ngôn ngƣ̃ đánh dẫu mở rô ̣ng : Extensible Markup Language (XML), nó đƣợc dùng để biểu diễn dữ liê ̣u mà máy tính có thể hiể u và xƣ̉ lí dƣ̃ liê ̣u đƣơ ̣c. XML là công nghê ̣ chiń h và là chuẩ n của web hiê ̣n ta ̣i và trong tƣơng lai . Với XML, máy tính có thể tích hợp và tƣơng tác trao đổi dữ liệu với nhau . XML cung cấp một phƣơng tiện dùng văn bản để mô tả thông tin và áp dụng một cấu trúc kiểu cây cho thông tin đó. Tại mức căn bản, mọi thông tin đều thể hiện dƣới dạng text, chen giữa là các thẻ đánh dấu với nhiệm vụ ký hiệu sự phân chia thông tin thành một cấu trúc có thứ bậc của các dữ liệu ký tự, các phần tử dùng để chứa dữ liệu, và các thuộc tính của các phần tử đó. Đơn vị cơ sở của XML là các ký tự theo định nghĩa của Bộ ký tự toàn cầu (Universal Character Set). Các ký tự đƣợc kết hợp theo các tổ hợp chuỗi hợp lệ để tạo thành một tài liệu XML. Tài liệu này gồm một hoặc nhiều thực thể, mỗi thực thể thƣờng là một phần nào đó của các ký tự thuộc tài liệu, đƣợc mã hóa dƣới dạng một chuỗi các bit và lƣu trữ trong một tệp văn bản. Các tệp XML có thể dùng cho nhiều loại dữ liệu đa phƣơng tiện. RFC3023 định nghĩa các loại "application/xml" và "text/xml", với ý rằng dữ liệu đƣợc biểu diễn bằng XML mà không nói gì đến ngữ nghĩa của dữ liệu. Bằng cách cho phép các tên dữ liệu , cấu trúc thứ bậc đƣợc phép , và ý nghĩa của các phần tử và thuộc tính có tính chất mở và có thể đƣợc định nghĩa bởi một lƣơ ̣c đồ tùy biến đƣợc (XML Scheme), XML cung cấp một cơ sở cú pháp (Document Type Definition - DTD) cho việc tạo lập các ngôn ngữ đánh dấu dựa XML theo yêu cầu. Cú pháp chung của các ngôn ngữ đó là cố định — các tài liệu phải tuân theo các quy tắc chung của XML, bảo đảm rằng tất cả các phần mềm hiểu XML ít ra cũng phải có khả năng đọc (phân tích cú pháp) và hiểu bố cục tƣơng đối của thông tin trong các tài liệu đó . Lƣơ ̣c đồ chỉ bổ sung một tập các ràng buộc cho các quy tắc cú pháp . Các lƣơ ̣c đồ thƣờng hạn chế tên của phần tử và thuộc tính và các cấu trúc thứ bậc đƣợc phép, ví dụ, chỉ cho phép một phần tử tên 'ngày sinh' chứa một phần tử tên 'ngày' và một phần tử có tên 'tháng', mỗi phần tử phải chứa đúng một ký tự. Có một khái niệm rất quan trọng trong XML là Không gian tên XML (XML namespace). Không gian tên XML là cơ chế cho phép gom các tên phân tƣ̉ và thuô ̣c tính vào một nhóm. Nó thƣờng xuyên đƣợc dùng để phối hợp việc dùng tên phần tử (hay thuô ̣c tính ) tƣ̀ nhiề u nguồ n khác nhau trong mô ̣t tài liê ̣u XML , mà vẫn tránh đƣơ ̣c nguy cơ trùng tên. Mô ̣t Không gian tên là tập hợp các tên có thể dùng trong tài 5 liê ̣u XML , nhƣ tên các phầ n tƣ̉ , thuô ̣c tin ́ h ,..., nó gom các tên này vào các vùng riêng. iii. Trao đổ i dữ liêụ RDF Cơ cấ u mô tả tài nguyên - RDF đƣợc W3C giới thiệu để cung cấp một cú pháp chuẩn để tạo, thay đổi và sử dụng các chú thích trong Web ngữ nghĩa. Một mệnh đề RDF là một bộ ba có dạng: [chủ đề], [thuộc tính], [đốitƣợng]. Trong đó, [chủ đề] là tài nguyên mà đƣợc mô tả bằng [thuộc tính] và [đối tƣợng]. [Thuộc tính] thể hiện mối quan hệ giữa [chủ đề] và [đối tƣợng]. Còn [đối tƣợng] ở đây có thể là một tài nguyên hoặc một giá trị. Ba thành phần trên trong RDF đều là các URI. Ví dụ về biểu diễn RDF của siêu dữ liệu Dublin Core: Lƣơng Đõ Long Cá c dạng khảo sá t hà m só Giới thiệu cá c da ̣ng khảo sá t hà m só th ƣờng hay gặp trong cá c kì thi đại học 2000-01-20 Chi tiế t về RDF sẽ đƣơ ̣c đề câ ̣p chi tiế t ở phầ n sau. iv. Lươ ̣c đồ RDF Để xác đinh ̣ r a cấ u trúc và ngƣ̃ nghiã của RDF , ngôn ngƣ̃ lƣơ ̣c đồ RDF : RDF Scheme (hay RDFS) đã đƣơ ̣c đề xuấ t . RDFS là một ngôn ngữ Bản thể luận đơn giản của web ngữ nghĩa, đƣợc coi là một ngôn ngữ cơ sở của web ngữ nghĩa. RDFS cung cấ p mô ̣t phƣơng tiê ̣n đ ể đặc tả các từ vựng mô tả tính chất và quan hệ giữa các tài nguyên RDF, bao gồ m: - Định nghĩa các lớp tài nguyên - Định nghĩa các quan hệ giữa các lớp - Định nghĩa các loại thuộc tính mà các lớp trên có 6 v. Định nghĩa các mối quan hệ giữa các thuộc tính. Bản thể luận Đối với mỗi miền ứng dụng cụ thể , sẽ có một tập các khái niệm và các mối quan hê ̣, ràng buộc giữa chúng tạo thành một bản thể luận . Mô ̣t khái niê ̣m có thể là mô ̣t lớp, mô ̣t thuô ̣c tính của mô ̣t lớp h ay bô ̣ tƣ̀ vƣ̣ng sƣ̉ du ̣ng trong miề n ƣ́ng du ̣ng đó. Bộ từ vựng bản thể luâ ̣n đƣợc xây dựng trên cơ sở tầng RDF và RDFS , cung cấp biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên web và có khả năng hỗ trợ lập luận. Để xây dựng đƣợc các bộ từ vựng này, ngƣời ta đã sử dụng các ngôn ngữ bản thể luâ ̣n để biểu diễn chúng nhƣ : RDFS, OIL, DAML, DAML+OIL, hay ngôn ngƣ̃ bản thể luận cho web (OWL), ... Các ngôn ngữ này cung cấp khả năng biểu diễn và hỗ trợ lập luận khác nhau và chúng dựa trên nền tảng là các ngôn ngữ logic mô tả tƣơng ứng khác nhau. Để cung cấ p các luâ ̣t suy diễn dƣ̣a trên các ngôn ngƣ̃ bản thể luâ ̣n , mô ̣t số ngôn ngƣ̃ luâ ̣t đang đƣơ ̣c phát triể n và chuẩ n hóa , chẳ ng ha ̣n, ngôn ngƣ̃ Qui tắ c trao đổ i đinh ̣ da ̣ng (Rule Interchange Format RIF ). Để truy vấ n dƣ̃ liê ̣u RDF trong mô ̣t cơ sở tri thƣ́c , ngôn ngƣ̃ truy vấ n RDF : Simple Protocol and RDF Query Language – SPARQL đã đƣơ ̣c đề xuấ t . Ngôn ngƣ̃ SPARQL là ngôn ngƣ̃ truy vấ n tƣơng tƣ̣ nhƣ ngôn ngƣ̃ truy vấ n có cấ u trúc SQL dùng để thao tác với các hệ hệ quản trị CSDL quan hệ vi. Tầ ng Logic Việc biểu diễn các tài nguyên dƣới dạng các bộ từ vựng ontology có mục đích là để máy có thể lập luận đƣợc. Mà cơ sở lập luận chủ yếu dựa vào logic. Chính vì vậy mà các ontology đƣợc ánh xạ sang logic , cụ thể là logic mô tả để có thể hỗ trợ lập luận. Vì logic mô tả có biểu diễn ngữ nghĩa hình thức và cung cấp các dịch vụ lập luận, là cơ sở để hỗ trợ máy tin ́ h có thể lập luận và hiểu tài nguyên. vii. Tầ ng chứng minh Tầng này đƣa ra các luật để suy luận. Cụ thể từ các thông tin đã có ta có thể suy ra các thông tin mới. Ví dụ: A là cha của B, A là em trai C thì khi đó ta có thông tin mới là C là bác của B. Để có đƣợc các suy luận này thì cơ sở là FOL (FirstOrder-Logic). Và tầng này hiện nay các nhà nghiên cứu đang xây dựng các ngôn ngữ luật cho nó nhƣ: SWRL, RuleML. 7 Để đảm bảo dƣ̃ liê ̣u đầ u vào đáng tin câ ̣y , có thể sử dụng mật mã , chẳ ng ha ̣n nhƣ sƣ̉ du ̣ng chƣ̃ kí điê ̣n tƣ̉ để thẩ m đinh ̣ xuấ t xƣ́ của nguồ n dƣ̃ liê ̣u [2] viii. Tầng xác nhận Đảm bảo tính tin cậy của các ứng dụng trên Web ngữ nghĩa . Ví dụ : có một mê ̣nh đề : X là A, một mê ̣nh đề khác la ̣i xác đinh ̣ X không là A , nhƣ thế Web ngữ nghĩa là không đáng tin cậy? Câu trả lời ở đây đƣợc xem xét trong các ngữ cảnh. Mỗi ứng dụng trên web ngữ nghĩa sẽ có một ngữ cảnh cụ thể, chính vì thế các mệnh đề trên có thể nằm trong các ngữ cảnh khác nhau khi đó ngữ nghĩa tƣơng ứng khác nhau nên các mệnh đề đó vẫn đúng, đáng tin cậy trong ngữ cảnh của nó. Để có đƣợc sự chứng minh về độ tin cậy thì các lập luận đƣợc áp dụng là không đơn điệu và có các cơ chế kiểm tra chứng minh kết hợp với công nghệ chữ ký điện tử để xác nhận độ tin cậy. Các ngôn ngữ chứng minh là ngôn ngữ cho ta chứng minh một mệnh đề là đúng hay sai. ix. Giao diêṇ ngườ i dùng và ứng du ̣ng Đây là tầ ng trƣ̣c tiế p giao tiế p với ngƣời dùng và ƣ́ng du ̣ng , tầ ng này cung cấ p giao diê ̣n cho ngƣời dùng và các dich ̣ vu ̣ khác truy câ ̣p . 1.3 Ngôn ngƣ̃ Cơ cấ u mô tả tài nguyên và Bản thể luâ ̣n 1.3.1 Ngôn ngữ mô tả tài nguyên RDF Ngôn ngữ biểu diễn dữ liệu và tri thức là một khía cạnh quan trọng của Semantic Web. Nhƣ đã đề câ ̣p ở bên trên, XML là nề n tảng cơ bản làm nên web ngƣ̃ nghĩa, tuy nhiên XML không đủ khả năng để ta ̣o ra ngƣ̃ nghiã trong web. Mă ̣c dù XML cho phép ngƣời dùng thêm dƣ̃ liê ̣u tùy ý vào cấ u trúc tài liê ̣u nhƣng nó không đề cập gì đến ngữ nghĩa của tài liệu hàm chứa. Ngôn ngƣ̃ Cơ cấ u mô tả tài nguyên - RDF đƣơ ̣c đề xuấ t nhằ m khắ c phu ̣c nhƣ̃ng nhƣơ ̣c điể m của XML không thể giải quyế t đƣơ ̣c . Đinh ̣ nghiã cơ bản của ngôn ngƣ̃ RDF là dùng để mã hóa các siêu dƣ̃ liê ̣u của các tài nguyên vào mô ̣t bô ̣ ba (RDF Triple): [chủ ngữ], [vị ngữ] và [đố i tƣơ ̣ng]. Ta biế t rằ ng mỗi mô ̣t thƣ̣c thể hay khái niệm đều có các thuộc tính , mỗi thuô ̣c tin ́ h đề u có các giá tri ̣ , vì vậy mọi tài nguyên cũng đề u có thể đƣơ ̣c biể u diễn qua ngôn ngƣ̃ RDF. XML cung cấp cú pháp để mã hóa dữ liệu, RDF là một cơ cấu chỉ ra điều gì đó về dữ liệu. RDF cung cấp một mô hình dữ liệu, và một cú pháp đơn giản sao cho 8 các hệ thống độc lập có thể trao đổi và sử dụng nó. RDF đƣợc thiết kế sao cho hệ thống máy tính có thể hiểu đƣợc và có thể đọc đƣợc thông tin, chứ không phải để trình bày dữ liệu cho ngƣời dùng. Là một thành phần của Web ngƣ̃ nghiã , đƣợc đặt trên XML, RDF sử dụng cú pháp của XML để biểu diễn thông tin, điều này có nghĩa là các tài liệu RDF đƣợc viết bằng XML. Ngôn ngữ XML dùng để biểu diễn thông tin trong RDF đƣợc gọi là RDF/XML. Thông qua định dạng này, các thông tin trong RDF có thể đƣợc trao đổi dễ dàng giữa các hệ thống máy tính cũng nhƣ các hệ điều hành hay các ngôn ngữ lập trình ứng dụng khác nhau. RDF mô tả các nguồn tài nguyên bởi bô ̣ ba [chủ ngữ], [vị ngữ], [ đố i tƣơ ̣ng]. Một [vị ngữ] là một khía cạnh , tính chất, thuộc tính, hay mối liên hệ mô tả cho một tài nguyên. Một phát biể u bao gồm một tài nguyên riêng biệt , một thuộc tính đƣợc đặt tên, và giá trị thuộc tính cho tài nguyên đó ([đố i tƣơ ̣ng]). Giá trị này cơ bản có thể là một tài nguyên khác hay một giá trị mang tính nghĩa đen hay dạng chuỗi văn bản tùy ý . [Chủ ngữ] và đối tƣợng đƣợc xác định qua Định danh tài nguyên thống nhấ t – URI, chẳ ng ha ̣n chúng có thể là mô ̣t liên kế t của mô ̣t trang w eb. Các [vị ngữ] cũng đƣợc xác định qua URI , do đó bấ t kì ai cũng có thể đinh ̣ nghiã ra mô ̣t khái niê ̣m mới, mô ̣t thuô ̣c tính mới, bằ ng cách chỉ cầ n đinh ̣ nghiã URI cho chúng . Bởi vì RDF sƣ̉ du ̣ng URI để biể u diễn các thông ti n trong mô ̣t tài liê ̣u , các URI đảm bảo rằ ng các khái niê ̣m không chỉ chƣ́a văn bản thuầ n túy mà nó còn là đinh ̣ danh tài nguyên duy nhấ t mà tấ t cả ngƣời dùng có thể tim . Trong ̀ kiế m đƣơ ̣c trên ma ̣ng RDF, các URI đóng một vai trò rất quan trọng: Chúng ta có thể tạo ra các (siêu) dữ liệu dựa trên bất kỳ một nguồn tài nguyên nào trên Web, ngữ nghĩa đƣợc đƣa vào các nguồn tài nguyên Web thông qua các URI, và URI cho phép liên kết giữa các phần tử dữ liệu thông qua các thuộc tính. i. Mô hi n ̀ h dữ liêụ RDF Sự kết hợp của một nguồn tài nguyên ([chủ ngữ]), một thuộc tính ([vị ngữ]) và một giá trị của thuộc tính đƣợc ([đố i tƣơ ̣ng]) đƣợc đặt trong một Phát_biể u . Ví dụ một câu nói nhƣ sau : ―Giám đố c của công ty Garden Network là Nguyễn Văn A‖ . Nhƣ vậy, ta có thể biểu diễn bởi một Phát_biể u với các ―thông số‖ sau: - Chủ ngƣ̃ của Phát_biể u RDF là: ―Công ty Garden Network‖ Tính chất là: ―Giám đố c‖ Đối tƣợng là: ―Nguyễn Văn A‖ 9 Mô hình cơ bản của RDF gồm ba bộ phận sau:  Tài nguyên: là tất cả những gì đƣợc mô tả bằng biểu thức RDF  Thuộc tính: là đặc tính hay quan hệ mô tả tính chất tài nguyên  Phát_biểu: mỗi phát biểu gồm ba thành phần sau - [Chủ ngữ]: địa chỉ hay vị trí tài nguyên muốn mô tả. - [Vị ngữ]: xác định tính chất của tài nguyên. - [ Đối tƣợng]: nội dung gán cho thuộc tính. RDF và Cơ sở dữ liêụ quan hê ̣ ii. Trong các Cơ sở dƣ̃ liê ̣u quan hê ̣ truyề n thố ng , dƣ̃ liê ̣u đƣơ ̣c lƣu dƣới da ̣ng các bảng. Trong mỗi bảng , mỗi hàng là mô ̣t bản ghi không có giới h ạn về số lƣợng các trƣờng. Ví dụ ta có bảng sau: ISBN Tên Tác giả NXB Số trang Giá bán 10001111 Lâ ̣p triǹ h C Lê A ĐHQG 250 45.000 10111112 Vi xƣ̉ lí Trầ n H Giáo dục 300 50.000 Nế u lƣu các dƣ̃ liê ̣u trên dƣới da ̣ng RDF , đòi hỏi c ác dữ liệu phải đƣợc chia nhỏ để lƣu dƣới dạng các bộ ba: ISBN Tên 10001111 Lâ ̣p trình C 10111112 Vi xƣ̉ lí Phát_biể u: {10001111, Tên, ―Lâ ̣p trin ̀ h C‖} So với CSDL quan hê ̣, cách lƣu trữ dƣới dạng RDF có những ƣu điểm sau: - Tổ chƣ́c dƣ̃ liê ̣u đơn giản, đồ ng nhấ t nên thông tin dễ dàng chỉnh sƣ̉a - Cấ u trúc bô ̣ ba giúp ta dễ truy xuấ t các thông tin bởi các hê ̣ thố ng suy luâ ̣n, tìm kiếm ngữ nghĩa. Cũng nhờ vậy mà những bộ xử lí RDF có thể suy ra nhƣ̃ng tri thƣ́c mới - Chia sẻ dƣ̃ liê ̣u trên ma ̣ng nhờ sƣ̣ đồ ng nhấ t. 10 iii. Đồ thị RDF Tâ ̣p hơ ̣p các bô ̣ ba ta ̣o thành đồ thi ̣RDF (đồ thi ̣có hƣớng ). Các nút trong đồ thị là [chủ ngữ] và [đố i tƣơ ̣ng], các cung trong đồ thị là [Vị ngữ] và luôn có hƣờng tƣ̀ [chủ ngữ] tới [đố i tƣơ ̣ng]. Dùng đồ thị làm cho thông tin thể hiện rõ ràng và dễ hình dung hơn. ng ng it ng Hình 1.2. Đồ thị RDF iv. Cú pháp của RDF Mô hình RDF thể hiện một mô hình ở mức trừu tƣợng để định nghĩa siêu dƣ̃ liê ̣u. Cú pháp RDF đƣợc dùng để tạo ra và trao đổi siêu dƣ̃ liê ̣u, vì thế RDF dựa trên cú pháp XML. Cú pháp cơ bản của RDF có dạng nhƣ sau: [1] RDF ::= [''] description* [''] [2] description ::= '' propertyElt* '' [3] idAboutAttr ::= idAttr | aboutAttr [4] aboutAttr ::= 'about="' URI-reference '"' [5] idAttr ::= 'ID="' IDsymbol '"' [6] propertyElt ::= '<' propName '>' value ''| '<' propName resourceAttr '/>' [7] propName ::= Qname [8] value ::= description | string [9] resourceAttr ::= 'resource="'tham chiếu URI'"' [10] Qname ::= [ NSprefix ':' ] name [11] URI-reference ::= string, interpreted per [URI] [12] IDsymbol ::= (bất kỳ ID nào hợp lệ nào của XML) [13] name ::= (bất kỳ tên hợp lệ nào của XML) [14] NSprefix ::= (bất kỳ tiếp đầu ngữ namespace hợp lệ nào) [15] string ::= (b t kỳ chuõ i nào Ví dụ: Xét phát biểu sau {ketquasoxo.html, create-date, ―10-10-2010‖} Cú pháp RDF/XML để biểu diễn cho phát biểu trên nhƣ sau: 11
- Xem thêm -