Tài liệu Nghiên cứu semantic web, ứng dụng xây dựng cơ sở dữ liệu luật việt nam

.PDF

209

sakura Báo vi phạm

Tải xuống 65

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP KỸ THUẬT CÔNG NGHỆ KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN CÔNG NGHỆ PHẦN MỀM ------------------- LUẬN VĂN TỐT NGHIỆP H TÊN ĐỀ TÀI: U TE C NGHIÊN CỨU SEMANTIC WEB ỨNG DỤNG XÂY DỰNG CƠ SỞ DỮ LIỆU LUẬT VIỆT NAM TÊN SINH VIÊN: HUỲNH PHƯỚC TÀI 10102159 H MSSV: GIÁO VIÊN HƯỚNG DẪN: Th.S. LÊ TRUNG HIẾU TP. HỒ CHÍ MINH 2006 LỜI CẢM ƠN Em xin chân thành cám ơn thầy hướng dẫn, Ths.Lê Trung Hiếu đã tận tình hướng dẫn em trong quá trình làm đồ án này. H U TE C H Xin cám ơn bạn bè đã chia sẽ những kinh nghiệm quý báu giúp tôi hoàn thành đề tài. 2 Mục lục CHƯƠNG 1: GIỚI THIỆU...................................................................1 1.1 Động cơ và mục đích........................................................................................................ 1 1.2 Cấu trúc đề tài................................................................................................................... 2 CHƯƠNG 2: TỔNG QUAN, CÁC NGHIÊN CỨU, ỨNG DỤNG ....3 2.1 Semantic Web là gì? ......................................................................................................... 3 2.2 Cấu trúc phân tầng của Semantic Web............................................................................. 6 2.3 Tích hợp ngữ nghĩa từ nhiều nguồn tài nguyên................................................................ 8 CHƯƠNG 3: RDF, OWL, SPARQL, JENA.......................................11 U TE C H 3.1 RDF ................................................................................................................................ 11 3.1.1 Khái niệm RDF........................................................................................................ 11 3.1.2 Xuất bản RDF.......................................................................................................... 16 3.2 RDFS .............................................................................................................................. 17 3.3 OWL ............................................................................................................................... 21 3.3.1 Giới thiệu về OWL .................................................................................................. 21 3.3.2 Bảng tóm tắt ngôn ngữ ............................................................................................ 23 3.2.3 Các lớp..................................................................................................................... 24 3.4 Ngôn ngữ SPARQL........................................................................................................ 30 3.4.1 Cơ bản về SPARQL ................................................................................................ 30 3.4.2 Làm việc với RDF Literal ....................................................................................... 32 3.4.3 Ngữ pháp SPARQL ................................................................................................. 39 3.3 Jena ................................................................................................................................. 43 CHƯƠNG 4: HIỆN THỰC, KẾT QUẢ .............................................46 H 4.1 Phát biểu bài toán ........................................................................................................... 46 4.2 Tổng quan hệ thống văn bản luật Việt Nam................................................................... 46 4.3 Hiện thực dùng Semantic Web....................................................................................... 48 4.3.1 Bảng từ vựng ........................................................................................................... 49 4.3.2. Phân tích thiết kế .................................................................................................... 51 4.3.3 Cơ sở dữ liệu cho việc lưu trữ các văn bản ............................................................. 63 4.3.4 Cơ sở dữ liệu cho việc lưu dữ liệu RDF:................................................................. 63 4.3.5 Xây dụng bộ lọc cho tìm kiếm theo Semantic Web ................................................ 64 4.3.6 Thiết kế giao diện .................................................................................................... 65 4.4 Hiện thực phần tìm kiếm dùng chỉ mục Tsearch2.......................................................... 67 4.4.1 Giới thiệu về TSearch2............................................................................................ 67 4.4.2 Phân tích thiết kế ..................................................................................................... 70 4.4.3 Thiết kế giao diện .................................................................................................... 73 4.5 Xây dựng các chương trình hỗ trợ.................................................................................. 74 CHƯƠNG 5: KẾT LUẬN ..................................................................77 5.1 Tổng kết.......................................................................................................................... 77 5.2 Đánh giá.......................................................................................................................... 77 5.3 Hướng phát triển............................................................................................................. 78 CHƯƠNG 1: GIỚI THIỆU 1.1 Động cơ và mục đích Năm 1990 Tim Berners-Lee viết một trình duyệt đầu tiên trên thế giới. Kể từ khi trình duyệt ra đời đã tạo ra sự phát triển mạnh mẽ của internet làm thay đổi cách thức truy suất trao đổi thông tin, giải trí, học tập, nghiên cứu. WorldWideWeb (Web) là tập hợp các mạng thông tin và siêu văn bản khiến các thông tin dễ dàng truy suất ở phạm vi toàn cầu và hiện nay là hệ thống thông tin thành công nhất được triển khai trên internet. Các trang web - những linh hồn của internet liên tục phát triển và đổi mới, các H phần mềm cho web cũng liên tục phát triển và đổi mới. Web trở thành một phần không thể thiếu trong đời sống của nhiều người. Hiện nay lượng thông tin mà Web đang lưu C trữ là vô cùng lớn. Đứng trước một lượng thông tin khổng lồ như vậy người truy cập tự hỏi mình có thể tìm thấy những thông tin mình cần không và liệu có tin cậy không. U TE Con người luôn muốn hướng tới sự hoàn thiện do đó không ngừng tìm tòi và sáng tạo và Web cũng cần làm một cách mạng như một cách mạng trước đây mà bản thân Web đã tạo ra. Tim Berners-Lee một con người tài năng, uy tín và có nhiều đóng góp cho thế giới Web ấp ủ một mơ ước thực hiện một cách mạng mới cho Web mà ông gọi là Semantic Web. Những điều kỳ diệu mà Semantic Web hứa hẹn có thể mang đến đã H cuốn hút nhiều nhà nghiên cứu và tổ chức theo đuổi nghiên cứu và hiện thực. Một công nghệ mới có đầy hứa hẹn như người hoạch định không và liệu có khả năng hiện thực không? Vấn đề tìm hiểu về Semantic Web và hiện thực một ứng dụng có sử dụng kỹ thuật Semantic Web là một việc cần thiết để nắm bắt những kỹ thuật và khả năng triển khai. Hiện nay số lượng các văn bản pháp luật của Việt Nam rất lớn. Hằng năm lại bổ sung thêm nhiều văn bản mới. Các văn bản lại có quan hệ với các văn bản khác như quan hệ điều chỉnh bổ sung, thay thế… Bản thân các văn bản lại có kèm theo các biểu mẫu các phụ lục… khiến người dùng khó tìm kiếm. Việc sắp xếp và tìm kiếm các văn bản pháp luật gặp nhiều khó khăn do số lượng lớn và do các quan hệ giữa các văn bản phức tạp. 1 Đề tài này sẽ xây dựng một hệ thống cơ sở dữ liệu lưu trữ các văn bản pháp luật, các công cụ hỗ trợ quản trị các văn bản, mô tả văn bản cùng công cụ hỗ trợ truy xuất cơ sở dữ liệu luật này. Ứng dụng này chạy trên môi trường web, nên mọi người có thể truy xuất dễ dàng nhanh chóng. Các văn bản sẽ được thể hiện dưới dạng một trang web, và có các đường liên kết đến các văn bản liên quan. Ứng dụng này sẽ được xây dựng dựa trên những kỹ thuật của Semantic Web. 1.2 Cấu trúc đề tài Cấu trúc của đề tài gồm các phần sau: H Chương 1: Trình bày về động cơ và mục đích thực hiện đề tài này. C Chương 2: Trình bày về các nghiên cứu và các ứng dụng của Semantic Web – một công nghệ được xem sẽ là cuộc cách mạng về web lần thứ hai. Semantic Web được U TE ứng dụng vào hệ thống cơ sở dữ liệu luật Việt Nam. Chương 3: Có nhiều dự án nhằm đưa Semantic Web thành hiện thực một trong số đó là bộ công cụ nguồn mở Jena của hãng HP. Chương này sẽ giới thiệu về ngôn ngữ RDF, RDFS, OWL và các tính năng của bộ công cụ Jena. H Chương 4: Trình bày về thiết kế của chương trình, hiện thực phần thiết kế và kết quả thực nghiệm. Chương 5: Tổng kết và đánh giá những kết quả đạt được. 2 CHƯƠNG 2: TỔNG QUAN, CÁC NGHIÊN CỨU, ỨNG DỤNG 2.1 Semantic Web là gì? Hệ thống thông tin hiện nay, các ứng dụng cơ sở dữ liệu tập trung đang thay đổi nhanh chóng. Sự thay đổi do ngành công nghiệp phần mềm đang hoàn thiện tạo ra những đòi hỏi về các giải pháp phần mềm chuẩn kích thích hình thành cách mạng về thông tin. Những thay đổi này đặt ra những đòi hỏi cho các dịch vụ thông tin phải đồng nhất trong thể hiện và khuôn mẫu, kiến trúc phần mềm mở, phạm vi phải toàn cầu. Các đòi hỏi này có hầu hết trong các ứng dụng thương mại điện tử, ngân hàng, sản xuất, huấn H luyện, giáo dục, quản lý. C Hệ thống thông tin tương lai sẽ phải hỗ trợ tích hợp với tài nguyên dữ liệu của rất nhiều nhà cung cấp độc lập, tích hợp với các ứng dụng thừa kế, chạy trong môi trường U TE đồng nhất và mạng thông tin phân tán. Siêu dữ liệu sẽ đóng vai trò quan trọng trong mô tả nội dung như tài nguyên dữ liệu và trong thuận tiện hóa vấn đề tích hợp. Cũng vậy, rất nhiều kiểu mẫu tích hợp hướng truyền thông sẽ phải hỗ trợ hệ thống thông tin mới. Sự tích hợp sẽ bao gồm điều hướng, truy vấn, truy suất và phải kết hợp với các thông tin phụ trợ của cá nhân. Sự tích hợp phải có giao diện tượng tác với phần H mềm ứng dụng và sẽ phải tích hợp động với môi trường cộng tác. Hơn nữa, sự đầu tư mạnh mẽ trong tài nguyên thông tin của chính phủ và doanh nghiệp đòi hỏi phải bảo mật, riêng tư và chính xác trong nội dung. Trên đây là các thử thách đặt ra cho các hệ thống thông tin thế hệ tiếp theo. Hệ thống này được gọi là hệ thống thông tin cộng tác. Thử thách chính trong việc xây dựng hệ thống thông tin cộng tác là phải phát triển kỹ thuật cho phép tiếp tục phát triển và tiến hóa các hệ thống và tài nguyên thông tin hiện tại. Các kỹ thuật này phải đòi hỏi một cơ sở hạ tầng thích hợp hỗ trợ phần mềm phát triển và tiến hóa. 3 Sự ra đời của web đã thay đổi tất cả cách truy suất và chia sẽ thông tin. Cơ sở dữ liệu hiện nay có thể chia sẽ cho mọi người dưới dạng web nơi đó mọi người, các chương trình ứng dụng có thể truy suất và thay đổi. Trong bối cảnh này, ngữ nghĩa của dữ liệu phải sẵn sàng cho truy suất như là dữ liệu. Đối với người dùng thì những ngữ nghĩa này sẽ chuyển tải thành những định dạng thích hợp cho người dùng sẽ dàng tiếp nhận. Đối với các chương trình ứng dụng thì ngữ nghĩa được cung cấp dưới dạng máy có thể xử lý. Từ khi được thiết kế, Web được xem là nơi để chứa thông tin, dữ liệu, và mục đích không những để con người và con người kết nối với nhau, mà còn cho phép máy tính H tham gia và trợ giúp con người. Thế nhưng một trong những trở ngại thực tế, đó là thông tin trên Web thực tế chỉ sử dụng được cho con người. Không đề cập đến vấn đề C trí tuệ nhân tạo sẽ huấn luyện máy tính có những hành vi, tư duy giống con người, ý niệm Semantic Web sẽ là ngôn ngữ giúp cho máy tính có thể tự xử lý trên những luồng U TE thông tin dữ liệu được định nghĩa và tổ chức tốt. Thay vì đòi hỏi máy tính phải hiểu ngôn ngữ của con người, nó sẽ cố gắng đòi hỏi con người trang bị những thông tin mở rộng cho nó. Semantic web mang đến một ý niệm về web trong đó dữ liệu được định nghĩa và liên kết với nhau. Bằng cách này dữ liệu có thể được khai thác hiệu quả, tự động hóa, tích hợp và tái sử dụng trong nhiều ứng dụng khác nhau. Để Web có thể đạt H được các giá trị tiềm năng, thì Web phải tiến hóa thành Semantic Web cung cấp nền tảng có thể truy suất khắp nơi cho phép dữ liệu được chia sẽ và xử lý tự động bởi các công cụ cũng như con người. Chúng ta hãy xem xét sự so sánh giữa hai mô hình cấu trúc tài nguyên như sau: 4 H C Hình 1: Web hiện nay Các trang web là các tài nguyên. Các trang web chỉ liên kết với nhau thông qua đường U TE liên kết. Con người có thể tìm thấy một chút ý nghĩa của liên kết thông qua tiêu đề hiện lên trên liên kết. Do đó các thông tin giữa các liên kết là hạn chế. Đối với máy thì H không thể tìm thấy ý nghĩa các liên kết. Hình 2: Semantic Web 5 Trong Semantic Web các tài nguyên đều được phân loại, và các liên kết đều mang ý nghĩa. Như hình trên ta thấy đuợc phần mềm này cần những thư viện gì, có tài liệu hướng dẫn, tài liệu hướng dẫn này dựa trên tài liệu khác, chủ đề của tài liệu, tác giả của tài liệu, hình ảnh sử dụng trong tài liệu. Điều đặc biệt là máy dễ dàng “hiểu” và truy suất được các ngữ nghĩa này. Đối tượng Tài nguyên Web hiện nay - Được xác định bởi URI. - Không được phân loại - Là href hay src, ... - Có giới hạn, không có diễn giải. Người dùng - Phải thu thập từ nội dung để lấy ngữ nghĩa của tài nguyên – một công việc nặng nhọc. - Thông tin dữ liệu tự nhận được rất khan hiếm. U TE Máy và người - Có nhiều thông tin có thể xử lý C Máy H Liên kết Semantic Web - Được định nghĩa chung bởi URI. - Có thể mở rộng - Có mối quan hệ. - Được xác định bởi URI. - Có thể mở rộng - Có mối quan hệ. - Có đầy đủ thông tin cần thiết - Làm việc, học hỏi và trao đổi dữ liệu một cách hiệu quả. Semantic Web là ý tưởng của Tim Berners Lee. Ông là người phát minh ra WWW, URIs, HTTP, và HTML. Ông Tim Berners Lee là giám đốc của tổ chức World Wide Web consortium (W3C) chuyên đề xuất các chuẩn thống nhất liên quan đến Web giữa các công ty lớn trên thế giới. Có một nhóm người ở W3C H đang làm việc tăng cường, mở rộng và chuẩn hóa các hệ thống, các ngôn ngữ, đồng thời phát triển các công cụ và các xuất bản… nhằm đưa Semantic Web thành hiện thực. 2.2 Cấu trúc phân tầng của Semantic Web Sự phát triển Semantic Web được tiến hành theo từng bước, mỗi bước tương ứng với một lớp, các lớp xếp chồng lên nhau. Cách tiếp cận này giúp chia nhỏ độ phức tạp của Semantic Web. Thực tế Semantic Web cần một thời gian dài để hiện thực đầy đủ các bản sắc của Semantic Web. Trong bối cảnh này, việc phân tầng giúp đạt được những thành quả theo giai đoạn. 6 C * Tầng 1 - URI và Unicode H Hình 3: Cấu trúc phân tầng của Semantic Web do Tim Berners Lee đưa ra. URI là viết tắt của Uniform Resource Identifiers – định danh tài nguyên đồng nhất. U TE URI cho phép diễn đạt cách truy tìm tài nguyên trên Internet URI có 2 lớp con: - Universal Resource Name (URN) cho phép mọi thứ được xác định duy nhất. H - Universal Resource Locator (URL) cho phép tài nguyên được truy suất. Unicode là bộ mã tiêu chuẩn quốc tế cho phép thể hiện hầu hết ngôn ngữ trên thế giới. * Tầng 2 – XML và Namespace (không gian tên) XML là định dạng chuẩn xuất bản dữ liệu. XML rất phổ biến, có nhiều ứng dụng và có nhiều công cụ hỗ trợ. Namespace là phần mở rộng của XML cho phép nhóm các thẻ vào một nhóm. Semantic Web có nhiều từ vựng trùng nhau, namespace cung cấp khả năng phân biệt ý nghĩa các từ vựng trùng nhau trong các bộ từ vựng.. 7 * Tầng 3 – RDF Model và Syntax (cú pháp) RDF Model là một đồ thị gồm các nút và cung giống như mạng ngữ nghĩa hay đồ thị khái niệm. RDF Model là kho tri thức. Các tri thức được mô tả theo cú pháp của RDF. * Tầng 4 - RDF Schema: RDF Schema (RDFS) là ngôn ngữ dùng để mô tả từ vựng RDF. RDFS có thể mô tả cây phân cấp lớp và cây phân cấp thuộc tính. RDFS được dùng để thể hiện mối quan hệ giữa các lớp hơn là để ràng buộc cấu trúc như XML Schema. H * Tầng 5 - Ontoloty Web Language (OWL): C OWL giống RDFS mô tả ý nghĩa của từ vựng và quan hệ giữa các từ vựng với nhau. OWL cung cấp nhiều tính năng hơn RDFS. U TE * Tầng 6 - Rules (các luật) Tầng Rules cho phép ta suy luận tri thức mới và ra quyết định. Tầng Rules cung cấp cách thức chuẩn để truy vấn và lọc RDF. Hiện nay mọi người đang thí nghiệm với các công cụ xử lý RDF dùng luật nhưng chưa có chuẩn thống nhất. H Tầng Rules là một dạng logic “căn bản” trong khi Logic Framework là logic “nâng cao”. Tầng Logic Framework cho phép các chứng cứ logic (formal logic proofs) được chia sẽ. Cuối cùng, với sự hỗ trợ của các chứng cứ mạnh (robust proofs), tầng Trust có thể được thiết lập khi đó dữ liệu đã được chứng thực đúng đắn và sẵn sàng làm cơ sở cho những suy luận dựa trên đó. 2.3 Tích hợp ngữ nghĩa từ nhiều nguồn tài nguyên Các hệ thống Semantic Web xử lý dữ liệu trên một nền tảng chung là RDF. Thực tế nguồn dữ liệu ở các định dạng khác nhau như trong cơ sở dữ liệu hay như trong các trang web cần được chuyển thể sang định dạng RDF. Kết quả trả về cho trạm tìm kiếm hay các ứng dụng khác cũng là dữ liệu RDF/XML. 8 H C U TE H Hình 4: Cấu trúc cơ bản của việc tích hợp ngữ nghĩa từ nhiều nguồn tài nguyên 9 XML Instance Layer XML2RDF Layer Inference / Mediating Layer H U TE C Application Layer Mô tả Chứa những dữ liệu tài nguyên bên ngoài như mối quan hệ hoặc đối tượng của cơ sở dữ liệu, trang HTML, nguồn XML, hoặc RDF gốc. Chương trình sẽ tổng hợp hoàn toàn những nguồn chung này, thông qua Web. Yêu cầu chính của tài nguyên là có khả năng chuyển đổi sang dạng XML. XML instance layer sẽ lấy dữ liệu XML tuần tự này từ layer trước đó. Đôi khi hai lớp này được xem là một. XML2RDF layer được xem là cầu nối giữa XML instance layer với Mediator RDF. Khi có một truy vấn từ lớp Mediator, việc ánh xạ trong XML2RDF sẽ được thực hiện và ngược lại. RDF Mediator là trung tâm của kiến trúc này. Nó điều khiển hoạt động của mô hình, cung cấp truy vấn và đưa ra dịch vụ, kết quả tìm kiếm. Mô hình khái niệm bao gồm một lớp phân cấp với lớp thuộc tính, và môt bộ những quy tắc giao tiếp giữa lớp và thuộc tính. Lớp các chương trình ứng dụng, người dùng chỉ thao tác trực tiếp với lớp này. Ví dụ điển hình chương trình tìm kiếm. H Phân Lớp Source Layer 10 CHƯƠNG 3: RDF, OWL, SPARQL, JENA 3.1 RDF 3.1.1 Khái niệm RDF Resource Description Framework (RDF) là ngôn ngữ được thiết kế để hỗ trợ Semantic Web, giống như HTML là ngôn ngữ giúp hiện thực Web. RDF là một nền tảng hỗ trợ mô tả tài nguyên hoặc siêu dữ liệu cho Web. RDF cung cấp những cấu trúc cơ bản phổ thông để trao đổi dữ liệu. RDF là ngôn ngữ biểu diễn, mô tả thông tin tài nguyên của World Wide Web. Thông H tin được mô tả có thể là tựa đề trang, tác giả, ngày cập nhật, bản quyền… liên quan đến trang web đó, hoặc để có khả năng triển khai chiến lược chia sẻ tài nguyên. Ngoài C ra RDF còn có thể được dùng mô tả những thông tin có thể nhận dạng trên Web, ngay U TE cả những thông tin này có thể không được lấy trực tiếp từ trang web. RDF sẽ được dùng ở nơi thông tin được xử lý bởi nhiều trình ứng dụng, hơn là nơi chỉ xuất thông tin cho người xem. RDF cung cấp một nền tảng chung (common framework) cho phép trao đổi thông tin giữa hai chương trình khác nhau mà ngữ nghĩa không bị thay đổi. Khả năng trao đổi H thông tin giữa hai chương trình có nghĩa là thông tin này sẽ được chương trình bên kia “hiểu” được ngay khi thông tin được tạo ra. Từ nền tảng chung này, sẽ là đòn bẩy để những nhà thiết kế ứng dụng có thể phát triển những trình phân tích (parser) RDF chung và những công cụ xử lý. Xét ví dụ RDF: 11 & & ' ! ! ( " # $ % H Hình 5: Ví dụ đồ thị mô tả RDF cũng cung cấp một dạng đồ vật hóa (reification) để một phát biểu RDF có thể là C một đối tượng hoặc giá trị của một phát biểu khác. Điều này có nghĩa các đồ thị có thể gộp lại như một chuỗi xích. Ví dụ Nguyễn Du viết cái gì đó được xuất tại địa chỉ U TE http://www.minhkhai.com/ISBN0001047588 có tựa là “Truyện Kiều”, để rõ hơn ta mô tả tiếp đó là kiểu Book, Book được định nghĩa trong RDF schema. Mô hình RDF và cú pháp dựa trên cú pháp XML thể hiện mô tả trên như sau: H Nguyễn Du Truyện Kiều Cú pháp XML trên đây chỉ là một trong nhiều cách viết mô hình RDF theo định dạng XML vì RDF rất linh hoạt. Ví dụ đoạn dưới có thể viết lại thành Truyện Kiều 12 Thành phần cơ bản của RDF là RDF triple (bộ ba) gồm 3 thành phần. Thành phần đầu là chủ thể (subject), chủ thể là một tài nguyên ví dụ như quốc gia, con người. Thành phần thứ hai là thuộc tính (predicate). Ví dụ một chủ thể con người có thể có các thuộc tính màu tóc, trình độ học vấn… Thành phần thứ ba là giá trị gắn với thuộc tính. Nhóm họat động cho RDF ở W3C chọn đồ thị RDF làm làm phương thức mặc định để mô tả mô hình dữ liệu RDF vì đồ thị trực quan dễ hiểu và bất kỳ mô hình dữ liệu RDF nào cũng có thể thể hiện bằng đồ thị. Đồ thị RDF bao gồm một tập hợp các nút liên kết với nhau bởi cung, theo mẫu nút- H cung-nút. Nút có thể là uri, nút rỗng, ký số (literal). Nút rỗng là nút không chứa URI. Các tài nguyên phân biệt bằng URI. Tuy nhiên khi C định danh tài nguyên của tài nguyên không tồn tại trong đồ thị hoặc vô nghĩa thì thì tài U TE nguyên được thể hiện bằng nút rỗng. H Tale of Two Monsters: Legends 1999-08-01T00:00:00-06:00 Shelley Powers Hình 6: đồ thị có nút rỗng 13 Trong đồ thị, nút tài nguyên được thể hiện bằng hình êlip, nút ký số được thể hiện bằng hình chữ nhật. Nhiều chương trình tự gán số (hay định danh) cho nút rỗng để dễ phân biệt. Các cung trong đồ thị là các cung hữu hướng và có nhãn là các thuộc tính RDF. Cung được vẽ từ tài nguyên tới một đối tượng. Phần ký số bao gồm 3 phần: các chuỗi ký tự, thẻ ngôn ngữ (không bắt buộc) và kiểu dữ liệu (không bắt buộc). Phần ký số chỉ được dùng ở thành phần thứ ba của phát biểu, không được dùng làm chủ thể hay thuộc tính. Trong đồ thị, phần ký số được thể hiện bằng hình chữ nhật. Mọi ký số phải là từ ngữ thuộc về một ngôn ngữ nào đó. H Ví dụ: C Tên tác giả Ký số cũng có thể là các giá trị của một kiểu dữ liệu như ngày giờ, số nguyên… Khi của RDF U TE ký số có thẻ datatype thì giá tri là URI tham chiếu kiểu dữ liệu đó. Các kiểu dữ liệu tương thích với các kiểu dữ liệu của lược đồ XML (http://www.w3.org/TR/xmlschema-2/) Ví dụ: H 2005-1201T09:09:07Z Hai ký số bằng nhau khi có cùng thể hiện trên cùng một ngôn ngữ, các ký tự bằng nhau đôi một có hoặc không có thẻ ngôn ngữ, nếu có thẻ ngôn ngữ thì phải giống nhau; cùng có hoặc không có xác định kiểu dữ liệu nếu có kiểu dữ liệu thì URI tham chiếu đến kiểu dữ liệu phải giống nhau. Các thuộc tính của tài nguyên có thể gom lại trong nhóm. RDF có các container như rdf:Bag và rdf:Seq. Ví dụ về lớp rdf:Bag 14 Như thế có nút rỗng giữa tài nguyên contest.htm và các tài nguyên capo.jpg, baritea.jpg, cfluorite.jpg, ccinnibar.jpg, baryto.jpg, cbarite2a.jpg. Các thành phần con liệt kê dùng rdf:li. Dạng rdf:Seq là container có thứ tự các thành phần liệt kê dùng rdf:_n với n là các số từ lớn hơn 0 hoặc rdf:li. C nghĩa dùng rdf:parseType="Collection" H RDF có dạng tập hợp (collection), là một nhóm hữu hạn các thành phần, được định U TE H Đồ thị tương ứng được tạo ra như sau Hình 7: Đồ thị có Collection 15 3.1.2 Xuất bản RDF Cú pháp RDF/XML là kỹ thuật để xuất bản RDF dựa trên XML được W3C khuyên. Hiện nay có nhiều công cụ và API có thể làm việc với NTriple hoặc Notation 3 (N3). Cú pháp RDF/XML không trực quan bằng cú pháp N3 vì viết trên cấu trúc XML. Sơ lược về N3 Các tập tin N3 định dạng UTF-8. Cú pháp cơ bản của N3 là: thuộc tính đối tượng . H Chủ thể Trong cú pháp này, chủ thể, thuộc tính, và đối tượng phân biệt bằng khoảng U TE Ví dụ: C trắng, và kết thúc bằng dấu chấm (.). “Nguyễn Thanh Phong” . Trong ví dụ trên, URI được đặt trong cặp dấu ngoặc < >. Có thể dùng không gian tên để viết ngắn gọn hơn miễn là không gian tên được định nghĩa trong tài liệu, khi đó ví H dụ trên có thể viết lại như sau: dc:creator “Nguyễn Thanh Phong” . Tập tin N3 có thể chứa các ghi chú. Dòng ghi chú bắt đầu bằng ký tự (#). Các triple có cùng chủ thể thì có thể viết gọn không cần lặp lại chủ thể, mỗi phát biểu kết thúc bằng dấu chấm phẩy (;), kết thúc câu phức hợp trên bằng dấu chấm (.). Ví dụ: # -- Ví dụ -@prefix pc: < http://burningbird.net/postcon/elements/1.0/> . pc:author "Nguyễn Thanh Phong" ; 16 pc:title "Lập trình C++" . Các chi tiết về N3 có thể tham khảo ở bài viết Getting into RDF & Semantic Web using N3 của tác giả Tim Berners-Lee (http://www.w3.org/2000/10/swap/Primer.html) NTriple là tập con của N3, có nhiều ràng buộc hơn N3 không phóng khoáng như N3. 3.2 RDFS RDF Schema được tạo ra để cung cấp thêm những siêu dữ liệu và dùng cho chương trình, cung cấp cho các chương trình biết để có thể dùng đúng và kiểm chứng các từ H vựng. RDF Schema là một kỹ thuật cho phép định nghĩa từ vựng riêng cho dữ liệu RDF (ví C dụ như hasWritten) và các kiểu đối tượng đặc biệt để gán cho thuộc tính (ví dụ như kiểu Writer). RDF Schema dùng các thuật ngữ đã được định nghĩa trước như Class, U TE subClassOf và Property, để tạo lược đồ. RDF Schema cũng dùng để kiểm hợp lệ các phát biểu RDF. Sự khác nhau giữa phát biểu RDF và RDF Schema là RDF Schema tạo ngữ nghĩa cho thuật ngữ và giải thích các phát biểu. Ví dụ, thuộc tính subClassOf cho phép định nghĩa phân cấp lớp, ví dụ mọi FamousWriter đều là Writer. Các đối tượng có thể cho biết kiểu bằng cách dùng thuộc tính type. Các thuộc tính domain và range có thể H dùng để xây dựng ràng buộc giữa các lớp thuộc tính. Schema Dữ liệu ! " " " # Hình 8: Mối quan hệ giữa dữ liệu RDF và RDF Schema 17 " $ % & ' '

- Xem thêm -

Tài liệu Nghiên cứu semantic web, ứng dụng xây dựng cơ sở dữ liệu luật việt nam

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất