Tài liệu Web ngữ nghĩa và ứng dụng trong tra cứu văn hóa ẩm thực tại hải phòng

  • Số trang: 83 |
  • Loại file: PDF |
  • Lượt xem: 50 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 27125 tài liệu

Mô tả:

1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ------------------ NGUYỄN CÔNG BẰNG WEB NGỮ NGHĨA VÀ ỨNG DỤNG TRONG TRA CỨU VĂN HÓA ẨM THỰC TẠI HẢI PHÒNG Chuyên nghành : Khoa học máy tính Mã số : 60.48.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: PGS.TS ĐOÀN VĂN BAN Thái nguyên – Năm 2014 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2 Mục lục Mở đầu ........................................................................................................................4 CHƢƠNG 1: GIỚI THIỆU VỀ WEB NGỮ NGHĨA ................................................8 1.1. Cách thức tìm kiếm thông tin của bộ máy tìm kiếm (Search engine) ...8 1.1.1. Một số bộ tìm kiếm thông dụng ......................................................8 1.1.2. Cách thức tìm kiếm .........................................................................9 1.1.3. Nguyên lý hoạt động .....................................................................11 1.1.4. Hạn chế của web thông thƣờng .....................................................11 1.2. Web ngữ nghĩa .....................................................................................12 1.2.1. Sự ra đời của Web ngữ nghĩa ........................................................12 1.2.2. Lợi ích của Web ngữ nghĩa ...........................................................13 1.2.3. Các hƣớng nghiên cứu chính trong lĩnh vực dịch vụ web ngữ nghĩa ...................................................................................................................13 1.3. Kiến trúc phân tầng của Web ngữ nghĩa .............................................14 1.3.1. Kiến trúc phân tầng .......................................................................14 1.3.2. Vai trò của các tầng .......................................................................14 1.4. RDF – Nền tảng của Web ngữ nghĩa ...................................................18 1.4.1. Giới thiệu .......................................................................................18 1.4.2. Các khái niệm cơ bản ....................................................................18 1.4.3. Cấu trúc RDF/XML ......................................................................19 1.4.4. RDFS collection ............................................................................20 1.4.5. RDFS schema ................................................................................22 1.5. Truy vấn dữ liệu trong RDF ................................................................26 1.5.1. Giới thiệu .......................................................................................26 1.5.2. Cú pháp truy vấn ...........................................................................26 1.5.3. Rằng buộc dữ liệu .........................................................................28 rdfs:ConstraintResource. .........................................................................29 rdfs:ConstraintProperty. ..........................................................................29 rdfs:range. ................................................................................................29 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 3 rdfs:domain..............................................................................................30 1.6. Tổng kết chƣơng 1 ...............................................................................32 CHƢƠNG 2: CÔNG NGHỆ XÂY DỰNG WEB NGỮ NGHĨA.............................33 2.1. Ontology và ngôn ngữ web OWL .......................................................33 2.1.1. Khái niệm Ontology ......................................................................33 2.1.2. Thành phần của Ontology .............................................................33 2.1.3. Phƣơng pháp xây dựng Ontology .................................................35 2.1.4. OWL (Ontology Web Language)..................................................35 2.2. Các bƣớc xây dựng Ontology ..............................................................37 2.3. Công cụ xây dựng Ontology ................................................................39 2.3.1. Công cụ Sesame ............................................................................39 2.3.2. Công cụ Chimaera .........................................................................40 2.3.3. Công cụ Jena .................................................................................40 2.3.4. Công cụ Protégé ............................................................................40 2.4. Thƣ viện phát triển ứng dụng ..............................................................42 2.4.1. Thƣ viện SemWeb .........................................................................42 2.4.2. Thƣ viện mã nguồn mở OWLDotNetAPI .....................................42 2.4.3. Thƣ viện mã nguồn mở dotNetRDF .............................................42 2.5. Tổng kết chƣơng 2 ...............................................................................43 CHƢƠNG 3: XÂY DỰNG HỆ THỐNG TRA CỨU VĂN HÓA ẨM THỰC TẠI HẢI PHÕNG .............................................................................................................43 3.1. Tổng quan về Hải Phòng .....................................................................43 3.1.1. Giới thiệu về Thành phố Hải Phòng..............................................43 3.1.2. Ẩm thực đặc trƣng của Thành phố Hải Phòng ..............................45 3.2. Yêu cầu, hƣớng tiếp cận và giải pháp..................................................59 3.2.1. Yêu cầu của ứng dụng ...................................................................59 3.2.2. Hƣớng tiếp cận và giải pháp..........................................................60 3.3. Xây dựng Ontology .............................................................................68 3.3.1. Miền và phạm vi của Ontology .....................................................68 3.3.2. Các lớp trong Ontology .................................................................68 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 4 3.3.3. Thuộc tính các lớp trong Ontology ...............................................70 3.3.4. Xác định các cá thể........................................................................73 3.4. Mô hình hệ thống .................................................................................74 3.5. Thiết kế xử lý hệ thống ........................................................................75 3.5.1. Chức năng tìm kiếm ......................................................................75 3.5.2. Chức năng xem thông tin ..............................................................76 3.6. Xây dựng hệ thống...............................................................................77 3.6.1. Đọc RDF với dotNetRDF .............................................................77 3.6.2. Truy vấn với SPARQL ..................................................................78 3.6.3. Thuật toán áp dụng ........................................................................79 3.6.4. Kết quả chƣơng trình .....................................................................80 3.7. Tổng kết chƣơng 3 ...............................................................................81 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................................82 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 5 Mở đầu 1. Lý do chọn đề tài Ngày nay khoa học và công nghệ phát triển cùng với sự bùng nổ về internet thì Word Wide Web phát triển cả về nội dung lẫn hình thức. Nó có một khối lƣợng thông tin khổng lồ, đƣợc tạo ra từ các tổ chức, cộng đồng và nhiều cá nhân với lý do khác nhau. Ngƣời sử dụng Web có thể dễ dàng truy cập những thông tin này bằng cách chỉ ra địa chỉ URL và theo các liên kết để tìm ra các tài nguyên liên quan khác. Tính đơn giản của Web hiện nay đã dẫn đến một số hạn chế, việc tìm kiếm thông tin trên Web có thể trả về một lƣợng lớn thông tin không hợp lý và không liên quan. Tính đơn giản này đã gây ra hiện tƣợng thắt cổ chai, tạo khó khăn trong việc tìm kiếm, trích rút thông tin. Máy tính chỉ biết gửi và trả thông tin, chúng không thể truy xuất những nội dung cần. Nó chi hỗ trợ ở mức độ giới hạn nào đó trong việc truy xuất và xử lý thông tin. Kết quả là ngƣời sử dụng phải đảm nhiệm việc truy cập, xử lý thông tin, trích lọc thông tin phù hợp với việc tìm kiếm. Để khắc phục các hạn chế này, khái niệm web ngữ nghĩa đã ra đời. Web ngữ nghĩa là một bƣớc tiến vƣợt bậc so với kỹ thuật web trƣớc đó dựa vào khả năng làm việc với thông tin của chúng thay vì chỉ đơn thuần là lƣu trữ thông tin. Hải Phòng là một trong 5 thành phố trực thuộc trung ƣơng và là một đô thị loại 1 trung tâm cấp quốc gia, là thành phố lớn thứ 3 của Việt Nam,có vị trí quan trọng về kinh tế xã hội và an ninh, quốc phòng của vùng Bắc Bộ và cả nƣớc. Ẩm thực Hải Phòng bình dị và dân dã, không cầu kỳ nhƣng đậm đà khó quên. Nơi đây nổi tiếng với các món hải sản. Các nhà hàng hải sản ở khu vực Đồ Sơn nổi tiếng với tôm cua cá mực rất tƣơi và giá phải chăng. Phong cách chế biến hải sản ở Hải Phòng theo phong cách dân dã, nhấn mạnh thực chất và vị tƣơi ngon của nguyên liệu nhiều hơn sự cầu kỳ trong gia vị và cách chế biến. Các món ăn nhƣ bánh đa cua, bún cá, bánh mỳ cay, cơm cháy hải sản, ốc cay, nem cua bể (nem vuông), giờ đây đã quá quen thuộc và nổi tiếng. Những món ăn này Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 6 có thể đƣợc tìm thấy trên đƣờng phố của những nơi khác nhƣ TP.Hồ Chí Minh, Hà Nội,... nhƣng đƣợc thƣởng thức chúng trên Thành phố Hoa phƣợng đỏ vẫn là lý tƣởng nhất vì sự lựa chọn nguyên liệu tƣơi ngon cùng với những bí quyết ẩm thực riêng của ngƣời đầu bếp. Ẩm thực Hải Phòng đã từng đƣợc quảng bá sang Châu Âu tại lễ hội biển Brest 2008 (Cộng hòa Pháp) và đã gây đƣợc tiếng vang lớn. Ngoài ra, Hải Phòng còn nổi tiếng với nhiều món ăn khác nhƣ lẩu bề bề, nộm giá, thịt san biển, sủi dìn, bánh bèo,... Một số món ăn không thể thƣởng thức ở những nơi khác mà chỉ có tại Hải Phòng. Với những lý do trên, tôi xin chọn đề tài “Web ngữ nghĩa và ứng dụng trong tra cứu đặc trƣng văn hóa ẩm thực tại Hải Phòng” 2. Mục tiêu Ứng dụng Semantic Web xây dựng ứng dụng tra cứu đặc trƣng văn hóa ẩm thực tại Hải Phòng. 3. Đối tƣợng và phạm vi nghiên cứu Đối tượng nghiên cứu: - Tìm hiểu về web ngữ nghĩa, phƣơng pháp xây dựng Ontology. - Tìm hiểu về các thông tin đặc trƣng văn hóa ẩm thực tại Thành phố Hải Phòng. Phạm vi nghiên cứu: - Nghiên cứu xây dựng tập từ vựng cơ bản về đặc trƣng văn hóa ẩm thực tại Thành phố Hải Phòng. - Tổ chức lƣu trữ dữ liệu của ứng dụng với Protégé và tính năng truy xuất dữ liệu trong Ontology. 4. Phƣơng pháp nghiên cứu - Tìm hiểu các vấn đề về Web ngữ nghĩa. - Thu thập các tài liệu liên quan. - Triển khai xây dựng ứng dụng. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 7 5. Ý nghĩa khoa học và thực tiễn đề tài - Xây dựng tập từ vựng về văn hóa ẩm thực ở Hải Phòng. - Góp phần nâng cao khả năng tra cứu và chia sẻ thông tin về văn hóa ẩm thực tại thành phố Hải Phòng. 6. Dự kiến bố cục luận văn Luận văn đƣợc chia làm 3 chƣơng: Chƣơng 1: Trình bày giới thiệu tóm tắt về Web ngữ nghĩa, kiến trúc của Web ngữ nghĩa, cũng nhƣ giới thiệu RDF – nền tảng của Web ngữ nghĩa. Chƣơng 2: Giới thiệu các công nghệ xây dựng Web ngữ nghĩa cụ thể là đi sâu vào nghiên cứu Ontology. Đồng thời đƣa ra giải pháp về ngôn ngữ và công cụ để xây dựng ứng dụng Semantic web. Chƣơng 3: Giới thiệu về ứng dụng, phân tích và đề xuất giải pháp xây dựng ứng dụng. Tiến hành xây dựng ontology, xử lý dữ liệu, cài đặt ứng dụng và đƣa ra một số kết quả đạt đƣợc. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 8 CHƢƠNG 1: GIỚI THIỆU VỀ WEB NGỮ NGHĨA 1.1. Cách thức tìm kiếm thông tin của bộ máy tìm kiếm (Search engine) Search engine hay còn gọi là máy tìm kiếm là một trang Web cho phép ngƣời dùng tìm kiếm nội dung số của các trang Web trên Internet [1]. Thƣờng kỳ, máy tìm kiếm sẽ dò quét nội dung tất cả các trang Web trên Internet và cập nhật nội dung văn bản text vào cơ sở dữ liệu khổng lồ của mình mà ngƣời dùng có thể khai thác sau đó. Để làm việc này các máy tìm kiếm thƣờng gửi các Web crawler, web spider hay web robot (ví dụ googlebot của Google – Yahoo slurp của Yahoo) đến các trang cần đánh chỉ số. Các bọ tìm kiếm này sẽ truy cập phân tích và gửi nội dung về các máy tìm kiếm. Máy tìm kiếm sắp xếp các trang Web dựa vào nội dung HTML của trang. Việc này khác với các thƣ mục Web truyền thống mà những ngƣời kiểm duyệt sắp đặt trong các mục riêng biệt với tên site và miêu tả đi kèm. 1.1.1. Một số bộ tìm kiếm thông dụng Bộ thu thập thông tin Cơ sở dữ liệu cuả các search engine đƣợc cập nhật hoá bởi các chƣơng trình đặc biệt thƣờng gọi là "robot", "spider" hay "Webcrawler". Các chƣơng trình này sẽ tự động dò tìm và phân tích từ những trang có sẵn trong cơ sở dữ liệu để kiếm ra các liên kết (links) từ các trang và trở lại bổ xung dữ liệu cho các search engine sau khi phân tích. Về bản chất robot chỉ là một chƣơng trình duyệt và thu thập thông tin từ các site theo đúng giao thức web. Những trình duyệt thông thƣờng không đƣợc xem là robot do thiếu tính chủ động, chúng chỉ duyệt web khi có sự tác động của con ngƣời. Bộ lập chỉ mục – Index Hệ thống lập chỉ mục hay còn gọi là hệ thống phân tích và xử lý dữ liệu, thực hiện việc phân tích, trích chọn những thông tin cần thiết (thƣờng là các từ đơn, từ ghép, cụm từ quan trọng) từ những dữ liệu mà robot thu thập đƣợc và tổ chức thành cơ sở Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 9 dữ liệu riêng để có thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả. Lập chỉ mục là giai đoạn phân tích tài liệu (document) để xác định các chỉ mục biểu diễn nội dung của tài liệu. Hệ thống chỉ mục là danh sách các từ khoá, chỉ rõ các từ khoá nào xuất hiện ở trang nào, địa chỉ nào. Bộ tìm kiếm thông tin – Search Engine Search engine là cụm từ dùng chỉ toàn bộ hệ thống bao gồm bộ thu thập thông tin, bộ lập chỉ mục & bộ tìm kiếm thông tin. Các bộ này hoạt động liên tục từ lúc khởi động hệ thống, chúng phụ thuộc lẫn nhau về mặt dữ liệu nhƣng độc lập với nhau về mặt hoạt động. Search engine tƣơng tác với user thông qua giao diện web, có nhiệm vụ tiếp nhận và trả về những tài liệu thoả yêu cầu của user. Bộ Query Engine Bộ công cụ truy vấn có nhiệm vụ nhận và tìm kiếm các yêu cầu của ngƣời sử dụng, Bộ công cụ này sẽ dựa vào bảng chỉ mục và các kho lƣu trữ. Bởi kích thƣớc của web rất lớn, thêm nữa khi sử dụng chỉ đƣa vào một hay hai từ khóa sau đó sẽ nhận đƣợc tập kết quả. Do đó phải có một modul sắp xếp kết quả theo thứ tự sao cho nó gần với nội dung đang cần tìm nhất. Sắp xếp Đây là một modul có chức năng sàng lọc thông tin từ hàng triệu trang tƣơng tự nhau để sắp xếp vị trí từng trang sao cho phù hợp nhất. 1.1.2. Cách thức tìm kiếm Tìm kiếm thông tin nói chung là giải quyết các vấn đề nhƣ: biểu diễn, lƣu trữ, tổ chức và truy cập đến các mục thông tin. Việc tổ chức và biểu diễn thông tin giúp ngƣời sử dụng dễ dàng truy cập thông tin mà mình quan tâm. Nhƣng để mô tả các thông tin đó không phải là điều dễ dàng. Do vậy, hệ thống tìm kiếm thông tin bao gồm quá trình cơ bản sau: Biểu diễn nội dung các tài liệu, biểu diễn yêu cầu ngƣời dùng và so sánh hai biểu diễn này. Quy trình biểu diễn tài liệu thƣờng gọi là quá trình chỉ số hóa. Quá trình này có thể lƣu trữ thực sự các tài liệu trong hệ thống nhƣng thƣờng chỉ lƣu một phần tài liệu, chẳng hạn nhƣ phần tiêu đề, phần tóm tắt. Quá trình biểu diễn yêu cầu của ngƣời Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 10 dùng gọi là quá trình truy vấn. Truy vấn biểu thị sự tƣơng tác giữa hệ thống và ngƣời sử dụng. Việc so sánh truy vấn với tài liệu cũng đƣợc gọi là quá trình đối sánh và cho kết quả là một danh sách các tài liệu đƣợc sắp xếp theo thứ tự mức độ liên quan với truy vấn. Rõ ràng, để mô tả thông tin yêu cầu một cách đầy đủ, ngƣời sử dụng không thể trực tiếp yêu cầu thông tin sử dụng các giao diện hiện thời của hệ thống tìm kiếm. Thay vì ngƣời sử dụng đầu tiên phải chuyển đổi thông tin yêu cầu này thành một truy vấn mà có thể đƣợc xử lý bởi hệ thống tìm kiếm (hoặc hệ thống thu hồi thông tin (Information Retrieval - IR)). Thông thƣờng, phép chuyển đổi này tạo ra một tập hợp các từ khoá (hoặc các term chỉ số) mô tả khái quát yêu cầu của ngƣời sử dụng. Nhƣ vậy, việc tìm kiếm các tài liệu dựa trên nội dung thực sự của văn bản mà không phụ thuộc vào các từ khoá gắn với văn bản đó. Các công cụ tìm kiếm văn bản nổi tiếng hiện nay nhƣ Google, Altavista, Yahoo,…là những hệ tìm kiếm đƣa ra danh sách các văn bản theo độ quan trọng của câu hỏi đƣa vào. Để xây dựng một hệ tìm kiếm văn bản có hiệu quả cao, trƣớc hết các văn bản và truy vấn ở dạng ngôn ngữ tự nhiên phải đƣợc tiền xử lý và chuẩn hoá. Sau đây là hai mô hình chi tiết cho bộ công cụ tìm kiếm thông tin truyền thống và bộ công cụ tìm kiếm thông tin trên mạng. Văn bản Bài toán thông tin Biểu diễn Biểu diễn Văn bản đã chỉ số Truy vấn thông tin So sánh Số hóa bởi Trung tâm Học liệu Phản hồi http://www.lrc-tnu.edu.vn/ Các văn bản đƣợc tìm kiếm 11 Hình 1.1: Sơ đồ nguyên lý hoạt động 1.1.3. Nguyên lý hoạt động Search Engine làm việc bằng cách lƣu trữ thông tin về nhiều trang Web trên WWW. Những thông tin này sẽ đƣợc thu thập bởi các Spider (chính là Web crawling) và nội dung của mỗi trang sẽ đƣợc phân tích để SE quyết định nên index cái nào (ví dụ, những từ khoá đƣợc thu thập từ các titles, heading hay một số trƣờng đặc biệt gọi là meta tags) để trả về những thông tin mà ngƣời tìm kiếm mong muốn nhất. Dữ liệu về những trang Web sẽ đƣợc lƣu trữ tại các cơ sở dữ liệu chỉ mục để sử dụng cho những lần truy vấn sau. Một số Search Engine, nhƣ Google chẳng hạn, sẽ lƣu trữ toàn bộ hay một phần trang gốc (đƣợc xem nhƣ một cache) cũng nhƣ thông tin về trang Web đó, trái lại với một số SE khác, nhƣ AltaVista, sẽ lữu trữ tất cả các từ của những trang mà nó tìm thấy [5]. Khi ngƣời dùng nhập vào các Search Engine một truy vấn (chủ yếu là các keyword), các SE này sẽ kiểm tra các index của nó và cung cấp danh sách các trang Web phù hợp nhất, thƣờng là các cụm từ ngắn hay một phần của một đoạn văn bản. Hầu hết các Search Engine đều sử dụng các Boolean Operators (toán tử luận lý) nhƣ AND, OR và NOT để xác định các search query (truy vấn tìm kiếm). Một số SE khác lại sử dụng những phƣơng pháp tiên tiến hơn nhƣ Proximity Search (tìm kiếm gần kề) để cho phép ngƣời dùng xác định đƣợc khoảng cách giữa các từ khoá. 1.1.4. Hạn chế của web thông thƣờng Web thông thƣờng (thế hệ web 2.0) chỉ hỗ trợ so khớp các từ khóa tìm kiếm, không có khả năng suy diễn các từ đồng nghĩa. Do vậy, kết quả tìm kiếm đƣợc lại phải nhờ vào quết định của con ngƣời khi chọn dịch vụ web cần sử dụng. Máy có thể xử lý đƣợc nhƣng máy vẫn chƣa có khả năng hiểu và xử lý dịch vụ trả về có thật sự đúng với yêu cầu cùa ngƣời dùng dịch vụ [5]. Có thể tóm tắt các mặt hạn chế của dịch vụ web thông thƣờng nhƣ sau: Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 12 * Có các dịch vụ web không liên quan. * Bỏ xót các dịch vụ web thật sự liên quan vì không có sự suy diễn, quyết định sử dụng dịch vụ web phải do con ngƣời can thiệp. 1.2. Web ngữ nghĩa 1.2.1. Sự ra đời của Web ngữ nghĩa World Wide Web (gọi tắt là Web) đã trở thành một kho tàng thông tin khổng lồ của nhân loại và một môi trƣờng chuyển tải thông tin không thể thiếu đƣợc trong thời đại công nghệ thông tin ngày nay. Sự phổ biến và bùng nổ thông tin trên Web cũng đặt ra một thách thức mới là làm thế nào để khai thác đƣợc thông tin trên Web một cách hiệu quả, mà cụ thể là làm sao để máy tính có thể trợ giúp xử lý tự động đƣợc chúng. Muốn vậy, trƣớc hết máy tính phải hiểu đƣợc thông tin trên các tài liệu Web, trong khi ở thế hệ Web hiện tại thông tin đƣợc biểu diễn dƣới dạng chỉ con ngƣời mới đọc hiểu đƣợc. Các chuyên gia dự đoán, bề nổi của web (surface web) chứa khoảng 1 đến 2 tỷ trang tài liệu trong khi, ở phần sâu của web thì chứa đến 550 tỷ trang tài liệu. Có khoảng 200.000 website có tầng thông tin sâu, khoảng hơn 1/2 số thông tin này nằm trong các cơ sở dữ liệu có chủ đề riêng biệt. Khoảng 95% thông tin trong các website có tầng thông tin sâu cho phép đa số ngƣời dùng có thể khai thác miễn phí. Nhƣng hiện nay, hầu hết các công cụ tìm kiếm tài liệu trên web đƣợc coi là tìm kiếm hiệu quả cũng chủ yếu tìm kiếm đƣợc trên bề nổi của web. Trong khi ở tầng sâu của web chứa một khối lƣợng thông tin khổng lồ và thƣờng rất có giá trị cho các nhà nghiên cứu, các học giả hay đơn thuần là những ngƣời thích tìm hiểu. Bên cạch đó, các trang web hiện nay có rất ít đƣờng liên kết với các trang web khác nên việc tìm kiếm là khó khăn. Ngoài ra, thông tin tìm kiếm đƣợc không theo chủ đề mà chỉ là vấn đề tìm thoả theo từ khoá đơn thuần, kết quả tìm kiếm phải do con ngƣời chọn lại theo chủ đề mong muốn. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 13 Chính những vấn đề này đã thúc đẩy sự ra đời của ý tƣởng Web ngữ nghĩa (Semantic Web), một thế hệ mới của Web, mà chính cha đẻ của World Wide Web là Tim Berners-Lee đề xuất vào năm 1998. Web ngữ nghĩa là sự mở rộng của Web hiện tại mà trong đó thông tin đƣợc định nghĩa rõ ràng sao cho con ngƣời và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn. Mục tiêu của Web có ngữ nghĩa là để phát triển các chuẩn chung và công nghệ cho phép máy tính có thể hiểu đƣợc nhiều hơn thông tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việc khám phá thông tin (thông tin đƣợc tìm kiếm nhanh chóng và chính xác hơn), tích hợp dữ liệu (dữ liệu liên kết động), và tự động hóa các công việc. 1.2.2. Lợi ích của Web ngữ nghĩa Web ngữ nghĩa không phải là sự phủ nhận hoàn toàn web hiện tại, mà là một sự kế thừa có chọn lọc. Chúng ta có thể hình dung một số lợi ích của Web ngữ nghĩa so với Web hiện tại ở một số điểm sau : Máy tính có thể hiểu được thông tin trên Web: Web ngữ nghĩa định nghĩa các khái niệm và bổ sung quan hệ dƣới dạng máy tính có thể hiểu đƣợc. Do đó, việc tìm kiếm, đánh giá, xử lý, tích hợp thông tin có thể đƣợc tiến hành một cách tự động. Thông tin được tìm kiếm nhanh chóng và chính xác hơn: Với Web ngữ nghĩa, máy tính có thể xác định một thực thể thuộc lớp hay thuộc tính cụ thể nào dựa trên ngữ cảnh chứa nó. Do đó thu hẹp không gian tìm kiếm và cho kết quả nhanh, chính xác hơn. Khả năng suy luận thông minh: Dựa vào các luật suy diễn trên cơ sở tri thức về các thực thể, máy tính có khả năng sinh ra những kết luận mới. Ứng dụng Web tƣơng lai có thể sẽ trả lời đƣợc những câu hỏi kiểu nhƣ: “Thời tiết thứ 6 tuần trƣớc có lạnh không?”. Dữ liệu liên kết động: Thay thế cách liên kết sử dụng hyperlink tĩnh trong Web cũ, Web ngữ nghĩa liên kết dữ liệu từ nhiều nguồn khác nhau một cách hiệu quả hơn dựa trên định danh của tài nguyên (URI) và quan hệ giữa chúng. Cách liên kết này đôi khi còn đƣợc gọi là liên kết bằng siêu dữ liệu (meta data). 1.2.3. Các hƣớng nghiên cứu chính trong lĩnh vực dịch vụ web ngữ nghĩa Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 14 Tại hội nghị International Semantic Web Conference 2008, John Domingue và David Martin trình bày, hiện có 7 hƣớng nghiên cứu chính trong lĩnh vực dịch vụ web ngữ nghĩa [2]. Bao gồm: - Ngôn ngữ và từ vựng để biểu diễn ngữ nghĩa cho dịch vụ web. - Phát hiện và chọn lựa dịch vụ web phù hợp với nhu cầu dựa trên ngữ nghĩa. - Tổng hợp và phối hợp hoạt động của các dịch vụ web dựa trên một quy trình. - Quản lý giao tác và tài nguyên cho dịch vụ web ngữ nghĩa. - Dịch vụ sử dụng trên các thiết bị di động. - Các vấn đề về bảo mật trong việc sử dụng dịch vụ web ngữ nghĩa. - Các công cụ và môi trƣờng (tự động hoặc bán tự động) trong việc phát triển và khai thác dịch vụ web ngữ nghĩa. 1.3. Kiến trúc phân tầng của Web ngữ nghĩa 1.3.1. Kiến trúc phân tầng Theo kiến trúc Semantic Web đƣợc phân thành các tầng. Cụ thể mỗi tầng đƣợc miêu tả nhƣ sau: Dữ liệu Chữ ký số Dữ Quy Định liệu Hình 1.2: Kiến trúc Semantic web [2] 1.3.2. Vai trò của các tầng Tầng Unicode và URI. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 15 Đây là tầng đầu tiên của kiến trúc Semantic Web. Nó là hạ tầng đầu tiên cho xây dựng Semantic Web là nền tảng để mã hóa, định vị và truyền vận thông tin. Với Unicode là chuẩn mã hóa dữ liệu để vận chuyển thông tin. Unicode là mã chuẩn quốc tế, nó cho phép mã hóa mọi ngôn ngữ. URI-Uniform Resource Identifier là nền tảng để xác định vị trí cho các tài nguyên Web cũng chính là việc xác định tài nguyên Web. Thực tế tầng này đã đƣợc hoàn thiện và sử dụng trong nền Web hiện tại. Các URI đƣợc miêu tả với các giao thức khác nhau nhƣ : HTTP, FTP, SMTP…. hiện đang đƣợc sử dụng rộng rãi trên Internet. Sự xuất hiện của tầng này cho thấy đƣợc sự kế thừa thực sự của Semantic Web. Semantic Web thực sự chỉ là một sự mở rộng của Web hiện tại nó dữ lại những đặc điểm thiết kế bên dƣới của Web hiện tại và chỉ mở rộng thêm phần ngữ nghĩa ở những mức bên trên nhằm tạo thêm một khung nhìn mới cho Web hiện tại đó là khung nhìn của các ứng dụng (của máy tính). Tầng XML+NS+xmlschema. Đây là tầng thứ hai của kiến trúc phân tầng Semantic Web. XML và các chuẩn liên quan tới nó, cung cấp cho ta một con đƣờng để diễn đạt cấu trúc thông tin bất kỳ và nó là một chuẩn thực tế để truyền dữ liệu giữa các ứng dụng. Do vậy mà chúng đƣợc hỗ trợ rộng rãi về cả các công cụ và ngƣời dùng. Đó cũng là lý do mà nó tồn tại ở tầng thức hai này với vai trò làm một điểm chung gian giữa những dạng biểu diễn giàu ngữ nghĩa hơn và các dạng dữ liệu thô giàu cấu trúc. XML cung cấp một cú pháp chung cho biểu diễn dữ liệu trong môi trƣờng Internet. XML Schema cung cấp các định nghĩa kiểu dữ liệu và các cấu trúc cho tài liệu XML. Các không gian tên cũng đƣợc sử dụng nhƣ một giải pháp đã đƣợc áp dụng cho các tài liệu XML. Thực sự thì ở tầng thứ hai này mọi cái vẫn đƣợc kế thừa từ những gì mà Web hiện tại đã làm đƣợc. Các chuẩn cú pháp XML, không gian tên và XML Schema vẫn đƣợc chấp nhận trong Semantic Web. Do đó nó là một cơ sở để tích hợp các định nghĩa Semantic Web với các chuẩn XML khác. Tầng RDF+rdfschema. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 16 Bắt đầu từ tầng này, các đặc điểm mới của Web thực sự đƣợc bộc lộ làm cơ sở để khẳng định rằng nó là Semantic Web. Sự thực thì tầng này có vai trò nhƣ một mô hình, ngôn ngữ để biểu diễn ngữ nghĩa hay tạo ra các khung nhìn đơn giản tới máy tính. RDF –Resource Description Language là một ngôn ngữ, một mô hình dữ liệu cho phép biểu diễn các siêu dữ liệu hay các phát biểu ngữ nghĩa về dữ liệu (cái mà trong Web đƣợc gọi là tài nguyên-resource). RDFS-RDF Vocabulary Description Langauge là một ngôn ngữ để miêu tả các từ vựng đƣợc sử dụng trong tài liệu RDF. Sự xuất hiện của RDFS giúp tăng cƣờng ngữ nghĩa cho mô hình dữ liệu RDF. Tầng Ontology Vocabulary. Thông qua việc miêu tả các từ vựng dƣới dạng cây hay dạng phân lớp, RDFS đã góp phần mở rộng ngữ nghĩa cho dữ liệu RDF. Tuy nhiên nếu dừng lại ở đây, ngữ nghĩa mà dữ liệu RDF cung cấp thực sự chƣa đủ để đạt đƣợc những gì mà Semantic Web mong đợi. Từ đó mà tầng Ontology cần thiết đƣợc xây dựng. Ontology cho phép mở rộng từ vựng để miêu tả những thuộc tính và những lớp chẳng hạn nhƣ các mối quan hệ khác giữa các lớp mà không chỉ đơn thuần là quan hệ cha con. Có thể nói rằng RDF giống nhƣ các kiểu tài nguyên sử dụng trong các tài liệu RDF. Nhờ định nghĩa về kiểu một cách thống nhất này mà phần nào đó ngữ nghĩa đƣợc thêm vào trong RDF. Đến lƣợt Ontology thì ngữ nghĩa đƣợc thêm vào đúng với mức từ vựng và đƣợc chia sẻ trên internet. Tầng Logic. Tâng Logic hiện tại vẫn đang đƣợc phát triển và hiện tại chƣa có một công bố nào có tính chất chuẩn và hoàn thiện về tầng này. Nhóm phát triển Semantic Web của W3C thực sự vẫn đang phát triển tầng này và cũng vẫn chƣa hề đƣa ra những miêu tả hoàn chỉnh nào về tầng này. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 17 Bản chất của tầng logic là cung cấp những cơ sở để siêu dữ liệu RDF có thể trở thành tri thức, cái đƣợc áp dụng để thực hiện các suy luận logic nhằm chứng minh hoặc đƣa ra các thông tin mới từ các thông tin đã có. Tầng Proof và Tầng Trust. Proof và Trust là những tầng cuối cùng trong cấu trúc của Semantic Web. Hiện tại chƣa có nhiều miêu tả về tầng này cũng nhƣ giải pháp thực sự cho chúng. Chúng là những điểm đáng xấu hổ của hiện tại và là những điểm quan trọng của Semantic Web trong tƣơng lai. Một điều đơn giản để hiểu sự khắc nghiệt thật sự của về vấn đề này đó là sự mâu thuẫn của thông tin. Chẳng hạn nhƣ có ngƣời nói rằng x có màu xanh, lại có ngƣời nói rằng x có màu khác xanh, phải chăng Semantic Web sẽ sụp đổ với những trƣờng hợp nhƣ thế này? Câu trả lời dĩ nhiên là không, bởi vì hai lý do cơ bản sau: - Ứng dụng trên Semantic Web ở hiện tại thƣờng dựa trên nền tảng một ngữ cảnh cụ thể. - Các ứng dụng trong tƣơng lai sẽ thƣờng chứa đựng các kỹ thuật kiểm tra các chứng cớ và xác thực điện tử (digital signatures). Khái lƣợc về ngữ cảnh (Context). Các ứng dụng trên Semantic Web dựa trên một ngữ cảnh thƣờng để mọi ngƣời xác thực sự đúng đắn của dữ liệu. Ngữ cảnh là một thứ tốt bởi vì chúng ta có thể tin tƣởng đƣợc mà không cần phải nhờ vào sự thẩm định phức tạp và hệ thống kiểm tra. Tuy nhiên vấn đề xuất hiên đối tƣợng thứ ba kẻ giả mạo là không tránh khỏi và đó là đòi hỏi ra đời của digital signatures. Digital signatures. Áp dụng công nghệ mã hóa và ký điện tử trong RDF. Đảm bảo cho chúng ta rằng nguồn tài liệu mà ta đang sử dụng là do chính xác một nhà cung cấp nào đó – Giống nhƣ sự xác thực điện tử mà trong an toàn thông tin đã đề cập đến. Trong kiến trúc của Semantic Web, Digital signature đóng một vai trò rất quan trọng. Nó gắn liền với các tầng của kiến trúc Semantic Web kể từ tầng thứ ba Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 18 RDF, với vai trò là mở rộng cho các tầng này để đảm bảo rằng những thông tin trong các tài liệu này là xác thực do một nhà cung cấp nào đó. Điều này giúp ngăn chặn sự sụp đổ của Semantic Web do chính đặc tính đơn giản và phổ cập của nó mang đến. Với Digital Signature, các ứng dụng sẽ có căn cứ để sử dụng các thông tin chính xác do những nhà cung cấp mà ứng dụng đó tin tƣởng. 1.4. RDF – Nền tảng của Web ngữ nghĩa 1.4.1. Giới thiệu XML cung cấp cú pháp để mã hóa dữ liệu, RDF là một cơ cấu chỉ ra điều gì đó về dữ liệu. Nhƣ tên gọi , RDF là một mô hình để biểu diễn dữ liệu về "Mọi thứ trên Web". Mọi thứ ở đây chính là các tài nguyên trong RDF vocubulary (từ vựng). Mô hình dữ liệu cơ sở của RDF thì đơn giản, bên cạnh tài nguyên (resources), RDF còn chứa thuộc tính (properties) và câu phát biểu (statements). Một property là một khía cạnh, tính chất, thuộc tính, hay mối liên hệ mô tả cho một tài nguyên. Một statement bao gồm một tài nguyên riêng biệt, một thuộc tính đƣợc đặt tên, và giá trị thuộc tính cho tài nguyên đó. Giá trị này cơ bản có thể là một tài nguyên khác hay một giá trị mang tính nghĩa đen (literal value) hay dạng text tùy ý (free text) [3]. 1.4.2. Các khái niệm cơ bản RDF(Resource Description Framework) RDF mô tả siêu dữ liệu về các tài nguyên trên Web. RDF dựa trên cú pháp XML tuy nhiên XML chỉ mô tả dữ liệu, RDF còn có khả năng biểu diễn ngữ nghĩa giữa chúng thông qua các tài nguyên đƣợc định danh bằng URI [3]. Theo Wikipedia, dữ liệu liên kết (Linked Data) là một phần của web ngữ nghĩa, nó mô tả cách hiệu quả để truy xuất, chia sẽ và kết nối các mảng dữ liệu, thông tin và tri thức trên web ngữ nghĩa sử dụng liên kết URIs và RDF. Giống nhƣ web của văn bản, web của dữ liệu đƣợc xây dựng dựa trên các tài liệu trên web. Tuy nhiên, không giống web của văn bản, các liên kết là quan trên văn bản biểu diễn dƣới dạng HTML, web của dữ liệu liên kết các “thực thể đƣợc đặt tên” thông qua RDF. URIs xác định các loại đối tƣợng và khái niệm. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 19 RDF chính là nền tảng trung tâm của web ngữ nghĩa. Trong khi XML cung cấp cú pháp để mã hóa dữ liệu thì RDF mô tả siêu dữ liệu về các tài nguyên trên Web. RDF dựa trên cú pháp XML tuy nhiên XML chỉ mô tả dữ liệu, RDF còn có khả năng biểu diễn ngữ nghĩa giữa chúng thông qua các tài nguyên định danh bằng URI. RDF - Resource Description Framework, định dạng dữ liệu cho phép mô tả thực thể, tài nguyên và quan hệ nội tại giữa chúng bằng bộ ba đối tƣợng – thuộc tính – giá trị ( subject – predicate – object). RDFa (RDF – in – attributes) bổ sung tập các thuộc tính mở rộng cho XHTML để nhúng siêu dữ liệu trong văn bản web. 1.4.3. Cấu trúc RDF/XML Mô hình RDF thể hiện một mô hình ở mức trừu tƣợng để định nghĩa metadata. Cú pháp RDF đƣợc dùng để tạo ra và trao đổi metadata. RDF dựa trên cú pháp XML. Cú pháp cơ bản của RDF có dạng nhƣ sau: [1] RDF ::= [''] description* [''] [2] description ::= '' propertyElt* '' [3] idAboutAttr ::= idAttr | aboutAttr [4] aboutAttr ::= 'about="' URI-reference '"' [5] idAttr ::= 'ID="' IDsymbol '"' [6] propertyElt ::= '<' propName '>' value ''| '<' propName resourceAttr '/>' [7] propName ::= Qname [8] value ::= description | string [9] resourceAttr ::= 'resource="'tham chiếu URI'"' [10] Qname ::= [ NSprefix ':' ] name [11] URI-reference ::= string, interpreted per [URI] [12] IDsymbol ::= (bất kỳ ID nào hợp lệ nào của XML) [13] name ::= (bất kỳ tên hợp lệ nào của XML) [14] NSprefix ::= (bất kỳ tiếp đầu ngữ namespace hợp lệ nào) Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 20 [15] string ::= (bất kỳ chuỗi nào) Ví dụ : Xét phát biểu ex:index.html exterms:creation-date "August 16, 1999" . Cú pháp RDF/XML để biểu diễn cho phát biểu trên nhƣ sau: 1. 2. 4. 5. August 16, 1999 6. 7. Trong đó: Dòng 1: là khai báo XML, cho biết nội dung theo sau dựa trên cú pháp XML và phiên bản XML đƣợc dùng. Dòng 2 và 3: bắt đầu với thẻ rdf:RDF , cho biết rằng nội dung XML tiếp theo mô tả RDF. Từ khóa này xác định tài liệu này đƣợc biểu diễn dƣới dạng RDF. Tiếp theo là phần khai báo XML namespace đƣợc sử dụng trong tài liệu, tùy vào nhu cầu và mục đích sử dụng mà ta có thể dùng các namespace khác nhau cho từng tài liệu. Dòng 4, 5, 6: mô tả những mệnh đề RDF. Để mô tả bất kỳ phát biểu nào dạng RDF/XML có thể dùng rdf:Description, và rdf:about , đây chính là subject của phát biểu. Thẻ bắt đầu rdf:Description trong dòng 4 cho biết bắt đầu mô tả về một resource, và tiếp tục định danh resource này dùng thuộc tính rdf:about để chỉ ra URI của subject resource. Dòng 5 cung cấp 1 phần tử thuộc tính, với Qname exterms:creation-date nhƣ là thẻ của nó. Nội dung của phần tử thuộc tính này là object của statement, có giá trị là kiểu plain literal “August 19, 1999 “. Dòng 7: cho biết kết thúc của thẻ rdf:RDF bắt đầu ở dòng 2 và cũng là thẻ kết thúc của tài liệu RDF. 1.4.4. RDFS collection Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
- Xem thêm -