Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Kiến trúc xây dựng ứng dụng seantic web để xây dựng hệ thống tra cứu hiện vật tại bảo tàng đà nẵng...

Tài liệu ứng dụng seantic web để xây dựng hệ thống tra cứu hiện vật tại bảo tàng đà nẵng

.PDF
83
28
79

Mô tả:

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA -------------------- TRẦN KIM HOÀNG ỨNG DỤNG SEMANTIC WEB ĐỂ XÂY DỰNG HỆ THỐNGTRA CỨU HIỆN VẬT TẠI BẢO TÀNG ĐÀ NẴNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC 1. PGS. TS Võ Trung Hùng Đà Nẵng, 2017 I LỜI CAM ĐOAN Tôi xin cam đoan : ● Những nội dung trong luận văn này là do tôi thực hiện dƣới sự hƣớng dẫn trực tiếp của PGS.TS. Võ Trung Hùng. ● Mọi tham khảo dùng trong luận văn đều đƣợc trích dẫn rõ ràng và trung thực tên tác giả, tên công trình, thời gian, địa điểm công bố. ● Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm. Tác giả Trần Kim Hoàng II MỤC LỤC LỜI CAM ĐOAN…………………………………………………………………....... I MỤC LỤC……………………………………………………………………………. II CÁC CHỮ VIẾT TẮT……………………………………………………………… VI DANH MỤC BẢNG BIỂU………………………………………………………... VII DANH MỤC HÌNH ẢNH…………………………………………………………VIII MỞ ĐẦU……………………………………………………………………………….1 1. Lý do chọn đề tài…………………………………………………………………. 1 2. Mục đích nghiên cứu……………………………………………………………... 2 3. Đối tƣợng và phạm vi nghiên cứu……………………………………………….. 2 4. Phƣơng pháp nghiên cứu………………………………………………………….2 5. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu……………………………. 2 6. Cấu trúc của luận văn…………………………………………………………….. 3 CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN…………………………………………. 4 1.1. Web ngữ nghĩa…………………………………………………………………. 4 1.1.1. Những hạn chế của World Wide Web…………………………………….. 4 1.1.2. Sự ra đời của Web ngữ nghĩa……………………………………………... 4 1.1.3. Định nghĩa Web ngữ nghĩa………………………………………………... 6 1.2. Kiến trúc Web ngữ nghĩa………………………………………………………. 9 1.2.1. Giới thiệu………………………………………………………………….. 9 1.2.2. Định nghĩa và vai trò của các tầng trong kiến trúc Web ngữ nghĩa……... 10 1.2.2.1. Tầng Unicode và URI (Uniform Resource Identifier)……………… 10 1.2.2.2. Tầng XML…………………………………………………………... 10 1.2.2.3. Tầng RDF và RDF Schemma………………………………………..11 1.2.2.4. Tầng Ontology Vocabulary…………………………………………. 11 1.2.2.5. Tầng Lô-gíc…………………………………………………………. 11 1.2.2.6. Tầng Proof…………………………………………………………... 11 1.2.2.7. Tầng Trust…………………………………………………………... 12 1.3. Nội dung xây dụng Web ngữ nghĩa…………………………………………... 12 1.3.1. XML và RDF trên Web………………………………………………….. 12 1.3.2. Các ngôn ngữ biểu diễn Ontology cho Web có ngữ nghĩa………………. 12 1.3.3. Phát triển nâng cao Web ngữ nghĩa ………………………………………13 1.4. Ontology……………………………………………………………………….13 1.4.1. Khái niệm Ontology ……………………………………………………...13 1.4.2. Mục đích xây dựng Ontology …………………………………………….14 1.4.3. Yêu cầu khi sử dụng Ontology …………………………………………...15 1.4.4. Các thành phần Ontology ………………………………………………...16 III 1.4.5. Ngôn ngữ OWL …………………………………………………………..17 1.4.6. Công cụ phát triển Ontology……………………………………………...18 1.5. Ứng dụng và triển vọng của Web ngữ nghĩa ………………………………….19 1.5.1. Search Engine …………………………………………………………….19 1.5.2. Internet Agent …………………………………………………………….20 1.5.3. Push System ………………………………………………………………21 1.5.4. Relationship ………………………………………………………………21 1.6. Một số ứng dụng của Web ngữ nghĩa vào lĩnh vực bảo tàng trên thế giới ……21 1.6.1. Europeana ………………………………………………………………...21 1.6.2. CHIP (Cultural Heritage Information Personalization) …………………..22 1.6.3. Ama (Archive Mapper for Archaeology) ………………………………...23 1.6.4. E-Culture………………………………………………………………….23 1.6.5. The Museum Finland Portal ……………………………………………...24 1.6.6. The Reach Project ………………………………………………………...24 1.6.7. The Museum24 Project …………………………………………………...24 1.6.8. Cantabria Cultural Heritage Semantic Portal……………………………..25 1.6.9. CultureSampo Portal ……………………………………………………...25 1.6.10. Cultura Italia Project (http://www.culturaitalia.it/)……………………...25 1.6.11. Sisc Project ……………………………………………………………...25 CHƢƠNG 2: GIẢI PHÁP ĐỀ XUẤT………………………………………………26 2.1. Bảo tàng Đà Nẵng ……………………………………………………………..26 2.1.1. Giới thiệu …………………………………………………………………26 2.1.2. Ứng dụng CNTT tại Bảo tàng…………………………………………….29 2.2. Giới thiệu bài toán ……………………………………………………………..31 2.2.1. Yêu cầu bài toán ………………………………………………………….31 2.2.2. Phân tích vấn đề …………………………………………………………..31 2.3. Giải pháp ………………………………………………………………………33 2.3.1. Phác thảo kiến trúc t ng thể hệ thống …………………………………….34 2.3.2. Giải quyết yêu cầu tìm kiếm ……………………………………………...34 2.3.3. Các chức năng cơ bản của ứng dụng ……………………………………..36 2.3.4. Quy trình xây dựng Web ngữ nghĩa ……………………………………...36 2.4. Các công cụ h trợ …………………………………………………………….39 2.4.1 Công cụ xây dựng ứng dụng Protégé……………………………………...39 2.4.2 Bộ Visual Studio.Net ……………………………………………………...41 2.4.3. Thƣ viện phát triển ứng dụng …………………………………………….42 2.4.3.1. SemWeb ……………………………………………………………..42 2.4.3.2. OwlDotNetApi ………………………………………………………42 2.5. Phân tích và thiết kế hệ thống …………………………………………………42 2.5.1. Biểu đ Use Case …………………………………………………………42 IV 2.5.2. Biểu đ lớp………………………………………………………………..45 2.5.3. Biểu đ hoạt động ………………………………………………………...45 2.5.3.1. Đăng nhập, đăng xuất ……………………………………………………..46 2.5.3.2. Cập nhật dữ liệu ……………………………………………………………47 2.5.3.3. Xem thông tin hiện vật……………………………………………………..48 2.5.3.4. Tìm kiếm hiện vật …………………………………………………………..49 CHƢƠNG 3 : X Y DỰNG HỆ TH NG …………………………………………..50 3.1. Mô hình kiến trúc t ng thể của hệ thống………………………………………50 3.2. Phát triển ứng dụng …………………………………………………………....52 3.2.1. Qui trình phát triển ứng dụng …………………………………………….52 3.2.2. Xây dựng Ontology ………………………………………………………52 3.2.3. Xây dựng kết nối truy xuất dữ liệu t ontology sang giao diện web ……..56 3.2.3.1. Khai báo sử dụng thư viện OwlDotNetApi……………………………...56 3.2.3.1. Khai báo truy vấn thông tin……………………………………………….57 3.2.4. Một số thuật toán đƣợc sử dụng để khai thác dữ liệu …………………….57 3.2.4.1. Điền dữ liệu …………………………………………………………………57 3.2.4.2. Duyệt theo ngữ nghĩa………………………………………………………57 3.2.4.3. Tìm kiếm cơ bản…………………………………………………………….58 3.2.5. Xây dựng giao diện ……………………………………………………….58 3.2.5.1. Trang chính của hệ thống …………………………………………………58 3.2.5.3. Hiển thị thông tin của một hiện vật .……………………………………..59 3.2.5.4. Trang đăng nhập của quản trị hệ thống…………………………………60 3.2.5.5. Trang chính của quản trị hệ thống……………………………………….60 3.2.5.6. Trang Thêm mới hiện vật ………………………………………………….61 3.3. Triển khai hệ thống ……………………………………………………………61 3.4. Đánh giá kết quả của hệ thống ………………………………………………...62 ẾT LU N …………………………………………………………………………..63 DANH MỤC TÀI LIỆU THAM HẢO …………………………………………...65 V NG DỤNG SEMANTIC WEB ĐỂ X Y DỰNG HỆ TH NG TRA C U HIỆN V T TẠI BẢO TÀNG ĐÀ NẴNG Học viên: Trần Kim Hoàng Mã số: Khoá: 32 Chuyên Ngành: Khoa học máy tính Trƣờng Đại học Bách Khoa - ĐHĐN Tóm tắt - Hiện nay ở một số quốc gia tiên tiến trên thế giới, công việc số hóa thông tin bảo tàng để xây dựng bảo tàng điện tử đƣợc thực hiện cách đây hơn chục năm và trên thực tế, họ đã xây dựng thành công một số mô hình “Bảo tàng điện tử”. Tuy nhiên ở nƣớc ta bảo tàng điện tử vẫn chƣa đƣợc áp dụng rộng rãi. Nghiên cứu này đƣợc đề xuất nhằm số hóa thông tin hiện vật của bảo tàng, cũng nhƣ đƣa ra giải pháp để tìm kiếm thông tin hiện vật trong bảo tàng đây là một phần nhỏ nhằm góp phần xây dựng bảo tàng điện tử. Bài báo cáo g m có tìm hiểu lý thuyết t ng quan về công nghệ Semantic Web, khái niệm Semantic Web, các ngôn ngữ và công cụ xây dựng. Số hoá cở sở dữ liệu hiện vật của bảo tàng. T đó xây dựng website tìm kiếm thông tin hiện vật của bảo tàng. Từ khoá - Semantic Web, Website, bảo tàng, ontology, sparql, protégé. SEMATIC WEB APPLICATION TO BUIILD THE INSPECTION SYSTEM ARTIFACTS IN THE MUSEUM DA NANG Sumary - At present in some advanced countries in the world, the digitization of museum information to build electronic museums has been done more than a decade ago and, in fact, they have successfully built some model "Electronic Museum". However, electronic museums have not yet been widely applied in Vietnam. This research was proposed to digitize the museum's artifacts as well as to provide a way to find information about the museum's artifacts. This is a small part of the museum's contribution to electronic museums. The report includes an overview of the semantic Web semantic theory, Semantic Web concepts, languages and build tools. Digitize the Museum's database of artifacts. From there, the Museum's website will be searched for information. Keyword - Semantic Web, Website, museum, ontology, sparql, protégé. VI CÁC CHỮ VIẾT TẮT CSDL Cơ sở dữ liệu DAML DARPA Markup Language HTML HyperText Markup Language HTTP HyperText Transfer Protocol IRI Internationalized Resource Identifier ISO International Organization for Standards IWS Institute of Web Science OIL Ontology Inference Layer OWL Web Ontology Language RDF Resource Description Framework RDFS Resource Description Framework Schema SGML Standard Generalized Markup Language SWSE Semantic Web Search Engine URI Semantic Web Search Engine VII DANH MỤC BẢNG BIỂU Số hiệu bảng biểu Tên bảng biểu Trang 1.1 Các công cụ phát triển Ontology 19 2.1 Các tầng của Bảo tàng Đà Nẵng 27 2.2 Use case đăng nhập 43 2.3 Use case cập nhật dữ liệu 43 2.4 Use case xem thông tin 44 2.5 Use case tìm kiếm 44 VIII DANH MỤC HÌNH ẢNH Số hiệu hình ảnh Tên hình vẽ Trang 1.1 Sự hình thành và phát triển của Web ngữ nghĩa 5 1.2 Quá trình phát triển công nghệ Web trong tƣơng lai 6 1.3 Một đề xuất ngu n gốc Web với CERN 7 1.4 Sơ đ phát triển tính thông minh của dữ liệu 8 1.5 Kiến trúc Web ngữ nghĩa theo đề xuất của Tim Berners Lee 9 1.6 Sự cần thiết của Ontology trong quá trình chia sẻ tri thức 15 1.7 Data Providers of Chip 23 2.1 Giao diện Web của Bảo tàng Đà Nẵng 29 2.2 Trang giới thiệu về hiện vật của Bảo tàng Đà Nẵng 30 2.3 Các bƣớc xây dựng hệ thống 33 2.4 Kiến trúc hệ thống 34 2.5 Mô tả suy luận ngang cấp trong Web Semantic 35 2.6 Mô tả suy luận ngƣợc trong Web Semantic 35 2.7 Giao tiếp bằng đ hoạ của Protégé 40 2.8 Biểu đ use case 42 2.9 Biểu đ lớp 45 2.10 Biểu đ hoạt động đăng nhập, đăng xuất 46 2.11 Biểu đ hoạt động cập nhật dữ liệu 47 2.12 Biểu đ hoạt động xem thông tin hiện vật 48 2.13 Biểu đ hoạt động tìm kiếm hiện vật 49 3.1 Mô hình kiến trúc t ng thể của hệ thống 50 3.2 Quy trình truy xuất dữ liệu của tầng Search engine 51 3.3 Các lớp trong Ontology 53 IX 3.4 Object Properties 54 3.5 Data properties 55 3.6 Các cá thể trong Ontology 56 3.7 Trang chính cho hệ thống 58 3.8 Trang tìm kiếm 59 3.9 Thông tin của hiện vật 59 3.10 Trang đăng nhập của quản trị viên 60 3.11 Trang chính của quản trị hệ thống 60 3.12 Trang thêm mới hiện vật 61 3.13 Mô hình triển khai 61 1 MỞ ĐẦU 1. Lý do chọn đề tài Hiện nay, với sự phát triển của khoa học kĩ thuật và công nghệ ngành bảo tàng ngày càng phát triển, ngày càng nhiều hiện vật, tƣ liệu khảo c đƣợc tìm thấy. Cùng với các hiện vật là kho thông tin và tƣ liệu kh ng l về các hiện vật đƣợc tìm thấy mà các nhà khoa học đã nghiên cứu và phát hiện ra. Bên cạnh đó, cùng với sự phát triển mạnh mẽ của công nghệ thông tin, ứng dụng của công nghệ thông tin trong lĩnh vực bảo tàng đang phát triển mạnh và tạo ra những thay đ i lớn trong công tác bảo tàng. Có rất nhiều cách tiếp cận khác nhau khi ứng dụng công nghệ thông tin trong lĩnh vực bảo tàng. Ở một số quốc gia tiên tiến trên thế giới, công việc số hóa thông tin bảo tàng để xây dựng bảo tàng điện tử đƣợc thực hiện cách đây hơn chục năm, trên thực tế, họ đã xây dựng thành công một số mô hình bảo tàng điện tử. Bảo tàng điện tử cho phép cung cấp dễ dàng và thuận lợi đến khách tham quan toàn bộ các hiện vật của bảo tàng cũng nhƣ toàn bộ giá trị phi vật thể tiềm ẩn trong nó. Ở Việt Nam, trong vài năm gần đây, một số bảo tàng đã bắt đầu ứng dụng công nghệ thông tin trong hoạt động nghiệp vụ và bƣớc đầu đã có những hiệu quả thực sự. Nhƣ chúng ta đã biết, hiện vật và các hoạt động liên quan đến hiện vật là vấn đề chính yếu của một bảo tàng. Vì vậy, cơ sở của bảo tàng số hóa là việc ứng dụng khoa học, kĩ thuật thông tin điện tử vào tất cả những thông tin trong bảo tàng và mọi hoạt động nghiệp vụ của bảo tàng. Các hiện vật trong bảo tàng, theo quan niệm truyền thống, là một bản gốc, nên khi đƣợc số hóa, sẽ tạo ra một bản thông tin mô phỏng lƣu trữ trong bộ nhớ của máy tính, t đó đem đến nhiều thuận lợi trong phƣơng thức khai thác thông tin. Trên cơ sở số hóa, máy tính sẽ thay thế phần lớn các thao tác của cán bộ bảo tàng trong mọi khâu quản lý, sử dụng hiện vật và tự động hóa các khâu này. Tuy nhiên, các ứng dụng hiện nay vẫn d ng lại ở việc cung cấp thông tin chứ chƣa cung cấp đƣợc những tri thức cần thiết nên đã có những khó khăn nhất định trong việc tìm hiểu, tra cứu. Vì vậy, đề tài “Ứng dụng sematic web để xây dựng hệ thống tra cứu hiện vật tại Bảo tàng Đà Nẵng” đi sâu vào việc số hoá các dữ liệu của Bảo tàng sau đó xây dựng tri thức dựa trên tƣ liệu của các hiện vật đã đƣợc số hoá nhằm phục vụ cho việc tìm hiểu và tra cứu một cách dễ dàng hơn. 2 2. Mục đích nghiên cứu Đề tài hƣớng đến việc số hoá dữ liệu các hiện vật đang có của Bảo tàng, sau đó dựa trên cơ sở dữ liệu có đƣợc để xây dựng một ontology đầy đủ về các hiện vật của Bảo tàng. T ontology v a xây dựng tiếp tục xây dựng hệ thống tìm kiếm hiện vật cho bảo tàng. 3. Đối tƣợng và phạm vi nghiên cứu Đối tƣợng nghiên cứu của đề tài là các vấn đề liên quan đến Semantic Web nhƣ phƣơng pháp để xây dựng và lƣu trữ dữ liệu trong Semantic Web và các công cụ dùng để xây dựng Semantic Web. Phạm vi nghiên cứu của đề tài là các hiện vật của Bảo tàng Đà Nẵng. Hiện nay Bảo tàng Đà Nẵng có khoảng hơn 3000 hiện vật đƣợc trƣng bày. Tuy nhiên trong đề tài này tôi chi t ng hợp thông tin của 600 hiện vật về lịch sử các thời kỳ chiến tranh, về điều kiện tự nhiên, về văn hoá của các dân tộc, về Đà Nẵng thời tiền sơ sử. Ứng dụng tìm kiếm thông tin của hiện vật đƣợc xây dựng và kiểm thử ở phạm vi Bảo tàng Đà Nẵng. 4. Phƣơng pháp nghiên cứu Về mặt lý thuyết tập trung nghiên cứu về các vấn đề liên quan đến sematic web và việc xây dựng bảo tàng điện tử. Tìm hiểu về số hoá dữ liệu liên quan đến bảo tàng. Nghiên cứu về quá trình xây dựng một công cụ search engine. Phƣơng pháp thực nghiệm tập trung vào việc số hoá dữ liệu và xây dựng kho dữ liệu các hiện vật của bảo tàng. Xây dựng ontology các hiện vật của bảo tàng. Xây dựng công cụ search engine, xây dựng website tìm kiếm hiện vật của bảo tàng, triển khai thực tế trên Internet. 5. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu Về mặt khoa học đề tài đóng góp một công cụ tìm kiếm các hiện vật theo công nghệ sematic web dành riêng cho bảo tàng. Phƣơng pháp xây dựng ontology về các hiện vật của bảo tàng. Số hoá đƣợc một phần dữ liệu về các hiện vật của bảo tàng. Về thực tiễn đề tài bƣớc đầu mở ra hƣớng nghiên cứu để t ng bƣớc xây dựng bảo tàng điện tử cho Bảo tàng Đà Nẵng. Giúp bảo tàng t ng bƣớc số hoá đƣợc dữ liệu về hiện vật hiện có. 3 6. Cấu trúc của luận văn Bố cục của luận văn g m có 3 chƣơng nhƣ sau: CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN Trong chƣơng này của đề tài trình bày cơ sở lý thuyết về Sematic Web và một số ứng dụng thành công về bảo tàng trên thế giới có sử dụng công nghệ Sematic Web. CHƢƠNG 2: GIẢI PHÁP ĐỀ XUẤT Chƣơng này giới thiệu về Bảo tàng Đà Nẵng và thực trạng ứng dụng công nghệ thông tin vào lĩnh vực bảo tàng của Bảo tàng Đà Nẵng. Phân tích ƣu điểm và nhƣợc điểm của website bảo tàng hiện nay. T đó, đề xuất xây dựng hệ thống tìm kiếm hiện vật hiệu quả hơn. CHƢƠNG 3: XÂY DỰNG HỆ THỐNG Dựa trên những đề xuất ở chƣơng 2, tiến hành phân tích, thiết kế và xây dựng ontology, xây dựng hệ thống tìm kiếm hiện vật của bảo tàng. Ngoài ra, để đánh giá toàn bộ quá trình nghiên cứu, phần cuối của luận văn có nêu lên kết quả và hƣớng phát triển cho đề tài. 4 CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN Trong chƣơng này giới thiệu các khái niệm t ng quan về Web ngữ nghĩa, các ngôn ngữ và công cụ xây dựng Web ngữ nghĩa tính đến thời điểm hiện nay. Tìm hiểu kiến trúc Web ngữ nghĩa, ứng dụng và triển vọng của Web ngữ nghĩa trong tƣơng lai. Đ ng thời trong chƣơng này cũng tìm hiểu về một số ứng dụng của Web ngữ nghĩa vào lĩnh vực bảo tàng trên thế giới. 1.1. Web ngữ nghĩa 1.1.1. Những hạn chế của World Wide Web World Wide Web (gọi tắt là Web) đƣợc sáng lập bởi Tim Berners - Lee đã trở thành một kho tàng thông tin kh ng l của nhân loại và một môi trƣờng chuyển tải thông tin không thể thiếu đƣợc trong thời đại công nghệ thông tin ngày nay và nó cũng chính là linh h n của Internet. Thông tin trên Internet thƣờng đƣợc t chức dƣới dạng siêu văn bản, chúng đƣợc tạo ra bằng ngôn ngữ đánh dấu siêu văn bản HTML. Để tìm kiếm các trang Web nói riêng, các tài nguyên trên Internet nói chung và đảm bảo việc truy cập đến chúng ngƣời ta sử dụng hệ thống mạng toàn cầu WWW. Hệ thống mạng toàn cầu WWW đƣợc cấu thành t các trang Web và đƣợc xây dựng trên giao thức truyền tin đặc biệt, gọi là giao thức truyền tin siêu văn bản HTTP. Hệ thống mạng toàn cầu WWW ngày càng trở nên rộng khắp thông qua một loạt các tiêu chuẩn đƣợc thiết lập rộng rãi và đảm bảo đƣợc các thành phần ở các mức độ khác nhau. Giao thức TCP IP đảm bảo rằng chúng ta không phải lo lắng về việc chuyển t ng bit dữ liệu thông qua hệ thống mạng nữa. Tƣơng tự nhƣ vậy, HTTP và HTML đã cung cấp các cách tiêu biểu để có thể nhận thông tin và trình diễn các tài liệu siêu văn bản. Tuy nhiên, trên thực tế có một khối lƣợng kh ng l các tài nguyên trên Web, điều đó đã đặt ra thách thức làm sao để khai thác thông tin trên Web một cách hiệu quả, mà cụ thể là làm thế nào để máy tính có thể trợ giúp xử lý tự động đƣợc chúng. Muốn vậy, web phải có khả năng mô tả các sự vật theo cách mà máy tính có thể “hiểu” đƣợc, có thể tích hợp dữ liệu, cũng nhƣ tái sử dụng dữ liệu thông qua các ứng dụng khác nhau. 1.1.2. Sự ra đời của Web ngữ nghĩa World Wide Web (WWW) chứa một thông tin kh ng l , đƣợc tạo ra t các t chức, cộng đ ng khác nhau trên khắp thế giới. Nhờ vào WWW, kiến thức con ngƣời đã tăng tiến một cách đáng kể. Ngƣời ta ƣớc tính, chỉ trong vòng vài chục năm, lƣợng kiến thức của nhân loại đã tăng gấp đôi. Tính đơn giản và ph biến của WWW đã 5 mang lại cho con ngƣời quá nhiều lợi ích. Con ngƣời có thể trao đ i thông tin ở khắp mọi nơi. Tuy nhiên, các trang Web hiện nay hầu hết đƣợc sử dụng bởi con ngƣời, máy tính chỉ có nhiệm vụ gửi nhận dữ liệu và thể hiện thông tin dƣới dạng mà chỉ có con ngƣời mới đọc hiểu đƣợc. Ngƣời sử dụng phải làm nhiệm vụ tìm kiếm, suy luận, t ng hợp và trích rút thông tin mình cần. Điều đó đã đặt ra thách thức là làm sao để khai thác thông tin trên Web hiệu quả hay nói cách khác là làm thế nào để máy tính có thể xử lý tự động đƣợc chúng. Muốn vậy thì Web phải có khả năng mô tả thông tin theo cách mà máy tính có thể hiểu đƣợc. Để chúng ta dễ dàng có đƣợc một kết quả tìm kiếm chính xác, nhanh chóng và hiểu dần tới ngữ nghĩa vấn đề chúng ta mong muốn. Hình 1.1: S hình th nh v phát triển của eb ngữ nghĩa Hình trên thể hiện sự kế th a và phát triển các thế hệ Web trong quá trình phát triển công nghệ Web. T thế hệ Web đầu tiên là những trang HTML thủ công đến Web hiện tại – Web 2.0 đã dùng các liên kết URI, ngôn ngữ HTLM, XML và đã đạt đƣợc những thành tựu đáng kể trong việc tìm kiếm. Tuy nhiên, ở thế hệ Web này thông tin đƣợc biểu diễn dƣới dạng văn bản thô, chỉ có con ngƣời mới đọc và hiểu đƣợc thì việc tìm kiếm trong một lƣợng lớn thông tin ngày càng ít hiệu quả hơn. Hơn nữa nhu cầu của ngƣời dùng không d ng lại ở đó mà còn đòi hỏi thông tin trên Web 6 phải đƣợc định nghĩa rõ ràng sao cho con ngƣời và máy tính có thể làm việc với nhau một cách có hiệu quả hơn. Web 3.0 - Web ngữ nghĩa ra đời nhằm đáp ứng những yêu cầu về xử lý và tìm kiếm thông tin, cho phép chúng ta xây dựng những CSDL phục vụ tìm kiếm chính xác. Hình 1.2: Quá trình phát triển công nghệ eb trong tương lai 1.1.3. Định nghĩa Web ngữ nghĩa Web ngữ nghĩa đƣợc hình thành t ý tƣởng của Tim Berners-Lee, ngƣời phát minh ra WWW, URI, HTTP và HTML. Tim Berners-Lee đã định nghĩa: “The Semantic Web is an extension of the current Web in which information is given welldefined meaning, better enabling computers and people to work in cooperation” . Web ngữ nghĩa là sự mở rộng của Web hiện tại mà trong đó thông tin đƣợc định nghĩa rõ ràng sao cho con ngƣời và máy tính có thể làm việc với nhau một cách hiệu quả hơn. Theo định nghĩa của T chức World Wide Web, Web ngữ nghĩa đƣợc hiểu nhƣ sau: Web ngữ nghĩa là một cách nhìn về cách thức t chức dữ liệu, đó là ý tƣởng về việc dữ liệu trên Web đƣợc định nghĩa và liên kết theo một cách mà nó có thể đƣợc sử dụng bởi máy tính, với mục đích không chỉ cho việc hiển thị mà còn tự động hóa, tích hợp và sử dụng lại dữ liệu qua các ứng dụng khác nhau. Web ngữ nghĩa là một mạng lƣới các thông tin đƣợc liên kết sao cho chúng có thể đƣợc xử lý dễ dàng bởi các máy tính ở phạm vi toàn cầu. Nó đƣợc xem là cách mô tả thông tin rất hiệu quả trên World Wide Web, và cũng đƣợc xem là một cơ sở dữ liệu có khả năng liên kết toàn cầu W3C . 7 Tim Berners-Lee đã đƣa ra hai vấn đề của Web ngữ nghĩa là tạo cho Web một môi trƣờng cộng tác tốt hơn và máy có thể hiểu và xử lý tự động các thông tin trên Web. Hình 1.3: Một đề xuất nguồn gốc eb với CERN Cái nhìn này rất phức tạp và phức tạp hơn nhiều so với việc lọc ra các trang HTML t các dịch vụ Web hiện tại. Nhƣng trong hình này, có các mối quan hệ giữa các thông tin nhƣ: includes , describes , rote , đây là các mối quan hệ giữa các tài nguyên mà trong Web hiện tại không có. Các quan hệ này đƣa vào Web ngữ nghĩa là cần thiết để máy có thể hiểu, xử lý thông tin tự động trên Web và đƣợc gọi là các siêu dữ liệu. Chúng đƣợc tạo nên bởi công nghệ RDF (Resource Description Framework). Để có thể tạo ra Web có dữ liệu mà máy có thể xử lý đƣợc, trƣớc hết phải thay đối mô hình trong cách chúng ta nghĩ về dữ liệu. T trƣớc đến nay, dữ liệu bị khoá ngay trong các ứng dụng độc quyền. Dữ liệu đƣợc coi nhƣ thứ yếu để xử lý dữ liệu cụ thể là sự phụ thuộc giữa xử lý và dữ liệu. Hay nói cách khác, phần mềm tốt thì hoàn toàn phụ thuộc vào dữ liệu tốt. Với các hệ tính toán chuyên nghiệp thì ngay khi bắt đầu thực hiện, vấn đề dữ liệu là rất quan trọng, nó phải đƣợc xác minh và bảo vệ. Với Web, XML và xu thế Web ngữ nghĩa đang n i lên thì có sự thay đ i của sức mạnh đang di chuyển t các ứng dụng sang dữ liệu. Vấn đề này cũng cho chúng ta mấu chốt để hiểu Web ngữ nghĩa. Con đƣờng để máy có thể xử lý dữ liệu chủ yếu là tạo ra dữ liệu thông minh hơn chứ không phải là các xử lý thông minh. 8 Sự phát triển liên tục của tính thông minh dữ liệu có bốn bậc quan trọng. Bốn bậc này biểu diễn t dữ liệu có tính thông minh thấp nhất đến dữ liệu đã có thông tin đủ ngữ nghĩa để máy thực hiện suy luận về nó. Hình 1.4: Sơ đồ phát triển tính thông minh của dữ liệu n bản và c s d iệu bậc này à ti n Bậc đầu tiên, hầu hết dữ liệu ở bậc này đƣợc sở hữu độc quyền cho một ứng dụng. Do vậy tính thông minh là nằm trong ứng dụng đó chứ không phải là trong dữ liệu. ài iệu v i mi n đ n Ở bậc này, dữ liệu đạt đƣợc là ứng dụng độc lập với miền riêng. Bây giờ, dữ liệu đủ thông minh để có thể di chuyển giữa các ứng dụng trong một miền đơn. C c phân oại và tài iệu v i c c b t vựng h n h p Trong bậc này, dữ liệu có thể đƣợc soạn t đa miền và đƣợc phân lớp chính xác theo một nguyên tắc phân loại có thứ bậc. Thực tế, sự phân lớp đó có thể đƣợc sử dụng để khám phá dữ liệu. Các quan hệ đơn giản giữ các lớp có thể đƣợc sử dụng để quan hệ và do vậy, ta có dữ liệu kết hợp. Nhƣ vậy, dữ liệu bây giờ thông minh đủ để khám phá dễ dàng và đƣợc kết hợp một cách hợp lý với dữ liệu khác. C c nto ogy và c c uật ập uận Trong mức này, dữ liệu mới có thể đƣợc suy ra t những dữ liệu đã có theo các luật lô-gíc. Thực chất, dữ liệu bây giờ thông minh đủ để đƣợc mô tả với các quan hệ cụ thể và các dạng hình thức phức tạp. Điều này cho phép kết hợp hoặc tái kết hợp dữ liệu nguyên thu nhiều hơn và sự phân tích về dữ liệu mịn hơn.Một ví dụ về sự phức tạp của dữ liệu là việc chuyển tự động tài liệu trong một miền này sang một tài liệu tƣơng đƣơng trong một miền khác. Ở mức này, ta có thể soạn một định nghĩa mới trên Web ngữ nghĩa, máy có thể xử lý các tài liệu Web có dữ liệu thông minh. Hơn nữa, ta có thể 9 định nghĩa dữ liệu thông minh vì dữ liệu nó độc lập với ứng dụng, có thể soạn, phân lớp và lấy một phần của các hệ thông tin lớn hơn. Nhƣ vậy, việc xây dựng Web ngữ nghĩa chủ yếu tập trung xây dựng hệ thống Web có dữ liệu thông minh. Dữ liệu thông minh ở đây không có nghĩa là gắn liền với trí tuệ nhân tạo, không phải là cho máy học hiểu các t ngữ của con ngƣời hay máy xử lý đƣợc ngôn ngữ tự nhiên mà nó thông minh bởi việc t chức lựa chọn dữ liệu biểu diễn trong ngôn ngữ đƣợc cấu trúc để máy có thể hiểu. 1.2. iến trúc Web ngữ nghĩa 1.2.1. Giới thiệu Tim Berners Lee đã đề xuất mô hình kiến trúc Web ngữ nghĩa đầu tiên đây là mô hình kiến trúc g m các thần phần chính của Web ngữ nghĩa. Mô hình kiến trúc của Web ngữ nghĩa đƣợc thay đ i theo t ng thời điểm nhất định cho thấy công nghệ Web ngữ nghĩa vẫn còn đang hoàn thiện và phát triển theo thời gian. Web ngữ nghĩa đƣợc xây dựng trên nền hệ thống web hiện tại. Web ngữ nghĩa đƣợc coi là sự mở rộng của Web hiện tại có b sung thêm ngữ nghĩa vào dữ liệu trên web. Hình 1.3 chỉ ra sơ đ kiến trúc của Web ngữ nghĩa. Hình 1.5: Kiến trúc eb ngữ nghĩa theo đề xuất của Tim Berners Lee T sơ đ kiến trúc, ta thấy Web ngữ nghĩa có bảy tầng kiến trúc. Trong đó, hệ thống Web hiện tại (World Wide Web) đang ở tầng thứ hai. Tất cả các tầng của Web ngữ nghĩa đƣợc sử dụng để đảm bảo độ an toàn và giá trị thông tin trở nên tốt nhất. 10 1.2.2. Định nghĩa và vai trò của các tầng trong kiến trúc Web ngữ nghĩa ng nicode và niform esource dentifier Unicode: là một bảng mã chuẩn chung có đủ các ký tự để thống nhất sự giao tiếp trên tất cả các quốc gia, đáp ứng tính nhất quán toàn cầu của web. URI (Uniform Resource Identifier): là kí hiệu nhận dạng Web đơn giản. Cụ thể, nó là một xâu ngắn cho phép nhận dạng tài nguyên Web nhƣ: với các xâu bắt đầu với http: hoặc ftp: mà chúng ta thƣờng thấy trên World Wide Web. Bất kỳ một ngƣời nào cũng có thể tạo một URI, và sở hữu chúng và chúng là một công nghệ cơ sở để xây dựng một hệ thống Web toàn cầu. Hệ thống World Wide Web đƣợc xây dựng trên chúng và bất kỳ cái gì mà có một URI thì đƣợc coi là trên Web . URL (Uniform Resource Locator): là một dạng đặc biệt của URI, cụ thể nó là một địa chỉ trên mạng. URIref (URI reference): Là một URI cùng với một phần nhận dạng tuỳ ý ở cuối. Ví dụ: Ta có một URIref: http: www.example.org Books Ontology bao g m một URI: http: www.example.org Books và một phần nhận dạng Ontology đƣợc cách nhau bởi kí hiệu . Theo nhƣ quy ƣớc, namespace các không gian tên là những tài nguyên mà tạo ra các đa tài nguyên, thƣờng là những URI đƣợc kết thúc bởi kí hiệu . Ví dụ: http: www.example.org Books là một không gian tên. Các tài nguyên không có URIref thì đƣợc gọi là các nút trắng. Một nút trắng chỉ ra sự t n tại của tài nguyên không có sự đề cập rõ ràng về tham chiếu URIref của tài nguyên. ng XML (eXtensible Markup Language) là ngôn ngữ xây dựng cấu trúc tài liệu văn bản, dựa theo chuẩn SGML (Standard Generalized Markup Language: Siêu ngôn ngữ có khả năng sinh ngôn ngữ khác). SGML đƣợc phát triển cho việc định cấu trúc và nội dung tài liệu điện tử do t chức ISO (International Organization for Standards) chuẩn hoá năm 1986. XML sẽ tiếp tục đóng một vai trò quan trọng trong sự phát triển của Web ngữ nghĩa. Nó cho phép mọi ngƣời thiết kế định dạng tài liệu và sau đó viết một tài liệu theo định dạng đó. XML là một mở rộng của ngôn ngữ đánh dấu cho các các cấu trúc tài liệu bất kỳ, trái với HTML, là một loại ngôn ngữ đánh dấu chỉ dành cho các loại tài liệu siêu liên kết. Một tài liệu XML bao g m một tập các thẻ đóng và thẻ mở đƣợc l ng vào nhau, ở đó m i một thẻ có một cặp các thuộc tính và giá trị. Phần cốt yếu của tài liệu XML là bộ t vựng của các thẻ và sự kết hợp đƣợc cho phép thì không cố định, nhƣng có thể đƣợc xác định thông qua m i ứng dụng XML.
- Xem thêm -

Tài liệu liên quan