ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------
TRẦN KIM HOÀNG
ỨNG DỤNG SEMANTIC WEB ĐỂ XÂY DỰNG
HỆ THỐNGTRA CỨU HIỆN VẬT
TẠI BẢO TÀNG ĐÀ NẴNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. PGS. TS Võ Trung Hùng
Đà Nẵng, 2017
I
LỜI CAM ĐOAN
Tôi xin cam đoan :
● Những nội dung trong luận văn này là do tôi thực hiện dƣới sự hƣớng dẫn trực
tiếp của PGS.TS. Võ Trung Hùng.
● Mọi tham khảo dùng trong luận văn đều đƣợc trích dẫn rõ ràng và trung thực
tên tác giả, tên công trình, thời gian, địa điểm công bố.
● Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu
hoàn toàn trách nhiệm.
Tác giả
Trần Kim Hoàng
II
MỤC LỤC
LỜI CAM ĐOAN…………………………………………………………………....... I
MỤC LỤC……………………………………………………………………………. II
CÁC CHỮ VIẾT TẮT……………………………………………………………… VI
DANH MỤC BẢNG BIỂU………………………………………………………... VII
DANH MỤC HÌNH ẢNH…………………………………………………………VIII
MỞ ĐẦU……………………………………………………………………………….1
1. Lý do chọn đề tài…………………………………………………………………. 1
2. Mục đích nghiên cứu……………………………………………………………... 2
3. Đối tƣợng và phạm vi nghiên cứu……………………………………………….. 2
4. Phƣơng pháp nghiên cứu………………………………………………………….2
5. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu……………………………. 2
6. Cấu trúc của luận văn…………………………………………………………….. 3
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN…………………………………………. 4
1.1. Web ngữ nghĩa…………………………………………………………………. 4
1.1.1. Những hạn chế của World Wide Web…………………………………….. 4
1.1.2. Sự ra đời của Web ngữ nghĩa……………………………………………... 4
1.1.3. Định nghĩa Web ngữ nghĩa………………………………………………... 6
1.2. Kiến trúc Web ngữ nghĩa………………………………………………………. 9
1.2.1. Giới thiệu………………………………………………………………….. 9
1.2.2. Định nghĩa và vai trò của các tầng trong kiến trúc Web ngữ nghĩa……... 10
1.2.2.1. Tầng Unicode và URI (Uniform Resource Identifier)……………… 10
1.2.2.2. Tầng XML…………………………………………………………... 10
1.2.2.3. Tầng RDF và RDF Schemma………………………………………..11
1.2.2.4. Tầng Ontology Vocabulary…………………………………………. 11
1.2.2.5. Tầng Lô-gíc…………………………………………………………. 11
1.2.2.6. Tầng Proof…………………………………………………………... 11
1.2.2.7. Tầng Trust…………………………………………………………... 12
1.3. Nội dung xây dụng Web ngữ nghĩa…………………………………………... 12
1.3.1. XML và RDF trên Web………………………………………………….. 12
1.3.2. Các ngôn ngữ biểu diễn Ontology cho Web có ngữ nghĩa………………. 12
1.3.3. Phát triển nâng cao Web ngữ nghĩa ………………………………………13
1.4. Ontology……………………………………………………………………….13
1.4.1. Khái niệm Ontology ……………………………………………………...13
1.4.2. Mục đích xây dựng Ontology …………………………………………….14
1.4.3. Yêu cầu khi sử dụng Ontology …………………………………………...15
1.4.4. Các thành phần Ontology ………………………………………………...16
III
1.4.5. Ngôn ngữ OWL …………………………………………………………..17
1.4.6. Công cụ phát triển Ontology……………………………………………...18
1.5. Ứng dụng và triển vọng của Web ngữ nghĩa ………………………………….19
1.5.1. Search Engine …………………………………………………………….19
1.5.2. Internet Agent …………………………………………………………….20
1.5.3. Push System ………………………………………………………………21
1.5.4. Relationship ………………………………………………………………21
1.6. Một số ứng dụng của Web ngữ nghĩa vào lĩnh vực bảo tàng trên thế giới ……21
1.6.1. Europeana ………………………………………………………………...21
1.6.2. CHIP (Cultural Heritage Information Personalization) …………………..22
1.6.3. Ama (Archive Mapper for Archaeology) ………………………………...23
1.6.4. E-Culture………………………………………………………………….23
1.6.5. The Museum Finland Portal ……………………………………………...24
1.6.6. The Reach Project ………………………………………………………...24
1.6.7. The Museum24 Project …………………………………………………...24
1.6.8. Cantabria Cultural Heritage Semantic Portal……………………………..25
1.6.9. CultureSampo Portal ……………………………………………………...25
1.6.10. Cultura Italia Project (http://www.culturaitalia.it/)……………………...25
1.6.11. Sisc Project ……………………………………………………………...25
CHƢƠNG 2: GIẢI PHÁP ĐỀ XUẤT………………………………………………26
2.1. Bảo tàng Đà Nẵng ……………………………………………………………..26
2.1.1. Giới thiệu …………………………………………………………………26
2.1.2. Ứng dụng CNTT tại Bảo tàng…………………………………………….29
2.2. Giới thiệu bài toán ……………………………………………………………..31
2.2.1. Yêu cầu bài toán ………………………………………………………….31
2.2.2. Phân tích vấn đề …………………………………………………………..31
2.3. Giải pháp ………………………………………………………………………33
2.3.1. Phác thảo kiến trúc t ng thể hệ thống …………………………………….34
2.3.2. Giải quyết yêu cầu tìm kiếm ……………………………………………...34
2.3.3. Các chức năng cơ bản của ứng dụng ……………………………………..36
2.3.4. Quy trình xây dựng Web ngữ nghĩa ……………………………………...36
2.4. Các công cụ h trợ …………………………………………………………….39
2.4.1 Công cụ xây dựng ứng dụng Protégé……………………………………...39
2.4.2 Bộ Visual Studio.Net ……………………………………………………...41
2.4.3. Thƣ viện phát triển ứng dụng …………………………………………….42
2.4.3.1. SemWeb ……………………………………………………………..42
2.4.3.2. OwlDotNetApi ………………………………………………………42
2.5. Phân tích và thiết kế hệ thống …………………………………………………42
2.5.1. Biểu đ Use Case …………………………………………………………42
IV
2.5.2. Biểu đ lớp………………………………………………………………..45
2.5.3. Biểu đ hoạt động ………………………………………………………...45
2.5.3.1. Đăng nhập, đăng xuất ……………………………………………………..46
2.5.3.2. Cập nhật dữ liệu ……………………………………………………………47
2.5.3.3. Xem thông tin hiện vật……………………………………………………..48
2.5.3.4. Tìm kiếm hiện vật …………………………………………………………..49
CHƢƠNG 3 : X Y DỰNG HỆ TH NG …………………………………………..50
3.1. Mô hình kiến trúc t ng thể của hệ thống………………………………………50
3.2. Phát triển ứng dụng …………………………………………………………....52
3.2.1. Qui trình phát triển ứng dụng …………………………………………….52
3.2.2. Xây dựng Ontology ………………………………………………………52
3.2.3. Xây dựng kết nối truy xuất dữ liệu t ontology sang giao diện web ……..56
3.2.3.1. Khai báo sử dụng thư viện OwlDotNetApi……………………………...56
3.2.3.1. Khai báo truy vấn thông tin……………………………………………….57
3.2.4. Một số thuật toán đƣợc sử dụng để khai thác dữ liệu …………………….57
3.2.4.1. Điền dữ liệu …………………………………………………………………57
3.2.4.2. Duyệt theo ngữ nghĩa………………………………………………………57
3.2.4.3. Tìm kiếm cơ bản…………………………………………………………….58
3.2.5. Xây dựng giao diện ……………………………………………………….58
3.2.5.1. Trang chính của hệ thống …………………………………………………58
3.2.5.3. Hiển thị thông tin của một hiện vật .……………………………………..59
3.2.5.4. Trang đăng nhập của quản trị hệ thống…………………………………60
3.2.5.5. Trang chính của quản trị hệ thống……………………………………….60
3.2.5.6. Trang Thêm mới hiện vật ………………………………………………….61
3.3. Triển khai hệ thống ……………………………………………………………61
3.4. Đánh giá kết quả của hệ thống ………………………………………………...62
ẾT LU N …………………………………………………………………………..63
DANH MỤC TÀI LIỆU THAM HẢO …………………………………………...65
V
NG DỤNG SEMANTIC WEB ĐỂ X Y DỰNG HỆ TH NG TRA C U
HIỆN V T TẠI BẢO TÀNG ĐÀ NẴNG
Học viên: Trần Kim Hoàng
Mã số:
Khoá: 32
Chuyên Ngành: Khoa học máy tính
Trƣờng Đại học Bách Khoa - ĐHĐN
Tóm tắt - Hiện nay ở một số quốc gia tiên tiến trên thế giới, công việc số hóa thông tin bảo
tàng để xây dựng bảo tàng điện tử đƣợc thực hiện cách đây hơn chục năm và trên thực tế, họ
đã xây dựng thành công một số mô hình “Bảo tàng điện tử”. Tuy nhiên ở nƣớc ta bảo tàng
điện tử vẫn chƣa đƣợc áp dụng rộng rãi. Nghiên cứu này đƣợc đề xuất nhằm số hóa thông tin
hiện vật của bảo tàng, cũng nhƣ đƣa ra giải pháp để tìm kiếm thông tin hiện vật trong bảo tàng
đây là một phần nhỏ nhằm góp phần xây dựng bảo tàng điện tử. Bài báo cáo g m có tìm hiểu
lý thuyết t ng quan về công nghệ Semantic Web, khái niệm Semantic Web, các ngôn ngữ và
công cụ xây dựng. Số hoá cở sở dữ liệu hiện vật của bảo tàng. T đó xây dựng website tìm
kiếm thông tin hiện vật của bảo tàng.
Từ khoá - Semantic Web, Website, bảo tàng, ontology, sparql, protégé.
SEMATIC WEB APPLICATION TO BUIILD THE INSPECTION SYSTEM
ARTIFACTS IN THE MUSEUM DA NANG
Sumary - At present in some advanced countries in the world, the digitization of museum
information to build electronic museums has been done more than a decade ago and, in fact,
they have successfully built some model "Electronic Museum". However, electronic museums
have not yet been widely applied in Vietnam. This research was proposed to digitize the
museum's artifacts as well as to provide a way to find information about the museum's
artifacts. This is a small part of the museum's contribution to electronic museums. The report
includes an overview of the semantic Web semantic theory, Semantic Web concepts,
languages and build tools. Digitize the Museum's database of artifacts. From there, the
Museum's website will be searched for information.
Keyword - Semantic Web, Website, museum, ontology, sparql, protégé.
VI
CÁC CHỮ VIẾT TẮT
CSDL
Cơ sở dữ liệu
DAML
DARPA Markup Language
HTML
HyperText Markup Language
HTTP
HyperText Transfer Protocol
IRI
Internationalized Resource Identifier
ISO
International Organization for Standards
IWS
Institute of Web Science
OIL
Ontology Inference Layer
OWL
Web Ontology Language
RDF
Resource Description Framework
RDFS
Resource Description Framework Schema
SGML
Standard Generalized Markup Language
SWSE
Semantic Web Search Engine
URI
Semantic Web Search Engine
VII
DANH MỤC BẢNG BIỂU
Số hiệu bảng biểu
Tên bảng biểu
Trang
1.1
Các công cụ phát triển Ontology
19
2.1
Các tầng của Bảo tàng Đà Nẵng
27
2.2
Use case đăng nhập
43
2.3
Use case cập nhật dữ liệu
43
2.4
Use case xem thông tin
44
2.5
Use case tìm kiếm
44
VIII
DANH MỤC HÌNH ẢNH
Số hiệu hình ảnh
Tên hình vẽ
Trang
1.1
Sự hình thành và phát triển của Web ngữ nghĩa
5
1.2
Quá trình phát triển công nghệ Web trong tƣơng lai
6
1.3
Một đề xuất ngu n gốc Web với CERN
7
1.4
Sơ đ phát triển tính thông minh của dữ liệu
8
1.5
Kiến trúc Web ngữ nghĩa theo đề xuất của Tim
Berners Lee
9
1.6
Sự cần thiết của Ontology trong quá trình chia sẻ tri
thức
15
1.7
Data Providers of Chip
23
2.1
Giao diện Web của Bảo tàng Đà Nẵng
29
2.2
Trang giới thiệu về hiện vật của Bảo tàng Đà Nẵng
30
2.3
Các bƣớc xây dựng hệ thống
33
2.4
Kiến trúc hệ thống
34
2.5
Mô tả suy luận ngang cấp trong Web Semantic
35
2.6
Mô tả suy luận ngƣợc trong Web Semantic
35
2.7
Giao tiếp bằng đ hoạ của Protégé
40
2.8
Biểu đ use case
42
2.9
Biểu đ lớp
45
2.10
Biểu đ hoạt động đăng nhập, đăng xuất
46
2.11
Biểu đ hoạt động cập nhật dữ liệu
47
2.12
Biểu đ hoạt động xem thông tin hiện vật
48
2.13
Biểu đ hoạt động tìm kiếm hiện vật
49
3.1
Mô hình kiến trúc t ng thể của hệ thống
50
3.2
Quy trình truy xuất dữ liệu của tầng Search engine
51
3.3
Các lớp trong Ontology
53
IX
3.4
Object Properties
54
3.5
Data properties
55
3.6
Các cá thể trong Ontology
56
3.7
Trang chính cho hệ thống
58
3.8
Trang tìm kiếm
59
3.9
Thông tin của hiện vật
59
3.10
Trang đăng nhập của quản trị viên
60
3.11
Trang chính của quản trị hệ thống
60
3.12
Trang thêm mới hiện vật
61
3.13
Mô hình triển khai
61
1
MỞ ĐẦU
1. Lý do chọn đề tài
Hiện nay, với sự phát triển của khoa học kĩ thuật và công nghệ ngành bảo tàng
ngày càng phát triển, ngày càng nhiều hiện vật, tƣ liệu khảo c đƣợc tìm thấy. Cùng
với các hiện vật là kho thông tin và tƣ liệu kh ng l về các hiện vật đƣợc tìm thấy mà
các nhà khoa học đã nghiên cứu và phát hiện ra.
Bên cạnh đó, cùng với sự phát triển mạnh mẽ của công nghệ thông tin, ứng
dụng của công nghệ thông tin trong lĩnh vực bảo tàng đang phát triển mạnh và tạo ra
những thay đ i lớn trong công tác bảo tàng.
Có rất nhiều cách tiếp cận khác nhau khi ứng dụng công nghệ thông tin trong
lĩnh vực bảo tàng. Ở một số quốc gia tiên tiến trên thế giới, công việc số hóa thông tin
bảo tàng để xây dựng bảo tàng điện tử đƣợc thực hiện cách đây hơn chục năm, trên
thực tế, họ đã xây dựng thành công một số mô hình bảo tàng điện tử. Bảo tàng điện tử
cho phép cung cấp dễ dàng và thuận lợi đến khách tham quan toàn bộ các hiện vật của
bảo tàng cũng nhƣ toàn bộ giá trị phi vật thể tiềm ẩn trong nó. Ở Việt Nam, trong vài
năm gần đây, một số bảo tàng đã bắt đầu ứng dụng công nghệ thông tin trong hoạt
động nghiệp vụ và bƣớc đầu đã có những hiệu quả thực sự.
Nhƣ chúng ta đã biết, hiện vật và các hoạt động liên quan đến hiện vật là vấn đề
chính yếu của một bảo tàng. Vì vậy, cơ sở của bảo tàng số hóa là việc ứng dụng khoa
học, kĩ thuật thông tin điện tử vào tất cả những thông tin trong bảo tàng và mọi hoạt
động nghiệp vụ của bảo tàng. Các hiện vật trong bảo tàng, theo quan niệm truyền
thống, là một bản gốc, nên khi đƣợc số hóa, sẽ tạo ra một bản thông tin mô phỏng lƣu
trữ trong bộ nhớ của máy tính, t đó đem đến nhiều thuận lợi trong phƣơng thức khai
thác thông tin. Trên cơ sở số hóa, máy tính sẽ thay thế phần lớn các thao tác của cán
bộ bảo tàng trong mọi khâu quản lý, sử dụng hiện vật và tự động hóa các khâu này.
Tuy nhiên, các ứng dụng hiện nay vẫn d ng lại ở việc cung cấp thông tin chứ
chƣa cung cấp đƣợc những tri thức cần thiết nên đã có những khó khăn nhất định trong
việc tìm hiểu, tra cứu.
Vì vậy, đề tài “Ứng dụng sematic web để xây dựng hệ thống tra cứu hiện vật
tại Bảo tàng Đà Nẵng” đi sâu vào việc số hoá các dữ liệu của Bảo tàng sau đó xây
dựng tri thức dựa trên tƣ liệu của các hiện vật đã đƣợc số hoá nhằm phục vụ cho việc
tìm hiểu và tra cứu một cách dễ dàng hơn.
2
2. Mục đích nghiên cứu
Đề tài hƣớng đến việc số hoá dữ liệu các hiện vật đang có của Bảo tàng, sau đó
dựa trên cơ sở dữ liệu có đƣợc để xây dựng một ontology đầy đủ về các hiện vật của
Bảo tàng. T ontology v a xây dựng tiếp tục xây dựng hệ thống tìm kiếm hiện vật cho
bảo tàng.
3. Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu của đề tài là các vấn đề liên quan đến Semantic Web nhƣ
phƣơng pháp để xây dựng và lƣu trữ dữ liệu trong Semantic Web và các công cụ dùng
để xây dựng Semantic Web.
Phạm vi nghiên cứu của đề tài là các hiện vật của Bảo tàng Đà Nẵng. Hiện nay
Bảo tàng Đà Nẵng có khoảng hơn 3000 hiện vật đƣợc trƣng bày. Tuy nhiên trong đề
tài này tôi chi t ng hợp thông tin của 600 hiện vật về lịch sử các thời kỳ chiến tranh, về
điều kiện tự nhiên, về văn hoá của các dân tộc, về Đà Nẵng thời tiền sơ sử. Ứng dụng
tìm kiếm thông tin của hiện vật đƣợc xây dựng và kiểm thử ở phạm vi Bảo tàng Đà
Nẵng.
4. Phƣơng pháp nghiên cứu
Về mặt lý thuyết tập trung nghiên cứu về các vấn đề liên quan đến sematic web
và việc xây dựng bảo tàng điện tử. Tìm hiểu về số hoá dữ liệu liên quan đến bảo tàng.
Nghiên cứu về quá trình xây dựng một công cụ search engine.
Phƣơng pháp thực nghiệm tập trung vào việc số hoá dữ liệu và xây dựng kho dữ
liệu các hiện vật của bảo tàng. Xây dựng ontology các hiện vật của bảo tàng. Xây dựng
công cụ search engine, xây dựng website tìm kiếm hiện vật của bảo tàng, triển khai
thực tế trên Internet.
5. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu
Về mặt khoa học đề tài đóng góp một công cụ tìm kiếm các hiện vật theo công
nghệ sematic web dành riêng cho bảo tàng. Phƣơng pháp xây dựng ontology về các
hiện vật của bảo tàng. Số hoá đƣợc một phần dữ liệu về các hiện vật của bảo tàng.
Về thực tiễn đề tài bƣớc đầu mở ra hƣớng nghiên cứu để t ng bƣớc xây dựng bảo
tàng điện tử cho Bảo tàng Đà Nẵng. Giúp bảo tàng t ng bƣớc số hoá đƣợc dữ liệu về
hiện vật hiện có.
3
6. Cấu trúc của luận văn
Bố cục của luận văn g m có 3 chƣơng nhƣ sau:
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN
Trong chƣơng này của đề tài trình bày cơ sở lý thuyết về Sematic Web và một số
ứng dụng thành công về bảo tàng trên thế giới có sử dụng công nghệ Sematic Web.
CHƢƠNG 2: GIẢI PHÁP ĐỀ XUẤT
Chƣơng này giới thiệu về Bảo tàng Đà Nẵng và thực trạng ứng dụng công nghệ
thông tin vào lĩnh vực bảo tàng của Bảo tàng Đà Nẵng. Phân tích ƣu điểm và nhƣợc
điểm của website bảo tàng hiện nay. T đó, đề xuất xây dựng hệ thống tìm kiếm hiện
vật hiệu quả hơn.
CHƢƠNG 3: XÂY DỰNG HỆ THỐNG
Dựa trên những đề xuất ở chƣơng 2, tiến hành phân tích, thiết kế và xây dựng
ontology, xây dựng hệ thống tìm kiếm hiện vật của bảo tàng.
Ngoài ra, để đánh giá toàn bộ quá trình nghiên cứu, phần cuối của luận văn có nêu lên
kết quả và hƣớng phát triển cho đề tài.
4
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN
Trong chƣơng này giới thiệu các khái niệm t ng quan về Web ngữ nghĩa, các
ngôn ngữ và công cụ xây dựng Web ngữ nghĩa tính đến thời điểm hiện nay. Tìm hiểu
kiến trúc Web ngữ nghĩa, ứng dụng và triển vọng của Web ngữ nghĩa trong tƣơng lai.
Đ ng thời trong chƣơng này cũng tìm hiểu về một số ứng dụng của Web ngữ nghĩa
vào lĩnh vực bảo tàng trên thế giới.
1.1. Web ngữ nghĩa
1.1.1. Những hạn chế của World Wide Web
World Wide Web (gọi tắt là Web) đƣợc sáng lập bởi Tim Berners - Lee đã trở
thành một kho tàng thông tin kh ng l của nhân loại và một môi trƣờng chuyển tải
thông tin không thể thiếu đƣợc trong thời đại công nghệ thông tin ngày nay và nó cũng
chính là linh h n của Internet.
Thông tin trên Internet thƣờng đƣợc t chức dƣới dạng siêu văn bản, chúng đƣợc
tạo ra bằng ngôn ngữ đánh dấu siêu văn bản HTML. Để tìm kiếm các trang Web nói
riêng, các tài nguyên trên Internet nói chung và đảm bảo việc truy cập đến chúng
ngƣời ta sử dụng hệ thống mạng toàn cầu WWW. Hệ thống mạng toàn cầu WWW
đƣợc cấu thành t các trang Web và đƣợc xây dựng trên giao thức truyền tin đặc biệt,
gọi là giao thức truyền tin siêu văn bản HTTP.
Hệ thống mạng toàn cầu WWW ngày càng trở nên rộng khắp thông qua một loạt
các tiêu chuẩn đƣợc thiết lập rộng rãi và đảm bảo đƣợc các thành phần ở các mức độ
khác nhau. Giao thức TCP IP đảm bảo rằng chúng ta không phải lo lắng về việc
chuyển t ng bit dữ liệu thông qua hệ thống mạng nữa. Tƣơng tự nhƣ vậy, HTTP và
HTML đã cung cấp các cách tiêu biểu để có thể nhận thông tin và trình diễn các tài
liệu siêu văn bản.
Tuy nhiên, trên thực tế có một khối lƣợng kh ng l các tài nguyên trên Web, điều
đó đã đặt ra thách thức làm sao để khai thác thông tin trên Web một cách hiệu quả, mà
cụ thể là làm thế nào để máy tính có thể trợ giúp xử lý tự động đƣợc chúng. Muốn vậy,
web phải có khả năng mô tả các sự vật theo cách mà máy tính có thể “hiểu” đƣợc, có
thể tích hợp dữ liệu, cũng nhƣ tái sử dụng dữ liệu thông qua các ứng dụng khác nhau.
1.1.2. Sự ra đời của Web ngữ nghĩa
World Wide Web (WWW) chứa một thông tin kh ng l , đƣợc tạo ra t các t
chức, cộng đ ng khác nhau trên khắp thế giới. Nhờ vào WWW, kiến thức con ngƣời
đã tăng tiến một cách đáng kể. Ngƣời ta ƣớc tính, chỉ trong vòng vài chục năm, lƣợng
kiến thức của nhân loại đã tăng gấp đôi. Tính đơn giản và ph biến của WWW đã
5
mang lại cho con ngƣời quá nhiều lợi ích. Con ngƣời có thể trao đ i thông tin ở khắp
mọi nơi.
Tuy nhiên, các trang Web hiện nay hầu hết đƣợc sử dụng bởi con ngƣời, máy
tính chỉ có nhiệm vụ gửi nhận dữ liệu và thể hiện thông tin dƣới dạng mà chỉ có con
ngƣời mới đọc hiểu đƣợc. Ngƣời sử dụng phải làm nhiệm vụ tìm kiếm, suy luận, t ng
hợp và trích rút thông tin mình cần. Điều đó đã đặt ra thách thức là làm sao để khai
thác thông tin trên Web hiệu quả hay nói cách khác là làm thế nào để máy tính có thể
xử lý tự động đƣợc chúng. Muốn vậy thì Web phải có khả năng mô tả thông tin theo
cách mà máy tính có thể hiểu đƣợc. Để chúng ta dễ dàng có đƣợc một kết quả tìm
kiếm chính xác, nhanh chóng và hiểu dần tới ngữ nghĩa vấn đề chúng ta mong muốn.
Hình 1.1: S hình th nh v phát triển của
eb ngữ nghĩa
Hình trên thể hiện sự kế th a và phát triển các thế hệ Web trong quá trình phát
triển công nghệ Web. T thế hệ Web đầu tiên là những trang HTML thủ công đến
Web hiện tại – Web 2.0 đã dùng các liên kết URI, ngôn ngữ HTLM, XML và đã đạt
đƣợc những thành tựu đáng kể trong việc tìm kiếm. Tuy nhiên, ở thế hệ Web này
thông tin đƣợc biểu diễn dƣới dạng văn bản thô, chỉ có con ngƣời mới đọc và hiểu
đƣợc thì việc tìm kiếm trong một lƣợng lớn thông tin ngày càng ít hiệu quả hơn. Hơn
nữa nhu cầu của ngƣời dùng không d ng lại ở đó mà còn đòi hỏi thông tin trên Web
6
phải đƣợc định nghĩa rõ ràng sao cho con ngƣời và máy tính có thể làm việc với nhau
một cách có hiệu quả hơn. Web 3.0 - Web ngữ nghĩa ra đời nhằm đáp ứng những yêu
cầu về xử lý và tìm kiếm thông tin, cho phép chúng ta xây dựng những CSDL phục vụ
tìm kiếm chính xác.
Hình 1.2: Quá trình phát triển công nghệ
eb trong tương lai
1.1.3. Định nghĩa Web ngữ nghĩa
Web ngữ nghĩa đƣợc hình thành t ý tƣởng của Tim Berners-Lee, ngƣời phát
minh ra WWW, URI, HTTP và HTML. Tim Berners-Lee đã định nghĩa: “The
Semantic Web is an extension of the current Web in which information is given welldefined meaning, better enabling computers and people to work in cooperation” .
Web ngữ nghĩa là sự mở rộng của Web hiện tại mà trong đó thông tin đƣợc định
nghĩa rõ ràng sao cho con ngƣời và máy tính có thể làm việc với nhau một cách hiệu
quả hơn. Theo định nghĩa của T chức World Wide Web, Web ngữ nghĩa đƣợc hiểu
nhƣ sau:
Web ngữ nghĩa là một cách nhìn về cách thức t chức dữ liệu, đó là ý tƣởng về
việc dữ liệu trên Web đƣợc định nghĩa và liên kết theo một cách mà nó có thể đƣợc sử
dụng bởi máy tính, với mục đích không chỉ cho việc hiển thị mà còn tự động hóa, tích
hợp và sử dụng lại dữ liệu qua các ứng dụng khác nhau.
Web ngữ nghĩa là một mạng lƣới các thông tin đƣợc liên kết sao cho chúng có
thể đƣợc xử lý dễ dàng bởi các máy tính ở phạm vi toàn cầu. Nó đƣợc xem là cách mô
tả thông tin rất hiệu quả trên World Wide Web, và cũng đƣợc xem là một cơ sở dữ liệu
có khả năng liên kết toàn cầu W3C .
7
Tim Berners-Lee đã đƣa ra hai vấn đề của Web ngữ nghĩa là tạo cho Web một
môi trƣờng cộng tác tốt hơn và máy có thể hiểu và xử lý tự động các thông tin trên
Web.
Hình 1.3: Một đề xuất nguồn gốc
eb với CERN
Cái nhìn này rất phức tạp và phức tạp hơn nhiều so với việc lọc ra các trang
HTML t các dịch vụ Web hiện tại. Nhƣng trong hình này, có các mối quan hệ giữa
các thông tin nhƣ: includes , describes , rote , đây là các mối quan hệ giữa các tài
nguyên mà trong Web hiện tại không có. Các quan hệ này đƣa vào Web ngữ nghĩa là
cần thiết để máy có thể hiểu, xử lý thông tin tự động trên Web và đƣợc gọi là các siêu
dữ liệu. Chúng đƣợc tạo nên bởi công nghệ RDF (Resource Description Framework).
Để có thể tạo ra Web có dữ liệu mà máy có thể xử lý đƣợc, trƣớc hết phải thay
đối mô hình trong cách chúng ta nghĩ về dữ liệu. T trƣớc đến nay, dữ liệu bị khoá
ngay trong các ứng dụng độc quyền. Dữ liệu đƣợc coi nhƣ thứ yếu để xử lý dữ liệu cụ
thể là sự phụ thuộc giữa xử lý và dữ liệu. Hay nói cách khác, phần mềm tốt thì hoàn
toàn phụ thuộc vào dữ liệu tốt. Với các hệ tính toán chuyên nghiệp thì ngay khi bắt đầu
thực hiện, vấn đề dữ liệu là rất quan trọng, nó phải đƣợc xác minh và bảo vệ.
Với Web, XML và xu thế Web ngữ nghĩa đang n i lên thì có sự thay đ i của sức
mạnh đang di chuyển t các ứng dụng sang dữ liệu. Vấn đề này cũng cho chúng ta
mấu chốt để hiểu Web ngữ nghĩa. Con đƣờng để máy có thể xử lý dữ liệu chủ yếu là
tạo ra dữ liệu thông minh hơn chứ không phải là các xử lý thông minh.
8
Sự phát triển liên tục của tính thông minh dữ liệu có bốn bậc quan trọng. Bốn bậc
này biểu diễn t dữ liệu có tính thông minh thấp nhất đến dữ liệu đã có thông tin đủ
ngữ nghĩa để máy thực hiện suy luận về nó.
Hình 1.4: Sơ đồ phát triển tính thông minh của dữ liệu
n bản và c s d iệu bậc này à ti n
Bậc đầu tiên, hầu hết dữ liệu ở bậc này đƣợc sở hữu độc quyền cho một ứng
dụng. Do vậy tính thông minh là nằm trong ứng dụng đó chứ không phải là trong dữ
liệu.
ài iệu
v i mi n đ n
Ở bậc này, dữ liệu đạt đƣợc là ứng dụng độc lập với miền riêng. Bây giờ, dữ liệu
đủ thông minh để có thể di chuyển giữa các ứng dụng trong một miền đơn.
C c phân oại và tài iệu v i c c b t vựng h n h p
Trong bậc này, dữ liệu có thể đƣợc soạn t đa miền và đƣợc phân lớp chính xác
theo một nguyên tắc phân loại có thứ bậc. Thực tế, sự phân lớp đó có thể đƣợc sử dụng
để khám phá dữ liệu. Các quan hệ đơn giản giữ các lớp có thể đƣợc sử dụng để quan
hệ và do vậy, ta có dữ liệu kết hợp. Nhƣ vậy, dữ liệu bây giờ thông minh đủ để khám
phá dễ dàng và đƣợc kết hợp một cách hợp lý với dữ liệu khác.
C c nto ogy và c c uật ập uận
Trong mức này, dữ liệu mới có thể đƣợc suy ra t những dữ liệu đã có theo các
luật lô-gíc. Thực chất, dữ liệu bây giờ thông minh đủ để đƣợc mô tả với các quan hệ cụ
thể và các dạng hình thức phức tạp. Điều này cho phép kết hợp hoặc tái kết hợp dữ liệu
nguyên thu nhiều hơn và sự phân tích về dữ liệu mịn hơn.Một ví dụ về sự phức tạp
của dữ liệu là việc chuyển tự động tài liệu trong một miền này sang một tài liệu tƣơng
đƣơng trong một miền khác. Ở mức này, ta có thể soạn một định nghĩa mới trên Web
ngữ nghĩa, máy có thể xử lý các tài liệu Web có dữ liệu thông minh. Hơn nữa, ta có thể
9
định nghĩa dữ liệu thông minh vì dữ liệu nó độc lập với ứng dụng, có thể soạn, phân
lớp và lấy một phần của các hệ thông tin lớn hơn.
Nhƣ vậy, việc xây dựng Web ngữ nghĩa chủ yếu tập trung xây dựng hệ thống
Web có dữ liệu thông minh. Dữ liệu thông minh ở đây không có nghĩa là gắn liền với
trí tuệ nhân tạo, không phải là cho máy học hiểu các t ngữ của con ngƣời hay máy xử
lý đƣợc ngôn ngữ tự nhiên mà nó thông minh bởi việc t chức lựa chọn dữ liệu biểu
diễn trong ngôn ngữ đƣợc cấu trúc để máy có thể hiểu.
1.2.
iến trúc Web ngữ nghĩa
1.2.1. Giới thiệu
Tim Berners Lee đã đề xuất mô hình kiến trúc Web ngữ nghĩa đầu tiên đây là mô
hình kiến trúc g m các thần phần chính của Web ngữ nghĩa. Mô hình kiến trúc của
Web ngữ nghĩa đƣợc thay đ i theo t ng thời điểm nhất định cho thấy công nghệ Web
ngữ nghĩa vẫn còn đang hoàn thiện và phát triển theo thời gian.
Web ngữ nghĩa đƣợc xây dựng trên nền hệ thống web hiện tại. Web ngữ nghĩa
đƣợc coi là sự mở rộng của Web hiện tại có b sung thêm ngữ nghĩa vào dữ liệu trên
web. Hình 1.3 chỉ ra sơ đ kiến trúc của Web ngữ nghĩa.
Hình 1.5: Kiến trúc
eb ngữ nghĩa theo đề xuất của Tim Berners Lee
T sơ đ kiến trúc, ta thấy Web ngữ nghĩa có bảy tầng kiến trúc. Trong đó, hệ
thống Web hiện tại (World Wide Web) đang ở tầng thứ hai. Tất cả các tầng của Web
ngữ nghĩa đƣợc sử dụng để đảm bảo độ an toàn và giá trị thông tin trở nên tốt nhất.
10
1.2.2. Định nghĩa và vai trò của các tầng trong kiến trúc Web ngữ nghĩa
ng nicode và
niform esource dentifier
Unicode: là một bảng mã chuẩn chung có đủ các ký tự để thống nhất sự giao tiếp
trên tất cả các quốc gia, đáp ứng tính nhất quán toàn cầu của web.
URI (Uniform Resource Identifier): là kí hiệu nhận dạng Web đơn giản. Cụ
thể, nó là một xâu ngắn cho phép nhận dạng tài nguyên Web nhƣ: với các xâu bắt đầu
với http: hoặc ftp: mà chúng ta thƣờng thấy trên World Wide Web. Bất kỳ một
ngƣời nào cũng có thể tạo một URI, và sở hữu chúng và chúng là một công nghệ cơ sở
để xây dựng một hệ thống Web toàn cầu. Hệ thống World Wide Web đƣợc xây dựng
trên chúng và bất kỳ cái gì mà có một URI thì đƣợc coi là trên Web .
URL (Uniform Resource Locator): là một dạng đặc biệt của URI, cụ thể nó là
một địa chỉ trên mạng.
URIref (URI reference): Là một URI cùng với một phần nhận dạng tuỳ ý ở
cuối. Ví dụ: Ta có một URIref: http: www.example.org Books Ontology bao g m
một URI: http: www.example.org Books và một phần nhận dạng Ontology đƣợc
cách nhau bởi kí hiệu .
Theo nhƣ quy ƣớc, namespace các không gian tên là những tài nguyên mà tạo ra
các đa tài nguyên, thƣờng là những URI đƣợc kết thúc bởi kí hiệu . Ví dụ: http:
www.example.org Books là một không gian tên. Các tài nguyên không có URIref
thì đƣợc gọi là các nút trắng. Một nút trắng chỉ ra sự t n tại của tài nguyên không có sự
đề cập rõ ràng về tham chiếu URIref của tài nguyên.
ng
XML (eXtensible Markup Language) là ngôn ngữ xây dựng cấu trúc tài liệu văn
bản, dựa theo chuẩn SGML (Standard Generalized Markup Language: Siêu ngôn ngữ
có khả năng sinh ngôn ngữ khác). SGML đƣợc phát triển cho việc định cấu trúc và nội
dung tài liệu điện tử do t chức ISO (International Organization for Standards) chuẩn
hoá năm 1986. XML sẽ tiếp tục đóng một vai trò quan trọng trong sự phát triển của
Web ngữ nghĩa. Nó cho phép mọi ngƣời thiết kế định dạng tài liệu và sau đó viết một
tài liệu theo định dạng đó.
XML là một mở rộng của ngôn ngữ đánh dấu cho các các cấu trúc tài liệu bất kỳ,
trái với HTML, là một loại ngôn ngữ đánh dấu chỉ dành cho các loại tài liệu siêu liên
kết. Một tài liệu XML bao g m một tập các thẻ đóng và thẻ mở đƣợc l ng vào nhau, ở
đó m i một thẻ có một cặp các thuộc tính và giá trị. Phần cốt yếu của tài liệu XML là
bộ t vựng của các thẻ và sự kết hợp đƣợc cho phép thì không cố định, nhƣng có thể
đƣợc xác định thông qua m i ứng dụng XML.
- Xem thêm -