BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP KỸ THUẬT CÔNG NGHỆ
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN CÔNG NGHỆ PHẦN MỀM
C
H
U
TE
LUẬN VĂN TỐT NGHIỆP
H
NGHIÊN CỨU VỀ ONTOLOGY EDITOR VÀ
ỨNG DỤNG
GVHD: PGS.TS.Trương Mỹ Dung
SVTH :
MSSV:
Võ Trọng Nghĩa
10102106
Đặng Đại Phúc
10102132
Lê Văn Thủy
10102186
TP. HỒ CHÍ MINH, Năm 2006.
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
L IC M
N
Trong su t quá trình h c t p g n n m n m t i Tr
Công Ngh và th i gian th c hi n
n t t c các quý Th y Cô trong Khoa ã d y d và giúp
chúng em chân tình.
c bi t chúng em xin c m n sâu s c
M Dung v s nhi t tâm, t n tình h
úng lúc giúp chúng em v
c các yêu c u ã
ra.
ng d n cùng nh ng l i
n Cô Tr
ng
ng viên, khích
t qua các th i i m khó kh n nh t và hoàn thành
C
l
HDL K Thu t
án t t nghi p này, chúng em chân thành
H
bày t lòng bi t n
ng
, góp ý
và c v cho chúng em trong su t th i gian th c hi n và hoàn thành
án t t
nghi p.
U
TE
Ngoài ra chúng em c ng xin c m n Gia ình, b n bè ã giúp
Tp.H Chí Minh, tháng 01 n m 2006
H
Nhóm sinh viên th c hi n
GVHD: PGS.TS. Tr
ng M Dung
Trang 1
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
M CL C
H
U
TE
C
H
L I C M N .................................................................................................... 1
M C L C .......................................................................................................... 2
M
U............................................................................................................. 4
CH
NG I. GI I THI U T NG QUAN V ONTOLOGY .................... 5
I.1. M! u. ............................................................................................... 5
I.2. M t s khái ni m c b n c"a ontology ............................................... 7
CH
NG II. T NG QUAN V XML, RDF VÀ OWL ...........................15
II.1. S l c v XML ..............................................................................15
II.2. S l c v RDF (Resource Description Framework) .....................23
II.2.1. C u trúc RDF........................................................................23
II.2.2. URI và Namespace t# v ng RDF (RDF Vocabulary
URI and Namespace (Normative))...................29
II.2.3. Ki u d li u
c tiêu chu$n hóa (Datatypes (Normative)) .29
II.2.4. N i dung XML trong th% RDF (XML Content
within an RDF Graph)........................30
II.2.5. Cú pháp tr#u t ng (Abstract Syntax (Normative))..............33
II.2.6. Khai báo o n (Fragment Identifiers) ...................................36
II.3. T ng quan v OWL (Web Ontology Language) .............................37
II.3.1. Ba ngôn ng con c"a OWL ...................................................38
II.3.2. B ng tóm t c ngôn ng OWL................................................40
II.3.2.1. B ng tóm t t c"a OWL Lite.........................................41
II.3.2.2. B ng tóm t t OWL DL và OWL Full..........................41
II.3.3. Mô t ngôn ng OWL Lite ....................................................42
II.3.3.1. Các c tính c"a OWL Lite và l c RDF ..............42
II.3.3.2. Tính cân b&ng và không cân b&ng
c"a OWL Lite (OWL Lite Equality và Inequality) .......44
II.3.3.3. Các c tính v thu c tính c"a OWL Lite ...................45
II.3.3.4. Các s gi i h n v thu c tính c"a OWL Lite ..............47
II.3.3.5. S gi i h n b n s c"a OWL Lite
(OWL Lite Restricted Cardinality ) ...........................48
II.3.3.6. OWL Lite Class Intersection .......................................50
I.3.4. Mô t ngôn ng có tính phát tri n c"a OWL DL và OWL
Full (Incremental Language Description of
OWL DL and OWL Full )...................................................51
II.4. Các thành ph n c"a OWL Ontology.................................................52
II.4.1. Các th hi n (Individuals).......................................................53
II.4.2. Các thu c tính (Properties) .....................................................53
II.4.3. Các l p (Classes) ....................................................................54
II.4.4. Các thu c tính c"a OWL (OWL Properties) ..........................55
II.4.5. Các thu c tính o ng c (Inverse Properties) ......................56
II.4.6. Các c tính v thu c tính c"a OWL
(OWL Property Characteristics)....................................57
II.4.6.1. Các thu c tính Functional............................................57
GVHD: PGS.TS. Tr
ng M Dung
Trang 2
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
H
U
TE
C
H
II.4.6.2. Các thu c tính o ng c Functional
(Inverse Functional Properties) ...................................57
II.4.6.3. Các thu c tính b c c u (Transitive Properties)..............58
II.4.6.4. Các thu c tính i x'ng (Symmetric Properties) ..........58
II.4.7. Các mi n và các ph m vi c"a thu c tính
(Property Domains and Ranges) ....................................59
CH
NG III. GI I THI U M T S ONTOLOGY EDITOR............61
III.1. KAON...............................................................................................61
III.1.1. T ng quan......................................................................................62
III.1.2. Ki n trúc c"a KAON .....................................................................64
III.1.3. Các thành ph n chính c"a KAON .................................................64
III.1.4. KAON API ....................................................................................69
III.1.5. TextToOnto ...................................................................................73
III.2. Protégé-2000 ....................................................................................78
CH
NG IV. THI T K ONTOLOGY NEWSPAPER .......................84
CH
NG V:
CH
NG TRÌNH NG D NG ......................................95
K T LU N VÀ H
NG PHÁT TRI N .....................................................98
Ph l c A: Mã ngu n m Protégé 2000................................................... 100
1) T o m t d án m u .............................................................................. 100
2) L u tr d án....................................................................................... 102
3) T o và t tên cho l p (class) .............................................................. 103
4) T o và t tên cho các slot ................................................................... 110
5) Nh p vào các th c th (instances)........................................................ 116
6) Tùy bi n m t Form .............................................................................. 120
7) T o và l u tr m t truy v n ................................................................. 126
Ph l c B: XML, XML Schema, DTDs .................................................. 131
B.1. Ki n trúc XML.................................................................................. 131
B.2. Các khái ni m m! r ng..................................................................... 132
B.2.1 XML Namespaces .................................................................. 132
B.2.2. Xpath...................................................................................... 133
B.2.3. Xpointer ................................................................................. 134
B.2.4. Ngôn ng liên k t XML (XML Linking Language) ............. 134
B.2.5. The XML Style Language ..................................................... 134
B.2.6. S chuy n i XSL-XSL Transformations (XSLT).............. 134
B.3. Các tác ng c"a XML ..................................................................... 135
B.4. DTDs................................................................................................. 138
B.5. Gi n XML (XML Schema) ......................................................... 139
B.5.1. C u trúc c"a gi n XML ..................................................... 144
Tài li u tham kh o......................................................................................... 148
GVHD: PGS.TS. Tr
ng M Dung
Trang 3
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
M
U
Ngày nay khi kinh t - xã h i ngày càng phát tri n thì vi c 'ng d(ng
CNTT vào các l)nh v c khác nhau c ng ngày càng tr! thành yêu c u c n thi t
không th thi u nh&m nâng cao ch t l
ng, n ng su t công vi c
c thù trong
các l)nh v c ó, em l i hi u qu kinh t - xã h i rõ r t.
Ngành CNTT nói chung, l)nh v c công ngh ph n m m nói riêng, ang
và s* tr! thành l)nh v c
c áp d(ng ph bi n và ch" y u trong v n
tin h c
hóa các ngành, góp ph n quan tr ng trong s nghi p công nghi p hóa – hi n
tn
c ! Vi t Nam. Nhà n
c ta ang i tiên phong trong vi c áp
H
i hóa
d(ng CNTT nh&m duy trì và phát tri n ngành công ngh ph n m m, c( th nh
c, m t s ngành ch"
C
vi c tin h c hóa trong m t s c quan nhà n
o nh y
t , ngân hàng, giáo d(c – ào t o, giao thông v n t i, d u khí – %a ch t,
U
TE
…Song song v i vi c tin h c hóa trong các l)nh v c ch"
ng l n thì vi c áp d(ng tin h c
o, có quy mô ho t
xu t b n các trang Web
ngày càng phong phú và a d ng, s l
a lên m ng
ng các trang Web ngày càng l n trong
khi ó vi c s+ d(ng HTML làm cho vi c x+ lý d li u trong ph m vi r ng g p
nhi u khó kh n, do v y quá trình tìm ki m thông tin trên m ng t n nhi u th i
gian và chi phí c ng nh công s'c c"a con ng
H
gi i pháp cho v n
i. Semantic Web
a ra các
này b&ng cách %nh ngh)a siêu d li u (metadata)
có
th d, dàng truy nh p và x+ lý. Lu n v n t t nghi p này s* gi i thi u v các
Ontology Editor – công c(
Ontology, gi i thi u ngôn ng
t o các Ontology - và các k thu t
xây d ng
ánh d u tiên ti n (Advanced Makup Language)
(RDF, OWL) nh&m xây d ng siêu d li u ch'a trong Semantic Web.
Nhóm sinh viên th c hi n lu n v n.
GVHD: PGS.TS. Tr
ng M Dung
Trang 4
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
CH
NG I.
I.1. M
GI I THI U T NG QUAN V
ONTOLOGY
u.
World Wide Web (g i t t là Web) ã tr! thành m t kho tàng thông tin
kh ng l c"a nhân lo i và m t môi tr
c trong th i
ng chuy n t i thông tin không th thi u
i công ngh thông tin ngày nay. S ph bi n và bùng n
thông tin trên Web c ng
t ra m t thách th'c m i là làm th nào
khai thác
c thông tin trên Web m t cách hi u qu , mà c( th là làm sao
máy tính
có th tr giúp x+ lý t
tin
c chúng. Mu n v y, tr
c h t máy tính ph i
c thông tin trên các tài li u Web, trong khi ! th h Web hi n t i thông
H
hi u
ng
c bi u di,n d
i d ng v n b n thô mà ch- con ng
c hi u
C
c.
i m i
i c"a ý t !ng Web có ng ngh a (Semantic
U
TE
i u này ã thúc $y s ra
Web), m t th h m i c"a Web, mà l trình phát tri n c"a nó ã
c Tim
Berners-Lee, cha . c"a Web, phác th o ra vào n m 1998. Web có ng ngh)a là
s m! r ng c"a Web hi n t i mà trong ó thông tin
cho con ng
c %nh ngh)a rõ ràng sao
i và máy tính có th cùng làm vi c v i nhau m t cách hi u qu
h n. M(c tiêu c"a Web có ng ngh)a là
H
ngh cho phép máy tính có th hi u
phát tri n các chu$n chung và công
c nhi u h n thông tin trên Web, sao
cho chúng có th h tr t t h n vi c khám phá thông tin, tích h p d li u, và t
ng hóa các công vi c.
Hi n t i, các ho t
vào ba h
ng nghiên c'u v Web có ng ngh)a ang t p trung
ng chính sau ây:
- Chu$n hoá các ngôn ng
bi u di,n d
li u (XML) và siêu d
li u
(RDF/OWL) trên Web.
- Chu$n hoá các ngôn ng bi u di,n Ontology cho Web có ng ngh)a.
- Phát tri n nâng cao Web có ng
ngh)a (Semantic Web Advanced
Development - SWAD).
GVHD: PGS.TS. Tr
ng M Dung
Trang 5
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
Trong ba h
là h
ng nghiên c'u nói trên, chúng tôi ngh) r&ng h
ng th' ba
ng thích h p v i hoàn c nh và i u ki n c"a Vi t Nam, vì theo hai h
u chúng ta khó có th c nh tranh
cao trên th gi i trong vi c
ng
c v i các nhóm nghiên c'u l n và uy tín
ngh% các ngôn ng chu$n. H n n a, theo h
th' ba chúng ta có th phát tri n s m
ng
c các 'ng d(ng th c ti,n c"a Web có
ng ngh)a ! Vi t Nam.
Trong h
ng th' ba v SWAD, m t v n
c các nhà khoa h c quan
tâm nh t và c ng là n n t ng nh t c"a Web có ng ngh)a là làm th nào
nhúng ng ngh)a vào các tài li u Web, mà hi n nay
này ph i
im i
c hi u
c th c hi n m t cách t
ng
li u Web ã có s0n sang các tài li u t
có th chuy n
i hàng t/ các tài
ng 'ng cho Web có ng ngh)a. Mu n
u tiên c n gi i quy t là rút trích t
C
v y, v n
c. H n n a vi c nhúng ng ngh)a
H
nhiên và ch- có con ng
c vi t b&ng ngôn ng t
ng ng ngh)a c"a m i tài
li u Web r i chú thích l i ng ngh)a này vào tài li u ó.
U
TE
Trong m t tài li u, các th c th có tên
c
c p
quan tr ng cho ng ngh)a c"a tài li u ó. Nói cách khác,
ngh)a c"a m t tài li u thì tr
ch tc nn m
tên trong tài li u ó. Th c th có tên là con ng
it
ng khác
n t o nên ph n
n m
c ng
c ng ngh)a c"a các th c th có
i, t ch'c, n i ch n, và nh ng
c tham kh o b&ng tên. Các th c th có tên khác v b n ch t
H
và ng ngh)a v i các t (Word) ! ch chúng nói v các cá th , trong khi các t#
nói v nh ng cái chung nh khái ni m, phân lo i, quan h , thu c tính. Vi c x+
lý các t# do v y ch- òi h i ng ngh)a t# v ng và lý l* thông th
vi c x+ lý các th c th có tên c n
ng, trong khi
n tri th'c c( th v th gi i ang xem xét.
Ng ngh)a c"a các th c th có tên tuy ch- là m t ph n ng ngh)a c"a
toàn b tài li u, nh ng n u có th rút trích và chú thích chúng m t cách t
v i
chính xác t
ng
ng
i cao thì c ng ã có ý ngh)a th c ti,n r t l n. M t
'ng d(ng r t rõ ràng là xác %nh và cung c p t
có tên trong các trang Web tin t'c cho ng
i
ng thông tin v các th c th
c. Các tài li u Web có chú thích
ng ngh)a cho các th c th có tên c ng s* giúp cho vi c tìm ki m và khai thác
thông tin trên ó
GVHD: PGS.TS. Tr
c chính xác và hi u qu h n. Ví d( m t truy v n v thành
ng M Dung
Trang 6
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
ph Sài Gòn s*
c tr v các tài li u
c p
n TP.HCM ho c Sài Gòn nh
m t thành ph , ch' không ph i các tài li u ch'a t# “Sài Gòn” nh trong “
i
bóng C ng Sài Gòn”, “Xí nghi p may Sài Gòn”, hay “Cty Saigon Tourist”.
Vi c xác %nh ng ngh)a cho các th c th có tên là không
n gi n và
không th ch- d a vào t# i n, vì m t th c th có th có nhi u tên khác nhau,
và các th c th khác nhau có th có cùng tên. Ví d(
mà tên “Tr n H ng
m t con
bi t
o” trong m t tài li u ám ch-
ng, và n u là con
xác %nh xem th c th
n là m t con ng
i hay là
ng thì là ! Hà N i hay TP.HCM, c n ph i
c ng c nh n i tên ó xu t hi n. Vì v y m t h th ng chú thích ng
ngh)a cho các th c th có tên c n có tr
H
và quan h gi a chúng.
c h t m t c s! tri th'c v các th c th
C
I.2. M t s khái ni m c b n c a ontology
- Khái ni m ontology:
U
TE
Trong m t vài n m g n ây, xu t hi n m t l)nh v c nghiên c'u m i là
ontology. M t s nguyên nhân ã thôi thúc vi c nghiên c'u v ontology: V n
bi u di,n tri th'c c"a trí tu nhân t o ( c bi t là bi u di,n quan h ng
ngh)a), v n
s p x p và tìm ki m các tài li u t
toán tìm ki m trên m ng), v n
(s ra
tìm hình th'c bi u di,n m i cho c s! d li u
i c"a c s! d li u lai gi a quan h và h
trên ã d n
H
v n
n vi c ra
ng t nhau ( c bi t là bài
ng
it
ng)…T t c các
i ontology mà m(c tiêu tr ng tâm là: phân lo i
các ph m trù, các khái ni m c"a tri th'c, và bi u di,n m i liên h gi a các
ph m trù ó v i nhau.
T# “ontology”
c vay m
n t# tri t h c và
c m! r ng trên l)nh
v c Semantic Web nh là c s! tri th'c. Trong l)nh v c nghiên c'u Semantic
Web, ontology
c mô t nh là m t hình th'c rõ ràng d a trên các khái ni m
(conceptualisation) (Gruber, 1993), m t
it
ng có th
c mô t và gi i
thích b&ng nhi u l p lu n khác nhau, d a vào n n ki n th'c c b n, mô hình
quan ni m, các ph
ng pháp nh n th'c và nhi u y u t khác c"a con ng
i...
Do ó, r t khó xây d ng nên m t ki n trúc ontology.
GVHD: PGS.TS. Tr
ng M Dung
Trang 7
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
Có nhi u cách khác nhau
mô t ontology: cú pháp c b n (syntax-
based) c"a ngôn ng ontology và bi u
UML. Nhi u nhóm nghiên c'u ang
phát tri n m t vài ngôn ng ontology khác nhau: RDFS (Brickey & Guha,
2002)); DAML+OIL (Conolly, Harmelen, Horrocks, McGuinness, PatelSchneider & Stein, 2001), OWL (Patel-Schneider, Horrocks & Harmelen,
2002) và KAON
c phát tri n b!i AIFB trong Karlsruhe, trong
ó
DAML+OIL và KAON là ph n m! r ng c"a RDFS, trong khi OWL là ph n
m! r ng c"a DAML+OIL. Bi u
h n ch , khó x+ lý
c b&ng máy tính (machine) khi nó
mô hình l n, trong khi con ng
i có th hi u
c mô t trong m t
c m t cách d, dàng.
mô t ng ngh)a trên RDF
th hi n các m i quan h
H
S+ d(ng ontology
UML th hi n các ontology còn có nh ng
gi a ch" th và khách th thì không khó l m. Sau khi xây d ng ontology b&ng
C
các câu RDF, n i dung c"a tài li u là:
U
TE
-
H
-
-
-
-
GVHD: PGS.TS. Tr
ng M Dung
Trang 8
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
T# c u trúc c"a tài li u này, ta d, dàng tìm ra các m i quan h cú pháp gi a các
ngôn ng XML, RDF, RDFS và OWL.
- K ngh ontology (Ontology Engineering)
Làm th nào
xây d ng ontology v i hi u qu và tính dùng l i
c là
m t m i quan tâm chính trong mi n (domain) c"a k ngh ontology. Nh m t
s ontology editor ph bi n, các nhà nghiên c'u ã s+ d(ng Protégé
d ng ontology và kinh nghi m c"a h
ã ch- ra r&ng xây d ng ontology b&ng
tay là m t công vi c r t c c nh c (labour-intensive work). Nh ng ng
d(ng Protégé
xây
i s+
xây d ng ontology ph i so n th o t#ng khái ni m: tên
(names), các chú thích (annotations), ch n các thu c tính khác nhau và %nh
H
ngh)a các ràng bu c (restrictions). N u có hàng nghìn các khái ni m (concepts)
trong m t tác v(, thì công vi c này s* m t r t nhi u th i gian. Nh ng nhà
C
nghiên c'u rõ ràng không mu n tiêu phí th i gian c"a h cho các công vi c l p
i m i trong công vi c.
U
TE
i l p l i, mà không có s
Th t s
là không có nhi u cách ti p c n chung
xây d ng m t
ontology và ch- có m t vài cách là không có ràng bu c v ph m vi (domainfree). Có nhi u h ph
t
ng pháp lu n làm n n t ng c b n cho các mô t tr#u
ng và các phác th o s l
c v cách t o ra m t Ontology (Fernandez,
Gomez-Perez, Pazos Sierra, 1999), theo sau ó ã có nhi u d án v k ngh
H
ontology ã tìm ra
c cách thích h p
xây d ng các ontology.
M(c ích c"a k ngh ontology là cho phép máy tính xây d ng m t s
ontology th a mãn các yêu c u c"a con ng
i (t o ra các ontology b&ng tay).
Các thành ph n c a m t ontology
M t Ontology ch'a
ng các mô t các khái ni m (concepts) g i là các
l p (classes), các thu c tính (còn g i là slots) c"a m i khái ni m mô t các tính
n ng và các thu c tính khác nhau c"a khái ni m
(restriction) c"a các thu c tính ó ( ôi khi còn
ó, và nh ng h n ch
c g i là các s ki n).
Các l p là tâm i m c"a h u h t các ontology . Các l p mô t các khái
ni m trong m t ph m vi (domain).
GVHD: PGS.TS. Tr
ng M Dung
Trang 9
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
M t Ontology ch'a
ng s mô t hình th'c (formal) c"a các khái ni m
(concepts) g i là các l p (classes) trong m t ph m vi c"a ph n miêu t
(discourse), các thu c tính (properties) còn g i là slots c"a m i khái ni m mô t
các tính n ng và thu c tính khác nhau c"a khái ni m, và nh ng h n ch
(restriction) trên các thu c tính (facet).
Các l p là tr ng tâm c"a h u h t các ontology. Các l p là s mô t các
khái ni m trong m t ph m vi (domain).
Ví d(: l p r
u
i di n t t c các lo i r
u còn lo i r
u c( th chính
là các th hi n (instances) c"a l p này. Các l p con dùng %nh ngh)a rõ h n các
H
khái ni m c"a l p cha.
Ví d(: chúng ta có th chia l p r
u thành r
s"i t m.
và r
u s"i t m hay r
u
u không
i v i máy tính
U
TE
S quan tr ng c a ontology
Ontology cho th y
c s to l n các ti m n ng
ph n m m
qu t t h n, thích 'ng h n và thông minh h n. Ontology
b
u
C
tr ng…Hay m t cách khác là chia l p r
u ra hai lo i là r
t hi u
c xem nh m t
c ngo c l n trong công cu c phát tri n ph n m m. Ý t !ng v ontology ã
c thai nghén t# r t s m trong tri t h c.
H
Ontology ã
c áp d(ng trong khoa h c v y khoa, là các công c( c"a
các s n ph$m truy n thông. Hi n nay, ontology ang
phát tri n m nh
c nghiên c ú và phát
ph(c v( cho các nghành (nói chung), công ngh thông tin
(nói riêng).
Ontology không quá ph'c t p
c. Không có m t chu$n nào
nhi u h
cho ng
i bình th
ng có th hi u
ti p c n v i ontology, nh ng l i có quá
ng d n ch- mô t cách ti p c n m t cách s l
c (v n t t).
Hi n nay, theo các nghiên c'u c"a nhóm W3C, Semantic Web ã
u tiên phát tri n, và ã làm thay
c
i hoàn toàn s nhìn nh n v ontology.
Thông qua k t qu c"a quá trình phát tri n trên, W3C ã cung c p m t chu$n
ngôn ng
ánh d u ng
GVHD: PGS.TS. Tr
ngh)a d a trên XML, trên m t h th ng qu n lý
ng M Dung
Trang 10
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
ontology (ontology management system) và trên các công c( h u d(ng khác…
Ngoài ra Web cung c p các 'ng d(ng ph(c v( cho
i s ng th
ng nh t nh s
tìm ki m d li u, xem thông tin qua m ng, mua bán hàng hóa qua m ng…
Giá tr% ontology th hi n trong các 'ng d(ng quan tr ng nh là quy trình
tích h p và x+ lý thông tin (process data integration).
S phát tri n c a ontology
Ontology giúp cho ph n m m tr! nên hi u qu h n, linh
ng h n và
thông minh h n b!i vì:
Chia s. s hi u bi t thông tin gi a m i ng
-
Có th s+ d(ng l i các ph m vi tri th'c.
-
Phân tích ph m vi tri th'c (Analysis of domain knowledge).
ng di n ho t
C
Các ph
ng c a ontology
ng trên hai ph
U
TE
Hi n nay, ontology ho t
th
ng di n: công ngh và
ng m i. Các t ch'c phát tri n nên xem xét ng ngh)a (semantic) có th
gi i quy t
c gì và s* mang
Có r t nhi u nh ng v n
n l i ích nh th nào cho các 'ng d(ng.
i n hình mà ontology có th gi i quy t
r t t t nh v tích h p thông tin, mô hình chuy n
H
d%ch ngh)a (translation), làm s ch d
h
i hay ph n m m.
H
-
c
i (model transformation),
li u (data cleansing), tìm ki m, %nh
ng, s hi u bi t v n b n (text understanding), trình bày v n b n, s nh n
d ng gi ng nói… Ngoài ra nhà phát tri n c ng ph i tìm hi u nhi u sáng ki n
trong vi c dùng ontology gi i quy t v n
lòng v i nh ng gì mà ontology mang
c"a h . M t khi nhà phát tri n hài
n thì h có th th1ng ti n và ch n
ontology làm gi i pháp. 2 ây có các chu$n ngôn ng
(semantic markup language) mà W3C ã
ánh d u ng ngh)a
a ra nh RDF, OWL..
Cách dùng ontology
T ch'c W3C ã
a ra m t b n t ng k t c"a vi c th c thi các 'ng d(ng
c l p ra v i kho ng 25 nhà phát tri n h th ng (deployed system)
c li t
kê. Ví d( sau :
GVHD: PGS.TS. Tr
ng M Dung
Trang 11
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
•
Ki m soát t# v ng (controlled vocabulary).
•
H tr
%nh v% và t ch'c t li u ho c trang Web (Web site or document
organization and navigation support).
•
H tr trình duy t (browsing support).
•
H tr tìm ki m (tìm ki m ng ngh)a).
•
T ng quát hóa và chuyên bi t hóa c"a vi c tìm ki m (Generalization or
specialization of search)
H tr ng ngh)a.
•
Ki m tra tính v ng ch c (Consistency checking).
•
S hoàn thành t
•
H
ho t
ng (Auto-completion).
ng qua l i (Interoperability support) (tích h p thông
tin/quy trình).
H
tr
ki m th+ và
ánh giá (Support validation and verification
U
TE
•
C
tr
H
•
testing).
•
H tr c u hình (Configuration support).
•
H tr tìm ki m c u trúc, t
ng
i và tùy bi n (Support for structured,
H
comparative, and customized search).
Ontology khác v i nh ng h th ng chuyên gia và nh ng công ngh AI
cho Web ng ngh)a và các công ngh ontology hi n t i th c hi n
c thì máy tính bu c ph i truy c p vào t p h p c u trúc thông tin và thi t l p
các nguyên t c suy lu n (inference rules)
máy tính có th t
ng hoá i u
khi n các l p lu n (conduct automated reasoning).
Còn các nhà nghiên c'u trí tu nhân t o thì nghiên c ú cách th'c cho h
th ng h c d li u tr
c khi Web
c phát tri n. Công ngh này th
g i là xây d ng c s! tri th'c, hi n t i trí tu nhân t o c ng
ng
c
c áp d(ng cho
các 'ng d(ng phát tri n c"a Web: và i u ó c ng không th t s là m t ý t !ng
GVHD: PGS.TS. Tr
ng M Dung
Trang 12
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
t t, v n không th thay
tr
i
c cách bi u di,n d li u nh các công ngh
c.
S khác bi t gi a ontology và c s d li u
Ontology khác v i c s! d li u (database) ! m t vài i m nh sau :
-
u tiên là ontology trình bày ki u d li u ! d ng meta ch' không ph i
là d li u thông th
-
ng.
M t Ontology s* miêu t m t giao di n v i nó thông qua d li u có th
b% truy nh p trong khi qu n lý các th hi n d li u hi n th i trong các c
s! d li u.
Khác nhau ! s truy v n có ngh)a là h u h t các câu truy v n trong c s!
H
-
d li u là truy l(c các d li u gi ng nhau nh vi c nó
c l u tr tr
c
l y ra các s vi c m i
C
ó còn các ontology thì suy ra hay các lý do v xác nh n các s vi c và
c bao hàm b!i các s ki n ã bi t tr
U
TE
S khác nhau gi a ontology và ki u mô hình h
M t Ontology khác v i mô hình h
-
ng
it
ng
it
c.
ng.
ng ! m t vài i m sau :
S khác nhau sâu s c nh t là lý thuy t công ngh ontology
c phát
hi n là d a d a trên tính logic.
Ontology cho phép t
ng hóa suy lu n và k t lu n còn h
ng
i
H
-
t
ng thì không.
-
S khác nhau ! l)nh v c nghiên c'u thu c tính.
-
Trong khi công ngh ontology xem các thu c tính nh các l p thành
ph n (first class citizen) còn h
ng
it
ng thì không.
-
Ontology cho phép th#a k các thu c tính (property).
-
Ontology cho phép nh ng m i quan h do ng
i dùng %nh ngh)a tu3 ý
gi a các l p (các ki u c"a thu c tính). Còn mô hình h
ng
it
ng thì
gi i h n các ki u d ng m i quan h trong vi c th#a k các m i quan h
gi a l p cha và l p con.
GVHD: PGS.TS. Tr
ng M Dung
Trang 13
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
-
Công ngh Ontology cho phép thêm vào các
h nh functional, tính
tính ngh%ch
-
c tính cho các m i quan
i x'ng (symmetry), tính b c c u (transitive) và
o (inverse)
chúng có th
c s+ d(ng trong suy lu n.
M c dù khác nhau nhi u i m nh ng ph n l n mô hình h
và UML v n
c xem nh là m t
ng
it
ng
c t ontology thi t th c b!i vì s
tr i r ng c"a nó trong n n công nghi p và vô s mô hình t n t i b&ng
UML.
Có th thêm tính logic vào các mô hình h
ng
it
ng b&ng các ngôn ng
H
U
TE
C
H
ràng bu c (Object Constraint Language).
GVHD: PGS.TS. Tr
ng M Dung
Trang 14
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
CH
NG II.
T NG QUAN V XML, RDF VÀ OWL
II.1. S l!"c v# XML
XML
c tri n khai nh s
n m qua. Ngôn ng
óng góp c"a r t nhi u ng
i trong m
i
ánh d u tiêu chu$n t ng quát (SGML - Standard
Generalized Markup Language), m t ngôn ng bi u th% d li u trong nh ng
'ng d(ng x+ lý v n b n a d ng và có c u trúc tinh vi. Nh
c i m c"a nó là
r t r c r i, khó h c, khó s+ d(ng…
Chính vì l* ó vào n m 1990 Tim Berners-Lee ! CERN, ã t o ra
t
i l i r t d, dùng. Không ng s thành công c"a HTML v
ng c"a chính tác gi .
Nh ng r i
C
ng
H
HTML (là m t 'ng d(ng c"a SGML), m t ph n nh c"a SGML, nh ng m i
n m t ngày vào n m 1995 ng
u th y s gi i h n
c Netscape, Microsoft c g ng thêm th t, b!i s
U
TE
c"a HTML, m c dù nó
i ta b t
t quá s'c t !ng
th%nh hành c"a Web. Do ó, nhi u ng
i có ý %nh quay tr! l i SGML, nh ng
l i ái ng i.
Ðúng lúc ó vào 1996, Jon Bosak ! Sun Microsystem kh!i
c ng tác W3C SGML, b y gi
nó d, dùng nh HTML mà
H
hoá SGML
c g i là nhóm XML. M(c ích là
u nhóm
n gi n
ng th i m nh m*, d, dùng,...
Tim Bray và C.M. Sperberg-McQueen vi t h u h t Specification (b n i u ki n
k thu t) nguyên th"y c"a XML. Tr
c ó, Bray ã có kinh nghi m nhi u n m
qu n lý d án "New Oxford English Dictionary". Ông mu n XML h i các i u
ki n sau:
Ð n gi n " cho l p trình viên áp d(ng
D, cho Search Engine (nh AltaVista, Yahoo, Infoseek,...) phân lo i
Không gi i h n trong ti ng Anh c"a n
Chính vì l* ó, b n Specification
cM
u tiên c"a XML
n m 1996. Tháng 7 n m 1997 Microsoft áp d(ng
GVHD: PGS.TS. Tr
ng M Dung
c ra
i vào tháng 11
u tiên c"a XML, Channel
Trang 15
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
Definition Format (CDF). H dùng CDF
xu t b n các trang Web
n
nh ng khách ã óng ti n tháng (subscribers). CDF là m t ph n c"a Internet
Explorer 4.0. Tháng 5 n m 1997 Microsoft và Inso Corporation xu t b n XSL
(eXtensible Style Language)
làm Style Sheet di,n t cách trình bày m t
trang XML.
Ð n tháng 1 n m 1998 Microsoft cho ra m t ch
MSXSL
ng trình mi,n phí tên
generate m t trang HTML t# m t c p trang XML và XSL. Sau này
thì Internet Explorer 5.0 có th hi n th% tr c ti p m t trang XML (bên trong có
ghi ph i tìm trang XSL ! âu), không c n cho th y k t qu trang HTML.
Vào tháng 2 n m 1998 T h p Web toàn c u W3C phê chu$n cho chính th'c
H
thi hành Version 1.0 c"a XML Specification.
C
1. Khái ni m XML
XML vi t t t c"a ch eXtensible Markup Language (ngôn ng nâng c p
U
TE
có th m! r ng) là m t b qui lu t v cách chia m t tài li u ra làm nhi u ph n,
r i ánh d u và ráp các ph n khác nhau l i
d, nh n di n chúng. Ð
o b!i T h p Web toàn c u (W3C), XML tr! thành m t
c ch-
c i m k thu t
chính th'c.
T h p Web toàn c u W3C g i XML là "m t cú pháp thông d(ng cho
vi c bi u th% c u trúc trong d li u". D li u có c u trúc tham chi u
gán
nhãn
H
c
cho
n i
dung,
ý
ngh)a,
ho c
n d li u
công
d(ng.
Ví d( : Trong m t trang Web ta dùng nh ng C p th. (c p nhãn hi u m! óng)
ánh d u nh và . Hãy quan sát m t trang Web d
i
ây:
Welcome To Lê H ng
Ð%nh Ngh)a
A: "Sao anh l i c t dây i n ! phòng h p?"
B: "Vì dây i n nhà tôi thi u m t m t khúc".
A: "Nh v y là l y công làm t !"
B: "Không, nh v y là l y dài nuôi ng n!"
HTML >
GVHD: PGS.TS. Tr
ng M Dung
Trang 16
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
Trong HTML Web page các C p th.
ng ý ngh)a gì v d
u
c %nh ngh)a tr
c và không ch'a
ki n mà chúng k4p bên trong, tr# tr
ng h p cho
TITLE. Thí d( H1 có ngh)a display hàng ch bên trong (Ð%nh Ngh)a) theo c
l n nh t, nh ng hàng ch
y có th là b t c' th' gì, không nh t thi t ph i là t#
(Ð%nh Ngh)a) ! ây. Còn XML thì cho phép ta t do
dùng khi c n. N u tính ra, Dynamic HTML có
t tên các C p th.
n kho ng 400 Th. mà n u
mu n dùng ta ph i nh h t. Trong khi ó, XML không có gi i h n v con s
Th. và ta không c n ph i nh Th. nào c . Ý ngh)a c"a các Th. r t linh
ng và
ta có th s p x p các th. c"a XML theo lo i cho h p lý. Thí d( mu n làm m t
trang XML v môn V n h c ta c n nh ng Th. di,n t nhân v t, ngày sanh,
H
ngày t+,...
2. T m quan tr$ng c a XML
thông th
ng thì n i dung có liên quan ch t ch*
c
n cách th'c nó
c hi n
n nay ã có bao nhiêu l n b n nhìn th y câu "Best viewed at
U
TE
th%. T# tr
C
Nh ng tay thi t k Web cho r&ng n i dung là trên h t. Ch1ng may,
800-by-600-pixel resolution" (hi n th% t t nh t !
phân gi i 800x600) khi
duy t qua m t trang Web?
Thay vì ph i ch- rõ ph
ó b!i vì nh ng ng
ng th'c hi n th%, XML s* giúp gi i quy t v n
i xây d ng Web s* có kh n ng ch- %nh c u trúc c"a tài
H
li u. Ví d(, b n có th ch- %nh t a
c"a tài li u, tác gi , m t danh sách các
liên k t có liên quan,... Khi ó b t k3 m t thi t b% nào v i m t trình duy t XML
u có th th hi n m t phiên b n c"a tài li u
ct o
c tr ng cho thi t b%
ó.
Tuy nhiên, có l* tính n ng u vi t nh t c"a XML ó là kh n ng m! r ng k
th#a. Các t ch'c và công ty s* có kh n ng m! r ng XML
áp 'ng nh ng
th+ thách và các 'ng d(ng m i. M t ngôn ng d a trên XML hi n ang
c
s+ d(ng - CDF c"a Microsoft - và còn nhi u ngôn ng khác ang trong quá
trình hoàn thi n s p
c
a ra, bao g m Resourse Definition Format (RDF)
và Open Software Description (OSD).
GVHD: PGS.TS. Tr
ng M Dung
Trang 17
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
Vì c tài li u XML
h m t chút -nh,
ai b t
h
u n&m d
i d ng Text String nên n u g!i i xa có
u kia c ng oán ra
c. Gi d( vào th k/ 23 sau n y có
c m t tài li u XML c"a n m 2000, nh ng trong ó có vài ch b% m ,
c ng
oán Lê Quang Anh H ng có ngh)a là
Lê Quang Anh H ng . M c d u ta nói ai mu n
TH5 nào trong XML c ng
c, nh ng thí d( m i ngh nghi p nh c khí, y
h c, Tin h c,... n %nh m t s TH., m i TH. có ý ngh)a theo s
trong ngh c"a mình, ng
cách ch'a d
t ra
ng ý tr
i ta có th dùng XML và Style Sheet
c
quy %nh
ki n và ngay c cách trình bày cho riêng ngh c"a mình.
M t công ty c khí có th dùng m t ch
ng trình ch y t
ng (Robot)
d
u cho vi c giao d%ch kinh doanh t
c v cách dùng XML
ng (Business-To-Business hay B2B).
trao
i d ki n ã
C
Có m t quy
H
giá nh ng v t li u t t# các công ty cung c p qua cách dùng XML. ây là kh!i
là "Open Financial Exchange Format (OFX)". Ng
i ta thi t k OFX
ng trình tài chánh nh Microsoft Money và Quicken trao
U
TE
các ch
c tri n khai g i
hay g!i các d ki n tài chánh
cho
i d ki n
n nhà b ng,...
Vì XML là m t chu$n công c ng, không thu c v m t công ty nào, nên
ng
i dùng không s ph i (ng ch m ai v copyright, hay b% gi i h n cách s+
d(ng,... Thí d( nh v i XML ta có th tránh ph i l thu c hoàn toàn vào
H
Microsoft Word khi g!i m t tài li u vì s
u kia ng
Word. Mi,n là t t c các Word Processors
dùng XML làm ph
t
do
ch n
ng ti n trao
m t
u
c, vi t XML
i các tài li u. Ng
Word
i ta không có Microsoft
Processor
c, ta có th
i dùng ! m i n i có th
theo
s!
thích.
XML không nh ng cho b n %nh ngh)a các ph n c"a tài li u mà còn
t qui
c v s liên h c"a các ph n y.
Vào n m 1998 ho c 1999 thì còn quá s m
n âu. Nh ng
n th i i m hi n t i thì XML
giao d%ch thông tin, m t lý do chính
xác %nh
c XML s* i
c th#a nh n là m t chu$n
hi u t i sao có quá nhi u s xôn xao t p
trung quanh XML. T h p Web toàn c u W3C ã chính th'c
a ra chu$n
XML ver1.0.
GVHD: PGS.TS. Tr
ng M Dung
Trang 18
Lu n v n t t nghi p: Nghiên c u v Ontology Editor và ng d ng
3. Các m i quan h gi%a SGML, HTML và XML
Ngôn ng
ánh d u tiêu chu$n t ng quát (SGML - Standard Generalized
Markup Language) là m t ph
ng pháp bi u th% d li u trong nh ng 'ng d(ng
x+ lý v n b n. Nó ã t n t i h n m t th p k/ nay; c XML l n HTML
nh ng %nh d ng tài li u có ngu n g c t# SGML. Vì v y, t t c chúng
chia s. m t s
c tính ch1ng h n nh m t cú pháp t
u là
u cùng
ng t và cách dùng các
nhãn trong d u ngo c nh n. Nh ng HTML là m t 'ng d(ng c"a SGML, trong
khi XML là m t b trình con c"a SGML.
- S phân bi t là r t quan tr ng. C b n, HTML không th dùng
RDF l n CDF
u là nh ng 'ng d(ng
c vi c này. Ví d(, c
H
nên các 'ng d(ng m i trong khi XML có th th c hi n
%nh ngh)a
c %nh ngh)a b&ng XML. XML và
C
HTML th c s gi ng nh hai anh em h h n là hai anh em ru t:-). T h p Web
toàn c u W3C ã phát tri n m t bi u
làm sáng t m i quan h này.
ng thích v i SGML - b t c' m t công c( t o ho c duy t
U
TE
- XML th c s t
l n
SGML nào c ng có th
c
ph'c t p h n SGML, và nó
c nh ng tài li u XML. Tuy nhiên, XML
c thi t k
ch y trên m t m ng b ng t ng h u
h n ví d( nh Internet. Theo Tim Bray -
ng biên t p viên XML - thì ý t !ng
&ng sau XML là t n d(ng l i ích c"a SGML, lo i b nh ng ph n ph'c t p,
duy trì tính nh4 nhàng, và làm cho nó ho t
c trên Web.
c s+ d(ng ! nh ng v% trí thích h p;
H
- HTML, SGML, và XML s* ti p t(c
ng
n gi n nh t
chóng trên Web, th
ng là nh ng d ki n ng n h n ví d( nh các ch
s* không có ngôn ng nào trong s chúng th hi n b t c' tính ch t l i th i nào
khác. HTML v n duy trì cách th'c
ngh% s ho c các t b
phát hành d li u nhanh
ng trình
m qu ng cáo. N u d ki n có m t công d(ng dài h n
h n và c n m t c u trúc ch t ch* h n, thì các nhà xây d ng Web s* chuy n
sang XML. Không gi ng nh HTML và XML, SGML có th s* ch1ng bao gi
có
c s ch p nh n ph bi n trên Internet,
c thi t k ho c
n gi n b!i vì nó ch a bao gi
c t i u cho các nhu c u c"a m t giao th'c m ng. M'c
t i a, v i nh ng 'ng d(ng phát hành có c u trúc ch t ch* ! m'c
cao,
SGML s* ti p t(c phù h p v i m i yêu c u.
GVHD: PGS.TS. Tr
ng M Dung
Trang 19
- Xem thêm -