Tìm kiếm ngữ nghĩa ứng dụng trên lĩnh vực edoc

  • Số trang: 153 |
  • Loại file: PDF |
  • Lượt xem: 12 |
  • Lượt tải: 0
nganguyen

Đã đăng 34173 tài liệu

Mô tả:

Luận văn Tìm kiếm ngữ nghĩa ứng dụng trên lĩnh vực eDoc L IC M u tiên, chúng em xin g i l i c m n tr ng N n Th y, Cô khoa Công ngh Thông tin i h c Khoa h c T nhiên ã t n tình d y d , dìu d t chúng em su t b n n m i h c. Chúng em c m n Cô Ph m Th B ch Hu , ng i t n tình h ng d n, giúp , ng viên chúng em hoàn thành lu n v n này. Cu i cùng, chúng con c m n Ba, M và nh ng ng ng viên chúng con trong th i gian h c t p, nghiên c u i thân ã khích l , h tr , có c thành qu nh ngày nay. Tháng 7 n m 2005 Sinh viên Ph m Th M Ph 1 ng – T Th Ng c Thanh NH N XÉT C A GIÁO VIÊN H NG D N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………….... …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên 2 tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc NH N XÉT C A GIÁO VIÊN PH N BI N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………….……………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………… Ngày…… tháng……n m 2005 Ký tên 0112274 – Ph m Th M Ph ng -3- 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc M CL C M U.................................................................................................................................10 Ch ng 1 : T NG QUAN.....................................................................................................11 1.1. "t v#n ................................................................................................................ 11 1.2. Bài toán gi i quy t ................................................................................................... 13 1.3. H ng ti p c n......................................................................................................... 14 Ch ng 2 : C S LÝ THUY T ........................................................................................17 2.1. Chi n l c tìm ki m thông tin c$a các b tìm ki m (Search Engine) ..................... 17 2.1.1. M t s search engine thông d!ng: ................................................................... 17 2.1.2. Chi n l c tìm ki m ........................................................................................ 32 Nguyên lý ho t ng........................................................................................................ 34 2.2. Semantic Web .......................................................................................................... 34 2.2.1. Khái ni m......................................................................................................... 34 2.2.2. Ki n trúc .......................................................................................................... 36 2.2.3. Các thách th c "t ra cho Semantic web ......................................................... 37 2.2.4. So sánh web và web ng ngh a........................................................................ 41 2.2.5. Các khái ni m liên quan................................................................................... 42 2.2.6. Ontology .......................................................................................................... 44 2.2.7. Rdf ................................................................................................................... 46 2.3. eDoc ......................................................................................................................... 55 2.3.1. Tìm hi u eLearning.......................................................................................... 55 2.3.2. Tìm hi u eLib................................................................................................... 61 2.3.3. Tìm hi u eDoc ................................................................................................. 68 2.4. M t s v#n trong x% lí ngôn ng t nhiên: ......................................................... 71 2.4.1. V#n trong vi c x% lí v n b n:...................................................................... 72 2.4.2. V#n x% lí ng ngh a: ................................................................................... 72 2.4.3. Phân lo i v n b n (Text Classification)........................................................... 82 Ch ng 3 : MÔ HÌNH VÀ GI I THU T ..........................................................................84 3.1. Công ngh tìm ki m ng ngh a trên th gi i hi n nay: ........................................... 84 3.2. Các b c xây d ng m t ng d!ng semantic search engine:.................................... 91 3.3.1. Xây d ng ki n trúc Web ng ngh a:................................................................ 92 3.3.2. L p ch& m!c ng ngh a ti m tàng: ................................................................... 93 3.3. Mô hình ngh cho ng d!ng tìm ki m ng ngh a trên l nh v c eDoc................. 96 3.4. Các gi i thu t s% d!ng ........................................................................................... 100 3.4.1. Gi i thu t x% lý tài li u: ................................................................................. 100 3.4.2. Gi i thu t rút trích siêu d li u: ..................................................................... 102 3.4.3. Gi i thu t phân lo i l nh v c cho tài li u:...................................................... 104 3.4.4. Gi i thu t x% lí câu truy v#n: ......................................................................... 104 Ch ng 4 : CH NG TRÌNH NG D NG....................................................................105 4.1. Gi i thi u ch ng trình ng d!ng: ........................................................................ 105 4.2. Ki n trúc c$a ng d!ng:......................................................................................... 105 4.3. Mô t ph m vi ng d!ng........................................................................................ 107 4.3.1. Mô t bài toán: ............................................................................................... 107 0112274 – Ph m Th M Ph ng -4- 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc 4.3.2. Xác nh yêu c u: .......................................................................................... 107 4.4. Xây d ng ng d!ng: .............................................................................................. 108 4.4.1. Thi t k d li u: ............................................................................................. 108 4.4.2. Thi t k x% lý:................................................................................................ 110 4.5. K t qu ch ng trình ............................................................................................. 112 4.6. Th c nghi m ch ng trình .................................................................................... 114 Ch ng 5 : K T LU N ......................................................................................................118 5.1. ánh giá k t qu nghiên c u ................................................................................. 118 5.1.1. 'u i m ......................................................................................................... 118 5.1.2. Khuy t i m:.................................................................................................. 119 5.2. H ng phát tri n .................................................................................................... 119 TÀI LI U THAM KH O...................................................................................................120 I. Lu n v n, lu n án:...................................................................................................... 120 II. Sách, eBooks:............................................................................................................. 120 III. Website: ................................................................................................................. 122 PH L C..............................................................................................................................124 1. Cú pháp RDF: ............................................................................................................ 124 2. RDF Gateway: ........................................................................................................... 129 2.1. Ki n trúc c$a RDF Gateway:............................................................................. 130 2.2. Tính n ng (Features).......................................................................................... 132 3. H th ng nhãn ng ngh a:.......................................................................................... 138 3.1. Nhãn ng ngh a c b n cho danh t : ................................................................. 139 3.2. Nhãn ng ngh a c b n cho ng t :................................................................. 141 3.3. Nhãn ng ngh a c b n cho tính t :................................................................... 142 3.4. H th ng nhãn ng ngh a LDOCE .................................................................... 142 4. H c s tri th c ng ngh a t v ng WordNet .......................................................... 144 4.1. H th ng nhãn ng ngh a c$a danh t : .............................................................. 144 4.2. H th ng nhãn ng ngh a c$a ng t :.............................................................. 149 0112274 – Ph m Th M Ph ng -5- 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc DANH M C CÁC B NG B B B B B B B B B B B B B B B B B ng 1 : B ng h ng d n nhanh v cách s d ng m t s search engine ph bi n ......... 28 ng 2: S l c v các c tr ng c a m t s search engine thông d ng trên Internet .. 32 ng 3 : Các l p trong RDF ............................................................................................ 54 ng 4:Các thu c tính c a RDF........................................................................................... 55 ng 5: Danh sách các ngh!a và ràng bu c c a các t" th#c trong câu............................. 77 ng 6 Mô t c s$ d% li&u cho 'ng d ng.......................................................................... 110 ng 7 Các module c a ch ng trình................................................................................ 110 ng 8 Module eDocSearch ................................................................................................ 111 ng 9 Module eDocSearch ................................................................................................ 111 ng 10 Các câu truy v(n th nghi&m............................................................................... 115 ng 11 Th ng kê l!nh v#c khoa h)c máy tính ................................................................. 116 ng 12 Th ng kê l!nh v#c ngh& thu*t. ............................................................................. 116 ng 13: Nhãn ng% ngh!a c b n cho danh t".................................................................. 140 ng 14: Nhãn ng% ngh!a c b n cho ng t" .................................................................. 142 ng 15 : Nhãn ng% ngh!a c b n cho tính t"................................................................... 142 ng 16: H& th ng nhãn ng% ngh!a LDOCE .................................................................... 144 ng 17:S# phân l p danh t" trong WordNet.................................................................. 148 0112274 – Ph m Th M Ph ng -6- 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc DANH M C CÁC HÌNH Hình 1: Giao di&n c a Google............................................................................................... 18 Hình 2: Giao di&n c a Yahoo................................................................................................ 19 Hình 3: Giao di&n c a Ask Jeeves ........................................................................................ 20 Hình 4: Giao di&n c a AllTheWeb ....................................................................................... 21 Hình 5: Giao di&n c a Teoma ............................................................................................... 22 Hình 6: Giao di&n HotBot ..................................................................................................... 23 Hình 7: Giao di&n c a Altavista............................................................................................ 24 Hình 8: Giao di&n c a Lycos................................................................................................. 25 Hình 9: Ki n trúc t+ng c a Semantic web........................................................................... 36 Hình 10: M t Ontology n gi n......................................................................................... 46 Hình 11: Mô hình d% li&u RDF............................................................................................. 51 Hình 12 : Tiêu chu,n ánh giá tính b o m*t c a eDoc ...................................................... 71 Hình 13 Các quan h& cú pháp và ràng bu c ng% ngh!a ..................................................... 76 Hình 14 Cây quy t -nh trong vi&c ch)n ngh!a phù h p. .................................................. 78 Hình 15: Dòng c s$ tìm ki m Web ................................................................................... 91 Hình 16: Mô hình ngh- cho 'ng d ng tìm ki m ng% ngh!a trên l!nh v#c eDoc .......... 97 Hình 17: Qui trình x lý c a t+ng search engine ................................................................ 99 Hình 18: Gi i thu*t x lý tài li&u: ...................................................................................... 100 Hình 19: Gi i thu*t rút trích siêu d% li&u .......................................................................... 103 Hình 20: S . d% li&u quan h& c a 'ng d ng .................................................................. 108 Hình 21: Giao di&n chính c a 'ng d ng ............................................................................ 112 Hình 22: Giao di&n k t qu tìm ki m c a 'ng d ng......................................................... 113 Hình 23: Giao di&n qu n lí tài nguyên ............................................................................... 113 Hình 24: Ki n trúc c a RDF Gateway............................................................................... 130 Hình 25: Giao di&n c a RQF Query Analyzer. ................................................................. 136 0112274 – Ph m Th M Ph ng -7- 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc DANH M C CÁC T/ VI T T0T eDoc Electronic document eLib Electronic library eLearning Electronic learning www World Wide Web URI Uniform Resource Identifier URL Uniform Resource Locator HTTP Hypertext Transfer Protocol RDF Resources Descriprion Framework OIL Ontology Inference Language OWL Ontology Web Language XML eXtensible Markup Language 0112274 – Ph m Th M Ph ng -8- 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc DANH M C CÁC THU T NG1 Class L p Property Thu c tính Metadata Siêu d li u Subject Ch$ Title Tiêu Namespace Không gian tên Predicate V ng Triple B ba (subject, predicate, object) 0112274 – Ph m Th M Ph ng , ch$ ng -9- 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc M( )U Hi n nay, h u h t các h th ng tìm ki m trên Internet u i theo h ng truy n th ng ó là tìm ki m theo t khoá ( key word ). Theo cách tìm ki m này, khi ta gõ vào t c n tìm, các h th ng tìm ki m s* hi n th các tài li u mà trong nó có ch a t khoá c n tìm. Do ó, k t qu tr ra là m t danh sách r#t nhi u các tài li u, mà có th các tài li u này không liên quan gì không n n i dung ta c n tìm. Và ôi khi các h th ng này a ra h t các tài li u c n thi t, t c là th a tài li u không c n thi t nh ng l i thi u h+n nh ng tài li u quan tr ng khác. V#n "t ra là ta ph i xây d ng m t h th ng tìm ki m nh th nào kh c ph!c hi n tr ng nêu trên ? gi i quy t v#n này, ta c n xây d ng h th ng tìm ki m sao cho áp ng y $ thông tin mà ng i dùng mong mu n, ngh a là ph i xây d ng h th ng tìm ki m theo ng ngh a d a trên thông tin ng T nh n th c trên chúng em quy t i dùng a vào. nh ch n tài: Tìm ki m ng% ngh!a 'ng d ng trên l!nh v#c eDoc (nh ng tài li u i n t% ti ng Anh) v i m!c ích tìm hi u và xây d ng m t công c! tìm ki m theo ng ngh a và y $, có th h n ch có th tìm ki m thông tin chính xác c ph n nào v#n tìm ki m theo t khoá c$a các search engine hi n t i. Các it ng nghiên c u liên quan n tài: eDoc, Semantic Web, RDF, OWL, Metadata,…. Trong ph m vi ch tài, vì th i gian th c hi n ng n, nên chúng em ch& th% nghi m ng trình tìm ki m trong m t s l nh v c: Khoa h c máy tính (Computer Science), Ngh thu t (Art). Hai l nh v c này có v, nh không liên h v i nhau nh ng th c t v n có nh ng tr ng h p c n ph i phân bi t, ví d! nh tài li u v “ngh thu t l p trình” (“Art of programming”) thì ph i phân tài li u v l nh v c khoa h c máy tính ch không ph i ngh thu t …. Tóm l i, ng d!ng mà chúng em xây d ng ch& tìm ki m thông tin trong các l nh v c nêu trên. Tuy nhiên, ng d!ng có th d- dàng m r ng ra nhi u l nh v c còn l i. 0112274 – Ph m Th M Ph ng - 10 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc Ch 1.1. ng 1 : T NG QUAN t v(n Nhu c u tìm ki m, n m b t thông tin là m t nhu c u không th thi u trong s ng c$a m i ng i i. Khi vi c s% d!ng World Wide Web ã tr nên ph. bi n r ng kh p, thì công vi c c$a các search engine c/ng tr thành m t ph n s ng còn và có l i ích cho Web. Các công c! tìm ki m tr thành nh ng công c! công c ng cho m i ng i dùng c$a Internet; Google và Yahoo, c/ng tr thành nh ng cái tên quen thu c. Các công c! tìm ki m hi n nay d a trên m t trong hai d ng c$a công ngh tìm ki m Web: tìm ki m do con ng i t ch& Công c! tìm ki m do con ng ng d n và tìm ki m t i ch& ng. ng d n s% d!ng m t c s d li u c$a các t khoá, các khái ni m, và các tham chi u. Nh ng công c! tìm ki m theo t khoá tr v m t dãy các trang, nh ng ph ng pháp n gi n này th các k t qu không liên quan và không xác th c. Ho t d a trên n i dung là: s* di n trong m i trang ms l n hàng lo t ng c$a m t công c! tìm ki m ng các t truy v#n ( các t khoá) so v i các t hi n c ch a trong ch& m!c c$a nó. Sau ó, công c! tìm ki m này s* s p x p các trang. Ti p c n ph c t p h n b0ng cách m c ng d n a các v trí c$a t khoá vào m t quan tr ng c! th . Ví d!, các t khoá xu#t hi n trong th, title c$a trang web thì quan tr ng h n trong ph n body. Các ki u khác c$a công c! tìm ki m do ng ch& ng d n, nh Yahoo, s% d!ng các l c 1 ch$ tr v các k t qu có liên quan h n. Nh ng l giúp ch& h c 1 ch$ i dùng ng tìm ki m và này do con ng i t o ra. B i lí do này, chúng ta ph i t n chi phí t o ra và duy trì trong các t mang “ý ngh a th i gian” (thay .i theo th i gian), và r1i thì không các h th ng t c c p nh t th ng xuyên nh ng. Cách ti p c n tìm theo t khoá v n còn m t s h n ch , i u này ã làm gi m i tính úng n c$a các search engine. Ví d! nh các t 1ng âm khác ngh a (ch+ng h n: bank (ngân hàng), bank (b sông), …) ho"c các t có các bi n th khác nhau do có các ti n t và h u t nh student và students; small, smaller, smallest; …. Ngoài ra, các search engine không tr v các tài li u có các t 0112274 – Ph m Th M Ph ng - 11 - 1ng ngh a v i các t trong câu 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc truy v#n mà ng c u c$a ng i dùng nh p vào. Key word không $ bi u di-n chính xác nhu i dùng c/ng nh n i dung các trang web, h n ch này làm cho các search engine tr v nh ng tài li u không liên quan n v#n vì t*p h p các t" khóa là d ng bi u di-n s l mà ng i dùng quan tâm. B i c nh#t c$a n i dung, và do ó, cách bi u di-n này là m t d ng góc nhìn lu n lý (logical view) c$a n i dung mang m'c thông tin th(p nh(t, ó chính là lý do c b n khi n cho các Search Engine hi n nay có t2 l& s trang web h%u ích trên t ng s trang web tr v th(p. Google v i 400 tri u tài li u thu v m i ngày và trên 8 t& trang web m!c, và là công c! tìm ki m thông d!ng nh#t v i Google v n còn có nhi u v#n l c l p ch& c s% d!ng ngày nay, nh ng th m chí . Ví d!, b0ng cách nào b n tìm ki m ch& v i m t ng ít d li u mà b n c n trong m t bi n k t qu không liên quan c a ra? Khi công ngh trí tu nhân t o (Artificial Intelligence_AI) phát tri n m nh, thì v#n "t ra là làm th nào a ra nh ng ph ng pháp tìm ki m t t h n mà có th th c s tin c y vào nh ng k t qu tìm ki m ó. ó là xu h ng c$a nh ng công c! tìm ki m d a vào ng ngh a và các agent tìm ki m theo ng ngh a. M t công c! tìm ki m ng ngh a tìm ki m các tài li u có ngh a t t ng t nhau. ng t nhau ch không ch& nh ng t ng Web tr thành m t m ng ng ngh a, ph i cung c#p nhi u siêu d li u v n i dung c$a nó, thông qua vi c s% d!ng các th, RDF (Resource Description Framework) và OWL (Ontology Web Language), các th, này s* giúp th c hi n a Web vào trong m ng ng ngh a. Trong m ng ng ngh a, ý ngh a c$a n i dung c th hi n t t h n, và nh ng liên k t logic c th c hi n gi a nh ng thông tin liên quan nhau. Công c! tìm ki m ng ngh a, chúng ta c p ây, có hai u i m l n so v i các công c! tìm ki m truy n th ng: 1. Nó ch#p nh n các truy v#n c phát bi u ngôn ng t nhiên. 2. K t qu là tìm ki m m t m u thông tin; không ph i là m t danh sách các tài li u có th (ho"c không) ch a thông tin yêu c u. Th t v y công c! tìm ki m ng ngh a b t uv il ng thông tin quá t i. Nó ti p nh n m t s các tác v! không c ai a thích trong vi c tìm ki m thông tin hi n 0112274 – Ph m Th M Ph - 12 - ng 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc nay: m ra m i tài li u c$a danh sách k t qu và quét nó m t cách th$ công l#y thông tin. Theo cách ó, các công c! tìm ki m ng ngh a có kh n ng cách m ng hoá, h ng n vi c tìm ki m thông tin i n t% m t cách t ki m t vi c thu h i tài li u 1.2. ng: nó thay .i mô hình tìm n vi c tr l i câu h i. Bài toán gi i quy t Theo th ng kê trong n m 2001: “Các nhân viên t n trung bình 8 gi m t tu n, hay 16% gi công hàng tu n c$a h , ngoài. Chi phí l tìm ki m và s% d!ng n i dung thông tin bên ng ch& riêng cho công ty c$a M là 107 t& ôla m t n m. Vi c tìm ki m ng ngh a là m t c h i y ý ngh a cho các công ty giúp cho nhân viên c$a h có kh n ng h n và hi u qu h n trong vi c "t thông tin bên ngoài vào công vi c c$a h .” Không c n nói nhi u thêm n a. S quá t i thông tin là m t v#n l n trong xã h i thông tin. Nh ng khám phá t b t v#n : ph i ng t c/ng c tìm th#y trong nhi u nghiên c u, làm n.i a ra gi i pháp trong vi c c i ti n x% lí tìm ki m thông tin. Ngo i tr nh ng ích l i to l n mà các công c! tìm ki m mang l i cho chúng ta nh ng n m g n ây b0ng vi c làm cho có th truy c p n hàng tri u các tài li u, b#t ch#p v trí v t lí và ngôn ng , thì chúng v n có m t s h n ch c b n. Ví d!, chúng không “hi u” các t con ng i gõ vào và do ó n a, chúng ho t tt im ts l ng kh.ng l1 c$a các k t qu sai. H n ng hi u qu khi h2i v nh ng s ki n, ch+ng h n nh “Kerry” và “vua c$a Tây Ban Nha”. Tuy nhiên, chúng th c hi n nhi u k t qu không t t n u câu truy v#n nói v s liên h gi a các khái ni m ch+ng h n nh “Nh ng qu c gia nào ã tham gia trong chi n tranh Iraq?” và “t.ng th ng n Có ba v#n (i) c n c c i ti n c Pháp theo chính ng nào?” c i thi n các k t qu c$a công c! tìm ki m là: Công c! tìm ki m c n cho phép nh ng truy v#n ph c t p h n (ví d! trong ngôn ng t nhiên), (ii) Công c! tìm ki m c n “hi u” nh ng gì con ng (iii) Công c! tìm ki m ph i cung c#p câu tr l i cho truy v#n (có th sao l u l i nh ng liên k t 0112274 – Ph m Th M Ph ng - 13 - i h2i, và n các tài li u mà cho ra câu tr l i). 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc 1.3. H ng ti p c*n Có hai ti p c n c i thi n các k t qu tìm ki m thông qua ph ng pháp ng ngh a: 1. Ki n trúc c$a Semantic Web. 2. L p ch& m!c cho ng ngh a ti m tàng (Latent Semantic Indexing). Tuy nhiên, h u h t các công c! tìm ki m d a trên ng ngh a ph i ch u nh ng v#n th c thi b i qui mô c$a m ng ng ngh a r#t l n. Nh0m m!c ích làm cho tìm ki m ng ngh a tr nên hi u qu trong vi c tìm ki m các k t qu mong mu n, m ng này ph i ch a m t l ng l n các thông tin liên quan. Cùng lúc ó, m t m ng r ng l n t o ra nh ng khó kh n trong vi c x% lí nhi u ng d n có th có cho m t gi i pháp liên quan. Chúng ta s% d!ng khía c nh s c bén c$a công ngh Web ng ngh a – k t h p ch"t ch* s ph i h p c$a các công ngh tiên ti n – làm cho mô hình có th chuy n nhanh trong vi c tìm ki m thông tin. • Công ngh& x lí ngôn ng% t# nhiên cho phép ng i dùng h2i nh ng câu h2i mà h mu n, h n là ph i nêu lên nh ng t khoá có liên quan trong câu h2i c$a h . • Các Ontology -nh ngh!a l!nh v#c quan tâm. Chúng c xem nh là “b não” c$a công c! tìm ki m, b i vì nó c g ng hi u nh ng câu truy v#n c$a ng i dùng trong các t c$a ontology này. Theo cách này chú ý r0ng công c! tìm ki m ng ngh a c$a chúng ta không ph i là có m!c ích thông th ng nh Google, mà nó có ý nh áp d!ng iv im t l nh v c hay khu v c c! th (ví d! v l nh v c pháp lí, v n hoá, th thao v.v…). • Phân tích tri th'c. Công ngh này chuy n d li u không có c#u trúc sang thông tin có c#u trúc. Nó rút trích thông tin t các v n b n t do, 0112274 – Ph m Th M Ph ng - 14 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc các v n b n bán c#u trúc và c#u trúc phát sinh ra ontology v i tri th c th t s . • Truy c*p tri th'c thông minh. Các câu tr l i cho các truy v#n c do vi c truy v#n ontology c a ra t ng, và t c bi u di-n trong nh ng d ng khác nhau: o “D li u” c$a th c th chính c h2i n (ví d! trong l nh v c xã h i, d li u c$a m t ngh s ). ng ng ngh a. Nh ng t c$a các câu tr l i nh h o ng siêu liên k t h o ct n các khái ni m ontology con, cho phép nh ng b0ng “ý ngh a”. Các th thông minh và liên k t thông minh. Các câu tr l i luôn c sao l u b i các ngu1n và các tài li u chúng d a vào. Khi nh ng tài li u ó s* t c tra c u, thì ph n m m gán th, và liên k t ng nh n ra các t ch a ý ngh a l nh v c và liên k t chúng n ontology, hay thêm vào các th, thông minh v i nh ng ho t ng o S “t c nh ngh a trong ontology. ng t ng” thông minh. Thông th ng, các câu tr l i phát sinh ra nhi u các khái ni m liên quan và các m i quan h . Ph m m m “t ng t ng” thông minh cho phép m t khái ni m i xuyên qua tri th c này. Có m t v#n mà công c! tìm ki m ng ngh a c nh ngh a th hoàn t#t so v i nh ng công c! tìm ki m v i m!c ích thông th ây v n ch a ng (không có ng ngh a) nh Google ó là: ph m vi. Trong Google b n có th tìm ki m v i b#t k3 t khoá nào trong b#t k3 l nh v c nào. N u các t khoá xu#t hi n trong m t s tài li u trên Web, Google s* tìm th#y nó. M t công c! tìm ki m ng ngh a c n m t s tri th c nâng cao: nó c n bi t ý ngh a, c bi u di-n trong m t ontology. Th c t là các ontology – trong tr ng thái thi hành hi n t i – v n còn làm b0ng th$ công, h n ch chúng trong nh ng m!c ích thông th ng. Do ó, các công c! tìm ki m ng ngh a là nh ng công c! quan tr ng cho nh ng l nh v c c! th . Trong tr 0112274 – Ph m Th M Ph ng - 15 - ng h p này, m!c ích 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc c$a các công c! tìm ki m ng ngh a là b. sung cho các công c! tìm ki m thông th ng, h n là c nh tranh nh nh ng 0112274 – Ph m Th M Ph ng i th$ . - 16 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc Ch ng 2 : C 2.1. Chi n l S LÝ THUY T c tìm ki m thông tin c a các b tìm ki m (Search Engine) 2.1.1. M t s search engine thông d ng: Sau ây là danh sách m t s search engine. T i sao chúng search engine “l n”? ó là b i vì chúng c bi t c xem là nh ng n nhi u và s% d!ng t t. iv i các chuyên gia web, các công c! tìm ki m l n là danh sách nh ng n i quan tr ng nh#t b i chúng phát sinh ra m t l ng ng r#t l n các trang web ti m tàng. i tìm ki m, các công c! tìm ki m ph. bi n th h n. Nh ng search engine này r#t có th gi th cân b0ng v i t c i v i nh ng ng tr ra các k t qu áng tin c y c duy trì t t và nâng c#p khi c n thi t, phát tri n c$a web. Nh ng search engine sau là t#t c nh ng l a ch n t t nh#t b t u khi tìm ki m thông tin: 0112274 – Ph m Th M Ph ng - 17 - 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc 2.1.1.1. Google: http://www.google.com/ Hình 1: Giao di&n c a Google Nguyên thu4, Google là m t án c$a tr ng i h c Stanford b i hai sinh viên Larry Page và Sergey Brin g i là BackRub. c th c hi n n n m 1998, thì .i tên thành Google, và 1 án này ã tr thành công ty riêng Google "t t i khuôn viên tr ng i h c. Nó v n còn c l u gi cho n ngày nay. Google là công c! tìm ki m n.i ti ng, t t nh#t trong các l a ch n tìm ki m thông tin trên web. D ch v! d a vào crawler, spider cung c#p trang web v i thông tin a ra toàn di n cùng v i m c liên quan t t. ây là công c! t t nh#t hi n nay trong vi c tìm ki m b#t c th gì b n mu n. Tuy nhiên, Google cung c#p ch n l a tìm ki m ch$ y u v các trang web. S% d!ng h p tìm ki m trên trang ch$ Google, b n có th d- dàng 0112274 – Ph m Th M Ph ng - 18 - nh v các nh qua 0112398 – T Th Ng c Thanh tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc web, nh ng ngh c "t trong các nhóm th o lu n Usenet, nh v thông tin tin t c hay th c hi n tìm ki m s n ph5m. 2.1.1.2. Yahoo: http://www.yahoo.com/ Hình 2: Giao di&n c a Yahoo a ra n m 1994, Yahoo là “th m!c” c/ nh#t c$a web, m t n i mà các nhà biên t p t. ch c các trang web trong các danh m!c. Tuy nhiên, vào tháng 10 n m 2002, Yahoo chuy n sang l p danh sách d a vào crawler cho nh ng k t qu chính c$a nó. Công c! này s% d!ng công ngh t Google cho n tháng 2 n m 2004. Hi n nay, Yahoo s% d!ng công ngh tìm ki m riêng c$a mình. Yahoo Directory v n t1n t i. B n s* ch& ra các liên k t “danh m!c” phía d m t s các trang web li t kê trong k t qu tr v c$a m t tìm ki m t khoá. Khi 0112274 – Ph m Th M Ph ng - 19 - 0112398 – T Th Ng c Thanh i c
- Xem thêm -