Xây dựng hệ thống tìm kiếm thông tin tiếng Việt

  • Số trang: 118 |
  • Loại file: PDF |
  • Lượt xem: 71 |
  • Lượt tải: 0
uchihasasuke

Đã đăng 588 tài liệu

Mô tả:

Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép IC M N Chúng em xin g i l i c m n chân thành nh t n tình h ng d n, giúp n th y H B o Qu c, ng i ã chúng em trong su t th i gian th c hi n lu n v n này. Chúng con c m n Cha, M và gia ình, nh ng ng i ã d y d , khuy n khích, ng viên chúng con trong nh ng lúc khó kh n, t o m i u ki n cho chúng con nghiên c u h c t p. Chúng em c m n các th y, cô trong khoa Công Ngh Thông Tin ã dìu d t, gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu trong nh ng n m h c qua. m n ch Lê Thúy Ng c và các b n ã t n tình óng góp ý ki n cho lu n v n a chúng tôi. c dù r t c g ng nh ng lu n v n c a chúng em không tránh kh i sai sót, mong nh n c s thông c m và góp ý c a th y cô và các b n. Tháng 7 n m 2005 Sinh viên Nguy n Th Thanh Hà – Nguy n Trung Hi u Nguy n Th Thanh Hà - 0112215 1 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép NH N XÉT C A GIÁO VIÊN H NG D N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………….... …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên Nguy n Th Thanh Hà - 0112215 2 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép NH N XÉT C A GIÁO VIÊN PH N BI N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………….... …………………………………………………………………………………… Ngày…… tháng……n m 2005 Ký tên Nguy n Th Thanh Hà - 0112215 3 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép CL C DANH SÁCH CÁC B NG...................................................................................8 DANH SÁCH CÁC HÌNH V ..............................................................................8 Ph n 1 : TÌM HI U LÝ THUY T ..........................................................................11 Ch ng 1: T NG QUAN V TÌM KI M THÔNG TIN ...................................11 1. Gi i thi u v tìm ki m thông tin ......................................................................11 1.1 Khái ni m v tìm ki m thông tin ................................................................11 1.2 M t s v n trong vi c tìm ki m thông tin: .............................................11 2. H tìm ki m thông tin – IRS ............................................................................12 3. Các thành ph n c a m t h tìm ki m thông tin [1.1] ........................................13 4. So sánh IRS v i các h th ng thông tin khác ...................................................14 4.1 H qu n tr c s d li u (DBMS)..............................................................15 4.2 H qu n lý thông tin (IMS) ........................................................................15 4.3 H h tr ra quy t nh (DSS)....................................................................16 4.4 H tr l i câu h i (QAS) ............................................................................16 4.5 So sánh IRS v i các h th ng thông tin khác..............................................17 Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN ............18 1. Ki n trúc c a h tìm ki m thông tin. [1.3]........................................................18 2. M t s mô hình xây d ng m t h tìm ki m thông tin [1.2]..........................19 2.1 Mô hình không gian vector ........................................................................19 2.2 Tìm ki m Boolean .....................................................................................21 2.3 Tìm ki m Boolean m r ng .......................................................................22 2.4 M r ng trong vi c thêm vào tr ng s c a câu h i .....................................23 2.4.1 M r ng cho s t tu ý ......................................................................23 2.4.2 Thêm toán t t ng ..........................................................................24 2.5 Mô hình xác su t........................................................................................24 2.6 ánh giá chung v các mô hình .................................................................25 3. Các b c xây d ng m t h tìm ki m thông tin. [3.2]...................................25 3.1 Tách t t ng cho t p các tài li u............................................................25 3.2 L p ch m c cho tài li u .............................................................................25 3.3 Tìm ki m ...................................................................................................26 3.4 S p x p các tài li u tr v (Ranking) ..........................................................26 4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m thông tin ti ng Vi t .....................................................................................................................26 4.1 Khó kh n trong vi c tách t ti ng Vi t .......................................................27 4.2 V n b ng mã ti ng Vi t .........................................................................27 Nguy n Th Thanh Hà - 0112215 4 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép 4.3 Các khó kh n khác .....................................................................................27 Ch ng 3: TÁCH T T NG........................................................................29 1. Tách t trong Ti ng Anh .................................................................................29 2. Tách t trong Ti ng Vi t .................................................................................29 2.1 M t s c m chính v t ti ng Vi t [2.2]..............................................29 2.1.1 Ti ng...................................................................................................29 2.1.2 T .......................................................................................................30 2.2 Tách t t ng ti ng Vi t .........................................................................30 3. Các ph ng pháp tách t ti ng Vi t.................................................................30 3.1 fnTBL (Fast Transformation-based learning) [3.1].....................................30 3.1.1 Mô t ...................................................................................................30 3.1.2 Áp d ng tách t ti ng Vi t...................................................................31 3.2 Longest Matching [1.4]..............................................................................37 3.3 K t h p gi a fnTBL và Longest Matching.................................................37 Ch ng 4: L P CH M C ..................................................................................38 1. Khái quát v h th ng l p ch m c...................................................................38 2. Ph ng pháp l p ch m c [1.1] ........................................................................38 2.1 Xác nh các t ch m c.............................................................................38 2.2 Các ph ng pháp tính tr ng s c a t ........................................................40 2.2.1 T n s tài li u ngh ch o....................................................................40 2.2.2 nhi u tín hi u (The Signal – Noise Ratio) ......................................40 2.2.3 Giá tr phân bi t t (The Term Discrimination Value) .........................42 2.3 L p ch m c t ng cho tài li u ti ng Anh................................................43 3. L p ch m c cho tài li u ti ng Vi t ..................................................................45 4. T p tin ngh ch o tài li u ...............................................................................46 4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p ..................................46 4.2 T i sao s d ng t p tin ngh ch o l p ch m c .....................................47 Ph n 2 : PHÂN TÍCH VÀ THI T K ....................................................................49 Ch ng 5: PHÂN TÍCH.......................................................................................49 1. S UseCase h th ng ..................................................................................49 2. S L p........................................................................................................51 2.1 S các l p th hi n................................................................................51 2.2 S các l p x lý ....................................................................................52 3. Tách t ............................................................................................................53 3.1 S UseCase...........................................................................................53 3.2 S Tu n t ............................................................................................53 Nguy n Th Thanh Hà - 0112215 5 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép 3.3 S C ng tác...........................................................................................54 3.4 S L p ..................................................................................................54 4. L p ch m c.....................................................................................................55 4.1 S UseCase...........................................................................................55 4.2 S Tu n t ............................................................................................56 4.2.1 T o m i ch m c .................................................................................56 4.2.2 C p nh t ch m c.................................................................................57 4.3 S C ng tác...........................................................................................58 4.3.1 T o m i ch m c .................................................................................58 4.3.2 C p nh t ch m c.................................................................................59 4.4 S L p ..................................................................................................60 5. Tìm ki m.........................................................................................................61 5.1 S UseCase...........................................................................................61 5.2 S Tu n t ............................................................................................61 5.3 S C ng tác...........................................................................................62 5.4 S L p ..................................................................................................63 Ch ng 6: THI T K VÀ CÀI T ..................................................................64 1. C u trúc l u tr d li u....................................................................................64 1.1 T p tin l u n i dung tài li u .......................................................................64 1.1.1 C u trúc DTD / XSD ...........................................................................64 1.1.2 Tài li u XML ......................................................................................66 1.2 T p tin sau khi tách t tài li u ....................................................................67 1.2.1 C u trúc DTD / XSD ...........................................................................67 1.2.2 Tài li u XML ......................................................................................68 1.3 T p tin ch a các t không th hi n n i dung c a v n b n (stop list) ...........70 1.3.1 C u trúc DTD / XSD ...........................................................................70 1.3.2 Tài li u XML ......................................................................................71 1.4 T p tin ch m c o ( Inverted ). ................................................................71 1.4.1 C u trúc DTD / XSD ...........................................................................71 1.4.2 Tài li u XML ......................................................................................73 1.5 T p tin sau khi tách t câu h i....................................................................74 1.5.1 C u trúc DTD / XSD ...........................................................................74 1.5.2 Tài li u XML ......................................................................................75 1.6 T p tin ch a các t c a câu h i sau khi lo i b các t trong danh sách StopList ...........................................................................................................76 1.6.1 C u trúc DTD / XSD ...........................................................................76 1.6.2 Tài li u XML ......................................................................................77 1.7 T p tin ch a các t trong câu h i và các tài li u liên quan..........................77 1.7.1 C u trúc DTD / XSD ...........................................................................77 Nguy n Th Thanh Hà - 0112215 6 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép 1.7.2 Tài li u XML ......................................................................................79 1.8 T p tin ch a t ng quan gi a câu h i và các tài li u .............................80 1.8.1 C u trúc DTD / XSD ...........................................................................80 1.8.2 Tài li u XML ......................................................................................82 2. Chi ti t các l p i t ng ................................................................................83 2.1 Các l p trong quá trình tách t ...................................................................83 2.1.1 S các l p......................................................................................83 2.1.2 L p tách t ghép..................................................................................83 2.1.3 L p tách t ..........................................................................................86 2.1.4 L p giao di n tách t ...........................................................................89 2.2 Các l p trong quá trình l p ch m c ...........................................................91 2.2.1 S các l p.......................................................................................91 2.2.2 L p l p ch m c...................................................................................92 2.2.3 L p giao di n t o m i ch m c ............................................................94 2.2.4 L p giao di n c p nh t ch m c ...........................................................96 2.3 Các l p trong quá trình tìm ki m................................................................98 2.3.1 S các l p.......................................................................................98 2.3.2 L p tìm ki m.......................................................................................99 2.3.3 L p giao di n tìm ki m ..................................................................... 105 3. M t s màn hình giao di n khác .................................................................... 109 3.1 Màn hình chính c a ch ng trình............................................................. 109 3.2 Màn hình tìm ki m nhi u câu h i............................................................. 110 3.3 Màn hình tìm ki m chính ( giao di n Web) .............................................. 112 3.4 Màn hình tr v các tài li u tìm c ( giao di n Web) ............................ 113 3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web).................................. 114 Ph n 3 : T NG K T..............................................................................................115 1. Ch ng trình th nghi m............................................................................... 115 2. ánh giá k t qu t c ............................................................................. 115 3. H ng phát tri n............................................................................................ 116 TÀI LI U THAM KH O ................................................................................. 117 1. Sách............................................................................................................... 117 2. Lu n v n........................................................................................................ 117 3. Website ......................................................................................................... 117 Nguy n Th Thanh Hà - 0112215 7 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép DANH SÁCH CÁC B NG ng 1-1 So sánh IRS v i các h th ng thông tin khác ..........................................................17 ng 4-1 Cách t p tin ngh ch o l u tr ...............................................................................47 ng 4-2 Cách t p tin tr c ti p l u tr ...................................................................................47 ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o.........................................................48 ng 5-1 Danh sách các Actor...............................................................................................50 ng 5-2 Danh sách các UseCase ..........................................................................................50 DANH SÁCH CÁC HÌNH V Hình 1-1 Môi tr ng c a h tìm ki m thông tin.....................................................................13 Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin..........................................14 Hình 2-1 H tìm ki m thông tin tiêu bi u...............................................................................18 Hình 3-1 Quá trình h c..........................................................................................................35 Hình 3-2 Giai n xác nh t cho tài li u m i.....................................................................36 Hình 4-1 Các t c s p theo th t ....................................................................................39 Hình 4-2 Quá trình ch n t làm ch m c................................................................................45 Hình 5-1 S Use-case c a h th ng...................................................................................49 Hình 5-2 S các l p th hi n.............................................................................................51 Hình 5-3 S các l p x lý .................................................................................................52 Hình 5-4 S Use-case tách t ............................................................................................53 Hình 5-5 S tu n t tách t ...............................................................................................53 Hình 5-6 S c ng tác tách t .............................................................................................54 Hình 5-7 S l p tách t .....................................................................................................54 Hình 5-8 S use-case l p ch m c .....................................................................................55 Hình 5-9 S tu n t t o m i ch m c ................................................................................56 Hình 5-10 S tu n t c p nh t ch m c ............................................................................57 Hình 5-11 S c ng tác t o m i ch m c ............................................................................58 Hình 5-12 S c ng tác c p nh t ch m c ...........................................................................59 Hình 5-13 S l p l p ch m c ...........................................................................................60 Hình 5-14 S use-case tìm ki m .......................................................................................61 Hình 5-15 S tu n t tìm ki m..........................................................................................61 Hình 5-16 S c ng tác tìm ki m .......................................................................................62 Hình 5-17 S l p tìm ki m ...............................................................................................63 Hình 6-1 S l p tách t .....................................................................................................83 Hình 6-2 L p tách t ghép.....................................................................................................83 Nguy n Th Thanh Hà - 0112215 8 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Hình 6-3 L p tách t .............................................................................................................86 Hình 6-4 L p giao di n tách t ..............................................................................................89 Hình 6-5 Màn hình tách t .....................................................................................................89 Hình 6-6 Màn hình chi ti t tách t .........................................................................................90 Hình 6-7 S l p l p ch m c .............................................................................................91 Hình 6-8 L p l p ch m c......................................................................................................92 Hình 6-9 L p giao di n t o m i ch m c................................................................................94 Hình 6-10 Màn hình t o m i ch m c ....................................................................................95 Hình 6-11 L p Màn hình c p nh t ch m c............................................................................96 Hình 6-12 Màn hình c p nh t ch m c ...................................................................................97 Hình 6-13 S l p tìm ki m ...............................................................................................98 Hình 6-14 L p x lý tìm ki m ...............................................................................................99 Hình 6-15 L p giao di n tìm ki m.......................................................................................105 Hình 6-16 Màn hình tìm ki m .............................................................................................106 Hình 6-17 Xem t khóa câu h i...........................................................................................106 Hình 6-18 Xem t khóa tài li u ...........................................................................................107 Hình 6-19 Màn hình chính...................................................................................................109 Hình 6-20 Màn hình tìm ki m nhi u câu h i........................................................................110 Hình 6-21 Giao di n tìm ki m trên Web ..............................................................................112 Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m ......................................................113 Hình 6-23 Giao di n chi ti t n i dung c a tài li u ................................................................114 Nguy n Th Thanh Hà - 0112215 9 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép U Trong th i i bùng n thông tin nh hi n nay, thông tin c l u tr trên máy tính ngày càng nhi u do ó vi c tìm ki m thông tin chính xác là nhu c u thi t y u i m i ng i i trong m i l nh v c. Internet hi n nay ã tr thành m t kho t li u kh ng mà vi c tìm ki m thông tin trên kho t li u này c n ph i c h tr b i các công c tìm ki m (search engine) t t. Các h th ng tìm ki m thông tin thông d ng nh Google, Yahoo Search ã áp ng th ng này c xây d ng c ph n nào nhu c u ó c a m i ng i. Tuy nhiên, các h x lý và tìm ki m các v n b n ti ng Châu Âu, chúng ch a th t s phù h p cho các v n b n ti ng Vi t. Do ó nhu c u ph i có m t công c tìm ki m “hi u” và x lý t t các v n b n tí ng Vi t. Các h tìm ki m thông tin cho v n b n n. Giai ngôn ng u ph i th c hi n giai n l p ch m c (indexing) trích các t ch m c (index term) bi u di n t t nh t n i dung c a v n n này ph thu c vào ngôn ng c a v n b n và ph ng pháp x lý t ng ó. Hi n nay ch a có nhi u h th ng tìm ki m thông tin trên kho tài li u ti ng Vi t có khai thác các c tr ng c a ti ng Vi t cho vi c l p ch m c. Vì v y m c tiêu c a lu n v n này nh m xây d ng m t h th ng tìm ki m thông tin b ng ti ng Vi t có s d ng các k t qu c a x lý ngôn ng t nhiên t nh ng xác c các ch m c là các t (word) hay t ghép (compound word) c a ti ng Vi t. Nguy n Th Thanh Hà - 0112215 10 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Ph n 1 : TÌM HI U LÝ THUY T Ch ng 1: NG QUAN V TÌM KI M THÔNG TIN 1. Gi i thi u v tìm ki m thông tin 1.1 Khái ni m v tìm ki m thông tin Tìm ki m thông tin là tìm ki m trong m t t p tài li u ng l y ra các thông tin mà i tìm ki m quan tâm. 1.2 ts v n trong vi c tìm ki m thông tin: t nh ng n m 40, các v n trong vi c l u tr thông tin và tìm ki m thông tin ã thu hút s chú ý r t l n. V i m t l ng thông tin kh ng l thì vi c tìm ki m chính xác và nhanh chóng càng tr nên khó kh n h n. V i s ra nhi u ý t ng l n c chính xác. Tuy nhiên, v n i c a máy tính, r t a ra nh m cung c p m t h th ng tìm ki m thông minh và tìm ki m sao cho hi u qu v n ch a c gi i quy t. nguyên t c, vi c l u tr thông tin và tìm ki m thông tin thì có m t kho ch a các tài li u và m t ng a mình. Ng và b i ó có th n gi n. Gi s i mu n tìm các tài li u liên quan n yêu c u c t t c các tài li u trong kho, gi l i các tài li u liên quan i các tài li u không liên quan. Rõ ràng gi i pháp này không th c t b i vì t n r t nhi u th i gian. Nguy n Th Thanh Hà - 0112215 11 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép i s ra ng i i c a máy vi tính t c cao, máy tính có th “ c” thay cho con trích ra các tài li u có liên quan trong toàn b t p d li u. Tuy nhiên v n lúc này là làm sao xác nh c tài li u nào liên quan t h th ng tìm ki m thông tin t ng là truy l c n câu h i. M c ích c a c t t c các tài li u có liên quan n yêu c u. 2. tìm ki m thông tin – IRS Sau ây là nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi : [2.1] Salton (1989): “H th ng tìm ki m thông tin x lý các t p tin l u tr và nh ng yêu c u v thông tin, xác nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u v thông tin. Vi c truy tìm nh ng thông tin thông tin c l u tr và các yêu c u, các thu c tính i v i thông tin c thù ph thu c vào s t ng t gi a các c ánh giá b ng cách so sánh các giá tr c a c l u tr và các yêu c u v thông tin.” Kowalski (1997) : “H th ng truy tìm thông tin là m t h th ng có kh n ng l u tr , truy tìm và duy trì thông tin. Thông tin trong nh ng tr nh, âm thanh, video và nh ng Hi u n gi n it ng h p này có th bao g m v n b n, hình ng a ph ng ti n khác.” th ng tìm ki m thông tin là m t h th ng h tr cho ng d ng tìm ki m thông tin m t cách nhanh chóng và d dàng. Ng th i i s d ng có a vào nh ng câu h i, nh ng yêu c u (d ng ngôn ng t nhiên) và h th ng s tìm ki m trong t p các tài li u (d ng ngôn ng t nhiên) ã Nguy n Th Thanh Hà - 0112215 12 c l u tr tìm ra nh ng Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép tài li u có liên quan, sau ó s s p x p các tài li u theo m c tr v cho ng liên quan gi m d n và i s d ng. 3. Các thành ph n c a m t h tìm ki m thông tin [1.1] m: t p các tài li u (DOCS) ã (REQS) c a ng xác i dùng, và m t s ph c l u tr trong kho d li u, t p các yêu c u ng pháp tính t ng quan (SIMILAR) nh các tài li u áp ng cho các yêu c u. Hình 1-1 Môi tr ng c a h tìm ki m thông tin Theo lý thuy t thì m i liên h gi a các câu h i và các tài li u có th so sánh m t cách tr c ti p. Nh ng trên th c t thì tài li u u d ng v n b n, ch có con ng gi a chúng, nh ng ng i u này không th c vào thì th y ngay c m i liên h ây ch là m t h th ng máy móc không th suy lu n nh con c. Chính vì th li u ph i qua m t b i c vì các câu h i và các t p xác nh c m i liên h gi a các câu h i và các t p tài c trung gian. Nguy n Th Thanh Hà - 0112215 13 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin Tr c h t chuy n i các câu h i thành các t riêng bi t bi u hi n cho n i dung c a câu h i g i là ngôn ng ch m c (Indexing language - LANG). Tách t trong các t p tài li u và l p ch m c cho tài li u. Lúc này có th so sánh tr c ti p gi a các t a câu h i và các t ch m c c a t p tài li u. Và t t ó ta s d dàng h n xác nh ng quan gi a các câu h i và t p tài li u. 4. So sánh IRS v i các h th ng thông tin khác th ng tìm ki m thông tin c ng t ng t nh nhi u h th ng x lý thông tin khác. Hi n nay các h th ng thông tin quan tr ng nh t là: h qu n tr c s d li u (DBMS), h qu n lý thông tin (MIS), h h tr ra quy t nh (DSS), h tr l i câu h i (QAS) và h tìm ki m thông tin (IR). Nguy n Th Thanh Hà - 0112215 14 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép 4.1 qu n tr c s d li u (DBMS) t c h th ng thông tin t tr (g i là ng nào c ng d a trên m t t p các m c cl u s d li u) c n thi t cho vi c truy c p. Do ó h qu n tr c s d li u n gi n là m t h th ng c thi t k nh m thao tác và duy trì u khi n c s d li u. DBMS t ch c l u tr các d li u c a mình d li u i d ng các b ng. M i m t c s c l u tr thành nhi u b ng khác nhau. M i m t c t trong b ng là m t thu c tính, và m i m t dòng là m t b d li u c th . Trong m i m t b ng có m t thu c tính duy nh t i di n cho b ng, nó không c trùng l p và ta g i ó là khoá chính. Các ng có m i liên h v i nhau thông qua các khoá ngo i. DBMS có m t t p các l nh tr cho ng i s d ng truy v n n d li u c a mình. Vì v y mu n truy v n CSDL trong DBMS ta ph i h c h t các t p l nh này. Nh ng ng cho ta các d li u y n c l i nó s cung c p và hoàn toàn chính xác. Hi n nay DBMS c s d ng r ng rãi trên th gi i. M t s DBMS thông d ng : Access, SQL Server, Oracle. 4.2 qu n lý thông tin (IMS) qu n lý thông tin là h qu n tr c s d li u nh ng có thêm nhi u ch c nh ng v vi c qu n lý. Nh ng ch c n ng qu n lý này ph thu c vào giá tr c a nhi u ki u d li u khác nhau. Nói chung b t k h th ng nào có m c ích c bi t ph c v cho vi c qu n lý thì ta g i nó là h qu n lý thông tin. Nguy n Th Thanh Hà - 0112215 15 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép 4.3 h tr ra quy t h tr ra quy t nh (DSS) nh s d a vào các t p lu t rút ra nh ng lu t m i, sau khi g p m t v n ra nh ng quy t nh thay cho con ng th ng này ang c h c, t nh ng lu t ã h c nó s c n c vào vào t p các lu t a i. c áp d ng nhi u cho công vi c nh n d ng và chu n óan nh. 4.4 tr l i câu h i (QAS) tr l i câu h i cung c p vi c truy c p nhiên. Vi c l u tr c s d li u th quan th n các thông tin b ng ngôn ng t ng bao g m m t s l ng l n các v n n các l nh v c riêng bi t và các ki n th c t ng quát. Câu h i c a ng liên i dùng có d ng ngôn ng t nhiên. Công vi c c a h tr l i câu h i là phân tích câu truy n c a ng quan l i i dùng, so sánh v i các tri th c c l u tr , và t p h p các v n có liên a ra câu tr l i thích h p. Tuy nhiên, h tr l i câu h i ch còn ang th nghi m. Vi c xác a ngôn ng t nhiên d ng nh v n là ch ng ng i l n nh ý ngh a có th s d ng r ng rãi h th ng này. Nguy n Th Thanh Hà - 0112215 16 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép 4.5 So sánh IRS v i các h th ng thông tin khác IRS i dung Tìm ki m trong các tài li u. DBMS QAS MIS Các ph n t Các s ki n có ki u d li u ã c rõ ràng. nh ngh a. Gi ng DBMS nh ng h tr Các v n b n u tr ngôn ng t nhiên. Các ph n t li u ng b ng. Các s ki n thêm nh ng rõ ràng và các th t c( Tính ki n th c ng quát. ng, tính trung bình, phép chi u…) lý Các câu truy Các câu truy Các câu truy n không n có c u n không chính xác. gi i h n. trúc. ng 1-1 So sánh IRS v i các h th ng thông tin khác Nguy n Th Thanh Hà - 0112215 17 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN 1. Ki n trúc c a h tìm ki m thông tin. [1.3] t h th ng thông tin tiêu bi u nh sau: Hình 2-1 H tìm ki m thông tin tiêu bi u th ng tìm ki m thông tin g m có 3 b ph n chính : b ph n phân tích v n n, b ph n l p ch m c, b ph n so kh p và s p x p các tài li u tr v . Nguy n Th Thanh Hà - 0112215 18 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép (1) ph n phân tích v n b n: b ph n này có nhi m v phân tích các v n n thu th p c thành các t riêng bi t. T thì câu truy v n c ng (2) i dùng nh p câu truy v n c phân tích thành các t riêng bi t. ph n l p ch m c : các t trích c b ph n này l a ch n hi n ng t , khi ng c t các v n b n thu th p cs làm các t ch m c. Các t ch m c ph i là các t th c n i dung c a v n b n. (3) ph n so kh p và s p x p các tài li u tr v : Các t trích truy v n và các t ch m c c a v n b n s liên quan này s n câu truy v n. M i tài li u có m t c s p x p theo 2. c so kh p v i nhau t s mô hình t t c t câu tìm ra các tài li u ng quan v i câu h i. Các tài li u ng quan gi m d n và tr v cho ng i s d ng. xây d ng m t h tìm ki m thông tin [1.2] c tiêu c a các h th ng tìm ki m thông tin là tr v các tài li u càng liên quan n câu h i càng t t. Vì th ng tính toán m t cách chính xác t i ta ã a ra r t nhi u mô hình tìm ki m nh m ng quan này. Sau ây là m t s mô hình tìm ki m b n: 2.1 Mô hình không gian vector Mô hình không gian vector tính toán cách t ng quan gi a câu h i và tài li u b ng nh ngh a m t vector bi u di n cho m i tài li u, và m t vector bi u di n cho câu i [ Salton, 1875]. Mô hình d a trên ý t thu c vào các t c tính toán ng chính là ý ngh a c a m t tài li u thì ph c s d ng bên trong nó. Vector tài li u và vector câu h i sau ó s xác nh tài li u ó càng liên quan t ng quan gi a chúng. t ng quan càng l n ch ng n câu h i. Nguy n Th Thanh Hà - 0112215 19 Nguy n Trung Hi u - 0112216 Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép Gi s m t t p tài li u ch g m có hai t là t1 và t2. Vector xây d ng cs m có 2 thành ph n: thành ph n th nh t bi u di n s xu t hi n c a t1, và thành ph n th hai bi u di n cho s xu t hi n c a t2. Cách ánh 1 vào thành ph n t ng ng n u t n gi n nh t xây d ng vector là ó xu t hi n, và ánh 0 n u t ó không xu t hi n. Gi s tài li u ch g m có 2 t t1. Ta bi u di n cho tài li u này b i vector nh phân nh sau: <1,0> Tuy nhiên, bi u di n nh v y không cho th y hi n c a m i t trong tài li u. Trong tr ng h p này, vector nên c t n s xu t c bi u di n nh sau: <2,0> i v i m t câu h i ã cho, thay vì ch c n c so sánh các t trong tài li u v i p các t trong câu h i, ta nên xem xét n t m quan tr ng c a m i t . Ý t ng chính là m t t xu t hi n t p trung trong m t s tài li u thì có tr ng s cao h n so v i m t t phân b trong nhi u tài li u. Tr ng s c tính d a trên t n s tài li u ngh ch (Inverse Document Frequency) liên quan n các t o c cho: n: s t phân bi t trong t p tài li u tfij : s l n xu t hi n c a t tj trong tài li u Di (t n s ) dfj : s tài li u có ch a t tj idfj = log10 d trong ó d là t ng s tài li u df j Vector c xây d ng cho m i tài li u g m có n thành ph n, m i thành ph n là giá tr tr ng s ã c gán tr ng s t c tính toán cho m i t trong t p tài li u. Các t trong tài li u ng d a vào t n s xu t hi n c a chúng trong t p tài li u và s xu t hi n c a m i t trong m t tài li u riêng bi t. Tr ng s c a m t t t ng n u t xu t hi n th ng xuyên trong m t tài li u và gi m n u t Nguy n Th Thanh Hà - 0112215 20 ó xu t hi n th ó ng xuyên Nguy n Trung Hi u - 0112216
- Xem thêm -