Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
IC M
N
Chúng em xin g i l i c m n chân thành nh t
n tình h
ng d n, giúp
n th y H B o Qu c, ng
i ã
chúng em trong su t th i gian th c hi n lu n v n này.
Chúng con c m n Cha, M và gia ình, nh ng ng
i ã d y d , khuy n khích,
ng viên chúng con trong nh ng lúc khó kh n, t o m i
u ki n cho chúng con
nghiên c u h c t p.
Chúng em c m n các th y, cô trong khoa Công Ngh Thông Tin ã dìu d t,
gi ng d y chúng em, giúp chúng em có nh ng ki n th c quý báu trong nh ng n m h c
qua.
m n ch Lê Thúy Ng c và các b n ã t n tình óng góp ý ki n cho lu n v n
a chúng tôi.
c dù r t c g ng nh ng lu n v n c a chúng em không tránh kh i sai sót,
mong nh n
c s thông c m và góp ý c a th y cô và các b n.
Tháng 7 n m 2005
Sinh viên
Nguy n Th Thanh Hà – Nguy n Trung Hi u
Nguy n Th Thanh Hà - 0112215
1
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
NH N XÉT C A GIÁO VIÊN H
NG D N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……n m 2005
Ký tên
Nguy n Th Thanh Hà - 0112215
2
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
NH N XÉT C A GIÁO VIÊN PH N BI N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……n m 2005
Ký tên
Nguy n Th Thanh Hà - 0112215
3
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
CL C
DANH SÁCH CÁC B NG...................................................................................8
DANH SÁCH CÁC HÌNH V ..............................................................................8
Ph n 1 : TÌM HI U LÝ THUY T ..........................................................................11
Ch ng 1: T NG QUAN V TÌM KI M THÔNG TIN ...................................11
1. Gi i thi u v tìm ki m thông tin ......................................................................11
1.1 Khái ni m v tìm ki m thông tin ................................................................11
1.2 M t s v n trong vi c tìm ki m thông tin: .............................................11
2. H tìm ki m thông tin – IRS ............................................................................12
3. Các thành ph n c a m t h tìm ki m thông tin [1.1] ........................................13
4. So sánh IRS v i các h th ng thông tin khác ...................................................14
4.1 H qu n tr c s d li u (DBMS)..............................................................15
4.2 H qu n lý thông tin (IMS) ........................................................................15
4.3 H h tr ra quy t nh (DSS)....................................................................16
4.4 H tr l i câu h i (QAS) ............................................................................16
4.5 So sánh IRS v i các h th ng thông tin khác..............................................17
Ch ng 2: XÂY D NG M T H TH NG TÌM KI M THÔNG TIN ............18
1. Ki n trúc c a h tìm ki m thông tin. [1.3]........................................................18
2. M t s mô hình xây d ng m t h tìm ki m thông tin [1.2]..........................19
2.1 Mô hình không gian vector ........................................................................19
2.2 Tìm ki m Boolean .....................................................................................21
2.3 Tìm ki m Boolean m r ng .......................................................................22
2.4 M r ng trong vi c thêm vào tr ng s c a câu h i .....................................23
2.4.1 M r ng cho s t tu ý ......................................................................23
2.4.2 Thêm toán t t
ng ..........................................................................24
2.5 Mô hình xác su t........................................................................................24
2.6 ánh giá chung v các mô hình .................................................................25
3. Các b c xây d ng m t h tìm ki m thông tin. [3.2]...................................25
3.1 Tách t t
ng cho t p các tài li u............................................................25
3.2 L p ch m c cho tài li u .............................................................................25
3.3 Tìm ki m ...................................................................................................26
3.4 S p x p các tài li u tr v (Ranking) ..........................................................26
4. Nh ng khó kh n trong vi c xây d ng m t h th ng tìm ki m thông tin ti ng
Vi t .....................................................................................................................26
4.1 Khó kh n trong vi c tách t ti ng Vi t .......................................................27
4.2 V n b ng mã ti ng Vi t .........................................................................27
Nguy n Th Thanh Hà - 0112215
4
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
4.3 Các khó kh n khác .....................................................................................27
Ch ng 3: TÁCH T T
NG........................................................................29
1. Tách t trong Ti ng Anh .................................................................................29
2. Tách t trong Ti ng Vi t .................................................................................29
2.1 M t s
c m chính v t ti ng Vi t [2.2]..............................................29
2.1.1 Ti ng...................................................................................................29
2.1.2 T .......................................................................................................30
2.2 Tách t t
ng ti ng Vi t .........................................................................30
3. Các ph ng pháp tách t ti ng Vi t.................................................................30
3.1 fnTBL (Fast Transformation-based learning) [3.1].....................................30
3.1.1 Mô t ...................................................................................................30
3.1.2 Áp d ng tách t ti ng Vi t...................................................................31
3.2 Longest Matching [1.4]..............................................................................37
3.3 K t h p gi a fnTBL và Longest Matching.................................................37
Ch ng 4: L P CH M C ..................................................................................38
1. Khái quát v h th ng l p ch m c...................................................................38
2. Ph ng pháp l p ch m c [1.1] ........................................................................38
2.1 Xác nh các t ch m c.............................................................................38
2.2 Các ph ng pháp tính tr ng s c a t ........................................................40
2.2.1 T n s tài li u ngh ch o....................................................................40
2.2.2
nhi u tín hi u (The Signal – Noise Ratio) ......................................40
2.2.3 Giá tr phân bi t t (The Term Discrimination Value) .........................42
2.3 L p ch m c t
ng cho tài li u ti ng Anh................................................43
3. L p ch m c cho tài li u ti ng Vi t ..................................................................45
4. T p tin ngh ch o tài li u ...............................................................................46
4.1 Phân bi t gi a t p tin ngh ch o và t p tin tr c ti p ..................................46
4.2 T i sao s d ng t p tin ngh ch o l p ch m c .....................................47
Ph n 2 : PHÂN TÍCH VÀ THI T K ....................................................................49
Ch ng 5: PHÂN TÍCH.......................................................................................49
1. S
UseCase h th ng ..................................................................................49
2. S
L p........................................................................................................51
2.1 S
các l p th hi n................................................................................51
2.2 S
các l p x lý ....................................................................................52
3. Tách t ............................................................................................................53
3.1 S
UseCase...........................................................................................53
3.2 S
Tu n t ............................................................................................53
Nguy n Th Thanh Hà - 0112215
5
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
3.3 S
C ng tác...........................................................................................54
3.4 S
L p ..................................................................................................54
4. L p ch m c.....................................................................................................55
4.1 S
UseCase...........................................................................................55
4.2 S
Tu n t ............................................................................................56
4.2.1 T o m i ch m c .................................................................................56
4.2.2 C p nh t ch m c.................................................................................57
4.3 S
C ng tác...........................................................................................58
4.3.1 T o m i ch m c .................................................................................58
4.3.2 C p nh t ch m c.................................................................................59
4.4 S
L p ..................................................................................................60
5. Tìm ki m.........................................................................................................61
5.1 S
UseCase...........................................................................................61
5.2 S
Tu n t ............................................................................................61
5.3 S
C ng tác...........................................................................................62
5.4 S
L p ..................................................................................................63
Ch ng 6: THI T K VÀ CÀI
T ..................................................................64
1. C u trúc l u tr d li u....................................................................................64
1.1 T p tin l u n i dung tài li u .......................................................................64
1.1.1 C u trúc DTD / XSD ...........................................................................64
1.1.2 Tài li u XML ......................................................................................66
1.2 T p tin sau khi tách t tài li u ....................................................................67
1.2.1 C u trúc DTD / XSD ...........................................................................67
1.2.2 Tài li u XML ......................................................................................68
1.3 T p tin ch a các t không th hi n n i dung c a v n b n (stop list) ...........70
1.3.1 C u trúc DTD / XSD ...........................................................................70
1.3.2 Tài li u XML ......................................................................................71
1.4 T p tin ch m c o ( Inverted ). ................................................................71
1.4.1 C u trúc DTD / XSD ...........................................................................71
1.4.2 Tài li u XML ......................................................................................73
1.5 T p tin sau khi tách t câu h i....................................................................74
1.5.1 C u trúc DTD / XSD ...........................................................................74
1.5.2 Tài li u XML ......................................................................................75
1.6 T p tin ch a các t c a câu h i sau khi lo i b các t trong danh sách
StopList ...........................................................................................................76
1.6.1 C u trúc DTD / XSD ...........................................................................76
1.6.2 Tài li u XML ......................................................................................77
1.7 T p tin ch a các t trong câu h i và các tài li u liên quan..........................77
1.7.1 C u trúc DTD / XSD ...........................................................................77
Nguy n Th Thanh Hà - 0112215
6
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
1.7.2 Tài li u XML ......................................................................................79
1.8 T p tin ch a
t ng quan gi a câu h i và các tài li u .............................80
1.8.1 C u trúc DTD / XSD ...........................................................................80
1.8.2 Tài li u XML ......................................................................................82
2. Chi ti t các l p i t ng ................................................................................83
2.1 Các l p trong quá trình tách t ...................................................................83
2.1.1 S
các l p......................................................................................83
2.1.2 L p tách t ghép..................................................................................83
2.1.3 L p tách t ..........................................................................................86
2.1.4 L p giao di n tách t ...........................................................................89
2.2 Các l p trong quá trình l p ch m c ...........................................................91
2.2.1 S
các l p.......................................................................................91
2.2.2 L p l p ch m c...................................................................................92
2.2.3 L p giao di n t o m i ch m c ............................................................94
2.2.4 L p giao di n c p nh t ch m c ...........................................................96
2.3 Các l p trong quá trình tìm ki m................................................................98
2.3.1 S
các l p.......................................................................................98
2.3.2 L p tìm ki m.......................................................................................99
2.3.3 L p giao di n tìm ki m ..................................................................... 105
3. M t s màn hình giao di n khác .................................................................... 109
3.1 Màn hình chính c a ch ng trình............................................................. 109
3.2 Màn hình tìm ki m nhi u câu h i............................................................. 110
3.3 Màn hình tìm ki m chính ( giao di n Web) .............................................. 112
3.4 Màn hình tr v các tài li u tìm
c ( giao di n Web) ............................ 113
3.5 Màn hình chi ti t c a m t tài li u ( giao di n Web).................................. 114
Ph n 3 : T NG K T..............................................................................................115
1. Ch ng trình th nghi m............................................................................... 115
2. ánh giá k t qu
t
c ............................................................................. 115
3. H ng phát tri n............................................................................................ 116
TÀI LI U THAM KH O ................................................................................. 117
1. Sách............................................................................................................... 117
2. Lu n v n........................................................................................................ 117
3. Website ......................................................................................................... 117
Nguy n Th Thanh Hà - 0112215
7
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
DANH SÁCH CÁC B NG
ng 1-1 So sánh IRS v i các h th ng thông tin khác ..........................................................17
ng 4-1 Cách t p tin ngh ch o l u tr ...............................................................................47
ng 4-2 Cách t p tin tr c ti p l u tr ...................................................................................47
ng 4-3 Thêm m t tài li u m i vào t p tin ngh ch o.........................................................48
ng 5-1 Danh sách các Actor...............................................................................................50
ng 5-2 Danh sách các UseCase ..........................................................................................50
DANH SÁCH CÁC HÌNH V
Hình 1-1 Môi tr ng c a h tìm ki m thông tin.....................................................................13
Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin..........................................14
Hình 2-1 H tìm ki m thông tin tiêu bi u...............................................................................18
Hình 3-1 Quá trình h c..........................................................................................................35
Hình 3-2 Giai
n xác nh t cho tài li u m i.....................................................................36
Hình 4-1 Các t
c s p theo th t ....................................................................................39
Hình 4-2 Quá trình ch n t làm ch m c................................................................................45
Hình 5-1 S
Use-case c a h th ng...................................................................................49
Hình 5-2 S
các l p th hi n.............................................................................................51
Hình 5-3 S
các l p x lý .................................................................................................52
Hình 5-4 S
Use-case tách t ............................................................................................53
Hình 5-5 S
tu n t tách t ...............................................................................................53
Hình 5-6 S
c ng tác tách t .............................................................................................54
Hình 5-7 S
l p tách t .....................................................................................................54
Hình 5-8 S
use-case l p ch m c .....................................................................................55
Hình 5-9 S
tu n t t o m i ch m c ................................................................................56
Hình 5-10 S
tu n t c p nh t ch m c ............................................................................57
Hình 5-11 S
c ng tác t o m i ch m c ............................................................................58
Hình 5-12 S
c ng tác c p nh t ch m c ...........................................................................59
Hình 5-13 S
l p l p ch m c ...........................................................................................60
Hình 5-14 S
use-case tìm ki m .......................................................................................61
Hình 5-15 S
tu n t tìm ki m..........................................................................................61
Hình 5-16 S
c ng tác tìm ki m .......................................................................................62
Hình 5-17 S
l p tìm ki m ...............................................................................................63
Hình 6-1 S
l p tách t .....................................................................................................83
Hình 6-2 L p tách t ghép.....................................................................................................83
Nguy n Th Thanh Hà - 0112215
8
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Hình 6-3 L p tách t .............................................................................................................86
Hình 6-4 L p giao di n tách t ..............................................................................................89
Hình 6-5 Màn hình tách t .....................................................................................................89
Hình 6-6 Màn hình chi ti t tách t .........................................................................................90
Hình 6-7 S
l p l p ch m c .............................................................................................91
Hình 6-8 L p l p ch m c......................................................................................................92
Hình 6-9 L p giao di n t o m i ch m c................................................................................94
Hình 6-10 Màn hình t o m i ch m c ....................................................................................95
Hình 6-11 L p Màn hình c p nh t ch m c............................................................................96
Hình 6-12 Màn hình c p nh t ch m c ...................................................................................97
Hình 6-13 S
l p tìm ki m ...............................................................................................98
Hình 6-14 L p x lý tìm ki m ...............................................................................................99
Hình 6-15 L p giao di n tìm ki m.......................................................................................105
Hình 6-16 Màn hình tìm ki m .............................................................................................106
Hình 6-17 Xem t khóa câu h i...........................................................................................106
Hình 6-18 Xem t khóa tài li u ...........................................................................................107
Hình 6-19 Màn hình chính...................................................................................................109
Hình 6-20 Màn hình tìm ki m nhi u câu h i........................................................................110
Hình 6-21 Giao di n tìm ki m trên Web ..............................................................................112
Hình 6-22 Giao di n các tài li u tr v sau khi tìm ki m ......................................................113
Hình 6-23 Giao di n chi ti t n i dung c a tài li u ................................................................114
Nguy n Th Thanh Hà - 0112215
9
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
U
Trong th i
i bùng n thông tin nh hi n nay, thông tin
c l u tr trên máy
tính ngày càng nhi u do ó vi c tìm ki m thông tin chính xác là nhu c u thi t y u
i m i ng
i
i trong m i l nh v c. Internet hi n nay ã tr thành m t kho t li u kh ng
mà vi c tìm ki m thông tin trên kho t li u này c n ph i
c h tr b i các công c
tìm ki m (search engine) t t. Các h th ng tìm ki m thông tin thông d ng nh Google,
Yahoo Search ã áp ng
th ng này
c xây d ng
c ph n nào nhu c u ó c a m i ng
i. Tuy nhiên, các h
x lý và tìm ki m các v n b n ti ng Châu Âu, chúng ch a
th t s phù h p cho các v n b n ti ng Vi t. Do ó nhu c u ph i có m t công c tìm
ki m “hi u” và x lý t t các v n b n tí ng Vi t.
Các h tìm ki m thông tin
cho v n b n
n. Giai
ngôn ng
u ph i th c hi n giai
n l p ch m c (indexing)
trích các t ch m c (index term) bi u di n t t nh t n i dung c a v n
n này ph thu c vào ngôn ng c a v n b n và ph
ng pháp x lý t
ng
ó. Hi n nay ch a có nhi u h th ng tìm ki m thông tin trên kho tài li u
ti ng Vi t có khai thác các
c tr ng c a ti ng Vi t cho vi c l p ch m c.
Vì v y m c tiêu c a lu n v n này nh m xây d ng m t h th ng tìm ki m thông
tin b ng ti ng Vi t có s d ng các k t qu c a x lý ngôn ng t nhiên t
nh
ng
xác
c các ch m c là các t (word) hay t ghép (compound word) c a ti ng Vi t.
Nguy n Th Thanh Hà - 0112215
10
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Ph n 1 : TÌM HI U LÝ THUY T
Ch
ng 1:
NG QUAN V TÌM KI M THÔNG TIN
1. Gi i thi u v tìm ki m thông tin
1.1 Khái ni m v tìm ki m thông tin
Tìm ki m thông tin là tìm ki m trong m t t p tài li u
ng
l y ra các thông tin mà
i tìm ki m quan tâm.
1.2
ts v n
trong vi c tìm ki m thông tin:
t nh ng n m 40, các v n
trong vi c l u tr thông tin và tìm ki m thông
tin ã thu hút s chú ý r t l n. V i m t l
ng thông tin kh ng l thì vi c tìm ki m
chính xác và nhanh chóng càng tr nên khó kh n h n. V i s ra
nhi u ý t
ng l n
c
chính xác. Tuy nhiên, v n
i c a máy tính, r t
a ra nh m cung c p m t h th ng tìm ki m thông minh và
tìm ki m sao cho hi u qu v n ch a
c gi i quy t.
nguyên t c, vi c l u tr thông tin và tìm ki m thông tin thì
có m t kho ch a các tài li u và m t ng
a mình. Ng
và b
i ó có th
n gi n. Gi s
i mu n tìm các tài li u liên quan
n yêu c u
c t t c các tài li u trong kho, gi l i các tài li u liên quan
i các tài li u không liên quan. Rõ ràng gi i pháp này không th c t b i vì t n r t
nhi u th i gian.
Nguy n Th Thanh Hà - 0112215
11
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
i s ra
ng
i
i c a máy vi tính t c
cao, máy tính có th “ c” thay cho con
trích ra các tài li u có liên quan trong toàn b t p d li u. Tuy nhiên v n
lúc này là làm sao
xác
nh
c tài li u nào liên quan
t h th ng tìm ki m thông tin t
ng là truy l c
n câu h i. M c ích c a
c t t c các tài li u có liên quan
n yêu c u.
2.
tìm ki m thông tin – IRS
Sau ây là
nh ngh a v h th ng tìm ki m thông tin c a m t s tác gi : [2.1]
Salton (1989):
“H th ng tìm ki m thông tin x lý các t p tin l u tr và nh ng yêu c u v
thông tin, xác
nh và tìm t các t p tin nh ng thông tin phù h p v i nh ng yêu c u v
thông tin. Vi c truy tìm nh ng thông tin
thông tin
c l u tr và các yêu c u,
các thu c tính
i v i thông tin
c thù ph thu c vào s t
ng t gi a các
c ánh giá b ng cách so sánh các giá tr c a
c l u tr và các yêu c u v thông tin.”
Kowalski (1997) :
“H th ng truy tìm thông tin là m t h th ng có kh n ng l u tr , truy tìm và
duy trì thông tin. Thông tin trong nh ng tr
nh, âm thanh, video và nh ng
Hi u
n gi n
it
ng h p này có th bao g m v n b n, hình
ng a ph
ng ti n khác.”
th ng tìm ki m thông tin là m t h th ng h tr cho ng
d ng tìm ki m thông tin m t cách nhanh chóng và d dàng. Ng
th
i
i s d ng có
a vào nh ng câu h i, nh ng yêu c u (d ng ngôn ng t nhiên) và h th ng s tìm
ki m trong t p các tài li u (d ng ngôn ng t nhiên) ã
Nguy n Th Thanh Hà - 0112215
12
c l u tr
tìm ra nh ng
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
tài li u có liên quan, sau ó s s p x p các tài li u theo m c
tr v cho ng
liên quan gi m d n và
i s d ng.
3. Các thành ph n c a m t h tìm ki m thông tin [1.1]
m: t p các tài li u (DOCS) ã
(REQS) c a ng
xác
i dùng, và m t s ph
c l u tr trong kho d li u, t p các yêu c u
ng pháp tính
t
ng quan (SIMILAR)
nh các tài li u áp ng cho các yêu c u.
Hình 1-1 Môi tr
ng c a h tìm ki m thông tin
Theo lý thuy t thì m i liên h gi a các câu h i và các tài li u có th so sánh m t
cách tr c ti p. Nh ng trên th c t thì
tài li u
u
d ng v n b n, ch có con ng
gi a chúng, nh ng
ng
i
u này không th
c vào thì th y ngay
c m i liên h
ây ch là m t h th ng máy móc không th suy lu n nh con
c. Chính vì th
li u ph i qua m t b
i
c vì các câu h i và các t p
xác
nh
c m i liên h gi a các câu h i và các t p tài
c trung gian.
Nguy n Th Thanh Hà - 0112215
13
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Hình 1-2 T ng quan v ch c n ng c a m t h tìm ki m thông tin
Tr
c h t chuy n
i các câu h i thành các t riêng bi t
bi u hi n cho n i
dung c a câu h i g i là ngôn ng ch m c (Indexing language - LANG). Tách t trong
các t p tài li u và l p ch m c cho tài li u. Lúc này có th so sánh tr c ti p gi a các t
a câu h i và các t ch m c c a t p tài li u. Và t
t
ó ta s d dàng h n
xác
nh
ng quan gi a các câu h i và t p tài li u.
4. So sánh IRS v i các h th ng thông tin khác
th ng tìm ki m thông tin c ng t
ng t nh nhi u h th ng x lý thông tin
khác. Hi n nay các h th ng thông tin quan tr ng nh t là: h qu n tr c s d li u
(DBMS), h qu n lý thông tin (MIS), h h tr ra quy t
nh (DSS), h tr l i câu h i
(QAS) và h tìm ki m thông tin (IR).
Nguy n Th Thanh Hà - 0112215
14
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
4.1
qu n tr c s d li u (DBMS)
t c h th ng thông tin t
tr (g i là
ng nào c ng d a trên m t t p các m c
cl u
s d li u) c n thi t cho vi c truy c p. Do ó h qu n tr c s d li u
n gi n là m t h th ng
c thi t k nh m thao tác và duy trì
u khi n c s d
li u.
DBMS t ch c l u tr các d li u c a mình d
li u
i d ng các b ng. M i m t c s
c l u tr thành nhi u b ng khác nhau. M i m t c t trong b ng là m t thu c
tính, và m i m t dòng là m t b d li u c th . Trong m i m t b ng có m t thu c tính
duy nh t
i di n cho b ng, nó không
c trùng l p và ta g i ó là khoá chính. Các
ng có m i liên h v i nhau thông qua các khoá ngo i. DBMS có m t t p các l nh
tr cho ng
i s d ng truy v n
n d li u c a mình. Vì v y mu n truy v n
CSDL trong DBMS ta ph i h c h t các t p l nh này. Nh ng ng
cho ta các d li u
y
n
c l i nó s cung c p
và hoàn toàn chính xác. Hi n nay DBMS
c s d ng r ng
rãi trên th gi i. M t s DBMS thông d ng : Access, SQL Server, Oracle.
4.2
qu n lý thông tin (IMS)
qu n lý thông tin là h qu n tr c s d li u nh ng có thêm nhi u ch c
nh ng v vi c qu n lý. Nh ng ch c n ng qu n lý này ph thu c vào giá tr c a nhi u
ki u d li u khác nhau. Nói chung b t k h th ng nào có m c ích
c bi t ph c v
cho vi c qu n lý thì ta g i nó là h qu n lý thông tin.
Nguy n Th Thanh Hà - 0112215
15
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
4.3
h tr ra quy t
h tr ra quy t
nh (DSS)
nh s d a vào các t p lu t
rút ra nh ng lu t m i, sau khi g p m t v n
ra nh ng quy t
nh thay cho con ng
th ng này ang
c h c, t nh ng lu t ã h c
nó s c n c vào vào t p các lu t
a
i.
c áp d ng nhi u cho công vi c nh n d ng và chu n óan
nh.
4.4
tr l i câu h i (QAS)
tr l i câu h i cung c p vi c truy c p
nhiên. Vi c l u tr c s d li u th
quan
th
n các thông tin b ng ngôn ng t
ng bao g m m t s l
ng l n các v n
n các l nh v c riêng bi t và các ki n th c t ng quát. Câu h i c a ng
liên
i dùng có
d ng ngôn ng t nhiên. Công vi c c a h tr l i câu h i là phân tích câu truy
n c a ng
quan l i
i dùng, so sánh v i các tri th c
c l u tr , và t p h p các v n
có liên
a ra câu tr l i thích h p.
Tuy nhiên, h tr l i câu h i ch còn ang th nghi m. Vi c xác
a ngôn ng t nhiên d
ng nh v n là ch
ng ng i l n
nh ý ngh a
có th s d ng r ng rãi h
th ng này.
Nguy n Th Thanh Hà - 0112215
16
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
4.5 So sánh IRS v i các h th ng thông tin khác
IRS
i dung
Tìm ki m
trong các tài
li u.
DBMS
QAS
MIS
Các ph n t
Các s ki n
có ki u d
li u ã
c
rõ ràng.
nh ngh a.
Gi ng DBMS
nh ng h tr
Các v n b n
u tr
ngôn ng t
nhiên.
Các ph n t
li u
ng b ng.
Các s ki n
thêm nh ng
rõ ràng và các th t c( Tính
ki n th c
ng quát.
ng, tính
trung bình,
phép chi u…)
lý
Các câu truy
Các câu truy
Các câu truy
n không
n có c u
n không
chính xác.
gi i h n.
trúc.
ng 1-1 So sánh IRS v i các h th ng thông tin khác
Nguy n Th Thanh Hà - 0112215
17
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Ch
ng 2: XÂY D NG M T H
TH NG TÌM KI M
THÔNG TIN
1. Ki n trúc c a h tìm ki m thông tin. [1.3]
t h th ng thông tin tiêu bi u nh sau:
Hình 2-1 H tìm ki m thông tin tiêu bi u
th ng tìm ki m thông tin g m có 3 b ph n chính : b ph n phân tích v n
n, b ph n l p ch m c, b ph n so kh p và s p x p các tài li u tr v .
Nguy n Th Thanh Hà - 0112215
18
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
(1)
ph n phân tích v n b n: b ph n này có nhi m v phân tích các v n
n thu th p
c thành các t riêng bi t. T
thì câu truy v n c ng
(2)
i dùng nh p câu truy v n
c phân tích thành các t riêng bi t.
ph n l p ch m c : các t trích
c b ph n này l a ch n
hi n
ng t , khi ng
c t các v n b n thu th p
cs
làm các t ch m c. Các t ch m c ph i là các t th
c n i dung c a v n b n.
(3)
ph n so kh p và s p x p các tài li u tr v : Các t trích
truy v n và các t ch m c c a v n b n s
liên quan
này s
n câu truy v n. M i tài li u có m t
c s p x p theo
2.
c so kh p v i nhau
t s mô hình
t
t
c t câu
tìm ra các tài li u
ng quan v i câu h i. Các tài li u
ng quan gi m d n và tr v cho ng
i s d ng.
xây d ng m t h tìm ki m thông tin [1.2]
c tiêu c a các h th ng tìm ki m thông tin là tr v các tài li u càng liên
quan
n câu h i càng t t. Vì th ng
tính toán m t cách chính xác
t
i ta ã
a ra r t nhi u mô hình tìm ki m nh m
ng quan này. Sau ây là m t s mô hình tìm ki m
b n:
2.1 Mô hình không gian vector
Mô hình không gian vector tính toán
cách
t
ng quan gi a câu h i và tài li u b ng
nh ngh a m t vector bi u di n cho m i tài li u, và m t vector bi u di n cho câu
i [ Salton, 1875]. Mô hình d a trên ý t
thu c vào các t
c tính toán
ng chính là ý ngh a c a m t tài li u thì ph
c s d ng bên trong nó. Vector tài li u và vector câu h i sau ó s
xác
nh
tài li u ó càng liên quan
t
ng quan gi a chúng.
t
ng quan càng l n ch ng
n câu h i.
Nguy n Th Thanh Hà - 0112215
19
Nguy n Trung Hi u - 0112216
Xây d ng h th ng tìm ki m thông tin ti ng Vi t d a trên các ch m c là các t ghép
Gi s m t t p tài li u ch g m có hai t là t1 và t2. Vector xây d ng
cs
m có 2 thành ph n: thành ph n th nh t bi u di n s xu t hi n c a t1, và thành ph n
th hai bi u di n cho s xu t hi n c a t2. Cách
ánh 1 vào thành ph n t
ng ng n u t
n gi n nh t
xây d ng vector là
ó xu t hi n, và ánh 0 n u t
ó không xu t
hi n. Gi s tài li u ch g m có 2 t t1. Ta bi u di n cho tài li u này b i vector nh
phân nh sau: <1,0> Tuy nhiên, bi u di n nh v y không cho th y
hi n c a m i t trong tài li u. Trong tr
ng h p này, vector nên
c t n s xu t
c bi u di n nh
sau: <2,0>
i v i m t câu h i ã cho, thay vì ch c n c so sánh các t trong tài li u v i
p các t trong câu h i, ta nên xem xét
n t m quan tr ng c a m i t . Ý t
ng chính
là m t t xu t hi n t p trung trong m t s tài li u thì có tr ng s cao h n so v i m t t
phân b trong nhi u tài li u. Tr ng s
c tính d a trên t n s tài li u ngh ch
(Inverse Document Frequency) liên quan
n các t
o
c cho:
n: s t phân bi t trong t p tài li u
tfij : s l n xu t hi n c a t tj trong tài li u Di (t n s )
dfj : s tài li u có ch a t tj
idfj = log10
d
trong ó d là t ng s tài li u
df j
Vector
c xây d ng cho m i tài li u g m có n thành ph n, m i thành ph n là
giá tr tr ng s
ã
c gán tr ng s t
c tính toán cho m i t trong t p tài li u. Các t trong tài li u
ng d a vào t n s xu t hi n c a chúng trong t p tài li u và s
xu t hi n c a m i t trong m t tài li u riêng bi t. Tr ng s c a m t t t ng n u t
xu t hi n th
ng xuyên trong m t tài li u và gi m n u t
Nguy n Th Thanh Hà - 0112215
20
ó xu t hi n th
ó
ng xuyên
Nguy n Trung Hi u - 0112216
- Xem thêm -