PGS.TS ĐOÀN PHAN TÂN
------------
HỆ THỐNG TÌM TIN
NHÀ XUẤT THÀNH PHÓ HỒ CHÍ MINH 2010
LỜI NÓI ĐẦƯ
Giáo trình “Hệ thống tìm tin” được biên soạn nhằm cung cấp
ihừng kiến Ihức cơ bàn về hệ thống lìm tin cho sinh viên chuyên
igành thông tin - Ihư viện.
Nội duno giáo trình bao gồm bảy chương như sau:
Chương 1: Tống quan về hệ ihống tìm tin;
Chi*one
Hệ thốiì 2 công Ci \í: ]ý ngC' nghĩa ;rong các hệ
thống lìm tin;
Chương 3: Tồ chức thô ns tin trong hệ thống tìm tin;
Chương 4; Thiết kế hệ thống tìm tin;
Chương 5: Hệ thốne tìm tin thủ công;
Chương 6: Hệ Ihổng lìm tin tự động hóa;
Chương 7: Đánh 2 Ìá hiệu quá hoạt động của hệ thống tìm tin.
Giáo trình này được biên soạn lần đầu nên không tránh khỏi
hừng Ihiếu sót. Rất mong nhận được ý kiến đóng góp của các
ồng nghiệp và bạn đọc đổ giáo trình được hoàn thiện hơn irong
hững lần tái bản.
Xin chân thành cảm ơn các đồng nghiệp ờ khoa T h ư viện 'hông lin học, T m ờ n g Đại học Khoa học xã hội và Nhân văn )HQG TP. HỒ Chí Minh, PGS.TS. Đoàn Phan Tân và ThS. VTnh
)uốc Báo đã nhiệt lình giúp đỡ và có nhiều ý kiến đóng góp cho
lIC giíi
iro n g q u á Irình biên soạn íỉìáo trình.
77’. ỉỉ ồ C h í Mình, ihúng 12 năm 2009
* - - * '1
ác gia
3
BẢNG CÁC TỪ VIẾT TẮT
AACR
Q uy tăc biên mục Anh - M ỳ (Anglo - American
Cata oguing Rule)
CSDL
C ơ sỡ dừ liệu
CQTT
C ơ quan Ihông tin
DDC
Khung phân loại thập phân Devvey (Dewey Decimal
Classification)
DC
Yếu tố siêu dừ !iệu côt lõi Dub in (Dub in Core)
HTTT
Hệ thống tìm lin
H T T TTĐ H
Hệ thống tìm tin tự động hóa
LCSH
B ảng đề mục chủ đề của T h ư viện Quốc hội Mỹ
(Library o f Congress Subject Headings)
MARC
Biên mục đọc máy (Machine Readab e Cataloging)
MLCC
M ục ục chừ cái
M L PL
vlục lục phân loại
NNTT
'^gôn ng ừ tìm tin
O PA C
M ục ục công cộng truy cập tiTỊC tuyến (On ine
Pub ic Access Calalog)
TĐTC
T ừ điển từ chuẩn
5
Chương 1
TỔNG QUAN VỀ HỆ T H ốN G TÌM TIN
1.1. Tìm tin
1.1.1. K hái niêm tìm tin
Khái niệm t'ip tin được nhiều tác giả đề cận đến trong nhiều
tài liệu về các lĩnh \ ự c khác nhau nh ư thông tin học, thư viện học,
khoa học m áy tín h ... Sau đây là mộí sổ định nghĩa về tìm tin.
T h e o TC V N 5453-1991, tìm tin là quá trình lựa chọn và đưa
ra từ m ột tập hợp tài liệu hay mảng tin nào đó nhừng tài liệu, thông
tin thích hợp với nội dung yêu cầu tin. [8
C ác tác giá cuổn “C ơ sớ thông tin học” của Viện Thông tin
VINITI đưa ra định nghĩa ‘T ì m tin là một tập hợp các công đoạn
được thực hiện với mục đích tìm ra nhừng tài liệu có chứa thông tin
nhất định (sau đó cung cấp chính các tài iiệu đó hoặc các bản sao
cùa chúng) hoặc với mục đích cung cấp các số liệu cụ thể đề trá lời
các câu hòi được định ti*irớc”. [24
Theo C.T. Meadow, các thuật ngữ tìm tài Hệiỉ, tìm dừ kiện,
chọỉì lọc d ừ liệu và ĩìw tin được sử dụng để chỉ quá irình tìm các tài
liệu đáp ứng yêu cầu lin (tìm tài liệu) hoặc lìm thông lin trực tiếp
(ba dạng tìm sau cùng). Vì vậy, “T im Ún là quá trình tìm kiếm
trong một mảng tin nào đó những tài liệu chứa thông lin và việc tìm
kiếm này không phụ thuộc vào bản chất, loại thông tin cần lìm và
phương thức sử dụng thông lin đó ” . [22
7
Theo B .c . Vickery, tìm tin là quá trình lựa chọn ihông lin từ
một mảng lin. [31
''ỉhừng định nghĩa Irên cho Ihấy mặc dù cách diền đại khúc
nhau nhưng có sự thống nhất tương đối giữa các tác giả về ý nghĩa
của ihưật ngừ tìm tin. Như vậy, tìm tin là một thuật ngữ chuns
được sử dụng để phản ánh quá trình tìm kiếm tài liệu hoặc thông tin
cần thiếl trong một mảng tin nào đó.
Việc tìm kiểm tài liệu hoặc thông tin cần thiết được Ihực hiện
một cách chọn lọc và thường đòi hòi nhiều công sức, thời gian và
chi phí. T hư viện là một ví dụ điển hình về một tồ chức chuyên
phục vụ cho việc tìm kicm thông tin một cách chọn lọc. Một neười
dủng tin đến thư viện không pnài để đọc toàn bộ tài liệu co irong
thư viện mà đề tìm tài liệu hoặc thông tin một cách chọn lọc nhằm
thỏa mãn các nhu cầu tin của mình. Phương pháp hiệu quả nhất để
tìm tài liệu hoặc thông tin,cần thiết trong một ihư viện bất kỳ là đọc
q ua từng tài liệu của thư viện này. Tuy n h iên , trong thực tế không
thề áp dụng phương pháp này vì số lượng lài liệu trong các thư viện
thường rất lớn nên việc đọc tất cả lài liệu để chọn ra nhừng tài liệu
cần Ihiếí là không khả thi. Vì vậy, người ta sừ dụng một phưưng
pháp tìm tin khác, đó là tìm tin theo các đặc tính nội dung ’ngắn gọn
hoặc theo các đặc tính hình thức cúa tài liệu.
Có thể xem tìm tin như một quá irình truyền thông mội cách
gián liếp giữa các tác giả hoặc những người tạo lập các biểu ghi với
nhĩrng người sử dụng thông tin. Các neôn n ^ừ và các kênh của hộ
thống truyền thông này khác với các hệ thống truyền ihông khác
n hư truyền thông đại chúng hoặc truyền thông tiỊTc tiếp. Các ngôn
n gữ được sử dụng trong hệ thống tmyền thông này có Ihể là các
8
ngôn ng ừ tìm tin và/hoặc ngôn ngữ tự nhiên. Còn các kênh truyền
thông có thể là các công cụ tìm tin như hệ thổng mục lục, bảng tra,
cơ sờ dữ liệu... Nói cách khác, tìm tin ]à một quá trình tương tác
giừa người sừ dụng và các màng tin thông qua các công cụ tìm tin
khác nhau.
1.1.2. Q uá trình tìm tin
Tìm tin là một quá trình c a bản của con người và nó liên
quan mậ^ ihiét vói V’ệc h ọ c ^ập v à giả’ quyết vấn đề. Quá trình tìm
tin được bắt đầu với nhu cầu tin của người sử dụng. Để đạt được
mục tiêu n h ư giải quyết một vấn đề, trả lời một câu hòi cụ thề hoặc
để thỏa mãn lính ham hiểu biết, người dùng tin có thể cần thông tin
nhanh và ngắn gọn hoặc thông tin đẩy đủ và chi tiết. Trong hình
ỉ . l . là sơ đồ của quá trình tìm tin. M ặc dù trông có vẻ rấl đơn giản
nhưng về thực chất, quá trình lìm tin bao gồm nhiều qui trình phức
tạp. Một sổ qui trình là qui trình công nghệ và liên quan đến hệ
thống tìm tin, giao diện người sử d ụ ng ... Các qui trình khác liên
quan đến bán chất và các đặc trưng của nội dung Ihông tin và người
dùng tin cụ thể. Thời gian thực hiện và mức độ phức tạp của quá
trình tìm tin phụ thuộc vào khà năng nhận Ihức, trình độ và nhu cầu
tin của người dùng tin.
Q uá trình tìm tin là một quá trình tương tác phụ thuộc vào
khá nàng cúa người dùng tin, sự phản hồi từ hệ thống tìm tin và các
quyết định c ủ a người dùng tin về các hành động tiếp theo dựa trên
sự phán hồi này. Các chi úél về nhu cầu tin ban đầu của người sử
dụng có thố thay đổi. Các nhu cầu tin ban đầu thường được điều
chính sau khi người tìm tin biết nhiều hcm về vấn đề đang lìm kiếm
thông qua sự tương lác với các hệ thống tìm tin. Vì vậy, quá trình
tìm tin tiếp lục đến khi người dùng lin có được thông lin thỏa mãn
nhu cầu tin đã được điều chỉnh của mình. C ôn g nghệ thích hợp,
chẳng hạn hệ Ihống lìm tin và giao diện người sử dụn g thích hợp,
có thể thúc đẩy quá trình nhưng đó không phải là vấn đề cơ bàn
nhất vì quá trình tìm tin phụ thuộc nhiều vào người dùn g tin và nhu
cầu tin cùa người dùng tin cũng như bản chất, số lượng và sự đa
dạng của thông tin.
__
^
H ình 1.1. Sff đô quá trình tìm tin
10
ỉ . 1.3. C ác dạng tìm tin
C ó thể phân chia các dạng tìm tin theo các tiêu chí khác nhau
như dựa vào tính chấi của thông tin được tra cứu, dựa vào công cụ
tìm tin được sử dụng, dựa vào loại hình tài iiệu, dựa vào thời gian
xuất bản của tài liệu, dựa vào ngôn ngừ tài liệu... Trên thực tế, để
lìm tin m ộ t cách hiệu quả, quá trinh tìm tin thường được thực hiện
dựa trên sự kết họp nhiều dạng ùm tin với nhau. Dưới đây là hai
cách phân chia các dạng tìm tin thường được sử dụng.
1 .1 ,3. ỉ. D ụ 2 vào tính ch ất cCa th ô n g tfn đĩiợc tra ZÚTI
Dựa vào tính chấl cúa thông Ún được tra cứu, có thể phân
chia thành các dạng tìm tài liệu và lìm thông tin dữ kiện.
Tìm tài liệu ià quá trình xác định và chọn lọc các lài liệu từ
các nguồn tìm tương ứng với yêu cầu tin hoặc các dấu hiệu tìm tin
cho trước như tên lác giả, lên tài liệu, nơi xuất bản, nhà xuất b ả n . ..
Tìm thông tin dừ kiện là quá trình xác định, chọn lọc và tách
ra khỏi nguồn tin những số liệu, dữ kiện cụ thể như các số liệu
thống kê, các đặc lính, thông số kỳ thuật của các thiết bị, vật liệu,
các khái niệm khoa học... để đáp ứng các yêu cầu tin.
1.1.3.2. D ự a vào công cụ tìm tin
D ự a vào c ô n g cụ tìm tin, có thể chia thành các dạng tìm tin
thủ công, bán lự độn g và tự động hóa.
Tìm tin thù công là quá trình tìm lin dựa trên các công cụ tìm
lin thủ cô n g hay còn gọi là công cụ tìm tin truyền thống như hệ
ihống mục lục, bộ phiếu Ira cửu, bảng tra, ihư mục, ấn phẩm thông
tin, tài liệu tra c ứ u ...
Tìm lin bán tự động là quá trình tìm tin dựa trên các cồng cụ
tìm tin bán tự độn g như phiếu lồ mép và phiếu lồ soi.
11
T ìm tin tự động hóa là quá trình tìm kiếm các thông tin được
xử lý, lưu trừ và truy cập thônơ qua máy lính hoặc m ạ n s máy lính.
Trước đây, tìm tin thủ công !à dạng lìm tin phổ biến nhất
trong các thư viện và cơ quan thông tin. Ngày nay, với sự phát triển
nhanh chóng của công nghệ thông tin và viền thông, tìm tin tự động
hóa n g à y càng phồ biến hơn và trờ thành dạng tìm tin chủ yếu trong
các thư viện và cơ quan thông tin ỉớn. Bên cạnh đó, các công cụ
tìm tin bán tự động hầu như không còn được sử dụng n ùa nên dạng
tìm tin bán tự động ngày càng đưọc ít người biết đến.
1.2. Hệ thống tìm tin
1.2.1. M ôt
số khái nicin
•
»
Ỉ .2 .I .Ỉ . K hái niệm h ệ th ốn g tìm tin
Khái niệm hệ thống lìm tin (HTTT) được đề cập đến tro rg
nhiều tài liệu khác nhau. Sau đây là một số định nghĩa ve hệ thống
tìm tin.
T h e o TC V N 5453-1991, hệ thống tìm tin là hệ thống được
xăy dự ng nhằm tạo điều kiện cho việc tìm tin. [8'
Theo D.B. Cleveland, hệ ihống tìm tin là một công cụ thực
hiện qu á tiình tìm tin. [14
Theo
F.w.
Lancaster, hệ ihống tìm tin ỉà tổ hợp bao gồm các
tài liệu, yêu cầu tin, các mô tả thổng nhất tài liệu và yêu cầu tin,
ph ươ ng tiện cho phép so sánh các m ô lả này, và con người (bao
g ồ m các chuyên gia thông tin, chuyên gia điều hành hệ thống và
người sử dụng hệ thống). [20]
Các tác giã cuốn chuyên khảo “C ơ sờ thông tin học” của
Viện T hông tin VINITI đưa ra định nghĩa “Hệ thống tìm lin là tổ
12
hợp các Ihành phần liên kết với nhau được sừ dụng để tìm trong
mộl màng tin nào đó thông tin đáp ứng yêu cầu tin được đặt ra cho
hệ thống” . [24]
Trong giáo trình “Hệ thống thông lin”, v . p . Zakharov định
nghĩa “Hệ thống tìm tin là tập hợp có to chức các tài liệu và các
phương liện kỹ thuật đế lưu trữ và tìm kiếm thông tin hoặc tài liệu
hoặc dừ liệu”. [33
G. Kowalski, tác giả cuốn chuyên khảo “Hệ thống tìm tin: Lý
th u /ế t và ứng dụn o” , đưa ra định nglìĩa clơn giàn “Hệ ihống tìm tin
là một hệ thống có kha năng lưu tm'. bảo quản và tìm kiếm thông
tin” . [19]
Nhừng định nghĩa trên cho thấy thuật ngữ “hệ thống tìm tin”
nói chung được dùno để chi một hệ thống được xây dựng để lưu trừ
và tìm kiếm th ô n g tin đã đ ư ợ c lưLi trừ.
Có nhiều loại hệ thống thông lin khác nhau, lừ các hệ thống ihù
công với thông tin được lưu trừ Irên giấy đến các hệ thống được số
hóa hoàn toàn. Cách 10 chức thông tin và các kỳ thuật tìm tin trong các
hệ thống tìm tin cũng khác nhau nhưng vấn đề chung đối với tất cả các
hệ thống tìm tin là đảm bảo hiệu quả tìm tin của hệ thống.
1.2. ĩ . 2. M ộ t số k h á i niệm Hên quan
N hu cầu tin
Nhu cầu tin là nhu cầu khách quan của người dùng tin về
những thông lin cần thiết cho công việc cụ thể cùa mình. [8]
Yêu cầu tin
Yêu cầu tin là nhu cầu tin của người dùng tin được thể hiện
dưới dạng văn bản hoặc lời. [8
13
M ản g tin
M ảng tin (Iníormalion relrievai file) là tập hợp các tài liệu,
dừ kiện (hoặc các thông tin về chúng) được sẳp xếp theo một trình
tự nhất định tiện lợi cho việc tìm và xử lý tin. [8
M ầu tìm
M ầu lìm của tài liệu là nội dung cơ bản của tài liệu được ihé
hiện bằng các thuật ngữ của ngôn ngữ lìm tin. [24
M ầu tìm của một tài liệu được tạo lập trong quá innh xử lý
tài liệu và được sử dụng để tìm tài liệu đó trong tập hợp nhiều tài
liệu khác. Tập hợp các mẫu tìm của tài liệu là một bộ phận không
thể thiếu của rnảng tin.
Quá trình thể hiện nội dung cơ bàn của tài liệu bang mẫu tìm
được gọi là quá trình đánh chỉ số.
Lênh
tìm
«
Lệnh tìm là nội dung cùa yêu cầu tin được thể hiện bằng các
thuật ngữ của ngôn ngữ tìm tin. [24
Đ iểm truy cập
Điềm truy cập (Access poìnt) là một từ, cụm từ, mã số, tên
gọi... được sừ dụng để tìm thông tin trong một hệ thống tìrr. lin,
Điểm truy cập có thể là giá irị của các thuộc tính (hình Ihức
và/hoặc nội dung) của đối tượng được phàn ánh trong hệ thống tìm
tin. Ví dụ, trong một hệ thống tìm tin lư liệu, điểm iruy cập có thể
là tên tác giả, nhan đề, đề mục chù đề, từ khóa, ký hiệu phân loại...
cho phép tìm kiếm và nhận dạng một biểu ghi thư mục. Các điểm
truy cập này được người xử lý tài liệu lựa chọn khi tạo lập một biểu
ghi.
14
Dánh c h ỉ số
Đánh chỉ số (Indexing) là quá trình thê hiện nội dung tài liệu
và/hoặc yêu cầu tin bằng ngôn ngừ tìm tin. [8
Tính thích hợp
Tính thích hợp (Relevance) là mức độ trùng hợp giừa nội
d u n " lài liệu với yêu cầu tin. [8
Tính p h ù hợp
Tính phù hợp (Pertinence) là mức độ triing hợp giữa nội dung
lài Iiệu và nhu cầu tin. [8
Tiêu chuẩn p h ù hợp ỷ nghĩa
Tiêu chuẩn phù hợp ý nghTa là tập hợp các qui tắc nhằm xác lập
mội cách hình thức mức độ thích hợp của tài liệu với yêu cầu tin. [24
Có thế chia các tiêu chuẩn phù hợp ý nghĩa thành hai nhóm
chính là định lượng và logic. Loại thứ nhất sử dụng các tiêu chí
định lượng để đánh giá mức độ giống nhau về nội dung giữa tài
liệu và yêu cầu tin (hệ số tiĩơng ihích). Điều này cho phép sắp xếp
kết quả tìm được theo trật tự giảm dần về mức độ thích hợp của tài
liệu với yêu cầu tin.
Có nhiều mô hình toán học và công thức khác nhau để ỉính hệ
số iưong thích. Tuy nhiên, cách lính đơn giản nhất là dựa trên sự
trùng hợp giữa các thuật ngừ trong mẫu tìm và ỉệnh tìm. Cách tính
này dược áp dụng Irong lất cà các hệ thống tìm tin tư liệu sử dụng
các ngôn ngừ lìm tin phân loại, đề mục chủ đề và từ khoá.
Xác suất trùng hợp hoàn loàn giữa mẫu lìm và lệnh tìm trong
các hệ ihống lìm tin thường rấl ihấp. Vì vậy, có thể phải đáiih giá
15
mức độ trùng họp một phần giữa mầu tìm và lệnh tìm. N ếu sự
trùng hợp này đạt đến mộl mức độ cần và đ ủ ihì tài liệu lìm được
được xem ià thích họp với yêu cầu tin.
Gọi R là mức độ trùng hợp cần và đủ giữa mầu lìm và lệnh
tìm để tài liệu tìm được về cơ bản đáp ứ n g được yêu cầu tin. R
được biểu thị bằng ti lệ %. R được tính bằng cô n g thức: R = (M /N ) X
100%, trong đó:
M là số iượng các thuật ngữ của m ẫu tìm và lệnh tìm trùng
nhau khi tìm tin.
N là tổng số thuật ngừ có trong mẫu tìm.
T arờ n g hợp ly tường nhất là khi m ẫu tìm trùng hợp hoàn loàn
với lệnh tìm, nghĩa !à M =N hay R = 10 0% . Trên thực tế, với
R>=25% là xem như đạt yêu cầu.
Loại tiêu chuẩn phù hợp ý nghĩa thứ hai là tiêu chuẩn phù
hợp ý nghĩa logic. Trên thực tế, các hệ thống tìm tin sử dụng các
lệnh tìm với các toán tử logic Bool ngày càng phổ biến. Trong các hệ
thống này, các yêu cầu tin được thể hiện bằng biểd thức logic bao
gồm một tập hợp các thuật ngừ tìm được ỉiên kết với nhau bằng các
toán tử Bool. Các thuật ngừ tìm của biểu thức đón g vai Irò như các
biến số và sẽ nhận giá trị 1 (đúng) néu thuật n g ữ đó được chứa trong
tài liệu hoặc nhận giá trị 0 (sai) khi tài liệu không chứa thuật ngữ đó.
Tài liệu được xem là thích hợp vén yêu cầu tin nếu kết quả tổng thể
của biểu thức logic nhận giá trị đúng. Nếu kết quả có giá trị sai thì tài
liệu không thích hợp với yêu cầu tin. Việc sử dụng các toán từ Bool
đảm bảo cho logic so sánh mẫu tìm và lệnh tìm đề hiểu đối với
người sử dụng. Chính sự đcm giản và dễ hiểu của tiêu chuẩn phù hợp
ý nghĩa logic đã giúp tiêu chuẩn này trở nên phổ biến.
16
ỉ . 2.2. M ục đích củ a hệ thống tìm tin
Một hệ thống tìm tin được xây dựng để tìm các tài liệu hoặc
thông tin được cộng đồng người sử dụng yêu cầu và phải sẵn sàng
cung cấp tài liệu hoặc thông tin cẩn thiết cho người sử dụng. Vì vậy,
một hệ Ihống tìm tin bất kỳ phải tập trung vào việc thu thập và tồ
chức thône tin về một hoặc nhiều ITnh vực kiến thức nhằm cung cấp
thông tin một cách nhanh chóng nhất khi người sử dụng yêu cầu.
Trên thực tế, hệ thống tìm tin đóng vai trò như một cầu nối giữa các
nguồn tàỉ nguyên thông tin và những người sử dụng thóng tin.
víục đích chung của một hệ thống tìm tin là giảm tối đa chi
phí của người sử dụng để tìm thông tin cần thiết. Chi phí tìm tin có
thể được tính bằng thời gian một người sử dụng phải bò ra trong tẩt
cả các bước của qu á trình tìm tin cho đến khi có được tài liệu hoặc
thông tin cần thiết. Người sử dụng có thể gặp nhiều trở ngại trong
quá trình tìm tin. Vì vậy, mục đích của một hệ thống tìm tin là hỗ
trợ tối đa để người sử dụng có thể tìm được thông tin cần thiết một
cách nhanh chóng, đầy đủ và chính xác.
1.2.3. C hức năn g củ a hệ thống tìm tin và yêu cầu đối vói
hệ th ốn g tìm tin
1 .2 3 .1 . C hứ c n ă n g củ a h ệ th ốn g tìm tin
Một hệ thống tìm tin phái xử lý nhiều nguồn thông lin và yêu
cầu tin khác nhau của người sử dụng. Có thể chia các chức năng
cùa mộl hệ ihống tìm lin thành hai nhóm chính là; l) Phân tích nội
dung và 2) T ìm tin và c u n g cấp kết quả tìm. Phân tích nội dung bao
gồm các chức năng liên quan đến việc phân tích, tổ chức và lưu trữ
thông lin. Tìm tin và cung cấp kết quà tìm bao gồm các chức năng
17
phân lích yêu cầu tin cua người sử dụng, tìm tin, chọn lọc và cung
cẩp kết quả tìm.
Cụ thể, các chức năng chính của một hệ thống tìm tin bao gồm:
■ Phân tích nội dung các lài liệu: phân tích và trình bày nội
dung chính của tài liệu bằng các ngôn ngừ thích hợp;
■ Tổ chức và lưu trừ thòns lin một cách ihích hợp đế có Ihe
tìm kiếm thông tĩn theo các yêa cầu íin của ngưòi sử dụng;
■ Phân tích các yêu cầu tin của người sừ dụng và thê hiện
các yêu cầu tin ở dạng thích hợp với việc tìm kiếm trong hệ
thống;
■ Tìm trong hệ thống và lựa chọn thông tin thích hợp với yêu
cầu tin;
Chức nâng của một hộ ihống lìm tin tư liệu đơn^siàn được thể
hiện trên sơ đồ trong hình 1.2.
Trong hình i.2. là một hệ thống tìm tin với hai đầu vào (dành
cho lài liệu và yêu cầu tin) và một đầu ra để cung cấp tài liệu hoặc
thông tin theo yêu cầu. ờ các đầu vào có các bộ phận đánh chi số
lài liệu và yéu cầu lin. Các mẫu tìm của tài liệu cùng với các địa chỉ
lưu ti*ữ tài liệu được đưa vào bộ nhớ cùa hệ thống còn các tài liệu
được đưa vào bộ phận lưu trữ tài liệu. Các lệnh tìm của lìmg ycu
cầu tin được bộ xử lý đổi chiếu với mẫu tìm của tất cả các tài liệu
được chứa trong bộ nhớ. Neu mẫu tìm và lệnh tìm tương thích
(toàn phần hoặc theo tiêu chuẩn phù hợp ý nghĩa đã xác định) thì
bộ xử lý sẽ đ ưa ra lệnh cung cấp tài liệu được chứa trong bộ phận
lưu Iiôr tài liệu. Bộ phận lưu tiòr tài liệu được xem như bậc thứ hai
của hệ thống và thành phần này không hiện diện trong các hệ thống
18
tìm tin Ihư mục (chỉ có một bậc là bộ nhớ lưu trừ thông tin về tài
liệu ). Sơ đồ này thể hiện hoạt động của một hệ thống tìm íin bất
kỳ, bao gồm cả các hệ Ihổng ĩruyền thống. Ví dụ, trong hệ thống
tìm lin thủ công của một thư viện, các bộ phận ở các đầu vào của
hệ thống tương ứng các bộ phận xử ỉý tài liệu và tra cứu tin, bộ nhớ
lương ứng với các mục lục thủ công. Trong hệ thống tìm tin thủ
công không có bộ xử lý. Bộ phận này được thay thế bằng trí tuệ của
người dùng tin hoặc cán bộ tra cửu - là người thực hiện việc so
sánh, đối chiếu iệnh tìm với mầu ĩìm và lựa chọn kết quả tìm được.
M ầu l
ì
& ( Jịa c h ì
T ììi liộ u
m
__________
n h il
T à i liêu
V
dảxừlý
H ình 1.2. S ơ đồ tổng quát của hệ thống ĩìm tin
1.2.3.2. Yêu cầu đối với h ệ th ốn g tim tin
Hệ thống tìm tin phải hướng đến người sử dụng, nghĩa là phải
chú trọng các tiện ích cho người sừ dụng. Vì vậy, hệ thống tìm tin
phái đáp ứng các yêu cẩu chức năng sau:
- B ảo đảm khà năng lương lác giừa người thiết kế hộ ihống
và người sử dụng;
- C ung cấp thông tin với dạng thức thích hợp để có thể sừ
dụng ngay;
19
- C ó phạm vi đù rộng để bao quát tất cả các loại yêu cầu lin
của cộng đồng người sử dụng;
-
Có
khà năng cung cấp thông tin thích hợp và kịp thời;
-
Có
khả năng tương thích với những thay đôi của môi
trưcmg;
-
Phải duy trì các chuần để bảo vệ dĩr liệu;
-
Hệ
thống phải dề truy cập và dề sử dụng;
- Hồ trợ khai ihác thông lin một cách hiệu quả.
1.2.4. T hành phần của hệ thống tìm tin
Thành phần của mội hệ ihống tìm tin cụ tỉiể bao gồin;
1. Các mảng tin bao gồm tài liệu, thông tin về lài liệu/siêu dừ
liệu, dừ kiện;
2. Các còng cụ loơic - ngữ nghĩa, bao gồiTi neôn ngừ tìm tin,
các qui tắc sử dụng ngôn ngữ tìm tin và các tiêu chuẩn phù
hợp ý nghĩa;
3. Các phương tiện kỳ thuật đảm bảo thực hiện các chức
năng của hệ thống;
4. Các yếu tố đảm bảo cho việc khai thác hệ thống n h ư nhân
sự, lài liệu hướng dẫn sử d ụ n g ...
Các thành phần cơ bản cùa hệ thống tìm tin đuợc gọi !à các
phân hệ. Việc phân chia thành các phân hệ rất cần Ihiết và hữu ích
cho việc thiết kế cũng như mô tả cơ chế vận hành của hệ thống tìm
tin. Có nhiều cách chia hệ Ihống tìm tin ihành các phân hệ, trong đó
hai cách thường được sù dụng nhất là phân chia theo loại yếu tố và
phương tiện đảm bảo hoạt động của hệ thống và phân chia Iheo
nguyên tắc chức năng*
20
- Xem thêm -