ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀ THÔNG
HÀ THANH THỦY
TÌM KIẾM VĂN BẢN THEO NỘI DUNG VÀ ỨNG DỤNG
Luận văn thạc sĩ khoa học máy tính
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
Thái nguyên – 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
i
LỜI CẢM ƠN
Để hoàn thành chương trình cao học, tôi đã nhận được sự hướng dẫn,
giúp đỡ và góp ý nhiệt tình của quý thầy cô trường Đại học Công nghệ thông
tin - Truyền thông, Đại học Thái Nguyên.
Trước hết, tôi xin chân thành cảm ơn quí thầy cô trường Đại học Công
nghệ thông tin - Truyền thông, đặc biệt là những thầy cô đã tận tình dạy bảo
cho tôi suốt thời gian học tập tại trường.
Tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Đặng Văn Đức người
thầy đã dành rất nhiều thời gian, tâm huyết và sự tận tình giúp đỡ, hướng dẫn
tôi trong suốt quá trình nghiên cứu để hoàn thành luận văn này.
Đồng thời, tôi xin chân thành cảm ơn Sở Giáo dục và đào tạo tỉnh Thái
Nguyên, Ban Giám hiệu trường THPT Lương Ngọc Quyến đã tạo điều kiện
giúp đỡ tôi về mọi mặt để tôi học tập và hoàn thành tốt khóa học.
Cuối cùng tôi xin chân thành cảm ơn gia đình và bạn bè, những người
đã động viên, khuyến khích tôi trong suốt quá trình học tập và nghiên cứu.
Mặc dù đã có nhiều cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt
tình và năng lực của mình, tuy nhiên vẫn không thể tránh khỏi những thiếu
sót, tôi rất mong nhận được những đóng góp quí báu của quí thầy cô và các
bạn.
Thái Nguyên, ngày 20 tháng 6 năm 2012
Học viên
Hà Thanh Thủy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
ii
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu,
kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong
bất kỳ công trình nào khác.
Thái Nguyên, ngày 20 tháng 6 năm 2012
Học viên
Hà Thanh Thủy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
iii
DANH MỤC CÁC KÍ HIỆU, CHỮ CÁI VIẾT TẮT
Từ gốc
CSDL
DBMS (DataBase Management System)
IR (Information Retrieval)
IDF(Inverse Document Frequency)
LSI(Latent Semantic Indexing)
MMDBMS (Multimedia Database
Management System)
SVD(Singular Value Decomposition)
TF (Term Frequency)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Giải nghĩa
Cơ sở dữ liệu
Hệ quản trị Cơ sở dữ liệu
Truy tìm thông tin
Tần số xuất hiện tài liệu phù hợp
Chỉ số hóa ngữ nghĩa ẩn
Hệ quản trị cơ sở dữ liệu đa
phương tiện
Kỹ thuật tách giá trị đơn
Tần số xuất hiện thuật ngữ
http://www.lrc-tnu.edu.vn
iv
DANH MỤC HÌNH VẼ
Hình 1.1 Mô hình dữ liệu đa phương tiện
Hình 1.2 Hệ thống IR tiêu biểu
Hình 1.3 Tiến trình truy vấn tài liệu
Hình 1.4 Đồ thị so sánh hiệu năng
Hình 2.1 Mô tả các sự kết hợp của Boolean
Hình 2.2 Sử dụng các khái niệm cho truy vấn
Hình 2.3 Sơ đồ SVD của một ma trận hình chữ nhật thuật ngữ-tài liệu
Hình 2.4 Sơ đồ của SVD được giảm lược của một ma trận thuật ngữ-tài liệu
Hình 2.5 Đồ thị Recall – Precision của thuật toán LSI
Hình 2.6 Mô hình khái niệm cơ bản
Hình 3.1 Sơ đồ các chức năng thành phần của dtSearch
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
v
MỤC LỤC
MỞ ĐẦU ...........................................................................................................1
CHƢƠNG I: TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM........................4
THÔNG TIN THEO NỘI DUNG ................................................................4
1.1. Khái quát về cơ sở dữ liệu đa phương tiện ......................................... 4
1.1.1 Giới thiệu ........................................................................................4
1.1.2 Mục tiêu chính ...............................................................................6
1.1.3 Mô hình dữ liệu đa phương tiện ....................................................6
1.2. Hệ thống truy tìm thông tin ................................................................. 8
1.2.1 Khái quát ........................................................................................8
1.2.2 Vấn đề truy tìm tài liệu văn bản...................................................10
1.2.3 Phân biệt các hệ thống IR và DBMS ...........................................12
1.3. Trích chọn đặc trưng, chỉ mục và đo tính tương tự........................... 14
1.3.1 Trích chọn đặc trưng ....................................................................14
1.3.2 Chỉ số hoá cấu trúc.......................................................................16
1.3.3 Đo tính tương tự ...........................................................................17
1.4. Xếp hạng tài liệu ............................................................................... 17
CHƢƠNG II: MỘT SỐ KỸ THUẬT TÌM KIẾM THÔNG TIN VĂN ..23
BẢN THEO NỘI DUNG.............................................................................23
2.1. Mô hình tìm kiếm thông tin Bool ...................................................... 23
2.1.1 Truy vấn Boolean.........................................................................23
2.1.2 Cấu trúc tệp chỉ mục .....................................................................25
2.1.3 Chỉ mục tự động...........................................................................28
2.1.4 Tổng kết về chỉ mục tự động tài liệu ...........................................31
2.2. Tìm kiếm văn bản trên cơ sở mô hình không gian vector ................ 32
2.3. Tìm kiếm văn bản trên cơ sở kỹ thuật LSI ........................................ 34
2.3.1 Ý tưởng cơ bản của LSI ................................................................34
2.3.2 Một số khái niệm cơ bản...............................................................36
2.3.3 Kỹ thuật SVD (singular value decomposition).............................38
2.4. Mô hình tìm kiếm theo xác suất ........................................................ 41
2.4.1 Lịch sử của mô hình xác suất trong IR .........................................41
2.4.2 Không gian biến cố .......................................................................42
2.4.3 Một mô hình khái niệm.................................................................43
2.4.4 Về các khái niệm “liên quan” và “xác suất liên quan” .................45
2.4.5 Nguyên tắc xếp hạng xác suất ......................................................45
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
vi
2.4.6 Mô hình nhị phân độc lập (BIM) ..................................................46
CHƢƠNG III: NGHIÊN CỨU THỬ NGHIỆM THƢ VIỆN TÌM .........48
KIẾM VĂN BẢN DTSEARCH .................................................................48
3.1 Bài toán............................................................................................... 48
3.2 Thư viện tìm kiếm văn bản DTSearch ............................................... 49
3.2.1 Giới thiệu chung ...........................................................................49
3.2.2 Yêu cầu phần cứng .......................................................................50
3.2.3 Cấu trúc các chức năng và thành phần của dtSearch ....................50
3.2.4 Sử dụng dtSearch trong môi trường lập trình Java ......................52
KẾT LUẬN .....................................................................................................58
TÀI LIỆU THAM KHẢO .............................................................................59
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
1
MỞ ĐẦU
Công nghệ thông tin trên thế giới đang phát triển rất nhanh trong giai
đoạn hiện nay. Những tiến bộ của khoa học công nghệ thông tin được áp dụng
phục vụ công tác nghiên cứu khoa học, công tác quản lý, sản xuất và phục vụ
đời sống con người hàng ngày. Càng ngày, người ta càng nhận thấy tính hiệu
quả, tiện ích của khoa học trí tuệ đã từng bước thay thế lao động thủ công,
giảm bớt thời gian lao động, tiết kiệm chi phí và tạo nên rất nhiều tiện ích
khác. Có thể khẳng định rằng: công nghệ thông tin đã mở ra một kỉ nguyên
mới, kỉ nguyên của tự động hoá và đã tạo ra một bước nhảy vọt của nền khoa
học thế giới cũng như nền văn minh nhân loại
Trong xu thế phát triển chung của xã hội cũng như định hướng của
Đảng và Nhà nước ta trong việc áp dụng công nghệ thông tin trong tất cả các
lĩnh vực đời sống, với sự phát triển mạnh mẽ của công nghệ thông tin, tất cả
các lĩnh vực đời sống trong xã hội đã tạo ra một khối lượng dữ liệu khổng lồ.
Trong rất nhiều tình huống, chúng ta phải tìm ra những thông tin cần thiết từ
kho dữ liệu khổng lồ đã có ấy. Tuy nhiên, vì khối lượng dữ liệu lớn, vì thời
gian hạn hẹp cho nên nhiều khi việc tìm kiếm dữ liệu gặp rất nhiều khó khăn.
Do đó, cần có các hệ thống tìm kiếm thông tin để hỗ trợ người dùng tìm
kiếm nhanh và hiệu quả những thông tin mà họ quan tâm. Việc tìm tòi nghiên
cứu ứng dụng những thuật toán giúp cho việc tìm kiếm dữ liệu được nhanh
chóng, tiết kiệm thời gian, có hệ thống và khoa học là một việc làm hết sức
cần thiết trong giai đoạn hiện nay.
Văn bản là một trong số các dạng của dữ liệu đa phương tiện, nó được
quan tâm từ hàng nghìn năm trước trong việc tổ chức sắp xếp và lưu trữ. Tài
liệu văn bản chiếm đa số trong mọi cơ quan tổ chức, đặc biệt là trong thư viện
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
2
và còn được sử dụng để mô tả các dạng khác của dữ liệu đa phương tiện như
video, audio, hình ảnh. Số lượng tài liệu văn bản ngày càng lớn và có vai trò
vô cùng quan trọng, vì thế việc lưu trữ, xử lý và truy tìm thủ công trước đây
không thể hoặc khó có thể thực hiện được.
Vì vậy mục tiêu của luận văn này nhằm tìm hiểu một số kỹ thuật tìm
kiếm văn bản theo nội dung trong cơ sở dữ liệu đa phương tiện nhằm đáp ứng
được những nhu cầu cấp thiết của thời đại bùng nổ thông tin điện tử.
Trên thực tế, đã có nhiều công trình nghiên cứu về vấn đề này được
công bố ở cả trong và ngoài nước. Mục tiêu luận văn với đề tài”Tìm kiếm văn
bản theo nội dung và ứng dụng” mà tôi hướng tới là nghiên cứu một số kỹ
thuật/phương pháp mới, thử đánh giá so sánh và ứng dụng vào môi trường cụ
thể.
Đối tƣợng và phạm vi nghiên cứu
Hệ thống đa phương tiện là một vấn đề phức tạp và rộng lớn, do vậy phạm vi
nghiên cứu của luận văn chỉ giới hạn trong việc sử dụng một số kỹ thuật tìm
kiếm văn bản theo nội dung, sau đó phát triển chương trình demo ứng dụng
tìm kiếm văn bản theo nội dung.
Hƣớng nghiên cứu của đề tài
- Nắm vững qui trình thiết kế CSDL đa phương tiện, trong đó CSDL văn
bản là thành phần quan trọng.
- Nghiên cứu một số kỹ thuật tìm kiếm văn bản theo nội dung như: mô hình
tìm kiếm Bool, mô hình tìm kiếm không gian vector, mô hình tìm kiếm
theo xác suất, kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn (Latent Sematic
Indexing-LSI).
- Nghiên cứu các độ đo phù hợp để đánh giá hiệu năng hệ thống
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
3
- Xây dựng thử nghiệm chương trình demo tìm kiếm văn bản theo nội dung
trên cơ sở bộ thư viện dtSearch.
Phƣơng pháp nghiên cứu
- Tổng hợp tài liệu từ nhiều nguồn khác nhau.
- Phân tích, liệt kê, so sánh, đối chiếu, trực quan, thực nghiệm,…
Cấu trúc luận văn
Ngoài phần mở đầu giới thiệu ý nghĩa của chủ đề nghiên cứu và phần
kết luận nêu lên các kết quả chính đã đạt được, luận văn gồm các chương sau
đây:
Chƣơng I: Giới thiệu tổng quan về hệ thống tìm kiếm thông tin theo nội
dung.
Chƣơng II: Một số kỹ thuật tìm kiếm thông tin văn bản theo nội dung.
Chƣơng III: Nghiên cứu thử nghiệm thư viện tìm kiếm văn bản dtSearch.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
4
CHƢƠNG I: TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM
THÔNG TIN THEO NỘI DUNG
1.1. Khái quát về cơ sở dữ liệu đa phƣơng tiện
1.1.1 Giới thiệu
Trên thế giới tồn tại một lượng rất lớn dữ liệu số, các dữ liệu từ tivi,
Internet, qua phương tiện truyền thông hay có được từ nhiều phương tiện khác
nhau như máy quay (video) kỹ thuật số... Các dòng dữ liệu số càng ngày càng
tăng, gồm các loại dữ liệu đa phương tiện kết hợp với dữ liệu hình ảnh, âm
thanh và văn bản. Hiện nay, chúng ta đều biết Internet đang được phát triển
như thế nào. Trong quá trình trao đổi thông tin, người sử dụng có xu hướng
chủ yếu là xử lý trên kiểu dữ liệu đa phương tiện. Tầm quan trọng của việc
vận dụng thông tin sẽ dần dần thay đổi từ thông tin số tới thông tin ở dạng đa
phương tiện: dữ liệu hình ảnh, âm thanh và tài liệu văn bản. Vì thế, đa phương
tiện là thông điệp cho xã hội thông tin ngày nay.
Đa phương tiện có thể trở thành dạng giao tiếp tự nhiên, nhưng nó
không hoàn toàn tự do. Ngữ nghĩa của một thông điệp trong thông tin số và
xác thực hơn là dòng bit của hình ảnh và âm thanh. Tín hiệu hình ảnh biểu thị
cái gì, ý nghĩa của văn bản và nói gì về âm thanh là không dễ dàng lập luận
với một máy tính. Những điều thuộc về ngữ nghĩa đó cần được xử lý từ dữ
liệu thô bằng việc tổ chức, chuyển đổi, phân tích và phân lớp.
Có rất nhiều định nghĩa khác nhau về CSDL đa phương tiện: Theo
nghiên cứu EURESCOM thì CSDL đa phương tiện là một CSDL có hiệu năng
cao, sức chứa lớn với khả năng hỗ trợ các kiểu dữ liệu đa phương tiện cũng
như các kiểu dữ liệu chữ số cơ bản khác và nó có thể quản lý một khối lượng
rất lớn thông tin đa phương tiện.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
5
Dữ liệu âm thanh (audio data): Tín hiệu âm thanh bao gồm tiếng nói,
âm nhạc, tiếng động và mọi sự kết hợp các âm thanh khác nhau. Việc lưu lại
một bài diễn thuyết, một cuộc đàm thoại, các đoạn audio theo một chủ đề nào
đó có ý nghĩa rất lớn trong thực tế. Ví dụ, qua đài phát thanh chúng ta có thể
thu thập được nhiều thông tin với các chủ đề khác nhau, có thể tìm kiếm các
bài hát trên internet, thu thập các đoạn audio bài giảng trong đào tạo từ xa, học
ngoại ngữ qua các đoạn audio...
Dữ liệu hình ảnh (image data): Dữ liệu ảnh có thể được dùng để lưu trữ
dấu vân tay, nhận dạng khuôn mặt trong điều tra tội phạm; ảnh thẻ trong quản
lý nhân sự; trong những yêu cầu lưu lại hình ảnh như dữ liệu ảnh cổ vật, hiện
tượng thiên nhiên, trái đất… Hơn nữa, trong y học cần có một cơ sở dữ liệu
ảnh để có thể truy vấn các triệu trứng để tìm ra những căn bệnh tương tự
không chỉ bằng văn bản mà bằng cả hình ảnh, ảnh chụp X quang, ảnh chụp cắt
lớp... Trong thời gian gần đây, việc sử dụng CSDL ảnh đã mang lại hiệu quả
to lớn trong nhiều lĩnh vực khác nhau của đời sống, kinh tế và xã hội.
Dữ liệu video (video data): Video giống như một tập các hình ảnh ở các
thời điểm được sắp xếp, biểu diễn theo một chuỗi thời gian nhất định. Trên
thực tế chính là chuyển động của các điểm ảnh từ trạng thái này sang trạng
thái khác, hay là sự chuyển động của mỗi đối tượng riêng lẻ được phân tách từ
dữ liệu video. Dữ liệu video được ứng dụng nhiều trong công nghệ giải trí
(phim ảnh, clip âm nhạc..), trong đào tạo từ xa (qua những video bài giảng)...
Dữ liệu văn bản (text data): Sự biểu diễn cơ bản của văn bản là cách
tiếp cận với “túi các từ” (bag – of – words). Các dữ liệu văn bản tiêu biểu như:
Các trang web, tiêu đề bài viết, các bản báo cáo, bài báo được công bố, các
ứng dụng hỗ trợ nghiên cứu, các trang tài liệu, bách khoa toàn thư, thư mục,
chép sử, thư điện tử, các bản sao xét xử của toà án, kho thư viện... Điều quan
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
6
trọng là khối lượng dữ liệu văn bản ngày càng lớn và được sử dụng lưu trữ tài
liệu trong mọi cơ quan tổ chức. Vì thế, quan tâm đến xử lý văn bản là rất cần
thiết.
1.1.2 Mục tiêu chính
Theo cách nhìn trên đây ta nhận thấy cơ sở dữ liệu đa phương tiện bao
gồm năm mục tiêu chính như sau:
- Hỗ trợ các kiểu dữ liệu (Type=Structure+Operations) đa phương tiện.
- Có khả năng quản lý số lượng lớn các đối tượng đa phương tiện.
- Hỗ trợ hiệu năng cao, sức chứa cao và quản trị lưu trữ hiệu quả.
- Có các khả năng của hệ CSDL truyền thống.
- Có khả năng truy tìm thông tin đa phương tiện.
1.1.3 Mô hình dữ liệu đa phƣơng tiện
Mô hình dữ liệu MIRS (Multimedia Information Retrieval System) hình thành
trên nền tảng nguyên tắc hướng đối tượng và phân cấp đa tầng.
Tầng đối tượng
Đối tượng bao gồm một hay nhiều mục media với các quan hệ không
gian và thời gian xác định, như với một đối tượng đa phương tiện là một trang
bao gồm một vài hình ảnh và âm thanh kèm theo. Nhiệm vụ mấu chốt là làm
thế nào để chỉ ra các quan hệ không gian và thời gian. Quan hệ không gian
được đặc tả bởi kích thước và vị trí cửa sổ hiển thị của mỗi mục. Phương pháp
chung đặc tả thời gian là đặc tả trên cơ sở trục thời gian, trong đó thời gian bắt
đầu và độ dài mỗi mục được xác định trên cơ sở đồng hồ chung. Phương pháp
khác là mô hình điều khiển theo sự kiện.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
7
Thời gian
Không gian
Văn bản
Hình ảnh
Thô
Tầng đối
tƣợng
Tổng hợp
Âm thanh
Video
Nén
Đa mức
xám
Màu
Tầng kiểu
media
Tầng khuôn
mẫu media
JPEG
JPIG
DPCM
Hình 1.1 Mô hình dữ liệu đa phương tiện
Tầng loại media
Tầng này bao gồm các loại media như văn bản, hình ảnh, audio và
video. Các loại này được suy diễn từ lớp media trừu tượng chung.
Tại mức này, các đặc trưng và thuộc tính được đặc tả. Ví dụ loại media ảnh:
kích thước, biểu đồ màu, các đối tượng chính chứa trong nó... được đặc tả. Các
đặc trưng này được sử dụng trực tiếp vào tìm kiếm và tính toán khoảng cách.
Tầng khuôn mẫu media
Tầng này đặc tả khuôn mẫu, trong đó dữ liệu được lưu trữ. Thông
thường, media có nhiều khuôn mẫu, ví dụ ảnh có thể là nén hay ảnh thô. Hơn
nữa có rất nhiều kỹ thuật và chuẩn nén khác nhau. Thông tin chứa trong tầng
này được sử dụng để giải mã, phân tích và trình diễn.
Các nhiệm vụ khác
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
8
Chú ý rằng, các ứng dụng khác nhau có thể cần các mô hình dữ liệu
khác nhau. Tuy nhiên nhiều ứng dụng cùng chia sẻ mô hình cơ sở chung, nếu
được thiết kế tốt thì có thể bổ sung các đặc trưng và đối tượng mới để đáp ứng
yêu cầu ứng dụng cụ thể.
Đến nay, chưa có chuẩn chung cho các tầng mô hình dữ liệu mô tả trên.
Bởi các ứng dụng MIRS hiện nay chủ yếu là đặc thù, chỉ tập trung vào giới
hạn số đặc trưng và loại media. Rất nhiều công việc phải làm khi mô hình hóa
dữ liệu đa phương tiện để phát triển MIRS và MMDBMS (MultiMedia
DataBase Manager System).
1.2. Hệ thống truy tìm thông tin
Sự phát triển của CSDL đa phương tiện cùng với sự phát triển mạnh mẽ
của mạng máy tính làm cho hệ thống IR (Information retrieval) ngày càng
được quan tâm nhiều hơn.
1.2.1 Khái quát
Từ những năm 1940, vấn đề lưu trữ và truy tìm thông tin đã thu hút sự
chú ý của các nhà nghiên cứu. Vấn đề truy tìm đó là: chúng ta có lượng thông
tin rất lớn, yêu cầu truy tìm chính xác và nhanh chóng đang trở nên cần thiết.
Yếu tố được quan tâm là thông tin liên quan có thể bị bỏ qua khi nó chưa
được tìm đến, dần dần lặp lại nhiều lần quá trình và kết quả đó. Với sự xuất
hiện của máy tính điện tử, rất nhiều ý tưởng về việc sử dụng chúng để cung
cấp những hệ thống truy tìm thông tin nhanh chóng và thông minh. Ví dụ:
trong thư viện luôn có bài toán về truy tìm và lưu trữ thông tin, hay một số
nhiệm vụ thông thường như việc lập danh mục, việc quản lý chung và đã có
cách thực hiện đem lại kết quả tốt bằng những chiếc máy tính. Tuy nhiên, vấn
đề của hiệu quả truy tìm phần lớn vẫn chưa được giải quyết.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
9
Khi những chiếc máy tính tốc độ cao sẵn sàng cho công việc không
thuộc số hóa (non-numerical), nhiều người cho rằng một máy tính có thể đọc
toàn bộ tập hợp tài liệu để trích những tài liệu có liên quan. Nó nhanh chóng
trở nên hiển nhiên rằng, việc sử dụng ngôn ngữ tự nhiên của một tài liệu vấn
đề không chỉ là đầu vào (input) và kho lưu trữ mà còn vấn đề tri thức thuộc
đặc trưng nội dung tài liệu chưa được giải quyết. Có thể hy vọng sự phát triển
trong tương lai có thể tạo đầu vào (input) và kho ngôn ngữ tự nhiên khả thi
hơn. Nhưng việc mô tả tự động mà những phần mềm cố gắng “sao” lại quá
trình “đọc” của con người quả thực là một vấn đề hết sức khó khăn. Khó khăn
hơn, “việc đọc” bao gồm việc rút trích thông tin, cú pháp và ngữ nghĩa, từ văn
bản và sử dụng nó để quyết định xem là mỗi tài liệu có liên quan hay không
đến một yêu cầu cụ thể. Khó khăn không chỉ làm thế nào để trích thông tin mà
còn làm sao để sử dụng nó quyết định sự phù hợp.
“Sự phù hợp”, đó là khái niệm trung tâm của truy tìm thông tin. Mục
đích của một chiến lược truy tìm tự động là truy tìm tất cả các tài liệu phù hợp
ở cùng thời điểm truy tìm, có thể bao gồm một vài tài liệu không thỏa mãn.
Tìm ra các đặc trưng của tài liệu để khi tài liệu phù hợp với truy vấn, nó cho
phép tài liệu được truy tìm để trả lời truy vấn. Khi chỉ mục được làm tự động,
nó được giả thiết bằng việc đẩy văn bản của một tài liệu hoặc truy vấn vào
cùng bộ phân tích tự động, output sẽ là một biểu diễn của nội dung và nếu tài
liệu là phù hợp với truy vấn thì một thủ tục tính toán sẽ cho thấy điều này.
Truy tìm dựa trên cơ sở nội dung (Content- based retrieval): Người sử
dụng có thể chỉ rõ các điều kiện lựa chọn dựa trên những nội dung của các đối
tượng đa phương tiện. Ví dụ, người sử dụng tìm kiếm ảnh, sử dụng truy vấn
như: “Tìm tất cả các ảnh giống với ảnh này” và “Tìm tất cả các ảnh chứa ít
nhất 3 máy bay”. Các hình ảnh được thêm vào cơ sở dữ liệu, DBMS
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
10
(DataBase Manager System) phải phân tích chúng và tự động trích chọn các
đặc điểm (extract features) để đưa ra câu trả lời giống với các truy vấn. Thông
tin này có thể được sử dụng để tìm kiếm các hình ảnh thoả mãn với một truy
vấn đưa ra. Một cách tiếp cận khác, người sử dụng muốn tìm các tài liệu mà
mình quan tâm có thể sử dụng các kỹ thuật truy tìm thông tin và tìm kiếm từ
khoá. Nó vẫn không thực sự rõ ràng là làm thế nào để truy tìm các miền cụ thể
đó và các kỹ thuật tìm kiếm có thể được kết hợp hiệu quả với các truy vấn
DBMS truyền thống.
1.2.2 Vấn đề truy tìm tài liệu văn bản
Kỹ thuật truy vấn tài liệu văn bản được gọi chung là kỹ thuật truy tìm
thông tin (IR). Các hệ thống IR cổ điển chủ yếu là làm việc trên văn bản (text)
và kỹ thuật IR trong hệ thống đa phương tiện rất quan trọng vì hai lý do chính
sau đây:
- Đang tồn tại số lượng lớn tài liệu văn bản trong các thư viện. Văn bản là tài
nguyên rất quan trọng đối với các cơ quan tổ chức. Cần có IR đủ tốt để sử
dụng có hiệu quả các thông tin lưu trữ trong các tài liệu.
- Văn bản được sử dụng để mô tả các phương tiện khác như video, audio, ảnh
để có thể sử dụng các kỹ thuật IR qui ước vào việc truy vấn các thông tin đa
phương tiện.
Mục đích của người sử dụng hệ truy tìm:
- Độ chính xác: Truy tìm đúng thông tin mà người sử dụng mong muốn, đúng
với truy vấn. Có thể có một vài tài liệu trong câu trả lời là không chính xác
song tất cả các câu trả lời phù hợp đều được truy vấn.
- Tốc độ truy tìm: Việc truy tìm phải được thực hiện nhanh chóng.
Nhiệm vụ chính của thiết kế hệ thống IR là để nhằm giải quyết hai vấn đề:
- Trình diễn và truy vấn tài liệu như thế nào.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
11
- So sánh tính tương đồng giữa các tài liệu và biểu diễn truy vấn ra sao.
Các mô hình truy vấn sẽ xác định hai khía cạnh này. Để nâng cao hiệu năng
truy vấn, việc xử lý ngôn ngữ tự nhiên và các kỹ thuật trí tuệ nhân tạo được áp
dụng. Vì tính nhập nhằng và tồn tại nhiều biến thể của ngôn ngữ tự nhiên, hầu
như không thể truy vấn mọi tài liệu liên quan hay loại đi mọi tài liệu không
liên quan. Do vậy, thước đo hiệu năng IR là rất quan trọng.
Một hệ thống truy tìm thông tin tiêu biểu
Một hệ thống IR tiêu biểu được minh hoạ bằng phương pháp hộp đen. Gồm ba
thành phần: input, bộ xử lý và output.
Bắt đầu với đầu vào (input), vấn đề chính ở đây là có được biểu diễn
của tài liệu và truy vấn thích hợp bằng máy tính. Có thể nói các hệ thống truy
tìm hầu hết dựa trên máy tính chỉ lưu trữ biểu diễn của tài liệu (hoặc truy vấn),
có nghĩa là một tài liệu văn bản không sử dụng nữa khi nó đã được xử lý để
đưa ra các đặc trưng. Ví dụ, một biểu diễn tài liệu có thể là một danh sách các
từ được xem là quan trọng được trích ra.
Hình 1.2 Hệ thống IR tiêu biểu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
12
Khi một hệ thống truy tìm trực tuyến (on-line), người sử dụng có khả
năng thay đổi yêu cầu trong một phiên tìm kiếm ở trạng thái truy tìm mẫu, do
đó hy vọng cải thiện được quá trình truy tìm xảy ra sau. Một thủ tục như vậy
thông thường cho phép phản hồi (Feedback).
Hơn nữa, bộ xử lý, một phần của hệ thống truy tìm có liên quan tới quá trình
truy tìm. Bộ xử lý có thể bao gồm cấu trúc thông tin theo cách thích hợp nào
đó, giống như phân loại. Trên thực tế, nó cũng bao gồm cả việc biểu diễn chức
năng truy tìm, đó là thực hiện chiến lược tìm kiếm câu trả lời cho một truy
vấn. Trong biểu đồ, các tài liệu được đặt vào một ô riêng biệt để nhấn mạnh
thực tế là không có đầu vào (input) rõ ràng nhưng có thể sử dụng trong suốt
quá trình truy tìm.
Cuối cùng, chúng ta xét đến đầu ra (output) thường là một tập trích
dẫn hoặc các tài liệu. Trong một hệ thống hoạt động đây là phần còn lại. Tuy
nhiên, một hệ thống thực nghiệm có thể cho phép thực hiện việc đánh giá.
1.2.3 Phân biệt các hệ thống IR và DBMS
Phân biệt được sự khác nhau giữa hai hệ thống truy tìm văn bản (IR) và
DBMS giúp ta hiểu rõ các kỹ thuật truy tìm văn bản.
- DBMS: Chứa các bản ghi có cấu trúc đồng nhất. Mỗi bản ghi được đặc
trưng bởi tập các thuộc tính. Các giá trị thuộc tính được gán cho bản ghi để
mô tả bản ghi này một cách rõ ràng và đầy đủ.
Truy vấn ở đây dựa trên cơ sở đối sánh chính xác giữa câu truy vấn và
các giá trị thuộc tính trong bản ghi. Mỗi bản ghi truy vấn chứa các giá trị
thuộc tính chính xác được đặc tả trong câu truy vấn (có thể cả giá trị thuộc
tính không được đề cập đến trong câu truy vấn).
- Hệ thống IR: Các bản ghi không có cấu trúc. Chúng không chứa các
thuộc tính cố định, chỉ đơn thuần là tài liệu văn bản. Các tài liệu này có thể chỉ
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
13
mục bằng các từ khóa, bộ mô tả tài liệu, hay các thuật ngữ (term) chỉ mục.
Mỗi thuật ngữ chỉ mục được sử dụng để mô tả nội dung văn bản chỉ theo một
khía cạnh nào đó, không đầy đủ và không rõ ràng cho toàn bộ nội dung văn
bản. Nhiều thuật ngữ chỉ mục được gắn theo tài liệu hay văn bản cụ thể. Bởi
vì các thao tác truy vấn văn bản phụ thuộc trực tiếp vào nội dung đại diện, sử
dụng để mô tả các bản ghi lưu trữ, do vậy cần phải có nhiều cố gắng để tập
trung vào phân tích nội dung của các tài liệu lưu trữ và vấn đề sinh từ khóa,
chỉ mục.
Tóm lại, các tài liệu kết quả truy vấn trong DBMS là hoàn toàn liên
quan đến câu truy vấn và có ích với người sử dụng. Nhưng trong hệ thống IR,
các tài liệu được xem là liên quan đến câu truy vấn nhưng có thể không liên
quan và không có ích với người sử dụng
Câu truy vấn
Tài liệu văn bản
Xử lý
Xử lý
Đại diện câu
truy vấn
Đại diện tài
liệu
Đối sánh
(tính toán độ
tương đồng)
Kết quả truy vấn
Đánh giá mức
độ thích hợp
phản hồi
Hình 1.3 Tiến trình truy vấn tài liệu
Bên phải hình 1.3 chỉ ra các tài liệu được xử lý off-line để có đại diện
(mô tả). Các đại diện này được lưu trữ cùng với các tài liệu.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
http://www.lrc-tnu.edu.vn
- Xem thêm -