Tài liệu Tìm kiếm văn bản theo nội dung và ứng dụng

.PDF

1568

nhattuvisu Báo vi phạm

Tải xuống 34

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀ THÔNG HÀ THANH THỦY TÌM KIẾM VĂN BẢN THEO NỘI DUNG VÀ ỨNG DỤNG Luận văn thạc sĩ khoa học máy tính Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Thái nguyên – 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CẢM ƠN Để hoàn thành chương trình cao học, tôi đã nhận được sự hướng dẫn, giúp đỡ và góp ý nhiệt tình của quý thầy cô trường Đại học Công nghệ thông tin - Truyền thông, Đại học Thái Nguyên. Trước hết, tôi xin chân thành cảm ơn quí thầy cô trường Đại học Công nghệ thông tin - Truyền thông, đặc biệt là những thầy cô đã tận tình dạy bảo cho tôi suốt thời gian học tập tại trường. Tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Đặng Văn Đức người thầy đã dành rất nhiều thời gian, tâm huyết và sự tận tình giúp đỡ, hướng dẫn tôi trong suốt quá trình nghiên cứu để hoàn thành luận văn này. Đồng thời, tôi xin chân thành cảm ơn Sở Giáo dục và đào tạo tỉnh Thái Nguyên, Ban Giám hiệu trường THPT Lương Ngọc Quyến đã tạo điều kiện giúp đỡ tôi về mọi mặt để tôi học tập và hoàn thành tốt khóa học. Cuối cùng tôi xin chân thành cảm ơn gia đình và bạn bè, những người đã động viên, khuyến khích tôi trong suốt quá trình học tập và nghiên cứu. Mặc dù đã có nhiều cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và năng lực của mình, tuy nhiên vẫn không thể tránh khỏi những thiếu sót, tôi rất mong nhận được những đóng góp quí báu của quí thầy cô và các bạn. Thái Nguyên, ngày 20 tháng 6 năm 2012 Học viên Hà Thanh Thủy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Thái Nguyên, ngày 20 tháng 6 năm 2012 Học viên Hà Thanh Thủy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii DANH MỤC CÁC KÍ HIỆU, CHỮ CÁI VIẾT TẮT Từ gốc CSDL DBMS (DataBase Management System) IR (Information Retrieval) IDF(Inverse Document Frequency) LSI(Latent Semantic Indexing) MMDBMS (Multimedia Database Management System) SVD(Singular Value Decomposition) TF (Term Frequency) Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên Giải nghĩa Cơ sở dữ liệu Hệ quản trị Cơ sở dữ liệu Truy tìm thông tin Tần số xuất hiện tài liệu phù hợp Chỉ số hóa ngữ nghĩa ẩn Hệ quản trị cơ sở dữ liệu đa phương tiện Kỹ thuật tách giá trị đơn Tần số xuất hiện thuật ngữ http://www.lrc-tnu.edu.vn iv DANH MỤC HÌNH VẼ Hình 1.1 Mô hình dữ liệu đa phương tiện Hình 1.2 Hệ thống IR tiêu biểu Hình 1.3 Tiến trình truy vấn tài liệu Hình 1.4 Đồ thị so sánh hiệu năng Hình 2.1 Mô tả các sự kết hợp của Boolean Hình 2.2 Sử dụng các khái niệm cho truy vấn Hình 2.3 Sơ đồ SVD của một ma trận hình chữ nhật thuật ngữ-tài liệu Hình 2.4 Sơ đồ của SVD được giảm lược của một ma trận thuật ngữ-tài liệu Hình 2.5 Đồ thị Recall – Precision của thuật toán LSI Hình 2.6 Mô hình khái niệm cơ bản Hình 3.1 Sơ đồ các chức năng thành phần của dtSearch Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v MỤC LỤC MỞ ĐẦU ...........................................................................................................1 CHƢƠNG I: TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM........................4 THÔNG TIN THEO NỘI DUNG ................................................................4 1.1. Khái quát về cơ sở dữ liệu đa phương tiện ......................................... 4 1.1.1 Giới thiệu ........................................................................................4 1.1.2 Mục tiêu chính ...............................................................................6 1.1.3 Mô hình dữ liệu đa phương tiện ....................................................6 1.2. Hệ thống truy tìm thông tin ................................................................. 8 1.2.1 Khái quát ........................................................................................8 1.2.2 Vấn đề truy tìm tài liệu văn bản...................................................10 1.2.3 Phân biệt các hệ thống IR và DBMS ...........................................12 1.3. Trích chọn đặc trưng, chỉ mục và đo tính tương tự........................... 14 1.3.1 Trích chọn đặc trưng ....................................................................14 1.3.2 Chỉ số hoá cấu trúc.......................................................................16 1.3.3 Đo tính tương tự ...........................................................................17 1.4. Xếp hạng tài liệu ............................................................................... 17 CHƢƠNG II: MỘT SỐ KỸ THUẬT TÌM KIẾM THÔNG TIN VĂN ..23 BẢN THEO NỘI DUNG.............................................................................23 2.1. Mô hình tìm kiếm thông tin Bool ...................................................... 23 2.1.1 Truy vấn Boolean.........................................................................23 2.1.2 Cấu trúc tệp chỉ mục .....................................................................25 2.1.3 Chỉ mục tự động...........................................................................28 2.1.4 Tổng kết về chỉ mục tự động tài liệu ...........................................31 2.2. Tìm kiếm văn bản trên cơ sở mô hình không gian vector ................ 32 2.3. Tìm kiếm văn bản trên cơ sở kỹ thuật LSI ........................................ 34 2.3.1 Ý tưởng cơ bản của LSI ................................................................34 2.3.2 Một số khái niệm cơ bản...............................................................36 2.3.3 Kỹ thuật SVD (singular value decomposition).............................38 2.4. Mô hình tìm kiếm theo xác suất ........................................................ 41 2.4.1 Lịch sử của mô hình xác suất trong IR .........................................41 2.4.2 Không gian biến cố .......................................................................42 2.4.3 Một mô hình khái niệm.................................................................43 2.4.4 Về các khái niệm “liên quan” và “xác suất liên quan” .................45 2.4.5 Nguyên tắc xếp hạng xác suất ......................................................45 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi 2.4.6 Mô hình nhị phân độc lập (BIM) ..................................................46 CHƢƠNG III: NGHIÊN CỨU THỬ NGHIỆM THƢ VIỆN TÌM .........48 KIẾM VĂN BẢN DTSEARCH .................................................................48 3.1 Bài toán............................................................................................... 48 3.2 Thư viện tìm kiếm văn bản DTSearch ............................................... 49 3.2.1 Giới thiệu chung ...........................................................................49 3.2.2 Yêu cầu phần cứng .......................................................................50 3.2.3 Cấu trúc các chức năng và thành phần của dtSearch ....................50 3.2.4 Sử dụng dtSearch trong môi trường lập trình Java ......................52 KẾT LUẬN .....................................................................................................58 TÀI LIỆU THAM KHẢO .............................................................................59 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 MỞ ĐẦU Công nghệ thông tin trên thế giới đang phát triển rất nhanh trong giai đoạn hiện nay. Những tiến bộ của khoa học công nghệ thông tin được áp dụng phục vụ công tác nghiên cứu khoa học, công tác quản lý, sản xuất và phục vụ đời sống con người hàng ngày. Càng ngày, người ta càng nhận thấy tính hiệu quả, tiện ích của khoa học trí tuệ đã từng bước thay thế lao động thủ công, giảm bớt thời gian lao động, tiết kiệm chi phí và tạo nên rất nhiều tiện ích khác. Có thể khẳng định rằng: công nghệ thông tin đã mở ra một kỉ nguyên mới, kỉ nguyên của tự động hoá và đã tạo ra một bước nhảy vọt của nền khoa học thế giới cũng như nền văn minh nhân loại Trong xu thế phát triển chung của xã hội cũng như định hướng của Đảng và Nhà nước ta trong việc áp dụng công nghệ thông tin trong tất cả các lĩnh vực đời sống, với sự phát triển mạnh mẽ của công nghệ thông tin, tất cả các lĩnh vực đời sống trong xã hội đã tạo ra một khối lượng dữ liệu khổng lồ. Trong rất nhiều tình huống, chúng ta phải tìm ra những thông tin cần thiết từ kho dữ liệu khổng lồ đã có ấy. Tuy nhiên, vì khối lượng dữ liệu lớn, vì thời gian hạn hẹp cho nên nhiều khi việc tìm kiếm dữ liệu gặp rất nhiều khó khăn. Do đó, cần có các hệ thống tìm kiếm thông tin để hỗ trợ người dùng tìm kiếm nhanh và hiệu quả những thông tin mà họ quan tâm. Việc tìm tòi nghiên cứu ứng dụng những thuật toán giúp cho việc tìm kiếm dữ liệu được nhanh chóng, tiết kiệm thời gian, có hệ thống và khoa học là một việc làm hết sức cần thiết trong giai đoạn hiện nay. Văn bản là một trong số các dạng của dữ liệu đa phương tiện, nó được quan tâm từ hàng nghìn năm trước trong việc tổ chức sắp xếp và lưu trữ. Tài liệu văn bản chiếm đa số trong mọi cơ quan tổ chức, đặc biệt là trong thư viện Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 và còn được sử dụng để mô tả các dạng khác của dữ liệu đa phương tiện như video, audio, hình ảnh. Số lượng tài liệu văn bản ngày càng lớn và có vai trò vô cùng quan trọng, vì thế việc lưu trữ, xử lý và truy tìm thủ công trước đây không thể hoặc khó có thể thực hiện được. Vì vậy mục tiêu của luận văn này nhằm tìm hiểu một số kỹ thuật tìm kiếm văn bản theo nội dung trong cơ sở dữ liệu đa phương tiện nhằm đáp ứng được những nhu cầu cấp thiết của thời đại bùng nổ thông tin điện tử. Trên thực tế, đã có nhiều công trình nghiên cứu về vấn đề này được công bố ở cả trong và ngoài nước. Mục tiêu luận văn với đề tài”Tìm kiếm văn bản theo nội dung và ứng dụng” mà tôi hướng tới là nghiên cứu một số kỹ thuật/phương pháp mới, thử đánh giá so sánh và ứng dụng vào môi trường cụ thể. Đối tƣợng và phạm vi nghiên cứu Hệ thống đa phương tiện là một vấn đề phức tạp và rộng lớn, do vậy phạm vi nghiên cứu của luận văn chỉ giới hạn trong việc sử dụng một số kỹ thuật tìm kiếm văn bản theo nội dung, sau đó phát triển chương trình demo ứng dụng tìm kiếm văn bản theo nội dung. Hƣớng nghiên cứu của đề tài - Nắm vững qui trình thiết kế CSDL đa phương tiện, trong đó CSDL văn bản là thành phần quan trọng. - Nghiên cứu một số kỹ thuật tìm kiếm văn bản theo nội dung như: mô hình tìm kiếm Bool, mô hình tìm kiếm không gian vector, mô hình tìm kiếm theo xác suất, kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn (Latent Sematic Indexing-LSI). - Nghiên cứu các độ đo phù hợp để đánh giá hiệu năng hệ thống Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 - Xây dựng thử nghiệm chương trình demo tìm kiếm văn bản theo nội dung trên cơ sở bộ thư viện dtSearch. Phƣơng pháp nghiên cứu - Tổng hợp tài liệu từ nhiều nguồn khác nhau. - Phân tích, liệt kê, so sánh, đối chiếu, trực quan, thực nghiệm,… Cấu trúc luận văn Ngoài phần mở đầu giới thiệu ý nghĩa của chủ đề nghiên cứu và phần kết luận nêu lên các kết quả chính đã đạt được, luận văn gồm các chương sau đây: Chƣơng I: Giới thiệu tổng quan về hệ thống tìm kiếm thông tin theo nội dung. Chƣơng II: Một số kỹ thuật tìm kiếm thông tin văn bản theo nội dung. Chƣơng III: Nghiên cứu thử nghiệm thư viện tìm kiếm văn bản dtSearch. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4 CHƢƠNG I: TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THÔNG TIN THEO NỘI DUNG 1.1. Khái quát về cơ sở dữ liệu đa phƣơng tiện 1.1.1 Giới thiệu Trên thế giới tồn tại một lượng rất lớn dữ liệu số, các dữ liệu từ tivi, Internet, qua phương tiện truyền thông hay có được từ nhiều phương tiện khác nhau như máy quay (video) kỹ thuật số... Các dòng dữ liệu số càng ngày càng tăng, gồm các loại dữ liệu đa phương tiện kết hợp với dữ liệu hình ảnh, âm thanh và văn bản. Hiện nay, chúng ta đều biết Internet đang được phát triển như thế nào. Trong quá trình trao đổi thông tin, người sử dụng có xu hướng chủ yếu là xử lý trên kiểu dữ liệu đa phương tiện. Tầm quan trọng của việc vận dụng thông tin sẽ dần dần thay đổi từ thông tin số tới thông tin ở dạng đa phương tiện: dữ liệu hình ảnh, âm thanh và tài liệu văn bản. Vì thế, đa phương tiện là thông điệp cho xã hội thông tin ngày nay. Đa phương tiện có thể trở thành dạng giao tiếp tự nhiên, nhưng nó không hoàn toàn tự do. Ngữ nghĩa của một thông điệp trong thông tin số và xác thực hơn là dòng bit của hình ảnh và âm thanh. Tín hiệu hình ảnh biểu thị cái gì, ý nghĩa của văn bản và nói gì về âm thanh là không dễ dàng lập luận với một máy tính. Những điều thuộc về ngữ nghĩa đó cần được xử lý từ dữ liệu thô bằng việc tổ chức, chuyển đổi, phân tích và phân lớp. Có rất nhiều định nghĩa khác nhau về CSDL đa phương tiện: Theo nghiên cứu EURESCOM thì CSDL đa phương tiện là một CSDL có hiệu năng cao, sức chứa lớn với khả năng hỗ trợ các kiểu dữ liệu đa phương tiện cũng như các kiểu dữ liệu chữ số cơ bản khác và nó có thể quản lý một khối lượng rất lớn thông tin đa phương tiện. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 5 Dữ liệu âm thanh (audio data): Tín hiệu âm thanh bao gồm tiếng nói, âm nhạc, tiếng động và mọi sự kết hợp các âm thanh khác nhau. Việc lưu lại một bài diễn thuyết, một cuộc đàm thoại, các đoạn audio theo một chủ đề nào đó có ý nghĩa rất lớn trong thực tế. Ví dụ, qua đài phát thanh chúng ta có thể thu thập được nhiều thông tin với các chủ đề khác nhau, có thể tìm kiếm các bài hát trên internet, thu thập các đoạn audio bài giảng trong đào tạo từ xa, học ngoại ngữ qua các đoạn audio... Dữ liệu hình ảnh (image data): Dữ liệu ảnh có thể được dùng để lưu trữ dấu vân tay, nhận dạng khuôn mặt trong điều tra tội phạm; ảnh thẻ trong quản lý nhân sự; trong những yêu cầu lưu lại hình ảnh như dữ liệu ảnh cổ vật, hiện tượng thiên nhiên, trái đất… Hơn nữa, trong y học cần có một cơ sở dữ liệu ảnh để có thể truy vấn các triệu trứng để tìm ra những căn bệnh tương tự không chỉ bằng văn bản mà bằng cả hình ảnh, ảnh chụp X quang, ảnh chụp cắt lớp... Trong thời gian gần đây, việc sử dụng CSDL ảnh đã mang lại hiệu quả to lớn trong nhiều lĩnh vực khác nhau của đời sống, kinh tế và xã hội. Dữ liệu video (video data): Video giống như một tập các hình ảnh ở các thời điểm được sắp xếp, biểu diễn theo một chuỗi thời gian nhất định. Trên thực tế chính là chuyển động của các điểm ảnh từ trạng thái này sang trạng thái khác, hay là sự chuyển động của mỗi đối tượng riêng lẻ được phân tách từ dữ liệu video. Dữ liệu video được ứng dụng nhiều trong công nghệ giải trí (phim ảnh, clip âm nhạc..), trong đào tạo từ xa (qua những video bài giảng)... Dữ liệu văn bản (text data): Sự biểu diễn cơ bản của văn bản là cách tiếp cận với “túi các từ” (bag – of – words). Các dữ liệu văn bản tiêu biểu như: Các trang web, tiêu đề bài viết, các bản báo cáo, bài báo được công bố, các ứng dụng hỗ trợ nghiên cứu, các trang tài liệu, bách khoa toàn thư, thư mục, chép sử, thư điện tử, các bản sao xét xử của toà án, kho thư viện... Điều quan Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 6 trọng là khối lượng dữ liệu văn bản ngày càng lớn và được sử dụng lưu trữ tài liệu trong mọi cơ quan tổ chức. Vì thế, quan tâm đến xử lý văn bản là rất cần thiết. 1.1.2 Mục tiêu chính Theo cách nhìn trên đây ta nhận thấy cơ sở dữ liệu đa phương tiện bao gồm năm mục tiêu chính như sau: - Hỗ trợ các kiểu dữ liệu (Type=Structure+Operations) đa phương tiện. - Có khả năng quản lý số lượng lớn các đối tượng đa phương tiện. - Hỗ trợ hiệu năng cao, sức chứa cao và quản trị lưu trữ hiệu quả. - Có các khả năng của hệ CSDL truyền thống. - Có khả năng truy tìm thông tin đa phương tiện. 1.1.3 Mô hình dữ liệu đa phƣơng tiện Mô hình dữ liệu MIRS (Multimedia Information Retrieval System) hình thành trên nền tảng nguyên tắc hướng đối tượng và phân cấp đa tầng. Tầng đối tượng Đối tượng bao gồm một hay nhiều mục media với các quan hệ không gian và thời gian xác định, như với một đối tượng đa phương tiện là một trang bao gồm một vài hình ảnh và âm thanh kèm theo. Nhiệm vụ mấu chốt là làm thế nào để chỉ ra các quan hệ không gian và thời gian. Quan hệ không gian được đặc tả bởi kích thước và vị trí cửa sổ hiển thị của mỗi mục. Phương pháp chung đặc tả thời gian là đặc tả trên cơ sở trục thời gian, trong đó thời gian bắt đầu và độ dài mỗi mục được xác định trên cơ sở đồng hồ chung. Phương pháp khác là mô hình điều khiển theo sự kiện. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 7 Thời gian Không gian Văn bản Hình ảnh Thô Tầng đối tƣợng Tổng hợp Âm thanh Video Nén Đa mức xám Màu Tầng kiểu media Tầng khuôn mẫu media JPEG JPIG DPCM Hình 1.1 Mô hình dữ liệu đa phương tiện Tầng loại media Tầng này bao gồm các loại media như văn bản, hình ảnh, audio và video. Các loại này được suy diễn từ lớp media trừu tượng chung. Tại mức này, các đặc trưng và thuộc tính được đặc tả. Ví dụ loại media ảnh: kích thước, biểu đồ màu, các đối tượng chính chứa trong nó... được đặc tả. Các đặc trưng này được sử dụng trực tiếp vào tìm kiếm và tính toán khoảng cách. Tầng khuôn mẫu media Tầng này đặc tả khuôn mẫu, trong đó dữ liệu được lưu trữ. Thông thường, media có nhiều khuôn mẫu, ví dụ ảnh có thể là nén hay ảnh thô. Hơn nữa có rất nhiều kỹ thuật và chuẩn nén khác nhau. Thông tin chứa trong tầng này được sử dụng để giải mã, phân tích và trình diễn. Các nhiệm vụ khác Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 8 Chú ý rằng, các ứng dụng khác nhau có thể cần các mô hình dữ liệu khác nhau. Tuy nhiên nhiều ứng dụng cùng chia sẻ mô hình cơ sở chung, nếu được thiết kế tốt thì có thể bổ sung các đặc trưng và đối tượng mới để đáp ứng yêu cầu ứng dụng cụ thể. Đến nay, chưa có chuẩn chung cho các tầng mô hình dữ liệu mô tả trên. Bởi các ứng dụng MIRS hiện nay chủ yếu là đặc thù, chỉ tập trung vào giới hạn số đặc trưng và loại media. Rất nhiều công việc phải làm khi mô hình hóa dữ liệu đa phương tiện để phát triển MIRS và MMDBMS (MultiMedia DataBase Manager System). 1.2. Hệ thống truy tìm thông tin Sự phát triển của CSDL đa phương tiện cùng với sự phát triển mạnh mẽ của mạng máy tính làm cho hệ thống IR (Information retrieval) ngày càng được quan tâm nhiều hơn. 1.2.1 Khái quát Từ những năm 1940, vấn đề lưu trữ và truy tìm thông tin đã thu hút sự chú ý của các nhà nghiên cứu. Vấn đề truy tìm đó là: chúng ta có lượng thông tin rất lớn, yêu cầu truy tìm chính xác và nhanh chóng đang trở nên cần thiết. Yếu tố được quan tâm là thông tin liên quan có thể bị bỏ qua khi nó chưa được tìm đến, dần dần lặp lại nhiều lần quá trình và kết quả đó. Với sự xuất hiện của máy tính điện tử, rất nhiều ý tưởng về việc sử dụng chúng để cung cấp những hệ thống truy tìm thông tin nhanh chóng và thông minh. Ví dụ: trong thư viện luôn có bài toán về truy tìm và lưu trữ thông tin, hay một số nhiệm vụ thông thường như việc lập danh mục, việc quản lý chung và đã có cách thực hiện đem lại kết quả tốt bằng những chiếc máy tính. Tuy nhiên, vấn đề của hiệu quả truy tìm phần lớn vẫn chưa được giải quyết. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 9 Khi những chiếc máy tính tốc độ cao sẵn sàng cho công việc không thuộc số hóa (non-numerical), nhiều người cho rằng một máy tính có thể đọc toàn bộ tập hợp tài liệu để trích những tài liệu có liên quan. Nó nhanh chóng trở nên hiển nhiên rằng, việc sử dụng ngôn ngữ tự nhiên của một tài liệu vấn đề không chỉ là đầu vào (input) và kho lưu trữ mà còn vấn đề tri thức thuộc đặc trưng nội dung tài liệu chưa được giải quyết. Có thể hy vọng sự phát triển trong tương lai có thể tạo đầu vào (input) và kho ngôn ngữ tự nhiên khả thi hơn. Nhưng việc mô tả tự động mà những phần mềm cố gắng “sao” lại quá trình “đọc” của con người quả thực là một vấn đề hết sức khó khăn. Khó khăn hơn, “việc đọc” bao gồm việc rút trích thông tin, cú pháp và ngữ nghĩa, từ văn bản và sử dụng nó để quyết định xem là mỗi tài liệu có liên quan hay không đến một yêu cầu cụ thể. Khó khăn không chỉ làm thế nào để trích thông tin mà còn làm sao để sử dụng nó quyết định sự phù hợp. “Sự phù hợp”, đó là khái niệm trung tâm của truy tìm thông tin. Mục đích của một chiến lược truy tìm tự động là truy tìm tất cả các tài liệu phù hợp ở cùng thời điểm truy tìm, có thể bao gồm một vài tài liệu không thỏa mãn. Tìm ra các đặc trưng của tài liệu để khi tài liệu phù hợp với truy vấn, nó cho phép tài liệu được truy tìm để trả lời truy vấn. Khi chỉ mục được làm tự động, nó được giả thiết bằng việc đẩy văn bản của một tài liệu hoặc truy vấn vào cùng bộ phân tích tự động, output sẽ là một biểu diễn của nội dung và nếu tài liệu là phù hợp với truy vấn thì một thủ tục tính toán sẽ cho thấy điều này. Truy tìm dựa trên cơ sở nội dung (Content- based retrieval): Người sử dụng có thể chỉ rõ các điều kiện lựa chọn dựa trên những nội dung của các đối tượng đa phương tiện. Ví dụ, người sử dụng tìm kiếm ảnh, sử dụng truy vấn như: “Tìm tất cả các ảnh giống với ảnh này” và “Tìm tất cả các ảnh chứa ít nhất 3 máy bay”. Các hình ảnh được thêm vào cơ sở dữ liệu, DBMS Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 (DataBase Manager System) phải phân tích chúng và tự động trích chọn các đặc điểm (extract features) để đưa ra câu trả lời giống với các truy vấn. Thông tin này có thể được sử dụng để tìm kiếm các hình ảnh thoả mãn với một truy vấn đưa ra. Một cách tiếp cận khác, người sử dụng muốn tìm các tài liệu mà mình quan tâm có thể sử dụng các kỹ thuật truy tìm thông tin và tìm kiếm từ khoá. Nó vẫn không thực sự rõ ràng là làm thế nào để truy tìm các miền cụ thể đó và các kỹ thuật tìm kiếm có thể được kết hợp hiệu quả với các truy vấn DBMS truyền thống. 1.2.2 Vấn đề truy tìm tài liệu văn bản Kỹ thuật truy vấn tài liệu văn bản được gọi chung là kỹ thuật truy tìm thông tin (IR). Các hệ thống IR cổ điển chủ yếu là làm việc trên văn bản (text) và kỹ thuật IR trong hệ thống đa phương tiện rất quan trọng vì hai lý do chính sau đây: - Đang tồn tại số lượng lớn tài liệu văn bản trong các thư viện. Văn bản là tài nguyên rất quan trọng đối với các cơ quan tổ chức. Cần có IR đủ tốt để sử dụng có hiệu quả các thông tin lưu trữ trong các tài liệu. - Văn bản được sử dụng để mô tả các phương tiện khác như video, audio, ảnh để có thể sử dụng các kỹ thuật IR qui ước vào việc truy vấn các thông tin đa phương tiện. Mục đích của người sử dụng hệ truy tìm: - Độ chính xác: Truy tìm đúng thông tin mà người sử dụng mong muốn, đúng với truy vấn. Có thể có một vài tài liệu trong câu trả lời là không chính xác song tất cả các câu trả lời phù hợp đều được truy vấn. - Tốc độ truy tìm: Việc truy tìm phải được thực hiện nhanh chóng. Nhiệm vụ chính của thiết kế hệ thống IR là để nhằm giải quyết hai vấn đề: - Trình diễn và truy vấn tài liệu như thế nào. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 11 - So sánh tính tương đồng giữa các tài liệu và biểu diễn truy vấn ra sao. Các mô hình truy vấn sẽ xác định hai khía cạnh này. Để nâng cao hiệu năng truy vấn, việc xử lý ngôn ngữ tự nhiên và các kỹ thuật trí tuệ nhân tạo được áp dụng. Vì tính nhập nhằng và tồn tại nhiều biến thể của ngôn ngữ tự nhiên, hầu như không thể truy vấn mọi tài liệu liên quan hay loại đi mọi tài liệu không liên quan. Do vậy, thước đo hiệu năng IR là rất quan trọng. Một hệ thống truy tìm thông tin tiêu biểu Một hệ thống IR tiêu biểu được minh hoạ bằng phương pháp hộp đen. Gồm ba thành phần: input, bộ xử lý và output. Bắt đầu với đầu vào (input), vấn đề chính ở đây là có được biểu diễn của tài liệu và truy vấn thích hợp bằng máy tính. Có thể nói các hệ thống truy tìm hầu hết dựa trên máy tính chỉ lưu trữ biểu diễn của tài liệu (hoặc truy vấn), có nghĩa là một tài liệu văn bản không sử dụng nữa khi nó đã được xử lý để đưa ra các đặc trưng. Ví dụ, một biểu diễn tài liệu có thể là một danh sách các từ được xem là quan trọng được trích ra. Hình 1.2 Hệ thống IR tiêu biểu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 12 Khi một hệ thống truy tìm trực tuyến (on-line), người sử dụng có khả năng thay đổi yêu cầu trong một phiên tìm kiếm ở trạng thái truy tìm mẫu, do đó hy vọng cải thiện được quá trình truy tìm xảy ra sau. Một thủ tục như vậy thông thường cho phép phản hồi (Feedback). Hơn nữa, bộ xử lý, một phần của hệ thống truy tìm có liên quan tới quá trình truy tìm. Bộ xử lý có thể bao gồm cấu trúc thông tin theo cách thích hợp nào đó, giống như phân loại. Trên thực tế, nó cũng bao gồm cả việc biểu diễn chức năng truy tìm, đó là thực hiện chiến lược tìm kiếm câu trả lời cho một truy vấn. Trong biểu đồ, các tài liệu được đặt vào một ô riêng biệt để nhấn mạnh thực tế là không có đầu vào (input) rõ ràng nhưng có thể sử dụng trong suốt quá trình truy tìm. Cuối cùng, chúng ta xét đến đầu ra (output) thường là một tập trích dẫn hoặc các tài liệu. Trong một hệ thống hoạt động đây là phần còn lại. Tuy nhiên, một hệ thống thực nghiệm có thể cho phép thực hiện việc đánh giá. 1.2.3 Phân biệt các hệ thống IR và DBMS Phân biệt được sự khác nhau giữa hai hệ thống truy tìm văn bản (IR) và DBMS giúp ta hiểu rõ các kỹ thuật truy tìm văn bản. - DBMS: Chứa các bản ghi có cấu trúc đồng nhất. Mỗi bản ghi được đặc trưng bởi tập các thuộc tính. Các giá trị thuộc tính được gán cho bản ghi để mô tả bản ghi này một cách rõ ràng và đầy đủ. Truy vấn ở đây dựa trên cơ sở đối sánh chính xác giữa câu truy vấn và các giá trị thuộc tính trong bản ghi. Mỗi bản ghi truy vấn chứa các giá trị thuộc tính chính xác được đặc tả trong câu truy vấn (có thể cả giá trị thuộc tính không được đề cập đến trong câu truy vấn). - Hệ thống IR: Các bản ghi không có cấu trúc. Chúng không chứa các thuộc tính cố định, chỉ đơn thuần là tài liệu văn bản. Các tài liệu này có thể chỉ Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 13 mục bằng các từ khóa, bộ mô tả tài liệu, hay các thuật ngữ (term) chỉ mục. Mỗi thuật ngữ chỉ mục được sử dụng để mô tả nội dung văn bản chỉ theo một khía cạnh nào đó, không đầy đủ và không rõ ràng cho toàn bộ nội dung văn bản. Nhiều thuật ngữ chỉ mục được gắn theo tài liệu hay văn bản cụ thể. Bởi vì các thao tác truy vấn văn bản phụ thuộc trực tiếp vào nội dung đại diện, sử dụng để mô tả các bản ghi lưu trữ, do vậy cần phải có nhiều cố gắng để tập trung vào phân tích nội dung của các tài liệu lưu trữ và vấn đề sinh từ khóa, chỉ mục. Tóm lại, các tài liệu kết quả truy vấn trong DBMS là hoàn toàn liên quan đến câu truy vấn và có ích với người sử dụng. Nhưng trong hệ thống IR, các tài liệu được xem là liên quan đến câu truy vấn nhưng có thể không liên quan và không có ích với người sử dụng Câu truy vấn Tài liệu văn bản Xử lý Xử lý Đại diện câu truy vấn Đại diện tài liệu Đối sánh (tính toán độ tương đồng) Kết quả truy vấn Đánh giá mức độ thích hợp phản hồi Hình 1.3 Tiến trình truy vấn tài liệu Bên phải hình 1.3 chỉ ra các tài liệu được xử lý off-line để có đại diện (mô tả). Các đại diện này được lưu trữ cùng với các tài liệu. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

- Xem thêm -

Tài liệu Tìm kiếm văn bản theo nội dung và ứng dụng

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất