Tài liệu Nghiên cứu phương pháp mở rộng truy vấn trong truy xuất thông tin (information retrieval)

  • Số trang: 17 |
  • Loại file: PDF |
  • Lượt xem: 94 |
  • Lượt tải: 0
nganguyen

Đã đăng 34345 tài liệu

Mô tả:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ------------------------------------------ NGUYỄN THỊ BÍCH PHƯƠNG NGHIÊN CỨU PHƯƠNG PHÁP MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN (INFORMATION RETRIEVAL) Chuyên ngành : Truyền dữ liệu và mạng máy tính Mã số : 60.48.15 TÓM TẮT LUẬN VĂN THẠC SỸ HÀ NỘI - NĂM 2012 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS Từ Minh Phương Phản biện 1: …………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… Phản biện 2: ……………………………………………………………………………. …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm 2010 Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông TÓM TẮT LUẬN VĂN Chương I. Tổng quan về mở rộng truy vấn trong truy xuất thông tin Giới thiệu tổng quan về mở rộng truy vấn trong truy xuất thông tin 1.1 1.1.1 Hệ thống truy xuất thông tin (Information Retrieval-IR) Hệ thống Truy xuất thông tin (Information Retrieval) là hệ thống thực hiện tìm kiếm tài liệu (thường là các tài liệu văn bản) từ một tập các tài liệu (được lưu trữ trên máy tính) thường có tính chất phi cấu trúc (văn bản ngôn ngữ tự nhiên) thỏa mãn một nhu cầu thông tin của con người Mục đích của hệ thống Truy xuất thông tin là hiển thị cho người dùng một tập các thông tin thỏa mãn nhu cầu thông tin. Định nghĩa chính xác cho nhu cầu thông tin là “câu truy vấn” (query), và các thông tin được chọn là “tài liệu” (documents). Một hệ thống tìm kiếm thông tin có hai chức năng chính, đó là lập chỉ mục (indexing) và tìm kiếm (interrogation). Hệ thống truy xuất thông tin được chia làm 2 loại như sau: - Hệ thống tìm kiếm thông tin dựa trên từ khóa: Là cách sử dụng từ khóa biểu diễn tài liệu và câu truy vấn. Trong đó, từ khóa sẽ được dùng để lập chỉ mục cho các tài liệu. - Hệ thống tìm kiếm thông tin dựa trên khái niệm: Sử dụng khái niệm để biểu diễn tài liệu và câu truy vấn. Hệ thống dùng các khái niệm để lập chỉ mục. Có 2 tiêu chí để đánh giá một hệ thống tìm kiếm thông tin đó là: Độ chính xác và độ bao phủ thông tin. 1.1.2 Mở rộng truy vấn trong truy xuất thông tin: Mở rộng truy vấn (query expansion) là phương pháp thực hiện bổ sung các thuật ngữ tìm kiếm vào truy vấn ban đầu của người dùng tạo ra truy vấn mới nhằm mục đích nâng cao hiệu quả truy hồi thông tin Có 2 phương pháp phổ biến và đổ điển để mở rộng truy vấn trong truy xuất thông tin là: - Phương pháp toàn cục (Global method): Là kỹ thuật mở rộng hoặc định dạng lại các thuật ngữ truy vấn độc lập vào câu truy vấn và kết quả trả về của nó - Phương pháp cục bộ (Local method): Điều chỉnh câu truy vấn liên quan dựa trên những tài liệu trong kết quả tìm kiếm ban đầu phù hợp với câu truy vấn. 1.2 Phương pháp toàn cục cho tái định dạng lại truy vấn Là phương pháp sử dụng bộ từ điển để tái định dạng lại truy vấn nhằm mục đích đạt hiệu quả cao hơn trong truy hồi thông tin. Có 2 loại từ điển là từ điển được tạo bằng tay và từ điển được tạo tự động. - Có 2 cách tạo từ điển tự động: o Khai thác từ đồng xuất hiện: Những từ cùng xuất hiện trong một tài liệu hoặc đoạn văn có thể có nghĩa tương tự nhau hoặc liên quan với nhau về mặt ngữ nghĩa. Từ điển được tạo ra gồm danh sách các từ đồng xuất hiện với thuật ngữ truy vấn và có tần suất xuất hiện cao. o Khai thác quan hệ cú pháp: Phân tích quy tắc ngữ pháp của văn bản để khai thác mối quan hệ về ngữ pháp hoặc sự phụ thuộc ngữ pháp. Từ điển được tạo ra gồm danh sách các từ có mối quan hệ ngữ pháp tương tự nhau. Chương II. Các phương pháp mở rộng truy vấn trong truy xuất thông tin 2.1 Phương pháp mở rộng truy vấn trong truy xuất thông tin dựa trên phân tích tổng thể (Global analysis) Phân tích tổng thể chiết xuất sự đồng xuất hiện của các thuật ngữ liên quan và các kết quả trong một ma trận tương tự bằng cách phân tích toàn bộ tập tài liệu. Phương pháp bao gồm các kỹ thuật: phân cụm thuật ngữ (term clustering), kỹ thuật tìm cụm từ (phrasefinder) và kỹ thuật tạo từ điển tương tự (similar thesaurus). Trong đó, kỹ thuật Phrasefinder là một trong các kỹ thuật thành công nhất của phân tích tổng thể. Kỹ thuật Phrasefinder sử dụng giả thuyết: “mọi khái niệm được kết hợp với một tài liệu giả”. Nội dung của tài liệu giả cho một khái niệm là các từ xuất hiện trong mọi cửa sổ cho khái niệm đó trong tài liệu. Kích cỡ của một cửa sổ thường là từ 1 đến 3 câu. Cơ sở dữ liệu INQUERY được xây dựng từ những tài liệu giả này, nó tạo một cơ sở dữ liệu khái niệm. Các khái niệm c là tập {  t1 , a1  ,  t2 , a2  ,… } trong đó ti là thuật ngữ xuất hiện trong cửa sổ của khái niệm c, ai là số lần đồng xuất hiện của c và ti . Để mở rộng câu truy vấn, hệ thống chạy ngược lại cơ sở dữ liệu khái niệm INQUERY và tạo đầu ra là một danh sách xếp hạng các cụm từ khái niệm. Trọng số dựa trên tài liệu và thu thập của từ phù hợp dùng để quyết định việc sắp xếp khái niệm. Một số các cụm từ được sắp xếp ở đầu trong danh sách được thêm vào truy vấn và được đánh trọng số thích hợp. 2.2 Phương pháp mở rộng truy vấn trong truy xuất thông tin dựa trên tóm tắt (summarization) Phương pháp mở rộng truy vấn dựa trên tổng kết là thực hiện mở rộng truy vấn toàn văn. Trong phương pháp này, các chủ đề tìm kiếm được mở rộng bằng cách dán trong toàn bộ các câu, đoạn văn, và những câu khác đến trực tiếp từ bất cứ một tài liệu văn bản nào. Phương pháp này gồm 2 nhiệm vụ được thực hiện: - Bước 1: Hệ thống xây dựng câu truy vấn bao hàm nhu cầu thông tin bằng việc sử dụng phương pháp tự động tạo bản tổng kết chủ đề. - Bước 2: Câu truy vấn chi tiết hóa nhu cầu thông tin được xử lý tự động bởi các phương pháp xử lý ngôn ngữ tự nhiên để lấy về truy vấn tìm kiếm tối ưu cho hệ thống truy hồi thông tin thống kê. Trong phương pháp mở rộng truy vấn dựa trên tóm tắt, người ta sử dụng kỹ thuật tổng kết văn bản tự động để lấy bản tóm tắt đặc tả truy vấn của tài liệu được trả về vừ vòng đầu tiên của truy hồi. Bản tóm tắt thường có từ 1 đến 2 đoạn văn liền nhau được lựa chọn từ văn bản gốc. Mục đích đầu tiên là để trình bày cho người dùng bằng cách xem nhanh văn bản, do một văn bản đã được lấy về. Nếu bản tóm tắt xuất hiện liên quan và hơn nữa nắm bắt được một số khía cạnh quan trọng của thông tin liên quan, thì người dùng có 1 lựa chọn để dán nó vào câu truy vấn, vì vậy làm tăng cơ hội tìm kiếm thành công 2.3 Phương pháp mở rộng truy vấn trong truy xuất thông tin dựa trên phân cụm (cluster-based) Phương pháp thu hồi thông tin dựa trên cụm phân chia tập các tài liệu khác nhau thành các cụm có ý nghĩa (chủ đề) khác nhau. Do đó những tài liệu trong cùng một cụm mô tả cùng một chủ đề và thêm nữa là trả về một danh sách xếp hạng các văn bản dựa trên các cụm mà đến từ đến người dùng. Có 2 phương pháp tiếp cận thu hồi thông tin dựa trên phân cụm: - Phương pháp xếp hạng cụm truy vấn tương tự. - Phương pháp sử dụng phân cụm để làm mịn tài liệu. Kỹ thuật phân cụm mờ (fuzzy clustering). Kỹ thuật mở rộng truy vấn dựa trên phân cụm mờ bao gồm 2 tiến trình: Tiến trình xây dựng từ điển (thesauri) và tiến trình mở rộng truy vấn: Hình 1. Kỹ thuật mở rộng truy vấn dựa trên phân cụm mờ 2.4 Phương pháp mở rộng truy vấn trong truy xuất thông tin dựa trên bản thể học (Ontology based Query expansion) 2.4.1 Tổng quan về Ontology Khái niệm về Ontology Ontology là một kho dữ liệu biểu diễn một tập các khái niệm và các quan hệ, dùng để mô tả, định nghĩa các tính chất của miền (domain). Các yếu tố cấu thành ontology - Ontology được cấu tạo bởi các class và các quan hệ (relation) tồn tại giữa các đối tượng của class. - Lược đồ thuật ngữ ontology dùng để tham chiếu tới toàn bộ các class và các quan hệ. Cơ sở tri thức thuật ngữ (thuộc ontology) tham chiếu đến một lược đồ bản thể học cụ thể. Quá trình mô hình hóa Ontology Quá trình mô hình hóa Ontology gồm các giai đoạn sau: - Giai đoạn 1: Xác định mục đích của ontology - Giai đoạn 2: Hình thành các class chính và các quan hệ. - Giai đoạn 3: Mã hóa ontology đã được nắm giữ theo một ngôn ngữ đại diện chính thức. - Giai đoạn 4: Xác định và tích hợp các Ontology hiện hành có khả năng tái sử dụng được. - Giai đoạn 5: Đánh giá sự thống nhất và toàn diện của ontology. - Giai đoạn 6: Ghi chép ontology và quyết định mô hình hóa thành tài liệu. Bước này đặc biệt quan trọng nếu ontology được tái sử dụng bởi ontology khác. 2.4.2 Mở rộng truy vấn dựa trên Ontology 2.4.2.1 Các mô hình bài toán mở rộng truy vấn dựa trên Ontology Các nghiên cứu trước đây đã đề xuất một số mô hình mở rộng truy vấn dựa trên ontology. Sau đây bốn mô hình tương đối đơn giản nhưng có hiệu quả tốt: - Mô hình mở rộng truy vấn dựa trên Ontology và độc lập với hệ thống truy xuất thông tin (Query Expansion Model with Ontology-based without  OB Information Retrieval, QEM  IR ) - Mô hình mở rộng truy vấn dựa trên ontology kết hợp xác suất và độc lập với hệ thống truy xuất thông tin (Query Expansion Model with Ontology-Based and Probablity without Information Retrieval, QEM IROB  P ) - Mô hình mở rộng truy vấn dựa trên ontology và kết hợp với hệ thống truy xuất thông tin (Query Expansion Model with Ontology-Based with  OB Information Retrieval, QEM +IR ) - Mô hình mở rộng truy vấn dựa trên ontolgy kết hợp xác xuất và tích hợp hệ thống truy xuất thông tin (Query Expansion Model with Ontology-Based and  OB  P Probability with Information Retrieval, QEM +IR ) 2.4.2.2 Các bước thực hiện mở rộng truy vấn dựa trên Ontology Phương pháp mở rộng truy vấn dựa trên ontology cần thực hiện theo 2 bước như sau: - Đầu tiên, các thuật ngữ của câu truy vấn phải được khử nhập nhằng để chúng ánh xạ vào một khái niệm ontology duy nhất. - Sau đó, các thuật ngữ có liên quan đến những khái niệm đã khử nhập nhằng trong ontology được thêm vào câu truy vấn. + Khử nhập nhằng: Các khái niệm trong bản thể học không cần phải được mô tả bằng một thuật ngữ duy nhất. Thông thường, mỗi khái niệm được mô tả bởi một số từ đồng nghĩa. Trong trường hợp đó, hệ thống phải khử nhập nhằng thuật ngữ đó để nó phù hợp với một khái niệm ontology duy nhất. Có 2 phương pháp khử nhập nhằng đó là thực hiện bằng thủ công hoặc tự động. Khử nhập nhằng nghĩa của từ (Word sense disambiguation_WSD) đề cập đến quá trình lựa chọn nghĩa chính xác cho một từ (word) từ một tập các ngữ nghĩa có thể hoặc lựa chọn trong các thuật ngữ của ontology để ánh xạ đến một thuật ngữ mà chỉ có duy nhất một khái niệm chính xác. +Lựa chọn thuật ngữ để mở rộng: Sau khi thực hiện khử nhập nhằng các thuật ngữ, phương pháp này thực hiện lựa chọn các thuật ngữ mà có liên quan tới khái niệm đã được khử nhập nhằng bằng quan hệ trực tiếp trong ontology. Thông được, các quan hệ được lựa chọn như: đồng nghĩa (synonyms), đồng nghĩa và hạ danh (synonyms and hyponyms), bộ phận (meronyms)... Chương III. Các phương pháp mở rộng truy vấn trong truy xuất thông tin 3.1 Giải pháp mở rộng truy vấn trong truy xuất thông tin dựa trên bản thể học (ontology) 3.1.1 Lý do lựa chọn giải pháp Mở rộng truy vấn dựa trên Ontology là cách tiếp cận có nhiều ưu điểm do ontology cho phép thể hiện nhiều mức độ đồng nghĩa từ cú pháp cho tới ngữ nghĩa, cùng các quan hệ giữa các từ khóa. Những ưu điểm nổi trội của ontology bao gồm: - Khả năng xây dựng, phát triển tự động và bán tự động; - Khả năng tổ chức lưu trữ và sẵn sàng cho việc sử dụng; - Khả năng đáp ứng nguồn tri thức phong phú với độ tin cậy cao; - Đồng thời giảm thiểu các chi phí và công sức cho việc huấn luyện, làm giàu nội dung cho ontology. Dựa vào những ưu điểm kể trên, ontology đã được xem như một giải pháp hứa hẹn trong mở rộng truy vấn. 3.1.2 Trình bày giải pháp Có 2 phương pháp phổ biến trong mở rộng truy vấn dựa trên Ontology được nghiên cứu trên thế giới đó là: - Phương pháp mở rộng truy vấn thông qua việc sử dụng WordNet (một ontology tổng quát được xây dựng sẵn). Phương pháp này khai thác thác trực tiếp dữ liệu từ WordNet để thực hiện mở rộng truy vấn. - Phương pháp mở rộng truy vấn thông qua xây dựng ontology chuyên biệt kết hợp khai thác dữ liệu ngữ nghĩa và quan hệ ngữ nghĩa từ WordNet. Phương pháp này gồm 2 phần: o 1 - Xây dựng một ontology chuyên biệt tối ưu dựa trên việc khai thác các quan hệ ngữ nghĩa đã được định nghĩa sẵn trong WordNet. o 2 - Thực hiện mở rộng truy vấn dựa trên Ontology vừa được xây dựng. Phương pháp đầu tiên là phương pháp đơn giản, dễ thực hiện nhưng hiệu quả thu hồi thông tin không cao. Ngược lại, phương pháp thứ 2 khá phức tạp và tốn nhiều thời gian, chi phí để xây dựng. 3.1.2.1 Giới thiệu WordNet WordNet [http://wordnet.princeton.edu/] là một ontology tổng quát phổ dụng được xây dựng để phục vụ nhiều ứng dụng khác nhau trong xử lý ngôn ngữ tự nhiên, truy xuất thông tin, làm việc với dữ liệu văn bản nói chung. Đây là một hệ ontology dùng cho từ vựng tiếng Anh. Các từ vựng trong WordNet được phân loại và tổ chức thành các tập đồng nghĩa gọi là synsets. Mỗi tập synset biểu diễn một nghĩa. Các quan hệ của WordNet được mô tả như sau: - Quan hệ Hypernymy (tên khác là Superordinate, Thượng danh) là quan hệ giữa hai khái niệm A và B mà nghĩa của khái niệm A luôn bao hàm khái niệm B(nhưng không ngược lại). Một dạng của quan hệ này là Instance Hypernymy (hay Instance) là quan hệ giữa khái niệm A và đối tượng B mà B là một dạng của A tương ứng cho đối tượng. - Quan hệ Hyponymy (hay Subordinate, Hạ danh hoặc IS-A) là quan hệ giữa hai khái niệm A và B mà nghĩa của khái niệm B luôn bị bao hàm bởi khái niệm A(nhưng không ngược lại). Một dạng của quan hệ này là Instance Hyponymy (Hay Has-Instance) - Quan hệ Meronymy (hay Has-Member, Bộ phận) với dạng Member Meronymy biểu diễn quan hệ bộ phận-toàn thể giữa hai synet danh từ cho thành phần, và dạng Part Meronymy (hay Has-Part) tương ứng cho bộ phận, cùng dạng Substance Meronymy tương ứng cho vật chất. - Quan hệ Holonymy (hay Member-Of) với dạng Member Holonymy là quan hệ toàn thể-bộ phận giữa hai synset danh từ, cho thành phần, cùng gạng PartHolonymy tương ứng cho bộ phận và dạng Substance Holonymy tương ứng cho vật chất. - Quan hệ Synonymy và Atonymy lần lượt là quan hệ đồng nghĩa và phản nghĩa giữa các hình thái từ. 3.1.2.2 Mở rộng truy vấn dựa trên WordNet a. Mô hình mở rộng truy vấn dựa trên WordNet Bảng 3.2 Mô hình mở rộng truy vấn dựa trên WordNet Mô hình mở rộng truy vấn dựa trên Ontology WordNet được mô tả trong hình 3.2 . Trong mô hình này, có ba bước thực hiện cơ bản trong một hệ thống mở rộng truy vấn dựa trên Ontology WordNet đó là: Khử nhập nhằng, Mở rộng truy vấn và Tìm kiếm tài liệu. Bước khử nhập nhằng được thực hiện đối với các thuật ngữ của truy vấn có nhiều hơn một nghĩa. Thông thường với các truy vấn bằng Tiếng Anh, thuật ngữ trong truy vấn hiếm khi chỉ có duy nhất một ngữ nghĩa. Do đó cần thực hiện khử nhập nhằng ngữ nghĩa của thuật ngữ để thuật ngữ ánh xạ vào một khái niệm Ontology WordNet duy nhất. Khử nhập nhằng là cần thiết và làm bước đệm cho Mở rộng truy vấn. Bước tìm kiếm tài liệu được thực hiện dựa trên động cơ tìm kiếm thông tin (Search Engine) đã được xây dựng sẵn. b. Phương pháp thực hiện * Khử nhập nhằng dùng WordNet (Word sense Disambiguation-WSD) Pavlidis [37] đã nghiên cứu một thuật toán khử nhập nhằng để tạo độ chính xác cao, nhưng có thể độ truy hồi thấp. Thuật toán này thuộc lớp phương pháp nhận dạng mẫu có cấu trúc. Ở đây, Pavlidis sử dụng một đồ thị để mô tả những trường hợp (ngữ nghĩa của từ). Thuật toán như sau: Đặt Q = { w 1 , w 2 , …, w n } là truy vấn khởi tạo Đặt: S (w k )  S kj | S kj  Synset WordNet (w k ), w k  Q là tập đồng nghĩa WordNet của w k , k=1,…,n. Ta có: Cx  ( S x11 , S x22 ,..., S xnn ) là cấu hình ngữ nghĩa cho Q ( xk là một chỉ số ngữ nghĩa nằm trong khoảng từ 1 đến số ngữ nghĩa có thể cho w k ). Với mỗi cấu hình Cx , người ta thực hiện như sau: - Tạo mạng ngữ nghĩa cho mỗi nghĩa - Phân cắt các mạng ngữ nghĩa - Gán một điểm số (score) cho cấu hình Bước cuối cùng là lựa chọn: Cbest  arg max( Score(Cx )) x - Tạo mạng ngữ nghĩa: Với mỗi w k  Q và mỗi synset S kj của w k ( S kj là ngữ nghĩa thứ j của w k trong WordNet), tạo một mạng ngữ nghĩa. Mạng ngữ nghĩa được tạo tự động sử dụng quan hệ ngữ nghĩa sau: hypernym (vd: xe ô tô là một phương tiện xe cộ; ký hiệu: hypernym; ký hiệu: @ ), hyponym (ngược lại của ~ ), meronym(vd: căn phòng có một bức tường; ký hiệu: # ), pertainym (vd: cá thuộc về động vật; ký hiệu: \ ), attribute (vd: khô là giá trị của sự ẩm ướt; ký hiệu:  ), similarity (vd: đẹp tương đương với xinh xắn; ký hiệu: & ), gloss ( gloss ), topic ( topic ), domain ( dl ) Hầu hết các quan hệ này đề trực tiếp chiết xuất từ WordNet, ngoại trừ gloss, topic và domain. Hình 3.3 là một ví dụ của mạng ngữ nghĩa được tạo cho sense#1 của bus Hình 3.3 Mạng ngữ nghĩa cho nghĩa số 1 của từ “bus” Phân cắt mạng ngữ nghĩa và gán điểm số cho cấu hình Đặt SN( S kj ) là mạng ngữ nghĩa cho ngữ nghĩa j của từ w k . Xét một cấu hình ngữ nghĩa Cx tương ứng với mỗi truy vấn Q, các mạng ngữ nghĩa được phân thành các cặp giao nhau và số node chung được đếm. Đặt SN ( S kj )  SN ( S1m ) là một điểm k * * 1 giao. Gọi điểm giao là node chung S. Ví dụ S j  S  S m trong đó * biểu thị một đường dẫn của node. Với mỗi cấu hình ngữ nghĩa Cx , điểm số được tính toán là tổng số node chung. Score(C x )   S ', S ''C x :S '# S '' | SN ( S ')  SN ( S '') | Các node chung được sắp xếp đảo chiều với đường giao. Đặt [S]x là danh sách sắp xếp của các node chung trong cấu hình Cx . Bước cuối cùng là lựa chọn ngữ nghĩa tốt nhất cho truy vấn Cbest  arg max( Score(C x )) x * Mở rộng truy vấn với WordNet Để mở rộng truy vấn, người ta sử dụng 5 phương thức mở rộng và 2 chiến lược lựa chọn từ mở rộng + Phương thức mở rộng truy vấn: i. Mở rộng Synset: synset liên quan thay thế thuật ngữ truy vấn ban đầu (từ có thể được mở rộng nằm trong truy vấn ban đầu). ii. Mở rộng Hypernym (thượng danh): Các từ (word) có khả năng mở rộng được bổ sung thêm các hypernyms trực tiếp của nó vào câu truy vấn. iii. Mở rộng gloss synset: Các từ (word) có khả năng mở rộng được bổ sung thêm các synset của gloss của từ đó. iv. Mở rộng gloss word: Các từ (word) có khả năng mở rộng được bổ sung thêm các từ trong glosses của chúng (glosses - là định nghĩa khái niệm của từ trong WordNet. Ở đây là lấy các từ nằm trong định nghĩa tương ứng với ngữ nghĩa của từ đó sau khi đã khử nhập nhằng) v. Mở rộng các node chung: Các từ mở có khả năng mở rộng được bổ sung thêm các từ (word) mà tập đồng nghĩa của nó thuộc [S j ]x - Danh sách các node chung thuộc Cx . + Chiến lược lựa chọn từ có khả năng mở rộng: - Chiến lược 1: Chỉ mở rộng các từ monosemous. Đây là các từ có nghĩa rõ ràng (có duy nhất 1 nghĩa). - Chiến lược 2: Mở rộng các từ mà synset của nó được lựa chọn theo thuật toán khử nhập nhằng (WSD) trình bày ở trên. Có ít nhất k node dùng chung (k>0) cho các synset khác nhau của câu truy vấn. 3.2 Xây dựng mô hình thực nghiệm Trong mô hình thực nghiệm, ngôn ngữ cài đặt là Java. Cấu hình máy chủ sử dụng trong mô hình thực nghiệm là bộ xử lý Intel ® core ™ 2 duo T.7300 2.2GHz, bộ nhớ trong 2GB, bộ nhớ ngoài có phần dung lượng trống khả dụng 10GB. Các công việc cần thực hiện: - Tạo 1 kho liệu tài liệu Tiếng Anh (nhỏ) về 1 chủ đề nào đó. - Xây dựng một động cơ tìm kiếm thông tin cục bộ (Internal Search Engine, ISE) dựa trên công cụ Lucene cho kho ngữ liệu nêu trên (Lucene là một thư viện truy vấn thông tin mã nguồn mở được Doug Cuting xây dựng từ năm 1998 với mục tiêu phát triển thành một thư viện truy vấn tài liệu hoàn chỉnh giúp người dùng dễ dàng tích hợp chức năng tìm kiếm vào hệ thống của họ). Động cơ tìm kiếm thông tin cục bộ được cài đặt bằng ngôn ngữ Java trên nền Eclipse 3.0, jdk 1.5. - Khai thác từ đồng nghĩa trong WordNet để thực hiện mở rộng truy vấn và tìm kiếm tài liệu. Các bước thực hiện: - Người dùng thực hiện nhập truy vấn ban đầu. - Động cơ tìm kiếm thông tin cục bộ thực hiện tìm các từ đồng nghĩa với các thuật ngữ truy vấn ban đầu của người dùng dựa trên ontology WordNet nhằm mục đích tìm các thuật ngữ truy vấn mở rộng. - Động cơ tìm kiếm thông tin cục bộ sử dụng thư viện Lucence để tìm kiếm tài liệu dựa trên các thuật ngữ truy vấn mở rộng và trả về các tài liệu có liên quan. Kết quả thử nghiệm: Thực hiện tạo kho tài liệu Tiếng Anh gồm 17 tài liệu về chủ đề xe đạp (“bike”). Thực hiện 2 chiến lược tìm kiếm như sau: - Chiến lược thứ 1: Tìm kiếm tài liệu với câu truy vấn ban đầu là “bike”. Trong đó, hệ thống tìm kiếm sẽ thực hiện tìm tất cả các tài liệu trong kho tài liệu có chứa từ “bike” và thu được kết quả là 11/17 tài liệu - Chiến lược thứ 2: Tìm kiếm mở rộng truy vấn dựa trên ontology WordNet. Động cơ tìm kiếm thông tin cục bộ thực hiện mở rộng câu truy vấn “bike” bằng cách tìm các từ đồng nghĩa với từ “bike” trong WordNet và thu được những cặp từ đồng nghĩa như sau: 1) motorcycle, bike. 2) bicycle, bike, wheel, cycle. 3) bicycle, cycle, bike, pedal, wheel. Động cơ tìm kiếm thông tin tiếp tục tìm các tài liệu trong kho tài liệu ban đầu mà chứa những từ đồng nghĩa với bike (như trên) và thu được kết quả là 15/17 tài liệu. 3.3 Đánh giá ưu khuyết điểm của giải pháp mở rộng truy vấn dựa trên Ontology a. Ưu điểm: - Chất lượng mô hình tri thức tốt: Đặc trưng của ontology là độ gắn kết, tính ổn định, tính đối kháng và sự đồng nhất, sự nhập nhằng nên chất lượng về mô hình tri thức rất tốt. Bởi chất lượng của việc diễn dịch văn bản tự do phụ thuộc rất nhiều vào chất lượng mô hình tri thức. Theo nghiên cứu của Jones [16] chất lượng mô hình tri thức hay từ điển chuyên đề là quan trọng nhất. Mô hình này phải chính xác, ổn định và bao hàm toàn diện. Nếu một mô hình dữ liệu không bao phủ các chủ đề trong hướng toàn diện thì các truy vấn (liên quan đến một chủ đề nào đó) sẽ không thu hồi được bất kỳ kết quả nào. - Am hiểu mô hình tri thức: Theo nghiên cứu của Suomela và Kekalainen [17], quá trình tìm kiếm thông tin có cơ hội thành công nhiều hơn nếu người dùng hiểu rõ mô hình tri thức. - Khả năng định hướng của mô hình tri thức: Các phương pháp thực nghiệm được nghiên cứu để áp dụng cho mở rộng truy vấn dựa trên ontology có thể giúp cho hệ thống học những hành vi của giải thuật xếp hạng cho việc mở rộng truy vấn và học cả những tác vụ của người dùng trong quá trình mở rộng truy vấn, đặc biệt là cách chọn từ. Đây là minh chứng cho tính hiệu quả của việc mở rộng truy vấn có tương tác và vì thế, mở rộng truy vấn dựa trên ontology là mô hình có khả năng định hướng tốt. - Quy trình ánh xạ truy vấn khá linh động: Trong quá trình ánh xạ từ truy vấn vào các khái niệm ontology tương ứng nếu sự so trùng chính xác nhất không được tìm thấy thì quy trình ánh xạ sẽ tìm sự so trùng kế cận tốt nhất. - Sử dụng các kỹ thật mở rộng truy vấn kết hợp với ontology tạo ra kết quả tốt hơn việc dùng kỹ thuật riêng lẻ (kỹ thuật sử dụng từ điển chuyên đề và danh mục từ đồng xuất hiện, …) b. Nhược điểm: - Nếu một ontology cho một miền cụ thể chưa tồn tại thì phải hao tốn nhiều công sức và chi phí để xây dựng một ontology mới. - Sự không tương thích giữa các thuật ngữ của truy vấn và khái niệm trong ontology và cần phải có một quy trình liên kết để giải quyết vấn đề này. c. Đánh giá về hiệu suất thực hiện Mandala [19] so sánh hiệu suất với phản hồi liên quan (relevance feedback) thì mở rộng truy vấn dựa trên ontology có hiệu suất thực hiện tốt hơn đáng kể nhưng lại kém hiệu quả hơn phản hồi liên quan lý tưởng (relevance feedback ideal).
- Xem thêm -