Đăng ký Đăng nhập
Trang chủ Xây dựng hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu...

Tài liệu Xây dựng hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu

.DOCX
89
165
133

Mô tả:

LỜI CẢM ƠN Đầu tiên, tôi xin được gửi lời cám ơn đến giáo viên hướng dẫn: TS Lê Thanh Hương đã tận tình hướng dẫn tôi hoàn thành luận văn này. Xin được cám ơn tập thể thầy cô trong khoa Công Nghệ Thông Tin trường Đại Học Bách Khoa Hà Nội đã truyền tải cho tôi những kiến thức cơ bản và nền tảng để tôi có thể phát triển và hoàn thành luận văn. Tôi cũng kính lời tri ân đến các Thầy Cô trong khoa Công Nghệ Thông Tin trường Đại học Khoa Học Tự Nhiên TP.HCM như TS. Hồ Bảo Quốc, Th.s Nguyễn Hoàng Tú Anh đã góp ý cho tôi trong quá trình hoàn thành đề tài tốt nghiệp này. Và cuối cùng, xin được gửi lời cám ơn đến người thân trong gia đình, bạn bè, đồng nghiệp đã động viên, hỗ trợ tôi về nhiều mặt để có thể hoàn thành luận văn này Tp. Hồ Chí Minh, tháng 03/2010. Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu i Hướng dẫn khoa học: TS. Lê Thanh Hương MỤC LỤC DANH MỤC HÌNH..........................................................................................ii DANH MỤC CÁC BẢNG...............................................................................iv CÁC TỪ VIẾT TẮT.........................................................................................v LỜI NÓI ĐẦU..................................................................................................1 Chương 1: MÔ HÌNH PHÁT TRIỂN...............................................................4 1. 2. Mục đích và phạm vi của đề tài:............................................................................................4 1.1. Mục đích và yêu cầu:.....................................................................................................4 1.2. Phạm vi phát triển đề tài:...............................................................................................4 Mô hình phát triển bài toán:...................................................................................................5 2.1. Xây dựng mô hình bài toán:...........................................................................................5 2.2. Các hướng tiếp cận của bài toán:...................................................................................8 2.3. Môi trường phát triển:....................................................................................................9 Chương 2: CƠ SỞ LÝ THUYẾT CỦA BÀI TOÁN......................................10 1. Giới thiệu:............................................................................................................................10 2. Tìm hiểu các kỹ thuật phát triển:.........................................................................................10 2.1. Các ứng dụng liên quan xử lý tiếng việt:.....................................................................10 2.2. Kỹ thuật phát triển hệ tư vấn gợi ý (Recommender System).......................................13 2.3. Kỹ thuật đánh giá độ tương đồng giữa các tài liệu:......................................................28 2.4. Kỹ thuật phân nhóm người dùng:................................................................................42 2.5. Kết hợp kỹ thuật lọc dựa trên nội dung và lọc cộng tác:..............................................52 Chương 3: PHÂN TÍCH THIẾT KẾ HỆ THỐNG.........................................54 1. 2. 3. Giới thiệu tổng quan:...........................................................................................................54 1.1. Giới thiệu ứng dụng:....................................................................................................54 1.2. Các yêu cầu của ứng dụng:..........................................................................................56 Phân tích ứng dụng:.............................................................................................................56 2.1. Phân tích chức năng:....................................................................................................56 2.2. Phân tích hành vi.........................................................................................................62 2.3. Class Diagram:............................................................................................................63 Thiết kế ứng dụng................................................................................................................64 3.1. Thiết kế cơ sở dữ liệu..................................................................................................64 Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 3.2. ii Hướng dẫn khoa học: TS. Lê Thanh Hương Thiết kế giao diện:.......................................................................................................69 4. Cài đặt và thử nghiệm..........................................................................................................73 5. Đánh giá:.............................................................................................................................75 5.1. Dữ liệu đầu vào:..........................................................................................................75 5.2. Phân nhóm dữ liệu:......................................................................................................75 Chương 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN....................................76 1. 2. Kết luận:..............................................................................................................................76 1.1. Về mặt nghiên cứu:......................................................................................................76 1.2. Về mặt ứng dụng:........................................................................................................77 Hướng phát triển:.................................................................................................................77 2.1. Mở rộng kỹ thuật phân nhóm dữ liệu:..........................................................................77 2.2. Kỹ thuật tư vấn dựa trên thông tin người dùng:...........................................................77 TÀI LIỆU THAM KHẢO:..............................................................................78 Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu iii Hướng dẫn khoa học: TS. Lê Thanh Hương DANH MỤC HÌNH Hình 1.1_ Mô hình phát triển bài toán Hình 1.2_ Mô hình xử lý tài liệu Hình 2.1_ Ma trận tương quan giữa từ khóa và tài liệu Hình 2.2_ Mô hình biểu diễn độ tương đồng cosine giữa tài liệu và câu truy vấn Hình 2.3_ Mô hình ma trận giảm chiều Hình 2.4_ Mô hình đồ họa của PLSA Hình 2.5_ Minh họa người dùng lựa chọn đối tượng Hình 2.6_ Cơ sở dữ liệu đánh giá đối tượng của người dùng Hình 3.1_ Mô hình hệ thống Hình 3.2_ Activity Diagram của Use-case Search & Recommend Hình 3.3_ Activity Diagram của Use-case Document Management Hình 3.4_ Use-case Diagram của hệ thống Hình 3.5_ Sequence Diagram của Use-case Search & Hình 3.6_ Class Diagram của Use-case Search & Recommend và Document Management Hình 3.7_ Biểu đồ quan hệ thực thể Hình 3.8_Giao diện bắt đầu tìm kiếm Hình 3.9_Giao diện hiển thị kết quả tìm kiếm. Hình 3.10_Giao diện hiển thị các tài liệu tương đồng Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu Hình 3.11_Giao diện quản lý tài liệu. Học viên thực hiện: Nguyễn Thị Khiêm Hòa iv Hướng dẫn khoa học: TS. Lê Thanh Hương Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu v Hướng dẫn khoa học: TS. Lê Thanh Hương DANH MỤC CÁC BẢNG Bảng 2.1_ Các kỹ thuật phát triển hệ tư vấn gợi ý Bảng 2.2_ So sánh hai mô hình VSM và LSA Bảng 2.3_ So sánh hai mô hình LSA và PLSA Bảng 3.1_ Bảng mô tả thông tin tài liệu Bảng 3.2_ Bảng mô tả thông tin nhà xuất bản Bảng 3.3_ Bảng mô tả thông tin tác giả Bảng 3.4_ Bảng mô tả mối quan hệ giữa tác giả và tài liệu Bảng 3.5_ Bảng mô tả thông tin chủ đề Bảng 3.6_ Bảng mô tả thông tin danh mục cấp 2 Bảng 3.7_ Bảng mô tả thông tin danh mục cấp 1 Bảng 3.8_ Bảng mô tả thông tin người dùng Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu vi Hướng dẫn khoa học: TS. Lê Thanh Hương CÁC TỪ VIẾT TẮT EM_ Expectation Maximization LDA_ Latent Dirichlet Allocation LSA_ Latent Semantic Analysis PLSA_ Probabilistic Latent Semantic Analysis RDF_ Resource Description Framework RS_ Recommender System SVD_ Singular Value Decomposition TEM_ Tempered Expectation Maximization TF-IDF_ Term Frequency/ Inverse Document Frequency VSM_ Vector Space Model Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 1 Hướng dẫn khoa học: TS. Lê Thanh Hương LỜI NÓI ĐẦU Word wide web tràn ngập với một số lượng lớn thông tin có cấu trúc và không có cấu trúc, lại thay đổi liên tục. Điều này ảnh hưởng sâu sắc đến nhiều khía cạnh trong cuộc sống: thay đổi cách chúng ta giao tiếp, làm việc, mua sắm, giải trí… Tuy nhiên, một lượng thông tin dư thừa từ các nguồn khác nhau như việc tự động sao lưu hệ thống, việc sao chép nội dung từ nhiều trang web khác nhau, thậm chí các lời bình luận từ blog, báo chí, các diễn đàn, mạng xã hội… trở thành một thách thức lớn cho việc tìm kiếm thông tin có hiệu quả, chất lượng. Điều này cũng làm cho một lượng lớn các tri thức bị chôn vùi trong hàng tỷ trang web hiện nay. Web mining khám phá các thông tin có giá trị (tri thức) và phù hợp với sự quan tâm của người dùng một cách tự động đã trở thành vấn đề quan trọng đang được quan tâm hiện nay. Trước đây, để tìm kiếm thông tin, người dùng gõ từ khoá (keyword) vào ô tìm kiếm. Và họ nhận được rất nhiều thông tin liên quan đến từ khoá. Chẳng hạn, nguời dùng gõ từ khoá “bún bò” thì kết quả mà họ nhận được là: cách nấu bún bò, địa chỉ bán bún bò, hay văn hoá ẩm thực của bún bò, thậm chí là cả những thông tin liên quan đến từ “bún” và “bò”… người dùng bị rối rắm trong mớ thông tin này. Điều này cũng dẫn đến hiện tượng thắt cổ chai gây khó khăn cho việc tìm kiếm, rút trích và bảo trì thông tin. Bởi máy tính được dùng như một thiết bị gửi và nhận thông tin, chúng chỉ hỗ trợ trong giới hạn nào đó trong việc truy xuất và xử lý thông tin. Vì vậy, người dùng phải đảm trách việc xử lý và lọc thông tin cho phù hợp với nhu cầu của mình. Để khắc phục vấn đề này, các kỹ thuật xử lý ngữ nghĩa của nội dung tài liệu được phát triển giúp máy tính “hiểu” nội dung chứa đựng bên trong trang web. Mặt khác, trong thực tế mỗi vấn đề được diễn tả bởi một tập từ ngữ đặc Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 2 Hướng dẫn khoa học: TS. Lê Thanh Hương trưng hay còn gọi là tập từ khoá. Do đó, thay vì máy tính phải xem xét toàn bộ nội dung của tài liệu thì chỉ cần tìm kiếm dựa trên tập từ khoá đặc trưng cho nội dung. Hơn nữa, việc xác định đặc trưng nội dung của tài liệu giúp chúng ta dễ dàng đánh giá độ tương đồng giữa các tài liệu. Vì thế sẽ tiết kiệm được thời gian và có được những thông tin gợi ý nhanh chóng và chính xác từ hệ thống. Bên cạnh đó, chúng ta cũng nhận ra trong cộng đồng xã hội luôn hình thành các nhóm có chung sở thích và mối quan tâm ở một khía cạnh nào đó. Do đó, việc thống kê thói quen sử dụng của người dùng cũng hỗ trợ việc đưa ra những gợi ý nhanh chóng và chính xác hơn. Các kỹ thuật khai phá và xử lý thông tin hiện nay đang đứng trước những thách thức mới với số lượng thông tin lớn và thay đổi liên tục. Việc xử lý ngữ lý ngữ nghĩa nội dung tài liệu, cũng như hướng vào mối quan tâm của người dùng là một hướng nghiên cứu mới trong xu thế hiện nay. Và đây cũng là lý do tôi chọn đề tài “xây dựng hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu” để làm luận văn tốt nghiệp. Với mục tiêu xây dựng ứng dụng với các kỹ thuật xử lý ngữ nghĩa kết hợp phân tích thói quen sử dụng của người dùng nhằm đưa ra những gợi ý phù hợp với vấn đề người dùng quan tâm, bố cục của luận văn như sau:  Chương 1: Mô hình phát triển.  Chương 2: Cơ sở lý thuyết của bài toán.  Chương 3: Xây dựng ứng dụng.  Chương 4: Kết luận và hướng phát triển. Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 3 Hướng dẫn khoa học: TS. Lê Thanh Hương Với thời gian thực hiện luận văn có giới hạn, chắc chắn không thể tránh khỏi những sai sót. Kính mong sự góp ý của quý Thầy Cô, các anh chị đồng nghiệp để có thể xây dựng ứng dụng hoàn thiện hơn. TP. Hồ Chí Minh, Ngày 01 tháng 03 năm 2010 Người thực hiện Nguyễn Thị Khiêm Hòa Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 4 Hướng dẫn khoa học: TS. Lê Thanh Hương Chương 1: MÔ HÌNH PHÁT TRIỂN 1. Mục đích và phạm vi của đề tài: 1.1. Mục đích và yêu cầu: Word wide web chứa một kho tri thức khổng lồ dưới dạng tài liệu thô mà chỉ con người mới có thể hiểu được. Vì vậy, cần có một công cụ để khai thác các thông tin này một cách có hiệu quả. Nghĩa là, làm thế nào để có thể xử lý tự động ngữ nghĩa của tài liệu? Và làm thế nào để máy tính có thể “hiểu” được người dùng muốn gì và quan tâm đến điều gì? Với mục tiêu tìm kiếm tài liệu một cách nhanh chóng và chính xác phục vụ cho việc nghiên cứu, tôi chọn đề tài “xây dựng hệ thống tư vấn gợi ý tìm kiếm thông tin”. Nhằm nghiên cứu và tìm hiểu các phương pháp phân tích ngữ nghĩa của tài liệu tiếng việt, kết hợp phân tích những đánh giá từ cộng đồng người dùng đối với đối tượng cần tìm, giúp cho việc tìm kiếm nhanh chóng và chính xác hơn. Từ mục tiêu vừa đưa ra, những yêu cầu cần phải tìm hiểu để đạt mục tiêu trên gồm: - Lọc và xử lý các định dạng khác nhau của tài liệu tiếng việt. - Tìm kiếm và gợi ý tài liệu dựa trên ngữ nghĩa và đánh giá của người sử dụng đối với đối tượng có trên hệ thống. - Xây dựng ứng dụng minh hoạ tính thực tiễn của hướng nghiên cứu. 1.2. Phạm vi phát triển đề tài: Nội dung của tài liệu chính là tri thức mà con người có thể thu thập được khi đọc tài liệu. Làm thế nào để máy tính có thể “hiểu” được ngữ nghĩa của tài liệu? Thực tế, máy tính chỉ nhận dạng ra khuôn mẫu của Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 5 Hướng dẫn khoa học: TS. Lê Thanh Hương tài liệu theo một phương pháp nào đó chứ không hiểu ngữ nghĩa thật sự của tài liệu. Hiện nay, người ta nghiên cứu và phát triển thế hệ web có ngữ nghĩa. Có hai hướng khác nhau trong việc nghiên cứu này: Một là, phát triển một hệ thống web hoàn toànmới với chuẩn siêu dữ liệu RDF (Resource Description Framework) trên web, chuẩn hoá các ngôn ngữ biểu diễn ontology cho web có ngữ nghĩa … cách này, phải xây dựng lại toàn bộ cấu trúc hệ thống web. Cách thứ hai, là xây dựng các phương pháp phân tích, khai thác các nguồn thông tin sẵn có trên web. Trong phạm vi của đề tài, tôi chọn cách tiếp cận thứ hai, nghiên cứu cách tiếp cận phân tích độ tương đồng ngữ nghĩa giữa các tập tài liệu dựa trên rút trích và thống kê. Đồng thời, cũng nghiên cứu kỹ thuật phân tích các đánh giá của người dùng đối với các đối tượng (tài liệu) trên hệ thống thông qua phương pháp thống kê để tăng tốc độ xử lý cho hệ thống. Cuối cùng, xây dựng một Demo ứng dụng web nhằm chứng minh tính khả thi của đề tài trong thực tế. 2. Mô hình phát triển bài toán: 2.1. Xây dựng mô hình bài toán: Dựa trên mục tiêu đưa ra ban đầu, mô hình bài toán có thể được phác hoạ như sau: - Người dùng có thể đăng nhập hệ thống hoặc không. Với người dùng có đăng ký tài khoản trên hệ thống thì hệ thống sẽ tạo ra một profile lưu trữ thông tin người dùng và được cập nhật sau các phiên làm việc (session). Đồng thời trong quá trình tìm kiếm sẽ đánh giá giữa tài liệu cần tìm với những vấn đề đang quan tâm của người dùng để cho kết quả phù hợp hơn. Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 6 Hướng dẫn khoa học: TS. Lê Thanh Hương - Hệ thống cho phép người dùng tìm kiếm theo từ khoá. Những tài liệu được chọn đọc sẽ được dùng để tự động tìm kiếm những tài liệu khác có nội dụng liên quan, kết hợp vấn đề người dùng quan tâm để đưa ra gợi ý giúp người dùng có nhiều thông tin hơn. - Bên cạnh đó, ghi nhận tần suất được chọn của từng tài liệu để có thể gợi ý nhanh hơn theo từng danh mục tìm kiếm. Hình 1.1_Mô hình phát triển bài toán Client Browser Trang tm kiếếm Trang chi tếết nội dung tài liệu Trang hiển thị kếết quả tm kiếếm Các tài liệu gợi ý theo nội dung và sự quanDanh tâm sách tài liệu Nhập câu tm kiếếm user Câu tm kiếếm Kếết quả tm kiếếm Chọn một tài liệu Kếết quả gợi ý Tách câu tm kiếếm thành các từ khoá tm Cậpkiếế nhm ật. tâần suâết được chọn của tài liệu. Tìm kiếếm theo từ khoá Tìm kiếếm tài liệu tương đồầng nội dung và sự quan tâm của user. Server Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 7 Hướng dẫn khoa học: TS. Lê Thanh Hương Mô hình xử lý tài liệu nhằm khai thác nội dung của tài liệu trong quá trình tìm kiếm. Tài liệu Phân tch từ khoá đặc trưng cho nội dung Từ khoá đặc trưng cho nội dung So sánh độ tương đồầng nội dung Các tài liệu tương đồầng nội dung Hình 1.2. Mô hình xử lý một tài liệu. Khi rút trích được tập từ khoá đặc trưng cho nội dung của tài liệu, hệ thống sẽ tìm thấy tài liệu nhanh hơn do khối lượng tìm kiếm giảm đi rất nhiều. Nội dung của tài liệu được cô đọng bởi những từ khoá được xếp hạng. Từ khoá có tần suất xuất hiện càng cao càng đặc trưng cho nội dung tài liệu. Tuy nhiên, trong tài liệu cũng chứa nhiều từ khoá có tần suất xuất hiện nhiều nhưng không mang ý nghĩa (stopword). Do đó, cần có file từ điển để loại bỏ các stopword này. Từ đó, dựa vào thống kê và tập từ khoá đặc trưng để đánh giá độ tương đồng về nội dung giữa các tài liệu. Bên cạnh đó, cần kết hợp với những vấn đề mà người dùng quan tâm (thu thập được người dùng đăng ký và cập nhật dựa trên lịch sử làm việc của người dùng) để đưa ra những kết quả tìm kiếm phù hợp hơn. Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 2.2. 8 Hướng dẫn khoa học: TS. Lê Thanh Hương Các hướng tiếp cận của bài toán: Để có được tập từ khoá đặc trưng,việc đầu tiên là hệ thống phải vector hoá nội dung tài liệu bằng cách tách từ, xác định tập từ khoá đại diện cho văn bản và biểu diễn văn bản thông qua vector các từ khoá này. Một cách tiếp cận là dựa trên tần suất xuất hiện của từ tf×idf. Việc phân tách từ đã có nhiều kỹ thuật khác nhau hiện nay. Tuy nhiên, với tiếng Việt thì việc tách từ cũng có một vài đặc điểm riêng khác biệt do cấu trúc ngữ pháp khác với tiếng Anh, tiếng Việt là ngôn ngữ đơn âmtiết nên một từ không hẳn cách nhau bởi khoảng trắng. Một trong những kỹ thuật được áp dụng hiện nay đó là dùng từ điển để phân tách. Nếu từ điển có nhiều từ và có khả năng nhóm các từ đồng nghĩa thì việc phân tách càng chính xác và cô đọng nội dung hơn. Bước tiếp theo là thực hiện tìm kiếm thông qua phép so sánh độ tương đồng nội dung giữa các tài liệu. Có nhiều cách tiếp cận để tính độ tương đồng nội dung như tiềm ẩn dựa trên xác suất PLSA (Probabilistic Latent Semantic Analysis), dùng từ điển đồng nghĩa… Bên cạnh đó để tăng độ chính xác, phù hợp với sự quan tâm của người dùng thì kết hợp với kỹ thuật phân tích dựa trên thống kê để phân thành các nhóm người dùng có chung sự quan tâm nhằm lọc lại những thông tin cô đọng hơn. Trong phạm vi thời gian nghiên cứu có hạn nên tôi tập trung nghiên cứu các vấn đề sau: - Phân tích ngữ nghĩa tiềm ẩn của nội dung tài liệu nhằm đánh giá độ tương đồng nội dung giữa các tài liệu, đáp ứng nhu cầu tìm kiếm của người dùng nhanh và chính xác. Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 9 Hướng dẫn khoa học: TS. Lê Thanh Hương - Hệ tư vấn gợi ý (RS_Recommender system) và các kỹ thuật phát triển. - Phân tích các đánh giá của cộng đồng người dùng đối với các đối tượng tìm kiếm trên hệ thống, cách thức lưu trữ thông tin người dùng và kỹ thuật phát triển. 2.3. Môi trường phát triển: Để xây dựng ứng dụng demo, tôi thực hiện trên môi trường phát triển sau: - Visual studio 2005. - Xây dựng website với ASP.Net và C#. Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 10 Hướng dẫn khoa học: TS. Lê Thanh Hương Chương 2: CƠ SỞ LÝ THUYẾT CỦA BÀI TOÁN 1. Giới thiệu: Với mô hình bài toán được phân tích ở trên và các hướng tiếp cận đã nêu, trong chương này tôi đi sâu vào trình bày cụ thể các kỹ thuật liên quan đến bài toán gồm: - Kỹ thuật đánh giá độ tương đồng nội dung giữa các tài liệu. - Kỹ thuật phân tích mức độ quan tâm của người dùng đối với các đối tượng trên hệ thống. Riêng nhóm kỹ thuật vector hoá nội dung văn bản gồm tách từ và rút ra tập từ khoá đặc trưng, tôi chỉ giới thiệu và kế thừa kết quả nghiên cứu từ các ứng dụng khác đã thành công. 3. Tìm hiểu các kỹ thuật phát triển: 3.1. Các ứng dụng liên quan xử lý tiếng việt: Tiếng nói và chữ viết là hai thành phần cơ bản của bất cứ ngôn ngữ nào. Hiện nay ở Việt Nam, một số công trình liên quan đến tiếng Việt cũng đã có những thành công nhất định qua các phần mềm: - Bộ gõ tiếng Việt đã ra nhiều phiên bản và càng lúc càng hoàn thiện hơn. Việc đưa bảng mã Unicode và được chọn làm bộ mã chuẩn tiếng Việt cũng đã thành công. - Các chương trình hỗ trợ tiếng nước ngoài như từ điển Lạc Việt, các hệ dịch EVTRAN hay VETRAN, các phần mềm học tiếng nước ngoài… - Chương trình kiểm lỗi tiếng Việt, chuyển bảng mã, … Vietspell Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 11 Hướng dẫn khoa học: TS. Lê Thanh Hương - Các phần mềm được việt hoá như Windows và Microsoft Office Các phần mềm trên ít nhiều cũng cho thấy nhu cầu sử dụng tiếng Việt trên máy tính là không nhỏ. Và hẳn nhiên đó chỉ là bước khởi đầu của việc xử lý ngôn ngữ tiếng Việt tự động trên máy tính. Việc gợi ý tìm kiếm trên máy tính bằng tiếng Anh cũng đã có một số ứng dụng đã tồn tại trên mạng hiện nay như tìm kiếm sách trên amazon.com, tìm kiếm phim trên movies.com hay tìm kiếm CDs… Tuy nhiên, hiện nay vẫn chưa có một amazon Việt Nam để giúp cho việc tìm kiếm tài liệu nghiên cứu. Vì vậy, việc ứng dụng xử lý tiếng Việt trong xây dựng một hệ tư vấn gợi ý bằng tiếng Việt là vấn đề cần thiết nhằm cung cấp cho người dùng Việt Nam một ứng dụng thân thiện, góp phần trong việc phát triển nghiên cứu khoa học của nước nhà. 3.1.1. Đặc trưng cấu trúc ngữ pháp tiếng việt: Có nhiều nghiên cứu về ngữ pháp tiếng Việt. Song trong ứng dụng cụ thể tôi không bàn đến khía cạnh ngôn ngữ học mà chỉ quan tâm đến những đặc trưng liên quan đến việc phân tích và tách từ. Các đặc điểm ngữ pháp tiếng Việt: - Là ngôn ngữ không biến cách, từ không bị biến thể. - Từ không được phân cách bởi khoảng trắng. Từ có thể là một hoặc nhiều âm tiết, mà bản thân mỗi âm tiết lại có thể là một từ. - Từ có thể đa nghĩa dẫn đến sự nhập nhằng khi xử lý ngôn ngữ. Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 12 Hướng dẫn khoa học: TS. Lê Thanh Hương 3.1.2. Các bước xử lý tài liệu tiếng việt: Thông tin được lưu trữ dưới dạng các file tài liệu như sách, tạp chí, bài báo… điện tử. Với tài liệu tiếng Việt, mỗi từ có thể bao gồm nhiều âm tiết. Việc tách từ tiếng Việt phải dựa trên từ điển và các thuật toán kết hợp sao cho các từ được tách đúng nghĩa nhất trong ngữ cảnh cần đề cập. Sau khi tách từ, thực hiện loại bỏ các từ không mang nhiều ý nghĩa về nội dung (stopword). Cuối cùng, dùng kỹ thuật TF-IDF để rút trích được tập từ khoá của tài liệu. 3.1.3. Giải pháp tách từ: Hiện nay, các tài liệu tiếng việt được khai thác trên font chữ chung, tuân theo chuẩn Unicode. Điều này thật sự có lợi cho các chương trình đọc tài liệu tiếng việt được chính xác. Với tiếng việt, việc tách từ không thể dựa trên dấu cách mà cần có giải thuật tốt để việc tách từ được chính xác. Và hiện nay cũng đã có khá nhiều công cụ tách từ đạt được độ chính xác cao như: Vntonkenizer (96%). Tuy nhiên, do không tập trung nghiên cứu vấn đề này nên tôi kế thừa các kết quả nghiên cứu đã có cho việc tách từ và rút trích đặc trưng của tài liệu. Học viên thực hiện: Nguyễn Thị Khiêm Hòa Hệ tư vấn gợi ý tìm kiếm tài liệu nghiên cứu 3.2. 13 Hướng dẫn khoa học: TS. Lê Thanh Hương Kỹ thuật phát triển hệ tư vấn gợi ý (Recommender System) 3.2.1. Giới thiệu hệ tư vấn gợi ý (RS – Recommender System) Hệ tư vấn gợi ý là một hệ thống lọc thông tin đặc biệt dựa trên những đặc trưng của đối tượng nhằm gợi ý cho người dùng những thông tin dịch vụ gần gũi với sự quan tâm của họ nhất. Cách giải quyết vấn đề của hệ tư vấn gợi ý làước đoán tỷ lệ quan tâm của người dùng với các đối tượng dựa vào các thông tin lựa chọn của họ. Từ đó ước đoán tỷ lệ của các đối tượng không được chọn và gợi ý cho người dùng các đối tượng có tỷ lệ ước đoán cao nhất. Về căn bản, mô hình hệ tư vấn gợi ý được xây dựng như sau: nếu gọi C là tập các thành viên trong hệ thống; và S là các đối tượng có thể gợi ý trong hệ thống như: sách, tạp chí, CD… Gọi u là giá trị phù hợp của đối tượng s với người dùng c, nghĩa là u: c × s R, với R là tập được đưa ra gợi ý cho người dùng c, được sắp thứ tự giảm dần của u. Với mỗi người dùng c  C, ta chọn được đối tượng s’ S là giá trị được ưa thích nhất: ∀ c ∈ C , s' c = arg max u(c , s) s∈S Ta cũng nhận thấy độ phức tạp của bài toán rất cao do không gian của S và C là rất lớn. Trong hệ tư vấn gợi ý, độ thích hợp của một đối tượng đối với một người dùng được biểu diễn bởi một tỷ lệ hoặc một Học viên thực hiện: Nguyễn Thị Khiêm Hòa
- Xem thêm -

Tài liệu liên quan