Đăng ký Đăng nhập
Trang chủ Nghiên cứu và xây dựng hệ thống gợi ý địa điểm du lịch...

Tài liệu Nghiên cứu và xây dựng hệ thống gợi ý địa điểm du lịch

.PDF
69
3
64

Mô tả:

MỤC LỤC LỜI CAM ĐOAN MỤC LỤC TÓM TẮT LUẬN VĂN DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC CÁC BẢNG DANH MỤC CÁC HÌNH MỞ ĐẦU .............................................................................................................. 1 1. Lý do chọn đề tài ........................................................................................... 1 2. Mục tiêu và nhiệm vụ của đề tài ................................................................... 2 3. Đối tượng và phạm vi nghiên cứu................................................................. 2 4. Phương pháp nghiên cứu............................................................................... 3 5. Ý nghĩa khoa học và thực tiễn của đề tài ...................................................... 3 6. Bố cục luận văn ............................................................................................. 3 Chương 1 - TỔNG QUAN DU LỊCH QUẢNG NAM VÀ HỆ THỐNG GỢI Ý ... 4 1.1. TỔNG QUAN VỀ DU LỊCH QUẢNG NAM ..................................................... 4 1.2. CÁC PHƯƠNG PHÁP GỢI Ý ............................................................................. 5 1.2.1. Phương pháp gợi ý dựa trên nội dung .......................................................... 5 1.2.2. Phương pháp gợi ý dựa trên lọc cộng tác .................................................... 7 1.2.3. Phương pháp gợi ý lai .................................................................................. 9 1.3. HỆ THỐNG GỢI Ý ............................................................................................ 10 1.3.1. Giới thiệu hệ thống gợi ý ............................................................................ 10 1.3.2. Chức năng hệ thống gợi ý ........................................................................... 12 1.3.3. Dữ liệu và các nguồn tri thức...................................................................... 14 1.3.3.1. Sản phẩm ............................................................................................. 14 1.3.3.2. Người dùng .......................................................................................... 14 1.3.3.3. Giao dịch ............................................................................................. 15 1.3.4. Bài toán tổng quát của hệ thống gợi ý ........................................................ 16 1.3.5. Các website du lịch của Việt Nam .............................................................. 17 KẾT LUẬN CHƯƠNG 1 .................................................................................... 19 Chương 2 - PHƯƠNG PHÁP GỢI Ý VÀ MÔ HÌNH ĐỀ XUẤT................. 20 2.1. PHƯƠNG PHÁP LỌC CỘNG TÁC ................................................................. 20 2.1.1. Ưu điểm của phương pháp lọc cộng tác ..................................................... 22 2.1.2. Các hình thức tiếp cận ................................................................................ 23 2.1.2.1. Phương pháp tiếp cận dựa trên bộ nhớ (Memory base) ...................... 23 2.1.2.2. Phương pháp tiếp cận dựa trên mô hình (Model-based) ..................... 23 2.2. KỸ THUẬT PHÂN RÃ MA TRẬN .................................................................. 24 2.3. MÔ HÌNH ĐỀ XUẤT ........................................................................................ 28 2.3.1. Xử lý đầu vào .............................................................................................. 28 2.3.2. Xử lý đầu ra ................................................................................................ 29 2.3.3. Kết hợp phương pháp gợi ý theo ngữ cảnh ................................................ 31 KẾT LUẬN CHƯƠNG 2 .............................................................................................. 32 Chương 3 - XÂY DỰNG HỆ THỐNG GỢI Ý ĐỊA ĐIỂM DU LỊCH ............ 33 3.1. MÔ TẢ HỆ THỐNG .......................................................................................... 33 3.2. PHÂN TÍCH, THIẾT KẾ VÀ XÂY DỰNG HỆ THỐNG ................................ 35 3.2.1. Sơ đồ ca sử dụng ......................................................................................... 36 3.2.2. Sơ đồ hoạt động và sơ đồ tuần tự ............................................................... 38 3.2.3. Cơ sở dữ liệu ............................................................................................... 41 3.2.4. Một số giao diện minh họa của hệ thống .................................................... 44 3.3. ĐÁNH GIÁ ........................................................................................................ 47 KẾT LUẬN CHƯƠNG 3 .............................................................................................. 49 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ....................................................... 50 TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao) TÓM TẮT LUẬN VĂN NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG GỢI Ý ĐỊA ĐIỂM DU LỊCH Học viên: Trần Hữu Phước Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Khóa: K31 Trường Đại học Bách khoa - ĐHĐN Tóm tắt - Hệ thống gợi ý (Recommender Systems - RS) đang được ứng dụng rộng rãi trong nhiều lĩnh vực (như thương mại điện tử, giải trí, giáo dục,...) nhằm dự đoán sở thích của người dùng nhờ vào thông tin cá nhân hoặc những phản hồi (đánh giá) của họ. Luận văn tập trung nghiên cứu hệ thống gợi ý theo ngữ cảnh, áp dụng cho gợi ý du lịch nhằm gợi ý các địa điểm du lịch phù hợp nhất với người dùng. Hệ thống kết hợp phương pháp lọc cộng tác, tích hợp kỹ thuật phân rã ma trận (matrix factorization) nhằm tăng độ chính xác cho hệ thống. Sau khi xây dựng hệ thống và tích hợp các giải thuât gợi ý, tôi thu thập thông tin từ người dùng thực nhằm đánh giá hiệu quả của hệ thống đã đề xuất. Thực nghiệm cho thấy việc ứng dụng giải pháp này trong hỗ trợ phát triển du lịch là hoàn toàn khả thi. Từ khóa - Hệ thống gợi ý, kỹ thuật phân rã ma trận, lọc cộng tác. RESEARCHING AND BUILDING TOURIS RECOMMENDATION SYSTEMS Abstract - Recommender Systems are widely used in many areas, such as in ecommerce (for online shopping), in entertainments (for movie recommendation, music recommendation, etc) and so on, to predict users’ preference based on their past preferences/behaviors. In this work, propose an approach for Building Recommender Systems. Then apply this approach for a Tourist recommendation system so that the system can recommend appropriate places to tourists. This system combines several approaches such as matrix factorization to improve the prediction accuracy of the model. Experimental results show that this is a promising approach for building Tourist Recommender Systems. Key words - Recommender Systems, Context-Aware Tourist Recommender Systems, matrix factorization, collaborative filtering. DANH MỤC CÁC TỪ VIẾT TẮT CF IF IR MF RS SGD Collaborative filtering (Lọc cộng tác) Information filtering (Lọc thông tin) Information retrieval (Thu thập thông tin) Matrix Factorization (Kỹ thuật phân rã ma trận) Recommender Systems (Hệ thống gợi ý) Stochastic Gradient Descent (Giảm độ lệch ngẫu nhiên) DANH MỤC CÁC CÁC BẢNG Số hiệu bảng 1.1. 2.1. 2.2. 2.3. 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 3.8. 3.9. 3.10. 3.11. Tên bảng Dữ liệu ma trận người dùng x sản phẩm Minh hoạ tập dữ liệu với ngữ cảnh Tập dữ liệu sau khi sử dụng phương pháp xử lý ngữ cảnh đầu vào Hậu xử lý trên kết quả dự đoán Bảng khách hàng Bảng loại tin Bảng địa điểm Bảng quảng cáo Bảng đánh giá Bảng loại hình Bảng đặt lịch tham quan Bảng quản trị Bảng Menu Bảng liên hệ Bảng tin tức Trang 8 29 29 31 41 42 42 42 42 43 43 43 43 43 44 DANH MỤC CÁC HÌNH Số hiệu hình 1.1. 1.2. 1.3. 1.4. 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 3.8. 3.9. 3.10. 3.11. 3.12. 3.13. 3.14. 3.15. 3.16. 3.17. 3.18. 3.19. 3.20. 3.21. Tên hình Minh họa phương pháp gợi ý dựa trên lọc nội dung Minh họa phương pháp gợi ý dựa trên lọc cộng tác Minh hoạ hệ thống gợi ý Các thành phần chính của hệ thống gợi ý Hệ thống gợi ý lọc cộng tác của trang web Amazon.com Quy trình của hệ thống gợi ý dựa trên lọc cộng tác Minh họa kỹ thuật phân rã ma trận Minh hoạ dự đoán người dùng thứ 3 cho item thứ 3 Mô hình đề xuất quy trình gợi ý Sử dụng phương pháp xử lý ngữ cảnh đầu vào Xử lý thông tin ngữ cảnh đầu ra Quy trình sử dụng website Sơ đồ kiến trúc tổng thể của hệ thống Sơ đồ ca sử dụng tổng quát của hệ thống Sơ đồ ca sử dụng khách hàng Sơ đồ ca sử dụng người quản trị Sơ đồ hoạt động chức năng gợi ý Sơ đồ tuần tự chức năng gợi ý Sơ đồ hoạt động chức năng cập nhật nội dung Sơ đồ tuần tự chức năng cập nhật nội dung Sơ đồ hoạt động chức năng đánh giá Sơ đồ tuần tự chức năng đánh giá Sơ đồ quan hệ cơ sở dữ liệu Giao diện trang chủ của website Giao diện xem tin tức du lịch Giao diện đánh giá địa điểm du lịch Giao diện liên hệ Giao diện đăng nhập Giao diện đăng ký Giao diện các địa điểm du lịch Giao diện gợi ý theo loại hình So sánh RMSE giữa các phương pháp Trang 6 8 11 17 20 21 25 27 28 29 30 34 35 36 37 37 38 38 39 39 40 40 41 44 45 45 46 46 46 47 47 48 1 MỞ ĐẦU 1. Lý do chọn đề tài Trong thời đại bùng nổ thông tin, nhu cầu tìm kiếm thông tin trên Internet ngày càng trở nên phổ biến. Việc cần tìm thông tin về sản phẩm nào đó, giải pháp được hầu hết người dùng sử dụng là đưa câu hỏi vào công cụ tìm kiếm thay vì tìm trên những website/forum chuyên ngành. Tuy nhiên, các công cụ tìm kiếm có thể đưa ra một danh sách các lựa chọn chứ không thể đưa ra được lựa chọn nào là tốt nhất. Ví dụ, một du khách lần đầu đến Quảng Nam, muốn tìm một địa điểm du lịch bằng cách tìm trên Google “Quang Nam tour”, thì sẽ nhận gần 20.000.000 kết quả trả về. Hầu hết mọi địa điểm du lịch trong danh sách kết quả đều xa lạ và tự quảng cáo mình là tốt nhất, làm cho du khách bối rối trong biển thông tin, vì vậy, du khách cần lời khuyên cho trường hợp này. Hệ thống gợi ý (Recommender system - RS) đã trở thành một trong những lĩnh vực nghiên cứu quan trọng kể từ khi bài báo đầu tiên về lọc cộng tác (Collaborative filtering - CF) xuất hiện vào giữa những năm 1990 [14]. Hiện nay, sự quan tâm đối với hệ thống gợi ý đang rất cao vì sự cần thiết của những ứng dụng có thể giúp người dùng xử lý với tình trạng quá tải thông tin và đưa ra những nội dung hoặc lời khuyên phù hợp cho từng cá nhân. Hệ thống gợi ý là một dạng kỹ thuật trong lọc thông tin và đang được sử dụng rộng rãi trong nhiều lĩnh vực (như thương mại điện tử, giải trí, giáo dục,...) nhằm dự đoán sở thích của người dùng nhờ vào thông tin cá nhân hoặc những phản hồi (đánh giá) từ người dùng. Hệ thống gợi ý học từ người dùng và gợi ý sản phẩm tốt nhất trong số sản phẩm phù hợp. Các hệ thống gợi ý thường dùng trong các ứng dụng chỉ có hai thực thể đó là người dùng và các sản phẩm mà nó không đặt chúng vào một ngữ cảnh khi cung cấp các gợi ý. Nói cách khác hệ thống gợi ý đa số tập trung vào giới thiệu các sản phẩm phù hợp nhất với người dùng cá nhân mà không xem xét đến thông tin ngữ cảnh của người dùng như thời gian, địa điểm… Để hệ thống gợi ý có thể dự đoán chính xác về các sở thích của người dùng thì nó phụ thuộc vào mức độ mà hệ thống gợi ý đã kết hợp các thông tin theo ngữ cảnh. Với việc ngành du lịch trong những năm qua phát triển mạnh mẽ, đem lại lợi ích to lớn về kinh tế - xã hội, góp phần thúc đẩy các ngành sản xuất và dịch vụ phát triển. Nhờ tiềm năng đa dạng và phong phú với nhiều danh lam thắng cảnh, từ đó thu hút không ít khách du lịch trong và ngoài nước. Tuy nhiên, khách du lịch thường gặp phải những khó khăn khi đến những nơi lạ lẫm. Du 2 khách thường phải nhờ đến sự trợ giúp của hướng dẫn viên du lịch hoặc ít nhất là phải dựa vào sách hướng dẫn hay bản đồ, công cụ tìm kiếm để có được những thông tin về các địa điểm du lịch tốt nhất đối với họ. Tuy nhiên, những sự trợ giúp này cũng có những hạn chế nhất định như: khách du lịch sẽ khó tìm thấy những thông tin chi tiết về những địa điểm du lịch cần tham quan để có sự chuẩn bị cần thiết. Hoặc là, hướng dẫn viên thường đưa khách du lịch đến những tour du lịch định sẵn và chỉ được tham quan những điểm du lịch chính, trong khi đi những điểm du lịch thú vị lại không được tham quan, mặc dù cách địa điểm chính rất gần. Vì lý do đó, tôi đã quyết định lựa chọn luận văn tốt nghiệp với đề tài “ Nghiên cứu và xây dựng hệ thống gợi ý địa điểm du lịch” sử dụng công nghệ trong hệ thống gợi ý để có thể hỗ trợ người dùng dễ dàng tìm thấy những địa điểm du lịch phù hợp với họ, phù hợp với những điều kiện ngữ cảnh xung quanh. 2. Mục tiêu và nhiệm vụ của đề tài 2.1. Mục tiêu - Nghiên cứu lý thuyết và các phương pháp, kỹ thuật xây dựng hệ thống gợi ý. Từ đó, tối ưu phương pháp dự đoán để hỗ trợ cho hệ thống gợi ý. - Xây dựng được hệ thống gợi ý địa điểm du lịch. 2.2. Nhiệm vụ Để hệ thống đạt được mục tiêu đề ra, đề tài tiến hành giải quyết các nhiệm vụ sau: - Phân tích các phương pháp gợi ý đã tồn tại và đề xuất hướng tiếp cận tối ưu. - Ứng dụng hướng tiếp cận để tiến đến phân tích, thiết kế và xây dựng hệ thống gợi ý. - Triển khai xây dựng hệ thống gợi ý địa điểm du lịch và đánh giá kết quả. 3. Đối tượng và phạm vi nghiên cứu 3.1. Đối tượng nghiên cứu - Nghiên cứu phương pháp lọc cộng tác, kỹ thuật phân rã ma trận và xử lý các thông tin theo ngữ cảnh. - Thông tin liên quan đến du lịch ở tỉnh Quảng Nam. 3.2. Phạm vi nghiên cứu - Nghiên cứu tổng quan về lý thuyết các phương pháp gợi ý, tập trung vào phương pháp lọc cộng tác, kỹ thuật phân rã ma trận và cơ sở dữ liệu thực nghiệm để xây dựng hệ thống gợi ý và các hướng cải tiến. 3 - Ứng dụng cho hệ thống gợi ý tra cứu các địa điểm du lịch trong phạm vi tỉnh Quảng Nam và được đưa lên Internet. 4. Phương pháp nghiên cứu Trong luận văn đã sử dụng các phương pháp sau: - Tìm hiểu thực tế, tổng hợp thống kê dữ liệu về du lịch Quảng Nam. - Kỹ thuật phân rã ma trận (matrix factorization – MF). - Phương pháp xử lý thông tin ngữ cảnh đầu vào, đầu ra. - Phương pháp đánh giá dựa trên độ đo (Root Mean Squared Error – RMSE). 5. Ý nghĩa khoa học và thực tiễn của đề tài - Ý nghĩa khoa học:  Đề xuất được kỹ thuật phân rã ma trận vào hệ thống gợi ý ngữ cảnh.  Đề tài là bước đầu nghiên cứu trường hợp riêng của kỹ thuật phân rã ma trận.  Góp phần vào công cuộc nghiên cứu và phát triển ứng dụng thông minh. - Ý nghĩa thực tiễn:  Ứng dụng triển khai tới người dùng, giúp tiết kiệm thời gian, chi phí và tạo sự tiện dụng tối đa cho người dùng. Giúp phát triển du lịch ở Quảng Nam. 6. Bố cục luận văn Ngoài phần mở đầu và kết luận, nội dung đề tài được chia thành 03 chương: Chương 1: Tổng quan về du lịch Quảng Nam và hệ thống gợi ý Chương 2: Phương pháp gợi ý và mô hình đề xuất Chương 3: Xây dựng hệ thống gợi ý địa điểm du lịch: Trong chương này tập trung vào việc phân tích thiết kế, xây dựng, thử nghiệm hệ thống và từ đó đánh giá kết quả đạt được. 4 Chương 1 - TỔNG QUAN DU LỊCH QUẢNG NAM VÀ HỆ THỐNG GỢI Ý Trong chương này, trình bày các lý thuyết về du lịch, điểm du lịch, giới thiệu về du lịch Quảng Nam, khái niệm về hệ thống gợi ý, nêu bật tầm quan trọng của điểm du lịch và giá trị của cơ sở dữ liệu đối với hệ thống gợi ý, đồng thời phân tích một số website có chức năng tương tự. Chương này là cơ sở lý luận cho các chương tiếp theo. 1.1. TỔNG QUAN VỀ DU LỊCH QUẢNG NAM Du lịch là hành động rời khỏi nơi cư trú để đi đến một nơi khác, một môi trường khác trong một thời gian ngắn nhằm mục đích tìm hiểu, khám phá, vui chơi, giải trí, nghỉ dưỡng. Du lịch bao gồm mọi hoạt động của những người du hành, tạm trú trong mục đích tham quan, khám phá và tìm hiểu, trải nghiệm hoặc trong mục đích nghỉ ngơi, giải trí, thư giãn cũng như mục đích hành nghề và những mục đích khác nữa trong thời gian liên tục nhưng không vượt quá một năm, ở bên ngoài môi trường sống định cư, ngoại trừ mục đích thu lợi nhuận”. Như vậy, ta có thể hiểu du lịch là sự khởi hành và lưu trú tạm thời của con người ngoài nơi cư trú thường xuyên của họ nhằm thỏa mãn những nhu cầu như giải trí, nghỉ ngơi… Điểm du lịch là một phạm vi cụ thể chứa đựng một nguồn lực tự nhiên hay nhân tạo với mục đích thu hút và thỏa mãn một hoặc nhiều nhu cầu như nghỉ ngơi, vui chơi, tham quan …của khách du lịch. Điểm du lịch là trung tâm chú ý của du khách, là động lực ban đầu thúc đẩy du khách thực hiện quyết định du lịch và đến với điểm đến có điểm du lịch mà họ mong muốn, nó cũng là nơi trực tiếp thỏa mãn cũng như giải quyết nhu cầu du lịch của du khách. Tỉnh Quảng Nam nằm ở trung độ của Việt Nam, cách Hà Nội 860 km về phía Bắc, cách TP Hồ Chí Minh 865 km về phía Nam. Với vị trí trung độ của cả nước, giao điểm giữa 2 vùng kiến tạo địa lý, giao thoa 2 miền khí hậu Bắc Nam, địa hình da dạng với núi, trung du, đồng bằng ven biển cùng với những ưu thế về bề dày lịch sử, văn hóa, con người, danh lam thắng cảnh... tạo cho Quảng Nam tiềm năng lớn để phát triển du lịch. Qua bao thăng trầm biến cố, Quảng Nam vẫn lưu giữ được những tài nguyên văn hóa vô cùng độc đáo, có giá trị nhân văn sâu sắc, tiêu biểu là 2 di sản văn hoá thế giới: phố cổ Hội An và thánh địa Mỹ Sơn, kinh đô cổ Trà Kiệu, các tháp chàm Khương Mỹ, Chiên Đàn, Bàng An, Phật viện Đồng Dương...ghi lại dấu ấn rực rỡ của nền văn hóa Sa Huỳnh, Champa, Đại Việt. 5 Thiên nhiên còn ưu đãi và hào phóng dành cho Quảng Nam những tài nguyên tự nhiên, tài nguyên biển vô cùng quý giá. Đó là 125 km bờ biển kéo dài từ Điện Ngọc đến giáp vịnh Dung Quất hoang sơ và sạch đẹp cùng với Hồ Phú Ninh, thủy điện Duy Sơn, khu rừng nguyên sinh phía Tây Quảng Nam, sông Trường Giang và xứ đảo Cù Lao Chàm là những điểm du lịch sinh thái lý tưởng; ngày nay trở thành điểm dừng chân của bao du khách. Ven biển Duy Hải - Tam Tiến và ven sông Trường Giang, biển Rạng, ven biển Điện Ngọc - Cẩm An và ven sông Cổ Cò. Khu du lịch này là điểm nối tiếp giữa hai trung tâm du lịch Hội An và Đà Nẵng có diện tích 1800ha, Khu Kinh tế Mở Chu Lai gần khu công nghiệp Dung Quất cũng được biết đến với những thắng cảnh Bàn Than, biển Rạng... thích hợp với những loại hình tắm biển, lướt ván, câu cá... Ngoài ra, đến Tam Kỳ còn có Hồ Phú Ninh là một danh thắng có cảnh quan hiền hòa, hệ động thực vật phong phú, có nguồn nước khóang có thể khai thác dịch vụ tắm nước nóng hiệu quả. Ngoài ra, tinh hoa văn hóa của cộng đồng các dân tộc anh em: Kinh, Hoa, Cơ Tu, Xê Đăng, Giẻ Triêng và Cor cũng góp phần tạo nên sự đa dạng, phong phú và hấp dẫn của du lịch Quảng Nam. Các yếu tố tự nhiên kết hợp với các di sản văn hóa, truyền thống lịch sử của Quảng Nam là nguồn tài nguyên vô cùng quý giá, tạo điều kiện thuận lợi cho việc phát triển mạnh ngành du lịch. Và ở đó, trên mảnh đất và con người xứ quảng hiền hòa, thân thiện và hiếu khách, luôn mong được chào đón du khách từ mọi phương trời đến với Quảng Nam [15]. 1.2. CÁC PHƯƠNG PHÁP GỢI Ý Có rất nhiều cách để gợi ý, ước lượng hạng/điểm cho các sản phẩm như sử dụng học máy, lý thuyết xấp xỉ, các thuật toán dựa trên kinh nghiệm… Theo [9], các hệ thống gợi ý thường được phân ba loại dựa trên cách nó dùng để ước lượng hạng của sản phẩm: - Dựa trên nội dung (content-based): người dùng được gợi ý những sản phẩm tương tự như các sản phẩm từng được họ đánh giá cao. - Cộng tác (collaborative): người dùng được gợi ý những sản phẩm mà những người cùng sở thích với họ đánh giá cao. - Lai ghép (hybrid): kết hợp cả phương pháp dựa trên. 1.2.1. Phương pháp gợi ý dựa trên nội dung Gợi ý dựa trên nội dung khai thác những khía cạnh có liên quan đến nội dung thông tin sản phẩm người dùng đã từng sử dụng hay truy cập trong quá khứ để tạo nên gợi ý hay nói cách khác gợi ý trên nội dung được dựa trên mô tả 6 có sẵn về đối tượng. Các phương pháp tiếp cận cho lọc nội dung có nguồn gốc từ lĩnh vực truy vấn thông tin, trong đó mỗi sản phẩm được biểu diễn bằng một hồ sơ sản phẩm, mỗi người dùng được biểu diễn bằng một hồ sơ người dùng. Phương pháp gợi ý dựa trên nội dung của người dùng u với sản phẩm i được đánh giá dựa trên độ phù hợp r(u, i). Ví dụ, để gợi ý một phim cho người dùng u, hệ thống gợi ý sẽ tìm các đặc điểm của những bộ phim từng được u đánh giá cao sau đó chỉ những bộ phim tương đồng với sở thích của u mới được giới thiệu. Hướng tiếp cận dựa trên nội dung bắt nguồn từ những nghiên cứu về thu thập thông tin (Information retrieval - IR) và lọc thông tin (Information filtering - IF). Do đó, rất nhiều hệ thống dựa trên nội dung hiện nay tập trung vào gợi ý các đối tượng chứa dữ liệu text như văn bản, tin tức, website… Những tiến bộ so với hướng tiếp cận cũ của IR là do việc sử dụng hồ sơ về người dùng (chứa thông tin về sở thích, nhu cầu…). Hồ sơ này được xây dựng dựa trên những thông tin được người dùng cung cấp trực tiếp (khi trả lời khảo sát) hoặc gián tiếp (do khai phá thông tin từ các giao dịch của người dùng) [9][10] [12]. Hình 1.1. Minh họa phương pháp gợi ý dựa trên lọc nội dung Ưu điểm: Đầu tiên, nó không yêu cầu số lượng người dùng lớn để đạt được độ chính xác đề nghị hợp lý. Ngoài ra, các sản phẩm mới có thể được gợi ý ngay dựa trên thuộc tính có sẵn. Nhược điểm: Trong một số trường hợp, khi thông tin mô tả đối tượng có chất lượng kém và bị lỗi thì những mô tả về nội dung rất khó để so sánh và rút ra 7 gợi ý, chẳng hạn so sánh nội dung của các file video, audio...Việc phân tích nội dung của các đối tượng sản phẩm để đưa ra các sản phẩm tương tự nhau, từ đó đưa ra các gợi ý cho người dùng vẫn chưa phản ánh đúng sở thích của người dùng đó với các sản phẩm. Thông thường, những hệ thống gợi ý sẽ gợi ý những đối tượng tương tự với những đối tượng mà người dùng đã đánh giá trước đó. Tuy nhiên trong một số trường hợp đặc biệt, đối tượng không nên được gợi ý vì chúng có độ tương tự gần như tuyệt đối, nói cách khác là chúng quá tương tự với những thứ người dùng vừa mới xem. Ví dụ như nhiều mục tin tức khác nhau cùng nói về một sự kiện người dùng vừa xem qua ở mục tin tức này, khi đó người dùng sẽ không quan tâm đến những mục tin tức cùng sự kiện kia, hệ thống cũng không nên gợi ý, đôi khi nó còn gợi ý cho người dùng những sản phẩm mà người dùng đã biết hoặc sử dụng trước đó, vì vậy khó có thể tạo ra sự bất ngờ trong gợi ý. Thêm một bất cập nữa, là người dùng phải có đánh giá cho những đối tượng trước khi hệ thống có thể hiểu được sở thích và gợi ý cho họ những đối tượng khác. Như vậy, hệ thống sẽ gặp vấn đề đối với những người dùng mới, họ chưa cung cấp hoặc cung cấp rất ít những chỉ số dự đoán, hệ thống không đủ dữ liệu ban đầu của người dùng đó để có thể đưa ra những lời gợi ý chính xác dành cho họ. 1.2.2. Phương pháp gợi ý dựa trên lọc cộng tác. Lọc cộng tác là kỹ thuật sử dụng các sở thích cá nhân của người dùng để đưa ra gợi ý. Một hệ thống lọc cộng tác xác định người dùng có sở thích tương tự những người dùng trước và gợi ý các sản phẩm mà họ có thể thích. Bản chất của phương pháp này chính là hình thức gợi ý truyền miệng tự động. Trong phương pháp này, hệ thống sẽ so sánh, tính toán độ tương tự giữa những người dùng hay sản phẩm, từ đó người dùng sẽ được gợi ý những thông tin, sản phẩm được ưa chuộng nhất bởi những người dùng có cùng thị hiếu. Các hệ gợi ý dựa trên lọc cộng tác không yêu cầu quá nặng vào việc tính toán, do đó nó có thể đưa ra những gợi ý có độ chính xác cao và nhanh chóng cho một số lượng lớn người dùng. Nói một cách khác, không giống như phương pháp gợi ý dựa trên nội dung, hệ thống cộng tác dự đoán độ phù hợp của một sản phẩm i với người dùng u dựa trên độ phù hợp giữa người dùng uj và i, trong đó uj là người có cùng sở thích với u. Ví dụ, để gợi ý một bộ phim cho người dùng c, đầu tiên hệ thống cộng tác tìm những người dùng khác có cùng sở thích phim ảnh với c. Sau đó, những bộ phim được họ đánh giá cao sẽ được dùng để gợi ý cho c. 8 Đầu vào của bài toán là ma trận thể hiện những hành vi quá khứ, gọi là ma trận người dùng - sản phẩm (ma trận user x item). Hàng là người dùng, cột là sản phẩm, giá trị mỗi ô là đánh giá của người dùng lên sản phẩm đó [9] [10] [11]. Tùy theo hệ thống mà đánh giá của người dùng được quy ước những giá trị nào. Trong ví dụ này, các đánh giá có giá trị từ 15 Bảng 1.1. Dữ liệu ma trận người dùng x sản phẩm Sản phẩm 1 Sản phẩm 2 Sản phẩm 3 Người dùng 1 1 0 5 Người dùng 2 4 2 2 Người dùng 3 0 0 0 Ở ma trận trên, đánh giá của người dùng 1 đối sản phẩm 1 là 1, sản phẩm 3 là 5, sản phẩm 2 chưa được đánh giá. Đầu ra của bài toán: đánh giá của người dùng lên những sản phẩm mà họ chưa đánh giá. Hệ thống gợi ý dựa trên các đánh giá này mà xếp hạng các sản phẩm và gợi ý cho người dùng. Có rất nhiều hệ thống cộng tác đã được phát triển như: Grundy, GroupLens (tin tức), Ringo (âm nhạc), Amazon.com (sách), Phoaks (web)… Hình 1.2. Minh họa phương pháp gợi ý dựa trên lọc cộng tác Ngược lại với phương pháp tiếp cận dựa trên nội dung thì phương pháp tiếp cận lọc cộng tác lại khắc phục được các giới hạn: - Không giới hạn về loại đối tượng dùng để gợi ý: Phương pháp lọc cộng tác dựa hoàn toàn vào đánh giá của những người dùng để đưa ra các nhận định về sở thích của người dùng, chính vì thế các tính chất của đối tượng được gợi ý 9 không có ảnh hưởng đển quá trình gợi ý. Ưu điểm này giúp cho phương pháp lọc cộng tác được áp dụng đa dạng trên nhiều hệ thống khác nhau, từ trang thông tin đến âm nhạc, hình ảnh … - Gợi ý đa dạng: Khắc phục được giới hạn của phương pháp tiếp cận dựa trên nội dung, phương pháp lọc cộng tác có thể đưa ra các đối tượng sản phẩm khuyến nghị hoàn toàn khác so với các sản phẩm mà người dùng u đã thích trong quá khứ. Ưu điểm: Xét một cách tổng quát thì hệ không yêu cầu quá nặng vào việc tính toán và do đố có thể đưa ra những gợi ý có độ chính xác cao và nhanh chóng cho một số lượng lớn người dùng. Bởi vì hệ này không yêu cầu mô tả nội dung một cách tường minh mà chỉ dựa vào sự đánh giá của người dùng để ước lượng xem có bao nhiêu người dùng đồng ý và không đồng ý. Đó cũng chính là lý do tại sao mà hệ này có thể đưa ra những gợi ý bất ngờ cho người dùng. Nhược điểm: Có 2 nhược điểm cơ bản sau: Vấn đề người dùng mới và vấn đề sản phẩm mới. Để khắc phục vấn đề trên, việc kết hợp cả lọc công tác và lọc dựa trên một số thuộc tính của người dùng cung cấp để dự đoán sở thích của người dùng mới. Cụ thể, thông qua việc đăng ký thông tin tài khoản của người dùng, sẽ thu thập thêm một số thông tin của người dùng mới bằng cách tạo một biểu mẫu cho người dùng nhập một số thông tin cần thiết như: tích cách, nghề nghiệp, thu nhập hoặc một số thông tin về sở thích… Việc ghi nhận lại các thông tin này của người dùng sẽ giúp hệ thống gợi ý tốt hơn cho người dùng mới. Đối với sản phẩm mới nhập vào, chúng được hiển thị đầu tiên trên trang web có biểu tượng “New” để nhận biết đây là sản phẩm mới của hệ thống. Ngoài ra, khi hiển thị chi tiết mỗi sản phẩm, trang web có một không gian để hiển thị các sản phẩm tương tự với sản phẩm mà người dùng đang xem dựa vào một số thuộc tính tương tự. Vì vậy, những sản phẩm mới nhập cũng có thể được gợi ý cho người dùng. 1.2.3. Phương pháp gợi ý lai Một hệ thống lai là sự kết hợp kỹ thuật lọc nội dung và lọc cộng tác cố gắng sử dụng ưu điểm của mỗi kỹ thuật. Ví dụ, phương pháp lọc cộng tác gặp vấn đề với các sản phẩm mới, nó không có thể gợi ý đối với các sản phẩm mà không có xếp hạng. Điều này lại đơn giản đối với phương pháp tiếp cận dựa trên nội dung khi việc dự đoán cho các sản phẩm mới dựa trên mô tả của người dùng là tính năng có sẵn và khá dễ dàng [9]. Với hai (hoặc hơn) kỹ thuật gợi ý cơ bản, một số cách đã được đề xuất cho việc kết hợp chúng để tạo ra một hệ thống lai mới. 10 1.3. HỆ THỐNG GỢI Ý 1.3.1. Giới thiệu hệ thống gợi ý Hệ thống gợi ý là hệ thống hỗ trợ ra quyết định nhằm gợi ý các thông tin liên quan đến người dùng một cách dễ dàng và nhanh chóng, phù hợp với từng người dùng [10]. Hệ thống bao gồm các kỹ thuật và công cụ phần mềm nhằm đưa ra những gợi ý cho người dùng, đáp ứng nhu cầu của họ về một sản phẩm, dịch vụ nào đó trên Internet. Những gợi ý được cung cấp nhằm hỗ trợ người dùng đưa ra quyết định lựa chọn những sản phẩm, dịch vụ phù hợp với nhu cầu và thị hiếu của mình, chẳng hạn như: mua sản phẩm nào, nghe thể loại nhạc gì hay tin tức trực tuyến nào nên đọc, ... Hệ thống gợi ý thông thường sẽ tập trung vào một mục tin hay sản phẩm (item) cụ thể nào đó (CD, tin tức) theo thiết kế và giao diện đồ họa người dùng kết hợp với kỹ thuật, thuật toán gợi ý nhằm sinh ra các gợi ý tuỳ chỉnh, cung cấp những gợi ý có ích và hiệu quả cho sản phẩm đó . Hệ thống gợi ý nhằm hướng dẫn những người dùng thiếu kinh nghiệm hoặc chưa đủ thẩm quyền để đánh giá số lượng áp đảo các item thay thế. Ví dụ, hệ thống gợi ý giúp người dùng lựa chọn sách trên trang web của Amazon đã sử dụng hệ thống gợi ý để cá nhân hoá các cửa hàng trực tuyến cho từng người dùng (user). Khi hệ thống gợi ý được cá nhân hoá thì mọi người dùng hay nhóm người dùng sẽ nhận được các gợi ý khác nhau từ những cá nhân khác. Mô hình đơn giản nhất của hệ thống gợi ý khi được cá nhân hoá là danh sách xếp hạng các sản phẩm. Khi thực hiện bảng xếp hạng này, hệ thống gợi ý sẽ thử dự đoán những sản phẩm hoặc dịch vụ phù hợp nhất với người dùng dựa trên sở thích và nhu cầu của họ. Để thực hiện được nhiệm vụ đó, hệ thống gợi ý thu thập sở thích của người dùng được thể hiện qua hệ thống (xếp hạng cho các sản phẩm) hoặc suy ra từ cách giải thích hành động của người dùng - là một tính năng ẩn có ưu tiên cho phần hiển thị của trang hoặc xem xét chuyển hướng đến một trang khác. Ví dụ minh họa cho hệ thống gợi ý: Một người dùng đăng nhập vào một hệ thống website đọc sách, người này cần xem một quyển sách về văn học nhưng không biết là nên xem quyển sách nào, hệ thống website cần gợi ý cho người đó xem một hoặc vài quyển sách mà dự đoán rằng người này sẽ thích quyển sách mà được hệ thống gợi ý. Để gợi ý được cho người dùng, hệ thống cần thu thập các thông tin về người dùng và các người dùng khác, thông tin các quyển sách. Có một vài cách gợi ý truyền thống đơn giản nhất như chọn những quyển sách 11 được nhiều người ưa thích nhất hoặc chọn những quyển mới nhất để gợi ý. Tuy nhiên để nâng cao chất lượng của gợi ý cho người dùng, hệ thống gợi ý cần sử dụng các thông tin của tất cả những người dùng và thông tin của tất cả các sản phẩm, sử dụng các thuật toán để đưa ra gợi ý phù hợp nhất cho người dùng. Hình 1.3. Minh hoạ hệ thống gợi ý [3] Trong hầu hết các trường hợp, bài toán gợi ý được coi là bài toán ước lượng xếp hạng (rating) của các item chưa được người dùng xem xét. Việc ước lượng này thường dựa trên những đánh giá đã có của chính người dùng đó hoặc từ những người dùng khác. Những item có xếp hạng cao nhất sẽ được dùng để gợi ý. Từ đó người dùng có những lựa chọn thích hợp với nhu cầu và thị hiếu của mình. Hệ thống gợi ý không chỉ đơn thuần là một dạng Hệ thống thông tin mà nó còn là cả một lĩnh vực nghiên cứu hiện đang rất được các nhà khoa học quan tâm. Kể từ năm 2007 đến nay, hàng năm đều có hội thảo chuyên về hệ thống gợi ý của ACM (ACM RecSys) cũng như các tiểu bang dành riêng cho RS trong các hội nghị lớn khác như ACM KDD, ACM CIKM,.. Đã có rất nhiều ứng dụng liên quan đến tích hợp RS vào thực tế trong nhiều lĩnh vực khác nhau như Thương mại điện tử, giải trí, giáo dục, khoa học phải kể đến Amazon, Ebay, YouTube, Netflix, LastFM,… Một số ứng dụng mà các nhóm nghiên cứu đã thực hiện trong thời gian gần đây như: đề xuất xây dựng hệ thống gợi ý cho bán hàng trực tuyến sử dụng kỹ thuật lọc cộng tác sử dụng phản hồi tường minh từ người dùng thông qua các đánh giá trên sản phẩm [1]; đề xuất xây dựng hệ thống dự đoán kết quả học tập và gợi ý lựa chọn môn học [4]; đề xuất một giải pháp xây dựng hệ thống gợi ý dành cho bán hàng trực tuyến sử dụng phản hồi tiềm ẩn từ người dùng [7]. Trong lĩnh vực giải trí đã giới thiệu 12 một giải pháp trong xây dựng Hệ thống gợi ý bài hát dựa vào phản hổi tiềm ẩn từ người dùng [5]; đề xuất xây dựng hệ thống gợi ý phim dựa trên mô hình [8]. Tuy vậy, du lịch Quảng Nam vẫn chưa thấy xuất hiện các nghiên cứu về RS. Trong luận văn này, tôi giới thiệu sơ lược về hệ thống gợi ý, các phương pháp cơ bản được sử dụng phổ biến nhất trong RS, sau đó đi sâu vào tìm hiểu chi tiết phương pháp, kỹ thuật nổi trội nhất hiện nay trong RS – chính là phương pháp lọc công tác và kỹ thuật phân rã ma trận (matrix factorization – MF) để xây dựng hệ thống gợi ý địa điểm du lịch tại Quảng Nam. 1.3.2. Chức năng hệ thống gợi ý Trước hết, chúng ta phải phân biệt giữa vai trò hệ gợi ý của nhà cung cấp so với vai trò hệ gợi ý của người dùng. Ví dụ, một hệ thống gợi ý du lịch thường được giới thiệu bởi một trung gian du lịch hoặc một tổ chức quản lý để tăng doanh thu của nó qua việc cho thuê phòng khách sạn nhiều hơn hoặc để tăng số lượng khách du lịch. Trong khi đó, động cơ của người dùng khi truy cập vào hai hệ thống là tìm một khách sạn phù hợp với nhu cầu, túi tiền cùng các sự kiện thú vị, các điểm hấp dẫn khi đến thăm một điểm đến. Dưới đây là một số chức năng của hệ thống gợi ý. * Đối với nhà cung cấp: - Tăng số lượng các sản phẩm bán ra cho các hệ thống thương mại điện tử: Đây có lẽ là chức năng quan trọng nhất của hệ thống gợi ý. Thay vì người dùng chỉ mua một sản phẩm mà họ cần, họ được gợi ý mua những sản phẩm ‘có thể họ cũng quan tâm’ mà bản thân họ không nhận ra. Hệ thống gợi ý tìm ra những ‘mối quan tâm ẩn’. Bằng cách đó, hệ thống gợi ý làm gia tăng nhu cầu của người dùng và gia tăng số lượng sản phẩm bán ra. Tương tự đối với các hệ thống phi thương mại, hệ thống gợi ý sẽ giúp người dùng tiếp cận với nhiều đối tượng thông tin mang tính đa chiều và được nhiều người quan tâm hơn. - Bán các sản phẩm đa dạng hơn trên các hệ thống thương mại điện tử: Đây là chức năng quan trọng thứ hai của hệ thống gợi ý. Hầu hết các hệ thống thương mại đều có các sản phẩm hết sức là đa dạng và phong phú. Khi nắm bắt được nhu cầu của người dùng, hệ thống gợi ý dễ dàng mang đến sự đa dạng trong sự lựa chọn hàng hóa. Từ đó đòi hỏi các hệ thống thương mại điện tử cung cấp nhiều sản phẩm đa dạng và phù hợp với người dùng hơn. - Tăng sự hài lòng người dùng: Vai trò chủ đạo của hệ thống gợi ý là hiểu nhu cầu của người dùng, gợi ý cho họ những thứ họ cần... Người dùng sẽ tìm thấy các gợi ý thú vị, có hiệu quả, chính xác, gợi ý kịp thời và một giao diện đẹp có thể tối ưu việc sử dụng và làm tăng sự hài lòng của người dùng trong hệ 13 thống. Chính vì vậy hệ thống gợi ý tăng sự hài lòng của người dùng trên hệ thống và lựa chọn ưu tiên khi họ có những băn khoăn hoặc khi chưa có kiến thức về sản phẩm. - Tăng độ tin cậy, độ trung thực của người dùng: Một khi hệ thống gợi ý cho người dùng những lựa chọn và họ hài lòng về những gợi ý đó thì lòng tin của họ đối với hệ thống (nơi mà giúp họ tìm ra những thứ họ thực sự quan tâm) được nâng lên một cách đáng kể. Đây thật sự là một điều thích thú và thu hút người dùng. Có một điểm quan trọng là hệ thống gợi ý hoạt động dựa trên những xếp hạng thật từ chính bản thân người dùng trong quá khứ. Do đó, khi người dùng càng tin cậy vào hệ thống, đưa ra những đánh giá trung thực cho các sản phẩm, hệ thống sẽ mang lại cho người dùng nhiều gợi ý chính xác hơn, phù hợp với nhu cầu, sở thích của họ. - Hiểu rõ những gì người dùng muốn: Đây là một chức năng quan trọng khác của hệ thống gợi ý được thừa kế từ nhiều ứng dụng khác nhau là thu thập hoặc dự đoán sở thích người dùng thông qua hệ thống. Điều này giúp cho các nhà phát triển dịch vụ có thể quyết định tái sử dụng các item theo mục tiêu cải thiện quản lý cửa hàng hoặc tiến hành sản xuất. * Đối với người dùng: - Tìm ra một số sản phẩm tốt nhất: Hệ thống gợi ý tới người dùng một số sản phẩm được xếp hạng và dự đoán số người dùng khác thích chúng. Đây là chức năng chính mà nhiều hệ thống thương mại điện tử sử dụng. - Tìm ra tất cả sản phẩm tốt: Gợi ý tất cả sản phẩm mà có thể làm hài lòng nhu cầu của khách hàng. Trong nhiều trường hợp không đủ thông tin để đưa ra các sản phẩm tốt nhất. Điều này chỉ đúng khi số lượng sản phẩm liên quan tương đối nhỏ hoặc khi hệ gợi ý là chức năng quan trọng trong ứng dụng tài chính và y tế. - Gợi ý liên tục: Thay vì tập trung vào tạo gợi ý đơn, các hệ thống gợi ý tạo các gợi ý liên tục tới người dùng cho tới khi họ tìm được sản phẩm mong muốn. - Gợi ý một nhóm sản phẩm: Đề xuất một nhóm các sản phẩm mà tương đương nhau. Ví dụ như kế hoạch du lịch có thể là gồm nhiều điểm đến, các dịch vụ nơi ở, các sự kiện hấp dẫn. Từ quan điểm của người dùng những lựa chọn khác nhau có thể được xem xét và được lựa chọn một điểm đến du lịch hợp lý. - Chỉ duyệt tìm: Trong tác vụ này, người dùng duyệt các danh mục mà không có ý định mua sản phẩm nào, tác vụ này đưa ra gợi ý giúp người dùng duyệt tìm các sản phẩm có nhiều khả năng thuộc vào phạm vi sở thích của người 14 dùng với phiên truy cập xác định. Đây là tác vụ được hỗ trợ bởi các kỹ thuật đa phương tiện. - Tìm kiếm các gợi ý tin tưởng: Một số người dùng không tin tưởng vào các hệ thống gợi ý, họ tham gia vào hệ thống để thấy được các hệ thống này đưa ra gợi ý tốt tới mức nào. Do đó, một số hệ thống có thể đưa ra các chức năng chính xác để cho phép họ thử nghiệm hành vi của họ, ngoài các yêu cầu gợi ý. - Cải thiện hồ sơ cá nhân người dùng: Người dùng có khả năng cung cấp thông tin, những gì họ thích, không thích với hệ thống gợi ý. Điều này là hết sức cần thiết để đưa ra các gợi ý mang tính chất cá nhân hóa. Nếu như hệ thống không xác định tri thức về người dùng đang hoạt động thì nó chỉ có thể đưa ra các gợi ý giống nhau. - Bày tỏ ý kiến của mình: Một số người dùng có thể không quan tâm tới các gợi ý, đúng hơn, những gì quan trọng với họ là được góp ý kiến, đánh giá về sản phẩm, giúp ích người khác khi lựa chọn sản phẩm này. - Tác động tới những người dùng khác: Trong hệ thống gợi ý trên web, có nhiều người tham gia với mục tiêu của họ là tác động tới hệ thống gợi ý, dẫn tới ảnh hưởng tới người dùng khác khi mua một sản phẩm cụ thể (Thông qua đánh giá sản phẩm,…). Tác động của họ có thể thúc đẩy hoặc gây bất lợi cho sản phẩm. 1.3.3. Dữ liệu và các nguồn tri thức Hệ thống gợi ý là hệ thống xử lý thông tin thu thập từ các loại dữ liệu khác nhau để xây dựng các gợi ý. Dữ liệu chủ yếu là về các sản phẩm cần gợi ý và người dùng sẽ nhận được các gợi ý này. Tuy nhiên, dữ liệu và các nguồn tri thức sẵn có cho các hệ thống gợi ý có thể rất đa dạng. Trong bất kỳ trường hợp nào, dữ liệu được sử dụng bởi hệ thống gợi ý thuộc ba loại: sản phẩm (Item), người dùng (User) và các giao dịch (Transactions), đó chính là quan hệ giữa người dùng và sản phẩm. 1.3.3.1. Sản phẩm Sản phẩm là các đối tượng được gợi ý. Các sản phẩm này đặc trưng bởi tiện ích và giá trị của nó. Giá trị của một sản phẩm có thể là tích cực nếu hữu ích cho người dùng, hoặc tiêu cực nếu sản phẩm không phù hợp với người dùng. Công nghệ cốt lõi của hệ thống gợi ý là sử dụng một loạt các thuộc tính và các tính năng của các item. Ví dụ như trong một hệ thống gợi ý phim, thể loại (Hài, kinh dị,...) cũng như tên tuổi các đạo diễn và diễn viên có thể được sử dụng để mô tả một bộ phim và là đặc điểm nổi bật của nó. 1.3.3.2. Người dùng
- Xem thêm -

Tài liệu liên quan