Tài liệu Khóa luận tốt nghiệp nghiên cứu phương pháp lọc cộng tác cho hệ thống tư vấn phim

  • Số trang: 67 |
  • Loại file: PDF |
  • Lượt xem: 143 |
  • Lượt tải: 0
tailieuonline

Đã đăng 39841 tài liệu

Mô tả:

ĐẠI HỌC HUẾ TRƢỜNG ĐẠI HỌC KINH TẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ -----oOo----- KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM Sinh viên thực hiện: Nguyễn Thùy Trang Lớp: K43 Tin học kinh tế Giảng viên hƣớng dẫn ThS. Lê Viết Mẫn Niên khóa: 2009 – 2013 Huế, tháng 04 năm 2013 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM LỜI CẢM ƠN Luận văn này là kết quả nghiên cứu của tôi qua 4 tháng thực tập trên cơ sở kiến thức của quá trình học tập tại trƣờng Đại học Kinh tế Huế trong suốt 4 năm qua. Với tình cảm chân thành, tôi xin bày tỏ lòng biết ơn cao quý đến ban chủ nhiệm khoa Hệ thống thông tin Kinh tế - Đại học Kinh tế Huế, các thầy cô giáo, gia đình, bạn bè và Công ty Cổ phần phần mềm dịch vụ Mặt Trời đã tạo điều kiện, động viên và giúp đỡ tôi rất nhiều trong quá trình hoàn thành luận văn tốt nghiệp này. Đặc biệt, tôi xin chân thành gửi lời cảm ơn sâu sắc đến Th.S Lê Viết Mẫn đã tận tình hƣớng dẫn, quan tâm, thƣờng xuyên theo dõi, cung cấp các tài liệu và có những đánh giá, nhận xét, góp ý thẳng thắn để tôi có thể hoàn thiện báo cáo khóa luận tốt nghiệp một cách tốt nhất. Mặc dù tôi đã rất cố gắng nhƣng chắc chắn luận văn sẽ không thể tránh khỏi những thiếu sót, rất mong nhận đƣợc những ý kiến đóng góp, bổ sung của quý thầy cô để tôi có thể sữa chữa, bổ sung và nghiên cứu kỹ hơn về đề tài này. Tôi xin chân thành cảm ơn! Huế, tháng 4 năm 2013 Sinh viên Nguyễn Thùy Trang NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang i NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM MỤC LỤC LỜI CẢM ƠN ...................................................................................................................i MỤC LỤC ...................................................................................................................... ii PHỤ LỤC HÌNH ẢNH ...................................................................................................v PHỤ LỤC BẢNG BIỂU ................................................................................................vi PHỤ LỤC THUẬT NGỮ ............................................................................................. vii MỞ ĐẦU .........................................................................................................................8 CHƢƠNG 1: TỔNG QUAN VỀ HỆ TƢ VẤN ............................................................10 1.1. Giới thiệu về hệ tƣ vấn .....................................................................................10 1.2. Chức năng của hệ tƣ vấn ..................................................................................12 1.3. Dữ liệu và các nguồn tri thức ...........................................................................16 1.4. Các phƣơng pháp của hệ tƣ vấn .......................................................................18 1.4.1. Phương pháp tiếp cận dựa trên các tư vấn phổ biến ................................18 1.4.2. Phương pháp tiếp cận dựa trên nội dung .................................................18 1.4.3. Phương pháp lọc cộng tác ........................................................................19 1.4.4. Phương pháp tiếp cận dựa trên nhóm mặt hàng.......................................20 1.4.5. Phương pháp tiếp cận dựa trên nhân khẩu học ........................................21 1.4.6. Phương pháp tiếp cận dựa trên danh tiếng ..............................................21 1.4.7. Phương pháp lai ........................................................................................21 1.5. Ứng dụng và đánh giá ......................................................................................22 CHƢƠNG 2: GIỚI THIỆU PHƢƠNG PHÁP LỌC CỘNG TÁC VÀ KỸ THUẬT LÁNG GIỀNG ...............................................................................................................24 NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang ii NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM 2.1. Phƣơng pháp lọc cộng tác ................................................................................24 2.1.1. Định nghĩa phương pháp lọc cộng tác ......................................................24 2.1.2. Quy trình phương pháp lọc cộng tác ........................................................25 2.2. Kỹ thuật láng giềng ..........................................................................................30 2.2.1. Giới thiệu kỹ thuật láng giềng ...................................................................30 2.2.2. Phân loại kỹ thuật láng giềng ...................................................................32 2.2.3. Các bước của kỹ thuật láng giềng .............................................................35 CHƢƠNG 3: HỆ THỐNG TƢ VẤN PHIM DỰA TRÊN KỸ THUẬT LÁNG GIỀNG CỦA PHƢƠNG PHÁP LỌC CỘNG TÁC ...................................................................40 3.1. Giới thiệu hệ thống tƣ vấn ...............................................................................40 3.1.1. Mô tả bài toán ...........................................................................................40 3.1.2. Mô tả về bộ dữ liệu MovieLens .................................................................41 3.1.3. Ưu, nhược điểm của bộ dữ liệu MovieLens: .............................................42 3.2. Phân tích và thiết kế hệ thống ..........................................................................43 3.2.1. Sơ đồ chức năng kinh doanh (BFD) .........................................................43 3.2.2. Sơ đồ ngữ cảnh ..........................................................................................45 3.2.3. Sơ đồ luồng dữ liệu mức 0 (DFD mức 0) ..................................................45 3.2.4. Sơ đồ luồng dữ liệu mức 1.0 (DFD mức 1.0) ............................................46 3.2.5. Sơ đồ luồng dữ liệu mức 2.0 (DFD mức 2.0) ............................................46 3.2.6. Sơ đồ luồng dữ liệu mức 3.0 (DFD mức 3.0) ............................................47 3.2.7. Sơ đồ mô hình cơ sở dữ liệu ......................................................................48 3.3. Thuật toán ........................................................................................................49 3.3.1. Kỹ thuật tư vấn dựa trên người dùng User-based ....................................49 3.3.2. Kỹ thuật tư vấn mặt hàng phù hợp Matching Product..............................51 3.3.3. Kỹ thuật tư vấn dựa trên mặt hàng Item-based.........................................52 NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang iii NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM 3.4. Demo chƣơng trình và một số kết quả .............................................................55 3.5. So sánh phƣơng pháp và một số vấn đề đƣợc rút ra ........................................59 3.5.1. So sánh các phương pháp .........................................................................59 3.5.2. Một số vấn đề được rút ra .........................................................................60 KẾT LUẬN ...................................................................................................................63 TÀI LIỆU THAM KHẢO .............................................................................................64 NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang iv NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM PHỤ LỤC HÌNH ẢNH Hình 1.1. Hệ tƣ vấn của trang web Amazon.com ......................................................... 11 Hình 1.2. Phƣơng pháp tiếp cận dựa trên nội dung ....................................................... 19 Hình 1.3. Phƣơng pháp lọc cộng tác ............................................................................. 20 Hình 2.1. Hệ thống tƣ vấn lọc cộng tác của trang web Amazon.com ........................... 24 Hình 2.2. Quy trình phƣơng pháp lọc cộng tác ............................................................. 25 Hình 3.1. Sơ đồ chức năng kinh doanh BFD................................................................. 44 Hình 3.2. Sơ đồ ngữ cảnh .............................................................................................. 45 Hình 3.3. Sơ đồ DFD mức 0 .......................................................................................... 45 Hình 3.4. Sơ đồ DFD mức 1.0 ....................................................................................... 46 Hình 3.5. Sơ đồ DFD mức 2.0 ....................................................................................... 46 Hình 3.6. Sơ đồ DFD mức 3.0 ....................................................................................... 47 Hình 3.7. Sơ đồ mô hình cơ sở dữ liệu .......................................................................... 48 Hình 3.8. Giao diện trang chủ ....................................................................................... 56 Hình 3.9. Giao diện trang đăng nhập ............................................................................. 56 Hình 3.10. Giao diện trang đăng ký .............................................................................. 57 Hình 3.11. Giao diện trang đánh giá.............................................................................. 57 Hình 3.12. Giao diện trang tƣ vấn dựa trên ngƣời dùng ............................................... 58 Hình 3.13. Giao diện trang tƣ vấn dựa trên kỹ thuật mặt hàng phù hợp và phƣơng pháp tƣ vấn dựa trên mặt hàng ............................................................................................... 59 NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang v NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM PHỤ LỤC BẢNG BIỂU Bảng 3.1. Quá trình tính toán thuật toán tƣ vấn dựa trên ngƣời dùng ........................... 50 Bảng 3.2. Quá trình tính toán thuật toán tƣ vấn dựa trên mặt hàng .............................. 53 NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang vi NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM PHỤ LỤC THUẬT NGỮ Recommender System Hệ tƣ vấn Collaborative filtering Lọc cộng tác Neighborhood-based Kỹ thuật láng giềng Latent Semantic Indexing Phƣơng pháp chỉ mục ngữ nghĩa tiềm ẩn Mean-squared difference Độ bất tƣơng tự trung bình bình phƣơng Deviation-from-mean Độ lệch chuẩn Weighted average Trọng số bình quân User-based Phƣơng pháp tƣ vấn dựa trên ngƣời dùng Matching Product Mặt hàng phù hợp Item-based Phƣơng pháp tƣ vấn dựa trên mặt hàng k nearest-neighbors k láng giềng gần nhất Mean-centering Phƣơng pháp điểm trung bình Top-N filtering Lọc top N Threshold filtering Lọc định mức Negative filtering Lọc đánh giá âm BFD – Business Function Diagram Sơ đồ chức năng kinh doanh DFD – Data Flow Diagram Sơ đồ luồng dữ liệu Best Item Mặt hàng tốt nhất NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang vii NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM MỞ ĐẦU Hiện nay, internet với các tiện ích của nó đang có ảnh hƣởng lớn đối với đại bộ phận ngƣời sử dụng mạng. Với lƣợng thông tin khổng lồ, nhu cầu ngƣời dùng ngày càng lớn, ngƣời dùng cần có sự tƣ vấn chính xác và kịp thời để có thể tìm kiếm thông tin một cách nhanh chóng và tiết kiệm tối đa thời gian. Một khi dữ liệu càng lớn thì hệ tƣ vấn càng có vai trò quan trọng. Có thể kể đến hệ tƣ vấn áp dụng đối với các website thuộc các lĩnh vực âm nhạc, phim ảnh, sách báo… Tuy nhiên, các lĩnh vực trong cuộc sống lại rất phong phú, đa dạng, và một khi nhu cầu đã lớn thì yêu cầu đặt ra cũng sẽ cao hơn rất nhiều. Thực tế hiện nay, kinh doanh mua bán là một trong các lĩnh vực đang phát triển mạnh và áp dụng triệt để công nghệ thông tin. Một website thƣơng mại điện tử thu hút không chỉ dừng lại ở mặt hàng phong phú, giao diện đẹp, thông tin cập nhật nhanh chóng mà còn phải nắm bắt nhu cầu, đáp ứng yêu cầu và hỗ trợ khách hàng tối đa. Hệ tƣ vấn thực sự cần thiết cho một website mua bán hàng hóa với số lƣợng hàng hóa khổng lồ, số lƣợng chủng loại mặt hàng lớn cùng vô số thông tin về mặt hàng để giúp khách nắm bắt thông tin mà họ tìm kiếm. Khi cần tìm thông tin về một mặt hàng nào đó, giải pháp đƣợc hầu hết ngƣời dùng sử dụng là đƣa câu hỏi vào máy tìm kiếm thay vì tìm đến những website/forum chuyên ngành. Tuy nhiên, máy tìm kiếm chỉ có thể đƣa ra một danh sách các lựa chọn chứ không thể nói đƣợc lựa chọn nào là tốt nhất. Do đó, tôi thực hiện đề tài “Nghiên cứu phƣơng pháp lọc cộng tác cho hệ thống tƣ vấn phim” với mục tiêu tìm hiểu lý thuyết về hệ tƣ vấn (Recommender System), các kỹ thuật của hệ tƣ vấn, đặc biệt là phƣơng pháp lọc cộng tác (Collaborative filtering) và kỹ thuật láng giềng thuộc phƣơng pháp lọc cộng tác. Tiếp đến, đề tài tập trung xây dựng Website tƣ vấn phim sử dụng kỹ thuật láng giềng của phƣơng pháp lọc cộng tác, phân tích, đánh giá hiệu quả của việc ứng dụng hệ tƣ vấn trong việc triển khai xây dựng website. NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 8 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM Cấu trúc đề tài đƣợc chia thành 3 chƣơng: Chương I: Tổng quan về hệ tƣ vấn – Recommender System. Chƣơng này sẽ giới thiệu tổng quan về hệ tƣ vấn, các chức năng, dữ liệu và các nguồn kiến thức, các phƣơng pháp và các ứng dụng, đánh giá của hệ tƣ vấn. Chương II: Giới thiệu phƣơng pháp lọc cộng tác và kỹ thuật láng giềng (Neighborhood-based). Chƣơng này đi vào tìm hiểu sâu về phƣơng pháp lọc cộng tác và kỹ thuật láng giềng (Neighborhoodbased) thuộc phƣơng pháp lọc cộng tác. Chương III: Hệ thống tƣ vấn phim dựa trên kỹ thuật láng giềng của phƣơng pháp lọc cộng tác. Nội dung chƣơng này đi vào phân tích hệ tƣ vấn đƣợc sử dụng trong khóa luận, phân tích và thiết kế hệ thống, các kỹ thuật ứng dụng trong khóa luận, mô tả thuật toán, giới thiệu demo chƣơng trình và so sánh các phƣơng pháp, rút ra các kết luận. NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 9 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM CHƢƠNG 1 TỔNG QUAN VỀ HỆ TƢ VẤN 1.1. Giới thiệu về hệ tƣ vấn Trong cuộc sống hàng ngày, ngƣời ta đƣa ra các lựa chọn dựa trên những ý kiến hay lời khuyên của mọi ngƣời xung quanh, có thể qua lời nói, các bản đánh giá sản phẩm, khảo sát thị trƣờng, thƣ giới thiệu ... Nhƣng trong kỉ nguyên thông tin, mỗi ngày có hàng triệu thông tin đƣợc đƣa lên Internet, ngƣời dùng thực sự khó khăn để nắm bắt và tìm kiếm thông tin. Một số công cụ tìm kiếm với từ khóa, điển hình nhƣ Google, Yahoo… và mới đây nhất là Bing giúp chúng ta rất nhiều trong tìm kiếm những thông tin cần thiết. Nhƣng với lƣợng thông tin tăng lên nhanh chóng, các công cụ tìm kiếm theo từ khóa cũng đang dần tỏ ra không hoàn toàn đáp ứng đƣợc nhu cầu của con ngƣời. Hàng ngày bạn phải bỏ ra quá nhiều thời gian để lọc những thông tin tìm kiếm đƣợc trên Google. Thêm nữa, đôi khi ngƣời dùng cũng không hiểu hết nhu cầu của mình, không biết đƣợc từ khóa chính xác mình muốn tìm kiếm, do đó rất khó để tìm đƣợc thông tin mình cần. Chính những điều này dẫn tới yêu cầu phải có các phƣơng pháp tự động thu thập thông tin và đƣa ra lời khuyên để hỗ trợ cho các phƣơng pháp truyền thống trên. Hệ tƣ vấn (Recommender System) là một giải pháp nhƣ vậy. Recommender Systems là công cụ phần mềm kỹ thuật cung cấp các mặt hàng đề xuất cho ngƣời sử dụng. Những lời tƣ vấn liên quan đến các khía cạnh khác nhau của quá trình ra quyết định, chẳng hạn nhƣ nên mua mặt hàng nào, nên nghe thể loại nhạc nào, hoặc nên đọc loại tin tức trực tuyến nào. Hệ thống này đƣa ra gợi ý dựa trên những gì ngƣời dùng đã làm trong quá khứ, hoặc dựa trên tổng hợp ý kiến của những ngƣời dùng khác. Hệ tƣ vấn đã trở thành một ứng dụng quan trọng và thu hút đƣợc sự quan tâm lớn của các nhà nghiên cứu cũng nhƣ các doanh nghiệp. Hình dung đơn giản, các tƣ vấn đƣợc cung cấp dƣới dạng các danh sách xếp hạng các mặt hàng. Trong việc thực hiện bảng xếp hạng này, hệ tƣ vấn cố gắng dự đoán những sản phẩm hoặc dịch vụ phù hợp nhất, dựa trên sở thích và hạn chế của ngƣời sử dụng. Để hoàn thành một nhiệm vụ tính toán nhƣ vậy, hệ tƣ vấn thu thập từ NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 10 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM ngƣời sử dụng sở thích của họ, ví dụ nhƣ đánh giá của ngƣời dùng cho các mặt hàng, sản phẩm. Hình 1.1. Hệ tƣ vấn của trang web Amazon.com Hệ tƣ vấn bắt đầu đƣợc chú ý từ những quan sát sau: một ngƣời thƣờng dựa trên những lời khuyên, tƣ vấn từ những ngƣời khác trong việc đƣa ra các quyết định. Ví dụ, ngƣời ta thƣờng dựa vào lời giới thiệu của bạn bè khi chọn mua sách để đọc, ngƣời sử dụng lao động dựa trên thƣ giới thiệu để tuyển dụng và ngƣời xem dựa vào các đánh giá phê bình phim của nhà phê bình phim trong các tạp chí để chọn phim xem. Trong việc tìm kiếm để bắt chƣớc các hành vi này, các hệ tƣ vấn đầu tiên sẽ áp dụng các thuật toán để tận dụng các tƣ vấn đƣợc đƣa ra bởi một cộng đồng ngƣời sử dụng nhằm cung cấp các tƣ vấn cho một ngƣời dùng cần tƣ vấn. Hệ thống sẽ tƣ vấn các mặt hàng mà ngƣời dùng tƣơng tự (những ngƣời có sở thích tƣơng tự) đã thích. Cách tiếp cận này gọi là lọc cộng tác, tức là khi ngƣời dùng cần tƣ vấn có những tƣơng đồng trƣớc đó trong quá khứ với một số ngƣời dùng khác, khi đó các tƣ vấn khác sẽ đến từ những ngƣời sử dụng tƣơng tự. Hệ tƣ vấn đã đƣợc chứng minh trong những năm gần đây là một phƣơng tiện hiệu quả để đối phó với vấn đề quá tải thông tin. Khi có yêu cầu của ngƣời dùng, hệ tƣ NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 11 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM vấn tạo ra các tƣ vấn sử dụng các kiến thức và dữ liệu khác nhau về ngƣời sử dụng, các mặt hàng có sẵn, và giao dịch trƣớc đó đƣợc lƣu trữ trong cơ sở dữ liệu. Sau đó ngƣời dùng có thể duyệt các tƣ vấn. Tất cả những hành động và phản hồi của ngƣời sử dụng có thể đƣợc lƣu trữ trong cơ sở dữ liệu tƣ vấn và có thể đƣợc sử dụng để tạo ra tƣ vấn mới trong hệ thống cho ngƣời dùng tƣơng tác tiếp theo. Việc nghiên cứu các hệ thống tƣ vấn là tƣơng đối mới so với nghiên cứu các công cụ hệ thống thông tin và kỹ thuật khác. Hệ tƣ vấn nổi lên giữa những năm 1990. Trong những năm gần đây, sự quan tâm đối với hệ thống tƣ vấn đã tăng lên đáng kể, điển hình nhƣ các sự kiện sau: 1. Hệ tƣ vấn đóng một vai trò quan trọng trong các trang web Internet đƣợc đánh giá cao nhƣ Amazon.com, YouTube, Netflix, Yahoo và IMDb. Hơn nữa, nhiều công ty truyền thông đang phát triển và triển khai hệ tƣ vấn nhƣ là một phần của các dịch vụ mà họ cung cấp cho các thuê bao của họ. 2. Có các buổi hội nghị và hội thảo liên quan đến lĩnh vực này. Ví dụ nhƣ hội nghị ACM Recommender Systems (RecSys), thành lập năm 2007 và sự kiện hàng năm hàng đầu trong nghiên cứu và ứng dụng công nghệ tƣ vấn. 3. Tại các tổ chức giáo dục đại học trên thế giới, đại học và sau đại học, khóa học về hệ tƣ vấn này đƣợc dành riêng hoàn toàn, hƣớng dẫn về hệ tƣ vấn đang rất phổ biến, bên cạnh đó là xuất bản sách giới thiệu về các kỹ thuật, phƣơng pháp của hệ tƣ vấn. 4. Đã có một số tạp chí khoa học đề cập việc nghiên cứu và sự phát triển trong lĩnh vực hệ tƣ vấn. Trong số các tạp chí có những vấn đề chuyên dụng hệ tƣ vấn là: Truyền thông AI (2008); IEEE Intelligent Systems (2007); Tạp chí Thƣơng mại điện tử (2006)… 1.2. Chức năng của hệ tƣ vấn Trƣớc hết, chúng ta phải phân biệt giữa vai trò hệ tƣ vấn của nhà cung cấp so với vai trò hệ tƣ vấn của ngƣời sử dụng. Ví dụ, một hệ thống tƣ vấn du lịch thƣờng đƣợc giới thiệu bởi một trung gian du lịch hoặc một tổ chức quản lý để tăng doanh thu của nó qua việc cho thuê phòng khách sạn nhiều hơn hoặc để tăng số lƣợng khách du NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 12 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM lịch. Trong khi đó, động cơ của ngƣời sử dụng khi truy cập vào hai hệ thống là tìm một khách sạn phù hợp với nhu cầu, túi tiền cùng các sự kiện thú vị / các điểm hấp dẫn khi đến thăm một điểm đến. Trong thực tế, có những lý do khác nhau để giải thích tại sao các nhà cung cấp dịch vụ có thể muốn khai thác công nghệ này: Tăng số lượng hàng bán được. Đây có lẽ là chức năng quan trọng nhất đối với hệ tƣ vấn thƣơng mại, nghĩa là, để có thể bán thêm một số lƣợng lớn các mặt hàng so với những ngƣời bình thƣờng bán đƣợc mà không sử dụng bất kỳ 1 tƣ vấn nào. Mục tiêu này đạt đƣợc bởi vì các mặt hàng đƣợc tƣ vấn có khả năng phù hợp với nhu cầu và mong muốn của ngƣời sử dụng. Bán các mặt hàng đa dạng hơn. Một chức năng quan trọng của một hệ tƣ vấn là cho phép ngƣời sử dụng có thể chọn các mặt hàng mà có thể là khó tìm kiếm nếu nhƣ không có một tƣ vấn chính xác. Ví dụ, trong một hệ tƣ vấn phim nhƣ Netflix, các nhà cung cấp dịch vụ quan tâm đến việc cho thuê tất cả các đĩa DVD trong danh mục, không chỉ các phim phổ biến nhất. Điều này có thể là khó khăn nếu nhƣ không có một hệ tƣ vấn tƣ vấn, các nhà cung cấp dịch vụ có thể gặp rủi ro nếu nhƣ quảng cáo mà không để ý đến việc phim có phù hợp với sở thích của một ngƣời dùng cụ thể nào đó không. Do đó, hệ tƣ vấn sẽ là một gợi ý hay để quảng cáo các loại phim không phổ biến cho ngƣời sử dụng. Tăng sự hài lòng của người dùng. Ngƣời dùng sẽ tìm thấy các tƣ vấn thú vị, có liên quan và giúp con ngƣời với máy tính tƣơng tác với nhau. Sự kết hợp của hiệu quả, chính xác, tƣ vấn kịp thời và một giao diện đẹp có thể tối ƣu việc sử dụng và làm tăng sự hài lòng của ngƣời dùng trong hệ thống. Điều này sẽ làm tăng khả năng hệ thống đƣợc sử dụng và các tƣ vấn xảy ra sẽ đƣợc chấp nhận nhiều hơn. Tăng sự trung thành của người dùng. Một ngƣời sử dụng nên trung thành với một trang web, khi truy cập, trang web sẽ nhận diện ngƣời dùng cũ và tƣơng tác với ngƣời dùng đó nhƣ một ngƣời truy cập có giá trị. Điều này là bình thƣờng đối với tính năng của một hệ tƣ vấn vì nhiều hệ tƣ vấn tƣ vấn tính toán, tận dụng NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 13 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM thông tin có đƣợc từ ngƣời sử dụng tƣơng tác trƣớc đây, ví dụ nhƣ: xếp hạng của ngƣời dùng đối với các mặt hàng. Do đó, ngƣời dùng sẽ tƣơng tác với các trang web, hệ thống sẽ nhận diện sở thích ngƣời dùng và số lƣợng tƣ vấn có thể tùy chỉnh để phù hợp với ngƣời sử dụng trung thành. Hiểu rõ hơn về những gì người dùng muốn. Một chức năng quan trọng của một hệ tƣ vấn, có thể là đòn bẩy cho nhiều ứng dụng khác, là mô tả sở thích của ngƣời sử dụng. Sau đó, nhà cung cấp dịch vụ có thể quyết định tái sử dụng dữ liệu này cho một số mục tiêu khác nhƣ cải thiện việc quản lý kinh doanh hoặc đề ra các ý tƣởng mới. Ví dụ, trong lĩnh vực du lịch, quản lý địa điểm tổ chức có thể quyết định quảng cáo cho một nhóm các khách hàng mới cụ thể hoặc xác định loại hình quảng cáo từ việc phân tích các dữ liệu thu thập bởi các hệ tƣ vấn (các giao dịch của ngƣời sử dụng). Bên cạnh đó, ngƣời dùng cũng có thể muốn sử dụng hệ tƣ vấn nếu nó hỗ trợ hiệu quả nhiệm vụ hoặc mục tiêu của họ. Do đó một hệ tƣ vấn phải cân bằng nhu cầu của hai nhóm ngƣời dùng này và cung cấp dịch vụ có hiệu quả cho cả hai. Các chức năng cơ bản của hệ tƣ vấn đối với ngƣời sử dụng nhƣ sau: Tìm một số nhóm hàng tốt: Tƣ vấn cho ngƣời dùng một số mặt hàng dƣới dạng một danh sách xếp hạng cùng với dự đoán bao nhiêu ngƣời dùng muốn sử dụng. Một số hệ thống không hiển thị đƣợc dự đoán đánh giá. Tìm tất cả các mặt hàng tốt: Tƣ vấn tất cả các mặt hàng có thể đáp ứng một số nhu cầu của ngƣời sử dụng. Trong những trƣờng hợp nhƣ vậy, nó không chỉ là tìm thấy các mặt hàng tốt. Điều này đặc biệt đúng khi số lƣợng mặt hàng là tƣơng đối nhỏ. Chú thích trong ngữ cảnh: Tùy vào ngữ cảnh nhất định sẽ có một danh sách nhấn mạnh các mặt hàng cụ thể nào đó tùy thuộc vào nhu cầu và sở thích của số đông ngƣời dùng. Ví dụ, một hệ thống tƣ vấn truyền hình có thể chú thích chƣơng trình lịch phát sóng là đáng xem. Tư vấn một chuỗi các mặt hàng: Thay vì tập trung vào một tƣ vấn duy nhất, ý tƣởng của hệ tƣ vấn là để giới thiệu một chuỗi các mặt hàng sẽ thu hút hơn. Ví NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 14 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM dụ điển hình nhƣ giới thiệu một loạt phim truyền hình, một cuốn sách về hệ tƣ vấn sau khi đã giới thiệu một cuốn sách về khai thác dữ liệu. Tư vấn một gói hàng: Tƣ vấn một nhóm các mặt hàng phù hợp với nhau. Ví dụ: một kế hoạch du lịch có thể bao gồm các điểm tham quan khác nhau, điểm đến, phƣơng thức giải trí, dịch vụ ăn nghỉ… Tư vấn chỉ xem: Trong chức năng này, ngƣời dùng duyệt các mặt hàng mà không có bất kỳ ý định mua một món hàng nào. Nhiệm vụ của hệ tƣ vấn là giúp cho ngƣời dùng duyệt qua các mặt hàng có nhiều khả năng ngƣời dùng yêu thích nhất. Tìm tư vấn đáng tin cậy: Một số ngƣời dùng không tin tƣởng vào hệ thống tƣ vấn, họ thử nghiệm với chính họ để xem nó tốt nhƣ thế nào trong việc đƣa ra các tƣ vấn. Do đó, một số hệ thống cũng có thể cung cấp các chức năng cụ thể để cho phép ngƣời sử dụng kiểm tra hoạt động của nó ngoài những yêu cầu để có đƣợc tƣ vấn. Cải thiện hồ sơ cá nhân: Điều này liên quan đến khả năng của ngƣời sử dụng cung cấp thông tin đầu vào cho hệ thống tƣ vấn về những gì mình thích và không thích. Đây là một nhiệm vụ cơ bản và thực sự cần thiết để cung cấp các đề xuất đƣợc cá nhân hóa. Nếu hệ thống không có kiến thức cụ thể về ngƣời sử dụng cần tƣ vấn thì sau đó nó có thể chỉ cung cấp cho anh ta với các tƣ vấn dành cho một ngƣời dùng "trung bình". Tự thể hiện: Một số ngƣời dùng có thể không quan tâm đến tất cả các tƣ vấn. Thay vào đó, nó chỉ quan trọng với họ vì họ đƣợc phép đóng góp với đánh giá của họ và bày tỏ ý kiến cũng nhƣ niềm tin của họ. Sự hài lòng của ngƣời sử dụng cho hoạt động đó vẫn có thể đƣợc xem nhƣ một cách để giữ chân ngƣời dùng cho các ứng dụng. Giúp đỡ người khác: Một số ngƣời dùng hài lòng với việc đóng góp thông tin, ví dụ nhƣ: đánh giá cho các mặt hàng (Ratings), bởi vì họ tin rằng đóng góp của họ sẽ có ích. Điều này có thể là một động lực lớn để nhập thông tin thành một hệ thống tƣ vấn. Ví dụ: với một hệ tƣ vấn về xe, một ngƣời dùng đã mua một chiếc NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 15 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM xe mới thì họ nhận thức đƣợc rằng ý kiến đánh giá của mình về chiếc xe đó có thể sẽ hữu ích cho ngƣời khác. Ảnh hưởng những người khác: Đối với hệ tƣ vấn dựa trên web, ngƣời dùng có mục tiêu rõ ràng chính là ngƣời ảnh hƣởng đến những ngƣời dùng khác vào mua các sản phẩm. Cũng có một số ngƣời sử dụng có thể sử dụng hệ thống chỉ để thúc đẩy hoặc hạ thấp một số mặt hàng theo ý riêng của họ. Nhƣ những điểm khác nhau cho thấy, vai trò của một hệ tƣ vấn trong một hệ thống thông tin là khá đa dạng. Sự đa dạng này sẽ là khởi đầu cho việc khai thác một loạt các nguồn kiến thức và các kỹ thuật khác nhau. 1.3. Dữ liệu và các nguồn tri thức Hệ tƣ vấn là hệ thống xử lý thông tin thu thập từ các loại dữ liệu khác nhau để xây dựng các tƣ vấn. Dữ liệu chủ yếu là về các mặt hàng cần tƣ vấn và ngƣời dùng sẽ nhận đƣợc các tƣ vấn này. Tuy nhiên, dữ liệu và các nguồn tri thức sẵn có cho các hệ thống tƣ vấn có thể rất đa dạng. Trong bất kỳ trƣờng hợp nào, dữ liệu đƣợc sử dụng bởi hệ tƣ vấn thuộc ba loại: mặt hàng (Item), ngƣời sử dụng (User), và các giao dịch (Transactions), đó chính là quan hệ giữa ngƣời sử dụng và các mặt hàng. Mặt hàng (Item). Mặt hàng là các đối tƣợng đƣợc tƣ vấn. Các mặt hàng này đặc trƣng bởi tiện ích và giá trị của nó. Giá trị của một mặt hàng có thể là tích cực nếu hữu ích cho ngƣời sử dụng, hoặc tiêu cực nếu mặt hàng không phù hợp với ngƣời sử dụng. Mặt hàng có giá trị thấp là: tin tức, các trang web, sách, đĩa CD, phim. Mặt hàng có giá trị lớn hơn là: máy ảnh kỹ thuật số, điện thoại di động, máy tính cá nhân,… . Các mặt hàng phức tạp nhất nhƣ là những chính sách bảo hiểm, tài chính đầu tƣ, tƣ vấn du lịch, công việc… Hệ tƣ vấn có thể sử dụng một loạt các thuộc tính và các tính năng của các mặt hàng. Ví dụ trong một hệ thống tƣ vấn phim, thể loại (hài, kinh dị,...) cũng nhƣ tên tuổi các đạo diễn và diễn viên có thể đƣợc sử dụng để mô tả một bộ phim và là đặc điểm nổi bật của nó. NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 16 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM Ngƣời sử dụng (User). Ngƣời sử dụng của một hệ tƣ vấn có thể có các đặc điểm và mục tiêu rất đa dạng. Để cá nhân hóa các tƣ vấn và hỗ trợ tƣơng tác giữa máy tính và con ngƣời, hệ tƣ vấn khai thác một loạt các thông tin về ngƣời sử dụng. Thông tin này có thể đƣợc cấu trúc theo nhiều cách khác nhau và hệ thống sẽ lựa chọn những thông tin nào phụ thuộc vào kỹ thuật tƣ vấn. Ví dụ: trong lọc cộng tác, ngƣời sử dụng đƣợc mô hình hóa bởi một danh sách đơn giản có chứa các đánh giá đƣợc cung cấp bởi ngƣời sử dụng đối với một số mặt hàng. Hệ tƣ vấn dựa trên nhân khẩu học lại dùng các thuộc tính nhƣ giới tính, tuổi, nghề nghiệp, và giáo dục... Các dữ liệu ngƣời dùng này sẽ đƣợc sử dụng để tạo thành mô hình mã hóa sở thích và nhu cầu ngƣời sử dụng. Giao dịch (Transaction). Giao dịch là sự tƣơng tác giữa một ngƣời dùng và hệ tƣ vấn. Nó lƣu trữ dữ liệu, thông tin đăng nhập quan trọng đƣợc tạo ra trong quá trình tƣơng tác giữa con ngƣời - máy tính và có ích cho thuật toán tƣ vấn mà hệ thống đang sử dụng. Ví dụ: một bản ghi giao dịch có thể chứa một tham chiếu đến mặt hàng đƣợc lựa chọn bởi ngƣời sử dụng và một mô tả về bối cảnh (mục tiêu ngƣời sử dụng / truy vấn) cho tƣ vấn cụ thể. Nếu có sẵn, giao dịch cũng có thể bao gồm một thông tin phản hồi rõ ràng của ngƣời sử dụng đã cung cấp, chẳng hạn nhƣ đánh giá cho các sản phẩm đƣợc chọn. Trong thực tế, xếp hạng là hình thức phổ biến nhất của các dữ liệu giao dịch trong hệ tƣ vấn. Những đánh giá này có thể đƣợc thu thập một cách rõ ràng hoặc ngầm định. Ngƣời dùng sẽ đƣợc yêu cầu cung cấp ý kiến của mình về một mặt hàng theo một thang đánh giá. Thang đánh giá có thể là một trong các dạng sau: Xếp hạng số từ 1-5 sao (đƣợc dùng trong trang web Amazon.com). Xếp hạng theo thứ tự, chẳng hạn: "hoàn toàn đồng ý”,... Xếp hạng đơn giản. Ví dụ: tốt hay xấu, thích hay không thích,… Hoặc có đánh giá hoặc không đánh giá. NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 17 NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM 1.4. Các phƣơng pháp của hệ tƣ vấn Để thực hiện chức năng tƣ vấn, một hệ tƣ vấn phải dự đoán đƣợc một mặt hàng để tƣ vấn. Muốn làm đƣợc điều này, hệ thống phải dự đoán sở thích của một số ngƣời hoặc so sánh công dụng, chức năng của một số mặt hàng sau đó đƣa ra các mặt hàng tƣ vấn cho ngƣời dùng dựa trên sự so sánh này. Sử dụng các thuật toán tƣ vấn có thể đƣa ra các mặt hàng tƣ vấn không hoàn toàn chính xác, tuy nhiên chúng ta vẫn có thể áp dụng nó để mô tả vai trò chung của một hệ tƣ vấn. Dựa vào loại dữ liệu và kỹ thuật đƣợc sử dụng để đi đến quyết định tƣ vấn, hệ thống tƣ vấn có thể đƣợc phân loại thành các phƣơng pháp tiếp cận sau đây: 1.4.1. Phương pháp tiếp cận dựa trên các tư vấn phổ biến Trong thực tế, khách hàng thƣờng muốn biết về những mặt hàng đang phổ biến nhất. Ví dụ: các danh sách bán chạy nhất của một cửa hàng. Tƣ vấn dựa trên sự phổ biến là tiếp cận, tính toán sự phổ biến trong cộng đồng (ví dụ: tỷ lệ khách hàng mua một mặt hàng) hoặc thống kê cho từng mặt hàng (ví dụ: số lƣợng khách hàng mua một mặt hàng, xếp hạng trung bình cho một mặt hàng,…). Nhƣ vậy, các mặt hàng phổ biến nhất sẽ đƣợc tƣ vấn cho ngƣời dùng. Phƣơng pháp tiếp cận dựa trên các tƣ vấn phổ biến cung cấp các tƣ vấn mà không cần đến việc cá nhân hoá. Mặc dù phƣơng pháp này chỉ có thể cung cấp các tƣ vấn không cá nhân nhƣng nó phổ biến bởi chính sự đơn giản và hiệu quả của nó. 1.4.2. Phương pháp tiếp cận dựa trên nội dung Các phƣơng pháp tiếp cận dựa trên nội dung tƣ vấn dựa trên việc tính năng của các mặt hàng có thể có ích trong việc giới thiệu chúng. Với cách tiếp cận này, các tính năng của các mặt hàng và sở thích riêng của ngƣời sử dụng là những yếu tố duy nhất ảnh hƣởng đến việc tƣ vấn cho ngƣời sử dụng. Trong phƣơng pháp lọc dựa trên nội dung, hệ thống sẽ phân tích và so sánh nội dung của các thông tin, các mặt hàng từ đó đánh giá khả năng ngƣời dùng sẽ thích mặt hàng đó. Phƣơng pháp lọc dựa trên nội dung dựa trên nguyên lý ngƣời dùng thích mặt hàng hay thông tin A sẽ thích mặt hàng hay thông tin B tƣơng tự với mặt hàng A. NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 18
- Xem thêm -