Tài liệu Phát hiện thói quen của con ngườinhóm người từ phương tiện xã hội dựa theo mô hình chủ đề xác suất

.PDF

183

tailieuonline Báo vi phạm

Tải xuống 99

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Uông Huy Long PHÁT HIỆN THÓI QUEN CỦA CON NGƢỜI/ NHÓM NGƢỜI TỪ PHƢƠNG TIỆN XÃ HỘI DỰA THEO MÔ HÌNH CHỦ ĐỀ XÁC SUẤT LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN HÀ NỘI - 2015 Lời cảm ơn ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Uông Huy Long Hà Quang Thụy và Thạc sĩ Trần Mai Vũ, người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu tại trường Đại Học Công Nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá PHÁT HIỆN THÓI QUEN CỦA CON NGƢỜI/ dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt NHÓM NGƢỜI TỪ PHƢƠNG TIỆN XÃ HỘI DỰA THEO MÔ HÌNH CHỦ ĐỀ XÁC SUẤT khoá luận. Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Côngcảm nghệ Tôi xinNgành: chân thành ơn!thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN Sinh viên Uông Huy Long NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. Nguyễn Việt Cƣờng HÀ NỘI - 2015 Lời cam đoan Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, được thực hiện dưới sự hướng dẫn khoa học của Tiến sĩ Nguyễn Việt Cường. Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác. Tôi xin chịu trách nhiệm về nghiên cứu của mình. Học viên Uông Huy Long i Mục lục Lời cam đoan ......................................................................................................................i Mục lục ............................................................................................................................. ii Danh sách hình..................................................................................................................iv Danh sách các bảng............................................................................................................v Mở đầu ...............................................................................................................................1 Chương 1. Giới thiệu .....................................................................................................2 1.1. Những thách thức của các trang báo điện tử ......................................................2 1.2. Bài toán tư vấn trên các trang báo điện tử xã hội. .............................................3 1.3. Cấu trúc của luận văn .........................................................................................5 Chương 2. Một số nghiên cứu liên quan về mô hình hóa người dùng ..........................6 2.1. Mô hình hóa người dùng ....................................................................................6 2.2. Phương pháp mô hình hóa người dùng ..............................................................6 2.2.1. Phương pháp dựa trên từ khóa có trọng số .................................................6 2.2.2. Phương pháp dựa trên mạng ngữ nghĩa ......................................................7 2.2.3. Phương pháp dựa trên cây phân cấp khái niệm ..........................................8 2.3. Thu thập thông tin về người dùng ......................................................................9 2.3.1. Phương pháp định danh người dùng ...........................................................9 2.3.2. Các phương pháp thu thập thông tin truyền thống ....................................11 2.4. Thu thập thông tin từ Web truyền thông xã hội ...............................................13 2.4.1. Sử dụng các thông tin thẻ (Tag) ................................................................ 13 2.4.2. Nguồn dữ liệu từ blog và microblog .........................................................14 Chương 3. Mô hình đề xuất ........................................................................................17 3.1. Phân tích thông tin chủ đề dựa trên mô hình chủ đề LDA ..............................17 3.2. Phân tích thói quen đọc, bình luận tin tức của người dùng .............................20 3.2.1. Thông tin trong lịch sử bình luận của người dùng ....................................20 3.2.2. Mô hình người dùng ..................................................................................22 3.3. Áp dụng mô hình người dùng vào tư vấn tin tức .............................................23 3.3.1. Pha phân tích dữ liệu .................................................................................23 3.3.2. Pha xây dựng mô hình người dùng ...........................................................24 3.3.3. Pha tư vấn ..................................................................................................25 ii Chương 4. Thực nghiệm và đánh giá ..........................................................................26 4.1. Môi trường thực nghiệm ..................................................................................26 4.2. Dữ liệu và công cụ ...........................................................................................26 4.2.1. Dữ liệu .......................................................................................................26 4.2.2. Công cụ .....................................................................................................26 4.3. Luồng phân tích dữ liệu trong thực nghiệm.....................................................29 4.3.1. Huấn luyện mô hình phân tích chủ đề .......................................................29 4.3.2. Phân tích dữ liệu tin tức ............................................................................30 4.3.3. Mô hình người dùng và đánh giá kết quả..................................................32 Tài liệu tham khảo ...........................................................................................................36 Tiếng Việt .....................................................................................................................36 Tiếng Anh .....................................................................................................................36 iii Danh sách hình Hình 1. Chức năng tìm kiếm trên trang vnexpress.net. .....................................................2 Hình 2. Ví dụ về các tin tức nảy sinh xung quanh một sự kiện. ........................................4 Hình 3. Tiến trình mô hình hóa người dùng. .....................................................................6 Hình 4. Mô hình mối quan tâm người dùng dựa trên từ khóa. ..........................................7 Hình 5. Mô hình mối quan tâm người dùng dựa trên mạng ngữ nghĩa[9]. .......................8 Hình 6. Mô hình mối quan tâm người dùng dựa trên mạng khái niệm [24]. ....................9 Hình 7. Các hệ thống tư vấn dựa trên thông tin người dùng hiện ...................................11 Hình 8. Tài liệu với K chủ đề ẩn......................................................................................18 Hình 9. Biểu diễn đồ họa LDA[6]. ..................................................................................19 Hình 10. Ước lượng tham số tập dữ liệu văn bản. ...........................................................19 Hình 11. Suy diễn chủ đề sử dụng tập dữ liệu VNExpress[29]. ......................................20 Hình 12. Mục ý kiến bạn đọc trên VNExpress ................................................................ 21 Hình 13. Trang hoạt động bình luận của người dùng ......................................................21 Hình 14. Luồng phân tích dữ liệu ....................................................................................23 Hình 15. Luồng xây dựng mô hình người dùng ..............................................................25 Hình 16. Luồng tư vấn .....................................................................................................25 Hình 17. Luồng phân tích dữ liệu trong thực nghiệm .....................................................28 Hình 18. Nội dung chính của trang tin ............................................................................29 Hình 19. Tin tức sau khi tiền xử lý ..................................................................................30 Hình 20. Truy vấn tìm kiếm người dùng và các trang bình luận .....................................31 Hình 21. Tập hợp các đường dẫn và bình luận của người dùng ......................................31 Hình 22. Biểu đồ độ chính xác của mô hình ...................................................................34 iv Danh sách các bảng Bảng 1. Các kỹ thuật thu thập thông tin ẩn [8] ................................................................ 12 Bảng 2. Thông tin lịch sử hoạt động bình luận của người dùng .....................................22 Bảng 3. Môi trường thực nghiệm. ...................................................................................26 Bảng 4. Công cụ...............................................................................................................26 Bảng 5. Một số chủ đề ẩn ................................................................................................ 30 Bảng 6. Mô hình người dùng ...........................................................................................32 Bảng 7. Top các chủ đề của tin tức được bình luận gần nhất ..........................................33 Bảng 8. Độ chính xác của mô hình ..................................................................................33 v Mở đầu Thuật ngữ Web 2.0 lần đầu xuất hiện vào tháng 10/2004 khi Tim OReily – Chủ tịch và Dale Dougherty – Phó Chủ tịch của OReily Media đưa ra tại một cuộc hội thảo về sự phát triển tiếp theo của Web. Có rất nhiều quan điểm khác nhau về Web 2.0, tuy nhiên đa số vẫn mô tả Web 2.0 ở một số tính năng như khả năng giao tiếp, tính tương tác giữa các người dùng với nhau hay là những yếu tố cho phép người dùng có thể tạo ra thông tin. Các trang Web truyền thông xã hội (social media websites) dựa trên Web 2.0 như các trang báo điện tử xã hội, mạng xã hội, blog, các từ điển mở wiki,… đang có một sự phát triển như vũ bão và thực sự đang làm biến đổi thế giới Internet từng ngày, từng giờ. Cùng nhìn vào một đại diện tiêu biểu của Web truyền thông xã hội, các trang báo điện tử xã hội (social news sites), khái niệm “báo điện tử” cũng như việc đọc tin tức điện tử đã không còn xa lạ với đa số người dân Việt Nam. Những thống kê gần đây trên alexa1 về số lượng các trang báo điện tử nằm trong top các trang Web phổ biến nhất tại Việt Nam hiện nay đang cho thấy nhu cầu cao của xã hội trong lĩnh vực truyền thông này. Tuy nhiên, một vấn đề còn tồn tại hiện nay đó là trong khi có quá nhiều tin tức mỗi ngày được cập nhật, người dùng dường như bị chìm ngập trong biển thông tin mà vẫn không tìm ra được các thông tin phù hợp. Web 2.0 có thể là lời giải cho vấn đề này, những trang báo điện tử xã hội cho phép người dùng tạo ra nội dung như những bình luận, chia sẻ,…Đây có thể là một nguồn dữ liệu quan trọng cho lĩnh vực nghiên cứu liên quan tới mô hình hóa người dùng. Từ nắm bắt thói quen đọc, bình luận tin tức của người dùng theo lĩnh vực gì (như thể thao, giải trí, công nghệ,…), nhiều dịch vụ tiềm năng (như tin tức mới, quảng cáo, game,…) có thể được suy diễn và tư vấn chính xác, kịp thời. Luận văn đề xuất một phương pháp dựa trên mô hình chủ đề xác suất có thể giúp các trang báo điện tử xã hội nhận diện thói quen, mối quan tâm của người dùng một cách tự động trên lịch sử các hoạt động bình luận của họ (Người dùng xây dựng thói quen đọc, bình luận tin tức trên cơ sở các mối quan tâm, vì vậy, trong luận văn, các khái niệm mô hình hóa người dùng, phân tích mối quan tâm người dùng hay phân tích thói quen đọc, bình luận của người dùng có thể được sử dụng thay thế cho nhau). Tính chính xác và khả năng ứng dụng thực tế của mô hình này đã được chứng minh bằng một số kết quả thực nghiệm ban đầu. 1 http://www.alexa.com/topsites/countries/VN 1 Chƣơng 1. Giới thiệu 1.1. Những thách thức của các trang báo điện tử Ngày nay, thông tin trên những trang báo điện tử (như VNExpress1) hầu như bao phủ mọi khía cạnh của đời sống xã hội, từ những tin tức về kinh tế, chính trị tới những sự kiện thể thao, giải trí của cả trong nước và quốc tế. Cùng với thực tế đó là hiện tượng có một lượng lớn các tin tức phát sinh thêm mỗi ngày (như trên trang VNExpress, tại thời điểm khảo sát có hơn 135 tin tức mới trong ngày), người đọc cũng có thể quan tâm tới các tin tức về một sự kiện/ chuỗi các sự kiện diễn ra trong nhiều ngày hoặc muốn xem lại các thông tin từ những ngày trước, vì vậy mà lượng tin tức cần đọc có thể lên tới hàng nghìn bài. Vấn đề đặt ra là làm cách nào những người đọc có thể vừa tiết kiệm được thời gian truy cập vừa không bỏ sót những nội dung mà họ quan tâm. Những nghiên cứu trước đây gọi đó là vấn đề của sự tràn ngập thông tin. Một giải pháp phổ biến đó là cung cấp cho người dùng công cụ tìm kiếm. Tuy nhiên, những công cụ tìm kiếm đôi khi vẫn không đem lại hiệu quả, điều này thường do nghĩa của từ khoá không rõ ràng hoặc ý nghĩa chính xác của chúng phụ thuộc vào ngữ cảnh của người dùng. Ví dụ như khi một lập trình viên tìm kiếm với từ khóa “apache”, có thể người đó không muốn nhìn thấy hình ảnh của một loại máy bay trực thăng. Hay nếu người dùng muốn tìm kiếm về lịch sử của tộc người da đỏ (cũng có tên là apache), nội dung người đó quan tâm không phải là máy bay trực thăng hay máy chủ web. Một hướng tiếp cận khác được nghiên cứu là tìm cách xây dựng các hệ thống cá nhân hóa, những hệ thống này cung cấp các kết quả tư vấn hoặc tìm kiếm khác nhau và được cho là phù hợp với những người dùng khác nhau. Hình 1. Chức năng tìm kiếm trên trang vnexpress.net. 1 http://vnexpress.net/ 2 Một hệ thống được cá nhân hóa giải quyết vấn đề có quá nhiều lựa chọn bằng cách xây dựng và quản lý các thông tin về người dùng, đặt trong hồ sơ người dùng. Toàn bộ quá trình này gọi là mô hình hóa người dùng sẽ được trình bày chi tiết hơn trong chương 2. Hệ thống này thực thi các hình thức như là lọc ra những thông tin không liên quan hoặc xác định thêm thông tin có thể hấp dẫn người dùng. Hồ sơ người dùng có thể bao gồm thông tin cá nhân, ví dụ như tên, tuổi, quốc gia, mức độ giáo dục,…và cũng có thể đại diện cho các sở thích, mối quan tâm của một cá nhân hoặc một nhóm người dùng như là sự ưa thích với các chủ đề thể thao hay du lịch. Các thông tin này có thể được phân tích dựa vào dữ liệu do người dùng cung cấp, suy diễn từ dữ liệu log trên hệ thống hoặc một nguồn dữ liệu mới là từ các phương tiện xã hội, nội dung này sẽ được luận văn trình bày chi tiết hơn trong chương 2. 1.2. Bài toán tƣ vấn trên các trang báo điện tử xã hội. Tư vấn tin tức là một lĩnh vực giàu tiềm năng bởi số lượng các sản phẩm tư vấn, số lượng người dùng và số lượt sử dụng cao hơn nhiều so với các đối tượng tư vấn khác, vì vậy luận văn đề xuất một mô hình người dùng và ứng dụng vào hệ thống tư vấn tin tức trong chương 3. Một vài đặc trưng riêng có của miền đối tượng tin tức cũng như các đặc trưng chung của người sử dụng tư vấn, có thể được mô tả như sau: Đầu tiên, tin tức là một đối tượng tư vấn đặc biệt, các đặc trưng sau của tin tức giúp đưa ra các giải pháp hữu hiệu hơn trong xây dựng giải pháp tư vấn:  Tính không đồng nhất giá trị: Giá trị của tin tức chỉ có thể được xác định bằng cách kết hợp các yếu tố: nội dung thông tin, nguồn tin, thời điểm xuất bản, nhà xuất bản, tác giả,…  Tính dễ sinh ra: một số lượng lớn tin tức có thể nảy sinh xung quanh một sự kiện, hiện tượng.  Tính dễ tàn lụi: hiện tượng tin tức đánh mất giá trị khi vấn đề nó đề cập không còn tính thời sự. 3 Hình 2. Ví dụ về các tin tức nảy sinh xung quanh một sự kiện. Khi xem xét đến yếu tố phù hợp giữa đối tượng tư vấn và mối quan tâm người dùng, một đặc trưng về mối quan tâm của người dùng cần được xem xét, đó là tính đa quan tâm: Tại một thời điểm, người dùng có thể có nhiều mối quan tâm khác nhau, ví dụ: người dùng có thể quan tâm đến các thông tin về cả thể thao và chính trị. Qua phân tích, luận văn lựa chọn cách tiếp cận lọc dựa trên nội dung, trong đó thói quen/ mối quan tâm người dùng được nhận diện qua các chủ đề ẩn của các tin tức mà người dùng đã từng bình luận. Các lý do có thể được nêu ra là:  Thứ nhất: Biểu diễn mức chủ đề cho phép mô tả những mối quan tâm của người dùng ở mức trừu tượng cao hơn mà không bị ảnh hưởng bởi thói quen dùng từ của các tác giả hoặc của những từ khóa nổi lên chỉ trong một giai đoạn nhất định. Sử dụng phương pháp này cũng khắc phục được vấn đề tư vấn trùng lặp do mô hình dựa trên các từ khóa thường tìm ra các tin tức có cùng nội dung với các tin tức người dùng đã đọc.  Thứ hai: Tính đa quan tâm của người dùng có thể được thể hiện thông qua tập hợp các cặp chủ đề và xác suất liên quan.  Thứ ba: Những tin tức người dùng đã từng bình luận đem tới thông tin tốt hơn do có thể nhận xét rằng người dùng quan tâm thực sự tới nội dung các tin tức đã bình luận chứ không phải là do chọn nhầm. Theo đó, luận văn đề xuất giải quyết hai vấn đề cơ bản của tiến trình tư vấn: 4  Đầu tiên là dựa trên khảo sát về các phương pháp xây dựng mô hình hóa người dùng, đề xuất giải pháp mô hình người dùng dựa trên phân tích chủ đề các tin tức người dùng đã từng bình luận.  Sau đó, những tin tức liên quan được phát hiện thông qua đối chiếu chủ đề của chúng với những chủ đề trong mô hình người dùng vừa được xây dựng. Cấu trúc của luận văn 1.3. Nội dung chính của luận văn được chia làm 4 chương:  Chương 1. Giới thiệu.  Chương 2. Một số nghiên cứu liên quan về mô hình hóa người dùng.  Chương 3. Mô hình đề xuất.  Chương 4: Thực nghiệm và đánh giá. 5 Chƣơng 2. Một số nghiên cứu liên quan về mô hình hóa ngƣời dùng 2.1. Mô hình hóa ngƣời dùng Theo Gauch và các cộng sự [8], một tiến trình mô hình hóa người dùng cho các ứng dụng hướng cá nhân bao gồm 2 pha cơ bản như minh họa sau: Hình 3. Tiến trình mô hình hóa ngƣời dùng. Trong đó, những phương pháp xây dựng mô hình người dùng được mô tả kỹ hơn trong mục 2.2, các khái niệm và kỹ thuật liên quan đến quá trình chuẩn bị dữ liệu cho mô hình hóa người dùng được mô tả trong mục 2.3. 2.2. Phƣơng pháp mô hình hóa ngƣời dùng Thông thường dựa trên các đặc trưng của dữ liệu thu thập được, có những cách tiếp cận khác nhau để xây dựng mô hình người dùng. Dữ liệu thu thập từ người dùng có thể được chia làm hai loại chính là dữ liệu có cấu trúc và không cấu trúc. Các dữ liệu có cấu trúc như các đánh giá theo điểm, nghề nghiệp, tuổi tác, … Các dữ liệu không cấu trúc là các dữ liệu dạng văn bản như nội dung của các tin tức đã xem, mô tả của các bộ phim đã xem, hay các lời nhận xét dưới dạng ngôn ngữ tự nhiên … Gauch và cộng sự trong [8] mô tả khá chi tiết ba phương pháp xây dựng mô hình người dùng dựa trên các dữ liệu dạng văn bản là phương pháp dựa trên từ khóa có trọng số, phương pháp dựa trên các mạng ngữ nghĩa và phương pháp dựa trên cây phân cấp khái niệm. Đây là các giải pháp mô hình sở thích người dùng thường được sử dụng cho các hệ thống tư vấn dựa trên nội dung. 2.2.1. Phƣơng pháp dựa trên từ khóa có trọng số Mối quan tâm được mô tả bằng tập các từ khóa có trọng số. Trong đó, từ khóa được trích xuất từ tập các dữ liệu người dùng với trọng số thường được đánh giá thông qua mô hình trọng số tf*idf. Đây là giải pháp được đưa ra sớm nhất và dễ dàng cài đặt nhất, tuy nhiên vấp phải các trở ngại về vấn đề nhập nhằng ngữ nghĩa và kích thước không gian từ khóa. Ví dụ điển hình của phương pháp tiếp cận này là WebMate [5], hồ sơ người dùng chứa một vector từ khóa cho mỗi lĩnh vực quan tâm của người dùng, và một ý tưởng mở 6 rộng của WebMate[5], Alipes [32] sử dụng ba vector từ khóa cho mỗi mối quan tâm người sử dụng bao gồm: một vector mô tả tính dài hạn, hai vector mô tả tính ngắn hạn: một tích cực và một tiêu cực. Hình 4. Mô hình mối quan tâm ngƣời dùng dựa trên từ khóa. 2.2.2. Phƣơng pháp dựa trên mạng ngữ nghĩa Mối quan tâm được mô tả bằng tập các node (từ khóa hoặc khái niệm) và các cạnh liên kết. Đầu tiên, các từ khóa cũng được trích xuất từ dữ liệu người dùng. Khái niệm có thể bao gồm một hoặc nhiều từ khóa liên kết với nhau (ví dụ như: quan hệ đồng nghĩa suy diễn từ WordNet). Trọng số giữa cạnh được xác định dựa trên sự xuất hiện đồng thời của hai node hoặc các từ khóa thuộc vào hai node trong cùng một văn bản. Điển hình cho mô hình này là hệ thống InfoWeb [9], mỗi hồ sơ người dùng được biểu diễn bởi một mạng ngữ nghĩa các khái niệm. Ban đầu, mạng ngữ nghĩa chứa một tập các node khái niệm không liên kết gọi là các node hành tinh với một trọng số. Càng nhiều thông tin thu thập được, hồ sơ về người dùng càng được làm giàu thông qua các từ khóa có trọng số liên kết với các khái niệm. Các từ khóa được biểu diễn như các node vệ tinh xung quanh các khái niệm chính, trọng số liên kết giữa các khái niệm tương ứng cũng được thêm vào. 7 Hình 5. Mô hình mối quan tâm ngƣời dùng dựa trên mạng ngữ nghĩa[9]. 2.2.3. Phƣơng pháp dựa trên cây phân cấp khái niệm Mối quan tâm người dùng được mô tả thông qua tập các khái niệm có trọng số. Ban đầu, các khái niệm không trích ra từ văn bản mà được định nghĩa trước từ cây phân cấp các mục mở ODP (The Open Directory Project1). Dữ liệu người dùng được phân lớp vào một trong các nhánh của cấu trúc phân cấp này. Vấn đề của phương pháp này là mức độ chi tiết của mục có thể làm mất thông tin về các mối quan tâm chung và sự phụ thuộc vào độ chính xác của các cây phân cấp khái niệm. Một trong các dự án đầu tiên sử dụng phương pháp này là OBIWAN [24]. Ban đầu, họ dùng cấu trúc phân cấp khái niệm từ 3 mức đầu tiên của ODP. Dữ liệu người dùng được tự động phân lớp để tìm ra các các khái niệm phù hợp nhất, các trọng số khái niệm tương ứng được tăng lên. 1 http://dmoz.org 8 Hình 6. Mô hình mối quan tâm ngƣời dùng dựa trên mạng khái niệm [24]. 2.3. Thu thập thông tin về ngƣời dùng Bước đầu tiên trong kỹ thuật mô hình hóa người dùng là thu thập các thông tin về người dùng cá nhân. Trong đó, một yêu cầu cơ bản là hệ thống cần phải xác định duy nhất người dùng. Nhiệm vụ này sẽ được trình bày trong phần 2.3.1. Các thông tin người dùng được có thể được thu thập hiện qua việc nhập trực tiếp bởi người dùng, thu thập ẩn thông qua một các tử phần mềm hoặc thu thập tự động từ các phương tiện truyền thông xã hội. Phụ thuộc vào cách thức thu thập dữ liệu này mà những dạng dữ liệu khác nhau về người dùng có thể được thu thập. Một số lựa chọn và ảnh hưởng của các lựa chọn trên được trình bày ở mục 2.3.2 và 2.4. Nhìn chung, phương pháp thu thập tự động từ các phuwong tiện truyền thông xã hội đang trở thành một hướng tiếp cận mới, tiềm năng bởi khả năng tiếp cận dễ dàng, giàu thông tin và không đặt gánh nặng cung cấp thông tin lên người dùng. 2.3.1. Phƣơng pháp định danh ngƣời dùng Định danh người dùng là tiêu chí quan trọng giúp hệ thống phân biệt, và xây dựng hồ sơ khác nhau cho những người dùng khác nhau. Gauch và cộng sự [8] liệt kê ra 5 cách tiếp cận cơ bản trong định danh người dùng: các tử phần mềm (software agent), đăng nhập (login), proxy server, cookie và phiên duyệt Web(session). Mỗi phương pháp đều có những ưu, nhược điểm riêng. 9 Ba phương pháp đầu tiên chính xác hơn, nhưng chúng yêu cầu sự tham gia của người dùng. Các tử phần mềm là một phần mềm nhỏ được đặt trên máy người dùng, thu thập thông tin về họ và chia sẻ chúng với máy chủ thông qua một vài giao thức. Giải pháp này có độ tin cậy cao nhất vì có nhiều hơn sự điều khiển khi triển khai ứng dụng và các giao thức. Nó cũng có khả năng thu thập được nhiều thông tin nhất vì có quyền truy cập tới nhiều hơn các nguồn thông tin người dùng. Tuy nhiên, nó yêu cầu sự tham gia của người dùng để cài đặt phần mềm, đó là một cản trở không dễ chịu. Giải pháp có độ tin cậy thứ hai là dựa trên việc đăng nhập. Bởi vì người dùng định danh chính họ thông qua đăng nhập, cách định danh này thường chính xác và có thể sử dụng để xác định người dùng dùng nhiều máy khách khác nhau. Mặt trở ngại của phương pháp này là người dùng cần thực hiện một tiến trình đăng kí và thực hiện đăng nhập và đăng xuất cho mỗi lần sử dụng. Ở giải pháp thứ ba, một proxy server sẽ làm nhiệm vụ thu thập thông tin người dùng, phương pháp này hữu ích khi cần thu thập thông tin về một nhóm người dùng hoặc một người dùng sử dụng nhiều máy tính, tương tự như hai giải pháp trên, nó yêu cầu người dùng tham gia bằng cách đăng kí cùng một điạ chỉ proxy cho tất cả các máy họ sử dụng. Hai phương pháp sau, cookie và phiên duyệt Web không yêu cầu bất cứ sự tham gia nào từ phía người dùng. Trong lần đầu tiên trình duyệt máy khách truy cập vào hệ thống, một userid được tạo ra, id này sẽ được lưu trong cookie máy người dùng. Một người dùng truy cập vào cùng một trang Web được xác định là duy nhất nếu cùng một userid được sử dụng. Tuy nhiên, nếu người dùng sử dụng nhiều hơn một máy tính, hay một loại trình duyệt, sẽ có những cookie khác nhau, và tương ứng là những hồ sơ người dùng khác nhau. Hơn nữa, giải pháp này cũng gặp vấn đề khi có nhiều hơn một người dùng cho một máy, hoặc trường hợp người dùng xóa, hay tắt cookie. Đối với phiên duyệt Web, trở ngại cũng tương tự khi có nhiều hơn một người dùng cho một máy hay có sử dụng nhiều hơn một máy, một trình duyệt, nhưng nó không lưu trữ userid giữa những lần duyệt. Một người dùng bắt đầu với một phiên duyệt Web mới, thông tin trong phiên duyệt Web lưu lại vết các hành vi người dùng tương tác với hệ thống trong một lần duyệt Web của họ ví dụ danh sách các pageview, thời gian dành cho mỗi pageview, địa chỉ IP,… Ưu điểm quan trọng của giải pháp định danh dựa trên phiên duyệt Web là nó không đặt bất cứ gánh nặng nào về phía người dùng, không gặp những nghi ngại về tính riêng tư (tức là không lưu lại bất cứ thông tin nào về người dùng) và cũng không yêu cầu bật cookie ở trình duyệt. 10 2.3.2. Các phƣơng pháp thu thập thông tin truyền thống Thông thường, các kỹ thuật thu thập thông tin được phân theo tính chất của dữ liệu thu thập được. Theo đó, tương ứng với hai kiểu thông tin người dùng ẩn và hiện, có hai phương pháp thu thập thông tin người dùng. 2.3.2.1. Phƣơng pháp thu thập thông tin ngƣời dùng hiện Phương pháp thu thập thông tin người dùng hiện (hay thông tin phản hồi hiện) thu thập những thông tin được nhập trực tiếp bởi người dùng, thông thường qua các form nhập liệu. Dữ liệu thu thập có thể là các thông tin như ngày sinh, tình trạng hôn nhân, nghề nghiệp, sở thích,… Một trong các hệ tư vấn sớm nhất Syskill & Webert [22] tư vấn các trang Web dựa vào các phản hồi hiện. Nếu người dùng đánh giá cao một vài liên kết từ một trang, Syskill & Webert sẽ tư vấn các trang liên kết khác. Thêm vào đó, hệ thống còn có thể tạo một truy vấn tới máy tìm kiếm Lycos1 để trích xuất các trang Web có thể người dùng sẽ ưa thích. Một vấn đề với các thông tin phản hồi hiện đó là nó đặt gánh nặng cung cấp thông tin về phía người dùng. Vì vậy, nếu người dùng không muốn phải cung cấp các thông tin riêng tư, họ sẽ không tham gia hoặc không cung cấp thông tin chính xác. Hơn nữa, vì các hồ sơ được duy trì tĩnh trong khi tồn tại các đặc điểm có thể thay đổi như sở thích, thói quen,… khiến cho những hồ sơ này có thể trở nên không chính xác nữa theo thời gian. Hình 7. Các hệ thống tƣ vấn dựa trên thông tin ngƣời dùng hiện 1 http://www.lycos.com/ 11 2.3.2.2. Phƣơng pháp thu thập thông tin ngƣời dùng ẩn Hồ sơ người dùng trong phương pháp này được xây dựng dựa trên các thông tin phản hồi ẩn. Ưu điểm của phương pháp này là không yêu cầu bất cứ sự xen vào nào của người dùng trong suốt tiến trình xây dựng và duy trì các hồ sơ người dùng. Công trình của Gauch và các cộng sự [8] thống kê tóm tắt các cách tiếp cận của kỹ thuật thu thập thông tin phản hồi ẩn. Bảng 1. Các kỹ thuật thu thập thông tin ẩn [8] Kỹ thuật Thông tin thu thập Browser Cache Lịch sử duyệt Web Proxy Servers Hành vi duyệt Web Browser Agents Hành vi duyệt Web Desktop Agents Tất cả hành vi người dùng Web Logs Hành vi duyệt Web Search Logs Truy vấn và Url được click Bề rộng thông tin Ưu và Nhược Ƣu: Người dùng không cần cài đặt bất cứ Bất cứ thứ gì. trang Nhƣợc: Người dùng phải upload cache Web nào định kì. Ƣu: Người dùng sử dụng các trình duyệt Bất cứ chính qui. trang Nhƣợc: Người dùng phải sử dụng proxy Web nào server. Bất cứ ứng dụng hướng cá nhân nào Bất cứ ứng dụng hướng cá nhân nào Các trang Web có log Ƣu: Các tử có thể thu thập tất cả các hành vi Web. Nhƣợc: Cài đặt và sử dụng ứng dụng mới khi đang duyệt Web. Ƣu: Tất cả các tập tin và hành vi của người dùng. Nhƣợc: Yêu cầu cài đặt phần mềm. Ƣu: Thông tin về nhiều người dùng. Nhƣợc: Có thể có ít thông tin vì chỉ từ một trang Web. Ƣu: Thu thập và sử dụng thông tin từ Các nhiều trang trang tìm Nhƣợc: Cookies phải được bật và/hoặc kiếm yêu cầu đăng nhập. Nhƣợc: Có thể có rất ít thông tin. Ví dụ OBIWAN [24] OBIWAN [24] WebMate [5] Google Desktop Mobasher [3] Misearch Dựa trên nguồn gốc các thông tin ẩn này, có thể chia các thông tin phản hồi ẩn thành hai loại: thông tin ẩn phía máy khách (client log) thu được từ bốn cách tiếp cận đầu và thông tin ẩn phía máy chủ (server log) thu được từ hai cách tiếp cận còn lại. 12 Trong khi các kỹ thuật thu thập thông tin phía máy khách đặt gánh nặng về phía người dùng để thu thập và chia sẻ log các hành vi của họ. Các kỹ thuật thu thập thông tin phía máy chủ (như search log và Web log) thu thập chỉ những thông tin trong quá trình tương tác của người dùng và hệ thống. Điều này làm cho các thông tin có thể thu thập từ máy chủ ít hơn nhưng có ưu thế hơn về độ phức tạp của dữ liệu thu thập được cũng như tránh được các nghi ngại về tính riêng tư của người dùng. 2.4. Thu thập thông tin từ Web truyền thông xã hội Các Web truyền thông xã hội ngày nay giúp con người dễ dàng chia sẻ nội dung, cộng tác với những người khác, kết nối với nhau để tạo ra một cộng đồng nhanh hơn và dễ tiếp cận hơn. Ở đó, cộng đồng người dùng định hướng và tạo ra nội dung. Người dùng tham gia vào Web truyền thông xã hội bằng những hoạt động như chia sẻ bookmark, viết blog, chú thích và bình luận về các thông tin được cung cấp bởi những người khác. Họ tạo ra thông tin, xây dựng nội dung và thiết lập các cộng đồng trực tuyến (những nội dung do người dùng tạo ra được viết tắt là UGC - User generated content). Thu thập thông tin người dùng trên Web truyền thông xã hội là một hướng mới so với những phương pháp thu thập thông tin truyền thống như đã đề cập ở mục trước, thông tin thu được do người dùng tạo ra, công khai vì vậy các hệ thống máy tính có thể dễ dàng tự động thu thập và phân tích. Các UGC có thể bao gồm nhiều loại hình dữ liệu đa phương tiện như văn bản, âm thanh, hình ảnh,… UGC chứa các thông tin giàu ý nghĩa, vì vậy có tiềm năng trong phân tích, nắm bắt những kiến thức về người sử dụng, về các mục và về các mối quan hệ giữa người sử dụng và các mục. Từ những thông tin UGC, chúng ta có thể nắm bắt ý kiến của người sử dụng, những quan điểm hoặc thị hiếu về các loại mặt hàng hoặc về người dùng khác. Các nội dung do người dùng tạo ngày càng tăng và có sẵn giúp cho việc xây dựng mô hình người dùng chính xác hơn so với các kỹ thuật hiện có. Trong phần này, luận văn xem xét một số hướng tiếp cận cho việc thu thập thông tin từ các Web truyền thông xã hội cho mô hình người dùng. 2.4.1. Sử dụng các thông tin thẻ (Tag) Giống như các thông tin do người dùng tạo ra khác, tag đang trở thành một nguồn thông tin quan trọng để mô hình người dùng cũng như để mô tả nội dung hoặc phân loại mặt hàng. Tag là một từ khóa được thêm vào một đối tượng số (ví dụ như một trang Web, hình ảnh hoặc video clip) để mô tả nó, nhưng không phải là một phần của một hệ thống phân loại chính thức. Các tag là các từ khóa được tự do lựa chọn và chúng là một công cụ đơn giản mà mạnh mẽ để tổ chức, tìm kiếm và khai thác các nguồn tài nguyên. So với 13

- Xem thêm -

Tài liệu Phát hiện thói quen của con ngườinhóm người từ phương tiện xã hội dựa theo mô hình chủ đề xác suất

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất