Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Công nghệ thông tin Xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter...

Tài liệu Xác định thông tin dịch bệnh dựa trên phân tích dữ liệu twitter

.PDF
61
157
112

Mô tả:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- TẠ QUANG LONG LUẬN VĂN THẠC SĨ KỸ THUẬT XÁC ĐỊNH THÔNG TIN DỊCH BỆNH DỰA TRÊN PHÂN TÍCH DỮ LIỆU TWITTER HÀ NỘI - 2018 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- TẠ QUANG LONG LUẬN VĂN THẠC SĨ KỸ THUẬT XÁC ĐỊNH THÔNG TIN DỊCH BỆNH DỰA TRÊN PHÂN TÍCH DỮ LIỆU TWITTER CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ : 8.48.01.04 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS. TS TỪ MINH PHƯƠNG HÀ NỘI - 2018 1 MỤC LỤC DANH MỤC BẢNG ............................................................................................ 3 DANH MỤC HÌNH VẼ ........................................................................................ 4 MỞ ĐẦU ............................................................................................................... 6 CHƯƠNG 1 MẠNG XÃ HỘI TWITTERVÀ CÁC ĐẶC TRƯNG ................... 10 1.1 Giới thiệu mạng xã hội Twitter .......................................................... 11 1.2 Các đặc trưng thông tin của Twitter ................................................... 11 1.3 Mối quan hệ người dùng trong mạng Twitter .................................... 15 1.4 Tại sao lại sử dụng mạng xã hội Twitter, mà không dùng các mạng xã hội khác .............................................................................................. 17 1.5 Các ứng dụng phân tích dịch bệnh từ nguồn dữ liệu khác ................. 18 1.5.1 Ứng dụng Google Flu Trends................................................ 19 1.5.2 Trung tâm kiểm soát dịch bệnh (CDC) ................................. 22 1.6 Kết luận chương ................................................................................. 23 CHƯƠNG 2 – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ ............................. 24 XÁC ĐỊNH THÔNG TIN DỊCH BỆNH TRÊN TWITTER .............................. 24 2.1 Tiền xử lý dữ liệu (văn bản) ........................................................... 25 2.1.1 Dữ liệu thô/gốc: ..................................................................... 25 2.1.2 Chất lượng dữ liệu (data quality): ......................................... 25 2.1.3 Chất lượng dữ liệu (data quality): ................................................. 25 2.1.4 Chất lượng dữ liệu (data quality): ................................................. 26 2.1.5 Các kỹ thuật tiền xử lý dữ liệu: ..................................................... 26 2.2 Biểu diễn văn bản dưới dạng vector ................................................. 28 2.3 Giới thiệu về phân loại văn bản và một số phương pháp phân loại văn bản ............................................................................................... 31 2 2.3.1 Bài toán phân loại văn bản .................................................... 31 2.3.2 Một số phương pháp phân loại văn bản: ............................... 33 2.3.2.3 Thuật toán K-NN (K – Nearest Neighbor) ................................. 36 2.3.2.4 Phương pháp SVM (Support Vector Machine) .......................... 38 2.6 Kết luận chương ................................................................................. 45 CHƯƠNG 3 - THỬ NGHIỆM VÀ ĐÁNH GIÁ................................................. 46 3.1 Thu thập dữ liệu thử nghiệm .............................................................. 46 3.2 Đánh giá các phương pháp phân loại văn bản: .................................. 50 3.3 Ứng dụng mô phỏng thuật toán .......................................................... 53 3.4 Kết luận chương ................................................................................. 55 DANH MỤC TÀI LIỆU THAM KHẢO ............................................................ 58 3 DANH MỤC BẢNG Số hiệu bảng Tên bảng Trang 3.1 Dữ liệu người dùng trong cơ sở dữ liệu 45 3.2 Các tweet thu thập được trong cơ sở dữ liệu 46 3.3 Phân chia tập huấn luyện và tâp kiểm thử 46 3.4 Thống kê tập dữ liệu huấn luyện 47 3.5 Gán nhãn cho tập kiểm thử 48 3.6 File lưu dữ liệu huấn luyện 48 3.7 File lưu dữ liệu kiểm thử 49 3.8 Đánh giá thuật toán sau 5 lần kiểm thử 49 3.9 Biểu đồ so sánh kết quả sau 5 lần thử nghiệm 50 DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Các cụm từ, ký hiệu Ý nghĩa NB Naive Bayet NBL Naive Bayet Classifier CDC Trung tâm kiểm soát dịch bệnh K-NN K – Nearest Neighbor SVM Support Vector Machine IDF Inverse Document Frequency TF Term Frequency 4 DANH MỤC HÌNH VẼ Số hiệu hình vẽ 1.1 1.2.1 Tên hình vẽ Các Tweets được chia sẻ bởi một người dùng Quan hệ người dùng và hiển thị tweet theo mối Trang 5 6 quan hệ đó 1.2.2 Tweet có chứa hashtag trong nội dung 8 1.2.3 Người dùng Twitter có thể mention một người 9 1.2.4 Nếu ký hiệu mention được sử dụng ở đầu tweet, ý 9 nghĩa sẽ là một hành động reply 1.3 Mối quan hệ người dùng trong mạng Twitter 12 1.5.1 Biểu đồ ứng dụng Google Flu Trends 17 1.5.2 Biểu đồ dịch bệnh theo website CDC 19 2.1.1 Các bước tiền xử lý dữ liệu 23 2.2.1 Biểu diễn văn bản dưới dạng vector 25 2.2.2 Văn bản biểu diễn 3 đặc C-D-E 26 2.3.1 Mô hình giai đoạn huấn luyện 31 2.3.2 Mô hình giai đoạn phân lớp 32 2.3.3 Mô hình Thuật toán cây quyết định 36 2.3.4 Mô hình Thuật toán K – Nearest Neighbor 37 2.3.5 Phương pháp SVM 38 3.1 Định dạng lưu dữ liệu sau khi tiền xử lý 47 3.2 Ứng dụng phân tích và xác định dịch bệnh trên 51 Twitter 3.3 Phân tích dữ liệu và hiển thị Heatmap 51 3.4 Kết quả phân tích dữ liệu trên Twitter 52 5 LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu là tìm hiểu của riêng tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. HỌC VIÊN Tạ Quang Long 6 MỞ ĐẦU Ngày nay, mạng xã hội ngày càng phát triển để kết nối các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau không phân biệt không gian và thời gian. Có thể nói, đây là mô hình mới nhất trong quá trình phát triển giao tiếp trên mạng, đơn giản hoá các phương thức tương tác và kết nối giữa con người với nhau. Mạng xã hội xuất hiện lần đầu tiên năm 1995 với sự ra đời của trang Classmate với mục đích kết nối bạn học, tiếp theo là sự xuất hiện của SixDegrees vào năm 1997 với mục đích giao lưu kết bạn dựa theo sở thích. Hiện nay thế giới có hàng trăm mạng xã hội khác nhau, trong đó một trong mạng xã hội phát triển nhanh nhất và thành công nhất mặc dù có mặt khá muộn, đó là Twitter. Hai mạng xã hội phát triển nhanh nhất hiện nay có mặt khá muộn. Năm 2004, Facebook ra mắt. Ban đầu đây là địa chỉ dành cho sinh viên đại học kết nối và chia sẻ. Ngay sau khi ra đời tại trụ sở trường đại học danh tiếng Harvard, Facebook đã có tới 19.500 sinh viên đăng kí trong tháng đầu tiên. Tuy không phải là mạng xã hội nổi tiếng nhất thời điểm đó như Facebook, MySpace, 2 năm sau Twitter cũng kịp thời ra đời, ghi dấu mốc quan trọng trong quá trình phát triển của mạng xã hội. Tại thời điểm năm 2008, mỗi giây người dùng Twitter đăng lên 3.283 thông điệp. Thông qua mạng xã hội này mà các tin nhắn nhắn hoặc các mẩu tin được chia sẻ giữa một số lượng lớn người dùng bằng một cơ chế tin nhắn rất đơn giản. Với số lượng người sử dụng lên đến trên 500 triệu người, nó cho phép người dùng chia sẻ các thông tin thông qua việc đăng các tin nhắn trong phạm vi giới hạn 140 ký tự, được gọi là các tweet hoặc các status. Lượng tweet được người dùng đăng lên hàng ngày rất lớn, lên đến 340 triệu tweets mỗi ngày, kèm với đó là một lượng thông tin khổng lồ được chia sẻ và cập nhật mới nhất. Mỗi người dùng có thể lựa chọn theo dõi một cá nhân hoặc tổ chức nào đó, mà người đó quan tâm, 7 và ngược lại cũng có thể được theo dõi bởi các người dùng khác, Twitter sẽ hiển thị những tweet mới nhất được đăng tải bởi các cá nhân hoặc tổ chức mà người dùng đang theo dõi, theo thứ tự thời gian đăng tweet đó. Nghiên cứu cho thấy các tweet đăng trên Twitter có chứa nhiều loại thông tin, trong đó có cả các thông tin về tình hình sức khỏe của người đăng tải. Ví dụ như: Tôi bị đau đầu, ho và sốt cả tuần nay... Các thông tin này có thể có dạng trực tiếp, chẳng hạn báo rõ số lượng bệnh nào đó đang tăng, hoặc có thể là gián tiếp, chẳng hạn khi người dùng than phiền về tình trạng sức khoẻ của mình. Bài toán đặt ra là chúng ta phải lọc được các tweet có nội dung liên quan đến dịch bệnh cụ thể là bệnh cúm được đưa vào phân tích trong luận văn của em dựa vào kỹ thuật phân lớp văn bản. Việc phát hiện và phân tích những tweet như vậy cho phép phát hiện sớm tình trạng bùng phát dịch bệnh trong cộng đồng dân cư và có thể đóng vai trò một kênh thông tin quan trọng hỗ trợ y tế cộng đồng. Một vấn đề đặt ra là khi số lượng tweet tăng lên một cách chóng mặt, do người dùng theo dõi quá nhiều cá nhân hoặc tổ chức khác thì vấn đề lớn mà họ gặp phải chính là sự quá tải thông tin. Rất nhiều thông tin hữu ích có thể sẽ bị mất đi do các tweet khác mới hơn được cập nhật và làm đẩy lùi các tweet trước đó, trong khi những tweet đó không phải là những thông tin thực sự cần thiết mà người dùng quan tâm. Đồng thời, một bài toán khác cũng được quan tâm là rất nhiều người dùng muốn biết đang có dịch bệnh (cúm, cúm A(h7n9), h5n1, sars, ebola, dịch tả…) ở vùng nào đó gần, nơi mà họ sinh sống, làm việc, du lịch… để tránh đến và có biện pháp phòng tránh kịp thời cho họ và những người xung quanh họ. Có thể lấy ví dụ như sau: Tweet#1: Today I do not go to work, because I feel headache, cough and runny or stuffy nose. I think I have the flu. Tweet#2: Our company is selling tea to improve health, relieve cough symptoms, and fight the flu. Như đã nhìn thấy ở trên, cả 2 Tweet đều có nội dung nói đến cúm(flu), và 8 các triệu chứng. Dựa vào kỹ thuật phân lớp văn bản xác định được Tweet#1 là Tweet có nội dung nói đến người đang bị bệnh cúm và Tweet#1 là Tweet thực sự bị cúm. Do vậy, trên Twitter có rất nhiều thông tin về bệnh cúm nhưng rất khó phân biệt đâu là trường hợp mắc bệnh cúm thực sự. Từ đó việc thu thập các Tweet mà mọi người đề cập đến những từ liên quan đến cúm trong mẩu tin của họ, hệ thống xử lý thông tin này giúp sàng lọc những thông tin về bệnh cúm thực sự và loại bỏ các thông tin khác để tìm ra có nhiều người thực sự bị cúm, dựa vào số lượng người bị và vị trí địa lý lấy được từ đó thì đưa cảnh báo đang có dịch bệnh ở một vùng nào đó. Chính vì vậy, việc giám sát dịch bệnh, cụ thể là dịch cúm nhằm cung cấp cho người dùng những tweet hữu dụng là một vấn đề vô cùng quan trọng. Một trong những kỹ thuật được sử dụng phổ biến hiện nay và mang lại hiệu quả cao là kỹ thuật phân lớp văn bản, đề tài luận văn này của em sẽ tập trung vào tìm hiểu kỹ thuật phân lớp văn bản này, dựa trên tính cá nhân hóa của người dùng Twitter nhằm đưa ra một kết quả phân tích tốt nhất về dịch cúm. Giải pháp được thử nghiệm trên bộ dữ liệu thực được thu thập từ Twitter. Nội dung của luận văn được bố cục thành 3 chương như sau:  Chương 1 – MẠNG XÃ HỘI TWITTER VÀ CÁC ĐẶC TRƯNG Giới thiệu chương: Giới thiệu về mạng xã hội Twitter, các khái niệm và đặc trưng trong mạng xã hội này, bao gồm các mối quan hệ trong mạng, những tác nhân ảnh hưởng trực tiếp đến cá nhân người dùng, cách thức đăng tải thông tin thông qua Twitter. Giới thiệu những cách thức tư vấn hiện nay được áp dụng cho Twitter và những hạn chế của các phương pháp này  Chương 2 – KỸ THUẬT PHÂN LOẠI VĂN BẢN VÀ ÁP DỤNG XÁC ĐỊNH DỊCH BỆNH TRÊN TWITTER Giới thiệu chương: Trình bày tổng quan về kỹ thuật phân lớp văn bản và áp 9 dụng kỹ thuật Naive Bayes để xác định dịch bệnh trong phân tích dữ liệu trên Twitter. Dựa vào những đặc trưng của mạng xã hội Twitter, đưa ra đề xuất phương pháp áp dụng kỹ thuật phân lớp văn bản.  Chương 3 – THỬ NGHIỆM VÀ ĐÁNH GIÁ Giới thiệu chương: Sử dụng các thư viện có sẵn do Twitter cung cấp, thực hiện xây dựng bộ dữ liệu từ dữ liệu thực tế hiện có của Twitter cho một số lượng người dùng, sử dụng kỹ thuật phân lớp văn bản Naive Bayet đã đề xuất ở chương 2 để phân tích và xác định dịch cúm. Đánh giá kết quả so với các phương pháp tư vấn khác, và so với cách làm việc hiện tại của Twitter để cung cấp các tweet cho người dùng. 10 CHƯƠNG 1 MẠNG XÃ HỘI TWITTERVÀ CÁC ĐẶC TRƯNG Twitter đã phát triển rất nhanh để trở thành mạng xã hội phổ biến trong những năm gần đây v à cung cấp một số lượng lớn người dùng sử dụng để đăng các bản tin, hoặc có thể được gọi là các tweet. Các tweet đó được Twitter hiển thị cho người dùng theo thứ tự về thời gian v à được gọi là Timeline, người dùng sẽ dựa vào timeline để theo dõi những thông tin mà họ có thể sẽ quan tâm. Tuy nhiên, vấn đề quá tải thông tin đã gây khó khăn cho người sử dụng, đặc biệt khi người dùng đó theo dõi nhiều người dùng khác v à có hàng ngàn tweet đến với họ mỗi ngày. Luận văn này sẽ tập trung vào việc đưa ra những tweet hữu ích mà người dùng thực sự quan tâm thông qua các phương pháp tư vấn, giúp người dùng giảm công sức bỏ ra để tìm kiếm những thông tin đó. Hình 1.1 Các Tweets được chia sẻ bởi một người dùng. 11 1.1 Giới thiệu mạng xã hội Twitter Twitter là dịch vụ mạng xã hội miễn phí cho phép người dùng sử dụng đọc, nhắn và cập nhật các mẩu tin nhỏ gọi là tweet, đây là một dạng tiểu blog. Những mẩu tweet được giới hạn tối đa 140 ký tự và được lan truyền nhanh chóng trong phạm vi nhóm bạn của người nhắn hoặc có thể được trưng rộng rãi cho mọi người. Thành lập từ năm 2006, Twitter đã trở thành một hiện tượng phổ biến toàn cầu, những tweet có thể chỉ là dòng tin cá nhân cho đến những cập nhật mang tính thời sự tại chỗ kịp thời và nhanh chóng hơn cả truyền thông chính thông. Theo thống kê 2013, Twitter có khoảng hơn 500 triệu người dùng đã được kích hoạt và trung bình mỗi ngày tweet trung bình hàng ngày được đăng mới là 58 triệu tweet [1], các con số này vẫn không ngừng tăng lên, mỗi ngày có thể thêm khoảng 135,000 người dùng mới đăng ký sử dụng dịch vụ. Giới hạn về độ dài tin nhắn là 140 ký tự có tính tương thích với một bản tin, mang đến cho cộng đồng mạng một hình thức tốc ký đáng chú ý, đã được sử dụng rộng rãi thông qua việc sử dụng các bản tin SMS từ điện thoại của họ. Ngày nay, với sự phát triển của các điện thoại thông minh (smartphones), việc cho phép các ứng dụng chạy trên điện thoại và kết nối internet đã trở nên dễ dàng, việc cập nhật thông tin thông qua mạng xã hội như Twitter càng trở lên đơn giản hơn. Thêm vào đó, Twitter cũng cấp một giao diện lập trình ứng dụng (API) cho phép nhiều ứng dụng có thể truy cập các dịch vụ mà Twitter cho phép đ lấy và cập nhật thông tin, giúp lập trình viên dễ dàng kết nối từ một ứng dụng bất kỳ đến Twitter. Những điều đó góp phần làm tăng tính phổ biến của mạng xã hội Twitter và thông tin mà mạng xã hội này mang lại ngày càng đa dạng và hữu ích với người sử dụng. 1.2 Các đặc trưng thông tin của Twitter Người dùng Twitter cập nhật các bản tin ngắn bị giới hạn trong 140 ký tự được gọi là các tweet, và thuật ngữ để chỉ việc đăng các bản tin đó gọi là 12 tweeting. Người dùng Twitter có mối quan hệ trực tiếp với nhau, nếu người dùng theo dõi người dùng B nhưng B không theo dõi A, A sẽ thấy tất cả các tweet của B nhưng ngược lại, B không thấy tweet của A. Mô tả cho mối quan hệ người dùng này được thể hiện trong hình 1.1 A CA B CB Hình 1.2.1 Quan hệ người dùng và hiển thị tweet theo mối quan hệ đó Thuật ngữ mà Twitter đề xuất cho những mối quan hệ giữa người dùng Twitter với nhau gồm có follower và followee, follower là những người đang theo dõi một người dùng nào đó, và followee là chỉ những người đang được người dùng theo dõi. Ví dụ trong hình 1.1, A đang theo dõi B, vì thế A sẽ là follower của B, và B là followee của A. Mỗi người dùng sẽ có một danh sách hiển thị những tweet mới được cập nhật, danh sách đó được gọi là Twitter stream theo thứ tự thời gian. Các tweet hiển thị trong danh sách này chính là những tweet được đăng bởi các followee. Trong ví dụ ở hình 1.1, nếu A đang follow B, tất cả các tweet của B sẽ được hiển thị trong danh sách các tweet của A, nhưng nếu B không follow A thì những tweet của A sẽ không hiển thị trong danh sách tweet của B, B phải lựa chọn ‘follow’ A để có thể thấy các tweet này trong danh sách tweet của mình hoặc truy cập vào trang cá nhân của A để thấy được tất cả các tweet mà A đã đăng. Người dùng Twitter ngoài việc có thể chia sẻ các tweet dưới dạng một bản tin văn bản ngắn, Twitter còn chọ phép họ cung cấp thêm nhiều thông tin hữu ích trong bản tin đó, một trong những đặc trưng mà Twitter cung cấp giúp người dùng b sung thêm những thông tin hữu ích trong tweet của mình là hashtag, mention và retweet. - Hashtag: là một từ hoặc một chuỗi các ký tự liên tiếp nhau được đặt sau dấu # Đây là một dạng dữ liệu mô tả (metadata) dùng để nhóm nhiều 13 thông tin tương tự lại với nhau. Ví dụ với một tweet có chứa hashtag ‘#hanoi’ sẽ có ý nghĩa tweet đó mang thông tin về ‘hanoi’ Hình 1.2.2 Tweet có chứa hashtag trong nội dung Việc sử dụng hashtag như vậy nhằm gom cụm những tweet thảo luận về một chủ đề nào đó và thuận tiện hơn trong quá trình tìm kiếm. - Mention và reply (đề cập và trả lời) Đây là hai đặc trưng quan trọng mà Twitter cung cấp cho người dùng, đề cập và trả lời một người dùng nào đó trong nội dung của một tweet. Giống như hashtag, các đặc trưng này cũng là một quy ước trong thế giới mạng trước khi trở thành một đặc trưng của Twitter[2]. Mention là cách mà một tweet tạo ra sự chú ý đối với một người dùng Twitter nào đó trong các kết nối của họ, thực hiện đơn giản bằng cách sử dụng ký hiệu ‘@’ trước tên của người dùng nào đó trong tweet của mình. Ví dụ, Alice muốn mention Bob trong tweet của mình, Alice sẽ viết ‘@bob’ Bên cạnh chức năng mention, Twitter còn cung cấp chức năng tương tự là reply, việc sử dụng tương tự mention bằng cách dùng ký hiệu ‘@’ trước tên người dùng, nhưng ‘@username’ sẽ được đặt ở đầu tiên của tweet, ví dụ ‘@bob Do we have a match today?’ trong tweet của Alice. Mention và reply sẽ được Twitter hiển thị khác nhau trong danh sách tweet của những người đang theo dõi Alice và Bob. Hình 1.2.3 Người dùng Twitter có thể mention một người dùng khác trong tweet của mình 14 Hình 1.2.4 Nếu ký hiệu mention được sử dụng ở đầu tweet, ý nghĩa sẽ là một hành động reply - Retweet: Mộ tổ chức năng không thể thiếu giúp cho mạng xã hội Twitter phát triển mạnh mẽ, đó là chức năng retweet, người dùng Twitter có thể đăng lại các bản tin đã được đăng bởi người khác, và tweet đó sẽ được hiển thị trong danh sách các tweet của người đang theo dõi họ. Mỗi retweet sẽ có kèm thêm thông tin về người đã đăng tweet đó gười dùng bất kỳ khi truy cập danh sách các tweet của một người nào đó cũng có thể biết một tweet đã được retweet bao nhiêu lần và bởi những ai. - Favorite: bên cạnh việc retweet những tweet mà người dùng cảm thấy hứng thú và quan tâm, những tweet này sẽ được hiển thị trong danh sách các tweet của người dùng đó, v à cũng hiển thị đối với những người dùng đang follow, chức năng fa orite cũng th hiện sự quan tâm của người dùng đối với một thông tin nào đó thông qua iệc lựa chọn một tweet là favorite hay không. Đây cũng là một cách đ giúp người dùng đánh dấu à lưu lại một bản tin, hình ảnh hay liên kết mà người dùng đó quan tâm được đề cập trong tweet. Khác với retweet, hành động favorite không được chia sẻ công khai với những người dùng Twitter khác, kể cả những người đang theo dõi. Tất cả các đặc trưng mà Twitter cung cấp đều góp phần thể hiện một phần quan điểm, sở thích cá nhân của người dùng, những hành động của người dùng cũng sẽ được lưu trữ trong hồ sơ người dùng và có thể trích xuất thông qua giao diện lập trình ứng dụng (API) mà Twitter cung cấp. 15 1.3 Mối quan hệ người dùng trong mạng Twitter Mạng xã hội trực tuyến là một trong những cách truyền thông quan trọng nhất mà chúng ta sử dụng trong cuộc sống hàng ngày. Nó giúp chúng ta duy trì các mối quan hệ xã hội với gia đình và bạn bè, cũng như để mở rộng phạm vi chuyên môn và tiếp thu kiến thức cũng như ý tưởng mới từ mạng. Mạng xã hội phổ biến là do khả năng thu hút mọi người vào để tạo thành các nguồn sản xuất thông tin tích cực, cho phép họ tạo, truy cập và chia sẻ nội dung ở bất cứ đâu và bất cứ lúc nào. Chính vì thế, sự phổ biến của mạng xã hội trực tuyến đã tạo ra một lượng lớn các bản ghi thông tin liên lạc và kết nối truyền thông mà có thể dễ dàng truy cập và phân tích để nghiên cứu hành vi xã hội của con người. Những đặc điểm duy nhất của mạng xã hội là tạo ra các hiệu ứng mạnh mẽ đối với xã hội, nhưng mức độ mà nó đang ảnh hưởng tới hành vi xã hội của con người vẫn còn chưa biết. Tuy nhiên, không có nghi ngờ rằng vai trò của nó sẽ là quan trọng hàng đầu trong tương lai Twitter là một dịch vụ mạng xã hội trực tuyến được thành lập ào năm 2006, và tới nay trở thành một trong những mạng xã hội phổ biến nhất, với hơn 500 triệu người đăng ký như của năm 2012. Tính năng chính của Twitter là cho phép người dùng gửi tin nhắn văn bản ngắn gọi là tweet. Người dùng có thể theo dõi người sử dụng khác để tự động nhận được tất cả các tweets của họ và có thể thấy chúng đang được hiện thị trên trang chủ của họ. Những người sử dụng mà một người nào đó theo dõi họ thì là bạn bè của họ, trong khi những người dùng mà đang theo dõi người đó thì sẽ được gọi là những người đi theo – followers. Hành động tham chiếu tới một người dùng nào đó trong một tweet của mình thì được gọi là đề cập đến – mentions. Mentions là các thông điệp trực tiếp gửi đến một hoặc nhiều người thông qua cơ chế đề cập và là một hình thức đặc biệt của truyền thông trực tiếp giữa những người sử dụng Twitter cho phép người dùng trả lời – reply trực tiếp cho bất kỳ tweet nào tự động thêm một mention để phản hồi lại. Trả lời thường liên quan đến hai hướng trong giao tiếp, vì người dùng thường trả lời để phản hồi lại các thông tin mà họ được đề cập. Twitter cho phép việc trao đổi tin nhắn riêng như một 16 cơ chế bổ sung cho thông tin liên lạc trực tiếp. Mặc dù vậy, nội dung của những tin nhắn này là cá nhân và không thể được truy cập mà không có sự cho phép. Hơn nữa, tin nhắn riêng chỉ chiếm một phần nhỏ của tất cả các tin nhắn trao đổi trên Twitter và do đó nếu chỉ sử dụng chúng để xác định thông tin liên lạc trực tiếp giữa những người sử dụng có thể dẫn đến một hình ảnh không đầy đủ. Bên cạnh truyền thông trực tiếp, tất cả các tweet sẽ được tự động quảng bá đến tất cả các người sử dụng đang theo dõi. Các Tweet có thể được retweeted hay nói cách khác, các tweets có thể được chuyển tiếp bởi người sử dụng cho tất cả các followers của họ. Retweeting là một cơ chế truyền thông thực sự hiệu quả, nó giúp truyền bá thông tin trên mạng nhanh chóng hơn. Các thẻ đặc biệt được sử dụng để gán một hoặc nhiều chủ đề của một tweet được gọi là hashtags, các thẻ này được đặc trưng bởi sự hiện diện của ký tự "#" trước tên của chủ đề, như là một phần của văn bản của các tweet. Hashtags được sử dụng bởi Twitter để phân loại các tweet và nhóm chúng thành các loại, có thể xem bởi người sử dụng. Thông qua cơ chế truyền thông của Twitter, chúng ta có thể thấy hai khái niệm được sử dụng để thể hiện mối quan hệ hai chiều giữa những người dùng, đó là, “followers và followings” Trong đó, “Followers” là khái niệm chỉ những người dùng đồng ý nhận các Tweets của một người dùng nhất định thông qua Twitter. Và nếu người dùng này thêm một ai đó vào danh sách theo dõi các tweet của họ thì có nghĩa là người dùng đang “following” họ.Số lượng “followers” là quan trọng với một người dùng Twitter bởi sự nổi tiếng và uy tín được đo bằng số lượng “followers” mà một người dùng có. 17 Hình 1.3 1.4 Tại sao lại sử dụng mạng xã hội Twitter, mà không dùng các mạng xã hội khác Twitter có số lượng người dùng và chia sẻ thông tin gần như nhiều - nhất so với các mạng xã hội khác như : Facebook, Youtube, Linkedin, Instagram… Hầu hết các mạng xã hội khác như Youtube, Linkedin, Instagram… - đều nhắm tới một đối tượng cụ thể như: - Facebook: chia sẻ thông tin hình ảnh, video, clip…và lưu trữ dưới dạng blog cá nhân hóa cho người sử dụng. - Youtube: là những đoạn video, clip được mọi người chia sẽ và theo dõi. - Linkedin: đã xây dựng thành công một nơi để những người làm kinh doanh, giới văn phòng có thể kết nối với nhau và xây dựng mạng lưới gắn kết, hợp tác và hỗ trợ cho hoạt động kinh doanh của mình. - Instagram: khi tập trung hơn về hình ảnh và bản quyền ảnh, tức là bạn không thể tải ảnh về máy trên Instagram. Người dùng yêu Instagram là vì chức năng chỉnh sửa ảnh quá điêu luyện của nó. Đó là sự kết hợp thông minh và thuận tiện giữa mạng xã hội với ứng dụng chỉnh ảnh. - Nhiều năm nay đối thủ cạnh tranh với Twitter thì chỉ có thể là Facebook. Với lượng thông tin truy cập và chia sẻ rất nhiều nhưng Facebook thì hướng tới đối tượng người dùng chủ yếu được các cá nhân sử dụng để họ 18 kết nối với những người đang offline, hơn nữa để lưu lại một bộ hồ sơ cá nhân và đăng tải những thông điệp trên tường của họ. Người sử dụng có thể đăng tải cả một album ảnh và videos, chia sẻ các liên kết hay, viết một đoạn note dài, gửi tin nhắn cá nhân một đoạn văn bản hay thậm chí là video tới bạn bè của mình. Sức mạnh của Twitter chính là sự kết nối. Khả năng kết nối rộng rãi - tới mọi người chính là sức mạnh để Twitter nổi tiếng như hôm nay. Twitter cung cấp khả năng kết nối cực kỳ nhanh và mạnh. Bao gồm các kết nối sau: - Viết blog từ điện thoại di động bằng cách gửi mail, gửi tin nhắn SMS tới Twitter. Thông tin sẽ lập tức được đưa vào blog của bạn. - Kết nối mọi người bằng các công cụ theo dõi. Với công cụ này, những người được kết nối với bạn sẽ nhận được tin nhắn của bạn như một phần trong nội dung blog của họ, ngược lại, bạn sẽ theo dõi tất cả những người được bạn kết nối như một phần trong blog của bạn. Và như thế, mọi người có thể dõi theo nhau ở bất cứ đâu, bất cứ thời điểm nào. - Twitter được hỗ trợ bởi thư viện các ứng dụng "ăn theo" phong phú giúp kết nối tới Twitter từ bất cứ đâu. Bạn có thể chèn Twitter lên blog & website của mình nhờ các ứng dụng bổ sung, theo dõi Twitter ngay trên trình duyệt khi đang lướt web, xem mail. Tóm lại, việc lựa chọn mạng xã hội Twitter để phân tích dịch bệnh trong luận văn của em, mà không phải sử dụng các mạng xã hội khác lý do chủ yếu twitter bao gồm các thông điệp ngắn về bất cứ thông tin nào mà người dùng cũng có thể chia sẻ: tin tức, chuyện phiếm, xã hội….Mọi người có thể sử dụng nó như là một hình thức giao tiếp thông qua Twitter. Vì vậy, Twitter là một nguồn tốt để tìm kiếm, và phân tích thông tin. 1.5 Các ứng dụng phân tích dịch bệnh từ nguồn dữ liệu khác Với tiến bộ trong công nghệ và nhận thức cao về rủi ro. Hiện này có rất nhiều công cụ hỗ trợ mọi người theo dõi dịch bệnh trên mạng internet. Để kiểm soát sức
- Xem thêm -

Tài liệu liên quan