Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Sư phạm Biểu diễn kết quả theo dõi các chủ đề trên tạp chí điện tử với thuật toán rút tr...

Tài liệu Biểu diễn kết quả theo dõi các chủ đề trên tạp chí điện tử với thuật toán rút trích từ khóa và cơ sở dữ liệu đồ thị

.PDF
13
1
123

Mô tả:

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TOÁN RÚT TRÍCH TỪ KHÓA VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ Mã số: Tên báo cáo chuyên đề: KHẢO SÁT, PHÂN TÍCH HIỆN TRẠNG CÁC CÔNG TRÌNH ĐÃ NGHIÊN CỨU Chủ nhiệm đề tài: ThS. Võ Thị Hồng Thắm Người chủ trì thực hiện chuyên đề: ThS. Võ Thị Hồng Thắm Bình Dương, 06/2019 Phần này trình bày tóm tắt các định nghĩa và mô hình liên quan được áp dụng cho hệ thống bao gồm năm nội dung: Luồng văn bản, Bộ thu thập thông tin từ web, Khai thác văn bản, Rút trích từ khóa và Cơ sở dữ liệu đồ thị. Vấn đề về tiền xử lý có liên quan đến công việc tách từ và loại bỏ từ dừng cũng được đề cập ở đây. 1 Luồng văn bản Một luồng đại diện cho một chuỗi các đối tượng (thường là các byte), chuyển tải liên tục từ vị trí này đến vị trí khác. “Luồng dữ liệu là chuỗi thời gian thực, liên tục, được sắp xếp theo thứ tự (theo thời gian đến hoặc nhãn thời gian). Không thể kiểm soát thứ tự dữ liệu đến, cũng như không thể lưu trữ cục bộ toàn bộ luồng” [1]. Vấn đề về tốc độ đến và kích thước dữ liệu cũng chính là các thách thức lớn trong khai thác luồng dữ liệu. Luồng văn bản là chuỗi các văn bản được sắp xếp theo thứ tự đến nhanh chóng và liên tục theo thời gian trong hai dạng chính: Tin tức và truyền thông xã hội. Thông thường, xử lý luồng văn bản bao gồm ba bước chính: thu thập dữ liệu, tiền xử lý dữ liệu và xử lý dữ liệu.Trong chuyên đề này, các bài báo đến liên tục theo thứ tự nhãn thời gian được xem như một luồng văn bản mà mỗi văn bản có dạng một tin tức. 2 Bộ thu thập dữ liệu Thu thập thông tin là thu thập các trang web dựa trên các siêu liên kết bắt đầu từ một nhóm nhỏ các trang web và tiếp tục xử lý sâu hơn. Hoạt động thu thập thông tin được coi là khai thác web. Khai thác web được mô tả là "trích xuất kiến thức từ web" [2, 3]. Có thể thấy rằng khai thác web là một sự mở rộng trong khai phá dữ liệu. Các bộ thu thập dữ liệu từ web là các chương trình tự động tìm kiếm trên WWW, "thu thập" toàn bộ nội dung web mà chúng duyệt qua. Chúng cũng được đặt tên là Bots, Robots, Spiders, Wanderers, Worm, User agent. Có một số điều kiện cần thiết đối với các bộ thu thập thông tin như: Độ mạnh, Độ sâu (Politeness), Phân phối, Độ linh hoạt, Hiệu quả, Chất lượng, Độ tươi và Khả năng mở rộng. Bên cạnh đó, cũng có nhiều loại trình thu thập dữ liệu web như bộ thu thập thông tin đầu tiên [2], Bộ thu thập thông tin web Incremental [4], Bộ thu thập dữ liệu web tập trung [5], Bộ thu thập dữ liệu web ẩn [6], Bộ thu thập thông tin web song song [7] và Bộ thu thập dữ liệu web phân tán [8]. Chuyên đề này xây dựng một bộ thu thập thông tin để thu thập nội dung web. Bộ thu thập thông tin này dùng để chuẩn bị dữ liệu nguồn cho hệ thống nhờ vào việc tự động thu thập các bài viết hàng ngày từ các tạp chí trực tuyến. 1 3 Khai phá luồng văn bản Có nhiều nghiên cứu liên quan đến khai thác luồng văn bản như: Xử lý ngôn ngữ tự nhiên (NLP) [9], Thu thập thông tin (IR) [10], Phát hiện chủ đề, Định nghĩa từ ngữ, Khai thác thông tin, Phân tích mạng xã hội [11], Tóm tắt [12], Phân tích cảm xúc, Mô hình không gian Vector, Phân loại, Phân cụm, vv…Chuyên đề này áp dụng kỹ thuật trích xuất thông tin để khai thác luồng văn bản. Trong nhiều ứng dụng khai phá văn bản, đặc biệt là thu thập thông tin (IR), các tài liệu cần phải được sắp xếp theo thứ tự ưu tiên để việc thu thập đối với tập hợp dữ liệu lớn được hiệu quả. Để có thể xác định độ quan trọng của một từ trong tài liệu, các tài liệu được thể hiện dưới dạng vectơ và một chỉ số về độ quan trọng được tính toán và chỉ định cho từng từ. Ba mô hình được áp dụng nhiều nhất dựa trên ý tưởng này là mô hình không gian vectơ (VSM), mô hình xác suất và mô hình mạng suy diễn. Thiết nghĩ, mô hình không gian vectơ có thể là một lựa chọn tốt để cải thiện hệ thống này trong tương lai. Thủ tục xử lý luồng văn bản thường bao gồm các bước cơ bản như hình 1. Web Bộ thu thập dữ liệu từ web Tiền xử lý dữ liệu Nhận diện chủ đề Phân tích cảm xúc Định hướng cảm xúc từ Phân tích mạng xã hội Rút trích thông tin Tóm tắt Các kết quả xử lý luồng văn bản Hình 1. Thủ tục xử lý luồng văn bản. 3.1 Tiền xử lý Tiền xử lý là một trong những yếu tố chính trong nhiều thuật toán khai phá văn bản. Bước tiền xử lý thường bao gồm các nhiệm vụ như tokenization, filtering, lemmatization và stemming. Bước tiền xử lý trong hệ thống này sử dụng một thuật toán tên là VnTokenizer [13] với phương pháp lai cho kỹ thuật mã hóa để tách từ. 2 3.2 Tách từ và tách từ tiếng Việt Như một số ngôn ngữ khác, tiếng Việt được viết bằng một hệ thống chữ viết Latin. Thông thường, các tập chữ viết thường tách biệt các từ bằng khoảng trắng. Vì vậy, bộ tách từ chỉ cần tách riêng các từ dựa vào các khoảng trắng và loại bỏ các dấu câu, dấu ngoặc đơn và dấu ngoặc kép ở đầu và cuối mỗi từ. Tuy nhiên, không giống như các ngôn ngữ khác, với tiếng Việt, từ được tạo thành từ 1 hay nhiều tiếng. Các tiếng được phân cách bởi khoảng trắng, cho nên các khoảng trắng không chỉ được sử dụng để phân tách các từ, mà chúng còn được sử dụng để tách các tiếng tạo thành từ. Nói chung, tiếng Việt tạo nên những từ có ý nghĩa khác nhau bằng cách kết hợp các tiếng, trong khi mỗi tiếng thường có một ý nghĩa riêng. Điều đó làm cho việc tách từ trở nên khó khăn và phức tạp hơn rất nhiều bằng nhiều phương pháp khác nhau. Những phương pháp này có thể được phân loại như là phương pháp dựa trên từ điển hoặc thống kê, phương pháp lai [6] được sử dụng bởi VnTokenizer [13], một kỹ thuật tách từ chính xác cao dùng cho tiếng Việt cũng là kỹ thuật được áp dụng để xử lý tách từ trong chuyên đề này. 3.3 Loại bỏ stop word Trong tính toán, từ dừng (stop words) là những từ bị loại bỏ trước hoặc sau khi xử lý dữ liệu ngôn ngữ tự nhiên (văn bản) [14]. "Từ dừng" thường là những từ phổ biến nhất trong một ngôn ngữ. Tuy nhiên, không có danh sách chung duy nhất chứa các từ dừng được sử dụng chung cho tất cả các công cụ xử lý ngôn ngữ tự nhiên, cũng như không phải tất cả các công cụ đều sử dụng cùng một danh sách. Một số công cụ thậm chí tránh loại bỏ các từ này khi cần hỗ trợ tìm kiếm cụm từ. Bất kỳ nhóm từ nào cũng có thể được chọn làm từ dừng tùy theo mục đích sử dụng. Đối với một số công cụ tìm kiếm, đây là một số từ ngắn phổ biến chẳng hạn như thì, là, ở, cái, v.v. Trong trường hợp này, việc xóa từ có thể gây ra sai sót khi tìm kiếm cụm từ có chứa các từ này, đặc biệt là trong các tên riêng. Các công cụ tìm kiếm khác có thể xóa một số từ phổ biến nhất, bao gồm các từ vựng, chẳng hạn như "muốn" từ câu truy vấn để cải thiện hiệu suất. Chuyên đề này sử dụng danh sách từ dừng chứa hơn 2000 từ được tạo bằng cách chọn từ ít quan trọng nhất bằng thuật toán TF-IDF trên hơn 2 triệu bài báo trực tuyến. Hiện tại, danh sách này được tải từ trang web về Xử lý ngôn ngữ tự nhiên bằng tiếng Việt và dự kiến danh sách này sẽ được cập nhật liên tục trong tương lai dựa trên dữ liệu thu thập được hàng ngày từ hệ thống khi mà lượng dữ liệu này đã đủ lớn. 3 4 Rút trích từ khóa Rút trích từ khóa (KE) được sử dụng để tự động xác định một tập hợp các thuật ngữ mà có thể mô tả tốt nhất chủ đề tài liệu [15]. Có một số kỹ thuật khác nhau để xác định các cụm từ đại diện cho thông tin có liên quan nhất trong tài liệu được sử dụng như cụm từ khóa, phân đoạn chính, cụm từ khóa hoặc chỉ từ khóa. Tất cả các biến thể được liệt kê đều có cùng chức năng để mô tả chủ đề được thảo luận trong tài liệu [16]. Có thể nói rằng việc trích xuất một bộ được tạo nên bởi một hoặc nhiều thuật ngữ từ một tài liệu đơn lẻ là một vấn đề quan trọng trong Khai thác văn bản (TM), Thu thập thông tin (IR) và Xử lý ngôn ngữ tự nhiên (NLP). Với tính năng trích xuất từ khóa tự động, cách tiếp cận thống kê đơn giản bao gồm các phương pháp đơn giản, không yêu cầu dữ liệu được huấn luyện trước, được nhiều phương pháp hiện tại thực hiện. Những cách tiếp cận đơn giản này độc lập với ngôn ngữ và độc lập với miền. Thông thường, các thống kê về từ một tài liệu có thể được sử dụng để xác định các từ khóa như thống kê n-gram, tần suất từ, mô hình TFIDF [17], từ xuất hiện cùng nhau [18], PAT Tree [19], vv... Các phương pháp này có thể áp dụng một cách thích hợp trong các bối cảnh mà từ khóa quan trọng được trình bày thường xuyên trong văn bản. Chuyên đề này chọn mô hình TF-IDF cho việc phát triển hệ thống. Tuy nhiên, hệ thống hoàn toàn có thể dễ dàng nâng cấp trong tương lai bằng cách sử dụng nhiều cách tiếp cận khác phức tạp và hiệu quả hơn như phương pháp tiếp cận dựa trên đồ thị [16] [20]. 5 Tần số từ và tần số tài liệu nghịch đảo (TF-IDF) Tần số từ - Tần số tài liệu nghịch đảo (tf-idf) là một yếu tố số được sử dụng trong việc thu thập thông tin hoặc khai phá văn bản để tính toán tầm quan trọng của một thuật ngữ. Theo [21], khoảng 83% hệ thống khuyến nghị dựa trên văn bản sử dụng tfidf để hỗ trợ cho việc thu thập thông tin. Có một số phiên bản cập nhật. Tuy nhiên, hệ thống được xây dựng sử dụng phiên bản đơn giản nhất với mục đích tìm hiểu cách hoạt động của nó. Như tên gọi, trọng số tf-idf được tính bằng tỉ số Tần số từ chia cho Tần số tài liệu nghịch đảo. Term Frequency (tf) có nghĩa là tần số từ là một con số phản ánh sự xuất hiện của một từ trong một tài liệu. Đối với bất kỳ từ nào, khả năng xuất hiện của từ đó sẽ lớn hơn trong tài liệu có độ dài hơn khi so sánh độ dài giữa các tài liệu. Tần số tài liệu nghịch đảo (idf) là một con số đo lường tầm quan trọng của một từ. Theo công thức tf, mỗi từ có cùng khả năng được xuất hiện trong một tài liệu. Tuy 4 nhiên, trong ngôn ngữ tự nhiên, có những từ phổ biến mà không thực sự có ý nghĩa. Ví dụ, triệu_đồng là một đơn vị tiền Việt Nam. Trong một bài báo nói về số liệu thống kê về học phí, nó có thể được sử dụng nhiều lần. Và trong một bài viết khác nói về chi phí sản xuất để sản xuất thủy sản, triệu_đồng cũng có thể xuất hiện rất nhiều. Nhưng rõ ràng, triệu_đồng không phải là chủ đề chính hay điều gì đó quan trọng trong một bài báo. Vì vậy, chúng ta cần phải giảm bớt sự phổ biến đối với từ này. Sau khi có hai yếu tố ở trên, chúng ta cuối cùng đã tìm ra mức độ quan trọng của từ hoặc trọng số tf-idf, bằng cách sử dụng công thức sau. Ví dụ sau đây sẽ giải thích rõ cách thức hoạt động của công thức vừa đề cập. Bảng 1 cho thấy các từ trong tài liệu 1 nói về phí đại học và tài liệu 2 nói về chi phí sản xuất cho các sản phẩm thủy sản. Số lần mỗi từ xuất hiện trong một tài liệu được tính toán. Bảng 1. Số lần xuất hiện của từ trong tài liệu. Tài liệu 1 Từ Tài liệu 2 Tần số Từ Tần số học_phí (fee) 1 triệu_đồng (million) 3 triệu_đồng (million) 2 thuỷ_sản (seafood) 2 sinh_viên (student) 2 chi_phí (cost) 2 bày_tỏ (express) 2 sản_xuất (production) 1 Bảng 2 trình bày kết quả xác định tầm quan trọng của các từ bằng cách tính toán trọng số IF-IDF của các từ sử dụng thuật toán TF-IDF. Bảng 2. Tính toán tầm quan trọng của từ. Từ học_phí (fee) Tài liệu TF IDF Trọng số TF-IDF 1 1/4 log(2/1) 0.75 5 chi_phí (cost) 2 2/4 log(2/1) 0.15 triệu_đồng (million) 1 2/4 log(2/2) 0 triệu_đồng (million) 2 3/4 log(2/2) 0 sinh_viên (student) 1 2/4 log(2/1) 0.15 bày_tỏ (express) 1 2/4 log(2/1) 0.15 sản_xuất (production) 2 1/4 log(2/1) 0.75 thuỷ_sản (seafood) 2 2/4 log(2/1) 0.15 Từ bảng 2, có thể dễ dàng nhận ra “học_phí”, “sinh_viên” và “bày_tỏ” là những từ quan trọng được trích xuất từ tài liệu 1. Tương tự, “chi_phí”, “sản_xuất”, “thuỷ_sản” là những từ quan trọng được trích xuất từ tài liệu 2. Ngược lại, “Triệu_đồng” chỉ là một từ thông dụng xuất hiện trong hai tài liệu nhưng có ít ý nghĩa hơn. Ngoài ra, học_phí và sản_xuất là những từ đáng tin cậy nhất với trọng số lớn nhất 0,75. Thuật toán TF-IDF có một số phiên bản cải tiến như TF-IDF-CF dựa trên TF-IDF với kết quả tốt hơn [22], một phương pháp TF-IDF cải tiến sử dụng đa tần số từ trong một tài liệu [23], hai cách tiếp cận mới bao gồm tf.icf và các khái niệm trọng số theo dõi dựa trên icf [24], F-measure của thuật toán TFIDF-AP đã được cải thiện thêm 12,9% so với thuật toán TF-IDF cổ điển [25], vv.... Những đặc tính TF-IDF này có thể được áp dụng cho việc nâng cấp hệ thống tương lai. Tóm lại, hệ thống được đề xuất trong chuyên đề này sử dụng TF-IDF để trích xuất từ khóa vì hiệu quả của nó được chứng minh thông qua việc có rất nhiều nghiên cứu đã áp dụng kỹ thuật này ví dụ như [17] là một trong số đó. 6 Cơ sở dữ liệu đồ thị Để đối phó với thông tin liên kết phức tạp, bán cấu trúc, cơ sở dữ liệu đồ thị là một lựa chọn tốt nhất vì nó không chỉ nhanh mà còn có thể truy vấn và phản ứng trong mili giây. Do đó, cơ sở dữ liệu đồ thị rất phù hợp ở cấp độ kinh doanh lớn như: thư tín, dịch vụ con người, bán lẻ, liên quan đến tiền, cộng đồng trực tuyến không chính thức trên mạng, phương tiện truyền thông trực tuyến, vv...Do lợi thế của cơ sở dữ liệu đồ thị, nhiều người dùng đã sử dụng loại cơ sở dữ liệu này và hiện tại có rất nhiều cơ sở dữ liệu đồ thị cho mục đích này: Dex, Infinite Graph, Infogrid, HyperGraphDB, 6 Trinity và Titan và Neo4j, cơ sở dữ liệu đồ thị được sử dụng trong hệ thống đề xuất [26]. 7 Hiển thị trực quan Có một số phương pháp bán tự động hóa trong phân tích các mô hình chủ đề thông qua hiển thị trực quan. [27] lập luận rằng các mô hình chủ đề đòi hỏi nhu cầu có các hệ thống tương tác cho người dùng cuối. Tuy nhiên, [28] cho rằng nhiều nhà khoa học xã hội “có kiến thức sâu rộng về lĩnh vực chuyên môn nhưng thiếu chuyên môn học máy để sửa đổi các thuật toán mô hình chủ đề”. [29] cho rằng các giao diện trực quan cho phép các nhà hoạch định quyết định khám phá và phân tích các kết quả mô hình. Họ xem xét việc áp dụng các mô hình chủ đề cho các nhà khoa học không phải chuyên gia máy tính có thể tự chạy các thuật toán. Theo [30], dữ liệu kết quả đầu ra thường quá lớn để các nhà nghiên cứu xử lý thủ công và khi dữ liệu đầu ra này càng lớn hơn, các nhà nghiên cứu phân tích kết quả càng khó khăn hơn. Nói chung, có hai cách tiếp cận phổ biến để hiển thị trực quan các mô hình chủ đề: hướng chủ đề và hướng thời gian [30]. Trong cách trực quan theo chủ đề, việc tập trung vào mối quan hệ giữa các từ và chủ đề hoặc tài liệu và chủ đề. Các cách tiếp cận này tập trung vào các nhiệm vụ tóm tắt tài liệu, truy xuất thông tin và các mối quan hệ giữa các tài liệu. Các ví dụ phổ biến của các cách tiếp cận này bao gồm các biểu diễn ma trận như Termite [31] và Serendip [32] cũng như các phép hiển thị tọa độ song song như trong chủ đề song song [33]. Khung thiết kế chung cho các hệ thống hiển thị tương tác hướng chủ đề dựa trên cách một nhà phân tích suy luận về các chủ đề và độ chính xác thực tế và nhận thức của suy luận của nhà phân tích được tạo ra bởi [34]. Các giao diện khác đã khái quát hóa mô hình và các giao diện tạo điều kiện tập trung vào cấu trúc phân cấp trong các chủ đề như HierarchicalTopics. Giao diện này có thể hỗ trợ tìm hiểu về nhiều cấp độ để tóm tắt tài liệu [35, 36]. Hơn nữa, một nghiên cứu mới, CTM [37], đã sử dụng đồ thị để biểu diễn mối tương quan giữa các chủ đề. Mặt khác, trực quan hóa thời gian độc lập có thể được sử dụng cho các tài liệu hướng thời gian như tin nhắn Twitter và tin bài khám phá xu hướng, sự tiến hóa, phát hiện sự kiện từ các chủ đề. Sử dụng biểu đồ stack cải tiến, TIARA được dùng để hiển thị các xu hướng chủ đề [38, 39]. Tương tự, TextFlow được phát triển để khám phá sự tiến hóa của các chủ đề bằng cách xác định cách các chủ đề hợp nhất và chia nhỏ theo thời gian [40]. Cuối cùng, một hệ thống phân tích hình ảnh gọi là LeadLine được tạo ra để xác định và khám phá các sự kiện bằng cách phát hiện các từ phổ biến nhất (chủ đề) được sử dụng trong các thời điểm bùng phát, rời rạc [41]. 7 Hơn nữa, có một cân nhắc quan trọng khác trong việc sử dụng các giao diện trực quan cho các mô hình chủ đề bao gồm kiểu dữ liệu được sử dụng trong mô hình. Giao diện TopicPanorama được phát triển để kết hợp văn bản từ nhiều nguồn dữ liệu (ví dụ: tin bài và tin nhắn Twitter) và cung cấp biểu đồ mạng để liên kết trên các nguồn này [42]. Hòa theo xu hướng này, hệ thống đề xuất ở đây cũng hỗ trợ hiển thị kết quả trực quan cho người dùng. 8 Tài liệu tham khảo 1. Golab, L. and M.T. Özsu, Data stream management issues–a survey. 2003, Technical Report, Apr. 2003. db. uwaterloo. ca/~ ddbms/publications/stream/streamsurvey. pdf. 2. Liu, B. and K. Chen-Chuan-Chang, Special issue on web content mining. Acm Sigkdd explorations newsletter, 2004. 6(2): p. 1-4. 3. Verma, J.P., B. Patel, and A. Patel, Web Mining: Opinion and Feedback Analysis for Educational Institutions. International Journal of Computer Applications, 2013. 84(6). 4. Cho, J. and H. Garcia-Molina, The evolution of the web and implications for an incremental crawler. 1999, Stanford. 5. Bhatt, D., D.A. Vyas, and S. Pandya, Focused Web Crawler. algorithms, 2015. 5: p. 18. 6. Khurana, K. and M. Chandak, Survey of Techniques for Deep Web Source Selection and Surfacing the Hidden Web Content. INTERNATIONAL JOURNAL OF ADVANCED COMPUTER SCIENCE AND APPLICATIONS, 2016. 7(5): p. 409-418. 7. Singhal, V. and V. Kaushik, Design of Parallel Crawler using Multi-Threading Model. International Journal of Engineering Science, 2017. 12892. 8. YU, J., M. LI, and D. ZHANG, A Distributed Web Crawler Model based on Cloud Computing. 2016. 9. Friedman, C., et al. GENIES: a natural-language processing system for the extraction of molecular pathways from journal articles. in ISMB (supplement of bioinformatics). 2001. 10. Saracevic, T. Modeling interaction in information retrieval (IR): a review and proposal. in Proceedings of the ASIS annual meeting. 1996. ERIC. 8 11. Hu, X. and H. Liu, Text analytics in social media. Mining text data, 2012: p. 385-414. 12. Erkan, G. and D.R. Radev, Lexrank: Graph-based lexical centrality as salience in text summarization. Journal of Artificial Intelligence Research, 2004. 22: p. 457-479. 13. Le Hong Phuong, N.T.M., A.R. Huyen, and H.T. Vinh, A hybrid approach to word segmentation of Vietnamese texts. Language and Automata Theory and Applications, 2008: p. 240. 14. Leskovec, J., A. Rajaraman, and J.D. Ullman, Mining of massive datasets. 2014: Cambridge university press. 15. Beliga, S., A. Meštrović, and S. Martinčić-Ipšić, An overview of graph-based keyword extraction methods and approaches. Journal of information and organizational sciences, 2015. 39(1): p. 1-20. 16. Nasrabadi, N.M., Pattern recognition and machine learning. Journal of electronic imaging, 2007. 16(4): p. 049901. 17. Ramos, J. Using tf-idf to determine word relevance in document queries. in Proceedings of the first instructional conference on machine learning. 2003. 18. Matsuo, Y. and M. Ishizuka, Keyword extraction from a single document using word co-occurrence statistical information. International Journal on Artificial Intelligence Tools, 2004. 13(01): p. 157-169. 19. Chien, L.-F. PAT-tree-based keyword extraction for Chinese information retrieval. in ACM SIGIR Forum. 1997. ACM. 20. Biswas, S.K., M. Bordoloi, and J. Shreya, A graph based keyword extraction model using collective node weight. Expert Systems with Applications, 2018. 97: p. 51-59. 21. Beel, J., et al., paper recommender systems: a literature survey. International Journal on Digital Libraries, 2016. 17(4): p. 305-338. 22. Liu, M. and J. Yang, An improvement of TFIDF weighting in text categorization. International Proceedings of Computer Science and Information Technology, 2012: p. 44-47. 23. Santhanakumar, M. and C.C. Columbus, A modified frequency based term weighting approach for information retrieval. Int. J. Chem. Sci, 2016. 14(1). 9 24. Wang, D. and H. Zhang, Inverse-category-frequency based supervised term weighting schemes for text categorization. Journal of Information Science and Engineering, 2013. 29(2): p. 209-225. 25. Chen, J., C. Chen, and Y. Liang, Optimized TF-IDF algorithm with the adaptive weight of position of word. Advanc. Intelligen. Syst. Res, 2016. 133: p. 114-117. 26. Rawat, D.S., et al., Graph Database: A Complete GDBMS Survey. International Journal, 2017. 3: p. 217-226. 27. Hu, Y., et al., Interactive topic modeling. Machine learning, 2014. 95(3): p. 423-469. 28. Dou, W., et al., Hierarchicaltopics: Visually exploring large text collections using topic hierarchies. IEEE Transactions on Visualization and Computer Graphics, 2013. 19(12): p. 2002-2011. 29. Dou, W. and S. Liu, Topic-and time-oriented visual text analysis. IEEE computer graphics and applications, 2016. 36(4): p. 8-13. 30. Cui, W., et al., How hierarchical topics evolve in large text corpora. IEEE transactions on visualization and computer graphics, 2014. 20(12): p. 22812290. 31. Wang, X., et al., TopicPanorama: A full picture of relevant topics. IEEE transactions on visualization and computer graphics, 2016. 22(12): p. 25082521. 32. Wei, F., et al. Tiara: a visual exploratory text analytic system. in Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining. 2010. ACM. 33. Liu, S., et al., Tiara: Interactive, topic-based visual text summarization and analysis. ACM Transactions on Intelligent Systems and Technology (TIST), 2012. 3(2): p. 25. 34. Cui, W., et al., Textflow: Towards better understanding of evolving topics in text. IEEE transactions on visualization and computer graphics, 2011. 17(12): p. 2412-2421. 35. Liu, S., et al., Exploring topical lead-lag across corpora. IEEE Transactions on Knowledge and Data Engineering, 2015. 27(1): p. 115-129. 10 36. Dou, W., et al. Leadline: Interactive visual analysis of text data through event identification and exploration. in Visual Analytics Science and Technology (VAST), 2012 IEEE Conference on. 2012. IEEE. 37. Liu, S., et al., Online visual analytics of text streams. IEEE transactions on visualization and computer graphics, 2016. 22(11): p. 2451-2466. 38. Grimmer, J., A Bayesian Hierarchical Topic Model for Political Texts: Supplemental Appendix. 2009. 39. Paul, M.J. and M. Dredze, Discovering health topics in social media using topic models. PloS one, 2014. 9(8): p. e103408. 40. Barberá, P., et al. Leaders or followers? Measuring political responsiveness in the US Congress using social media data. in Annual Meeting of the American Political Science Association. 2014. 41. Roberts, M.E., B.M. Stewart, and D. Tingley, STM: R package for structural topic models, 2014. URL http://www. structuraltopicmodel. com. R package version, 2016. 1(8). 42. Mallet, M.A., a machine learning for language toolkit. 2002. 2010. 11 9 Xác nhận thực hiện chuyên đề Bình Dương, ngày 20 tháng 06 năm 2019 Người chủ trì thực hiện chuyên đề Võ Thị Hồng Thắm 12
- Xem thêm -

Tài liệu liên quan

Tài liệu vừa đăng