Trích chọn sự kiện trong văn bản tin tức tiếng Việt

  • Số trang: 61 |
  • Loại file: PDF |
  • Lượt xem: 37 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHAN THỊ THUẬN TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHAN THỊ THUẬN TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT Ngành Chuyên ngành Mã số : Công nghệ thông tin : Hệ thống thông tin : 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN TRÍ THÀNH HÀ NỘI - 2014 LỜI CẢM ƠN Trƣớc tiên, tôi xin đƣợc gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Thầy giáo, TS. Nguyễn Trí Thành đã tận tình chỉ bảo; hƣớng dẫn; động viên và giúp đỡ tôi trong suốt quá trình thực hiện luận văn tốt nghiệp. Tôi xin gửi lời cảm ơn tới Thầy giáo, PGS. TS. Hà Quang Thuỵ ngƣời đã tận tình giúp đỡ, cổ vũ, và góp ý cho tôi trong suốt thời gian tôi nghiên cứu và làm việc tại phòng thí nghiệm Công nghệ Tri thức (Knowledge Technology Laboratory - KTLab). Tôi xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên tại phòng thí nghiệm Công nghệ Tri thức (KTLab) – Trƣờng Đại học Công nghệ đã hỗ trợ tôi rất nhiều trong quá trình thực hiện luận văn. Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những ngƣời thân yêu luôn bên cạnh: quan tâm; động viên tôi trong suốt quá trình học tập và thực hiện luận văn tốt nghiệp này. Tôi xin chân thành cảm ơn! Hà Nội, ngày 20 tháng 6 năm 2014 Học viên Phan Thị Thuận i LỜI CAM ĐOAN Tôi xin cam đoan giải pháp trích chọn sự kiện trong văn bản tin tức tiếng Việt đƣợc trình bày trong luận văn này do tôi thực hiện dƣới sự hƣớng dẫn của TS. Nguyễn Trí Thành. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan ở trong nƣớc và quốc tê. Tất cả những tham khảo từ các nghiên cứu liên quan đều đƣợc nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận văn. Hà Nội, tháng 6 năm 2014 Tác giả luận văn Phan Thị Thuận ii MỤC LỤC DANH MỤC CÁC HÌNH .............................................................................................. vi DANH MỤC CÁC BẢNG ............................................................................................. vi MỞ ĐẦU .......................................................................................................................vii Chƣơng 1. GIỚI THIỆU ĐỀ TÀI .................................................................................... 1 1.1. BÀI TOÁN TRÍCH CHỌN THÔNG TIN TRONG VĂN BẢN ................... 1 1.2. TỔNG QUAN VỀ SỰ KIỆN ......................................................................... 1 1.2.1. Định nghĩa sự kiện .................................................................................. 3 1.2.2. Trích chọn sự kiện ................................................................................... 3 1.3. TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT .... 4 1.3.1. Bài toán trích chọn sự kiện vụ tai nạn ..................................................... 4 1.3.2. Phát hiện sự kiện ..................................................................................... 6 1.3.3. Trích chọn sự kiện ................................................................................... 6 1.4. Ý NGHĨA CỦA BÀI TOÁN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN ....... 7 1.4.1. Ý nghĩa khoa học .................................................................................... 7 1.4.2. Ý nghĩa thực tiễn ..................................................................................... 7 1.5. KẾT LUẬN .................................................................................................... 8 Chƣơng 2. MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN ........................................................ 9 2.1. PHƢƠNG PHÁP TIẾP CẬN DỰA TRÊN TẬP LUẬT (RULE – BASED) 9 2.1.1. Luật cú pháp (lexico-syntactic patterns) ............................................... 10 2.1.2. Luật ngữ nghĩa (lexico-semantic patterns)............................................ 11 2.1.3. Hình dạng và biểu diễn của tập luật (Form and Representation of Rules) ......................................................................................................................... 11 iii 2.2. PHƢƠNG PHÁP TIẾP CẬN DỰA TRÊN HỌC MÁY ............................. 15 2.3 PHƢƠNG PHÁP TIẾP CẬN KẾT HỢP LUẬT VÀ HỌC MÁY ............... 17 2.5. TỔNG KẾT .................................................................................................. 18 Chƣơng 3. ĐỀ XUẤT MÔ HÌNH TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN ............... 19 3.1. CÁC ĐẶC TÍNH CỦA SỰ KIỆN VỤ TAI NẠN ....................................... 19 3.2. PHÁT BIỂU BÀI TOÁN ............................................................................. 19 3.3. MÔ HÌNH PHÁT HIỆN VÀ TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN ..... 21 3.3.1. Phƣơng pháp đề xuất ............................................................................ 21 3.3.2. Mô hình phát hiện và trích chọn sự kiện vụ tai nạn .............................. 22 3.4. GIẢI QUYẾT BÀI TOÁN PHÁT HIỆN SỰ KIỆN VÀ BÀI TOÁN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN ........................................................................ 23 3.4.1. Bài toán 1- Pháp hiện sự kiện vụ tai nạn (pha 1) ................................. 23 3.4.1.1. Phát biểu bài toán ..................................................................... 23 3.4.1.2. Xây dựng tập luật ...................................................................... 24 3.4.1.3. Xây dựng mô hình phân lớp ...................................................... 28 3.4.2. Bài toán 2- Trích chọn sự kiện vụ tai nạn (pha 2) ................................ 29 3.4.2.1. Phát biểu bài toán ..................................................................... 29 3.4.2.2. Trích chọn thời gian .................................................................. 30 3.4.2.3. Trích chọn địa điểm................................................................... 32 3.4.2.4. Trích chọn số thương vong ........................................................ 32 3.4.2.5. Trích chọn phương tiện gây tai nạn .......................................... 33 3.5. TỔNG KẾT .................................................................................................. 34 Chƣơng 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ.............................................................. 36 iv 4.1. MÔI TRƢỜNG VÀ CÁC CÔNG CỤ SỬ DỤNG THỰC NGHIỆM ......... 36 4.2. XÂY DỰNG TẬP DỮ LIỆU ....................................................................... 37 4.2.1. Thu thập dữ liệu .................................................................................... 37 4.2.2. Tiền xử lý dữ liệu .................................................................................. 37 4.3. ĐÁNH GIÁ QUÁ TRÌNH PHÁT HIỆN SỰ KIỆN .................................... 37 4.3.1. Đánh giá bộ lọc dữ liệu ......................................................................... 37 4.3.2. Đánh giá quá trình phân lớp .................................................................. 38 4.4. ĐÁNH GIÁ QUÁ TRÌNH TRÍCH CHỌN SỰ KIỆN ................................. 39 4.4.1. Thực nghiệm không qua bộ phân lớp ................................................... 39 4.4.2. Thực nghiệm qua bộ phân lớp............................................................... 41 4.4.3. Nhận xét ................................................................................................ 41 4.5 PHÂN TÍCH LỖI .......................................................................................... 41 4.5.1. Phân tích lỗi quá trình phát hiện sự kiện ............................................... 41 4.5.2. Phân tích lỗi quá trình trích chọn sự kiện ............................................. 42 4.6. MỘT SỐ KẾT QUẢ PHÂN TÍCH CÁC SỰ KIỆN .................................... 43 Biểu đồ 4.3. Thống kê số vụ tai nạn theo tỉnh .................................................... 44 4.7. TỔNG KẾT .................................................................................................. 45 TÀI LIỆU THAM KHẢO ............................................................................................. 48 v DANH MỤC CÁC HÌNH Hình 3.1: Quá trình phát hiện và trích chọn sự kiện vụ tai nạn ......................... 22 Hình 3.2 Thành phần phát hiện sự kiện .............................................................. 24 Hình 3.3 Tiêu đề bản tin có chứa từ liên quan phương tiện giao thông ............. 25 Hình 3.4 Tiêu đề không chứa các từ liên quan đến phương tiện giao thông ..... 26 Hình 3.5 Thành phần trích chọn sự kiện ............................................................. 30 Hình 4.1. Lỗi bộ lọc khi dữ liệu không thuộc miền tai nạn giao thông .............. 42 DANH MỤC CÁC BẢNG Bảng 3.1Phương tiện giao thông ........................................................................ 26 Bảng 4.1 Cấu hình phần cứng ............................................................................. 36 Bảng 4.2. Công cụ phần mềm sử dụng................................................................ 36 Bảng 4.3. Các thành phần của một bản tin ......................................................... 37 Bảng 4.4. Tỷ lệ lỗi của quá trình lọc dữ liệu....................................................... 38 Bảng 4.5. Đánh giá kết quả phân lớp ................................................................. 39 Bảng 4.6. Đánh giá quá trình trích chọn - dữ liệu không qua bộ phân lớp ....... 41 Bảng 4.7. Đánh giá quá trình trích chọn - dữ liệu qua bộ phân lớp. ................. 41 Bảng 4.8 Một số lỗi - trong quá trình trích chọn .............................................. 43 vi MỞ ĐẦU Trích chọn thông tin (Information Extraction - IE), đặc biệt là trích chọn sự kiện (Event Extraction - EE) là một lĩnh vực con trong khai phá dữ liệu (Data Mining - DM). Những năm gần đây, trích chọn sự kiện đã thu hút nhiều sự quan tâm từ các nhà khoa học trên thế giới và đã thu đƣợc nhiều kết quả trong thực tế. Trích chọn sự kiện có thể áp dụng vào nhiều miền dữ liệu khác nhau nhƣ kinh tế, văn hóa, y tế, xã hội (chẳng hạn nhƣ thông tin về các vụ tai nạn giao thông), chính trị, ... Theo những con số thống kê trên các trang báo điện tử về con số tai nạn hàng năm, nhƣ: thông tin đăng trên báo điện tử http://binhduong.gov.vn, sáng 03 – 01-2013, Chính phủ tổ chức “Hội nghị trực tuyến tổng kết công tác trật tự an toàn giao thông năm 2012 và triển khai nhiệm vụ năm 2013” do Phó Thủ tƣớng Chính phủ Nguyễn Xuân Phúc chủ trì. Trong hội nghị, Ủy ban An toàn giao thông ATGT Quốc gia đã thống kê: năm 2012, cả nước xảy ra 36.376 vụ tai nạn giao thông, làm chết 9.838 người, bị thương 38.060 người. Cũng theo báo điện tử http://hanoimoi.com.vn, ngày 31-12-2013, Phó Thủ tƣớng Chính phủ, Chủ tịch Ủy ban ATGT Quốc gia Nguyễn Xuân Phúc đã chủ trì hội nghị trực tuyến với các bộ, ngành, địa phƣơng nhằm tổng kết công tác bảo đảm trật tự ATGT năm 2013 và triển khai nhiệm vụ năm 2014. Theo thống kê của Ủy ban ATGT Quốc gia, năm 2013 cả nước đã xảy ra 29.385 vụ tai nạn giao thông (TNGT), làm chết 9.369 người, bị thương 29.500 người. Từ các con số thống kê tai nạn giao thông hàng năm, chúng ta thấy số vụ tai nạn còn rất cao, đi cùng với nó là con số tử vong và số thƣơng vong là rất lớn. Mặt khác, bản tin vụ tai nạn đƣợc cập nhật khá đầy đủ và mang tính thời sự trên các báo điện tử. Hơn nữa, trích chọn sự kiện đang rất phát triển, chúng ta có thể sử dụng trích chọn sự kiện để trích chọn thông tin hữu ích từ các bản tin vụ tai nạn, kết quả của quá trình này sẽ đƣợc thống kê thành các con số hữu ích giúp các nhà quản lý và ngƣời dân tham gia giao thông đúng cách. Đó cũng là lý do, tác giả chọn và nghiên cứu đề tài“Trích chọn sự kiện trong văn bản tin tức vii tiếng Việt” miền dữ liệu khai thác là sự kiện vụ tai nạn. Chi tiết luận văn đƣợc chia thành 4 chƣơng: Chƣơng 1. Giới thiệu đề tài Chƣơng này trình bày cơ bản về bài toán trích chọn sự kiện trong bối cảnh bùng nổ thông tin trên Internet. Hơn nữa nêu lên đƣợc ý nghĩa khoa học, ý nghĩa thực tiễn, ứng dụng của đề tài trích chọn sự kiện vụ tai nạn giao thông trên miền văn bản tiếng Việt. Chƣơng 2.Một số phƣơng pháp tiếp cận Chƣơng này tập trung trình bày các phƣơng pháp tiếp cận cho bài toán trích chọn sự kiện đó là, phƣơng pháp tiếp cận dựa trên tâp luật, phƣơng pháp tiếp cận dựa trên học máy, phƣơng pháp tiếp cận kết hợp luật và học máy, trong mỗi phƣơng pháp đều có nhận xét hữu ích. Từ đó, luận văn sẽ chỉ ra phƣơng pháp phù hợp cho bài toán trích chọn sự kiện vụ tai nạn. Chƣơng 3. Đề xuất mô hình trích chọn sự kiện vụ tai nạn Chƣơng này, phát biểu và mô tả mô hình tổng thể cho bài toán trích chọn sự kiện vụ tai nạn. Sau đó, phát biểu, mô tả mô hình chi tiết và cách giải quyết cho hai bài toán: phát hiện sự kiện và trích chọn sự kiện. Chƣơng 4. Thực nghiệm và đánh giá Chƣơng này, luận văn mô tả quá trình thực nghiệm và đánh giả kết quả đề xuất dựa trên hai bài toán, đó là: bài toán phát hiện sự kiện và bài toán trích chọn sự kiện. Ba độ đo đƣợc sử dụng trong pha phát hiện sự kiện là độ chính xác (P - Precision), độ hồi tƣởng (R - Recall), và độ đo F1 (F1-score) và so sánh với kết quả đánh giá thủ công (bằng tay) cho pha trích chọn sự kiện. Thống kê và đánh giá (biểu đồ) các thuộc tính đã đƣợc trích chọn. Phần kết luận: trình bày kết quả đạt đƣợc của luận văn, những hạn chế và hƣớng phát triển của luận văn trong tƣơng lai. viii Chƣơng 1. GIỚI THIỆU ĐỀ TÀI Trong chƣơng này, luận văn tập trung giải quyết các vấn đề sau: giới thiệu bài toán trích chọn thông tin, tổng quan về sự kiện, trích chọn sự kiện trong văn bản tin tức tiếng Việt (tin tức đƣợc đề cập là vụ tai nạn), ý nghĩa khoa học và ý nghĩa thực tiễn của bài toán trích chọn sự kiện vụ tai nạn. 1.1. BÀI TOÁN TRÍCH CHỌN THÔNG TIN TRONG VĂN BẢN Theo Douglas E. Appelt, trích chọn thông tin (Information Extraction- IE) có thể đƣợc coi nằm giữa thu hồi thông tin (Information Retrieval - IR) và hiểu văn bản (Text Understanding - UT) [2]. Không giống nhƣ thu hồi thông tin chỉ tập trung vào các mẫu thông tin có liên quan trong văn bản mà không chú trọng đến việc hiểu văn bản; trích chọn thông tin còn quan tâm tới các sự kiện có liên quan trong văn bản và biểu diễn chúng dƣới dạng các khuôn mẫu thông tin có liên quan trong văn bản và biểu diễn chúng dƣới dạng khuôn mẫu. Khác với hiểu văn bản chỉ tập trung trên một phần nhỏ của văn bản (câu, đoạn), trích chọn thông tin quan tâm tới toàn bộ nội dung văn bản. Theo Peshkin và Pfeffer [11], trích chọn thông tin có thể đƣợc định nghĩa: như là một công việc điền thông tin vào các mẫu từ các dữ liệu chưa biết trước trong miền được định nghĩa trước. Mục tiêu của trích chọn thông tin là lấy từ văn bản các thông tin nổi bật của các sự kiện, thực thể, các mối liên hệ. Nhƣ vậy, có thể coi trích xuất thông tin là một kỹ nghệ lấy và biểu diễn tri thức thành các thông tin có định dạng và hữu ích từ nguồn dữ liệu lớn trên Internet. Bài toán trích chọn thông tin trong văn bản có thể đƣợc phát biểu nhƣ sau: - Đầu vào: dữ liệu văn bản bất kỳ - Đầu ra: thông tin hữu ích dƣới dạng có cấu trúc. 1.2. TỔNG QUAN VỀ SỰ KIỆN Trích chọn sự kiện với vai trò trích chọn ra các thông tin có ý nghĩa từ tập dữ liệu lớn và đƣợc cộng đồng khoa học rất quan tâm và đầu tƣ nghiên cứu. 1 Năm 1987, Message Understanding Conferences (MUC)6 đƣợc tổ chức với sự hỗ trợ của Quỹ nghiên cứu Bộ quốc phòng Hoa Kỳ7 và lần đầu tiên khái niệm event (sự kiện) đƣợc đề cập. Sau đó, rất nhiều hội nghị đƣợc tổ chức tạo thành dãy hội nghị MUC. Với mỗi hội nghị, thông tin đƣợc quan tâm khác nhau nhƣng đều có đặc điểm chung là chúng đƣợc trích xuất từ dữ liệu nói về khủng hoảng (crisis). Các chủ đề trong dữ liệu thƣờng là tội phạm, khủng bố, đánh bom… một trong những đóng góp lớn của MUC là đƣa ra việc trích chọn thông tin dựa trên mẫu (scenariotemplate). Các mẫu đƣợc ban tổ chức quy định và các đội tham gia cần điền thông tin vào các mẫu này một các tự động. Cuối cùng, các sự kiện đƣợc trích chọn gồm các thông tin: tổ chức, đối tƣợng tham gia (ngƣời, sự vật, sự việc), thời gian, địa điểm, số lƣợng…Độ chính xác (precision) và hồi tƣởng (recall) của các nghiên cứu tham dự MUC nằm trong khoảng 50% đến 60% [5]. Chƣơng trình Phát hiện và theo dõi chủ đề (Topic Detection and Tracking, TDT)8 đƣợc tổ chức từ năm 1997 thu hút nhiều nhóm nghiên cứu từ các trƣờng đại học tham gia. Chƣơng trình này đƣợc phối hợp bởi Viện Công nghệ và Chuẩn hoá quốc gia Hoa Kỳ (NIST) và DAPRA nhằm giải quyết bài toán phát hiện, theo dõi và xâu chuỗi sự kiện. Một số nhóm nghiên cứu tham gia chƣơng trình nhƣ sau: nhóm CMU của đại học Carnegie Mellon, nhóm BBN từ công ty BBN Technologies, nhóm DRAGON của công ty Dragon, nhóm UPENN của trƣờng đại học Pennsylvania (UPENN). Các bài toán quan trọng của TDT gồm: Story Segmentation, Topic Tracking, Topic Detection, First Story Detection, và Link Detection. Chƣơng trình Trích chọn nội dung tự động (Automatic Content Extraction, ACE) của đại học Pennsylvania cũng thu hút đƣợc nhiều quan tâm từ các cộng đồng nghiên cứu và trích chọn thông tin cũng nhƣ trích chọn sự kiện. Chƣơng trình này tập trung vào các ngôn ngữ nhƣ tiếng Anh, Trung Quốc và Ả rập. Các thông tin đƣợc trích chọn gồm các thực thể, quan hệ giữa các thực thể, và các sự kiện chúng tham gia vào. 2 Nhƣ vậy, có thể thấy rằng trích chọn thông tin nói chung và trích chọn sự kiện nói riêng là một vấn đề quan trọng và thời đại, nhận đƣợc rất nhiều quan tâm từ cộng đồng khoa học. Trong phần tiếp theo luận văn sẽ làm sáng tỏ định nghĩa sự kiện [1.2.1] và trích chọn sự kiện [1.2.2]. 1.2.1. Định nghĩa sự kiện Trích chọn sự kiện lần đầu tiên đƣợc giới thiệu nhƣ một chủ đề quan trọng trong Message Understanding Conference (MUC) năm 1987 [21]. Trong MUC, một sự kiện đƣợc định nghĩa nhƣ sau: “một sự kiện có tác nhân (actor), thời gian (time), địa điểm (place) và tác động tới môi trường xung quanh”. Trong chƣơng trình ACE, Dodington Deorge R và cộng sự đƣa ra định nghĩa sự kiện nhƣ sau: “một sự kiện là một hành động được tạo bởi những người tham gia”[22]. ACE chia sự kiện thành 8 loại khác nhau: LIFE (sự sống chết), MOVEMENT (sự di chuyển), TRANSACTION (giao dịch), BUSINESS (kinh tế), CONFLICT (xung đột), CONTACT (giao thiệp), PERSONNEL (nhận - đổi việc), JUSTICE (pháp lý). Mỗi dạng sự kiện lại phân biệt từng dạng con. Ví dụ, LIFE có các dạng con nhƣ BE-BORN (chào đời), INJURE (bị thƣơng), DIE (chết), hay PERSONAL có START-POSITION (vị trí khi nhận việc), END-POSITION (vị trí khi thôi việc), NOMINATE (bổ nhiệm), ELECT (bầu chọn),... Có thể thấy rằng các nghiên cứu liệt kê ở trên đều đồng ý rằng sự kiện có thể coi nhƣ một mẫu (template) gồm nhiều các thuộc tính (elements). Quá trình trích chọn sự kiện quan tâm tới việc làm thế nào có thể điền các thông tin phù hợp từ các văn bản gốc tƣơng ứng từng thuộc tính. 1.2.2. Trích chọn sự kiện Trích chọn sự kiện và trích chọn thông tin có điểm gì chung? Có thể nói rằng trích chọn sự kiện là một lĩnh vực con của trích chọn thông tin. Nếu nhƣ trích chọn thông tin chỉ quan tâm các dữ liệu rời rạc (tên ngƣời, địa điểm, các con số,…) thì trích chọn sự kiện quan tâm nhiều hơn tới tính cấu trúc và mức độ 3 liên quan của thông tin trong một sự kiện. Từ đó, ngƣời đọc có thể dễ ràng suy luận ra các thông tin có ý nghĩa. Ví dụ, “ngay sáng ngày 30/4, trên đường Xuân Thuỷ, thủ đô Hà Nội đã xảy ra vụ tai nạn nghiêm trong làm 2 người trên xe máy bị thương nặng. Nguyên nhân bước đầu được cho là do tài xế tắc-xi đã tăng tốc khi nhận điểm nên đã xô thẳng vào xe máy đi cùng chiều.” Trong ví dụ này, trích chọn thông tin đƣa ra các kết quả rời rạc nhƣ: 30/4, Hà Nội, 2 hoặc tắc xi; trong khi đó trích chọn sự kiện thì quan tâm tới một bộ các thuộc tính biểu diễn cho sự kiện gồm {30/4, Hà Nội, 2 ngƣời bị thƣơng, tắc-xi}. Rõ ràng, với tập dữ liệu trên, thông tin là hữu ích và đầy đủ hơn các thông tin rời rạc. Một cách tổng quát, có thể coi trích chọn sự kiện trong văn bản nhận đầu vào là các văn bản phi cấu trúc và đầu ra là tri thức đƣợc biểu diễn dƣới dạng thông tin có cấu trúc. Những thông tin này rất hữu ích cho việc khai thác dữ liệu nhƣ: thống kê, hệ thống giám sát, các hệ thống hỗ trợ ra quyết định. Trích chọn sự kiện có thể áp dụng cho một miền dữ liệu cụ thể nhƣ vụ tai nạn giao thông, thông tin các tour du lịch, bệnh dịch,… đồng thời đƣa ra các thông tin xung quanh sự kiện đó thƣờng bao gồm: Thời gian, địa điểm, số lƣợng, … Theo Grishman và cộng sự, trích chọn sự kiện là một bài toán khó do vấn đề xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và đặc trƣng dữ liệu [21]. Dễ ràng nhận thấy trích chọn sự kiện phụ thuộc nhiều vào NLP, cụ thể là bài toán nhận dạng thực thể (Named Entity Recognition - NER). Bên cạnh đó, dữ liệu đầu vào của trích chọn sự kiện rất đa dạng nên sẽ ảnh hƣởng tới tính hiệu quả của quá trình trích chọn. 1.3. TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT 1.3.1. Bài toán trích chọn sự kiện vụ tai nạn Trích chọn thông tin (Information Extraction - IE), đặc biệt là trích chọn sự kiện (Event Extraction - EE) là một lĩnh vực con trong khai phá dữ liệu (Data Mining - DM). Những năm gần đây, trích chọn sự kiện đã thu hút nhiều sự quan 4 tâm từ các nhà khoa học. Nó là bƣớc đi tốt cho việc khai thác tri thức trên văn bản. Trích chọn thông tin về sự kiện vụ tai nạn nhƣ: thời gian(giờ trong ngày), thời gian (dd/mm/yyyy), thứ/tuần, tháng/năm, địa điểm xảy ra vụ tai nạn, số thƣơng vong, phƣơng tiện tham gia trong vụ tai nạn, phƣơng tiện gây tai nạn, độ tuổi của ngƣời điều khiển phƣơng tiện gây tai nạn, ngành nghề, địa hình gây tai nạn, nguyên nhân gây tai nạn... Kết quả của quá trình trích chọn đƣợc làm đầu vào cho hệ thống khai thác nhƣ thống kê và trực quan hoá trên bản đồ Việt Nam những địa điểm nóng hay xảy ra tai nạn, thời gian nào trong ngày có nguy cơ xảy ra tai nạn nhiều hơn, tháng nào hay mùa nào trong năm có nguy cơ tai nạn giao thông nhiều hơn, độ tuổi có nguy cơ xảy ra tai nạn… Những điều đó giúp ích cho các nhà quản lý có biệt pháp giúp khắc phục để giảm thiểu số vụ tai nạn, đặt bảng biển báo hiệu nơi có nguy cơ tai nạn cao, có biệm pháp giáo dục ngƣời dân khi tham gia giao thông. Mặt khác, giúp ngƣời dân biết cách tự phòng tránh không để mình là mạn nhân đáng tiếc trong các vụ tai nạn. Bài toán trích chọn sự kiện vụ tai nạn đƣợc phát biểu nhƣ sau: Đầu vào: bản tin bất ký trên báo điện tử Đầu ra: trích chọn những thông tin của sự kiện vụ tai nạn (nếu có). Bài toán trích chọn sự kiện vụ tai nạn đƣợc chia thành hai bài toán. Bài toán thứ nhất, phát hiện sự kiện vụ tai nạn, đầu vào là bản tin bất kỳ trên báo điện tử, bài toán phải chỉ ra đâu là sự kiện vụ tai nạn. Kết quả của bài toán phát hiện sự kiện sẽ là dữ liệu đầu vào cho bài toán trích chọn; thông tin đƣợc trích chọn trong sự kiện vụ tai nạn có thể là thời gian, địa điểm xảy ra tai nạn, số thƣơng vong, phƣơng tiện gây tai nạn, giờ (giờ nào trong ngày xảy ra tai nạn), độ tuổi của ngƣời điều khiển phƣơng tiện xảy ra tai nạn, giới tính, địa hình xảy ra tai nạn,… Trong giới hạn đề tài, tác giả tập trung vào việc trích chọn ra bộ các thuộc tính nhƣ: (thời gian, địa điểm xảy ra tai nạn, số thƣơng vong, phƣơng tiện gây tai nạn). 5 1.3.2. Phát hiện sự kiện Bài toán phát hiện sự kiện trả lời câu hỏi “làm thể nào để phát hiện được một văn bản có chứa sự kiện vụ tai nạn”. Tức là, cho trƣớc đầu vào là văn bản, làm thế nào để phát hiện văn bản đó có chứa sự kiện vụ tai nạn? theo Grishman và cộng sự [13], phát hiện sự kiện là quá trình học không giám sát, tác giả sử dụng các từ khoá để quyết định một văn bản có chứa sự kiện dịch bệnh hay không. Hai từ khoá đƣợc tác giả sử dụng là “outbreak of…” và “died from…”. Theo Doan và cộng sự [14], bài toán phát hiện sự kiện có thể coi nhƣ quá trình học có giám sát. Trong nghiên cứu của mình, tác giả sử dụng phƣơng pháp để phân lớp các tài liệu. Bộ phân lớp này dựa trên một tập các dữ liệu đã đƣợc gán nhãn. Qua quá trình huấn luyện, bộ phân lớp sẽ quyết định một văn bản đầu vào có chứa sự kiện dịch bệnh hay không. Từ nghiên cứu của Grishman và cộng sự hoặc nghiên cứu của Doan và cộng sự, có các cách khác nhau để giải quyết bài toán phát hiện sự kiện dịch bệnh. Do đó, có thể vận dụng phƣơng pháp này cho việc phát hiện sự kiện vụ tai nạn giao thông cùng với việc xây dựng bộ từ khoá hoặc xây dựng một tập các dữ liệu đã đƣợc gán nhãn phù hợp cho sự kiện vụ tai nạn giao thông. 1.3.3. Trích chọn sự kiện Nhiệm vụ của bài toán trích chọn sự kiện phải trả lời câu hỏi “làm thế nào để trích chọn các thuộc tính của một sự kiện”. Có nhiều phƣơng pháp cho việc trích chọn sự kiên; trong đó phải kể đến phƣơng pháp sử dụng luật (học không giám sát) đƣợc sử dụng từ rất sớm để giải quyết bài toán này[13]. Quá trình trích chọn bằng phƣơng pháp này thƣờng đƣợc sử dụng các luật dựa vào quá trình khảo sát dữ liệu để trích ra các thuộc tính của một sự kiện. Phƣơng pháp sử dụng học máy và các kỹ thuật NLP để giải quyết bài toán trích chọn sự kiện. Quá trình này thƣờng sử dụng Named Entity Recognition (NER) để lấy ra các thuộc tính cơ bản của sự kiện: thời gian, địa điểm, tên ngƣời,… sau đó kết hợp các thuộc tính này thành một sự kiện. [14]. 6 Nhƣ vậy, bài toán trích chọn sự kiện nói chung hay bài toán trích chọn sự kiện vụ tai nạn nói riêng có thể đƣợc chia thành hai bài toán con, đó là: phát hiện sự kiện và trích chọn sự kiện. Trong luận văn này, tác giả sẽ mô tả chi tiết các kỹ thuật đƣợc áp dụng để giải quyết hai bài toán này ở chƣơng 3. 1.4. Ý NGHĨA CỦA BÀI TOÁN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN 1.4.1. Ý nghĩa khoa học Ý nghĩa khoa học của bài toán trích chọn sự kiện đƣợc rất nhiều các nhà khoa học quan tâm. Kết quả của bài toán trích chọn sự kiện vụ tai nạn làm tiền đề cho việc khai thác dữ liệu nhƣ thống kê, dự đoán xu hƣớng, hệ thống giám sát và hỗ trợ ra quyết định. 1.4.2. Ý nghĩa thực tiễn Kết quả việc trích chọn sự kiện vụ tai nạn là dữ liệu đầu vào cho việc khai thác: thống kê các con số liên quan đến vụ tai nạn nhƣ các vụ tai nạn hay xảy ra vào thời gian nào trong ngày (vào buổi sáng, giờ đến công sở, buổi trƣa, giờ tan tầm, hay vào đêm…), những tháng nào trong năm hay xảy ra tai nạn (vào mùa lễ hội, mùa nghỉ mát hay mùa mƣa…), phƣơng tiện nào hay xảy ra tai nạn (xe buýt, xe tải, tắc-xi, xe khách,…), độ tuổi của ngƣời điều kiển phƣơng tiện giao thông (tuổi 18-20, tuổi ngoài 60, hay độ tuổi nào khác), nghề nghiệp của ngƣời điều kiển phƣơng tiện giao thông (làm nghề tự do, xe ôm, công chức,..), địa hình gây tai nạn (đƣờng vòng cua, đƣờng giao nhau, đƣờng rốc, đƣờng trơn, đƣờng gồ ghề, đƣờng cao tốc,…) Từ những thống kê trên có thể trực quan hoá trên bản đồ những địa điểm nhạy cảm hay xảy ra tai nạn. Qua đó, cung cấp cho ngƣời dân có thêm kiến thức khi tham gia giao thông nhƣ: trong khoảng thời gian nào, trên quãng đƣờng nào,… hay xảy ra ta nạn. Điều đó có thể giúp ngƣời dân biết cách đề phòng tránh các nguy cơ có thể xảy ra tai nạn. Ngoài ra, nó còn giúp ngƣời dùng muốn tìm kiếm thông tin liên quan đến vụ tai nạn giao thông. 7 Hơn thế nữa, kết quả của bài toán có thể giúp các nhà quản lý có cái nhìn khách quan tình trạng tai nạn giao thông, có biệm pháp phòng ngừa các vụ tai nạn nhƣ: sửa chữa nâng cấp cơ sở hạ tầng, có biệm pháp giáo dục ý thức ngƣời dân khi tham gia, đặt biển cảnh báo nơi nào có nguy cơ cao xảy ra tai nạn, cần phải giảm tốc độ, thận trọng quan sát đƣờng trong khi tham gia giao thông… Ngoài ra, những con số thống kê từ việc trích chọn sự kiện vụ tai nạn. Còn giúp các nhà quản lý so sánh quy mô mức độ nghiêm trọng của các vụ tai nạn trong từng khoảng thời gian với nhau, từ đó đƣa ra bản đánh giá trung về sự phát triển của các vụ tai nạn theo chiều hƣớng nào. 1.5. KẾT LUẬN Trong chƣơng này, luận văn đã trình bày cơ bản bài toán trích chọn sự kiện. Trọng tâm của chƣơng này trình bày những khái niệm cơ bản của bài toán trích chọn sự kiện nói chung và bài toán trích chọn sự kiện vụ tai nạn nói riêng. Bên cạnh đó, chƣơng này cũng đề cập tới hai bài toán cơ bản của trích chọn sự kiện vụ tai nạn, đó là bài toán phát hiện sự kiện và bài toán trích chọn sự kiên; đồng thời nêu ý nghĩa khoa học, ý nghĩa thực tiễn, những khó khăn khi giải quyết bài toán trích chọn sự kiện vụ tai nạn. Trong chƣơng 2, luận văn sẽ trình bày các phƣơng pháp tiếp cận để giải quyết bài toán phát hiện sự kiện và trích chọn sự kiện vụ tai nạn. 8 Chƣơng 2. MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN Theo nghiên cứu của Hogenbcom F. và cộng sự [4] đã cung cấp một khảo sát dựa trên ba phƣơng pháp cơ bản phù hợp cho bài toán trích chọn sự kiện trong văn bản. Đó là các phƣơng pháp: phƣơng pháp dựa luật hay còn đƣợc gọi là phƣơng pháp dựa ttrên tri thức (knowledge - driven), phƣơng pháp học máy hay còn đƣợc gọi là phƣơng pháp dựa trên dữ liệu (data-driven), phƣơng pháp kết hợp giữa hai phƣơng pháp trên hay còn đƣợc gọi là phƣơng pháp lai (hybrid). Phƣơng pháp thứ nhất dựa trên tri thức, thƣờng sử dụng kiến thức chuyên gia miền để sinh ra tập luật (thƣờng là chuyên gia về ngôn ngữ và chuyên miền dữ liệu); đòi hỏi đọc dữ liệu và hiểu dữ liệu sau đó sinh ra tập luật. Phƣơng pháp thứ hai dựa trên dữ liệu, phƣơng pháp này dựa trên tri thức từ một tập dữ liệu lớn để giải quyết bài toán trích chọn thông tin trong một sự kiện (thƣờng sử dụng phƣơng pháp thống kê và mô hình toán học). Điển hình cho phƣơng pháp này là nhận dạng thực thể (NER). Tập luật này thƣờng sử dụng để trích chọn thuộc tính của sự kiện. Phƣơng pháp cuối cùng, sử dụng kết giữa hai phƣơng pháp trên. Trong chƣơng này, tác giả sẽ trình bày phƣơng pháp tiếp cận bài toán Trích chọn sự kiện vụ tai nạn giao thông bao gồm: phƣơng pháp tiếp cận dựa trên luật (rule - base), phƣơng pháp tiếp cận dựa trên học máy, phƣơng pháp tiếp cận kết hợp luật và học máy. Phần cuối tác giả sẽ có những nhận xét và đƣa ra phƣơng pháp giải quyết bài toán trong chƣơng 3. Chi tiết của từng phƣơng pháp sẽ đƣợc trình bầy ở các mục [2.1], [2.2], [2.3]. 2.1. PHƢƠNG PHÁP TIẾP CẬN DỰA TRÊN TẬP LUẬT (RULE – BASED) Phƣơng pháp dựa trên tập luật hay còn đƣợc gọi là phƣơng pháp dựa ttrên tri thức (knowledge - driven). Phƣơng pháp này dựa trên tri thức, thƣờng sử dụng kiến thức chuyên gia miền để sinh ra tập luật (thƣờng là chuyên gia về 9 ngôn ngữ và chuyên gia miền dữ liệu); đòi hỏi đọc và hiểu dữ liệu sau đó sinh ra tập luật. 2.1.1. Luật cú pháp (lexico-syntactic patterns) Luật cú pháp, đôi khi còn đƣợc gọi là mẫu cú pháp (lexico-syntactic patterns) có thể coi là phƣơng pháp sử dụng sớm trong bài toán trích chọn sự kiện. Các mẫu này đƣợc sinh ra từ các chuyên gia miền (expert knowledge) dƣới dạng tập luật (rules) [4]. Điển hình cho phƣơng pháp này là các luật đƣợc biểu diễn dƣới dạng biểu thức chính quy (regular expression). Các luật cú pháp là sự kết hợp biểu diễn của các ký tự và các thông tin cú pháp với các biểu thức chính quy. Sau khi các biểu thức chính quy đã đƣợc xây dựng, các biểu thức này sẽ đƣợc so khớp với dữ liệu trong văn bản đầu vào để trích chọn ra các thông tin tƣơng ứng của các thuộc tính. Đôi khi, luật cú pháp đƣợc biểu diễn ở dạng đơn giản hơn, đó là các từ khoá. Tập luật cú pháp đƣợc sử dụng trong trích chọn sự kiện [7], [5], [6]. Trong nghiên cứu của mình, Nishihara và cộng sự sử dụng ba từ khoá: địa điểm (place), đối tƣợng (object), và hành vi (action) để biểu diễn một sự kiện đƣợc trích chọn từ blogs [10]. Trong lĩnh vƣc y sinh, Yakushiji và cộng sự sử dụng một bộ phân tích kết hợp với ngữ pháp để xác định mối quan hệ và các sự kiện [16]. Còn trong lĩnh vực tiền và chính trị Aone và cộng sự đã dùng luật cú pháp để trích chọn thông tin của sự kiện [24]. Luật cú pháp xác định các tham số bên trong văn bản không xác định ý nghĩa văn bản. Khi sử dụng luật để trích chọn sự kiện, đôi khi phải trích chọn khái niệm có ý nghĩa đặc biệt hoặc mối quan hệ giữa các thành phần đƣợc trích chọn. Do đó, sử dụng luật cú pháp không đáp ứng đƣợc điều này. Để giải quyết đƣợc điều này, phƣơng pháp thƣờng sử dụng trong (rule–based) là sử dụng luật ngữ nghĩa (lexico-semantic patterns). Chi tiết của luật ngữ nghĩa sẽ đƣợc trình bày trong mục [2.1.2]. 10
- Xem thêm -