HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
ĐẶNG NGỌC TÚ
PHÁT HIỆN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU
TWITTER
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
HÀ NỘI – 2019
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
ĐẶNG NGỌC TÚ
PHÁT HIỆN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU
TWITTER
CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN
MÃ SỐ:
8.48.01.04
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGÔ XUÂN BÁCH
HÀ NỘI – 2019
i
LỜI CAM ĐOAN
Để có được kết quả học tập đến ngày hôm nay, em xin chân thành gửi đến
các thầy cô giáo trong khoa Công Nghệ Thông Tin – Học Viện Công Nghệ Bưu
Chính Viễn Thông nói riêng và các thầy cô giáo của trường Học Viện Công Nghệ
Bưu Chính Viễn Thông nói chung lời cảm ơn chân thành nhất. Các thầy cô luôn
luôn nhiệt huyết truyền đạt cho em những kiến thức về bộ môn và những kinh
nghiệm trong thực tế.
Và đặc biệt để hoàn thành luận văn này, em xin chân thành cảm ơn thầy TS.
Ngô Xuân Bách đã tận tâm hướng dẫn em thực hiện và tìm hiểu mọi vấn đề. Nếu
không có những chỉ dẫn của thầy thì rất khó để em có thể tự mình hoàn thành luận
văn này. Một lần nữa em xin gửi lời cảm ơn chân thành nhất tới thầy.
Bên cạnh đó, em xin gửi lời cảm ơn đến gia đình và những người bạn đã
luôn tạo điều kiện tốt nhất và luôn hỗ trợ giúp đỡ em khi gặp khó khăn.
Luận văn được thực hiện trong khoảng 2 tháng. Đây cũng là bước đầu em đi
sâu tìm hiểu, nghiên cứu và thực nghiệm một đề tài của ngành công nghệ thông tin
về xử lý ngôn ngữ tự nhiên. Do vậy, sẽ còn nhiều thiếu sót, em rất mong nhận được
những ý kiến đóng góp của quý Thầy Cô và các bạn để em có thể hoàn thiện luận
văn một cách tốt nhất.
Em xin chân thành cảm ơn!
Hà Nội, ngày 13 tháng 02 năm 2019
Đặng Ngọc Tú
ii
LỜI CẢM ƠN
Trước tiên, tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong khoa
sau Đại Học nói riêng và các thầy cô giáo của trường Học Viện Công Nghệ Bưu
Chính Viễn Thông nói chung lời cảm ơn chân thành nhất.
Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới TS. Ngô Xuân Bách người đã tận
tình chỉ bảo, hướng dẫn tôi trong suốt quá trình tìm hiểu, nghiên cứu để hoàn thành
luận văn tốt nghiệp của mình. Nếu không có những hỗ trợ về kiến thức chuyên môn
của thầy thì chắc chắn tôi không thể hoàn thành đúng thời hạn.
Đồng thời, tôi xin cảm ơn tới gia đình, những người thân yêu luôn bên
cạnh, động viên, giúp đỡ tôi trong suốt quá trình học tập. Bên cạnh đó tôi cũng xin
gửi lời cảm ơn đến các anh chị và các bạn trong lớp M17CQIS01-B đã chia sẻ
những kinh nghiệm, kiến thức quý báu cho tôi trong quá trình nghiên cứu thực hiện
luận văn.
Thời gian thực hiện luận văn còn khá ngắn, kinh nghiệm về lĩnh vực xử lý
ngôn ngữ tự nhiên của bản thân còn hạn chế, luận văn cũng còn nhiều thiếu sót rất
mong nhận được những ý kiến đóng góp của quý Thầy Cô và các bạn để tôi có thể
hoàn thiện luận văn một cách tốt nhất.
Xin trân trọng cảm ơn!
Hà Nội, ngày 13 tháng 02 năm 2019
Tác giả
Đặng Ngọc Tú
iii
MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................ii
BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH................................................. v
BẢNG DANH SÁCH TỪ VIẾT TẮT .................................................................... vi
MỤC LỤC HÌNH ẢNH ..........................................................................................vii
MỤC LỤC BẢNG BIỂU ...................................................................................... viii
LỜI MỞ ĐẦU ............................................................................................................ 1
CHƯƠNG 1 TỔNG QUAN BÀI TOÁN KẾ THỪA VĂN BẢN TRÊN DỮ
LIỆU TWITTER ......................................................... Error! Bookmark not defined.
1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên ............................................................. 4
1.2. Khát quát về kế thừa văn bản ........................................................................... 5
1.2.1 Khái niệm kế thừa văn bản ........................................................................ 5
1.2.2. Khái niệm kế thừa văn bản ....................................................................... 6
1.2.3. Phát biểu bài toàn phát hiện kế thừa văn bản ........................................... 7
1.3. Phát hiện kế thừa văn bản trên dữ liệu Twitter ............................................... 8
1.3.1. Khái niệm. ............................................................................................... 8
1.3.2. Phát biểu bài toàn phát hiện kế thừa văn bản trên dữ liệu Twitter. ......... 9
1.4. Các nghiên cứu liên quan.............................................................................. 11
1.5. Kết luận chương 1 .......................................................................................... 12
CHƯƠNG 2 PHƯƠNG PHÁP PHÁT HIỆN KẾ THỪA VĂN BẢN SỬ DỤNG
THUẬT TOÁN PHÂN LỚP .................................................................................. 13
2.1. Giải pháp phát hiện kế thừa văn bản trên dữ liệu Twitter ............................ 13
2.2. Tiền xử lý dữ liệu ........................................................................................... 17
2.3.1. Jaro-Winkler distance ............................................................................. 18
2.3.2. Levenshtein distance .............................................................................. 19
2.3.3. Euclidean distance .................................................................................. 20
2.3.4. Cosine similarity..................................................................................... 20
2.3.5. N-gram distance ..................................................................................... 21
iv
2.3.6. Matching coefficient............................................................................... 23
2.3.7. Dice coefficient ...................................................................................... 23
2.3.8. Jaccard coefficient ................................................................................. 23
3.1. Các phương pháp học máy ............................................................................. 24
3.1.1. Máy vector hỗ trợ SVM (Support Vector Machine) .............................. 24
3.1.2. Thuật toán IBK ....................................................................................... 28
3.1.3. Các phương pháp cây quyết định ........................................................... 29
4.1. Kết luận chương 2 .......................................................................................... 32
CHƯƠNG 3 THỰC NGHIỆM VÀ KẾT QUẢ .................................................... 33
3.1. Dữ liệu thực nghiệm....................................................................................... 33
3.1.1. Mô tả dữ liệu thực nghiệm ..................................................................... 33
3.1.2. Trích chọn đặc trưng .............................................................................. 36
3.2. Thiết lập thực nghiệm ................................................................................... 37
3.2.1. Yêu cầu cho thực nghiệm ....................................................................... 37
3.2.3. Phương pháp đánh giá tập dữ liệu .......................................................... 38
3.2.3. Chọn công cụ thực nghiệm .................................................................... 41
3.2.4. Giới thiệu chuẩn dữ liệu đầu vào cho thực nghiệm (ARFF) .................. 45
3.3. Tiến hành thực nghiệm và đánh giá kết quả thực nghiệm ............................. 47
3.3.1. Kết quả thực nghiệm với các thuật toán cho ba nhãn ............................ 47
3.3.2. Thực nghiệm với sự kết hợp các đặc trưng ............................................ 49
3.3.3. Thực nghiệm so sánh giữa thuật toán J48 với các phương pháp học máy
khác................................................................................................................... 50
3.4. Kết luận chương 3 .......................................................................................... 51
KẾT LUẬN .............................................................................................................. 52
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................... 54
DANH MỤC WEBSITE THAM KHẢO .............................................................. 56
PHỤ LỤC ................................................................................................................. 57
v
BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH
Tư tiếng anh
Ý nghĩa
Accuracy
Mức độ dự đoán (phân lớp) chính xác của hệ thống
Atrribute Regation File
Format
IBK
Định dạng tập tin thuộc tính liên quan
ID3
Thuật toán Decision Tree
Natural Language Processing
Xử lý ngôn ngữ tự nhiên
Là tần suất xuất hiện của n kí tự ( hoặc từ ) liên
tiếp nhau có trong dữ liệu
Độ chính xác trong tập dữ liệu tìm được thì bao
nhiêu cái (phân loại) đúng
Thuật toán Random forest
Độ hồi tưởng trong số các tồn tại, tìm ra được bao
nhiêu cái (phân loại).
N-grams
Precision
Random Forest
Recall
Thuật toán K-nearest nèighbors
Support Vector Machine
Máy vector hỗ trợ (SVM)
Tweets
Twitter
Trạng thái người dùng trên mạng xã hội Twitter
Mạng xã hội twitter
Weka
Bộ phần mềm học máy
vi
BẢNG DANH SÁCH TỪ VIẾT TẮT
Viết tắt
Tiếng Anh
Tiếng Việt
CD
Comparison Documents
Tài liệu so sánh
CON
Contradiction
Mẫu thuẫn
DUC
Document Understanding
Conference
Hiểu tài liệu
ENT
Entailment
Liên quan
H
Hypothesis
Giả thuyết
IE
Information Extraction
Trích xuất thông tin
IR
Information Retrieval
Thu thập thông tin
KKN
K-Nearest Neighbors
algorithm
Thuật toán láng giềng
MT
Machine Translation
Dịch máy
NLP
Natural Language Processing Xử lý ngôn ngữ tự nhiên
PP
Paraphrase Acquisition
Thu thập diễn giải
QA
Question Answering
Hệ hỏi đáp
RC
Reading Comprehension
Đọc hiểu
RTE
Recognizing Textual
Entailment
Phát hiện kế thừa văn bản
SUM
Summarization
Tóm tắt
SVM
Support vector machine
Máy hỗ trợ vector
T
Text
Văn bản
TAC
Text Analysis Conference
Phân tích tài liệu
TE
Textual Entailment
Kế thừa văn bản
UNK
Unknown
Không liên quan
vii
MỤC LỤC HÌNH ẢNH
Hình 1.1: Số lượng người sử dụng một số mạng xã hội lớn ....................................... 9
Hình 1.2. Sơ đồ giả thiết bài toán .............................................................................. 11
Hình 2.1: Mô hình giai đoạn huấn luyện ................................................................. 14
Hình 2.2: Mô hình giai đoạn phân lớp ..................................................................... 16
Hình 2.3: Ánh xạ dữ liệu từ không gian gốc sang không gian đặc trưng cho phép
phân chia dữ liệu bởi siêu phẳng ............................................................................... 25
Hình 2.4: Siêu phẳng với lề cực đại cho phép phân chia các hình vuông khỏi các
hình tròn trong không gian đặc trọng ........................................................................ 25
Hình 2.5: Minh họa bài toán phân 2 lớp bằng phương pháp SVM ........................... 27
Hình 2.6: Ví dụ cây quyết định ................................................................................. 30
Hình 2.7: Mã giải của thuật toán phân lớp dựa trên cây quyết định ......................... 31
Hình 3.1: Dữ liệu thực nghiệm lấy file XML trong bộ dữ liệu của Twitter ............. 34
Hình 3.2: Dữ liệu được bóc tách thành cặp văn bản(T) và giả thuyết(H)................. 35
Hình 3.3: Hình ảnh stopword .................................................................................... 35
Hình 3.4: Trích chọn đặc trưng theo 08 phương pháp .............................................. 36
Hình 3.5: Minh họa K-fold cross validation ............................................................. 39
Hình 3.6: Giao diện weka ver 3.8.3 .......................................................................... 43
Hình 3.7. Màn hình Weka Explorer .......................................................................... 43
Hình 3.9: Giao diện weka khi tiến hành thực nghiệm .............................................. 45
Hình 3.10: Khuân dạng của tập dữ liệu dạng chuẩn Arff ......................................... 46
Hình 3.11: Ví dụ minh họa một phần biểu diễn của ARFF linh hoạt ....................... 47
viii
MỤC LỤC BẢNG BIỂU
Bảng 1.1: Ví dụ về kế thừa văn bản ............................................................................ 7
Bảng 1.2: Ví dụ kế thưa với ba nhãn......................................................................... 10
Bảng 3.1: Bộ dữ liệu thực nghiệm ............................................................................ 37
Bảng 3.2: Bảng ma trận nhầm lẫn ............................................................................. 41
Bảng 3.3: Kết quả thực nghiệm độ đo chạy trên thuật toán tree J48 ........................ 48
Bảng 3.4: Kết quả thực nghiệm giữa độ đo của thuật toán chạy trên tree J48.......... 48
Bảng 3.5: Bảng kết quả thực nghiệm với sự kết hợp đặc trưng ................................ 49
Bảng 3.6: Bảng kết quả thực nghiệm sử dụng công cụ weka với các thuật toán ...... 50
Bảng 3.7: Bảng biểu đồ so sánh các phương pháp SVM .......................................... 51
1
LỜI MỞ ĐẦU
Trong những năm vừa qua, lĩnh vực xử lý ngôn ngữ tự nhiên đã thu hút được
sự quan tâm đặc biệt của các nhà nghiên cứu và đạt được nhiều thành tựu đáng kể.
Trong đó, thành công của nhiều ứng dụng ngôn ngữ tự nhiên tự động là do hiểu
chính xác ngữ nghĩa của văn bản dự theo cấu trúc cú phát bằng cách sử dụng máy
tính. Điều này đã trở thành thách thức với những văn bản cùng diễn đạt một ý
nghĩa nhưng sử dụng các cấu trúc và từ ngữ khác nhau. Các ứng dụng ngôn ngữ tự
nhiên tự động đã tận dụng các thành phần được làm mịn để xử lý hiệu quả hơn các
văn bản có cấu trúc phức tạp. Một trong nhưng bài toán xử lý văn bản là việc suy
luận ngữ nghĩa của một đoạn văn bản từ một đoạn trích trong văn bản tiềm năng
khác. Bài toán này trở thành một hướng nghiên cứu trong lĩnh vực xử lý ngôn ngữ
tự nhiên và được biết đến như bài toán phát hiện kế thừa văn bản (Recognixing
Textual Entailment: RTE). Bài toán phát hiện kế thừa văn bản lần đầu tiên được
Degan và Glickman đề xuất [3]. Cho hai đoạn văn bản bài toán phát hiện kế thừa
văn bản có mục định xác định xem nghĩa của văn bản này có thể được suy luận (kế
thừa) từ văn bản còn lại hay không.
Từ nhu cầu thực tế của các lĩnh vực khác trong xử lý ngôn ngữ tự nhiên, bài
toán phát hiện kế thừa văn bản đã nhận được sự quan tâm của các nhà khoa học và
các nhóm nghiên cứu trên thế giới. Từ năm 2004 đến này, hội nghị RTE đã tổ chức
thường niên hàng năm nhằm mục đích so sánh và tổng hợp lại các phương pháp
phát hiện kế thừa văn bản tốt. Hội nghị RTE tiến hành trong khuôn khổ các hội nghị
thường niên Hiểu tài liệu (DUC: Document Understanding Conference, 2001-2007)
và Phân tích xử lý văn bản (TAC: Text Analysis Conference, từ năm 2008 tới nay).
Gần đây, một trong nhưng thách thức của bài toán phát hiện kế thừa văn bản
là phát hiện mối quan hệ kế thừa cho những văn bản được viết bằng các ngôn ngữ
khác nhau:Anh, Tây Ban Nha, Pháp,…Chính vì thế, bài toán phát hiện kế thừa văn
trên dữ liệu Twitter.
Với sự phát triển nhanh chóng và mạnh mẽ của những mạng xã hội hiện đại
như ngày nay như: facebook, google +, twitter, v.v. Việc ứng dụng phát hiện kế
2
thừa văn bản trong hệ hỏi đáp (QA), trích xuất thông tin (IE), tóm tắt văn bản
(Summarization), và đánh giá dịch máy MT) cần một mô hình cho hiện tượng biến
đổi này để phát hiện xem một ý nghĩa cụ thể nào đó có được suy luận ra từ các biến
thể văn bản khác nhau. Đã có nhiều công trình nghiên cứu liên quan đến bài toán
phát hiện kế thừa văn bản theo các phương pháp khác nhau từ nhiều nguồn dữ liệu
mà Twitter là một nguồn dữ liệu phổ biến.
Vì những lý do trên, cùng với mong muốn làm chủ công nghệ, làm chủ và
mở rộng các nghiên cứu về học máy ứng dụng vào bài toán phát hiện kế thừa văn
bản, dưới sự hướng dẫn của TS. Ngô Xuân Bách và thông qua tìm hiểu, phương
pháp kế thừa văn bản trên tập dữ liệu Twitter, tôi đã mạnh dạn tìm hiểu đề tài “Phát
hiện kế thừa văn bản trên dữ liệu Twitter” nhằm mục đích sử dụng học máy để
đưa ra phát hiện kế thừa văn bản trong việc tự động trả lời của con người dưới dạng
ngôn ngữ tự nhiên bằng cách truy suất thông tin từ một tập hợp dữ liệu. Luận văn
tập trung vào bài toán phát hiện kế thừa văn bản trên dữ liệu Twitter, phân loại làm
ba nhãn là: liên quan(Entailment), mâu thuẫn(Contradiction), không liên quan
(Unknown).
Các đặc trưng này sẽ được biểu diễn dưới dạng vector và làm đầu vào cho
các thuật toán. Sau khi thu được kết quả của các mô hình phân lớp: Decision tree
(J48, Random forest) [30] , Support vector machine(SVM) [8] và IBK [4], luận văn
sử dụng phương pháp lập sơ đồ để kiểm tra và lựa chọn kết quả tốt nhất. Kết quả
thực nghiệm tốt nhất đạt được khi sử dụng thuật toán Decision tree (J48). Cụ thể kết
quả thực nghiệm cho kết quả tốt nhất với bài toán “ Phát hiện kế thừa văn bản trên
dữ liệu Twitter ”.
Nội dung của luận văn gồm 03 chương:
Chương 1: Giới thiệu tổng quát khái quát về bài toán phát hiện kế thừa văn
bản
Luận văn giới thiệu khái niệm kế thừa văn bản, phát biểu bài toán phát hiện
kế thừa văn bản, sau đó, luận văn giới thiệu về bài toán phát hiện kế thừa văn bản
trên dữ liệu Twitter.
3
Chương 2: Phương pháp phát hiện kế thừa văn bản sử dụng thuật toán phân
lớp.
Nội dung của chương là trình bày một số phương pháp trích chọn lấy đặc
trưng để giải quyết bài toán, các phương pháp học máy thống kê được sử dụng để
tiến hành thực nghiệm cho bài toán phát hiện kế thừa văn bản dựa trên dữ liệu mạng
xã hội Twitter.
Chương 3: Thực nghiệm và đánh giá
Nội dung chương nhằm nêu rõ và chi tiết các bước trong quá trình giải quyết
bài toán. Trong chương này cũng sẽ trình bày quá trình thực hiện và thực nghiệm,
đưa ra một số đánh giá, nhận xét các kết quả thu được.
Kết luận và định hướng phát triển tiếp theo: Tóm lược kết quả đã đạt được của
luận văn, chỉ ra những khuyết điểm cần khắc phục và đưa ra định hướng nghiên cứu
tiếp theo.
4
CHƯƠNG 1
TỔNG QUAN BÀI TOÁN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU
TWITTER
Chương này của luận văn trình bày nội dung chính là:
Giới thiệu chung về lĩnh vực xử lý ngôn ngữ tự nhiên và các ứng dụng trong
thực tế.
Giới thiệu về bài toán phát hiện kế thừa văn bản và phát hiện kế thừa văn
bản trên dữ liệu Twitter.
Giới thiệu về mạng xã hội Twitter và tổng quan về bài toán phát hiện kế thừa
văn bản trên dữ liệu Twitter.
Các nghiên cứu liên quan đến bài toán dã được thực hiện và đưa ra trên thế
giới cũng như ở Việt Nam
Trình bày các nội dung sẽ thực hiện trong luận văn để đạt được mục tiêu đặt
ra, các nghiên cứu, đóng góp của luận văn
1.1.
Giới thiệu về xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) [4] [9] là một
lĩnh vực nghiên cứu của trí tuệ nhân tạo, tập trung vào nghiên cứu các phương pháp,
kỹ thuật cho phép xử lý ngôn ngữ tự nhiên bằng máy tính, từ đó xây dựng các
chương trình, hệ thống máy tính xử lý ngôn ngữ của con người.
Xử lý ngôn ngữ tự nhiên được áp dụng trong nhiều bài toán và ứng dụng
thực tế, trong nhiều lĩnh vực:
Nhận dạng chữ viết: Có hai kiểu nhận dạng. Thứ nhất là nhận dạng chữ in,
thứ hai, phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay
không có khuôn dạng rõ ràng và thay đổi từ người này sang người khác. Với
chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thư
viện thành văn bản điện tử trong thời gian ngắn. Nhận dạng chữ viết của con người
có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện
tử).
5
Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản
tương ứng. Giúp thao tác của con người trên các thiết bị nhanh hơn và đơn giản
hơn. Đây cũng là bước đầu tiên cần phải thực hiện trong ước mơ thực hiện giao
tiếp giữa con người với robot. Nhận dạng tiếng nói có khả năng trợ giúp người
khiếm thị rất nhiều.
Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói.
Giống như nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho người
khiếm thị, nhưng ngược lại nó là bước cuối cùng trong giao tiếp giữa robot với
người.
Dịch máy (machine translate): Như tên gọi đây là chương trình dịch tự động
từ ngôn ngữ này sang ngôn ngữ khác.
Tìm kiếm và truy xuất thông tin: Đặt câu hỏi và chương trình tự tìm ra nội
dung phù hợp nhất. Thông tin ngày càng đầy lên theo cấp số nhân, đặc biệt với sự
trợ giúp của internet việc tiếp cận thông tin trở lên dễ dàng hơn bao giờ hết. Việc
khó khăn lúc này là tìm đúng nhất thông tin mình cần giữa bề bộn tri thức và đặc
biệt thông tin đó phải đáng tin cậy.
Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn
theo mong muốn nhưng vẫn chứa những nội dung thiết yếu nhất.
Khai phá dữ liệu: Từ rất nhiều tài liệu khác nhau phát hiện ra tri thức mới.
Thực tế để làm được điều này rất khó, nó gần như là mô phỏng quá trình học tập,
khám phá khoa học của con người, đây là lĩnh vực đang trong giai đoạn đầu phát
triển.
1.2.
Khát quát về kế thừa văn bản
Trong cuộc sống hằng ngày, bằng việc sử dụng ngôn ngữ tự nhiên,
chúng ta có thể diễn đạt một vấn đề theo nhiều cách khác nhau với các từ ngữ
và cấu trúc cú pháp khác nhau. Vấn đề biến đổi này trong biểu diễn ngữ nghĩa
có thể được xem như là vấn đề nhập nhằng trong ngôn ngữ tự nhiên. Các ứng
dụng trong xử lý ngôn ngữ tự nhiên như: hệ hỏi đáp (QA), trích xuất thông tin
(IE), tóm tắt văn bản (Summarization), và đánh giá dịch máy MT) cần một
6
mô hình cho hiện tượng biến đổi này để phát hiện xem một ý nghĩa cụ thể nào
đó có được suy luận ra từ các biến thể văn bản khác nhau hay không.
Vào năm 2004, phát hiện kế thừa văn bản (RTE) đã được đề xuất như một
bài toán tổng quát để thu thập các nhu cầu liên quan đến suy luận ngữ nghĩa trên
nhiều ứng dụng xử lý ngôn ngữ tự nhiên. Từ năm 2004 đến nay, hội nghị RTE đã tổ
chức thường niênhàng năm (RTE-1 đến RTE-8) nhằm mục đích đánh giá, so sánh
các phương pháp tiếp cận của các nhà nghiên cứu. Ba hội nghị RTE đầu tiên (RTE1 năm 2005, RTE-2 năm 2006 và RTE-3 năm 2007) được tổ chức tại chuỗi
PASCAL (Pattern Analysis, Statistical Modeling and Computational Learning). Các
hội nghị RTE còn lại (RTE-4 năm 2008,RTE-5 năm 2009, RTE-6 năm 2010, RTE-7
năm 2011 và RTE-8 năm 2012) được tổ chức thuộc hội nghị Phân tích xử lý văn
bản (TAC: Text Analysis Conference) của NIST (National Institute of Standards
and Technology). Hội nghị Phân tích và xử lý văn bản TAC được tổ chức để
khuyến khích nghiên cứu xử lý ngôn ngữ tự nhiên và các ứng dụng liên quan bằng
cách cung cấp tập các dữ liệu kiểm thử lớn, các thủ tục đánh giá và một diễn đàn để
các nhóm nghiên cứu chia sẻ kết quả của họ.
1.2.2. Khái niệm kế thừa văn bản
Hiện nay, khái niệm kế thừa văn bản có thể định nghĩa theo nhiều cách khác
nhau. Theo Glickman và Dagan [3], kế thừa văn bản là một mối quan hệ giữa một
văn bản T nhất quán T với một thể hiện ngôn ngữ của nó – giả thuyết H (H là một
hệ quả của T), ký hiệu là T → H nếu như ý nghĩa của H, đặt vào ngữ cảnh của T thì
có thể suy ra ý nghĩa của H. Một cách chung nhất thì văn bản T được gọi là kế thừa
giả thuyết H nếu như sự thật về H có thể suy luận được từ T. Điều này có nghĩa là T
bao hàm ý nghĩa của H khi đọc cả hai. Do vậy, ta có thể nói T kế thừa H khi một số
biểu diễn của H có thể trùng khớp (qua một số bước chuyển đổi bảo toàn ngữ nghĩa)
với một số (hoặc một phần của) các biểu diễn của T, ở một cấp độ chi tiết và trừu
tượng nhất định.
7
Dưới đây là một số ví dụ minh họa để giải thích về khái niệm kế thừa văn
bản.
STT
1
2
3
4
5
Văn bản
Giả thuyết
Bountiful đã tới saiu khi chiến tranh kết
thúc, cập vịnh San Francisco vào ngày 21
tháng 8 năm 1945.Bountiful sau đó được chỉ Bountiful đã tới San
định làm tài bệnh viện ở Yokosuka, khởi
Francisco vào tháng 8
hành từ San Francisco vào ngày 1 tháng 11 năm 1945.
năm 1945.
Tập đoàn Boeing đặt tại Chicago đã hủy bỏ
ba đơn hang vào năm 2006 mà Air Canada
đã đặt.
Dưới tiêu đề “Greed instead of quanlity”,
Die Tageszeitung của Đưucs nói chẳng có
điều tốt đẹp việc thâu tóm xuất bản Berliner
Verlag của hai quỹ đầu tư của Anh và Mỹ.
Scott Island đã được thuyền trưởng William
Colbeck người chỉ huy của Morning, con tài
cứu viện cho cuộc viễn chinh của thuyền
trưởng Robert F.Scott, tìm ra vào tháng 12
năm 1902
Chiếc xe hơi đã và vào hòm thư thuộc về
James Clark, 68 tuổi, một người quen của
gia đình James Jones.
Kế thừa
YES
Trụ sở của tập đoàn
Boeing năm ở
Canada
NO
Hai quỹ đầu tư của
Anh và Mỹ đã thâu
tóm Berliner Verlag.
YES
Thuyền trưởng Scott
đã đặt chân tới đảo
Scott Island vào
tháng 12 năm 1902
NO
Clark là người họ
hang của Jones
NO
Bảng 1.1: Ví dụ về kế thừa văn bản
1.2.3. Phát biểu bài toán phát hiện kế thừa văn bản
Bài toán phát hiện kế thừa văn bản là bài toán xác định quan hệ kế thừa giữa
văn bản T và giả thuyết H. Việc phân loại mối quan hệ kế thừa giữa văn bản và giả
thuyết có thể theo 2 cách dựa trên số nhãn kế thừa mà hệ thống gán cho một cặp
văn bản giả thuyết. Phân loại kế thừa 3 lớp bao gồm các nhãn :
Kế thừa: Khi T kế thừa H.
8
Mâu thuẫn: Khi T không kế thừa H.
Không xác định: Khi không có đủ điều kiện để xác định xem T kế
thừa H hay không.
Phân loại kế thừa 2 lớp: Trong phân loại 2 lớp, mối quan hệ mâu thuẫn và
không xác định đều được phân vào lớp “Không kế thừa”. 2 lớp sử dụng là:
Kế thừa: Khi T kế thừa H.
Không kế thừa: Khi nội dung trong T mẫu thuẫn với nội dung trong
H hoặc không xác định được quan hệ giữa T và H.
Hiện nay, đa số các hệ thống phát hiện kế thừa sử dụng sự phân lớp nhị
phân (hai nhãn). Việc phán quyết kế thừa được gán nhãn là YES/NO (YES:
trong trường hợp kế thừa và NO nếu ngược lại). Trong khóa luận này, em tiến
hành thực nghiệm theo nhãn nhị phân như trên.
Dựa trên tiếp cận về quan hệ kế thừa trên, bài toán được phát biểu như sau:
Đầu vào: Tập các cặp câu văn bản T và giả thuyết H thuộc cùng một chủ
đề.
Đầu ra: Gán nhãn kế thừa YES/NO với từng cặp.
1.3. Phát hiện kế thừa văn bản trên dữ liệu Twitter
1.3.1. Khái niệm
Sự bùng nổ thông tin được viết bằng các ngôn ngữ khác nhau trên web đã
giúp cho người sử dụng có cơ hội tiếp cận và truyền tải thông tin về một chủ đề
bằng ngôn ngữ của họ. Với sự phát triển nhanh chóng và mạnh mẽ của những mạng
xã hội hiện đại như ngày nay như: facebook, google +, twitter, v.v. Việc ứng dụng
phát hiện kế thừa văn bản trong hệ hỏi đáp (QA), trích xuất thông tin (IE), tóm tắt
văn bản (Summarization), và đánh giá dịch máy MT) cần một mô hình cho hiện
tượng biến đổi này để phát hiện xem một ý nghĩa cụ thể nào đó có được suy luận ra
từ các biến thể văn bản khác nhau. Đã có nhiều công trình nghiên cứu liên quan đến
bài toán phát hiện kế thừa văn bản theo các phương pháp khác nhau từ nhiều nguồn
dữ liệu mà Twitter là một nguồn dữ liệu phổ biến.
9
2.5
2
1.5
Facebook
Twitter
1
Google+
0.5
0
2015
2016
Qúy I - 2017
Hình 1.1: Số lượng người sử dụng một số mạng xã hội lớn[17]
Bài toán kế thừa văn bản dữ liệu trên mạng xã hội Twitter là một bài toán
nhằm phát hiện sự kế thừa về thực thể trên mạng xã hội Twitter. Tuy nhiên, việc kế
thừa văn bản với dữ liệu Twitter gặp khá nhiều khó khăn và thách thức. Khác với
các văn bản truyền thống, các tweet rất ngắn (tối đa 140 ký tự). Có thể nói mỗi
tweet chỉ là một câu hoặc một tiêu đề hơn là một tài liệu. Hơn nữa các tweet có rất
nhiều từ viết tắt, từ nóng, từ sai chính tả và viết không đúng cú pháp, chất lượng và
độ tin cậy thấp. Những yếu tố này làm giảm hiệu quả kế thừa văn bản dựa trên cách
xử lý truyền thống.
1.3.2. Phát biểu bài toán phát hiện kế thừa văn bản trên dữ liệu Twitter.
Phát hiện kế thừa văn bản là bài toán phát hiện mối quan hệ kế thừa giữa văn
bản T và giả thuyết H.[2] Bài toán được phát biểu như sau:
Đầu vào: Tập các cặp văn bản – giả thuyết thuộc cùng một chủ đề.
Đầu ra: Tập các cặp văn bản – giả thuyết đã được gán nhãn kế thừa “Entailment” /
“Contradiction”/“Unknown”.
- “Entailment”: tương ứng với trường hợp văn bản (T) kế thừa giả thuyết (H).
10
- “Contradiction”: tương ứng với trường hợp văn bản (T) mâu thuẫn kế thừa giả
thuyết (H).
- “Unknown”: tương ứng với trường hợp văn bản (T) không liên quan tới giả thuyết
(H).
Văn bản
STT
12 người hiện đã chết vì tay súng đã tấn
1
công Paris HQ của tạp chí Charlie Hebdo
URL
Giả thuyết
Kế thừa
11 người chết vì
một vụ tấn công
Tạp chí Paris. URL Contradiction
CharlieHebdo
URL
2
12 người hiện đã chết vì tay súng đã tấn
công Paris HQ của tạp chí Charlie Hebdo
Tạp chí Charlie
Hebdo URL đưa ra
con số là 12 người
URL
chết bởi một vụ bổ
Entailment
súng
12 người hiện đã chết vì tay súng đã tấn
3
công Paris HQ của tạp chí Charlie Hebdo
URL
Vụ nổ đánh bom
tại Paris làm nhiều
người chết và bị
thương do khủng
bố của IS
Bảng 1.2: Ví dụ kế thừa với ba nhãn
Unknown
- Xem thêm -