Đăng ký Đăng nhập
Trang chủ Nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng việt...

Tài liệu Nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng việt

.PDF
51
21
70

Mô tả:

Luận văn có thể áp dụng cho việc xây dựng công cụ tìm kiếm bản án có độ tương đồng nhất với tình huống pháp lý mà người dân gặp phải, qua đó người dân có thể biết trước được kết quả nếu đưa vụ việc ra tòa án giải quyết
; ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH MẠNH NGHIÊN CỨU CÁC PHƢƠNG PHÁP TÍNH TOÁN ĐỘ TƢƠNG TỰ CỦA VĂN BẢN LUẬT TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HÀ NỘI, 12/2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH MẠNH NGHIÊN CỨU CÁC PHƢƠNG PHÁP TÍNH TOÁN ĐỘ TƢƠNG TỰ CỦA VĂN BẢN LUẬT TIẾNG VIỆT Ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã Số: 8480101.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƢƠNG THÁI HÀ NỘI, 12/2020 LỜI CAM ĐOAN Tôi- Nguyễn Đình Mạnh – cam đoan luận văn này là công trình nghiên cứu của bản thân tôi dƣới sự hƣớng dẫn và chỉ bảo của PGS. TS Nguyễn Phƣơng Thái. Các kết quả nêu trong luận văn là trung thực và không sao chép toàn văn của bất kỳ công trình nào khác. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này. Hà Nội, ngày 16 tháng 12 năm 2020 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn đặc biệt tới PGS. TS Nguyễn Phƣơng Thái, ngƣời đã định hƣớng đề tài và tận tình hƣớng dẫn chỉ bảo tôi trong suốt quá trình thực hiện Luận văn cao học này. Tôi xin chân thành cảm ơn các Thầy, các Cô trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội đã tận tình giảng dạy và truyền đạt những kiến thức, kinh nghịm quý báu trong suốt khóa học của tôi. Cuối cùng, tôi xin cảm ơn tới nhƣng ngƣời thân, bạn bè luôn ở bên cạnh, động viên, chia sẻ cùng tôi trong quá trình học cao học cũng nhƣ quá trình thực hiện luận văn cao học. Xin chân thành cảm ơn! MỤC LỤC DANH MỤC KÝ HIỆU, VIẾT TẮT ............................................................................... i DANH MỤC CÁC BẢNG ..............................................................................................ii DANH MỤC ĐỒ THỊ, HÌNH VẼ ................................................................................. iii MỞ ĐẦU ......................................................................................................................... 1 CHƢƠNG 1. GIỚI THIỆU ............................................................................................. 2 1.1. Lý do chọn đề tài ...................................................................................................... 2 1.2. Mục đích đề tài ......................................................................................................... 2 1.3. Đối tƣợng đề tài ........................................................................................................ 3 1.4. Phƣơng pháp nghiên cứu .......................................................................................... 3 CHƢƠNG 2. KIẾN THỨC NỀN TẢNG ........................................................................ 4 2.1. Đặc điểm của văn bản tiếng Việt .............................................................................. 4 2.1.1. Cấu tạo từ tiếng Việt .............................................................................................. 4 2.1.2. Biến hình từ tiếng Việt........................................................................................... 5 2.1.3. Từ đồng nghĩa ........................................................................................................ 5 2.1.4. Đặc điểm chính tả .................................................................................................. 5 2.2. Đặc điểm của văn bản Luật tiếng Việt...................................................................... 6 2.3. Sự khác nhau giữa văn bản tiếng Việt và văn bản luật tiếng Việt ............................ 7 2.4. Tổng quan về bài toán đô độ tƣơng tự văn bản ........................................................ 7 2.4.1. Khái niệm về độ tƣơng tự văn bản......................................................................... 7 2.4.2. Ứng dụng của bài toán đo độ tƣơng tự giữa hai văn bản. ...................................... 8 2.5. Phƣơng pháp dựa trên thống kê. ............................................................................... 8 2.5.1. Khái niệm .............................................................................................................. 8 2.5.2. Độ đo tƣơng tự Jaccard .......................................................................................... 8 2.5.3. Độ đo TF-IDF ........................................................................................................ 9 2.6. Phƣơng pháp dựa trên mạng nơron học sâu. ............................................................ 9 2.6.1. Khái niệm học sâu ................................................................................................. 9 2.6.2. Một số ứng dụng của học sâu (Deep Learning) ................................................... 10 2.6.3. Một số phƣơng pháp theo hƣớng tiếp cận học sâu .............................................. 11 2.6.3.1. Mô hình biểu diễn từ bằng vector (Word2Vec)................................................ 11 2.6.3.2. Học chuyển (Transfer Learning) ...................................................................... 18 CHƢƠNG 3. CÁC PHƢƠNG PHÁP ĐO ĐỘ TƢƠNG TỰ GIỮA CÁC VĂN BẢN 22 3.1. Tiền xử lý dữ liệu .................................................................................................... 22 3.2. Vector hóa văn bản và tính độ tƣơng tự văn bản .................................................... 22 3.2.1. Mộ số phƣơng pháp theo tiếp cận thống kê ......................................................... 22 3.2.2. Phƣơng pháp học sâu ........................................................................................... 27 3.2.2.1. Sử dụng Word2Vec .......................................................................................... 27 3.2.2.2. Học biểu diễn vector cho các văn bản .............................................................. 28 3.2.2.3. Áp dụng học chuyển (transfer learning) để tăng chất lƣợng vector biểu diễn văn bản ........................................................................................................................... 28 3.3. Đánh giá mô hình .................................................................................................... 29 CHƢƠNG 4. THỰC NGHIỆM VÀ KẾT QUẢ ........................................................... 31 4.1. Môi trƣờng thực nghiệm và các công cụ sử dụng trong thực nghiệm .................... 31 4.2. Dữ liệu ................................................................................................................... 31 4.2.1. Thu thập dữ liệu ................................................................................................... 31 4.2.2. Xử lý dữ liệu ........................................................................................................ 32 4.3. Thực nghiệm ........................................................................................................... 32 4.3.1. Thực nghiệm với Phƣơng pháp Jacard ................................................................ 33 4.3.2. Thực nghiệm với phƣơng pháp TF-IDF .............................................................. 33 4.3.3. Thực nghiệm với phƣơng pháp Word2Vec ......................................................... 33 4.3.4. Thực nghiệm với phƣơng pháp Doc2Vec ........................................................... 33 4.3.5. Phƣơng pháp học chuyển ..................................................................................... 34 4.4. Kết quả .................................................................................................................... 34 4.4.1. Đánh giá các phƣơng pháp trên văn bản tiếng Anh ............................................. 34 4.4.2. Đánh giá các phƣơng pháp với truy vấn là 1 văn bản ......................................... 34 4.4.3. Đánh giá các phƣơng pháp với truy vấn là 1 đoạn văn ngắn............................... 38 CHƢƠNG 5: KẾT LUẬN VÀ CÔNG VIỆC TRONG TƢƠNG LAI ......................... 40 5.1. Kết luận ................................................................................................................... 40 5.2. Công việc trong tƣơng lai ....................................................................................... 40 TÀI LIỆU THAM KHẢO ............................................................................................. 41 DANH MỤC KÝ HIỆU, VIẾT TẮT Kí hiệu CNTT Giải thích Công Nghệ Thông Tin NLP Neuro – Linguistic – Programming RNN Recurrent Neural Network LSTM Long Short Term Memory networks PCFG Probabilistic Context Free Grammar AI Artificial intelligence DNN Deep Neural Network i DANH MỤC CÁC BẢNG Bảng 1: Biểu diễn văn bản theo TF............................................................................... 24 Bảng 2:Biểu diễn văn bản theo IDF .............................................................................. 25 Bảng 3: Thống kê dữ liệu của văn bản luật .................................................................. 32 Bảng 4: So sánh kết quả 2 phƣơng pháp Word2Vec và Doc2Vec. ............................. 34 Bảng 5: Kết quả các phƣơng pháp theo tiếp cận thống kê. .......................................... 35 Bảng 6: Kết quả các phƣơng pháp theo tiếp cận học sâu. ............................................ 35 Bảng 7: Kết quả của các phƣơng pháp học chuyển cải tiến và chƣa có cải tiến .......... 36 Bảng 8: Kết quả các phƣơng pháp theo tiếp cận thống kê và học sâu. ......................... 38 ii DANH MỤC ĐỒ THỊ, HÌNH VẼ Hình 2.1: Mô hình Word2Vec ..................................................................................... 12 Hình 2.2: Mô hình Skip-gram dạng tổng quát ............................................................. 13 Hình 2.3: Minh họa đầu vào và đầu ra của mô hình Skip-gram.................................. 13 Hình 2.4: Minh họa đầu vào và đầu ra của mô hình CBOW....................................... 15 Hình 2.5: Mô hình CBOW dạng tổng quát .................................................................. 15 Hình 2.6: Mô hình học chuyển .................................................................................... 18 iii MỞ ĐẦU Nghị quyết số 08-NQ/TW ngày 02/01/2002 của Bộ Chính trị về “Một số nhiệm vụ trọng tâm công tác tư pháp trong thời gian tới” và Nghị quyết số 49-NQ/TW ngày 02/06/2005 của Bộ Chính trị về “Chiến lược cải cách tư pháp đến năm 2020” đã đề ra các nhiệm vụ cải cách nền tƣ pháp của nƣớc ta, trong đó có nhiệm vụ “đổi mới thủ tục hành chính trong cơ quan tư pháp tư pháp nhằm tạo điều kiện thuận lợi cho người dân tiếp cận công lý; … từng bước thực hiện việc công khai hóa các bản án…”. Thực hiện theo chỉ đạo này các văn bản Luật đã đƣợc số hóa và phổ biến đến ngƣời dân ngày một nhiều. Lãnh đạo ngành Tòa án cũng chỉ đạo sát sao việc ứng dụng CNTT để nâng cao hiệu quả công việc của ngành Tòa án, cụ thể là việc phần mềm Công khai bản án đã đƣợc ra đời cung cấp bản án tới ngƣời dân, để họ có thể tìm kiếm các bản án có trƣờng hợp pháp lý tƣơng tự trƣờng hợp mình đang gặp phải. Họ có thể biết trƣợc đƣợc kết quả của việc kiện tụng, khi đó thay vì phải đƣa vụ việc ra Tòa thì một giải pháp khả thi hơn đó là hòa giải để 2 bên đều có lơi, cũng là giảm bớt áp lực công việc cho ngành Tòa án. Để làm đƣợc nhƣ vậy thì phần mềm cần phải hỗ trợ ngƣời dùng nhiều hơn nữa, không chỉ dừng lại ở việc tra cứu theo từ khóa cơ bản mà phải hỗ trợ việc tra cứu theo nội dung ngữ nghĩa của văn bản. Hiện nay, cũng có một vài công trình nghiên cứu để xuất các phƣơng pháp khác nhau để xác định độ tƣơng đồng của văn bản tiếng Việt song vẫn chiếm tỉ lệ khá khiêm tốn so với các công trình nghiên cứu trên văn bản tiếng Anh. Do đặc điểm của từ tiếng Việt cũng có nhiều điểm khác với tiếng Anh, đặc biệt là văn bản Luật tiếng Việt. Việc xử lý văn bản và xây dựng kho ngữ liệu chuẩn và đầy đủ là một thách thức lớn. Vì những lý do này, chúng tôi đã chọn đề tài luận văn là “Nghiên cứu các phƣơng pháp tính toán độ tƣơng tự của văn bản luật tiếng Việt” nhằm nghiên cứu các phƣơng pháp đo độ tƣơng tự và thử nghiện các mô hình tính toán độ tƣơng tự, từ đây đƣa ra để xuất mô hình phù hợp nhất với miền dữ liệu văn bản luật tiếng Việt. Nội dung luật văn gồm:  Chƣơng 1. Giới thiệu tổng quan luận văn, mục đích và nội dung nghiên cứu.  Chƣơng 2. Đƣa ra một cái nhìn tổng quan về các kiến thức nền tảng trong bài toán đo độ tƣơng tự giữa các văn bản.  Chƣơng 3. Các phƣơng pháp tính toán độ tƣơng tự cho miền dữ liệu văn bản Luật tiếng Việt.  Chƣơng 4. Thể hiện chi tiết về tập dữ liệu đƣợc sử dụng, các cài đặt cho thực nghiệm và kết quả của thực nghiệm.  Chƣơng 5. Tóm tắt lại công việc của luận văn và đƣa ra các công việc trong tƣơng lai. 1 CHƢƠNG 1. GIỚI THIỆU 1.1. Lý do chọn đề tài Nghị quyết số 08-NQ/TW ngày 02/01/2002 của Bộ Chính trị về “Một số nhiệm vụ trọng tâm công tác tƣ pháp trong thời gian tới” và Nghị quyết số 49-NQ/TW ngày 02/06/2005 của Bộ Chính trị về “Chiến lƣợc cải cách tƣ pháp đến năm 2020” đã đề ra các nhiệm vụ cải cách nền tƣ pháp của nƣớc ta, trong đó có nhiệm vụ “đổi mới thủ tục hành chính trong cơ quan tƣ pháp tƣ pháp nhằm tạo điều kiện thuận lợi cho ngƣời dân tiếp cận công lý; … từng bƣớc thực hiện việc công khai hóa các bản án…”. Thực hiện theo chỉ đạo này, các văn bản Luật đã đƣợc số hóa và phổ biến đến ngƣời dân ngày một nhiều. Tuy nhiên, việc khai thác các thông tin tài liệu pháp lý cũng gặp rất nhiều khó khăn do các phần mềm mới chỉ dừng lại ở mức cho phép ngƣời dùng tìm kiếm theo từ khóa, phân loại tố tụng mà chƣa cung cấp đƣợc một công cụ tìm kiếm theo tình huống pháp lý mà ngƣời dân mô tả để đƣa ra đƣợc văn bản pháp lý (Bản án) có độ tƣơng tự nhất với trƣờng hợp pháp lý mình đang gặp phải. Hay việc đối sánh chính xác văn bản với nhau để tìm ra sự sai sót trong áp dụng pháp luật. Nếu làm đƣợc điều này thì sẽ giải quyết đƣợc nhƣng vấn đề sau: - - Thay vì đƣa nhau ra Tòa, các bên tham gia vụ việc sẽ tiến hành hòa giải bởi họ biết trƣớc đƣợc kết quả nếu đƣa vụ án ra xét xử thông qua bản án đã từng giải quyết trƣớc đó. Qua đó giảm bớt áp lực công việc cho ngành Tòa án. Các nhà quản lý sẽ biết đƣợc các bản án đã ra có áp dụng pháp luật đúng hay không thông qua việc đối sánh các bản án với nhau, nếu 2 bản án có độ tƣơng đồng cao mà lại có kết quả xét xử khác nhau nhƣ vậy việc áp dụng pháp luật tại 1 trong 2 bản án có vấn đề. Từ đây họ sẽ điều chỉnh để hạn chế oan sai cho ngƣời dân, Hiện nay, cũng có một vài công trình nghiên cứu để xuất các phƣơng pháp khác nhau để xác định độ tƣơng đồng của văn bản tiếng Việt song vẫn chiếm tỉ lệ khá khiêm tốn so với các công trình nghiên cứu trên văn bản tiếng Anh. Do đặc điểm của từ tiếng Việt cũng có nhiều điểm khác với tiếng Anh, đặc biệt lại là văn bản Luật tiếng Việt. Việc xử lý văn bản và xây dựng đƣợc kho ngữ liệu chuẩn và đầy đủ là một vấn đến lớn. Vì những lý do này, chúng tôi đã chọn tài liệu pháp lý làm miền dữ liệu chính cho luận văn. 1.2. Mục đích đề tài Nghiên cứu tổng quan vấn đề xử lý văn bản tiếng Việt và một số phƣơng pháp đánh giá độ tƣơng tự văn bản tiếng Việt. Nghiên cứu đặc điểm của văn bản luật tiếng Việt, xây dựng mô hình biểu diễn văn bản luật tiếng Việt nhằm cải tiến các phép đo độ tƣơng đồng. Thử nghiệm các phƣơng pháp tính toán độ tƣơng tự văn bản và đề xuất một phƣơng pháp phù hợp nhất với miền dữ liệu văn bản luật tiếng Việt. Xây dựng bộ dữ liệu văn bản luật tiếng Việt (Bản án) phục vụ cho các nghiên cứu về sau. 2 1.3. Đối tƣợng đề tài Nghiên cứu một số mô hình tính toán độ tƣơng tự văn bản cả về cú pháp và ngữ nghĩa, xác định sự tƣơng đồng của văn bản dựa trên từ, câu và toàn bộ văn bản và ứng dụng trong văn bản luật tiếng Việt. Thực nghiệm các phép đo độ tƣơng tự đang đƣợc áp dụng từ đây đề xuất ra phƣơng pháp để cải thiện phép đo độ tƣơng tự với miền dữ liệu văn bản luật tiếng Việt. 1.4. Phƣơng pháp nghiên cứu Nghiên cứu lý thuyết về mô hình tính độ tƣơng đồng văn bản, các mô hình biểu diễn văn bản và ứng dụng các mô hình vào việc thử nghiệm các phƣơng pháp đo độ tƣơng tự văn bản luật tiếng Việt. Đề xuất giải pháp nhằm nâng cao hiệu xuất tính toán độ tƣơng tự của văn bản luật tiếng Việt. 3 CHƢƠNG 2. KIẾN THỨC NỀN TẢNG 2.1. Đặc điểm của văn bản tiếng Việt Văn bản tiếng Việt là một loại hình phƣơng tiện để ghi nhận, lƣu giữ và truyền đạt các thông tin từ chủ thể này sang chủ thể khác bằng ký hiệu gọi là chữ viết tiếng Việt. Nó gồm tập hợp các câu có tính trọn vẹn về nội dung, hoàn chỉnh về hình thức, có tính liên kết chặt chẽ và hƣớng tới một mục tiêu giao tiếp nhất định. Hay nói cách khác, văn bản tiếng Việt là một dạng sản phẩm của hoạt động giao tiếp bằng ngôn ngữ đƣợc thể hiện ở dạng viết trên một chất liệu nào đó (giấy, bia đá,...). Văn bản bao gồm các tài liệu, tƣ liệu, giấy tờ có giá trị pháp lý nhất định, đƣợc sử dụng trong hoạt động của các cơ quan Nhà nƣớc, các tổ chức chính trị, chính trị - xã hội, các tổ chức kinh tế... nhƣ: các văn bản pháp luật, các công văn, tài liệu, giấy tờ. Do văn bản đƣợc viết bằng ngôn ngữ tiếng Việt vậy nên nó mang mọi đặc điểm của ngôn ngữ tiếng Việt. 2.1.1. Cấu tạo từ tiếng Việt Tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính, tức là mỗi một tiếng (âm tiết) đƣợc phát âm tách rời nhau và đƣợc thể hiện bằng một chữ viết [3]. Hai đặc trƣng này chi phối toàn bộ toàn bộ tổ chức bên trong của hệ thống ngôn ngữ Việt và cần đƣợc chú ý khi xử lý tiếng Việt trên máy tính. a) Tiếng Tiếng là đơn vị cơ sở để cấu tạo lên từ. Tiếng là đơn vị nhỏ nhất có nội dung đƣợc thể hiện. Xét về mặt ý nghĩa, các tiếng có thể chia thành các loại sau [2]: - Tiếng tự thân nó đã có ý nghĩa, thƣờng đƣợc quy chiếu vào một đối tƣợng, khái niệm. Ví dụ: trời, đất, nƣớc, cây, cỏ… - Tiếng tự thân nó không có ý nghĩa, không đƣợc quy chiếu vào đối tƣợng, khái niệm nào cả mà chúng thƣờng đi cùng với một tiếng khác có nghĩa và làm thay đổi sắc thái của tiếng đó, ví dụ nhƣ: (xanh) lè, (đƣờng) xá, (nắng) nôi… - Tiếng tự thân nó không có ý nghĩa nhƣng có thể ghép với nhau để tạo thành từ có nghĩa, thƣờng xuyên gặp ở những từ mƣợn nhƣ phéc-mơ-tuya, a-pa-tít, mìchính... Trong tiếng Việt các tiếng thuộc nhóm đầu tiên chiếm đa số, các tiếng thuộc hai nhóm sau thƣờng chỉ chiếm số ít, đặc biệt là nhóm thứ 3, chúng thƣờng đƣợc gọi là tiếng vô nghĩa. b) Từ, cụm từ Từ đƣợc cấu tạo từ một hoặc nhiều tiếng. Từ cấu tạo từ một tiếng gọi là từ đơn, ví dụ: tôi, bạn, nhà, hoa… Từ cấu tạo bởi nhiều tiếng là từ ghép, giữa các tiếng có mối quan hệ về nghĩa. Từ ghép đƣợc phân thành từ ghép đẳng lập và từ ghép chính phụ. Đối với từ ghép đẳng lập các thành phần cấu tạo từ có mối quan hệ bình đẳng với nhau về nghĩa, ví dụ: ăn nói, bơi lội… Đối với từ ghép chính phụ, các thành phần cấu tạo từ có mối 4 quan hệ phụ thuộc với nhau về nghĩa, thành phần phụ có vai trò làm chuyên biệt hóa, tạo sắc thái cho thành phần chính, ví dụ: hoa hồng, đƣờng sắt… Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp với nhau theo những quan hệ ngữ pháp nhất định. Ví dụ: - Từ “học” là từ gồm một tiếng. Từ “đại học” là từ gồm hai tiếng. Cụm từ “khoa học máy tính” gồm 2 từ hay 4 tiếng. 2.1.2. Biến hình từ tiếng Việt Tiếng Việt không có hiện tƣợng biến hình từ bằng những phụ tố mang ý nghĩa ngữ pháp bên trong từ nhƣ tiếng Anh [3]. Tuy nhiên, tiếng Việt cũng có một số hình thức biến hình nhƣ trƣờng hợp thêm từ “sự” trƣớc một động từ để biến nó thành danh từ hay thêm tiếng “hóa” sau một danh từ để biến nó thành động từ tƣơng đƣơng, ví dụ nhƣ “lựa chọn” và “sự lựa chọn”, “tin học” và “tin học hóa”. 2.1.3. Từ đồng nghĩa Từ đồng nghĩa là những từ tƣơng đồng với nhau về nghĩa nhƣng khác nhau về âm thanh và phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc phong cách nào đó, hoặc đồng thời cả hai [3]. Những từ đồng nghĩa với nhau lập thành một nhóm gọi là nhóm đồng nghĩa. Ví dụ: dễ, dễ dàng, dễ dãi là những nhóm từ đồng nghĩa. Từ đồng nghĩa thực chất không phải là những từ trùng nhau hoàn toàn về nghĩa mà có những khác biệt nhất định. Chính sự khác biệt đó là lí do tồn tại và làm nên sự khác nhau giữa các từ trong một nhóm từ đồng nghĩa. Thông thƣờng các từ chỉ đồng nghĩa ở một nghĩa, một ngữ cảnh nào đó. Vì thế, một từ có nhiều nghĩa (đa nghĩa) có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau. Ví dụ, từ “coi” có thể tham gia vào các nhóm nhƣ coi – xem (coi hát, xem hát), coi – giữ (coi nhà, giữ nhà). 2.1.4. Đặc điểm chính tả Đặc điểm chính tả tiếng Việt có ý nghĩa rất quan trọng trong các hệ thống xử lý dữ liệu văn bản. Một số đặc điểm chính tả tiếng Việt cần quan tâm nhƣ [3]: - Các tiếng đồng âm: kĩ/kỹ, lí, lý… thƣờng bị sử dụng lẫn nhau nhƣ: lý luận, lí luận, kĩ thuật, kỹ thuật… - Các từ địa phƣơng: một số từ địa phƣơng sử dụng thay cho các từ phổ thông, chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc… - Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu đƣợc đặt trên nguyên âm có ƣu tiên cao nhất. Tuy nhiên, khi soạn thảo văn bản nhiều bộ gõ không tuân thủ nguyên tắc này nên có hiện tƣợng dấu đƣợc đặt ở các vị trí khác nhau, chẳng hạn: toán, tóan, thuý, thúy… - Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa, tuy nhiên vẫn tồn tại một số cách viết tuỳ tiện. - Phiên âm tiếng nƣớc ngoài: tồn tại cách viết giữ nguyên gốc tiếng nƣớc ngoài và phiên âm ra tiếng Việt, ví dụ: Singapore/Xin−ga−po. 5 - Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt đƣợc giữa nối tên riêng hay chú thích. Ký tự ngắt câu: sử dụng nhiều loại ký tự đặc biệt nhƣ “.”, “;”, “!”, “?”, “…” ngăn cách giữa các câu hoặc các vế câu trong câu ghép. 2.2. Đặc điểm của văn bản Luật tiếng Việt a) Khái niệm Văn bản luật tiếng Việt là một bộ phận của văn bản tiếng Việt, nó mang đầy đủ đặc tính của văn bản tiếng Việt. Văn bản luật tiếng Việt hay văn bản pháp luật [4] “là một hình thức để chủ thể mang thẩm quyền thể hiện ý chí, được thể hiện dưới dạng ngôn ngữ viết thông qua văn bản, bàn hành qua các hình thức, thủ tục mà pháp luật đã quy định”. Văn bản luật tiếng Việt là đƣợc chia làm 03 nhóm gồm: văn bản pháp luật, văn bản áp dụng pháp luật và văn bản hành chính. Mỗi nhóm trong hệ thống VBPL còn có một số nét đặc thù về nội dung, tính chất và vai trò trong quản lý nhà nƣớc.  Văn bản quy phạm pháp luật Văn bản quy phạm pháp luật [4] là văn bản do cơ quan nhà nước ban hành hoặc phối hợp ban hành theo thẩm quyền, hình thức, trình tự, thủ tục được quy định trong Luật này hoặc trong Luật ban hành văn bản quy phạm pháp luật của Hội đồng nhân dân, Uỷ ban nhân dân, trong đó có quy tắc xử sự chung, có hiệu lực bắt buộc chung, được Nhà nước bảo đảm thực hiện để điều chỉnh các quan hệ xã hội. Có hai cách để nhận biết đâu là một văn bản Quy phạm pháp luật. - Thứ nhất là nhìn vào cách trình bày văn bản, nhƣ trong mỗi văn bản luật đều có chứa kèm theo số năm ban hành văn bản hay có mô típ quen thuộc nhƣ sau: Nghị quyết số 01/2005/NQ-HĐTP; điểm a và e khoản 1 Điều 93; khoản 1 Điều 133… - Thứ hai, có thể nhận biết văn bản luật là gì thông qua hai yếu tố là cơ quan ban hành và loại văn bản, cụ thể nhƣ sau:  Quốc hội ban hành Hiến pháp, luật, Nghị quyết.  Ủy ban Thƣờng vụ Quốc hội ban hành Nghị quyết, Pháp lệnh, Nghị quyết liên tịch.  Hội đồng thẩm phán Tòa án Nhân dân tối cao ban hành Nghị quyết.  Chánh án Tòa án Nhân dân tối cao ban hành Thông tƣ và Thông tƣ liên tịch.  …  Văn bản áp dụng pháp luật - Thứ nhất, văn bản áp dụng pháp luật ban hành ra dƣới dạng quy định do những cơ quan nhà nƣớc, cá nhân hoặc tổ chức xã hội đƣợc nhà nƣớc ủy quyền áp dụng pháp luật ban hành và đƣợc bảo đảm thực hiện trong trƣờng hợp cần thiết bằng cƣỡng chế nhà nƣớc. Chỉ những chủ thể có có thẩm quyền về những nội dung trong văn bản do pháp luật quy định mới có thẩm quyền ban hành văn bản áp dụng pháp luật. Nếu văn bản áp dụng pháp luật mà nội dung ban hành xác định về nội dung đƣợc ban hành bởi cá nhân hay tổ chức mà pháp luật không quy định về thẩm quyền 6 ban hành thuộc cá nhân hay cơ quan tổ chức ban hành đó thì văn bản áp dụng pháp luật đó không có hiệu lực pháp luật. - Thứ hai, văn bản áp dụng pháp luật đƣợc thể hiện trong những hình thức pháp lý dƣới các dang hình thức nhất định nhất định nhƣ: bản án, quyết định, lệnh,… - Hình thức của văn bản pháp luật bao gồm tên gọi và thể thức của văn bản pháp luật. Đối với văn bản áp dụng pháp luật thì tên gọi do pháp luật quy định, tùy thuộc vào tính chất công việc mà văn bản áp dụng pháp luật có tên gọi khác nhau, đồng thời thông qua tên gọi của văn bản áp dụng pháp luật ta có thể nhận biết đƣợc cơ quan nào có thẩm quyền ban hành văn bản áp dụng pháp luật đó.  Văn bản hành chính - là loại văn bản thƣờng dùng để truyền đạt những nội dung và yêu cầu nào đó từ cấp trên xuống hoặc bày tỏ những ý kiến, nguyện vọng của cá nhân hay tập thể tới các cơ quan và ngƣời có quyền hạn để giải quyết. - Văn bản hành chính là loại văn bản mang tính thông tin quy phạm Nhà nƣớc, cụ thể hóa việc thi hành văn bản pháp quy, giải quyết những vụ việc cụ thể trong khâu quản lý, nhƣ: quyết định nâng lƣơng, quyết định kỉ luật, thông báo, giấy mời họp... 2.3. Sự khác nhau giữa văn bản tiếng Việt và văn bản luật tiếng Việt Văn bản luật tiếng Việt là bộ phận của văn bản tiếng Việt do đó nó mang đầy đủ đặc tính của văn bản tiếng Việt, chỉ khác nó chứa nhiều thuật ngữ pháp lý. Những thuật ngữ dùng để chỉ về những khái niệm thƣờng dùng trong khoa học pháp lý hoặc các văn bản pháp luật và dùng để chỉ, mô tả một cách khái quát nhất, cô đọng nhất các hiện tƣợng, nội dung, trạng thái pháp lý. Thuật ngữ pháp lý cốt lõi chính là những định nghĩa, khái niệm về các hiện tƣợng, sự vật trong hệ quy chiếu pháp luật. Thuật ngữ pháp lý có ý nghĩa rất lớn đối với việc nghiên cứu khoa học pháp lý cũng có ý nghĩa quan trọng trong việc giải thích các quy định của pháp luật. 2.4. Tổng quan về bài toán đô độ tƣơng tự văn bản 2.4.1. Khái niệm về độ tương tự văn bản Độ tƣơng tự văn bản (document similarity) hay khoảng cách giữa các văn bản là một trong những bài toán trọng tâm của truy hồi thông tin (information retrieval) [11]. Việc đo lƣờng mức độ giống nhau của các văn bản đóng một vai trò quan trọng trong nhiều bài toán nhƣ: tìm kiếm thông tin dựa trên nội dung của tài liệu [12], phân nhóm tài liệu dựa vào sự tƣơng đồng về nội dung [13][14], … Độ tƣơng tự văn bản là một đại lƣợng dùng để so sánh hai hay nhiều tài liệu văn bản với nhau. Đại lƣợng này đặc trƣng cho mức độ liên quan về ngữ nghĩa giữa các văn bản. Xét ví dụ gồm hai câu “Tôi thích xem phim” và “Tôi yêu phim”, Có thể thấy rằng hai câu trên có độ tƣơng đồng về ngữ nghĩa rất cao. Theo tác giả Nguyễn Kim Anh [5] thì độ tƣơng tự giữa hai văn bản ngoài việc so khớp từ đơn giản, điểm tƣơng tự còn đƣợc xác định dựa trên số đơn vị từ vựng xuất hiện ở cả hai văn bản. Đặc biệt cần phải quan tâm tới hiện tƣợng đồng nghĩa của từ, tầm quan trọng của từ nhƣ tần suất xuất hiện, vị trí xuất hiện của từ và câu trong văn bản. 7 Để xem xét độ tƣơng tự văn bản, ta cần xét văn bản ở trong 2 khía cạnh là độ tƣơng tự giữa từ của hai văn bản và độ tƣơng tự về ngữ nghĩa.  Độ tƣơng tự của từ là khái niệm thể hiện tỷ lệ dựa trên tập từ chung của hai văn bản.  Độ tƣơng tự ngữ nghĩa là khái niệm thể hiện tỷ lệ dựa trên sự giống nhau về nội dung ý nghĩa của tập các văn bản. Độ tƣơng tự về ngữ nghĩa giữa 2 văn bản thể hiện mối quan hệ về ngữ nghĩa giữa các từ, các câu trong văn bản. Theo tác giả Đỗ Thị Thanh Nga thì độ tƣơng tự ngữ nghĩa là khái niệm thể hiện tỷ lệ dựa trên sự giống nhau về nội dung ý nghĩa của tập các tài liệu hoặc các thuật ngữ trong một danh sách các thuật ngữ [1]. Độ tƣơng đồng ngữ nghĩa phản ánh mối quan hệ ngữ nghĩa giữa các câu và các tài liệu văn bản. Xét hai văn bản d1 và d2. Mục tiêu của luận văn này nhắm đến việc đo lƣờng giá trị S(d1,d2), thể hiện hiện độ tƣơng tự giữa hai văn bản d1 và d2. Giá trị S càng cao thì sự giống nhau về ngữ nghĩa của hai văn bản càng cao. 2.4.2. Ứng dụng của bài toán đo độ tương tự giữa hai văn bản. Bài toán đo độ tƣơng tự giữa văn bản và văn bản đƣợc cả thế giới quan tâm nghiên cứu từ rất lâu trong các ứng dụng của xử lý ngôn ngữ tự nhiên và các lĩnh vực liên quan. Các ứng dụng phải kể đến nhƣ tìm kiếm thông tin, các tài liệu liên quan sẽ đƣợc xếp hạng theo thứ tự của độ tƣơng tự. Ngoài ra, độ tƣơng tự văn bản còn đƣợc ứng dụng cho bài toán phân lớp văn bản, tóm tăt văn bản, bài toán xác định đạo văn... Gần đây nhất là bài toán hỗ trợ pháp lý cũng đặc biệt đƣợc quan tâm và nghiên cứu. Các phép đo độ tƣơng tự giữa văn bản và văn bản chủ yếu dựa trên hai tiếp cận chính là các tiếp cận thống kê và các tiếp cận dựa trên mạng nơron học sâu (deep learning) 2.5. Phƣơng pháp dựa trên thống kê. 2.5.1. Khái niệm Các phƣơng pháp theo tiếp cận thống kê đánh giá độ tƣơng tự giữa hai văn bản dựa trên tần suất xuất hiện của các từ trong câu. Độ tƣơng tự đo đƣợc tỷ lệ thuận với kích thƣớc của tập từ chung giữa hai văn bản. Một số phƣơng pháp tiêu biểu theo tiếp cận này nhƣ: các phƣơng pháp sử dụng độ đo Cosine, độ đo khoảng cách Eclide, Manhattan, phƣơng pháp độ đo Jaccard, phƣơng pháp TF-IDF[19],… Các phƣơng pháp này tốc độ xử lý nhanh, tốn ít chi phí nhƣng độ chính xác không cao về mặt ngữ nghĩa, do chƣa quan tâm đến ngữ nghĩa trong văn bản mà chỉ quan tâm đến số lƣợng từ chung giữa hai văn bản. 2.5.2. Độ đo tương tự Jaccard Đây là một trong những độ đo đầu tiên đƣợc sử dụng để đánh giá mức độ tƣơng đồng ngữ nghĩa giữa các văn bản bằng cách so khớp mức độ trùng lặp giữa các từ của hai văn bản với nhau. Ƣu điểm của phƣơng pháp này là tốc độ nhanh và không cần phải huấn luyện mô hình trƣớc. Nhƣợc điểm của phƣơng pháp này là không so khớp đƣợc mức độ ngữ nghĩa giữa các văn bản cũng nhƣ không biết đƣợc mức độ quan 8 trọng khác nhau của các từ trong văn bản. Chi tiết về phƣơng pháp này đƣợc trình bày trong phần sau của luận văn. 2.5.3. Độ đo TF-IDF Đây là độ đo rất nổi tiếng, đƣợc sử dụng trong nhiều bài toán NLP và khai phá dữ liệu dạng văn bản với mục đích: tính weight (độ quan trọng) của từ (word) trong một văn bản cụ thể, văn bản đó nằm trong một tập nhiều văn bản khác nhau. Cách tiếp cận này đƣợc sử dụng rộng rãi bởi tốc độ tính toán nhanh và kết quả nó đem lại cũng khá tốt. Nó thƣờng đƣợc sử dụng để làm một bƣớc lọc cho nhiều bài toán. Ví dụ nhƣ bài toán hỏi-đáp theo tiếp cận truy hồi câu trả lời [17]. Trong bài toán này, ta đã có một ngân hàng chứa hàng tỷ câu trả lời thuộc mọi lĩnh vực, mỗi khi có một câu hỏi, chƣơng trình sẽ tìm câu trả lời thích hợp trong ngân hàng câu trả lời đó. Nếu sử dụng các kĩ thuật học sâu phức tạp thì việc tìm kiếm trong tập câu trả lời khổng lồ nhƣ vậy là không hiệu quả trong một khoảng thời gian nhất định (các hệ thống hỏi đáp thƣờng yêu cầu realtime). Chính vì thế, bƣớc đầu tiên chúng ta cần rút gọn tập câu trả lời tiềm năng bằng cách dùng độ đo TF-IDF để chọn ra tốp k câu trả lời tốt nhất, sau đó mới áp dụng các kĩ thuật phức tạp khác để tìm ra câu trả lời tốt nhất trong k câu trả lời tiềm năng kia. Đây cũng là một tiếp cận đƣợc lựa chọn để thử nghiệm cho bài toán của chúng tôi và chi tiết phƣơng pháp sẽ đƣợc trình bày trong phần sau. 2.6. Phƣơng pháp dựa trên mạng nơron học sâu. 2.6.1. Khái niệm học sâu Học sâu (deep learning) là một chi của ngành máy học dựa trên một tập hợp các thuật toán để cố gắng mô hình dữ liệu trừu tƣợng hóa ở mức cao bằng cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến đổi phi tuyến. Học sâu là một phần của một họ các phƣơng pháp học máy rộng hơn dựa trên đại diện học của dữ liệu. ví dụ nhƣ, một hình ảnh có thể đƣợc biểu diễn bằng nhiều cách nhƣ một vector của các giá trị cƣờng độ cho mỗi điểm ảnh, hoặc một cách trừu tƣợng hơn nhƣ là một tập hợp các cạnh, các khu vực hình dạng cụ thể, vv Các nghiên cứu trong lĩnh vực này cố gắng thực hiện các đại diện tốt hơn và tạo ra các mô hình để tìm hiểu các đại diện này từ dữ liệu không dán nhãn quy mô lớn. Một số đại diện đƣợc lấy cảm hứng bởi những tiến bộ trong khoa học thần kinh và đƣợc dựa trên các giải thích của mô hình xử lý và truyền thông thông tin trong một hệ thống thần kinh, chẳng hạn nhƣ mã hóa thần kinh để cố gắng để xác định các mối quan hệ giữa các kích thích khác nhau và các phản ứng liên quan đến thần kinh trong não. Nhiều kiến trúc mạng nơron học sâu khác đã đƣợc áp dụng cho các lĩnh vực nhƣ thị giác máy tính, tự động nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên, nhận dạng tiếng nói và tin sinh học. Các mô hình học sâu đã đạt đƣợc kết quả rất tốt đối với nhiều nhiệm vụ NLP khác nhau 9 Hƣớng tiếp cận này có nhiều ứng dụng nhƣ: Hệ thống nhận diện hình ảnh nhƣ Google Photos, Google Search, Google Drive; hay các hệ thống nhận dạng giọng nói thƣơng mại nhƣ Cortana, Xbox, Skype Translator… 2.6.2. Một số ứng dụng của học sâu (Deep Learning) a. Nhân dạng giọng nói Nhận dạng giọng nói tự động quy mô lớn là trƣờng hợp thành công dầu tiên và thuyết phục nhất của học sâu. Các mạng nơ ron hồi quy LSTM có thể học các nhiệm vụ “học rất sâu” liên quan đến các khoảng thời gian nhiều giây có chứa các sự kiện lời nói cách nhau bởi hàng ngàn bƣớc thời gian riêng biệt, trong đó một bƣớc thời gian tƣơng ứng với 10 ms. Sự ra đời của DNN (Deep Neural Network – mạng nơ ron sâu) để nhận dạng giọng nói và LSTM đã đẩy nhanh quá trình phát triển học sâu. Ngày nay tất cả các hệ thống nhận dạng giọng nói thƣơng mại nhƣ Cortana, Xbox, Skype Translator… đều dựa trên học sâu. b. Dịch các ngôn ngữ Các mạng nơ-ron đã đƣợc sử dụng để thực hiện các mô hình ngôn ngữ từ những năm 2000. LSTM đã giúp cải thiện các hệ thống dịch máy và mô hình hóa ngôn ngữ. Các kỹ thuật quan trọng khác trong lĩnh vực này là lấy mẫu âm tính và nhúng từ. Nhúng từ, chẳng hạn nhƣ Word2Vec [15], có thể đƣợc coi là một lớp biểu diễn trong kiến trúc học sâu, biến một từ nguyên tử thành một biểu diễn vị trí của từ so với các từ khác trong tập dữ liệu; vị trí đƣợc biểu diễn dƣới dạng một điểm trong không gian vector. Sử dụng nhúng từ làm lớp đầu vào của RNN cho phép phân tích các câu và cụm từ bằng cách sử dụng một ngữ pháp vector thành phần hiệu quả. Một ngữ pháp vector thành phần có thể đƣợc coi là ngữ pháp tự do ngữ cảnh xác suất (PCFG) đƣợc thực hiện bởi một RNN. Bộ mã hóa tự động đệ quy đƣợc xây dựng trên các từ nhúng để đánh giá độ tƣơng tự của câu và phát hiện phép diễn giải. Các kiến trúc Deep learning cung cấp kết quả tốt nhất cho phân tích cấu thành, phân tích tình cảm, truy xuất thông tin, hiểu ngôn ngữ nói, dịch máy, liên kết thực thể theo ngữ cảnh, phân loại văn bản và các loại khác. c. Y khoa Trí tuệ nhân tạo đang tạo ra những tiến bộ lớn trong lĩnh vực y học. Với khả năng chuẩn đoán bệnh ở giai đoạn sớm, AI giúp tăng khả năng ngăn chặn và chữa trị cũng nhƣ giảm chi phí điều trị bệnh. Ngoài ra AI hỗ trợ các nhà nghiên cứu khám phá ra các phƣơng pháp, thuốc điều trị bệnh mới một cách hiệu quả. Mặc dùng AI đã xuất hiện nhiều trong thập kỷ qua, nhƣng những tiến bộ mới đã kích hoạt sự bùng nổ trong học sâu. Học sâu giúp các nhà nghiên cứu phân tích dữ liệu ý tế để điều trị bệnh. Nó giúp tăng cƣờng khả năng phân tích hình ảnh y khoa của các bác sĩ để chuẩn đoán bệnh. d. Thị giác máy Thị giác máy tính đã xuất hiện trong nhiều năm qua và đã đóng góp quan trọng trong nhiều lĩnh vực sản xuất công nghiệp, y tế, quân sự, giao thông,… Học sâu bằng cách sử dụng các mạng nơ-ron khổng lồ là các máy dạy học để tự động hóa các nhiệm vụ đƣợc thực hiện bởi các hệ thống thị giác máy của con ngƣời. Một số ứng 10 dụng của Deep learning trong lĩnh vực thị giác máy tính: Phân loại ảnh (image classification); phát hiện đối tƣợng (object detection); phân đoạn đối tƣợng (object segmentation); chuyển phong cách; màu hóa ảnh, khôi phục ảnh. 2.6.3. Một số phương pháp theo hướng tiếp cận học sâu 2.6.3.1. Mô hình biểu diễn từ bằng vector (Word2Vec). Để khắc phục nhƣợc điểm của phƣơng pháp thống kê là số chiều của một vector quá lớn (bằng độ dài của từ điển, có thể đến cả triệu từ) và không quan tâm đến ngữ nghĩa của văn bản. Tác giả Tomas Mikolov và các công sự đã công bố phƣơng pháp Word2Vec trong bài báo “Distributed Representations of Words and Phrasesand their Compositionality)” [10]. Đây là thuật toán theo phƣơng pháp dự đoán (Predictionbased embedding), dự đoán học biểu diễn vector từ thông qua những từ ngữ cảnh xung quanh nhằm cải thiện khả năng dự đoán ý nghĩa các từ. Word2Vec là một mạng neural 2 lớp với duy nhất 1 tầng ẩn, lấy đầu vào là một corpus lớn và sinh ra không gian vector (với số chiều khoảng vài trăm), với mỗi từ duy nhất trong corpus đƣợc gắn với một vector tƣơng ứng trong không gian. Các word vectors đƣợc xác định trong không gian vector sao cho những từ có chung ngữ cảnh trong corpus đƣợc đặt gần nhau trong không gian. Dự đoán chính xác cao về ý nghĩa của một từ dựa trên những lần xuất hiện trƣớc đây. 11
- Xem thêm -

Tài liệu liên quan