Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Kiến trúc xây dựng ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng khmer...

Tài liệu ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng khmer

.PDF
50
9
147

Mô tả:

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA SƠN PHÚ QUÝ ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ TRONG VĂN BẢN TIẾNG KHMER LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA SƠN PHÚ QUÝ ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ TRONG VĂN BẢN TIẾNG KHMER Chuyên ngành : Khoa học máy tính Mã số : 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS. TS. PHAN HUY KHÁNH Đà Nẵng - Năm 2017 i LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Tác giả luận văn SƠN PHÚ QUÝ ii TÓM TẮT LUẬN VĂN ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ TRONG VĂN BẢN TIẾNG KHMER Học viên: Sơn Phú Quý - Chuyên ngành: Khoa học máy tính Mã số: 60480101 - Trường Đại học Bách khoa. Tóm tắt – Luận văn đề cập việc ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng Khmer. Cây tiền tố (một cấu trúc dữ liệu dùng để lưu trữ một mảng liên kết của các xâu ký tự được ứng dụng rộng rãi trong các thuật toán xử lý xâu bởi nó cung cấp nhiều phép toán giúp giảm thời gian thực hiện giải thuật). Phương pháp này quan trọng trong xử lý ngôn ngữ tiếng Khmer. Trong tiếng Khmer không có dấu hiệu để phân biệt các từ trong câu. Luận văn này sẽ ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng Khmer. Giải pháp sử dụng kho ngữ liệu từ vựng phục vụ việc tách từ. Đây là một trong những giải pháp hiệu quả cho bài toán tách từ tiếng Khmer. Từ khóa – cây tiền tố; tách từ; tiếng Khmer; ngôn ngữ; kho ngữ liệu từ vựng Abstract - Thesis refers to the application of trie identified in the Khmer text. The trie (a data structure used to store an associative array of strings is widely used in string processing algorithms because it provides many mathematical operations that reduce the algorithm execution time) . This method is important in the Khmer language processing. In Khmer there is no sign to distinguish the words in the sentence. This thesis will apply the identification tree from the Khmer text. Solution using vocabulary lexicon for word separation. This is one of the effective solutions for the Khmer word separation problem. Keyword - trie; magnetic separator; Khmer language; language; Vocabulary glossary iii MỤC LỤC LỜI CAM ĐOAN .............................................................................................................i TÓM TẮT LUẬN VĂN ................................................................................................. ii MỤC LỤC ..................................................................................................................... iii DANH MỤC CÁC CHỮ VIẾT TẮT ..............................................................................v DANH MỤC CÁC KÝ HIỆU ........................................................................................vi DANH MỤC CÁC BẢNG ........................................................................................... vii DANH MỤC CÁC HÌNH ........................................................................................... viii MỞ ĐẦU .........................................................................................................................1 1. Lý do chọn đề tài .....................................................................................................1 2. Mục tiêu và nhiệm vụ ..............................................................................................1 3. Đối tượng và phạm vi nghiên cứu ...........................................................................2 4. Giả thiết nghiên cứu ................................................................................................2 5. Phương pháp nghiên cứu .........................................................................................2 6. Ý nghĩa khoa học và thực tiễn của đề tài ................................................................2 CHƯƠNG 1. NGHIÊN CỨU TỔNG QUAN .................................................................3 1.1. Bài toán xử lý tiếng Việt-Kinh tiếng DTTS và tiếng Khmer ....................................3 1.1.1. Xử lý tiếng Việt-Kinh .........................................................................................3 1.1.2. Các bài toán trong xử lý tiếng dân tộc thiểu số (DTTS) .................................10 1.1.3. Các bài toán trong xử lý tiếng Khmer .............................................................11 1.2. Vấn đề nhận diện từ Khmer ....................................................................................11 1.2.1. Các phương pháp tách từ tiếng Việt ................................................................11 1.2.2. Tách từ tiếng dân tộc thiểu số (DTTS) .............................................................11 1.3. Tìm hiểu tiếng Khmer ............................................................................................12 1.3.1. Giới thiệu tiếng Khmer ....................................................................................12 1.3.2. Những vấn đề về ngôn ngữ ..............................................................................18 1.3.3. Những khó khăn trong xử lý tiếng Khmer........................................................18 1.4. Một số phương pháp tách từ tiếng khmer ...............................................................19 1.4.1. Phương pháp tách từ Conditional Random File (CRF) ..................................19 1.4.2. Mô hình Bigram và mô hình chính tả âm tiết Bigram .....................................19 1.4.3. Đánh giá hai phương pháp ..............................................................................20 CHƯƠNG 2. VẬN DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ KHMER ....................21 2.1. Cây tiền tố ...............................................................................................................21 2.1.1. Khái niệm .........................................................................................................21 2.1.2. Các vận dụng cây tiền tố..................................................................................21 2.1.3. Khả năng vận dụng xử lý tiếng Khmer ............................................................21 iv 2.2. Giải pháp đề xuất ....................................................................................................21 2.2.1. Mô hình giải pháp ............................................................................................21 2.2.2. Các bước triển khai .........................................................................................22 2.3. Xây dựng kho văn bản nhận diện từ .......................................................................23 2.3.1. Xây dựng kho văn bản tiếng Khmer.................................................................23 2.3.2. Sử dụng cây tiền tố...........................................................................................23 2.3.3. Thiết kế cơ sở dữ liệu .......................................................................................24 2.3.4. Phân tích use case............................................................................................25 2.3.5. Hiện thực hóa use case ....................................................................................26 CHƯƠNG 3. CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP ......................27 3.1. Chuẩn bị môi trường thử nghiệm ...........................................................................27 3.1.1. Môi trường và công cụ .....................................................................................27 3.1.2. Chuẩn bị dữ liệu ..............................................................................................27 3.1.3. Tiến hành thử nghiệm ......................................................................................27 3.1.4. Xây dựng tiêu chí đánh giá kết quả .................................................................29 3.2. Triển khai xây dựng ứng dụng ...............................................................................30 3.2.1. Các bước triển khai .........................................................................................30 3.2.2. Thu thập kết quả ..............................................................................................30 3.3. Đánh giá kết quả thử nghiệm..................................................................................30 3.3.1. Thống kê các kết quả .......................................................................................30 3.3.2. So sánh giải pháp với các giải pháp đã có ......................................................31 3.3.3. Đánh giá ..........................................................................................................31 3.3.4. Đề xuất vận dụng (cho tách từ) .......................................................................31 KẾT LUẬN ...................................................................................................................32 TÀI LIỆU THAM KHẢO .............................................................................................33 QUYẾT ĐỊNH GIAO ĐỀ TÀI BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN. v DANH MỤC CÁC CHỮ VIẾT TẮT CSGT Cảnh sát giao thông CRF Conditional Random File DTTS Dân tộc thiểu số ĐHCĐ Đại hội cổ đông HĐQT Hội đồng quản trị HS Học sinh KHXH Khoa học xã hội XLNNTN Xử lý ngôn ngữ tự nhiên VN Việt Nam vi DANH MỤC CÁC KÝ HIỆU AN Số Atak BTEC Ngữ liệu về du lịch C Phụ âm CSDL Cơ sở dữ liệu END Ký hiệu kết thúc NS Không khoảng trống KCC Cụm ký tự Khmer KCE Chuỗi biểu thức Khmer chung V Nguyên âm IV Nguyên âm độc lập Precision Tỷ lệ giữa các từ tách được đúng trên từ tách được, Precision bằng 100% có nghĩa là tất cả các từ đều phù hợp. Recall Tỷ lệ giữa các từ tách đúng trên tổng số từ cần tách. F-score Được sử dụng để đánh giá hiệu quả tổng thể của hệ thống bằng cách kết hợp hai chỉ số Precision và Recall. UNK Ký hiệu ngoài tập Khmer Unicode US Dấu đặt trên SUB Vị trí gửi chân vii DANH MỤC CÁC BẢNG Số hiệu Tên bảng bảng Trang 1.1 Phụ âm 12 1.2 Nguyên âm 15 1.3 Nguyên âm độc lập 16 1.4 Chữ số 17 1.5 Các ký tự đặc biệt (ký hiệu) 18 1.6 Kết quả so sánh hai phương pháp tách từ Word Bigram và KCC Bigram 20 2.1 Talbe tu_vung: Từ vựng 24 2.2 Phân tích các actor 25 3.1 Dữ liệu thử nghiệm 27 3.2 Thu thập kết quả 30 3.3 Thống kê các kết quả 30 3.4 So sánh các giải pháp 31 viii DANH MỤC CÁC HÌNH Số hiệu hình Tên bảng Trang 2.1. hình giải pháp 22 2.2. tiền tố biểu diễn từ vựng tiếng Khmer 24 2.3. Sơ đồ use case mức tổng quát của ứng dụng 25 2.4. Lược đồ tuần tự use case tách từ 26 2.1. Dữ liệu thử nghiệm đầu vào 28 2.2. Giao diện ứng dụng 28 2.3. Dữ liệu đầu ra 29 1 MỞ ĐẦU 1. Lý do chọn đề tài Tiếng Khmer [kmɛər], hay tiếng Campuchia, tên Khmer ភាសាខ្មែរ [pʰiːəsaː kʰmaːe]. Là ngôn ngữ của người Khmer, là ngôn ngữ chính thức của Campuchia. Phân bố dân số: Campuchia khoảng 13 triệu người; Đông bắc Thái Lan khoảng 1,4 triệu người; miền nam Việt Nam khoảng 1 triệu người. Hiện trạng sử dụng tiếng Khmer ở Việt Nam: Người Khmer sống theo phum, sóc, xen kẽ với đồng bào Kinh. Tại Trà Vinh có khoảng 300.000 người, chiếm tỉ lệ ~30% dân số. Mức độ sử dụng ngôn ngữ Khmer của cộng đồng người Khmer ở Trà Vinh, có khoảng 10% không biết nói, biết nghe tiếng Việt (người lớn tuổi, vùng sâu, vùng xa). 60% chỉ biết giao tiếp tiếng Việt đơn giản như chào hỏi, mời mọc, mua bán lặt vặt…. 25% biết nói, biết nghe tiếng Việt trong sinh hoạt hàng ngày ở mức độ thông thạo. 5% nói, nghe được tiếng Việt trong lĩnh vực chính trị, KHXH, kinh tế (những người làm việc Nhà Nước). [2] Thực trạng tiếng Khmer trên mạng hiện nay: tìm kiếm từ khóa “trang tin Khmer” có 493 000 kết quả bằng tiếng Việt – Kinh tuy nhiên vấn đề có rất ít trang web dùng tiếng Khmer. Phát triển tiếng Khmer qua các phương tiện nghe nhìn, xử lý tiếng Khmer trong bối cảnh xử lý ngôn ngữ tự nhiên (XLNNTN) là nhu cầu bức thiết hiện nay. Bối cảnh của đề tài, trong lĩnh vực XLNNTN, xử lý tiếng Việt: Tính mặc nhiên trong suy nghĩ là xử lý tiếng Việt-Kinh. Thực tế, các công trình nghiên cứu cho đến nay đều tập trung xử lý tiếng Việt-Kinh, đa dạng, phổ biến. Mặc dù xử lý tiếng Việt-Kinh vẫn luôn là miền đất mới, vẫn luôn đặt ra nhiều thách thức. Tuy nhiên trong số 55 dân tộc thiểu số Việt Nam: Hiện có rất ít công trình NCKH và ứng dụng liên quan đến xử lý tiếng Khmer được công bố. Có rất ít chuyên gia và tài liệu liên quan đến lĩnh vực này. 2. Mục tiêu và nhiệm vụ Mục tiêu của đề tài: chuyên sâu vấn đề xử lý tiếng Khmer, từ đó đề xuất giải pháp ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng Khmer, xây dựng kho ngữ liệu từ vựng tiếng Khmer. Hỗ trợ việc xử lý tiếng Khmer ở mức độ cao hơn. Nhiệm vụ: nghiên cứu ứng dụng XLNNTN, vấn đề xử lý tiếng Khmer. Tiếp cận phương pháp nhận diện từ tiếng Khmer dựa vào thành phần tiền tố trong từ vựng tiếng Khmer. Cài đặt thử nghiệm giải pháp nhận diện từ và kho ngữ liệu từ vựng. Đánh giá giải pháp. 2 3. Đối tượng và phạm vi nghiên cứu Vấn đề thành phần tiền tố trong cấu tạo âm tiết. Nguyên âm, phụ âm, nguyên âm độc lập, ký tự đặc biệt. Tiếp cận việc ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng Khmer. Tổ chức kho ngữ liệu, cập nhật ngữ liệu từ vựng, vấn đề tổ chức khai thác, tìm kiếm và xử lý văn bản tiếng Khmer. 4. Giả thiết nghiên cứu Vấn đề từ vựng, từ loại và chữ viết tiếng Khmer. Cấu trúc câu đơn và câu phức trong văn bản. Hiện tượng nhập nhằng. 5. Phương pháp nghiên cứu Phương pháp nghiên cứu lý thuyết: Vận dụng các đặc trưng ngữ pháp tiếng Khmer. Thành phần tiền tố, cây tiền tố và phương pháp xây dựng cây tiền tố. Phương pháp nghiên cứu thực nghiệm: Xây dựng cây tiền tố và ứng dụng trong nhận diện từ tiếng Khmer, xây dựng từ điển từ vựng tiếng Khmer. 6. Ý nghĩa khoa học và thực tiễn của đề tài Về mặt ngôn ngữ: Nghiên cứu chuyên sâu về XLNNTN, ngôn ngữ Khmer, đánh giá những kết quả xử lý tiếng Khmer đã được công bố. Đề xuất giải pháp tách từ dựa vào thành phần tiền tố trong một văn bản tiếng Khmer trên cơ sở xây dựng mô hình cây tiền tố, xây dựng kho ngữ liệu từ vựng tiếng Khmer. Ý nghĩa: Tìm cách trao đổi chuyên môn, chia sẻ kinh nghiệm xử lý tiếng Khmer với đồng nghiệp Campuchia (nếu có thể). Ứng dụng kết quả nghiên cứu theo định hướng mở. Góp phần phát triển lĩnh vực XLNNTN tiếng Khmer, cụ thể tại trường Đại học Trà Vinh. 3 CHƯƠNG 1. NGHIÊN CỨU TỔNG QUAN 1.1. Bài toán xử lý tiếng Việt-Kinh tiếng DTTS và tiếng Khmer 1.1.1. Xử lý tiếng Việt-Kinh Phân tách câu Tiền đề cơ sở để tách câu: Theo sách ngữ pháp tiếng Việt của Uỷ ban Khoa học Xã hội (1980): “Câu là đơn vị dùng từ hay đúng hơn dùng ngữ mà cấu tạo nên trong quá trình tư duy, thông báo; nó có nghĩa hoàn chỉnh, có cấu tạo ngữ pháp, và có tính chất độc lập”. Dựa vào quan điểm này về câu ta sẽ xét một đơn vị ngôn ngữ có phải là câu hay không. Mục tiêu: • Xác định ranh giới rõ ràng và nhất quán giữa các câu tiếng Việt. Phân biệt đơn vị câu với các đơn vị nhỏ hơn câu (từ, ngữ…) và lớn hơn câu (đoạn, văn bản). • Làm tiêu chí chính để xây dựng nên câu tiếng Việt trong ngữ liệu tiếng Việt. • Làm cơ sở để gán các nhãn ngôn ngữ cao hơn (tách từ, gán nhãn từ loại, phân tích cú pháp...) • Làm tiền đề cho các bài toán khác, như: dóng câu trong song ngữ Anh-Việt, Pháp-Việt, dịch tự động Việt-Anh... Phân tích và nhận diện câu: Phân tích câu: Xét về cấu tạo có câu đơn, câu ghép. Câu đơn: Một câu đơn cơ bản gồm có một nòng cốt đơn. Nòng cốt đơn gồm có hai phần, phần đề và phần thuyết (theo quan điểm ngữ pháp chức năng) mà quan điểm ngữ pháp truyền thống gọi là chủ ngữ và vị ngữ. Ví dụ 1: Bão Lekima cấp 11 / đang hướng vào Nghệ An - Hà Tĩnh. Mọi chuyện / rồi sẽ qua đi. Trong cấu tạo câu đơn có thể có những thành phần ngoài nòng cốt như thành phần than gọi, thành phần chuyển tiếp, thành phần chú thích, thành phần tình huống, thành phần khởi ý. 4 Ví dụ 2: Nhiều lúc, tôi cũng muốn gào thét thật to, đạp tung, phá vỡ tất cả... Con người, đó là cái vốn quý nhất. Chao, đường còn xa lắm! Riêng với thành phần than gọi thì ta chỉ xét nó thuộc nòng cốt câu khi nó đứng ở cuối hoặc ở giữa câu. Ví dụ 3: Chúng ta đi về đi, bà con ơi! Khi thành phần than gọi đứng ở đầu câu thì ta xem nó là một câu. Vì vốn dĩ thành phần than gọi đã có tính chất độc lập. Hơn nữa, nó được ngăn cách với nòng cốt câu bằng dấu (!) nên ta xem nó như một câu đặc biệt. Ví dụ 4: Trời! Nó lại quay trở về. → Tách thành 2 câu: Trời! Nó lại quay trở về. Câu đơn đặc biệt là câu mà nòng cốt đơn chỉ có một thành phần. Ví dụ 5: Chỉ còn lại những ngày cuối cùng... Điều chỉnh lại mình đi! Câu ghép: Về cấu trúc, câu ghép được tạo nên bởi ít nhất hai vế, mỗi vế là một nòng cốt đơn. Câu ghép cũng có thể có những thành phần ngoài nòng cốt như câu đơn. Về cấu trúc câu ghép thì có hai loại câu ghép cơ bản là câu ghép song song (câu ghép đẳng lập) và câu ghép qua lại (câu ghép chính phụ). Câu ghép song song (câu ghép đẳng lập) Nếu cấu trúc câu đơn giản, ngắn gọn (gồm 2 vế mà mỗi vế là một nòng cốt đơn) thì ta giữ nguyên cấu trúc câu của ngữ liệu. Ví dụ 6: Giọng của cháu đôi lúc đã nghẹn lại trong quá trình phiên dịch cho tổng thống và Chủ tịch nước, cháu đã cố kiềm chế những giọt nước mắt của mình vì quá xúc động. 5 Nếu cấu trúc câu ghép song song có hơn hai vế và quá phức tạp (gồm nhiều nòng cốt đơn) thì ta có thể tách thành những câu đơn. Bởi vì quan hệ giữa các vế trong câu ghép song song không thật chặt chẽ và tách ra càng đơn giản thì việc xử lí dữ liệu sẽ càng dễ dàng. Ví dụ 7: “Mong ước của tôi là: đấu tranh cho đến khi đất nước giành được độc lập và sau đó lập quan hệ ngoại giao và bình thường hóa quan hệ giữa VN và Mỹ, được như vậy thì tôi có thể mỉm cười mà nhắm mắt xuôi tay bất cứ lúc nào cũng thỏa lòng rồi”. → Câu trên là một câu ghép đẳng lập gồm nhiều nòng cốt đơn. Ta có thể tách thành: Mong ước của tôi là: đấu tranh cho đến khi đất nước giành được độc lập và sau đó lập quan hệ ngoại giao và bình thường hóa quan hệ giữa VN và Mỹ. Được như vậy thì tôi có thể mỉm cười mà nhắm mắt xuôi tay bất cứ lúc nào cũng thỏa lòng rồi. Ví dụ 8: Đa số bà con ủng hộ chủ trương xây dựng khu đô thị mới Thủ Thiêm và họ sẵn sàng giao đất để thực hiện dự án, nhưng họ muốn phải được đảm bảo quyền lợi và cuộc sống sau khi di dời. → Theo ngữ nghĩa thì câu này có thể tách: Đa số bà con ủng hộ chủ trương xây dựng khu đô thị mới Thủ Thiêm. Họ sẵn sàng giao đất để thực hiện dự án, nhưng họ muốn phải được đảm bảo quyền lợi và cuộc sống sau khi di dời. Tuy nhiên ta nên hạn chế việc tách câu này, đặc biệt là với những câu ghép đẳng lập mà các vế câu được nối với nhau bằng kết từ (và, rồi, hay, còn).Vì việc tách câu này có thể làm cho câu cú gọn gàng nhưng ý nghĩa tự nhiên của ngữ liệu ít nhiều đã bị thay đổi. Câu ghép qua lại (câu ghép chính phụ) Câu ghép chính phụ là câu ghép mà các vế trong câu phụ thuộc lẫn nhau, không thể tách ra được. Có thể nhận biết câu ghép chính phụ qua các cặp từ quan hệ như: nếu…thì, tuy…nhưng, do…mà, … Ví dụ 9: 6 - Dù họ là nhà thầu Nhật Bản nhưng nếu họ vi phạm pháp luật VN thì vẫn xử họ theo qui định của pháp luật VN. - Vả lại, đây là loại tội phạm mới thuộc về lĩnh vực khoa học kỹ thuật, vì vậy ngoài lực lượng điều tra của ngành công an, chúng tôi cần phải phối hợp với các ngành chuyên môn khoa học kỹ thuật khác để tìm ra nguyên nhân. Giả sử mẹ nắm 60% vốn của công ty con; vậy mẹ phải cử đại diện dự các phiên họp của ĐHCĐ của công ty con và biểu quyết theo số vốn góp. Nhận diện câu: Nhận diện chung: Với các kiểu câu bình thường như trên ta có thể nhận biết câu qua dấu câu: dấu chấm (câu tả, câu trần thuật, câu kể), dấu chấm than (câu cảm, câu cầu khiến), dấu chấm hỏi (câu hỏi). Nhận diện câu trong hội thoại: Trong hội thoại dấu 2 chấm (:) báo hiệu cho lời nói trực tiếp, và lời nói trực tiếp này nằm trong dấu ngoặc kép (“…”) hoặc bắt đầu sau dấu gạch đầu dòng (-). Trong trường hợp này, ta sẽ tách câu (nhận diện câu qua dấu hai chấm (:)). Ví dụ 10: Ông cho biết: - Căn cứ vào kết quả kiểm tra, khảo sát và những chứng cứ thu thập ban đầu từ các đơn vị nghiệp vụ, tôi nhận thấy đây là một vụ án đặc biệt nghiêm trọng, gây hậu quả lớn về người và của. Hắn nói: “Mày chạy trước đi.” →Tách thành hai câu: Hắn nói: “Mày chạy trước đi.” Đối với đoạn hội thoại có vế trích dẫn nằm ở cuối câu thì ta cũng sẽ tách câu. Vì trong lời nói trực tiếp có nhiều câu, khi ta tách chúng ra thành những câu riêng biệt, vế trích dẫn cuối cùng sẽ gắn với câu cuối cùng làm thành một câu khác có ý nghĩa khác thì câu sẽ trở nên sai. Vì vậy ta sẽ tách vế này ra thành một câu. Ví dụ 11: "CSGT có nhìn thấy cũng chịu chết vì đâu có len vào được mà xử phạt. Nếu bắt dừng xe thì kẹt đường ngay”, một CSGT chốt tại đây nói. 7 →Tách thành ba câu: CSGT có nhìn thấy cũng chịu chết vì đâu có len vào được mà xử phạt. Nếu bắt dừng xe thì kẹt đường ngay. Một CSGT chốt tại đây nói. Ví dụ 12: “Điều khác lạ ở VN so với nhiều nước châu Âu là các doanh nghiệp sản xuất có thể tham gia phân phối,, các qui định trong kinh doanh dược hiện có không qui định nhiệm vụ cụ thể của từng tổ chức trong dây chuyền phân phối " - ông Andre nhận xét. → tách thành 2 câu: “Điều khác lạ ở VN so với nhiều nước châu Âu là các doanh nghiệp sản xuất có thể tham gia phân phối, các qui định trong kinh doanh dược hiện có không qui định nhiệm vụ cụ thể của từng tổ chức trong dây chuyền phân phối”. Ông Andre nhận xét. Nhận diện câu sau dấu chấm phẩy (;) Dấu chấm phẩy (;) thường dùng để chỉ ranh giới giữa các vế trong câu ghép song song. Vì vậy ta có thể tách câu giống như câu ghép song song. Ngoài những tiêu chí nhận diện câu qua câu ghép song song ta có những trường hợp khác sau: Không nên tách câu khi sau dấu (;) là “thì”, “và”, “nên” Ví dụ 13: Giả sử, theo bản điều lệ, HĐQT có sáu thành viên; thì công ty mẹ phải thuyết phục các cổ đông trong ĐHCĐ bầu bốn người đại diện của họ vào HĐQT. → không tách câu. Nói một cách khác theo ngôn từ ta thường dùng, cơ quan chủ quản ra lệnh cho công ty con ( 1 ) qua số vốn mình nắm và theo quyền biểu quyết đa số tương đối hay tuyệt đối trong ĐHCĐ của công ty con; và ( 2 ) có người đại diện của mình nắm đa số thành viên trong HĐQT. → không tách câu Sau dấu (;) không phải là “thì”, “và”, “nên” thì ta có thể tách câu được. Riêng trường hợp sau “và” không phải là động từ, không phải là sự liệt kê thì cũng có thể tách được. Ví dụ 14: Vốn của nó do Nhà nước bỏ vào; nó hoạt động theo chỉ thị của cơ quan chủ quản; và cơ quan này là người nắm vốn duy nhất. → Nên tách thành: Vốn của nó do Nhà nước bỏ vào. 8 Nó hoạt động theo chỉ thị của cơ quan chủ quản. Và cơ quan này là người nắm vốn duy nhất. Sau dấu (;) là cặp từ “nhưng (để/ nếu/ muốn)…thì” thì cũng có thể tách câu được vì cặp từ này có khả năng tạo thành một câu có đủ ý nghĩa và hoạt động độc lập được Ví dụ 15: Đối với chiến lược của tập đoàn, việc nâng cao hiệu quả sử dụng đất là cần thiết; nhưng để cho các công ty con thực hiện thì đại diện của PetroVietnam tại ĐPM phải họp ĐHCĐ hay HĐQT để ra quyết định. → Nên tách thành: Đối với chiến lược của tập đoàn, việc nâng cao hiệu quả sử dụng đất là cần thiết. Nhưng để cho các công ty con thực hiện thì đại diện của PetroVietnam tại ĐPM phải họp ĐHCĐ hay HĐQT để ra quyết định. Sau dấu (;) là một cụm từ có đầy đủ chủ vị và có khả năng độc lập thì cũng nên tách câu Ví dụ 16: Một nghiên cứu đã chứng minh rằng đối với các nước có trình độ phát triển thấp, mức độ phát triển xã hội là một nhân tố thích ứng với tăng trưởng; ở một trình độ cao hơn, mức độ này dẫn đến thay đổi về phát triển cơ sở hạ tầng và các thể chế kinh tế... → Nên tách thành: Một nghiên cứu đã chứng minh rằng đối với các nước có trình độ phát triển thấp, mức độ phát triển xã hội là một nhân tố thích ứng với tăng trưởng. Ở một trình độ cao hơn, mức độ này dẫn đến thay đổi về phát triển cơ sở hạ tầng và các thể chế kinh tế... Ví dụ 17: Theo đó, chủ xe khách 63L-5796 Võ Hồng Xuân bị phạt 2,1 triệu đồng; tài xế Đặng Hữu Thành (con bà Xuân) bị phạt 2,6 triệu đồng; tài xế xe khách 63L-5691 Lê Ngọc Trân bị phạt 2,1 triệu đồng; tài xế xe khách 63L-5634 Nguyễn Văn Thủy bị phạt 430.000 đồng. → Nên tách thành: Theo đó, chủ xe khách 63L-5796 Võ Hồng Xuân bị phạt 2,1 triệu đồng. Tài xế Đặng Hữu Thành (con bà Xuân) bị phạt 2,6 triệu đồng. 9 Tài xế xe khách 63L-5691 Lê Ngọc Trân bị phạt 2,1 triệu đồng. Tài xế xe khách 63L-5634 Nguyễn Văn Thủy bị phạt 430.000 đồng. Nhận diện câu sau dấu ngang (-): Dấu ngang dùng để chỉ ranh giới của thành phần chú thích, đặt trước những lời đối thoại, liệt kê. Đối với câu có dấu ngang dùng để chỉ thành phần chú thích thì ta không nên tách câu. Ví dụ 18: Cơn sốt vé trong năm nay không còn nghi ngờ gì nữa phải thuộc về ngôi sao nhạc nhẹ mới 14 tuổi Miley Cyrus, diễn viên ngôi sao của bộ phim truyền hình Hannah Montana trên Disney Channel - bộ phim nói về cuộc sống thú vị của một cô nàng vừa là sinh viên vừa là ngôi sao nhạc nhẹ. TTO - Sau một thời gian chạy thử nghiệm, Công ty VinaGame sẽ chính thức giới thiệu Zing MP3 - công cụ tìm kiếm âm nhạc trực tuyến đầu tiên tại Việt Nam vào đầu tháng tới. Trên đây là những trường hợp thông thường và một số trường hợp đặc biệt mà công việc tách câu thường gặp phải (đặc biệt là đối với ngữ liệu lấy từ báo chí). Thực tế nhận diện câu và một số vấn đề lưu ý khác: Nhận diện câu trong văn bản thơ: Khi trích dẫn thơ xuất hiện dấu / chúng ta phải tách câu. Ví dụ 19: “Tôi muốn tắt nắng đi / Cho màu đừng nhạt mất / Tôi muốn buộc gió lại / Cho hương đừng bay đi” Chúng ta phải tách thành: “Tôi muốn tắt nắng đi Cho màu đừng nhạt mất Tôi muốn buộc gió lại Cho hương đừng bay đi” Nhận diện câu qua dấu hai chấm, ngay sau đó có đánh số: Ví dụ 20: Người ta tổng kết có năm nguyên nhân bỏ học: (1) kinh tế gia đình khó khăn; (2) cha mẹ không quan tâm; (3) quản lý của nhà trường kém, chưa tập trung bồi dưỡng HS 10 yếu; (4) phối hợp giữa nhà trường và gia đình chưa chặt chẽ, thường xuyên; (5) HS thiếu chuyên cần, học lực kém. Tách thành: Người ta tổng kết có năm nguyên nhân bỏ học: (1) kinh tế gia đình khó khăn; (2) cha mẹ không quan tâm; (3) quản lý của nhà trường kém, chưa tập trung bồi dưỡng HS yếu; (4) phối hợp giữa nhà trường và gia đình chưa chặt chẽ, thường xuyên; (5) HS thiếu chuyên cần, học lực kém. Như vậy, gặp trường hợp hai chấm (số 1, 2, 3…) chúng ta cần tách câu. Nếu không có dấu hai chấm, chỉ có (số 1,2,3…) thì chúng ta không tách. Ví dụ 21: Nói một cách khác theo ngôn từ ta thường dùng, cơ quan chủ quản ra lệnh cho công ty con (1) qua số vốn mình nắm và theo quyền biểu quyết đa số tương đối hay tuyệt đối trong ĐHCĐ của công ty con; và (2) có người đại diện của mình nắm đa số thành viên trong HĐQT. Trường hợp này không tách. Phân tách từ Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn, từ ghép… có trong câu. Tự động thêm dấu: Chữ viết tiếng Việt là chữ viết có dấu thanh. Trong các văn bản chính thống như sách, báo chí, văn bản hành chính, các dấu thanh được viết chính xác. Tuy nhiên trong cách tình huống không chính thống như chat, gõ tìm kiếm, người dùng thông thường không gõ các dấu thanh, dẫn tới khó khăn nhất định cho máy tính trong việc hiểu ý nghĩa của văn bản. [4] 1.1.2. Các bài toán trong xử lý tiếng ânn ṭc thỉu ố DTTT) Dịch tự động Dịch tự động hay còn gọi là dịch là một nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo, nó là sự kết hợp giữa ngôn ngữ, dịch thuật và khoa học máy tính. Như tên gọi, dịch tự động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ
- Xem thêm -

Tài liệu liên quan