ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
SƠN PHÚ QUÝ
ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ
TRONG VĂN BẢN TIẾNG KHMER
LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2017
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
SƠN PHÚ QUÝ
ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ
TRONG VĂN BẢN TIẾNG KHMER
Chuyên ngành : Khoa học máy tính
Mã số : 60.48.01.01
LUẬN VĂN THẠC SĨ KỸ THUẬT
Người hướng dẫn khoa học: PGS. TS. PHAN HUY KHÁNH
Đà Nẵng - Năm 2017
i
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công
bố trong bất kỳ công trình nào khác.
Tác giả luận văn
SƠN PHÚ QUÝ
ii
TÓM TẮT LUẬN VĂN
ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ TRONG VĂN BẢN
TIẾNG KHMER
Học viên: Sơn Phú Quý - Chuyên ngành: Khoa học máy tính
Mã số: 60480101 - Trường Đại học Bách khoa.
Tóm tắt – Luận văn đề cập việc ứng dụng cây tiền tố nhận diện từ trong văn bản
tiếng Khmer. Cây tiền tố (một cấu trúc dữ liệu dùng để lưu trữ một mảng liên kết
của các xâu ký tự được ứng dụng rộng rãi trong các thuật toán xử lý xâu bởi nó
cung cấp nhiều phép toán giúp giảm thời gian thực hiện giải thuật). Phương pháp
này quan trọng trong xử lý ngôn ngữ tiếng Khmer. Trong tiếng Khmer không có
dấu hiệu để phân biệt các từ trong câu. Luận văn này sẽ ứng dụng cây tiền tố nhận
diện từ trong văn bản tiếng Khmer. Giải pháp sử dụng kho ngữ liệu từ vựng phục
vụ việc tách từ. Đây là một trong những giải pháp hiệu quả cho bài toán tách từ
tiếng Khmer.
Từ khóa – cây tiền tố; tách từ; tiếng Khmer; ngôn ngữ; kho ngữ liệu từ vựng
Abstract - Thesis refers to the application of trie identified in the Khmer text. The
trie (a data structure used to store an associative array of strings is widely used in
string processing algorithms because it provides many mathematical operations
that reduce the algorithm execution time) . This method is important in the Khmer
language processing. In Khmer there is no sign to distinguish the words in the
sentence. This thesis will apply the identification tree from the Khmer text.
Solution using vocabulary lexicon for word separation. This is one of the effective
solutions for the Khmer word separation problem.
Keyword - trie; magnetic separator; Khmer language; language; Vocabulary
glossary
iii
MỤC LỤC
LỜI CAM ĐOAN .............................................................................................................i
TÓM TẮT LUẬN VĂN ................................................................................................. ii
MỤC LỤC ..................................................................................................................... iii
DANH MỤC CÁC CHỮ VIẾT TẮT ..............................................................................v
DANH MỤC CÁC KÝ HIỆU ........................................................................................vi
DANH MỤC CÁC BẢNG ........................................................................................... vii
DANH MỤC CÁC HÌNH ........................................................................................... viii
MỞ ĐẦU .........................................................................................................................1
1. Lý do chọn đề tài .....................................................................................................1
2. Mục tiêu và nhiệm vụ ..............................................................................................1
3. Đối tượng và phạm vi nghiên cứu ...........................................................................2
4. Giả thiết nghiên cứu ................................................................................................2
5. Phương pháp nghiên cứu .........................................................................................2
6. Ý nghĩa khoa học và thực tiễn của đề tài ................................................................2
CHƯƠNG 1. NGHIÊN CỨU TỔNG QUAN .................................................................3
1.1. Bài toán xử lý tiếng Việt-Kinh tiếng DTTS và tiếng Khmer ....................................3
1.1.1. Xử lý tiếng Việt-Kinh .........................................................................................3
1.1.2. Các bài toán trong xử lý tiếng dân tộc thiểu số (DTTS) .................................10
1.1.3. Các bài toán trong xử lý tiếng Khmer .............................................................11
1.2. Vấn đề nhận diện từ Khmer ....................................................................................11
1.2.1. Các phương pháp tách từ tiếng Việt ................................................................11
1.2.2. Tách từ tiếng dân tộc thiểu số (DTTS) .............................................................11
1.3. Tìm hiểu tiếng Khmer ............................................................................................12
1.3.1. Giới thiệu tiếng Khmer ....................................................................................12
1.3.2. Những vấn đề về ngôn ngữ ..............................................................................18
1.3.3. Những khó khăn trong xử lý tiếng Khmer........................................................18
1.4. Một số phương pháp tách từ tiếng khmer ...............................................................19
1.4.1. Phương pháp tách từ Conditional Random File (CRF) ..................................19
1.4.2. Mô hình Bigram và mô hình chính tả âm tiết Bigram .....................................19
1.4.3. Đánh giá hai phương pháp ..............................................................................20
CHƯƠNG 2. VẬN DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ KHMER ....................21
2.1. Cây tiền tố ...............................................................................................................21
2.1.1. Khái niệm .........................................................................................................21
2.1.2. Các vận dụng cây tiền tố..................................................................................21
2.1.3. Khả năng vận dụng xử lý tiếng Khmer ............................................................21
iv
2.2. Giải pháp đề xuất ....................................................................................................21
2.2.1. Mô hình giải pháp ............................................................................................21
2.2.2. Các bước triển khai .........................................................................................22
2.3. Xây dựng kho văn bản nhận diện từ .......................................................................23
2.3.1. Xây dựng kho văn bản tiếng Khmer.................................................................23
2.3.2. Sử dụng cây tiền tố...........................................................................................23
2.3.3. Thiết kế cơ sở dữ liệu .......................................................................................24
2.3.4. Phân tích use case............................................................................................25
2.3.5. Hiện thực hóa use case ....................................................................................26
CHƯƠNG 3. CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP ......................27
3.1. Chuẩn bị môi trường thử nghiệm ...........................................................................27
3.1.1. Môi trường và công cụ .....................................................................................27
3.1.2. Chuẩn bị dữ liệu ..............................................................................................27
3.1.3. Tiến hành thử nghiệm ......................................................................................27
3.1.4. Xây dựng tiêu chí đánh giá kết quả .................................................................29
3.2. Triển khai xây dựng ứng dụng ...............................................................................30
3.2.1. Các bước triển khai .........................................................................................30
3.2.2. Thu thập kết quả ..............................................................................................30
3.3. Đánh giá kết quả thử nghiệm..................................................................................30
3.3.1. Thống kê các kết quả .......................................................................................30
3.3.2. So sánh giải pháp với các giải pháp đã có ......................................................31
3.3.3. Đánh giá ..........................................................................................................31
3.3.4. Đề xuất vận dụng (cho tách từ) .......................................................................31
KẾT LUẬN ...................................................................................................................32
TÀI LIỆU THAM KHẢO .............................................................................................33
QUYẾT ĐỊNH GIAO ĐỀ TÀI
BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC
PHẢN BIỆN.
v
DANH MỤC CÁC CHỮ VIẾT TẮT
CSGT
Cảnh sát giao thông
CRF
Conditional Random File
DTTS
Dân tộc thiểu số
ĐHCĐ
Đại hội cổ đông
HĐQT
Hội đồng quản trị
HS
Học sinh
KHXH
Khoa học xã hội
XLNNTN
Xử lý ngôn ngữ tự nhiên
VN
Việt Nam
vi
DANH MỤC CÁC KÝ HIỆU
AN
Số Atak
BTEC
Ngữ liệu về du lịch
C
Phụ âm
CSDL
Cơ sở dữ liệu
END
Ký hiệu kết thúc
NS
Không khoảng trống
KCC
Cụm ký tự Khmer
KCE
Chuỗi biểu thức Khmer chung
V
Nguyên âm
IV
Nguyên âm độc lập
Precision
Tỷ lệ giữa các từ tách được đúng trên từ tách được, Precision
bằng 100% có nghĩa là tất cả các từ đều phù hợp.
Recall
Tỷ lệ giữa các từ tách đúng trên tổng số từ cần tách.
F-score
Được sử dụng để đánh giá hiệu quả tổng thể của hệ thống
bằng cách kết hợp hai chỉ số Precision và Recall.
UNK
Ký hiệu ngoài tập Khmer Unicode
US
Dấu đặt trên
SUB
Vị trí gửi chân
vii
DANH MỤC CÁC BẢNG
Số hiệu
Tên bảng
bảng
Trang
1.1
Phụ âm
12
1.2
Nguyên âm
15
1.3
Nguyên âm độc lập
16
1.4
Chữ số
17
1.5
Các ký tự đặc biệt (ký hiệu)
18
1.6
Kết quả so sánh hai phương pháp tách từ Word Bigram
và KCC Bigram
20
2.1
Talbe tu_vung: Từ vựng
24
2.2
Phân tích các actor
25
3.1
Dữ liệu thử nghiệm
27
3.2
Thu thập kết quả
30
3.3
Thống kê các kết quả
30
3.4
So sánh các giải pháp
31
viii
DANH MỤC CÁC HÌNH
Số hiệu hình
Tên bảng
Trang
2.1.
hình giải pháp
22
2.2.
tiền tố biểu diễn từ vựng tiếng Khmer
24
2.3.
Sơ đồ use case mức tổng quát của ứng dụng
25
2.4.
Lược đồ tuần tự use case tách từ
26
2.1.
Dữ liệu thử nghiệm đầu vào
28
2.2.
Giao diện ứng dụng
28
2.3.
Dữ liệu đầu ra
29
1
MỞ ĐẦU
1. Lý do chọn đề tài
Tiếng Khmer [kmɛər], hay tiếng Campuchia, tên Khmer ភាសាខ្មែរ [pʰiːəsaː
kʰmaːe]. Là ngôn ngữ của người Khmer, là ngôn ngữ chính thức của Campuchia.
Phân bố dân số: Campuchia khoảng 13 triệu người; Đông bắc Thái Lan khoảng 1,4
triệu người; miền nam Việt Nam khoảng 1 triệu người. Hiện trạng sử dụng tiếng Khmer
ở Việt Nam: Người Khmer sống theo phum, sóc, xen kẽ với đồng bào Kinh. Tại Trà
Vinh có khoảng 300.000 người, chiếm tỉ lệ ~30% dân số.
Mức độ sử dụng ngôn ngữ Khmer của cộng đồng người Khmer ở Trà Vinh, có
khoảng 10% không biết nói, biết nghe tiếng Việt (người lớn tuổi, vùng sâu, vùng xa).
60% chỉ biết giao tiếp tiếng Việt đơn giản như chào hỏi, mời mọc, mua bán lặt vặt….
25% biết nói, biết nghe tiếng Việt trong sinh hoạt hàng ngày ở mức độ thông thạo. 5%
nói, nghe được tiếng Việt trong lĩnh vực chính trị, KHXH, kinh tế (những người làm
việc Nhà Nước). [2]
Thực trạng tiếng Khmer trên mạng hiện nay: tìm kiếm từ khóa “trang tin Khmer”
có 493 000 kết quả bằng tiếng Việt – Kinh tuy nhiên vấn đề có rất ít trang web dùng
tiếng Khmer. Phát triển tiếng Khmer qua các phương tiện nghe nhìn, xử lý tiếng Khmer
trong bối cảnh xử lý ngôn ngữ tự nhiên (XLNNTN) là nhu cầu bức thiết hiện nay.
Bối cảnh của đề tài, trong lĩnh vực XLNNTN, xử lý tiếng Việt: Tính mặc nhiên
trong suy nghĩ là xử lý tiếng Việt-Kinh. Thực tế, các công trình nghiên cứu cho đến nay
đều tập trung xử lý tiếng Việt-Kinh, đa dạng, phổ biến. Mặc dù xử lý tiếng Việt-Kinh
vẫn luôn là miền đất mới, vẫn luôn đặt ra nhiều thách thức. Tuy nhiên trong số 55
dân tộc thiểu số Việt Nam: Hiện có rất ít công trình NCKH và ứng dụng liên quan đến
xử lý tiếng Khmer được công bố. Có rất ít chuyên gia và tài liệu liên quan đến lĩnh vực
này.
2. Mục tiêu và nhiệm vụ
Mục tiêu của đề tài: chuyên sâu vấn đề xử lý tiếng Khmer, từ đó đề xuất
giải pháp ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng Khmer, xây dựng kho
ngữ liệu từ vựng tiếng Khmer. Hỗ trợ việc xử lý tiếng Khmer ở mức độ cao hơn.
Nhiệm vụ: nghiên cứu ứng dụng XLNNTN, vấn đề xử lý tiếng Khmer. Tiếp cận
phương pháp nhận diện từ tiếng Khmer dựa vào thành phần tiền tố trong từ vựng
tiếng Khmer. Cài đặt thử nghiệm giải pháp nhận diện từ và kho ngữ liệu từ vựng.
Đánh giá giải pháp.
2
3. Đối tượng và phạm vi nghiên cứu
Vấn đề thành phần tiền tố trong cấu tạo âm tiết. Nguyên âm, phụ âm,
nguyên âm độc lập, ký tự đặc biệt. Tiếp cận việc ứng dụng cây tiền tố nhận diện từ
trong văn bản tiếng Khmer. Tổ chức kho ngữ liệu, cập nhật ngữ liệu từ vựng, vấn đề
tổ chức khai thác, tìm kiếm và xử lý văn bản tiếng Khmer.
4. Giả thiết nghiên cứu
Vấn đề từ vựng, từ loại và chữ viết tiếng Khmer. Cấu trúc câu đơn và câu phức
trong văn bản. Hiện tượng nhập nhằng.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu lý thuyết: Vận dụng các đặc trưng ngữ pháp
tiếng Khmer. Thành phần tiền tố, cây tiền tố và phương pháp xây dựng cây tiền tố.
Phương pháp nghiên cứu thực nghiệm: Xây dựng cây tiền tố và ứng dụng trong
nhận diện từ tiếng Khmer, xây dựng từ điển từ vựng tiếng Khmer.
6. Ý nghĩa khoa học và thực tiễn của đề tài
Về mặt ngôn ngữ: Nghiên cứu chuyên sâu về XLNNTN, ngôn ngữ Khmer,
đánh giá những kết quả xử lý tiếng Khmer đã được công bố. Đề xuất giải pháp tách từ
dựa vào thành phần tiền tố trong một văn bản tiếng Khmer trên cơ sở xây dựng
mô hình cây tiền tố, xây dựng kho ngữ liệu từ vựng tiếng Khmer.
Ý nghĩa: Tìm cách trao đổi chuyên môn, chia sẻ kinh nghiệm xử lý tiếng Khmer
với đồng nghiệp Campuchia (nếu có thể). Ứng dụng kết quả nghiên cứu theo
định hướng mở. Góp phần phát triển lĩnh vực XLNNTN tiếng Khmer, cụ thể tại
trường Đại học Trà Vinh.
3
CHƯƠNG 1. NGHIÊN CỨU TỔNG QUAN
1.1. Bài toán xử lý tiếng Việt-Kinh tiếng DTTS và tiếng Khmer
1.1.1. Xử lý tiếng Việt-Kinh
Phân tách câu
Tiền đề cơ sở để tách câu:
Theo sách ngữ pháp tiếng Việt của Uỷ ban Khoa học Xã hội (1980): “Câu là
đơn vị dùng từ hay đúng hơn dùng ngữ mà cấu tạo nên trong quá trình tư duy,
thông báo; nó có nghĩa hoàn chỉnh, có cấu tạo ngữ pháp, và có tính chất độc lập”.
Dựa vào quan điểm này về câu ta sẽ xét một đơn vị ngôn ngữ có phải là câu
hay không.
Mục tiêu:
• Xác định ranh giới rõ ràng và nhất quán giữa các câu tiếng Việt. Phân biệt
đơn vị câu với các đơn vị nhỏ hơn câu (từ, ngữ…) và lớn hơn câu (đoạn, văn bản).
• Làm tiêu chí chính để xây dựng nên câu tiếng Việt trong ngữ liệu tiếng Việt.
• Làm cơ sở để gán các nhãn ngôn ngữ cao hơn (tách từ, gán nhãn từ loại,
phân tích cú pháp...)
• Làm tiền đề cho các bài toán khác, như: dóng câu trong song ngữ Anh-Việt,
Pháp-Việt, dịch tự động Việt-Anh...
Phân tích và nhận diện câu:
Phân tích câu:
Xét về cấu tạo có câu đơn, câu ghép.
Câu đơn:
Một câu đơn cơ bản gồm có một nòng cốt đơn. Nòng cốt đơn gồm có hai phần,
phần đề và phần thuyết (theo quan điểm ngữ pháp chức năng) mà quan điểm ngữ pháp
truyền thống gọi là chủ ngữ và vị ngữ.
Ví dụ 1:
Bão Lekima cấp 11 / đang hướng vào Nghệ An - Hà Tĩnh.
Mọi chuyện / rồi sẽ qua đi.
Trong cấu tạo câu đơn có thể có những thành phần ngoài nòng cốt như
thành phần than gọi, thành phần chuyển tiếp, thành phần chú thích, thành phần
tình huống, thành phần khởi ý.
4
Ví dụ 2:
Nhiều lúc, tôi cũng muốn gào thét thật to, đạp tung, phá vỡ tất cả... Con người,
đó là cái vốn quý nhất.
Chao, đường còn xa lắm!
Riêng với thành phần than gọi thì ta chỉ xét nó thuộc nòng cốt câu khi nó đứng ở
cuối hoặc ở giữa câu.
Ví dụ 3:
Chúng ta đi về đi, bà con ơi!
Khi thành phần than gọi đứng ở đầu câu thì ta xem nó là một câu. Vì vốn dĩ
thành phần than gọi đã có tính chất độc lập. Hơn nữa, nó được ngăn cách với nòng cốt
câu bằng dấu (!) nên ta xem nó như một câu đặc biệt.
Ví dụ 4:
Trời! Nó lại quay trở về.
→ Tách thành 2 câu:
Trời!
Nó lại quay trở về.
Câu đơn đặc biệt là câu mà nòng cốt đơn chỉ có một thành phần.
Ví dụ 5:
Chỉ còn lại những ngày cuối cùng...
Điều chỉnh lại mình đi!
Câu ghép:
Về cấu trúc, câu ghép được tạo nên bởi ít nhất hai vế, mỗi vế là một nòng cốt
đơn. Câu ghép cũng có thể có những thành phần ngoài nòng cốt như câu đơn. Về
cấu trúc câu ghép thì có hai loại câu ghép cơ bản là câu ghép song song (câu ghép
đẳng lập) và câu ghép qua lại (câu ghép chính phụ).
Câu ghép song song (câu ghép đẳng lập)
Nếu cấu trúc câu đơn giản, ngắn gọn (gồm 2 vế mà mỗi vế là một nòng cốt đơn)
thì ta giữ nguyên cấu trúc câu của ngữ liệu.
Ví dụ 6:
Giọng của cháu đôi lúc đã nghẹn lại trong quá trình phiên dịch cho tổng thống và
Chủ tịch nước, cháu đã cố kiềm chế những giọt nước mắt của mình vì quá xúc động.
5
Nếu cấu trúc câu ghép song song có hơn hai vế và quá phức tạp (gồm nhiều
nòng cốt đơn) thì ta có thể tách thành những câu đơn. Bởi vì quan hệ giữa các vế trong
câu ghép song song không thật chặt chẽ và tách ra càng đơn giản thì việc xử lí dữ liệu
sẽ càng dễ dàng.
Ví dụ 7:
“Mong ước của tôi là: đấu tranh cho đến khi đất nước giành được độc lập và sau
đó lập quan hệ ngoại giao và bình thường hóa quan hệ giữa VN và Mỹ, được như vậy
thì tôi có thể mỉm cười mà nhắm mắt xuôi tay bất cứ lúc nào cũng thỏa lòng rồi”.
→ Câu trên là một câu ghép đẳng lập gồm nhiều nòng cốt đơn. Ta có thể
tách thành:
Mong ước của tôi là: đấu tranh cho đến khi đất nước giành được độc lập và
sau đó lập quan hệ ngoại giao và bình thường hóa quan hệ giữa VN và Mỹ.
Được như vậy thì tôi có thể mỉm cười mà nhắm mắt xuôi tay bất cứ lúc nào cũng
thỏa lòng rồi.
Ví dụ 8:
Đa số bà con ủng hộ chủ trương xây dựng khu đô thị mới Thủ Thiêm và họ
sẵn sàng giao đất để thực hiện dự án, nhưng họ muốn phải được đảm bảo quyền lợi và
cuộc sống sau khi di dời.
→ Theo ngữ nghĩa thì câu này có thể tách:
Đa số bà con ủng hộ chủ trương xây dựng khu đô thị mới Thủ Thiêm. Họ
sẵn sàng giao đất để thực hiện dự án, nhưng họ muốn phải được đảm bảo quyền lợi và
cuộc sống sau khi di dời.
Tuy nhiên ta nên hạn chế việc tách câu này, đặc biệt là với những câu ghép
đẳng lập mà các vế câu được nối với nhau bằng kết từ (và, rồi, hay, còn).Vì việc
tách câu này có thể làm cho câu cú gọn gàng nhưng ý nghĩa tự nhiên của ngữ liệu ít
nhiều đã bị thay đổi.
Câu ghép qua lại (câu ghép chính phụ)
Câu ghép chính phụ là câu ghép mà các vế trong câu phụ thuộc lẫn nhau,
không thể tách ra được.
Có thể nhận biết câu ghép chính phụ qua các cặp từ quan hệ như: nếu…thì,
tuy…nhưng, do…mà, …
Ví dụ 9:
6
- Dù họ là nhà thầu Nhật Bản nhưng nếu họ vi phạm pháp luật VN thì vẫn xử họ
theo qui định của pháp luật VN.
- Vả lại, đây là loại tội phạm mới thuộc về lĩnh vực khoa học kỹ thuật, vì vậy
ngoài lực lượng điều tra của ngành công an, chúng tôi cần phải phối hợp với các ngành
chuyên môn khoa học kỹ thuật khác để tìm ra nguyên nhân.
Giả sử mẹ nắm 60% vốn của công ty con; vậy mẹ phải cử đại diện dự các phiên
họp của ĐHCĐ của công ty con và biểu quyết theo số vốn góp.
Nhận diện câu:
Nhận diện chung:
Với các kiểu câu bình thường như trên ta có thể nhận biết câu qua dấu câu:
dấu chấm (câu tả, câu trần thuật, câu kể), dấu chấm than (câu cảm, câu cầu khiến), dấu
chấm hỏi (câu hỏi).
Nhận diện câu trong hội thoại:
Trong hội thoại dấu 2 chấm (:) báo hiệu cho lời nói trực tiếp, và lời nói trực tiếp
này nằm trong dấu ngoặc kép (“…”) hoặc bắt đầu sau dấu gạch đầu dòng (-). Trong
trường hợp này, ta sẽ tách câu (nhận diện câu qua dấu hai chấm (:)).
Ví dụ 10:
Ông cho biết:
- Căn cứ vào kết quả kiểm tra, khảo sát và những chứng cứ thu thập ban đầu từ
các đơn vị nghiệp vụ, tôi nhận thấy đây là một vụ án đặc biệt nghiêm trọng, gây
hậu quả lớn về người và của.
Hắn nói: “Mày chạy trước đi.”
→Tách thành hai câu:
Hắn nói:
“Mày chạy trước đi.”
Đối với đoạn hội thoại có vế trích dẫn nằm ở cuối câu thì ta cũng sẽ tách câu. Vì
trong lời nói trực tiếp có nhiều câu, khi ta tách chúng ra thành những câu riêng biệt,
vế trích dẫn cuối cùng sẽ gắn với câu cuối cùng làm thành một câu khác có ý nghĩa
khác thì câu sẽ trở nên sai. Vì vậy ta sẽ tách vế này ra thành một câu.
Ví dụ 11:
"CSGT có nhìn thấy cũng chịu chết vì đâu có len vào được mà xử phạt. Nếu bắt
dừng xe thì kẹt đường ngay”, một CSGT chốt tại đây nói.
7
→Tách thành ba câu:
CSGT có nhìn thấy cũng chịu chết vì đâu có len vào được mà xử phạt. Nếu bắt
dừng xe thì kẹt đường ngay. Một CSGT chốt tại đây nói.
Ví dụ 12:
“Điều khác lạ ở VN so với nhiều nước châu Âu là các doanh nghiệp sản xuất có
thể tham gia phân phối,, các qui định trong kinh doanh dược hiện có không qui định
nhiệm vụ cụ thể của từng tổ chức trong dây chuyền phân phối " - ông Andre nhận xét.
→ tách thành 2 câu:
“Điều khác lạ ở VN so với nhiều nước châu Âu là các doanh nghiệp sản xuất
có thể tham gia phân phối, các qui định trong kinh doanh dược hiện có không qui định
nhiệm vụ cụ thể của từng tổ chức trong dây chuyền phân phối”.
Ông Andre nhận xét.
Nhận diện câu sau dấu chấm phẩy (;)
Dấu chấm phẩy (;) thường dùng để chỉ ranh giới giữa các vế trong câu ghép
song song. Vì vậy ta có thể tách câu giống như câu ghép song song. Ngoài những
tiêu chí nhận diện câu qua câu ghép song song ta có những trường hợp khác sau:
Không nên tách câu khi sau dấu (;) là “thì”, “và”, “nên”
Ví dụ 13:
Giả sử, theo bản điều lệ, HĐQT có sáu thành viên; thì công ty mẹ phải
thuyết phục các cổ đông trong ĐHCĐ bầu bốn người đại diện của họ vào HĐQT. →
không tách câu. Nói một cách khác theo ngôn từ ta thường dùng, cơ quan chủ quản
ra lệnh cho công ty con ( 1 ) qua số vốn mình nắm và theo quyền biểu quyết đa số
tương đối hay tuyệt đối trong ĐHCĐ của công ty con; và ( 2 ) có người đại diện của
mình nắm đa số thành viên trong HĐQT. → không tách câu
Sau dấu (;) không phải là “thì”, “và”, “nên” thì ta có thể tách câu được. Riêng
trường hợp sau “và” không phải là động từ, không phải là sự liệt kê thì cũng có thể
tách được.
Ví dụ 14:
Vốn của nó do Nhà nước bỏ vào; nó hoạt động theo chỉ thị của cơ quan chủ quản;
và cơ quan này là người nắm vốn duy nhất.
→ Nên tách thành:
Vốn của nó do Nhà nước bỏ vào.
8
Nó hoạt động theo chỉ thị của cơ quan chủ quản.
Và cơ quan này là người nắm vốn duy nhất.
Sau dấu (;) là cặp từ “nhưng (để/ nếu/ muốn)…thì” thì cũng có thể tách câu được
vì cặp từ này có khả năng tạo thành một câu có đủ ý nghĩa và hoạt động độc lập được
Ví dụ 15:
Đối với chiến lược của tập đoàn, việc nâng cao hiệu quả sử dụng đất là cần thiết;
nhưng để cho các công ty con thực hiện thì đại diện của PetroVietnam tại ĐPM phải
họp ĐHCĐ hay HĐQT để ra quyết định.
→ Nên tách thành:
Đối với chiến lược của tập đoàn, việc nâng cao hiệu quả sử dụng đất là cần thiết.
Nhưng để cho các công ty con thực hiện thì đại diện của PetroVietnam tại ĐPM
phải họp ĐHCĐ hay HĐQT để ra quyết định.
Sau dấu (;) là một cụm từ có đầy đủ chủ vị và có khả năng độc lập thì cũng nên
tách câu
Ví dụ 16:
Một nghiên cứu đã chứng minh rằng đối với các nước có trình độ phát triển thấp,
mức độ phát triển xã hội là một nhân tố thích ứng với tăng trưởng; ở một trình độ cao
hơn, mức độ này dẫn đến thay đổi về phát triển cơ sở hạ tầng và các thể chế kinh tế...
→ Nên tách thành:
Một nghiên cứu đã chứng minh rằng đối với các nước có trình độ phát triển thấp,
mức độ phát triển xã hội là một nhân tố thích ứng với tăng trưởng.
Ở một trình độ cao hơn, mức độ này dẫn đến thay đổi về phát triển cơ sở hạ tầng
và các thể chế kinh tế...
Ví dụ 17:
Theo đó, chủ xe khách 63L-5796 Võ Hồng Xuân bị phạt 2,1 triệu đồng; tài xế
Đặng Hữu Thành (con bà Xuân) bị phạt 2,6 triệu đồng; tài xế xe khách 63L-5691
Lê Ngọc Trân bị phạt 2,1 triệu đồng; tài xế xe khách 63L-5634 Nguyễn Văn Thủy
bị phạt 430.000 đồng.
→ Nên tách thành:
Theo đó, chủ xe khách 63L-5796 Võ Hồng Xuân bị phạt 2,1 triệu đồng.
Tài xế Đặng Hữu Thành (con bà Xuân) bị phạt 2,6 triệu đồng.
9
Tài xế xe khách 63L-5691 Lê Ngọc Trân bị phạt 2,1 triệu đồng.
Tài xế xe khách 63L-5634 Nguyễn Văn Thủy bị phạt 430.000 đồng.
Nhận diện câu sau dấu ngang (-):
Dấu ngang dùng để chỉ ranh giới của thành phần chú thích, đặt trước những lời
đối thoại, liệt kê.
Đối với câu có dấu ngang dùng để chỉ thành phần chú thích thì ta không nên
tách câu.
Ví dụ 18:
Cơn sốt vé trong năm nay không còn nghi ngờ gì nữa phải thuộc về ngôi sao
nhạc nhẹ mới 14 tuổi Miley Cyrus, diễn viên ngôi sao của bộ phim truyền hình
Hannah Montana trên Disney Channel - bộ phim nói về cuộc sống thú vị của
một
cô nàng vừa là sinh viên vừa là ngôi sao nhạc nhẹ.
TTO - Sau một thời gian chạy thử nghiệm, Công ty VinaGame sẽ chính thức giới
thiệu Zing MP3 - công cụ tìm kiếm âm nhạc trực tuyến đầu tiên tại Việt Nam vào đầu
tháng tới.
Trên đây là những trường hợp thông thường và một số trường hợp đặc biệt
mà công việc tách câu thường gặp phải (đặc biệt là đối với ngữ liệu lấy từ báo chí).
Thực tế nhận diện câu và một số vấn đề lưu ý khác:
Nhận diện câu trong văn bản thơ:
Khi trích dẫn thơ xuất hiện dấu / chúng ta phải tách câu.
Ví dụ 19:
“Tôi muốn tắt nắng đi / Cho màu đừng nhạt mất / Tôi muốn buộc gió lại / Cho
hương đừng bay đi” Chúng ta phải tách thành:
“Tôi muốn tắt nắng đi
Cho màu đừng nhạt mất
Tôi muốn buộc gió lại
Cho hương đừng bay đi”
Nhận diện câu qua dấu hai chấm, ngay sau đó có đánh số:
Ví dụ 20:
Người ta tổng kết có năm nguyên nhân bỏ học: (1) kinh tế gia đình khó khăn; (2)
cha mẹ không quan tâm; (3) quản lý của nhà trường kém, chưa tập trung bồi dưỡng HS
10
yếu; (4) phối hợp giữa nhà trường và gia đình chưa chặt chẽ, thường xuyên; (5) HS
thiếu chuyên cần, học lực kém.
Tách thành:
Người ta tổng kết có năm nguyên nhân bỏ học:
(1) kinh tế gia đình khó khăn;
(2) cha mẹ không quan tâm;
(3) quản lý của nhà trường kém, chưa tập trung bồi dưỡng HS yếu;
(4) phối hợp giữa nhà trường và gia đình chưa chặt chẽ, thường xuyên;
(5) HS thiếu chuyên cần, học lực kém.
Như vậy, gặp trường hợp hai chấm (số 1, 2, 3…) chúng ta cần tách câu. Nếu
không có dấu hai chấm, chỉ có (số 1,2,3…) thì chúng ta không tách.
Ví dụ 21:
Nói một cách khác theo ngôn từ ta thường dùng, cơ quan chủ quản ra lệnh cho
công ty con (1) qua số vốn mình nắm và theo quyền biểu quyết đa số tương đối hay
tuyệt đối trong ĐHCĐ của công ty con; và (2) có người đại diện của mình nắm đa số
thành viên trong HĐQT.
Trường hợp này không tách.
Phân tách từ
Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ
trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn,
từ ghép… có trong câu.
Tự động thêm dấu: Chữ viết tiếng Việt là chữ viết có dấu thanh. Trong các
văn bản chính thống như sách, báo chí, văn bản hành chính, các dấu thanh được viết
chính xác. Tuy nhiên trong cách tình huống không chính thống như chat, gõ tìm kiếm,
người dùng thông thường không gõ các dấu thanh, dẫn tới khó khăn nhất định cho
máy tính trong việc hiểu ý nghĩa của văn bản. [4]
1.1.2. Các bài toán trong xử lý tiếng ânn ṭc thỉu ố DTTT)
Dịch tự động
Dịch tự động hay còn gọi là dịch là một nhánh của xử lý ngôn ngữ tự nhiên thuộc
phân ngành trí tuệ nhân tạo, nó là sự kết hợp giữa ngôn ngữ, dịch thuật và khoa học
máy tính. Như tên gọi, dịch tự động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ
- Xem thêm -