ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
TRẦN VĂN NHUỘM
GIẢI PHÁP PHIÊN ÂM TỪ VỰNG TIẾNG ANH
TRONG VĂN BẢN TIẾNG VIỆT
LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2017
ii
TÓM TẮT LUẬN VĂN
GIẢI PHÁP PHIÊN ÂM TỪ VỰNG TIẾNG ANH TRONG VĂN BẢN
TIẾNG VIỆT
Học viên: Trần Văn Nhuộm Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
Trường Đại học Bách khoa Đà Nẵng.
Tóm tắt – Trong các nghiên cứu về xử lý ngôn ngữ tự nhiên, xử lý văn bản và tiếng nói thì
bài toán chuẩn hóa văn bản tiếng Việt là một vấn đề quan trọng. Bởi vì một số văn bản tiếng
Việt hiện nay thường chứa nhiều từ không chuẩn như chữ viết tắt, chữ số và từ ngữ nước
ngoài. Luận văn này đưa ra giải pháp phiên âm từ vựng tiếng Anh trong văn bản tiếng Việt.
Thông qua các nghiên cứu sự tương đồng về cách phát âm và ngữ âm giữa tiếng Anh và tiếng
Việt. Và các nghiên cứu về cấu trúc âm tiết, quy tắc ghép âm vần, thanh điệu trong tiếng Việt
và tiếng Anh. Tôi đã đưa ra thuật toán và triển khai một số thuật toán để tách chuỗi âm vị
tiếng Anh thành âm tiết phát âm được bằng tiếng Việt và tạo ánh xạ từ âm vị tiếng Anh trong
từ điển Carnegie Mellon University (CMU) thành âm vị tiếng Việt. Từ đó, xây dựng công cụ
tự động phiên âm một từ vựng tiếng Anh bất kỳ thành một từ tiếng Việt. Công cụ này rất hữu
ích nếu được tích hợp vào một phần mềm chuyển văn bản thành tiếng nói tiếng Việt.
Từ khóa – Chuẩn hóa văn bản; phiên âm tiếng Anh; tiếng Việt; từ điển CMU; IPA; t2p.
INTRODUCES SOLUTION FOR ENGLISH PHONETIC
TRANSCRIPTION IN VIETNAMESE TEXT
Abstract – In the research of natural language processing, word processing and speech
processing, the Vietnamese text normalization is an important problem. The cause is
Vietnamese language recently contains many non-standard words like abbreviations, numbers
and foreign words. This thesis introduces solution for English phonetic transcription in
Vietnamese text. Through the research on the similarity of pronunciation and phonetics and
syllabic structure, rules of rhymes, tone in Vietnamese and English, I've come up with the
algorithm and establish an algorithm split English phonetic transcription into syllables that is
able to be pronounced in Vietnamese and create English phonemes in CMU dictionary to
Vietnamese phonemes mapping. Then, the automatic tool translates English into Vietnamese
vocabulary. This tool is very useful to integrate a text into speech software in Vietnamese.
Key word – Text normalization; English transliteration; Vietnamese; CMU Dictionary;
IPA; t2p.
iii
MỤC LỤC
LỜI CAM ĐOAN .............................................................................................................i
TÓM TẮT LUẬN VĂN ................................................................................................. ii
MỤC LỤC ..................................................................................................................... iii
DANH MỤC CÁC BẢNG ..............................................................................................v
DANH MỤC CÁC HÌNH ..............................................................................................vi
MỞ ĐẦU .........................................................................................................................1
1. Lý do chọn đề tài ....................................................................................................1
2. Mục đích và ý nghĩa đề tài ......................................................................................1
3. Mục tiêu và nhiệm vụ .............................................................................................2
4. Đối tượng và phạm vi nghiên cứu ..........................................................................2
5. Phương pháp nghiên cứu ........................................................................................2
6. Bố cục luận văn.......................................................................................................3
Chương 1. TỔNG QUAN...............................................................................................4
1.1. GIỚI THIỆU .........................................................................................................4
1.2. MỘT SỐ ĐỊNH NGHĨA VÀ THUẬT NGỮ .......................................................5
1.2.1. Arpabet ...........................................................................................................5
1.2.2. International Phonetic Alphabet ....................................................................5
1.2.3. Temp ...............................................................................................................5
1.2.4. t2p ...................................................................................................................5
Chương 2. NGỮ ÂM VÀ ÂM VỊ HỌC CỦA TIẾNG ANH VÀ TIẾNG VIỆT ..........6
2.1. MỞ ĐẦU ..............................................................................................................6
2.2. TỔNG QUAN VỀ NGỮ ÂM ...............................................................................6
2.2.1. Ngữ âm là gi? .................................................................................................6
2.2.2. Đơn vị kết cấu ngữ âm ...................................................................................7
2.3. ÂM TIẾT TIẾNG ANH VÀ TIẾNG VIỆT ..........................................................7
2.3.1. Khái niệm .......................................................................................................7
2.3.2. Cấu trúc ..........................................................................................................8
2.3.3. Đối chiếu cấu trúc âm tiết Việt – Anh ..........................................................17
2.4. ÂM VỊ TIẾNG ANH VÀ TIẾNG VIỆT ............................................................18
2.4.1. Âm vị tiếng Anh ............................................................................................18
2.4.2. Âm vị tiếng Việt ............................................................................................21
2.5. NGUYÊN ÂM TRONG TIẾNG ANH VÀ TIẾNG VIỆT .................................23
2.5.1. Nguyên âm trong tiếng Anh .........................................................................23
iv
2.5.2. Nguyên âm trong tiếng Việt .........................................................................24
2.5.3. Đối chiếu ......................................................................................................25
2.6. PHỤ ÂM TRONG TIẾNG ANH VÀ TIẾNG VIỆT..........................................27
2.6.1. Phụ âm trong tiếng Anh ...............................................................................27
2.6.2. Phụ âm trong tiếng Việt ...............................................................................27
2.6.3. Đối chiếu ......................................................................................................28
2.7. KẾT CHƯƠNG ..................................................................................................29
Chương 3. CÁC THUẬT TOÁN VÀ CÀI ĐẶT ..........................................................30
3.1. MỞ ĐẦU ............................................................................................................30
3.2. THUẬT TOÁN TỔNG QUAN ..........................................................................30
3.3. THUẬT TOÁN TÌM BIÊN ÂM TIẾT DỰA VÀO NGUYÊN ÂM ..................31
3.4. THUẬT TOÁN THÊM PHỤ ÂM VÀO ĐẦU ÂM TIẾT .................................32
3.5. THUẬT TOÁN THÊM PHỤ ÂM VÀO CUỐI ÂM TIẾT ................................33
3.6. THUẬT TOÁN BỔ SUNG NGUYÊN ÂM ĐỂ TẠO ÂM TIẾT MỚI .............34
3.7. XỬ LÝ CÁC TRƯỜNG HỢP NGOẠI LỆ VÀ ÁNH XẠ .................................35
3.7.1. Tiền xử lý ngoại lệ ........................................................................................35
3.7.2. Ánh xạ...........................................................................................................36
3.8. KẾT CHƯƠNG ..................................................................................................36
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ..............................................................37
4.1. MÔI TRƯỜNG THỰC NGHIỆM ......................................................................37
4.1.1. Công cụ hỗ trợ .............................................................................................37
4.1.2. Hướng dẫn sử dụng ......................................................................................37
4.2. DỮ LIỆU TỪ ĐIỂN ...........................................................................................37
4.3. KẾT QUẢ VÀ ĐÁNH GIÁ................................................................................38
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ....................................................................42
TÀI LIỆU THAM KHẢO .............................................................................................43
QUYẾT ĐỊNH GIAO ĐỀ TÀI.
BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC
PHẢN BIỆN
v
DANH MỤC CÁC BẢNG
Số hiệu
bảng
Tên bảng
Trang
2.1.
Cấu trúc âm tiết tiếng Việt
9
2.2.
Hệ thống phụ âm đầu
10
2.3.
Hệ thống phụ âm
10
2.4.
Hệ thống nguyên âm chính
12
2.5.
Hệ thống nguyên âm
12
2.6.
Phụ âm cuối trong tiếng Việt
14
2.7.
Cấu trúc âm tiết tiếng Anh
15
2.8.
Âm vị trong tiếng Anh [3]
18
2.9.
Âm vị trong tiếng Việt [6]
21
2.10.
Phụ âm đầu trong tiếng Anh
27
2.11.
Bảng phụ âm trong tiếng Việt
27
2.12.
Phụ âm cuối trong tiếng Việt
28
3.1.
Tổ hợp các nguyên âm và phụ âm cuối
35
4.1.
Thống kê kết quả thực nghiệm chương trình
38
vi
DANH MỤC CÁC HÌNH
Số hiệu
hình
Tên bảng
Trang
1.1.
Kết quả cây quyết định được xây dựng bởi t2p [7]
5
2.1.
So sánh giữa âm vị trong tiếng Việt và tiếng Anh [6]
6
2.2.
Thanh điệu
14
3.1.
Thuật toán tổng quan
30
3.2.
Tìm biên âm tiết
31
3.3.
Thêm phụ âm vào đầu âm tiết
32
3.4.
Thêm phụ âm vào cuối âm tiết
33
3.5.
Bổ sung nguyên âm vào âm tiết
34
4.1.
Chương trình phiên âm
37
1
MỞ ĐẦU
1. Lý do chọn đề tài
Chuyển văn bản thành tiếng nói trên máy tính đã đạt được những thành tựu rất
khả quan. Đã có nhiều hệ thống tổng hợp tiếng nói nhằm đáp ứng những ứng dụng
thiết thực trong xã hội, cụ thể như ứng dụng đọc văn bản trên một màn hình, hay trong
một cơ sở dữ liệu trong khi tham gia giao thông cho người khiếm thị,… Tuy nhiên, với
sự phát triển của xã hội ngày nay thì trên các phương tiện thông tin, phương tiện
truyền thông, mạng xã hội, … Chúng ta thường hay bắt gặp những từ có nguồn gốc từ
tiếng Anh xuất hiện với tần suất ngày càng nhiều trên các biển báo giao thông, bảng
hướng dẫn đường và các văn bản tiếng Việt khác,…. Trong thời đại hội nhập quốc tế
như hiện nay thì xu thế đó là không tránh khỏi. Tuy nhiên, việc xuất hiện những từ
tiếng Anh này cũng gây khó khăn cho các công nghệ nghiên cứu xử lý ngôn ngữ tự
nhiên, xử lý văn bản và xử lý tiếng nói ví dụ như hệ thống chuyển văn bản thành tiếng
nói, hệ thống nhận diện tiếng nói, … Trong một hệ chuyển văn bản tiếng Việt thành
tiếng nói, các từ viết bằng tiếng nước ngoài cần được Việt hóa cách phát âm để máy
tính có thể chuyển thành tiếng nói của người Việt. Trong một hệ nhận dạng tiếng nói
không giới hạn từ vựng dành cho người Việt, các từ không nằm trong tập từ vựng của
hệ (out-of-vocabulary words) cần được Việt hóa cách phát âm để máy tính có thể giải
mã đoạn tín hiệu âm thanh của từ đó.
Vì vậy, tôi đã tiến hành nghiên cứu để tìm “Giải pháp phiên âm từ vựng tiếng
Anh trong văn bản tiếng Việt”. Xây dựng công cụ phiên âm một từ vựng tiếng Anh
bất kỳ thành từ tiếng Việt, hay nói cánh khác là Việt hóa cách phát âm các từ vựng
tiếng Anh trong văn bản tiếng Việt.
2. Mục đích và ý nghĩa đề tài
2.1. Mục đích
Mục đích nghiên cứu của đề tài:
- Nghiên cứu và đề xuất giải pháp phiên âm từ vựng tiếng Anh trong văn bản
tiếng Việt.
- Tích hợp giải pháp đề xuất vào một hệ thống phiên âm một từ vựng tiếng Anh
bất kỳ thành một từ tiếng Việt.
2.2. Ý nghĩa khoa học và thực tiễn của đề tài
Đóng góp về mặt phương pháp luận và thực nghiệm vào lĩnh vực chuẩn hóa văn
bản, một nhánh nghiên cứu của xử lý ngôn ngữ tự nhiên.
2
Công cụ này sẽ Việt hóa các từ vựng tiếng Anh nên khi tích hợp vào hệ thống
chuyển văn bản tiếng Việt thành tiếng nói trên máy tính sẽ giúp cho hệ thống này phát
huy được hiệu quả hơn.
3. Mục tiêu và nhiệm vụ
3.1. Mục tiêu
- Nghiên cứu, so sánh và đối chiếu một số vấn đề trọng tâm về ngữ âm của tiếng
Anh và tiếng Việt.
- Nghiên cứu, tổng hợp bộ âm vị tiếng Anh, tiếng Việt.
- Nghiên cứu và xây dựng thuật toán tổng quát để ánh xạ từ âm vị tiếng Anh
trong từ điển CMU thành âm vị tiếng Việt.
3.2. Nhiệm vụ
Để đạt được mục tiêu đề tài thì nhiệm vụ cần thiết phải làm là:
- Tổng hợp các tài liệu về ngữ âm của tiếng Anh, tiếng Việt.
- Thống kê bảng âm vị tiếng Anh, tiếng Việt.
- Từ những đặc điểm về ngữ âm tiếng Anh, tiếng Việt đề xuất thuật toán tách
nguyên âm, thêm phụ âm đầu, thêm phụ âm cuối, bổ sung nguyên âm,…
- Xây dựng ánh xạ âm vị tiếng Anh thành âm vị tiếng Việt.
- Hệ thống các thuật toán tách nguyên âm, thêm phụ âm đầu, thêm phụ âm cuối,
bổ sung nguyên âm,… thành một thuật toán tổng quát.
- Cài đặt thuật toán và thực nghiệm với một số từ vựng xuất hiện nhiều trên các
trang báo điện tử.
- Dựa trên kết quả thực nghiệm để đánh giá kết quả của đề tài.
4. Đối tượng và phạm vi nghiên cứu
- Các từ vựng tiếng Anh trong văn bản tiếng Việt.
- Giải pháp phiên âm từ vựng tiếng Anh thành cách phát âm tiếng Việt.
5. Phương pháp nghiên cứu
5.1. Phương pháp lý thuyết
- Tìm và nghiên cứu các tài liệu có liên quan đến xử lý ngôn ngữ tự nhiên, xử lý
tiếng nói và ngữ âm tiếng Anh, tiếng Việt.
- So sánh, phân tích đưa ra giải pháp tối ưu cho yêu cầu của đề tài.
5.2. Phương pháp thực nghiệm
- Tìm, nghiên cứu và khai thác các công cụ phần mềm hỗ trợ.
- Kiểm tra, thực nghiệm, nhận xét và đánh giá kết quả.
3
6. Bố cục luận văn
Luận văn bao gồm 04 chương như sau:
Chương 1: Tổng quan
Chương 2: Ngữ âm và âm vị học của tiếng Anh và tiếng Việt
Chương 3: Các thuật toán và cài đặt
Chương 4: Thực nghiệm và đánh giá
4
Chương 1 – TỔNG QUAN
1.1. GIỚI THIỆU
Chuẩn hóa văn bản đóng vai trò quan trọng trong hệ thống tổng hợp văn bản
thành tiếng nói. Đã có nhiều nghiên cứu về vấn đề này trong những năm gần đây,
nhưng chúng ta vẫn còn nhiều vấn đề cần phải giải quyết. Chuẩn hóa văn bản là một
quá trình quyết định xem làm thế nào có thể đọc được những từ không chuẩn chẳng
hạn như Nato, Facebook,… Quá trình này sẽ quyết định chất lượng của một hệ thống
tổng hợp tiếng nói. Tuy nhiên, nhiều hệ thống tổng hợp tiếng nói chỉ chú trọng vào
việc làm thế nào để tạo ra được âm thanh nhân tạo. Như một kết quả tất yếu, họ giả sử
rằng những văn bản đầu vào luôn luôn ở dạng có thể phát âm được. Tuy nhiên, những
văn bản thực tế thì lại không phải lúc nào cũng bao gồm toàn những từ ở dạng chuẩn
có thể phát âm chính xác. Ví dụ, chúng có thể là những số liệu, những chữ viết tắt (như
GD viết tắt cho “Giáo dục”), những cấu trúc biểu diễn thời gian (như 12h30), tên nước
ngoài và tên địa danh (như New York), những chữ số La Mã,… Ở Việt Nam, đã có
nhiều hệ thống tổng hợp tiếng nói đã đạt được nhiều kết quả như SAOMAI,
HOASUNG, VOICE OF SOUTHERN, VieTalk,… nhưng hầu hết các hệ thống này
vẫn chưa dành đủ sự quan tâm cho chuẩn hóa văn bản. Những hệ thống này không thể
đọc được những từ không chuẩn, hoặc nếu đọc được thì chỉ đọc bằng một cách rất đơn
sơ mà hoàn toàn sai. Vì vậy, trong nghiên cứu này nhằm đưa ra giải pháp góp phần
vào việc chuẩn hóa văn bản bằng xây dựng công cụ phiên âm một từ vựng tiếng Anh
bất kỳ thành một từ tiếng Việt. Công cụ này rất hữu ích nếu được tích hợp vào một hệ
thống chuyển văn bản thành tiếng nói tiếng Việt.
Trong quá trình nghiên cứu và xây dựng công cụ đã sử dụng sự hỗ trợ từ một số
công cụ như bộ từ điển CMU, công cụ t2p,… và căn cứ theo Bảng ký hiệu ngữ âm
quốc tế IPA. Với cách tiếp cận bằng việc nghiên cứu sự tương đồng về phát âm và ngữ
âm giữa tiếng Anh và tiếng Việt cùng với các quy tắc ghép âm, thanh điệu, triển khai
thuật toán tách chuỗi âm vị tiếng Anh thành âm tiết phát âm được bằng tiếng Việt và
ánh xạ một âm vị tiếng Anh trong CMU thành một âm vị tiếng Việt trong IPA. Từ đó
áp dụng các kỹ năng và kỹ thuật lập trình để xây dựng thành công chương trình Việt
hóa cách phát âm các từ vựng tiếng Anh trong các văn bản tiếng Việt. Luận văn gồm
có 03 phần chính trình bày quá trình nghiên cứu gồm những nội dung như giới thiệu
ngữ âm tiếng Anh và tiếng Việt; dựa trên cơ sở sự tương đồng về phát âm, ngữ âm
giữa tiếng Anh và tiếng Việt lập bảng Arpabet; trình bày và phân tích thuật toán tổng
quát, thuật toán cơ bản về tìm biên nguyên âm, thêm phụ âm đầu,…; môi trường thực
nghiệm và đánh giá; kết luận và hướng phát triển cho nghiên cứu.
5
1.2. MỘT SỐ ĐỊNH NGHĨA VÀ THUẬT NGỮ
1.2.1. Arpabet
Arpabet là hệ thống mã sao chép âm vị phát triển bởi cơ quan Advanced
Research Projects Agency (ARPA) như là một phần của Dự án Thông hiểu tiếng nói
(Speech Understanding Project) [3].
1.2.2. International Phonetic Alphabet
International Phonetic Alphabet (IPA) là một sản phẩm của International
Phonetic Association (Hiệp hội Ngữ âm quốc tế). Mục đích của IPA là ghi lại và sắp
xếp âm trong các ngôn ngữ trên thế giới dựa vào những quy tắc ngữ âm khớp nối
(articulatory phonetics principles) [2].
1.2.3. Temp
Temp là hệ thống mã sử dụng để ghi các âm vị tiếng Việt trên máy tính.
1.2.4. t2p
a. Định nghĩa : t2p là một chương trình cài đặt bằng ngôn ngữ Perl dùng để xây
dựng những quy tắc biến tự vị thành âm vị dựa trên từ điển phát âm. Nói cách khác, nó
xây dựng quy tắc biến chữ cái thành âm để phát âm một từ cho trước dựa trên ví dụ là
những từ đã được phát âm trước đó. Ví dụ khi áp dụng t2p cho từ “FACEBOOK” kết
quả sau khi chạy chương trình là: “F EY S B UH KD”.
b. Nguyên lý hoạt động
t2p sử dụng từ điển CMU và xây dựng Cây quyết định (Decision Tree) để tạo mô
hình cho các từ Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được
dùng để phân lớp các đối tượng dựa vào dãy các luật (series of rules). Về bản chất thì
giống như câu lệnh “if then else”. Điều này được thể hiện rõ qua Hình 1.1.
Hình 1.1. Kết quả cây quyết định được xây dựng bởi t2p [7]
6
Chương 2. NGỮ ÂM VÀ ÂM VỊ HỌC CỦA TIẾNG ANH VÀ
TIẾNG VIỆT
2.1. MỞ ĐẦU
Để tìm ra được giải pháp phiên âm từ vựng tiếng Anh trong văn bản tiếng Việt
thì một trong những cơ sở lý thuyết quan trọng là nghiên cứu, phân tích về hệ thống
ngữ âm, âm vị của tiếng Anh và tiếng Việt. Từ đó, cho thấy giữa tiếng Anh và tiếng
Việt có những điểm tương đồng về ngữ âm và âm vị. Tuy nhiên, song song với những
điểm tương đồng thì luôn tồn tại sự khác biệt giữa chúng như tiếng Anh có những âm
vị mà không xuất hiện trong tiếng Việt và điều này cũng diễn ra theo hướng ngược lại.
Hình 2.1. So sánh giữa âm vị trong tiếng Việt và tiếng Anh [6]
Để hiểu rõ hơn về những vấn đề đã nêu thì chương này sẽ trình bày, phân tích và
so sánh cụ thể những nội dung liên quan đến ngữ âm, cấu trúc âm tiết, âm vị, nguyên
âm và phụ âm của tiếng Anh và tiếng Việt.
2.2. TỔNG QUAN VỀ NGỮ ÂM
2.2.1. Ngữ âm là gi?
Ngữ âm được hiểu là toàn bộ âm thanh ngôn ngữ và tất cả các quy luật, quy tắc
kết hợp âm thanh, giọng điệu ở trong từ, trong câu của ngôn ngữ [1].
7
+ Âm thanh ngôn ngữ là âm thanh do bộ máy cấu âm của con người tạo ra. Nó có
nghĩa và đảm nhận chức năng giao tiếp trong cộng đồng.
+ Kiến trúc ngữ âm là tổng hợp tất cả các quy luật, quy tắc kết hợp âm thanh,
giọng điệu ở trong từ, trong câu của ngôn ngữ.
2.2.2. Đơn vị kết cấu ngữ âm
+ Âm tiết là chuỗi lời nói con người dùng để giao tiếp có thể chia tách thành
những khúc đoạn từ lớn đến nhỏ, khúc đoạn nhỏ nhất cuối cùng không còn có thể phân
chia, ta gọi là âm tiết. Tuy nhiên, về mặt thính giác, dựa vào kinh nghiệm sử dụng
ngôn ngữ trong hoạt động giao tiếp, khi nghe một âm tiết ta có cảm giác là có thể tách
thành những yếu tố nhỏ hơn.
+ Âm tố và âm vị
Âm tố là đơn vị phát âm tự nhiên nhỏ nhất của lời nói. Âm tố được phân làm hai
loại chính là âm tố nguyên âm và âm tố phụ âm. Gọi tắt là nguyên âm và phụ âm.
Âm vị là đơn vị nhỏ nhất của ngôn ngữ dùng để cấu tạo hình vị và phân biệt
nghĩa các hình vị.
Âm tố là sự thể hiện của các âm vị trong lời nói.
+ Thanh điệu, trọng âm và ngữ điệu
Thanh điệu là khái niệm dùng để chỉ cao độ của âm tiết. Cao độ này có được là
do sự rung bật của dây thanh. Tùy thuộc vào sự rung động đó nhanh hay chậm, mạnh
hay yếu, biến chuyển ra sao,… mà ta có các thanh điệu khác nhau. Thanh điệu là một
âm vị siêu đoạn tính. Nó được biểu hiện trong toàn âm tiết, hay đúng hơn là toàn bộ
phần thanh tính của âm tiết (bao gồm cả âm đầu, âm đệm, âm chính và âm cuối).
Trọng âm là hiện tượng phát âm nhấn mạnh vào một yếu tố ngữ âm nào đó trong
chuỗi lời nói làm cho nó nổi bật lên. Sự nhấn mạnh đó thường được thể hiện bằng các
cách như tăng độ mạnh phát âm, tăng độ dài phát âm, lên xuống giọng.
Ngữ điệu là sự thay đổi âm điệu của toàn bộ câu nói hay trong hoạt động giao
tiếp, dòng ngữ lưu của người phát ngôn truyền đi không phải đều đều mà ngược lại âm
điệu của câu nói do người nói phát ra lúc mạnh, lúc yếu, lúc nhanh, lúc chậm, lúc lên,
lúc xuống, có lúc liên tục, có lúc ngắt quãng,…sự thay đổi này gọi là ngữ điệu.
2.3. ÂM TIẾT TIẾNG ANH VÀ TIẾNG VIỆT
2.3.1. Khái niệm
a. Âm tiết tiếng Việt
Lời nói của con người là một chuỗi âm thanh được phát ra kế tiếp nhau trong
không gian và thời gian. Việc phân tích chuỗi âm thanh ấy người ta nhận ra được các
8
đơn vị của ngữ âm [1]. Khi một người phát ngôn “Hà Nội mùa này vắng những cơn
mưa”, chúng ta nghe được những khúc đoạn tự nhiên trong chuỗi lời nói đó như sau:
Hà / Nội / mùa / này / vắng / những / cơn / mưa
Những khúc đoạn âm thanh này không thể chia nhỏ hơn được nữa dù chúng ta có
cố tình phát âm thật chậm, thật tách bạch. Điều đó chứng tỏ rằng, đây là những khúc
đoạn âm thanh tự nhiên nhỏ nhất khi phát âm, và được gọi là âm tiết. Trong tiếng Việt,
một âm tiết bao giờ cũng được phát ra với một thanh điệu, và tách rời với âm tiết khác.
Vì vậy, việc nhận ra âm tiết trong tiếng Việt là dễ dàng hơn nhiều so với các ngôn ngữ
Ấn Âu. Trên chữ viết, mỗi âm tiết tiếng Việt được ghi thành một “chữ”.
b. Âm tiết tiếng Anh
Âm tiết là một đơn vị phát âm, thường gồm có một âm nguyên âm (/ʌ/, /æ/, /ɑː/,
/ɔɪ/, /ʊə/...) và các phụ âm (p, k, t, m, n...) bao quanh hoặc không có phụ âm bao
quanh. Từ có thể có một, hai, ba hoặc nhiều hơn ba âm tiết.
Ví dụ:
Phiên âm
Số lượng âm tiết
Fun
/fʌn/
1
Fast
/fæst/
1
Swim
/swɪm/
1
Whisker
/ˈwɪskər/
2
Important
/ɪmˈpɔːrtnt/
3
/ˌɪntərˈnæʃnəl/
5
Ví dụ: Từ
International
2.3.2. Cấu trúc
a. Cấu trúc âm tiết tiếng Việt
Mỗi âm tiết tiếng Việt là một khối hoàn chỉnh trong phát âm. Trên thực tế không
ai phát âm tách nhỏ cái khối đó ra được trừ những người nói lắp. Trong ngữ cảnh của
người Việt, âm tiết tuy được phát âm liền một hơi, nhưng không phải là một khối bất
biến mà có cấu tạo lắp ghép. Khối lắp ghép ấy có thể tháo rời từng bộ phận của âm tiết
này để hoán vị với bộ phận tương ứng của ở âm tiết khác. Ví dụ:
9
tiền đâu —> đầu tiên (đảo trật tự âm tiết và hoán vị thanh điệu “`”)
hiện đại —> hại điện (hoán vị phần sau “iên” cho “ai”)
nhỉ đay —> nhảy đi (thanh điệu giữ nguyên vị trí cùng với phần đầu “nh” và “đ”)
Quan sát ví dụ trên ta thấy âm tiết tiếng Việt có 3 bộ phận mà người bản ngữ nào
cũng nhận ra như thanh điệu, phần đầu và phần sau. Phần đầu của âm tiết được xác
định là âm đầu, vì ở vị trí này chỉ có một âm vị tham gia cấu tạo. Phần sau của âm tiết
được gọi là phần vần. Người Việt chưa biết chữ không cảm nhận được cấu tạo của
phần vần. Phân tích, tổng hợp các yếu tố tạo nên vần, rồi ghép với âm đầu để nhận ra
âm tiết.
Ví dụ:
U + Â + N = UÂN, X + UÂN = XUÂN
Các âm đầu vần, giữa vần và cuối vần (U, Â, N) được gọi là âm đệm, âm
chính và âm cuối. Có thể hình dung về cấu tạo âm tiết tiếng Việt trong một mô hình
như sau:
Bảng 2.1: Cấu trúc âm tiết tiếng Việt
Thanh điệu: không (zero), huyền (ˋ), hỏi (?), ngã (~), sắc (ˊ), nặng (.)
Vần
t
O
A
n
Âm đầu
Âm đệm
Âm chính
Âm cuối
* Âm đầu
Tại vị trí thứ nhất trong âm tiết, âm đầu có chức năng mở đầu âm tiết. Những âm
tiết mà không ghi âm đầu như an, ấm, êm,… được mở đầu bằng động tác khép kín khe
thanh, sau đó mở ra đột ngột, gây nên một tiếng bật. Động tác mở đầu ấy có giá trị như
một phụ âm và người ta gọi là âm tắc thanh hầu (kí hiệu: /?/). Như vậy, âm tiết trong
tiếng Việt luôn luôn có mặt âm đầu (phụ âm đầu). Với những âm tiết mang âm tắc
thanh hầu như vừa nêu trên thì trên chữ viết không được ghi lại, và như vậy vị trí xuất
hiện của nó trong âm tiết là zero, trên chữ viết nó thể hiện bằng sự vắng mặt của chữ
viết. Sau đây là bảng hệ thống phụ âm đầu trong tiếng Việt (Bảng 2.2).
10
Bảng 2.2: Hệ thống phụ âm đầu
Vị trí
Phương thức
Môi
Đầu lưỡi
Răng
Tắc
Hữu thanh
Xát
Hữu thanh
ʈ
Không
bật hơi
P
t
Không
mũi
b
d
Mũi
m
n
f
s
v
z
Vô thanh
Không
bên
Cuối
lưỡi
C
k
Thanh
hầu
t’
Bật hơi
Vô thanh
Ngạc
Mặt
lưỡi
ɲ
ʂ
ʐ
ʔ
ŋ
x
h
ɣ
l
Bên
Trong Bảng 2.2, có ghi âm vị /p/, một âm vị không xuất hiện ở vị trí đầu âm tiết
trong các từ thuần Việt nhưng do sự tiếp xúc ngôn ngữ, do nhu cầu học tập cũng như
giao lưu văn hoá, khoa học -kĩ thuật,… cần phải ghi lại các thuật ngữ, tên địa danh,
nhân danh nên Bảng 2.2 có đưa /p/ vào trong hệ thống phụ âm đầu của tiếng Việt. Các
âm vị phụ âm đầu được thể hiện trên chữ viết của bảng hệ thống phụ âm (Bảng 2.3).
Bảng 2.3: Hệ thống phụ âm
STT
Âm vị
Chữ viết
Đọc
Chữ cái
Ví dụ
1
|f|
ph
phờ
p+h
phổi, pháo
2
| t’|
th
thờ
t+h
thu, thôi
3
|ʈ|
tr
trờ
t+r
trăng, trời
4
|z|
gi/d
gi/dê
g+i/d
giếng, dao
5
|c|
ch
chờ
c+h
chơi, cho, chuộng
6
|ɲ|
nh
nhờ
n+h
nhà, nhảy, những
7
|ŋ|
ng/ngh
ngờ
8
|χ|
kh
khờ
k+h
9
|ɣ|
g/gh
gờ
g/g+h
gà, gọi, ghi, ghe
10
|k|
c/q/k
xê/quy/ca
c/q/k
cà kê, cá quả
11
|t|
t
tê
t
n+g/n+g+h ngành, người, nghĩ, nghề
khuya, không
ta, tôi, tức
11
STT
Âm vị
Chữ viết
Đọc
Chữ cái
Ví dụ
12
|ʐ|
r
e-rờ
r
rổ, rá
13
|h|
h
hát
h
hoa, học hành
14
|b|
b
bê
b
bằng, bơi, biết
15
|m|
m
em-mờ
m
miệng, môi, mắt, mũi
16
|v|
v
vê
v
vui, vắng, vụt
17
|đ|
đ
đê
đ
đang, đợi, đói
18
|n|
n
en-nờ
n
năm, nàng, nên
19
|l|
l
e-lờ
l
lên, lòng, lợi
20
|s|
x
ích-xì
x
xuống, xua
21
|p|
p
pê
p
bắp, bịp, chắp
22
|ş|
s
ét-sì
s
say sưa, sắp sửa
23
|ʔ|
zero
zero
zero
ăn uống, ỉ eo, ồn ào
Tiếng Việt có 23 âm vị là phụ âm. Tương ứng với 23 âm vị phụ âm thì có 24
cách đọc (phát âm) và được ghi lại bằng 27 chữ viết. 27 chữ viết này được hình thành
từ 19 chữ cái (con chữ).
* Âm đệm
Âm đệm là yếu tố đứng ở vị trí thứ hai, sau âm đầu. Nó tạo nên sự đối lập tròn
môi (voan) và không tròn môi (van). Trong tiếng Việt, âm đệm được miêu tả gồm âm
vị bán nguyên âm /u/ và âm vị “zero” (âm vị trống). Âm đệm “zero” có thể tồn tại
cùng tất cả các âm đầu, không có ngoại lệ. Âm đệm /u/ không được phân bố trong
trường hợp sau:
– Nếu âm tiết có phụ âm đầu là âm môi.
– Nếu âm tiết có nguyên âm là âm tròn môi.
Ngoài ra, âm đệm /u/ còn không được phân bố với “g” (trừ góa) và “ư“, “ươ“. Đó
là quy luật chung của tiếng Việt: Các âm có cấu âm như nhau hoặc gần nhau không
được phân bố cùng nhau. Trên chữ viết, âm đệm “zero” thể hiện bằng sự vắng mặt của
chữ viết, âm đệm /u/ thể hiện bằng chữ “u” và “o“.
* Âm chính
Âm chính đứng ở vị trí thứ ba trong âm tiết, là hạt nhân, là đỉnh của âm tiết, nó
mang âm sắc chủ yếu của âm tiết. Âm chính trong tiếng Việt do nguyên âm đảm
nhiệm. Nguyên âm của tiếng Việt có chức năng làm âm chính và nó luôn hiện diện
12
trong âm tiết. Vì mang âm sắc chủ yếu của âm tiết nên âm chính là âm mang thanh
điệu.
Có nhiều quan điểm khác nhau về số lượng âm chính trong tiếng Việt. Nhưng
nhìn chung ý kiến cho rằng tiếng Việt có 16 nguyên âm chính (gồm 3 nguyên âm đôi,
13 nguyên âm đơn, trong đó có 9 nguyên âm đơn dài và 4 nguyên âm đơn ngắn) là có
cơ sở (Bảng 2.4 và Bảng 2.5).
Bảng 2.4: Hệ thống nguyên âm chính
9 nguyên âm ngắn
13 nguyên âm đơn
i
ɯ
u
e
ɤ
o
ɛ
a
ɔ
ɛ̆
ă
ɔ̆
i͜e
ɯ͜ɤ
ɤ̆
4 nguyên âm dài
3 nguyên âm đôi
u͜o
Bảng 2.5: Hệ thống nguyên âm
STT
Âm vị
Chữ viết
Đọc
Chữ cái Ví dụ
1
|i|
i, y
i
i, y
2
|e|
ê
ê
ê
ê chề, êm đềm
3
|ɛ|
e
e
e
e dè, e thẹn
4
| ɛ̆ |
a
a
a
anh ách, xanh xanh
5
|a|
a
a
a
a ha, la đà
6
|ă|
ă/a
ă/a
ă/a
7
|ɤ|
ơ
ơ
ơ
bơ phờ, tờ mờ
8
| ɤ̆ |
â
â
â
ân cần, lấn bấn
9
|ɯ|
ư
ư
ư
từ từ, lữ thứ
10
|o|
ô
ô
ô
ô hô, hồ đồ
11
|ɔ|
o/oo
o
o/o+o
im ím, ý chí
ăn năn, ăn chặn/rau đay
co ro, lò dò, xoong
13
STT
Âm vị
Chữ viết
Đọc
Chữ cái Ví dụ
12
| ɔ̆ |
o
o
o
vòng lọng, tóc, học
13
|u|
u
u
u
tu hú, lù mù
14
| i͜e |
ia/ya
iê/yê
ia
iê
i+a/y+a
i+ê/y+ê
kia kìa/khuya
yêu chiều
15
| u͜o |
uô/ua
uô/ua
16
| ɯ͜ɤ |
ươ/ưa
ươ/ưa
17
| i̯ |
i/y
18
| u̯ |
o/u
tuốt tuồn tuột/tua rua
i
u+ô,
u+a
ư+a,
ư+ơ
i/y
o/u
o/u
toán, đào hào/tuần, đau
lướt thướt/lưa thưa
tai tái/cày cấy
* Trong 2 âm vị bán nguyên âm | i̯ | và | u̯ | thì | u̯ | vừa đóng vai trò là âm đệm
(viết “o” trong toán, toàn, xoan…, viết “u” trong tuần, tuấn, quẩn,…), vừa
đóng vai trò âm cuối (viết “o” trong đào hào, báo cáo, táo…, viết “u” trong
đau, rau câu…), còn | i̯ | đóng vai trò âm cuối.
* Âm cuối
Âm cuối có vị trí cuối cùng của âm tiết, nó có chức năng kết thúc một âm tiết. Do
vậy khi có mặt của âm cuối thì âm tiết không có khả năng kết hợp thêm với âm (âm vị)
nào khác ở phần sau của nó. Ví dụ: trong “cúi”, thì “i” là âm cuối kết thúc âm tiết nên
sau nó không thêm gì cho âm tiết lại. Trái lại, trong “quý”, do “y” không phải là âm
cuối vì có thể thêm vào sau nó một âm cuối như “t” trong “quýt”, “nh” trong “quýnh”,
v.v… Những âm tiết còn có khả năng thêm vào âm cuối như “quý” ở trên, trong thực
tế vẫn được kết thúc như một âm tiết hoàn chỉnh. Bởi vì ở vị trí cuối (vị trí kết thúc âm
tiết) lúc ấy có mặt một âm cuối, được gọi là âm cuối zero đối lập với tất cả các âm cuối
khác.
Âm cuối là bán nguyên âm /u/ (ngắn) có âm sắc trầm chỉ được phân bố sau các
nguyên âm bổng và trung hòa, trừ nguyên âm “ơ” ngắn, ví dụ trong níu, áo, bêu diếu,
cầu cứu,… Bán nguyên âm cuối /i/ (ngắn) có âm sắc bổng chỉ được phân bố sau các
nguyên âm trầm và trung hòa, ví dụ trong tôi, chơi, túi, gửi, lấy,…
Âm cuối zero là một âm vị trống nên không được biểu thị bằng chữ viết. Nó đối
lập với 6 âm cuối ở bảng 2.6, giống như âm đệm zero đối lập với âm đệm /u/, âm tắc
thanh hầu /?/ đối lập với các phụ âm khác trong hệ thống các phụ âm đầu.
14
Bảng 2.6: Phụ âm cuối trong tiếng Việt
Vị trí
Môi môi
Phương thức
Vô thanh
Hữu thanh
Bán âm
Âm cuối zero
p
m
u̯
Đầu lưỡi
răng
t
n
Cuối lưỡi
k
ŋ
i̯
zero
* Thanh điệu
Thanh điệu là một yếu tố thể hiện độ cao và sự chuyển biến của độ cao trong mỗi
âm tiết. Mỗi âm tiết tiếng Việt nhất thiết phải được thể hiện với một thanh điệu. Thanh
điệu có chức năng phân biệt vỏ âm thanh, phân biệt nghĩa của từ.
Có nhiều ý kiến khác nhau về vị trí của thanh điệu trong âm tiết. Nhưng ý kiến
cho rằng thanh điệu nằm trong cả quá trình phát âm của âm tiết (nằm trên toàn bộ âm
tiết) là đáng tin cậy nhất về vị trí của thanh điệu. Sau đây là biểu đồ hệ thống các thanh
điệu trong tiếng Việt (Hình 2.2).
Hình 2.2: Thanh điệu
- Xem thêm -