Đăng ký Đăng nhập
Trang chủ Cấu trúc formant của nguyên âm tiếng việt trong kết hợp với âm tắc và thanh điệu...

Tài liệu Cấu trúc formant của nguyên âm tiếng việt trong kết hợp với âm tắc và thanh điệu (trên cơ sở khảo sát thực nghiệm) [full]

.PDF
133
733
142

Mô tả:

Cấu trúc formant của nguyên âm tiếng Việt trong kết hợp với âm tắc và thanh điệu (Trên cơ sở khảo sát thực nghiệm) [FULL]
MỞ ĐẦU 1. LÍ DO CHỌN ĐỀ TÀI Tiếng Việt là một ngôn ngữ thuộc loại hình đơn lập, trong đó mỗi âm tiết là một đơn vị hoàn chỉnh độc lập, là đơn vị cuối cùng trong việc phân xuất các đơn vị của lời nói, đồng thời âm tiết cũng là cơ sở để phân tích cấu trúc kết hợp các âm vị. Các âm vị trong tiếng Việt có ba loại: nguyên âm, phụ âm và thanh điệu. Nguyên âm và phụ âm là những âm vị tuyến tính, chúng kết hợp với nhau theo trật tự trước sau trong quá trình phát âm. Chúng là những âm vị có thể phân tách ra thành từng đơn vị nhỏ hơn, nên còn gọi là những âm vị đoạn tính. Trái với loại âm vị trên, thanh điệu là âm vị phi tuyến tính, bao trùm toàn bộ âm tiết và gắn liền với âm tiết trong suốt quá trình phát âm. Thanh không thể chiết ra khỏi âm tiết được, mà nhất thiết phải gắn với âm tiết, vì thế nên thanh còn gọi là âm vị siêu đoạn tính. Chính do vai trò của âm tiết như vậy nên từ lâu nhiều tác giả đã quan tâm nghiên cứu đơn vị cơ bản này, đặc biệt là bằng phương pháp thực nghiệm. Các công trình thực nghiệm đã được công bố nhiều hơn cả là nghiên cứu về hệ thanh điệu và formant của nguyên âm đơn. Có thể coi Lê Văn Lý là người đầu tiên nghiên cứu thực nghiệm về thanh điệu. Những nghiên cứu thực nghiệm về thanh điệu tiếng Việt còn có thể kể: Nguyễn Hàm Dương (1962); Han Mieko(1968), Hoàng Cao cương (1982); Cao Xuân Hạo (1986), Vũ Kim Bảng (1984), Nguyễn Văn Lợi, Vũ Thanh Phương, Andrea Phạm Hoa... Những nghiên cứu thực nghiệm về formant tiếng Việt có thể kể: Nguyễn Văn Ái (1973, 1974); Vũ Kim Bảng (2002). 1 Tuy nhiên, trong phạm vi âm tiết tiếng Việt, xét về các đặc trưng âm học của nó, còn có một số vấn đề chưa được đề cập tới, đó là: mối quan hệ hay vai trò của âm đầu và âm cuối đối với nguyên âm (formant) và thanh điệu (âm vực và đường nét). Những kết quả nghiên cứu này có giá trị cả về mặt lí thuyết cũng như ứng dụng thực tiễn. Trong vòng 50 năm qua, công nghệ thông tin đã phát triển nhanh chóng và mạnh mẽ. Trong xu hướng chung đó cùng với vai trò của mạng Internet và thông tin di động viễn thông nói riêng, sự phát triển các hệ tự động nhận dạng và tổng hợp tiếng nói như là một nhu cầu tất yếu. Trên thế giới đã có những bộ phần mềm thương mại thuộc lĩnh vực này dành cho tiếng Anh như: IBM Via Voice, Dragon Naturally Speaking, L&H Voice Xpress. Gần đây nhất, hãng Microsoft đã công bố việc tích hợp VUI (Voice User Interface) thay cho GUI (Graphic User Intreface) truyền thống vào phiên bản điều hành Windows thế hệ mới. Tại Việt Nam, nội dung nghiên cứu về nhận dạng tiếng Việt đã được đề cập tới từ năm 1981. Bắt đầu từ năm 1991 cho đến nay, trong các chương trình, đề tài về khoa học và công nghệ, vấn đề nhận dạng và tổng hợp tiếng Việt luôn là một nội dung được ưu tiên. Gần đây, nhiều đề tài các cấp về nghiên cứu phát triển công nghệ nhận dạng và tổng hợp và xử lí ngôn ngữ tiếng Việt đã có những kết quả đột phá trong lĩnh vực này. Trong giai đoạn hiện nay, vấn đề xử lí tiếng Việt cho tổng hợp và nhận dạng là một nhu cầu cấp bách đòi hỏi có những nghiên cứu thực nghiệm cụ thể về ngữ âm tiếng Việt. Từ những tiền đề trên chúng tôi lựa chọn đề tài: Cấu trúc formant của nguyên âm tiếng Việt trong kết hợp với âm tắc và thanh điệu (Trên cơ sở khảo sát thực nghiệm) làm đề tài luận án. 2 2. TỔNG QUAN 2.1. Những nghiên cứu về formant của nguyên âm trên thế giới Formant và cấu trúc formant của nguyên âm là một trong những lĩnh vực nghiên cứu mang tính ứng dụng cao đã được thực hiện ở nhiều ngôn ngữ trên thế giới. Theo hướng nghiên cứu này, người ta đã thu được nhiều thành công và đã có kết quả nghiên cứu ứng dụng vào công nghệ xử lí tiếng nói: phần mềm tổng hợp tiếng nói thực hiện bằng phương pháp tổng hợp formant đã được tích hợp vào các tiện ích của điện thoại di động, hộp thư trả lời tự động, xếp hàng tự động... Những tiến bộ và điều kiện kĩ thuật hiện nay, đặc biệt là sự phát triển của công nghệ thông tin cho phép các nhà khoa học nghiên cứu một cách toàn diện và có hệ thống đặc trưng âm học của các ngôn ngữ nói chung và của nguyên âm nói riêng. Vào thế kỉ thứ 19, các nhà khoa học đã nhận thấy vai trò của cộng hưởng trong bộ máy phát âm, đặc biệt là cấu trúc formant của nguyên âm trong việc tạo ra bộ máy phát âm nhân tạo, tiền đề cho những máy tổng hợp lời nói và phần mềm tổng hợp có thể bắt chước giọng nói của con người trong những năm sau này. Các nhà ngữ âm học và cả kĩ sư tin học trong lĩnh vực công nghệ tiếng nói đã quan tâm đến ba khía cạnh của formant trong lời nói tự nhiên: đặc điểm cấu trúc formant, đặc điểm địa phương (regional characteristics), và đặc trưng cá nhân của người nói (subject characteristics). Đặc điểm cấu trúc âm học của formant được nghiên cứu khảo sát sâu và kĩ hơn ở nhiều ngôn ngữ khác nhau mà điển hình là tiếng Anh. Việc lập bản đồ âm học các nguyên âm tiếng Anh đã thực hiện bằng cách dùng tần số formant của các nguyên âm làm cơ sở. Việc lập bản đồ nguyên âm này được tiến hành ngay sau khi xuất hiện máy phân tích phổ lời nói, do hai tác giả Peterson và Barney tiến hành vào năm 1952, các tác giả đã phân tích một tập 3 hợp gồm 10 nguyên âm đơn của mỗi người nói trong tổng số 76 người gồm cả nam, nữ và trẻ em [126, tr 175]. Các tác giả cũng chỉ ra rằng ở những người khác nhau có sự hiện thực hoá về mặt ngữ âm rất khác nhau trong phát âm các nguyên âm của họ, nhưng họ vẫn duy trì các đối lập hệ thống một cách bình thường. Vì vậy, hai người phát âm có thể thay đổi về hình dáng khoảng cách nguyên âm, và các giá trị formant đối với âm /E/, chẳng hạn, ở người này có thể gần với các giá trị formant đối với âm /Q/ ở người kia; nhưng cả hai người đều sẽ thể hiện nét khu biệt âm học thoả đáng giữa /E/ và /Q/ trong hệ thống nguyên âm của họ. Bên cạnh đó, những người khác nhau có trường độ riêng của bộ máy phát âm, và những khác biệt này có ảnh hưởng cố hữu lên mô hình các giá trị formant theo nhiều cách mà người phát âm cũng thực sự không thể kiểm soát nổi. Vì thế không có một phân biệt tuyệt đối về mặt âm học giữa các nguyên âm cận kề hoặc gần nhau đối với nhiều người khác nhau. Là người sử dụng ngôn ngữ mọi người hầu như không gặp khó khăn gì trong việc giải quyết vấn đề này, vì chúng ta có thể, chỉ cần một mẫu lời nói rất nhỏ của một người nói bình thường đối với hệ thống nguyên âm của người đó. Nói cách khác, chúng ta có thể điều chỉnh bản đồ này ở tất cả mọi người, nhưng vẫn có những vùng chung nhất định phụ thuộc vào giới tính, tuổi tác cũng như giọng nói của từng vùng phương ngữ [126, tr 178]. Khi nghiên cứu tần số của các formant phía trên, Peterson và Barney (1952) đã tiến hành thu âm các nguyên âm tự nhiên ở các từ bắt đầu bằng /h/ và kết thúc bằng /d/ của nhiều người khác nhau (đàn ông, phụ nữ và trẻ em), các tác giả đã phân tích cấu trúc formant của những nguyên âm này, và hình thành nên những nghiên cứu thẩm nhận bằng cách dùng các bản ghi âm tương tự. Từ phân tích của hai ông, rồi đến công trình của Shepard (1972) sau này, 4 đã chỉ ra rằng ở đâu có sự nhầm lẫn thẩm nhận thì ở đó chúng có liên quan mật thiết với sự gần gũi âm học được xác định bằng ba formant thấp nhất. Tư liệu của họ cũng cho thấy một mức thay đổi đáng kể giữa các nguyên âm được coi là điển hình và sự gối lên nhau giữa các nguyên âm khác nhau. Các tác giả đã chỉ ra sự thay đổi của rất nhiều nguyên âm khác nhau khi các formant của chúng được dựng lên so sánh với nhau [126, tr 176]. Những tư liệu này đã hé mở một khía cạnh quan trọng trong hoạt động tiếp nhận nguyên âm, đặc biệt là bản chất hệ thống của formant liên quan đến các giá trị tuyệt đối của chúng. Họ đã lưu ý rằng có một sự đa dạng trong các thuộc tính âm học của các nguyên âm ở trẻ em, phụ nữ và đàn ông nảy sinh từ những khác biệt về độ dài của bộ máy phát âm, cũng như sự đa dạng do những khác biệt giữa các cá thể ở bộ máy phát âm và thay đổi mang tính thói quen của cơ quan phát âm. Kết quả là nhiều nhà nghiên cứu đã lập ra các thuật toán nhằm chuẩn hoá nét biến thể của tư liệu, trên cơ sở sự khác biệt về trường độ của bộ máy phát âm. Thí nghiệm của Ladefoged và Maddieson chứng minh các tần số formant xác định đặc trưng âm vị học của hệ thống nguyên âm. Bằng việc dùng lời nói tổng hợp, họ đã chứng minh nếu một hệ thống nguyên âm trong một câu bị dịch chuyển thì người nghe sẽ thẩm nhận sự di chuyển mang tính hệ thống của nguyên âm vào trong đường giao âm học của một nguyên âm khác xét về mặt âm vị học. Ví dụ: nguyên âm của từ head (cái đầu) có thể bị làm cho nghe thành nguyên âm của từ hid (trốn) nếu các tần số formant của tất cả các nguyên âm khác bị hạ xuống. Dường như người nghe có thể tiếp nhận một cách bình thường đối với một người nói ở một vài từ ban đầu mà họ nghe thấy [109, tr 74]. 5 Bên cạnh những kết quả nghiên cứu cấu trúc formant của tiếng Anh cấu trúc formant của các nguyên âm tiếng Thụy Điển cũng được nghiên cứu rất kĩ lưỡng trong các công trình của G. Fant và các cộng sự (1959). Việc khảo sát thực nghiệm được thực hiện với một nhóm 24 sinh viên nam tại Viện Kĩ thuật Hoàng gia, những người từng tham gia một khóa học truyền thông, họ đọc một danh sách các nguyên âm độc lập tiếng Thụy Điển bao gồm: /o, a, ă, e, i, y, u, o_/ với khoảng cách 1,5 giây giữa các âm. Tương ứng với bảng phiên âm quốc tế IPA của các kí tự được phát âm là /u:, o:, a:, e:, y:, i:/. Tần số formant được đo qua bộ lọc mẫu phổ tại một vị trí thời gian bằng 1/4 độ dài của nguyên âm. Mục đích trong nghiên cứu của Fant là tập hợp một dữ liệu liên quan đến tần số formant của nguyên âm tiếng Thụy Điển. Những nghiên cứu của Fant (1959) nhằm phục vụ những ứng dụng của công ty điện thoại Erricson từ năm 1946 đến 1948. Thời gian đầu những nguyên âm trong nghiên cứu được thể hiện trong khoảng thời gian là 4 giây để thực hiện một dải phân tích tần số. Những nghiên cứu bước đầu của Fant có những hạn chế trong việc tạo ra giọng nói tổng hợp một cách đều đặn và giọng này được thể hiện giống như tiếng hát hơn là lời nói. Trong nghiên cứu tiếp theo, dữ liệu được bổ sung là giọng nói của trẻ em và phụ nữ, giới hạn của nghiên cứu hiện tại chỉ gồm các nguyên âm dài [92, tr 1]. Ngoài ra, trong công trình “Stops in CV”, Fant cũng đã mô tả ảnh hưởng của phụ âm tắc đến formant của nguyên âm tiếng Thụy Điển ở trường độ và vùng tần số giữa phụ âm và nguyên âm. Năm 1998, Manjari Ohala và John J. Ohala đã tiến hành khảo sát sự tương quan giữa các chuyển tiếp (formant) trong cấu trúc VC phụ âm tính (trong đó V là các nguyên âm /a i u/ còn C là các phụ âm /p t5 ÿ tS k/) với mức độ lẫn lộn của thính giác về đối lập vị trí trong tiếng Hindi. Bằng thủ 6 pháp thử và sai, tác giả đã đánh giá vai trò của các chuyển tiếp formant VC độc lập với sự giải phóng âm tắc [124, tr1]. Năm 1999, James J.Hant và Abeer Alwan đã nghiên cứu và lập mô hình cho chuyển tiếp formant trong bối cảnh nhiễu. Đánh giá cao vai trò quyết định của chuyển tiếp formant trong việc nhận ra vị trí cấu âm của các phụ âm, các tác giả đã đưa ra giả định nếu chuyển tiếp formant này “nhúng” vào trong một môi trường nhiễu, và tiến hành xác định ngưỡng của các trượt lướt thanh điệu (tone glides) và đường formant cá thể ở các tần số khác nhau, có trường độ khác nhau. Kết quả nghiên cứu cho thấy ngưỡng là độc lập với mức tần số và chỉ phụ thuộc vào trường độ và tần số trung tâm của chuyển tiếp [96, tr 1896]. Năm 1958, trong bài viết Effect of Third-Formant Transitions on Perception of Voiced Stop Consonants đăng trên The Journal of Acoustical Society of America, Vol. 30, No. 2, 122-126, tác giả dựa trên lời nói tổng hợp (synthetic speech) đã tiến hành thực nghiệm và đi đến nhận xét “chuyển tiếp formant thứ ba là chìa khóa cho việc thẩm nhận các âm /b d Ä/”, “sự đa dạng của chuyển tiếp formant thứ ba tương ứng cặp đôi với chuyển tiếp formant thứ hai ở vị trí đầu trước nguyên âm /i/ và /Q/”. Từ kết quả miêu tả về chuyển tiếp và mức độ ổn định của formant thứ ba các tác giả đi đến nhận xét “sự tồn tại của locus formant thứ ba tương tự với locus đã được tìm thấy trước đó đối với formant thứ nhất và thứ hai” [103, tr 124]. Cũng năm 1958, P.C. Delattre, A. M. Liberman, F. S. Cooper qua khảo sát âm xát tiếng Anh Mĩ, đã cho rằng chuyển tiếp formant là các tương liên âm học của vị trí cấu âm. Tác giả cũng đã tổng kết những nghiên cứu đã có trước đó và cho rằng có hai loại tín hiệu âm học để nhận ra vị trí cấu âm của phụ âm: một là những đặc trưng bản thể, có ở âm tắc (stop) ,âm xát, và âm 7 tắc xát, là điểm mà tỉ lệ tần số của tiếng ồn hay tiếng rít được tạo ra tại điểm rít, và hai là những chuyển tiếp hay biến đổi (sự thay đổi tần số tương đối nhanh) của các formant thứ hai và thứ ba. Trong bài viết này, các tác giả cũng khẳng định chuyển tiếp của formant thứ hai và thứ ba là những dấu hiệu nhận dạng vị trí cấu âm của phụ âm theo hướng chuyển dịch tần số [87, tr 773]. Năm 1955, nhóm tác giả này trong bài viết "Acoustic Loci and Transitional Cues for Consonants" cho rằng những nghiên cứu tổng hợp tiếng nói trước đây đã mô tả sự quá độ của formant thứ hai là những tiêu điểm cho nhận dạng các phụ âm tắc và mũi. Kết quả của những thí nghiệm này có thể đơn giản hóa nếu nó giả định rằng: mỗi phụ âm có một nét đặc trưng và vị trí tần số cố định, hoặc tiêu điểm cho formant thứ hai, tương ứng với vị trí cố định của cơ chế tạo phụ âm. Trên nền tảng đó, những dấu hiệu quá độ có thể được xem như "những sự biến động (sự vận động)" từ tiêu điểm tới trạng thái bền vững của nguyên âm. Thí nghiệm trong bài viết này đã cung cấp thêm một bằng chứng liên quan đến sự tồn tại và những vị trí là tiêu điểm của formant thứ hai cho những phụ âm tắc hữu thanh /b, d, g/. Ở đó xuất hiện một tiêu điểm cho /d/ tại 1800 cps và cho /b/ tại 720 cps. Một tiêu điểm cho /g/ có thể được chứng minh chỉ khi nguyên âm bên cạnh có formant thứ hai của nó trên khoảng 1200 cps. Đối với những phụ âm tắc hữu thanh, thời kì quá độ không thể bắt đầu tại tiêu điểm và đi từ điểm đó đến vị trí cố định của nguyên âm. Đúng hơn là, nếu chúng ta nghe phụ âm một cách thích hợp, phần đầu của đoạn quá độ phải là khoảng lặng. Và nghiên cứu chỉ ra rằng, trong tổng hợp lời nói phụ âm tắc hữu thanh được tổng hợp tốt nhất bằng cách tạo ra trường độ thời gian giữa các khoảng lặng cân bằng với trường độ của chính đoạn quá độ [88, tr 771]. Năm 1995, một nghiên cứu chuyển tiếp formant giữa âm tiết đầu có kết thúc là nguyên âm và âm tiết thứ hai có nguyên âm là âm đầu trong chuỗi kết 8 hợp hai âm tiết trong tiếng Trung Quốc chuẩn cũng đã được nghiên cứu, (Yan Jingzhu). Trong nghiên cứu này 661 chuỗi kết hợp âm tiết tiếng Trung trong đó âm tiết đầu có kết thúc là nguyên âm và âm tiết thứ hai bắt đầu bằng một nguyên âm (VV) được một người bản ngữ nam nói tiếng Bắc Kinh tạo ra, âm thanh tiếng nói là chuỗi kết hợp âm tiết được phân tích bằng máy Kay và Sonagraph 5500. Kết quả cho thấy một sự chuyển tiếp formant được hình thành trong kết hợp âm tiết. Tần số formant có giá trị tại điểm bắt đầu của sự chuyển tiếp cân bằng với formant của nguyên âm hạt nhân của âm tiết đầu [97, tr 42]. Đặc điểm địa phương ở formant được quan tâm nghiên cứu trên phương diện tìm các đặc trưng phương ngữ thể hiện trong cấu trúc của formant. Theo hướng này, người ta mới chỉ quan tâm đến những khác biệt vùng địa phương formant của một ngôn ngữ. Ví dụ bài viết "Tần số formant của nguyên âm trong âm tiết /hVd/ trong lời nói của phụ nữ người miền Nam Australia" của Andrew Butcher, năm 2006.Trong khoảng thời gian 5 năm (2002 - 2006) các nguyên âm được ghi âm bởi các sinh viên năm thứ hai chuyên ngành bệnh học lời nói tại trường đại học Flinder ở Adelaide. Trong nghiên cứu này, dữ liệu chỉ bao gồm những phụ nữ trẻ, những người lớn lên ở miền nam Australia (n = 92, độ tuổi trung bình là 22 tuổi), đa số họ được huấn luyện. Trước khi phát âm danh sách các từ có cấu trúc /hVd/ được chuẩn bị trước và ba dấu hiệu của mỗi nguyên âm là đọc từ những danh sách ngẫu nhiên. (năm 2006, n = 22 ghi âm cộng thêm vào từ "Who'll (ai sẽ) " theo trật tự tạo ra dấu hiệu của tha âm vị trước bên của /u/). Trong tất cả các trường hợp lời nói được ghi âm trực tiếp trên ổ cứng máy vi tính trong môi trường yên tĩnh, số hóa tại 22,5kHz, với độ phân giải 16 - bit. Tần số formant được đo được từ sự hiển thị LPC, những điểm đo được xác định bằng sự liên quan tới những dải phổ rộng, sử dụng chương trình SIL phân tích tiếng nói (phiên 9 bản thuộc 1.5 đến 2.7). Formant được đo ở giữa của sự phân chia đều đặn F1 lớn đối với nguyên âm mở và F1 nhỏ cho những nguyên âm đóng. Nguyên âm đóng /i/ và /u/ trong trường hợp đặc biệt thường không đạt tới F1 nhỏ này cho đến khi nguyên âm kết thúc hoàn toàn. Kết quả miêu tả giá trị trung bình formant thu được cho tất cả các nguyên âm bao gồm cả nguyên âm đơn và nguyên âm đôi của những người ở miền nam Australia [81, tr 450]. Đặc trưng cá nhân người nói thể hiện ở cấu trúc formant bao gồm giới tính, độ tuổi và cả những người mắc các tật phát âm như nói lắp, nói ngọng hay phẫu thuật thanh quản... Và mô hình chuyển tiếp formant đặc thù cá nhân thể hiện trong một vài tổ hợp âm học. "Cấu trúc formant của nguyên âm được tạo ra bởi những người có tật nói lắp với tốc độ nói nhanh và bình thường". Trong nghiên cứu này tác giả Martine Toda, Shinji Maeda, Micheal Aron, và Marie-Odile Berger đã phân tích phần cố định của hai formant F1 và F2 trong cấu trúc CV, chứa nguyên âm /a, i, u/ được phát âm với hai tốc độ nhanh và bình thường, bởi hai nhóm: được điều trị tật nói lắp và không được điều trị tật nói lắp. Quỹ tích bằng nhau được tính toán để quan sát những khả năng khác nhau trong đồng cấu âm giữa ba nhóm. Dữ liệu phân tích bộc lộ sự giảm bớt khoảng cách của nguyên âm cho những người mắc tật nói lắp trong lời nói bình thường. Khi tốc độ lời nói tăng lên, dễ nhận thấy khoảng cách nguyên âm không hề giảm đối với những nhóm người nói sau, tương phản với cách xem xét những người nói lắp với tốc độ nhanh [134, tr 357]. 2.2. Những nghiên cứu về formant của nguyên âm tiếng Việt Nghiên cứu formant của nguyên âm tiếng Việt đã được một tác giả người nước ngoài là Han Mieko (1968) đề cập đến khi thực hiện một loạt nghiên cứu âm vị học các ngôn ngữ châu Á. Cụ thể, trong công trình "Studies in phonology of Asian Languages: Vietnamese Vowel" 11 nguyên âm đơn tiếng Hà Nội đã được nghiên cứu và mô tả. F1 và F2 của 11 nguyên âm được 10 đo, phân tích, cuối cùng tác giả đi đến kết luận rằng có sự chi phối ảnh hưởng bởi các yếu tố khác là thanh tính và phụ âm tính đến chất lượng của nguyên âm. Khi thực hiện một nghiên cứu về trường độ cố hữu của 11 nguyên âm đơn tiếng Việt, kết quả nghiên cứu của Han Mieko cho thấy có sự ảnh hưởng của thanh điệu đối với các cấu trúc formant của nguyên âm. Theo bà thanh 6 làm thay đổi vị trí F1 của nguyên âm, nó ảnh hưởng mạnh nhất đến các nguyên âm có độ mở hẹp và trung bình và ảnh yếu đến các nguyên âm có độ mở rộng. Thanh này hầu như không ảnh hưởng đến F2 [98, tr 92]. Khi nghiên cứu số lượng formant của nguyên âm tiếng Việt, Nguyễn Văn Ái (1974) đã phân tích 11 nguyên âm đơn tiếng Việt ở vị trí mạnh (nguyên âm đứng riêng thành âm tiết) và ở vị trí yếu (nguyên âm nằm trong kết hợp âm tố, nhằm để phân tích hai nguyên âm ngắn ă, â là hai nguyên âm không bao giờ xuất hiện riêng thành âm tiết) bằng máy xônagorap đã ghi được khoảng 1300 đơn vị âm tiết do ba người phát âm (1 nữ, 2 nam). Kết quả thực nghiệm cho thấy: số lượng formant của mỗi nguyên âm không giống nhau hoàn toàn. Ở nguyên âm u, thường xuất hiện từ một đến hai formant; đôi khi có formant thứ ba nhưng cường độ rất yếu. Những nguyên âm khác có số lượng formant tương đối cố định: /i, e, , «, «á, o, / đều có bốn formant, riêng /o/, trong một số biến thể phát âm cá nhân, chỉ xuất hiện hai formant; ở /e, a, ă/, xuất hiện năm formant, riêng /ă/ có khi chỉ có 4 formant. Phần lớn những formant thứ 4, thứ 5 này có cường độ rất yếu. Tác giả kết luận các nguyên âm đơn tiếng Việt có từ 2 đến 5 formant. [2] Trước đó, năm 1973 trong bài viết công bố trên tạp chí Ngôn ngữ, Nguyễn Văn Ái khi nghiên cứu thực nghiệm về mặt vật lí, với việc phân tích 400 ảnh sóng âm của 9 nguyên âm đơn tiếng Việt được lấy từ 10 CTV. Tác giả đi đến kết luận: Ngoài đặc điểm cấu âm đầu tiên chung của các nguyên âm là sự sản sinh tiếng thanh cơ bản trong thanh quản ra, tất cả các nguyên âm 11 tiếng Việt đều được hình thành cuối cùng ở khoang miệng (không có sự tham gia của khoang mũi, vì khi cấu âm, phần sau của ngạc mềm nâng lên đóng chặt đường thông lên khoang mũi). Do đó, chính hiện tượng cấu âm ở khoang miệng: độ mở của miệng, góc độ của hàm và vị trí của lưỡi là nguyên nhân trực tiếp có tính chất quyết định đến hiệu quả âm học của từng nguyên âm. Trong nghiên cứu này, tác giả đã đưa ra vùng tần số F1 và F2 của từng nguyên âm tiếng Việt như sau: Nguyên âm F1 F2 i 250 - 420 Hz 2380 - 3360 Hz ê 354 - 595 Hz 2000 - 2830 Hz e 595 - 840 Hz 1630 - 2380 Hz ư 250 - 420 Hz 840 - 1190 Hz ơ 354 - 595 Hz 1000 - 1190 Hz a 707 - 1000 Hz 1190 - 1410 Hz u 250 - 420 Hz 595 - 840 Hz ô 354 - 595 Hz 707 - 1000 Hz o 595 - 707 Hz 840 - 1000 Hz Kết quả thực nghiệm của các nguyên âm tiếng Việt cho thấy, những F1 của các nguyên âm dòng trước, dòng giữa và dòng sau có cùng độ nâng lưỡi thường nằm trong vùng tần số formant giống nhau hoặc gần giống nhau. Ví dụ: /i, , u/, /e, «, o/, và /E, / có thể thay thế nhau được ở vùng tần số F1 này. Vậy những tiêu chí khu biệt các nguyên âm cùng nhóm trên là ở những F2 có vùng tần số lớn hơn các F1. Nguyên âm dòng trước /i, e, E/ có vùng tần số F1 và vùng tần số F2 nằm cách xa nhau; u, o, là những nguyên âm dòng sau, bản thân chúng có 12 vùng tần số F1 và F2 cách nhau trung bình. Các nguyên âm tiếng Việt nằm trong khoảng tần số 250 -3800Hz [1]. Hoàng Cao Cương (1986) [13] khi phân tích các sonagram đã nhận thấy ở các âm tiết có chứa các thanh điệu 1, 3, 5, F2 của nguyên âm thường được thể hiện rõ hơn, trong khi đó các âm tiết chứa các thanh còn lại thể hiện F1 rõ hơn. Về dạng của formant, trong mọi trường hợp các F1 đều bằng phẳng, trong khi F2 của các âm tiết chứa các thanh 3, 5 lại có dạng đi lên. Tác giả cho rằng nếu quan niệm F2 là đặc trưng quan trọng của nguyên âm thì dễ nhận thấy trong hệ thanh điệu Việt chỉ có thanh 1 là giúp cho dễ nhận diện các chiết đoạn. Các thanh 4 và 6 làm cho người ta khó nhận diện các đoạn nằm ở vị trí chung âm. Các thanh 3 và 5 có những ảnh hưởng nhất định đối với F2. Ngoài ra khi nghiên cứu sự ảnh hưởng của phụ âm tới nguyên âm, tác giả nhận thấy đặc trưng chuyển tiếp giữa C1 tới V và từ V tới C2 rất khác nhau. Trong khi các chuyển tiếp C1V thường dễ dàng được thẩm nhận vì kích thước lớn (giảm hoặc tăng cường độ từ 3-5dB, trường độ ít nhất là 15ms) thì các chuyển tiếp VC2 thường thể hiện mờ nhạt (dao động và biến thái cường độ không vượt quá 2dB, trường độ không vượt quá 10ms). Trong khi các dạng chuyển tiếp C1V thường ổn định, phụ thuộc chặt chẽ vào các đặc trưng cố hữu của C1 thì chuyển tiếp VC2 thường chỉ phụ thuộc vào đặc trưng cố hữu của V và thanh điệu mà âm tiết chuyển tải. Các dạng chuyển tiếp của C1V trong âm tiết kiểu Việt là bị nổi bật lên, trong khi chuyển tiếp VC2 bị hòa kết, làm liền lại các chiết đoạn vốn dĩ có các đặc trưng cố hữu khác biệt nhau. Nếu coi đặc trưng về tính tách biệt như là một biểu hiện quan trọng nhất của các yếu tố âm thanh chiết đoạn thì có thể kết luận là C1 bảo lưu được nhiều đặc trưng cố hữu của chúng hơn C2 khi cả hai đều tham gia vào cấu trúc âm tiết. Xét từ quan điểm chiết đoạn, C1 là đồng chất hơn C2. 13 Một tình trạng tương tự xảy ra trong khu vực các âm thanh vốn được coi là siêu đoạn của tiếng Việt. Nếu coi rằng điệu tính là nét ngữ âm (hoặc) chùm nét ngữ âm hành chức bao trùm lên một chỉnh thể lớn hơn một chiết đoạn và sự thể hiện nó là có tính quy luật theo đặc điểm tuyến tính của cấu trúc chỉnh thể ấy (được phân bố theo thời gian), thì trong số thanh Việt chỉ có thanh 1 là thanh vị đủ tư cách một đơn vị thuần điệu tính. Sự hoạt động của thanh này không làm cho cấu trúc mà nó bao trùm lên bị phá vỡ các đặc điểm cố hữu, không lấy các vùng chiết đoạn dễ cảm ứng với sự phá vỡ cấu trúc làm nơi thể hiện các điểm đặc biệt của mình. Và cái quan trọng, sự thể hiện của nó bao trùm lên toàn bộ âm tiết tới mức không để lộ ra các đặc điểm tuyến tính của các chiết đoạn thành phần ở cái chỉnh thể mà nó phủ lên. Những thanh 3, 6, 5', 6' tạo thành một nhóm thanh vị khác, ở đó sự thể hiện thanh bị chi phối bởi cấu trúc chiết đoạn. Chúng đều phải lấy phần cuối của cấu trúc chiết đoạn làm nơi thể hiện các đặc thù của mình. Phần dễ cảm ứng với các thay đổi về phân bố năng lượng (các đoạn transient) của cấu trúc chiết đoạn cũng là khu vực gánh lấy thông tin cần yếu của thanh. Đoản độ của C2 cùng sự phá vỡ cấu trúc chùm nét khu biệt của các chiết đoạn nằm trong khoảng đo 75 -100 Hz chính là biểu hiện của xu thế này. Những biểu hiện này đạt đến mức cực đoan ở các thanh 5' và 6'. Ở các âm tiết có chứa hai thanh này, C2 bị biến mất và để nhận diện ra chúng, người bản ngữ phải tận dụng các đặc thù locus bộc lộ ở cuối cấu trúc chính âm. Tuy nhiên, do chỗ các bộ phận nằm ở cuối các âm tiết có chứa thanh thường nghèo nàn về các đặc trưng cố hữu cho nên sự nhận diện những bộ phận này thường gặp nhiều khó khăn trong thực tế. Năm 2002, những kết quả nghiên cứu về hệ formant của 9 nguyên âm đơn tiếng Hà Nội đọc tách rời đã được tác giả Vũ Kim Bảng trình bày trong giới hạn phạm vi nghiên cứu là các CTV người Hà Nội và kết quả nghiên cứu được tính theo giới tính. Việc trình bày giá trị khách quan của formant tính 14 bằng Hz trong mối tương quan với giá trị cảm nhận tính bằng đơn vị Bark cho phép đưa ra các nhận xét về sự phân bố của hệ thống nguyên âm đơn tiếng Hà Nội. Đây chính là cơ sở để tiếp tục thực hiện nghiên cứu các formant này trong chuỗi lời nói liên tục cũng như các nguyên âm có sự tác động của thanh điệu. Các đặc trưng âm học khác của tiếng Việt được nghiên cứu theo trình tự âm tố (nguyên âm, phụ âm), âm tiết bao gồm cả thanh điệu và chuỗi lời nói góp phần làm sáng tỏ đặc điểm đơn lập của tiếng Việt [6]. 3. MỤC ĐÍCH NGHIÊN CỨU Dựa vào việc mô tả cấu trúc formant của các nguyên âm đơn trong kết hợp với thanh điệu và âm tắc ở các vị trí khác nhau trong âm tiết, mục đích chính của luận án là: cung cấp các thông số âm học quan trọng cho quá trình tổng hợp tiếng Việt, nhận dạng giọng nói tiếng Việt. 4. NHIỆM VỤ NGHIÊN CỨU Để đạt được mục đích trên, luận án có các nhiệm vụ cụ thể sau: - Tổng quan tình hình nghiên cứu cấu trúc formant của nguyên âm ở nước ngoài và ở Việt Nam nhằm xác định rõ hướng nghiên cứu của đề tài. - Xây dựng cơ sở lí thuyết cho đề tài trên cơ sở định rõ khái niệm cấu trúc formant của nguyên âm và những vấn đề liên quan. - Tìm các đặc điểm âm học liên quan đến formant của nguyên âm trong quan hệ với thanh điệu và phụ âm tắc, phụ âm mũi; đồng thời xác định sự tác động qua lại của yếu tố như phụ âm (phụ âm tắc, phụ âm mũi) và thanh điệu đến formant của nguyên âm trên ba phương diện: trường độ formant, vùng tần số formant và diễn tiến formant. - Luận án sẽ chỉ ra các đặc điểm âm học của mối quan hệ giữa phụ âm và nguyên âm, giữa thanh điệu và nguyên âm. - Phân tích và mô tả đặc điểm liên cấu âm giữa thanh điệu và nguyên âm. 15 - Phân tích và mô tả đặc điểm liên cấu âm giữa phụ âm đầu tắc và nguyên âm. - Phân tích và mô tả đặc điểm liên cấu âm giữa phụ âm cuối tắc và nguyên âm. - Trên cơ sở đó, rút ra những nhận xét chung về đặc điểm ngữ âm âm học của mối quan hệ giữa thanh điệu và nguyên âm, giữa phụ âm và nguyên âm có so sánh và thảo luận với kết quả nghiên cứu của một số tác giả khác. 5. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU Đối tượng nghiên cứu của luận án là cấu trúc formant của các nguyên âm đơn tiếng Việt trong bối cảnh kết hợp với thanh điệu và phụ âm tắc ở cả hai vị trí mở đầu và kết thúc âm tiết. Phạm vi nghiên cứu: Nghiên cứu chỉ giới hạn với cấu trúc formant của 9 nguyên âm đơn tiếng Việt với 6 phụ âm đầu tắc, mũi /m, n, N, p, t, k/ và 6 phụ âm cuối tắc, mũi /m, n, p, t/ và /N, k/. 6. PHƯƠNG PHÁP NGHIÊN CỨU Để phục vụ cho việc mô tả cấu trúc formant của nguyên âm trong các kết hợp, chúng tôi chủ yếu sử dụng hai phương pháp: phương pháp miêu tả và ngữ âm học thực nghiệm. Ngoài ra, để chỉ rõ sự ảnh hưởng giữa thanh điệu đến formant của nguyên âm, giữa phụ âm đầu và cuối đến formant so sánh với formant nguyên âm ở trạng thái độc lập, một số thủ pháp thống kê và so sánh cũng được sử dụng để trình bày, thể hiện và nhận xét các kết quả. Để quan sát, miêu tả, phân tích các thông số âm học (các giá trị formant (F1, F2) của nguyên âm) cũng như vẽ các biểu đồ, luận án đã sử dụng phần mềm phân tích ngữ âm Praat. Minh hoạ chương trình Praat và các cửa sổ của nó. Praat gồm màn hình phía trên hiển thị dạng sóng của âm; màn hình dưới hiển thị các tham số: 16 1- Cửa sổ phía trên biểu thị dạng sóng của nguyên âm. 2 - Cửa sổ phía dưới biểu thị ảnh phổ trong đó có hiển thị đường nét diễn tiến formant của nguyên âm. Ảnh phổ biểu thị vùng năng lượng của formant là những khoảng tối sậm màu; vùng sậm màu ở dưới cùng biểu thị F1 của nguyên âm, những vùng sậm màu phía trên biểu thị vùng tần số F2. Đường nét của formant của nguyên âm được hiển thị bằng những điểm liên tục màu đen nhạt; 3- Cửa sổ nhỏ phía trên bên phải hiển thị các giá trị formant của nguyên âm trên từng điểm đo. Trục tung bên trái là thang đo và các mức tần số Hertz (Hz), trục hoành phía dưới là trường độ của âm được tính bằng mili giây (ms). Các khoảng đo cách đều nhau 10 ms cho phép theo dõi sự diễn tiến của formant và sự biến đổi của cường độ đo bằng decibel (dB) và ranh giới trường độ mỗi bộ phận cấu thành âm tiết theo hàm thời gian. Diễn tiến tần số F3 Diễn tiến tần số F1 Diễn tiến tần số F2 Giá trị tần số F1, F2, F3, F4 trên từng điểm đo 17 Căn cứ vào Spectrogam này, chúng tôi phải xác định được hai thông số âm học: - Trường độ của phụ âm đầu tính bằng mili giây (ms) liên quan đến phương thức và thanh tính của phụ âm đó. - Trường độ formant của nguyên âm tính bằng mili giây (ms) liên quan đến phương thức và vị trí cấu âm của nguyên âm. - Diễn tiến của formant tính bằng Herz (Hz) theo thời gian (ms) trong đó quan trọng nhất là diễn tiến ở giai đoạn chuyển tiếp của F1 và F2 kết hợp với âm đầu và âm cuối. Đây là thông số âm học được quan tâm nghiên cứu. Để xác định được hai thông số trên, ở mỗi Spectrogam phải xác định hai điểm quan trọng: - Điểm bắt đầu của đỉnh chuyển tiếp tức là ranh giới giữa phụ âm đầu và nguyên âm. - Điểm kết thúc chuyển tiếp của các formant, thời điểm mà các formant kết thúc quá trình đi lên hoặc đi xuống, bắt đầu diễn tiến đều đặn như formant của âm tiết trong kết hợp thanh điệu không bị chi phối bởi phụ âm đầu. Chương trình Praat tính toán diễn tiến tần số của tất cả các formant (F1, F2, F3, F4) của nguyên âm theo thời gian từ đầu đến cuối của một âm tiết. Như vậy, khi đã xác định được hai điểm trên trong một Spectrogam, chúng tôi có thể xác định được: - Trường độ (ms) của phụ âm đầu và trường độ formant của nguyên âm - Diễn tiến vùng tần số (Hz) của các formant trong giai đoạn chuyển tiếp và thời gian (ms) chuyển tiếp. 18 - Diễn tiến tần số (Hz) của các formant trong giai đoạn ổn định và thời gian (ms) ổn định. Kết quả đo trở thành nguồn tư liệu để vẽ các biểu đồ. Chúng tôi vẽ hai loại biểu đồ: - Biểu đồ thể hiện vùng tần số F1, F2 của các nguyên âm đơn của 6 CTV. - Biểu đồ thể hiện trường độ formant của các nguyên âm trong các kết hợp. Tất cả các dữ liệu thông số âm học về trường độ (ms), vùng tần số formant (Hz) của những CTV tiêu biểu, sau khi xử lí, được chuyển sang dạng văn bản Excel. Dữ liệu được trình bày ở phụ lục. Về ghi âm, chúng tôi lựa chọn 6 CTV là các phát thanh viên của Đài tiếng nói Việt Nam, giọng Hà Nội, có độ tuổi từ 30 đến 40, được yêu cầu phát âm theo bảng từ. Nguyên âm được chọn làm thực nghiệm ở đây là 9 nguyên âm đơn dài, xuất hiện trong kết hợp với 6 thanh điệu, và kết hợp với phụ âm ở các kiểu cấu trúc âm tiết khác nhau (CV, VC). Các kiểu cấu trúc âm tiết được khảo sát trong luận án chỉ có nguyên âm và phụ âm mà chưa xét đến những trường hợp có âm đệm đi kèm. Cụ thể về các kiểu cấu trúc âm tiết tiếng Việt được khảo sát như sau: + Kiểu cấu trúc âm tiết 1 (V) bao gồm 9 nguyên âm đơn tiếng Việt kết hợp với 6 thanh điệu: i, ì, ĩ, ỉ, í, ị ê, e, ư, ơ, a, u, ô, o,… 9 nguyên âm x 6 thanh điệu x 6 CTV = 324 mẫu + Kiểu cấu trúc âm tiết 2 (CV) bao gồm 3 âm đầu ở vị trí C là các phụ âm /p, t, k/: ví dụ: pa, pi, pê, pe, ta, ti, tê, te, ca, ki, kê… 3 phụ âm x 9 nguyên âm x 6 CTV = 162 mẫu + Kiểu cấu trúc âm tiết 3 (CV) bao gồm 3 âm đầu ở vị trí C là các phụ âm /m, n, ŋ/, ví dụ: ma, mi, mê, mư, ni, nê, nghi, nghê... 19 3 phụ âm x 9 nguyên âm x 6 CTV = 162 mẫu + Kiểu cấu trúc âm tiết 4 (VC) bao gồm 3 âm cuối ở vị trí C là các phụ âm /m, n, ŋ/, ví dụ: am, im, êm, em, in, ên, en, inh, ang, eng... 3 phụ âm x 9 nguyên âm x 6 CTV = 162 mẫu + Kiểu cấu trúc âm tiết 5 (VC) bao gồm 3 âm cuối ở vị trí C là các phụ âm /p, t, k/, ví dụ: át, ít, ết, ét, ứt... 3 phụ âm x 9 nguyên âm x 2 thanh điệu x 6 CTV = 324 mẫu Tổng số các âm tiết khảo sát là 1134 mẫu. Việc tiến hành thu âm được thực hiện trong phòng thu của Đài tiếng nói Việt Nam với độ cách âm cao (mức độ ồn nhiễu ≅ 1dB), sử dụng microphone (SHURE SM 58) với khoảng cách 5-10 cm. Ghi âm bằng phần mềm CoolEdit Pro, tín hiệu ghi âm được số hóa 16 bit, Mono, tần số lấy mẫu 11025 Hz. 7. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN Những kết quả nghiên cứu của luận án góp phần chỉ ra các đặc điểm cấu trúc formant nguyên âm tiếng Việt trong quan hệ với các đơn vị chiết đoạn và siêu đoạn. Trên cơ sở so sánh với một số tác giả khác nhằm chỉ ra các nét đặc thù riêng của tiếng Việt được thể hiện ở các formant. Những kết quả khảo sát của luận án là một tổng quan nghiên cứu về formant của nguyên âm trong mối quan hệ với thanh điệu và âm tắc. Nó có thể làm cơ sở và được tiếp tục nghiên cứu rộng hơn sang các phong cách nói khác, ở những vùng phương ngữ khác nhau, các cá nhân ở nhóm tuổi khác nhau, ứng dụng cho các mục đích tổng hợp, nhận dạng và giám định âm thanh lời nói tiếng Việt. Luận án sẽ đóng góp các kết quả khoa học mới: 20
- Xem thêm -

Tài liệu liên quan

Tài liệu xem nhiều nhất