Tài liệu Phân tích văn bản cho tổng hợp tiếng nói tiếng việt

.PDF

860

119

dangvantuan Báo vi phạm

Tải xuống 119

Mô tả:

Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt Luận văn ThS Công nghệ thông tin Nguyễn Hồng Quân MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................................ 4 DANH MỤC CÁC BẢNG ..................................................................................................... 5 DANH MỤC CÁC HÌNH VẼ ................................................................................................ 5 LỜI NÓI ĐẦU ....................................................................................................................... 6 Chương 1 TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI................................................... 8 1.1 Modul NLP ..................................................................................................................... 10 1.1.1 Phân tích văn bản .................................................................................................. 10 1.1.2 Modul LTS ............................................................................................................ 10 1.1.3 Phát sinh ngôn điệu ............................................................................................... 11 1.2 Modul DSP ..................................................................................................................... 11 1.2.1 Tổng hợp theo cấu âm ........................................................................................... 12 1.2.2 Tổng hợp tiếng nói theo quy luật Formant ............................................................ 14 1.2.3 Tổng hợp xích chuỗi .............................................................................................. 15 1.2.4 Tổng hợp xích chuỗi sử dụng mã tiên đoán tuyến tính LPC ................................. 18 1.3 Các ứng dụng của TTS ................................................................................................... 22 Chương 2 CƠ SỞ LÝ THUYẾT NGÔN NGỮ TIẾNG VIỆT ....................................... 24 2.1 Ngữ âm học ..................................................................................................................... 24 2.1.1 Cơ sở vật lí ............................................................................................................ 24 2.1.2 Các đặc trưng về âm tiết tiếng Việt ....................................................................... 24 2.1.3 Âm vị ..................................................................................................................... 26 2.1.4 Hiện tượng biến đổi ngữ âm .................................................................................. 30 2.2 Đặc điểm của từ .............................................................................................................. 31 2.2.1 Định nghĩa từ ......................................................................................................... 31 2.2.2 Các quan niệm về hình vị và từ trong tiếng Việt ................................................... 32 2.2.3 Phương thức cấu tạo từ .......................................................................................... 32 2.3 Chữ viết và chính tả tiếng Việt ....................................................................................... 33 Chương 3 PHÂN TÍCH VĂN BẢN CHO TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT ..................... 39 3.1 Các modul ....................................................................................................................... 39 3.2 Từ điển ............................................................................................................................ 41 3.3 Xác định cấu trúc văn bản ............................................................................................... 41 3.3.1 Các tiêu đề của chương, mục................................................................................. 42 3.3.2 Danh sách .............................................................................................................. 43 3.3.3 Các đoạn ................................................................................................................ 44 3.3.4 Câu......................................................................................................................... 45 3.3.5 Email ..................................................................................................................... 45 3.3.6 Trang Web ............................................................................................................. 46 3.3.7 Hoạt động hội thoại ............................................................................................... 46 3.4 Chuẩn hoá văn bản .......................................................................................................... 46 3.4.1 Chuẩn hoá y-i ........................................................................................................ 47 3.4.2 Chuẩn hoá dấu thanh ............................................................................................. 47 3.4.5 Chữ viết tắt và các kí hiệu khác............................................................................. 48 3.4.4 Các con số ............................................................................................................. 48 3.4.5 Ngày tháng ............................................................................................................ 49 3.4.6 Thời gian ............................................................................................................... 49 3.5 Phân tích ngôn ngữ ......................................................................................................... 50 3.5.1 Tách từ ................................................................................................................... 50 3.5.2 Gán nhãn từ loại .................................................................................................... 50 3.5.3 Phân tích cú pháp .................................................................................................. 51 3.5.4 Phân tích ngữ nghĩa ............................................................................................... 52 Chương 4 BÀI TOÁN TÁCH TỪ ..................................................................................... 53 4.1 Các khó khăn trong nhận dạng từ tiếng Việt .................................................................. 53 4.2 Một số phương pháp tách từ ........................................................................................... 54 4.2.1 Dựa theo luật ......................................................................................................... 54 4.2.2 Dùng thống kê ....................................................................................................... 55 4.2.3 Các cách khác ........................................................................................................ 55 4.3 Đề xuất mới..................................................................................................................... 58 4.3.1 Từ điển................................................................................................................... 58 4.3.2 Các giả thiết ........................................................................................................... 59 4.3.3 Giải pháp tách từ ................................................................................................... 63 4.4 Xử lí tên riêng ................................................................................................................. 66 4.4.1 Tên người, tên địa lí .............................................................................................. 66 4.4.2 Tên tổ chức ............................................................................................................ 67 4.4.3 Các tên riêng khác ................................................................................................. 67 4.5 Tách đoạn – Tách câu ..................................................................................................... 68 4.6 Nhận xét đánh giá ........................................................................................................... 68 4.6.1 Tập ngữ liệu thô ........................................................................................................... 68 4.6.2 Nhận xét ....................................................................................................................... 70 Chương 5 CÀI ĐẶT THỬ NGHIỆM ĐÁNH GIÁ .......................................................... 73 5.1 Chương trình thử nghiệm ................................................................................................ 73 5.1.1 Yêu cầu về cấu hình hệ thống ............................................................................... 73 5.1.2 Ngôn ngữ lập tình và cơ sở dữ liệu ....................................................................... 73 5.1.3 Giao diện chương trình .......................................................................................... 73 5.2 Cấu trúc chương trình ..................................................................................................... 74 5.3 Các kết quả thực nghiệm................................................................................................. 75 5.3.1 Kết quả phân tích ................................................................................................... 75 5.3.2. Đánh giá tốc độ thực hiện ..................................................................................... 77 Kết luận và định hướng nghiên cứu .................................................................................. 79 Tài liệu tham khảo ............................................................................................................. 80 DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Nội dung 1 CART Clasification And Regression Tree 2 CSDL Cơ sở dữ liệu 3 DSP Digital Sigal Procesing - Xử lí tín hiệu số 4 HMM Hidden Markov Model 5 LTS Letter To Sound – Biến đổi chữ viết thành dạng phát âm được 6 MMM Maximal Matching Model 7 NLP Natural Language Processing -Xử lí ngôn ngữ tự nhiên 8 TBL Tranformation Based Learning 9 TTS Text To Speech - Tổng hợp tiếng nói 10 WFST Weigthed Finite State Transducer 11 MMM Maximal Matching Model STT Từ viết tắt Nội dung 12 TAM Text Analyzer Modul DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Hệ thống âm đầu ................................................................................... 27 Bảng 2.2 Hệ thống âm chính ................................................................................ 29 Bảng 4.1: Kết quả đánh giá phân tách từ .............................................................. 70 Bảng 5.1 Kết quả đánh giá phân tích văn bản ...................................................... 75 Bảng 5.1 Kết quả tốc độ thực hiện ....................................................................... 77 DANH MỤC CÁC HÌNH VẼ VÀ BIỂU ĐỒ Hình 1.1 Sơ đồ chức năng tổng quát của hệ thống TTS ................................................... 8 Hình 1.2 Modul NLP của một hệ thống TTS .................................................................................. 9 Hình 1.3 Qui trình tổng hợp tiếng nói theo qui luật ........................................................ 14 Hình 1.4. Mô hình tuyến tính tạo tiếng nói ................................................................................ 15 Hình 1.5 Mô hình qui trình tổng hợp tiếng nói theo xích chuỗi ................................................. 16 Hình 1.6 Mô hình tiên đoán tuyến tính tiếng nói ...................................................................... 19 Hình 1.7 Mô hình tổng hợp LPC .................................................................................................. 20 Hình 2.1- Cấu trúc âm tiết............................................................................................... 25 Hình 3.1. Cấu trúc modun hóa bộ phân tích văn bản và ngữ âm ............................................... 39 Hình 3.2 Ví dụ về chú thích XML trong một cuốn sách................................................ 43 Hình 3.3 Ví dụ về một danh sách được đánh dấu ........................................................... 43 Hình 3.4 Ví dụ về một đánh dấu câu .............................................................................. 44 Hình 3.5: Ví dụ về e-mail được đánh dấu bởi các thẻ đánh dấu XML ........................................ 46 Hình 3.6: Phân tích cú pháp ............................................................................................ 51 Hình 4.1 Biểu đồ phân bố từ theo số lượng tiếng trong từ ............................................. 59 Hình 4.2. Thuật toán tách từ ........................................................................................... 65 Hình 5. 1: Giao diện chính .............................................................................................. 73 Hình 5.2 Mô hình ứng dụng ............................................................................................ 74 LỜI NÓI ĐẦU Trong những năm gần đây, trên thế giới và nhiều hệ thống tổng hợp và nhận dạng tiếng nói cho nhiều ngôn ngữ như Anh, Pháp, Nhật... đã được hoàn thiện. Sự phát triển của công nghệ xử lí tiếng nói trên thế giới đã buộc chúng ta phải thừa nhận rằng việc nghiên cứu tiếng Việt một cách toàn diện cả về ngôn ngữ , văn bản và tiếng nói để có thể đạt được những kết quả so sánh được với các ngôn ngữ khác là hoàn toàn hiện thực. Tổng hợp tiếng nói từ văn bản có chức năng ngược với nhận dạng tiếng nói. Nó có rất nhiều ứng dụng quan trọng trong khoa học công nghệ và đời sống. Một hệ tổng hợp tiếng nói bao gồm hai quá trình xử lí chính là : Xử lí ngôn ngữ tự nhiên và Xử lí tín hiệu số. Trong đó phân tích văn bản là một giai đoạn quan trọng của quá trình xử lí ngôn ngữ tự nhiên, nó bao gồm các nhiệm vụ chính sau: - Xác định cấu trúc văn bản - Chuẩn hoá văn bản - Phân tích ngôn ngữ Với nhiệm vụ Phân tích ngôn ngữ thì một loạt các bài toán cơ bản cần được giải quyết: phân tách từ, gán nhãn từ loại, phân tích cú pháp và phân tích ngữ nghĩa. Trong đó bài toán phân tách từ là tương đối quan trọng, khi chưa giải quyết được bài toán này thì ta không thể tiến xa thêm một bước nào trong xử lí ngôn ngữ tự nhiên. Cho đến nay đã có khá nhiều phương pháp tách từ được đưa ra : các phương pháp dựa theo luật, các phương pháp theo mô hình xác suất thống kê, các phương pháp lai... Tuy nhiên đối với từng ngôn ngữ cụ thể và phụ thuộc vào đặc điểm của ngôn ngữ mà mỗi phương pháp có kết quả thực hiện với độ chính xác khác nhau. Trong phạm vi của luận văn này tôi xin đề xuất một yếu tố mới trong việc phân tách từ tiếng Việt, đó là cường độ liên kết từ. Qua một số khảo sát thực nghiệm, kết quả thu về là đáng khích lệ. Nội dung của luận văn được trình bày cụ thể trong 5 chương Chương 1: Tổng quan về tổng hợp tiếng nói Chương 2: Cơ sở ngôn ngữ tiếng Việt Chương 3: Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt Chương 4 : Bài toán tách từ tiếng Việt Chương 5: Cài đặt và đánh giá thử nghiệm Những công việc được thực hiện trong luận văn này chưa phải là nhiều . Phần thực hiện được chỉ là bước đầu nghiên cứu về tổng hợp tiếng nói và các vấn đề liên quan đến phân tích văn bản cũng như xử lí ngôn ngữ tự nhiên nói chung. Tôi xin được bày tỏ lòng cảm ơn sâu sắc tới Tiến sĩ Lương Chi Mai, người đã tận tình hướng dẫn giúp đỡ và tạo mọi điều kiện thuận lợi cho công tác nghiên cứu hoàn thành luận văn này. Xin ghi nhớ công lao của những người thân trong gia đình đã luôn động viên, chia sẻ, giúp đỡ để tôi hoàn thành khoá học và luận văn này. Hà Nội, ngày 2 tháng 1 năm 2006 Nguyễn Hồng Quân Chương 1 TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI Tiếng nói là phương tiện truyền thông chính giữa con người với nhau. Một hệ thống tổng hợp tiếng nói (Text To Speech – TTS) là một hệ thống dựa trên máy tính có khả năng đọc to bất kỳ văn bản nào, nó bao gồm việc chuyển đổi các mô tả về mặt ngữ âm và ngữ điệu của văn bản đầu vào thành dạng sóng tiếng nói ở đầu ra. Dữ liệu về tiếng nói có thể được mã hóa hay tham số hóa ở một dạng nào đó và được lưu giữ trước ở trong bộ nhớ. Văn bản có thể được nhập vào máy tính từ bàn phím, hoặc bằng hệ thống nhận dạng chữ viết, hoặc nhận được từ một CSDL nào đó hay tải về từ Internet[14]. Công việc của hệ thống TTS có thể được xem như là ngược lại với nhận dạng tiếng nói. Việc chuyển các từ ở dạng chữ viết ra thành tiếng nói không phải là việc làm đơn giản. Thậm chí nếu chúng ta có thể lưu trữ một từ điển khổng lồ cho các từ phổ biến nhất trong tiếng Việt thì hệ thống TTS vẫn cần phải đối mặt với hàng triệu các tên riêng, các từ viết tắt vẫn phát sinh hàng ngày. Mặt khác để tiếng nói được sinh ra một cách tự nhiên thì ngữ điệu của câu cần được kết hợp một cách hợp lý. BỘ TỔNG HỢP TIẾNG NÓI XỬ LÝ TÍN HIỆU SỐ XỬ LÝ NGÔN NGỮ TỰ NHIÊN Văn bản - Các hình thức ngôn ngữ Các mô tơ suy diễn Các suy luận logic Ngôn điệu Các mô hình toán học Các thuật toán Các quá trình tính toán - Tiếng nói Hình 1.1 Sơ đồ chức năng tổng quát của hệ thống TTS Hình 1.1 giới thiệu sơ đồ cơ bản của một bộ tổng hợp TTS nói chung [14]. Giống như việc đọc của con người, hệ thống bao gồm:  Modul xử lí ngôn ngữ tự nhiên (NLP): Có chức năng phân tích văn bản đầu vào để sinh ra sự biến đổi ngữ âm cho việc đọc văn bản cùng với ngữ điệu và nhịp điệu mong muốn (thường được gọi là ngôn điệu).  Modul xử lí tín hiệu số (DSP): có nhiệm vụ biến đổi các thông tin ở dạng ký hiệu mà nó nhận được ở đầu vào thành tiếng nói ở đầu ra. Các thuật toán và các hình thức được áp dụng để xử lí thường được dựa vào các tri thức của các mô hình ngữ âm và toán học để phát triển. Tính chất quan trọng nhất của hệ thống tổng hợp tiếng nói là chất lượng tiếng nói đầu ra. Các tiếp cận hiện nay thường bỏ qua một số bước xử lí nào đó do bị hạn chế về vấn đề thời gian thực và tài nguyên của hệ thống. Điều này dẫn đến chất lượng bị hạn chế trong cách phát âm cũng như tính biểu cảm, ít nhất là so với con người. 1.1 Modul NLP Hình 1.2 giới thiệu sơ đồ làm việc của modul NLP tổng quát cho nhiệm vụ TTS [14]. Văn bản Bộ tiền xử lý Bộ phân tích hình thái HỆ THỐNG Bộ phân tích Bộ phân tích ngữ cảnh XỬ văn bản 1.1.1 Phân tích văn bản Khối phân tích văn bản bao gồm các thành phần sau: Module tiền xử lí: có nhiệm vụ tổ chức các câu đầu vào thành danh sách các từ có khả năng xử lí được. Nó có nhiệm vụ nhận biết các con số, các chữ viết tắt , các thành ngữ và biến đổi chúng thành dạng văn bản đầy đủ khi cần thiết. Một vấn đề quan trọng mà chúng ta phải đối mặt ngay ở mức xử lí kí tự là: sự nhập nhằng của các dấu chấm câu (bao gồm cả trường hợp chuẩn khi hết câu). Ở một vài phạm vi có có thể được giải quyết nhờ các văn phạm chính quy cơ bản. Module phân tích hình thái: có nhiệm vụ đưa ra tất cả các khả năng về từ loại cho mỗi cách viết riêng biệt của từng từ trên cơ sở từ chính tả của chúng. Những từ ghép, từ có nhiều biến tố, từ dẫn xuất được tách ra thành các đơn vị tự vị cơ bản (hình thái) nhờ các văn phạm chính quy đơn giản sử dụng từ vựng gốc từ và phụ tố. Module này là cần thiết cho xử lí các ngôn ngữ có hình thái. Module phân tích ngữ cảnh: có nhiệm vụ xem xét các từ xuất hiện trong ngữ cảnh, từ đó cho phép giảm bớt danh sách từ loại để hạn chế số lượng các giả thuyết có thể xảy ra nhiều, cho biết từ loại tương ứng của các từ lân cận. Vấn đề này này có thể được giải quyết theo : - Mô hình n-grrams: theo đó sự phụ thuộc cú pháp cục bộ được biểu diễn theo dạng otomat hữu hạn trạng thái xác suất, tức là mô hình Markov, hoặc một phạm vi nhỏ hơn với mạng nơron nhiều tầng được huấn luyện để phát hiện ra các luật viết theo ngữ cảnh. - Tập văn phạm cục bộ, không ngẫu nhiên được cung cấp bởi các chuyên gia ngôn ngữ hoặc được suy diễn một cách tự động từ một tập dữ liệu huấn luyện với các kỹ thuật cây hồi quy và phân loại (CART). Module phân tích cú pháp- ngôn điệu: có nhiệm vụ rà soát trong không gian tìm kiếm còn lại và các cấu trúc văn bản tìm thấy (tức là sự tổ chức của chúng thành mệnh đề và các thành phần giống như cụm từ) có liên quan mật thiết nhiều tới thể hiện hiện ngôn điệu thực sự của nó. 1.1.2 Module LTS: Module chịu trách nhiệm xác định tự động phiên âm ngữ âm cho văn bản nhận được. Đối với các ngôn ngữ có biến đổi hình thái như hệ ngôn ngữ Ấn- Âu , đây là một module quan trọng vì có nhiều phiên âm không được đề cập đến trong từ điển. Tuy nhiên, chữ viết tiếng Việt là loại chữ ghi âm nên số lượng các mục trong từ diển được giảm bớt rất nhiều 1.1.3 Phát sinh ngôn điệu Thuật ngữ ngôn điệu dùng để chỉ các thuộc tính nhất định về tín hiệu tiếng nói liên quan đến khả năng nghe rõ sự thay đổi trong độ cao thấp; độ to nhỏ và độ dài của âm tiết. Các đặc trưng của ngôn điệu có các chức năng cụ thể trong giao tiếp bằng tiếng nói. Hiệu quả rõ ràng của ngôn điệu chính là sự nhấn mạnh. Ví dụ, có các sự kiện nào đó về cao độ làm cho một âm tiết nổi bật trong lời nói, từ hoặc nhóm cấu trúc cú pháp có chứa âm tiết đó một cách không trực tiếp sẽ được làm nổi bật như một yếu tố quan trọng hay yếu tố mới chuyển tải ý nghĩa của lời nói. Sự có mặt của dấu trọng âm có thể có những hiệu quả khác nhau như sự tương phản, phụ thuộc vào vị trí mà trọng âm xuất hiện hoặc ngữ cảnh ngữ nghĩa của lời nói. Các đặc trưng ngôn điệu tạo ra một sự phân đoạn chuỗi tiếng nói thành các nhóm âm tiết, chúng làm cho các nhóm âm tiết hoặc nhóm các từ thành các chuỗi lớn hơn. Một số đặc trưng ngôn điệu thể hiện quan hệ hai hay nhiều nhóm âm tiết được liên kết với nhau theo vài cách khác nhau. Hiệu quả của việc nhóm như vậy có tính chất phân cấp, mặc dù không cần phải giống hệt cấu trúc cú pháp của lời nói. Như vậy quá trình tiên đoán ngữ điệu từ văn bản là phải xác định được độ dài, cao độ tần số cơ bản của các ngữ đoạn tổng hợp sao cho phù hợp với các quy luật về ngữ điệu của một ngôn ngữ. Đó là việc xác định vị trí trọng âm của từ được phát âm. Lên xuống giọng ở các vị trí khác nhau trong câu, như đầu câu, cuối câu,v..v... và xác định các biến thể kác nhau của các âm phụ thuộc vào ngữ cảnh khi được phát âm trong một ngữ lưu liên tục. Bước này bao gồm cả việc xác định điểm dừng nghỉ lấy hơi khi phát âm, nó hoặc đọc một văn bản. Từ đó tạo ra các thông tin để điều khiển ngữ điệu thích hợp cho bộ tổng hợp tiếng nói. TÀI LIỆU THAM KHẢO Tiếng Việt [1] Diệp Quang Ban, Hoàng Văn Thung (2004), Ngữ pháp tiếng Việt 1, NXB Giáo Dục, Hà Nội. [2] Diệp Quang Ban (2004), Ngữ pháp tiếng Việt 2, NXB Giáo Dục, Hà Nội. [3] Nguyễn Tài Cẩn (1998), Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản Ngữ), NXB Đại học Quốc gia Hà Nội. [4] Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Ngọc Phiến, (2005) Cơ sở ngôn ngữ học và tiếng Việt, NXB Giáo Dục, Hà Nội [5] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương (2003), Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt - Kỉ yếu hội thảo khoa học quốc gia lần thứ nhất về nghiên cứu, phát triển và ứng dụng công nghệ thông tin và truyền thông (ICT.rda 2003), Nhà xuất bản Khoa học và kĩ thuật, Hà nội. [6] Đoàn Thiện Thuật (1999), Ngữ âm tiếng Việt, NXB Đại học Quốc Gia Hà Nội. [7] Đỗ Xuân Thảo, Lê Hữu Tỉnh (1997), Giáo trình tiếng Việt 2, NXB Giáo Dục, Hà Nội. Tiếng Anh [8] Chen, K. J., & Liu, S. H. (1992), Word identification for Mandarin Chinese sentences. Proceedings of the Fifteenth International Conference on Computational Linguistics, Nantes: COLING-92 [9] Dinh Dien, Hoang Kiem, Nguyen Van Toan, Vietnamese Word Segmentation, Proceedings of NLPRS’01 ,Tokyo, Japan, 11/2001. [10] Dinh Dien , Pham Phu Hoi, Ngo Quoc Hung (2004), Some Lexical Issues in Building Electronic VietnameseDictionary [11] Chih Hao Tsai, MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, [On- line]. Available: http://technology.chtsai.org/wordlist/ [12] Jianfeng Gao, Mu Li, and Chang-Ning Huan (2003), Improved source-chanel models for Chinese word segmentation. [13] Le An Ha, A method for word segmentation in Vietnamese (2004), [14] Thiery Dutoit (1997), High quality text to speech synthesis: an overview, Faculte Polytechnique de Món, TCTS Lab. [15]. Xuedong Huang, Alex Acero, Hsiao Wuen Hon (2001), Spoken Language Procesing, Prentice-Hall Internation (UK) Limited , London.

- Xem thêm -

Tài liệu Phân tích văn bản cho tổng hợp tiếng nói tiếng việt

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất