ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP
--------------
NGUYỄN ĐỨC THỌ
NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TỔNG HỢP TIẾNG NÓI
LUẬN VĂN THẠC SĨ KỸ THUẬT ĐIỆN TỬ
THÁI NGUYÊN 2013
BẢNG TÓM TẮT LUẬN VĂN CAO HỌC
Ngành : Kỹ thuật điện tử - Khóa 13
1. Tên luân văn
NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TỔNG HỢP TIẾNG NÓI
2. Ngƣời thực hiện: KS.Nguyễn Đức Thọ
3. Thông tin liên quan
Email:
[email protected]
Điện thoại di động: 0982108055
4. Tóm tắt nội dung:
CHƢƠNG 1: TỔNG QUAN VÊ TỔNG HỢP TIẾNG NÓI
1.1.Giới thiệu về tổng hợp tiếng nói
1.1.1.khái niệm về tổng hợp tiếng nói
Tổng hợp tiếng nói là việc tạo ra tiếng nói con ngƣời từ đầu vào là văn bản
hay các mã hóa ngữ âm. Hệ thống tổng hợp tiếng nói cho phép chuyển đổi nội dung
văn bản của một ngôn ngữ nhất định trong thực tế thành tiếng nói tƣơng ứng. Tổng
hợp tiếng nói là một phần trong bài toán xử lý ngôn ngữ tự nhiên - bao gồm cả nhận
dạng và tổng hợp tiếng nói.
Một hệ thống tổng hợp tiếng nói từ văn bản chuyển đổi ngôn ngữ viết sang
tín hiệu tiếng nói. Chất lƣợng của một bộ tổng hợp tiếng nói đƣợc đánh giá bằng
mức độ giống nhau của nó với giọng nói con ngƣời. Ứng dụng của Hệ thống tổng
hợp tiếng nói từ văn bản ngày càng trở nên phổ biến, chúng ta có thể thấy hệ thống
này trong các hệ thống, thiết bị sử dụng tƣơng tác ngƣời máy bằng tiếng nói (robot
thông minh, hệ thống dẫn đƣờng, hệ thống khai thác thông tin), hệ thống hỗ trợ cho
ngƣời khiếm thị, ngƣời khuyết tật mất khả năng nói. Nhiều hệ điều hành đã bao
gồm cả bộ tổng hợp tiếng nói từ đầu thập niên 1980.
1.1.2.Mô hình của một bộ tổng hợp tiếng nói
-1-
Hình 1.1:Mô hình hệ thống TTS
1.1.2.1. Thành phần xử lý ngôn ngữ tự nhiên
Hình 1.2: Thành phần xử lý ngôn ngữ tự nhiên trong hệ tổng hợp tiếng nói.
* Phân tích văn bản
Phân tích văn bản là một thành phần ngôn ngữ độc lập trong hệ thống tổng
-2-
hợp. Mục đích của bƣớc phân tích văn bản là diễn giải đƣợc văn bản đầu vào thành
một chuỗi văn bản để máy có thể hiểu và đọc đúng theo phiên đó. Quá trình này bao
gồm ba bƣớc chính:
- Tiền xử lý: Mô đun tiền xử lý tổ chức các câu đầu vào thành dãy các từ.
Nó xác định các số, các từ viết tắt, tên riêng, thành ngữ và biến đổi chúng
thành dạng văn bản đầy đủ khi cần đến.
- Phân tích hình thái: nhiệm vụ cung cấp mọi khả năng loại từ của một từ
riêng lẻ dựa vào các cách phát âm cơ bản.
- Phân tích ngữ cảnh: xét các từ trong ngữ cảnh và từ loại đi với chúng
trong từng ngữ cảnh đó. Quá trình này phải xem xét các từ trong ngữ cảnh để
phiên âm phù hợp nhất với ngữ cảnh trong câu. Xử lý các khả năng xuất hiện sự
nhập nhằng về mặt ngữ nghĩa của từ hiện tại và các từ lân cận với nó.
* Chuyển ký tự thành âm thanh
Mô đun này xác định phiên âm âm vị của văn bản đầu vào. Trong phần này
có hai kiểu mô đun phổ biến nhất là mô đun dựa trên từ điển và mô đun dựa trên
luật.
* Sinh ngôn điệu
Thuật ngữ ngôn điệu liên quan đến tính chất nào đó của tín hiệu tiếng nói mà
liên quan đến thay đổi pitch, độ to nhỏ, độ dài âm tiết.
1.1.2.2. Thành phần xử tín hiệu số
Nói chung, mô đun xử lý tín hiệu số chọn các âm vị và thông tin ngôn điệu từ
đầu ra của mô đun xử lý ngôn ngữ tự nhiên và đƣa chúng thành các tín hiệu tiếng
nói. Có hai kỹ thuật chính sử dụng trong mô đun xử lý tín hiệu số: tổng hợp theo
luật hoặc tổng hợp ghép dựa trên ghép nối.
* Tổng hợp dựa trên luật
-3-
Theo Dutoit thì tổng hợp dựa trên luật gồm dãy các luật mô tả ảnh hƣởng
của các âm vị lên một âm vị khác và hầu nhƣ nó rất phù hợp với các nhà ngữ âm
học, chúng liên quan đến việc tích lũy kinh nghiệm, cách tiếp cận có khả năng
tạo ra máy phiên âm âm vị theo luật.
* Tổng hợp ghép nối
1.2. Lịch sử phát triển và ứng dụng tổng hợp tiếng nói
Tạo ra tiếng nói bằng máy là một ƣớc mơ của loài ngƣời và là mục tiêu thách
thức các nhà khoa học trên thế giới nhiều thế kỉ qua. Máy nói đầu tiên do Wolfgang
Von Kempelen chế tạo năm 1791 mô phỏng bộ máy phát âm của ngƣời đã có thể
phát ra đƣợc một vài âm tố. Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà
khoa học Dudley, phòng thí nghiệm AT&T BELL LABS đã thành công trong việc
mô hình hoá cộng hƣởng của ống thanh bằng linh kiện điện tử. Hệ thống điều
khiển nhân công 10 bộ cộng hƣởng bằng các phóm và chiết áp đã có thể tạo ra một
số câu nói có thể nghe đƣợc. Từ giữa những năm 1950 trở lại đây, sự ra đời của
máy tính điện tử đã cho phép tạo ra một cách có hệ thống các tham số để điều khiển
bộ tổng hợp tiếng nói. Cùng với sự phát triển nhƣ vũ bão của khoa học và công
nghệ thập kỉ 80, 90, kỹ thuật tổng hợp tiếng nói đã có những bƣớc phát triển rất
quan trọng có sự đóng góp rất lớn của máy tính và xử lý tín hiệu số.
Các ứng dụng này tập trung ở các lĩnh vực sau:
• Học ngoại ngữ
• Trợ giúp người tàn tật
• Truyền thông tin bằng âm thanh
• Trong lưu trữ và khai thác dữ liệu
• Trong viễn thông
-4-
CHƢƠNG 2: CÁC PHƢƠNG PHÁP TỔNG HỢP TIẾNG NÓI
2.1 Phƣơng pháp tổng hợp theo cấu âm.
Tổng hợp theo cấu âm sử dụng mô hình phỏng sinh học. Trong mô hình
này, tiếng nói đƣợc đặc trƣng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí
của các cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi,
lực căng của dây thanh. Nó bao gồm hoạt động tƣơng tác phi tuyến giữa nguồn
kích (chấn động dây thanh hoặc hỗn loạn không khí) và trở kháng đầu vào thay đổi
theo thời gian của ống thanh. Phƣơng pháp này còn đƣợc gọi là tổng hợp theo mô
hình hệ thống.
2.2 Phƣơng pháp tổng hợp theo formant.
● Luật nhằm làm trơn các formant đích.
● Luật để chuyển đổi các hàm thời giam thành dạng sóng thanh.
2.3 Phƣơng pháp Tổng hợp ghép nối
2.4 Phƣơng pháp tổng hợp theo ghép chuỗi.
-5-
CHƢƠNG 3
CHUẨN HOÁ VĂN BẢN VÀ THUẬT TOÁN PHÂN TÍCH VĂN BẢN
3.1 Tổng quan
Chuẩn hóa văn bản giúp cho bộ tổng hợp tiếng nói có khả năng hiểu đƣợc
cấu trúc và thành phần văn bản cũng nhƣ đƣợc hƣớng dẫn về cách đọc văn bản. Các
yếu tố nhập nhằng trong văn bản là khó khăn chính cho việc chuẩn hóa.Chƣơng 3 sẽ
đƣa ra giải pháp để giải quyết các vấn đề của bài toán chuẩn hóa văn bản trong tiếng
Việt.
3.2.Các vấn đề đối với bài toán Chuẩn hóa văn bản tiếng Việt
3.2.1 Bài toán chuẩn hóa văn bản tiếng Anh
Hình 3-1 Mô hình chuẩn hóa văn bản cơ bản cho tiếng Anh Lỗi! Không
tìm thấy nguồn tham chiếu..
Theo mô hình này, văn bản đầu vào đƣợc đƣa qua một bộ phân tách từ là
Tokenizer. Tokenizer sử dụng dấu cách để phân biệt các token. Sau đó văn bản lúc
-6-
này là các token đã đƣợc phân tách sẽ đƣợc đƣa qua bộ Splitter để chia các token
phức ra thành các token nhỏ hơn. Khi các token đã đƣợc phân tách hoàn toàn.
3.2.2 Đặc điểm văn bản tiếng Việt
Tuy rất hiệu quả cho tiếng Anh, mô hình chuẩn hóa văn bản tiếng Anh chƣa áp
dụng ngay đƣợc cho tiếng Việt vì một số khác biệt giữa tiếng Anh và tiếng Việt đã
trình bày ở chƣơng 1 là cấu tạo từ, bản chất ngôn ngữ khác nhau, sự nhập nhằng cao
và sự không có quy chuẩn thống nhất trong văn bản tiếng Việt, cộng với cách viết
tắt khác nhau của tiếng Việt và tiếng Anh. Nhƣng trình tự và thành phần các môđun trong mô hình này có thể đƣợc tham khảo và sửa đổi để ứng dụng phù hợp cho
tiếng Việt, vừa giải quyết đƣợc các vấn đề chung của bài toán chuẩn hóa văn bản,
vừa đáp ứng đƣợc những yêu cầu riêng trong tiếng Việt.
3.2.3.Sự tổ chức không có quy chuẩn của một token
Trong văn bản tiếng Việt có nhiều trƣờng hợp một tổ hợp chữ (hay một
token) biểu diễn một ngữ nghĩa lại bị viết tách rời nhau. Ví dụ nhƣ trong các loại số
điện thoại “090 434 3443”, trong số đếm “100 000”, cũng có một số token do lỗi
trình bày bị viết tách nhau ra nhƣ “ngày 1/ 5”… Do đó không thể áp dụng việc
dùng dấu cách để xác định các token ngay đƣợc. Những trƣờng hợp nhƣ trên cần
phải đƣợc nhóm lại thành một token theo cách “0904343443” hoặc “090.434.3443”
3.2.3.1 Sự phức tạp của NSW
Trong văn bản tiếng Việt có những trƣờng hợp phải tách một token ra để có
thể đọc lên đƣợc bằng các luật phiên âm hay so khớp từ điển. Đó là thời gian (có thể
là 12h00 hoặc 12:00 hoặc 12 giờ 00), tiền tệ (975$ hoặc $975, 1.000.000vnd), đơn
vị đo (1m75 hoặc 1.75m, 1.5kg, 1m2…), ta gọi những trƣờng hợp phải tách ra nhƣ
thế trong tiếng Việt là NSW phức. Dù hình thái các NSW loại này có khác và ít
phong phú hơn tiếng Việt, trong mô hình chuẩn hóa văn bản tiếng Anh có mô-đun
Split Token. Nhiệm vụ của mô-đun này là chia các token vốn là sự kết hợp của
nhiều thành phần ra thành các thành phần nhỏ hơn gọi là subtoken để có thể phiên
-7-
âm các thành phần của nó, khi bản thân token đó đã đƣợc nhận ra nhƣng chƣa thể
phiên âm đƣợc. Đó là các trƣờng hợp chỉ thời gian (12:00-3:00), tiền tệ ($975K$1,595,000) hay các loại đơn vị khác. Vì vậy trong mô hình chuẩn hóa tiếng Việt
cần có công đoạn nhận dạng, đánh dấu và phân tách các NSW phức này.
3.2.3.2 Xử lý các NSW khác nhau
NSW trong văn bản rất đa dạng. Mỗi loại NSW lại có cách xử lý khác nhau.
Có phân loại đúng các NSW thì mới đƣa ra đƣợc cách đọc đúng cho văn bản. Lấy ví
dụ trong tiếng Việt, nếu token “8/3” thuộc loại ngày tháng, nó sẽ đƣợc đọc là “mồng
tám tháng ba”, nhƣng nếu thuộc loại phân số, nó sẽ đƣợc đọc là “tám phầm ba”, nếu
thuộc loại tỷ lệ, nó sẽ đọc là “tám trên ba”. Tiếng Anh cũng có sự nhập nhằng tƣơng
tự. Vì vậy việc phân loại đúng đƣợc các NSW để xử lý về sau là vấn đề rất quan
trọng trong bài toán chuẩn hóa văn bản các ngôn ngữ. Mô hình chuẩn hóa của tiếng
Anh dùng mô-đun Classifier để phân loại cho các NSW mà bỏ qua việc xác định
các NSW. Trong bộ chuẩn hóa văn bản tiếng Việt, bƣớc xác định NSW sẽ đƣợc bổ
xung vào trƣớc khi phân loại chúng.
3.2.3.3 Vấn đề phân loại NSW
Việc phân loại cho NSW cần dựa trên các thuộc tính của nó. NSW có một số
thuộc tính độc lập đƣợc thể hiện ở bản thân nó, đó là độ dài token, thành phần token
có hay không chứa các loại số, dấu và chữ cái, có hay không có nguyên âm, có chữ
viết hoa không, có đƣợc viết hoa toàn bộ hay không. Những thuộc tính này cũng
đƣợc áp dụng để xét cho một khung nhìn bao gồm 2 token liền trƣớc và 2 token liền
sau token đang xét (tri-gram). NSW còn có một số thuộc tính phụ thuộc nhƣ tính
ngữ cảnh, loại của token dạng chữ thay đổi giữa các miền thông tin khác nhau, khi
đó ta cần tìm các thuộc tính dựa trên miền thông tin đó. Những thuộc tính này sẽ
quyết định việc phân loại chi tiết cho những NSW loại chữ. Ở mục 2.3 sau đây ta sẽ
đƣa ra một hệ thống phân loại chi tiết cho các NSW
-8-
3.2.3.4.Vấn đề mở rộng NSW
Trong bƣớc Tag Expander xác định cách đọc thì việc xác định cách đọc cho
từ viết tắt khá phức tạp và chứa nhập nhằng cần dùng tới mô hình ngôn ngữ, các
trƣờng hợp còn lại xác định cách đọc dựa vào luật mở rộng. Vì cùng một từ viết tắt
nhƣng nó viết tắt cho các từ khác nhau, cho nên cần phải chú ý giải quyết vấn đề
này. Để thuận tiện cho việc xử lý, bộ chuẩn hóa văn bản tiếng Việt sẽ tách công
đoạn này thành một bƣớc riêng.
Tổng hợp lại từ các phân tích trên có thể dẫn đến một mô hình chuẩn hóa
phù hợp cho văn bản tiếng Việt nhƣ sẽ trình bày ở mục 2.3 sau đây.
3.3.Giải pháp đề xuất
Giải pháp cho bài toán chuẩn hóa văn bản tiếng Việt phải giải quyết đƣợc
những vấn đề chung của bài toán chuẩn hóa văn bản nói chung và những vấn đề đặc
thù trong tiếng Việt. Đó là phải xử lý đƣợc những trƣờng hợp không thể áp dụng
luật phiên âm để đƣa ra thông tin về ngữ âm. Cụ thể là thao tác với các loại NSW là
số (số điện thoại, số đếm, phân số, địa chỉ, thời gian … ), các từ viết tắt, các từ đọc
nhƣ một dãy kí tự (WTO, NATO, TP, TS…), các từ mƣợn (karaoke, auto,
version…), các từ phức nhƣ 1m75, các kí tự Hi Lạp, các địa chỉ mail và địa chỉ
URL…
3.3.1.Phân loại các từ chƣa chuẩn hóa cho tiếng Việt
- Nhóm số đƣợc bao gồm những token có chứa ký tự là số. Nó bao gồm các loại
nhỏ hơn là:
- NTIM cho việc biểu diễn giờ (“9:30” hay “9.30” hay “9h30” tƣơng ứng với “chín
giờ ba mƣơi phút”)
- NDAT chỉ ngày tháng năm đầy đủ (“17/3/1987”, “17/03/1987”, “17/03/87” tƣơng
ứng với “ngày mƣời bảy tháng ba năm một nghìn chin trăm tám mƣơi bảy/một chin
tám bảy/tám bảy”)
- NDAY chỉ ngày và tháng (“17/03” hay “17/3” tƣơng ứng với “ngày mƣời bảy tháng
-9-
ba”)
- NMON chỉ tháng và năm (“03/87” hay “3/87” tƣơng ứng với “tháng ba năm tám
mƣơi bảy”)
- NNUM là số số học (“200.000” hay “200 000” tƣơng ứng với “hai trăm nghìn”)
- NTEL cho số điện thoại (“38.68.39.39”, “38 683 939” tƣơng ứng với “ba tám (nghỉ)
sáu tám (nghỉ) ba chin (nghỉ) ba chin”)
- NCODE cho dãy số chỉ kí hiệu (“mã số 999” tƣơng ứng là “mã số chin chin
chin”).
- NSCR cho tỉ số (“tỉ số 2-3” tƣơng ứng là “tỉ số hai (nghỉ) ba”)
-NRNG cho số chỉ miền giá trị (“từ 2-3 ngày” đọc thành “từ hai đến ba ngày”).
- NPER cho số phần trăm (“30-40%” đƣợc đọc là “ba mƣơi đến bốn mƣơi phần
trăm”).
- NFRC cho phân số (“34/5” tƣơng ứng với “ba mƣơi tƣ phần năm”)
- NCOM cho những trƣờng hợp tổ hợp số phức tạp, hay những biểu thức (2x2x3
đọc là “hai nhân hai nhân ba”).
- NSIG cho những đơn vị thông dụng (“m2” đọc là “mét vuông”, “nm” đọc là “na
nô mét”, “Nm” đọc là “niu tơn mét”).
Nhóm thứ hai là nhóm chữ cho những trƣờng hợp nhƣ sau:
- LWRD cho các token không thể áp dụng đƣợc luật phiên âm. Đó là trƣờng hợp
của danh từ nƣớc ngoài hay các từ viết tắt gốc nƣớc ngoài mà có thể đọc lên nhƣ
một từ (ghép) (“NATO” khi chuẩn hóa sẽ đọc là “na tô”).
- LSEQ cho những token đọc lên nhƣ một dãy các chữ cái (“ODA” đọc là “O dê
a”).
- LABB cho những token là từ viết tắt và cần phải tìm dạng đầy đủ của chúng
- 10 -
(“PV” mở rộng và đọc thành “phóng viên”).
3.3.2.Tổ chức gán thẻ cho NSW
Các NSW sẽ đƣợc bổ xung thông tin dƣới dạng thẻ XML. Mỗi một bản tin sẽ
đƣợc đánh dấu bằng thẻ “Information”, mỗi NSW sẽ đƣợc đánh dấu bằng thẻ “W”,
thuộc tính của NSW gồm có loại NSW trong attribute “NSW” và thuộc tính là từ
đầy đủ của NSW trong attribute “FULL” của thẻ W, các NSW phức hợp đƣợc chia
nhỏ ra sẽ đƣợc đánh dấu bằng thẻ “SPLIT”. Ở đây sẽ đƣa ra một ví dụ để có hình
dung về cách tổ chức thông tin này.
Ví dụ văn bản đầu vào là câu: ”Các hoạt động mít tinh ngày NGVN 20/11 sẽ
diễn ra tại sân nhà C2, lúc 8h30. Trong số khách mời có giáo sƣ Micheal (ĐH
Harvard)”
Kết quả sau khi đƣợc xử lý chuẩn hóa và gán thẻ:
Các hoạt động mít tinh ngày
NGVN
20/11
sẽ diễn ra tại sân nhà
C
2
, lúc 8h30 . . Trong số khách mời có giáo sư
Micheal
- 11 -
(
ĐH
Harvard
)
Văn bản đầu vào
Chuẩn phân tách
Tách các token
Tách câu
Tách NSW phức
Phát hiện NSW
So khớp với các từ điển
Phân loại NSW
Phân nhóm
Phân loại nhóm số
Phân loại nhóm chữ
Phân loại nhóm khác
Mở rộng cách đọc
Khôi phục từ viết tắt
Mở rộng cho các NSW
Văn bản đã chuẩn hóa
Hình 3-2 Mô hình chuẩn hóa văn bản tiếng Việt
- 12 -
3.3.3.Chuẩn phân tách
Văn bản đầu vào trƣớc hết đƣợc xử lý bằng biểu thức chính quy để nhận ra
và đánh dấu các tổ hợp thuộc nhóm số, URLE bởi các nhóm này sẽ đƣợc xử lý
riêng. Tiếp đó các dấu trắng thừa trong văn bản đƣợc loại bỏ, thêm dấu trắng vào
trƣớc và sau các dấu câu, các khoảng trắng trong một tổ hợp số đƣợc thay bởi dấu
chấm “.” để tiện cho việc xử lý về sau.Các câu trong văn bản đƣợc phân tách và
đánh dấu, phục vụ cho việc khai thác ngữ cảnh và đƣa ra nhịp điệu đọc phù hợp cho
tiếng nói tổng hợp.Việc phân tách các câu sử dụng bộ phân tách câu tiếng Việt.
3.3.4.Phát hiện NSW
Đầu tiên dùng từ điển số Hi Lạp để kiểm tra định dạng của token. Sau đó sử
dụng mô hình ngôn ngữ để quyết định xem token phát hiện đƣợc có phải là số Hi
Lạp không, nếu phải thì đánh dấu NSW là GREE. Tiếp đó các token đƣợc tìm kiếm
trong một từ điển các âm tiết tiếng Việt có thể đọc đƣợc, nếu không thấy trong từ
điển và không tìm thấy trong tập các dấu trong câu đồng thời không áp dụng đƣợc
luật phiên âm thì đánh dấu là NSW.
3.3.5.Phân loại NSW
Các NSW nhóm số, nhóm chữ, nhóm khác đƣợc phân nhóm đơn giản bởi các
luật nhận ra định dạng của chúng trong biểu thức chính quy. Các NSW nhóm số thì
dùng biểu thức chính quy phát hiện số, các NSW nhóm khác dùng biểu thức chính
quy phát hiện dấu, các NSW nhóm chữ dùng biểu thức chính quy phát hiện chữ loại
trừ dấu và số. Chi tiết các biểu thức chính quy xem ở chƣơng 3. Sau khi đƣợc phân
nhóm, các NSW ở mỗi nhóm lại đƣợc phân loại ra nhỏ hơn, việc xử lý mở rộng cho
NSW dựa trên các loại nhỏ của NSW này.
3.4.Các kỹ thuật và giải thuật
Biểu thức chính quy có những cú pháp nhất định phải tuân theo và một tập
các tập hợp đã đƣợc định nghĩa sẵn.Các tập định nghĩa sẵn này khác nhau cho
- 13 -
những dạng mãy khác nhau của văn bản. Kỹ thuật biểu thức chính quy đƣợc hỗ trợ
trong nhiều ngôn ngữ lập trình nhƣ PHP, .NET, Java, Pearl...
3.4.1.Tổng quan về cây quyết định
Tuổi
?
<=30
>40
31…40
Sinh
viên?
không
khôn
g
Điểm số?
có
có
có
Xuất sắc
khôn
g
Hình 3-3 Minh họa về cây quyết định
- 14 -
Trung
bình
có
3.4.2.Các bƣớc xây dựng cây quyết định.
3.4.2.2.Độ đo thuộc tính
Bảng 3-2 Bảng giá trị thuộc tính
3.4.2.3.Rút luật phân lớp từ cây quyết định
Mỗi một đƣờng dẫn từ gốc đến lá trong cây tạo thành một luật.
Mỗi cặp giá trị thuộc tính trên một đƣờng dẫn tạo nên một sự liên.
Nút lá giữ quyết định phân lớp dự đoán.
Các luật tạo đƣợc dễ hiểu hơn các cây.
- 15 -
3.4.2.4.Hiện tƣợng “quá vừa” (overfitting) dữ liệu huấn luyện
Hình 3-4 Chọn thuộc tính temperature đầu tiên.
- Để cây quyết định có thể tổng quát hơn, phân loại đúng đƣợc cho các trƣờng hợp
chƣa gặp. Có nhiều giải pháp đã đƣợc đƣa ra nhƣ cắt tỉa lại cây quyết định sau khi
học, hoặc cắt tỉa các luật sau khi chuyển cây về dạng luật.
Thuật toán C4.5 là thế hệ sau của ID3 với mục đích giải quyết những tồn tại
của ID3, thỏa mãn những yêu cầu đặt ra sẽ đƣợc sử dụng.
3.4.2.5.Xử lí quá vừa dữ liệ u
- Dạng luật: if A and B and C… then class X. Không thỏa mãn điều kiện chuyển về
lớp mặc định.
Xây dựng luật: 4 bƣớc:
- Mỗi đƣờng đi từ gốc đến lá là một luật mẫu. Đơn giản luật mẫu bằng cách bỏ dần
điều kiện mà không ảnh hƣởng tới độ chính xác của luật.
- 16 -
3.4.2.6.Áp dụ ng cây quyế t đ ị nh
- Mô hình ngôn ngữ bắt đầu ý tƣởng tính xác suất xuất hiện một cụm từ S gồm m từ
wi trong một văn bản (ở đây hiểu từ theo cách viết ngƣời Anh, tức là một token
đƣợc phân tách bởi dấu cách).
3.4.3.Mô hình ngôn ngữ chữ cái (Letter Language Modeling)
Mô hình ngôn ngữ chữ cái dựa trên những ý tƣởng về mô hình ngôn ngữ
nhƣng co hẹp phạm vi. Trong mô hình ngôn ngữ tính xác suất xuất hiện một cụm từ
thì mô hình ngôn ngữ chữ cái tính xác suất xuất hiện một từ (từ đƣợc hiểu theo cách
gọi của ngƣời Anh, trong bài này đƣợc hiểu là một token đƣợc phân cách bởi dấu
cách).
3.4.4.Kỹ thuật làm trơn mô hình Kneser-Ney cải tiến
Các tác giả ở trƣờng đại học Harvard bằng thực nghiệm đã kết luận rằng
phƣơng pháp làm trơn mô hình ngôn ngữ Kneser-Ney cho kết quả tối ƣu nhất. Theo
phƣơng pháp này, 3 tham số D1, D2, D3+ sẽ đƣợc lựa chọn để làm trọng số cho 3
mô hình monogram, digram và trigram:
3.5.Kết chƣơng
Trong chƣơng 3 trình bày về giải pháp cho bài toán chuẩn hóa văn bản tiếng
Việt. Quy trình chuẩn hóa đƣợc chia làm bốn bƣớc chuẩn phân tách, phát hiện
NSW, phân loại NSW và mở rộng cách đọc. Chƣơng tiếp theo sẽ cài đặt thử nghiêm
modul chuẩn hóa văn bản cho tiếng Việt
- 17 -
CHƢƠNG 4
CÀI ĐẶT THỬ NGHIỆM MODUL CHUẨN HÓA VĂN BẢN CHO
TIẾNG VIỆT
4.1 Cài đặt và thử nghiệm
4.1.1. Cài đặt
- Chƣơng trình đƣợc cài đặt trên mội trƣờng Windows sử dụng ngôn ngữ lập trình,
bộ công cụ lập trình và các thƣ viện sau:
o Ngôn ngữ lập trình Java
o Bộ công cụ lập trình Netbeans IDE
o Thƣ viện VietTalk: Sản phẩm TTS của Viện Công nghệ thông tin
o Thƣ viện Jsoup: lấy nội dung text từ trang web bất kì.
Chƣơng trình sử dụng hệ thống TTS iSOLAR hoặc thƣ viện VietTalk để đọc nội
dung của các trang báo điện tử.
4. 1.2.Thử nghiệm chƣơng trình
4.1.2.1.Phương pháp đánh giá kế t quả
Hình 4-3 Minh họa các độ đo
- 18 -
4.1.2.2.Bộ dữ liệu thử nghiệm Training
Bao gồm 400 bài lấy từ wikipedia
703980
Số từ
69425
Số NSWs
9,86%
Tỷ lệ NSWs
Tỉ lệ NSWs trong tập traing
Phân bố của các chủ đề trong tập training
(2) Testing
Tập test 1: 2000 câu rút ra từ tập training đƣợc gán nhãn bằng tay
Tập test 2: 2000 câu lấy từ trang tinngan.vn của Viettel đƣợc gán nhãn bằng tay
Phân phối của NSWs trong tập test
Nhóm
Phân phối
Phân phối
trong tập test 1 trong tập test 2
NUMBERS
27%
40,5%
LETTERS
65%
58,3%
OTHERS
8%
1,2%
Phân bố của NSWs trong tập test
Bảng 4-2 Phân bố cụ thể của các loại thuộc kiểu NUMBERS
4.2.Kết quả thử nghiệm
Kết quả thử nghiệm là độ chính xác của việc gán nhãn đƣợc đánh giá dựa trên công
thức sau
Accuracy of a subcategory =
Độ chính xác trong Bảng 4-3 Phân bố của NSWs trong tập OTHERS
nhóm LETTERS
Đánh giá kết quả
Precision
98,55%
Recall
96,13%
Đánh giá theo các độ
- 19 -
F-score
97,32%