Đăng ký Đăng nhập
Trang chủ Nghiên cứu phương pháp cắt chữ dính viết tay tiếng việt...

Tài liệu Nghiên cứu phương pháp cắt chữ dính viết tay tiếng việt

.PDF
70
129
134

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG ĐÀO MINH THẮNG NGHIÊN CỨU PHƯƠNG PHÁP CẮT CHỮ DÍNH VIẾT TAY TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2016 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG ĐÀO MINH THẮNG NGHIÊN CỨU PHƯƠNG PHÁP CẮT CHỮ DÍNH VIẾT TAY TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 60480101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS. TS. NGÔ QUỐC TẠO THÁI NGUYÊN - 2016 i LỜI CẢM ƠN Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên, giúp đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn PGS.TS Ngô Quốc Tạo, luận văn với đề tài “Nghiên cứu phương pháp cắt chữ dính viết tay tiếng Việt” đã hoàn thành. Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn PGS.TS. Ngô Quốc Tạo đã tận tình chỉ dẫn, giúp đỡ tôi hoàn thành luận văn này. Đề tài “Hệ thống đeo tay hỗ trợ đọc sách tiếng Việt dành cho người khiếm thị” Mã số VAST01.07/15-16 hỗ trợ trong thực hiện luận văn. Khoa sau Đại học Trường Đại học công nghệ thông tin và truyền thông đã giúp đỡ tôi trong quá trình học tập cũng như thực hiện luận văn. Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và hoàn thành luận văn này. HỌC VIÊN Đào Minh Thắng ii LỜI CAM ĐOAN Tên tôi là: Đào Minh Thắng Sinh ngày: 09/12/1987 Học viên lớp cao học CK13A –Trường Đại học Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên. Hiện đang công tác tại: Trường Cao đẳng Cơ khí – Luyện kim – Thái Nguyên. Tôi xin cam đoan luận văn “Nghiên cứu phương pháp cắt chữ dính viết tay tiếng Việt ” là do tôi nghiên cứu và hoàn thành dưới sự hướng dẫn của PGS.TS Ngô Quốc Tạo. Các kết quả đạt được trong quá trình nghiên cứu là hoàn toàn trung thực và khách quan. Tôi xin chịu trách nhiệm về những lời cam đoan trên. Thái Nguyên, ngày tháng Người cam đoan Đào Minh Thắng năm 2016 iii MỤC LỤC LỜI CẢM ƠN ................................................................................................. i LỜI CAM ĐOAN .......................................................................................... ii MỞ ĐẦU ....................................................................................................... 1 Chương 1:TỔNG QUAN VỀ CHỮ VIẾT TIẾNG VIỆT VÀ NHẬN DẠNG CHỮ VIẾT ..................................................................................................... 3 1.1. Khái quát về Chữ viết tiếng Việt ......................................................... 3 1.1.1. Tóm lược lịch sử phát triển của tiếng Việt .................................. 3 1.1.2. Đặc điểm của tiếng Việt ........................................................... 11 1.1.3. Khả năng nắm chính tả tiếng Việt một cách có hệ thống........... 13 1.2. Trình bày về lịch sử của nhận dạng chữ viết tay ................................ 16 1.3. Giới thiệu các hướng tiếp cận trong việc nhận dạng chữ viết .............. 17 1.3.1. Nhận dạng chữ in...................................................................... 17 1.3.2. Nhận dạng chữ viết tay ............................................................. 18 1.3.3. Một số Hệ thống nhận dạng chữ viết tay tiếng Việt .................. 19 Chương 2: MỘT SỐ PHƯƠNG PHÁP TÁCH CÁC NÉT CHỮ VIẾT TAY TIẾNG VIỆT ............................................................................................... 23 2.1. Phương pháp tách nét chữ sử dụng Histgram dọc .................................. 23 2.1.1. Cân bằng histogram ........................................................................ 24 2.1.2. Một số thuật toán phát hiện và hiệu chỉnh góc nghiêng văn bản ..... 25 2.1.2.1 Thuật toán dựa vào phân tích hình chiếu (Projection Profile) ..... 25 2.1.2.2. Các thuật toán dựa vào biến đổi Hough (Hough Transform) ...... 28 2.2. Phương pháp tách nét dựa trên cấu trúc nét chữ. .................................... 34 2.2.1. Lược đồ phương pháp cắt chữ dính tiếng Việt ................................ 34 2.2.2. Làm mảnh..................................................................................... 35 2.2.2.1. Một số khái niệm cơ bản trong các thuật toán làm mảnh.......... 35 iv 2.2.2.2. Thuật toán làm mảnh song song ............................................... 39 2.2.3. Xác định điểm nối ......................................................................... 42 2.2.4. Tìm các đường cắt ứng viên............................................................ 44 2.2.5. Quyết định chọn đường cắt từ các đường cắt ứng viên …………..47 Chương 3: CÀI ĐẶT VÀ THỬ NGHIỆM ................................................... 48 3.1. Giới thiệu bài toán ................................................................................. 48 3.2. Phân tích lựa chọn công cụ .................................................................... 49 3.3. Một số kết quả thử nghiệm và đánh giá ................................................. 54 3.3.1. Phương pháp thử nghiệm ............................................................ 54 3.3.2. Dữ liệu thử nghiệm ..................................................................... 55 3.3.3. Kết quả và đánh giá .................................................................... 57 KẾT LUẬN VÀ ĐỀ NGHỊ .......................................................................... 60 TÀI LIỆU THAM KHẢO ............................................................................ 61 v DANH MỤC HÌNH ẢNH Hình 1.1: Chữ dính viết tay .......................................................................... 17 Hình 1.2. Các giai đoạn trong quá trình xử lý và nhận dạng ảnh................... 19 Hình 1.3: VnDOCR và một ví dụ nhận dạng ................................................ 20 Hình 2.1 Lược đồ xám của ảnh..................................................................... 23 Hình 2.2: Xác định khoảng cách giữa hai kí tự và giữa hai từ dựa trên histogram theo chiều dọc. ............................................................................. 24 Hình 2.3. Cấu trúc của dòng văn bản. ........................................................... 25 Hình 2.4. Phép chiếu ngang và chiếu dọc của trang tài liệu ........................... 26 Hình 2.5. Phép chiếu dọc của dòng văn bản. ................................................. 27 Hình 2.6. Phép chiếu ngang của dòng văn bản. ............................................. 27 Hình 2.7. Đường thẳng Hough trong tọa độ cực. .......................................... 32 Hình 2.8. Biến đổi Hough phát hiện góc nghiêng.......................................... 33 Hình 2.9: Lược đồ phương pháp tách nét chữ viết tay .................................. 35 Hình 2.10: Điểm ảnh p và các láng giềng ..................................................... 36 Hình 2.11: Các điểm biên liên kết ................................................................ 37 Hình 2.12: Kết quả ảnh sau khi áp dụng thuật toán Zang-Suen..................... 42 Hình 2.13: Ảnh gốc - Ảnh xương ................................................................. 42 Hình 2.14: Minh họa các điểm nối ............................................................... 43 Hình 2.15: Các trường hợp xác định điểm nối chính xác .............................. 43 Hình 2.16: Trường hợp mà định nghĩa về điểm nối của chúng tôi không phù hợp. .............................................................................................................. 43 Hình 2.17: Ví dụ các điểm nối, các vùng trắng. ............................................ 44 Hình 2.18: Lựa chọn các đường cắt tốt nhất. ................................................ 44 Hình 2.19: Ba đường cắt ứng viên ................................................................ 45 Hình 2.20: Trường hợp cắt ........................................................................... 46 vi Hình 2.21: Tất cả ba đường cắt không thể tách kí tự “o” và “a” ................... 46 Hình 2.22: Hai điểm nối (màu xám) ............................................................. 46 Hình 2.23: Hai đường cắt sử dụng đường gẫy cùng tách kí tự “o” và “a”. .... 47 Hình 3.1: Sơ đồ xử lý và nhận dạng chữ viết tay .......................................... 49 Hình 3.2: Giao diện Visual Studio ................................................................ 49 Hình 3.3: Generate code Visual stidio .......................................................... 51 Hình 3.4 : Công cụ Break Point Visual studio ............................................. 52 Hình 3.5: Giao diện hệ thống cắt chữ dính viết tay tiếng Việt....................... 52 Hình 3.6: Chọn dữ liệu ảnh đầu vào ............................................................. 53 Hình 3.7: Chuyển đổi ảnh nhị phân .............................................................. 53 Hình 3.8: Ảnh trước và sau khi làm mảnh .................................................... 54 Hình 3.9: Các đường cắt ứng viên ................................................................ 54 Hình 3.10: Thử nghiệm ................................................................................ 55 1 MỞ ĐẦU Nhận dạng chữ viết, đặc biệt là chữ viết tay, là bài toán rất quan trọng, có nhiều ứng dụng thực tiễn khác nhau như trong tình báo, kỹ thuật robot,… Bài toán nhận dạng chữ viết đã và đang được nhiều nhà nghiên cứu trên thế giới quan tâm giải quyết trong những năm gần đây. Tuy nhiên hiện nay chưa có phương pháp nào hoàn chỉnh cho bài toán này do tính phức tạp và sự biến dạng của dữ liệu đầu vào. Đối với việc nhận dạng chữ viết tiếng Việt, trong những năm gần đây đã được các nhà khoa học trong nước quan tâm nghiên cứu. Với bài toán nhận dạng chữ viết tay tiếng Việt là khó vì các vấn đề về nét chữ của tiếng Việt. Trong bối cảnh của chữ viết tay Việt Nam, không chỉ hai kí tự có nét chữ với nhau gây ra tình huống khó mà các trọng âm cũng có thể gây ra tình huống phức tạp hơn. Để có thể giải quyết tốt bài toán nhận dạng chữ viết tay tiếng Việt, thì một trong những giai đoạn quan trọng đó là phân đoạn các ký tự viết tay tiếng Việt. Từ lý do trên, em đã chọn luận văn: “Nghiên cứu phương pháp cắt chữ dính viết tay tiếng Việt”. Mục tiêu của đề tài: Nghiên cứu Tổng quan về chữ viết tiếng Việt và Hệ thống nhận dạng chữ viết tay để nắm những kiến thức cơ bản liên quan đến chữ viết tiếng Việt và hiểu được các giai đoạn trong Hệ thống nhận dạng chữ viết tay nói chung, làm cơ sở cho những bước nghiên cứu tiếp theo; Nghiên cứu Tổng quan về xử lý ảnh và làm mảnh ảnh, nắm được một số phương pháp làm mảnh ảnh cơ bản; Nghiên cứu đưa ra phương pháp tách các nét chữ viết tay tiếng Việt, chúng tôi sử dụng cấu trúc nét để đưa ra phương pháp tách. Cuối cùng, chúng tôi tiến hành cài đặt và đưa ra kết quả thử 2 nghiệm đối với phương pháp mà chúng tôi đưa ra để tách các nét chữ viết tay tiếng Việt. Cấu trúc của luận văn được chia thành 3 chương cụ thể như sau: Chương 1 TỔNG QUAN VỀ CHỮ VIẾT TIẾNG VIỆT VÀ NHẬN DẠNG CHỮ VIẾT Trình bày những kiến thức cơ bản liên quan đến tiếng Việt như lịch sử của tiếng Việt,… cũng như Chữ viết tiếng Việt. Trình bày Khái quát về Hệ thống nhận dạng chữ viết tay và đưa ra một số Hệ thống nhận dạng chữ viết tay tiếng Việt đã được các nhà nghiên cứu xây dựng. Chương 2 MỘT SỐ PHƯƠNG PHÁP TÁCH CÁC NÉT CHỮ VIẾT TAY TIẾNG VIỆT Trình bày các phương pháp làm mảnh song song và đưa ra một số phương pháp làm mảnh cơ bản. Trình bày chi tiết phương pháp tách các nét Chữ viết tay tiếng Việt mà chúng tôi đưa ra, cụ thể: chúng tôi sử dụng cấu trúc nét để tách các ký tự viết tay tiếng Việt. Chương 3 CÀI ĐẶT VÀ THỬ NGHIỆM Xây dựng Hệ thống tách các nét chữ viết tay tiếng Việt bằng phương pháp mà chúng tôi đưa ra và tiến hành thử nghiệm, đưa ra kết quả của Hệ thống mà chúng tôi xây dựng. 3 Chương 1 TỔNG QUAN VỀ CHỮ VIẾT TIẾNG VIỆT VÀ NHẬN DẠNG CHỮ VIẾT Trong chương này, chúng tôi sẽ tập trung nghiên cứu và trình bày những kiến thức cơ bản liên quan đến tiếng Việt như lịch sử phát triển của tiếng Việt, đặc điểm của tiếng Việt và chữ viết tiếng Việt. Đồng thời, chúng tôi cũng sẽ nghiên cứu và trình bày Khái quát về Hệ thống nhận dạng chữ viết tiếng Việt. Các kiến thức dưới đây được tham khảo từ: [1], [2], [3]. 1.1. Khái quát về Chữ viết tiếng Việt 1.1.1. Tóm lược lịch sử phát triển của tiếng Việt Tiếng Việt có nguồn gốc rất cổ xưa và đã trải qua một quá trình phát triển lâu dài, đầy sức sống. Sức sống đó biểu hiện tinh thần dân tộc mạnh mẽ và sáng tạo của nhân dân Việt Nam trong cuộc đấu tranh anh dũng vì tiền đồ của đất nước, trong sự phấn đấu bền bỉ để xây dựng và phát triển một nền quốc ngữ, quốc văn, quốc học Việt Nam.  Nguồn gốc tiếng Việt Tiếng Việt thuộc họ Nam Á. Đây là ý kiến phổ biến được trình bày trong nhiều công trình nghiên cứu về nguồn gốc các ngôn ngữ ở Đông Dương và châu Á. Họ Nam Á là một họ ngôn ngữ đã có từ rất xưa, trên một khu vực rộng của vùng Đông Nam châu Á. Vùng này, thời cổ, vốn là một trung tâm văn minh trên thế giới. Đến ngày nay, vẫn còn nhiều dấu vết về mối quan hệ họ hàng gần gũi giữa tiếng Việt với tiếng Mường, và mối quan hệ họ hàng tương đối xa hơn, giữa tiếng Việt với nhóm tiếng Mon-Khmer ở dọc Trường Sơn, ở miền Tây Nguyên, ở trên đấy Campuchia, Miến Điện (Mianma)... Rõ nhất là những dấu 4 vết trong lớp từ căn bản, tức là những từ thông thường đã có từ lâu đời. Ví dụ: Trong tiếng Việt, có từ tay thì từ tương đương trong tiếng Mường nghe như "thay"; tiếng Ba Na, tiếng Mơ Nông, nghe như "ti"; trong tiếng Môn, tiếng Khmer, nghe như "tai"... Trong tiếng Việt, lại còn tìm thấy những chứng cứ về mối quan hệ giữa nó với nhóm tiếng khác, đặc biệt là với nhóm tiếng Thái. Nếu những từ như chim, rú (rừng rú), sông... được xác nhận là cùng gốc với những từ tương đương trong nhóm Mon-Khmer, thì những từ như gà, vịt, đồng, rẫy... lại được chứng minh là cùng gốc với những từ tương đương trong nhóm Thái. Mối quan hệ này là do có họ hàng, hay chỉ do tiếp xúc với nhau mà sinh ra? Công việc nghiên cứu nguồn gốc tiếng Việt và các tiếng khác ở Việt Nam còn tiếp tục, nhưng theo những căn cứ đã tìm thấy, có thể nghĩ rằng phần lớn những ngôn ngữ của các dân tộc thuộc khối cộng đồng người Việt Nam đều sinh ra từ một cội nguồn chung xa xưa. Từ cội nguồn ấy, tiếng Việt đã có quá trình phát triển riêng trong xã hội của người Việt – một xã hội sớm đạt tới trình độ tổ chức khá cao, với một nền văn minh nông nghiệp tương đối hoàn chỉnh. Trải qua giai đoạn này, tiếng Việt đã thành một ngôn ngữ thống nhất và có bản sắc của nó. Bản sắc ấy khá vững bền. Nó sẽ tiếp tục phát huy tác dụng ở giai đoạn sau, giai đoạn của sự tiếp xúc ngôn ngữ giữa Việt Nam và Trung Quốc.  Tiếng Việt ở giai đoạn dùng chữ Nôm Sự tiếp xúc ngôn ngữ Việt – Hán đã diễn ra cả nghìn năm dưới chế độ đô hộ của phong kiến Trung Quốc, trong khuôn khổ một chính sách đồng hoá quyết liệt, tàn bạo; rồi sau đó, còn diễn ra cả nghìn năm tiếp theo, dưới chính quyền của vua quan trong nước. Suốt giai đoạn này, chữ Hán giữ vị trí rất quan trọng. Nó được dùng trong hành chính, tế lễ, học thuật, thơ văn. 5 Nhưng tiếng Việt, trong giai đoạn ấy, vẫn không ngừng phát triển, và đã phát triển càng ngày càng mạnh. Nền văn học dân gian, với những câu chuyện thần thoại, truyền thuyết, cổ tích, những ca dao, tục ngữ, chứng tỏ quá trình phát triển sinh động, phong phú của tiếng Việt văn học truyền miệng. Tuy vậy, chữ viết là điều kiện cần thiết để cho một ngôn ngữ văn học có thể phát triển tới trình độ cao. Chữ viết của tiếng Việt, ở giai đoạn này, là chữ Nôm – một thứ chữ được tạo ra theo nguyên tắc và cơ sở của chữ Hán. Theo những tài liệu còn lại hiện được biết, có thể nghĩ rằng chữ Nôm đã xuất hiện vào khoảng các thế kỉ IX-X, nhưng đến các thế kỉ XIII-XV mới có thơ phú "quốc âm", "quốc ngữ" viết bằng chữ Nôm, của những người như Nguyễn Thuyên (Hàn Thuyên), Nguyễn Sĩ Cố, Chu An, Nguyễn Trãi. Đáng chú ý hơn cả là Quốc âm thi tập của Nguyễn Trãi. Tập thơ này là một thành công đầu trong nền văn học viết của tiếng Việt. Nhà thơ là một vị anh hùng có công đuổi giặc, cứu nước, đồng thời là một nhà văn hoá đã nhận rõ được ý nghĩa vô cùng quan trọng của sự nghiệp xây dựng và phát triển ngôn ngữ văn học dân tộc. Từ thế kỉ XV về sau, đặc biệt là ở các thế kỉ XVIII, XIX, trào lưu văn học chữ Nôm phát triển mỗi thời một mạnh hơn, với nhiều tác phẩm hơn, những tác phẩm được lưu truyền rộng rãi trong nhân dân, trước thái độ tiêu cực của triều đình và tầng lớp khá đông những nhà nho quá sùng bãi chữ Hán. Trào lưu này đã đưa tiếng Việt đến những bước tiến rõ rệt. Kho từ vựng tăng lên, giàu có hơn. Bộ phận nền tảng của nó là những từ gốc Việt. Đó là những từ một âm tiết, như: đất, người, trăng, đẹp, vui... và những từ hai tiếng được cấu tạo theo quy tắc phối hợp âm thanh như: long lanh, ngậm ngùi... hoặc quy tắc phối hợp nghĩa, như: vuông tròn, mây gió... Nó cũng tiếp nhận và đồng hoá nhiều từ gốc Hán. Có những từ một tiếng gốc Hán đã được đưa 6 vào tiếng Việt từ rất xưa, và được Việt hoá hoàn toàn, như: tuổi vốn là gốc ở âm của chữ Hán "tuế"; buông gốc ở âm cổ của chữ Hán "phóng"... Ngoài ra, còn có những từ một tiếng hay hai tiếng gốc Hán đã đi vào tiếng Việt ở thời kì sau và chủ yếu theo con đường sách vở. Đó là những từ thi ca, như: phong, hoa, tuyết, nguyệt, tài tử, giai nhân... và những từ văn hoá, chủ yếu về đạo lí, triết lí, như: nhân, nghĩa, trung, hiếu, bạc mệnh, tang thương... Nói về cách đặt câu, cách làm thơ, thì qua trào lưu văn học chữ Nôm, rõ ràng là tiếng Việt đã đạt tới trình độ điêu luyện hơn, mà vẫn bền vững, nhuần nhuyễn tính cách Việt Nam. Những tác phẩm như Chinh phụ ngâm, Truyện Kiều... chứng tỏ rằng tính cách ấy ngày càng đậm đà và có tác dụng sâu sắc. Người Việt Nam chúng ta yêu mến, quý trọng nó là yêu mến và quý trọng bản sắc của ngôn ngữ, của văn hoá dân tộc. Tư tưởng và tình cảm này có hiệu lực đặc biệt quan trọng trong sự bồi dưỡng và phát huy tinh thần dân tộc của nhân dân Việt Nam.  Tiếng Việt ở giai đoạn dùng "chữ quốc ngữ" Từ đầu thế kỉ 20 về sau, tiếng Việt dần dần được dùng trong mọi thể loại văn học, mọi địa hạt văn hoá, khoa học, kĩ thuật. Nó phát triển thành ngôn ngữ văn học toàn diện. Đây là giai đoạn hiện đại của tiếng Việt. Ở giai đoạn này, sự phát triển của tiếng Việt diễn ra mạnh và nhanh, cùng một đà với quá trình biến đổi sâu sắc của xã hội Việt Nam trải qua cuộc đấu tranh giải phóng dân tộc khỏi ách thực dân, đặc biệt dưới sự lãnh đạo của Đảng Cộng sản Việt Nam. Đó cũng là sự phát triển đã diễn ra với một lợi khí mới về chữ viết: "chữ quốc ngữ". Chữ quốc ngữ là một thứ chữ được xây dựng theo nguyên tắc ghi âm, bằng chữ cái Latin. Loại chữ này đã được dùng phổ biến từ rất lâu, ở châu Âu. Đến thế kỉ 17, một số giáo sĩ phương Tây đem nguyên tắc ấy dùng vào việc 7 ghi âm tiếng Việt, tạo ra một thứ chữ thuận lợi hơn đối với mục đích truyền đạo. Điều kiện quyết định sự thành công của việc ghi âm như vậy là cách phát âm về cơ bản giống nhau giữa các địa phương. Điều kiện ấy đã có ở thế kỉ 17. Quả vậy, tiếng Việt trên toàn đất nước, như chính bản thân chữ quốc ngữ của thời kì này đã ghi lại, đã có, tự bấy giờ, một trình độ thống nhất rất cao. Mấy thế kỉ tiếp theo, chữ quốc ngữ chỉ có phạm vi sử dụng hạn chế trong kinh bổn đạo Thiên Chúa. Một số trí thức sớm theo đạo này và sớm có "tây học", nhất là từ khi thực dân Pháp chiếm "Nam Kì", đã ra sức cổ động cho nó. Nhưng lời hô hào của họ không được hưởng ứng rộng rãi. Đó là do ý đồ của những người trí thức ấy không đi ra ngoài khuôn khổ của toàn bộ chính sách thống trị của kẻ xâm lược. Thái độ lạnh nhạt đối với chữ quốc ngữ thay đổi kể từ khi hình thành các phong trào đấu tranh văn hoá có ý nghĩa chính trị, như phong trào Đông kinh nghĩa thục, ở đầu thế kỉ XX. Những người lãnh đạo phong trào là một số nhà nho yêu nước, chống Pháp. Họ nêu việc dùng chữ quốc ngữ lên hàng đầu trong sáu biện pháp của bản sách lược gọi là Văn minh tân học sách (1907), và lên tiếng kêu gọi đồng bào vì tương lai của đất nước mà nên dùng thứ chữ tiện lợi ấy. Những tài liệu văn hoá bằng chữ quốc ngữ, do phong trào này phát hành, đã được phổ biến khá rộng. Sách báo chữ quốc ngữ được xuất bản nhiều là từ khoảng 1920 trở về sau. Không những sách báo công khai mà cả sách báo bí mật. Công khai là những tờ "nhật trình", những "tuần san", "nguyệt san", những tiểu thuyết dịch từ Hán văn, Pháp văn lưu hành chủ yếu trong giới trí thức và tiểu tư sản ở các thành phố, các thị trấn. Bí mật là những tờ báo nhỏ, những tài liệu chính trị do các tổ chức như "Nông hội đỏ" chủ trương, phần lớn in bằng phương tiện thô sơ, được truyền tay nhau trong giới thợ thuyền ở những thành phố có ít nhiều cơ sở công nghiệp như Hải Phòng, Hà Nội, Nam Định, Vinh, Sài Gòn,... và 8 trong giới dân cày, ở những nơi có hình thức tổ chức "Nông hội đỏ". Những tài liệu chính trị quan trọng, như "Đường cách mệnh" (1925) của đồng chí Nguyễn Ái Quốc, "Luận cương chính trị" (1930) của Ban Chấp hành Trung ương Đảng Cộng sản Việt Nam, đã được truyền đi, trong thời kì này. Qua thời kì ấy, văn xuôi tiếng Việt đã thực sự ra đời và được luyện dần trong thể loại nghị luận chính trị, xã hội. Cách đặt câu đổi mới, coi trọng tính chất rõ ràng, khúc chiết, hơn là tính chất đối xứng, nhịp nhàng. Những tri thức mới về chính trị, về khoa học đòi hỏi nhiều từ mới phải đưa vào tiếng Việt. Những từ như kinh tế, xã hội, văn hoá, tư tưởng, giai cấp,... xuất hiện trong tiếng Việt tự bấy giờ. Văn xuôi nghệ thuật cũng dần trở thành phổ biến. Lúc đầu còn là văn dịch, rồi khoảng từ 1930 trở về sau, lớp văn sĩ "tân học", ngày càng đông, đã sáng tác theo những thể loại mới: truyện ngắn, truyện dài, kịch nói,... Cuối cùng, văn xuôi rời bỏ hẳn lối đặt câu biền ngẫu, có xu hướng gần gũi hơn với lời nói bình thường. "Thơ mới" lại càng mạnh dạn hơn: nó phá bỏ những luật lệ khắt khe, xích tới gần văn xuôi. Trong phạm vi từ vựng thì thơ hay văn xuôi, thuộc xu hướng hiện thực hay lãng mạn, đều dựa vào lớp từ thuần Việt và đã làm cho lớp từ này tỏ rõ hiệu lực nghệ thuật của nó. Trong khoa học tự nhiên và kĩ thuật thì số lượng thuật ngữ mới hoặc gốc Hán như: tâm, bán kính, ẩn số,...; hoặc gốc Pháp như: a-xít, ô-xy, mêtan,... đã tăng lên nhiều, và bắt đầu được truyền bá qua một số công trình dịch thuật và biên soạn có tính chất giáo khoa phổ thông. Đó là những công trình có ý nghĩa quan trọng, do những nhà trí thức yêu nước chủ trương, để chứng minh hiệu lực khoa học của tiếng Việt trong địa hạt những khoa học chính xác – địa hạt mà chính quyền thực dân và những học giả bảo thủ cho rằng tiếng Việt là "bất cập". Cũng qua những công trình đó mà văn xuôi khoa học tiếng Việt hình thành và phát triển nhanh chóng. 9 Nhìn lại khoảng thời gian từ 1920, đặc biệt từ 1930, đến Cách mạng Tháng Tám, có thể nhận thấy rằng không khí đấu tranh chính trị, văn hoá rất sôi nổi đã có tác động rõ ràng tới sự phát triển của tiếng Việt. Nhưng từ các xu hướng khác nhau, cũng đã hiện ra những quan niệm không giống nhau về chuẩn mực của tiếng Việt: có quan niệm "hồi cổ", không thừa nhận những đổi mới đã thành phổ biến; có quan niệm "bình dân" muốn ghi chép lời nói thông thường, không theo những nền nếp của ngôn ngữ văn học, chuẩn hoá; có quan niệm "logic", muốn làm cho tiếng Việt gần gũi với cái logic chung, không cần chú ý tới mặt tâm lí của nhân dân đối với đặc điểm có tính chất dân tộc trong ngôn ngữ... Đề cương văn hoá Việt Nam (1943) của Đảng Cộng sản Đông Dương ra đời trong hoàn cảnh đó. Xác định phương châm chung của cuộc đấu tranh vì một nền văn hoá cách mạng, bản đề cương rất chú ý tới vấn đề ngôn ngữ và đã đề cao giá trị khoa học, đồng thời rất coi trọng sự giữ gìn bản sắc dân tộc, cũng như tính nhân dân của tiếng Việt. Công việc nghiên cứu và biên soạn ngữ pháp tiếng Việt cũng đã được bản đề cương nêu lên thành một nhiệm vụ quan trọng.  Từ Cách mạng tháng Tám đến nay Cách mạng Tháng Tám thành công. Ngày 2 tháng 9 năm 1945, trước nhân dân Việt Nam và toàn thế giới, Chủ tịch Hồ Chí Minh công bố bản Tuyên ngôn độc lập. Đó là một văn kiện lịch sử đối với lịch sử của dân tộc Việt Nam, đối với cả lịch sử của tiếng Việt. Những lời văn sáng sủa, hùng tráng của bản đại cáo ấy chính thức tuyên bố quyền độc lập, tự do thiêng liêng của dân tộc Việt Nam, đồng thời chính thức xác định vị trí của tiếng Việt đối với nước Việt Nam đã tự mình làm chủ vận mệnh của mình. Từ đó, tiếng Việt đảm nhiệm một vai trò mới. Chính phủ Việt Nam Dân chủ Cộng hoà, ngay từ khi thành lập, đã quyết định dùng tiếng Việt ở mọi cấp học, bậc học, ở mọi ngành hoạt động. 10 Trong vai trò này, tiếng Việt tỏ ra dồi dào khả năng. Một trong những ý nghĩa của các thành tựu văn hoá, khoa học, giáo dục, hơn ba mươi lăm năm qua của nước Việt Nam, là minh chứng rõ ràng cho những khả năng đó của tiếng Việt. Trong nghệ thuật, giá trị của tiếng Việt được tiếp tục phát huy. Một đặc điểm của nền văn học hiện thực xã hội chủ nghĩa hiện nay là chất liệu ngôn ngữ lấy từ cuộc sống của nhân dân. Đó là một chất liệu rất phong phú vốn được xây dựng nên từ các nguồn văn học truyền miệng và văn học viết cổ điển; qua sự nảy nở những tư tưởng và tình cảm cách mạng của nhân dân trong cuộc sống chiến đấu và lao động, chất liệu đó lại càng phong phú hơn. Cũng từ khi Cách mạng Tháng Tám thành công, vai trò ngôn ngữ chung của tiếng Việt đối với các thành phần dân tộc anh em lại càng được đề cao. Mỗi thành phần dân tộc có ngôn ngữ riêng với vai trò quan trọng của nó ở mặt sinh hoạt vật chất và tinh thần của nhân dân thuộc thành phần dân tộc đó. Chính sách của Đảng và Chính phủ là tôn trọng quyền của mỗi thành phần dân tộc trong việc sử dụng ngôn ngữ riêng của mình, vào tạo điều kiện thuận lợi cho ngôn ngữ của tất cả các thành phần đều phát triển. Song, tiếng Việt là ngôn ngữ chung, dùng trong địa hạt giao lưu giữa các thành phần dân tộc, và đặc biệt, trong sự xây dựng và phát triển nền văn hoá và khoa học-kĩ thuật chung của khối cộng đồng dân tộc Việt Nam xã hội chủ nghĩa. Sự có mặt ngày một nhiều của những tác gia thuộc các thành phần dân tộc khác nhau trên văn đàn nghệ thuật và khoa học của tiếng Việt đang biểu hiện một cách sâu sắc cho vai trò ngôn ngữ chung của tiếng Việt, và đồng thời cho khối đoàn kết vững chắc của toàn thể dân tộc Việt Nam. Ngày nay, trong nước Cộng hoà Xã hội Chủ nghĩa Việt Nam, tiếng Việt có vị trí đầy vinh dự và vai trò ngày càng quan trọng. Đó là công cụ đấu tranh của hơn năm mươi triệu người Việt Nam đang tiến hành đồng thời cách mạng 11 về quan hệ sản xuất, cách mạng tư tưởng và văn hoá, cách mạng khoa học-kĩ thuật, đang xây dựng chủ nghĩa xã hội trên cả nước. Vị trí và vai trò ấy đặt ra yêu cầu chuẩn hoá nó về mặt chữ viết, từ vựng, ngữ pháp, và ngữ âm. Chuẩn hoá tiếng Việt là xác định tính chất đúng đắn và thống nhất của các quy tắc trong ý thức "giữ gìn sự trong sáng của tiếng Việt", tức là giữ gìn cái bản sắc đẹp đẽ, cái bản lĩnh độc đáo của tiếng Việt, đồng thời xác nhận những hiện tượng mới nảy sinh trong quá trình phát triển mạnh mẽ của tiếng Việt, nhằm mục đích nâng cao hiệu lực của nó đối với "tư duy chính trị, tư duy kinh tế, tư duy nghệ thuật, tư duy khoa học" của người Việt Nam trong giai đoạn mới của sự nghiệp cách mạng, như đồng chí Phạm Văn Đồng – Chủ tịch Hội đồng Bộ trưởng – đã phát biểu. 1.1.2. Đặc điểm của tiếng Việt Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết. Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từ vựng, ngữ pháp. Đặc điểm ngữ âm: Trong tiếng Việt có một loại đơn vị đặc biệt gọi là "tiếng". Về mặt ngữ âm, mỗi tiếng là một âm tiết. Hệ thống âm vị tiếng Việt phong phú và có tính cân đối, tạo ra tiềm năng của ngữ âm tiếng Việt trong việc thể hiện các đơn vị có nghĩa. Nhiều từ tượng hình, tượng thanh có giá trị gợi tả đặc sắc. Khi tạo câu, tạo lời, người Việt rất chú ý đến sự hài hoà về ngữ âm, đến nhạc điệu của câu văn. Đặc điểm từ vựng: Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt. Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng..., chủ yếu nhờ phương thức ghép và phương thức láy. Việc tạo ra các đơn vị từ vựng ở phương thức ghép luôn chịu sự chi phối của quy luật kết hợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi, 12 nhà tan cửa nát... Hiện nay, đây là phương thức chủ yếu để sản sinh ra các đơn vị từ vựng. Theo phương thức này, tiếng Việt triệt để sử dụng các yếu tố cấu tạo từ thuần Việt hay vay mượn từ các ngôn ngữ khác để tạo ra các từ, ngữ mới, ví dụ: tiếp thị, karaoke, thư điện tử (e-mail), thư thoại (voice mail), phiên bản (version), xa lộ thông tin, siêu liên kết văn bản, truy cập ngẫu nhiên, v.v. Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợp ngữ âm chi phối chủ yếu việc tạo ra các đơn vị từ vựng, chẳng hạn: chôm chỉa, chỏng chơ, đỏng đa đỏng đảnh, thơ thẩn, lúng lá lúng liếng, v.v. Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm tiết, một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt động. Cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng, có thể có nhiều từ ngữ khác nhau biểu thị. Tiềm năng của vốn từ ngữ tiếng Việt được phát huy cao độ trong các phong cách chức năng ngôn ngữ, đặc biệt là trong phong cách ngôn ngữ nghệ thuật. Hiện nay, do sự phát triển vượt bậc của khoa học-kĩ thuật, đặc biệt là công nghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ hơn. Đặc điểm ngữ pháp: Từ của tiếng Việt không biến đổi hình thái. Đặc điểm này sẽ chi phối các đặc điểm ngữ pháp khác. Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự từ và hư từ. Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan hệ cú pháp. Trong tiếng Việt khi nói "Anh ta lại đến" là khác với "Lại đến anh ta". Khi các từ cùng loại kết hợp với nhau theo quan hệ chính phụ thì từ đứng trước giữ vai trò chính, từ đứng sau giữ vai trò phụ. Nhờ trật tự kết hợp của từ mà "củ cải" khác với "cải củ", "tình cảm" khác với "cảm tình". Trật tự chủ ngữ đứng trước, vị ngữ đứng sau là trật tự phổ biến của kết cấu câu tiếng Việt.
- Xem thêm -

Tài liệu liên quan