Tài liệu Các vấn đề xử lý tiếng việt để nâng cao hiệu quả của công cụ tìm kiếm

  • Số trang: 119 |
  • Loại file: PDF |
  • Lượt xem: 712 |
  • Lượt tải: 1
dangvantuan

Tham gia: 02/08/2015

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN ----------------------------------------------------- NGUYỄN THỊ MINH TÂM CÁC VẤN ĐỀ XỬ LÝ TIẾNG VIỆT ĐỂ NÂNG CAO HIỆU NĂNG CỦA CÔNG CỤ TÌM KIẾM LUẬN VĂN THẠC SĨ Chuyên ngành: Ngôn ngữ học Hà Nội-2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN ---------------*--------------- NGUYỄN THỊ MINH TÂM CÁC VẤN ĐỀ XỬ LÝ TIẾNG VIỆT ĐỂ NÂNG CAO HIỆU NĂNG CỦA CÔNG CỤ TÌM KIẾM Luận văn Thạc sĩ chuyên ngành Ngôn ngữ học Mã số: 60 22 01 Ngƣời hƣớng dẫn khoa học: TS Nguyễn Ái Việt Hà Nội-2014 LỜI CAM ĐOAN Tôi xin cam đoan rằng toàn bộ nội dung và số liệu trong luận văn này do tôi tự nghiên cứu, khảo sát và thực hiện. Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Học viên Nguyễn Thị Minh Tâm LỜI CẢM ƠN Tôi xin trân trọng cảm ơn quý thầy cô khoa Ngôn ngữ học, trường Đại học Khoa học Xã hội và Nhân văn Hà Nội đã tạo cơ sở nền tảng kiến thức cho tôi trong suốt quá trình học tập Đặc biệt, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến thầy hướng dẫn của mình- Tiến sĩ Nguyễn Ái Việt, Viện trưởng Viện công nghệ thông tin, Đại học Quốc Gia Hà Nội, người thầy đã dành nhiều thời gian, tâm huyết và giúp đỡ tôi hoàn thành luận văn thạc sĩ này. Mặc dù tôi đã cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và năng lực của mình nhưng không thể tránh khỏi những thiếu sót, tôi rất mong nhận được những đóng góp quý báu của quý thầy cô và các bạn. Xin chân thành cảm ơn. Hà Nội, ngày…tháng…năm 2014 Học viên Nguyễn Thị Minh Tâm BẢNG THUẬT NGỮ TIẾNG ANH Thuật ngữ tiếng Anh Giải nghĩa tiếng Việt Concept-based searching Tìm kiếm theo ngữ nghĩa Crawler Bộ thu thập thông tin of high frequency Tần suất xuất hiện cao Hyperlink Siêu liên kết Indexing Đánh chỉ mục Keyword searching Tìm kiếm theo từ khóa Natural language processing - NLP Xử lý ngôn ngữ tự nhiên Search engine- SE Công cụ tìm kiếm Stop words Từ lọc bỏ trong quá trình lập chỉ mục Semantical clustering Phân cụm nhóm ngữ nghĩa Text Information Retrieval System Hệ thống tìm kiếm thông tin văn bản Word segmentation Phân tách từ MỤC LỤC PHẦN MỞ ĐẦU .............................................................................................. 4 CHƢƠNG 1: TỔNG QUAN CƠ SỞ LÝ THUYẾT................................... 15 1.1. Từ tiếng Việt .................................................................................................15 1.1.1. Quan niệm về từ tiếng Việt ................................................................................ 15 1.1.2. Quan niệm về từ trong công nghệ thông tin ...................................................... 22 1.1.3. Những khó khăn trong việc giải quyết vấn đề về chính tả và từ của tiếng Việt trong công cụ tìm kiếm ................................................................................................ 24 1.2. Từ loại trong tiếng Việt ................................................................................26 1.2.1. Quan niệm về từ loại trong tiếng Việt ............................................................... 26 1.2.2. Quan niệm từ loại trong xử lý ngôn ngữ tự nhiên ............................................. 31 1.2.3. Bảng phân loại từ loại trong xử lý ngôn ngữ tự nhiên ....................................... 33 1.3. Tiểu kết ..........................................................................................................37 CHƢƠNG 2: TỔNG QUAN VỀ CÔNG CỤ TÌM KIẾM VÀ ĐÁNH CHỈ MỤC VĂN BẢN ............................................................................................ 39 2.1. Tổng quan về công cụ tìm kiếm ..................................................................39 2.1.1. Khái niệm công cụ tìm kiếm .............................................................................. 39 2.1.2. Các phương thức tìm kiếm................................................................................. 41 2.1.3. Các công cụ tìm kiếm phổ biến ......................................................................... 43 2.2. Xây dựng công cụ tìm kiếm .........................................................................47 2.2.1. Những bộ phận cấu thành nên công cụ tìm kiếm .............................................. 47 2.2.2. Nguyên lý hoạt động của Công cụ tìm kiếm ..................................................... 48 2.2.3. Xử lý ngôn ngữ tự nhiên trong công cụ tìm kiếm .............................................. 51 2.3. Tiểu kết ..........................................................................................................57 CHƢƠNG 3: STOP WORDS TIẾNG VIỆT ............................................. 59 3.1. Tổng quan về stop words .............................................................................59 3.1.1. Stop words ......................................................................................................... 59 3.1.2. Vị trí của stop words .......................................................................................... 60 3.2. Quan niệm stop words .................................................................................62 3.2.1. Định nghĩa stop words ....................................................................................... 62 3.2.2. Ý nghĩa của stop words trong các máy tìm kiếm ............................................... 65 3.3. Stop words tiếng Việt ...................................................................................71 3.3.1 Đặt vấn đề ........................................................................................................... 71 1 3.3.2 Bản chất ngôn ngữ của stop words ..................................................................... 77 3.3.3. Quy trình xử lý stop words ................................................................................ 86 3.4. Tiểu kết ..........................................................................................................88 PHẦN KẾT LUẬN ........................................................................................ 89 TÀI LIỆU THAM KHẢO ............................................................................ 91 PHỤ LỤC ..................................................................................................... 100 2 DANH MỤC BẢNG BIỂU Bảng 1.1: Những tiêu chuẩn ngữ nghĩa ....................................................................18 Bảng 1.2: Những tiêu chuẩn về hình thức.................................................................19 Bảng 1.3: So sánh đặc điểm tiếng Việt và tiếng Anh ...............................................23 Bảng 1.4: Bảng phân loại từ loại của tác giả Nguyễn Hồng Cổn .............................31 Bảng 1.5: Phân loại từ loại theo VLSP .....................................................................34 Bảng 1.6: Tập nhãn từ loại Viet tree bank ................................................................35 Bảng 1.7: Tập nhãn từ loại VnPOS ...........................................................................36 Bảng 1.8: Bảng từ loại tiếng Anh..............................................................................36 Bảng 1.9: Bảng từ loại tiếng Trung ...........................................................................37 Bảng 2.1: Bảng hướng dẫn nhanh về cách sử dụng các search engine phổ biến trên thế giới .......................................................................................................................47 Bảng 3.1: Số lượng từ trong dữ liệu văn bản ............................................................75 Bảng 3.2: Số lượng stop words trong một ngôn ngữ ................................................75 Bảng 3.3: Stop words là từ láy. .................................................................................80 Bảng 3.4: Từ loại và stop words ...............................................................................81 Bảng 3.5: Nhập nhằng từ loại trong việc xác định stop words .................................84 Bảng 3.6: Bảng dịch stop words tiếng Trung sang tiếng Việt ..................................86 Bảng 3.7: Bảng dịch stop words tiếng Anh sang tiếng Việt .....................................86 Bảng 3.8: Kết quả xử lý stop words trong quá trình lập chỉ mục .............................71 DANH MỤC HÌNH MINH HỌA Hình 1.1: Sơ đồ hệ thống từ loại tiếng Việt theo quan niệm của tác giả Đinh Văn Đức ....28 Hình 1.2: Sơ đồ hệ thống từ loại tiếng Việt theo quan điểm của các tác giả Diệp Quang Ban - Hoàng Văn Thung................................................................................29 Hình 1.3: Sơ đồ hệ thống từ loại tiếng Việt theo quan điểm của tác giả Lê Biên ....29 Hình 1.4: Sơ đồ hệ thống từ loại tiếng Việt theo quan điểm của tác giả Nguyễn Tài Cẩn .30 Hình 2.1: Spider lấy nội dung của trang web và tạo các từ khóa tìm kiếm để cho phép người dùng trực tuyến có thể tìm các trang mong muốn .................................49 Hình 2.2: Googebot, Web Crawler của Google ........................................................50 Hình 2.3: Kết quả tìm kiếm với từ khóa “tô tranh” ..................................................58 Hình 3.1: Vị trí stop words trong quá trình lập chỉ mục. ..........................................62 Hình 3.2: Stop words, Frequency words ...................................................................76 Hình 3.3: Các đại từ trong tiếng Việt (Nguồn: wiki) ................................................82 3 PHẦN MỞ ĐẦU 1. Lý do chọn đề tài Ngôn ngữ học ứng dụng là một nhánh của ngành ngôn ngữ học, tập trung vào việc xác định, điều tra và cung cấp các giải pháp cho các vấn đề có liên quan đến ngôn ngữ trong thực tiễn cuộc sống. Ngôn ngữ học ứng dụng bao gồm tất cả các ứng dụng của lý thuyết ngôn ngữ học và là sự tích hợp chuyên môn liên quan đến nhiều ngành học, như ngôn ngữ học, nhân học, tâm lý họcvà giáo dục học, ngôn ngữ học xã hội và mới đây nhất là ngành công nghệ thông tin. Ứng dụng ngôn ngữ học trong ngành công nghệ thông tin mang tính thực tiễn rất cao và không ngừng thay đổi. Việc chuyển mình theo sự thay đổi đó đòi hỏi ngôn ngữ đóng vai trò như nguồn dữ liệu khổng lồ cần được xử lý và việc quan tâm đến từng ngóc ngách của nó sẽ giúp cho việc xử lý ngôn ngữ tự nhiên bằng máy được chính xác và hiệu quả hơn. Những nghiên cứu ngôn ngữ trong lĩnh vực công nghệ thông tin đánh dấu những ngành khoa học liên ngành mới như ngôn ngữ học khối liệu mang tính ứng dụng nhiều hơn so với những suy nghĩ hàn lâm về ngôn ngữ. Ngày nay với sự bùng nổ thông tin, nhất là sự phát triển mạnh mẽ của Internet và World Wide Web, việc tìm kiếm thông tin đang trở nên dễ dàng đối với người dùng internet. Nhờ đó có sự xuất hiện của hàng loạt các máy tìm kiếm (search engine) như Google, Bing!, Yahoo, Ask, MSM… người ta có thể tìm kiếm mọi thông tin bằng chính bản ngữ của mình vì các công cụ quốc tế này đáp ứng nhu cầu tìm kiếm với hơn 200 ngôn ngữ khác nhau. Sử dụng các máy tìm kiếm đã trở thành một kỹ năng không thể thiếu trong công việc và sinh hoạt thường ngày của con người hiện đại. Với sự phát triển không ngừng của công nghệ thông tin, các máy tìm kiếm ngày càng cải thiện được hiệu năng tìm kiếm và nhanh chóng chiếm được niềm tin của người dùng Internet trên toàn thế giới. Bản chất của các máy tìm kiếm hiện đại là sử dụng các bộ thu thập (crawler) thu thập thông tin từ tất cả các trang web trên thế giới vào một kho dữ liệu khổng lồ. 4 Khi người dùng sử dụng một trình duyệt như Firefox, Internet Explorer, Chrome, Opera, Cờ-rôm (Việt Nam)… đưa ra một đoạn văn bản trên trang tìm kiếm, máy tìm kiếm sẽ phân tích đoạn văn bản này và tìm kiếm trong kho dữ liệu khổng lồ nói trên các thông tin cần thiết và sắp xếp chúng theo một thứ tự ưu tiên nhất định (thí dụ như sắp xếp page của Google với link đầu là mười kết quả tốt- phổ biến nhất). Các máy tìm kiếm thường được đánh giá theo hai tiêu chuẩn: a. Chất lượng tìm kiếm: Máy tìm kiếm thông thường có thể đưa ra kết quả hàng trăm nghìn bản ghi, thậm chí nhiều khi tới hàng trăm triệu bản ghi. Do vậy, các kết quả này cần được sắp xếp theo thứ tự ưu tiên nhất định để người dùng có thể truy cập đến các thông tin cần tìm nhanh nhất. Để việc sắp xếp này có chất lượng cao, máy tìm kiếm cần phân tích để “hiểu” được nội dung cần tìm. Trong việc phân tích như vậy việc xử lý ngôn ngữ của đoạn văn cần tìm đóng vai trò hết sức quan trọng. Chính vì vậy, các máy tìm kiếm bản địa tại Trung Quốc, Hàn Quốc, Nhật, Nga,… chiếm được ưu thế so với các máy tìm kiếm quốc tế như Google, Yahoo, Bing… thông qua việc xử lý ngôn ngữ bản địa. b. Thời gian đáp ứng: Việc tìm kiếm phân tích kho dữ liệu khổng lồ để đưa ra khối lượng kết quả khổng lồ, vừa phục vụ hàng chục triệu người dùng trên toàn thế giới, phải diễn ra trong thời gian ngắn nhất (từ 3-5 giây). Bên cạnh một mạng lưới máy tính lớn và các phương pháp tính toán nhanh ngày càng hoàn thiện, xử lý ngôn ngữ có vai trò vô cùng quan trọng trong việc tối ưu hoá thời gian tìm kiếm bằng cách lọc bỏ các thông tin thừa. Như vậy, ngôn ngữ học có một vai trò quan trọng trong việc cải tiến các máy tìm kiếm. Chính vì thế, ngôn ngữ học và công nghệ thông tin ngày càng xích lại gần nhau để tạo ra nhiều ứng dụng thực tế có ích cho đời sống. Hơn nữa quá trình đó cũng đặt ra những vấn đề nghiên cứu cơ bản mới mang tính liên ngành và cho mỗi ngành. Do đặc điểm khác biệt về ngôn ngữ, văn hóa mang tính vùng miền mà đôi khi các công cụ tìm kiếm mang tính quốc tế này chưa thực sự hiểu mục đích tìm kiếm thông tin của người dùng và kết quả trả về chưa chính xác như mong muốn. Điển hình như Trung Quốc và nhiều nước có hệ chữ viết (chữ tượng hình và chữ 5 chắp dính) khác biệt với hệ chữ latinh thì việc tìm kiếm trên các công cụ quốc tế khó khăn hơn và ít kết quả có thể đáp ứng được nhu cầu tìm kiếm của người tìm kiếm. Hệ quả là công cụ tìm kiếm riêng của Trung Quốc và các nước không sử dụng chữ cái Latinh làm chữ viết vượt trên cả những “gã khổng lồ” về công cụ tìm kiếm như Baidu thắng thế so với Google tại thị trường Trung Quốc. Tình hình ở Việt Nam lại khác, tiếng Việt là ngôn ngữ có chữ viết theo hệ chữ cái latinh nên đối với việc tìm kiếm thông tin trên các công cụ tìm kiếm quốc tế khá dễ dàng. Cũng phải thừa nhận rằng, công cụ tìm kiếm ở Việt Nam chưa thể bằng công nghệ các công cụ tìm kiếm của các công ty có hơn chục năm hoạt động trên thị trường tìm kiếm trên thế giới. Nhưng những kĩ sư công nghệ thông tin vẫn có tham vọng xây dựng một công cụ tìm kiếm dành riêng cho người Việt, gần gũi với người Việt và hiểu người Việt. Tức là một công cụ thể hiện văn hóa, nhận thức của người Việt. Trên công cụ tìm kiếm này, các kĩ sư phải giải quyết được vấn đề xử lý tiếng Việt để kết quả tìm kiếm được tốt hơn. Đây cũng là lý do chúng tôi chọn đề tài “Các vấn đề xử lý tiếng Việt để nâng cao hiệu năng của công cụ tìm kiếm”. Vấn đề xử lý tiếng Việt ứng dụng trong tìm kiếm là một nội dung rộng. Trong luận văn này, chúng tôi chỉ tập trung tìm hiểu hai vấn đề: Việc đánh chỉ mục cho văn bản tiếng Việt và tìm bản chất từ loại của các stop words trong tiếng Việt. Đánh chỉ mục (indexing) là việc sắp xếp dữ liệu vào một hệ thống để tìm kiếm cho nhanh nhất. Việc tìm kiếm sẽ dựa vào các chỉ mục, do đó việc lập chỉ mục sẽ quyết định tốc độ tìm kiếm. Trong quá trình lập chỉ mục, các quy tắc của ngôn ngữ sẽ giúp cải thiện được chất lượng và tốc độ tìm kiếm. Các stop words là các từ mà các công cụ tìm kiếm thường lược bỏ để tăng tốc độ cũng như chất lượng tìm kiếm. Trong thực tiễn, các chuyên gia công nghệ thông tin thường dựa trên kinh nghiệm của mình để đưa ra danh sách các stop words cho mỗi ngôn ngữ. Qua việc khảo sát các danh sách stop words thông dụng tiếng Anh, Trung, Việt mà chúng tôi sưu tầm được, chúng tôi có thể kết luận, bản chất từ loại của stop words khá phong phú. Do các danh sách này chủ yếu dựa trên kinh nghiệm, chúng không bao gồm toàn bộ các stop words trong mỗi ngôn ngữ. 6 Việc tìm ra quy luật của các stop words sẽ có ý nghĩa quan trọng trong việc mở rộng các danh sách này để nâng cao hiệu năng và chất lượng của các máy tìm kiếm. Việc nghiên cứu bản chất từ loại của các stop words sẽ là bước đầu cho công việc này. Chúng tôi chưa tìm thấy một nghiên cứu nào trước đây về bản chất ngôn ngữ của các stop words tiếng Việt. Trên thế giới chúng tôi cũng chưa tìm thấy một công trình nào bàn về vấn đề này một cách có hệ thống. Vấn đề này xuất phát từ một yêu cầu thực tế, nhưng có một ý nghĩa nhất định trong việc trả lời câu hỏi có tính lý luận về xử lý dữ liệu. Đối với nghiên cứu khoa học, luận văn chúng tôi đóng góp phần lý luận ban đầu cho việc triển khai nghiên cứu stop words, qua đó giúp các nhà công nghệ có thể dựa vào những bản chất nội tại của chúng để đưa ra một danh sách hoàn chỉnh có tính ứng dụng và tương đối phù hợp với công cụ tìm kiếm Việt Nam. Đối với ứng dụng thực tiễn, như đã trình bày ở trên, stop words là một phần rất nhỏ trong quá trình xử lý ngôn ngữ tự nhiên nói chung và xây dụng cộng cụ tìm kiếm nói riêng. Tuy nhiên vấn đề này vẫn chưa được quan tâm đúng mức, chúng ta không nên bỏ sót bất cứ một nhập nhằng hay một vấn đề nào để biến công cụ của mình thành mạnh nhất và cạnh tranh với các đối thủ còn lại. Stop words giống như một ốc vít của bộ máy kết nối các bộ phận với nhau để bộ máy có thể hoạt động trơn tru và hiệu quả. 2. Lịch sử nghiên cứu Những nghiên cứu xử lý ngôn ngữ tự nhiên và ứng dụng ngôn ngữ trong công nghệ thông tin ngày càng phát triển, kéo theo đó là sự xuất hiện nhiều sản phẩm có tính thực tiễn trong đời sống hàng ngày như xây dựng từ điển, phần mềm dịch thuật, công cụ xử lý tiếng nói, công cụ tìm kiếm…v.v. Chúng ta có thể gõ bất kỳ một cụm từ liên quan đến “xử lý ngôn ngữ tự nhiên” (Natural language processing) trên máy tìm kiếm là thấy được rất nhiều kết quả trả về liên quan và được trình bày hết sức tổng quan. Trong luận văn này, chúng tôi tìm hiểu tính ứng dụng của nó trong công cụ tìm kiếm nên phần lớn quan tâm tới những tài liệu liên quan đến mảng ứng dụng tìm kiếm. Đây cũng là một trong những mảng ứng dụng khá sôi động, và được các 7 nhà nghiên cứu quan tâm nhưng phần lớn tập trung vào những vấn đề nhất định phù hợp với đề tài nghiên cứu của mình, ví dụ như các nhà công nghệ quan tâm đến việc xây dựng công cụ tìm kiếm như thế nào thì sẽ quan tâm về ứng dụng xử lý ngôn ngữ tự nhiên theo hướng đó. Tiêu biểu là một số bài báo đáng chú ý như sau: The Infocious Web Công cụ tìm kiếm: Improving Web Searching Through Linguistic Analysis (Công cụ tìm kiếm web Infocious: Cải thiện tìm kiếm web thông qua phân tích ngôn ngữ) của các tác giả Alexandros Ntoulas, Gerald Chao, Junghoo Cho, của UCLA Computer Science: Tập trung nghiên cứu trên máy tìm kiếm InfociousWeb giải quyết các vấn đề từ khóa, các vấn đề nhập nhằng ngôn ngữ. Công cụ tìm kiếm này tập trung vào tiêu điểm nội dung thông tin thay vì kết quả trả về dựa trên từ khóa. Ưu điểm của SE1 này là hiểu biết tốt hơn về nội dung trang web, phù hợp với truy vấn của người sử dụng với các tài liệu đã được lập chỉ mục do đó có thể cải thiện kết quả tìm kiếm. Ưu điểm thứ hai là CÔNG CỤ TÌM KIẾM sắp xếp kết quả một cách trực quan hơn. Các tác giả đưa ra công nghệ xử lý ngôn ngữ, kiến trúc và hiệu suất có được khi đi theo hướng này. Hay như bài báo “Specialized Search in Linguistics and Languages” (Tìm kiếm chuyên ngành trong ngôn ngữ học và ngôn ngữ) của tác giả Zhiping Zheng và Gregor Erbach của Computational Linguistics Department, Đại học Saarland, hướng về công cụ tìm kiếm chuyên ngành và đánh giá kết quả tìm kiếm đạt hiệu quả cao nhất vì dữ liệu thường được xử lý bán thủ công đôi khi có sự giúp đỡ của các công nghệ chuyên ngành nên kết quả tìm kiếm hoàn toàn không phải bàn cãi. Từ đó các tác giả cố gắng dựa vào những thành tựu đi trước để có thể tự động hóa xử lý dữ liệu theo hướng chuyên ngành này. Đôi khi các tác giả cũng chỉ tập trung vào tìm kiếm web theo tên miền, ví dụ Getess của các tác giả trường đại học Rostock với bài báo “ Getess: constructing a linguistic search index for an Internet Công cụ tìm kiếm” (Getess: xây dựng một chỉ mục tìm kiếm ngôn ngữ cho một Internet Công cụ tìm kiếm). Đối với các công cụ tìm kiếm nói chung, các tác giả thường quan tâm đến cơ sở dữ liệu phần chỉ mục, 1 Viết tắt SE = Search engine 8 nơi ảnh hưởng trực tiếp đến kết quả cũng như hiệu quả tìm kiếm tiêu biểu như bài báo “Indexing and querying linguistic metadata and document content” (Lập chỉ mục và truy vấn siêu dữ liệu ngôn ngữ và nội dung tài liệu) của các tác giả Niraj Aswani và Valentin Tablan, Kalina Bontcheva, Hamish Cunningham của Department of Computer Science, Đại học Sheffield. Trong công trình này, các tác giả đưa ra hệ thống ANNIC để xử lý ngôn ngữ tự nhiên bằng việc chú thích ngôn ngữ và các tính năng để cho phép người dùng xây dựng truy vấn đa năng giữ từ khóa và thông tin ngôn ngữ để các kết quả bao gồm các văn bản phù hợp trong ngữ liệu hiện thị trong bối cảnh được chú thích. Ngoài những công trình trên còn có rất nhiều những công trình nghiên cứu khác tập trung giải quyết những vấn đề trong bộ máy tìm kiếm: từ khóa, ngữ nghĩa, website, chủ đề… Phần này sẽ được chúng tôi trình bày kỹ hơn ở chương hai. Đối với vấn đề chúng tôi nghiên cứu, stop words trong bộ máy tìm kiếm, hiện nay, trên ngữ liệu tiếng Anh mà chúng tôi thu thập được, đã có rất nhiều công trình nghiên cứu đề cập đến vai trò và cách giải quyết nó tiêu biểu như: Công trình “Influence of Stop-Words Removal on Sequence Patterns Identification within Comparable Corpora‖( Ảnh hưởng của bỏ Stopwwords trên mẫu xác định thứ tự trong so sánh Corpora) của các tác giả Daša Munková, Michal Munk, Martin Vozár : quan niệm stop words là những dữ liệu ồn như khẩu hiệu, cụm từ, từ, ký hiệu cần phải lọc ra khỏi dữ liệu quan trọng. Mục đích của việc này là xác định được mức độ nào đó trước khi lọc bỏ dữ liệu, loại bỏ sự ảnh hưởng của nó bằng cách trích xuất và chỉ có ngôn ngữ tác động đáng kể cả về số lượng và chất lượng trích xuất. Bài nghiên cứu ―An Empirical Evaluation of Stop Word Removal in Statistical Machine Translation‖ (Một số đánh giá về loại bỏ stop words trong dịch máy phân tích) của AChong Tze Yuang, Rafael E. Banchs và Chng Eng Siong đánh giá khả năng cải thiện hiệu suất của hệ thống dịch máy bằng việc loại bỏ những từ thường xuyên và những vấn đề dự đoán từ từ vựng ngôn ngữ. Những từ này được loại bỏ sẽ làm giảm sự nhầm lẫn trong văn bản. 9 Và “Effective Listings of Function Stop words for Twitter” (Danh sách hiệu quả của các stop words chức năng cho Twitter) của Murphy Choy đánh giá những stop words là những từ tái hiện rất thường xuyên nhưng cơ bản là vô nghĩa khi tham gia câu, không đóng góp vào bối cảnh và nội dung của văn bản. Vì tần số cao của chúng nên gây trở ngại trong việc khai thác văn bản. Để giải quyết vấn đề này, các phương pháp sử dụng đều là dùng phần mềm hoặc sử dụng danh sách stop words cho sẵn để loại bỏ những từ đó. Các tác giả đề xuất kiểm tra việc sử dụng nhưng loại có tần suất xuất hiện nhiều, lập danh sách cho nguồn dữ liệu Twitter. Họ xây dựng một kỹ thuật mới sử dụng giá trị tổ hợp như là một biện pháp thay thế để đưa là danh sách stop words hiệu quả. Các công trình nghiên cứu về stop words thường là những bài báo được trích dẫn trong các luận văn hoặc báo cáo của các tác giả tùy thuộc vào yêu cầu của ứng dụng. Những quan điểm và cách xử lý về loại từ này đều được thống nhất. Ở Việt Nam, những công trình nghiên cứu về xử lý ngôn ngữ tự nhiên thì rất nhiều nhưng lại chưa có một công trình cụ thể nào về stop words. Về xử lý ngôn ngữ tự nhiên, chúng ta có thể kể đến một số tác giả nghiên cứu chuyên sâu về ngữ pháp ngôn ngữ trong việc tách từ, phân chia từ loại và xử lý nhập nhằng như TS Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương: Nghiên cứu xây dựng từ điển tiếng Việt cho máy tính, Sử dụng bộ gán nhãn từ loại xác suất Qtag cho văn bản tiếng Việt (2003). Ngoài ra có những tác giả, có những nghiên cứu khái quát về xử lý tiếng Việt và đặc điểm tiếng Việt trong ứng dụng công nghệ thông tin để người đọc có thể tìm hiểu được sự giống và khác nhau giữa quan niệm trọng yếu “từ”, khó khăn trong việc xử lý so với các thứ tiếng khác tiêu biểu là các tác giả Đinh Điền, Hồ Bảo Quốc: Vấn đề ranh giới từ trong ngữ liệu song ngữ Anh-Việt. Xây dựng bộ máy tìm kiếm là một trong những ứng dụng có nhiều người quan tâm nhất bởi sản phẩm thực tiễn của nó có vai trò quan trọng đối với con người trong thời đại bùng nổ thông tin. Vấn đề xây dựng bộ máy tìm kiếm tiếng Việt không mới so với ngành công nghệ thông tin hiện nay. Có rất nhiều nghiên cứu 10 về bộ máy tìm kiếm và có những chuyên luận viết về ngôn ngữ trên công cụ tìm kiếm tiếng Việt như: Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng Việt (Đồng Thị Bích Thủy, Hồ Bảo Quốc- Khoa Công Nghệ Thông Tin - Đại học khoa học tự nhiên TP. Hồ Chí Minh); Xây dựng một công cụ hỗ trỡ tra cứu và tổng hợp thông tin trong thư viện số (Báo cáo khoa học TS Đỗ Phúc và Ths. Nguyễn Minh Hiệp, TP Hồ Chí Minh, 2003); Nghiên cứu ứng dụng mã nguồn mở Lucene để xây dựng phần mềm tìm kiếm thông tin trên văn bản (Huỳnh Đức Việt, Võ Duy Thanh, Võ Trung Hùng, Tạp chí khoa học và công nghệ Đại học Đà Nẵng- số 4 (39) 201); Dương Đình Thiện (2012) Xây dựng bộ tìm kiếm (công cụ tìm kiếm), Luận văn thạc sĩ, Đại học Đà Nẵng; Vũ Đức Thìn, Hoàng Văn Dũng (2008), Áp dụng kỹ thuật phân cụm dữ liệu trong phân cụm kết quả tìm kiếm, Luận văn Thạc sỹ Cho đến nay, chúng ta có rất nhiều bài viết về công cụ tìm kiếm tiếng Việt phải kể đến các website, forum bàn luận khá sâu về vấn đề này: caohocviet.net, viet.jnlp.org, nlp.hcmut.edu.vn…Tuy nhiên, các bài viết chủ yếu nhìn nhận từ cách nhìn của các nhà công nghệ thông tin về kĩ thuật xây dựng công cụ tìm kiếm. Các bài viết đi sâu vào nghiên cứu việc giải quyết các bài toán xử lý ngôn ngữ tự nhiên, tuy nhiên chưa thật sự có một công trình nào ở Việt Nam bàn về vấn đề nghiên cứu stop words. Dù chỉ là một phần rất nhỏ trong cả một hệ thống xây dựng công cụ tìm kiếm nhưng stop words vẫn cần một nghiên cứu đầy đủ để định hướng cho các kĩ sư công nghệ đưa ra được danh sách hợp lý và độ chính xác cao. Vì vậy chúng tôi mong rằng luận văn sẽ góp phần cải thiện kết quả tìm kiếm của các công cụ tìm kiếm qua việc nghiên cứu vấn đề còn mới mẻ này. 3. Đối tƣợng nghiên cứu Trong các hệ thống tìm kiếm thông tin văn bản (Text Information Retrieval System), tiến trình quan trọng nhất là tiến trình phân tích nội dung văn bản để xác định tập chỉ mục biểu diễn tốt nhất cho nội dung của văn bản (tiến trình lập chỉ mục - indexing). Để có thể phân tích và rút trích được các chỉ mục (index term / term) tốt, người ta thường ứng dụng các kết quả của lĩnh vực xử lý ngôn ngữ tự nhiên vào 11 tiến trình này. Chỉ mục có thể là từ (word) hay là một cấu trúc phức tạp hơn như cụm danh từ (noun phrase), khái niệm (concept)... Vấn đề xác định chỉ mục cho văn bản tiếng Việt phức tạp hơn đối với ngôn ngữ châu Âu do việc xác định giới hạn của một từ (word segmentation) trong tiếng Việt không đơn giản là chỉ dựa vào các khoảng trắng giữa chúng. Hơn nữa, ngữ pháp tiếng Việt vẫn còn nhiều vấn đề tranh luận giữa các nhà ngôn ngữ học nên cũng còn nhiều khó khăn trong việc tự động hóa việc phân tích tiếng Việt. Trong luận văn này chúng tôi trình bày về các vấn đề xử lý ngôn ngữ tự nhiên trong hệ thống tìm kiếm thông tin nói chung đặc biệt là việc xử lý tiếng Việt trên công cụ tìm kiếm. Xử lý ngôn ngữ tự nhiên đối với tiếng Việt, chúng ta có rất nhiều vấn đề cần phải quan tâm như bài toán tách từ, xây dựng từ điển, xây dựng chỉ mục cho máy tìm kiếm. Tuy nhiên, chúng tôi quan tâm đến việc xử lý stop words một trong những quá trình xử lý nhập nhằng nhỏ nhưng đóng vai trò quan trọng trong việc kiểm soát hiệu năng công cụ tìm kiếm. Stop words giống như một mắt xích không thể thiếu để tăng tốc cũng như cải thiện kết quả tìm kiếm. Hai điều này quan trọng để đánh giá công cụ tìm kiếm này có hiệu quả hay không. Trong quá trình tiếp cận vấn đề, chúng tôi cũng trình bày một số đặc trưng của tiếng Việt dưới góc nhìn của lĩnh vực tìm kiếm thông tin. Mục đích cuối cùng là đảm bảo kết quả tìm kiếm là chính xác nhất, hiệu quả nhất, đáp ứng được nhu cầu tìm kiếm của người Việt. 4. Phƣơng pháp nghiên cứu Với luận văn này, ngoài việc sử dụng các thủ pháp nghiên cứu chung trong khoa học như diễn dịch, quy nạp, so sánh, thống kê…, chúng tôi còn sử dụng các phương pháp nghiên cứu sau: Phương pháp phân tích từ và từ loại: Dựa vào quan niệm từ loại và đặc điểm từ loại trong việc xử lý ngôn ngữ trên công cụ tìm kiếm so sánh với quan niệm từ và từ loại thông thường của ngôn ngữ học lý thuyết. Với phương pháp này chúng tôi xử lý dữ liệu cho sẵn bao gồm các tổ hợp từ có tần suất xuất hiện tương đối lớn 12 trong các văn bản mà máy thu thập được bằng cách phân loại từ, cụm từ và phân tích từ theo từ loại. Phương pháp phân tích khối liệu: Trong quá trình nghiên cứu, chúng tôi sử dụng công cụ tách lọc những khối liệu cần thiết để đưa vào luận văn nhằm phân tích khối liệu và đưa ra bản chất của vấn đề. Phương pháp mô tả, so sánh và đối chiếu: Số lượng tư liệu thu thập được từ stop words tiếng Anh, tiếng Trung và tiếng Việt đã được tập hợp từ các bài nghiên cứu cũng như danh sách tạm thời sẵn có để đưa vào phân tích đối chiếu. So sánh stop words giữa tiếng Việt và hai tiếng Anh, Trung sẽ cho thấy được những nét đặc thù khác biệt trong việc xử lý tiếng Việt. Qua đối chiếu, chúng tôi muốn đi sâu vào bản chất stop words tiếng Việt để sau này khi xác lập danh sách của nó có thể bớt hoặc thêm những từ có ảnh hưởng đến chỉ mục và dữ liệu máy. 5. Phạm vi nghiên cứu Chúng tôi tập trung khảo sát cách xử lý ngôn ngữ tự nhiên trên các công cụ tìm kiếm tiếng Việt phổ biến hiện nay như: xalo, itim, google, yahoo, bing… Đặc biệt chúng tôi lưu tâm đến các kết quả trả về trên công cụ google search- một trong những công cụ tìm kiếm tiếng Việt mạnh nhất hiện nay. Những công cụ tìm kiếm này có công cụ chỉ dành riêng cho việc tìm kiếm bằng tiếng Việt và các công cụ quốc tế như yahoo, bing, google có ứng dụng cho rất nhiều ngôn ngữ khác. Những dữ liệu phục vụ nghiên cứu được thu thập trên cơ sở dữ liệu đã có từ trước trên các trang web chuyên về tìm kiếm. Chúng tôi cũng sử dụng máy để tách lọc qua khối liệu từ các bài báo trên mạng để đưa ra danh sách từ có tần suất xuất hiện cao để phân tích. 6. Bố cục luận văn Luận văn gồm 3 phần: Mở đầu, Nội dung và Kết luận Phần chính là phần Nội dung được chia thành 3 chương Chương 1: Tổng quan cơ sở lý luận của đề tài 13 Đối với chương một, chúng tôi đưa ra những vấn đề lý thuyết còn nhập nhằng trên công cụ tìm kiếm thông tin như từ, từ loại. Chúng tôi cũng lựa chọn quan niệm thích hợp với đối tượng nghiên cứu của mình. Chương 2: Tổng quan về công cụ tìm kiếm và đánh chỉ mục văn bản Trong chương này, chúng tôi tập trung mô tả máy tìm kiếm và vấn đề xử lý ngôn ngữ tự nhiên trong máy như xây dựng từ điển, lập chỉ mục… Chương 3: Stop words tiếng Việt Dựa vào yêu cầu thực tiễn trong quá trình xử lý ngôn ngữ, chúng tôi lựa chọn stop words làm đối tượng nghiên cứu và kết quả nghiên cứu hoàn toàn mới góp phần vào việc xây dựng máy tìm kiếm cho người Việt được tốt hơn. Phần cuối: Kết luận 14 CHƢƠNG 1: TỔNG QUAN CƠ SỞ LÝ THUYẾT 1.1. Từ tiếng Việt 1.1.1. Quan niệm về từ tiếng Việt Từ là một trong những khái niệm cơ bản của ngôn ngữ học. Khi nghiên cứu bất kỳ một ngôn ngữ nào người ta không thể không nhắc đến việc xác định đơn vị này. Tuy nhiên, khái niệm này chưa có sự thống nhất và là một vấn đề rất khó, còn nhiều tranh cãi trong lí thuyết ngôn ngữ học đại cương. Đối với các ngôn ngữ biến hình việc xác định ranh giới từ dường như đơn giản hơn vì có thể dựa vào khoảng trắng chính tả để làm ranh giới phân biệt, ngược lại tiếng Việt thì khoảng trắng không phải là ranh giới để xác định các từ mà chỉ là ranh giới xác định các tiếng. Từ của tiếng Việt có những điểm khác biệt so với các ngôn ngữ này: Thứ nhất, từ tiếng Việt là đơn vị nhỏ nhất có nghĩa còn các ngôn ngữ Ấn Âu đơn vị nhỏ nhất là hình vị. Thứ hai, từ Tiếng Việt có nhiều biến thể ngữ âm nhưng không có biến thể hình thái học: lời và nhời, trời và giời, trăng và giăng…dù đứng trong câu hay đứng lẻ một mình, bao giờ chũng cũng giữ nguyên một hình thức, ngược lại trong ngôn ngữ Ấn Âu từ có thể tồn tại dưới nhiều từ hình khác nhau. Và cuối cùng, ý nghĩa từ vựng và ý nghĩa ngữ pháp gắn bó chặt chẽ với nhau ở trong từ Tiếng Việt. Vì vậy ý nghĩa của từ tiếng Việt thường có tính chất trừu tượng, khái quát, chỉ khi kết hợp với các từ khác ý nghĩa của nó mới được cụ thể hóa, ở các ngôn ngữ biến hình ý nghĩa từ vựng và ý nghĩa ngữ pháp được biểu thị bằng những bộ phận khác nhau của từ. Nhờ có các dạng của từ mà ý nghĩa của từ bao giờ cũng cụ thể xét về mặt ngữ pháp. Theo quan điểm của GS Nguyễn Thiện Giáp: Từ của tiếng Việt là một chỉnh thể nhỏ nhất có ý nghĩa dùng để tạo câu nói; nó có hình thức của một âm tiết, một khối viết liền. [26, tr. 69] Để phục vụ cho mục đích nghiên cứu, chúng tôi tham khảo thêm một số quan niệm khác về từ của các nhà nghiên cứu phương Tây. Cách nhìn của họ 15
- Xem thêm -