Tài liệu Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp học thống kê

.PDF

108

nhattuvisu Báo vi phạm

Tải xuống 52

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ QUYÊN XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC THỐNG KÊ LUẶN VĂN THẠC SĨ HÀ NỘI - 2007 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ QUYÊN XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC THỐNG KÊ Ngành: Công nghệ thông tin Mã số: 10110 LUẶN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS. Nguyễn Lê Minh HÀ NỘI - 2007 1 MỤC LỤC Mục lục……………………………………………………………………………...1 Danh mục các từ viết tắt…………………………………………………………….5 Danh mục bảng biểu………………………………………………………………...6 Danh mục hình vẽ…………………………………………………………………...7 Chương I TỔNG QUAN .............................................................................................8 I.1 Lược sử về trích chọn thông tin .........................................................................8 I.1.1 Tính cần thiết của trích chọn thông tin .......................................................8 I.1.2 IE với ngôn ngữ tự nhiên ............................................................................9 I.1.3 Một số hệ IE trong thời kỳ đầu .................................................................10 I.2 Xây dựng các hệ trích chọn thông tin ..............................................................12 I.2.1 Phương pháp xây dựng hệ trích chọn thông tin ........................................12 I.2.2 Kiến trúc của hệ trích chọn thông tin........................................................17 I.3 Phương pháp đánh giá hệ thống ......................................................................22 I.4 Bài toán trích chọn tên riêng ............................................................................24 I.5 Kết luận ............................................................................................................25 Chương II CÁC KIẾN THỨC NỀN TẢNG VỀ HỌC THỐNG KÊ........................26 II.1 Mô hình Markov ẩn (HMMs) .........................................................................26 II.1.1 Tổng quan về HMMs ..............................................................................26 II.1.2 Thuật toán gán nhãn triagram HMMs .....................................................31 II.1.3 Một số hạn chế của HMMs .....................................................................33 II.2 Conditional Random Field trong bài toán trích chọn thông tin......................34 II.2.1 Từ HMMs đến CRFs ...............................................................................35 II.2.2 Định nghĩa CRF .......................................................................................36 II.2.3 Thuật toán gán nhãn cho dữ liệu dạng chuỗi...........................................40 Thuâ ̣t toán GIS ..................................................................................................45 Thuâ ̣t toán IIS ....................................................................................................46 II.2.4 Các phương pháp tối ưu số ......................................................................47 Kĩ thuật tối ưu số bậc một .................................................................................47 Kĩ thuâ ̣t tố i ưu số bâ ̣c hai ..................................................................................48 II.2.5 CRF có thể giải quyết được các vấn đề lable bias ...................................50 II.3 Perceptron trong bài toán trích chọn thông tin ...............................................52 2 II.3.1 Thuật toán percepton ...............................................................................52 II.3.2 Vectơ đặc trưng cục bộ và toàn cục ........................................................55 II.3.3 Thuật toán perceptron cho bài toán gán nhãn dữ liệu dạng chuỗi...........56 II.3.4 Biến thể của thuật toán perceptron trong bài toán gán nhãn dữ liệu dạng chuỗi ..................................................................................................................58 II.3.5 Chứng minh tính hội tụ của thuật toán perceptron ..................................63 II.4 Kết luận ..........................................................................................................70 Chương III XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT ...................................................................................................71 III.1 Môi trường thực nghiê ̣m ...............................................................................71 Phầ n cứng ..........................................................................................................71 Phầ n mề m ..........................................................................................................71 Dữ liê ̣u thực nghiê ̣m ..........................................................................................71 III.2 Hê ̣ thố ng trích chọn tên riêng cho tiế ng Viê ̣t ...............................................72 III.3 Các tham số huấn luyện và đánh giá thực nghiệm ........................................72 III.3.1 Huấn luyện .............................................................................................72 III.3.2 Kiểm tra ..................................................................................................75 III.4 Lựa cho ̣n các thuô ̣c tính ................................................................................75 III.4.1 File huấn luyện .......................................................................................76 III.4.2 File mẫu:.................................................................................................78 III.5 Kế t quả thực nghiê ̣m .....................................................................................80 Kế t quả của 10 lầ n thử nghiê ̣m .........................................................................80 Lầ n thực nghiê ̣m cho kế t quả tố t nhấ t ...............................................................80 Trung biǹ h 10 lầ n thực nghiê ̣m .........................................................................81 Nhâ ̣n xét ............................................................................................................82 KẾT LUẬN ...............................................................................................................85 Tài liệu tham khảo …………………………………………………………….…. 89 3 MỞ ĐẦU Trích chọn tên riêng là một bước cơ bản trong trích chọn thông tin từ văn bản và xử lý ngôn ngữ tự nhiên . Nó được ứng dụng nhiều trong các lĩnh vực như dịch tự động, tóm tắt văn bản , hiể u ngôn ngữ tự nhiên, nhâ ̣n biế t tên thực thể trong sinh/y ho ̣c và đă ̣c biê ̣t ứng du ̣ng trong viê ̣c tić h hơ ̣p tự đô ̣ng các đố i tươ ̣ng , thực thể từ môi trường Web vào các ontology ngữ nghiã và các cơ sở tri thức . Trong luâ ̣n văn này, tôi trin ̀ h bày một số giải pháp cho bài toán trích chọn tên riêng cho các văn bản tiế ng Viê ̣t trên môi trường Web . Sau khi xem xét các hướng tiế p câ ̣n khác nhau , tôi cho ̣n phương pháp tiế p câ ̣n ho ̣c thống kê để tiến hành xây dựng hệ trích chọn tên riêng cho Văn bản tiếng Việt. Ưu điểm của phương pháp học thống kê là: dễ thu thập dữ liệu, dễ mô tả đối tượng trích chọn, và có hiệu năng phù hợp với yêu cầu đặt ra cho luận văn. Hệ trích chọn tên riêng cho văn bản tiếng Việt này được xây dựng dựa trên mô hình Condi tional Random Fields (CRFLaferty, 2001) và thuật toán perceptron cho bài toán gán nhãn dữ liệu dạng chuỗi (M.Collins, 2002). Điể m ma ̣nh của CRF và perceptron là nó có khả năng xử lý dữ liê ̣u có tính chấ t chuỗi , có thể tích hợp hàng trăm nghìn thậm chí hàng triệu đặc điể m từ dữ liê ̣u hế t sức đa da ̣ng nhằ m hỗ trơ ̣ cho quá trin ̀ h huấn luyện. Thực nghiê ̣m trên các văn bản tiế ng Viê ̣t cho thấ y kế t quả đa ̣t đươ ̣c rấ t khả quan. Luận văn được tổ chức thành ba chương như sau:  Chương 1 Tổng quan Chương này mô tả khái quát về bài toán và cách thức xây dựng hệ trích chọn thông tin. Trong đó đề cập đến lược sử, tính thực tiễn của hệ trích chọn thông tin, kiến trúc cơ bản của hệ, các phương pháp xây dựng của hệ và cách lựa chọn phương pháp phù hợp trong từng trường hợp cụ thể. Đồng thời trong phần này của luận văn cũng đề cập đến sơ lược về bài toán trích chọn tên riêng và hướng bài toán đến việc xây dựng hệ thống trích chọn tên riêng dựa trên phương pháp học thống kê  Chương 2 Các kiến thức nền tảng về học thống kê 4 Chương này đề cập đến một số phương pháp học thống kê như: HMMs, CRFs, và perceptron. Tác giả trình bày từ khái niệm, cách thức đến các ưu nhược điểm của từng phương pháp, từ đó hướng sự tập trung việc xây dựng hệ trích chọn tên riêng cho văn bản tiếng Việt vào CRFs và thuật toán perceptron trong chương 3.  Chương 3 Xây dựng một hệ trích chọn tên riêng sử dụng học thống kê Chương này mô tả cách thức xây dựng một hệ trích chọn tên riêng trong văn bản tiếng Việt sử dụng công cụ CRF++ của Taku Kudo và đưa ra một số kết quả thực nghiệm của mô hình xây dựng được. 5 DANH MỤC TỪ VIẾT TẮT Từ hoă ̣c cu ̣m từ Viế t tắ t Conditional Random Field CRF Mô hiǹ h Markov ẩ n HMMs Information Extraction IE Information Retrieval IR Nature Language Processing NLP Message Understanding Conferencens MUC Part-Of-Speech POS Named Entities Recognition NER Maximum Entropy Markov Model MEMM Supported Vector Machine SVM 6 DANH MỤC BẢNG BIỂU Bảng 1: Một số tiêu chí cần xem xét để lựa chọn phương pháp xây dựng ..........17 Bảng 2: Các tham số trong quá trình huấn luyện đối với thuật toán CRF ...........74 Bảng 3: Các tham số trong quá trình huấn luyện đối với thuật toán MIRA ........74 Bảng 4: Các thuộc tính chính tả của từ ................................................................77 Bảng 5: Đánh giá mức cụm từ - Lầ n thực nghiê ̣m cho kế t quả tố t nhấ t với thuật toán perceptron ..........................................................................................................80 Bảng 6: Đánh giá mức nhãn - Lầ n thực nghiê ̣m cho kế t quả tố t nhấ t với thuật toán perceptron ..........................................................................................................81 Bảng 7: Đánh giá trung bình 10 lầ n thực nghiê ̣m với thuật toán perceptron .......81 Bảng 8: Đánh giá mức cụm từ - Lầ n thực nghiê ̣m cho kế t quả tố t nhấ t với thuật toán crf……….. ........................................................................................................82 Bảng 9: Đánh giá mức nhãn - Lầ n thực nghiê ̣m cho kế t quả tố t nhấ t với thuật toán crf……… ..........................................................................................................83 Bảng 10: Đánh giá trung bình 10 lầ n thực nghiê ̣m với thuật toán crf ...................83 7 DANH MỤC HÌNH VẼ Hình 1: Các bước cơ bản trong một hệ trích chọn thông tin. ..............................18 Hình 2: Cụ thể hóa các bước cơ bản của một hệ trích chọn thông tin. ................18 Hình 3: Mô hình Markov ẩn ................................................................................28 Hình 4: Dạng đồ thị của thuật toán Viterbi..........................................................30 Hình 5: Đồ thị vô hướng mô tả CRF ...................................................................37 Hình 6: Vấ n đề “label bias” .................................................................................50 Hình 7: Mạng perceptron .....................................................................................53 Hình 8: Thuật toán perceptron .............................................................................57 Hình 9: Thuật toán voted-perceptron ...................................................................59 Hình 10: Một cách thể hiện khác của thuật toán perceptron .................................64 Hình 11: Cấ u trúc hê ̣ thố ng trích chọn tên riêng ...................................................72 Hình 12: Mô tả một chuỗi quan sát trong file huấn luyện. ....................................78 Hình 13: File mẫu của hệ thống .............................................................................80 Hình 14: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lầ n thực nghiê ̣m với thuật toán perceptron...........................................................................................80 Hình 15: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lầ n thực nghiê ̣m với thuật toán crf .......................................................................................................82 Hình 16: So sánh độ chính xác của hai thuật toán perceptron và crf ....................84 8 Chương I TỔNG QUAN Phần này sẽ trình bày tổng quan về bài toán trích chọn thông tin, bao gồm sự cần thiết của trích chọn thông tin, kiến trúc xây dựng và các bước cơ bản của một hệ trích chọn thông tin, cuối cùng là một vài bài toán ứng dụng phổ biến trong trích chọn thông tin. I.1 Lược sử về trích chọn thông tin I.1.1 Tính cần thiết của trích chọn thông tin Hiện nay dữ liệu văn bản ở dạng điện tử có nhiều hơn bao giờ hết, nhưng rất nhiều trong số đó chưa được sử dụng. Không ai có thể đọc, hiểu và tổng hợp hàng terabyte văn bản hàng ngày. Các nhà nghiên cứu mong muốn đưa ra các cách khám phá, quản lý thông tin này. Các phương pháp phổ biến nhất là phương pháp thu thông tin (IR) và phương pháp lọc thông tin [4]. Một phương pháp mới phát triển có liên quan đó là phương pháp trích chọn thông tin (IE), đây chính là phương pháp được đề cập đến trong luận văn. Có thể xem hệ IE như hệ kết hợp mang lại thông tin hữu ích từ những trường lớn của thông tin thô. Với một lượng lớn thông tin hữu ích tiềm tàng, hệ IE có thể chuyển thông tin thô, tiến hành lọc và làm giảm nhỏ văn bản gốc. Ví dụ như các nhà phân tích tài chính đầu tư sản xuất các thiết bị bán dẫn thì họ cần phải biết một số điều sau:  Loại hoá chất nào lựa chọn để làm các lớp cách điện  Độ dày của các lớp này  Nhiệt độ mà tại đó các lớp này được hình thành.  Ai sử dụng quy trình này Những thông tin này thông thường có sẵn trên các báo hoặc các tạp chí và hệ IE có thể thu thập những bài báo có các đoạn liên quan. IE bắt đầu với những đoạn văn bản, sau đó chuyển chúng về dạng thông tin sẵn sàng cho việc phân loại 9 và phân tích. Nó tách các phân đoạn văn bản liên quan, sau đó gắn những thông tin này thành một dạng chặt chẽ. Ví dụ, một bài báo bàn về khí hoá học, nhiệt độ, các công đoạn và các đặc tả vật liệu nhưng chỉ một hoặc hai thành phần có thể làm người phân tích quan tâm. Mục tiêu của việc nghiên cứu là xây dựng hệ thống tìm kiếm và liên kết các thông tin liên quan trong khi đó bỏ qua các dữ liệu ngoài hay không liên quan. IE có nhiều ứng dụng tiềm năng. Ví dụ như những thông tin không cấu trúc có thể được chuyển đổi đưa vào các hệ cơ sở dữ liệu truyền thống và người sử dụng có thể lấy bằng các truy vấn chuẩn. Giả sử ta muốn ghi lại lợi nhuận của các công ty lâm nghiệp ở Mỹ để so sánh chúng với các công ty của châu Âu. Các thông tin liên quan bao gồm: tên công ty, công ty thuộc nước nào, có thuộc lĩnh vực lâm nghiệp hay không, tổng lợi nhuận và lợi nhuận hiện thời của công ty. Một hệ IE lưu lại tất cả các thông tin liên quan đến lĩnh vực này, cập nhật cơ sở dữ liệu từ tất cả các nguồn có sẵn. Vì thế nó có thể phát hiện được các xu hướng ngay khi có thông báo mới. Về mặt lý thuyết, các hệ IE có thể xử lý các sự kiện mới, bao gồm các cuộc họp của những nhân vật quan trọng, thông tin về các công ty mới, các thông báo về sản phẩm mới. Tuy nhiên, các hệ thống IE hiện nay chỉ có thế xử lý trên một số dạng văn bản nhất định với độ chính xác nào đó. I.1.2 IE với ngôn ngữ tự nhiên Trên quan điểm của xử lý ngôn ngữ tự nhiên (NLP), IE hấp dẫn bởi nhiều lý do, trong đó có:  Công việc trích chọn được định nghĩa tốt  IE sử dụng văn bản ngôn ngữ thực  IE giải quyết các vấn đề khó và thú vị của NLP  Hiệu năng của IE có thể so sánh với hiệu năng của con người trên cùng một công việc Trên thực tế, các hệ IE được đánh giá và so sánh với các lợi ích tiêu chuẩn của con người là cơ hội tốt cho các nhà nghiên cứu NLP. Chính phủ hỗ trợ tài chính 10 cho việc tổ chức semina MUCs hàng năm và cho ARPA‟s Tipster Text Program. Ở đó các nhóm nghiên cứu và các tổ chức của chính phủ tìm cách nâng cao các công nghệ IR và IE với hy vọng là sẽ có những ứng dụng thực tiễn trong thời gian ngắn. Cùng với những quan tâm tích cực về IE, một câu hỏi lớn đối với tất cả các thành viên của cộng đồng NLP đó là liệu IE đủ hấp dẫn đối với các nguồn lực và các tài năng để hướng tới việc phát triển phần mềm ứng dụng thực tiễn từ con số không đến những nghiên cứu NLP dài hạn. Nhằm chỉ ra vấn đề này, đã có một cuộc khảo sát với những người tham dự MUC-4 năm 1992. Những trích dẫn được lựa chọn từ cuộc khảo sát đó đã được công khai lần đầu tiên. Với cùng suy nghĩ, việc duy trì những hệ IE là yếu tố quan trọng trong việc khuyến khích những nhà nghiên cứu NLP để đi từ những hệ thống quy mô nhỏ và dữ liệu nhân tạo cho đến hệ thống lớn xử lý trên ngôn ngữ tự nhiên của con người. Một vấn đề vẫn tồn tại trong các trường phái nghiên cứu khác nhau đó là sự khác biệt giữa trích chọn văn bản và trích chọn tri thức. Trích chọn tri thức cũng phải đối mặt với rất nhiều vấn đề như các hệ IE. Nhưng các hệ trích chọn tri thức cố gắng làm giảm cơ sở luật hoặc mô hình miền trên cơ sở của kỹ thuật văn bản. Những việc này còn bao gồm cả một thành phần học máy được đưa vào thành phần NLP. Cơ sở tri thức cần trích chọn thường được thiết kế theo hướng hệ chuyên gia hoặc hệ suy diễn tình huống. Hiểu một cách thông thường thì hướng này có tham vọng hơn so hệ IE đã nêu trong phần này. I.1.3 Một số hệ IE trong thời kỳ đầu Các hệ IE đã sớm được phát triển từ khoảng những năm 1970. Sau đây là một vài ứng dụng trong thời kỳ đầu của các hệ IE:  Một trong những hệ IE đầu tiên được Gerald deJong xây dựng. Hệ này xử lý trên những văn bản không giới hạn chủ đề. Với dữ liệu nguồn là các bức điện tín, chương trình của deJong gọi là FRUMP, xử lý các điện tín này bằng cách sử dụng các kịch bản đơn giản được thiết kế nhằm xử lý nội dung của bản tin. Với mỗi bản tin, FRUMP tìm một kịch bản liên quan dựa trên các từ 11 khoá và phân tích khái niệm câu. FRUMP là một hệ hướng ngữ nghĩa sử dụng các kỳ vọng miền cụ thể cho các mô tả sự kiện dựa trên tri thức kịch bản.  Một dự án có từ trước năm 1970 trích chọn những thông tin có ích từ văn bản. Dự án có tên là Linguistic String Project, giám đốc dự án là Naomi Sager tại đại học New York được American Medical Association tài trợ. Công việc là tìm cách chuyển các thông tin bệnh nhân (ở dạng tiếng Anh) về một định dạng phù hợp và sử dụng như đầu vào của hệ quản trị cơ sở dữ liệu truyền thống có tên Conference on Data Systems Languages (CODASYL).  Năm 1980, DaSilva và Dwiggins trích chọn các thông tin bay của vệ tinh từ các báo cáo sinh ra bởi hệ thống giám sát toàn cầu. Nhưng hệ này có hạn chế với các câu riêng lẻ và thiếu một phương thức về việc trích các miêu tả sự kiện hoàn chỉnh.  Zarri bắt đầu làm việc với các hệ IE từ đầu những năm 1980. Văn bản được sử dụng mô tả các hoạt động minh hoạ khác nhau về lịch sử Pháp. Hệ này tìm kiếm và trích chọn các thông tin về các mối quan hệ và các cuộc gặp gỡ giữa các nhân vật lịch sử. Những điểm khác nhau chính của những hệ thống phát triển trong những năm 1980 và 1990 là độ lớn về mặt thời gian và công sức để thu thập các tài liệu liên quan. Từ đó tạo ra những tập các mẫu biểu (hay các khoá) để lập nên các tập thử nghiệm bao gồm các văn bản và các đáp số đúng đi kèm. Ví dụ, việc phát triển một văn bản và khóa đi kèm của nó bằng phân tích con người cho miền vi điện tử Tipster rất tốn kém và phức tạp. Những tài nguyên bao gồm văn bản và các khóa đi kèm đã tạo ra hệ IE đặc biệt đáng để chú ý so với các hệ hướng tác vụ xử lý ngôn ngữ tự nhiên. Các mẫu biểu này có thể được sử dụng để đánh giá hiệu năng của các hệ thống IE, song song cùng với việc quan trọng là phát triển những hệ thống này. 12 I.2 Xây dựng các hệ trích chọn thông tin I.2.1 Phương pháp xây dựng hệ trích chọn thông tin Có hai phương pháp cơ bản để thiết kế các hệ IE là: Phương pháp máy tri thức (Knowledge Enginering)và Phương pháp học tự động. Phương pháp máy tri thức được đặc trưng bởi sự phát triển của văn phạm được sử dụng bởi một thành tố của hệ IE nhờ một "kĩ sư tri thức", tức là một người biết rõ về hệ IE. Với hình thức thể hiện các luật cho hệ thống đó, và sau đó, hoặc tự mình, hoặc có tham khảo tới một chuyên gia trong lĩnh vực ứng dụng để viết các luật cho thành phần hệ IE đánh dấu hay trích chọn thông tin khan hiếm. Thường thì kĩ sư tri thức sẽ truy cập tới tập mẫu có kích thước trung bình về các văn bản miền liên quan (một tập mẫu có kích thước trung bình bao gồm tất cả những gì mà một người thông thường có thể kiểm chứng được), và trực giác của anh ta/cô ta. Kĩ năng của kĩ sư tri thức đóng vai trò quan trọng, nó ảnh hưởng trực tiếp đến hiệu năng của toàn bộ hệ thống. Ngoài việc đòi hỏi kĩ năng và tri thức chi tiết về một hệ IE cụ thể, phương pháp máy tri thức thường cũng đòi hỏi phải mất nhiều công sức. Để xây dựng một hệ thống hiệu suất cao thường phải thực hiện quá trình lặp trong đó tập luật được biết trước. Hệ thống thực hiện việc chạy trên một tập mẫu học các văn bản, và kết quả đầu ra được kiểm tra để thấy được các luật được phát sinh dưới mức hoặc quá mức ở đâu. Kĩ sư tri thức khi đó sẽ thực hiện các thay đổi/chỉnh sửa luật thích hợp, và lặp lại quá trình này. Phương pháp huấn luyện tự động thì khác. Không cần thiết phải có ai đó biết rõ tri thức chi tiết về cách hoạt động của hệ IE, hay về cách viết các luật cho nó. Chỉ cần có người biết đủ về miền và tác vụ lấy một tập mẫu, và chú giải các văn bản thích hợp cho thông tin được trích chọn. Thông thường, các chú giải sẽ tập trung vào một khía cạnh cụ thể của việc xử lý của hệ thống. Thí dụ, một bộ nhận biết tên riêng có thể được huấn luyện bằng cách chú giải một tập mẫu các văn bản với các 13 tên miền liên quan phù hợp. Thành phần đồng tham chiếu có thể được huấn luyện với một tập mẫu chỉ thị tới các lớp tương đương đồng tham chiếu cho từng văn bản. Một khi tập mẫu phù hợp đã được chú giải, thuật toán huấn luyện sẽ được chạy và cho ra kết quả thông tin mà một hệ thống có thể khai thác trong việc phân tích các văn bản mới. Một cách khác để đạt được dữ liệu huấn luyện là tương tác với người dùng trong quá trình xử lý văn bản. Người sử dụng được phép chỉ ra khi nào các giả thuyết của hệ thống về văn bản là đúng, và nếu không, hệ thống sẽ chỉnh sửa các luật của nó để thích ứng với các thông tin mới. Đối với các nhà khoa học thì các hệ huấn luyện tự động dường như hấp dẫn hơn nhiều. Bởi rõ ràng, để thực hiện theo phương pháp máy tri thức, đòi hỏi phải có sự hiểu biết tường tận đến tri thức miền, điều này chính là điểm hạn chế, làm cho phương pháp máy tri thức trở nên ít hấp dẫn với các nhà khoa học trong lĩnh vực tin học. Dựa trên các tính đúng đắn của lý thuyết về phương pháp thống kê, người ta có thể đo chính xác các hiệu quả của chúng bằng một hàm của chất lượng dữ liệu đầu vào, chúng giữ được sự độc lập miền tương đối, và không dựa vào bất cứ thứ gì không thể đo đếm được như là "kĩ năng của một kĩ sư tri thức". Tuy nhiên, không nên đánh lừa trực giác và sự tinh thông của con người. Những người ủng hộ phương pháp máy tri thức đang chỉ ra rằng, có thể đạt được hiệu năng cao hơn nhờ vào các hệ thủ công, đặc biệt là khi dữ liệu huấn luyện là dữ liệu thưa. Điều này có thể dẫn tới các tranh cãi vô ích giữa những trường phái của hai cách tiếp cận xem cách nào là "trội hơn". Thực ra, mỗi cách tiếp cận đều có những ưu nhược điểm riêng, và cần được ứng dụng vào tình huống thích hợp để tận dụng những ưu điểm của từng cách. Như ta đã chỉ ra, phương pháp máy tri thức có ưu điểm của nó là cho tới bây giờ, các hệ chạy tốt nhất cho các tác vụ trích chọn thông tin đều được làm thủ công. Mặc dù các hệ huấn luyện tự động đã tiến gần tới cấp độ của các hệ thủ công như trong các đánh giá MUC, thì các ưu điểm liên quan đến sự khéo léo của con người 14 trong việc tiên liệu trước các mẫu không nhìn thấy trong tập mẫu, và trong việc cấu trúc các luật ở mức tổng quát đúng mực vẫn tạo cho các hệ thống đó ưu điểm nhỏ nhưng rất đáng kể. Kinh nghiệm cũng cho thấy, với một hệ thống được thiết kế đúng đắn cho trước, một sinh viên đại học chưa ra trường cũng có thể viết các luật trích chọn sau khoảng một tuần huấn luyện. Do vậy, "sự tinh thông về hệ IE" không phải là vật cản lớn như ai đó nghĩ. Những điểm mạnh, yếu của các tiếp cận huấn luyện tự động là bù trừ với những điểm mạnh, yếu của phương pháp máy tri thức. Thay vì tập trung vào việc sản xuất ra các luật, cách tiếp cận huấn luyện tự động tập trung vào sản xuất dữ liệu huấn luyện. Các thống kê tập mẫu hay các luật sau đó được dẫn xuất tự động từ các dữ liệu huấn luyện, và được dùng để xử lý các dữ liệu mới. Miễn là ai đó thành thạo miền sẵn dùng cho chú giải các văn bản, các hệ thống có thể được tuỳ biến về miền cụ thể mà không cần sự can thiệp từ phía bất kỳ nhà phát triển nào. Nhận biết tên là một tác vụ lý tưởng cho cách tiếp cận huấn luyện tự động bởi vì rất dễ để có thể tìm ra các chú giải nhằm sản xuất lượng lớn các dữ liệu huấn luyện - hầu hết mọi người đều trực giác biết rằng một "tên công ty" là gì. Nhược điểm của cách tiếp cận huấn luyện tự động cũng xoay quanh yếu tố phải dựa trên dữ liệu huấn luyện. Dữ liệu huấn luyện có thể được cung cấp không đủ, có thể rất khó hay tốn kém mới có được. Đôi khi người ta mong có thể phát triển một hệ trích chọn cho các chủ đề mà có rất ít các thí dụ liên quan trong tập mẫu. Những tình huống như thế đề cao trực giác của con người trong thiết kế các luật. Nếu các quan hệ cần tìm là phức tạp hay mang tính kĩ thuật thì các chú giải rất khó tìm, và cũng rất khó để sản xuất đủ các dữ liệu được chú giải cho một tập mẫu huấn luyện tốt. Thậm chí ngay cả đối với các miền đơn giản như miền các tên riêng, luôn có vùng rộng lớn các trường hợp biên mà các hướng dẫn chú giải cần phải được phát triển. Thí dụ, khi diễn giải các tên công ty, thì liệu có thể xem các tổ chức phi lợi nhuận như các trường đại học, hay Hội Chữ thập đỏ là "các công ty"? Không có câu 15 trả lời đúng cho những câu hỏi như vậy; câu trả lời cần phải được quy định và cần được hiểu rõ ràng bởi mọi bộ chú giải. Điều này ngụ ý rằng, cần chú trọng đảm bảo chất lượng của dữ liệu hơn là số lượng dữ liệu. Hầu như không thể có được các hệ thống chất lượng cao thực sự với các dữ liệu huấn luyện không nhất quán. Điều này ám chỉ rằng việc thu thập dữ liệu huấn luyện còn tốn kém hơn là người ta tưởng. Thực tế, với rất nhiều miền, thì việc thu thập dữ liệu huấn luyện cũng tốn kém, thậm chí tốn kém hơn về mặt thời gian và nhân sự, như là việc viết các luật. Một vấn đề cần quan tâm khác là ảnh hưởng của việc chuyển đặc tả trên viết luật hay trên tác vụ huấn luyện. Rõ ràng việc đặc tả các luật trích chọn không là tập rời rạc như thoạt nghĩ. Thông thường, người dùng cuối sẽ phát hiện ra sau một vài trải nghiệm rằng, họ muốn một giải pháp cho một vấn đề có liên quan và hơi khác một chút. Ảnh hưởng khác nhau của nó tới các hệ thống máy tri thức và huấn luyện tự động phụ thuộc vào việc các đặc tả này được thay đổi chính xác như thế nào. Giả sử một bộ nhận biết tên được phát triển cho các chữ hoa và chữ thường. Sau đó người dùng quyết định rằng rất cần thiết phải xử lý các văn bản có cùng dạng chữ (chữ hoa hoặc chữ thường). Các hệ huấn luyện tự động có thể nhanh chóng thích ứng với thay đổi này. Người ta chỉ việc ánh xạ tập mẫu huấn luyện tất cả thành chữ hoa và chạy lại giải thuật huấn luyện là xong. Một hệ thống dựa trên luật phụ thuộc rất nhiều vào kinh nghiệm thực tế và đôi khi, việc thay đổi như trên có thể dẫn đến việc phải viết lại hoàn toàn giải thuật huấn luyện. Giả sử ta có một đặc tả ban đầu nhằm trích chọn các địa danh được quy định theo pháp lý chính trị, đó là tên vùng miền nào đó. Sau đó, ta lại muốn nhận biết tên các đỉnh núi, các dòng sông, và các hồ. Nhà viết luật có thể thích ứng với thay đổi này bằng việc sinh ra các luật phụ trợ và thêm chúng vào trong cơ sở dữ liệu luật. Các hệ thống huấn luyện tự động phải đối mặt với một nhiệm vụ khó khăn hơn nhiều, đó là phải chú giải lại tất cả các dữ liệu huấn luyện hiện tại sang đặc tả mới (có thể hàng triệu từ!) và rồi huấn luyện lại. Tuy nhiên, không phải mọi mô-đun của một hệ IE đều phải tuân theo cùng lược đồ thiết kế. Có thể tạo một hệ thống với một bộ nhận biết tên dựa trên luật học các luật miền, hoặc là với một bộ nhận biết tên thao tác trên các luật miền sinh thủ 16 công trong trường hợp dữ liệu thưa. Ta có thể đưa ra các trường hợp để lựa chọn giữa hai phương pháp xây dựng hệ IE trong hình 1. Nhìn chung, người ta thường dùng hệ thống trích chọn dùng phương pháp máy tri thức khi mà các nguồn tài nguyên ngôn ngữ như các bảng từ vựng là sẵn có, có cả những nhà viết luật thành thạo, dữ liệu huấn luyện thưa hay chi phí cao, khi cần thiết phải tăng hiệu suất lên một chút, và khi mà các đặc tả trích chọn ít thay đổi theo thời gian. Các hệ huấn luyện tự động lại rất thích hợp trong trường hợp ngược lại, khi mà các nguồn tài nguyên không sẵn có gì ngoài các văn bản thô. Các dữ liệu huấn luyện có thể lấy dễ dàng và chi phí thấp, các tác vụ đặc tả là ổn định, và không nhất thiết phải đạt yêu cầu hiệu suất tối đa. 17 Bảng 1: Một số tiêu chí cần xem xét để lựa chọn phương pháp xây dựng hệ trích chọn thông tin. Dùng phương pháp máy tri thức khi: Dùng phương pháp học tự động khi: Các nguồn (ví dụ như bảng từ vựng) là Các nguồn không sẵn có sẵn có Có người đưa ra được các luật huấn Không có người có kĩ năng viết ra luật luyện huấn luyện Dữ liệu huấn luyện khó thu thập hoặc rất Dữ liệu sẵn có và dễ dàng thu thập tốn công sức để thu thập Yêu cầu trích chọn có thể thay đổi theo Cần một hệ thống ổn định trong đối với thời gian yêu cầu trích chọn thay đổi Hiệu năng cao nhất có thể Hiệu năng của phương pháp là phù hợp với công việc cần thực hiện I.2.2 Kiến trúc của hệ trích chọn thông tin Mặc dù mục đích của các hệ trích chọn thông tin và phương pháp xây dựng các hệ thống này là khác nhau, nhưng tựu chung cũng gồm các thành phần cơ bản được mô tả trong hình I.2. Bốn bước chính để thực hiện trích chọn thông tin được minh họa trong hình 1. Tuy nhiên trong thực tế, đối với một số hệ thống như hệ thống chỉ thực hiện việc gán nhãn tên (name tagger) thì có thể dừng ở bước thứ 2. Tokenization Morphological and lexical processing 18 Hình 1: Các bước cơ bản trong một hệ trích chọn thông tin. Phụ thuộc vào yêu cầu thực tế của từng hệ thống mà các bước như trên được cụ thể hóa thành các mô-đun như sau: Tokenization Word segmentation Part-of-speed tagging Morphological and lexical processing Word sense tagging Syntactic Analysis Full Parsing Conference Domain Analysis Marging Partical Result Hình 2: Cụ thể hóa các bước cơ bản của một hệ trích chọn thông tin. I.2.2.1 Bước cá thể hóa các thành phần của hệ thống (Tokenization) Đây là bước rất đơn giản đối với ngôn ngữ ở các nước châu Âu, bởi nó chỉ cần thực hiện việc phân tách các từ dựa trên các dấu cách. Tuy nhiên điều này thật không dễ dàng đối với một số ngôn ngữ như Trung Quốc hay Việt Nam,.. bởi không

- Xem thêm -

Tài liệu Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp học thống kê

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất