Đăng ký Đăng nhập
Trang chủ Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp h...

Tài liệu Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp học thống kê

.PDF
92
108
52

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ QUYÊN XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC THỐNG KÊ LUẶN VĂN THẠC SĨ HÀ NỘI - 2007 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ QUYÊN XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC THỐNG KÊ Ngành: Công nghệ thông tin Mã số: 10110 LUẶN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS. Nguyễn Lê Minh HÀ NỘI - 2007 1 MỤC LỤC Mục lục……………………………………………………………………………...1 Danh mục các từ viết tắt…………………………………………………………….5 Danh mục bảng biểu………………………………………………………………...6 Danh mục hình vẽ…………………………………………………………………...7 Chương I TỔNG QUAN .............................................................................................8 I.1 Lược sử về trích chọn thông tin .........................................................................8 I.1.1 Tính cần thiết của trích chọn thông tin .......................................................8 I.1.2 IE với ngôn ngữ tự nhiên ............................................................................9 I.1.3 Một số hệ IE trong thời kỳ đầu .................................................................10 I.2 Xây dựng các hệ trích chọn thông tin ..............................................................12 I.2.1 Phương pháp xây dựng hệ trích chọn thông tin ........................................12 I.2.2 Kiến trúc của hệ trích chọn thông tin........................................................17 I.3 Phương pháp đánh giá hệ thống ......................................................................22 I.4 Bài toán trích chọn tên riêng ............................................................................24 I.5 Kết luận ............................................................................................................25 Chương II CÁC KIẾN THỨC NỀN TẢNG VỀ HỌC THỐNG KÊ........................26 II.1 Mô hình Markov ẩn (HMMs) .........................................................................26 II.1.1 Tổng quan về HMMs ..............................................................................26 II.1.2 Thuật toán gán nhãn triagram HMMs .....................................................31 II.1.3 Một số hạn chế của HMMs .....................................................................33 II.2 Conditional Random Field trong bài toán trích chọn thông tin......................34 II.2.1 Từ HMMs đến CRFs ...............................................................................35 II.2.2 Định nghĩa CRF .......................................................................................36 II.2.3 Thuật toán gán nhãn cho dữ liệu dạng chuỗi...........................................40 Thuâ ̣t toán GIS ..................................................................................................45 Thuâ ̣t toán IIS ....................................................................................................46 II.2.4 Các phương pháp tối ưu số ......................................................................47 Kĩ thuật tối ưu số bậc một .................................................................................47 Kĩ thuâ ̣t tố i ưu số bâ ̣c hai ..................................................................................48 II.2.5 CRF có thể giải quyết được các vấn đề lable bias ...................................50 II.3 Perceptron trong bài toán trích chọn thông tin ...............................................52 2 II.3.1 Thuật toán percepton ...............................................................................52 II.3.2 Vectơ đặc trưng cục bộ và toàn cục ........................................................55 II.3.3 Thuật toán perceptron cho bài toán gán nhãn dữ liệu dạng chuỗi...........56 II.3.4 Biến thể của thuật toán perceptron trong bài toán gán nhãn dữ liệu dạng chuỗi ..................................................................................................................58 II.3.5 Chứng minh tính hội tụ của thuật toán perceptron ..................................63 II.4 Kết luận ..........................................................................................................70 Chương III XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT ...................................................................................................71 III.1 Môi trường thực nghiê ̣m ...............................................................................71 Phầ n cứng ..........................................................................................................71 Phầ n mề m ..........................................................................................................71 Dữ liê ̣u thực nghiê ̣m ..........................................................................................71 III.2 Hê ̣ thố ng trích chọn tên riêng cho tiế ng Viê ̣t ...............................................72 III.3 Các tham số huấn luyện và đánh giá thực nghiệm ........................................72 III.3.1 Huấn luyện .............................................................................................72 III.3.2 Kiểm tra ..................................................................................................75 III.4 Lựa cho ̣n các thuô ̣c tính ................................................................................75 III.4.1 File huấn luyện .......................................................................................76 III.4.2 File mẫu:.................................................................................................78 III.5 Kế t quả thực nghiê ̣m .....................................................................................80 Kế t quả của 10 lầ n thử nghiê ̣m .........................................................................80 Lầ n thực nghiê ̣m cho kế t quả tố t nhấ t ...............................................................80 Trung biǹ h 10 lầ n thực nghiê ̣m .........................................................................81 Nhâ ̣n xét ............................................................................................................82 KẾT LUẬN ...............................................................................................................85 Tài liệu tham khảo …………………………………………………………….…. 89 3 MỞ ĐẦU Trích chọn tên riêng là một bước cơ bản trong trích chọn thông tin từ văn bản và xử lý ngôn ngữ tự nhiên . Nó được ứng dụng nhiều trong các lĩnh vực như dịch tự động, tóm tắt văn bản , hiể u ngôn ngữ tự nhiên, nhâ ̣n biế t tên thực thể trong sinh/y ho ̣c và đă ̣c biê ̣t ứng du ̣ng trong viê ̣c tić h hơ ̣p tự đô ̣ng các đố i tươ ̣ng , thực thể từ môi trường Web vào các ontology ngữ nghiã và các cơ sở tri thức . Trong luâ ̣n văn này, tôi trin ̀ h bày một số giải pháp cho bài toán trích chọn tên riêng cho các văn bản tiế ng Viê ̣t trên môi trường Web . Sau khi xem xét các hướng tiế p câ ̣n khác nhau , tôi cho ̣n phương pháp tiế p câ ̣n ho ̣c thống kê để tiến hành xây dựng hệ trích chọn tên riêng cho Văn bản tiếng Việt. Ưu điểm của phương pháp học thống kê là: dễ thu thập dữ liệu, dễ mô tả đối tượng trích chọn, và có hiệu năng phù hợp với yêu cầu đặt ra cho luận văn. Hệ trích chọn tên riêng cho văn bản tiếng Việt này được xây dựng dựa trên mô hình Condi tional Random Fields (CRFLaferty, 2001) và thuật toán perceptron cho bài toán gán nhãn dữ liệu dạng chuỗi (M.Collins, 2002). Điể m ma ̣nh của CRF và perceptron là nó có khả năng xử lý dữ liê ̣u có tính chấ t chuỗi , có thể tích hợp hàng trăm nghìn thậm chí hàng triệu đặc điể m từ dữ liê ̣u hế t sức đa da ̣ng nhằ m hỗ trơ ̣ cho quá trin ̀ h huấn luyện. Thực nghiê ̣m trên các văn bản tiế ng Viê ̣t cho thấ y kế t quả đa ̣t đươ ̣c rấ t khả quan. Luận văn được tổ chức thành ba chương như sau:  Chương 1 Tổng quan Chương này mô tả khái quát về bài toán và cách thức xây dựng hệ trích chọn thông tin. Trong đó đề cập đến lược sử, tính thực tiễn của hệ trích chọn thông tin, kiến trúc cơ bản của hệ, các phương pháp xây dựng của hệ và cách lựa chọn phương pháp phù hợp trong từng trường hợp cụ thể. Đồng thời trong phần này của luận văn cũng đề cập đến sơ lược về bài toán trích chọn tên riêng và hướng bài toán đến việc xây dựng hệ thống trích chọn tên riêng dựa trên phương pháp học thống kê  Chương 2 Các kiến thức nền tảng về học thống kê 4 Chương này đề cập đến một số phương pháp học thống kê như: HMMs, CRFs, và perceptron. Tác giả trình bày từ khái niệm, cách thức đến các ưu nhược điểm của từng phương pháp, từ đó hướng sự tập trung việc xây dựng hệ trích chọn tên riêng cho văn bản tiếng Việt vào CRFs và thuật toán perceptron trong chương 3.  Chương 3 Xây dựng một hệ trích chọn tên riêng sử dụng học thống kê Chương này mô tả cách thức xây dựng một hệ trích chọn tên riêng trong văn bản tiếng Việt sử dụng công cụ CRF++ của Taku Kudo và đưa ra một số kết quả thực nghiệm của mô hình xây dựng được. 5 DANH MỤC TỪ VIẾT TẮT Từ hoă ̣c cu ̣m từ Viế t tắ t Conditional Random Field CRF Mô hiǹ h Markov ẩ n HMMs Information Extraction IE Information Retrieval IR Nature Language Processing NLP Message Understanding Conferencens MUC Part-Of-Speech POS Named Entities Recognition NER Maximum Entropy Markov Model MEMM Supported Vector Machine SVM 6 DANH MỤC BẢNG BIỂU Bảng 1: Một số tiêu chí cần xem xét để lựa chọn phương pháp xây dựng ..........17 Bảng 2: Các tham số trong quá trình huấn luyện đối với thuật toán CRF ...........74 Bảng 3: Các tham số trong quá trình huấn luyện đối với thuật toán MIRA ........74 Bảng 4: Các thuộc tính chính tả của từ ................................................................77 Bảng 5: Đánh giá mức cụm từ - Lầ n thực nghiê ̣m cho kế t quả tố t nhấ t với thuật toán perceptron ..........................................................................................................80 Bảng 6: Đánh giá mức nhãn - Lầ n thực nghiê ̣m cho kế t quả tố t nhấ t với thuật toán perceptron ..........................................................................................................81 Bảng 7: Đánh giá trung bình 10 lầ n thực nghiê ̣m với thuật toán perceptron .......81 Bảng 8: Đánh giá mức cụm từ - Lầ n thực nghiê ̣m cho kế t quả tố t nhấ t với thuật toán crf……….. ........................................................................................................82 Bảng 9: Đánh giá mức nhãn - Lầ n thực nghiê ̣m cho kế t quả tố t nhấ t với thuật toán crf……… ..........................................................................................................83 Bảng 10: Đánh giá trung bình 10 lầ n thực nghiê ̣m với thuật toán crf ...................83 7 DANH MỤC HÌNH VẼ Hình 1: Các bước cơ bản trong một hệ trích chọn thông tin. ..............................18 Hình 2: Cụ thể hóa các bước cơ bản của một hệ trích chọn thông tin. ................18 Hình 3: Mô hình Markov ẩn ................................................................................28 Hình 4: Dạng đồ thị của thuật toán Viterbi..........................................................30 Hình 5: Đồ thị vô hướng mô tả CRF ...................................................................37 Hình 6: Vấ n đề “label bias” .................................................................................50 Hình 7: Mạng perceptron .....................................................................................53 Hình 8: Thuật toán perceptron .............................................................................57 Hình 9: Thuật toán voted-perceptron ...................................................................59 Hình 10: Một cách thể hiện khác của thuật toán perceptron .................................64 Hình 11: Cấ u trúc hê ̣ thố ng trích chọn tên riêng ...................................................72 Hình 12: Mô tả một chuỗi quan sát trong file huấn luyện. ....................................78 Hình 13: File mẫu của hệ thống .............................................................................80 Hình 14: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lầ n thực nghiê ̣m với thuật toán perceptron...........................................................................................80 Hình 15: Giá trị ba độ đo Precision, Recall, F-measure qua 10 lầ n thực nghiê ̣m với thuật toán crf .......................................................................................................82 Hình 16: So sánh độ chính xác của hai thuật toán perceptron và crf ....................84 8 Chương I TỔNG QUAN Phần này sẽ trình bày tổng quan về bài toán trích chọn thông tin, bao gồm sự cần thiết của trích chọn thông tin, kiến trúc xây dựng và các bước cơ bản của một hệ trích chọn thông tin, cuối cùng là một vài bài toán ứng dụng phổ biến trong trích chọn thông tin. I.1 Lược sử về trích chọn thông tin I.1.1 Tính cần thiết của trích chọn thông tin Hiện nay dữ liệu văn bản ở dạng điện tử có nhiều hơn bao giờ hết, nhưng rất nhiều trong số đó chưa được sử dụng. Không ai có thể đọc, hiểu và tổng hợp hàng terabyte văn bản hàng ngày. Các nhà nghiên cứu mong muốn đưa ra các cách khám phá, quản lý thông tin này. Các phương pháp phổ biến nhất là phương pháp thu thông tin (IR) và phương pháp lọc thông tin [4]. Một phương pháp mới phát triển có liên quan đó là phương pháp trích chọn thông tin (IE), đây chính là phương pháp được đề cập đến trong luận văn. Có thể xem hệ IE như hệ kết hợp mang lại thông tin hữu ích từ những trường lớn của thông tin thô. Với một lượng lớn thông tin hữu ích tiềm tàng, hệ IE có thể chuyển thông tin thô, tiến hành lọc và làm giảm nhỏ văn bản gốc. Ví dụ như các nhà phân tích tài chính đầu tư sản xuất các thiết bị bán dẫn thì họ cần phải biết một số điều sau:  Loại hoá chất nào lựa chọn để làm các lớp cách điện  Độ dày của các lớp này  Nhiệt độ mà tại đó các lớp này được hình thành.  Ai sử dụng quy trình này Những thông tin này thông thường có sẵn trên các báo hoặc các tạp chí và hệ IE có thể thu thập những bài báo có các đoạn liên quan. IE bắt đầu với những đoạn văn bản, sau đó chuyển chúng về dạng thông tin sẵn sàng cho việc phân loại 9 và phân tích. Nó tách các phân đoạn văn bản liên quan, sau đó gắn những thông tin này thành một dạng chặt chẽ. Ví dụ, một bài báo bàn về khí hoá học, nhiệt độ, các công đoạn và các đặc tả vật liệu nhưng chỉ một hoặc hai thành phần có thể làm người phân tích quan tâm. Mục tiêu của việc nghiên cứu là xây dựng hệ thống tìm kiếm và liên kết các thông tin liên quan trong khi đó bỏ qua các dữ liệu ngoài hay không liên quan. IE có nhiều ứng dụng tiềm năng. Ví dụ như những thông tin không cấu trúc có thể được chuyển đổi đưa vào các hệ cơ sở dữ liệu truyền thống và người sử dụng có thể lấy bằng các truy vấn chuẩn. Giả sử ta muốn ghi lại lợi nhuận của các công ty lâm nghiệp ở Mỹ để so sánh chúng với các công ty của châu Âu. Các thông tin liên quan bao gồm: tên công ty, công ty thuộc nước nào, có thuộc lĩnh vực lâm nghiệp hay không, tổng lợi nhuận và lợi nhuận hiện thời của công ty. Một hệ IE lưu lại tất cả các thông tin liên quan đến lĩnh vực này, cập nhật cơ sở dữ liệu từ tất cả các nguồn có sẵn. Vì thế nó có thể phát hiện được các xu hướng ngay khi có thông báo mới. Về mặt lý thuyết, các hệ IE có thể xử lý các sự kiện mới, bao gồm các cuộc họp của những nhân vật quan trọng, thông tin về các công ty mới, các thông báo về sản phẩm mới. Tuy nhiên, các hệ thống IE hiện nay chỉ có thế xử lý trên một số dạng văn bản nhất định với độ chính xác nào đó. I.1.2 IE với ngôn ngữ tự nhiên Trên quan điểm của xử lý ngôn ngữ tự nhiên (NLP), IE hấp dẫn bởi nhiều lý do, trong đó có:  Công việc trích chọn được định nghĩa tốt  IE sử dụng văn bản ngôn ngữ thực  IE giải quyết các vấn đề khó và thú vị của NLP  Hiệu năng của IE có thể so sánh với hiệu năng của con người trên cùng một công việc Trên thực tế, các hệ IE được đánh giá và so sánh với các lợi ích tiêu chuẩn của con người là cơ hội tốt cho các nhà nghiên cứu NLP. Chính phủ hỗ trợ tài chính 10 cho việc tổ chức semina MUCs hàng năm và cho ARPA‟s Tipster Text Program. Ở đó các nhóm nghiên cứu và các tổ chức của chính phủ tìm cách nâng cao các công nghệ IR và IE với hy vọng là sẽ có những ứng dụng thực tiễn trong thời gian ngắn. Cùng với những quan tâm tích cực về IE, một câu hỏi lớn đối với tất cả các thành viên của cộng đồng NLP đó là liệu IE đủ hấp dẫn đối với các nguồn lực và các tài năng để hướng tới việc phát triển phần mềm ứng dụng thực tiễn từ con số không đến những nghiên cứu NLP dài hạn. Nhằm chỉ ra vấn đề này, đã có một cuộc khảo sát với những người tham dự MUC-4 năm 1992. Những trích dẫn được lựa chọn từ cuộc khảo sát đó đã được công khai lần đầu tiên. Với cùng suy nghĩ, việc duy trì những hệ IE là yếu tố quan trọng trong việc khuyến khích những nhà nghiên cứu NLP để đi từ những hệ thống quy mô nhỏ và dữ liệu nhân tạo cho đến hệ thống lớn xử lý trên ngôn ngữ tự nhiên của con người. Một vấn đề vẫn tồn tại trong các trường phái nghiên cứu khác nhau đó là sự khác biệt giữa trích chọn văn bản và trích chọn tri thức. Trích chọn tri thức cũng phải đối mặt với rất nhiều vấn đề như các hệ IE. Nhưng các hệ trích chọn tri thức cố gắng làm giảm cơ sở luật hoặc mô hình miền trên cơ sở của kỹ thuật văn bản. Những việc này còn bao gồm cả một thành phần học máy được đưa vào thành phần NLP. Cơ sở tri thức cần trích chọn thường được thiết kế theo hướng hệ chuyên gia hoặc hệ suy diễn tình huống. Hiểu một cách thông thường thì hướng này có tham vọng hơn so hệ IE đã nêu trong phần này. I.1.3 Một số hệ IE trong thời kỳ đầu Các hệ IE đã sớm được phát triển từ khoảng những năm 1970. Sau đây là một vài ứng dụng trong thời kỳ đầu của các hệ IE:  Một trong những hệ IE đầu tiên được Gerald deJong xây dựng. Hệ này xử lý trên những văn bản không giới hạn chủ đề. Với dữ liệu nguồn là các bức điện tín, chương trình của deJong gọi là FRUMP, xử lý các điện tín này bằng cách sử dụng các kịch bản đơn giản được thiết kế nhằm xử lý nội dung của bản tin. Với mỗi bản tin, FRUMP tìm một kịch bản liên quan dựa trên các từ 11 khoá và phân tích khái niệm câu. FRUMP là một hệ hướng ngữ nghĩa sử dụng các kỳ vọng miền cụ thể cho các mô tả sự kiện dựa trên tri thức kịch bản.  Một dự án có từ trước năm 1970 trích chọn những thông tin có ích từ văn bản. Dự án có tên là Linguistic String Project, giám đốc dự án là Naomi Sager tại đại học New York được American Medical Association tài trợ. Công việc là tìm cách chuyển các thông tin bệnh nhân (ở dạng tiếng Anh) về một định dạng phù hợp và sử dụng như đầu vào của hệ quản trị cơ sở dữ liệu truyền thống có tên Conference on Data Systems Languages (CODASYL).  Năm 1980, DaSilva và Dwiggins trích chọn các thông tin bay của vệ tinh từ các báo cáo sinh ra bởi hệ thống giám sát toàn cầu. Nhưng hệ này có hạn chế với các câu riêng lẻ và thiếu một phương thức về việc trích các miêu tả sự kiện hoàn chỉnh.  Zarri bắt đầu làm việc với các hệ IE từ đầu những năm 1980. Văn bản được sử dụng mô tả các hoạt động minh hoạ khác nhau về lịch sử Pháp. Hệ này tìm kiếm và trích chọn các thông tin về các mối quan hệ và các cuộc gặp gỡ giữa các nhân vật lịch sử. Những điểm khác nhau chính của những hệ thống phát triển trong những năm 1980 và 1990 là độ lớn về mặt thời gian và công sức để thu thập các tài liệu liên quan. Từ đó tạo ra những tập các mẫu biểu (hay các khoá) để lập nên các tập thử nghiệm bao gồm các văn bản và các đáp số đúng đi kèm. Ví dụ, việc phát triển một văn bản và khóa đi kèm của nó bằng phân tích con người cho miền vi điện tử Tipster rất tốn kém và phức tạp. Những tài nguyên bao gồm văn bản và các khóa đi kèm đã tạo ra hệ IE đặc biệt đáng để chú ý so với các hệ hướng tác vụ xử lý ngôn ngữ tự nhiên. Các mẫu biểu này có thể được sử dụng để đánh giá hiệu năng của các hệ thống IE, song song cùng với việc quan trọng là phát triển những hệ thống này. 12 I.2 Xây dựng các hệ trích chọn thông tin I.2.1 Phương pháp xây dựng hệ trích chọn thông tin Có hai phương pháp cơ bản để thiết kế các hệ IE là: Phương pháp máy tri thức (Knowledge Enginering)và Phương pháp học tự động. Phương pháp máy tri thức được đặc trưng bởi sự phát triển của văn phạm được sử dụng bởi một thành tố của hệ IE nhờ một "kĩ sư tri thức", tức là một người biết rõ về hệ IE. Với hình thức thể hiện các luật cho hệ thống đó, và sau đó, hoặc tự mình, hoặc có tham khảo tới một chuyên gia trong lĩnh vực ứng dụng để viết các luật cho thành phần hệ IE đánh dấu hay trích chọn thông tin khan hiếm. Thường thì kĩ sư tri thức sẽ truy cập tới tập mẫu có kích thước trung bình về các văn bản miền liên quan (một tập mẫu có kích thước trung bình bao gồm tất cả những gì mà một người thông thường có thể kiểm chứng được), và trực giác của anh ta/cô ta. Kĩ năng của kĩ sư tri thức đóng vai trò quan trọng, nó ảnh hưởng trực tiếp đến hiệu năng của toàn bộ hệ thống. Ngoài việc đòi hỏi kĩ năng và tri thức chi tiết về một hệ IE cụ thể, phương pháp máy tri thức thường cũng đòi hỏi phải mất nhiều công sức. Để xây dựng một hệ thống hiệu suất cao thường phải thực hiện quá trình lặp trong đó tập luật được biết trước. Hệ thống thực hiện việc chạy trên một tập mẫu học các văn bản, và kết quả đầu ra được kiểm tra để thấy được các luật được phát sinh dưới mức hoặc quá mức ở đâu. Kĩ sư tri thức khi đó sẽ thực hiện các thay đổi/chỉnh sửa luật thích hợp, và lặp lại quá trình này. Phương pháp huấn luyện tự động thì khác. Không cần thiết phải có ai đó biết rõ tri thức chi tiết về cách hoạt động của hệ IE, hay về cách viết các luật cho nó. Chỉ cần có người biết đủ về miền và tác vụ lấy một tập mẫu, và chú giải các văn bản thích hợp cho thông tin được trích chọn. Thông thường, các chú giải sẽ tập trung vào một khía cạnh cụ thể của việc xử lý của hệ thống. Thí dụ, một bộ nhận biết tên riêng có thể được huấn luyện bằng cách chú giải một tập mẫu các văn bản với các 13 tên miền liên quan phù hợp. Thành phần đồng tham chiếu có thể được huấn luyện với một tập mẫu chỉ thị tới các lớp tương đương đồng tham chiếu cho từng văn bản. Một khi tập mẫu phù hợp đã được chú giải, thuật toán huấn luyện sẽ được chạy và cho ra kết quả thông tin mà một hệ thống có thể khai thác trong việc phân tích các văn bản mới. Một cách khác để đạt được dữ liệu huấn luyện là tương tác với người dùng trong quá trình xử lý văn bản. Người sử dụng được phép chỉ ra khi nào các giả thuyết của hệ thống về văn bản là đúng, và nếu không, hệ thống sẽ chỉnh sửa các luật của nó để thích ứng với các thông tin mới. Đối với các nhà khoa học thì các hệ huấn luyện tự động dường như hấp dẫn hơn nhiều. Bởi rõ ràng, để thực hiện theo phương pháp máy tri thức, đòi hỏi phải có sự hiểu biết tường tận đến tri thức miền, điều này chính là điểm hạn chế, làm cho phương pháp máy tri thức trở nên ít hấp dẫn với các nhà khoa học trong lĩnh vực tin học. Dựa trên các tính đúng đắn của lý thuyết về phương pháp thống kê, người ta có thể đo chính xác các hiệu quả của chúng bằng một hàm của chất lượng dữ liệu đầu vào, chúng giữ được sự độc lập miền tương đối, và không dựa vào bất cứ thứ gì không thể đo đếm được như là "kĩ năng của một kĩ sư tri thức". Tuy nhiên, không nên đánh lừa trực giác và sự tinh thông của con người. Những người ủng hộ phương pháp máy tri thức đang chỉ ra rằng, có thể đạt được hiệu năng cao hơn nhờ vào các hệ thủ công, đặc biệt là khi dữ liệu huấn luyện là dữ liệu thưa. Điều này có thể dẫn tới các tranh cãi vô ích giữa những trường phái của hai cách tiếp cận xem cách nào là "trội hơn". Thực ra, mỗi cách tiếp cận đều có những ưu nhược điểm riêng, và cần được ứng dụng vào tình huống thích hợp để tận dụng những ưu điểm của từng cách. Như ta đã chỉ ra, phương pháp máy tri thức có ưu điểm của nó là cho tới bây giờ, các hệ chạy tốt nhất cho các tác vụ trích chọn thông tin đều được làm thủ công. Mặc dù các hệ huấn luyện tự động đã tiến gần tới cấp độ của các hệ thủ công như trong các đánh giá MUC, thì các ưu điểm liên quan đến sự khéo léo của con người 14 trong việc tiên liệu trước các mẫu không nhìn thấy trong tập mẫu, và trong việc cấu trúc các luật ở mức tổng quát đúng mực vẫn tạo cho các hệ thống đó ưu điểm nhỏ nhưng rất đáng kể. Kinh nghiệm cũng cho thấy, với một hệ thống được thiết kế đúng đắn cho trước, một sinh viên đại học chưa ra trường cũng có thể viết các luật trích chọn sau khoảng một tuần huấn luyện. Do vậy, "sự tinh thông về hệ IE" không phải là vật cản lớn như ai đó nghĩ. Những điểm mạnh, yếu của các tiếp cận huấn luyện tự động là bù trừ với những điểm mạnh, yếu của phương pháp máy tri thức. Thay vì tập trung vào việc sản xuất ra các luật, cách tiếp cận huấn luyện tự động tập trung vào sản xuất dữ liệu huấn luyện. Các thống kê tập mẫu hay các luật sau đó được dẫn xuất tự động từ các dữ liệu huấn luyện, và được dùng để xử lý các dữ liệu mới. Miễn là ai đó thành thạo miền sẵn dùng cho chú giải các văn bản, các hệ thống có thể được tuỳ biến về miền cụ thể mà không cần sự can thiệp từ phía bất kỳ nhà phát triển nào. Nhận biết tên là một tác vụ lý tưởng cho cách tiếp cận huấn luyện tự động bởi vì rất dễ để có thể tìm ra các chú giải nhằm sản xuất lượng lớn các dữ liệu huấn luyện - hầu hết mọi người đều trực giác biết rằng một "tên công ty" là gì. Nhược điểm của cách tiếp cận huấn luyện tự động cũng xoay quanh yếu tố phải dựa trên dữ liệu huấn luyện. Dữ liệu huấn luyện có thể được cung cấp không đủ, có thể rất khó hay tốn kém mới có được. Đôi khi người ta mong có thể phát triển một hệ trích chọn cho các chủ đề mà có rất ít các thí dụ liên quan trong tập mẫu. Những tình huống như thế đề cao trực giác của con người trong thiết kế các luật. Nếu các quan hệ cần tìm là phức tạp hay mang tính kĩ thuật thì các chú giải rất khó tìm, và cũng rất khó để sản xuất đủ các dữ liệu được chú giải cho một tập mẫu huấn luyện tốt. Thậm chí ngay cả đối với các miền đơn giản như miền các tên riêng, luôn có vùng rộng lớn các trường hợp biên mà các hướng dẫn chú giải cần phải được phát triển. Thí dụ, khi diễn giải các tên công ty, thì liệu có thể xem các tổ chức phi lợi nhuận như các trường đại học, hay Hội Chữ thập đỏ là "các công ty"? Không có câu 15 trả lời đúng cho những câu hỏi như vậy; câu trả lời cần phải được quy định và cần được hiểu rõ ràng bởi mọi bộ chú giải. Điều này ngụ ý rằng, cần chú trọng đảm bảo chất lượng của dữ liệu hơn là số lượng dữ liệu. Hầu như không thể có được các hệ thống chất lượng cao thực sự với các dữ liệu huấn luyện không nhất quán. Điều này ám chỉ rằng việc thu thập dữ liệu huấn luyện còn tốn kém hơn là người ta tưởng. Thực tế, với rất nhiều miền, thì việc thu thập dữ liệu huấn luyện cũng tốn kém, thậm chí tốn kém hơn về mặt thời gian và nhân sự, như là việc viết các luật. Một vấn đề cần quan tâm khác là ảnh hưởng của việc chuyển đặc tả trên viết luật hay trên tác vụ huấn luyện. Rõ ràng việc đặc tả các luật trích chọn không là tập rời rạc như thoạt nghĩ. Thông thường, người dùng cuối sẽ phát hiện ra sau một vài trải nghiệm rằng, họ muốn một giải pháp cho một vấn đề có liên quan và hơi khác một chút. Ảnh hưởng khác nhau của nó tới các hệ thống máy tri thức và huấn luyện tự động phụ thuộc vào việc các đặc tả này được thay đổi chính xác như thế nào. Giả sử một bộ nhận biết tên được phát triển cho các chữ hoa và chữ thường. Sau đó người dùng quyết định rằng rất cần thiết phải xử lý các văn bản có cùng dạng chữ (chữ hoa hoặc chữ thường). Các hệ huấn luyện tự động có thể nhanh chóng thích ứng với thay đổi này. Người ta chỉ việc ánh xạ tập mẫu huấn luyện tất cả thành chữ hoa và chạy lại giải thuật huấn luyện là xong. Một hệ thống dựa trên luật phụ thuộc rất nhiều vào kinh nghiệm thực tế và đôi khi, việc thay đổi như trên có thể dẫn đến việc phải viết lại hoàn toàn giải thuật huấn luyện. Giả sử ta có một đặc tả ban đầu nhằm trích chọn các địa danh được quy định theo pháp lý chính trị, đó là tên vùng miền nào đó. Sau đó, ta lại muốn nhận biết tên các đỉnh núi, các dòng sông, và các hồ. Nhà viết luật có thể thích ứng với thay đổi này bằng việc sinh ra các luật phụ trợ và thêm chúng vào trong cơ sở dữ liệu luật. Các hệ thống huấn luyện tự động phải đối mặt với một nhiệm vụ khó khăn hơn nhiều, đó là phải chú giải lại tất cả các dữ liệu huấn luyện hiện tại sang đặc tả mới (có thể hàng triệu từ!) và rồi huấn luyện lại. Tuy nhiên, không phải mọi mô-đun của một hệ IE đều phải tuân theo cùng lược đồ thiết kế. Có thể tạo một hệ thống với một bộ nhận biết tên dựa trên luật học các luật miền, hoặc là với một bộ nhận biết tên thao tác trên các luật miền sinh thủ 16 công trong trường hợp dữ liệu thưa. Ta có thể đưa ra các trường hợp để lựa chọn giữa hai phương pháp xây dựng hệ IE trong hình 1. Nhìn chung, người ta thường dùng hệ thống trích chọn dùng phương pháp máy tri thức khi mà các nguồn tài nguyên ngôn ngữ như các bảng từ vựng là sẵn có, có cả những nhà viết luật thành thạo, dữ liệu huấn luyện thưa hay chi phí cao, khi cần thiết phải tăng hiệu suất lên một chút, và khi mà các đặc tả trích chọn ít thay đổi theo thời gian. Các hệ huấn luyện tự động lại rất thích hợp trong trường hợp ngược lại, khi mà các nguồn tài nguyên không sẵn có gì ngoài các văn bản thô. Các dữ liệu huấn luyện có thể lấy dễ dàng và chi phí thấp, các tác vụ đặc tả là ổn định, và không nhất thiết phải đạt yêu cầu hiệu suất tối đa. 17 Bảng 1: Một số tiêu chí cần xem xét để lựa chọn phương pháp xây dựng hệ trích chọn thông tin. Dùng phương pháp máy tri thức khi: Dùng phương pháp học tự động khi: Các nguồn (ví dụ như bảng từ vựng) là Các nguồn không sẵn có sẵn có Có người đưa ra được các luật huấn Không có người có kĩ năng viết ra luật luyện huấn luyện Dữ liệu huấn luyện khó thu thập hoặc rất Dữ liệu sẵn có và dễ dàng thu thập tốn công sức để thu thập Yêu cầu trích chọn có thể thay đổi theo Cần một hệ thống ổn định trong đối với thời gian yêu cầu trích chọn thay đổi Hiệu năng cao nhất có thể Hiệu năng của phương pháp là phù hợp với công việc cần thực hiện I.2.2 Kiến trúc của hệ trích chọn thông tin Mặc dù mục đích của các hệ trích chọn thông tin và phương pháp xây dựng các hệ thống này là khác nhau, nhưng tựu chung cũng gồm các thành phần cơ bản được mô tả trong hình I.2. Bốn bước chính để thực hiện trích chọn thông tin được minh họa trong hình 1. Tuy nhiên trong thực tế, đối với một số hệ thống như hệ thống chỉ thực hiện việc gán nhãn tên (name tagger) thì có thể dừng ở bước thứ 2. Tokenization Morphological and lexical processing 18 Hình 1: Các bước cơ bản trong một hệ trích chọn thông tin. Phụ thuộc vào yêu cầu thực tế của từng hệ thống mà các bước như trên được cụ thể hóa thành các mô-đun như sau: Tokenization Word segmentation Part-of-speed tagging Morphological and lexical processing Word sense tagging Syntactic Analysis Full Parsing Conference Domain Analysis Marging Partical Result Hình 2: Cụ thể hóa các bước cơ bản của một hệ trích chọn thông tin. I.2.2.1 Bước cá thể hóa các thành phần của hệ thống (Tokenization) Đây là bước rất đơn giản đối với ngôn ngữ ở các nước châu Âu, bởi nó chỉ cần thực hiện việc phân tách các từ dựa trên các dấu cách. Tuy nhiên điều này thật không dễ dàng đối với một số ngôn ngữ như Trung Quốc hay Việt Nam,.. bởi không
- Xem thêm -

Tài liệu liên quan