Giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa

  • Số trang: 43 |
  • Loại file: PDF |
  • Lượt xem: 15 |
  • Lượt tải: 0
nganguyen

Đã đăng 34173 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TIỂU LUẬN PHƯƠNG PHÁP LUẬN SÁNG TẠO KHOA HỌC (Giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa) Giảng viên phụ trách : GS. TSKH. Hoàng Kiếm Học viên thực hiện : Châu Kim Hùng – CH1101013 Lớp : CH.CNTT.K6 Khóa : 06 Tp HCM, Tháng 04 năm 2012 Lời cảm ơn Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến thầy Hoàng Văn Kiếm, người đã tận tình hướng dẫn, tạo mọi điều kiện thuận lợi để em hoàn thành tốt chuyên đề này. Thầy đã định hướng cho chúng em từ cách đặt vấn đề, phương pháp nghiên cứu khoa học cho đến những công việc cụ thể nhất. Em xin chân thành cảm ơn các thầy cô phòng đào tạo sau đại học, những người đã giúp đỡ, tạo điều kiện tốt cho em trong quá trình học tập thực hiện chuyên đề. Xin gửi lời cảm ơn đến gia đình, cảm ơn các anh chị, bạn bè, những người luôn sát cánh, động viên chúng em trên bước đường học tập cũng như trong cuộc sống. Xin chân thành biết ơn sự tận tình dạy dỗ và sự giúp đỡ của tất cả quý thầy cô tại trường Đại học Công Nghệ Thông Tin. Tất cả các kiến thức mà nhà trường và quý thầy cô đã truyền đạt là hành trang to lớn để chúng em mang theo trên con đường học tập, làm việc và nghiên cứu cũng như trong quá trình hoàn thiện nhân cách của mình. TP HCM, ngày 14 tháng 04 năm 2012 Học viên Châu Kim Hùng Lời nói đầu Để có được định hướng, mục tiêu và mong muốn trên con đường nghiên cứu khoa học, việc tìm hiểu và nắm rõ “Phương pháp luận nghiên cứu Khoa học” là một điều cần thiết cho những người nghiên cứu để có thể nắm rõ những nguyên tắc, và phương pháp làm khoa học. Phương pháp luận nghiên cứu Khoa học là lý thuyết về phương pháp nghiên cứu khoa học, lý thuyết về con đường nhận thức, khám phá và cải tạo hiện thực. Phương pháp luận nghiên cứu khoa học là kết quả của quá trình khái quát lý thuyết và thực tiễn nghiên cứu khoa học và trở thành công cụ sắc bén để chỉ dẫn các nhà khoa học, các nhà quản lý trong công tác tổ chức, quản lý và thực hành nghiên cứu khoa học một cách sang tạo. Nghiên cứu khoa học là một quá trình nhận thức chân lý khoa học, một quá trình lao động trí tuệ phức tạp, gian khổ nhưng đầy hào hứng, đầy hứa hẹn những triển vọng lớn lao trong việc nghiên cứu “những điểm trắng” của khoa học. Nắm vững phương pháp luận nghiên cứu khoa học là nắm vững lý thuyết về con đường sáng tạo, giúp người nghiên cứu có cách tiếp cận đúng trong việc thiết kế và thi công công trình nghiên cứu khoa học, tìm chọn phương pháp nghiên cứu hợp lý để thực hiện nhiệm vụ nghiên cứu và đạt được mục đích nghiên cứu. Qua những kiến thức và định hướng khoa học, để làm rõ tính chất quan trọng cũng như ứng dụng của phương pháp luận sáng nghiên cứu khoa học trong việc giải quyết vấn đề trong tin học, tiểu luận chuyên đề “Phương pháp luận sáng tạo khoa học” sẽ vận dụng kiến thức về phương pháp luận, phương pháp sáng tạo để giải quyết một vấn đề cụ thể trong tin học, vấn đề tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt. MỤC LỤC Phần 1 CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC ...............6 1.1. Khoa học......................................................................................................................6 1.2. Nghiên cứu khoa học...................................................................................................6 1.3. Đề tài nghiên cứu khoa học.........................................................................................7 1.3.1. Khái niệm đề tài ...................................................................................................7 1.3.2. Đối tượng nghiên cứu và phạm vi nghiên cứu ....................................................7 1.3.3. Mục đích và mục tiêu nghiên cứu........................................................................8 1.4. Các nguyên tắc sáng tạo cơ bản..................................................................................8 1.4.1. Tổng quan ............................................................................................................8 1.4.2. Ứng dụng thực tiển ............................................................................................ 10 Phần 2 PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ - BÀI TOÁN TRONG TIN HỌC .......... 13 2.1. Phương pháp trực tiếp .............................................................................................. 14 2.2. Phương pháp gián tiếp .............................................................................................. 15 2.2.1. Phương pháp thử sai .......................................................................................... 15 2.2.2. Phương pháp Heuristic ...................................................................................... 16 2.2.3. Phương pháp trí tuệ nhân tạo............................................................................ 16 Phần 3 GIẢI PHÁP TỔ CHỨC VÀ XỬ LÝ TÀI LIỆU VĂN BẢN TIẾNG VIỆT CÓ NGỮ NGHĨA .................................................................................................................................... 18 3.1. Giới thiệu ................................................................................................................... 18 3.2. Đồ thị khái niệm (conceptual graph) ........................................................................ 19 3.3. Ontology .................................................................................................................... 22 3.3.1. Xây dựng ontology ............................................................................................. 22 3.3.2. Các tiêu chuẩn thiết kế một ontology ................................................................ 22 3.4. Mô hình Named-Entity (thực thể có tên) ................................................................. 24 3.4.1. Định nghĩa Named-Entity .................................................................................. 24 3.4.2. Kết cấu của Named-Entity................................................................................. 24 3.4.3. Sự thay đổi mô hình không gian vector truyền thống ...................................... 25 3.5. Đề xuất các giải pháp kĩ thuật .................................................................................. 27 3.5.1. Ontology và cơ sở tri thức.................................................................................. 27 3.5.2. Xây dựng chức năng rút trích thông tin và chú giải ngữ nghĩa ....................... 29 3.5.3. Xây dựng chức năng hỗ trợ cho chức năng tìm kiếm ....................................... 29 3.5.4. Xây dựng chức năng truy hồi thông tin theo thực thể có tên ........................... 30 3.5.5. Xây dựng chức năng nhận diện thực thể có tên và quan hệ ............................. 32 3.5.6. Đồ thị khái niệm ................................................................................................. 34 3.5.7. Chức năng xây dựng vá phát triển tri thức....................................................... 38 3.5.8. Phương pháp ghom cụm tài liệu theo thực thể có tên....................................... 38 Phần 4 TỔNG KẾT................................................................................................................. 40 TÀI LIỆU THAM KHẢO....................................................................................................... 42 Phần 1 CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC 1.1. Khoa học Khoa học là quá trình nghiên cứu nhằm khám phá ra những kiến thức mới, học thuyết mới,…về tự nhiên và xã hội. Những kiến thức hay học thuyết mới này, tốt hơn, có thể thay thế dần những cái cũ, không còn phù hợp. Thí dụ: Quan niệm thực vật là vật thể không có cảm giác được thay thế bằng quan niệm thực vật có cảm nhận. Như vậy, khoa học bao gồm một hệ thống tri thức về qui luật của vật chất và sự vận động của vật chất, những qui luật của tự nhiên, xã hội, và tư duy. Hệ thống tri thức này hình thành trong lịch sử và không ngừng phát triển trên cơ sở thực tiễn xã hội. Phân biệt ra 2 hệ thống tri thức: tri thức kinh nghiệm và tri thức khoa học. 1.2. Nghiên cứu khoa học Nghiên cứu khoa học là một họat động tìm kiếm, xem xét, điều tra, hoặc thử nghiệm. Dựa trên những số liệu, tài liệu, kiến thức,… đạt được từ các thí nghiệm NCKH để phát hiện ra những cái mới về bản chất sự vật, về thế giới tự nhiên và xã hội, và để sáng tạo phương pháp và phương tiện kỹ thuật mới cao hơn, giá trị hơn. Con người muốn làm NCKH phải có kiến thức nhất định về lĩnh vực nghiên cứu và cái chính là phải rèn luyện cách làm việc tự lực, có phương pháp từ lúc ngồi trên ghế nhà trường. 1.3. Đề tài nghiên cứu khoa học 1.3.1. Khái niệm đề tài Đề tài là một hình thức tổ chức NCKH do một người hoặc một nhóm người thực hiện. Một số hình thức tổ chức nghiên cứu khác không hoàn toàn mang tính chất nghiên cứu khoa hoc, chẳng hạn như: Chương trình, dự án, đề án. Sự khác biệt giữa các hình thức NCKH nầy như sau: * Đề tài: được thực hiện để trả lời những câu hỏi mang tính học thuật, có thể chưa để ý đến việc ứng dụng trong hoạt động thực tế. * Dự án: được thực hiện nhằm vào mục đích ứng dụng, có xác định cụ thể hiệu quả về kinh tế và xã hội. Dự án có tính ứng dụng cao, có ràng buộc thời gian và nguồn lực. * Đề án: là loại văn kiện, được xây dựng để trình cấp quản lý cao hơn, hoặc gởi cho một cơ quan tài trợ để xin thực hiện một công việc nào đó như: thành lập một tổ chức; tài trợ cho một hoạt động xã hội, ... Sau khi đề án được phê chuẩn, sẽ thành những dự án, chương trình, đề tài theo yêu cầu của đề án. * Chương trình: là một nhóm đề tài hoặc dự án được tập hợp theo một mục đích xác định. Giữa chúng có tính độc lập tương đối cao. Tiến độ thực hiện đề tài, dự án trong chương trình không nhất thiết phải giống nhau, nhưng nội dung của chương trình thì phải đồng bộ. 1.3.2. Đối tượng nghiên cứu và phạm vi nghiên cứu Đối tượng nghiên cứu: là bản chất của sự vật hay hiện tượng cần xem xét và làm rõ trong nhiệm vụ nghiên cứu. Phạm vi nghiên cứu: đối tượng nghiên cứu được khảo sát trong trong phạm vi nhất định về mặt thời gian, không gian và lĩnh vực nghiên cứu. 1.3.3. Mục đích và mục tiêu nghiên cứu Khi viết đề cương nghiên cứu, một điều rất quan trọng là làm sao thể hiện được mục tiêu và mục đích nghiên cứu mà không có sự trùng lấp lẫn nhau. Vì vậy, cần thiết để phân biệt sự khác nhau giữa mục đích và mục tiêu. * Mục đích: là hướng đến một điều gì hay một công việc nào đó trong nghiên cứu mà người nghiên cứu mong muốn để hoàn thành, nhưng thường thì mục đích khó có thể đo lường hay định lượng. Nói cách khác, mục đích là sự sắp đặt công việc hay điều gì đó được đưa ra trong nghiên cứu. Mục đích trả lời câu hỏi “nhằm vào việc gì?”, hoặc “để phục vụ cho điều gì?” và mang ý nghĩa thực tiển của nghiên cứu, nhắm đến đối tượng phục vụ sản xuất, nghiên cứu. * Mục tiêu: là thực hiện điều gì hoặc hoạt động nào đó cụ thể, rõ ràng mà người nghiên cứu sẽ hoàn thành theo kế hoạch đã đặt ra trong nghiên cứu. Mục tiêu có thể đo lường hay định lượng được. Nói cách khác, mục tiêu là nền tảng hoạt động của đề tài và làm cơ sở cho việc đánh giá kế hoạch nghiên cứu đã đưa ra, và là điều mà kết quả phải đạt được. Mục tiêu trả lời câu hỏi “làm cái gì?”. 1.4. Các nguyên tắc sáng tạo cơ bản 1.4.1. Tổng quan Cải tiến công nghệ phục vụ cho cuộc sống là phương châm, động lực phát triển cho xã hội loài người trong thời gian qua.Từ khi con người có ý thức thì sự tìm tòi học hỏi và khả năng tư duy chính là đặc điểm đưa loài người ra khỏi lớp động vật. Đặc điểm nổi bật nhất của sự tìm tòi học hỏi hay khả năng tư duy là sự sáng tạo, tiềm lới giả cho những vần đề được đặt ra. Hơn 2000 năm qua hàng triệu phát minh cải tiến ra đời thay đổi gần như toàn bộ cuộc sống của con người. Qua từng thới kỳ các phát minh, sáng kiến có thể khác nhau tùy thuộc vào từng bối cảnh xã hội nhưng có thể nói đều dựa trên 40 nguyên tắc sáng tạo cơ bản được Alshuller G.S tổng hợp và tác giả Phan Dũng đề cập đến trong sách Các Thủ Thuật (Nguyên Tắc) Sáng Tạo Cơ Bản được xuất bản 2007. Đây có thể nói là sự tổng hợp kiến thức của nhân loại trong thời gian qua, vì dựa vào 40 phương pháp này cộng với khả năng tư duy thì mọi vấn đề rồi sẽ tiềm được lới giải. Công nghệ thông tin cũng không nằm ngoài quy luật đó, tuy công nghệ thông tin ra đời sau so với các công nghệ khác nhưng cũng cùng chung quy luật của sự sáng tạo Có 40 thủ thuật (nguyên tắc) sáng tạo cơ bản: 1. Nguyên tắc phân nhỏ 2. Nguyên tắc “tách khỏi” 3. Nguyên tắc phẩm chất cục bộ 4. Nguyên tắc phản (bất) đối xứng 5. Nguyên tắc kết hợp 6. Nguyên tắc vạn năng 7. Nguyên tắc “chứa trong” 8. Nguyên tắc phản trọng lượng 9. Nguyên tắc gây ứng suất (phản tác động) sơ bộ 10. Nguyên tắc thực hiện sơ bộ 11. Nguyên tắc dự phòng 12. Nguyên tắc đẳng thế 13. Nguyên tắc đảo ngược 14. Nguyên tắc cầu (tròn) hóa 15. Nguyên tắc năng động 16. Nguyên tắc tác động bộ phận và dư thừa 17. Nguyên tắc bộ xung chiều khác 18. Sự dao động cơ học 19. Nguyên tắc tác đông theo chu kỳ 20. Nguyên tắc tác đông liên tục hữu hiệu 21. Nguyên tắc vượt nhanh 22. Nguyên tắc chuyển hại thành thắng 23. Nguyên tắc quan hệ phản hồi 24. Nguyên tắc sử dụng trung gian 25. Nguyên tắc tự phục vụ 26. Nguyên tắc sao chép (copy) 27. Nguyên tắc rẻ thay cho đắt 28. Nguyên tắc thay thế sơ đồ cơ học 29. Nguyên tắc sử dụng các kết cấu thủy và khí 30. Sử dụng bao mềm dẻo và mềm mỏng 31. Sử dụng vật liệu nhiều lỗ 32. Nguyên tắc đổi màu 33. Nguyên tắc đồng nhất 34. Nguyên tắc loại bỏ và tái sinh từng phần 35. Đổi các thông số hóa lý của đối tượng 36. Sử dụng chuyển pha 37. Sử dụng nở nhiệt 38. Sử dụng các chất oxy hóa 39. Sử dụng môi trường trơ 40. Sử dụng vật liệu tổng hợp (composit) 1.4.2. Ứng dụng thực tiển 1.4.2.1. Ứng dụng nguyên tắc kết hợp – Bài học từ chiếc Cassette Sony Walkman Năm 1979, công ty Sony sáng chế ra một sản phẩm mới: máy cassette âm thanh nổi siêu nhỏ (bỏ túi) với tên ọi là Sony Walkman. Từ lúc ra đời vào năm 1979, đến năm 1981, công ty đã bán được 1,5 triệu chếc. Đến nửa đầu của năm 1982, số lượng đã bán là 4 triệu chiếc. Mức tiêu thụ sản phẩm này tăng vọt gần như theo chiều thẳng đứng. Vậy nguyên nhân nào làm cho sản phẩm được tiêu thụ nhanh như vậy? Câu trả lời là công ty Sony đã biết áp dụng một cách linh hoạt nguyên tắc Kết hợp. Vào thời điểm đó, trong xã hội đang thịnh hành các hoạt động rèn luyện sức khỏe ngoài trời. Công ty Sony đã tung ra loại máy cassette rất phù hợp với nhu cầu này, tức giúp cho mọi người có thể vừa tập thể dục, chạy nhảy ngoài trời, vừa thưởng thức âm nhạc. Ở đây, 2 nhu cầu khác nhau của người tiêu dùng đã được kết hợp một cách khá hoàn hảo. Trong lĩnh vực sáng tạo, nhằm đưa ra các giải pháp hay các sản phẩm mang tính đột phá, người ta có thể sữ dụng nguyên tắc kết hợp được đúc kết như sau: Kết hợp các đối tượng (có thể hiểu là các bộ phận, dụng cụ, nhu cầu, …) hay kết hợp về mặt thời gian các hoạt động nhằm mang lại tính năng vượt trội cho sản phẩm hay giải pháp đó. Nguyên tắc này được vận dụng rất phổ biến trong hầu hết mọi lĩnh vực của cuộc sống. Trong thực tế, các quá trình, sự kiện, yếu tố thường đan xen và có những mối quan hệ hữu cơ với nhau, do đó luôn luôn tồn tại khả năng kết hợp để nâng cao hiệu quả. Sau đây là một số ví dụ cụ thể trong cuộc sống:  Bút chì có tẩy ở một đầu. Trong ví dụ này, hai yếu tố có chức năng trái ngược nhau, bút chì và tẩy, được kết hợp với nhau để tăng tính tiện dụng của đối tượng.  Chúng ta cũng thường sử dụng loại búa đóng đinh có phần để nhổ đinh.  Hãng Casio của Nhật chế tạo đồng hồ điện tử đeo tay kết hợp với máy tính,rất tiện dụng cho học sinh, sinh viên.  Và gần đây, chúng ta đều biết đến các loại điện thoại có kèm theo chức năng chơi nhạc, chụp hình, xem phim và ti vi…  Trong lĩnh vực quan sát thiên văn, để đạt được độ phân giả cao, đường kính gương của kính thiên văn phải rất lớn. Việc xây dựng các kính thiên văn có đường kính gương lớn lại rất khó khăn và tốn kém. Các chuyên gia của Mỹ và Ý đã xây dựng loại kính thiên văn quang học kép trên đỉnh Greham, Arizon (Mỹ) cao 3300 mét. Kính thiên văn này bao gồm: 2 kính thiên văn thường có đường kính gương 8 mét và cách nhau 22 mét. Kết quả là hình ảnh thu được có độ phân giải tương đương với kính có đường kính 22 mét.  Các quán cà phê hiện nay ở Tp. Hồ Chí Minh thường kết hợp với các dịch vụ ăn uống và truy cập wifi miễn phí. Khách có thể ngồi thưởng thức cà phê, nghe nhạc, hoặc truy cập Internet để cập nhật thông tin … Ngoài ra còn vô vàn các ví dụ khác trong cuộc sống. 1.4.2.2. Ứng dụng nguyên tắc bất đối xứng – Câu chuyện cải tiến máy bay Boeing Trong kế hoạch cải tiến máy bay Boeing 737 của hãng Boeing, cần phải thay thế động cơ hiện hữu bắng các động cơ mạnh hơn. Động cơ càng lớn sẽ cần nhiều không khí hơn, do đó đường kính của capô (bộ phận bao quanh động cơ) phải càng lớn. Mâu thuẫn kỹ thuật cần giải quyết là capô của động cơ mạnh hơn sẽ quá gần mặt đất, gây nguy hiểm. Một nhóm chuyên viên được thành lập và làm việc cật lực trong nhiều tháng với rất nhiều sự thử nghiệm. Giải pháp được đưa ra là tăng đường kính của capô và làm dẹp phần đáy của nó để tăng khoảng cách với mặt đất. Sau này, một thành viên của nhóm đã phát biểu rằng nếu nhóm của anh ta biết được nguyên tắc bất đối xứng vào lúc đó, họ đã có thể giải quyết được vấn đề một cách nhanh chóng. Như vậy, quy tắc bất đối xứng là gì? Nó được vận dụng như thế nào trong thực tế? Trong lĩnh vực sáng tạo ứng dụng, người ta thường dùng 40 nguyên tắc sáng tạo để giải quyết các mâu thuẫn kỹ thuật và khắc phục tính ì tâm lý. Trong đó, nguyên tắc bất đối xứng được phát biểu như sau: - Thay đổi hình dạng của đối tượng hay một bộ phận của nó từ đối xứng sang bất đối xứng. - Tăng cường mức độ phản đối xứng. Nguyên tắc này được vận dụng rất nhiều trong thiết kế kỹ thuật, giúp giải quyết các mâu thuẫn kỹ thuật một cách nhanh chóng và hiệu quả. Sau đây, là một số ví dụ trong thực tế:  Cái kéo khi mới ra đời có dạng đối xứng. Qua quá trình cải tiến dần dần, 2 lưỡi kéo và tay cầm trở nên bất đối xứng như chúng ta thường gặp hiện nay để phù hợp hơn với tính năng sử dụng. Như ở chiếc kéo thợ may, 2 tay cầm, lệch hẳn về một phía của trục kéo.  Các loại chai nước suối có tiết diện hình bát giác hay hình vuông (thay vì hình tròn) để tiện cho việc cầm trên tay khi uống.  Khi nối 2 đoạn dây điện với nhau, người ta thường để 2 mối nối lệnh nhau (bất đối xứng) để tránh bị chạm mạch.  Trong các thiết bị lò hơi, cửa nồi hơi phải thật kín, chịu lực cao và phải đóng từ trong ra ngoài để đảm bảo chịu được áp lực hơi. Tuy nhiên, nếu nắp hình tròn thì không thể đưa vào bên trong thiết bị để lắp ráp vì kích thước của cánh cửa phải lớn hơn kích thước của cửa lò. Trong thực tế, người ta giải quyết vấn đề bằng cách chế tạo cửa lò hình oval (tăng tính bất đối xứng). Vì hình oval có 2 trục không bằng nhau nên người ta chỉ cần xoay cạnh nhỏ và đưa qua cửa lò vào bên trong. Ngoài ra, còn rất nhiều ví dụ thực tế minh họa cho sự vận dụng quy tắc này. Theo lối suy nghĩ thông thường, người ta thường thích những cấu trúc có bậc đối xứng cao vì trông có vẻ hài hòa hơn. Phần 2 PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ - BÀI TOÁN TRONG TIN HỌC 2.1. Phương pháp trực tiếp Đặc điểm của cách giải quyết vấn đề này là đều xác định trực tiếp được lời giải qua một thủ tục tính toán (công thức, hệ thức, định luật,…) hoặc qua các bước căn bản để có được lời giải. Đối với phương pháp này, việc giải quyết vấn đề trên máy tính chỉ là thao tác lập trình hay là sự chuyển đổi lời giải từ ngôn ngữ bên ngoài sang các ngôn ngữ được sử dụng trong máy tính. Tìm hiểu về phương pháp này chính là tìm hiểu về kỹ thuật lập trình trên máy tính. Các nguyên lý áp dụng trong phương pháp trực tiếp :  Nguyên lý 1: Chuyển đổi dữ liệu bài toán thành dữ liệu của chương trình, có nghĩa là “Dữ liệu của bài tóan sẽ được biểu diễn lại dưới dạng các biến của chương trình thông qua các quy tắc xác định của ngôn ngữ lập trình cụ thể”  Nguyên lý 2: Chuyển đổi quá trình tính toán của bài toán thành các cấu trúc của chương trình, có nghĩa là “Mọi quá trình tính toán đều có thể mô tả và thực hiện dựa trên ba cấu trúc cơ bản : Cấu trúc tuần tự, cấu trúc rẽ nhánh và cấu trúc lặp”.  Nguyên lý 3: Biểu diễn các tính toán chính xác, có nghĩa là “Chương trình tính toán theo các biểu thức chính xác không đồng nhất với quá trình tính toán chính xác về mặt hình thức”.  Nguyên lý 4: Biểu diễn các tính toán gần đúng bằng cấu trúc lặp, có nghĩa là “Mọi quá trình tính toán gần đúng đều dựa trên các cấu trúc lặp với tham số xác định”.  Nguyên lý 5: Phân chi bài toán ban đầu thành những bài toán nhỏ hơn, có nghĩa là “Mọi vấn đề-bài toán đều có thể giải quyết bằng cách phân chia thành những vấn đề - bài toán nhỏ hơn”.  Nguyên lý 6: Biểu diễn các tính toán không tường minh bằng đệ quy, có nghĩa là “Quá trình đệ quy trong máy tính không đơn giản như các biểu thức quy nạp trong toán học”. 2.2. Phương pháp gián tiếp Phương pháp này được sử dụng khi chưa tìm ra lời giải chính xác của vần đề. Đây cũng chính là cách tiếp cận chủ yếu của loài người từ xưa đến nay. Điểm khác ở đây là chúng ta đưa ra những giải pháp mang đặc trưng của máy tính, dựa vào sức mạnh tính toán của máy tính. Tất nhiên, một lời giải trực tiếp bao giờ cũng tốt hơn, nhưng không phải lúc nào cũng có. 2.2.1. Phương pháp thử sai Khi xây dựng lời giải bài toán theo phương pháp thử – sai, người ta thường dựa vào 3 nguyên lý sau :  Nguyên lý vét cạn: Đây là nguyên lý đơn giản nhất, liệt kê tất cả các trường hợp có thể xảy ra.  Nguyên lý ngẫu nhiên: Dựa vào việc thử một số khả năng được chọn một cách ngẫu nhiên. Khả năng tìm ra lời giải đúng phụ thuộc rất nhiều vào chiến lược chọn ngẫu nhiên.  Nguyên lý mê cung: Nguyên lý này được áp dụng khi chúng ta không thể biết được chính xác “hình dạng” lời giải mà phải xây dựng dần lời giải qua từng bước một giống như tìm đường đi trong mê cung. Để thực hiện tốt phương pháp thử - sai, chúng ta nên áp dụng các nguyên lý sau  Nguyên lý vét cạn toàn bộ: Muốn tìm được cây kim trong đống rơm, hãy lần lượt rút ra từng cọng rơm cho đến khi rút được cây kim.  Nguyên lý mắt lưới: Lưới bắt cá chỉ bắt được những con cá có kích thước lớn hơn kích thước mắt lưới.  Nguyên lý giảm độ phức tạp của thử và sai: Thu hẹp trường hợp trước và trong khi duyệt, đồng thời đơn giản hóa tối đa điều kiện chấp nhận một trường hợp.  Nguyên lý thu gọn không gian tìm kiếm: Loại bỏ những trường hợp hoặc nhóm trường hợp chắc chắn không dẫn đến lời giải.  Nguyên lý đánh giá nhánh cận: Nhánh có chứa quả phải nặng hơn trọng lượng của quả. 2.2.2. Phương pháp Heuristic Phương pháp Heuristic có đặc điểm là đơn giản và gần gủi với cách suy nghĩ của con người, cho ra được những lời giải đúng trong đa số các trường hợp áp dụng. Các thuật giải Heuristic được xây dựng dựa trên một số nguyên lý rất đơn giản như: vét cạn thông minh, tối ưu cục bộ (Greedy), Hướng đích, sắp thứ tự …Để thực hiện tốt phương pháp Heuristic, chúng ta nên áp dụng các nguyên lý sau:  Nguyên lý leo núi: Muốn leo lên đến đỉnh thì bước sau phải “cao hơn” bước trước.  Nguyên lý chung : Chọn hướng đi triển vọng nhất trong số những hướng đi đã biết. 2.2.3. Phương pháp trí tuệ nhân tạo Phương pháp trí tuệ nhân tạo dựa trên trí thông minh của máy tính. Phương pháp này, người ta sẽ đưa vào máy trí thông minh nhân tạo giúp máy tính bắt chước một phần khả năng suy luận như con người, máy tính dựa trên những điều đã được “học“ để tự đưa ra phương án giải quyết vấn đề. Sơ đồ mạng tính toán để giải bài toán tam giác Trong lĩnh vực “máy học” , các hình thức học có thể phân chia như sau : - Học vẹt - Học bằng cách chỉ dẫn - Học bằng qui nạp - Học bằng tương tự - Học dựa trên giải thích - Học dựa trên tình huống - Khám phá hay học không giám sát Các kỹ thuật thường được áp dụng trong “máy học” là: khai khoáng dữ liệu, mạng nơ ron, thuật giải di truyền… Phần 3 GIẢI PHÁP TỔ CHỨC VÀ XỬ LÝ TÀI LIỆU VĂN BẢN TIẾNG VIỆT CÓ NGỮ NGHĨA 3.1. Giới thiệu Như chúng ta đã thấy, đối với người thường xuyên sử dụng máy tính nói chung và với các nhà nghiên cứu khoa học nói riêng thì việc lưu trữ các tài liệu văn bản dùng cho mục đích riêng của từng người là rất quan trọng. Sự tăng nhanh về số lượng tài liệu trong kho lưu trữ đã đặt ra một vấn đề lớn: làm sao quản lý hiệu quả kho tài liệu để hỗ trợ tốt cho người dùng máy tính trong việc tổ chức và tìm kiếm thông tin văn bản. Nếu việc làm này được thực hiện bởi người sử dụng, quả thật là khó khăn cho họ vì quản lý lượng dữ liệu rất lớn cả về số lượng và nội dung không phải là dễ. Điều chúng ta mong muốn ở đây là làm sao để máy tính có thể xử lý tự động được chúng. Muốn vậy, trước hết máy tính phải hiểu được thông tin trên các tài liệu văn bản, trong khi các tài liệu của chúng ta là các văn bản thô mà chỉ con người mới đọc hiểu được Bài tiểu luận này trình bày ý tưởng về việc nghiên cứu kĩ thuật tổ chức và tìm kiếm thông tin văn bản có ngữ nghĩa với hi vọng có thể xây dựng một chương trình máy tính hỗ trợ tốt cho người dùng trong việc quản lý và tìm kiếm thông tin văn bản. Mục 2, 3, 4 trình bày các khái niệm về Conceptual Graph, Ontology, Named-Entity. Mục 5 trình bày các đề xuất, tìm hiểu về các phương pháp kĩ thuật để xây dựng chương trình dựa trên các khái niệm trên. Bài toán này được giải quyết dựa trên phương pháp luận “phương pháp trí tuệ nhân tạo” và các nguyên tắc sáng tạo cơ bản trong nghiên cứu - sáng tọa khoa học. 3.2. Đồ thị khái niệm (conceptual graph) Đồ thị khái niệm (conceptual graph) là một dạng biểu diễn tri thức do John F.Sowa (1984) phát triển là một ngôn ngữ biểu diễn tri thức dựa trên mạng ngữ nghĩa và đồ thị tồn tại. Khác với nhiều ngôn ngữ dựa trên đồ thị, đồ thị khái niệm có một nền tảng logic chặt chẽ. Mặt khác, so với nhiều ngôn ngữ hình thức khác, đồ thị khái niệm gần với ngôn ngữ tự nhiên hơn, tức có thể ánh xạ tương đối thẳng giữa một đồ thị khái niệm và một câu tiếng Anh chẳng hạn. Đồ thị khái niệm là một đồ thị hữu hạn, liên thông, không có hướng, lưỡng phân với những nút thuộc một loại được gọi là khái niệm (hoặc khái niệm - concepts) và những nút thuộc loại còn lại được gọi quan hệ khái niệm (conceptual relations). Một đồ thị khái niệm có thể chứa duy nhất một khái niệm, nhưng nó không thể có những quan hệ khái niệm không được liên kết. Mỗi khái niệm được vẽ bằng một hình chữ nhật trong đó có kiểu khái niệm và tham chiếu khái niệm, biểu diễn một thực thể có kiểu và tham chiếu đó. Mỗi quan hệ được vẽ bằng một hình bầu dục trong đó có kiểu quan hệ, biểu diễn một quan hệ giữa các thực thể xác định bởi các khái niệm nối với quan hệ đó. Các khái niệm nối trực tiếp với một quan hệ được gọi là các khái niệm láng giềng của quan hệ đó. Mỗi cạnh đò thị được gán một con số để định vị khái niệm láng giềng tương ứng, và có thể được định hướng cho dễ đọc. Đồ thị khái niệm có khả năng diễn đạt ngữ nghĩa một cách chính xác, dễ hiểu đối với con người và khả xử lý đối với máy tính. Chính vì vậy, nó thường được dùng như là một ngôn ngữ trung gian để chuyển đổi giữa ngôn ngữ tự nhiên và những mô hình xử lý hướng máy tính. Hình 3.1 là ví dụ về đồ thị khái niệm SINH_VIÊN: Vân MÔN_HỌC: * HỌC 1 2 NGÀNH: Khoa học Máy tính THUỘC 1 2 Hình 3.1: Đồ thị khái niệm Ví dụ, đồ thị khái niệm ở Hình 3.1 nói rằng “Vân là một sinh viên. Có một môn học. Khoa học Máy tính là một ngành. Môn học này thuộc ngành Khoa học Máy tính. Vân học môn này”, hay nói ngắn gọn là “Vân học một môn thuộc ngành Khoa học Máy tính”. Ở dạng văn bản, các khái niệm và quan hệ có thể được viết trong các dấu ngoặc vuông và tròn. Trong ví dụ này, [SINH_VIÊN: Vân], [MÔN_HỌC: *], [NGÀNH: KhMt] là các khái niệm, còn (HỌC) và (THUỘC) là các quan hệ với HỌC và THUỘC là các kiểu quan hệ. Các tham chiếu Vân và KhMt của các khái niệm [SINH_VIÊN: Vân] và [NGÀNH: KhMt] là cac tham chiếu cá thể. Tham chiếu * của khái niệm [MÔN_HỌC: *] là tham chiếu chung chỉ đến một thực thể không xác định. Để biểu thị hai khái niệm với tham chiếu chung chỉ đến cùng một thực thể không xác định, một liên kết đồng tham chiếu được vẽ bằng các nét đứt đoạn nối hai khái niệm. Ví dụ, đồ thị khái niệm trong Hình 3.2 thêm vào đồ thị trong Hình 3.1 một sự kiện là “Có một người học cùng môn học như Vân”. Trong ví dụ này, đồ thị khái niệm có thể được vẽ lại một cách tương ứng về ngữ nghĩa mà không dùng liên kết đồng tham chiếu, bằng cách gộp hai khái niệm [MÔN_HOC: *] thành một nút. Tuy nhiên, trong trường hợp các khái
- Xem thêm -