Đăng ký Đăng nhập
Trang chủ Một số giải pháp cho bài toán tìm kiếm trong csdl hypertext...

Tài liệu Một số giải pháp cho bài toán tìm kiếm trong csdl hypertext

.PDF
79
90
54

Mô tả:

 Luận văn tốt nghiệp Một số giải pháp cho bài toán tìm kiếm trong CSDL Hypertext 1 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext PhÇn më ®Çu……………………………………………………………………………….2 Ch−¬ng I. Tæng quan vÒ web-mining ...................................................................... 9 1.1 Giíi thiÖu vÒ c¬ së d÷ liÖu Fulltext vµ Hypertext ....................................................... 9 1.1.1 C¬ së d÷ liÖu Fulltext.......................................................................................... 9 1.1.2 C¬ së d÷ liÖu Hypertext .................................................................................... 12 1.1.3 So s¸nh ®Æc ®iÓm cña d÷ liÖu Fulltext vµ d÷ liÖu trang web ............................. 15 1.2 Tæng quan vÒ ph−¬ng ph¸p biÓu diÔn v¨n b¶n trong c¬ së d÷ liÖu trang web .......... 16 1.2.1 Giíi thiÖu s¬ bé vÒ c¸c ph−¬ng ph¸p biÓu diÔn trang web................................ 17 1.2.2 C¸ch tiÕp cËn theo web site............................................................................... 19 KÕt luËn ch−¬ng mét............................................................................................................. 28 Ch−¬ng II. Mét sè ph−¬ng ph¸p biÓu diÔn trang web vµ gi¶i ph¸p kÕt hîp. ......................................................................................................................................... 29 2.1 Ph−¬ng ph¸p biÓu diÔn trong c¸c m¸y t×m kiÕm....................................................... 30 2.1.1 CÊu tróc c¬ b¶n vµ ho¹t ®éng cña mét m¸y t×m kiÕm....................................... 31 2.1.2 Ph−¬ng ph¸p biÓu diÔn d÷ liÖu trong c¸c m¸y t×m kiÕm................................... 34 2.2 Ph−¬ng ph¸p biÓu diÔn trang web theo m« h×nh vector ............................................ 45 2.2.1 Ph−¬ng ph¸p biÓu diÔn vector ........................................................................... 45 2.2.2 Ph−¬ng ph¸p biÓu diÔn trang web theo m« h×nh vector .................................... 48 2.3 §Ò xuÊt gi¶i ph¸p biÓu diÔn vector trong m¸y t×m kiÕm ........................................... 55 KÕt luËn ch−¬ng 2 ................................................................................................................. 59 Ch−¬ng III. m¸y t×m kiÕm vietseek vµ thö nghiÖm ThuËt to¸n t×m kiÕm theo néi dung ................................................................................................................... 61 3.1 M¸y t×m kiÕm VietSeek ............................................................................................ 61 3.1.1 C¸c ®Æc ®iÓm c¬ b¶n cña Vietseek.................................................................... 61 3.1.2 C¬ së d÷ liÖu cña Vietseek................................................................................ 62 3.2 §Ò xuÊt thuËt to¸n t×m kiÕm míi cho m¸y t×m kiÕm VietSeek ................................. 69 3.2.1 Nh÷ng c¬ së ®Ó ®Ò xuÊt thuËt to¸n.................................................................... 69 3.2.2 ThuËt to¸n ......................................................................................................... 71 KÕt luËn ch−¬ng 3 ................................................................................................................. 74 PhÇn kÕt luËn……………………………………………………………………………75 tµi liÖu tham kh¶o…………………………………………………………………….77 Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 2 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext PhÇn më ®Çu Trong nh÷ng n¨m gÇn ®©y, trªn c¬ së ph¸t triÓn vµ øng dông c«ng nghÖ Internet, khèi l−îng d÷ liÖu trªn m¸y tÝnh ®· t¨ng tr−ëng kh«ng ngõng theo c¶ hai ph−¬ng diÖn t¹o míi vµ thu thËp. Sù më réng c¸c d÷ liÖu khoa häc vÒ ®Þa lý, ®Þa chÊt, khÝ t−îng do vÖ tinh thu thËp, sù giíi thiÖu qu¶ng b¸ m· v¹ch ®èi víi hÇu hÕt c¸c s¶n phÈm th−¬ng m¹i, viÖc tin häc ho¸ s©u réng c¸c th−¬ng vô vµ giao dÞch, sù ph¸t triÓn viÖc øng dông CNTT trong qu¶n lý hµnh chÝnh nhµ n−íc ... ®· ph¸t sinh ra mét khèi l−îng d÷ liÖu khæng lå. MÆt kh¸c, trong bèi c¶nh nÒn t¶ng cho mét x· héi th«ng tin, nhu cÇu nhËn ®−îc th«ng tin mét c¸ch nhanh chãng, chÝnh x¸c còng nh− nhu cÇu thu nhËn ®−îc "tri thøc" tõ khèi l−îng th«ng tin khæng lå nãi trªn ®· trë nªn cÊp thiÕt. Bèi c¶nh ®ã ®· ®ßi hái nh÷ng ph−¬ng ph¸p tiÕp cËn míi mµ trong ®ã ®iÓn h×nh nhÊt lµ c¸c ph−¬ng ph¸p thuéc lÜnh vùc khai ph¸ d÷ liÖu vµ kh¸m ph¸ tri thøc trong c¸c c¬ së d÷ liÖu [7,9]. Sù t¨ng tr−ëng hµng n¨m vÒ sè l−îng c«ng tr×nh ®−îc c«ng bè, vÒ héi th¶o khoa häc quèc tÕ liªn quan ®Õn viÖc nghiªn cøu, gi¶i quyÕt tõng b−íc nhiÒu bµi to¸n ®iÓn h×nh thuéc lÜnh vùc nµy ®· thÓ hiÖn ®Çy ®ñ sù ph¸t triÓn v−ît bËc cña lÜnh vùc nãi trªn. C¸c bµi to¸n biÓu diÔn d÷ liÖu, l−u tr÷ d÷ liÖu, t×m kiÕm d÷ liÖu, ph©n líp d÷ liÖu, ph©n côm d÷ liÖu ... [2-4,6,8-14] lµ nh÷ng bµi to¸n ®iÓn h×nh nhÊt. Trong xu thÕ t¨ng tr−ëng kh«ng ngõng nguån d÷ liÖu, th«ng qua sù ph¸t triÓn cña c«ng nghÖ Web, d¹ng d÷ liÖu phi cÊu tróc vµ nöa cÊu tróc (®iÓn h×nh lµ hÖ thèng c¸c trang web trªn Internet) cµng t¨ng tr−ëng theo tèc ®é nh¶y vät. §©y lµ d¹ng d÷ liÖu gÇn nhÊt víi con ng−êi, mµ qua chóng con ng−êi mong muèn l−u tr÷ th«ng tin, tri thøc hoÆc chuyÓn t¶i nã cho nhiÒu ng−êi kh¸c. Trong nh÷ng n¨m gÇn ®©y WWW ®· trë thµnh mét kªnh th«ng tin quan träng nhÊt cho viÖc ph©n t¸n c¸c th«ng tin vÒ c¸ nh©n, khoa häc vµ th−¬ng m¹i. Mét lý do cña viÖc WWW ph¸t triÓn nhanh chãng lµ gi¸ c¶ cho viÖc t¹o vµ xuÊt b¶n c¸c trang web rÊt rÎ. So s¸nh víi c¸c ph−¬ng ph¸p kh¸c nh− s¶n xuÊt tê r¬i hay qu¶ng c¸o trªn b¸o vµ t¹p chÝ th× trang web rÎ h¬n rÊt nhiÒu vµ l¹i ®−îc cËp nhËt th−êng xuyªn h¬n ®Õn hµng tû ng−êi sö dông, v× vËy mµ ngay c¶ c¸c c«ng ty rÊt nhá còng cã kh¶ n¨ng ®−a c¸c s¶n phÈm vµ dÞch vô cña hä lªn WWW. H¬n n÷a cã rÊt nhiÒu Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 3 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext c¸c c«ng ty ho¹t ®éng b¸n hµng trùc tuyÕn trªn Internet, v× vËy mµ nhu cÇu ®−a c¸c th«ng tin lªn WWW lµ hoµn toµn tù nhiªn. Nh−ng víi viÖc t¨ng kh«ng ngõng c¸c site th× viÖc t×m ra mét trang hay thËm chÝ mét site mµ mçi c¸ nh©n ®ang cÇn l¹i thùc sù lµ mét vÊn ®Ò ngµy cµng khã kh¨n. ViÖc nghiªn cøu c¸c bµi to¸n liªn quan ®Õn hÖ thèng c¸c d÷ liÖu d¹ng nµy (biÓu diÔn v¨n b¶n, t×m kiÕm vµ ph©n líp v¨n b¶n) cïng víi viÖc ®Ò xuÊt nh÷ng gi¶i ph¸p ®èi víi c¸c bµi to¸n ®ã lu«n lµ nh÷ng vÊn ®Ò khoa häc vµ c«ng nghÖ thêi sù [1-4,6,8-14]. Ch¼ng h¹n, vÊn ®Ò ph¸t hiÖn ra mét website míi thùc sù thó vÞ cho ng−êi sö dông lµ mét vÊn ®Ò ch−a ®−îc quan t©m ®óng møc. C¸c hÖ t×m kiÕm trªn Internet hiÖn nay nh− Yahoo, Altavista, Google... lµ nh÷ng hÖ triÓn khai ®Ó gi¶i quyÕt bµi to¸n t×m kiÕm vµ ®−îc sö dông kh¸ phæ biÕn hiÖn nay. Tuy nhiªn vÉn cßn cã c¸c vÊn ®Ò ch−a tho¶ m·n ®−îc nhu cÇu thùc tÕ cña ng−êi sö dông. §ã lµ khi sö dông dÞch vô t×m kiÕm trªn c¸c site nµy th× chØ cã thÓ t×m ®−îc c¸c trang th«ng tin theo nh÷ng ®iÒu kiÖn t×m kiÕm hÕt søc gi¶n ®¬n. Thªm vµo ®ã, cã rÊt nhiÒu tr−êng hîp môc tõ lµ kh«ng trän vÑn vµ ®«i khi qu¸ h¹n v× kh«ng ®−îc cËp nhËt th−êng xuyªn. H¬n n÷a c¸c dÞch vô t×m kiÕm nµy kh«ng cung cÊp tÊt c¶ c¸c lÜnh vùc chuyªn s©u h¬n, nhÊt lµ c¸c lÜnh vùc hÑp cho mét sè ng−êi sö dông ®Æc biÖt. C¸c hÖ nµy còng ch−a cho phÐp khai th¸c nh÷ng th«ng tin truy nhËp cña ng−êi sö dông v× vËy kh«ng cã c¬ chÕ ph¶n håi th«ng tin ®Ó sö dông kÕt qu¶ t×m kiÕm tr−íc ®©y vµo lÇn t×m kiÕm tiÕp theo. C¬ chÕ nµy lµ cÇn thiÕt v× lµm ®−îc nh− vËy hiÖu qu¶ vµ ®é chÝnh x¸c t×m kiÕm ch¾c ch¾n ®−îc n©ng cao. Mét vÊn ®Ò n÷a lµ c¸c hÖ t×m kiÕm nµy th−êng xö lý c¸c yªu cÇu t×m kiÕm d−íi d¹ng c¸c tõ kho¸ t×m kiÕm. Khi cã nhiÒu h¬n mét tõ kho¸ th× hÖ t×m kiÕm xö lý c¸c tõ kho¸ nµy theo cïng mét c¸ch thøc mµ kh«ng cã c¬ chÕ cho phÐp ng−êi sö dông x¸c ®Þnh ®é quan träng kh¸c nhau cho c¸c tõ kho¸ t×m kiÕm. Còng nh− vËy, c¸c hÖ t×m kiÕm ®iÓn h×nh hiÖn nay ch−a quan t©m ®Õn vÊn ®Ò ®ång nghÜa vµ ®a nghÜa cña tõ khãa, v× vËy trong qu¸ tr×nh t×m kiÕm cã thÓ ®· bá qua rÊt nhiÒu c¸c kÕt qu¶ t×m kiÕm. NhiÒu nghiªn cøu liªn quan ®· ®Ò xuÊt mét sè ph−¬ng ph¸p biÓu diÔn v¨n b¶n cho phÐp thi hµnh ®−îc nh÷ng khÝa c¹nh ®· ®Ò cËp trªn ®©y [2-4,8-14]. Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 4 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext Tõ viÖc t×m hiÓu vµ ph©n tÝch −u, nh−îc ®iÓm cña c¸c ph−¬ng ph¸p tiÕp cËn kh¸c nhau, dùa trªn ý t−ëng n©ng cao hiÖu qu¶ t×m kiÕm, luËn v¨n ®Ò cËp viÖc sö dông m« h×nh vector biÓu diÔn trang web trong c¸c m¸y t×m kiÕm ®Ó cho phÐp dÔ dµng bæ sung träng sè cho c¸c tõ kho¸ t×m kiÕm vµ t¨ng c−êng ®−îc ng÷ nghÜa néi dung v¨n b¶n vµo qu¸ tr×nh t×m kiÕm. Víi môc tiªu ®Ò xuÊt mét ph−¬ng ph¸p biÓu diÔn vector cho c¸c trang web trong c¸c m¸y t×m kiÕm ®Ó n©ng cao hiÖu qu¶ t×m kiÕm, néi dung cña luËn v¨n ®−îc ®Þnh h−íng vµo c¸c vÊn ®Ò sau: - Giíi thiÖu, ph©n tÝch vµ ®¸nh gi¸ mét sè ph−¬ng ph¸p biÓu diÔn trang web ®iÓn h×nh, - Trªn c¬ së mét sè ph−¬ng ph¸p biÓu diÔn v¨n b¶n trang web theo m« h×nh vector, luËn v¨n nghiªn cøu viÖc c¶i tiÕn c¸c ph−¬ng ph¸p biÓu diÔn ®ã ®Ó nhËn ®−îc mét ph−¬ng ph¸p míi biÓu diÔn trang web, - Nghiªn cøu, ®Ò xuÊt viÖc bæ sung thªm biÓu diÔn vector cho trang web trong c¸c m¸y t×m kiÕm theo ph−¬ng ph¸p míi, ®ång thêi bæ sung chøc n¨ng t×m kiÕm trang Web "theo néi dung" cho hÖ t×m kiÕm Vietseek. LuËn v¨n bao gåm PhÇn më ®Çu, ba ch−¬ng néi dung vµ PhÇn kÕt luËn mµ néi dung c¸c ch−¬ng ®−îc tr×nh bµy nh− d−íi ®©y. Ch−¬ng 1 víi tiªu ®Ò lµ Tæng quan vÒ web-mining giíi thiÖu s¬ bé nh÷ng néi dung tæng quan nhÊt vÒ c¬ së d÷ liÖu Fulltext, c¬ së d÷ liÖu Hypertext, c¬ së d÷ liÖu trang web vµ ph−¬ng ph¸p biÓu diÔn vector. Trong ch−¬ng nµy c¸ch tiÕp cËn theo website ®−îc tr×nh bµy kh¸ chi tiÕt vÒ c¶ khÝa c¹nh biÓu diÔn website lÉn gi¶i ph¸p cho bµi to¸n t×m kiÕm theo website. LuËn v¨n cßn ®Ò xuÊt mét thuËt to¸n x©y dùng c©y website theo c¸ch tiÕp cËn nµy. Tiªu ®Ò cña ch−¬ng 2 lµ Mét sè ph−¬ng ph¸p biÓu diÔn d÷ liÖu web vµ gi¶i ph¸p kÕt hîp. Néi dung cña ch−¬ng nµy xem xÐt vµ ®¸nh gi¸ mét sè ph−¬ng ph¸p biÓu diÔn trang web ®iÓn h×nh. §Çu tiªn luËn v¨n giíi thiÖu vÒ biÓu diÔn trang web trong c¸c m¸y t×m kiÕm, sau ®ã luËn v¨n giíi thiÖu c¸ch tiÕp cËn theo m« h×nh vector ®Ó biÓu diÔn Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 5 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext trang web vµ mét ®Ò xuÊt vÒ mét c¸ch biÓu diÔn trang web. PhÇn cuèi cïng cña ch−¬ng nµy tr×nh bµy ®Ò xuÊt cña luËn v¨n bæ sung c¸ch biÓu diÔn míi cho trang web vµo m¸y t×m kiÕm vµ s¬ bé vÒ thuËt to¸n t×m kiÕm theo néi dung. Ch−¬ng 3 M¸y t×m kiÕm VietSeek vµ thö nghiÖm thuËt to¸n t×m kiÕm theo néi dung giíi thiÖu chi tiÕt vÒ m¸y t×m kiÕm VietSeek, thiÕt kÕ l«gic vÒ d÷ liÖu theo biÓu diÔn vector vµ thuËt to¸n t×m kiÕm theo néi dung trªn c¬ së do luËn v¨n ®Ò xuÊt. PhÇn kÕt luËn tæng hîp nh÷ng kÕt qu¶ nghiªn cøu chÝnh cña luËn v¨n, chØ ra mét sè h¹n chÕ ch−a hoµn thiÖn cµi ®Æt thùc sù. §ång thêi luËn v¨n còng ®Ò xuÊt mét sè h−íng nghiªn cøu cô thÓ tiÕp theo cña t¸c gi¶ luËn v¨n. Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 6 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext Lêi c¶m ¬n Em xin bµy tá lßng kÝnh träng vµ biÕt ¬n s©u s¾c tíi ThÇy gi¸o TiÕn sÜ Hµ Quang Thuþ, ng−êi ®· tËn t×nh h−íng dÉn luËn v¨n cho em. Em xin c¶m ¬n c¸c ThÇy C« trong khoa C«ng nghÖ, §¹i häc Quèc Gia Hµ Néi, vµ nhãm Xemina chuyªn m«n "Data Mining vµ KDD" thuéc bé m«n C¸c HÖ thèng Th«ng tin, khoa C«ng nghÖ, nh÷ng ng−êi ®· gióp ®ì cho em trong suèt qu¸ tr×nh häc tËp vµ nghiªn cøu, ®Æc biÖt lµ c¸c b¹n Bïi Quang Minh vµ §oµn S¬n. Em xin bµy tá lßng biÕt ¬n s©u s¾c tíi gia ®×nh, c¸c ®ång nghiÖp ë ViÖn C«ng nghÖ Th«ng tin, §¹i häc Quèc gia Hµ Néi, vµ c¸c b¹n bÌ ®· gióp ®ì vµ ®éng viªn em trong suèt qu¸ tr×nh häc tËp, nghiªn cøu vµ lµm viÖc. Hµ Néi ngµy 15/04/2003 Häc viªn Ph¹m ThÞ Thanh Nam Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 7 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext b¶ng chó gi¶i mét sè côm tõ viÕt t¾t CSDL: C¬ së d÷ liÖu (DataBase) CNTT: C«ng nghÖ th«ng tin (Information Technology) kNN: k Nearest Neighbour KPDL: Khai ph¸ d÷ liÖu (Data Mining) KPTTCSDL: Kh¸m ph¸ tri thøc trong CSDL (Knowledge Discovery in Databases) SVM: Support Vector Machine WWW: HÖ thèng trang Web (World Wide Web) b¶ng chó gi¶i mét sè thuËt ng÷ tiÕng viÖt Bayes tù nhiªn: Naive Bayes k ng−êi l¸ng giÒng gÇn nhÊt: k Nearest Neighbour M¹ng n¬ron: Neural Net M¸y t×m kiÕm: Search engine Bé ®iÒu khiÓn t×m duyÖt: Crawl Control Bé t×m duyÖt: Crawler Bé t¹o chØ môc: Indexer Module Bé ph©n tÝch tËp: Collection Analysis Modele Bé truy vÊn: Query Engine Bé xÕp h¹ng: Ranking Bé ph©n tÝch URL: URLresolver ChØ môc cÊu tróc: Structure Index ChØ môc liªn kÕt ng−îc: Inverted Index ChØ môc néi dung: Text Index ChØ môc tiÖn Ých: Utility Index H¹ng hiÓn thÞ: Rank H¹ng trang web (H¹ng): Page Rank Kho trang web: Page Repository T¶i trang: Download M¸y vector trî gióp: Support Vector Machine Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 8 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext M« h×nh (kh«ng gian) vector: Vector (Space) Model Siªu liªn kÕt: Hyperlink Siªu v¨n b¶n: Hypertext T×m kiÕm theo néi dung: text-based retrieval Trang web: web page, HTML page, HTML document Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 9 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext 1 Ch−¬ng I. Tæng quan vÒ web-mining 1.1 Giíi thiÖu vÒ c¬ së d÷ liÖu Fulltext vµ Hypertext 1.1.1 C¬ së d÷ liÖu Fulltext • Giíi thiÖu chung C¬ së d÷ liÖu Fulltext lµ c¬ së d÷ liÖu phi cÊu tróc mµ d÷ liÖu chøa trong ®ã bao gåm c¸c néi dung text vµ c¸c thuéc tÝnh vÒ tµi liÖu v¨n b¶n víi néi dung ®ã. D÷ liÖu trong c¬ së d÷ liÖu Fulltext th−êng ®−îc tæ chøc nh− mét sù kÕt hîp gi÷a hai phÇn: phÇn c¬ së d÷ liÖu th«ng th−êng qu¶n lý thuéc tÝnh cña c¸c tµi liÖu, vµ phÇn tËp hîp néi dung c¸c tµi liÖu ®−îc qu¶n lý. Chóng ta cã thÓ h×nh dung mét c¬ së d÷ liÖu Fulltext ®−îc tæ chøc nh− sau: C¬ së d÷ liÖu Fulltext CSDL vÒ thuéc tÝnh tµi liÖu TËp hîp néi dung c¸c tµi liÖu H×nh 1.1 M« h×nh tæ chøc cña c¬ së d÷ liÖu Fulltext Trong nh÷ng tr−êng hîp phæ biÕn, néi dung tµi liÖu ®−îc l−u gi÷ gi¸n tiÕp trong c¬ së d÷ liÖu theo nghÜa hÖ thèng chØ qu¶n lý c¸c con trá (®Þa chØ ) trá tíi c¸c ®Þa chØ chøa néi dung tµi liÖu (mét vÝ dô dÔ thÊy nhÊt lµ m¹ng Internet, c¸c trang web th−êng l−u gi÷ c¸c ®Þa chØ chØ tíi n¬i cã l−u néi dung c¸c trang th«ng tin cô thÓ mµ ng−êi sö dông muèn xem). Cßn c¸c con trá (®Þa chØ) vµ c¸c thuéc tÝnh kh¸c vÒ nã th× ®−îc l−u trùc tiÕp trong c¬ së d÷ liÖu b»ng hÖ qu¶n trÞ cã cÊu tróc. Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 10 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext Tuy nhiªn, trong mét sè tr−êng hîp (®Æc biÖt lµ ®èi víi c¸c m¸y t×m kiÕm trªn Internet nh− Yahoo, Google, AltaVista ...), ®Ó cung cÊp néi dung v¨n b¶n nhanh chãng, ng−êi ta l¹i tæ chøc l−u tr÷ c¸c v¨n b¶n ngay trong hÖ thèng (d−íi d¹ng vïng cache). Néi dung cña d÷ liÖu Fulltext (v¨n b¶n) kh«ng cã cÊu tróc néi t¹i, ®−îc coi nh− mét lµ d·y c¸c tõ, c¸c dÊu ng¨n c¸ch. Ng÷ nghÜa v¨n b¶n dùa trªn ý nghÜa c¸c tõ mang nghÜa (®−îc gäi lµ tõ khãa - term hoÆc keyword) cã trong v¨n b¶n vµ c¸ch bè trÝ c¸c tõ khãa trong v¨n b¶n ®ã. Do kh«ng cã cÊu tróc nªn bµi to¸n “tæ chøc theo cÊu tróc hoµn toµn” c¸c tõ khãa trong v¨n b¶n lµ kh«ng thÝch hîp do tÝnh chÊt qu¸ phøc t¹p khi thùc hiÖn ®iÒu ®ã. Do ®ã, phæ biÕn h¬n ng−êi ta sö dông c¸c ph−¬ng ph¸p biÓu diÔn ng÷ nghÜa v¨n b¶n th«ng qua tËp c¸c tõ kho¸ cã trong v¨n b¶n ®ã. C¸c c¬ së d÷ liÖu Fulltext hiÖn nay th−êng lµ c¸c tËp hîp s¸ch, t¹p chÝ, bµi viÕt ®−îc qu¶n lý trong mét m¹ng th− viÖn ®iÖn tö, tËp c¸c file vµ c¸c trang web (lµ c¸c trang file) ®−îc l−u tr÷ bëi c¸c hÖ thèng web nh− hÖ thèng cña Yahoo, Google, AltaVista … Nh− ®· nãi, lµm thÕ nµo ®Ó hiÓu ®−îc néi dung cña c¸c tµi liÖu trong c¬ së d÷ liÖu? Tån t¹i c¸c ph−¬ng ph¸p biÓu diÔn ®−îc sö dông nh− ph−¬ng ph¸p tãm t¾t, ph−¬ng ph¸p vector, m¹ng logic, l−îc ®å có ph¸p. Nh−ng c¸c ph−¬ng ph¸p ®ã chØ chøa ®ùng ®−îc néi dung s¬ sµi, tãm t¾t cña tµi liÖu. H¬n n÷a mçi mét ph−¬ng ph¸p l¹i cã c¸c khã kh¨n riªng, ®Æc biÖt lµ khi hÖ thèng cho phÐp cËp nhËt thªm d÷ liÖu. V× vËy mµ viÖc c¶i tiÕn c¸c m« h×nh biÓu diÔn nµy lu«n lu«n ®−îc ®Æt ra C¬ së d÷ liÖu Fulltext cã rÊt nhiÒu khÝa c¹nh tiÒm n¨ng tèt cho viÖc khai ph¸ d÷ liÖu vµ KDD, víi c¸c môc tiªu lµ tù ®éng trî gióp ng−êi dïng ®Ó hä cã thÓ sö dông hÖ thèng tµi liÖu hiÖu qu¶ h¬n (ph©n líp tµi liÖu, t×m kiÕm th«ng tin vµ t×m kiÕm tµi liÖu…) vµ m« h×nh vector lµ m« h×nh tèt h¬n c¶ ®Ó tr×nh bµy tµi liÖu Fulltext Do ng÷ nghÜa cña c¸c v¨n b¶n Fulltext th−êng ®−îc biÓu diÔn th«ng qua c¸c tõ kho¸ cña nã nªn trong qu¸ tr×nh xö lý c¸c d÷ liÖu Fulltext th−êng n¶y sinh c¸c vÊn ®Ò vÒ tõ ®ång nghÜa vµ tõ ®a nghÜa. Nh− chóng ta ®· biÕt th× trong ng«n ng÷ tù nhiªn lu«n cã c¸c tõ ®ång nghÜa (lµ tr−êng hîp cã nhiÒu tõ viÕt kh¸c nhau ®Òu chØ chung mét ý Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 11 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext nghÜa gièng nhau) vµ c¸c tõ ®a nghÜa (lµ tr−êng hîp mét tõ nh−ng cã nhiÒu nghÜa kh¸c nhau). Trong thùc tÕ giao tiÕp chóng ta còng th−êng xuyªn gÆp ph¶i c¸c t×nh huèng hiÓu nhÇm ý nghÜa muèn diÔn ®¹t cña ng−êi nãi khi gÆp ph¶i c¸c tõ ®ång nghÜa vµ ®a nghÜa. V× vËy trong xö lý v¨n b¶n ch¾c ch¾n sÏ kh«ng tr¸nh khái nh÷ng khã kh¨n do vÊn ®Ò nµy g©y ra. Do ®ã chóng ta ph¶i t×m c¸ch kh¾c phôc c¸c vÊn ®Ò nµy. §· cã mét sè h−íng nghiªn cøu gi¶i quyÕt vÊn ®Ò tõ ®ång nghÜa vµ ®a nghÜa ®−îc tiÕn hµnh [1,4,7] nh−: liªn kÕt tõ ®ång nghÜa víi tõ kho¸, dïng träng sè thÓ hiÖn ®é quan träng c¸c tõ, chuÈn ho¸ biÓu diÔn v¨n b¶n, biÓu diÔn ng÷ c¶nh tõ kho¸, biÓu diÔn qua tËp mê... • M« h×nh vector víi gi¶i ph¸p vÊn ®Ò ®a ng«n ng÷ vµ tõ ®ång nghÜa HiÖn nay m« h×nh biÓu diÔn d÷ liÖu fulltext ®iÓn h×nh nhÊt lµ m« h×nh. Theo m« h×nh vector th× hÖ thèng c¬ së d÷ liÖu Fulltext qu¶n lý c¸c tµi liÖu thuéc mét ph¹m vi ho¹t ®éng cña con ng−êi ®−îc thÓ hiÖn qua mét tËp tõ kho¸ V (c¸c tõ kho¸ nµy cã mang ý nghÜa cña néi dung c¸c tµi liÖu). Nh− vËy lµ tËp hîp c¸c tõ kho¸ cã trong tµi liÖu “biÓu diÔn” néi dung cña tµi liÖu ®ã. ¸p dông bµi to¸n t×m kiÕm trong c¬ së d÷ liÖu Fulltext th× qu¸ tr×nh t×m kiÕm gåm hai giai ®o¹n con lµ: qu¸ tr×nh tr×nh bµy c©u hái (m· ho¸ c©u hái) vµ qu¸ tr×nh xö lý trªn c¸c vector. Do sè l−îng c¸c tõ trong c©u hái th−êng lµ nhá nªn thêi gian cña qu¸ tr×nh m· ho¸ c©u hái th−êng ng¾n. Ng−îc l¹i, thêi gian cho viÖc xö lý trªn c¸c vector th−êng kh¸ lín, vµ phô thuéc vµo kÝch th−íc cña c¸c vector vµ sè l−îng c¸c phÐp tÝnh gi÷a c©u hái víi c¸c vector m· ho¸ cña tµi liÖu. Trªn thùc tÕ th× sè l−îng lín nhÊt c¸c phÐp to¸n lµ A* n, víi A lµ sè l−îng tµi liÖu ®−îc l−u tr÷ trong c¬ së d÷ liÖu vµ n lµ sè l−îng c¸c tõ trong c©u hái ®−îc ®−a ra. §Ó gi¶m sè l−îng c¸c phÐp to¸n trong giai ®o¹n xö lý trªn c¸c vector th× chóng ta cã thÓ xem xÐt gi¶m kÝch th−íc cña vector tr×nh bµy tµi liÖu, vµ kÕt qu¶ lµ thay v× ph¶i m· hãa tÊt c¶ c¸c tõ kho¸ xuÊt hiÖn trong kh«ng gian c¬ së d÷ liÖu th× ta chØ cÇn m· ho¸ c¸c tõ kho¸ xuÊt hiÖn trong tµi liÖu. Ngoµi ra cã mét c¸ch rÊt ®¬n gi¶n cã thÓ t¨ng ®é chÝnh x¸c t×m kiÕm lµ t¸ch riªng phÇn tiªu ®Ò cña tµi liÖu ra thµnh mét phÇn. Th«ng th−êng, c¸c tµi liÖu cã phÇn tiªu ®Ò thÓ hiÖn tãm t¾t néi dung Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 12 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext cña tµi liÖu, chÝnh v× vËy mµ chóng ta cã thÓ t¸ch phÇn tiªu ®Ò ra khái néi dung cña tµi liÖu vµ biÓu diÔn nã b»ng mét vector riªng, ®éc lËp víi phÇn néi dung. Khi ®ã ngoµi viÖc t×m kiÕm theo néi dung chóng ta sÏ ®−a thªm lùa chän t×m kiÕm theo tiªu ®Ò. V× phÇn tiªu ®Ò bao giê còng ng¾n h¬n phÇn néi dung rÊt nhiÒu nªn viÖc t×m kiÕm theo tiªu ®Ò sÏ diÔn ra rÊt nhanh mµ l¹i mang l¹i cho chóng ta ®é chÝnh x¸c t×m kiÕm cao h¬n. Víi bµi to¸n t×m kiÕm th× vÊn ®Ò tõ ®ång nghÜa nh− ®· nªu ë phÇn trªn cÇn ph¶i ®−îc triÓn khai nÕu kh«ng chóng ta sÏ chØ t×m ®−îc c¸c tµi liÖu chøa c¸c tõ cã trong c©u hái, cßn c¸c tµi liÖu cã cïng néi dung nh−ng cã c¸ch thÓ hiÖn kh¸c sÏ bÞ bá qua. §Ó gi¶i quyÕt vÊn ®Ò nµy lµ chóng ta x©y dùng mét b¶ng liÖt kª danh s¸ch c¸c tõ ®ång nghÜa thuéc nhiÒu ng«n ng÷ cïng víi c¸c hÖ sè t−¬ng quan vÒ mÆt ý nghÜa gi÷a chóng. Vµ trong mét nhãm c¸c tõ ®ång nghÜa mÆc dï cïng biÓu ®¹t mét néi dung nh−ng vai trß cña c¸c tõ cã thÓ kh¸c nhau do c¸c lý do sau: víi mét néi dung cô thÓ nµy th× tõ nµy hay ®−îc sö dông h¬n tõ kia, cßn víi mét néi dung cô thÓ kh¸c th× cã thÓ l¹i kh¸c [3,9,12]. ViÖc thèng kª vµ Ên ®Þnh hÖ sè cho c¸c tõ ®ång nghÜa trong mét nhãm c¸c tõ ®ång nghÜa lµ mét viÖc lµm phøc t¹p vµ r¾c rèi, ®ßi hái ph¶i cã tri thøc vÒ ng÷ nghÜa cña c¸c tõ trong nhiÒu ng«n ng÷ kh¸c nhau. V× vËy viÖc nµy cÇn nhËn ®−îc sù phèi hîp víi c¸c nhµ ng«n ng÷ häc. 1.1.2 C¬ së d÷ liÖu Hypertext Hypertext lµ thuËt ng÷ ®−îc Theodore Nelson ®−a ra lÇn ®Çu tiªn n¨m 1965 t¹i héi th¶o cña Héi to¸n häc Mü ACM lÇn thø 20. Theo Nelson th× Hypertext lµ c¸c tµi liÖu d¹ng ch÷ viÕt kh«ng liªn tôc. Chóng ®−îc ph©n nh¸nh vµ cho phÐp ng−êi ®äc cã thÓ chän c¸ch ®äc theo ý muèn cña m×nh, tèt nhÊt lµ nªn ®äc nã trªn c¸c mµn h×nh cã kh¶ n¨ng t−¬ng t¸c. HiÓu theo nghÜa th«ng th−êng th× Hypertext lµ mét tËp c¸c trang ch÷ viÕt ®−îc kÕt nèi víi nhau bëi c¸c liªn kÕt, vµ nã cho phÐp ng−êi ®äc cã thÓ ®äc theo c¸c c¸ch kh¸c nhau. Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 13 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext Hypertext còng cã thÓ bao gåm mét tËp ch÷ viÕt liªn tôc, vµ ®©y còng chÝnh lµ d¹ng phæ biÕn nhÊt cña ch÷ viÕt. Do kh«ng bÞ h¹n chÕ bëi tÝnh liªn tôc nªn trong Hypertext, chóng ta cã thÓ t¹o ra c¸c d¹ng tr×nh bµy míi, vµ nhê ®ã mµ tµi liÖu cña chóng ta sÏ ph¶n ¸nh tèt h¬n néi dung mµ chóng ta ®ang muèn viÕt. Vµ ng−êi ®äc cã thÓ chän cho m×nh mét c¸ch ®äc phï hîp, vÝ dô hä cã thÓ ®i s©u vµo mét vÊn ®Ò mµ hä thÝch thó, hoÆc cã thÓ tiÕp tôc m¹ch suy nghÜ hiÖn t¹i cña hä theo c¸ch mµ tõ tr−íc vÉn ®−îc coi lµ kh«ng thÓ. Theo tõ ®iÓn cña §¹i häc Oxford (Oxford English Dictionary Additions Series) th× Hypertext ®−îc ®Þnh nghÜa nh− sau: lµ lo¹i Text kh«ng ph¶i ®äc theo d¹ng liªn tôc ®¬n, vµ nã cã thÓ ®−îc ®äc theo c¸c thø tù kh¸c nhau; ®Æc biÖt lµ Text vµ ¶nh ®å ho¹ (Graphic) lµ c¸c d¹ng cã mèi liªn kÕt víi nhau theo c¸ch mµ ng−êi ®äc cã thÓ kh«ng cÇn ®äc nã mét c¸ch liªn tôc. VÝ dô khi ®äc mét cuèn s¸ch ng−êi ®äc kh«ng cÇn ®äc lÇn l−ît tõ ®Çu ®Õn cuèi mµ cã thÓ nh¶y cãc ®Õn c¸c ®o¹n kh¸c nhau ®Ó tham kh¶o c¸c vÊn ®Ò cã liªn quan. S¸ng kiÕn t¹o ra mét tËp c¸c v¨n b¶n cïng víi c¸c con trá trá tíi c¸c v¨n b¶n kh¸c mét c¸ch râ rµng ®Ó liªn kÕt mét tËp c¸c v¨n b¶n cã mèi quan hÖ víi nhau lµ mét c¸ch thùc sù hay vµ rÊt h÷u Ých ®Ó tæ chøc th«ng tin. Víi ng−êi viÕt, c¸ch nµy cho phÐp hä cã thÓ tho¶i m¸i lo¹i bá nh÷ng b¨n kho¨n vÒ thø tù tr×nh bµy nh÷ng vÊn ®Ò cã liªn quan ®Õn nhau ®Ó tËp trung vµo hoµn thµnh c¸c vÊn ®Ò nhá, vµ sau ®ã hä cã thÓ sö dông c¸c kÕt nèi ®Ó chØ ra cho ng−êi ®äc thÊy ®−îc c¸c vÊn ®Ò nhá ®ã cã mèi quan hÖ víi nhau nh− thÕ nµo. T¹i ®©y, theo mét nghÜa nµo ®ã, chóng ta gÆp l¹i t− t−ëng m« ®un hãa trong thiÕt kÕ thuËt to¸n vµ viÕt ch−¬ng tr×nh. Víi ng−êi ®äc, c¸ch nµy cho phÐp hä cã thÓ ®i t¾t trªn m¹ng th«ng tin vµ tù quyÕt ®Þnh phÇn th«ng tin nµo cã liªn quan ®Õn vÊn ®Ò hä ®ang quan t©m ®Ó tiÕp tôc t×m hiÓu. So s¸nh víi c¸ch ®äc tuyÕn tÝnh, tøc lµ ®äc lÇn l−ît, th× Hypertext ®· cung cÊp cho chóng ta mét giao diÖn ®Ó cã thÓ tiÕp xóc víi néi dung th«ng tin hiÖu qu¶ h¬n rÊt nhiÒu. Theo khÝa c¹nh cña thuËt to¸n häc m¸y th× Hypertext ®· cung cÊp cho chóng ta c¬ héi nh×n ra ngoµi ph¹m vi mét tµi liÖu ®Ó ph©n líp nã. TÊt nhiªn kh«ng ph¶i tÊt c¶ c¸c Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 14 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext tµi liÖu cã liªn kÕt ®Õn nã ®Òu cã Ých cho viÖc ph©n líp, ®Æc biÖt lµ khi c¸c siªu liªn kÕt cã thÓ chØ ®Õn rÊt nhiÒu lo¹i kh¸c nhau cña mèi quan hÖ gi÷a c¸c tµi liÖu. Tuy nhiªn ch¾c ch¾n vÉn cßn tån t¹i c¸c tiÒm n¨ng mµ con ng−êi cÇn tiÕp tôc nghiªn cøu vÒ viÖc sö dông c¸c tµi liÖu liªn kÕt ®Õn mét trang ®Ó n©ng cao ®é chÝnh x¸c ph©n líp trang ®ã. Tµi liÖu Hypertext (Hypertext document): mét tµi liÖu Text ®¬n n»m trong mét tËp Hypertext. NÕu chóng ta t−ëng t−îng tËp Hypertext nh− mét ®å thÞ th× mét tµi liÖu Text ®¬n lµ mét nót trong ®ã. Siªu liªn kÕt (Hypertext link): lµ mét sù tham kh¶o/kÕt nèi tõ mét tµi liÖu Hypertext nµy ®Õn mét tµi liÖu Hypertext kh¸c. C¸c siªu liªn kÕt ®ãng vai trß nh− nh÷ng ®−êng nèi trong ®å thÞ nãi trªn. H×nh 1.2 cho mét vÝ dô minh ho¹ ®¬n gi¶n vÒ tµi liÖu Hypertext. H×nh 1.2. §å thÞ minh ho¹ mèi quan hÖ gi÷a c¸c tµi liÖu Hypertext trong mét tËp tµi liÖu Hypertext Hypertext lµ lo¹i d÷ liÖu rÊt phæ biÕn hiÖn nay, vµ còng lµ lo¹i d÷ liÖu cã nhu cÇu t×m kiÕm vµ ph©n líp rÊt lín. Nã lµ lo¹i d÷ liÖu phæ biÕn trªn m¹ng th«ng tin Internet. C¬ së d÷ liÖu trang web (trang web lµ v¨n b¶n Hypertext phæ dông hiÖn nay) víi tÝnh chÊt “nöa cÊu tróc” do xuÊt hiÖn thªm c¸c “thΔ: thÎ cÊu tróc (tiªu ®Ò, më ®Çu, néi Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 15 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext dung), thÎ nhÊn tr×nh bµy ch÷ (®Ëm, nghiªng...). Nhê c¸c thÎ nµy mµ chóng ta cã thªm mét tiªu chuÈn (so víi tµi liªu Fulltext) ®Ó cã thÓ t×m kiÕm vµ ph©n líp chóng. Dùa vµo c¸c thÎ ®· quy ®Þnh tr−íc chóng ta cã thÓ ph©n thµnh c¸c ®é −u tiªn kh¸c nhau cho c¸c tõ kho¸ nÕu chóng xuÊt hiÖn ë c¸c vÞ trÝ kh¸c nhau. VÝ dô khi t×m kiÕm c¸c tµi liÖu cã néi dung liªn quan ®Õn “computer” th× chóng ta ®−a vµo tõ kho¸ t×m kiÕm lµ “computer”. Râ rµng c¸c tµi liÖu mµ tõ “computer” xuÊt hiÖn ë phÇn tiªu ®Ò sÏ cã néi dung nãi vÒ computer, vµ sÏ gÇn víi yªu cÇu t×m kiÕm cña chóng ta h¬n. 1.1.3 So s¸nh ®Æc ®iÓm cña d÷ liÖu Fulltext vµ d÷ liÖu trang web Nh− ®· ®−îc tr×nh bµy, trang web lµ mét d¹ng ®Æc biÖt cña d÷ liÖu Full-text. Qua kh¶o s¸t s¬ bé tÝnh chÊt cña hai lo¹i d÷ liÖu nµy, chóng t«i cã mét sè nhËn xÐt sau ®©y vÒ ®Æc ®iÓm gièng nhau vµ kh¸c nhau gi÷a trang web vµ mét trang Fulltext th«ng th−êng. B¶ng d−íi ®©y liÖt kª ra mét sè c¸c ®Æc ®iÓm kh¸c nhau c¬ b¶n nh− vËy. STT 1 Trang web V¨n b¶n th«ng th−êng (Fulltext) V¨n b¶n trang web lµ “nöa V¨n b¶n Fulltext lµ “phi cÊu cÊu tróc”. Trong néi dung cã phÇn tróc”. Trong phÇn néi dung kh«ng cã tiªu ®Ò, vµ cã c¸c thÎ nhÊn m¹nh mét tiªu chuÈn nµo cho phÐp chóng ta nghÜa cña tõ hoÆc côm tõ. 2 Néi dung cña c¸c trang web dùa vµo ®Ó ®¸nh gi¸. Néi dung cña v¨n b¶n Fulltext th−êng ®−îc m« t¶ ng¾n gän, c« th−êng rÊt chi tiÕt vµ ®Çy ®ñ. ®äng, cã c¸c siªu liªn kÕt chØ ®Õn c¸c web cã néi dung liªn quan 3 Trong néi dung c¸c trang C¸c trang v¨n b¶n th«ng th−êng web cã chøa c¸c siªu liªn kÕt cho kh«ng liªn kÕt ®−îc ®Õn néi dung cña phÐp liªn kÕt ®Õn c¸c trang kh¸c c¸c trang kh¸c cã néi dung liªn quan B¶ng 1.1. §èi s¸nh trang Web vµ trang Fulltext Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 16 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext 1.2 Tæng quan vÒ ph−¬ng ph¸p biÓu diÔn v¨n b¶n trong c¬ së d÷ liÖu trang web Cïng víi sù ph¸t triÓn nhanh chãng cña sè l−îng c¸c trang web trªn m¹ng m¸y tÝnh toµn cÇu Internet, còng nh− sè l−îng ng−êi dïng m¹ng Internet trong nh÷ng n¨m gÇn ®©y th× viÖc xö lý v¨n b¶n trang web còng nhËn ®−îc mèi quan t©m ®Æc biÖt. Do c¸c trang web chØ lµ c¸c tµi liÖu “nöa cÊu tróc” nªn viÖc biÓu diÔn trang web lµ ®Æc biÖt quan träng bëi v× viÖc biÓu diÔn lµ b−íc thùc hiÖn ®Çu tiªn, lµm tiÒn ®Ò cho viÖc gi¶i quyÕt rÊt nhiÒu bµi to¸n nh− t×m kiÕm, ph©n líp, ph©n côm v¨n b¶n... HiÖn nay cã rÊt nhiÒu c¸c c¸ch tiÕp cËn kh¸c nhau trong viÖc biÓu diÔn v¨n b¶n trong c¬ së d÷ liÖu trang web. Víi mçi môc ®Ých kh¸c nhau th× mçi ng−êi l¹i cã c¸ch biÓu diÔn trang web riªng. Cã thÓ kÓ ra mét sè c¸ch biÓu diÔn trang web kh¸c nhau nh−: D«na Mladenic [10], Se¸n Slattery [11] hay Hwanjo Yu, Jiawei Han, Kevin ChenChuan [14] coi trang web nh− v¨n b¶n th«ng th−êng vµ chän m« h×nh vector biÓu diÔn; c¸c m¸y t×m kiÕm nh− Yahoo, Altavista, Google hay Vietseek... kh«ng sö dông m« h×nh vector mµ sö dông hÖ thèng tõ khãa mãc nèi song kh«ng biÓu diÔn néi dung v¨n b¶n. Mét c¸ch tiÕp cËn kh¸c ®ang nhËn ®−îc mèi quan t©m cña nhiÒu ng−êi hiÖn nay, ®ã lµ c¸ch tiÕp cËn biÓu diÔn website, ®èi t−îng quan t©m kh«ng lµ webpage mµ lµ website: NghÜa lµ ®èi t−îng t×m kiÕm kh«ng ph¶i lµ c¸c trang web ®¬n n÷a mµ lµ c¶ mét website [6]. Sau ®©y chóng t«i giíi thiÖu s¬ bé vÒ mçi c¸ch tiÕp cËn biÓu diÔn v¨n b¶n trang web cïng mét sè nhËn xÐt ®¸nh gi¸ cña chóng t«i vÒ ®iÓm m¹nh vµ ®iÓm yÕu cña mçi c¸ch tiÕp cËn. Tr×nh bµy cña chóng t«i tu©n theo sù ph©n lo¹i, lo¹i ®Çu tiªn vÒ c¸c ph−¬ng ph¸p biÓu diÔn trang web ®¬n vµ lo¹i thø hai vÒ c¸c ph−¬ng ph¸p biÓu diÔn website. V× c¸c ph−¬ng ph¸p biÓu diÔn trang web ®¬n lµ ®èi t−îng nghiªn cøu cña luËn v¨n mµ sÏ ®−îc kh¶o s¸t kü l−ìng trong c¸c ch−¬ng sau cña luËn v¨n, nªn trong phÇn d−íi ®©yluËn v¨n tr×nh bµy mét c¸ch s¬ l−îc nh÷ng néi dung nµy. Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 17 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext 1.2.1 Giíi thiÖu s¬ bé vÒ c¸c ph−¬ng ph¸p biÓu diÔn trang web • Ph−¬ng ph¸p biÓu diÔn trang web trong c¸c m¸y t×m kiÕm Trong hÇu hÕt c¸c m¸y t×m kiÕm hiÖn nay ®Òu kh«ng sö dông m« h×nh vector ®Ó biÓu diÔn c¸c trang web. Nh»m gi¶i quyÕt bµi to¸n t×m kiÕm theo côm tõ, c¸c m¸y t×m kiÕm hiÖn nay sö dông ph−¬ng ph¸p biÓu diÔn v¨n b¶n trang web theo x©u c¸c tõ khãa xuÊt hiÖn trong v¨n b¶n ®ã. Trong mét sè tr−êng hîp, ®Ó phôc vô cho viÖc t×m kiÕm nhanh c¸c v¨n b¶n chøa mét tõ do ng−êi dïng ®−a vµo, tõ khãa ®−îc coi lµ ®èi t−îng trung t©m cña hÖ thèng (xem môc 2.1.2). Lý do kh«ng sö dông m« h×nh vector ®Ó biÓu diÔn trang web trong c¸c m¸y t×m kiÕm ®−îc diÔn gi¶i theo c¸c lËp luËn sau ®©y. Trong c¸c c¬ së d÷ liÖu Fulltext truyÒn thèng, c¸c tµi liÖu cã cÊu tróc th«ng tin ®ång nhÊt (vÒ néi dung, ng«n ng÷ diÔn ®¹t, ®Þnh d¹ng file...), chóng phæ biÕn lµ tËp c¸c tµi liÖu trong cïng mét lÜnh vùc hÑp nµo ®ã, vµ th−êng lµ ®−îc kiÓm so¸t tèt. Do ®ã viÖc sö dông m« h×nh vector ®Ó biÓu diÔn lµ rÊt phï hîp. Trong khi ®ã c¬ së d÷ liÖu trang web lµ mét c¬ së d÷ liÖu phøc t¹p c¶ vÒ néi dung, kÝch th−íc lÉn h×nh thøc tr×nh bµy. Nh÷ng ng−êi thiÕt kÕ m¸y t×m kiÕm coi r»ng hÖ thèng trang Web lµ mét tËp d÷ liÖu khæng lå, kh«ng ®ång nhÊt vµ rÊt khã kiÓm so¸t. Kh«ng ai cã thÓ biÕt chÝnh x¸c ®−îc kÝch th−íc cña web hiÖn nay ra sao, vµ nã sÏ tiÕp tôc ph¸t triÓn nh− thÕ nµo vÒ néi dung lÉn kÝch th−íc, v× hÇu nh− mäi ng−êi ®Òu cã thÓ xo¸, söa ch÷a vµ ®−a thªm c¸c trang míi lªn Internet bÊt cø lóc nµo. Web ®a d¹ng c¶ vÒ néi dung, ng«n ng÷ (ng«n ng÷ cña con ng−êi vµ ng«n ng÷ m¸y) lÉn ®Þnh d¹ng file (text, HTML, PDF, images, sounds...) chÝnh v× thÕ mµ viÖc sö dông m« h×nh vector ®Ó biÓu diÔn cã thÓ lµ kh«ng cßn phï hîp n÷a mµ cÇn ph¶i sö dông c¸c m« h×nh biÓu diÔn kh¸c hoÆc ph¶i c¶i tiÕn m« h×nh vector ®Ó cã thÓ phï hîp víi viÖc xö lý web. Trong ph−¬ng ¸n phæ biÕn hiÖn nay trong c¸c m¸y t×m kiÕm, ng−êi ta ch−a sö dông m« h×nh vector ®Ó biÓu diÔn trang web. C¸c m¸y t×m kiÕm xö lý bµi to¸n t×m kiÕm trang web b»ng c¸ch kiÓm so¸t néi dung cña c¸c trang theo hÖ thèng c¸c tõ khãa vµ kiÓm so¸t c¸c mèi liªn kÕt gi÷a c¸c trang. C¸c m¸y t×m kiÕm ph©n tÝch c¸c trang ®Ó lÊy ra c¸c tõ khãa xuÊt hiÖn trong c¸c Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 18 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext trang ®ã vµ l−u tr÷ ®Ó lµm c¬ së cho viÖc t×m kiÕm theo néi dung. Trong khi ph©n tÝch c¸c tõ trong trang web th× c¸c m¸y t×m kiÕm ®Òu ghi l¹i c¸c th«ng tin chung nhÊt vÒ tõ nh−: vÞ trÝ xuÊt hiÖn trong trang, ch÷ hoa hay ch÷ th−êng... nªn cã thÓ sö dông ®−îc c¸c th«ng tin tiÒm Èn mµ ng−êi viÕt c¸c trang web ®ã muèn diÔn ®¹t. C¸c m¸y t×m kiÕm cßn ph©n tÝch ®−îc c¸c mèi liªn kÕt gi÷a c¸c trang ®Ó phôc vô cho viÖc xÕp h¹ng c¸c trang lµm c¬ së ®Ó s¾p xÕp c¸c trang kÕt qu¶ khi hiÓn thÞ cho ng−êi dïng. Chi tiÕt vÒ c¸ch biÓu diÔn còng nh− xö lý tµi liÖu web trong c¸c m¸y t×m kiÕm ®−îc ®Ò cËp ®Õn ë phÇn 2.1 cña luËn v¨n nµy. • C¸c ph−¬ng ph¸p dùa trªn m« h×nh vector Ph¸t triÓn kÕt qu¶ cña c¸c nghiªn cøu tr−íc ®©y, trong luËn v¨n tiÕn sÜ n¨m 2002 cña m×nh, Se¸n Slattery [11] ®· giíi thiÖu vµ ®Ò xuÊt sö dông m« h×nh vector biÓu diÔn v¨n b¶n. Trong lÜnh vùc xö lý v¨n b¶n truyÒn thèng tõ tr−íc ®Õn nay th× th«ng th−êng vÉn thùc hiÖn c¸c c«ng viÖc biÓu diÔn, t×m kiÕm, ph©n líp ... trªn c¬ së coi trang web nh− lµ c¸c trang v¨n b¶n th«ng th−êng vµ sö dông m« h×nh kh«ng gian vector ®Ó biÓu diÔn v¨n b¶n. Còng tiÕn hµnh viÖc biÓu diÔn vµ xö lý tµi liÖu web dùa trªn c¸ch tiÕp cËn ®ã, tuy nhiªn Se¸n Slattery còng ®· cã nh÷ng c¶i tiÕn ®Ó cã thÓ tËn dông ®−îc tÝnh nöa cÊu tróc, ®Æc biÖt lµ khai th¸c thÕ m¹nh cña siªu liªn kÕt trong v¨n b¶n. Se¸n Slattery ®· sö dông c¸c siªu liªn kÕt gi÷a c¸c trang web ®Ó cã thÓ lÊy ®−îc c¸c th«ng tin vÒ mèi liªn hÖ gi÷a néi dung c¸c trang, vµ dùa vµo ®ã ®Ó n©ng cao hiÖu qu¶ ph©n líp vµ t×m kiÕm. Tuy nhiªn, mét sè ph−¬ng ph¸p theo c¸ch thøc khai th¸c yÕu tè siªu liªn kÕt l¹i lµm t¨ng nhanh kÝch th−íc vector biÓu diÔn v¨n b¶n trang web vµ v× vËy mét sè c¶i tiÕn nh»m kh¾c phôc t×nh huèng nµy ®· ®−îc ®Ò xuÊt. C¶i tiÕn c¸c ph−¬ng ph¸p biÓu diÔn cña Se¸n Slattery, chóng t«i còng ®Ò xuÊt bæ sung thªm mét ph−¬ng ph¸p biÓu diÔn kh¸c. Mét sè t¸c gi¶ kh¸c ®−a ra c¸ch c¶i tiÕn ®Þnh h−íng vµo viÖc c¸ch liÖt kª thªm c¸c tõ khãa tõ c¸c trang web l¸ng giÒng b»ng c¸ch chØ bæ sung c¸c tõ khãa xuÊt hiÖn trong Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc 19 Mét sè gi¶i ph¸p cho bµi to¸n t×m kiÕm trong CSDL Hypertext ®o¹n v¨n b¶n l©n cËn víi siªu liªn kÕt. VÊn ®Ò nµy hiÖn còng ®ang ®−îc quan t©m nghiªn cøu vµ triÓn khai. ¦u ®iÓm cña tÊt c¶ c¸c ph−¬ng ph¸p biÓu diÔn trªn ®©y lµ võa khai th¸c ®−îc thÕ m¹nh cña m« h×nh vector trong biÓu diÔn v¨n b¶n l¹i võa ®−a thªm ®−îc yÕu tè liªn kÕt cña c¸c trang web theo c¸c siªu liªn kÕt. Chi tiÕt theo c¸ch tiÕp cËn biÓu diÔn trang web theo m« h×nh vector, mµ träng t©m lµ c¸c gi¶i ph¸p cña Se¸n Slattery bao gåm c¸ch biÓu diÔn webpage do luËn v¨n ®Ò xuÊt, ®−îc ®Ò cËp t¹i phÇn 2.2.2 cña luËn v¨n. 1.2.2 C¸ch tiÕp cËn theo web site C¸ch tiÕp cËn theo website lµ c¸ch coi ®èi t−îng t×m kiÕm lµ c¸c web site thay cho c¸c trang web trong c¸ch tiÕp cËn th«ng th−êng. Vµo nh÷ng n¨m 1999-2000, mét sè t¸c gi¶ [2,4] ®· ®Ò xuÊt s¬ bé vÒ viÖc sö dông website nh− ®èi t−îng cña biÓu diÔn, ph©n líp vµ t×m kiÕm. Ph¸t triÓn c¸c ®Ò xuÊt ®ã, trong c«ng tr×nh nghiªn cøu khoa häc [6], Martin Ester, Hans-Peter Kriegei, Matthias Schubert ®· tr×nh bµy gi¶i ph¸p kh¸ ®Çy ®ñ vÒ vÊn ®Ò nµy. • C¬ së thùc tiÔn cña ph−¬ng ph¸p tiÕp cËn website Toµn bé mét website (cÊu tróc vµ néi dung cña nã) th−êng cho th«ng tin kh¸ trän vÑn vÒ lÜnh vùc ho¹t ®éng cña mét c«ng ty, mét c¬ quan, mét tæ chøc ... Tuy nhiªn, khi chiÕt xuÊt th«ng tin tõ Internet th× hÇu hÕt c¸c ph−¬ng ph¸p ®· thiÕt lËp ®Òu tËp trung vµo viÖc ph¸t hiÖn ra c¸c trang web ®éc lËp, cßn viÖc ph¸t hiÖn hoµn toµn c¸c website th× vÉn ch−a ®−îc quan t©m tháa ®¸ng, mÆc dï vÊn ®Ò nµy rÊt quan träng trong nhiÒu lÜnh vùc. VÝ dô trong lÜnh vùc th−¬ng m¹i vÒ C«ng nghÖ th«ng tin, khi mµ c¸c s¶n phÈm vµ c¸c dÞch vô thay ®æi víi tèc ®é nhanh chãng th× mét hÖ thèng cã n¨ng lùc ®Æc biÖt trong viÖc ph¸t hiÖn c¸c website vµ cung cÊp kh¶ n¨ng ®Ó t×m kiÕm c¸c website ®ã sÏ rÊt cã Ých. Ngµy nay hÇu hÕt c¸c c«ng ty kinh doanh vµ bu«n b¸n trong tÊt c¶ c¸c lÜnh vùc ®Òu thiÕt lËp c¸c website giíi thiÖu vÒ m×nh trªn WWW. Toµn bé néi dung vµ cÊu tróc cña c¸c website th−êng ®−îc thiÕt kÕ cã môc ®Ých vµ dùa vµo néi dung cung cÊp Ph¹m ThÞ Thanh Nam – LuËn v¨n cao häc
- Xem thêm -

Tài liệu liên quan