Đăng ký Đăng nhập
Trang chủ Xây dựng công cụ hỗ trợ tối ưu hóa website cho các công cụ tìm kiếm...

Tài liệu Xây dựng công cụ hỗ trợ tối ưu hóa website cho các công cụ tìm kiếm

.PDF
91
198
81

Mô tả:

1 Mở đầu Tóm lƣợc đề tài Hiện nay, với sự phát triển không ngừng của công nghệ, máy tính nói chung hay World Wide Web (www) nói riêng là một môi trường phổ biến để người dùng có thể tìm kiếm, quảng cáo, xây dựng thương hiệu trên đó quả thật nó đem lại một lợi ích không nhỏ cho con người. Với hàng tỷ webstie đang tồn tại, đi kèm với nó là một khối lượng thông tin vô cùng to lớn. Chính vì sự khổng lồ của thông tin như vậy dẫn đến việc tìm kiếm và tổng hợp thông tin không thuận lợi, gây nhiều khó khăn để có được một kết quả tìm kiếm như mong muốn. Người dùng ngày nay có thói quen sử dụng những công cụ tìm kiếm hơn là phải nhớ chính xác một website nào đó. Với rất nhiều dữ liệu mà bộ máy tìm kiếm đang lưu trữ không những là nguồn tài nguyên không giới hạn mà còn là một quyển bách khoa toàn thư cho người dùng nhưng cũng là thách thức rất lớn đối với các công cụ tìm kiếm, khi đó sẽ nảy sinh một vấn đề: làm thế nào để bộ máy tìm kiếm trả về kết quả tìm kiếm của người dùng một cách nhanh chóng và chính xác. Theo khảo sát mới của hãng nghiên cứu internetworldstats [20], có đến 90% người sử dụng Internet dùng công cụ tìm kiếm để tra cứu thông tin. Và theo thống kê có hơn (60%) số lượng website trên thế giới sử dụng không đúng những tiêu chí đánh giá mà các công cụ tìm kiếm đưa ra, nên các website mang nội dung chính xác mà người dùng cần tìm lại có tỉ lệ xuất hiện ở các công cụ tìm kiếm là rất thấp. Phát hiện một website bị lỗi về mặt tối ưu hóa là một bài toán được đặt ra trước nhu cầu thực tế đó, sẽ giúp cho các công cụ tìm kiếm hiểu được bố cục, nâng cao chất lượng và tăng hiệu quả đánh chỉ mục. Điều chỉnh lại những tiêu chí đánh giá của các công cụ tìm kiếm đưa ra trên mỗi website cũng là một vấn đề hết sức thực tế, sẽ giúp công cụ tìm kiếm tiết kiệm thời 2 gian trong việc sàng lọc thông tin, tổng hợp từ khóa chính, từ khóa miêu tả, link lên kết trong website và ngoài website. Nhận thấy đây là một đề tài mang tính khoa học cao, là nền tảng ứng dụng thực tế và quan trọng là từ phương pháp nghiên cứu đề tài này có thể mở rộng để nghiên cứu cho mọi loại website trên thế giới. Nên tác giả quyết định chọn đề tài “xây dựng công cụ hỗ trợ tối ưu hóa website cho các công cụ tìm kiếm” để làm đề tài luận văn. Đề tài tập trung vào việc phân tích, đánh giá website và đề xuất một phương pháp điều chỉnh phù hợp, bên cạnh đó áp dụng phương pháp này vào việc xây dựng một công cụ nhằm cải thiện vị trí xếp hạng trong công cụ tìm kiếm. Mục tiêu của Luận văn này sẽ đưa ra những khuyên, lời tư vấn cho người duyệt web, kể cả những người chủ website những kiến thức cơ bản và chuyên sâu về SEO, làm thế nào để SEO một website hiệu quả. Phân biệt được những hình thức tối ưu trong trang và tối ưu ngoài trang, một số cách phòng chống SEO mũ đen, cung cấp công cụ tạo sitemap trực tuyến, đưa ra những chỉ dẫn nhằm tối ưu hóa các tiêu chí của công cụ tìm kiếm, giới thiệu những công cụ hỗ trợ tốt nhất hiện nay để các webmaster có được thông tin cần thiết để tối ưu hóa website. Song song với kiến thức về SEO, chúng tôi sẽ tiến hành thực hiện một web crawler để thu thập thông tin từ website người dùng để người dùng có được những thông báo những tối ưu cụ thể. Công cụ được xây dựng trên nền tảng web thân thiện dễ sử dụng. Nội dung thực hiện đề tài - Tìm hiểu các tiêu chí đánh giá của công cụ tìm kiếm cụ thể như: + SEO onpages + SEO offpages - Thiết kế và xây dựng công cụ hỗ trợ tối ưu hóa website dựa theo các tiêu chí đánh giá của công cụ tìm kiếm. 3 Phạm vi ứng dụng Công cụ được xây dựng nhằm mục đích hỗ trợ cho những nhà quản trị web để có được những thông tin bổ ích từ đó họ sẽ có được những chiến lược phù hợp để SEO website. Công cụ không tiến hành phân tích từ khóa bởi tiến hành khá phức tạp và tầm chính xác không cao. Để xử lý từ khóa hiện Google có hỗ trợ một công cụ phân tích khá tốt sẽ được nhắc đến ở phần sau. 4 CHƢƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu Vào đầu thập niên 90, sự xuất hiện của World Wide Web đã chính thức bắt đầu cho cuộc cách mạng internet bởi nó giúp cho chúng ta có thể tìm kiếm thông tin một cách nhanh chóng. Đến năm 1994, trình duyệt web đầu tiên ra đời được phát triển bởi tập đoàn Nescape làm thay đổi cách giao tiếp của con người với internet. Số lượng trang web gia tăng nhanh chóng, thế nên thông tin mà nó mang lại là vô cùng to lớn. Sự phát triển thông tin trên internet làm cho nhu cầu trao đổi, tìm kiếm thông tin trên mạng ngày càng nhiều khi đó nảy sinh một vấn đề: làm thế nào để tìm được dữ liệu mong muốn một cách nhanh nhất và chính xác nhất? Sự ra đời của các hệ thống tìm kiếm đã đáp ứng được nhu cầu trên, với những công cụ như: Google, Yahoo!, Bing, Ask, Wolfram Alpha, … Nhận thấy được tiền năng của Internet trong thời đại công nghệ thông tin, các doanh nghiệp bắt đầu xây dựng các website, nhằm quảng bá thương hiệu của mình đưa khách hàng đến gần với sản phẩm hơn. Thế nhưng sự cạnh tranh của các doanh nghiệp là điều không thể tránh khỏi, thông tin sản phẩm có đến với khách hàng hay không phụ rất nhiều vào một chiến lược marketing hợp lý. Ngày nay, với sự bùng nổ của Internet và sự thay đổi thói quen mua sắm, tiếp cận thông tin của người dùng internet thì một thương hiệu có nổi tiếng trên mạng hay không phụ thuộc vào thứ hạng có xuất hiện đầu tiên trên công cụ tìm kiếm. Theo nghiên cứu các hoạt động online tại Mỹ, của Pew Internet & American Life Project (4/2013) thì có tới 80% người trưởng thành sử dụng công cụ tiềm kiếm. Trong các công cụ tiềm kiếm Google vẫn giữ vị trí thống trị với 67,5% tiếp theo là Bing 16.7% và Yahoo! chiếm 11.6%, Ask là 2.6% ... (theo comscore tháng 3/2013 tại Mỹ). Còn tại thị trường tiềm kiếm trên thế giới Google vẫn chiếm vị trí thống lĩnh với 83,22% (4/2013 – Net Market Share) và chiếm độc tôn trên thị trường di động. 5 Chúng ta có thể thấy rằng những chỉ số ở trên đã chứng tỏ một điều là hoạt động tìm kiếm trên internet là một thị trường quảng cáo tiếp cận khách hàng tiềm năng vô cùng dễ dàng và nhanh chóng. Bởi vì, khi sử dụng các công cụ tìm kiếm, người sử dụng xác định được trước điều mình cần và sản phẩm mình muốn, thống kê trên thế giới, khoảng 70% số lượng người tìm không tìm hết các kết quả tiềm kiếm ở trang đầu tiên, 97% không xem kết quả tìm kiếm đến trang thứ 3. Ở Việt Nam khoảng 97.23% số lượng người truy cập vào công cụ tìm kiếm Google (theo Net Market Share tháng 4/2013). Bên cạnh việc sử dụng các dịch vụ quảng cáo của các công cụ tiềm kiếm như Google, Yahoo!, Bing, Ask, … hoặc các dịch vụ Marketing Online, thì nhiều doanh nghiệp hiện nay thực sự quan tâm đến việc làm thế nào để đưa thương hiệu của mình đến gần hơn với người sử dụng mà chi phí thì giảm thấp nhất. SEO (Search Engine Optimization) đã trở nên rất quen thuộc trên thế giới và đang trên đà phát triển rộng rãi tại Việt Nam. 1.2 Mục tiêu đề tài - Liệt kê những thông tin của website dựa trên nguồn HTML - Xây dựng một quy trình chặt chẽ, nhằm đáp ứng tốt nhất các tiêu chí mà công cụ tìm kiếm đánh giá là thân thiện. - Phân tích và thống kê tất cả các tiêu chí đã thực hiện trên website và đưa ra kiến nghị cần thiết phải bổ sung để tối ưu hóa về mặt cấu trúc của website. - Xây dựng công cụ hỗ trợ tối ưu hóa website dựa theo các tiêu chí đánh giá của công cụ tìm kiếm nhằm cải thiện vị trí xếp hạng. 1.3 Phƣơng pháp thực hiện đề tài Để tiếp cận những vấn đề trên cần phải có kiến thức tối thiểu về lập trình. Do đó phương pháp nghiên cứu là:  Khảo sát tổng quan về vấn đề nghiên cứu. 6 Tham khảo các tài liệu, báo chí đã phát hành về lĩnh vực đang nghiên cứu. Tìm hiểu các cách thức tối ưu hóa để website phù hợp với công cụ tìm kiếm, đặc trưng ở các tiêu chí đánh giá sau:  Tối ưu hóa trong trang o Thẻ title: miêu tả ngắn gọn và chính xác nội dung trang web o Thẻ meta description: miêu tả tự nhiên nội dung trang web o Thẻ meta keyword: là những từ khóa tối ưu hóa o Thẻ heading h1, h2, h3 của trang o Thuộc tính ALT của hình ảnh o Thuộc tính TITLE trong thẻ Anchor text (thẻ a)  Tối ưu hóa ngoài trang o Liên kết trong trang  Liên kết với những link đã tồn tại ở website của mình o Liên kết ngoài trang  Liên kết với các website khác có cùng lĩnh vực Phân tích từng phần trong toàn bộ cấu trúc HTML của website, các phương pháp là:  Duyệt toàn bộ mã HTML của website.  So sánh mã HTML của website với tính đầy đủ các tiêu chí mà công cụ tìm kiếm đưa ra.  Dựa trên các tiêu chí để chỉ ra những thiếu sót và dư thừa trong trang web. Nghiên cứu và đưa ra những giải pháp tối ưu hóa website nhằm đáp ứng tốt các tiêu chí mà công cụ tìm kiếm đưa ra, cụ thể các phương pháp như:  Phân tích các tiêu chí đã có trên website.  Xây dựng các giải pháp cho từng trường hợp. 7 Rút ra kết luận, dùng phương pháp thống kê dựa vào kết quả dò tìm và đưa ra các đề nghị chỉnh sửa. Xây dựng công cụ dựa trên ngôn ngữ PHP và hệ quản trị CSDL MYSQL Thử nghiệm công cụ với những website thực tế ở địa bàn Đồng Nai để đánh giá tính hiệu quả như: cải thiện thứ hạng website ở kết quả tìm kiếm theo tiêu chí SEO. 1.4 Bố cục luận văn Phần còn lại của luận văn gồm có bố cục như sau. Chương 2 sẽ nói về những công trình liên quan, Chương này sẽ điểm qua một số công trình nghiên cứu trong và ngoài nước, để đánh giá quy mô, tầm ảnh hưởng với nhu cầu thực tế để có hướng đi đúng đắn. Chương 3 đi vào cơ sở lý thuyết, trong chương này sẽ tìm hiểu cách thức hoạt động của các công cụ tìm kiếm, làm thế nào để lập một kế hoạch SEO hoàn hảo, cách lựa chọn tên miền, hosting hiệu quả, ngôn ngữ lập trình web có ảnh hưởng đến SEO ra sao, tối ưu hóa trong trang với những thẻ như title, a, h1, h2, h3, meta, img. Cách lựa chọn từ khóa hiệu quả, nên đặt từ khóa ở đâu, mật độ như thế nào cho hiệu quả, ngoài ra còn đề cập đến tối ưu hóa ngoài trang như xây dựng backlink, sử dụng dịch vụ pay per click như thế nào hiệu quả. Chương 4 sẽ đi xây dựng ứng dụng tối ưu hóa website theo tiêu chí đánh giá của các công cụ tìm kiếm. Đưa ra bài toán thực hiện, và hướng giải quyết và kết quả đạt được cho mỗi công cụ trong chương trình. 8 CHƢƠNG 2: NHỮNG CÔNG TRÌNH LIÊN QUAN 2.1 Tình hình nghiên cứu trong và ngoài nƣớc 2.1.1 Tình hình ngoài nƣớc Vấn đề tối ưu hóa website nhận được sự quan tâm của cộng đồng công nghệ thông tin trên thế giới, các công trình nghiên cứu liên quan đến tối ưu hóa website như:  Bài báo “A Study on SEO Monitoring System Based on Corporate Website Development” tạm dịch Nghiên cứu hệ thống giám sát SEO dựa trên sự phát triển website của doanh nghiệp, của 2 tác giả là phó Giáo Sư Rakesh Kumar và học giả nghiên cứu Shiva Saini, Kurukshetra University, đăng trên tạp chí International Journal of Computer Science, Engineering and Information Technology (IJCSEIT) (2011).[11] Bài báo này nói về hệ thống cung cấp hiệu suất trong việc theo dõi các kỹ năng SEO của website, và cung cấp thông tin hỗ trợ phù hợp để tối ưu hóa trên công cụ tìm kiếm.  Bài báo: “Academic Search Engine Optimization (ASEO)” của 3 tác giả Joeran Beel, Bela Gipp, and Erik Wilde, University of Toronto (tháng 1 – 2010).[9] Bài báo này giới thiệu và thảo luận các khái niệm về tối ưu hóa công cụ tìm kiếm (ASEO). Ngoài ra, còn thảo luận những rủi ro của việc tối ưu hóa bất hợp pháp.  Bài báo “Search Engine Optimization (SEO) as a dynamic online promotion technique” của tác giả George S. Spais, Hy Lạp (năm 2010).[5] Bài báo nêu ra khái niệm để tiếp cận công cụ tìm kiếm được sử dụng để hỗ trợ cho việc thiết kế, phân tích, điều tra kỹ thuật SEO. Các đề tài trên đều có ưu điểm cụ thể như đưa nội dung của website sát với những tiêu chí mà các công cụ tìm kiếm đưa ra nhưng các đề tài này không tập trung vào tối 9 ưu hóa các website có nội dung là bảng mã UTF8. Để áp dụng cho những website ở Việt Nam thì độ tối ưu không cao, vì các công cụ tìm kiếm hiểu từ khóa có dấu và từ khóa không dấu là 2 từ khóa khác nhau. 2.1.2 Tình hình trong nƣớc  Luận văn tốt nghiệp đại học “Xây dựng công cụ hỗ trợ tối ưu website với SEO (Search Engine Optimization)”, là công trình nghiên cứu của hai sinh viên Nguyễn An Huy và Nguyễn Tiến Nghĩa của Trường Đại Học Bách Khoa Tp.Hồ Chí Minh, với nội dung cơ bản là cung cấp những kiến thức cơ bản về SEO và làm thế nào để SEO một website hiệu quả.[11]  Có các câu lạc bộ về SEO (search engine optimization) Việt Nam cũng có những bài viết, báo cáo đăng trên các tạp chí.[6] Các bài báo trên đều có những ưu điểm nhất định, tuy nhiên các báo cáo mang tính chất giới thiệu, khái niệm cơ bản, chưa đi sâu vào những kỹ thuật đánh giá chuẩn. Phát hiện một website bị lỗi về mặt tối ưu hóa là một bài toán được đặt ra trước nhu cầu thực tế đó, sẽ giúp cho các công cụ tìm kiếm hiểu được bố cục, nâng cao chất lượng và tăng hiệu quả đánh chỉ mục. Điều chỉnh lại những tiêu chí đánh giá của các công cụ tìm kiếm đưa ra trên mỗi website cũng là một vấn đề hết sức thực tế, sẽ giúp công cụ tìm kiếm tiết kiệm thời gian trong việc sàng lọc thông tin, tổng hợp từ khóa chính, từ khóa miêu tả, link lên kết trong website và ngoài website. Nhận thấy đây là một đề tài mang tính khoa học cao, là nền tảng ứng dụng thực tế và quan trọng là từ phương pháp nghiên cứu đề tài này có thể mở rộng để nghiên cứu cho mọi loại website trên thế giới. Nên tác giả quyết định chọn đề tài “xây dựng công cụ hỗ trợ tối ƣu hóa website cho các công cụ tìm kiếm” để làm đề tài luận văn. Đề tài tập trung vào việc phân tích, đánh giá website và đề xuất một phương pháp điều chỉnh phù hợp, bên cạnh đó áp dụng phương pháp này vào việc xây dựng một công cụ nhằm cải thiện vị trí xếp hạng trong công cụ tìm kiếm. 10 CHƢƠNG 3: CƠ SỞ LÝ THUYẾT 3.1 Khái niệm SEO - Search Engine 3.1.1 Khái niệm SEO – Search Engine Optimization SEO được hiểu là tập hợp những phương pháp nhằm nâng cao thứ hạng Website trên các công cụ tiềm kiếm. Mục tiêu của SEO là đưa trang web lên hàng đầu kết quả tìm kiếm theo một từ khóa cụ thể. Nhưng chủ yếu là tinh chỉnh các thành phần thiết kế và nội dung. Nó còn được hiểu là một phần của quá trình quảng bá web. SEO thường gồm hai quá trình: Tối ưu hóa các yếu tố trên trang (SEO onpage) và tối ưu hóa của yếu tố bên ngoài trang (SEO offpage). Cần phân biệt rõ khái niệm SEM và SEO [10], SEM (Search Engine Marketing) là tập hợp tất cả mọi thứ mà chúng ta cần làm để đảm bảo rằng trang web được sắp xếp trang hàng cao nhất trong kết quả tìm kiếm. Điều này có nghĩa là không chỉ thực hiện SEO trên trang web mà còn sử dụng những chiến thuật khác, như sử dụng dịch dụ quảng cáo trả tiền PPC (Pay Per Click) hay đầu tư vào viết nội dung chuẩn SEO. 3.1.2 Sự cần thiết của SEO Trên thế giới ảo, sự xuất hiện đầu tiên trên trang kết quả tìm kiếm sẽ có cơ hội thu hút nhiều người tìm kiếm truy cập hơn. Vì vậy nếu làm SEO tốt sẽ làm tăng được lượng người truy cập từ các trang web tìm kiếm. Thậm chí, một chuyên gia quảng cáo mạng cho rằng “trên Internet, thương hiệu không là gì cả. Xuất hiện cao trên kết quả tìm kiếm mới quan trọng”. 3.1.3 Giới thiệu về Search Engine Search engine nguyên thủy là một phần mền nhằm tìm kiếm các trang web trên mạng internet. Những thông tin thu nhập đó thường là từ khóa hay những cụm từ, những thông tin này có thể là toàn bộ nội dung của trang web, URL, các mã (code) tạo thành web, và các liên kết (link) trong và ngoài trang web. Các thông tin này được đánh chỉ số index và lưu trong cơ sở dữ liệu.[18] 11 Search Engine là công cụ được xây dựng trên nền tảng web cho phép người sử dụng tìm kiếm thông tin, chúng ta có thể tìm bất kỳ thông tin nào bằng cách gõ vào từ khóa (keyword) cần tìm kiếm, bộ máy tìm kiếm sẻ trả về một danh sách kết quả các trang web có nội dung liên quan đến từ khóa đến từ khóa mà chúng ta nhập vào. Internet chứa hầu như tất cả những thông tin liên quan tới mọi lĩnh vực, mọi ngõ ngách trong cuộc sống. Nhưng nó rất rộng, rộng đến mức gần như không ai có thể kiểm soát được. Diện mạo của internet lại thay đổi quá nhanh chóng và mạnh mẽ. Với số lượng lên tới hàng chục tỉ trang, được lưu trữ trong hàng triệu server đặt khắp nơi trên toàn thế giới. Có thể ví internet như một biển dữ liệu khổng lồ, với muôn vàn những viên ngọc quí nằm giữa các hạt sạn. Trong đời sống hàng ngày, nhu cầu tìm kiếm thông tin đóng vai trò vô cùng to lớn, và một trong những vấn đề bức thiết nhất của công nghệ hiện nay là làm sao “đãi cát tìm vàng”, khai thác nguồn tài nguyên này một cách hợp lí, đem lại lợi ích tốt nhất cho con người. Trước đây, người ta thường chia dữ liệu cần lưu trữ làm nhiều mục, đến lượt các mục con này lại được chia nhỏ hơn. Tuy nhiên, những chủ đề được nêu trong Internet đã rộng lớn đến nỗi sự phân chia này trở nên cực kì cồng kềnh và bất tiện. Ngày nay, hầu hết mọi người đều sử dụng Search Engine để tìm kiếm thông tin. Hình 3.1.1-1 Giao diện nhập từ khóa để tìm kiếm (Nguồn: google.com.vn) Đối với mỗi Search Engine (Google, Yahoo!, Bing, Ask v.v…), người dùng truy vấn tìm kiếm hay nói đơn giản hơn là nhập vào một số từ khóa liên quan đến chủ đề cần 12 tìm và nhận được một danh sách các trang kết quả thông thường là những trang web chứa các từ khóa cần tìm kiếm, được sắp xếp theo một tiêu chí nào đó. Những tiêu chí này đều nhằm mục đích “đưa ra kết quả phù hợp nhất với yêu cầu tìm kiếm”. 3.1.4 Phân loại Search Engine Thuật ngữ "Cỗ máy tìm kiếm - Search Engine" được dùng chung để chỉ 2 hệ thống tìm kiếm: Một do các chương trình máy tính tự động tạo ra (Crawler-Based Search Engines) và dạng thư mục internet do con người quản lý (Human-Powered Directories). Hai hệ thống tìm kiếm này tìm và lập danh mục website theo 2 cách khác nhau. Crawler-Based Search Engines - Hệ thống tìm kiếm trên nền tự động Những cỗ máy tìm kiếm tự động, như Google, tạo ra những danh sách của họ tự động. Chúng sử dụng các chương trình máy tính, được gọi là "robots", "spiders", hay crawlers để lần tìm thông tin trên mạng. Khi có ai đó tìm kiếm một thông tin, các Search engine lập tức hiển thị các thông tin lưu trữ tương ứng. Nếu bạn thay đổi những trang web của các bạn, những cỗ máy tìm kiếm tự động dần dần tìm thấy những sự thay đổi này, và điều đó có thể ảnh hưởng đến bạn được liệt kê như thế nào. Những tiêu đề trang, nội dung văn bản và các phần tử khác đều giữ một vai trò nhất định. Human-Powered Directories - Các thư mục do con người quản lý Các thư mục internet - ví dụ như dự án thư mục mở - Open Directory Project hoàn toàn phụ thuộc vào sự quản lý của con người. Bạn đăng ký website của bạn vào thư mục với một vài dòng mô tả ngắn gọn hoặc các biên tập viên của thư mục viết giúp phần mô tả cho bạn - chúng phù hợp với nội dung và chủ đề của từng danh mục. Việc thay đổi những trang web của các bạn không có hiệu lực trên danh mục của các bạn. Những thứ hữu ích để cải thiện vị trí xếp hạng với một cỗ máy tìm kiếm không có gì để làm với việc cải thiện một vị trí trong một thư mục. Ngoại lệ duy nhất là một website tốt, với nội dung tốt, có lẽ thích hợp hơn để được xem xét so với một website nghèo nàn. 13 Hybrid Search Engines - Các hệ thống tìm kiếm tổng hợp Ngày trước, mỗi cỗ máy tìm kiếm sử dụng giải thuật riêng để tạo sự khác biệt. Đã là hệ thống tìm kiếm tự động thì không kèm theo một thư mục internet và ngược lại. Nhưng hiện nay, hầu hết hệ thống tìm kiếm đều là sự tổng hợp của hệ thống tìm kiếm tự động và một thư mục do con người quản lý. Ví dụ, Yahoo có Yahoo Directory, Google có Google directory (dựa trên thư mục Dmoz), MSN và các hệ thống tìm kiếm khác cũng vậy. Các thành phần của một cỗ máy tìm kiếm tự động Những cỗ máy tìm kiếm tự động có ba phần tử chính. Đầu tiên là spider, cũng được gọi là crawlers. Spider đến thăm một trang web, đọc nó, và sau đó đi theo sau những mối liên kết tới những trang khác bên trong website. Có nghĩa là, có ai đó tìm kiếm đến một trang, các spiders sẽ ghi nhớ điều đó. Nó sẽ quay lại trang đó và theo chu kỳ 1-2 tháng. Như vậy, nếu trang web được tìm thấy càng nhiều, thì khả năng spiders quay trở lại càng lớn và như thế, kết quả tìm kiếm của bạn cũng được cải thiện theo. Mọi thứ spider tìm thấy đi vào trong phần thứ hai của cỗ máy tìm kiếm, chỉ mục (the index). Chỉ mục, đôi khi gọi là tài liệu, là một kho lưu trữ khổng lồ chứa đựng một sự sao chép của mọi trang web mà spider tìm thấy. Nếu một trang web thay đổi, thì danh sách này được cập nhật với thông tin mới. Đôi khi, cần phải có thời gian để các spiders lập chỉ mục cho một trang mới hay một trang được thay đổi nội dung. Như vậy, sẽ có trường hợp: một trang đã được các spiders tìm đến, nhưng lại chưa được lập chỉ mục. Và trong khoảng thời gian này, trang web sẽ hoàn toàn không tồn tại trên cỗ máy tìm kiếm. Phần mềm tìm kiếm chính là phần tử thứ ba của một cỗ máy tìm kiếm. Đây là một chương trình máy tính có chức năng sàng lọc thông tin từ hàng triệu trang tương tự nhau để sắp xếp vị trí từng trang sao cho phù hợp nhất. Đây chính là nơi mà các công ty SEO khai thác để đưa một website nào đó lên vị trí đầu tiên khi được tìm kiếm với một hay nhiều từ khóa chỉ định. Major Search Engines: Các cỗ máy tìm kiếm chính 14 Tất cả các cỗ máy tìm kiếm tự động có những phần cơ bản được mô tả ở trên, nhưng có những sự khác nhau trong những phần này trong việc nó được điều chỉnh tác động như thế nào. Đó là lý do tại sao cùng một từ khóa, khi tìm kiếm trên những cỗ máy tìm kiếm khác nhau thường cho ra những kết quả khác nhau. Một ví dụ cụ thể: Nếu bạn đánh một từ khóa, thì Google, Yahoo, MSN, AOL, Ask hay Exactseek đều cho ra các kết quả khác nhau, dù có nhiều website hơi giống nhau. 3.1.5 Search Engine làm việc nhƣ thế nào Một sự thật cơ bản đầu tiên mà bạn cần biết đó là công cụ tìm kiếm không phải là con người. Chính vì thế sẽ có sự khác nhau giữa con người và công cụ tìm kiếm trong việc đánh giá nội dung của một trang web. Không giống như con người, công cụ tìm kiếm nội dung theo định hướng. Mặc dù công cụ tìm kiếm được trang bị các công nghệ rất hiện đại tuy nhiên nó vẫn không đủ thông minh để có thể cảm nhận được vẻ đẹp của một mẫu thiết kế, thưởng thức âm thanh hoặc thấy được chuyển động của một video nào đó. Vì vậy khi công cụ tìm kiếm thu thập dữ liệu của trang web nó chỉ nhìn vào các văn bản cụ thể để cố gắng hiểu được trang web này đang muốn nói về vấn đề gì. Ở đây xin đơn cử một công cụ tìm kiếm đó là Google. Công cụ tìm kiếm có 3 bộ phận chính:  Bộ phận thu thập dữ liệu Bộ phận thu thập dữ liệu hay còn có tên gọi thân thiện là Google Spider, google bot hoặc con nhện. Một cách đơn giản bạn có thể hiểu rằng đây là một quá trình mà Google Spider sẽ đi từ trang này sang trang khác để khám phá nội dung và các liên kết trong trang web của bạn. Đây là một quá trình mà Google Spider đang cố gắng tìm các trang web mới và cập nhật thêm vào chỉ mục của Google. Chính vì thế, Google bot có thể coi là một chương trình thu thập dữ liệu và phát hiện ra các trang web mới, thay đổi các trang web hiện có và các truy tìm các liên kết không tồn tại, các dữ liệu này được sử dụng để cập nhật cho các chỉ mục của Google.  Bộ phận lập chỉ mục Đây là quá trình xây dựng cơ sở dữ liệu của các từ khóa, cụm từ, các trang web và các trang liên quan đến một lĩnh vực nào đó. 15  Bộ phận xử lí – tính toán Đây là quá trình tính toán của Google nhằm cung cấp các kết quả cho người tìm kiếm. Các yếu tố này có tầm quan trọng khác nhau, tuy nhiên một trong những yếu tố quan trọng nhất để xếp hạng đó là dựa trên chất lượng nội dung và chất lượng những liên kết đến trang web của bạn. Hình 3.1.3-1 Cơ chế hoạt động của Google Spider (Nguồn: http://tutorial.vietmoz.net) Cơ chế hoạt động của Google Spider - Đầu tiên Google Spider sẽ lấy danh sách các máy chủ và trang web phổ biến. Sau đó nó sẽ bắt đầu tìm kiếm với một site bất kỳ, nó đánh chỉ mục các từ khóa trên trang và theo các liên kết tìm thấy bên trong trang web này. - Khi Spider xem xét các trang web (định dạng HTML). Ví dụ: Các từ xuất hiện trong các thẻ tiêu đề, thẻ miêu tả…. nó nhận định đây là phần quan trọng có liên quan đến sự tìm kiếm của người dùng sau này. Vì thế đối với mỗi website Google nó sẽ có nhiều phương pháp để index lại chỉ mục, liệt kê lại các từ khóa chính. Nhưng dù dùng cách nào thì Google cũng luôn cố 16 gắng làm cho hệ thống tìm kiếm diễn ra nhanh hơn để người dùng có thể tìm kiếm hiệu quả hơn. - Kế đó Google sẽ xây dựng chỉ mục Xây dựng chỉ mục sẽ giúp cho các thông tin được tìm thấy một cách nhanh chóng. Sau khi tìm thông tin trên trang web, Google Spider nhận ra rằng việc tìm kếm thông tin trên website là một quá trình không bao giờ kết thúc… bởi vì các quản trị trang web luôn thay đổi thông tin, cập nhật thông tin trên website và điều đó có nghĩa rằng Spider sẽ luôn phải thực hiện nhiệm vụ thu thập dữ liệu.  Xử lý và tính toán: Sau khi lập chỉ mục Google sẽ xử lý, tính toán và mã hóa thông tin để lưu trữ trong cơ sở dữ liệu. Và khi có một truy vấn tìm kiếm thì hệ thống sẽ trả về các kết quả có chứa nội dung hữu ích tương ứng với các truy vấn tìm kiếm của người dùng. Việc hiểu rõ cơ chế tìm kiếm của Google sẽ giúp cho các Seoer thêm nhiều kỹ năng để có thể tối ưu website thân thiện với Google nhằm mục đích đưa trang web có thứ hạng cao hơn. 3.1.6 Crawler, Spider, Robot Web Crawler, web spider [3] hay web robot là một chương trình tự động tìm kiếm trên Internet. Nó được thiết kế để thu thập tài nguyên trên internet như trang web, hình ảnh, video, tài liệu Word, PDF cho phép hệ thống tìm kiếm đánh chỉ số sau đó. Quá trình thực hiện được gọi là web crawling hay spidering, rất nhiều công cụ tìm kiếm trên thế giới sử dụng spidering để cập nhập kho dữ liệu website của mình. Chẳng hạn Google để lấy các thông tin trên các website rồi cập vào cơ sở dữ liệu của nó giúp người dùng tìm kiếm ra các trang theo ý muốn. Web crawler là một loại mà thường gọi là bot. Hiểu như là, nó bắt đầu từ danh sách của các địa chỉ gọi là URL được gọi là seeds. Nó sẽ vào các địa chỉ này lọc thông tin rồi tìm các địa chỉ khác như URL để thêm chúng vào danh sách các địa chỉ đã duyệt qua gọi là crawl frontier. Những link trong các crawl frontier sẽ tìm ra cho crawl đi đến 17 những page khác trong website. Sau đó, nó lại lặp lại quá trình đó duyệt qua những URL mới. Cứ thế, nó lặp lại nhiều lần địa chỉ website và thu thập rất nhiều nội dung khác nhau giúp ta dễ dàng tìm kiếm thông tin của mình cần. Mỗi search engine có đều những tên riêng cho crawler cụ như: o Ask: Teoma o Baidu: baidu … o Alta Vista: Scooter o Google: GoogleBot o Yahoo! Web search: Yahoo SLURP hay SLURP Sự khác biệt duy nhất của trình duyệt web (web browser) và crawler là crawler chỉ thấy được giao diện html text. Tuy nhiên chúng ta có một vài trường hợp không mong muốn crawler vào website của mình để lấy thông tin như: Website trong quá trình xây dựng, sữa chữa, bảo trì thì không mong muốn các crawler sẽ không vào website để index. Thông tin cá nhân, thông tin riêng tư: với những thông tin dạng này, chúng ta nên đặt password-protect để bảo vệ thông tin cá nhân, và không ai có thể lấy được thông tin kể cả crawler. Ngoài cách này, có thể sử dụng file robots.txt đặt trong web root “/robots.txt” để tránh crawler tìm kiếm và lấy thông tin. Trên thế giới những web crawler rất nhiều và áp dụng vào nhiều loại hình website khác nhau như: web việc làm, web tin tức, web chứng khoán, web rao vặt, web sức khỏe, … Ở việt nam cũng xuất hiện khá nhiều như:  Web việc làm: vietnamworks.com, kiemviec.com, tuyendung.com  Web tin tức: vnexpress.net, dantri.com, .vn, tuoitre.vn  Web chứng khoán: cafef.vn, vietstock.vn, stockbiz.vn  Web rao vặt: rongbay.com, 5giay.vn, raovat.com  Web sức khỏe: suckhoedoisong.vn, dinhduong.com.vn, ykhoanet.com 18 Ngoài crawler và spider ta còn có robots.txt. Đây là một file dạng text, được đặt ở thư mục root của domain. Nội dung này của file là hướng dẫn cho các crawler khi vào website để biết được những site nào crawler được phép đánh chỉ mục index hay không đánh chỉ mục. Cú pháp file robots.txt gồm hai phần: phần đầu là “User-agent”, xác định những User-agent hay crawler được cho phép truy cập vào các thư mục, file. Phần hai là “Disallow” và “Allows”, cho phép hoặc không cho phép User-agent được chỉ định ở phần một. Như mẫu dưới đây sẽ cấm tất cả User-agent truy cập vào thư mục root ”/” của domain. User-agent:* Diasllow:/ Ta có thể thay thế “*” ở trên bằng tên các bot của search engine như Googlebot, Yahoo SLURP, Teoma, Scooter … để cấm truy cập tài nguyên “/”. Ví dụ: robots.txt của youtube.com Hình 3.1.4-1 File robots.txt (Nguồn: tác giả) Robot meta tag là một thẻ tag trong html, được đặt trong thẻ
. Robot meta tag làm việc tương đối giống với file robots.txt. Dưới đây ví dụ về robot meta tag của vnexpress.net. 19 Robot meta tag cho crawler có thể được chỉ mục và follow các liên kết trong site hay không. Sau khác biệt cơ bản giữa robot meta tag và file robots.txt là file robots.txt có thể định dạng được từng crawler khi đánh chỉ mục theo những liên kết trong site, còn robot meta tag áp dụng với mọi crawler. Hình 3.1.4-2 Robot meta tag (Nguồn: tác giả) 3.1.7 XML sitemap, tạo file sitemap Sitemap là cách đơn giản và tốt nhất để người lập trình web báo cho những bộ máy tìm kiếm biết về các trang trong website mà có thể chúng không được tìm thấy bằng những cách thu thập thông tin bình thường. Sitemap là một tập tin XML bao gồm danh sách các trang trong website cùng những đặc điểm mô tả của chúng. Tạo ra Sitemap và gửi nó cho bộ máy tìm kiếm sẽ đảm bảo rằng bộ máy tìm kiếm biết đến toàn bộ các trang đang tồn tại trong website của bạn. Sitemap sẽ rất hữu dụng trong những trường hợp sau, website của bạn + Có nội dụng động và thay đổi liên tục. + Mới được xây dựng và có rất ít những liên kết đến từ những website khác. + Có số lượng lớn tài liệu và nội dung mà có thể không hoàn toàn được liên kết đến từ những trang khác ngay chính trong website. Google cũng như các bộ máy tìm kiếm khác sẽ không đảm bảo rằng quá trình tìm kiếm và thu thập thông tin tự động có thể biết đến hết các trang trong website của bạn. Vì vậy, sitemap sẽ giúp cho các bộ máy tìm kiếm có cái nhìn và nắm bắt tốt hơn về cấu trúc website của bạn. Thông qua sitemap, quá trình thu thập thông tin về website của bạn sẽ được đầy đủ hơn và dễ dàng hơn. Với bộ máy tìm kiếm khác nhau thì sẽ chấp nhận một số loại định dạng cho giao thức sitemap khác nhau. Nhưng chúng ta nên tạo ra một XML sitemap và dựa trên nền 20 tảng giao thức sitemap phổ biến nhất với tên gọi Sitemap Protocol. Vì cùng một sitemap được tạo ra theo chuẩn giao thức này có thể sử dụng được cho nhiều bộ máy tìm kiếm khác nhau như Google, Yahoo!, Bing. Ví dụ: dưới đây là một phần sitemap.xml của vietnamnet.vn Hình 3.1.5-1 File sitemap.xml (Nguồn: tác giả) Để tạo file sitemap.xml có thể dùng phần mềm, sử dụng một số website cung cấp dịch vụ online hoặc tự viết tay. Có 2 yêu cầu với sitemap.xml đó là định dạng theo chuẩn escaped, tức là thay thế một số ký tự đặc biệt như “&”, “>”. Character Ampersand Bảng 3.1.5-1 Giá trị đặc biệt trong sitemap.xml (Nguồn: tác giả) Sign Escape Code & & Single Quote ' ' Double Quote " " Greater Than > > Less Than < < Những trường hợp trong sitemap.xml
- Xem thêm -

Tài liệu liên quan