Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện
MỞ ĐẦU
1. Tính cấp thiết của đề tài
Trong xã hội thông tin ngày nay, thông tin là yếu tố quan trọng bậc
nhất trong mọi hoạt động của đời sống, mọi ngành nghề trong xã hội. Sự bùng
nổ thông tin khiến cho thông tin trở thành nguồn tài nguyên khổng lồ mà con
người cần nỗ lực để có thể làm chủ. Một trong những yếu tố thúc đẩy việc sản
sinh thông tin với khối lượng ngày càng lớn như vậy chính là mạng Internet,
đồng thời mạng Internet cũng là công cụ hữu hiệu để lưu trữ và truyền tải
thông tin. Với hệ thống World Wide Web khổng lồ, con người có thể dễ dàng
tìm kiếm, nắm bắt, trao đổi thông tin từ khắp nơi trên thế giới.
World Wide Web (hiểu ngắn gọn là “Web”) là tập hợp các tài liệu siêu
văn bản được liên kết với nhau và truy cập thông qua mạng Internet. Với một
trình duyệt Web, ta có thể xem được các trang Web chứa đầy đủ văn bản,
hình ảnh, âm thanh,… và có thể di chuyển qua lại sử dụng các siêu liên kết
(hyperlinks). Các trang Web như vậy được tạo lập nên nhờ các ngôn ngữ đánh
dấu, mà được biết đến nhiều nhất là ngôn ngữ đánh dấu siêu văn bản - HTML
(HyperText Markup Language). HTML là phương tiện để mô tả cấu trúc của
thông tin văn bản trong một tài liệu bằng cách hiển thị văn bản dưới dạng
đường link, đầu mục, đoạn văn, danh sách,… HTML được viết dưới dạng các
thẻ (tags) đặt trong cặp dấu ngoặc nhọn < >.
Tuy nhiên, HTML có những hạn chế nhất định. Với HTML, người sử
dụng chỉ dừng lại ở việc xem tài liệu chứ họ không thể thao tác với chúng, tạo
lập chúng theo định dạng mong muốn. Với thực tế là HTML thì có nhiều hạn
chế, trong khi SGML lại quá phức tạp không thể ứng dụng, vào cuối những
năm 90, các nhà nghiên cứu đã sáng tạo ra ngôn ngữ đánh dấu mở rộng XML (eXtensible Markup Language). Tính linh hoạt và khả năng ứng dụng
cao giúp cho XML nhanh chóng được chấp nhận bởi các nhà chuyên môn
Phùng Thanh Vân. K50 Thông tin - Thư viện
Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện
(W3C - World Wide Web Consortium đã ngay lập tức định hình HTML thành
một ứng dụng XML với kết quả là XHTML).
Hiện nay, XML được ứng dụng rộng rãi trong rất nhiều lĩnh vực, và
lĩnh vực Thông tin - Thư viện cũng đã áp dụng XML để hoàn thiện công tác
của mình. Từ thực tế này, là sinh viên của ngành Thông tin - Thư viện, tôi
nghĩ rằng việc nghiên cứu về XML và ứng dụng của nó là hoàn toàn cần thiết.
Chính vì vậy, tôi đã lựa chọn thực hiện đề tài “Tìm hiểu ngôn ngữ XML Một số ứng dụng trong lĩnh vực Thông tin - Thư viện”.
2. Mục đích nghiên cứu
Việc nghiên cứu đề tài này trước hết giúp tôi tìm hiểu một cách khái
quát về XML, ứng dụng của nó nói chung và đặc biệt trong lĩnh vực Thông
tin - Thư viện. Từ việc hiểu về cách thức tạo lập cũng như tiện ích ứng dụng
của ngôn ngữ đánh dấu, tôi có thể đưa ra một số giải pháp, kiến nghị giúp
nâng cao hiệu quả sử dụng nó trong lĩnh vực Thông tin - Thư viện của mình.
3. Phạm vi nghiên cứu
Vấn đề XML là vấn đề rất rộng lớn, với XML, rất nhiều ứng dụng cũng
như tiện ích có thể được tạo ra, tùy biến theo mong muốn của từng cá nhân,
từng lĩnh vực ngành nghề cụ thể. Chính vì vậy, với thời gian tìm hiểu có hạn,
và trong phạm vi trình bày của một Khóa luận, tôi chỉ có thể nêu ra những
khái niệm cơ bản, cấu trúc, cách hiển thị tài liệu XML trong trình duyệt và
một số ứng dụng của XML trong lĩnh vực Thông tin - Thư viện.
4. Phương pháp nghiên cứu
Để thực hiện Khóa luận này, về mặt phương pháp luận tôi sử dụng
phương pháp nghiên cứu tài liệu và phương pháp hỏi ý kiến chuyên gia. Tài
liệu được tìm kiếm chủ yếu trên các trang web, đặc biệt là trang web của Thư
viện Quốc hội Mỹ. Sau khi thu thập, tham khảo tài liệu về ngôn ngữ XML, tôi
thực hiện phương pháp khảo sát, đánh giá, so sánh với tình hình sử dụng thực
tế của nó trong một số lĩnh vực và đặc biệt là lĩnh vực Thông tin - Thư viện.
Phùng Thanh Vân. K50 Thông tin - Thư viện
2
Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện
5. Đóng góp về lý luận và thực tiễn của Khóa luận
Thực hiện đề tài Khóa luận này, tôi hy vọng có thể có những đóng góp
như sau:
-
Khái quát và cung cấp được cho người đọc những thông tin cơ bản về
các loại ngôn ngữ đánh dấu nói chung và ngôn ngữ đánh dấu mở rộng
XML nói riêng, cùng với tình hình phát triển và ứng dụng của chúng.
-
Giới thiệu một vài ứng dụng quan trọng của XML trong lĩnh vực
Thông tin - Thư viện và đưa ra các kiến nghị nhằm đẩy mạnh việc ứng
dụng, nâng cao hiệu quả của loại ngôn ngữ này tại Việt Nam.
6. Bố cục của Khóa luận
Phần nội dung của Khóa luận gồm 4 chương như sau:
Chương 1. Tổng quan về ngôn ngữ đánh dấu - Markup Language.
Chương này nêu tổng quan về khái niệm và việc sử dụng một số loại
ngôn ngữ đánh dấu cơ bản, đi sâu hơn vào ngôn ngữ đánh dấu siêu văn bản
HTML.
Chương 2. Ngôn ngữ đánh dấu mở rộng - XML.
Chương này đi sâu tìm hiểu về ngôn ngữ XML, cấu trúc, các thành
phần cơ bản của ngôn ngữ này.
Chương 3. Một số ứng dụng XML trong lĩnh vực Thông tin - Thư
viện.
Chương này giới thiệu một số ứng dụng của XML trong hoạt động
Thông tin - Thư viện: MARC XML, METS, và MODS.
Chương 4. Đánh giá và kiến nghị.
Phùng Thanh Vân. K50 Thông tin - Thư viện
3
Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện
CHƯƠNG 1
TỔNG QUAN VỀ NGÔN NGỮ ĐÁNH DẤU MARKUP LANGUAGE
Ngôn ngữ đánh dấu là một tập hợp các ghi chú cho văn bản mô tả cách
chúng được cấu trúc, trình bày, hoặc định dạng. Ngôn ngữ đánh dấu có thể là
dạng viết tay hoặc dạng mã đánh dấu sử dụng trong hệ thống xử lý văn bản
của máy tính. Ví dụ điển hình nhất về ngôn ngữ đánh dấu chính là Ngôn ngữ
đánh dấu siêu văn bản - HTML, một trong số các giao thức của World Wide
Web.
Dưới đây là khái niệm về một số loại ngôn ngữ đánh dấu.
1.1. Ngôn ngữ đánh dấu tổng quát - GML
GML (Generalized Markup Language) là ngôn ngữ định dạng tài liệu
của IBM, nó mô tả một tài liệu về mặt cấu trúc tổ chức, các phần nội dung và
mối quan hệ giữa chúng. GML cho phép mô tả các phần của một tài liệu theo
thứ bậc đề mục: Tên phần/chương, các đoạn văn bản trong đó, danh mục,
bảng biểu,…
GML là nền tảng để phát triển các loại ngôn ngữ đánh dấu sau này.
1.2. Ngôn ngữ đánh dấu tổng quát chuẩn - SGML
SGML (Standard Generalized Markup Language) được phát triển lên
từ GML. Năm 1986, SGML được tổ chức ISO công nhận là chuẩn lưu trữ và
chuyển đổi dữ liệu (ISO 8879:1986).
SGML bản thân nó không phải là một ngôn ngữ tư liệu, nó là ngôn ngữ
dùng để đặc tả các ngôn ngữ khác, nói cách khác, SGML là một loại siêu
ngôn ngữ hay siêu dữ liệu (metadata).
SGML được thiết kế với mục đích để chia sẻ các dữ liệu đọc máy từ hệ
thống này sang hệ thống khác mà không bị mất dữ liệu. Nó cũng được sử
Phùng Thanh Vân. K50 Thông tin - Thư viện
4
Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện
dụng trong việc in ấn và xuất bản. Tuy nhiên, do việc sử dụng SGML quá
phức tạp và phải tốn nhiều công sức để thực hiện nên SGML không được mở
rộng áp dụng đối với mục đích sử dụng thông thường.
1.3. Ngôn ngữ đánh dấu siêu văn bản - HTML
1.3.1. Khái quát chung
HTML (HyperText Markup Language) là loại ngôn ngữ đánh dấu nổi
trội cho các trang Web. Như đã định nghĩa ở trên, HTML cung cấp phương
tiện để mô tả cấu trúc của thông tin văn bản trong một tài liệu bằng cách hiển
thị văn bản dưới dạng đường link, đầu mục, đoạn văn, danh sách,… Giống
với SGML, HTML sử dụng các thẻ (tags) đặt trong cặp dấu ngoặc nhọn < >.
Các thẻ HTML chỉ là một tập hợp nhỏ của SGML.
HTML là ngôn ngữ đánh dấu chú trọng nhiều đến cách thức trình bày
tài liệu mà ít chú trọng cấu trúc, ngữ nghĩa của tài liệu.
Cấu trúc của một trang HTML cơ bản có dạng như sau:
Tiêu đề trang web
Phần thân trang web
Thẻ đầu tiên trong tài liệu HTML là . Thẻ này báo cho trình
duyệt biết đây là điểm khởi đầu của một tài liệu HTML. Thẻ cuối cùng của tài
liệu là , thẻ này báo cho trình duyệt biết đây là điểm kết thúc của văn
bản.
Phùng Thanh Vân. K50 Thông tin - Thư viện
5
Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện
Đoạn chữ nằm giữa hai thẻ và là thông tin header, nó
xác định phần mở đầu của tài liệu.
Đoạn chữ nằm giữa cặp thẻ
là tiêu đề của văn bản.
Dòng tiêu đề này sẽ xuất hiện ở thanh trạng thái của trình duyệt web.
Đoạn chữ nằm giữa cặp thẻ là nội dung văn bản,
chính là những gì sẽ thể hiện trên trình duyệt.
Các thẻ của HTML không phân biệt chữ viết hoa và chữ viết thường.
Có thể thêm vào các thuộc tính cho các thẻ của HTML. Những thuộc
tính này cung cấp thông tin về thành phần HTML của trang Web. Ví dụ:
báo cho trình duyệt biết rằng màu nền của trang là
màu đỏ. Thuộc tính luôn luôn đi kèm một cặp name-value với cú pháp:
name=“value”.
1.3.2. Cú pháp các thẻ HTML
Thẻ cấu trúc:
HTML
Cặp thẻ này được sử dụng để xác nhận một tài liệu là tài liệu HTML.
Toàn bộ nội dung của tài liệu đặt giữa cặp thẻ này. Cú pháp:
Nội dung tài liệu
HEAD
Thẻ Head được sử dụng để xác định phần mở đầu cho tài liệu. Cú pháp:
Phần mở đầu tài liệu (Header)
Phùng Thanh Vân. K50 Thông tin - Thư viện
6
Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện
TITLE
Cặp thẻ này xác định tiêu đề của tài liệu, chỉ có thể sử dụng trong phần
mở đầu của tài liệu, tức là nó phải nằm trong phạm vi giới hạn bởi cặp thẻ
HEAD. Cú pháp:
Tiêu đề tài liệu
BODY
Cặp thẻ này dùng để xác định phần nội dung chính (phần thân) của tài
liệu. Trong phần thân có thể chứa các thông tin định dạng nhất định để đặt
ảnh nền cho tài liệu, màu nền, đặt lề,… Những thông tin này được đặt ở phần
tham số của thẻ. Cú pháp cơ bản:
Phần nội dung
Bắt đầu từ HTML 3.2, có nhiều thuộc tính được sử dụng trong thẻ
BODY. Một số thuộc tính chính như sau:
- BACKGROUND: Đặt một ảnh làm nền cho văn bản. Giá trị
của tham số (đặt sau dấu “=”) là URL của file ảnh.
- BGCOLOR: Đặt màu cho trang hiển thị. Nếu cả hai tham số
BACKGROUND và BGCOLOR cùng có giá trị thì trình duyệt sẽ hiển thị
màu nền trước, sau đó mới tải ảnh lên trên.
- TEXT: Xác định màu chữ cho văn bản, kể cả các đề mục.
- ALINK, VLINK, LINK: Xác định màu sắc cho các siêu liên kết
trong văn bản.
Thẻ định dạng khối:
Phùng Thanh Vân. K50 Thông tin - Thư viện
7
Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện
Thẻ P
Thẻ
được sử dụng để định dạng một đoạn văn bản. Cú pháp:
Nội dung đoạn văn bản
Các định dạng đề mục
HTML hỗ trợ 6 mức đề mục. Ở đây, đề mục chỉ là các chỉ dẫn định
dạng về mặt Logic, tức là mỗi trình duyệt sẽ thể hiện đề mục dưới một khuôn
dạng thích hợp. Có thể ở trình duyệt này là font chữ 14 nhưng sang trình
duyệt khác là font chữ 20. Đề mục cấp 1 là cao nhất và giảm dần đến cấp 6.
Văn bản ở đề mục cấp 5 hay cấp 6 thường có kích thước nhỏ hơn văn bản
thông thường.
Dưới đây là các thẻ dùng để dịnh dạng văn bản ở dạng đề mục:
…
: Định dạng đề mục cấp 1
…
: Định dạng đề mục cấp 2
…
: Định dạng đề mục cấp 3
…
: Định dạng đề mục cấp 4
…
: Định dạng đề mục cấp 5
…
: Định dạng đề mục cấp 6
Thẻ xuống dòng BR
Thẻ này không có thẻ đóng tương ứng , nó có tác dụng chuyển
sang dòng mới.
Nội dung văn bản trong tài liệu HTML sẽ được trình duyệt Web thể
hiện liên tục, các khoảng trắng liền nhau, các ký tự Tab, ký tự xuống dòng
đều được coi như một khoảng trắng.
Để xuống dòng trong tài liệu, ta phải sử dụng thẻ
.
Thẻ PRE
Phùng Thanh Vân. K50 Thông tin - Thư viện
8
Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện
Thẻ này dùng để giới hạn đoạn văn bản đã được định dạng sẵn. Văn
bản ở giữa hai thẻ này sẽ được thể hiện giống hệt như khi chúng được đánh
vào, ví dụ dấu xuống dòng trong đoạn văn bản giới hạn bởi thẻ
sẽ giữ
nguyên ý nghĩa chuyển sang dòng mới (trình duyệt sẽ không coi chúng như
dấu cách).
Cú pháp:
Văn bản đã được định dạng
Các thẻ định dạng danh sách:
Cú pháp:
Có bốn kiểu danh sách:
- Danh sách không sắp xếp (hay không đánh số):
- Danh sách có sắp xếp (hay có đánh số): , mỗi mục trong danh
sách được sắp xếp thứ tự.
- Danh sách thực đơn: