Mô tả:
,
,...
còn loại không có ý nghĩa: , ,..Sau khi đã chuyển sang
tuyến tính (hoặc có thể tạo cây) để dóng hàng, và số đặc trưng chỉ là 1,
tỉ lệ thẻ không được dóng hàng, tỉ lệ này cũng có thể tối ưu bằng học
máy kết hợp với các đặc trưng khác của hệ thống.
Theo [5] STRAND lấy modul so sánh cấu trúc thẻ html làm trái
tim của hệ thống. STRAND có nhiều phiên bản, ở phiên bản cũ, hệ
thống khai phá web qua ba bước:
Locating - xác định những trang có lẽ có bản dịch song
ngữ
Generating - tạo các cặp thí sinh có lẽ là bản dịch
Structure filtering - lọc cấu trúc bỏ ra những cặp không là
bản dịch
Trong bước locating, STRAND sử dụng trình tìm kiếm AltaVista
để tìm kiếm hai kiểu trang web đó là: cha và anh em.
Một trang cha là một trang chứa những link đến nhiều phiên bản
khác nhau của một tài liệu; ví dụ:
Hình 1: Ví dụ về trang cha
Nhìn vào ví dụ trên, trang cha chứa link đến các phiên bản khác
nhau của cùng một nội dung. Các phiên bản là tiếng Anh, tiếng Trung,
tiếng Việt. Sau đó để tạo cặp trang web thí sinh thì chỉ cần lấy hai link
của hai bản tiếng Việt và Tiếng Anh với nhau.
Trang anh em là trang trong một ngôn ngữ và nó chứa một link
đến bản đó trong ngôn ngữ khác. Ví dụ:
8
Hình 2: Ví dụ về trang anh em
Nhìn vào ví dụ trên, trang này chứa một link đến một bản khác
trong tiếng Anh. Để ghép tạo cặp thí sinh thì chỉ cần ghép trang này
với bản tiếng Anh tương ứng.
Trong bước generating, cho những cặp url có khả năng chứa bản
dịch qua modul so sánh url. STRAND cũng tạo các luật để so sánh,
chẳng hạn, en -> vn. Ngoài ra, trong modul này của STRAND có thêm
tính năng hỗ trợ thay thế, loại bỏ nhiều đoạn trong url, ví dụ:
Hình 3: Ví dụ về loại bỏ nhiều đoạn
Bước structure filtering thì sẽ được trình bày ở phần lọc cấu trúc.
Trong STRAND phiên bản mới có thêm modul so sánh content,
sẽ trình bày ở đoạn lọc nội dung.
Theo [4] PCMS nói chung là giống STRAND. Nhưng có một số
điểm khác biệt.
Thứ nhất, trong phần tính độ tương tự cấu trúc url của hai trang
web thì hệ thống tính toán cụ thể còn STRAND và PTMiner chỉ thay
9
thế loại bỏ kiểm tra chúng có giống nhau hay không. PCMS tiền xử lý
những thư mục con trong url mà xác định ngôn ngữ của trang web.
PCMS thay thế chúng bằng chuỗi ký tự duy nhất. Ví dụ url:
.../english/....file.htm sẽ thành ..../***/....file.htm. Tiếp đó, một số tiêu
chí được tính toán như sau:
Tỉ lệ số thư mục con của url của hai trang web. Công thức là:
URL diff (A, B) =
| len( A) len( B ) |
len( A) len( B )
Trong công thức trên len(A) là số thư mục con của url A, và
len(B) là số thư mục con của url B. Nếu số thư mục con của A và B
như nhau thì tỉ lệ khác nhau sẽ là 0.
Tỉ lệ thư mục con có tên giống nhau. Công thức là:
URL dirsim(A, B) =
2 * comdir ( A, B )
len( A) len( B )
Trong công thức trên, comdir(PA,PB) là số thư mục con có tên
giống nhau.
Thứ hai, trong modul so sánh nội dung, PCMS triển khai mô
hình không gian vecto song ngữ. Ý tưởng của mô hình này là mỗi
trang web được đại diện bởi một vecto các mục từ, và tập trang web
của một ngôn ngữ là một không gian vecto có số chiều bằng số từ
vựng của ngôn ngữ đó. Vì số mục từ của hai ngôn ngữ bất kỳ là khác
nhau nên PCMS đưa ra cách chuyển đổi số chiều của không gian
vecto của ngôn ngữ này bằng số chiều của không gian vecto của ngôn
ngữ kia. Và công thức cosine coefficient được sử dụng để tính độ
tương tự. Công thức như sau:
p
Cosine ecoefficient =
10
x y
i 1
i
i
p
p
i 1
i 1
xi2 * yi2
Với p là số mục từ tiếng Anh.
Theo [5], modul so sánh nội dung của hai trang web là quan
trọng nhất của hệ thống. Và so sánh toàn bộ nội dung được quy về so
sánh đoạn, so sánh đoạn dựa trên mô hình ánh xạ từ -từ Hai đoạn đã
được dóng hàng với nhau đã thỏa mãn điều kiện số từ được dóng hàng
lớn hơn một ngưỡng nào đó. Tổng số từ được dóng hàng của cả trang
web bằng tổng của tất cả các đoạn. Đặc trưng rút ra là số từ được dóng
hàng trên tổng số từ của hai trang web.
Theo [6] Một hệ thống được xây dựng, tự động khai phá dữ liệu
song ngữ dựa trên dóng hàng DOM Tree. Ý tưởng này rất hay ở chỗ nó
đi vào thực tế của cấu trúc html của trang web là cấu trúc cây chứ không
phải là tuyến tính. Mô hình DOM Tree có nhược điểm là nắm bắt khó
hơn, liên quan đến xác suất có điều kiện. Thời gian chạy của dóng hàng
cây DOM nhiều hơn so với dóng hàng tuyến tính. Ví dụ về DOM Tree:
Hình 4: Sự khác nhau giữa mô hình DOM chuẩn và mô hình DOM
sau thu gọn
Mô hình dóng hàng cây DOM định nghĩa dóng hàng như tiến
trình không thay đổi thứ tự cây. Ví dụ node A được dóng hàng với
node B thì con của A sẽ bị xóa hoặc được dóng hàng với con của B.
Để thẩm tra một cặp trang web thí sinh có đúng là song song,
một bộ phân lớp dựa trên maximum entropy nhị phân được sử dụng.
Tiêu chi tương đồng cấu trúc hẻ html được tính như sau: tất cả
thẻ html của trang web được nối thành một chuỗi. Sau đó khoảng cách
11
nhỏ nhất giữa hai chuỗi thẻ liên quan đến cặp thí sinh được tính toán,
và độ tương đồng thẻ html là tỉ lệ số thẻ giống nhau chia cho tổng số
thẻ.
Điểm cho dóng hàng câu được định nghĩa là tỉ lệ số câu đã dóng
hàng và tổng số câu trong cả hai file.
1.3. Mục tiêu và tiếp cận giải quyết vấn đề
Với vai trò, tầm quan trọng của dữ liệu song ngữ đối với các ứng
dụng xử lý ngôn ngữ tự nhiên, đồng thời được thúc đẩy bởi việc thiếu
cơ sở dữ liệu song ngữ Anh -Việt cho nhiều nghiên cứu khác, luận văn
tập trung vào các công việc:
Tìm hiểu, nghiên cứu, phát triển các công nghệ trong bài toán
khai phá dữ liệu song ngữ, cụ thể cho xây dựng các cặp văn bản song
ngữ.
Xây dựng công cụ khai phá các cặp văn bản song ngữ trên World
Wide Web cho cặp ngôn ngữ Anh –Việt.
Phần 1.2 đã trình bày một cách tóm tắt những nghiên cứu trong
khai phá dữ liệu song ngữ. Có thể chia làm hai tiếp cận chính là tiếp
cận dựa trên nội dung và tiếp cận dựa trên cấu trúc của trang web. Đối
với tiếp cận dựa trên nội dung, chúng ta phải sử dụng từ điển song
ngữ. Do việc từ điển song ngữ Anh – Việt có quá nhiều nhập nhằng,
hơn nữa do thời gian có hạn nên chúng tôi tập trung vào nghiên cứu
theo tiếp cận thứ hai là dựa vào cấu trúc văn bản (trang web). Phương
pháp được chúng tôi sử dụng và phát triển dựa trên nghiên cứu [3,5],
với hai phần:
Xác định các thuộc tính dùng để đo độ tương tự giữa hai trang
html
12
Áp dụng thuật toán học máy để xây dựng mô hình trên tập các
thuộc tính trên.
Đối với phần thứ nhất, chúng tôi sẽ sử dụng các thuộc tính sau:
So sánh độ tương đồng tên file của trang web
So sánh độ tương đồng cấu trúc url
So sánh cấu trúc html của cặp trang web
Và một số tiêu chí khác để làm giảm thời gian chạy của hệ
thống như ngày sửa, tỉ lệ âm tiết, tỉ lệ chunk.
Đối với thuật toán học máy, chúng tôi mô hình hóa và áp dụng
cho hai thuật toán là Naïve Bayes và Decision Tree (cây quyết định).
1.4. Cấu trúc luận văn
Chương 1. Giới thiệu vai trò của dữ liệu song ngữ và bài toán khai phá
dữ liệu song ngữ đặt ra.
Chương 2. Đưa ra lý thuyết về các đặc trưng có thể trích ra các đặc
trưng có thể dùng làm đặc trưng phân loại.
Chương 3. Mô hình học máy cho bài toán đối sán h văn bản
Chương 4. Đưa ra kiến trúc hệ thống dùng để thực nghiệm và kết quả
phân loại
Kết luận đánh giá kết quả hướng phát triển của hệ thống
13
Chương 2. Các tiếp cận và kỹ thuật cho bài toán khai phá dữ liệu
song ngữ
2.1. Lọc theo cấu trúc
Trên World Wide Web tồn tại nhiều dữ liệu, và nhiều kiểu định
dạng dữ liệu, chẳng hạn htm, xhtml, doc, pdf,... và luận văn chỉ sử
dụng văn bản định dạng html – trang web (có thể là html động khi
download lưu vào ổ cứng nó có thêm đuôi html, ví dụ: *.cfm.html).
Các trang web có nền tảng là text, có chứa thẻ đánh dấu, chỉ thị
cho chương trình về cách hiển thị hay xử lý văn bản.
Trong html có bốn loại phần tử đánh dấu:
Đánh dấu có cấu trúc miêu tả mục đích của phần văn bản (ví dụ,
Golfsẽ điều khiển phần mềm đọc hiển thị "Golf" là đề mục cấp một), Đánh dấu trình bày miêu tả phần hiện hình trực quan của phần văn bản bất kể chức năng của nó là gì (ví dụ, boldface sẽ hiển thị đoạn văn bản boldface). Đánh dấu liên kết ngoài chứa phần liên kết từ trang này đến trang kia Wikipedia sẽ hiển thị từ Wikipedia như là một liên kết ngoài đến một url). 14 Các phần tử thành phần điều khiển giúp tạo ra các đối tượng (ví dụ, các nút và các danh sách) Bên dưới trang web là các thẻ html và văn bản thuần túy. Trong tiếp cận cấu trúc, có 2 kỹ thuật nhỏ: Thứ nhất, chỉ quan tâm đến các thẻ cấu trúc và điều khiển giống như lọc cấu trúc của hệ thống PTMiner. Thứ hai, tất cả thẻ có ảnh hưởng đến cái nhìn được từ phía người dùng, tức loại bỏ các comment trong file html. Để việc dóng hàng tốt hơn, việc phân biệt nonmarkup text và markup text là cần thiết. thuộc tính của thẻ là nonmarkup text hiển thị là markup text. Modul so sánh cấu trúc thực hiện hai bước sau: Bước 1: chuyển các thẻ nội dung của file html thành cấu trúc tuyến tính hay chuỗi tuần tự của các từ tố của các thẻ cho các trang web của hai ngôn ngữ mà hệ thống quan tâm ở đây là Anh và Việt, với modul này nội dung trang web được đưa về chuỗi của bốn loại từ tố: [start:label], label là tên thẻ html, ví dụ, [start:html], [start:script] [end:label] [chunk:length], length số ký tự khác ‘trắng’ của văn bản đánh dấu [chunka:length], length số ký tự khác ‘trắng’ của văn bản không đánh dấu Còn các yếu tố khác trong html như chú thích thì nó không ảnh hưởng nhiều đến sự tương đồng của hai trang web nên bị loại bỏ khi chuyển sang tuyến tính. 15 Ví dụ: source: COLTECH sẽ được chuyển tuyến tính thành [start:font], [chunka:9], [chunk:7],[end:font]. Bước 2: dóng hàng hai chuỗi từ tố đại diện cho hai trang web song ngữ việc dóng hàng dùng thuật toán quy hoạch động sẽ được trình bày bên dưới. Ví dụ: Source trang web: Hình 5a: Ví dụ về source trang web Chuỗi từ tố: Hình 5b: Ví dụ về dóng hàng hai chuỗi từ tố cho hai văn bản Sau khi dóng hàng, để xác định hai trang web đưa ra có là bản dịch hay không thì cần phải có thông số để có thể tạo các quyết định với thông số này. Và bốn thông số được đưa ra kiểm nghiệm chất lượng dóng hàng trang web: dp: tỉ lệ từ tố không được dóng hàng n: số từ tố [chunka:length] đã dóng hàng nhưng độ dài length không bằng nhau 16 r: độ tương quan độ dài của văn bản nonmarkup đã được dóng hàng. Chính là tương quan length trong [chunka:length] p: độ tin cậy của r Tỉ lệ khác nhau dp với ý nghĩa khác là chỉ ra lỗi của những từ tố trong chuỗi tuyến tính ở một bên không tương ứng với từ tố nào bên chuỗi còn lại. Từ ví dụ trên, một bên chứa H1 header nhưng không có trong bên văn bản kia. Lượng lớn lỗi như vậy sẽ chỉ ra hai tài liệu không có chất liệu giống nhau đủ để suy xét xem có phải là bản dịch hay không. Điều này có thể xảy ra, ví dụ, khi hai tài liệu đều là bản dịch của một, nhưng một tài liệu có nhiều nội dung hơn cái còn lại, thì dĩ nhiên tỉ lệ khác nhau là cao và là cặp thí sinh tồi. Số chunk văn bản không đánh dấu đã được dóng hàng chỉ ra chất lượng của dóng hàng. Thuật toán lập trình động cố gắng tối ưu việc dóng hàng đối với văn bản đánh dấu. Bên cạnh đó, chunk văn bản không đánh dấu sẽ tương ứng với chunk khác. Với hai tham số còn lại r và p chỉ ra các chunk văn bản không đánh dấu có tương quan theo độ dài không. Khi hai tài liệu được dóng hàng với cái khác là bản dịch, thì đáng tin cậy hơn nếu cái nào có mối tương quan tuyến tính theo độ dài của chunk văn bản không đánh dấu: ngắn đi với ngắn, trung bình đi với trung bình, dài đi với dài. Chỉ số tương quan Pearson được đưa ra chỉ ra mối quan hệ độ dài của chunk văn bản không đánh dấu, giá trị của p chỉ ra độ tin cậy của r. Trong luận văn này p được chọn 0.01. Công thúc của r như sau: 17 r= ( X 2 XY ( X ) N X Y N 2 )( Y 2 ( Y ) 2 N ) Khi đã có r và p thì phải kiểm định giả thiết, các bước kiểm định giả thiết, Giả thuyết không và giả thuyết đối nghịch H0: =0 HA: # 0 <0 >0 Tính giá trị kiểm định: r t= 1 r2 n2 Xác định giá trị khởi tạo tcritical từ bảng Pearson: Critical values for Pearson r Xem trong “critical r Pearson.bmp” Với df = n-1 thì : Với df = n – 2 thì: . tcritical = tα,df . tcritical = tα,df Tạo quyết định Nếu |t| > tcritical từ bỏ H0 Ngược lại không bác bỏ H0 18 Kết luận Nếu bác bỏ H0, giá trị r được chấp nhận, có tồn tại mối tương quan giữa độ dài. Nếu không bác bỏ H0, giá trị r không được chấp nhận, không tồn tại mối tương qua giữa hai độ dài. 2.2. Lọc theo nội dung Khi mà các tiêu chí đại diện cho độ tương đồng cấu trúc html của trang web không phát huy hiệu quả thì các tiêu chí tương đồng nội dung của trang web sẽ là lựa chọn tốt cho kiểm tra một cặp có đúng là bản dịch không. Tiếp cận này đưa ra chỉ số tốt hơn so với so chỉ số cấu trúc tài liệu, bởi vì nó đi thẳng vào vấn đề. Hai trang web là bản dịch của nhau tức là nội dung của trang này là bản dịch sang ngôn ngữ khác của nội dung trang kia. Như Ma và Liberma chỉ ra rằng không phải tất cả bản dịch trong giống bản gốc. Hơn nữa tương đồng theo cấu trúc chỉ áp dụng cho tập dữ liệu có đánh dấu, và chắc chắn rằng nhiều bộ sưu tập đa ngôn ngữ trên www tồn tại nhiều văn bản song ngữ không có cấu trúc thẻ. Cuối cùng, những ứng dụng khác cho phát hiện những bản dịch vẫn tiếp tục được nghiên cứu như dóng hàng văn bản tài liệu con, phát hiện trùng lặp. Tất cả nhận xét trên chỉ ra rằng tiếp cận theo content không phục thuộc vào độ tương đồng cấu trúc. Dưới dây chỉ ra cách tính chỉ số độ tương đồng nội dung. Chúng ta định nghĩa chỉ số tương đồng nội dung là tsim cho hai văn bản theo mô hình đối xứng từ-từ của văn bản song ngữ. Theo đó một link là một cặp (x,y) với x là từ trong ngôn ngữ L1 và y là từ trong ngôn ngữ L2. Mô hình chứa một từ điển song ngữ có chứa xác suất của tất cả kiểu link. Trong đó có một kiểu đặc biệt, là một từ có 19 - Xem thêm -Tài liệu vừa đăngTài liệu xem nhiều nhất
Tình hình, kết quả hoạt động ở bhxh thị xã thái bình
41
79978
158
T069 cnh - hđh dưới góc nhìn triết học
26
79954
157
|