BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU
-------- --------
TRƯƠNG HỮU CHIẾN
PHÂN LỚP NGỮ NGHĨA HÌNH ẢNH DỰA TRÊN
MẠNG NƠ-RON TÍCH CHẬP
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
BÀ RỊA VŨNG TÀU - 2020
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU
-------- --------
TRƯƠNG HỮU CHIẾN
PHÂN LỚP NGỮ NGHĨA HÌNH ẢNH DỰA TRÊN
MẠNG NƠ-RON TÍCH CHẬP
Chuyên ngành: Công nghệ thông tin
Mã ngành: 8480201
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. VĂN THẾ THÀNH
BÀ RỊA VŨNG TÀU - 2020
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ-ron
tích chập” là công trình nghiên cứu của tôi dưới sự hướng dẫn của giảng viên hướng dẫn,
không trùng lắp của người khác. Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công
trình nghiên cứu liên quan trong nước và quốc tế. Các tài liệu được luận văn tham khảo,
kế thừa và trích dẫn đều được liệt kê trong danh mục các tài liệu tham khảo.
Tôi xin chịu hoàn toàn trách nhiệm về lời cam đoan trên.
Bà rịa - Vũng tàu, ngày 12 tháng 12 năm 2020.
Học viên
Trương Hữu Chiến
i
LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn và bày tỏ sự biết ơn chân thành tới TS.Văn Thế Thành
– Giáo viên hướng dẫn khoa học đã trực tiếp hướng dẫn tôi, đã hết lòng hỗ trợ và giúp
đỡ tôi trong quá trình nghiên cứu và hoàn thiện luận văn của mình.
Tôi cũng xin gửi lời cảm ơn chân thành tới các thầy, các cô là giảng viên của Trường Đại
học Bà Rịa Vũng Tàu đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu
trong suốt quá trình học tập tại trường.
Và tôi cũng muốn gửi lời cảm tới các anh, chị, em lớp MIT18K1 khóa đầu tiên Thạc sĩ
ngành công nghệ thông tin, luôn bên cạnh và động viên tôi trong suốt thời gian học tập
và quá trình thực hiện luận văn tốt nghiệp.
Cuối cùng, tôi cũng xin gửi lời cảm ơn tới cha, vợ và các con, và những người thân trong
gia đình tôi, đã chăm lo, động viên tôi tích cực học tập và hoàn thành thật tốt khóa học
thạc sĩ này.
Vì thời gian có hạn, mặc dù đã hết sức cố gắng hoàn thành luận văn nhưng chắc chắn sẽ
không tránh khỏi những thiếu sót. Rất mong nhận được sự cảm thông, chia sẻ, đóng góp
ý kiến tận tình của quý thầy cô và các bạn để luận văn được hoàn thiện hơn.
Tôi xin chân thành cảm ơn!
ii
MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................. i
MỤC LỤC ...................................................................................................................... iii
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................... vi
DANH MỤC HÌNH VẼ ................................................................................................... i
DANH MỤC BẢNG BIỂU ............................................................................................ iv
LỜI MỞ ĐẦU .................................................................................................................. 1
CHƯƠNG 1 ..................................................................................................................... 5
TỔNG QUAN PHÂN TÍCH NGỮ NGHĨA HÌNH ẢNH ............................................ 5
1.1. Đặc trưng văn bản đi kèm ảnh ................................................................................ 6
1.2. Đặc trưng nội dung ảnh ........................................................................................... 8
1.3. Hướng tiếp cận theo ngữ nghĩa hình ảnh .............................................................. 10
1.4. Trích xuất đặc trưng .............................................................................................. 13
1.4.1. Ý nghĩa của trích xuất đặc trưng .................................................................. 14
1.4.2. Các đặc trưng phổ biến ................................................................................ 14
1.5. Các nghiên cứu liên quan ...................................................................................... 15
1.6. Kết luận ................................................................................................................. 17
CHƯƠNG 2 ................................................................................................................... 18
TỔNG QUAN VỀ MẠNG NƠ-RON TÍCH CHẬP ................................................... 18
2.1. Giới thiệu .............................................................................................................. 18
2.2. Một số khái niệm .................................................................................................. 20
2.3. Kiến trúc mạng nơ-ron tích chập.............................................................................. 21
iii
2.3.1. Lớp tích chập (Convolutional) ...................................................................... 23
2.3.2. Hàm kích hoạt ReLU .................................................................................... 27
2.3.3. Lớp lấy mẫu (Pooling) ................................................................................. 28
2.3.4. Lớp kết nối đầy đủ ........................................................................................ 29
2.4. Kỹ thuật tối ưu mạng ............................................................................................ 31
2.5. Một số Kiến trúc mạng CNN phổ biến ................................................................. 32
2.5. 1. Kiến trúc LeNet-5 ........................................................................................ 33
2.5. 2. Kiến trúc AlexNet ........................................................................................ 34
2.5. 3. Kiến trúc VGG-16 ....................................................................................... 36
2.5.4. Kiến trúc Inception (GoogleLeNet) .............................................................. 38
2.6. Kết luận ................................................................................................................. 40
CHƯƠNG 3 ................................................................................................................... 41
ĐỀ XUẤT MÔ HÌNH PHÂN LOẠI ẢNH VÀ KẾT HỢP ........................................ 41
TÌM KIẾM THEO NGỮ NGHĨA ............................................................................... 41
3.1. Kiến trúc của hệ thống .......................................................................................... 41
3.2. Mô hình phân lớp hình ảnh bằng CNN ................................................................. 42
3.3. Mô hình tìm kiếm theo ngữ nghĩa......................................................................... 46
3.3.1. Các chú thích cho hình ảnh .......................................................................... 47
3.3.2. Phát triển Ontology ...................................................................................... 49
3.3.3. Ontology hình ảnh ........................................................................................ 50
3.3.4. Truy xuất hình ảnh ngữ nghĩa (SIR-Semantic Image Retrieval) .................. 53
3.4. Kết luận ................................................................................................................. 55
iv
CHƯƠNG 4 ................................................................................................................... 56
KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ ........................................................... 56
4.1. Môi trường và các công cụ sử dụng cho thực nghiệm .......................................... 56
4.2. Tập dữ liệu thực nghiệm ....................................................................................... 56
4.3. Xây dựng mô hình phân loại ảnh cho hệ thống tìm kiếm ..................................... 58
4.3.1. Vai trò của Dropout ..................................................................................... 60
4.3.2. Ảnh hưởng của Batch size đến kết phân lớp dữ liệu .................................... 61
4.4. Kết quả tìm kiếm ảnh theo ngữ nghĩa ................................................................... 62
4.5. Kết luận ................................................................................................................. 69
TÀI LIỆU THAM KHẢO ............................................................................................ 70
Tiếng Việt .................................................................................................................... 70
Tiếng Anh .................................................................................................................... 70
v
DANH MỤC CÁC TỪ VIẾT TẮT
STT
Từ viết tắt
01
AI
02
Tiếng anh
Giải thích
Artificial Intelligence
Trí tuệ nhân tạo
ANN
Artificial Neural Network
Mạng nơ-ron nhân tạo
03
CBIR
Content-Based Images
Retrieval
Tìm kiếm ảnh theo nội dung
04
CNN
Convolutional Neural
Network
Mạng nơ-ron tích tập
05
CSDL
Database
Cơ sở dữ liệu
06
DL
Deep Learning
Học sâu
07
DNN
Deep Neural Network
Mạng nơ-ron sâu
08
DT
Decision Tree
Cây quyết định
09
FNN
Feedforward Neural Network Mạng nơ-ron truyền thẳng
10
GPU
Graphic Proccessing Unit
Bộ vi xử lý dữ liệu hình ảnh
11
HOG
Histograms of Oriented
Gradients
Biểu đồ độ dốc định hướng
12
k-NN
k-Nearest Neighbors
K-láng giềng gần nhất
ImageNet Large Scale Visual
Recognition Challenge
Cuộc thi thử thách nhận biết
hình ảnh quy mô lớn
ImageNet
Internet of Things
Internet vạn vật
13
ILSVRC
14
IoT
15
OWL
Ontology Web language
Ngôn ngữ ontology web
16
QBIC
Query Based Image Content
Truy vấn ảnh theo nội dung
17
SBIR
Semantic Based Image
Retrieval
Truy vấn ảnh theo ngữ nghĩa
vi
18
SIFT
Scale Invariant Feature
Transform
Biến đổi đặc trưng cục bộ
bất biến SIFT
19
SURF
Speeded Up Robust Features
Trích chọn đặc trưng SURF
20
SVM
Support Vector Machine
Máy vec-tơ hỗ trợ
21
ReLU
Rectified Linear Unit
Điều chỉnh đơn vị tuyến tính
22
RGB
Red Green Blue
Hệ màu cơ bản
23
RDF
Resource Description
Framework
Khung mô tả tài nguyên
24
SIR
Semantic Image Retrieval
Truy vấn ảnh nghữ nghĩa
25
SPARQL
SPARQL Protocol And RDF
Query Language
Ngôn ngữ truy vấn cho
CSDL ngữ nghĩa
26
TBIR
Text-Based Image Retrieval
Truy xuất hình ảnh dựa trên
văn bản
vii
DANH MỤC HÌNH VẼ
Hình 1.1: Ví dụ hiển thị một ảnh……………………………………………….……………....7
Hình 1.2: Ví dụ truy vấn “d-80” của Google……………………………….………………..7
Hình 1.3: Ví dụ truy vấn “Apple” của Google……………………………….……………...8
Hình 1.4: Ví dụ về một số lọai kết cấu………………………………………….….………….9
Hình 1.5: Minh họa các tầng ngôn ngữ dùng trong ontology………..…….…………….13
Hình 2.1: Mô hình bộ não người……………………………………………………………..18
Hình 2.2: Mạng nơ-ron tích chập hay Convolutional Neural Networks (CNN)………..19
Hình 2.3: Kiến trúc của CNN………………………………………………………………….22
Hình 2.4: Mạng nơ-ron thông thường……………………………………………………….22
Hình 2.5: Mạng nơ-ron tích chập………………………………………….…...….…………22
Hình 2.6: Minh họa ảnh dữ liệu đầu vào và bộ lọc………………………………………..23
Hình 2.7: Minh họa tích chập ảnh đầu vào và kết quả Bảng đồ đặc trưng…………….24
Hình 2.8: Minh họa quá trình tích chập nhiều lớp…………………….…………………..26
Hình 2.9: Minh họa bảng đồ đặc trưng xếp chồng lên nhau………………….…………27
Hình 2.10: Các hàm kích hoạt…………………………………………….………………….28
Hình 2.11: Minh họa việc lấy mẫu con………………………………….………………......29
Hình 2.12: Một ví dụ về mô hình học sâu dựa trên mạng nơ-ron tích chập…….….….31
Hình 2.13: Mạng nơ-ron trước và sau quá trình Dropout…………………………….....32
i
Hình 2.14: Mô hình Kiến trúc LeNet-5………………………………………………………34
Hình 2.15: Mô hình Kiến trúc AlexNet…………………………………….…………..…….35
Hình 2.16: Mô hình Kiến trúc AGG-16………….…………………………..………...……37
Hình 2.17: Mô hình dạng cell của Kiến trúc Inception…………………..………..……...38
Hình 2.18: Mô hình Kiến trúc Inception……………………………..……………..……....39
Hình 3.1: Kiến trúc của hệ thống…………………………………………………...……..…41
Hình 3.2: Áp dụng kiến trúc mạng AlexNet………………….…………………..………....42
Hình 3.3: Kiến trúc mạng AlexNet ở dạng phẳng……………………..……......……..….43
Hình 3.4: Minh họa hình ảnh qua các lớp trong kiến trúc AleNet………….……………45
Hình 3.5: Kiến trúc tìm kiếm ngữ nghĩa……………………..……………..……..…………46
Hình 3.6: Chú thích một hình ảnh……………………………………..…........…………….48
Hình 3.7: Chú thích ontology cho hình ảnh hoa hồng…………………….…..…………...48
Hình 3.8: Domain ontology của hệ thống……………………………….……………….…50
Hình 3.9: Liên kết hình ảnh với các ontology trong protégé………….………………….52
Hình 3.10: Mô hình từ khóa tìm kiếm với ngữ nghĩa…………………..……….……….…53
Hình 4.1: Tập huấn luyện từng phần……………………………….…………….………..…57
Hình 4.2: Biểu đồ Confusion matrix đánh giá theo các chủ đề ảnh …………….………59
Hình 4.3: Biểu đồ Precision đánh giá mô hình phân loại theo các chủ đề ảnh …...….60
Hình 4.4: Minh họa phân lớp dữ liệu hình ảnh……………………………...…………….62
ii
Hình 4.5: Minh họa biểu đồ truy vấn khớp hình ảnh…………………...…………………63
Hình 4.6: Trường hợp thực nghiệm với hình ảnh ngựa vằn…………….……………….64
Hình 4.7: Trường hợp thực nghiệm với hình ảnh chú chó………………………………..65
Hình 4.8: Trường hợp thực nghiệm với từ khóa truy vấn “Dog”……………………..…66
Hình 4.9: Trường hợp thực nghiệm với từ khóa truy vấn “Monkey”……..……..…..…67
Hình 4.9: Tìm kiếm với từ khóa “Animal”…………………………………………………..68
iii
DANH MỤC BẢNG BIỂU
Bảng 4.1: Kết quả huấn luyện mô hình……………………………………………………..59
Bảng 4.2: Tỉ lệ lỗi khi thay đổi giá trị Dropout của hệ thống………………………..….60
Bảng 4.3: Kết quả phân lớp khi sử dụng dữ liệu với các batch size khác nhau…..…..61
iv
LỜI MỞ ĐẦU
1. Đặt vấn đề
Trong thời gian gần đây, với sự phát triển mạnh mẽ về khả năng tính toán của các
thế hệ máy tính hiện đại cũng như sự bùng nổ về dữ liệu thông qua mạng internet, dữ liệu
đa phương tiện ngày càng được phát triển nhanh chóng về mặt số lượng và kích thước,
và với việc chia sẻ hình ảnh trên các trang web, các mạng xã hội, kích thước của bộ sưu
tập hình ảnh kỹ thuật số đang gia tăng nhanh chóng về số lượng, độ phức tạp và tính đa
dạng. Theo WordStream, năm 2019, mỗi ngày có 8.95 triệu ảnh, video được chia sẻ trên
Instagram, mỗi năm một người tạo ra ít nhất 1.000 ảnh, mỗi năm tạo ra ít nhất 1 nghìn tỷ
hình ảnh… Cùng với sự phát triển vượt trội của các công nghệ kỹ thuật số, công nghệ
thông tin và sự phổ biến rộng rãi các thiết bị thông minh, dẫn đến dữ liệu hình ảnh trở
nên thân thuộc với cuộc sống của con người và được ứng dụng trong nhiều lĩnh vực quan
trọng, như hệ thống thông tin giao thông, hệ thống thông tin địa lý, hệ thống thông tin
bệnh viện, hệ thống thư viện số, ứng dụng tìm kiếm ảnh trong y học, giáo dục đào tạo,
giải trí,…[3].
Qua đó cho thấy dữ liệu cũng như số lượng ảnh ngày càng được gia tăng nên cần
phải có nhiều hệ thống, phương thức truy vấn ảnh trên các thiết bị cũng như trong các hệ
thống đa phương tiện. Chính vì thế, việc nghiên cứu và phát triển các hệ thống tra cứu
ảnh là một bài toán quan trọng trong các hệ thống đa phương tiện và phù hợp với xu thế
của xã hội hiện đại. Các nhà khoa học trong thập kỷ qua đã đề xuất rất nhiều phương
pháp tiếp cận hiệu quả cho tìm kiếm hình ảnh.
Với các hệ thống tìm kiếm ảnh sử dụng các văn bản đi kèm với ảnh (meta-data)
hoặc theo nội dung (sự tương đồng) của ảnh giúp cho việc tìm kiếm đơn giản và hiệu
quả. Tuy nhiên việc tìm kiếm ảnh trên thiếu cấu trúc ngữ nghĩa, nơi duy trì khả năng mở
rộng thành phần và sự phụ thuộc lẫn nhau, nên vẫn còn một số hạn chế làm cho kết quả
tìm kiếm chưa thật chính xác khi các mô tả này bị sai hoặc có thể các kết quả trả lại có
1
chứa hình ảnh không liên quan. Các công nghệ ngữ nghĩa cung cấp cách tiếp cận đầy hứa
hẹn cho việc tìm kiếm ảnh, giúp việc tìm kiếm hiệu quả và chính xác hơn.
Bên cạnh đó, với sự phát triển vượt bậc của các phương pháp học sâu đã giúp thị
giác máy tính đạt được những thành tựu đáng kể trong vấn đề nhận biết, phân tích, nhận
dạng và phân loại dữ liệu ảnh trên mạng CNN kết hợp với các kỹ thuật tối ưu nhằm nâng
cao khả năng phân loại các đối tượng và truy xuất dữ liệu ảnh [4]. Ưu điểm của CNN là
tận dụng được tính năng trích chọn đặc trưng của lớp tích chập và bộ phân lớp được huấn
luyện đồng thời. Nó có thể giải quyết các bài toán với số lượng lớn các biến, tham số kích
thước đầu vào lớn với hiệu năng cũng như độ chính xác vượt trội so với các phương pháp
phân lớp truyền thống. Mạng nơ-ron tích chập CNN là mô hình được sử dụng phổ biến
trong cộng đồng máy học cho hiệu quả trong các bài toán phân loại hình ảnh [5].
Từ những phân tích trên và sự gợi ý của giảng viên hướng dẫn, tôi quyết định chọn
nội dung “Phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ-ron tích chập” để làm đề tài
nghiên cứu thực hiện luận văn thạc sỹ của mình, với hy vọng có ý nghĩa và thiết thực,
ứng dụng thành công các mô hình học sâu hiện đại để xây dựng một hệ truy vấn ảnh theo
hướng tiếp cận ngữ nghĩa để tăng độ chính xác hơn so với các phương pháp tìm kiếm ảnh
theo các văn bản đi kèm với ảnh hoặc theo nội dung của ảnh, nhằm phục vụ cho nhiều
lĩnh vực khác nhau trong đời sống kinh tế xã hội, như nhận dạng và phân loại nông sản,
thủy sản trong lĩnh vực nông nghiệp và nông thôn,… nhằm góp phần bắt nhịp xu hướng
thời đại cách mạng công nghiệp 4.0, đã có tác động sâu sắc đến định hướng phát triển
kinh tế xã hội ở nước ta trong nhiều lĩnh vực như nông nghiệp thông minh, giao thông
thông minh, y tế thông minh,…
2. Mục tiêu của đề tài
Trong luận văn này, đề xuất mô hình học sâu là mạng nơ-ron tích chập trong việc
phân loại tập ảnh. Đồng thời, kết hợp ngữ nghĩa vào việc tìm kiếm dựa trên một domainontology để mô tả các mối quan hệ giữa các chủ đề ảnh cần phân lớp. Phương pháp tìm
kiếm này không những hiệu quả và chính xác hơn phương pháp tìm kiếm dựa trên meta-
2
data hoặc nội dung của ảnh mà còn cho phép mở rộng và đa dạng hóa kết quả tìm kiếm
thông qua việc kết hợp ngữ nghĩa vào việc tìm kiếm.
2.1. Đối tượng nghiên cứu
Đề tài tiếp cận nghiên cứu các đối tượng về ảnh số, trích xuất đặc trưng trên ảnh
để làm cơ sở phân lớp dựa trên kỹ thuật mạng nơ-ron tích chập. Kết hợp ngữ nghĩa vào
quá trình tìm kiếm dựa trên một domain ontology được xây dựng để mô tả các mối quan
hệ ngữ nghĩa giữa các chủ đề ảnh.
2.2. Phương pháp nghiên cứu
Thực hiện việc phân tích hình ảnh để trích xuất đặc trưng hình ảnh và phân lớp dữ
liệu hình ảnh dựa trên mạng nơ-ron tích chập. Xây dựng một hệ truy vấn ảnh dựa trên
dựa trên mô hình phân loại ảnh CNN và kết hợp với domain ontology để hỗ trợ tìm kiếm
theo ngữ nghĩa.
2.3. Ý nghĩa của đề tài
Về khoa học: Đề tài sẽ mang ý nghĩa cung cấp về mặt lý thuyết để làm rõ về
phương pháp và kỹ thuật phân loại ảnh, truy vấn ảnh theo ngữ nghĩa.
Về thực tiễn: Góp phần cho việc truy vấn ảnh theo ngữ nghĩa dựa trên mô hình
phân loại ảnh CNN và kết hợp với domain ontology để hỗ trợ tìm kiếm theo ngữ nghĩa.
Cấu trúc luận văn được tổ chức gồm bốn chương, cụ thể như sau:
Chương 1: Tổng quan phân tích ngữ nghĩa hình ảnh
Nội dung chương này nhằm giới thiệu tổng quan phân tích ngữ nghĩa hình ảnh với
những đặc trưng văn bản đi kèm ảnh, đặc trưng nội dung ảnh, hướng tiếp cận ngữ nghĩa
hình ảnh và điểm qua một số nghiên cứu, công trình liên quan với phân tích ưu nhược
điểm. Từ đó làm cơ sở cho quá trình đề xuất một phương pháp tra cứu ảnh theo ngữ nghĩa
dựa trên mô hình phân loại ảnh CNN.
3
Chương 2: Tổng quan về Mạng nơ-ron tích chập
Trình bày tổng quan về mạng nơ-ron tích chập, với kiến trúc mạng qua lớp tích
chập nhằm trích xuất đặc trưng ảnh, biểu diễn vector đặc trưng cho việc phân loại ảnh,…
và kỹ thuật tối ưu mạng nhằm hạn chế overfiting. Bên cạnh đó cũng điểm qua một số
kiến trúc mạng CNN phổ biến, qua đó đề xuất mô hình cho bài toán phân lớp dữ liệu hình
ảnh trong chương sau.
Chương 3: Đề xuất mô hình phân loại ảnh và kết hợp tìm kiếm theo ngữ nghĩa.
Trong chương này đề xuất kiến trúc cho hệ thống với một mô hình cụ thể cho bài
toán phân lớp dữ liệu hình ảnh và mô hình tìm kiếm ảnh theo hướng tiếp cận ngữ nghĩa
với kỹ thuật ontology. Việc phân tích và mô tả mô hình được thực hiện nhằm minh chứng
tính khả thi và tính đúng đắn để từ đó làm cơ sở cho việc ứng dụng thực nghiệm.
Chương 4: Kết quả thử nghiệm và đánh giá
Trong chương này mô tả quá trình thực nghiệm và kết quả thực nghiệm trên cơ sở
dữ liệu hình ảnh thu thập từ bộ dữ liệu ImageNet nổi tiếng. Kết quả thực nghiệm được
phân tích đánh giá để từ đó đưa ra định hướng phát triển tiếp theo cho hệ thống sau này.
4
CHƯƠNG 1
TỔNG QUAN PHÂN TÍCH NGỮ NGHĨA HÌNH ẢNH
Trong những năm gần đây, dữ liệu hình ảnh đã gia tăng một cách nhanh chóng cả
về dung lượng lẫn về thể loại. Các dữ liệu hình ảnh đều phục vụ cho nhiều lĩnh vực quan
trọng trong cuộc sống như trong các hệ thống giao thông, an ninh, y tế,... Vì thế việc phân
tích một lượng lớn dữ liệu ảnh để nhận dạng, phân loại và tìm kiếm đóng vai trò hết sức
quan trọng trong các hệ thống đa phương tiện. Các nhà khoa học trong thập kỷ qua đã đề
xuất rất nhiều phương pháp tiếp cận hiệu quả cho tìm kiếm hình ảnh đang có xu hướng
trở nên phổ biến. Với nguồn tài nguyên ảnh vô cùng to lớn trên mạng internet, thì việc
tìm kiếm chính xác một bức ảnh đúng với yêu cầu của người dùng đối với thế hệ Web
2.0 đang gặp nhiều khó khăn.
Chúng ta khó có thể tìm kiếm một bức ảnh theo cách thông thường, có nghĩa là
việc tìm kiếm được thực hiện lần lượt trên từng tấm ảnh cho đến khi tìm thấy đúng ảnh
có nội dung cần tìm. Hơn nữa, theo sự phát triển của công nghệ số, nguồn tài nguyên ảnh
trên mạng internet ngày càng nhiều. Do đó, nhu cầu thật sự đòi hỏi chúng ta phải có một
công cụ hỗ trợ cho việc tìm kiếm ảnh chính xác là hết sức thiết thực trong thời đại cách
mạng công nghiệp 4.0.
Vì vậy, sự ra đời của Web ngữ nghĩa [6] đã mở ra một bước tiến của công nghệ
Web. Web ngữ nghĩa (Web 3.0) là bước tiến lớn so với kỹ thuật của Web 2.0 về khả năng
làm việc với thông tin thay vì chỉ đơn thuần là lưu trữ, cùng với xử lý ngôn ngữ tự nhiên,
trí thông minh nhân tạo,… đã giúp cho web ngữ nghĩa có cấu trúc hoàn chỉnh và mang
ngữ nghĩa mà máy tính có thể “hiểu” được.
Những thông tin này, có thể được sử dụng lại mà không cần qua các bước tiền xử
lý. Khi sử dụng các máy tìm kiếm thông thường (Google, Yahoo…), tìm kiếm thông tin
trên Web ngữ nghĩa sẽ không tận dụng được những ưu điểm vượt trội của Web ngữ nghĩa,
kết quả trả về không có sự thay đổi. Nói theo một cách khác thì với các máy tìm kiếm
hiện tại Web ngữ nghĩa hay Web thông thường chỉ là một.
5
Do vậy, cần thiết có một hệ thống tìm kiếm ngữ nghĩa (Semantic Search) tìm kiếm
trên Web ngữ nghĩa hay trên một mạng tri thức mang ngữ nghĩa, kết quả trả về là các
thông tin có cấu trúc hoàn chỉnh mà máy tính có thể “hiểu” được, nhờ đó việc sử dụng
hay xử lý thông tin trở nên dễ dàng hơn.
Quá trình truy xuất và hiển thị hình ảnh có liên quan dựa trên các truy vấn của
người dùng từ web hoặc cơ sở dữ liệu hình ảnh. Nói chung các phương pháp truy xuất
hình ảnh được phân thành ba loại kỹ thuật chính bao gồm tìm kiếm dựa trên đặc trưng
văn bản đi kèm ảnh, dựa trên đặc trưng nội dung ảnh và tìm kiếm ảnh theo ngữ nghĩa với
vai trò của ontology trong việc sử dụng bản thể học miền (domain ontology) cụ thể để
truy xuất hình ảnh có liên quan đến truy vấn của người dùng. Ontology được coi là trọng
tâm của web ngữ nghĩa và sẽ là kỹ thuật chính trong tìm kiếm ảnh theo tiếp cận ngữ
nghĩa.
1.1. Đặc trưng văn bản đi kèm ảnh
Mỗi ảnh trên web thường có các văn bản đi kèm như là tên ảnh (title), các thẻ
(tags), bình luận (comment),…để mô tả các thông tin về ảnh, đây là các dữ liệu mô tả về
ảnh (metadata). Các dữ liệu này thường do người dùng tạo ảnh gắn cho mỗi ảnh, vì vậy
chúng đều mang một ý nghĩa nhất định. Độ quan trọng của các loại siêu dữ liệu khác
nhau cũng khác nhau. Ví dụ, các thẻ thường quan trọng hơn tên ảnh, tên ảnh quan trọng
hơn bình luận.
Dưới đây là một ví dụ về văn bản đi kèm một ảnh:
• Title: “Red_Rose Flower”
• Tags: “redRoseflower, hongkongflowershow, 2009, bokeh, ausewaybay,
hongkong, jonnoj, jonbinalay, nikond80, interestingness50”
• Description: “HEAVEN SCENT"...FOR THE LOVE OF THE RED ROSE...
• Content:
6
Hình 1.1: Ví dụ hiển thị một ảnh
Vì văn bản đi kèm ảnh mang ngữ nghĩa về nội ảnh cho nên hai bức ảnh có nội
dung giống nhau thường có tên giống nhau và các thẻ tương tự nhau. Vì vậy, các công
cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trung khai thác nội dung của các văn
bản này để tìm kiếm và xếp hạng ảnh. Phương pháp này cho kết quả khả quan cũng như
đáp ứng nhanh nhu cầu của người sử dụng. Tuy nhiên, với các câu truy vấn mang ý nghĩa
nhập nhằng có thể các kết quả trả về sẽ không đúng với yêu cầu đặt ra. Ví dụ khi truy vấn
là “d-80”, một máy ảnh phổ biến của Nikon, thì các hệ thống trả về kết quả khá tốt như
Hình 1.2 kết quả với truy vấn máy ảnh Nikon “d-80”.
Hình 1.2: Ví dụ truy vấn “d-80” của Google
7
- Xem thêm -