Mạng nơ-ron nhân tạo trong kiểm soát nội dung hình ảnh

  • Số trang: 80 |
  • Loại file: PDF |
  • Lượt xem: 14 |
  • Lượt tải: 0
tailieuonline

Đã đăng 27602 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN VĂN BÌNH MẠNG NƠ-RON NHÂN TẠO TRONG KIỂM SOÁT NỘI DUNG HÌNH ẢNH LUẬN VĂN THẠC SĨ Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN VĂN BÌNH MẠNG NƠ-RON NHÂN TẠO TRONG KIỂM SOÁT NỘI DUNG HÌNH ẢNH Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 604805 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Đỗ Năng Toàn Hà Nội - 2011 3 MỤC LỤC LỜI CAM ĐOAN................................................................................................................ 1 LỜI CẢM ƠN ..................................................................................................................... 2 CHÚ THÍCH TỪ VÀ THUẬT NGỮ VIẾT TẮT ............................................................ 5 DANH MỤC HÌNH VẼ...................................................................................................... 6 PHẦN MỞ ĐẦU ................................................................................................................. 7 Chương 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ KIỂM SOÁT HÌNH ẢNH ................. 8 1.1. KHÁI QUÁT VỀ XỬ LÝ ẢNH .................................................................................. 8 1.1.1. Các khái niệm cơ bản ...................................................................................8 1.1.1.1. Xử lý ảnh ...........................................................................................8 1.1.1.2. Điểm ảnh ...........................................................................................8 1.1.1.3. Ảnh ....................................................................................................8 1.1.1.4. Mức xám của ảnh ..............................................................................9 1.1.1.5. Độ phân giải của ảnh .........................................................................9 1.1.2. Các bước xử lý ảnh số ..................................................................................9 1.1.2.1. Thu nhận ảnh ...................................................................................10 1.1.2.2. Tiền xử lý ........................................................................................11 1.1.2.3. Phân vùng ảnh .................................................................................16 1.1.2.4. Trích chọn đặc trưng .......................................................................16 1.1.2.5. Nhận dạng và nội suy ảnh ...............................................................17 1.1.2.6. Hậu xử lý .........................................................................................18 1.2. KIỂM SOÁT THÔNG TIN HÌNH ẢNH................................................................. 20 1.2.1. Nhận dạng ảnh ............................................................................................20 1.2.1.1. Giới thiệu .........................................................................................20 1.2.1.2. Nhận dạng ảnh theo miền không gian .............................................23 1.2.1.3. Nhận dạng dựa theo cấu trúc ...........................................................27 1.2.1.4. Nhận dạng dựa vào kỹ thuật mạng nơ-ron ......................................29 1.2.2. Kiểm soát thông tin dựa trên hình ảnh ....................................................31 Chương 2: NHẬN DẠNG ẢNH DỰA VÀO MẠNG NƠ-RON .................................... 32 2.1. MẠNG NƠ-RON NHÂN TẠO ................................................................................. 32 2.1.1. Giới thiệu về nơ-ron sinh học ....................................................................32 2.1.2. Mạng nơ-ron nhân tạo ...............................................................................34 2.1.2.1. Phân loại mạng nơ-ron nhân tạo......................................................34 2.1.2.2. Mô hình mạng nơ-ron nhân tạo .......................................................36 4 2.1.3. Huyến luyện mạng nơ-ron .........................................................................37 2.1.3.1. Các phương pháp học ......................................................................37 2.1.3.2. Học có thầy trong các mạng nơ-ron ................................................38 2.1.4. Các vấn đề trong xây dựng mạng nơ-ron đa lớp .....................................39 2.1.4.1. Chuẩn bị dữ liệu ..............................................................................39 2.1.4.2. Xác định các tham số cho mạng ......................................................42 2.1.4.3. Hiện tượng lãng quên ......................................................................44 2.1.4.4. Vấn đề quá khớp ..............................................................................45 2.2. MỘT SỐ THUẬT TOÁN NHẬN DẠNG ẢNH DỰA VÀO MẠNG NƠ-RON .. 46 2.2.1. Thuật toán lan truyền ngược .....................................................................46 2.2.1.1. Mô tả thuật toán ...............................................................................46 2.2.1.2. Sử dụng thuật toán lan truyền ngược ..............................................50 2.2.2. Một số biến thể của thuật toán lan truyền ngược ....................................53 2.2.2.1. Sử dụng tham số bước đà ................................................................53 2.2.2.2. Sử dụng hệ số học biến đổi .............................................................53 2.2.2.3. Sử dụng phương pháp Gradient kết hợp .........................................54 2.2.3. Thuật toán giả định luyện kim ..................................................................59 2.2.4. Thuật toán di truyền ..................................................................................60 Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM ............................................................ 62 3.1. BÀI TOÁN PHÁT HIỆN ẢNH “ĐEN” ................................................................... 62 3.2.1. Một số đặc điểm ảnh “đen” .......................................................................62 3.2.2. Các vấn đề gây nhầm lẫn ...........................................................................62 3.2. KIỂM SOÁT ẢNH “ĐEN” SỬ DỤNG MẠNG NƠ-RON ..................................... 62 3.2.1. Thu thập, phân tích và xử lý dữ liệu .........................................................62 3.2.2. Cài đặt chương trình ..................................................................................63 3.2.2.1. Mô-đun tiền xử lý ............................................................................63 3.2.2.2. Mô-đun trích chọn đặc trưng ...........................................................64 3.2.2.3. Mô-đun huấn luyện mạng nơ-ron ....................................................66 3.2.2.4. Mô-đun nhận dạng và ra quyết định................................................71 3.2.3. Chương trình kiểm soát ảnh “đen” BlockPornImage ............................72 3.2.3.1. Một số hình ảnh về chương trình ....................................................72 3.2.3.2. Môi trường thử nghiệm ...................................................................76 3.2.3.3. Kết quả thực nghiệm .......................................................................76 PHẦN KẾT LUẬN ........................................................................................................... 78 TÀI LIỆU THAM KHẢO ................................................................................................ 79 5 CHÚ THÍCH TỪ VÀ THUẬT NGỮ VIẾT TẮT Viết tắt Tên đầy đủ ANN Artificial Neural Network BMP Bitmap Image File CGA Color Graphic Adaptor DIB Device Independent Bitmap GIF Graphics Interchange Format LMS Least Means Square LZW Lempel Ziv-Wench MLP Multi Layer Perceptron PCX PC Paintbrush Exchange PLD Picture Language Description RLC Run Length Coding TIF Tagged Image File 6 DANH MỤC HÌNH VẼ Hình 1.1: Quá trình xử lý ảnh ..........................................................................................8 Hình 1.2: Các bước cơ bản trong một hệ thống xử lý ảnh ............................................10 Hình 1.3: Sơ đồ phân tích, xử lý ảnh và lưu đồ thông tin giữa các khối .......................10 Hình 1.4: Ảnh thu nhận và ảnh mong muốn .................................................................11 Hình 1.5: Dãn độ tương phản ........................................................................................15 Hình 1.6: Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB .........................20 Hình 1.7: Sự chuyển đổi giữa các mô hình biểu diễn ảnh .............................................20 Hình 1.8: Mô hình cấu trúc của đối tượng nhà ..............................................................22 Hình 1.9: Sơ đồ tổng quát hệ thống nhận dạng ảnh ......................................................23 Hình 1.10: Các phép toán trong ngôn ngữ PLD ............................................................28 Hình 2.1: Hình minh họa nơ-ron sinh học .....................................................................32 Hình 2.2: Phân loại mạng dựa trên đường truyền tín hiệu trong mạng .........................35 Hình 2.3: Mô hình nơ-ron nhân tạo ...............................................................................36 Hình 2.4: Mối liên hệ giữa sai số và kích thước mẫu. ...................................................40 Hình 2.5: Huấn luyện luân phiên trên hai tập mẫu. .......................................................44 Hình 2.6: Xấp xỉ hàm f(x) = 1+ sin( ) trong đó -2 ≤ x ≤ 2 với i=1, i=2 ...................51 Hình 2.7: Xấp xỉ hàm f(x) = 1+ sin( ) trong đó -2 ≤ x ≤ 2 với i=4, i=8 ...................51 Hình 2.8: Xấp xỉ hàm f(x) = 1 + sin( ) trong đó -2 ≤ x ≤ 2 với i=8 .........................51 Hình 2.9: Xác định tần số ..............................................................................................56 Hình 2.10: Giảm kích thước của tần số không chắc chắn. ............................................56 Hình 3.1: Xử lý dữ liệu ..................................................................................................63 Hình 3.2: Hình trái là ảnh đầu vào, hình phải là ảnh sau quá trình phát hiện da ..........66 Hình 3.3: Ảnh được trích chọn đặc trưng ......................................................................66 Hình 3.4: Tab quản lý mạng và phát hiện ảnh ...............................................................73 Hình 3.5: Tab cấu hình các tham số cho mạng nơ-ron nhân tạo ...................................73 Hình 3.6: Mạng đang được huấn luyện .........................................................................74 Hình 3.7: Mạng được huấn luyện thành công ...............................................................74 Hình 3.8: Ảnh đầu vào ...................................................................................................75 Hình 3.9: Phát hiện ảnh chính xác (hiển thị cửa sổ che) ...............................................75 Hình 3.10: Một số hình ảnh bị phân loại sai .................................................................76 7 PHẦN MỞ ĐẦU Bộ não của con người là sản phẩm hoàn hảo nhất của tạo hoá, có khả năng nhớ, tư duy và sáng tạo. Việc nghiên cứu những mô hình mà nguyên lý tổ chức và hoạt động mô phỏng theo hoạt động của bộ não người đang là hướng nghiên cứu mang tính thời sự của khoa học và công nghệ. Cũng từ đây, đã xuất hiện thuật ngữ “mạng nơ-ron nhân tạo” (Artificial Neural Networks - ANN). Mạng ANN này rất phù hợp với việc giải các bài toán xấp xỉ hàm, xử lý thông tin, xử lý ảnh… đặc biệt là nhận dạng ảnh. Ở các nước phát triển người ta đã ứng dụng ANN vào thực tế đời sống, đã cho ra đời hàng loạt các thiết bị sử dụng cấu trúc mạng nơ-ron để xử lý ảnh và xây dựng ảnh ba chiều từ các ảnh mặt chiếu phục vụ trong chẩn đoán hình ảnh y khoa, các thiết bị nhận dạng để đọc biểu đồ điện tim, điện não, nhận dạng vân tay, chữ viết, giọng nói… Lý do khách quan là do ANN có tốc độ xử lý cao nhờ cấu trúc xử lý song song và các liên kết mềm dẻo. Mạng có thể đưa ra các quyết định cần thiết thông qua các quá trình huấn luyện hoặc tự học, khả năng giải quyết vấn đề của mạng rất đa dạng và đạt độ chínhxác cao. Ở Việt Nam, những nghiên cứu mang tính thực nghiệm cũng đang được định hướng và thu được một số kết quả ban đầu tuy còn hạn chế. Vì vậy, việc cập nhật kiến thức và tiếp cận một lĩnh vực mũi nhọn của khoa học công nghệ trong việc giải quyết một bài toán cụ thể là rất cần thiết. Trước sự bùng nổ của các website với đủ loại nội dung sex, bạo lực, phản động... các nhà quản lý bối rối vì khó kiểm soát, chuyên gia an ninh mạng cho rằng không thể tận diệt, còn phụ huynh thì lo lắng. Để giải quyết bài toán đó tác giả sẽ nghiên cứu giải pháp lọc chặn ảnh đồi trụy từ đó tích hợp vào phần mềm lọc chặn để đem lại công cụ giúp các phụ huynh muốn quản lý, bảo vệ con em mình khỏi những thông tin độc hại trên Internet, đồng thời cũng giúp ngăn chặn trang web xấu cho các cơ sở kinh doanh dịch vụ Internet công cộng, các mạng máy tính của các công sở, trường học, các tổ chức, doanh nghiệp có kết nối Internet. Từ mục tiêu đó, luận văn tập trung nghiên cứu mạng nơ-ron nhân tạo và áp dụng kỹ thuật này cho bài toán phát hiện ảnh có nội dung đồi trụy (gọi tắt là ảnh “đen”). Luận văn được chia thành ba chương:  Chương 1: Khái quát về xử lý ảnh và kiểm soát hình ảnh.  Chương 2: Nhận dạng ảnh dựa vào mạng nơ-ron.  Chương 3: Xây dựng chương trình thử nghiệm phát hiện ảnh “đen” sử dụng mạng nơ-ron nhân tạo. 8 Chương 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ KIỂM SOÁT HÌNH ẢNH 1.1. KHÁI QUÁT VỀ XỬ LÝ ẢNH 1.1.1. Các khái niệm cơ bản 1.1.1.1. Xử lý ảnh Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ. Tuy là một ngành khoa học mới mẻ so với nhiều ngành khoa học khác, nhưng tốc độ phát triển rất nhanh, được rất nhiều các viện nghiên cứu, ứng dụng. Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đã phát triển một cách mạnh mẽ và có nhiều ứng dụng được áp dụng trong cuộc sống. Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người - máy. Mục đích của xử lý ảnh là nâng cao chất lượng ảnh phục vụ con người và xử lý ảnh dữ liệu dạng hình ảnh để máy tính có thể hiểu được từ đó đưa ra những quyết định cần thiết. Hình 1.1: Quá trình xử lý ảnh Xử lý ảnh có nhiều ứng dụng trong đời sống như: nhận dạng ảnh, vệ tinh dự báo thời tiết, viễn thám, ảnh y tế, khoa học hình sự, điện ảnh… 1.1.1.2. Điểm ảnh Điểm ảnh (pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật, mỗi phần tử trong ma trận được gọi là một phần tử ảnh. 1.1.1.3. Ảnh Ảnh số là tập hợp các điểm ảnh với mức xám phù hợp dùng để mô tả ảnh gần giống với ảnh thật. Ảnh được tạo nên từ hàng trăm ngàn cho đến hàng triệu ô vuông rất nhỏ- được coi là những nhân tố của bức ảnh và thường được biết dưới tên gọi là điểm ảnh. Máy tính hay máy in sử dụng những ô vuông nhỏ này để hiển thị hay in ra bức ảnh. Để làm được điều đó máy tính hay máy in chia màn hình, trang giấy thành một mạng lưới chứa các ô vuông, sau đó sử dụng các giá trị chứa trong file ảnh để định ra mầu sắc, độ sáng tối của từng pixel trong mạng lưới đó, đó là cơ sở để ảnh số được hình thành. 9 Việc kiểm soát, định ra địa chỉ theo mạng lưới như trên được gọi là bit mapping và ảnh số còn được gọi là ảnh bitmap. 1.1.1.4. Mức xám của ảnh  Định nghĩa: Mức xám (grey level) của điểm ảnh là cường độ sáng của nó được gán bằng giá trị số tại điểm đó.  Các thang giá trị mức xám thông thường:16, 32, 64, 128, 256 (mức 256 là mức phổ dụng bởi vì trong kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức xám: Mức xám dùng một byte biểu diễn: 28=256 mức, tức là từ 0 đến 255).  Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác) với mức xám ở các điểm ảnh có thể khác nhau.  Ảnh nhị phân: ảnh chỉ có hai mức đen trắng phân biệt tức dùng một bit mô tả 21 mức khác nhau. Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1.  Ảnh màu:trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế giới màu, người ta thường dùng ba byte để mô tả mức màu, khi đó các giá trị màu: 28*3=224≈16,7 triệu màu. 1.1.1.5. Độ phân giải của ảnh Định nghĩa: Độ phân giải (resolution) của ảnh là mật độ điểm ảnh được ấn định trên một ảnh số được hiển thị. Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân bố theo trục x và y trong không gian hai chiều. Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là một lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc × 200 điểm ảnh (320×200). Rõ ràng, cùng màn hình CGA 12” ta nhận thấy mịn hơn màn hình CGA 17” độ phân giải 320×200 bởi vì cùng một mật độ (độ phân giải) nhưng diện tích màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn. 1.1.2. Các bước xử lý ảnh số Một hệ thống xử lý ảnh có sơ đồ tổng quát như sau: 10 Hình 1.2: Các bước cơ bản trong một hệ thống xử lý ảnh Hình 1.3: Sơ đồ phân tích, xử lý ảnh và lưu đồ thông tin giữa các khối Sau đây sẽ trình bày một số kỹ thuật xử lý ảnh cần thiết phục vụ cho việc cài đặt chương trình thử nghiệm (theo các bước trong hình 1.2), còn các thành phần khác sẽ được giới thiệu ở mức cơ bản. 1.1.2.1. Thu nhận ảnh Các thiết bị thu nhận ảnh bao gồm camera, scanner các thiết bị thu nhận này có thể cho ảnh đen trắng. Các thiết bị thu nhận ảnh có hai loại chính ứng với hai loại ảnh thông dụng Raster, Vector. Các thiết bị thu nhận ảnh Raster thông thường là camera, các thiết bị thu nhận ảnh thông thường Vector là sensor hoặc bàn số hoá Digitalizer hoặc được chuyển đổi từ ảnh Raster. Nhìn chung các hệ thống thu nhận ảnh thực hiện 1 quá trình:  Cảm biến: biến đổi năng lượng quang học thành năng lượng điện  Tổng hợp năng lượng điện thành ảnh 11 1.1.2.2. Tiền xử lý Sau bộ thu nhận, ảnh có thể nhiễu và độ tương phản thấp nên cần đưa vào bộ tiền xử lý (image processing) để nâng cao chất lượng. Chức năng chính của bộ tiền xử lý là nắn chỉnh biến dạng, lọc nhiễu, chỉnh mức xám, nâng độ tương phản để làm ảnh rõ hơn, nét hơn. Các thuật toán triển khai việc nâng cao chất lượng ảnh hầu hết dựa trên các kỹ thuật trong miền điểm, không gian và tần số. Toán tử điểm là phép biến đổi đối với từng điểm ảnh đang xét, không liên quan đến các điểm lân cận khác, trong khi đó, toán tử không gian sử dụng các điểm lân cận để quy chiếu tới điểm ảnh đang xét. Một số phép biến đổi có tính toán phức tạp được chuyển sang miền tần số để thực hiện, kết quả cuối cùng được chuyển trở lại miền không gian nhờ các biến đổi ngược. a. Nắn chỉnh biến dạng Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và điện tử. Ảnh thu nhận Ảnh mong muốn Hình 1.4: Ảnh thu nhận và ảnh mong muốn Các nguyên nhân biến dạng do:  Do camera, đầu thu ảnh chất lượng kém.  Do môi trường, ánh sáng, hiện trường (scene), khí quyển, nhiễu xung.  Do chất lượng. Để khắc phục người ta sử dụng các phép chiếu, các phép chiếu thường được xây dựng trên tập các điểm điều khiển. Giả sử (Pi, Pi’) với i = có n các tập điều khiển Tìm hàm f: Pi → f (Pi) sao cho: Giả sử ảnh bị biến đổi chỉ bao gồm: Tịnh tiến, quay, tỷ lệ, biến dạng bậc nhất tuyến tính. Khi đó hàm f có dạng: f (x, y) = (a1x + b1y + c1, a2x + b2y + c2) Ta có: 12 Để cho φ → min Giải hệ phương trình tuyến tính tìm được a1, b1, c1, tương tự tìm được a2, b2, c; từ đó ta xác định được hàm f. b. Lọc nhiễu Thường ảnh thu nhận được có nhiễu nên cần phải loại bỏ nhiễu. Để tách nhiễu (hay làm trơn nhiễu), người ta sử dụng các bộ lọc tuyến tính (lọc trung bình, thông thấp) hay lọc phi tuyến (trung vị, giả trung vị, lọc đồng hình). Từ bản chất của nhiễu (thường tương ứng với tần số cao) và từ cơ sở lý thuyết lọc là: bộ lọc chỉ cho tín hiệu có tần số nào đó thông qua do đó, để lọc nhiễu người ta thường dùng lọc thông thấp (theo quan điểm tần số không gian) hay lấy tổ hợp tuyến tính để san bằng (lọc trung bình). Trước khi xem xét chi tiết các kỹ thuật áp dụng, cần phân biệt các loại nhiễu hay can thiệp trong quá trình xử lý ảnh. Trên thực tế tồn tại nhiều loại nhiễu; tuy nhiên người ta thường xem xét ba loại nhiễu chính: nhiễu cộng, nhiễu nhân và nhiễu xung:  Nhiễu cộng: Nhiễu cộng thường phân bố khắp ảnh. Nếu gọi ảnh quan sát (ảnh thu được) là Xqs, ảnh gốc là X gốc, nhiễu là η, ảnh thu được có thể biểu diễn bởi: Xqs = Xgốc + η  Nhiễu nhân: Nhiễu nhân thường phân bố khắp ảnh và ảnh thu được sẽ biểu diễn với công thức: Xqs = Xgốc * η  Nhiễu xung: Nhiễu xung thường gây đột biến tại một số điểm ảnh. Làm trơn nhiễu bằng lọc tuyến tính: lọc trung bình và lọc dải thông thấp Do có nhiều loại nhiễu can thiệp vào quá trình xử lý ảnh nên cần có nhiều bộ lọc thích hợp.Với nhiễu cộng và nhiễu nhân ta dùng các bộ lọc thông thấp, trung bình và lọc đồng hình (homomorphie); với nhiễu xung ta dùng lọc trung bị, giả trung vị, lọc ngoài (outlier). 13 i. Lọc trung bình không gian Với lọc trung bình, mỗi điểm ảnh được thay thế bằng trung bình trọng số của các điểm lân cận và được định nghĩa như sau: Nếu trong kỹ thuật lọc trên, ta dùng các trọng số như nhau, phương trình trên sẽ trở thành: với : y(m, n): ảnh đầu vào, v(m, n): ảnh đầu ra, a(k, l) : là cửa sổ lọc. với ak,1 = và Nw là số điểm ảnh trong cửa sổ lọc W. Lọc trung bình có trọng số chính là thực hiện chập ảnh đầu vào với nhân chập H. Nhân chập H trong trường hợp này có dạng: Trong lọc trung bình, thường người ta ưu tiên cho các hướng để bảo vệ biên của ảnh khỏi bị mờ khi làm trơn ảnh. Các kiểu mặt nạ được sử dụng tùy theo các trường hợp khác nhau. Các bộ lọc trên là bộ lọc tuyến tính theo nghĩa là điểm ảnh ở tâm cửa số sẽ được thay bởi tổ hợp các điểm lân cận chập với mặt nạ. Giả sử đầu vào biểu diễn bởi ma trận I: Ảnh số thu được bởi lọc trung bình Y = H ⊗ I có dạng: 14 Một bộ lọc trung bình không gian khác cũng hay được sử dụng. Phương trình của bộ lọc đó có dạng: Ở đây, nhân chập H có kích thuớc 2×2 và mỗi điểm ảnh kết quả có giá trị bằng trung bình cộng của nó với trung bình cộng của bốn lân cận gần nhất. Lọc trung bình trọng số là một trường hợp riêng của lọc thông thấp. ii. Lọc thông thấp Lọc thông thấp thường được sử dụng để làm trơn nhiễu.Về nguyên lý của bộ lọc thông thấp giống như đã trình bày trên. Trong kỹ thuật này người ta hay dùng một số nhân chập có dạng sau: Ta dễ dàng nhận thấy khi b =1, Hb chính là nhân chập Ht1 (lọc trung bình). Để hiểu rõ hơn bản chát khử nhiễu cộng của các bộ lọc này, ta viết lại phương trình thu nhận ảnh dưới dạng: Trong đó η[m, n] là nhiễu cộng có phương sai σ2n. Như vậy, theo cách tính của lọc trung bình ta có: Như vậy, nhiễu cộng trong ảnh đã giảm đi Nw lần. 15 c. Tăng độ tương phản Trước tiên cần làm rõ khái niệm độ tương phản. Ảnh số là tập hợp các điểm ảnh, mà mỗi điểm ảnh có giá trị độ sáng khác nhau. Ở đây, độ sáng để mắt người dễ cảm nhận ảnh, song không phải là quyết định. Thực tế chỉ ra rằng hai đối tượng có cùng độ sáng nhưng đặt trên hai nền khác nhau sẽ cho cảm nhận khác nhau. Như vậy, độ tương phản biểu diễn sự thay đổi độ sáng của đối tượng so với nền. Như vậy có thể hiểu rằng, độ tương phản là độ nổi của điểm ảnh hay vùng ảnh so với nền. Với định nghĩa này, nếu ảnh có độ tương phản kém, ta có thể thay đổi tuỳ ý theo ý muốn. Ảnh với độ tương phản thấp có thể do điều kiện sáng không đủ hay không đều, hoặc do tính không tuyến tính hay biến động nhỏ của bộ cảm nhận ảnh. Để điều chỉnh lại độ tương phản của ảnh, ta điều chỉnh lại biên độ trên toàn dải hay trên dải có giới hạn bằng cách biến đổi tuyến tính biên độ đầu vào (dùng hàm biến đổi là hàm tuyến tính) hay phi tuyến (hàm mũ hay hàm lôgarit). Khi dùng hàm tuyến tính các độ dốc , ,  phải chọn lớn hơn một trong miền cần dãn. Các tham số a và b (các cận) có thể chọn khi xem xét lược đồ xám của ảnh. Hình 1.5: Dãn độ tương phản Chú ý, nếu dãn độ tương phản bằng hàm tuyến tính ta có:     1  ,  ,  1  ,  ,  1 ảnh kết quả trùng với ảnh gốc dãn độ tương phản co độ tương phản Hàm mũ hay dùng trong dãn độ tương phản có dạng: f = (X[m,n])p Giả mã Giả sử ta có ảnh I có kích thước m × n và số nguyên c Khi đó, kỹ thuật tăng, giảm độc sáng được thể hiện for (i = 0; i < m; i++) for (j = 0; j < n; j++) 16 I [i, j] = I [i, j] + c;  Nếu c > 0: ảnh sáng lên  Nếu c < 0: ảnh tối đi d. Chỉnh mức xám Nhằm khắc phục tính không đồng đều của hệ thống gây ra. Thông thường có hai hướng tiếp cận:  Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần nhau thành một bó. Trường hợp chỉ có hai mức xám thì chính là chuyển về ảnh đen trắng. Được ứng dụng trong in ảnh màu ra máy in đen trắng.  Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng kỹ thuật nội suy, kỹ thuật này nhằm tăng cường độ mịn cho ảnh. 1.1.2.3. Phân vùng ảnh Phân vùng ảnh là bước then chốt trong xử lý ảnh. Giai đoạn này nhằm phân tích ảnh thành những thành phần có cùng tính chất nào đó dựa theo biên hay các vùng liên thông. Tiêu chuẩn để xác định các vùng liên thông có thể là cùng mức xám, cùng màu hay cùng độ nhám...Trước hết cần làm rõ khái niệm "vùng ảnh" (segment) và đặc điểm vật lý của vùng. Vùng ảnh là một chi tiết, một thực thể trông toàn cảnh. Nó là một tập hợp các điểm có cùng hoặc gần cùng một tính chất nào đó: mức xám, mức màu, độ nhám… Vùng ảnh là một trong hai thuộc tính của ảnh. Nói đến vùng ảnh là nói đến tính chất bề mặt. Đường bao quanh một vùng ảnh (boundary) là biên ảnh. Các điểm trong một vùng ảnh có độ biến thiên giá trị mức xám tương đối đồng đều hay tính kết cấu tương đồng. Dựa vào đặc tính vật lý của ảnh, người ta có nhiều kỹ thuật phân vùng: phân vùng dựa theo miền liên thông gọi là phân vùng dựa theo miền đồng nhất hay miền kề; phân vùng dựa vào biên gọi là phân vùng biên. Ngoài ra còn có các kỹ thuật phân vùng khác dựa vào biên độ, phân vùng dựa theo kết cấu. Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của ảnh. Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này. 1.1.2.4. Trích chọn đặc trưng Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân đoạn) cộng với mã liên kết với các vùng lận cận. Việc biến đổi các số liệu này thành dạng thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính. Việc chọn các tính chất để thể hiện ảnh gọi là trích chọn đặc trưng (hay trích chọn đặc điểm - feature selection) gắn với việc tách các đặc tính của ảnh dưới dạng các thông tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng này với đối tượng khác trong phạm vi ảnh nhận được. 17 Ví dụ: trong nhận dạng ký tự trên phong bì thư, chúng ta miêu tả các đặc trưng của từng ký tự giúp phân biệt ký tự này với ký tự khác. Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận dạng trong quá trình xử lý ảnh. Có thể nêu ra một số đặc điểm của ảnh sau đây:  Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm uốn ...  Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc thực hiện lọc vùng (zonal filtering). Các bộ vùng được gọi là “mặt nạ đặc điểm” (feature mask) thường là các khe hẹp với hình dạng khác nhau (chữ nhật, tam giác, cung tròn ...)  Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng và do vậy rất hữu ích trong việc trích trọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng. Các đặc điểm này có thể được trích chọn nhờ toán tử gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không” (zero crossing) ... Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống. 1.1.2.5. Nhận dạng và nội suy ảnh Đây là giai đoạn cuối của các hệ thống xử lý ảnh. Nhận dạng ảnh (image recognition) là quá trình phân loại các đối tượng được biểu diễn theo một mô hình nào đó và gán chúng một tên (gán cho đối tượng một tên gọi, tức là một dạng) dựa theo những quy luật và mẫu chuẩn. Quá trình nhận dạng dựa vào những mẫu chuẩn được học (hoặc lưu) từ trước gọi là nhận dạng có thầy hay học có thầy, trong những trường hợp ngược lại gọi là học không có thầy. Nội suy (interpretation) là phán đoán theo ý nghĩa trên cơ sở nhận dạng. Ví dụ: một loạt chữ số và nét gạch ngang trên phong bì thư có thể được nội suy thành mã điện thoại. Có nhiều cách phân loai ảnh khác nhau. Trong lý thuyết về nhận dạng nói chung và nhận dạng ảnh nói riêng, các mô hình toán học về ảnh được phân theo hai loại nhận dạng ảnh cơ bản:  Nhận dạng theo tham số.  Nhận dạng theo cấu trúc. Hay có ba cách tiếp cận khác nhau:  Nhận dạng dựa vào phân hoạch không gian.  Nhận dạng dựa vào cấu trúc.  Nhận dạng dựa vào kỹ thuật mạng nơ-ron. 18 Hai cách tiếp cận đầu là những cách tiếp cận kinh điển, đã được nghiên cứu và áp dụng rất nhiều trong thực tế. Các đối tượng ảnh quan sát và thu nhận được phải trải qua giai đoạn tiền xử lý nhằm tăng cường chất lượng, làm nổi các chi tiết, tiếp theo là trích chọn và biểu diễn các đặc trưng, cuối cùng mới là giai đoạn nhận dạng. Cách tiếp cận thứ ba hoàn toàn khác. Nó dựa vào cơ chế đoán nhận, lưu trữ và phân biệt đối tượng mô phỏng theo hoạt động của hệ thần kinh con người. Do cơ chế đặc biệt, các đối tượng thu nhận bởi thị giác người không cần qua giai đoạn cải thiện mà chuyển ngay sang giai đoạn tổng hợp, đối sánh với các mẫu đã lưu trữ để nhận dạng. Đây là cách tiếp cận đầy hứa hẹn được trình bày cụ thể trong các phần dưới đây. Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng trong khoa học và công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký điện tử), nhận dạng văn bản (text), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng đối tượng chuyển động, nhận dạng mặt người, nhận dạng nụ cười, nhận dạng mống mắt,… Chi tiết các kỹ thuật nhận dạng ảnh sẽ được trình bày trong mục [1.2.1] 1.1.2.6. Hậu xử lý a. Nén ảnh Ảnh dù ở dạng nào vẫn chiếm không gian nhớ rất lớn. Nhằm giảm thiểu không gian lưu trữ, khi mô tả ảnh, người ta đã đưa kỹ thuật nén ảnh vào. Thông thường được tiến hành theo cả hai cách khuynh hướng là nén có bảo toàn và nén không bảo toàn thông tin. Nén không bảo toàn thì thường có khả năng nén cao hơn nhưng khả năng phục hồi thì kém hơn. Trên cơ sở hai khuynh hướng, có bốn cách tiếp cận cơ bản trong nén ảnh:  Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất xuất hiện của giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thích hợp. Một ví dụ điển hình cho kỹ thuật mã hóa này là *.TIF  Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian của các điểm ảnh để tiến hành mã hóa. Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh trong các vùng gần nhau. Ví dụ cho kỹ thuật này là mã nén *.PCX  Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng nén không bảo toàn và do vậy, kỹ thuật thường hiệu quả hơn. *.JPG tiếp cận theo kỹ thuật nén này.  Nén ảnh Fractal: Sử dụng tính chất Fractal của các đối tượng ảnh, thể hiện sự lặp lại của các chi tiết. Kỹ thuật nén sẽ tính toán để chỉ cần lưu trữ phần gốc ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal. Các phương pháp nén ảnh:  Nén thế hệ thứ nhất:  Phương pháp mã hóa loạt dài RLC (Run Length Coding) 19  Phương pháp mã hóa Huffman  Phương pháp LZW (Lempel Ziv-Wench)  Phương pháp mã hóa khối (Block Coding)  Phương pháp thích nghi  Nén thế hệ thứ hai: – Phương pháp Kim tự tháp Laplace (Pyramide Laplace) – Phương pháp mã hóa dựa vào biểu diễn ảnh Hiện nay, các chuẩn nén ảnh theo định dạng MPEG được dùng và đang phát huy hiệu quả. b. Biểu diễn ảnh Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hoá được nhúng trong các thiết bị kỹ thuật khác nhau. Quá trình lưu trữ ảnh nhằm hai mục đích:  Tiết kiệm bộ nhớ  Giảm thời gian xử lý Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in ấn và xử lý ảnh được xem như là một tập hợp các điểm với cùng kích thước nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh người ta gọi đặc điểm này là độ phân giải. Việc lựa chọn độ phân giải thích hợp tuỳ thuộc vào nhu cầu sử dụng và đặc trưng của mỗi ảnh cụ thể, trên cơ sở đó các ảnh thường được biểu diễn theo hai mô hình cơ bản. Mô hình Raster Đây là cách biểu diễn ảnh thông dụng nhất hiện nay, ảnh được biểu diễn dưới dạng ma trận các điểm (điểm ảnh). Thường thu nhận qua các thiết bị như camera, scanner. Tuỳ theo yêu cầu thực thế mà mỗi điểm ảnh được biểu diễn qua một hay nhiều bít. Mô hình Raster thuận lợi cho hiển thị và in ấn. Ngày nay công nghệ phần cứng cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ nhanh và chất lượng cao cho cả đầu vào và đầu ra. Một thuận lợi cho việc hiển thị trong môi trường Windows là Microsoft đưa ra khuôn dạng ảnh DIB (Device Independent Bitmap) làm trung gian. Hình 1.4 thể hình quy trình chung để hiển thị ảnh Raster thông qua DIB. Một trong những hướng nghiên cứu cơ bản trên mô hình biểu diễn này là kỹ thuật nén ảnh các kỹ thuật nén ảnh lại chia ra theo hai khuynh hướng là nén bảo toàn và không bảo toàn thông tin nén, bảo toàn có khả năng phục hồi hoàn toàn dữ liệu ban đầu còn, nếu không bảo toàn chỉ có khả năng phục hồi độ sai số cho phép nào đó. Theo cách tiếp cận này người ta đã đề ra nhiều quy cách khác nhau như BMP, TIF, GIF, PCX… 20 Hiện nay trên thế giới có trên 50 khuôn dạng ảnh thông dụng bao gồm cả trong đó các kỹ thuật nén có khả năng phục hồi dữ liệu 100% và nén có khả năng phục hồi với độ sai số nhận được. Hình 1.6: Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB Mô hình Vector Biểu diễn ảnh ngoài mục đích tiết kiệm không gian lưu trữ dễ dàng cho hiển thị và in ấn còn đảm bảo dễ dàng trong lựa chọn sao chép di chuyển tìm kiếm…Theo những yêu cầu này kỹ thuật biểu diễn vector tỏ ra ưu việt hơn. Trong mô hình vector người ta sử dụng hướng giữa các vector của điểm ảnh lân cận để mã hoá và tái tạo hình ảnh ban đầu ảnh vector được thu nhận trực tiếp từ các thiết bị số hoá như Digital hoặc được chuyển đổi từ ảnh Raster thông qua các chương trình số hoá. Công nghệ phần cứng cung cấp những thiết bị xử lý với tốc độ nhanh và chất lượng cho cả đầu vào và ra nhưng lại chỉ hỗ trợ cho ảnh Raster. Do vậy, những nghiên cứu về biểu diễn vectơ đều tập trung từ chuyển đổi từ ảnh Raster. Hình 1.7: Sự chuyển đổi giữa các mô hình biểu diễn ảnh 1.2. KIỂM SOÁT THÔNG TIN HÌNH ẢNH 1.2.1. Nhận dạng ảnh 1.2.1.1. Giới thiệu a. Không gian biểu diễn đối tượng, không gian diễn dịch  Không gian biểu diễn đối tượng Các đối tượng khi quan sát hay thu thập được thường được biểu diễn bởi tập các đặc trưng hay đặc tính. Giả sử đối tượng ảnh X (ảnh, chữ viết, dấu vân tay,…) được biểu diễn bởi n thành phần (n đặc trưng): X = {x1 ,x2…xn}; mỗi xi biểu diễn một đặc tính. Không gian biểu diễn thường được gọi tắt là không gian đối tượng được định nghĩa:
- Xem thêm -