Luận văn thạc sỹ
MỤC LỤC
PHẦN MỞ ĐẦU .......................................................................................................................................... 4
Chương 1: KHÁI QUÁT VỀ VIDEO VÀ CAMERA GIÁM SÁT ........................................................ 6
1.1. Tổng quan về Video .......................................................................................................................... 6
1.1.1. Video tuần tự .............................................................................................................................. 6
1.1.1.1. Tín hiệu về video tuần tự ................................................................................................... 6
1.1.1.2. Các chuẩn video tương tự .................................................................................................. 7
1.1.1.3. Các thiết bị video tương tự................................................................................................. 8
1.1.2. Video số ...................................................................................................................................... 8
1.1.2.1. Tín hiệu video số ................................................................................................................ 8
1.1.2.2. Các chuẩn video số............................................................................................................. 9
1.1.2.3. Nhược điểm của video số ................................................................................................ 10
1.1.2.4. Ưu điểm của video số ...................................................................................................... 10
1.2.1. Các thế hệ hệ thống Camera giám sát..................................................................................... 11
1.2.2. Giám sát dưới sự trợ giúp của Camere nhờ các kỹ thuật xử lý ảnh...................................... 12
1.2.2.1. Dò tìm đối tượng chuyển động........................................................................................ 13
1.2.2.2. Phân loại đối tượng .......................................................................................................... 21
1.2.2.3. Phát hiện lửa ..................................................................................................................... 23
1.2.2.4. Theo dõi đối tượng ........................................................................................................... 24
1.1.2.5. Ước lượng chuyển động. ................................................................................................. 25
Chương 2 MỘT SỐ KỸ THUẬT TĂNG CƯỜNG TÍNH NĂNG CHO CAMERA GIÁM SÁT ... 32
2.1. Phát hiện và theo vết đối tượng chuyển động ............................................................. 32
2.1.1. Phát hiện đối tượng chuyển động ........................................................................ 34
2.1.1.1. Dò tìm cận cảnh ........................................................................................... 37
2.1.1.2. Cấp độ điểm ảnh sau xử lý ........................................................................... 43
2.1.1.3. Tìm kiếm những miền được kết nối.............................................................. 52
2.1.1.4. Cấp độ miền sau xử lý .................................................................................. 52
2.1.1.5. Rút trích đặc điểm của đối tượng .................................................................. 52
2.1.2. Theo vết đối tượng.............................................................................................. 54
2.1.2.1 Kết nối đối tượng dựa theo sự tương xứng .................................................... 55
2.1.2.2. Xử lý nghẽn mạch ........................................................................................ 60
2.1.2.3 Dò tìm những đối tượng còn lại và đối tượng bị gỡ bỏ .................................. 62
Trần Xuân Linh - K11T2
Trang 2
Luận văn thạc sỹ
2.2. Phân loại đối tượng ................................................................................................... 65
2.2.1. Phân lọai dựa theo mẫu hình chiếu ...................................................................... 66
2.2.1.1 Rút trích hình chiếu của đối tượng ................................................................ 67
2.2.2. Cơ sở dữ liệu hình chiếu khuôn mẫu ............................................................... 67
2.2.3. Sự phân loại theo hệ mét ..................................................................................... 70
2.2.4. Sự thống nhất theo thời gian ............................................................................... 73
2.3. Phát hiện cháy ........................................................................................................... 75
2.3.1. Dò tìm màu sắc ................................................................................................... 78
Chương 3. THỰC NGHIỆM ................................................................................................ 85
3.1. Chương trình phát hiện chuyển động ......................................................................... 85
3.1.1. Giới thiệu bài toán: ............................................................................................. 85
3.1.2. Các thuật toán áp dụng: ...................................................................................... 86
3.1.3. Một số hình ảnh minh hoạ: ................................................................................. 90
3.2. Chương trình thực nghiệm giám sát trực quan: .......................................................... 91
3.2.1. Giới thiệu bài toán: ............................................................................................. 91
3.2.2. Các thuật toán áp dụng: ...................................................................................... 91
3.2.3. Một số hình ảnh minh hoạ: ................................................................................. 93
KẾT LUẬN ......................................................................................................................... 94
TÀI LIỆU THAM KHẢO .................................................................................................... 96
Trần Xuân Linh - K11T2
Trang 3
Luận văn thạc sỹ
MỞ ĐẦU
Với sự ra đời của nhiều phương tiện kỹ thuật hiện đại như là máy ảnh số,
máy quay số, các máy thu hình, máy vi tính ... thì lượng thông tin con người thu
được ngày càng nhiều. Con người không chỉ muốn tiếp thu thông tin một cách thụ
động mà phải biết xử lý nó, làm cho nó hữu ích hơn. Do đó con người đã tiến
hành nghiên cứu các phương pháp xử lí trên thông tin trực quan này để chúng ta
có thể tiếp nhận tối đa lượng thông tin trực quan này. Việc xử lý ảnh số đã ra đời
vào những năm 1960 với nhiều hướng khác nhau như là nén ảnh, nhận dạng ...
Thêm vào đó, với sự phát triển của khoa học máy tính đã cho ra đời
những thế hệ máy tính có tốc độ xử lý cao và các thiết bị thu nhận hình ảnh chất
lượng tốt đã tạo ra những lợi thế trong việc phân tích xử lý những thông tin
trong các đoạn video, giúp cho chúng ta có thể đưa ra được những thuật toán xử
lý trong thời gian thực. Từ những điều kiện thuận lợi đó đã có một số lượng
đáng kể những nghiên cứu về những thuật toán liên quan đến xử lý video số,
những thuận toán giúp dò tìm, theo dõi, phân loại đối tượng chuyển động.
Xét thấy việc nghiện cứu về lĩnh vực này có khả năng áp dụng thực tiển
rất cao, chẳng hạn như phục vụ trong lĩnh vực an ninh công cộng và thương mại
(Kiểm tra nhằm phát hiện và ngăn ngừa tội phạm tại ngân hàng, cửa hàng, sân
bay, bãi đậu xe…; Tuần tra đường cao tốc và đường sắt nhằm phát hiện tai nạn;
Theo dõi tài nguyên và rừng nhằm phát hiện lửa); Giúp khai thác dữ liệu hình
ảnh thông minh (Đo lường dòng lưu thông, sự tắc nghẽn đường bộ và thành tích
thể thao; Tổng hợp sức tiêu thụ ở những trung tâm mua sắm và giải trí; Đếm
những loài vật đang bị đe dọa). Giúp cũng cố luật (Đo tốc độ xe cộ, phát hiện
các trường hợp vượt đèn đỏ và lấn đường sai luật); Áp dụng trong lĩnh vực An
ninh quân sự ( Tuần tra biên giới quốc gia; Đo dòng người tị nạn; Giám sát
những hiệp ước hòa bình; Bảo đảm an ninh vòng ngoài; Hỗ trợ sự chỉ huy và
kiểm soát chiến trường). Đó là lý do để tôi lựa chọn đề tài:
“Một số kỹ thuật xử lý ảnh tăng cường tính năng cho camera giám sát”
Trần Xuân Linh - K11T2
Trang 4
Luận văn thạc sỹ
Mục tiêu đề tài:
Hiểu được những hoạt động của đối tượng động trong một cảnh quay
bằng việc sử dụng hình ảnh vừa là một vấn đề thách thức vừa là một lĩnh vực
phong phú hứa hẹn nhiều ứng dụng, vì thế, nó thu hút sự chú ý của nhiều nhà
nghiên cứu, viện và những công ty thương mại. Mục tiêu của luận văn khi
nghiên cứu vấn đề này là tạo ra một hệ thống giám sát bằng hình ảnh có khả
năng phát hiện đối tượng chuyển động trong thời gian thực, phân loại, kiểm tra
và phân tích hoạt động của đối tượng. Trong luận văn, các thuật toán đưa ra là
sự kế thừa thành tựu, kết quả nghiên cứu của các thế hệ đi trước, đồng thời có
những bước cải tiến nhằm giúp cho những thuật toán và giải pháp đưa ra có tính
áp dụng thực tiễn cao hơn như có khả năng thích nghi với điều kiện tự nhiên (sự
thay đổi cường độ ánh sáng đột ngột, không đưa ra những cảnh báo đối với
những chuyển động mang tính qui luật như cành cây đung đưa trước gió, sự
chuyển đổi ban ngày và ban đêm…); trong các thuật toán phân loại đối tượng đã
đưa ra những cải tiến để giúp cho việc phân loại đối tượng một cách chính xác;
Ngoài ra luận văn còn chú trọng việc phân tích hành vi của đối tượng chuyển
động, đề xuất những phân tích ở mức cao về đối tượng chuyển động.
Bố cục đề tài:
Ngoài phần mở đầu và phần kết luận, luận văn được bố cục thành 3 chương:
Chương 1: Tổng quan về video và camera giám sát, trong chương này
giới thiệu một cách tổng quan về video, sự khác nhau giữa video tương tự và
video số.
Chương 2: Một số kỹ thuật tăng cường tính năng cho camera giám sát.
Trong đó phân tích chi tiết về các kỹ thuật liên quan đến xử lý ảnh động video,
như là phát hiện đối tượng chuyển động, theo vết đối tượng, phân loại đối tượng
và phát hiện cháy.
Chương 3: Thực nghiệm, trong chương này đưa ra 2 chương trình phát
hiện chuyển động và thực nghiệm giám sát trực quán áp dụng các thuật toán
được nêu ra ở trong chương 2.
Trần Xuân Linh - K11T2
Trang 5
Luận văn thạc sỹ
Chương 1
KHÁI QUÁT VỀ VIDEO VÀ CAMERA GIÁM SÁT
1.1. Tổng quan về Video
Video hay còn gọi là chuỗi ảnh( image sequence ) tượng trưng cho thông
tin hình ảnh. Đó là một chuỗi các hình ảnh truyền liên tục theo thời gian
S f ( x, y, t )
(1.1)
trong đó :
x, y R : là tọa độ của điểm ảnh (thông tin về không gian)
t R : thông tin về thời gian.
Dựa trên công thức trên ta thấy ảnh tĩnh là một trường hợp đặc biệt của
Video. Khi đó nó là một chuỗi các ảnh không thay đổi theo thời gian.
f ( x, y, t1 ) f ( x, y, t2 ) với i, j R; x, y R
(1.2)
Video thường được thu, lưu trữ, và chuyển đổi ở dạng tuần tự (analog)
nên chúng ta sẽ bắt đầu từ video tuần tự.
1.1.1. Video tuần tự
1.1.1.1. Tín hiệu về video tuần tự
Tín hiệu video tuần tự được xem như là tín hiệu điện 1 chiều theo thời
gian f(t) và được lấy mẫu theo chiều dọc.
Việc lấy mẫu theo chu kỳ này được gọi là quét( scanning ). Các phương
pháp quét thường được sử dụng nhất là quét liên tục (progressive scanning) và
quét xen kẽ (interlace scanning)
Quét liên tục(progressive scanning)
Hình1.1: Quét liên tục.
Trần Xuân Linh - K11T2
Trang 6
Luận văn thạc sỹ
Các dòng quét bắt đầu từ A đến B, tiếp tục đến C và cứ thế cho đến D rồi
quay trở lại D.
o Mỗi ảnh hay còn được gọi là frame là dữ liệu được lấy mẫu theo thời gian.
o Mỗi ảnh này được quét liên tục từng dòng ngang và từ trên xuống dưới
với tốc độ là t giây.
o Phương pháp quét này thường được dùng trong công nghiệp máy tính
với tốc độ t = 1/72 giây.
Quét xen kẽ:
Hình 1.2: Quét xen kẻ.
Dòng quét bắt đầu từ A đến B, chuyển qua C và tiếp tục cho đến khi tới D
sẽ trở về E và tiếp tục quét đến F
Vì mắt người phát hiện ra hình ảnh chớp khi tần số quét dưới 50Hz nên
tần số quét của máy bao giờ cũng phải lớn hơn 50Hz. Tuy nhiên khi áp dụng
trong các nghành công nghiệp khác như là nghành truyền thông thì gặp khó
khăn về vấn đề băng thông do kích thước quá lớn. Từ đó xuất hiện phương pháp
quét xen kẽ. Phương pháp này chia dòng quét thành dòng chẵn và dòng lẻ ( gọi
là field ) và quét các dòng chẵn trong khoảng t rồi chuyển qua quét các dòng
lẻ. Vì thế tần số quét sẽ giảm đi một nữa.
Một vài thông số quan trọng của tín hiệu video là :
1.1.1.2. Các chuẩn video tương tự
Component Analog Video: chuẩn video này sử dụng các thành phần
màu RGB hoặc là YCrCb( YIQ hoặc là YUV )
Trần Xuân Linh - K11T2
Trang 7
Luận văn thạc sỹ
Composite Video:
o NTSC ( National Television Standards Committee ): xuất hiện
vào năm 1952, hiện tại được sử dụng ở Bắc Mỹ và Nhật. Có
262.5 dòng trên 1 field hay là 525 dòng trên 1 frame, 60 field
trên 1 giây và có tỉ lệ co là 4:3
o PAL ( Phase Alternating Line ) và SECAM ( SEquential Color
And Memory ): được phát triển vào những năm 1960 và ngày
nay thường được sử dụng ở Châu Âu. Ở Việt Nam cũng dùng
chuẩn này. Các thông số kỹ thuật: 625 line trên 1 frame, 50 field
trên 1 giây.
1.1.1.3. Các thiết bị video tương tự
Các thiết bị video tương tự có thể được chia làm 3 loại: loại dành cho
truyền thông, loại có chất lượng chuyên nghiệp, loại dành cho người tiêu dùng.
Video được quay bởi máy quay thông thường và được lưu trong băng
hoặc được quay bởi các máy quay dùng trong phim trường và tạo thành phim
(24 frame/giây ).
Hầu hết tín hiệu video tương tự được lưu dựa trên kỹ thuật từ ngoại trừ
đĩa laser là dùng kỹ thuật quang.
o Độ phân giải theo chiều dọc ( vertical resolution ): thông số này có liên
quan đến số dòng quét trên 1 frame.
o Tỉ lệ co ( aspect ratio ): tỉ lệ giữa chiều rộng và chiều cao của frame.
1.1.2. Video số
1.1.2.1. Tín hiệu video số
Tín hiệu video số được lưu trữ dưới dạng số, do đó chúng được lấy mẫu
và lượng tử hóa. Tín hiệu video số là một thông tin 3 chiều gồm 2 chiều không
gian và 1 chiều thời gian hay còn được gọi là chuỗi ảnh số với mỗi ảnh số là một
ảnh được lấy mẫu và lượng tử hóa.
Trần Xuân Linh - K11T2
Trang 8
Luận văn thạc sỹ
Hình 1.3: chuỗi ảnh
1.1.2.2. Các chuẩn video số
Việc trao đổi giữa các ứng dụng và các sản phẩm video số đã đưa ra các
chuẩn video số. Các chuẩn này bao gồm :
Chuẩn nén: dùng để trao đổi thông tin trong dạng nén của video
Chuẩn các độ phân giải hiển thị: được dùng trong công nghiệp máy tính.
Chuẩn studio số: được dùng trong ngành công nghiệp tivi
Chuẩn về giao tiếp mạng được dùng trong công nghiệp truyền thông
Hình 1.4: Các chuẩn về studio số
Trần Xuân Linh - K11T2
Trang 9
Luận văn thạc sỹ
Hình 1.5: Các chuẩn về ảnh và video số nén
1.1.2.3. Nhược điểm của video số
Nhược điểm của video số đó là nó đòi hỏi khối lượng lưu trữ lớn và băng
thông rộng để truyền tải. Chúng ta hãy thử làm một phép tính: với tín hiệu TV
chất lượng tốt ta cần 1440 điểm ảnh trên một dòng, 1050 dòng cho một frame độ
sáng, 720 điểm trên một dòng và 525 dòng trên một frame sắc màu. Bởi vì mỗi
giây có 30 frame và 8 bit/ pixel nên kết quả cuối cùng là xấp xĩ 545 Mps. Đây là
một yêu cấu quá lớn, do đó hiện nay người ta đang nghiên cứu các phương pháp
nén video để giảm kích thước khi truyền tải.
1.1.2.4. Ưu điểm của video số
Tuy có nhược điểm về yêu cầu bộ nhớ lớn nhưng video số lại có nhiều ưu
điểm quan trọng. Video tuần tự cung cấp cho chúng ta một số rất giới hạn các
hoạt động tương tác như là : chọn kênh, chỉnh tới lui hay là quay chậm trên băng
video. Ngoài ra, để hiển thị tín hiệu theo chuẩn NTSC trên một hệ máy dùng
chuẩn PAL ta cần có một bộ chuyển đổi tín hiệu đắt tiền, với tín hiệu số ta
không cần phải chuyển đổi các tín hiệu; ngoài ra ta còn có thể chỉnh sửa, tạo các
hiệu ứng đẹp trên tín hiệu video số. Video số không chỉ có vai trò giải trí mà nó
còn cung cấp cho chúng ta nhiều thông tin quan trọng trong nhiều lĩnh vực như
là các ảnh giám sát quân sự, điều khiển giao thông, rút trích thông tin từ các dữ
liệu ảnh và video.
Trần Xuân Linh - K11T2
Trang 10
Luận văn thạc sỹ
1.2. Giám sát camera và Video
1.2.1. Các thế hệ hệ thống Camera giám sát:
Hệ thống theo dõi bằng hình ảnh đã được sử dụng để giám sát những vùng
an ninh nhạy cảm. Lịch sử của việc giám sát bằng hình ảnh đã trải qua 3 thế hệ
hệ thống được gọi là 1GSS, 2GSS và 3GSS [36].
Những hệ thống giám sát thế hệ thứ 1 (1 GSS, 1960-1980) được xây dựng
dựa trên các hệ thống con tương tự cho sự thu nhận, truyền và xử lý hình ảnh.
Chúng mở rộng tầm mắt con người trong việc nhận thức về không gian bằng
cách chuyển những thông tin đầu ra từ nhiều máy quay phim giám sát nhiều
vùng tới màn hình ở phòng kiểm soát trung tâm. Những hệ thống này có nhiều
mặt hạn chế như là yêu cầu băng thông rộng, khó lưu trữ và phục hồi những sự
kiện vì yêu cầu số lượng băng ghi hình lớn, khó khăn trong việc truy tìm những
sự kiện trực tuyến và công việc chủ yếu dựa vào thao tác của con người.
Hệ thống giám sát đời thứ 2 (2GSS, 1980-2000) đã được lai tạo theo ý
nghĩa là sử dụng cả 2 hệ thống con là tương tự và kỹ thuật số để giải quyết
những hạn chế của thế hệ máy trước. Họ đã sử dụng những phương pháp xử lý
hình ảnh kỹ thuật số tiên tiến, chúng giúp ích cho người điều hành bằng cách lọc
bớt những hình ảnh không xác thực. Hầu hết công việc của 2 GSS đều tập trung
vào tìm ra những sự kiện thực.
Những hệ thống thế hệ máy thứ 3 (3GSS, 2000-) cung cấp những hệ thống
kỹ thuật số end-to-end. Sự thu nhận và xử lý hình ảnh ở cấp độ cảm biến, truyền
thông cấp độ 1. Thông qua các mạng băng thông rộng di động và cố định không
đồng nhất, và hình ảnh lưu trữ ở máy chủ được hưởng lợi từ cơ sở hạ tầng số giá
thành thấp.
Không giống như những thế hệ trước, một vài công đoạn trong quá trình xử
lý hình ảnh của 3GSS được phân phối về hướng cấp độ cảm biến do sử dụng
những camera thông minh. Đó là những camera có khả năng số hoá và nén
những tín hiệu hình ảnh analog thu nhận được và trình bày những thuật toán
Trần Xuân Linh - K11T2
Trang 11
Luận văn thạc sỹ
phân tích hình ảnh như dò tìm chuyển động và bề mặt nhờ sự giúp đỡ của những
thiết bị tin học số được đính kèm.
Mục tiêu cuối cùng của 3GSS là cho phép dữ liệu hình ảnh được sử dụng
trong hệ thống báo động trực tuyến nhằm hỗ trợ một cách hiệu quả cho người
điều hành và cho các cuộc điều tra thực tế; để đạt được mục tiêu này, 3GSS sẽ
cung cấp những hệ thống thông minh có khả năng tạo ra những báo động chính
xác trong phức hợp những sự kiện, điều khiển những thiết bị lưu trữ được phân
phối và truy tìm dữ liệu hình ảnh dựa trên nội dung.
Việc tạo ra những hệ thống theo dõi bằng hình ảnh thông minh đòi hỏi phải
có những thuật toán nhanh, chính xác và mạnh để dò tìm, phân loại, theo dõi và
phân tích hoạt động của những đối tượng di chuyển. Bắt đầu từ 2GSS, một số
lượng đáng kể những nghiên cứu đã được cống hiến cho sự phát triển của những
thuật toán thông minh này.
1.2.2. Giám sát dưới sự trợ giúp của Camere nhờ các kỹ thuật xử lý ảnh
Video số có nhiều thông tin trực quan hơn là ảnh số. Lý do chính là video
số có chứa thông tin về chuyển động trong khi ảnh số chỉ là ảnh chụp một cảnh
tĩnh. Các chuỗi ảnh động luôn hàm chứa các thông tin về chuyển động, các
chuyển động này là một tín hiệu nhạy cảm đối với thị giác con người. Con người
có thể dễ dàng nhận biết được các đối tượng ngay khi chúng chuyển động thậm
chí chúng rất khó thấy khi đứng yên. Vì thế các phương pháp xử lí video số
cũng khác so với các phương pháp xử lí ảnh số. Vận động là thông tin quan
trọng trong xử lí video số bởi vì vận động mang rất nhiều thông tin về mối quan
hệ không gian và thời gian giữa các đối tượng trong ảnh. Các phương pháp cơ
bản trong xử lí video số là phát hiện chuyển động và ước lượng chuyển động.
Phát hiện chuyển động thường được áp dụng trong các hệ quan sát (phát hiện
đối tượng di chuyển hoặc là đứng yên), còn ước lượng chuyển động thường
được áp dụng trong nén video số. Ngoài ra còn có các phương pháp xử lí khác
được áp dùng vào mức tiền xử lí như là lọc nhiễu... các phương pháp này áp
dụng trên từng frame giống như trong xử lí ảnh số.
Trần Xuân Linh - K11T2
Trang 12
Luận văn thạc sỹ
1.2.2.1. Dò tìm đối tượng chuyển động
a. Sơ nét về chuyển động
Chuyển động theo các khái niệm trong vật lý là sự thay đổi vị trí giữa vật
này và vật kia, tức là khi xét tới sự chuyển động thì ta phải xét là nó chuyển
động so với cái gì. Khi xét tới chuyển động ta thường đặt nó vào một hệ quy
chiếu quán tính, một vật có thể đứng yên trên hệ quy chiếu này nhưng lại chuyển
động khi xét nó với hệ quy chiếu khác. Ví dụ khi ta đứng yên thì có thể coi là ta
đứng yên so với hệ quy chiếu gắn với trái đất, nhưng khi đưa vào hệ quy chiếu
gắn với mặt trời thì ta lại chuyển động. Điều này có ý nghĩa rất quan trọng khi
ứng dụng vào camera động. Chuyển động trong thực tế là chuyển động 3D
nhưng khi con người tiếp nhận thì nó trở thành chuyển động 2D. Nói chung hình
ảnh mà mắt người nhận được đều là 2D. Và phép toán chuyển đổi ảnh 3D thành
ảnh 2D mà mắt con người cảm nhận được là phép chiểu phối cảnh.
Hình 1.6: Phép chiếu phối cảnh của một đoạn thẳng
Chuyển động trong thế giới thực 3D qua phép chiếu phối cảnh sẽ biến
thành chuyển động trong mặt phẳng 2D. Tuy nhiên con người nhận biết chuyển
động qua sự thay đổi độ sáng của điểm ảnh. Do đó có những chuyển động mà
con người không có cảm nhận được như là chuyển động của quả cầu đồng màu.
Từ đó ta có phương pháp phát hiện chuyển động đầu tiên đó là so sánh sự khác
biệt theo thời gian.
Trần Xuân Linh - K11T2
Trang 13
Luận văn thạc sỹ
Mỗi một ứng dụng của việc xử lý ảnh thông minh đều đáp ứng cho những
nhu cầu khác nhau, do vậy nó có những yêu cầu xử lý khác nhau. Tuy nhiên
chúng có một điểm chung: những đối tượng di chuyển.
Hình 1.7: Một sơ đồ chung cho những thuật toán xử lý hình ảnh thông minh.
Vì vậy, việc xác định những vùng tương ứng với những đối tượng di
chuyển như là con người và xe cộ trong cảnh quay là một bước cơ bản đầu tiên
của hầu hết mọi hệ thống quan sát bởi vì nó tạo ra một sự tập trung chú ý và đơn
giản hoá quá trình xử lý ở những bước phân tích sâu hơn. Do sự thay đổi không
ngừng của tự nhiên như thay đổi đột ngột của ánh sáng và thời tiết, những
chuyển động lặp đi lặp lại (lá cây chuyển động trong gió) tạo nên sự lộn xộn,
việc dò tìm chuyển động là một khó khăn trong việc xử lý một cách chính xác.
Những kỹ thuật sử dụng thường xuyên trong việc dò tìm đối tượng động
là việc trừ nền, những phương pháp thống kê, so sánh sự khác biệt và luồng
quang học. Những kỹ thuật này được mô tả dưới đây.
b. Phương pháp so sánh sự khác biệt
Chúng ta xác định độ sai khác DK , K 1 giữa frame thứ k và thứ k-1 như sau:
DK , K 1 FK FK 1
(1.3)
trong đó: Fk là frame tại thời điểm k
Nếu camera tĩnh, sự thay đổi ánh sáng rất nhỏ và nhiễu không đáng kể thì
một điểm được coi là chuyển động nếu độ khác biệt của nó lớn hơn 0 và ngược
lại sẽ đứng yên. Tuy nhiên trong thực tế các điều kiện trên khó có thể xảy ra.
Trần Xuân Linh - K11T2
Trang 14
Luận văn thạc sỹ
Do đó để loại bỏ các điểm mà chúng ta phát hiện sai do nhiễu gây ra, ta có thể
dùng một ngưỡng T thích hợp. Với Mk,k+1 được gọi là mặt nạ chuyển động ở
thời điểm k, nếu bằng 1 thì điểm đó được coi là chuyển động và bằng 0 thì điểm
đó là đứng yên. T là ngưỡng thích hợp có thể là một giá trị cụ thể được xác định
trong quá trình thực nghiệm hoặc dựa trên các thuật toán. Độc giả có thể tham
khảo một thuật toán xác định ngưỡng ở phụ lục B của [1].
frame thứ k
frame thứ k-1
mặt nạ chuyển động
Hình 1.8: Kết quả của phương pháp so sánh sự khác biệt
Ưu điểm của phương pháp này là đơn giản và dễ cài đặt do đó tốc độ sẽ
nhanh. Tuy nhiên nhược điểm của nó là những vùng thật sự chuyển động nhưng
do đồng màu nên sẽ được hiểu là đứng yên và nhưng vùng thật sự đứng yên thì
lại cho là chuyển động.
Để khắc phục nhược điểm trên ta có một thuật toán so sánh khác biệt cải
tiến:
Bước 1: Tạo một cấu trúc Pyramid Gaussian trong đó mổi frame được đặc
trưng bởi nhiều độ phân giải khác nhau. Bắt đầu xử lí ở mức phân giải thấp nhất.
Bước 2: Với mỗi điểm ở mức phân giải hiện tại, tính toán độ khác biệt
chuẩn hóa:
FDN k , r ( x, y )
f ( x, y, k ) f ( x, y, r ) f ( x, y, r )
x , y N
f ( x, y, r )
2
c
(1.4)
x , y N
Trần Xuân Linh - K11T2
Trang 15
Luận văn thạc sỹ
N: là các điểm trong lân cận của x
f ( x, y, r) : là gradient của mật độ ảnh tại điểm (x, y)
f ( x, y, k ) : là frame ở thời điểm k
c: là hằng số
Nếu độ khác biệt chuẩn hóa này cao hơn độ khác biệt ở độ phân giải trước
thì thay thế độ khác biệt trước đó bằng độ khác biệt ở mức hiện tại. Nếu không
thì vẫn giữ nguyên giá trị trước đó.
Bước 3 : Lặp lại bước 2 cho tất cả độ phân giải
Bước 4 : Lấy ngưỡng với sự khác biệt chuẩn hóa ở mức phân giải cao nhất.
c. Phương pháp trừ nền
Trừ nền là một kỹ thuật đặc biệt được sử dụng rộng rãi trong việc phân
đoạn động của những cảnh quay tĩnh (34). Công việc này nhằm cố gắng xác
định những vùng chuyển động bằng việc loại bỏ từng điểm ảnh một của bức ảnh
từ một hình nền tham chiếu được tạo ra bởi việc chuẩn hoá những hình ảnh theo
thời gian trong giai đoạn đầu. Những điểm ảnh có sự khác biệt trên ngưỡng
được xếp là những điểm ảnh cận cảnh. Sau khi hoàn thành một bản đồ về những
điểm ảnh cận cảnh, một vài thao tác sau xử lý hình thái như làm mịn, làm co
giãn và kéo gần được thực hiện để hạn chế ảnh hưởng của tiếng ồn và làm nổi
bật những vùng được dò tìm. Hình nền tham chiếu được cập nhật mới theo thời
gian để phù hợp với sự thay đổi không ngừng của cảnh vật.
Có nhiều phương pháp khác nhau trong tiến trình trừ nền cơ bản dựa vào
việc xác định miền cận cảnh, duy trì hình nền và kết quả hình ảnh sau xử lý.
Trong (20) Heikkila và Silven sử dụng phiên bản đơn giản của tiến trình này,
một điểm ảnh ở vị trí (x, y) trong hình ảnh hiện tại được đánh dấu như là một
điểm cận cảnh nếu
| It x, y Bt ( x, y) |
(1.5)
được thoả mãn nơi là một ngưỡng đã được xác định trước. Hình nền Bt được
cập nhật bằng việc dùng một chương trình lọc đáp ứng xung bất định (Infinite
Impulse Response (IIR)) như sau:
Trần Xuân Linh - K11T2
Trang 16
Luận văn thạc sỹ
Bt 1 I t (1 ) Bt
(1.6)
Theo sau việc tạo ra bản đồ điểm cảnh cận cảnh là việc hoàn tất về mặt
hình thái và loại bỏ những vùng có kích thước nhỏ.
Mặc dù những kỹ thuật trừ nền hoạt động tốt trong việc loại bỏ hầu hết
những điểm ảnh có liên quan đến những vùng hoạt động. Ngay cả khi nó dừng,
nó vẫn luôn nhạy cảm với những sự thay đổi không ngừng như những đối tượng
không di chuyển không bao phủ hình nền (chẳng hạn như một chiếc xe đang đậu
chạy khỏi khu đậu xe), hoặc là có sự thay đổi bất ngờ về độ sáng.
Phương pháp trên cũng dựa trên sự so sánh giữa 2 ảnh, nhưng không phải
là 2 ảnh liên tiếp trong chuỗi ảnh mà là giữa các ảnh trong chuỗi ảnh với một
ảnh tham chiếu gọi là ảnh nền. Ảnh nền là cảnh thu được khi không có đối
tượng chuyển động nào hết. Gọi B là ảnh nền thu được, ta có độ khác biệt giữa
ảnh nền và ảnh thứ k trong chuỗi ảnh
Dk Fk B
(1.7)
Nếu nhiễu ít và không có sự thay đổi của ánh sáng thì điểm có tọa độ (x,y)
được xem là tĩnh nếu Dk(x,y) = 0 và ngược lại. Tuy nhiên trong thực tế luôn có
nhiễu vì vậy ta phải dùng ngưỡng để hạn chế nhiễu.
1 neu Dk ( x, y ) T
M k ( x, y )
0 nguoc lai
(1.8)
Với Mk là mặt nạ chuyển động, điểm (x,y) được xem là chuyển động khi
Mk(x,y) = 1 và đứng yên khi Mk(x,y) = 0.
Trong thực tế ảnh nền luôn luôn biến đổi do sự thay đổi độ sáng do gió,
các đám mây bay qua vì thế ta phải luôn cập nhập nền lại. Gọi Bk là nền ở thời
điểm k. Ta có nền ở thời điểm k + 1 được cập nhật như sau:
* Bk ( x, y) (1 ) Fk ( x, y) neu M k ( x, y) 0
Bk 1 ( x, y)
neu M k ( x, y) 1
Bk ( x, y )
(1.9)
Với là một hằng số được gọi là tỉ lệ học phản ánh mức độ cập nhật nền
nhanh hay chậm.
Trần Xuân Linh - K11T2
Trang 17
Luận văn thạc sỹ
ảnh nền
bóng ma
ảnh thứ k
mặt nạ chuyển động
Hình 1.9 : bóng ma trong phương pháp trừ nền
Phương pháp trừ nền cho kết quả tốt hơn phương pháp so sánh sự khác
biệt khi xử lí các đối tượng đồng màu, tuy nhiên nó có một nhược điểm khi ảnh
nền chứa một đối tượng đứng yên, sau đó đối tượng này chuyển động thì
phương pháp trên sẽ phát hiện ra 2 đối tượng chuyển động chứ không phải là 1.
Đối tượng bị phát hiện sai này được gọi là bóng ma. Để giải quyết vấn đề
trên người ta phải sử dụng ảnh nền không có đối tượng chuyển động nào trong
đó hết hoặc có thể dựa vào các thuật toán tạo ảnh nền.
Ngoài ra còn một hướng tiếp cận mới trong phương pháp trừ nền đó là
dựa trên mô hình xác suất thống kê. Ý tưởng chính ở đây là đưa ra một mô hình
thống kê cho nền. Thường có hai mô hình thống kê chính đó là đơn phương thức
( unimodal ) và đa phương thức ( multimodal ) . Trong mô hình đơn phương
thức mỗi điểm được mô hình với phân phối xác suất đơn thường là phân phối
Gaussian η( x, y, μk, Σk ), trong đó μk là giá trị trung bình và Σk là ma trận
phương sai của phân phối ở frame t. Những điểm mà màu quan sát được đủ gần
( hay còn gọi là khớp ) với phân phối nền thì được phân thành điểm nền hay là
điểm đứng yên và ngược lại là điểm chuyển động. Vì nền luôn luôn thay đổi nên
ta phải cập nhập lại mô hình nền như sau:
t 1 (1 ) * t * dt
T
t 1 (1 ) * t * dt * dt
(1.10)
Với là hằng số chỉ mức độ điều chỉnh mô hình nền nhanh hay chậm.
Trần Xuân Linh - K11T2
Trang 18
Luận văn thạc sỹ
Đối với mô hình nền đa phương thức (multimodal), chúng ta cần đến
nhiều phân phối xác suất độc lập với nhau để mô hình mỗi điểm ảnh. Mỗi phân
phối được gán với một trọng số đặc trưng cho mức độ ưu tiên của chúng. Chỉ
một vài phân phối đầu tiên với trọng số lớn mới được dùng để mô hình cho nền.
Một phân phối mới của sự quan sát sẽ được cập nhập vào mô hình nền nếu như
nó không khớp bất cứ phân phối nào đặc trưng cho mô hình nền, ngược lại nó
trọng số của các phân phối sẽ được cập nhập lại như sau:
(1 ) wt 1,i
Wt 1,i
(1 ) wt 1,i
im
im
(1.11)
Với m là chỉ số của phân phối khớp với phân phối mới của sự quan sát, β
được gọi là tỉ lệ học trọng số
d. Những phương pháp thống kê
Nhiều phương pháp áp dụng đặc trưng thống kê của những điểm ảnh đơn
lẻ tiến bộ hơn đã được phát triển nhằm vượt qua những thiếu sót của phương
pháp trừ nền cơ bản. Những phương pháp thống kê này chủ yếu xuất phát từ
phương pháp trừ nền nhằm giữ lại và cập nhật một cách đầy đủ số liệu thống kê
trong quá trình xử lý ảnh nền. Những điểm ảnh cận cảnh được xác định bằng
việc so sánh số liệu thống kê của mỗi điểm ảnh với số liệu thống kê của ảnh nền.
Phương pháp này đang trở nên phổ biến do độ tin cậy của nó về những
cảnh quay có âm thanh, sự thay đổi về cường độ chiếu sáng và bóng râm.
Hệ thống W4 (17) sử dụng một mẫu nền thống kê mà ở đó, mỗi điểm ảnh
được mô tả bằng những giá trị cường độ lớn nhất (N) và nhỏ nhất (M) của
chúng, và bằng sự khác biệt lớn nhất về cường độ được nhận thấy (D) giữa bất
kỳ hai khung liên tiếp nhau trong suốt giai đoạn thử đầu tiên khi trong cảnh
không có một đối tượng di chuyển nào. Một điểm ảnh trong bức ảnh hiện thời It
được phân vào nhóm điểm ảnh cận cảnh nếu nó thoả mãn:
M ( x, y) I t ( x, y) D( x, y) or N ( x, y) I t ( x, y) D( x, y)
(1.12)
Sau bước khởi đầu, người ta áp dụng việc làm mịn đơn lẻ về hình thái để
xác định những điểm ảnh cận cảnh nhằm loại bỏ từng điểm ảnh bị nhiễu một.
Trần Xuân Linh - K11T2
Trang 19
Luận văn thạc sỹ
Nhằm phóng to những khu vực được làm mịn bằng kích cỡ thật của chúng, một
chuỗi hoạt động làm mịn và làm co giãn được thực hiện trong bản đồ điểm ảnh
cận cảnh. Những vùng nhỏ cũng được loại bỏ sau khi áp dụng việc kết nối
những chi tiết tương tự nhau để tìm ra những khu vực này. Những số liệu thống
kê của những điểm ảnh cận cảnh nằm trong những khu vực tĩnh của hình ảnh
hiện tại được cập nhật với nhiều tư liệu hình ảnh mới.
Là một ví dụ của những phương pháp thống kê, Stauffer and Grimson
[44] mô tả một mẫu phức hợp hình nền có khả năng thích ứng trong việc theo
dõi đúng thời điểm. Trong quá trình hoạt động của chúng, mỗi điểm ảnh được
chuẩn hoá một cách riêng biệt bởi sự pha trộn các độ lệch chuẩn (Gaussians)
được cập nhật trực tuyến bằng những dữ liệu hình ảnh đưa vào. Nhằm xác định
một điểm ảnh là điểm ảnh nền hay điểm ảnh cận cảnh, người ta đánh giá những
phân phối chuẩn (Gaussian distributions) của mẫu chọn của điểm ảnh đó. Trong
luận văn này có bổ sung mẫu này vào trong hệ thống và những chi tiết của nó
được trình bày trong chương tới.
e. Phương pháp dựa trên Optical Flow
Phương pháp luồng quang học sử dụng các vector luồng của những đối
tượng di chuyển theo thời gian để xác định vùng chuyển động của một bức ảnh.
Chúng có thể xác định sự chuyển động trong một chuỗi hình ảnh ngay cả từ một
camera di động. Tuy nhiên, phần lớn các phương pháp luồng quang học thường
phức tạp về mặt tính toán và không thể sử dụng đúng lúc mà không có một phần
cứng đặc biệt (49).
Đây là một phương pháp phức tạp và đòi hỏi các phần cứng đắt tiền để chạy
real-time nên chúng ta chỉ nói khái quát về nó. Các chuyển động của đối tượng
trong 3D được gây ra chuyển động 2D trong mặt phẳng ảnh được gọi là Optical
Flow. Optical Flow tương ứng với sự cảm nhận chuyển động của mắt người.
Trần Xuân Linh - K11T2
Trang 20
- Xem thêm -