Tài liệu Thiết kế asic cho bộ lọc fir công suất thấp

  • Số trang: 64 |
  • Loại file: DOCX |
  • Lượt xem: 20 |
  • Lượt tải: 0
thucaothi349968

Tham gia: 25/12/2016

Mô tả:

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA THIẾT KẾ ASIC CHO BỘ LỌC FIR CÔNG SUẤT THẤP Chuyên ngành: Kỹ thuật điện tử Mã số: 1678001 LUẬN VĂN THẠC SĨ TP.HỒ CHÍ MINH, tháng 12 năm 2018 1 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán bộ hướng dẫn khoa học :.................................................................... (Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 1 :.......................................................................... (Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 2 :.......................................................................... (Ghi rõ họ, tên, học hàm, học vị và chữ ký) Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM ngày . . . . . tháng . . . . năm . . . . . Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1. ............................................................. 2. ............................................................. 3. ............................................................. 4. ............................................................. 5. ............................................................. Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có). CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA ………… 2 ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: MSHV: Ngày, tháng, năm sinh: Nơi sinh: Chuyên ngành: Kỹ thuật điện tử Mã số: 60520203 I. TÊN ĐỀ TÀI: THIẾT KẾ ASIC CHO BỘ LỌC FIR CÔNG SUẤT THẤP II. NHIỆM VỤ VÀ NỘI DUNG: Thiết kế được một con chip có thể tối ưu được công suất với thuật toán bộ lọc FIR bằng trễ và diện tích của CMOS trong vi mạch số III. NGÀY GIAO NHIỆM VỤ : 15/01/2018 IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 30/12/2018 V. CÁN BỘ HƯỚNG DẪN: TS Trương Quang Vinh Tp. HCM, ngày . . . . tháng .. . . năm 20.... CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên và chữ ký) (Họ tên và chữ ký) TRƯỞNG KHOA….……… (Họ tên và chữ ký) Ghi chú: Học viên phải đóng tờ nhiệm vụ này vào trang đầu tiên của tập thuyết minh LV 3 LỜI CÁM ƠN Được sự phân công của nhà trường, khoa điện – điện tử và sự đồng ý của giáo viên hướng dẫn TS. Trương Quang Vinh, em đã thực hiện luận văn thạc sĩ chuyên ngành kỹ thuật điện tử với đề tài “Thiết kế ASIC cho bộ lọc FIR công suất thấp trên công nghệ CMOS 90NM”. Qua trang viết này em xin gửi lời cảm ơn tới những người đã giúp đỡ em trong thời gian học tập, nghiên cứu luận văn thời gian qua. Trước hết, em xin gửi lời cảm ơn chân thành đến TS. Trương Quang Vinh. Thầy là người đã trực tiếp hướng dẫn và tận tình chỉ bảo trong công việc nghiên cứu, tìm kiếm tài liệu, xử lý và phân tích vấn đề của luận văn. Nhờ thầy mà em có thể hoàn thành luận văn cao học. Ngoài ra, em cũng xin chân thành cảm ơn quý đồng nghiệp, gia đình và bạn bè cùng khóa đã luôn động viên và hỗ trợ em trong suốt quá trình nghiên cứu và hoàn thành luận văn này. TÁC GIẢ TÓM TẮT 4 Tiếng Việt: Ngày nay các thiết bị di động như điện thoại di động, máy tính xách tay, hay các thiết bị y sinh cầm tay ngày càng trở nên phổ biến và một phần tất yếu trong cuộc sống. Bô lọc FIR , hay bộ lọc đáp ứng xung hữu hạn (Finite Impulse Response) được sử dụng rất rộng rãi trong các thiết bị y sinh, xử lý tiếng nói, xử lý hình ảnh, và xử lý video. Bộ lọc này, sử dụng các nguồn năng lượng để xử lý các quá trình trên rất nhiều năng lượng. Không chỉ có độ ổn định điện áp và dòng điện mà nó còn có hiệu suất lọc năng lượng cao. Sự lọc năng lượng từ bộ lọc FIR cấp điệc cho một thiết bị hoạt động với điện áp thấp hơn thương thông qua các nguồn điện của tín hiệu, tín hiệu hình ảnh, tín hiệu video, tín hiệu tiếng nói. Việc sử dụng bộ lọc FIR nhằm tạo ra nhiều mức điện áp khác nhau phục vụ cho các khối chức năng mạch, thiết bị và các ứng dụng trong cùng một hệ thống. Yêu cầu bộ lọc đáp ứng xung hữu hạn, hiệu năng sau khi được lọc có độ gợn năng lượng tháp để đảm bảo cho hệ thống ổn định theo ngõ ra cho phép. Luận văn này trình bày các vấn đề liên quan đến bộ lọc FIR giảm hiệu suất tín hiệu bằng phương pháp xung, thực hiện trên mô phỏng hoạt động vi mạch trên nên tảng công nghệ 180nm. Trong báo cáo này,............................... Luận văn đã thực hiện thành công mô phỏng bộ lọc FIR trên cấp độ dạng khối trên Matlab và mô phỏng vi mạch bằng phần mềm Synopsis sử dụng mã bù bộ cộng CIA 4bit, và bô cộng Ripple 16bit. Kết mô phỏng so sánh hai bộ công này là 70% nhanh hơn so với bộ cộng Ripple 16 bit và tiêu thụ năng lượng hiều hơn 24,7%. Mô phỏng thực hiện trên thư viện vi mạch 180nm CMOS TSMC 1p6M cho hiệu suất 80% có khả năng ...................................................... 5 ABSTRACTS In the 21st century, the fast growing demand of portable and filter electronic system has driven the efforts to reduce power consumption or to improve the efficiency of these electronic equipments. Regulator are essential for most electrically powered system which include the prevalent filter equipments and singal processing. Regulators are required to reduce the power varriation from DSP system, 6 LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả trong đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây. Tất cả những tham khảo và kế thừa cho việc thực hiện luận văn này đã được cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc và được phép công bố. TP.HCM, ngày tháng Học viên thực hiện 7 năm Mục lục 1. Tổng quan:...................................................................................................................................8 1.1. Giới thiệu về đề tài.................................................................................................................8 1.2. Đặc trưng của mặt người........................................................................................................8 1.2.1 Yêu cầu về nhận dạng khuôn mặt......................................................................................9 1.2.2 Các biểu cảm cảm xúc trên mặt người...............................................................................9 1.3. Mục tiêu, nhiệm vụ và phạm vi đề tài..................................................................................10 1.3.1 Mục tiêu của đề tài.......................................................................................................10 1.3.2 Nhiệm vụ của đề tài.....................................................................................................10 1.3.3 Phạm vi của đề tài........................................................................................................10 1.4. Tổ chức luận văn.................................................................................................................10 2. Tình hình nghiên cứu trong và ngoài nước..............................................................................11 3. Mạng nơ-ron tích chập (Convolution neural network - CNN)...............................................18 4. 3.1. Tổng quan............................................................................................................................18 3.2. Mạng nơ-ron tích chập.........................................................................................................19 Thiết kế hệ thống và mô phỏng thử nghiệm............................................................................24 4.1. Kiến trúc hệ thống nhận diện cảm xúc khuôn mặt sử dụng mạng nơ-ron tích chập (CNN). 24 4.2. Dữ liệu sử dụng cho huấn luyện mạng (Training dataset)....................................................32 4.3. Huấn luyện cho kiến trúc mạng nơ-ron tích chập.................................................................34 4.4. Thiết kế giao diện chương trình (GUI).................................................................................45 4.5. Mô phỏng và thực nghiệm...................................................................................................46 5. Hướng phát triển đề tài.............................................................................................................57 6. Tài liệu tham khảo.....................................................................................................................58 8 1. Tổng quan 1.1. Giới thiệu về đề tài Trong những năm gần đây, cùng với sự phát triển nhanh của vi mạch số, nó được thiết kế bởi hai quá trình, một là thiết kế Front – End và hai là thiết kế Back – End. Cả hai qua trình thiết kế nhà thiết kế ngày càng dòi hỏi công suất thấp và thông lượng cao của mức tiêu thụ năng lượng. Những các nhà thiết kế vi mạch số sử dụng rất nhiều toán học cần thiết để thực hiện trong qua trình thiết kế để thu được vi mạch có công suất thấp, và độ trễ rất ít. Luận văn này xin trình bày một quá trình thiết kế vi mạch số của bộ lọc đáp ứng xung hữu hạn (FIR). Quà trình thiết kế thực hiện các chức năng chính: Thiết kế bộ lọc đáp ứng xung hữu hạn, dựa vào toán học của bộ lọc đáp ứng xung hữu hạn thiết kế một vi mạch số bằng phần mềm synopsis. Vi mạch đã thiết kế có thể tối ưu được mức tiệu thụ năng lượng. Cốt lõi của phương pháp tiếp cận của luận văn đưa ra được dựa trên việc:  Lựa chọn bài toán học để thiết kế  Sử dụng phương pháp bộ lọc đáp ứng xung hữu hạn (FIR)  Thiết kế bộ lọc đáp ứng xung hữu hạn công suật thấp 1.2. Đặc trưng của quá trình thiết kế ASIC cho bộ lọc FIR Vi mạch số là trọng tâm chính trong mối quan hệ giao tiếp trong mọi lĩnh vực, đó vai trò quan trọng trong việc thiết kế vi mach số có thể tối ưu được công suốt và tối tiểu được chi phí sản suất cũng như chi phí tiêu thụ năng lượng của người dùng. Để thiết kế được điều đó, chúng ta thiết kế vi mạch cho một bộ lọc đáp ứng xung hữu hạn (FIR). Điều này khá là rõ nét, Bộ lọc đáp ứng xung hữu hạn là một bộ lọc tính toán nhanh và tối tiểu con CMOS cho qua trình thiết kế ASIC. Nhũng bài toán đã xử trong bộ lọc FIR này gồm có: 1. Cửa số 2. Mẫu tần số 3. Lặp tối ưu 9 1.2.1 Yêu cầu về thiết kế ASIC cho bộ lọc FIR Tối ưu số Area của Cell Tối ưu chi phí sản xuất Tối ưu công suất 1.2.2 Các biểu cảm cảm xúc trên mặt người Con người có nhiều cách để truyền đạt thông tin với nhau: ngôn ngữ, cử chỉ, lời nói… Biểu hiện cảm xúc trên khuôn mặt cũng là một cách để truyền đạt thông tin, nó có thể biểu hiện một nhận định của con người trước sự vật, hiện tường. Hình bên dưới là 7 cảm xúc cơ bản cử con người mà đề tài này đề cập tới – nhận dạng, phân biệt được 7 loại cảm xúc cơ bản của con người. Tiến sĩ Paul Ekman đã trình bày 7 cảm xúc cơ bản và được con người ở mọi nền văn hóa thể hiện giống nhau trong Emotions Revealed (2003). 1.3. Mục tiêu, nhiệm vụ và phạm vi đề tài 1.3.1 Mục tiêu của đề tài Nhận diện cảm xúc trên khuôn mặt người là một trong những đề tài thiết thực và cần thiết đối với sự phát triển giao tiếp người-máy hiện nay, vì vậy:  Cảm xúc trên khuôn mặt người được máy nhận biết một cách tự động  Thông tin về cảm xúc có thể được ghi nhận để làm dữ liệu cho những phân tích về thị trường, mức độ hài lòng của khách hàng  Từ việc phân tích dữ liệu trên, một vài hành động có thể được đưa ra nhằm nâng cao chất lượng dịch vụ hoặc điều chỉnh chất lượng sản phẩm 1.3.2 Nhiệm vụ của đề tài  Phát hiện và trích xuất khuôn mặt từ ảnh / video thời gian thực  Tính toán và ước lượng cảm xúc trên khuôn mặt ở khung ảnh hiện tại  Trích xuất cảm xúc trên khuôn mặt và hiển thị kết quả 10 1.3.3 Phạm vi của đề tài Đề tài luận văn này sẽ được thực hiện với đáp ứng đầu vào là video và đầu ra cũng là video cùng với cảm xúc trên khuôn mặt trên video với độ chính xác cao. Hệ thống sẽ được thiết kế hoạt động trên các bộ dữ liệu video lấy từ thực tế, thời gian thực 1.4. Tổ chức luận văn Luận văn sẽ đi qua các mục chính sau: - Xem qua các nghiên cứu trong và ngoài nước về đề tài của luận văn - Phân tích thuật toán nhận dạng cảm xúc khuôn mặt (Mạng nơ-ron tích chập) - Mô phỏng và thử nghiệm - Kết luận và thảo luận về các cải tiến có thể trong tương lai 11 2. Tình hình nghiên cứu trong và ngoài nước Nhận diện cảm xúc trên khuôn mặt người đang là một lĩnh vực được nghiên cứu nhiều trong lĩnh vực thị giác máy tính. Trong phần luận văn này, em xin đưa ra một số lĩnh vực nghiên cứu, một số phương pháp tiếp cận đặc trưng để người đọc có thể kham thảo. Năm 2010, tác giả Đinh Xuân Nhất trong khóa luận tốt nghiệp Đại học Công nghệ - Đại học Quốc gia Hà Nội, “Nghiên cứu các thuật toán nhận dạng cảm xúc trên khuôn mặt 2D”, đã đưa các so sánh 3 thuật toán nhận dạng cảm xúc trên khuôn mặt gồm 5 cảm xúc cơ bản: vui, buồn, ghê tởm, giận dữ và tự nhiên. Tác giả đã chỉ ra một số thuật toán học và áp dụng thuật toán này cho bài toán phân lớp để nhận dạng cảm xúc. Dữ liệu đầu vào mà đề tài sử dụng bao gồm có 75 ảnh khuôn mặt mẫu, độ phân giải 600x800 điểm ảnh, tất cả đều là ảnh khuôn mặt một người và có độ sáng đồng đều nhau. Tập ảnh này chỉ có 5 cảm xúc chính là: vui, buồn, ghê tởm, giận dữ và bình thường. Trong 75 ảnh khuôn mặt mẫu, 40 ảnh bất kỳ chọn làm dữ liệu huấn luyện cho mạng, còn 35 ảnh làm dữ liệu kiểm tra. Những kết quả chính mà khóa luận đạt được:  Giới thiệu chi tiết về phương pháp trích chọn đặc trưng (PCA) và Mạng noron nhiều tầng truyền thẳng, đồng thời giới thiệu sơ lược về một giải thuật phân lớp khác là cây quyết định.  Áp dụng các giải thuật này cho bài toán nhận dạng cảm xúc. Những vấn đề mà khóa luận chưa giải quyết được:  Xây dựng tập huấn luyện lớn để đạt kết quả chính xác hơn  Xây dựng một chương trình hoàn chỉnh có giao diện tương tác với người sử dụng. 12 Kết quả nhận dạng thu được chưa cao, phân bố không đồng đều giữa các cảm xúc với nhau: Cảm xúc Vui Phương pháp Ghê tởm Giận dữ Buồn Bình thường Trung bình PCA truyền thống 80% 70% 86% 55% 84% 75.00% Mạng noron 100% 100% 67% 50% 80% 79.40% Cây quyết định 60% 14.30% 16.70% 0% 60% 30.20% Bảng 2.1: So sánh độ chính xác của một số phương pháp (1) Năm 2010, Trong bài báo “Facial Expression Recognition Using AAM Algorithm”, các tác giả Nguyen Duc Thanh, Nguyen Huu Tan, Nguyen Tan Luy đến từ Bộ môn Tự động, Đại học Bách Khoa TP.HCM đã đề xuất 2 phương pháp, trong đó 1 là AAM kết hợp mạng thần kinh cho kết quả chính xác hơn nhưng tốc độ xử lý chậm, và phương pháp kia là AAM kết hợp tương quan điểm với tốc độ đặc biệt nhanh. Cảm xúc Độ chính xác AAM kết hợp mạng nơ-ron AAM kết hợp tương quan điểm Vui 82.66% 85.33% Buồn 96.00% 90.66% Ngạc nhiên 85.33% 81.33% Giận dữ 84.00% 82.66% Trung bình 87.00% 85.00% Bảng 2.2: So sánh độ chính xác của một số phương pháp (2) Năm 2011, Tại Hội nghị Quốc tế về Công nghệ tiên tiến áp dụng cho Truyền thông, với bài báo “Toward a Vietnamese facial expression recognition system for human-robot interaction” các tác giả Le Thi-Lan và Dong Van-Thai đến từ Đại học Bách Khoa Hà Nội đã trình bày kết quả nghiên cứu về nhận dạng cảm xúc khuôn mặt người Việt Nam, trong đó bao gồm việc xây dựng database, phát hiện khuôn mặt và nhận dạng biểu hiện khuôn mặt. Đóng góp chính trong bài báo là database biểu hiện khuôn mặt của người Việt Nam, và kết quả sơ bộ về phát hiện và nhận dạng biểu hiện cảm xúc trên khuôn mặt. 13 Kết quả phát hiện khuôn mặt với độ chính xác là 83% với hình ảnh nhiều khuôn mặt và 94% với hình ảnh một khuôn mặt. Hình 2.1: Các thành phần cơ bản của khuôn mặt Một nghiên cứu Liyuan Zhen và Shifeng Zhu, “Convolutional Neural Network for Facial Expression Recognition” chỉ ra kết quả triển khai của một số kiến trúc của mạng nơ ron tích chập mà nhóm đã thực hiện. Tuy nhiên kết quả đạt được chưa cao.  Đối với kiến trúc nơ ron tích chập tiêu chuẩn: 5 × 5 Conv(ReLU) → 2 × 2 Max-Pooling → Fully-Connected(ReLU) → Softmax, kết quả đạt được chỉ ở 48%  Với kiến trúc CNN 6 lớp, độ chính xác ở mức 52.72%  Đối với kiến trúc học sâu hơn (Depper CNN): 3 × 3 Conv(ReLU) - 2 × 2 Max-Pooling with dropout rate of 0.25 → 3 × 3 Conv(ReLU) - 2 × 2 MaxPooling with dropout rate of 0.25 → 3 × 3 Conv(ReLU) - 2 × 2 MaxPooling with dropout rate of 0.25 → Fully-Connected(ReLU) with dropout rate of 0.5 → Softmax., độ chính xác được cải thiện ở mức 61.19% 14 Tác giả sử dụng dữ liệu từ cuộc thi nhận dạng cảm xúc khuôn mặt Kaggle (Kaggle facial expression challenge) bao gồm 28709 ảnh và cho việc huấn luyện và 3589 ảnh cho việc kiểm tra, các ảnh này là ảnh khuôn mặt người có kích thước 48x48 pixels và được định dạng ở ảnh xám. Hình 2.2: Cảm xúc trên khuôn mặt và thống kê dữ liệu trong Kaggle Arushi Raghuvanshi và Vivek Choksi đã giới thiệu đề tài “Facial Expression Recognition with Convolutional Neural Networks” sử dụng mạng nơ ron tích chập 5 lớp để giải quyết bài toán nhận diện cảm xúc khuôn mặt trên ảnh. Baseline classifier cũng được sử dụng trong đề tài này để đưa ra kết quả tính toán về cảm xúc khuôn mặt. Nhóm sử dụng dữ liệu từ cuộc thi nhận dạng cảm xúc khuôn mặt Kaggle (Kaggle facial expression challenge) để triển khai và kiểm tra hệ thống, kết quả triển khai của 5 mô hình dựa trên mạng nơ-ron tích chập không cao Độ chính xác Mô hình Huấn luyện Test Baseline 0.25 0.24 Five-layer CNN 0.46 0.39 Deeper CNN 0.6 0.48 VGG16 fine-tuned CNN VGGFace fine-tuned CNN 0.37 Bảng 2.3: So sánh độ chính xác của một số phương pháp (3) 15 Năm 2017, các tác giả Minh-An Quinn, Grant Sivesind, Guilherme Reis của đại học Stanford đã giới thiệu nhiều mô hình nhân dạng cảm xúc khuôn mặt trong đề tài: “Real-time Emotion Recognition From Facial Expressions”, thực hiện trên một số tập dữ liệu, trong đó có FER2013. Trong đó có mô hình mạng nơ-ron tích chập với 10 lớp và độ chính xác đạt được 66,67% trên tập FER2013. Độ chính xác tập trung chủ yếu ở các cảm xúc vui, ngạc nhiên, giận và tự nhiên. Kết quả này hoàn toàn trùng khớp khi thực hiện giải thuật này trên video thời gian thực. Hình 2.3 Ma trận cảm xúc của đề tài (1) 16 Bảng 2.4: So sánh độ chính xác của một số phương pháp (4) Ngày 20 tháng 10 năm 2017, các tác giả Octavio Arriaga, Matias ValdenegroToro, Paul Plöger giới thiệu một nghiên cứu mang tên “Real-time Convolutional Neural Networks for Emotion and Gender Classification”. Nghiên cứu này thực hiện các công việc: nhận diện khuôn mặt, nhận diện cảm xúc kết hợp với giới tính xử lý thời gian thực. 17 Hình 2.4 Mô hình được giới thiệu trong đề tài Hình 2.5 Ma trận cảm xúc của đề tài (2) 18 Hệ thống được thiết kế với các lớp cơ bản của một hệ thống mạng nơ-ron tích chập, tuy nhiên, không sử dụng lớp kết nối đầy đủ trong mạng. Hệ thống được huấn luyện với IMDB dataset với 460,723 hình ảnh RGB về giới tính, độ chính xác đạt được là 96%, 35,887 hình ảnh từ FER2013 với độ chính xác khoản 66%. Trên đây là một số nghiên cứu trong và ngoài nước liên quan đến việc nhận dạng cảm xúc khuôn mặt, mỗi nghiên cứu đều có ưu điểm và nhược điểm riêng, hầu hết các nghiên cứu đều dùng hình ảnh để làm tập huấn luyện và tập kiểm tra độ chính xác của hệ thống. Phần tiếp theo của đề tài sẽ là phần phân tích thuật toán nhận dạng cảm xúc khuôn mặt sử dụng mạng nơ-ron tích chập (CNN). 3. Mạng nơ-ron tích chập (Convolution neural network - CNN) 3.1. Tổng quan Mạng nơ-ron truyền thẳng nhiều lớp là một kỹ thuật có sức mạnh và tầm ảnh hưởng lớn trong máy học (machine learning) với việc được huấn luyện dựa như là một hàm không tuyến tính để giải quyết một số bài toán thực tế. Tuy nhiên việc lựa chọn thủ công thuật toán trích xuất đặt trưng và thuật toán phân loại thường dựa theo kinh nghiệm, dẫn đến bài toán không tối ưu. Do đó, hướng giải quyết tốt nhất là đưa mạng nơ-ron lên dữ liệu thô ban đầu và để cho thuật toán huấn luyện tìm ra đặt trưng tối ưu bằng cách thay đổi các trọng số tương ứng. Vấn đề của cách tiếp cận này là số chiều của dữ liệu đầu vào tương đối lớn đồng thời là một lượng lớn liên kết giữa các phần tử ẩn và lớp ngõ vào (input layer). Thông thường con số này đạt khoảng 10,000 hoặc lớn hơn tùy vào từng ứng dụng cụ thể. Số lượng lớn mẫu dùng để huấn luyện có thể tương đối nhỏ so với kích thước mẫu sẽ dẫn đến mạng nơ-ron truyền thẳng sẽ trở nên phức tạp, và cũng dẫn đến hiện tượng quá khớp dữ liệu. Một điểm không thuận lợi của nữa mạng nơ-ron truyền thẳng đó là dữ liệu ngõ vào phải có kích thước không đổi và các mẫu ngõ vào phải được định dạng đúng theo một yêu cầu nào đó của lớp ngõ vào, điều này khó thực hiện được trong thực tế. 19 Mạng nơ-ron tích chập (CNN) không những sẽ giải quyết các vấn đề đã nêu ở trên mà còn cho có thể áp dụng giải quyết các bài toán nhận dạng phức tạp với hiệu xuất cao. 3.2. Mạng nơ-ron tích chập Mạng nơ-ron tích chập (Convolutional Neural Network – CNN) là một trong những mô hình máy học (machine learning) tiên tiến giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính xác cao. CNN trong nhận dạng cảm xúc khuôn mặt cũng là một trong những giải pháp trong thị giác máy tính, giao tiếp người – máy trong xu thế hiện nay. Cấu trúc cơ bản của một mạng nơ-ron tích chập (CNN) thường bao gồm các lớp: Lớp tích chập (Convolution layer), lớp Pooling (Pooling layer), lớp hiệu chỉnh tuyến tính (Rectified linear units layer - ReLU) và lớp kết nối đầy đủ (Fully connected layer). Độ phức tạp của kiến trúc mạng tích chập còn tùy từng ứng dụng cụ thể mà người thiết kế có thể lựa chọn một hoặc nhiều lớp để xây dựng. Dưới đây là phần giới thiệu các lớp cơ bản có trong một mạng nơ-ron tích chập và các thành phần chính trong hệ thống của đề tài. a. Lớp tích chập (Convoluation layer) Lớp này sẽ sử dụng một bộ các bộ lọc có kích thước nhỏ so với ảnh áp vào một vùng trong ảnh và tiến hành tính tích chập giữa bộ filter và giá trị điểm ảnh trong vùng cục bộ đó. Bộ lọc sẽ lần lượt được dịch chuyển theo một giá trị bước trượt và quét toàn bộ ảnh. Các thông số của bộ lọc này sẽ được khởi tạo một cách ngẫu nhiên và sẽ được cập nhật dần trong quá trình huấn luyện cho mạng. Giả sử fk là bộ lọc có kích thước n m được áp dụng trên ngõ vào x. n m là số lượng liên kết ngõ vào mà mỗi nơ-ron có. Phép tích chập giữa fk và ngõ vào x cho ta kết quả như sau: n 1 m 1 O( xu ,v )  f k (i, j ) xu i ,v  j i 0 j 0 (3.1) Để có được nhiều đặt trưng đại diện từ dữ liệu đầu vào, ta có thể áp dụng nhiều bộ lọc fk với k   lên ngõ vào x. Bộ lọc fk được thực hiện bằng cách chia sẻ trọng 20
- Xem thêm -