Đăng ký Đăng nhập
Trang chủ Luận văn thạc sĩ tìm kiếm âm nhạc trên cơ sở nội dung và ứng dụng...

Tài liệu Luận văn thạc sĩ tìm kiếm âm nhạc trên cơ sở nội dung và ứng dụng

.PDF
68
290
58

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THÙY DƯƠNG TÌM KIẾM ÂM NHẠC TRÊN CƠ SỞ NỘI DUNG VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i MỤC LỤC Trang MỤC LỤC ................................................................................................................... i LỜI CẢM ƠN ............................................................................................................ ii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ............................................ iii MỞ ĐẦU .....................................................................................................................1 CHƢƠNG I .................................................................................................................4 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ÂM THANH ..................................................4 1.1. Cơ sở dữ liệu đa phƣơng tiện....................................................................4 1.1.1. Một số khái niệm cơ bản .......................................................................4 1.1.2. Hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện (MMDBMS) .............5 1.1.3. Truy tìm thông tin .................................................................................7 1.2. Quá trình chung thiết kế cơ sở dữ liệu âm thanh. .....................................7 1.2.1. Giới thiệu chung về cơ sở dữ liệu âm thanh. ........................................7 1.2.2. Mô hình tổng quát của dữ liệu âm thanh ..............................................8 1.2.3. Quá trình chung để phát triển một cơ sở dữ liệu âm thanh .................14 CHƢƠNG 2 ..............................................................................................................15 KỸ THUẬT TÌM KIẾM TRONG CƠ SỞ DỮ LIỆU ÂM NHẠC ..........................15 2.1. Kỹ thuật phân loại âm thanh thành âm nhạc, tiếng nói, tiếng động. ......16 2.1.1. Âm thanh .............................................................................................16 2.1.2. Đặc trƣng chính của âm thanh ............................................................22 2.1.3. Phân lớp âm thanh...............................................................................39 2.2. Một số thuật toán trích chọn đặc trƣng âm nhạc. ...................................45 2.2.1. Đặc trƣng của âm nhạc........................................................................45 2.2.2. Một số lớp âm nhạc .............................................................................45 2.2.3. Chỉ số hóa và truy tìm âm nhạc. .........................................................49 CHƢƠNG 3. .............................................................................................................53 ỨNG DỤNG KỸ THUẬT TÌM KIẾM ÂM NHẠC TRONG GIẢNG DẠY ..........53 3.1. Cài đặt thử nghiệm hệ thống tìm kiếm âm nhạc .....................................53 3.2. Mô hình hệ thống ....................................................................................54 3.3. Các tham số thực nghiệm .......................................................................54 3.4. Một số chức năng của chƣơng trình .......................................................55 3.5. Kết quả thực nghiệm ...............................................................................56 KẾT LUẬN ...............................................................................................................57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii LỜI CẢM ƠN Để hoàn thành chƣơng trình cao học và viết luận văn này, tôi đã nhận đƣợc sự hƣớng dẫn, giúp đỡ và góp ý nhiệt tình của quý thầy cô trƣờng Đại học Công nghệ thông tin - Truyền thông, Đại học Thái Nguyên. Trƣớc hết, tôi xin chân thành cảm ơn đến quí thầy cô trƣờng Đại học Công nghệ thông tin - Truyền thông, đặc biệt là những thầy cô đã tận tình dạy bảo cho tôi suốt thời gian học tập tại trƣờng. Tôi xin gửi lời biết ơn sâu sắc đến thầy giáo PGS.TS. Đặng Văn Đức ngƣời đã dành rất nhiều thời gian, tâm huyết và sự tận tình giúp đỡ, hƣớng dẫn cho tôi trong suốt quá trình nghiên cứu và giúp tôi hoàn thành luận văn này. Nhân đây, tôi xin chân thành cảm ơn Ban Giám hiệu trƣờng Cao đẳng Văn hóa nghệ thuật Việt Bắc cùng đồng nghiệp trong Phòng Đào tạo & nghiên cứu khoa học đã tạo rất nhiều điều kiện để tôi học tập và hoàn thành tốt khóa học. Đồng thời, tôi cũng xin cảm ơn quí anh, chị và ban lãnh đạo khoa Âm nhạc, phòng thu thanh của trƣờng cao đẳng Văn hóa nghệ thuật Việt Bắc… đã tạo điều kiện cho tôi điều tra khảo sát để có dữ liệu viết luận văn. Mặc dù tôi đã có nhiều cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và năng lực của mình, tuy nhiên không thể tránh khỏi những thiếu sót, rất mong nhận đƣợc những đóng góp quí báu của quí thầy cô và các bạn. Thái Nguyên, ngày tháng Học viên Nguyễn Thùy Dƣơng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn năm 2012 iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Stt Ký hiệu Tên đầy đủ Ý nghĩa ADC Analog - to – Digital Conversion Chuyển đổi tƣơng tự số hóa 2 ASR Automatic Speech Recognition Tự động nhận dạng tiếng nói 3 API Application Programming Interface Giao diện lập trình ứng dụng DAC Digital – to – Analog Conversion Chuyển đổi số hóa tƣơng tự 5 DBMS DataBase Management System Hệ quản trị cơ sở dữ liệu 6 DCT Discrete Cosine Transform Biến đổi cosin rời rạc 7 DFT Discrete Fourier Transform Biến đổi Fourier rời rạc 8 HMM Hidden Markov Model Mô hình Markov ẩn 9 HZCRR High Zero- Crossing Rate Ratio Tỷ lệ tốc độ vƣợt qua 0 cao 10 IDFT Inverse Discrete Fourier Transform Biến đổi Fourier liên tục 11 IR Information Retrieval Truy tìm thông tin 12 MARS Multimedia Analysis and Retrieval System Hệ thống chỉ mục và phân tích đa phƣơng tiện 13 MIDI Musical Instrument Digital Interface Giao diện số cho nhạc cụ 14 MIRS Multimedia Indexing and Retrieval System Hệ thống chỉ mục và truy tìm thông tin đa phƣơng tiện 1 4 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv 15 MMDBMS MultiMedia DataBase Management System Hệ quản trị cơ sở dữ liệu đa phƣơng tiện 16 ORDBMS Open relation DataBase Management System Hệ quản trị cơ sở dữ quan hệ mở rộng 17 SR Silence Ratio Tỷ lệ câm 18 SNR Signal-to-noise ratio Tỷ lệ nhiễu tín hiệu 19 STFT Short Time Fourier Transform Biến đổi Fourier thời gian ngắn 20 ZCR Zero Crossing Rate Tốc độ vƣợt qua 0 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 MỞ ĐẦU Nghị quyết Trung ƣơng II khoá VIII đã đặt ra phƣơng châm chiến lƣợc cho ngành giáo dục là phải: "Đổi mới phƣơng pháp giáo dục đào tạo, khắc phục lối truyền thụ một chiều, rèn luyện nếp tƣ duy sáng tạo của ngƣời học, từng bƣớc áp dụng phƣơng pháp tiên tiến và phƣơng tiện hiện đại vào quá trình dạy học". Ứng dụng công nghệ thông tin vào dạy học đang dần dần đƣợc thực hiện ngày càng nhiều trên bục giảng. Việc thiết kế giáo án và giảng dạy trên máy tính bằng những đoạn phim minh hoạ với hình ảnh, âm thanh sống động, bài giảng sẽ thực sự gây sự chú ý và tạo hứng thú học tập cho học sinh-sinh viên. Trong điều kiện hiện nay tài liệu dạy âm nhạc bằng sự hỗ trợ của CNTT ở nƣớc ta còn nhiều hạn chế, việc tìm ra các giải pháp ứng dụng phần mềm CNTT vào dạy học âm nhạc là yêu cầu cần thiết nhằm góp phần đổi mới phƣơng pháp dạy học cho bộ môn này. Ứng dụng CNTT trong dạy học Âm nhạc ở các trƣờng Đại học – cao đẳng và các trƣờng phổ thông là việc làm tất yếu, giúp cho giảng viên, giáo viên âm nhạc chủ động có những bài soạn mang tính hiện đại và tạo ra đƣợc những tài liệu học tập, tham khảo phong phú cho sinh viên mang tính trực quan sinh động, tạo đƣợc hứng thú học tập cho học sinh. Trên thị trƣờng hiện nay có rất nhiều phần mềm dùng để soạn nhạc, hoà âm, phối khí thu âm, xử lý, biên tập âm thanh, v.v… Các phần mềm đều có lĩnh vực ứng dụng nhất định có tính chuyên biệt khá rõ nét nhƣng nhìn chung khi sử dụng đều có đặc điểm tƣơng đối giống nhau nên việc sử dụng cũng khá dễ dàng. Việc lựa chọn sử dụng cần phải đáp ứng yêu cầu sau: - Lựa chọn những phần mềm đáp ứng nội dung bài dạy, tiết dạy. - Có kỹ năng sử dụng và khai thác phần mềm. - Dễ phổ cập, phù hợp với điều kiện kỹ thuật của địa phƣơng. Ngày nay, việc chia sẻ các bài hát bản nhạc trên internet đã trở nên phổ biến. Thực tế đó cũng mở ra một nhu cầu truy cập vào những thƣ viện âm thanh khổng lồ. Nhu cầu đó đòi hỏi một công nghệ tìm kiếm hiệu quả để tổ chức, sắp xếp, truy tìm Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 các nội dung âm thanh, cũng nhƣ có thể xử lý hàng trăm tỷ trang web hỗn độn trên mạng và các thiết bị lƣu trữ trên các máy tính cá nhân. Hiện nay, một số hãng tìm kiếm khổng lồ trên mạng nhƣ Yahoo, Google hay You Tube đang triển khai các hoạt động nghiên cứu theo cách tìm kiếm theo nội dung thay vì từ khóa. Ngƣời dùng chỉ cần gõ những từ hoặc cụm từ liên quan đến bài hát và Yahoo sẽ liệt kê một danh sách các file âm thanh, cho phép khách hàng nghe trực tuyến. Công cụ tìm kiếm âm nhạc này hoạt động dựa trên khả năng đọc nội dung đƣợc nhúng trong tệp âm thanh, còn đƣợc gọi là metadata, để phân loại kết quả tìm kiếm. Trong những năm qua ở Việt Nam, các công cụ tìm kiếm dữ liệu đa phƣơng tiện, trong đó các công cụ tìm kiếm và nhận dạng dữ liệu âm thanh đã dần đƣợc chú ý. Ví dụ, phòng nhận dạng và công nghệ tri thức- Viện công nghệ thông tin đã giới thiệu một số sản phẩm phần mềm có ý nghĩa thực tế rất cao nhƣ: tổng hợp và xử lý ngôn ngữ tiếng Việt, nghiên cứu và tiếp cận các kỹ thuật mới của công nghệ tổng hợp và nhận dạng tiếng nói trên thế giới để áp dụng trong hoàn cảnh Việt nam và âm thanh tiếng Việt, nghiên cứu các phƣơng pháp xử lý tín hiệu số và tín hiệu tiếng nói, các phƣơng pháp tìm đặc trƣng âm thanh. Các sản phẩm nêu trên đã đáp ứng đƣợc phần nào nhu cầu tìm kiếm và nhận dạng dữ liệu âm thanh. Tuy nhiên, các công trình nghiên cứu về tìm kiếm âm thanh theo nội dung vẫn còn hiếm hoặc chƣa tƣơng xứng với tầm quan trọng của nó trong hiện tại và tƣơng lai. Đặc biệt sử dụng các phần mềm này cho công việc giảng dạy âm nhạc tại các trƣờng còn chƣa đáp ứng đƣợc nhu cầu thực tế, thay vì phấn trắng bảng đen truyền thống, giáo viên chỉ click chuột, vài giây sau trên màn hình hiện ra ngay nội dung, âm thanh của bản nhạc. Ứng dụng công nghệ thông tin trong dạy học âm nhạc đang dần dần đƣợc thực hiện ngày càng nhiều trên bục giảng các trƣờng đào tạo nghệ thuật. Nhạc sĩ Hoàng Lân nhận xét rằng từ trƣớc đến nay, bộ môn âm nhạc ”dạy chay” nhiều, ít lôi cuốn đƣợc học sinh. Nếu việc ứng dụng CNTT vào trong dạy học đƣợc thực hiện có hiệu quả trong các trƣờng, sẽ dẫn đến sự thay đổi lớn lao về PPDH nhằm cung cấp Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 những tƣ liệu âm nhạc một cách khoa học, phong phú, toàn diện mà còn tác động tích cực đến thẫm mỹ, đến tƣ duy nhận thức của học sinh… Mặt khác, việc hiểu biết sâu sắc về âm thanh cũng nhƣ các khái niệm, thuật toán liên quan sẽ giúp ta ứng dụng và xây dựng các hệ thống tìm kiếm âm thanh phù hợp, hiệu quả hơn. Xuất phát từ những vấn đề nêu trên, luận văn đã tập trung nghiên cứu về vấn đề "Tìm kiếm âm nhạc trên cơ sở nội dung và ứng dụng". Cấu trúc của luận văn nhƣ sau: Chƣơng 1: Tổng quan về cơ sở dữ liệu âm thanh Chƣơng 2: Kỹ thuật tìm kiếm cơ sở dữ liệu âm thanh Chƣơng 3: Ứng dụng kỹ thuật tìm kiếm âm nhạc trong giảng dạy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4 CHƢƠNG I TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ÂM THANH Ngày nay, với sự phát triển vƣợt bậc của khoa học kỹ thuật, sự bùng nổ của dữ liệu đặc biệt là dữ liệu media, nhu cầu thƣởng thức âm nhạc của con ngƣời ngày càng phong phú, đa dạng dẫn đến một nhu cầu rất thực tế đó là nhu cầu tìm kiếm thông tin về âm nhạc. Hầu hết các hệ thống tìm kiếm âm nhạc hiện tại đều dựa trên chỉ mục. Cơ sở dữ liệu dựa trên chỉ mục bộc lộ nhiều nhƣợc điểm nhƣ: tìm kiếm thông tin không chính xác, không tìm đƣợc dữ liệu khi ngƣời dùng không nhớ chính xác thông tin đầu vào, hay chỉ nhớ đƣợc giai điệu, nội dung bài hát. Tìm kiếm âm nhạc theo nội dung là một lĩnh vực nghiên cứu mới và đƣợc nhiều nhà nghiên cứu quan tâm. Hiện có một số phƣơng thức đã đƣợc áp dụng tìm kiếm âm nhạc theo nội dung. Ghias, Logan, Chamberlin và Smith đã đƣa ra phƣơng thức tƣơng tự và sử dụng đầu vào nhƣ một truy vấn. Trong thí nghiệm vào năm 2001, M.Goto đã thu đƣợc kết quả tốt khi các nhà nghiên cứu tiến hành một cuộc thử nghiệm tính toán ƣớc lƣợng MAP sử dụng thuật toán EM. Tuy nhiên, theo kết quả nghiên cứu của Beth Logan thì các phƣơng pháp tìm kiếm âm nhạc theo nội dung hiện nay vẫn chƣa đảm bảo đƣợc cả độ chính xác và thời gian tính toán, đặc biệt khi tìm kiếm giai điệu của các bản nhạc 1.1. Cơ sở dữ liệu đa phƣơng tiện. 1.1.1. Một số khái niệm cơ bản  Loại media và Multimedia Media Media (tiếng Latin: medius – means, intermediary) là đề cập đến các loại thông tin hay loại trình diễn thông tin nhƣ dữ liệu văn bản, ảnh, âm thanh và video. Phân loại media: Có nhiều cách phân loại, nhƣng cách chung nhất là phân loại trên cơ sở khuôn mẫu (format) vật lý hay các quan hệ media với thời gian. Tài Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 5 liệu này phân lớp media dựa trên cơ sở là chúng có chiều thời gian hay không. Qui định này dẫn tới hai lớp media: static và dynamic.  Static media: Không có chiều thời gian, nôi dung và ý nghĩa của chúng không phụ thuộc vào thời gian trình diễn. Media tĩnh bao gồm dữ liệu văn bản, đồ họa.  Dynamic media: Có chiều thời gian, ý nghĩa và độ chính xác của chúng phụ thuộc vào tốc độ trình diễn. Dynamic media bao gồm annimation, video, audio. Media động phụ thuộc chặt chẽ vào tốc độ trình diễn. Thí dụ để cảm nhận chuyển động trơn tru, video phải đƣợc trình chiếu với tốc độ 25 frame/sec (hay 30 frame/sec phụ thuộc vào loại hệ thống video). Tƣơng tự, khi ta play tiếng nói, âm nhạc, chúng chỉ đƣợc cảm nhận tự nhiên khi đạt đƣợc tốc độ nhất định, nếu không chúng làm giảm chất lƣợng và ý nghĩa âm thanh. Vì các media này phải đƣợc trình diễn liên tục và ở tốc độ cố định cho nên chúng còn đƣợc gọi là media liên tục. Hay còn gọi chúng là media đẳng thời (isochronous media) vì quan hệ giữa các đơn vị media và thời gian là cố định. Multimedia Khái niệm multimedia (tiếng Latin: multus- numerous) đề cập đến tập hợp các kiểu media sử dụng chung, trong đó ít nhất có một kiểu media không phải là văn bản (nói cách khác là ít nhất có một media trong đó là ảnh, audio hay video). Trong tài liệu này sử dụng multimedia nhƣ tính từ: thông tin đa phƣơng tiện, dữ liệu đa phƣơng tiện, hệ thống đa phƣơng tiện, truyền thông đa phƣơng tiện, ứng dụng đa phƣơng tiện,... Dữ liệu đa phƣơng tiện đề cập đến đại diện các kiểu media khác nhau mà máy tính có thể đọc đƣợc. Thông tin đa phƣơng tiện đề cập đến thông tin kiểu media truyền đạt. Đôi khi khái niệm dữ liệu đa phƣơng tiện và thông tin đa phƣơng tiện sử dụng thay thế cho nhau. Multimedia hay media item (hay còn gọi object) là thực thể tự trị trong hệ thống chỉ mục và truy tìm thông tin đa phƣơng tiện (MIRS – Multimedia Indexing and Retrieval System) mà nó có thể đƣợc truy vấn, tìm kiếm và trình diễn. 1.1.2. Hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện (MMDBMS) Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 6 Hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện là hệ thống tổ chức và lƣu giữ gồm các dữ liệu truyền thống và các loại dữ liệu trừu tƣợng. Một định nghĩa khác, theo Libor Janek và Goutham Alluri, hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện là một cơ cấu tổ chức quản lý các kiểu dữ liệu khác nhau, có khả năng thể hiện trong các định dạng trên một phạm vi các nguồn phƣơng tiện đa dạng. Lƣợng dữ liệu đa phƣơng tiện phát sinh theo nhu cầu hiện nay đƣợc lƣu trữ là một con số khổng lồ. Chỉ riêng với dữ liệu video, ngƣời ta ƣớc tính có khoảng 21264 trạm truyền hình phát 16 giờ hàng ngày, sinh ra khoảng 31 tỉ giờ. Tuy nhiên, các hệ quản trị cơ sở dữ liệu đã đƣợc sử dụng rộng rãi nhƣ cơ sở dữ liệu quan hệ, chủ yếu tập trung vào quản lý các tài liệu văn bản thì không đáp ứng đầy đủ đối với việc quản lý các dữ liệu đa phƣơng tiện, bởi các tính chất cũng nhƣ các yêu cầu đặc biệt của chúng nhƣ đã nêu ở trên. Do đó, hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện là sự cần thiết để quản lý dữ liệu đa phƣơng tiện một cách có hiệu quả. Các đặc trƣng chủ yếu của MMDBMS bao gồm:  Quản lý dữ liệu đa phương tiện đã được lưu trữ: các dữ liệu đa phƣơng tiện đƣợc lƣu trữ để quản lý gồm cả các thiết bị bên trong và bên ngoài máy tính, ví dụ dữ liệu lƣu trữ trên CD ROM...  Các phương pháp tìm kiếm dựa theo mô tả: ví dụ, ngƣời dùng có thể đƣa ra một mô tả để tìm kiếm "tiếng chuông điện thoại"...  Giao diện người dùng độc lập với thiết bị: ngƣời dùng không cần biết cách thức lƣu trữ dữ liệu đa phƣơng tiện nhƣ thế nào.  Giao diện người dùng độc lập với các định dạng: các truy vấn dữ liệu đa phƣơng tiện có thể độc lập với định dạng dữ liệu. Nó cho phép có thể sử dụng các kỹ thuật lƣu trữ mới mà không cần thay đổi ứng dụng cơ sở dữ liệu hiện có.  Cho phép thực hiện nhiều truy cập dữ liệu đồng thời: dữ liệu đa phƣơng tiện có thể truy cập đồng thời qua nhiều câu truy vấn khác nhau bởi một số ứng dụng. Cách truy cập nhất quán nhằm chia sẻ dữ liệu có thể đƣợc thực hiện, và cần có cơ chế để thỏa mãn việc tránh tạo ra các xung đột. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 7  Quản lý một lượng dữ liệu lớn: hệ thống cần phải có khả năng lƣu trữ và quản lý lƣợng dữ liệu lớn và thỏa mãn các truy vấn đối với các quan hệ của dữ liệu.  Vấn đề truyền dữ liệu đa phương tiện dựa trên thời gian thực: điều khiển việc đọc/ghi dữ liệu liên tục phải đƣợc thực hiện dựa trên thời gian thực. Do lƣợng dữ liệu có thể là rất lớn (ví dụ, truyền video) nên việc truyền dữ liệu có thể tốn nhiều thời gian và nó còn đòi hỏi phải đƣợc thực hiện một cách chính xác. 1.1.3. Truy tìm thông tin Truy tìm thông tin- Information Retrieval (IR) là kỹ thuật tìm kiếm thông tin đƣợc lƣu trữ trên máy tính. Đối với dữ liệu đa phƣơng tiện, việc truy tìm thông tin hiệu quả là dựa trên tìm kiếm tƣơng tự. Hệ thống lƣu trữ một tập các đối tƣợng đa phƣơng tiện trong cơ sở dữ liệu. Ngƣời dùng đƣa ra các truy vấn, và hệ thống tìm ra các đối tƣợng tƣơng tự truy vấn trong cơ sở dữ liệu đã lƣu trữ thỏa mãn yêu cầu của ngƣời dùng. Truy tìm thông tin trong MMDBMS có một số đặc điểm sau đây: - Sử dụng một khối lƣợng dữ liệu đặc tả lớn và phức tạp. - Việc tiếp cận IR chủ yếu dựa trên các đặc trƣng. - Các dữ liệu thƣờng có kích thƣớc lớn. - Sự cần thiết phải có các kỹ thuật chỉ mục dữ liệu kích thƣớc lớn để xử lý các truy vấn một cách hiệu quả và thực hiện nhanh hơn so với phƣơng pháp tìm kiếm tuần tự. - Sự cần thiết phải tích hợp các đặc trƣng media phức tạp một cách thƣờng xuyên (ví dụ, dữ liệu ảnh có thể chứa các đặc trƣng nhƣ: hình dạng, biểu đồ màu, kết cấu...). 1.2. Quá trình chung thiết kế cơ sở dữ liệu âm thanh. 1.2.1. Giới thiệu chung về cơ sở dữ liệu âm thanh. Các tín hiệu âm thanh là loại hàm phân tích liên tục. Chúng ta sẽ khảo sát việc nén dữ liệu âm thanh thành biểu diễn rời rạc và chỉ số hoá nội dung của chúng. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 8 Các dữ liệu âm thanh thông thƣờng là dạng sóng liên tục, việc rời rạc hóa chúng đƣợc thực hiện bằng biến đổi (transformations) nhƣ biến đổi cosin rời rạc một chiều (DCT) và biến đổi Fourier rời rạc. Mặc dù dữ liệu âm thanh đã đƣợc đề cập đến từ lâu trên thiết bị ghi từ. Nhƣng việc nghiên cứu CSDL âm thanh lại ít đƣợc quan tâm trƣớc đây. Dù sao, dữ liệu âm thanh đóng vai trò quan trọng trong nhiều lĩnh vực ứng dụng khác nhau. Thí dụ: Những điều tra viên có thể theo dõi điện thoại của các tội phạm khác nhau, họ đƣợc phép nghe trộm điện thoại của những kẻ tình nghi bán ma tuý và quan tâm đến việc nhận dạng ngƣời gọi điện thoại, việc xâm nhập kho âm thanh để nhận ra giọng nói của ai đó là rất hiệu quả. Sau đó họ yêu cầu mọi clip âm thanh mà chứa giọng nói tƣơng tự với giọng nói đang nghe phải đƣợc khai thác từ kho dữ liệu. 1.2.2. Mô hình tổng quát của dữ liệu âm thanh Tƣơng tự dữ liệu ảnh và dữ liệu video, dữ liệu âm thanh đƣợc đặc trƣng bởi hai cách cơ bản: sử dụng metadata để diễn giải nội dung tệp âm thanh hay tách đặc trƣng thích hợp của dữ liệu âm thanh nhờ kỹ thuật xử lý tín hiệu. Chúng ta sẽ khảo sát tổng quan cả hai kỹ thuật này. Biểu diễn nội dung âm thanh bằng metadata Hãy xem xét tệp âm thanh đơn giản chứa nhạc kịch Wagnerian. Tƣơng tự nhƣ dữ liệu video, trong trƣờng hợp này ta kết hợp tập các đoạn thẳng (mỗi chúng tƣơng ứng với khoảng thời gian) bao trùm toàn bộ nhạc kịch, và ta có thể kết hợp mỗi đoạn thẳng với tập các hoạt động xảy ra trong khoảng thời gian do các đoạn thẳng này biểu thị. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 9 activit y4 activit y3 activit y2 activit y1 50 10 0 15 0 200 (ii) H ì n h Hình 1.1 Thí dụ trong hình 1.1 chỉ ra các đoạn thẳng kết hợp với một phần của opera. Tại 2 . đây, activity1 là Act 1 của nhạc kịch, activity2 là Act 1, Scene1,... của nhạc kịch. Mỗi hoạt động có thể có một tập trƣờng kết hợp. Thí dụ nhƣ sau: 1 1. Singers: Nó có thể là tập trƣờng giá trị chứa các bản ghi có các trƣờng Role, SingerType và SingerName. Thí dụ, nếu bộ ba (Lohengrin, Tenor, Rene Kollo) xuất hiện nhƣ phần tử của tập trƣờng giá trị Singers kết hợp với đoạn [5, 9) thì Rene Kollo, có giọng nam cao (tenor), đang hát trong vai của Lohengrin trong khoảng thời gian [5, 9) của nhạc kịch. 2. Score: Nó là trƣờng có kiểu music_doc trỏ tới phần của vết nhạc phù hợp, kết hợp với đoạn thời gian [5, 9). 3. Transcript: Nó có thể là trƣờng của kiểu document trỏ tới phần phù hợp của lời nhạc kịch (lời đang hát) trong khoảng thời gian [5, 9). Tổng quát thì metadata đƣợc sử dụng để biểu diễn nội dung âm thanh đƣợc xem nhƣ tập các đối tƣợng trải dài theo đƣờng thời gian, tƣơng tự video. Các đối tƣợng, đặc trƣng và hoạt động xảy ra trong âm thanh hoàn toàn tƣơng tự nhƣ trong video. Sự khác biệt ở chỗ, âm thanh để nghe, còn video để cả nghe và nhìn. Nhƣ Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 vậy, chúng ta có thể chỉ số hóa metadata kết hợp với âm thanh theo cách tƣơng tự cách chỉ số hoá video, và kỹ thuật xử lý truy vấn video cũng đƣợc sử dụng lại ở đây. Phần lớn CSDL âm thanh đang tồn tại sử dụng lƣợc đồ chỉ số hoá trên cơ sở metadata. Nội dung âm thanh trên cơ sở tín hiệu Sử dụng metadata là tin cậy và đƣợc khuyến cáo khi có cách tạo ra metadata. Thí dụ, nếu ta tạo ra CSDL âm thanh của đài phát thanh hay ghi âm nhạc, thì hầu nhƣ không có vấn đề khi tạo ra metadata. Tuy nhiên, trong ứng dụng khác, nhƣ cảnh sát nghe trộm điện thoại của kẻ tình nghi bán ma tuý, việc tạo metadata sẽ phức tạp hơn bởi vì nhận danh của ngƣời nói có thể không đƣợc biết trƣớc, thậm chí nội dung của hội thoại có thể không rõ ràng (nếu có sử dụng thiết bị trộn âm). Trong trƣờng hợp nhƣ vậy, quan niệm về nội dung đƣợc mô tả bằng khái niệm của các phƣơng pháp xử lý tín hiệu. Dữ liệu âm thanh đƣợc xem nhƣ tín hiệu, gọi là (x) theo thời gian x. Các đặc trưng khác của tín hiệu  đƣợc tách ra, chỉ số hoá và lƣu trữ để có thể khai thác hiệu quả. Metadata có thể vẫn đƣợc sử dụng cùng với dữ liệu tín hiệu và có thể bao gồm thông tin nhƣ nơi đặt đầu thu âm thanh, loại gì, khi nào ghi âm.... Hình 1.2 chỉ ra hai tín hiệu âm thanh mẫu. Bước sóng y A B x y a / Bước sóng Cường độ x b / (iii) H ì n h Hình 1.2 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 . 11 Một sóng (thí dụ sóng âm thanh trên hình 1.2) bao gồm tập hợp tuần hoàn các đỉnh (crests) và vùng lõm (trough). Gọi chu kỳ dao động của sóng là T, đƣợc xác định bởi thời gian một phần tử sóng cần để trở lại vị trí ban đầu. Thí dụ, xem xét điểm A trên hình 1.2a, điểm này chuyển động theo sóng và theo hƣớng của trục x. Sau khoảng thời gian T nó đến điểm B. Tần số f của sóng đƣợc xác định bằng tổng dao động trong một giây. Do vậy, f  1 T Tần số của sóng đƣợc biểu diễn bằng Hz (kHz). Khi nói bƣớc sóng có tần số 10 kHz, có nghĩa rằng nó có 10000 dao động/giây, hay tính thời gian T là 1/10000. Nói tổng quát là tai ngƣời có thể nghe âm thanh từ 15 Hz tới 20 kHz. Vận tộc v của sóng là tốc độ chuyển dịch sang phải của đỉnh và thung lũng. Khi nói rằng sóng chuyển dịch với vận tốc v, có nghĩa rằng đỉnh sóng chuyển dịch sang v w wx f T phải với vận tốc v m/s. Dễ dàng thấy rằng, nếu w là bƣớc sóng thì: Biên độ a của sóng là cƣờng độ cực đại của tín hiệu kết hợp với sóng. Đó là giá trị (theo trục y) của đỉnh tín hiệu nhƣ trên hình 1.2. Theo đó, sóng trên hình 1.2a có tần số thấp hơn sóng trong hình 1.2b, chu kỳ dao động cao, biên độ thấp và bƣớc sóng dài hơn. Cách chung nhất của chỉ số hoá dữ liệu âm thanh trên cơ sở nội dung là xem xét tín hiệu theo thời gian và chia nhỏ thành các cửa sổ thời gian. Tín hiệu thể hiện biến đổi đáng kể giữa các cửa sổ. Tuy nhiên, nếu kích thƣớc cửa sổ nhỏ thì tín hiệu sẽ tƣơng đối đồng nhất trong cửa sổ đó. Thí dụ, hình 1.3 chỉ ra tín hiệu âm thanh đồng nhất và nó có thể đƣợc chia vào năm cửa sổ. Mỗi cửa sổ là đồng nhất theo nghĩa nó có biên độ, bƣớc sóng và vận tốc sóng cố định. Tuy nhiên, hai cửa sổ khác nhau thể hiện các mẫu (pattern) sóng khác nhau đáng kể. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 12 y x w1 w2 w3 w4 w5 H ì Hình 1.3 n CSDL âm thanh có thể có thể đƣợc chỉ số hóa bằng tín hiệu âm thanh h theo cách (iv) sau đây: 2 1. Phân đoạn (Segmentation): Chia tín hiệu âm thanh thành các cửa.sổ đồng nhất. 3 triển ứng Điều này có thể thực hiện bằng hai cách. Một khả năng là ngƣời phát dụng có thể xác định kích thƣớc cửa sổ w (đơn vị giây hay ms) và giả sử rằng các đặc tính sóng trong cửa sổ này có đƣợc bằng lấy trung bình. Khả năng thứ hai là ngƣời sử dụng có thể phân đoạn tín hiệu âm thanh tƣơng tự phân đoạn ảnh nhờ thuộc tính tính đồng nhất H. Sự khác nhau duy nhất ở đây là tính chất đồng nhất áp dụng cho trƣờng hợp một chiều, thay cho hai chiều của ảnh. 2. Tách đặc trưng (Feature extraction): Một khi đã thực hiện phân ảnh tín hiệu âm thanh đƣợc xem nhƣ trình tự của n cửa sổ w1,...,wn. Với từng cửa sổ, chúng ta tách vài đặc trƣng kết hợp với tín hiệu âm thanh. Nếu k đặc trƣng đƣợc tách, thì tín hiệu âm thanh đƣợc xem nhƣ trình tự của n điểm trong không gian k-chiều. Chúng ta có thể chỉ số hóa trình tự của n điểm này. Một vài đặc trƣng quen thuộc nhất và sử dụng rộng rãi để chỉ số hoá bao gồm: a. Cường độ (Intensity): Cƣờng độ của sóng đƣợc hiểu nhƣ năng lƣợng của tín hiệu do sóng phát sinh. Không đi chi tiết kỹ thuật để tính giá trị này, chúng ta xác định cƣờng độ của tín hiệu âm thanh là: I=2 x 2 x f2 x  x a2 x v trong đó, f là tần số của sóng (tính bằng Hz),  là mật độ của vật liệu truyền dẫn sóng (tính bằng kg/m3), a là biên độ của sóng (tính bằng m), v là vận tốc của sóng (tính bằng m/s). Cƣờng độ đƣợc tính bằng watt/m2. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 13 b. Âm lượng (Loudness): Mặc dù các sóng có cƣờng độ cao hơn đƣợc ngƣời nghe to hơn các sóng có cƣờng độ thấp hơn nhƣng âm lƣợng không tăng  I  L  10x log   L0  tuyến tính với cƣờng độ. Thí dụ, nếu hai sóng đều dƣới dải nghe đƣợc của con ngƣời thì âm lƣợng của chúng là 0, dù là một sóng có thể có âm lƣợng thấp hơn nhiều so với sóng khác. Do vậy, giả sử rằng gọi L0 là âm lƣợng kết hợp với tần số thấp mà tai ngƣời có thể phân biệt (khoảng 15 Hz), giả sử ta quan sát sóng có cƣờng độ I. Sau đó âm lƣợng của I tính bằng decibel nhƣ sau: Chú ý rằng khi I=L0 thì L = 10 x log(1) = 0. c. Độ cao (Pitch): Độ cao p(f, a) của tín hiệu âm thanh đƣợc tính từ tần số f và biên độ a của tín hiệu. d. Độ trong (Brightness): Độ trong  của tín hiểutong cửa sổ w là thƣớc đo độ “sạch” của âm thanh. Thí dụ, âm thanh ngẹt ít trong hơn âm thanh của kính vỡ. Bổ sung vào các thuộc tính trên đây, một số đặc trƣng suy diễn khác nhƣ dao động, sự tƣơng quan của các tín hiệu âm thanh tại các điểm khác nhau trong tín hiệu, có thể đƣợc biểu diễn về mặt tín hiệu âm thanh cơ sở. Chúng ta không trình bày nó ở đây. Tổng quát thì, khi muốn chỉ số hoá nội dung của tín hiệu âm thanh, ta phải thực hiện các bƣớc sau: 3.Tìm tập w1,...,wn của các đoạn cửa sổ. 4. Với mỗi cửa sổ wi hãy lưu trữ một véctơ bao gồm K thuộc tính âm thanh như đã mô tả trên đây. Từ góc nhìn về tín hiệu, CSDL âm thanh có thể đƣợc xem nhƣ tập của bộ K+3 bao gồm nguồn âm thanh (thí dụ các tệp âm thanh), cửa sổ (trong đó có tệp âm thanh), thời lƣợng của cửa sổ và K giá trị đặc điểm kết hợp với cửa sổ đó. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 14 1.2.3. Quá trình chung để phát triển một cơ sở dữ liệu âm thanh gồm các bƣớc sau:  Bƣớc 1: Thu thập dữ liệu âm thanh (audio) Các dữ liệu audio đƣợc thu thập từ các nguồn khác nhau nhƣ ti vi, CD, www...  Bƣớc 2: Xử lý audio. Mô tả các đoạn trích audio và các đặc trƣng của chúng, bao gồm cả lọc nhiễu và tách thô...  Bƣớc 3: Lƣu trữ audio. Dựa vào yêu cầu cụ thể của ứng dụng để lƣu dữ liệu và các đặc trƣng của chúng vào hệ thống.  Bƣớc 4: Tổ chức audio. Tổ chức các đặc trƣng để phục vụ việc truy tìm. Ví dụ, chỉ mục các đặc trƣng với các cấu trúc giúp khai thác hiệu quả.  Bƣớc 5: Xử lý truy vấn audio. Là quá trình làm cho thích nghi với cấu trúc chỉ mục. Thiết kế các giải thuật tìm kiếm hiệu quả. Trên đây là toàn bộ nội dung phần tổng quan về cơ sở dữ liệu âm thanh. Để tìm hiểu kỹ hơn về dữ liệu âm thanh, chúng ta đi tìm hiểu các kỹ thuật tìm kiếm trong cơ sở dữ liệu âm thanh. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 15 CHƢƠNG 2 KỸ THUẬT TÌM KIẾM TRONG CƠ SỞ DỮ LIỆU ÂM NHẠC Audio số đƣợc biểu diễn nhƣ trình tự các mẫu (trừ MIDI, có trình diễn theo cấu trúc) và thông thƣờng đƣợc lƣu trữ dƣới dạng nén. Con ngƣời có khả năng phân biệt các kiểu âm thanh. Cho trƣớc một đoạn âm thanh, ta có thể nói loại âm thanh đó (tiếng nói, âm nhạc hay nhiễu), tốc độ (nhanh hay chậm), tâm trạng (vui, buồn...) và xác định đƣợc tính tƣơng đồng với đoạn âm thanh khác. Tuy nhiên, máy tính coi đoạn âm thanh nhƣ dãy giá trị mẫu. Cho đến hiện tại, phƣơng pháp chung nhất để xâm nhập âm thanh dựa trên cơ sở tiêu đề và tên tệp. Do tên tệp và mô tả văn bản là không đầy đủ và chủ quan cho nên việc tìm ra đoạn âm thanh thỏa mãn ngƣời sử dụng là rất khó khăn. Thêm nữa, kỹ thuật truy tìm này không hỗ trợ câu truy vấn nhƣ “tìm đoạn âm thanh tƣơng tự đoạn đang nghe” Để giải quyết vấn đề này, các kỹ thuật truy tìm âm thanh trên cơ sở nội dung là cần thiết. Truy tìm âm thanh trên cơ sở nội dung đơn giản nhất sử dụng so sánh mẫu với mẫu giữa câu truy vấn và đoạn âm thanh lƣu trữ. Cách tiệm cận tổng quát của truy tìm và chỉ số hóa âm thanh trên cơ sở nội dung:  Âm thanh đƣợc phân lớp thành vài loại chung nhƣ âm thanh tiếng nói, âm nhạc và nhiễu.  Các loại âm thanh khác nhau đƣợc xử lý và chỉ mục theo các cách khác nhau. Thí dụ, nếu âm thanh là tiếng nói, nhận dạng tiếng nói đƣợc áp dụng và tiếng nói đƣợc chỉ mục trên cơ sở từ nhận dạng đƣợc.  Truy vấn các đoạn âm thanh là phân lớp tƣơng tự, xử lý và chỉ số hóa.  Các đoạn âm thanh đƣợc truy tìm trên cơ sở tính tƣơng đồng giữa chỉ mục truy vấn và chỉ mục âm thanh trong CSDL. Bƣớc phân lớp âm thanh là quan trọng. Trƣớc hết, loại âm thanh khác nhau đòi hỏi xử lý khác nhau và các kỹ thuật chỉ mục khác nhau. Thứ hai, loại âm thanh khác nhau có ý nghĩa khác nhau với các ứng dụng khác nhau. Thứ ba, một trong các loại âm thanh quan trọng nhất là tiếng nói, hiện nay đã có nhiều hệ thống nhận dạng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
- Xem thêm -

Tài liệu liên quan

Tài liệu xem nhiều nhất