久久九九国产无码高清_人人做人人澡人人人爽_日本一区二区三区中文字幕_日韩无码性爱免费

基于內(nèi)容的音頻與音樂(lè)分析綜述

時(shí)間:2024-09-20 23:17:58 碩士畢業(yè)論文 我要投稿
  • 相關(guān)推薦

基于內(nèi)容的音頻與音樂(lè)分析綜述

  摘要:機(jī)器聽(tīng)覺(jué)包括三大研究領(lǐng)域:語(yǔ)音信號(hào)處理與識(shí)別、一般音頻信號(hào)分析、基于內(nèi)容的音樂(lè)信號(hào)分析。其中,語(yǔ)音信號(hào)處理與識(shí)別早已成為一個(gè)傳統(tǒng)的研究熱點(diǎn)。隨著信息科學(xué)與技術(shù)的迅速發(fā)展,基于內(nèi)容的音頻與音樂(lè)信號(hào)分析也逐漸成為一個(gè)新的研究熱點(diǎn),近幾年來(lái)取得了大量研究成果。文章將對(duì)1990年以后該領(lǐng)域上所取得的研究成果進(jìn)行綜述,包括基于內(nèi)容的音頻或音樂(lè)信號(hào)自動(dòng)分類(lèi)、分割、檢索以及音樂(lè)作品自動(dòng)分析等內(nèi)容。

基于內(nèi)容的音頻與音樂(lè)分析綜述

  關(guān)鍵詞:音樂(lè)分類(lèi);識(shí)別;分割;檢索;音樂(lè)分析;自動(dòng)摘要;音頻信號(hào)處理;模式識(shí)別

  1、引言

  聽(tīng)覺(jué)是一個(gè)非常重要的信息來(lái)源,如何能讓計(jì)算機(jī)具有人類(lèi)的聽(tīng)覺(jué)能力是一個(gè)十分有趣的問(wèn)題,有著廣闊的應(yīng)用前景。由于實(shí)際應(yīng)用的需要,同時(shí)也為了研究方便,學(xué)者們將機(jī)器聽(tīng)覺(jué)分為三大領(lǐng)域:語(yǔ)音信號(hào)處理與識(shí)別、一般音頻信號(hào)分析、基于內(nèi)容的音樂(lè)分析。在這三個(gè)研究領(lǐng)域當(dāng)中,有關(guān)語(yǔ)音識(shí)別的研究最為深入,每年都有大量的相關(guān)研究工作被報(bào)道。由于已經(jīng)存在許多有關(guān)語(yǔ)音識(shí)別方面的綜述性文章[1’2],本文將不再對(duì)該領(lǐng)域的研究工作做進(jìn)一步的歸納和整理。

  所謂一般音頻信號(hào)是指除了語(yǔ)音信號(hào)以外的各種音頻信號(hào),其中也包括音樂(lè)。而音樂(lè)也是一般音頻信號(hào)中最重要的一個(gè)類(lèi)別。我們知道音樂(lè)是一種復(fù)雜的非自然的聲音現(xiàn)象,它是人類(lèi)智慧與感性思維的體現(xiàn)。許多無(wú)法用語(yǔ)言準(zhǔn)確描述的思想感情可以通過(guò)音樂(lè)表達(dá)出來(lái),優(yōu)秀的音樂(lè)作品往往會(huì)使人產(chǎn)生情感上的共鳴。因此,音樂(lè)被認(rèn)為是全人類(lèi)的共同語(yǔ)言,是人類(lèi)幾千年文化發(fā)展的成果,對(duì)它的研究無(wú)疑具有非常重要的價(jià)值。由于音樂(lè)本身包含著大量不同層次的信息,對(duì)音樂(lè)信號(hào)進(jìn)行自動(dòng)分析是十分困難的。此外,人類(lèi)社會(huì)已經(jīng)進(jìn)入數(shù)字化時(shí)代,娛樂(lè)業(yè)與信息產(chǎn)業(yè)愈來(lái)愈緊密地結(jié)合在一起。如何快速有效地搜索、管理和分析多媒體數(shù)據(jù)已經(jīng)成為一個(gè)非常重要的問(wèn)題,而基于內(nèi)容的音頻和音樂(lè)信號(hào)分析則有助于這一難題的解決。

  和語(yǔ)音信號(hào)處理與識(shí)別相比,有關(guān)基于內(nèi)容的音樂(lè)和一般音頻信號(hào)分析的研究工作相對(duì)較少。但進(jìn)入20世紀(jì)90年代以后,這個(gè)領(lǐng)域的研究工作取得了很大進(jìn)展,國(guó)際上發(fā)表的有關(guān)論文數(shù)量大幅增長(zhǎng)。而目前有關(guān)該領(lǐng)域的比較全面的綜述文章還是截止到1988年,因此我們認(rèn)為非常有必要對(duì)近幾年的研究工作進(jìn)行一下總結(jié)。在本文中,我們將對(duì)1990年以來(lái)基于內(nèi)容的音頻和音樂(lè)分析領(lǐng)域的研究工作進(jìn)行全面、完整的綜述,其中主要介紹最近七八年的研究成果,之前的研究工作請(qǐng)參看文獻(xiàn)[3].

  此外,具體的有關(guān)遺傳算法在音樂(lè)分析領(lǐng)域中的應(yīng)用綜述請(qǐng)參看文獻(xiàn)[4].這個(gè)研究領(lǐng)域中比較重要的期刊和會(huì)議包括IEEE Transaction on Speech andAudio Processing;IEEE Transaction on PatternAnalysis and Machine Intelligence;IEEE(Transac—tion on)Multimedia;IEEE Transaction on SignalProcessing; IEEE International Conference onAcoustics, Speech, and Signal Processing(IC—ASSP);IEEE International Conference on Multi—media and Expo(1CME)和International Symposi—um on Music Information Retrieval(ISMIR)等。

  本文將按照不同的研究工作所處理的具體問(wèn)題組織全文,安排如下:第2節(jié)介紹基于內(nèi)容的音頻和音樂(lè)分類(lèi)與識(shí)別方面的研究工作;第3節(jié)介紹基于內(nèi)容的音頻流分割;第4節(jié)則介紹基于內(nèi)容的音頻或音樂(lè)檢索;第5節(jié)介紹音樂(lè)作品分析以及樂(lè)譜自動(dòng)識(shí)別方面的工作;第6節(jié)介紹有關(guān)計(jì)算機(jī)音樂(lè)分析與理解方面的一些其他工作;最后在第7節(jié)中則是我們對(duì)該領(lǐng)域今后研究工作的一些認(rèn)識(shí)。

  2、基于內(nèi)容的音頻和音樂(lè)分類(lèi)與識(shí)別

  基于內(nèi)容的音頻數(shù)據(jù)自動(dòng)分類(lèi)是一個(gè)十分重要的研究方向,它可成為其他許多應(yīng)用研究的基礎(chǔ),如基于內(nèi)容的分割、檢索等。依據(jù)研究對(duì)象的不同,我們可以將這個(gè)領(lǐng)域的研究工作分為以下三個(gè)部分。

  2.1 針對(duì)音樂(lè)類(lèi)數(shù)據(jù)的自動(dòng)分類(lèi)與識(shí)別

  由于音樂(lè)類(lèi)數(shù)據(jù)具有高度的復(fù)雜性,根據(jù)研究對(duì)象的不同我們可以將這部分工作進(jìn)一步細(xì)分為如下幾個(gè)問(wèn)題。

  2.1.1針對(duì)不同音樂(lè)類(lèi)型的自動(dòng)分類(lèi)

  (1)兩類(lèi)分類(lèi)問(wèn)題兩類(lèi)分類(lèi)問(wèn)題是指,研究對(duì)象中僅僅包含有兩種不同的混合音樂(lè)類(lèi)型的數(shù)據(jù)。由于應(yīng)用需求的不同,學(xué)者們所感興趣的具體研究對(duì)象也是不同的。

  如:Bickerstaffe等人研究了如何利用最小消息長(zhǎng)度準(zhǔn)則(MML)對(duì)搖滾樂(lè)和古典音樂(lè)進(jìn)行自動(dòng)分類(lèi)[5].

  在他們的工作中比較了一種稱(chēng)為“Snob”的非監(jiān)督學(xué)習(xí)方法和三種監(jiān)督分類(lèi)方法:決策樹(shù)、決策圖和人工神經(jīng)網(wǎng)絡(luò),結(jié)果表明在這個(gè)問(wèn)題中監(jiān)督分類(lèi)方法要明顯優(yōu)于非監(jiān)督分類(lèi)方法;為了方便進(jìn)行歌詞自動(dòng)識(shí)別,Berenzweig等人研究了如何區(qū)分流行歌曲中的演唱部分和純伴奏部分[6],他們利用一個(gè)在說(shuō)話(huà)人識(shí)別領(lǐng)域中常用的分類(lèi)器對(duì)類(lèi)似語(yǔ)音的聲音信號(hào)進(jìn)行檢測(cè)。由于具有背景伴奏音樂(lè)的歌手演唱信號(hào)與一般的語(yǔ)音信號(hào)有著很大的不同,對(duì)于那些無(wú)法直接通過(guò)“說(shuō)話(huà)人識(shí)別分類(lèi)器”來(lái)確定類(lèi)別的聲音片段,作者將進(jìn)一步采用一個(gè)基于HMM框架的方法來(lái)最終判斷其類(lèi)別。

  (2)多類(lèi)分類(lèi)問(wèn)題在針對(duì)不同音樂(lè)類(lèi)型的自動(dòng)分類(lèi)問(wèn)題中,多類(lèi)分類(lèi)問(wèn)題是比較常見(jiàn)的[710J.由于研究興趣與具體應(yīng)用需求的差異,學(xué)者們所關(guān)心的音樂(lè)類(lèi)別往往不盡相同,但基本上都是采用基于樣本訓(xùn)練的分類(lèi)方法。總的來(lái)說(shuō),研究所涉及的音樂(lè)類(lèi)別越多則研究難度越大。Tzanetakis等人設(shè)計(jì)了一個(gè)以音樂(lè)類(lèi)數(shù)據(jù)為主的三層音頻分類(lèi)樹(shù)(見(jiàn)圖1),其內(nèi)容覆蓋了大部分西方現(xiàn)代音樂(lè)和一部分古典音樂(lè)[7],其中在具有十種音樂(lè)類(lèi)別的分類(lèi)層次上可以達(dá)到61%的平均分類(lèi)正確率。在他們的工作中使用了三種分別代表音色紋理、旋律內(nèi)容和音高內(nèi)容的特征集,并對(duì)這些特征的性能做了比較性研究。Lambrou等人利用萬(wàn)方數(shù)據(jù)計(jì)算機(jī)學(xué)報(bào)小波系數(shù)作為特征,對(duì)搖滾樂(lè)、爵士樂(lè)和鋼琴曲這三類(lèi)音樂(lè)信號(hào)進(jìn)行自動(dòng)分類(lèi)[8],同時(shí)比較了不同的小波構(gòu)造方法和分類(lèi)器對(duì)于這個(gè)三類(lèi)問(wèn)題的區(qū)分能力。文獻(xiàn)[9]將音樂(lè)信號(hào)的分形維數(shù)作為特征對(duì)12類(lèi)音樂(lè)信號(hào)進(jìn)行了自動(dòng)分類(lèi)研究,實(shí)驗(yàn)結(jié)果表明音樂(lè)信號(hào)的分形維數(shù)可以作為一種有效的特征用于音樂(lè)數(shù)據(jù)的自動(dòng)分類(lèi)。

  (3)非監(jiān)督分類(lèi)——聚類(lèi)前面所討論的兩類(lèi)與多類(lèi)音樂(lè)分類(lèi)問(wèn)題都屬于監(jiān)督分類(lèi)問(wèn)題,也就是說(shuō)分類(lèi)問(wèn)題的類(lèi)別是已知的,并且研究者可以獲得類(lèi)別已知的樣本數(shù)據(jù),這類(lèi)情況比較常見(jiàn)。與此相對(duì)應(yīng)的則被稱(chēng)為非監(jiān)督分類(lèi)問(wèn)題,此時(shí)研究者可能無(wú)法獲得足夠的類(lèi)別已知的樣本數(shù)據(jù),有時(shí)甚至連類(lèi)別數(shù)都無(wú)法知道。非監(jiān)督分類(lèi)問(wèn)題又稱(chēng)為聚類(lèi)分析,關(guān)于針對(duì)音樂(lè)數(shù)據(jù)進(jìn)行聚類(lèi)分析的研究報(bào)導(dǎo)較少,因?yàn)榫垲?lèi)結(jié)果強(qiáng)烈依賴(lài)于所定義的相似性度量,并且所產(chǎn)生的聚類(lèi)結(jié)果很難滿(mǎn)足某種具體的應(yīng)用需要。Cilibrasi等提出了一種基于Kolmogorov復(fù)雜性和信息距離的音樂(lè)分級(jí)聚類(lèi)方法[11|,它不使用任何音樂(lè)背景知識(shí)并可以直接用于其它領(lǐng)域的聚類(lèi)分析。Shao等則提出了一種基于HMM的非監(jiān)督音樂(lè)分類(lèi)方法[1 2I,為了獲得更好的結(jié)果,他們還對(duì)音樂(lè)信號(hào)的節(jié)奏進(jìn)行分析并在此基礎(chǔ)上提取特征。

  2.1.2基于內(nèi)容的樂(lè)器(音色)自動(dòng)分類(lèi)與識(shí)別

  如何從一段給定的音樂(lè)信號(hào)中識(shí)別出參加演奏的樂(lè)器是一個(gè)非常有趣的問(wèn)題。這樣的任務(wù)對(duì)于人類(lèi)來(lái)說(shuō)也許是非常輕松的,但對(duì)于機(jī)器來(lái)說(shuō)卻十分困難。識(shí)別或區(qū)分某種樂(lè)器主要依靠它特有的音色,從物理學(xué)上看音色則是由物體的振動(dòng)狀態(tài)所決定的,不同物體的振動(dòng)狀態(tài)決定了它的泛音及波形的不同,一個(gè)固定音高的音由于其中所含各階諧頻成分的比例不同,其音色也不同。對(duì)于某種具體的樂(lè)器來(lái)說(shuō),這種頻譜的變化又是十分復(fù)雜的,同一種樂(lè)器由于演奏技法的不同其音色也會(huì)發(fā)生顯著的變化。

  因此,如何方便而準(zhǔn)確地描述音色是一個(gè)難題。有關(guān)樂(lè)器識(shí)別或音色識(shí)別方面的研究工作比較少,它們可以分為以下兩種情況:

  (1)獨(dú)立演奏情況下的樂(lè)器識(shí)別

  大多數(shù)關(guān)于樂(lè)器自動(dòng)識(shí)別的工作都是在獨(dú)立演奏的假設(shè)下完成的,這使得工作變得相對(duì)容易了一些。Kermit等人研究了如何對(duì)吉他、鍵盤(pán)樂(lè)器和鼓這三種樂(lè)器進(jìn)行自動(dòng)識(shí)別[13|,他們首先采用Haar小波變換對(duì)音頻信號(hào)進(jìn)行預(yù)處理以提取特征,然后通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)。他們的方法也可以用來(lái)對(duì)一些語(yǔ)音數(shù)據(jù)進(jìn)行自動(dòng)分類(lèi),如一些元音和字詞。在文獻(xiàn)[14]中,作者采用一種稱(chēng)為ARTMAP的神經(jīng)網(wǎng)絡(luò)來(lái)區(qū)分五類(lèi)樂(lè)器所演奏的單音符信號(hào),這五類(lèi)樂(lè)器分別為鋼琴、吉他、小號(hào)、薩克斯和長(zhǎng)笛。在文獻(xiàn)[15]中,作者采用頻譜特征對(duì)來(lái)自27種樂(lè)器所演奏的1007段音頻信號(hào)進(jìn)行了自動(dòng)分類(lèi)研究。實(shí)驗(yàn)結(jié)果表明二次分類(lèi)器所取得的效果最好,它要優(yōu)于目前比較流行的SVM分類(lèi)器和傳統(tǒng)的最近鄰分類(lèi)器。該分類(lèi)器對(duì)來(lái)自具體樂(lè)器所演奏的音符的平均分類(lèi)錯(cuò)誤率為7.19%,對(duì)樂(lè)器族的平均識(shí)別錯(cuò)誤率僅為3.13%。Eronen針對(duì)16種西方管弦樂(lè)器的自動(dòng)識(shí)別問(wèn)題做了特征比較研究[16【,他考慮的特征包括Mel頻率、線(xiàn)性預(yù)測(cè)倒譜系數(shù)和delta倒譜系數(shù)等。他所報(bào)道的對(duì)樂(lè)器族的最高識(shí)別正確率僅為77%。Krishna等同樣在單音符樂(lè)器識(shí)別問(wèn)題中比較了不同特征(MFCC和LPCC)以及分類(lèi)方法(高斯混合模型和K近鄰法)的作用[1?,他們所報(bào)道的針對(duì)14種樂(lè)器的最高平均識(shí)別正確率為90%。

  (2)混合情況下的樂(lè)器識(shí)別

  在實(shí)際演奏的情況下,尤其是在多樂(lè)器混響的情況下進(jìn)行樂(lè)器自動(dòng)識(shí)別是非常困難的,相關(guān)的研究報(bào)道非常少。Josephson等人研究了模糊專(zhuān)家系統(tǒng)在混響情況下樂(lè)器識(shí)別問(wèn)題中的有效性,并列舉了幾個(gè)應(yīng)用實(shí)例n 8|.他們建議采用定量的物理分析與模糊專(zhuān)家系統(tǒng)相結(jié)合的方法對(duì)音色進(jìn)行識(shí)別。其中專(zhuān)家系統(tǒng)的知識(shí)庫(kù)是這樣建立的:專(zhuān)家的知識(shí)+從音樂(lè)信號(hào)中直接提取出的音質(zhì)特性,如基頻、諧波泛音強(qiáng)度、諧波相位偏移量等。但是該文并沒(méi)有詳細(xì)給出系統(tǒng)的實(shí)現(xiàn)方法。Kostek研究了如何從二重奏音樂(lè)信號(hào)中識(shí)別樂(lè)器并將其分割出來(lái)[1 9|,他使用神經(jīng)網(wǎng)絡(luò)作為最后的決策系統(tǒng)。Sakuraba等則對(duì)四重奏音樂(lè)信號(hào)下的樂(lè)器識(shí)別問(wèn)題做了特征比較研究。

  2.1.3歌手自動(dòng)識(shí)別

  如何讓計(jì)算機(jī)分辨出一首歌曲是哪位歌手所演唱的是一個(gè)十分有趣的問(wèn)題。由于人們?cè)谌粘I钪兴蕾p的音樂(lè)大多都是歌曲,解決該問(wèn)題會(huì)十分有助于歌曲類(lèi)多媒體數(shù)據(jù)的自動(dòng)管理和檢索。這個(gè)問(wèn)題與語(yǔ)音識(shí)別領(lǐng)域中的說(shuō)話(huà)人識(shí)別非常類(lèi)似,解決的思路也基本類(lèi)似。但是由于人在演唱時(shí)嗓音的動(dòng)態(tài)范圍比說(shuō)話(huà)時(shí)要大的多,再加上往往會(huì)有伴奏音樂(lè),所以歌手識(shí)別問(wèn)題要比說(shuō)話(huà)人識(shí)別更加困難。

  有關(guān)該問(wèn)題的文獻(xiàn)不多,它們可以分為以下兩種情況:

  (1)無(wú)伴奏情況下的歌手識(shí)別在文獻(xiàn)[21]中,作者對(duì)12位美聲唱法歌手的清唱歌聲做了自動(dòng)識(shí)別研究。他們采用頻譜包絡(luò)的主成分作為特征,并用一個(gè)二次分類(lèi)器對(duì)來(lái)自不同歌手的歌聲做自動(dòng)識(shí)別。通過(guò)交叉驗(yàn)證實(shí)驗(yàn),對(duì)歌手的平均正確識(shí)別率為95%。Kim則通過(guò)訓(xùn)練HMM對(duì)來(lái)自4名美聲歌手所演唱的簡(jiǎn)單音調(diào)做了識(shí)別,平均正確率可達(dá)90%左右[2引。

  (2)有伴奏情況下的歌手識(shí)別“u等提出了一種方法用于在MP3格式下做歌手識(shí)別[2引。他們首先通過(guò)一系列多項(xiàng)濾波器將訓(xùn)練集中的MP3音樂(lè)信號(hào)進(jìn)行分解得到一系列音符(或音素),然后從每個(gè)音符中提取特征訓(xùn)練分類(lèi)器對(duì)測(cè)試集中的歌曲進(jìn)行歌手識(shí)別。Zhang基于說(shuō)話(huà)人識(shí)別系統(tǒng)的一般框架提出了一種歌手自動(dòng)識(shí)別方法口“。她為訓(xùn)練集中的每位歌手的嗓音特性訓(xùn)練了一個(gè)統(tǒng)計(jì)模型。對(duì)于一首待測(cè)試的歌曲,她首先檢測(cè)歌曲中演唱部分的起始點(diǎn),然后從這個(gè)起始點(diǎn)開(kāi)始截取出一段定長(zhǎng)的演唱片斷,最后從這個(gè)演唱片斷中提取音頻特征與訓(xùn)練集中的歌手嗓音模型進(jìn)行匹配以完成歌手識(shí)別任務(wù)。在一個(gè)不大的測(cè)試集上,她的方法可以達(dá)到大約80%的平均識(shí)別正確率。此外,她還針對(duì)歌手之間的嗓音相似性做了一些聚類(lèi)分析。Maddage等也提出了一種歌手自動(dòng)識(shí)別方法嘶],他們首先采用SVM分類(lèi)器來(lái)檢測(cè)歌曲中的演唱片斷,然后通過(guò)高斯混合模型來(lái)對(duì)歌手的嗓音進(jìn)行建模和識(shí)別。在一個(gè)包含了100首獨(dú)唱歌曲的數(shù)據(jù)庫(kù)中,他們的方法可以達(dá)到87%的平均正確率。Tsai等則研究了如何在具有背景伴奏和其他歌手存在的情況下,如何檢測(cè)和跟蹤某個(gè)特定歌手的演唱‘2引。

  2.2包含音樂(lè)類(lèi)數(shù)據(jù)的一般音頻分類(lèi)

  包含音樂(lè)類(lèi)數(shù)據(jù)的一般音頻自動(dòng)分類(lèi)是指在分類(lèi)對(duì)象中至少包含一種屬于音樂(lè)類(lèi)別的數(shù)據(jù)或者音樂(lè)與其他類(lèi)別音頻信號(hào)(如語(yǔ)音)的混和數(shù)據(jù)。我們可以將這部分研究工作進(jìn)一步細(xì)分為如下兩部分。

  2.2.1語(yǔ)音與音樂(lè)類(lèi)數(shù)據(jù)的區(qū)分

  由于語(yǔ)音和音樂(lè)是非常重要的兩類(lèi)音頻數(shù)據(jù),如何有效地區(qū)分語(yǔ)音和音樂(lè)就顯得非常重要。關(guān)于這方面研究的文獻(xiàn)資料比較多[27。30f,他們通常也被當(dāng)作復(fù)雜情況下語(yǔ)音識(shí)別所必需的預(yù)處理工作。

  Feng等采用最大熵模型,并結(jié)合一些通用特征對(duì)語(yǔ)音和音樂(lè)進(jìn)行分類(lèi)[2?.Hughes等采用小波變換與神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法來(lái)解決這個(gè)問(wèn)題[28|.Chou等則著重強(qiáng)調(diào)了語(yǔ)音信號(hào)與歌曲類(lèi)信號(hào)的區(qū)分,并為此提出了一些新的特征[2 9I.Beierholm等提出了一種無(wú)需訓(xùn)練的語(yǔ)音、音樂(lè)區(qū)分算法口?。在他們的方法中,對(duì)語(yǔ)音和音樂(lè)信號(hào)分別采用了不同的特征類(lèi)別和模型階數(shù)。

  2.2.2其他多類(lèi)分類(lèi)問(wèn)題

  在包含音樂(lè)類(lèi)數(shù)據(jù)的一般音頻自動(dòng)分類(lèi)問(wèn)題中,多類(lèi)分類(lèi)問(wèn)題也是比較常見(jiàn)的。31。3“。由于研究者的興趣和實(shí)際應(yīng)用需求的不同,他們所關(guān)心的音頻類(lèi)別數(shù)和具體的音頻類(lèi)別往往不盡相同,但又十分相似。Lu和Zhang等首先通過(guò)K近鄰結(jié)合線(xiàn)性譜對(duì)向量量化法(LSPLVQ)將音頻信號(hào)分為語(yǔ)音和非語(yǔ)音兩大類(lèi)[3¨,然后利用基于規(guī)則的分類(lèi)方法將菲語(yǔ)音類(lèi)音頻信號(hào)進(jìn)一步分為音樂(lè)、環(huán)境聲音和靜音。

  為此,他們還提出了自己定義的一些特征,如:噪音幀數(shù)比和頻帶周期。在文獻(xiàn)[32]中,他們比較了SVM、K近鄰法和高斯混和模型在~個(gè)五類(lèi)的音頻分類(lèi)問(wèn)題中的性能差異,這五類(lèi)音頻分別為靜音、環(huán)境聲音、語(yǔ)音、非純語(yǔ)音和音樂(lè)。實(shí)驗(yàn)結(jié)果表明SVM要明顯優(yōu)于其它兩種分類(lèi)器。Li等研究了在一般音頻信號(hào)分類(lèi)中的特征選擇問(wèn)題[3?,他們將音頻信號(hào)分為七類(lèi):靜音、環(huán)境噪音、單人語(yǔ)音、多人語(yǔ)音、音樂(lè)、語(yǔ)音和音樂(lè)的混合信號(hào)、噪音背景下的語(yǔ)音。研究結(jié)果表明倒譜類(lèi)特征(如MFCC)和線(xiàn)性預(yù)測(cè)系數(shù)(LPC)要優(yōu)于一般的時(shí)域和頻域特征,他們所報(bào)道的最高平均分類(lèi)正確率為90%。Zhang使用能量函數(shù)、平均過(guò)零率、基頻和譜峰軌跡作為特征,并通過(guò)一個(gè)基于規(guī)則的啟發(fā)式的分類(lèi)方法將一般音頻信號(hào)分為八類(lèi):和諧的環(huán)境聲音、純樂(lè)曲、歌曲、帶有背景音樂(lè)的語(yǔ)音、帶有背景音樂(lè)的環(huán)境聲音、純語(yǔ)音、非和諧的環(huán)境聲音和靜音口4|.他們的方法也可以達(dá)到90%的平均分類(lèi)正確率。

  2.3不包含音樂(lè)類(lèi)數(shù)據(jù)的一般音頻分類(lèi)

  有關(guān)這方面研究工作的報(bào)道比較少。Guo等利萬(wàn)方數(shù)據(jù)計(jì)算機(jī)學(xué)報(bào)用SVM構(gòu)建了一個(gè)二叉分類(lèi)樹(shù)[35|,對(duì)來(lái)自“MuscleFish”數(shù)據(jù)庫(kù)中的16類(lèi)共409段音頻數(shù)據(jù)進(jìn)行自動(dòng)分類(lèi)。這些音頻類(lèi)別包括動(dòng)物的叫聲、男聲、女聲、鈴聲、掌聲、笑聲、機(jī)器的嘈雜聲等等,平均分類(lèi)正確率可達(dá)89%。Li在最近鄰方法的基礎(chǔ)上提出了一種稱(chēng)為最近特征線(xiàn)(NFL)的分類(lèi)方法[36|,并將其在“Muscle Fish”數(shù)據(jù)庫(kù)上進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果表明最近特征線(xiàn)分類(lèi)方法要優(yōu)于傳統(tǒng)的最近鄰法,其平均分類(lèi)正確率可以達(dá)到90%。Couvreur等通過(guò)時(shí)頻分析技術(shù)結(jié)合HMM建立了一個(gè)環(huán)境噪聲監(jiān)測(cè)系統(tǒng)[37|,它可以區(qū)分五類(lèi)噪聲源:小汽車(chē)、卡車(chē)、摩托車(chē)、飛機(jī)和火車(chē),平均分類(lèi)正確率可以達(dá)到95%。

  Wold等提出了一種基于內(nèi)容的聲音文件的分類(lèi)方法[38|.作者對(duì)一小段聲音的WAV文件提取各種特征(持續(xù)時(shí)間、音高、振幅、帶寬、明亮度)并計(jì)算它們的均值、方差、自相關(guān)等統(tǒng)計(jì)量,將這些特征及其統(tǒng)計(jì)量組成特征向量,用這個(gè)特征向量來(lái)表示這段聲音。在此基礎(chǔ)上,作者定義了聲音文件之間的相似性度量(歐幾里的距離)使得基于內(nèi)容的相似性成為可計(jì)算的量。隨后作者用帶標(biāo)簽的一組樣本來(lái)定義一個(gè)特定的類(lèi),并計(jì)算其均值特征向量和協(xié)方差矩陣作為該類(lèi)的數(shù)學(xué)模型。最后用近鄰法來(lái)做進(jìn)一步的分類(lèi)和檢索工作。

  2.4小結(jié)

  從前面的介紹中不難發(fā)現(xiàn),有關(guān)基于內(nèi)容的一般音頻和音樂(lè)數(shù)據(jù)自動(dòng)分類(lèi)是一個(gè)十分開(kāi)放的研究領(lǐng)域。由于研究對(duì)象的復(fù)雜性和開(kāi)放性,使得這個(gè)領(lǐng)域中擁有層出不窮的新問(wèn)題有待學(xué)者們?nèi)ヌ剿骱脱芯,這也是其能夠成為近年來(lái)的一個(gè)研究熱點(diǎn)的重要原因。另一方面,與一些傳統(tǒng)的研究領(lǐng)域(如語(yǔ)音識(shí)別、人臉識(shí)別、指紋識(shí)別等)相比,這個(gè)新興的研究領(lǐng)域也存在一些問(wèn)題,比如缺乏一個(gè)可以被學(xué)者們所廣泛接受的數(shù)據(jù)庫(kù)。目前的情況是幾乎每個(gè)學(xué)者都在使用不同的數(shù)據(jù),研究不同的問(wèn)題。這使得我們很難對(duì)不同的算法在性能上有一個(gè)直觀的比較,這在一定程度上制約了有效的學(xué)術(shù)交流。從研究方法上看,幾乎所有的算法都是采用基于數(shù)據(jù)的機(jī)器學(xué)習(xí)框架。這一方面得益于近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域的迅速發(fā)展,而另一方面也反映出我們?cè)谘芯渴挛锉举|(zhì)特征方面的滯后。模式識(shí)別問(wèn)題的核心是特征的提取與選擇。目前在有關(guān)音樂(lè)數(shù)據(jù)自動(dòng)分類(lèi)研究領(lǐng)域中被廣泛使用的仍然是一些低層次的音頻特征,如MFCC、線(xiàn)性預(yù)測(cè)系數(shù)以及各種時(shí)域、頻域特征及其統(tǒng)計(jì)量,這些特征顯然不足以反映音樂(lè)現(xiàn)象的本質(zhì)。如何提取出更有效的可以揭示音樂(lè)現(xiàn)象本質(zhì)的特征是一個(gè)亟待解決的難題。

  3、基于內(nèi)容的音頻流分割

  基于內(nèi)容的音頻流分割是指將一段音頻流數(shù)據(jù)按其內(nèi)容自動(dòng)地分為若干片段,使得每個(gè)片段在內(nèi)容類(lèi)別上具有一致性。它是基于內(nèi)容的音頻和多媒體數(shù)據(jù)分析領(lǐng)域中的一個(gè)十分重要的問(wèn)題。例如,一段電臺(tái)或電視臺(tái)的音頻信號(hào),其中可能包含古典音樂(lè)、流行歌曲、傳統(tǒng)戲曲以及廣告、語(yǔ)音等內(nèi)容。如果能將其按這些內(nèi)容屬性合理地分割開(kāi)來(lái),就能夠方便聽(tīng)眾和觀眾選擇收聽(tīng)、收視,也能夠方便多媒體數(shù)據(jù)的分類(lèi)保存和進(jìn)一步的剪輯加工等。面對(duì)海量的多媒體數(shù)據(jù),如果能開(kāi)發(fā)出一種自動(dòng)的、基于內(nèi)容的音頻流分割方法,無(wú)疑會(huì)大大地提高工作效率。有關(guān)音頻流分割的文獻(xiàn)比較多,按照研究對(duì)象的不同這些工作又可以分為以下幾個(gè)方面。

  3.1說(shuō)話(huà)人分割

  說(shuō)話(huà)人分割是指根據(jù)說(shuō)話(huà)人嗓音特性的不同,將音頻流中屬于不同說(shuō)話(huà)者的聲音片斷分割出來(lái)。Delacourt等將一些二階統(tǒng)計(jì)量作為特征用于連續(xù)語(yǔ)音信號(hào)中的說(shuō)話(huà)人分割[3 9|.他們的方法不需要知道說(shuō)話(huà)者的數(shù)目和其它一些先驗(yàn)信息,但是要求說(shuō)話(huà)人不能同時(shí)講話(huà)。Kim等比較了聲譜投影(audiospectrum projection)和MFCC這兩種特征在說(shuō)話(huà)人分割問(wèn)題中的有效性[40I.他們從不同說(shuō)話(huà)人的聲音片段中分別提取這兩種特征并訓(xùn)練HMM模型用于說(shuō)話(huà)人分割,實(shí)驗(yàn)結(jié)果表明MFCC的效果要好于ASP.

  3.2語(yǔ)音/音樂(lè)數(shù)據(jù)流分割

  有不少研究工作都是專(zhuān)門(mén)針對(duì)語(yǔ)音和音樂(lè)類(lèi)音頻數(shù)據(jù)流的分割問(wèn)題的。事實(shí)上,在2.2.1節(jié)中討論過(guò)的關(guān)于語(yǔ)音與音樂(lè)區(qū)分的許多算法都可以用于語(yǔ)音和音樂(lè)數(shù)據(jù)流分割。此外,Ajmera等提出了一種針對(duì)廣播信號(hào)的語(yǔ)音/音樂(lè)數(shù)據(jù)自動(dòng)分割算法[41I,它可以作為廣播新聞自動(dòng)翻譯工作的預(yù)處理。他們首先用純語(yǔ)音信號(hào)訓(xùn)練出一個(gè)神經(jīng)網(wǎng)絡(luò),并將其作為信道模型。然后在這個(gè)神經(jīng)網(wǎng)絡(luò)的輸出端計(jì)算熵和信號(hào)的動(dòng)態(tài)特性。最后通過(guò)一個(gè)兩狀態(tài)的各態(tài)歷經(jīng)HMM模型對(duì)音頻流信號(hào)進(jìn)行分割。

  3.3其它多類(lèi)音頻流分割問(wèn)題

  關(guān)于這類(lèi)音頻分割問(wèn)題的研究報(bào)道比較多口。32’42-45],從研究方法上看這些工作可以大致分為兩類(lèi):一類(lèi)屬于非監(jiān)督的音頻流分割方法,如文獻(xiàn)[42—43].它們主要通過(guò)檢測(cè)音頻特征值的突變點(diǎn)或?qū)σ纛l信號(hào)做局部相似性分析而對(duì)音頻流進(jìn)行分割。Pandit等在一個(gè)三類(lèi)音頻流分割問(wèn)題(單人語(yǔ)音、多人語(yǔ)音和音樂(lè))中比較了幾種基于距離度量和線(xiàn)性判別分析(LDA)的相似度計(jì)算準(zhǔn)則[43【。實(shí)驗(yàn)結(jié)果表明基于Mahalonabis距離度量的相似度計(jì)算準(zhǔn)則要優(yōu)于基于其它距離度量方式和LDA的準(zhǔn)則;另一類(lèi)則屬于有監(jiān)督的音頻流分割方法。依據(jù)具體應(yīng)用要求的不同,利用各種樣本數(shù)據(jù)學(xué)習(xí)訓(xùn)練得到的音頻流分割方法往往能夠得到比較理想的分割性能。在這類(lèi)方法中,比較有代表性的是文獻(xiàn)[31—32].

  在文獻(xiàn)[31]中,作者提出了一種方法將音頻流分割為語(yǔ)音、音樂(lè)、環(huán)境聲音和靜音。他們采用了一種完全基于小尺度分類(lèi)的分割方法,其基本分類(lèi)單元為1s的音頻片段。首先,音頻信號(hào)被分為語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)兩類(lèi),然后進(jìn)一步將非語(yǔ)音信號(hào)分為音樂(lè)、環(huán)境聲音和靜音。在他們的方法中僅僅給出了分類(lèi)器的平均正確率,而沒(méi)有對(duì)整個(gè)分割算法的效果進(jìn)行評(píng)價(jià)。Nitanda等也提出了一種音頻流分割方法“引,他們首先采用模糊C均值聚類(lèi)法檢測(cè)可能的分割點(diǎn),然后設(shè)計(jì)分類(lèi)器將分割點(diǎn)之間的音頻片段分為五類(lèi)(靜音、音樂(lè)、語(yǔ)音、具有背景音樂(lè)的語(yǔ)音、具有背景噪音的語(yǔ)音),通過(guò)對(duì)音頻片段進(jìn)行分類(lèi)也可以達(dá)到去除一部分虛假分割點(diǎn)的目的。此外,我們經(jīng)過(guò)研究發(fā)現(xiàn)大尺度音頻片段的分類(lèi)正確率要明顯高于小尺度音頻片段的分類(lèi)正確率,并且這個(gè)趨勢(shì)與分類(lèi)器選擇無(wú)關(guān);谶@個(gè)事實(shí)和減少虛假分割點(diǎn)的目的,我們提出了一種新的音頻流分割方法H5c.首先,我們采用基于大尺度音頻分類(lèi)的分割方法對(duì)音頻流進(jìn)行粗分割,以減少虛假分割點(diǎn);然后我們定義了分割點(diǎn)評(píng)價(jià)函數(shù),并利用它在邊界區(qū)域中進(jìn)一步精確定位分割點(diǎn)。實(shí)驗(yàn)結(jié)果表明我們的音頻流分割方法可以比較精確地獲取真實(shí)分割點(diǎn)的位置,同時(shí)大大減少了虛假分割點(diǎn)的出現(xiàn)。

  3.4利用音頻分析技術(shù)的視聽(tīng)多媒體數(shù)據(jù)分割

  在當(dāng)今社會(huì)中,數(shù)字技術(shù)越來(lái)越多地應(yīng)用于多媒體數(shù)據(jù)的管理,如電視制作、節(jié)目檢索等方面。如,對(duì)于類(lèi)似電視、電影等既有圖像又有聲音的多媒體數(shù)據(jù),如何快速有效地從大量數(shù)據(jù)中找出自己關(guān)心的片斷是一個(gè)十分有趣的問(wèn)題。傳統(tǒng)的方法一般從視頻數(shù)據(jù)人手去尋找線(xiàn)索,對(duì)視聽(tīng)數(shù)據(jù)進(jìn)行分割,音頻數(shù)據(jù)中所包含的信息沒(méi)有被利用上。但是在許多情況下,僅僅利用視頻信息進(jìn)行分割是非常困難的,如果能將音頻信息利用起來(lái)無(wú)疑可以大大提高分割效率和正確率。這方面的文獻(xiàn)也比較多[34“6‘4 7……如Zhang和Jay Kuo介紹了一種視聽(tīng)數(shù)據(jù)分割方法口引,其算法流程見(jiàn)圖2.她先將背景聲音進(jìn)行分割和分類(lèi),然后利用背景聲音的分類(lèi)結(jié)果將圖像序列分割并歸類(lèi)為一個(gè)個(gè)“視聽(tīng)場(chǎng)景”,并為之標(biāo)上“標(biāo)簽”以便檢索。在他們的方法中首先從每個(gè)1s的音頻片段中提取特征,然后檢測(cè)出音頻流中的特征突變點(diǎn)并用這些特征突變點(diǎn)將音頻流分割開(kāi)來(lái),最后再利用一種基于啟發(fā)式規(guī)則的方法將這些片段進(jìn)行分類(lèi)。與文獻(xiàn)[31]類(lèi)似,他們只給出了分類(lèi)器的正確率而沒(méi)有對(duì)整個(gè)分割算法的精度、真實(shí)分割點(diǎn)檢測(cè)率以及虛假分割率進(jìn)行探討。Strobel等則利用音頻一視頻聯(lián)合的技術(shù)進(jìn)行目標(biāo)定位與跟蹤等提出的基于音頻分析的視聽(tīng)數(shù)據(jù)自動(dòng)分割與檢索算法流程圖Ⅲ3萬(wàn)方數(shù)據(jù)計(jì)算機(jī)學(xué)報(bào)。

  3.5 小結(jié)

  總的來(lái)說(shuō),基于內(nèi)容的音頻流分割算法可以分為兩大類(lèi):一類(lèi)算法是基于特征值突變檢測(cè)或音頻流局部相似性分析的。原則上說(shuō),這類(lèi)算法可用于分割任意音頻流數(shù)據(jù)。但是在實(shí)際應(yīng)用中,由于分割對(duì)象往往過(guò)于復(fù)雜并且算法不具有針對(duì)性,因而很難取得理想的效果;另一類(lèi)算法是基于對(duì)音頻片段的監(jiān)督分類(lèi)的。在第2小節(jié)中所介紹的有關(guān)音頻信號(hào)監(jiān)督分類(lèi)的算法一般都可以用于構(gòu)造相應(yīng)的音頻流分割算法。由于這類(lèi)音頻流分割算法具有較強(qiáng)的針對(duì)性,因而當(dāng)應(yīng)用環(huán)境比較穩(wěn)定時(shí)這類(lèi)算法可以取得較好的效果。但是當(dāng)應(yīng)用環(huán)境發(fā)生較大變化或應(yīng)用于新的分割問(wèn)題時(shí),這類(lèi)算法都需要重新收集樣本數(shù)據(jù)訓(xùn)練并更新相應(yīng)的分類(lèi)器,甚至需要重新設(shè)計(jì)分類(lèi)器。因而這類(lèi)音頻流分割算法的應(yīng)用靈活性相對(duì)較差。

  對(duì)于一個(gè)特定的分割算法,我們認(rèn)為其分割精度、真實(shí)分割點(diǎn)檢測(cè)率和虛假分割率都是非常重要的指標(biāo)。但令人遺憾的是到目前為止,幾乎所有文獻(xiàn)都只給出有關(guān)分割精度和正確分割率的報(bào)道,而沒(méi)有對(duì)分割算法的虛假分割性能做出分析。在許多應(yīng)用中,人們不僅會(huì)在意分割點(diǎn)的精度,而且會(huì)更加關(guān)心虛假分割的比例,面對(duì)原本屬于同一內(nèi)容卻被分割的支離破碎的音頻片段,即使其真實(shí)端點(diǎn)的定位精度再高也已經(jīng)失去了應(yīng)用價(jià)值。例如,當(dāng)用戶(hù)從音頻流中選聽(tīng)自己感興趣的內(nèi)容或跳過(guò)不感興趣的內(nèi)容(如廣告等)時(shí),如果頻繁的錯(cuò)誤出現(xiàn)自己并不感興趣的段落或?qū)⒆约焊信d趣的段落錯(cuò)誤跳過(guò)時(shí),會(huì)嚴(yán)重影響他們對(duì)算法的使用熱情。但是在保證一定分割精度的前提下,提高真實(shí)分割點(diǎn)檢測(cè)率和降低虛假分割率是相互矛盾的。如何在設(shè)計(jì)算法時(shí)根據(jù)實(shí)際需要合理地平衡這些指標(biāo)是一個(gè)值得認(rèn)真考慮的問(wèn)題。

  4、基于內(nèi)容的音頻數(shù)據(jù)自動(dòng)檢索

  基于內(nèi)容的音頻數(shù)據(jù)自動(dòng)檢索是一個(gè)十分重要的應(yīng)用問(wèn)題,事實(shí)上前面所介紹的關(guān)于音頻數(shù)據(jù)自動(dòng)分類(lèi)和音頻流分割的工作都可用于檢索目的。從檢索對(duì)象上看,相關(guān)工作可以分為兩大類(lèi)。

  4.1針對(duì)音樂(lè)類(lèi)數(shù)據(jù)的自動(dòng)檢索

  目前互聯(lián)網(wǎng)上已有的音樂(lè)曲目的數(shù)量非常巨大,面對(duì)浩如煙海的音樂(lè)數(shù)據(jù)庫(kù),傳統(tǒng)的檢索方法主要依據(jù)曲名、演唱者、出版商等附屬文字信息,但僅依靠這些檢索手段往往不能滿(mǎn)足用戶(hù)快速有效地查找音樂(lè)作品的需要。如果通過(guò)某種技術(shù)可以直接查找音樂(lè)文件的內(nèi)容將會(huì)大大提高檢索結(jié)果的有效性和準(zhǔn)確性,圖3是一個(gè)典型的基于內(nèi)容的音樂(lè)自動(dòng)檢索和索引系統(tǒng)工作流程圖。基于內(nèi)容的音樂(lè)類(lèi)數(shù)據(jù)自動(dòng)檢索目前已經(jīng)成為一個(gè)研究熱點(diǎn),相關(guān)文獻(xiàn)報(bào)道比較多,其中一半以上都是最近三四年內(nèi)的最新研究成果。從檢索方式來(lái)看這些工作可以分為以下幾類(lèi)。

  4.1.1 基于原曲局部相似性匹配檢索

  這類(lèi)音樂(lè)檢索工作的特點(diǎn)是允許用戶(hù)提供希望查找的音樂(lè)的某一片斷,系統(tǒng)經(jīng)過(guò)對(duì)這一片斷進(jìn)行處理,提取特征,在音樂(lè)庫(kù)中自動(dòng)尋找到該音樂(lè)的完整文件或與之內(nèi)容相似的作品Ⅲ。5引。Mo等提出了一種針對(duì)MIDI格式的音樂(lè)文件的檢索方法m3,并給出了一種基于主旋律的音樂(lè)文件之間相似性程度的計(jì)算方法。他們認(rèn)為音樂(lè)的基本曲調(diào)(主旋律)可萬(wàn)方數(shù)據(jù)5期張一彬等:基于內(nèi)容的音頻與音樂(lè)分析綜述719以看成是~系列具有一定的音高和音長(zhǎng)的音符集合?梢詫⒔(jīng)過(guò)分解和規(guī)范化后的兩段音樂(lè)的對(duì)應(yīng)樂(lè)句作為基本比對(duì)單元。通過(guò)計(jì)算對(duì)應(yīng)樂(lè)句中對(duì)應(yīng)音符的相對(duì)音高的相似性和兩音符之間關(guān)系的相似性來(lái)得到對(duì)應(yīng)樂(lè)句的相似性值,從而最終得到兩個(gè)音樂(lè)MIDI文件之間的相似性值。Yanase等提出了一種用于音樂(lè)信息檢索的方法[5?,該方法本質(zhì)上屬于特征向量法。傳統(tǒng)的特征向量法一般是基于整首樂(lè)曲中提取特征的,而他們的方法是基于樂(lè)句來(lái)提取特征的,所以需要先將~首完整的樂(lè)曲分割成若干個(gè)樂(lè)句。MIDI格式并不提供休止符的位置,該文的方法是檢測(cè)各個(gè)連續(xù)音符之間的問(wèn)隔時(shí)間,如果這個(gè)問(wèn)隔時(shí)問(wèn)超過(guò)了一個(gè)固定的域值,則在此處放置一個(gè)休止符。然后再用一些啟發(fā)性的規(guī)則合并掉一些休止符,最終每?jī)蓚(gè)相鄰的休止符之間的部分就可以被看作一個(gè)完整的樂(lè)句。然后將每個(gè)樂(lè)句的正常音符序列轉(zhuǎn)換為相對(duì)音高序列和相對(duì)音長(zhǎng)序列。該文采用了卵一gram patterns作為特征來(lái)將這些序列表示為一定長(zhǎng)度的向量的形式:用戶(hù)檢索時(shí)先用MIDI樂(lè)器演奏待檢索樂(lè)曲的一個(gè)片斷作為關(guān)鍵字,然后用這個(gè)關(guān)鍵字到數(shù)據(jù)庫(kù)中查詢(xún)。因?yàn)榱?xí)慣上人們一般會(huì)演奏一個(gè)或幾個(gè)連續(xù)的完整的樂(lè)句,而該文提取特征的方法又是基于樂(lè)句的,所以理論上會(huì)比那些從整首樂(lè)曲中提取特征的方法的精度高一些。Pye研究了如何對(duì)MP3格式的音樂(lè)文件作基于內(nèi)容的分類(lèi)和檢索口1I.他從語(yǔ)音處理領(lǐng)域借鑒了兩種方法并將其應(yīng)用到基于內(nèi)容的音樂(lè)分類(lèi)、檢索領(lǐng)域。經(jīng)過(guò)實(shí)驗(yàn)比較,發(fā)現(xiàn)高斯混合模型法(GMM)效果比較好;基于樹(shù)的向量量化法(Tree-based Vec—tor Quantization)速度比較快。此外,他還比較了兩種從MP3文件中提取特征的方法,發(fā)現(xiàn)MFCC法對(duì)噪聲干擾的穩(wěn)定性比較好,但是由于要求全部解壓縮,因而速度比較慢;MFCCS法只對(duì)MP3文件的進(jìn)行部分解壓就可以了,因而速度比MFCC法快很多,但其效果不如MFCC法。Tsai等實(shí)現(xiàn)了一個(gè)歌手檢索系統(tǒng)酯2I.使用者通過(guò)提供感興趣的歌手的演唱片段,可以從數(shù)據(jù)庫(kù)中找出屬于該歌手或與該歌手嗓音類(lèi)似的歌曲。

  4.1.2歌曲“哼唱”檢索

  “哼唱”檢索是一種十分理想的基于內(nèi)容的音樂(lè)檢索方式,它是將用戶(hù)哼唱的一段旋律作為查詢(xún)內(nèi)容從數(shù)據(jù)庫(kù)中找出與之對(duì)應(yīng)的或旋律相似的原曲,“哼唱”檢索方式通常用于歌曲檢索。從技術(shù)實(shí)現(xiàn)上看“哼唱”檢索是非常困難的,因?yàn)橛脩?hù)所哼唱的旋律往往與希望被檢索到的歌曲相差很大,另外被檢索的音樂(lè)作品往往具有伴奏音樂(lè)而通過(guò)哼唱所輸入的查詢(xún)旋律通常只能是清唱。有關(guān)“哼唱”檢索的研究報(bào)道比較少,且一般都是基于MIDI格式的[53。鰣].

  李揚(yáng)等提出了一種近似旋律匹配方法——線(xiàn)性對(duì)齊匹配法[5?,并在此基礎(chǔ)上實(shí)現(xiàn)了一個(gè)哼唱檢索系統(tǒng)原型,其算法流程見(jiàn)圖4.該算法并非基于近似符號(hào)串匹配、統(tǒng)計(jì)模型或者特征空問(wèn),而是根據(jù)相近旋律的音高輪廓在幾何上的相似性,將音高和節(jié)奏特征一并考慮所設(shè)計(jì)而成的新算法。實(shí)驗(yàn)結(jié)果表明在含有3864首樂(lè)曲的搜索空間中,檢索62段人聲哼唱,線(xiàn)性對(duì)齊匹配法取得了90.3%的前3位命中率。

  Yang等將數(shù)據(jù)庫(kù)中的韓國(guó)民謠根據(jù)它們的節(jié)奏模式人工地分為五大類(lèi)[5“,每首歌曲由基于曲調(diào)的符號(hào)串表示。用戶(hù)檢索曲目時(shí)首先需要哼一段旋律,然后用這段旋律作為檢索關(guān)鍵字在數(shù)據(jù)庫(kù)中尋找與之相似的樂(lè)曲。值得注意的是,這段旋律被保存為wav格式(8bit、16kHz、混合單聲道),并直接對(duì)其進(jìn)行處理。首先,他們用自相關(guān)方法得到該段旋律的音高序列。然后,一個(gè)BP神經(jīng)網(wǎng)將判斷用戶(hù)哼唱的這段旋律屬于何種節(jié)奏模式,該神經(jīng)網(wǎng)的輸入層有10個(gè)節(jié)點(diǎn),對(duì)應(yīng)著10個(gè)連續(xù)的音符,輸出層為5個(gè)節(jié)點(diǎn),分別對(duì)應(yīng)五類(lèi)模式之一,兩個(gè)隱層各含20個(gè)節(jié)點(diǎn)。最后,他們用字符串近似匹配方法在確定的子類(lèi)中去尋找相似的歌曲序列。

  旋律提取音符序列圖4 李揚(yáng)等提出的歌曲哼唱檢索系統(tǒng)工作流程圖¨列4.1.3基于“情感”的音樂(lè)檢索有時(shí)候我們并不關(guān)心一首歌曲是誰(shuí)唱的,也不在乎它具體的旋律,僅僅希望能夠找到符合當(dāng)時(shí)心情的歌曲就可以了,這就是所謂基于“情感”的音樂(lè)檢索。有關(guān)基于“情感”的音樂(lè)檢索的研究工作非常少。Feng等通過(guò)檢測(cè)音樂(lè)的演奏速度和“清晰度”來(lái)萬(wàn)方數(shù)據(jù)720 計(jì)算機(jī)學(xué)報(bào)分析音樂(lè)中所蘊(yùn)含的情感[55f.他們首先通過(guò)multipleagent方法檢測(cè)出音樂(lè)演奏的速度,再將其轉(zhuǎn)換為相對(duì)速度;在“清晰度”計(jì)算的基礎(chǔ)上求出所謂“平均寂靜率”的均值和標(biāo)準(zhǔn)差,最后通過(guò)一個(gè)BP神經(jīng)網(wǎng)絡(luò)將音樂(lè)分為快樂(lè)、悲傷、憤怒和恐懼四類(lèi)。用戶(hù)將在一個(gè)三維可視化的特征空問(wèn)中去檢索感興趣的音樂(lè)。

  4.2針對(duì)一般音頻對(duì)象的自動(dòng)檢索針

  對(duì)一般音頻對(duì)象進(jìn)行自動(dòng)檢索的研究工作比較少[56。57……在2.3節(jié)中所介紹的研究工作均可用于一般音頻對(duì)象檢索。此外,Zhang和Jay Kuo提出了一種分級(jí)的多類(lèi)音頻分類(lèi)與檢索方法邸引。他們的方法分為三個(gè)階段,首先通過(guò)對(duì)音頻信號(hào)的短時(shí)特征曲線(xiàn)作統(tǒng)計(jì)和形態(tài)分析將音頻信號(hào)進(jìn)行粗分類(lèi)(語(yǔ)音、音樂(lè)、環(huán)境聲音和靜音);然后對(duì)環(huán)境聲音進(jìn)一步提取時(shí)頻特征并利用HMM將其細(xì)分為諸如掌聲、雨聲、鳥(niǎo)叫聲等等;最后允許用戶(hù)提供樣本音頻片段,數(shù)據(jù)庫(kù)中與其相似的音頻片段將被檢索出來(lái)。

  Smith等利用主動(dòng)搜索和模板匹配的方法,從廣播信號(hào)中尋找感興趣的聲音信號(hào)[5川。為了提高速度,他們使用了過(guò)零率等比較簡(jiǎn)單的特征。

  4.3小結(jié)

  基于內(nèi)容檢索是一個(gè)非常重要同時(shí)也非常困難的問(wèn)題,其核心在于如何進(jìn)行特征提取并有效地定義相似性度量。應(yīng)用需求不同,特征提取與相似性度量便會(huì)不同。對(duì)于音樂(lè)數(shù)據(jù)而言,用戶(hù)可以輸入同一段信息,但希望得到的檢索結(jié)果卻可能大不相同。比如,對(duì)于同一首輸入的流行歌曲用戶(hù)可能希望按照歌手去檢索,也可能希望按照配器、旋律、音樂(lè)風(fēng)格甚至情感等其它信息進(jìn)行檢索。如何有效地為音樂(lè)類(lèi)數(shù)據(jù)定義相似性度量就顯得更加困難,這其實(shí)也是一個(gè)知識(shí)表達(dá)方面的難題。對(duì)于一個(gè)實(shí)用的基于內(nèi)容的音樂(lè)檢索系統(tǒng),它可能面對(duì)的是海量的待檢索數(shù)據(jù)、大類(lèi)別數(shù)甚至不特定類(lèi)別數(shù)、不同類(lèi)別的數(shù)據(jù)量不平衡、用戶(hù)需求多樣性等困難。此外計(jì)算量也是一個(gè)不可忽視的問(wèn)題?傊,我們認(rèn)為目前的基于內(nèi)容音頻及音樂(lè)檢索算法與系統(tǒng)尚處于實(shí)驗(yàn)研究階段,其性能距離真正實(shí)用化還有很大差距。

  5、基于內(nèi)容的音樂(lè)分析

  這里所說(shuō)的音樂(lè)分析是指針對(duì)某個(gè)完整的音樂(lè)作品所進(jìn)行的分析和識(shí)別工作,有關(guān)這個(gè)領(lǐng)域的研究報(bào)導(dǎo)在最近幾年增長(zhǎng)較快。根據(jù)研究目的的不同,我們分為以下幾個(gè)小節(jié)分別進(jìn)行介紹。

  5.1音樂(lè)作品結(jié)構(gòu)分析

  音樂(lè)是一種十分復(fù)雜的、有層次的聲音信號(hào),一些學(xué)者致力于通過(guò)計(jì)算機(jī)來(lái)分析音樂(lè)本身的這種層次結(jié)構(gòu)[58書(shū)2|.他們所定義的這種層次結(jié)構(gòu)不一定和音樂(lè)學(xué)本身相關(guān),但是可能會(huì)更適合于音樂(lè)信號(hào)的自動(dòng)處理。由于MIDI格式本身已經(jīng)包含了大量音樂(lè)信息,所以基于MIDI格式的音樂(lè)分析工作相對(duì)較多。Hsu等定義了音樂(lè)信號(hào)中的“非平凡重復(fù)模式”[58I.所謂重復(fù)模式是指在一首音樂(lè)作品中重復(fù)出現(xiàn)的那些音符序列,非平凡重復(fù)模式則要求重復(fù)出現(xiàn)的音符序列對(duì)于這首音樂(lè)來(lái)說(shuō)具有特殊性和代表性,比如:這首音樂(lè)的主旋律或主旋律的一部分。

  通常非平凡重復(fù)模式應(yīng)該是具有一定長(zhǎng)度的音符序列。他們同時(shí)提出了兩種基于MIDI格式的“非平凡重復(fù)模式”提取方法——相關(guān)矩陣法和PR樹(shù)法。Lo等則進(jìn)一步提出了一種關(guān)于“非平凡重復(fù)模式”的快速提取算法口引。Pikrakis等通過(guò)小波分析和樹(shù)狀分類(lèi)的方法對(duì)希臘傳統(tǒng)音樂(lè)中預(yù)先定義的一些孤立音樂(lè)模式進(jìn)行自動(dòng)識(shí)別以輔助音樂(lè)學(xué)研究[60I.此外,Shmulevich等提出了三種方法用于度量音樂(lè)旋律的復(fù)雜性[61|.Chen等在對(duì)音樂(lè)結(jié)構(gòu)進(jìn)行分析的基礎(chǔ)上提出了一種針對(duì)音樂(lè)信號(hào)的自動(dòng)分割方法[6引。

  5.2音樂(lè)自動(dòng)摘要

  所謂音樂(lè)自動(dòng)摘要是指對(duì)一段音樂(lè)信號(hào)生成一個(gè)高度簡(jiǎn)約又能反映出該音樂(lè)特點(diǎn)的摘要信息,如何對(duì)音樂(lè)數(shù)據(jù)進(jìn)行摘要描述是一個(gè)重要的問(wèn)題。由于音樂(lè)所具有的高度復(fù)雜性、結(jié)構(gòu)化、非語(yǔ)義性以及人們對(duì)音樂(lè)理解的主觀性,為音樂(lè)數(shù)據(jù)自動(dòng)生成摘要已經(jīng)成為一項(xiàng)具有特殊挑戰(zhàn)性的工作。另一方面,隨著娛樂(lè)業(yè)的快速發(fā)展大量流行歌曲被不斷創(chuàng)作出來(lái)。據(jù)統(tǒng)計(jì),僅在西方國(guó)家每個(gè)月就新產(chǎn)出大約4000張音樂(lè)CD,其中流行歌曲占據(jù)了很大的比例。

  對(duì)于普通消費(fèi)者來(lái)說(shuō),如何在浩如煙海的流行歌曲當(dāng)中找到真正想聽(tīng)的歌曲?對(duì)于商家來(lái)說(shuō),如何快速有效地管理他們的海量音樂(lè)數(shù)據(jù)?這些都已成為緊迫的問(wèn)題。從總體上看有關(guān)音樂(lè)自動(dòng)摘要的文獻(xiàn)報(bào)導(dǎo)不算很多,其中大部分都是有關(guān)流行音樂(lè)的。有跡象表明它正在成為一個(gè)新的研究熱點(diǎn)¨3‘67I.在文獻(xiàn)[63—64]中提出了一些基于一般音頻格式的音樂(lè)自動(dòng)摘要算法。在這些文獻(xiàn)當(dāng)中,音樂(lè)摘要通常被定萬(wàn)方數(shù)據(jù)5期張一彬等:基于內(nèi)容的音頻與音樂(lè)分析綜述721義為一些定長(zhǎng)(如10s、20s或30s)的音頻片段。這些音頻片段主要是通過(guò)相似性分析或重復(fù)度計(jì)算的方法被分割出來(lái)的。所有這些方法的計(jì)算量都比較大,并且其效果只在較小的測(cè)試集上通過(guò)一些主觀的評(píng)價(jià)方法(如只對(duì)自動(dòng)摘要結(jié)果直接評(píng)分)得到驗(yàn)證。

  在文獻(xiàn)[65]中,Xu等首先利用SVM分類(lèi)器將音樂(lè)信號(hào)分為純音樂(lè)和聲樂(lè)兩大類(lèi),然后分別針對(duì)這兩類(lèi)音樂(lè)信號(hào)提取特征并進(jìn)行聚類(lèi)分析,在聚類(lèi)分析的基礎(chǔ)上再結(jié)合相關(guān)領(lǐng)域知識(shí)生成最終的音樂(lè)摘要。他們的研究結(jié)果還表明在音樂(lè)分類(lèi)問(wèn)題中,SVM分類(lèi)器要優(yōu)于傳統(tǒng)的基于歐式距離的分類(lèi)器和隱馬爾可夫方法(HMM)。此外,Shao和Liu等人分別研究了如何對(duì)MP3格式的音樂(lè)直接生成自動(dòng)摘要‘66‘6川。在文獻(xiàn)[67]中,作者首先采用多項(xiàng)濾波器從MP3文件中直接提取特征,并在特征提取的基礎(chǔ)上對(duì)MP3音樂(lè)信號(hào)進(jìn)行分割;然后對(duì)分割結(jié)果進(jìn)行聚類(lèi)分析,聚在一類(lèi)的音樂(lè)片段可以被當(dāng)作一個(gè)重復(fù)模式;最后通過(guò)RP—Tree算法從中找出非平凡重復(fù)模式并將其作為整首音樂(lè)的自動(dòng)摘要。

  5.3音樂(lè)建模

  對(duì)音樂(lè)進(jìn)行建模分析是十分困難的,也是十分必要的。關(guān)于音樂(lè)建模的研究很少,但近兩年來(lái)也可以看到一些報(bào)道。Wang等提出了一種音樂(lè)數(shù)據(jù)模型和相應(yīng)的代數(shù)操作規(guī)則,并將其應(yīng)用于數(shù)字音樂(lè)圖書(shū)館中的數(shù)據(jù)檢索和查詢(xún)[68|.Cour_Harbo研究了如何將最小燃料神經(jīng)網(wǎng)絡(luò)(minimum fuel neuralnetwork)用于音樂(lè)信號(hào)的稀疏表示[6 9|,該方法可以歸結(jié)為一組二階微分方程,并且他認(rèn)為可以通過(guò)先驗(yàn)知識(shí)來(lái)確定用于優(yōu)化該方法的最重要的參數(shù)——離散化步長(zhǎng)。Endelt等對(duì)通過(guò)小波變換實(shí)現(xiàn)音樂(lè)信號(hào)的稀疏表示時(shí)所遇到的若于問(wèn)題進(jìn)行了研究[7?,他們還比較了用于音樂(lè)信號(hào)稀疏表示的幾種方法[71|.

  5.4樂(lè)譜自動(dòng)識(shí)別與分析

  樂(lè)譜自動(dòng)識(shí)別是指將音樂(lè)演奏的聲學(xué)信號(hào)所對(duì)應(yīng)的樂(lè)譜信息自動(dòng)翻譯出來(lái),它是音樂(lè)分析領(lǐng)域中的一項(xiàng)十分重要同時(shí)也是十分困難的工作。我們知道一首音樂(lè)的樂(lè)譜記錄著該音樂(lè)的全部信息,音樂(lè)家通過(guò)閱讀樂(lè)譜就可以了解音樂(lè)的全貌,并不需要將它實(shí)際演奏出來(lái),F(xiàn)有的許多音樂(lè)分析方面的工作都是基于MIDI格式的,因?yàn)镸IDI格式本身包含著大量的樂(lè)譜信息,所以基于MIDI格式的音樂(lè)分析工作可以做的比較深入。但是它們一個(gè)共同的缺點(diǎn)就是其對(duì)MIDI音樂(lè)文件格式的強(qiáng)烈依賴(lài)性,這制約了這些方法的應(yīng)用價(jià)值。而大量的音樂(lè)數(shù)據(jù)大多采用一般音頻格式存儲(chǔ),如果能將其所對(duì)應(yīng)的樂(lè)譜自動(dòng)識(shí)別出來(lái),那么基于MIDI格式的音樂(lè)分析算法的應(yīng)用價(jià)值就可以得到極大的拓展。當(dāng)然樂(lè)譜自動(dòng)識(shí)別的應(yīng)用價(jià)值還遠(yuǎn)不止于此,在信號(hào)處理方面其本身所具有的研究?jī)r(jià)值也非常巨大。樂(lè)譜自動(dòng)識(shí)別是計(jì)算機(jī)音樂(lè)分析與理解中的一個(gè)傳統(tǒng)研究領(lǐng)域,相關(guān)文獻(xiàn)報(bào)道比較多。從研究?jī)?nèi)容上看,樂(lè)譜自動(dòng)識(shí)別可以分為以下幾個(gè)方面:

  5.4.1音高估計(jì)與音符識(shí)別

  音高估計(jì)或音符識(shí)別是樂(lè)譜自動(dòng)識(shí)別工作的基礎(chǔ)。由于音高作為一個(gè)重要的音頻特征,在語(yǔ)音識(shí)別以及一般音頻分類(lèi)、分析等工作中都有廣泛應(yīng)用,所以有關(guān)音高估計(jì)的文獻(xiàn)比較多[72。75|,也存在一些經(jīng)典的方法,如自相關(guān)法等。目前對(duì)于單樂(lè)器在實(shí)驗(yàn)室環(huán)境下所演奏的單個(gè)音符的音高估計(jì)是比較準(zhǔn)確的,但是對(duì)實(shí)際的音樂(lè)作品或復(fù)雜條件下做音高估計(jì)則相當(dāng)困難。Chang等提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的音高估計(jì)方法[721,該方法減小了音高估計(jì)所需要的時(shí)間窗的長(zhǎng)度因而可用于音高變化較快的信號(hào),但是其計(jì)算量比較大。Kashino通過(guò)一種適應(yīng)性模板匹配的方法可以對(duì)以立體聲或單聲道的形式存儲(chǔ)的音樂(lè)進(jìn)行自動(dòng)音符識(shí)別[7引,他們的方法同時(shí)還可以識(shí)別出演奏該音符的樂(lè)器。Black等提出了一種基于泛化譜(generalized spectrum)的音高檢測(cè)和估計(jì)算法[74|,他們將基于GS的方法與經(jīng)典的自相關(guān)法和基于倒譜的方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果表明他們提出的方法在音高檢測(cè)問(wèn)題上,特別是在信噪比較低的情況下要優(yōu)于傳統(tǒng)的方法,但是在估計(jì)精度上比傳統(tǒng)方法略微遜色。Zhu等則提出了一種用于音調(diào)估計(jì)的新方法[7 5|,它既可以用于流行音樂(lè)也可以用于古典音樂(lè)。

  5.4.2節(jié)拍或節(jié)奏識(shí)別

  關(guān)于節(jié)拍或節(jié)奏識(shí)別方面的文章近年來(lái)有所增加[76-79].Goto等提出了一種針對(duì)不含有打擊樂(lè)器(如鼓)的音樂(lè)節(jié)拍跟蹤算法[7 6|.該方法不僅能夠?qū)﹂g隔不超過(guò)四分之一音符的節(jié)拍信息進(jìn)行檢測(cè),還能夠在較大的時(shí)間尺度內(nèi)對(duì)音樂(lè)節(jié)拍的結(jié)構(gòu)進(jìn)行分析,從而找到“和旋”等高級(jí)音樂(lè)結(jié)構(gòu)的改變點(diǎn)。

  Smith則利用一種基于線(xiàn)性相位Gabor變換的小波分析技術(shù)對(duì)音樂(lè)的節(jié)奏信息進(jìn)行分析[77|,他將可能的節(jié)奏信號(hào)分解為o.1Hz~100Hz的若干分量,再通過(guò)相位一致性約束對(duì)其進(jìn)行分析。他的方法對(duì)單萬(wàn)方數(shù)據(jù)計(jì)算機(jī)學(xué)報(bào)聲道的由打擊類(lèi)樂(lè)器所表達(dá)的音樂(lè)節(jié)奏比較有效。

  Gao等提出了一種基于最大后驗(yàn)估計(jì)的自適應(yīng)學(xué)習(xí)方法用于音樂(lè)信號(hào)中的速度和節(jié)拍分析【78l,實(shí)驗(yàn)結(jié)果表明該方法較為穩(wěn)定并且對(duì)分析窗寬的大小不十分敏感。Shiratori等則通過(guò)檢測(cè)伴奏音樂(lè)的節(jié)奏來(lái)分析舞蹈動(dòng)作的結(jié)構(gòu)[7?.

  5.4.3旋律或和聲提取

  音樂(lè)作品中的旋律與和聲是一種非常重要的高級(jí)信息,但是如何從基于一般音頻信號(hào)的音樂(lè)記錄中將其提取出來(lái)是十分困難的,有關(guān)的文獻(xiàn)報(bào)道并不多口”82|.Su等提出了一種基于小波變換和自組織神經(jīng)網(wǎng)絡(luò)的多音色和聲自動(dòng)識(shí)別方法[80I,他們的方法可以直接對(duì)和聲音頻片段進(jìn)行分類(lèi)而不需要知道具體的樂(lè)器音色和音符序列。Tang等介紹了幾種從MlDI文件中自動(dòng)尋找主旋律音軌的方法[8川,它們分別為AvgVel,PMRatio,SilenceRatio,Range,TrackName,經(jīng)過(guò)實(shí)驗(yàn)比較發(fā)現(xiàn)TrackName法效果最好。Chang等也提出了一種和聲識(shí)別方法[82|.該方法可分為兩個(gè)階段,在局部識(shí)別階段給出可能的和聲候選集,然后通過(guò)一些全局規(guī)則從中找出最合適的和聲作為最后的結(jié)果。然而,如何從一般的WAVE文件中尋找或表示主旋律則是一個(gè)難題。

  5.4.4復(fù)調(diào)音樂(lè)樂(lè)譜識(shí)別

  多樂(lè)器(包括演唱者)混響下的樂(lè)譜識(shí)別與分析是非常困難的,然而在實(shí)際的音樂(lè)作品中往往存在著大量的復(fù)調(diào)成分,這也是為什么樂(lè)譜自動(dòng)識(shí)別技術(shù)始終無(wú)法真正實(shí)用化的重要原因之一。有關(guān)復(fù)調(diào)音樂(lè)樂(lè)譜識(shí)別的文獻(xiàn)不多,但是最近兩年該領(lǐng)域的研究成果有所增加[83.86].Cem百l等提出了一種基于動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的復(fù)調(diào)音樂(lè)樂(lè)譜分析方法[83|,他們的方法強(qiáng)調(diào)了對(duì)聲音產(chǎn)生過(guò)程的建模,可以對(duì)復(fù)調(diào)音樂(lè)的節(jié)拍和音高軌跡進(jìn)行跟蹤,Keren等利用多分辨率傅立葉變換系數(shù)對(duì)鋼琴所演奏的復(fù)調(diào)音樂(lè)進(jìn)行樂(lè)譜識(shí)別[84|.實(shí)驗(yàn)結(jié)果表明在對(duì)演奏加以若干限制的情況下,可以得到較好的音高檢測(cè)結(jié)果。Miwa等研究了如何使用立體聲音樂(lè)信號(hào)進(jìn)行復(fù)調(diào)音樂(lè)樂(lè)譜識(shí)別[8引,他們通過(guò)比較兩個(gè)聲道信號(hào)值的比率將不同的音源分離開(kāi)從而對(duì)“三重唱”進(jìn)行樂(lè)譜識(shí)別。

  Marolt提出了一種基于聽(tīng)覺(jué)模型與自適應(yīng)振蕩器網(wǎng)絡(luò)相結(jié)合的泛音跟蹤技術(shù),它可用于復(fù)調(diào)鋼琴曲的音符自動(dòng)識(shí)別[86|.

  5.5 自動(dòng)伴奏

  自動(dòng)伴奏是一個(gè)十分有趣的問(wèn)題。一般情況下研究者們會(huì)給計(jì)算機(jī)提供機(jī)器可讀的樂(lè)譜,這個(gè)樂(lè)譜既包括了樂(lè)隊(duì)將要演奏的部分也包括了計(jì)算機(jī)將要演奏的部分。研究者們需要計(jì)算機(jī)解決的任務(wù)是一邊“聆聽(tīng)”演奏者的演出,一邊同步地為之伴奏,圖5是一個(gè)典型的計(jì)算機(jī)自動(dòng)伴奏系統(tǒng)的工作流程圖。這個(gè)任務(wù)之所以困難是因?yàn)橛?jì)算機(jī)的伴奏必需要與演員的演奏保持一致,而演奏者可能會(huì)根據(jù)演出的具體情況(比如聽(tīng)眾的反應(yīng))而做出一些改變,此外演奏者本身也可能會(huì)犯錯(cuò)誤,這就使得現(xiàn)實(shí)的演出經(jīng)常會(huì)和曲譜之間產(chǎn)生差異。另一方面,要想及時(shí)、準(zhǔn)確地知道演奏者的演奏進(jìn)度是非常困難的,這需要一個(gè)十分可靠的、實(shí)時(shí)的樂(lè)譜自動(dòng)識(shí)別與分析系統(tǒng)。有關(guān)自動(dòng)伴奏研究的歷史相對(duì)較長(zhǎng),Dannen—berg對(duì)1988年以前這個(gè)領(lǐng)域的研究狀況做了很好的綜述[3].20世紀(jì)90年代以后,有關(guān)自動(dòng)伴奏研究的文獻(xiàn)報(bào)道不算很多[87喝引。Raphael提出了一種基于HMM模型的單聲道音樂(lè)信號(hào)中的音符與休止符檢測(cè)方法[87。,通過(guò)檢測(cè)實(shí)際演奏信號(hào)中的休止符并將其與已知的相應(yīng)樂(lè)譜中的休止符位置進(jìn)行匹配,就可以達(dá)到與實(shí)際演奏保持一致的目的。他還提出了一個(gè)用于自動(dòng)伴奏的統(tǒng)計(jì)專(zhuān)家系統(tǒng)[8引,該方法可以通過(guò)利用先驗(yàn)知識(shí)、實(shí)時(shí)地從演奏者的演出信號(hào)中提取出諸如演奏速度等信息、學(xué)習(xí)演奏者的排練信號(hào)等手段改善伴奏效果。Aono等人開(kāi)發(fā)了一套自動(dòng)伴奏系統(tǒng)口9|,它可以利用普通的聲學(xué)樂(lè)器(如鋼琴、吉他等)為人們提供“即興”伴奏(即不需要伴奏樂(lè)譜)。該系統(tǒng)還可以實(shí)時(shí)識(shí)別一些簡(jiǎn)單的和旋。在實(shí)驗(yàn)中,對(duì)一些4音符和旋的正確識(shí)別率可以達(dá)到95%。

  5.6音樂(lè)情感分析

  音樂(lè)是一種復(fù)雜的聲音現(xiàn)象,許多無(wú)法用語(yǔ)言準(zhǔn)確描述的思想感情(如喜、怒、哀、樂(lè)等)可以通過(guò)音樂(lè)表達(dá)出來(lái),優(yōu)秀的音樂(lè)作品往往會(huì)使人產(chǎn)生情感上的共鳴,但是如何描述音樂(lè)對(duì)人的情感的影響是非常困難的。在4.1.3小節(jié)中,我們介紹了Feng等人的工作口引,他們將音樂(lè)對(duì)人的情緒的影響分為“快樂(lè)、悲傷、憤怒和恐懼”四類(lèi)并提出了相應(yīng)的方法萬(wàn)方數(shù)據(jù)5期張一彬等:基于內(nèi)容的音頻與音樂(lè)分析綜述對(duì)音樂(lè)進(jìn)行分類(lèi)和檢索。Milicevic則設(shè)計(jì)了一種基于情感的模糊自適應(yīng)系統(tǒng)凹?,它可以分析音樂(lè)并模仿聽(tīng)眾可能的情感反應(yīng)。研究者希望這個(gè)系統(tǒng)可以協(xié)助音樂(lè)家進(jìn)行創(chuàng)作,以獲得滿(mǎn)意的實(shí)際效果。Li等將音樂(lè)中的情感檢測(cè)看作是一個(gè)多類(lèi)分類(lèi)問(wèn)題,并迸一步將其分解為一系列兩類(lèi)分類(lèi)問(wèn)題,最后通過(guò)訓(xùn)練一系列的SVM分類(lèi)器來(lái)加以解決[91j.Liu等設(shè)計(jì)了一種被稱(chēng)為“情感環(huán)”的音樂(lè)情感模型,并在此基礎(chǔ)上結(jié)合模糊數(shù)學(xué)的處理方法對(duì)一種鈴聲音樂(lè)進(jìn)行了情感分析[92|.早在1988年,Katayose等人就提出了一個(gè)有關(guān)音樂(lè)情感分析的研究框架[93I.在他們的研究計(jì)劃中,音樂(lè)情感分析可以分為三個(gè)步驟:第一步為樂(lè)譜自動(dòng)識(shí)別,在這一步中音樂(lè)演奏的音頻信號(hào)被翻譯為音符序列;第二步為音樂(lè)粗分析,在得到音符序列的基礎(chǔ)上,結(jié)合樂(lè)理知識(shí)從音符序列中提取出諸如節(jié)奏、和聲、旋律等音樂(lè)高級(jí)結(jié)構(gòu);最后,在此基礎(chǔ)上通過(guò)設(shè)計(jì)一系列啟發(fā)式規(guī)則來(lái)實(shí)現(xiàn)音樂(lè)信號(hào)中的情感提取。實(shí)際上由于種種技術(shù)困難無(wú)法突破,這個(gè)計(jì)劃中的任何一步到目前為止都無(wú)法很好地實(shí)現(xiàn)。

  5.7 小結(jié)

  與語(yǔ)音信號(hào)處理與識(shí)別相比,計(jì)算機(jī)音樂(lè)分析與識(shí)別是一個(gè)新興盼研究領(lǐng)域,其中包含了大量的問(wèn)題有待于學(xué)者們?nèi)ミM(jìn)一步探索和研究。面對(duì)音樂(lè)這樣一種復(fù)雜的、非自然的聲音現(xiàn)象,我們?cè)撊绾螌?duì)其進(jìn)行分析和研究呢?這本身就是一個(gè)有趣的課題。從大量的研究成果來(lái)看,基本可以分為兩種思路:一種是自底向上的研究方法,即分析法,例如樂(lè)譜自動(dòng)識(shí)別等。這類(lèi)方法首先著眼于識(shí)別比較微觀的音樂(lè)元素,并希望在此基礎(chǔ)上進(jìn)一步對(duì)宏觀的音樂(lè)現(xiàn)象進(jìn)行分析。但是由于音樂(lè)信號(hào)的高度復(fù)雜性,即便是對(duì)一些微觀的音樂(lè)元素在復(fù)雜情況下也很難達(dá)到較為理想的識(shí)別率,如復(fù)調(diào)下的音符識(shí)別等;另一方面由于實(shí)際應(yīng)用的需要,我們又希望能夠?qū)σ恍┥婕暗揭魳?lè)理解層面的問(wèn)題進(jìn)行分析和研究,如音樂(lè)情感分析等。這時(shí)采用基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法就成為了一種比較自然的選擇,但是單純采用這類(lèi)方法很難觸及到問(wèn)題的實(shí)質(zhì)。如何提取本質(zhì)特征便成為了解決問(wèn)題的關(guān)鍵。由于計(jì)算機(jī)音樂(lè)分析與識(shí)別本身具有多學(xué)科交叉性,模式識(shí)別、信號(hào)處理等只是我們的研究工具和手段,所以如何更好地利用音樂(lè)理論自身提供的知識(shí)將會(huì)成為該研究領(lǐng)域的一個(gè)發(fā)展方向。

  6、其它相關(guān)工作

  6.1計(jì)算機(jī)音樂(lè)合成

  所謂計(jì)算機(jī)音樂(lè)合成是指利用計(jì)算機(jī)自動(dòng)生成音樂(lè)演奏或演唱中的一些特殊的效果、音色甚至具有某種風(fēng)格的音樂(lè)作品。它可以分為以下兩部分:

  6.1.1 音效合成

  音效合成是指利用計(jì)算機(jī)自動(dòng)生成音樂(lè)演奏或演唱中的一些特殊的效果和音色,例如:Meron等研究了如何通過(guò)計(jì)算機(jī)手段自動(dòng)生成美聲唱法中的顫音效果[9 4I.他們把所謂的顫音效果建模為對(duì)某個(gè)演唱音高的調(diào)制,但是簡(jiǎn)單的串聯(lián)調(diào)制合成法不能產(chǎn)生出自然的顫音效果。在他們的方法中,通過(guò)確保調(diào)制前的原始音高與調(diào)制后的顫音的相位一致,可以最小化所需的調(diào)制量從而得到更為自然的顫音效果。Bradley等則研究了如何自動(dòng)合成高質(zhì)量的吉他音色[9 5|,為此他們提出了一種改進(jìn)了的吉他琴弦震動(dòng)模型和吉他琴體聲學(xué)模型。

  6.1.2 自動(dòng)作曲

  我們經(jīng)?梢园l(fā)現(xiàn)某個(gè)作曲家的作品會(huì)具有某種特殊的風(fēng)格。那么有沒(méi)有可能通過(guò)分析這個(gè)作曲家的大量作品,從而利用計(jì)算機(jī)來(lái)自動(dòng)創(chuàng)作出類(lèi)似的音樂(lè)作品呢?或者通過(guò)分析具有不同風(fēng)格的大量音樂(lè)作品,從而利用計(jì)算機(jī)來(lái)生成全新風(fēng)格的音樂(lè)作品呢?這顯然又是一個(gè)十分有趣和困難的問(wèn)題,這樣的研究工作被稱(chēng)為計(jì)算機(jī)自動(dòng)作曲或自動(dòng)創(chuàng)作H’96。98|.Cope于1991年介紹了他的EMI(Experi—ments in MusicalIntelligence)研究計(jì)劃[96I,構(gòu)想中的一個(gè)EMI子計(jì)劃是一個(gè)專(zhuān)家系統(tǒng),它可以利用模式識(shí)別技術(shù)來(lái)創(chuàng)造“重組”音樂(lè)。首先它將音樂(lè)作品分解為由音符組成的若于模式,然后對(duì)其進(jìn)行分析,最后將這些模式重新組合起來(lái)從而創(chuàng)作出新的“音樂(lè)”。Tseng設(shè)計(jì)了一個(gè)基于內(nèi)容的音樂(lè)自動(dòng)檢索系統(tǒng)——“Crystal”[97……它的一個(gè)特點(diǎn)是可以隨機(jī)地生成一些旋律片段,用戶(hù)可以試聽(tīng)這些旋律片段并選擇其一作為查詢(xún)內(nèi)容,從而實(shí)現(xiàn)“o輸入”情況下的基于內(nèi)容音樂(lè)檢索。Srinivasan則利用線(xiàn)性預(yù)測(cè)技術(shù)對(duì)音樂(lè)的動(dòng)態(tài)特性進(jìn)行分析,在此基礎(chǔ)上提出了一種“音樂(lè)即興創(chuàng)作”技術(shù),并將其用于為視頻自動(dòng)生成背景音樂(lè)[9引。20世紀(jì)90年代以后,隨著遺傳算法和進(jìn)化計(jì)算技術(shù)的迅速發(fā)展,許多學(xué)者將其應(yīng)用到計(jì)算機(jī)自動(dòng)作曲領(lǐng)域中來(lái)。Burton等對(duì)該技術(shù)在計(jì)算機(jī)音樂(lè)分析領(lǐng)域中的應(yīng)用做了全面的綜述[4].

  6.2 其它工作

  還有一些其他的有關(guān)計(jì)算機(jī)音樂(lè)分析與理解方面的工作,列舉如下:Rothman等研究了如何通過(guò)一個(gè)人的語(yǔ)音特性分辨此人是不是職業(yè)歌手[9 9……Fragoulis等研究了高質(zhì)量的CD音樂(lè)與其它相應(yīng)的低質(zhì)量的、嚴(yán)重變形的音樂(lè)(如廣播音樂(lè))之間的匹配與識(shí)別問(wèn)題[1”:。Politis等則通過(guò)心理學(xué)的方法將不同的音樂(lè)現(xiàn)象與不同的色彩聯(lián)系起來(lái)并繪制出“音樂(lè)圖像,[1。川,他們?cè)噲D通過(guò)這種方法來(lái)揭示~維音樂(lè)信號(hào)中的“隱藏維數(shù)”。1wahama等提出了一種基于MIDI音樂(lè)的網(wǎng)上自動(dòng)推薦系統(tǒng)[102].文獻(xiàn)[103]則對(duì)音樂(lè)水印技術(shù)及其應(yīng)用進(jìn)行了研究。

  7、總結(jié)與展望

  本文對(duì)近年來(lái)基于內(nèi)容的音頻與音樂(lè)分析領(lǐng)域所取得的研究成果進(jìn)行了全面的綜述。從研究對(duì)象上看,由于音樂(lè)在人類(lèi)社會(huì)中所占有的特殊地位,它必將成為音頻處理領(lǐng)域中繼語(yǔ)音之后的又一個(gè)研究熱點(diǎn)。由于音樂(lè)是一種十分復(fù)雜的聲音對(duì)象,這種復(fù)雜性無(wú)論是在形式上還是內(nèi)涵上都得以充分的體現(xiàn)。和語(yǔ)音信號(hào)相比音樂(lè)還具有非語(yǔ)義符號(hào)性和很強(qiáng)的模糊性,這使得它比語(yǔ)音信號(hào)更具挑戰(zhàn)性。從目前的研究狀況和應(yīng)用需求來(lái)看,在可預(yù)見(jiàn)的將來(lái),基于內(nèi)容的音樂(lè)自動(dòng)分類(lèi)和檢索以及樂(lè)譜自動(dòng)識(shí)別等仍將是計(jì)算機(jī)音樂(lè)分析與識(shí)別領(lǐng)域的主要研究方向,有關(guān)音樂(lè)理解方面的研究(比如音樂(lè)自動(dòng)摘要、音樂(lè)情感分析等)也會(huì)成為重要的研究熱點(diǎn)。

  此外,音頻處理技術(shù)與視頻處理技術(shù)相結(jié)合的視聽(tīng)多媒體數(shù)據(jù)分析是另一個(gè)很有前途的研究方向。傳統(tǒng)的方法一般從視頻信息人手去尋找線(xiàn)索,對(duì)視聽(tīng)數(shù)據(jù)進(jìn)行分割,音頻數(shù)據(jù)中所包含的信息沒(méi)有被利用上。但是在許多情況下,單純使用視頻分割方法是非常困難的,如果能將音頻信息利用起來(lái)無(wú)疑可以大大提高分割效率。由于音樂(lè)在多媒體中的音頻部分占有很大的比重,如果可以將音樂(lè)分析和識(shí)別的技術(shù)與視頻分析技術(shù)相結(jié)合的話(huà),那將為多媒體數(shù)據(jù)的分割、檢索帶來(lái)極大的便利。目前這個(gè)研究方向已經(jīng)成為了一個(gè)研究熱點(diǎn),相關(guān)的文獻(xiàn)報(bào)道也比較多。但令人遺憾的是,大多數(shù)研究成果往往只是將音頻分析技術(shù)簡(jiǎn)單地用于視頻分析,而沒(méi)有做到和視頻分析技術(shù)有機(jī)地結(jié)合起來(lái),實(shí)現(xiàn)算法上的優(yōu)勢(shì)互補(bǔ)。如何將音頻分析技術(shù)與視頻分析技術(shù)更加完美地結(jié)合起來(lái)已經(jīng)成為這個(gè)研究方向所面臨的主要難題之一。

【基于內(nèi)容的音頻與音樂(lè)分析綜述】相關(guān)文章:

基于高效環(huán)保的治蟲(chóng)技術(shù)綜述03-18

基于IIS總線(xiàn)的嵌入式音頻系統(tǒng)設(shè)計(jì)03-18

基于內(nèi)容的圖像檢索研究11-20

基于IFE矩陣的CPM分析03-21

基于VHDL的DDS的設(shè)計(jì)與分析03-07

基于資源與能力的競(jìng)爭(zhēng)力理論研究綜述03-23

基于聚類(lèi)分析的數(shù)據(jù)挖掘方法03-08

基于企業(yè)系統(tǒng)觀的本錢(qián)分析02-27

基于桐梓河水文特性分析03-23