跳至內容

英文维基 | 中文维基 | 日文维基 | 草榴社区

聲紋辨識

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書

聲紋辨識Acoustic fingerprint)是通過特定演算法從音訊訊號中提取的一段數字摘要,用於辨識聲音樣本或者快速定位音訊資料庫中的相似音訊。

音訊壓縮技術的進步以及大容量記憶體的出現使得網際網路上出現了以音樂為主的海量音訊資訊,手工選取某首歌曲很多時候已經變得不可能,這直接促使產生了可以進行音樂自動辨識的數字音訊指紋技術。

應用

[編輯]

聲紋辨識的實踐應用包括:辨識歌曲記錄旋律音調廣告廣播監控對等網路監控;聲效庫管理;影片檔案辨識,甚至更多。

屬性

[編輯]

音訊指紋是指可以代表一段音樂重要聲學特徵的基於內容的緊緻數位簽章,其主要目的是建立一種有效機制來比較兩個音訊資料的感知聽覺品質。注意這裡不是直接比較通常很大的音訊資料本身,而是比較其相應通常較小的數字指紋。大量音訊資料的指紋和其相應的元資料比如歌曲名稱、詞曲作者、歌詞等內容一起儲存在一個資料庫中,並採用指紋作為相應元資料的索引。

一個音訊指紋系統通常包括兩個部分:即一個計算聽覺重要特徵的指紋提取演算法和一個在指紋資料庫中進行有效搜尋的比對演算法。當要辨識一段未知音訊時,首先按照指紋提取演算法計算其音訊特徵,然後和資料庫中儲存的大量音訊指紋相比對從而進行辨識。一個有效的指紋提取演算法和指紋比對演算法能夠在資料庫中正確辨識出可能經受各種訊號處理失真的未知音訊的原始版本。若辨識到對應的原始指紋,則可提取出相應的元資料資訊返回給使用者。

一個健壯的聲紋辨識辨識演算法必須考慮到聲音的感知特性。如果兩段音訊檔人們聽起來是一樣的,即便它們的二進制表示形式不一樣,它們的聲紋辨識也應該是相同的或者非常相似的。(因此,聲紋辨識從嚴格意義上講並不屬於——真正的指紋——必須能夠區分資料上任何細小的差別。)

不同的音訊壓縮技術(包括:MP3WMAVorbis等)在對音訊檔的二進制編碼方式上雖然有較大差別,但是卻不影響音訊檔播放的效果。健壯的聲紋辨識辨識演算法應該能夠正確的辨識出經過壓縮的音訊檔,甚至在音訊品質有明顯下降的情況下也能夠正確辨識。在用於廣播監控時,聲紋辨識辨識演算法還應能忽略類比傳輸對音訊造成影響。

另一方面,優秀的聲紋辨識辨識演算法能夠在眾多音訊記錄中辨識出特殊的主記錄。在用於法庭證物時,聲紋辨識必須保證其準確性。

實現

[編輯]
  • Midomi,利用上傳使用者哼出的或錄製的樂曲片段搜尋對應的音樂曲目。
  • Shazam