專利名稱:音頻信號(hào)中重復(fù)素材的自動(dòng)識(shí)別的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及媒體文件中的模式識(shí)別和辨別,更為具體地,本發(fā)明涉及 對(duì)一個(gè)或多個(gè)媒體流上的媒體信號(hào)、尤其是音頻信號(hào)中的重復(fù)素材的識(shí) 別。
背景技術(shù):
音樂(lè)或視頻內(nèi)容的版權(quán)所有者,通常針對(duì)每一次播放他們的歌曲或視 頻的情況會(huì)被給予補(bǔ)償。尤其是對(duì)于音樂(lè)版權(quán)所有者,確定上千個(gè)廣播電 臺(tái)中的任何一個(gè)上通過(guò)空中、而現(xiàn)在是在互聯(lián)網(wǎng)上何時(shí)播放他們的歌曲是 一件令人生畏的任務(wù)。傳統(tǒng)上,版權(quán)所有者將在這種情況下的版稅收取移 交給第三方公司,由笫三方公司向?yàn)樯虡I(yè)目的而播放音樂(lè)的實(shí)體收取訂購(gòu) 費(fèi),以補(bǔ)償其目錄上的版權(quán)所有者。這些費(fèi)用隨后基于統(tǒng)計(jì)模型分發(fā)給版 權(quán)所有者,該統(tǒng)計(jì)模型是為補(bǔ)償那些版權(quán)所有者而依照哪些歌曲播放最多 而設(shè)計(jì)的。這些統(tǒng)計(jì)模型僅僅是對(duì)基于小的采樣大小的實(shí)際播放實(shí)例的非 常粗略的估計(jì)。
2006年1月4日授權(quán)的美國(guó)專利No. 6, 990, 453描述了一種用于將來(lái) 自媒體流、如廣播電臺(tái)信號(hào)的未知媒體樣本與諸如歌曲數(shù)據(jù)庫(kù)的已知媒體 文件進(jìn)行比較的系統(tǒng)和方法,以便跟蹤已知歌曲的播放情況。遺憾的是, 由于多種原因,媒體流的許多內(nèi)容事先并不知道。例如,諸如脫口秀、唱 片節(jié)目即DJ的介紹或?qū)υ捯约捌渌愃频囊纛l的獨(dú)特音頻代表不可被識(shí) 別的獨(dú)特音頻。
然而,可能有其它未被識(shí)別的音頻,用來(lái)監(jiān)視音頻流的系統(tǒng)可對(duì)其感
興趣,并且實(shí)際上其可與應(yīng)被補(bǔ)償?shù)陌鏅?quán)所有者相關(guān)聯(lián)。這種所感興趣的 未被識(shí)別的音頻可以是先前沒(méi)有索引的歌曲或可使用版權(quán)音樂(lè)的商業(yè)廣 告或其它已識(shí)別的和重復(fù)的音頻段。這些未被識(shí)別的音頻段可以在單個(gè)媒 體流內(nèi)重復(fù),或者在多個(gè)^^體流上重復(fù),所述多個(gè)i^體流如在多個(gè)廣播電 臺(tái)上播放的區(qū)域商業(yè)廣告。
需要一種用于對(duì)一個(gè)或多個(gè)以其它方式未被識(shí)別的媒體流中的重復(fù) 段或樣本進(jìn)行識(shí)別的系統(tǒng)和方法,其中,該系統(tǒng)和方法能夠?qū)颖九c先前 被采指紋的或索引的樣本進(jìn)行匹配,以發(fā)現(xiàn)重復(fù)的未被識(shí)別的媒體的發(fā) 生。
發(fā)明內(nèi)容
因此,本申請(qǐng)描述了一種在沒(méi)有重復(fù)素材的特性的先驗(yàn)知識(shí)的情況下
對(duì)至少一個(gè)媒體流內(nèi)重復(fù)的音頻素材進(jìn)行識(shí)別的方法。所述方法包括根 據(jù)一個(gè)或多個(gè)媒體流創(chuàng)建篩選數(shù)據(jù)庫(kù)(screening database),從媒體流 中取得未知樣本音頻片段,在媒體流內(nèi)尋找匹配片段,并確定所述未知樣 本是否與篩選數(shù)據(jù)庫(kù)中的M樣本匹配。
在另 一實(shí)施例中,描述了 一種用于對(duì)未被識(shí)別的^^體內(nèi)容的至少一個(gè) 源中的未被識(shí)別的媒體內(nèi)容的重復(fù)段進(jìn)行識(shí)別的系統(tǒng)。該系統(tǒng)包括候選者 管理器,該候選者管理器接收未被識(shí)別的^^,并且將標(biāo)識(shí)符與該未被識(shí)
別的媒M;M目關(guān)聯(lián)。該系統(tǒng)還包括指紋生成器,該指紋生成器可IMt 用于為未被識(shí)別的媒^IS:創(chuàng)建指紋;以及媒體搜索引擎,該媒體搜索引擎 連接到候選者管理器和指紋生成器,能夠?qū)⑽幢蛔R(shí)別^t體的指紋與先前存 儲(chǔ)的未被識(shí)別的媒體指紋數(shù)據(jù)庫(kù)進(jìn)行比較,以便尋找未被識(shí)別媒體內(nèi)容內(nèi) 的重復(fù)段。
前面相當(dāng)寬泛地概述了本發(fā)明的特征和技術(shù)優(yōu)點(diǎn),以4更更易于理解對(duì) 本發(fā)明的后續(xù)詳細(xì)描述。本發(fā)明的另外的特征和優(yōu)點(diǎn)將在下文中描述,其 構(gòu)成本發(fā)明的權(quán)利要求的主題。本領(lǐng)域的普通技術(shù)人員應(yīng)理解,所揭示的 概念和特定實(shí)施例可以容易地用作修改或設(shè)計(jì)用于執(zhí)行本發(fā)明的相同目 的的其它結(jié)構(gòu)的基礎(chǔ)。本領(lǐng)域的普通技術(shù)人員還應(yīng)認(rèn)識(shí)到,這種等同結(jié)構(gòu) 不背離如所附權(quán)利要求中所闡述的本發(fā)明的精神和范圍。根據(jù)結(jié)合附圖的 以下描述,將更易于理解被相信是本發(fā)明特性的有關(guān)其識(shí)別和操作方法的 新穎性特征以及進(jìn)一步的目的和優(yōu)點(diǎn)。然而,應(yīng)清楚地理解,提供的每個(gè)
圖僅用于說(shuō)明和描述的目的,而并非作為對(duì)本發(fā)明的限制的定義。
為了更完整的理解本發(fā)明及其優(yōu)點(diǎn),參考以下結(jié)合附圖的描述,在附
圖中
圖1是創(chuàng)建未被識(shí)別的音頻流中感興趣的項(xiàng)目的數(shù)據(jù)庫(kù)的系統(tǒng)實(shí)施 例的才匡圖2是用于創(chuàng)建NRA的匹配重復(fù)段的方法實(shí)施例的流程圖3是用于實(shí)施這里所描述的采指紋和定界標(biāo)系統(tǒng)的計(jì)算機(jī)系統(tǒng)實(shí) 施例的框圖4是用于構(gòu)建聲音文件的數(shù)據(jù)庫(kù)索引的方法實(shí)施例的流程圖5示意性圖示了為聲音樣本如NRA段所計(jì)算的界標(biāo)和指紋;以及
圖6是用于將NRA樣本或段與先前被釆指紋的或索引的NRA樣本或段 進(jìn)行匹配的方法實(shí)施例的流程圖。
具體實(shí)施例方式
現(xiàn)在通常的做法是使用自動(dòng)化的方法來(lái)識(shí)別包含在音頻信號(hào)內(nèi)的預(yù) 錄制的素材,所述音頻信號(hào)如無(wú)線電或電視廣播的記錄、或在諸如夜總會(huì) 等的公共場(chǎng)所內(nèi)的表演素材的記錄。不管所使用的技術(shù)如何,這些方法需 要預(yù)先訪問(wèn)待識(shí)別的素材,以便可將信號(hào)與參考數(shù)據(jù)庫(kù)中的已知內(nèi)容匹 配。對(duì)于大多數(shù)素材,這不是個(gè)問(wèn)題,因?yàn)樵撍夭目赡芤呀?jīng)被商用了一段 時(shí)間,如音樂(lè)CD的情況。但是,也有相當(dāng)百分比的音頻信號(hào)是由可能不 易得到的素材構(gòu)成的,例如,如在商業(yè)發(fā)行日之前的音樂(lè)、廣告素材、或 為廣播電臺(tái)識(shí)別的目的而寫的音樂(lè)。
對(duì)于在對(duì)音頻信號(hào)內(nèi)容進(jìn)行精確量化中所涉及的那些,這帶來(lái)了兩個(gè) 問(wèn)題
(1)應(yīng)被識(shí)別的素材未被識(shí)別,因?yàn)樵撍夭奈幢话趨⒖紨?shù)據(jù)庫(kù)中, 以及
(2 )當(dāng)不包含所興趣的素材時(shí),信號(hào)的基本部分不能通過(guò)手動(dòng)檢查來(lái) 去除,因?yàn)樽詣?dòng)化方法不明確地將其識(shí)別為不感興趣的
音頻可以例如4吏用Wang的技術(shù)(序列號(hào)為60/563, 372的美國(guó)臨時(shí)專 利申請(qǐng),其4^P內(nèi)^t過(guò)引用結(jié)合于此)直接被識(shí)別和分段,其中,從數(shù) 據(jù)庫(kù)中被識(shí)別的音頻被分段成已知的區(qū)域,剩余的區(qū)域留下作為未被識(shí)別 的音頻(NRA)。 Wang的方法限于識(shí)別已經(jīng)在數(shù)據(jù)庫(kù)中的內(nèi)容,而不能對(duì) 未包含在數(shù)據(jù)庫(kù)中的素材進(jìn)行識(shí)別和分段。
為克服該限制,使用一種"篩分(sifting)"方法來(lái)檢查來(lái)自故j&測(cè) 的媒體流的未被識(shí)別的音頻段(NRA ),并檢驗(yàn)其是否與最近的其它段或段 的部分匹配。 一旦發(fā)現(xiàn)這樣的匹配,其將被分段并被包括于參考數(shù)據(jù)庫(kù)中, 從而允許創(chuàng)建數(shù)據(jù)庫(kù),而不用事先訪問(wèn)感興趣的目標(biāo)素材。
圖1示出了創(chuàng)建NRA流中感興趣項(xiàng)目的數(shù)據(jù)庫(kù)的系統(tǒng)。系統(tǒng)10從未 被識(shí)別的音頻源11中獲取NRA流12,并識(shí)別可能感興趣的NRA內(nèi)的重復(fù) 段。NRA段12^LiL送到候選者管理器13,該候選者管理器收集媒體流中 數(shù)據(jù)的每個(gè)實(shí)例并用唯一的標(biāo)識(shí)符來(lái)標(biāo)記。候選者管理器13隨后發(fā)送NRA 到指紋生成器14,在指紋生成器中,對(duì)來(lái)自NRA的原始音頻段進(jìn)行處理, 以提取指紋特征,并被索引到可搜索的數(shù)據(jù)庫(kù)中。音頻搜索引擎16響應(yīng) 來(lái)自候選者管理器14的音頻搜索請(qǐng)求,并使用來(lái)自指紋生成器14的NRA 指紋15將NRA段與先前被索引的NRA段的數(shù)據(jù)庫(kù)進(jìn)行比較。音頻搜索引 擎16記錄NRA段與索引的NRA段的匹配。當(dāng)NRA的特定段積累了一定閾 值數(shù)量的匹配時(shí),這意味著該系統(tǒng)IO在一個(gè)或多個(gè)音頻流上多次看見(jiàn)了 相同的音頻內(nèi)容,該音頻段被確定為感興趣的,足以保證明確的識(shí)別。這 通過(guò)公布其重要內(nèi)容、所公布的指紋18,并將其添加到其它已識(shí)別的搜 索引擎19來(lái)實(shí)現(xiàn)。
在所監(jiān)測(cè)的音頻流中那些具有多次匹配的重要的NRA段可需要^Jl 送,以便被明確地識(shí)別和分類。識(shí)別所述重要的NRA段可需要將其發(fā)送給 人類操作員,該操作員將收聽(tīng)該音頻以作出明確的識(shí)別。該人類操作員將 識(shí)別該音頻,并輸入必要的信息,以使該重要的NRA段被添加到已知的音 頻內(nèi)^lt據(jù)庫(kù),如通過(guò)引用結(jié)合于此的其它申請(qǐng)中所描述的。
參考圖2來(lái)描述一種用于識(shí)別重復(fù)素材的方法。方法20從一個(gè)或多 個(gè)媒體流中收集未知的(NRA)音頻用于篩分,其中,音頻數(shù)據(jù)的每個(gè)實(shí) 例具有唯一的時(shí)間戳參考(這種時(shí)間戳參考隨時(shí)間而增加,并可被擴(kuò)充以 流標(biāo)識(shí)符)'
包含來(lái)自最近的被監(jiān)測(cè)的媒體流的未知(NRA)音頻節(jié)目素材的篩選 數(shù)據(jù)庫(kù)被創(chuàng)建,用于篩選,其中原始音頻記錄被處理,以提取指紋特征并
被索引到可搜索的數(shù)據(jù)庫(kù)中。以下文獻(xiàn)中公開(kāi)了用于準(zhǔn)備這種數(shù)據(jù)庫(kù)的方
法Wang和Smith (在國(guó)際公布號(hào)WO 02/11123 A2中描述,其名稱為 "System and Methods for Recognizing Sound and Music Signals in High Noise and Distortion,,并要求2000年7月31日提交的美國(guó)臨時(shí)申 請(qǐng)No. 60/222, 023和2001年4月21日提交的序列號(hào)為09/839, 476的美 國(guó)申請(qǐng)的優(yōu)先權(quán),(下文中將其為"Wang and Smith"),其內(nèi)^if過(guò)引用 結(jié)合于此);或Wang和Culbert(在國(guó)際公布號(hào)WO 03/091990 Al中描述, 其名稱為"Robust and Invariant Audio Pattern Matching,,并要求2002 年4月25日提交的美國(guó)臨時(shí)申請(qǐng)60/376, 055的優(yōu)先權(quán),其內(nèi)^f過(guò)引用 結(jié)合于此(下文中將其稱為"Wang and Culbert"))。使用來(lái)自"Wang and Smith"或"Wang and Culbert"的這些特定方法是說(shuō)明性的,而不應(yīng)理 解為限制性的。
為了處理自動(dòng)分段,來(lái)自未知媒體流素材的短的探測(cè)片段被提交給圖 1中的音頻搜索引擎16用于識(shí)別,該圖具體體現(xiàn)了如"Wang and Smith" 或"Wang and Culbert,,中的識(shí)別技術(shù),引入了篩選數(shù)據(jù)庫(kù),并如過(guò)程21 所示。在過(guò)程22中,確定NRA是否與任何先前被采指紋的候選者匹配。 然后,在過(guò)程23中,匹配段從未知的媒體流中被識(shí)別,并且該辨別被添 加到現(xiàn)有候選者中。
如果探測(cè)片段F。 (0)被識(shí)別,來(lái)自篩選數(shù)據(jù)庫(kù)的匹配結(jié)果F。,k (0)(其中 k是匹配索引)被分組到匹配片段列表中。任務(wù);UL現(xiàn)匹配段匹配的邊界 和匹配質(zhì)量。為此,相鄰探測(cè)片段F。(t)(其中t是相對(duì)于F。(0)的時(shí)間偏 移)被提交用于識(shí)別,并且獲取其對(duì)應(yīng)的匹配片段列表。針對(duì)連續(xù)性對(duì)于 對(duì)應(yīng)的匹配片段列表進(jìn)行掃描,即相鄰探測(cè)片^fr哪里映射到基本上相鄰 的匹配片段。相鄰探測(cè)片段鏈可以映射到片段的一個(gè)或多個(gè)匹配并行鏈。 這樣的并行鏈?zhǔn)纬珊蜻x者組。每個(gè)匹配并行鏈在時(shí)間上向兩個(gè)方向盡可 能地?cái)U(kuò)展,以形成最大匹配并行鏈。候選者分段點(diǎn)是在多個(gè)匹配并行g(shù) 本同時(shí)結(jié)束或開(kāi)始之處。
最大匹配并行鏈集可具有不同長(zhǎng)度以及還有不同的端點(diǎn)。這可能是由 重復(fù)節(jié)目段的分層嵌套造成的。有差別的分段可能是由歌曲或廣告的不同 版M成的。可替選地, 一些重復(fù)素材可以^L嵌進(jìn)重復(fù)節(jié)目中通常無(wú)線 電節(jié)目在全天中^L播送多次。
一種確定分段層次的方式是根據(jù)其匹配片段列表中匹配元素的數(shù) 量,對(duì)每個(gè)片段處的并行鏈加權(quán)。具有最高權(quán)重的并行鏈集最有可能成為
原子節(jié)目段(atomic program segment),如歌曲或廣告。具有次最高權(quán) 重的并行鏈可能是由于包含原子節(jié)目段的重復(fù)廣播節(jié)目,例如對(duì)于每小時(shí) 新聞播放或循環(huán)播送的排名前40的暢銷歌曲。高權(quán)重的并行鏈?zhǔn)浅蔀樵?子節(jié)目段的好的候選者,并且可以被提升為在參考數(shù)據(jù)庫(kù)中進(jìn)行公布,用 于廣告或歌曲的識(shí)別。用于公布的準(zhǔn)則可包括下列M:組內(nèi)的候選者數(shù) 量(該素材已被重復(fù)了多少次)以及候選者之間相互關(guān)系的準(zhǔn)確性,例如, 選擇相對(duì)于其匹配片段列表的其它元素具有最好的總的以對(duì)的方式的相 互分?jǐn)?shù)的段。一_^/>布,提供原音頻樣本的源媒體流可以被拷貝以提供鄰 接的音頻樣本,所述原音頻樣本對(duì)應(yīng)于重復(fù)素材的最佳匹配范本。"最佳" 范本可能需要被識(shí)別的原因通常是因?yàn)橹T如音軌(咖sical track)的一 些重復(fù)素材可能與非重復(fù)素材重疊,所述非重復(fù)素材諸如節(jié)目主持人談?wù)?音樂(lè)。"最佳"候選者將是具有最少量此類偽內(nèi)容的一個(gè)。
返回圖2,過(guò)程24對(duì)已被識(shí)別的候選者進(jìn)行評(píng)估,以確定它們是否 滿足用于公布的閾值,如過(guò)程25所示。如果候選者準(zhǔn)備就緒,其將被公 布,如過(guò)程29所示。如果在過(guò)程25中候選者沒(méi)有準(zhǔn)備好公布,則在過(guò)程 26中向搜索引擎數(shù)據(jù)庫(kù)添加任何附加的信息。返回過(guò)程22,如果NRA段 未被識(shí)別,該方法跳到過(guò)程26,該過(guò)程中該段被添加到搜索引擎數(shù)據(jù)庫(kù)。
1^在過(guò)程27中,方法20確定是否有未被匹配的任何舊的NRA準(zhǔn)備 要被清除。由于許多音頻流是^^逸不會(huì)被匹配的獨(dú)特的音頻,如現(xiàn)場(chǎng)脫口 秀、無(wú)線電臺(tái)宣傳或僅僅是無(wú)線電臺(tái)名人或DJ的談話,這些信息需要從 系統(tǒng)中清除,以讓出空間給被處理的新NRA。如果有準(zhǔn)M清除的NRA, 如根據(jù)時(shí)間戳、用于新MA內(nèi)容的存儲(chǔ)器的可用性或者其組合或其它因素 所確定的,則所述方法前進(jìn)到過(guò)程28,將舊的NRA清除。如果在過(guò)程28 中沒(méi)有要清除的NRA或者如果舊的NRA已經(jīng)被清除,則該過(guò)程結(jié)束。本領(lǐng) 域的普通技術(shù)人員應(yīng)認(rèn)識(shí)到,方法20是個(gè)連續(xù)的過(guò)程,當(dāng)所處理的NRA 通過(guò)該方法中其它過(guò)程時(shí),其不斷地試圖識(shí)別新的NRA。
上述過(guò)程可以被解釋為工作于固定的一批未知音頻流素材。然而,其 可被加強(qiáng)為在增量的基礎(chǔ)上來(lái)處理數(shù)據(jù)。當(dāng)捕獲到新的d^體流內(nèi)容時(shí),將 其添加到篩選數(shù)據(jù)庫(kù)中。如上所述,新素材還用于形成探測(cè)片段,并針對(duì) 重復(fù)素材對(duì)其進(jìn)行掃描。此外,舊素材可以從篩選數(shù)據(jù)庫(kù)中去除,從而防 止數(shù)據(jù)庫(kù)無(wú)限制地增長(zhǎng)。根據(jù)"Wang and Smith", —種實(shí)現(xiàn)其的方式是 當(dāng)新數(shù)據(jù)到來(lái)而舊數(shù)據(jù)退出時(shí),使用未知媒體流素材的移動(dòng)窗口持續(xù)地重 新產(chǎn)生篩選數(shù)據(jù)庫(kù)。
參考圖3-6來(lái)描^]"NRA段進(jìn)行釆指紋和索引的實(shí)施例。
本發(fā)明不限于任何特定的硬件系統(tǒng),圖3中示意性圖示了計(jì)算機(jī)系統(tǒng) 30的實(shí)施例的示例,該計(jì)算機(jī)系統(tǒng)可以是或可以不是分布式的,用于對(duì) 媒M如NRA段進(jìn)行采指紋和定界標(biāo)。系統(tǒng)30的處理器32a-32f通過(guò)多 處理總線結(jié)構(gòu)34或諸如Beowulf簇計(jì)算協(xié)議的組網(wǎng)協(xié)議或者兩者的混合 來(lái)連接。在這種設(shè)置中,數(shù)據(jù)庫(kù)索引優(yōu)選地存儲(chǔ)于簇中至少一個(gè)節(jié)點(diǎn)32a 上的隨機(jī)訪問(wèn)存儲(chǔ)器(RAM)中,從而確保指故搜索快速地進(jìn)行。對(duì)應(yīng)于 其它對(duì)象的計(jì)算節(jié)點(diǎn),如定界標(biāo)節(jié)點(diǎn)32c和32f 、采指紋節(jié)點(diǎn)32b和32e 以及對(duì)準(zhǔn)掃描節(jié)點(diǎn)32d,不象支持?jǐn)?shù)據(jù)庫(kù)索引的一個(gè)或多個(gè)節(jié)點(diǎn)32a那樣 需要大量RAM。分配給每個(gè)對(duì)象的計(jì)算節(jié)點(diǎn)的數(shù)量因而可以根據(jù)需要來(lái)縮 放,使得任何單個(gè)對(duì)象都不會(huì)成為瓶頸。計(jì)算網(wǎng)絡(luò)因而是可高度并行的, 并可額外處理在可用計(jì)算資源之間分布的多個(gè)并發(fā)的信號(hào)識(shí)別查詢。
在替選實(shí)施例中,某些功能對(duì)M更加緊密地耦合在一起,而剩余的 與其它對(duì)*^合得不那么緊密。例如,定界標(biāo)和采指紋對(duì)象可以駐留在與 其余計(jì)算對(duì)象物理分離的位置。這種情況的一個(gè)示例是,定界標(biāo)和采指紋 對(duì)象與信號(hào)捕獲過(guò)程的緊密關(guān)聯(lián)。在這種設(shè)置中,定界標(biāo)和采指紋對(duì)象可 以被合并為被嵌入到例如移動(dòng)電話、無(wú)線應(yīng)用協(xié)議(WAP)瀏覽器、個(gè)人 數(shù)字助理(PDA)或諸如音頻搜索引擎的客戶端的其它遠(yuǎn)程終端的額外的 硬件或軟件。在基于互聯(lián)網(wǎng)的音頻搜索服務(wù)如內(nèi)容識(shí)別服務(wù)中,定界標(biāo)和 采指紋對(duì)象可以作為鏈接的軟件指令集或如微軟動(dòng)態(tài)鏈接庫(kù)的軟件插件 模塊被合并入客戶瀏覽器應(yīng)用中。在這些實(shí)施例中,結(jié)合的信號(hào)捕獲、定 界標(biāo)以及采指^f象構(gòu)建了服務(wù)的客戶端。該客戶端向執(zhí)行識(shí)別的服務(wù)器 端發(fā)送包含界標(biāo)和指紋對(duì)的被捕獲的信號(hào)樣本的特征提^t要,向服務(wù)器 發(fā)送該特征提Wt要而不;l^始被捕獲的信號(hào)是有利的,原因是數(shù)據(jù)量大 大減小,通常以500或大于500的因子來(lái)減小。這種信息可以實(shí)時(shí)地通過(guò) 低帶寬側(cè)信道與發(fā)送到服務(wù)器的音頻流一起&送,或者例如替代該音頻流 來(lái)發(fā)送。這使得能夠在公共通信網(wǎng)上執(zhí)行本發(fā)明,該公共通信網(wǎng)向每個(gè)用 戶提供相對(duì)小尺度的帶寬。
現(xiàn)在將參考音頻樣本來(lái)描述用于采指紋和定界標(biāo)的方法的實(shí)施例,所 述音頻樣本可以是NRA樣本或段以及已經(jīng)被索引到數(shù)據(jù)庫(kù)如來(lái)自圖1的數(shù) 據(jù)庫(kù)14中的NRA段。
在可執(zhí)行識(shí)別之前,必須構(gòu)建可搜索的聲音數(shù)據(jù)庫(kù)索引。如這里所使 用的,數(shù)據(jù)庫(kù)是任何索引的數(shù)據(jù)集合,并且不限于商業(yè)可用的數(shù)據(jù)庫(kù)。在數(shù)據(jù)庫(kù)索引中,相關(guān)的數(shù)據(jù)元素彼此關(guān)聯(lián),且單獨(dú)的元素可以被用來(lái)獲取 相關(guān)聯(lián)的數(shù)據(jù)。聲音數(shù)據(jù)庫(kù)索引包含針對(duì)所選的記錄的集合或庫(kù)中的每個(gè) 文件或記錄的索引集,所述集合或庫(kù)可以包M話、音樂(lè)、廣告、聲納簽
名或其它聲音。每個(gè)記錄還具有唯一的標(biāo)識(shí)符、聲音ID。該聲音數(shù)據(jù)庫(kù) 自身不必要存儲(chǔ)針對(duì)每個(gè)記錄的音頻文件,而聲音ID可以被用于從任何 地方獲取音頻文件。期望的是,所述聲音數(shù)據(jù)庫(kù)索引很大,其包含用于百 萬(wàn)計(jì)或甚至是數(shù)十億的文件的索引。新記錄優(yōu)選地被增量地添加到該數(shù)據(jù) 庫(kù)索引中。
圖4中示出了用于構(gòu)建根據(jù)第一實(shí)施例的可搜索聲音數(shù)據(jù)庫(kù)索引的 優(yōu)選方法40的框圖。在該實(shí)施例中,首先計(jì)算界標(biāo),然后計(jì)算在界標(biāo)處 或附近的指紋。對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)將是明顯的,可以構(gòu)想出 替選方法來(lái)構(gòu)建數(shù)據(jù)庫(kù)索引。具體地,以下列出的許多步驟是可選的,但 其用于生成進(jìn)行更有效搜索的數(shù)據(jù)庫(kù)索引.搜索效率對(duì)于從大的數(shù)據(jù)庫(kù)中 進(jìn)行實(shí)時(shí)的聲音識(shí)別是很重要的,而小數(shù)據(jù)庫(kù)可以被相對(duì)較快地搜索,即 使其未被優(yōu)化地分類。
為了對(duì)數(shù)據(jù)庫(kù)進(jìn)行索引,集合中的每個(gè)記錄都需要進(jìn)行定界標(biāo)和采指 紋分析,該分析生成針對(duì)每個(gè)音頻文件的索引集。圖5示意性圖示了已經(jīng) 被計(jì)算界標(biāo)(LM)和指紋(FP)的聲音記錄段。界標(biāo)在聲音的特定時(shí)間點(diǎn) 發(fā)生,并具有從文件開(kāi)始處偏移的以時(shí)間單位為單位的值,而指^^it在 特定界標(biāo)處或附近的聲音。因而,在該實(shí)施例中,用于特定文件的每個(gè)界 標(biāo)是唯一的,而相同的指紋在單個(gè)文件或多個(gè)文件內(nèi)可以發(fā)生多次。
在步驟42中,使用尋找聲音記錄內(nèi)的區(qū)別性的和可再現(xiàn)的位置的方 法給每個(gè)聲音記錄定界標(biāo)。優(yōu)選的定界標(biāo)算法能夠標(biāo)記聲音記錄內(nèi)的相同 時(shí)間點(diǎn),無(wú)論是否存在噪聲和其它線性和非線性的失真。 一些定界標(biāo)方法 概念上獨(dú)立于下面將描述的采指紋過(guò)程,但是可以被選擇來(lái)優(yōu)化后者的性 能。定界標(biāo)導(dǎo)致聲音記錄內(nèi)的一系列時(shí)間點(diǎn)Uandmarkk) ({界標(biāo)}), 計(jì)算在所述界標(biāo)處的指紋。一個(gè)好的定界標(biāo)方案每秒的聲音記錄中標(biāo)記大 約5-10個(gè)界標(biāo);當(dāng)然,定界標(biāo)密度依賴于聲音記錄內(nèi)的行為的量。
多種技術(shù)可以用于計(jì)算界標(biāo),所有這些技術(shù)都落在本發(fā)明范圍內(nèi)。用 于實(shí)施本發(fā)明的定界標(biāo)方案的特定技術(shù)過(guò)程在本領(lǐng)域中是公知的,在此將 不作詳細(xì)描述。公知為Power Norm的簡(jiǎn)單定界標(biāo)技術(shù)是計(jì)算在記錄中的
每個(gè)可能的時(shí)間點(diǎn)處的瞬時(shí)功率,并且選"^局部極大值。 一種實(shí)現(xiàn)其的方 式是通過(guò)直接對(duì)波形進(jìn)行整形和篩選來(lái)計(jì)算包絡(luò)。
另一方式是計(jì)算信號(hào)的希爾伯特(Hilbert)變換(求積分),并使用 該Hilbert變換和原始信號(hào)的幅度平方和。
定界標(biāo)的Power Norm方法有利于發(fā)現(xiàn)聲音信號(hào)中的瞬態(tài)。Power Norm 實(shí)際是更為通用的Spectral Lp Norm的特殊情況,其中p=2。例如通過(guò) 漢明窗(harming-windowed)快速傅立葉變換(FFT)來(lái)計(jì)算短時(shí)鐠沿聲 音信號(hào)在每個(gè)時(shí)刻計(jì)算通用Spectral LpNorm。優(yōu)選的實(shí)施例使用8000Hz 的采樣率、1024個(gè)樣本的FFT幀大小以及針對(duì)每個(gè)時(shí)間片64個(gè)樣本的跨 距。然后,針對(duì)每個(gè)時(shí)間片的Lp范數(shù)被計(jì)算為鐠分量的絕對(duì)值的pA次冪 之和,可選地隨后取-pA的根。如前所述,界標(biāo)被選擇為隨時(shí)間的結(jié)果的 值的局部極大值。Spectral Lp Norm方法的示例在圖5中示出,圖5示 出了L4范數(shù)的圖,其作為針對(duì)特定聲音信號(hào)的時(shí)間函數(shù)。局部極大值處 的虛線指示所選界標(biāo)的位置。
當(dāng)p-oo時(shí),Lao范數(shù)實(shí)際上;i極大范數(shù)。即,該范數(shù)值^1鐠片中的 最大鐠分量的絕對(duì)值。該范數(shù)導(dǎo)致魯棒的界標(biāo)和良好的總體識(shí)別性能,并 且優(yōu)選地用于有音調(diào)的音樂(lè)??商孢x地,通it)ft彼此在固定的或可變的偏 移處的多個(gè)時(shí)間片上的鐠分量的絕對(duì)值的p01次冪求和,可以計(jì)算"多-片"而不是單片的譜界標(biāo)。尋找該擴(kuò)展和的局部極大值使得可以優(yōu)化多片 指紋的放置,下面將進(jìn)行描述。
一旦計(jì)算了界標(biāo),在步驟44中,在記錄中的每個(gè)界標(biāo)時(shí)間點(diǎn)處計(jì)算 指紋。指故通常為一個(gè)值或一組值,其概括了記錄中在時(shí)間點(diǎn)處或附近的 一組特征。在當(dāng)前的優(yōu)選實(shí)施例中,每個(gè)指^1單個(gè)數(shù)值,其為多個(gè)特征 的哈希(hash)函數(shù)??赡艿闹讣y類型包拾潛片指紋、多片指紋、LPC系 數(shù)以及倒鐠(cepstral)系數(shù)。當(dāng)然,表M標(biāo)附近的信號(hào)或信號(hào)特征的 任何類型的指紋都在本發(fā)明的范圍之內(nèi)。指紋可通過(guò)M類型的數(shù)字信號(hào) 處理或信號(hào)的頻率分析來(lái)計(jì)算。
為了生成鐠片指紋,在每個(gè)界標(biāo)時(shí)間點(diǎn)的附近進(jìn)行頻率分析,以提取 頂部的幾個(gè)鐠J^值。簡(jiǎn)單的指故值僅是最強(qiáng)譜降的單個(gè)頻率值。這種簡(jiǎn)單
峰值的使用導(dǎo)致在存在噪聲的情況下的令人驚異的良好識(shí)別;然而,單頻 鐠片指紋趨向于比其它采指紋方案生成更多的錯(cuò)誤正值,因?yàn)樗鼈儾皇俏?一的。錯(cuò)誤正值的數(shù)量可以通過(guò)使用由兩個(gè)或三個(gè)最強(qiáng)鐠峰值函數(shù)構(gòu)成的 指紋來(lái)減少。然而,如果第二最強(qiáng)的#^值不足以強(qiáng)到在存在噪聲的情況 下將其與其竟?fàn)幷咧袇^(qū)別開(kāi),則可能更易于受噪聲的影響。即,所計(jì)算的 指紋值可能不夠魯棒以被可靠地再現(xiàn)。盡管如此,這種情況的性能也是良好的。
為了利用許多聲音的時(shí)間演變,通過(guò)添加一組時(shí)間偏移到界標(biāo)時(shí)間點(diǎn) 來(lái)確定一組時(shí)間片。在每個(gè)結(jié)果的時(shí)間片處,計(jì)算譜片指紋。隨后對(duì)結(jié)果
的指故信息集進(jìn)行組合,以形成一個(gè)多頻聲(multitone)或多片指紋。 每個(gè)多片指紋比單個(gè)鐠片指紋更為獨(dú)特,因?yàn)槠?時(shí)間演變,從而導(dǎo)致
下面描述的數(shù)據(jù)庫(kù)索引搜索中的更少的^m匹配。實(shí)趁,表明由于其增加的
獨(dú)特性,因此根據(jù)兩個(gè)時(shí)間片的每個(gè)中的單個(gè)最強(qiáng)"^J^值所計(jì)算的多片指 紋導(dǎo)致在后續(xù)的lt據(jù)庫(kù)索引搜索中的更快的計(jì)算(約快100倍),但是也 導(dǎo)致在存在顯著噪聲的情況下識(shí)別百分比的某種降級(jí)。
可替選地,可以使用可變偏移來(lái)計(jì)算多片指紋,以代*^吏用從設(shè)定的 時(shí)間片處的固定的一個(gè)或多個(gè)偏移。相對(duì)于所選片的可變偏移4_相對(duì)于下 一界標(biāo)的偏移,即相對(duì)于從針對(duì)指紋的"錨定"界標(biāo)的一定偏移范圍內(nèi)的 界標(biāo)的偏移。在這種情況下,界標(biāo)之間的時(shí)間差和多頻信息一起也被編碼 到指紋中。通過(guò)給指紋增加更多維度,其將變得更為獨(dú)特,并具有更低的 錯(cuò)誤匹配機(jī)率。
除了譜分量之外,其它鐠特征也可以被提取并用作指紋。線性預(yù)測(cè)編 碼(LPG)分析提取信號(hào)的線性可預(yù)測(cè)特征,如譜峰以及鐠形狀。LPC在 數(shù)字處理領(lǐng)域是公知的。對(duì)于本發(fā)明,錨定在界標(biāo)位置處的波形片的LPC 系數(shù)可通過(guò)將量化LPC系數(shù)散列(hash)到索引值中而被用作指紋。
倒鐠系數(shù)作為周期的測(cè)量是有用的,并且可以被用于^it諧波信號(hào), 如語(yǔ)音或許多樂(lè)器。倒鐠分析在數(shù)字處理領(lǐng)域內(nèi)是公知的。針對(duì)本發(fā)明, 多個(gè)倒譜系數(shù)被一起散列到索引中,并用作指紋。
圖6示出了概念性說(shuō)明方法60的實(shí)施例的總步驟的框圖,以例如通 過(guò)圖1中的音頻搜索引擎16來(lái)比較NRA段和NRA指紋。下面對(duì)各步驟進(jìn) 行詳細(xì)描述。該方法對(duì)匹配的NRA指紋進(jìn)行識(shí)別,該NRA指紋的特征指紋 的相對(duì)位置與外來(lái)NRA樣本的相同指紋的相對(duì)位置最接近地匹配。在步驟 62中,當(dāng)外來(lái)樣W捕^,在步驟64中計(jì)算界標(biāo)和指玟。界標(biāo)發(fā)生在 樣本內(nèi)的特定位置,例如時(shí)間點(diǎn)。界標(biāo)在樣本內(nèi)的位置優(yōu)選地由樣本本身 來(lái)確定,即依賴于樣本質(zhì)量,并且是可再現(xiàn)的。也就是說(shuō),每次重復(fù)該過(guò) 程時(shí),針對(duì)相同的信號(hào)計(jì)算出相同的界標(biāo)。針對(duì)每個(gè)界標(biāo),獲得對(duì)該界標(biāo) 處或附近的樣本的一個(gè)或多個(gè)特征進(jìn)行表征的指紋。對(duì)界標(biāo)特征的接近度 由所使用的釆指紋方法來(lái)定義。在某些情況下,如果特征清楚地對(duì)應(yīng)于一 個(gè)界標(biāo)而非對(duì)應(yīng)于前一或后一界標(biāo),則認(rèn)為該特征接近該界標(biāo)。在其它情
況下,特征對(duì)應(yīng)于多個(gè)相鄰的界標(biāo)。例如,文本指紋可以是字串,音頻指
紋可以是鐠分量,而圖像指紋可以是像素RGB值。下面描述步驟64的兩 個(gè)通用實(shí)施例,其中一個(gè)實(shí)施例中界標(biāo)和指紋順序被計(jì)算,而另一個(gè)中它 們同時(shí)被計(jì)算。
在步驟66中,使用樣本指紋來(lái)獲M儲(chǔ)在數(shù)據(jù)庫(kù)索引68中的匹配指 紋集,其中匹配指紋與界標(biāo)和NRA指紋集的標(biāo)識(shí)符相關(guān)聯(lián)。然后,使用所 獲取的文件標(biāo)識(shí)符集和界標(biāo)來(lái)生成包含被計(jì)算出相同指紋的樣4^M示(步 驟64中所計(jì)算的)以及所獲取的文件界標(biāo)的對(duì)應(yīng)關(guān)系對(duì)(步驟70)。然 后,通過(guò)標(biāo)識(shí)符,對(duì)作為結(jié)果的對(duì)應(yīng)關(guān)系對(duì)進(jìn)行分類,從而針對(duì)每個(gè)可應(yīng) 用文件生成樣W標(biāo)和文件界標(biāo)之間的對(duì)應(yīng)關(guān)系集。針對(duì)文件界標(biāo)和樣本 界標(biāo)之間的對(duì)準(zhǔn),對(duì)每個(gè)集進(jìn)行掃描。也就是說(shuō),對(duì)界標(biāo)對(duì)中的線性對(duì)應(yīng) 關(guān)系進(jìn)行識(shí)別,且根據(jù)線性相關(guān)的對(duì)的數(shù)量對(duì)所述集進(jìn)行評(píng)分。線性對(duì)應(yīng) 關(guān)系發(fā)生在允許的容限內(nèi)大量的對(duì)應(yīng)樣本位置和文件位置可以基本上利 用相同的線性等式來(lái)描述時(shí)。例如,如果描述對(duì)應(yīng)關(guān)系對(duì)的集的多個(gè)等式 的斜率以±5%編號(hào),則認(rèn)為整個(gè)對(duì)應(yīng)關(guān)系集是線性相關(guān)的。當(dāng)然,可以選 擇任何適當(dāng)?shù)娜菹?。具有最高分即具有最大?shù)量的線性相關(guān)的對(duì)應(yīng)關(guān)系的 集的標(biāo)識(shí)符為獲勝的NRA指紋標(biāo)識(shí)符,其在步驟72中被定位和返回。
如下面將進(jìn)一步描述的,可以進(jìn)行識(shí)別,其中時(shí)間分量與數(shù)據(jù)庫(kù)中條 目數(shù)量的對(duì)數(shù)成比例。識(shí)別可以實(shí)質(zhì)上實(shí)時(shí)地執(zhí)行,即使在很大的數(shù)據(jù)庫(kù) 的情況下。即,樣本可以在其被獲得時(shí)被識(shí)別,即具有很小的時(shí)間滯后。 本方法可基于5-10秒、甚至是低到l-3秒的段來(lái)識(shí)別聲音。在一個(gè)優(yōu)選 實(shí)施例中,當(dāng)在步猓62中捕獲樣本時(shí),定界標(biāo)和采指紋分析在步驟64 中被實(shí)時(shí)地執(zhí)行。當(dāng)樣本指紋變得可用時(shí),執(zhí)行數(shù)據(jù)庫(kù)查詢(步驟66 ), 且對(duì)應(yīng)關(guān)系結(jié)果被累積,并且針對(duì)線性對(duì)應(yīng)關(guān)系被周期性地掃描。因而, 所有的方法步驟同時(shí)發(fā)生,而不是圖6中所提出的順序線性方式。注意, 該方法部分類似于文本搜索引擎用戶提交查詢樣本,而聲音數(shù)據(jù)庫(kù)中被 索引的匹配文件被返回。
如上所述,該方法自動(dòng)地識(shí)別重復(fù)素材,其時(shí)間粒度依賴于原始提交 的音頻樣本的長(zhǎng)度。其本身是有用的,然而,隨著對(duì)上述的聲音識(shí)別引擎 的改進(jìn),可以對(duì)粒度進(jìn)行實(shí)質(zhì)上的改善。除音頻識(shí)別引擎返回音頻樣本內(nèi) 的匹配位置和長(zhǎng)度之外,用于候選素材的增加的時(shí)間分辨率的方法和上述 方法相同,從而允許該系統(tǒng)與聲音樣本粒度無(wú)關(guān)(參考"A Method of Characterizing the Overlap of Two Media Segments"專利申請(qǐng)),其
中所揭示的技術(shù)著眼于從音頻數(shù)據(jù)中提取的 一定數(shù)量的匹配重疊時(shí)間對(duì) 準(zhǔn)特征的支持密度。兩個(gè)音頻樣本片段之間的"匹配"重疊區(qū)域具有高密
度;相反,非匹配區(qū)域具有低密度。候選分段點(diǎn)在匹配樣本片段內(nèi)的時(shí)間 偏移處選取,從而劃分出特征的高和低密度重疊之間的轉(zhuǎn)變的界限。這種 改進(jìn)產(chǎn)生100-200亳秒內(nèi)的分段端點(diǎn)。
這里所揭示的系統(tǒng)和方法通常實(shí)施為在計(jì)算機(jī)系統(tǒng)上運(yùn)行的軟件,其 中各步驟作為獨(dú)立的軟件模塊被最有效地實(shí)施。針對(duì)不同對(duì)象的計(jì)算機(jī)指
令代碼存儲(chǔ)在一個(gè)或多個(gè)計(jì)算機(jī)的存儲(chǔ)器中,并且由一個(gè)或多個(gè)計(jì)算機(jī)處 理器來(lái)執(zhí)行。在一個(gè)實(shí)施例中,代碼對(duì)象在單個(gè)計(jì)算機(jī)系統(tǒng)如基于Intel 的個(gè)人計(jì)算機(jī)或其它工作站內(nèi)被聚集在一起。在一個(gè)優(yōu)選實(shí)施例中,所述 方法由組網(wǎng)的中央處理器單元(CPU)簇來(lái)實(shí)施,其中,不同的軟件對(duì)象 由不同的處理器來(lái)執(zhí)行,以便分布計(jì)算負(fù)載??商孢x地,每個(gè)CPU可具有 所有軟件對(duì)象的拷貝,從而允許相同配置元素的同類網(wǎng)絡(luò)。在該后一配置 中,每個(gè)CPU具有數(shù)據(jù)庫(kù)索引的子集,并且負(fù)責(zé)搜索其自己的媒體文件的子集。
盡管對(duì)本發(fā)明及其優(yōu)點(diǎn)進(jìn)行了詳細(xì)描述,但是應(yīng)理解,在不背離由所 附權(quán)利要求所限定的本發(fā)明的情況下,在這里可以進(jìn)行不同的改變、替代 和變更。而且,本申請(qǐng)的范圍并非意欲P艮制在本說(shuō)明書中所描述的主題、 手段、方法以及步驟的過(guò)程、機(jī)器、制造、組成的特定實(shí)施例。如根據(jù)該 公開(kāi)易于理解的,可以使用目前存在的或以后將要開(kāi)發(fā)的、執(zhí)行與這里所 描述的對(duì)應(yīng)實(shí)施例基4^目同的功能或者獲得與這里所描述的對(duì)應(yīng)實(shí)施例 基4^同的結(jié)果的制圖、手段、方法或步驟的過(guò)程、機(jī)器、制造、組成。 因此,所附權(quán)利要求旨在將主題、手段、方法或步驟的這些過(guò)程、機(jī)器、 制造、組成包括在其范圍內(nèi).
權(quán)利要求
1.一種在沒(méi)有重復(fù)音頻素材的特性的先驗(yàn)知識(shí)的情況下對(duì)至少一個(gè)媒體流內(nèi)的所述的重復(fù)素材進(jìn)行識(shí)別的方法,其包括根據(jù)所述至少一個(gè)媒體流來(lái)創(chuàng)建篩選數(shù)據(jù)庫(kù);從所述媒體流中獲取未知樣本音頻片段;在所述媒體流中尋找匹配片段;以及確定所述的未知樣本是否與所述篩選數(shù)據(jù)庫(kù)中的任何樣本匹配。
2. 如權(quán)利要求l所述的方法,其還包括 映射所述匹配片段到候選者組中;以及對(duì)所述候選者組進(jìn)行評(píng)估,以便尋找適合于公布的最佳范本,由此最 佳范本匹配并行鏈可構(gòu)成所識(shí)別的重復(fù)素材。
3. 如權(quán)利要求1所述的方法,其中所述未知樣本通過(guò)時(shí)間來(lái)劃分界限;
4. 如權(quán)利要求l所述的方法,其中所述未知樣本通過(guò)已被識(shí)別的素 材的段來(lái)劃分界限。
5. 如權(quán)利要求2所述的方法,其中評(píng)估所述候選者組是基于對(duì)所述 候選者組中的所有其它樣本的最佳相互匹配。
6. 如權(quán)利要求l所述的方法,其還包括通過(guò)對(duì)不再通過(guò)用于包含 的準(zhǔn)則的參考素材進(jìn)行識(shí)別來(lái)周期性地修剪參考數(shù)據(jù)庫(kù)。
7. 如權(quán)利要求2所述的方法,其中映射所述匹配片段還包括基于 每個(gè)鏈內(nèi)的相鄰樣本片段的匹配的連續(xù)性,比較相鄰樣本片段的并行鏈。
8. 如權(quán)利要求7所述的方法,其中比較并行鏈包括選擇時(shí)間上相鄰的未知探測(cè)樣本片段的第 一鏈,每個(gè)探測(cè)樣本片M 對(duì)應(yīng)媒體流內(nèi)具有時(shí)間偏移;針對(duì)所述笫 一鏈中的每個(gè)探測(cè)樣本片段,從所述篩選數(shù)據(jù)庫(kù)中尋找一 組匹配片段,每個(gè)匹配樣本在對(duì)應(yīng)^^體流內(nèi)具有時(shí)間偏移;以及按照對(duì)應(yīng)媒體流內(nèi)的所述匹配樣本片段的時(shí)間相鄰性,將與所述探測(cè) 樣本片段并行的匹配樣本片段分組成鏈,由此形成并行鏈。
9. 如權(quán)利要求8所述的方法,其中對(duì)所述匹配樣本片段分組還包括: 針對(duì)每個(gè)探測(cè)樣本以及每個(gè)匹配樣本,確定所述探測(cè)樣本和所述匹配樣本之間的相對(duì)時(shí)間偏移;生成相對(duì)時(shí)間偏移的直方圖;以及針對(duì)所W目對(duì)時(shí)間偏移的直方圖中的每個(gè)峰,從與所述直方圖的峰中 的每個(gè)點(diǎn)相關(guān)聯(lián)的匹配樣本中形成相鄰匹配樣本鏈,由此每個(gè)鏈為所述候 選者組的成員。
10. 如權(quán)利要求9所述的方法,其中所i^目對(duì)時(shí)間偏移被確定為所述 探測(cè)樣本的時(shí)間偏移與所述匹配樣本的時(shí)間偏移之間的差。
11. 如權(quán)利要求9所述的方法,其中針對(duì)每個(gè)探測(cè)樣本以及每個(gè)匹配 樣本,獲得所述探測(cè)樣本與所述匹Bt樣本之間的iiJL校正因子,并且所述度校正的時(shí)間偏移之間的差。
12. 如權(quán)利要求7所述的方法,其中每個(gè)并行鏈在時(shí)間上盡可能地被 擴(kuò)展,以形成最大匹配并行鏈。
13. —種用于對(duì)未被識(shí)別的媒體內(nèi)容的至少 一個(gè)源中的未被識(shí)別的媒 體內(nèi)容的重復(fù)段進(jìn)行識(shí)別的系統(tǒng),所述系統(tǒng)包括候選者管理器,其接收所述未被識(shí)別的^^體,并將標(biāo)識(shí)符與所述未被 識(shí)別的^^的樣;^目關(guān)聯(lián);指紋生成器,其可操作用于創(chuàng)建針對(duì)未被識(shí)別的媒體段的指紋;以及媒體搜索引擎,其被連接到所述候選者管理器以及所述指紋生成器, 所述媒體搜索引擎能夠?qū)⑽幢蛔R(shí)別的媒體的指紋與先前存儲(chǔ)的未被識(shí)別 的媒體指紋數(shù)據(jù)庫(kù)進(jìn)行比較,以尋找所述未被識(shí)別的媒體內(nèi)容內(nèi)的重復(fù) 段。
14. 如權(quán)利要求13所述的系統(tǒng),其中所述未被識(shí)別的媒體通過(guò)時(shí)間 來(lái)劃分界限。
15. 如權(quán)利要求13所述的系統(tǒng),其中所述未被識(shí)別的^^體通過(guò)已被 識(shí)別的素材的段來(lái)劃分界限。
16. 如權(quán)利要求13所述的系統(tǒng),其中所述未被識(shí)別的媒體被映射到 相對(duì)于與所述指紋生成器關(guān)聯(lián)的篩選數(shù)據(jù)庫(kù)中的片段而匹配的片段中,并 且所述的匹配片^:被分組到候選者組中。
17. 如權(quán)利要求16所述的系統(tǒng),其中所述候選者組被評(píng)估,以尋找 適合于公布的最佳范本,由此所述最佳范本可以構(gòu)成被識(shí)別的重復(fù)素材。
18. 如權(quán)利要求16所述的系統(tǒng),其中評(píng)估所述候選者組是基于對(duì)所 述候選者組內(nèi)的所有其它樣本的最佳相互匹配。
19. 如權(quán)利要求13所述的系統(tǒng),其還包括參考數(shù)據(jù)庫(kù),所述參考數(shù) 據(jù)庫(kù)保存從所述至少一個(gè)源接收的未被識(shí)別的媒^t。
20. 如權(quán)利要求19所述的系統(tǒng),其中所述參考數(shù)據(jù)庫(kù)通過(guò)對(duì)不再通 過(guò)用于包含的準(zhǔn)則的參考素材進(jìn)行識(shí)別被周期性地修剪。
全文摘要
描述了一種在沒(méi)有重復(fù)音頻素材(62)的特性的先驗(yàn)知識(shí)的情況下對(duì)至少一個(gè)媒體流內(nèi)的所述重復(fù)素材進(jìn)行識(shí)別的系統(tǒng)和方法。該系統(tǒng)和方法能夠根據(jù)一個(gè)或多個(gè)媒體流來(lái)創(chuàng)建篩選數(shù)據(jù)庫(kù)(68)。從所述媒體流中獲取未知的樣本音頻(62),并將其與篩選數(shù)據(jù)庫(kù)(68)比較,以便通過(guò)確定所述未知樣本是否與篩選數(shù)據(jù)庫(kù)(68)中的任何樣本匹配來(lái)找出在媒體流內(nèi)是否有匹配片段(66)。
文檔編號(hào)G10L15/00GK101189658SQ200680004136
公開(kāi)日2008年5月28日 申請(qǐng)日期2006年2月8日 優(yōu)先權(quán)日2005年2月8日
發(fā)明者A·禮俊·王, 大衛(wèi)·L·德·布斯克, 理查德·溫·昌·唐, 達(dá)倫·P·布里格斯, 邁克爾·卡利納 申請(qǐng)人:蘭德馬克數(shù)字服務(wù)有限責(zé)任公司