一種全自動音視頻結(jié)構(gòu)化與精準搜索的方法
【技術領域】
[0001]本發(fā)明實例涉及一種全自動音視頻結(jié)構(gòu)化與精準搜索的方法,特別是涉及一種基于大語音識別技術的全自動音視頻內(nèi)容文本型結(jié)構(gòu)化后精準搜索音視頻內(nèi)容到每一秒的方法。
【背景技術】
[0002]音視頻內(nèi)容全自動結(jié)構(gòu)化與精準搜索的目的,是幫助用戶在互聯(lián)網(wǎng)海量音視頻內(nèi)容里更快速準確地獲取到最想要的音視頻內(nèi)容,幫助用戶節(jié)約獲取相關音視頻精準內(nèi)容的時間和降低獲取成本。
[0003]隨著互聯(lián)網(wǎng)技術和互聯(lián)網(wǎng)業(yè)務的迅猛發(fā)展,互聯(lián)網(wǎng)中的數(shù)據(jù)類型不斷快速增長,數(shù)據(jù)類型除文字與圖片外還有大量的音視頻?;ヂ?lián)網(wǎng)中的數(shù)據(jù)類型里,文字與圖片現(xiàn)均已是結(jié)構(gòu)化數(shù)據(jù),可以方便用戶快速精準地搜索到最需要的內(nèi)容。然而,互聯(lián)網(wǎng)數(shù)據(jù)中的海量的音視頻內(nèi)容尚未大規(guī)模演變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),因此,如何快速有效地將海量音視頻進行全自動內(nèi)容結(jié)構(gòu)化處理以及對音視頻內(nèi)容進行精準搜索成為需要解決的問題。
[0004]目前普遍運用的音視頻搜索方法是:基于人工編輯的音視頻的標題或簡介或標簽中的文字進行搜索,這種搜索的缺陷在于可供搜索的文字有限,而且均是人工后期編輯添加的,搜索結(jié)果的客觀性和準確性較低,并且,這種搜索方式無法精準搜索到音視頻內(nèi)的某一秒關鍵內(nèi)容。
[0005]目前還有一種音視頻搜索方法是:提取音視頻內(nèi)的某一個關鍵音軌或關鍵幀,以關鍵音軌或關鍵幀里的靜態(tài)信息為某一特征去待搜索音視頻中逐音軌或逐幀匹配篩選,這種搜索方式的缺陷在于需要依時序?qū)﹃P鍵音軌或關鍵幀重復匹配篩選和搜索,搜索過程中的運算量相當龐大,而且隨著待搜索音視頻庫的不斷增加,此方法的搜索效率會呈指數(shù)級下降,搜索耗時過長。
【發(fā)明內(nèi)容】
[0006]為解決上述問題并克服相關技術中存在的問題,本發(fā)明實例公開了一種全自動音視頻結(jié)構(gòu)化與精準搜索的方法,用以快速大規(guī)模結(jié)構(gòu)化互聯(lián)網(wǎng)數(shù)據(jù)中的海量音視頻內(nèi)容并幫助用戶提高音視頻內(nèi)容搜索的精準性,降低音視頻內(nèi)容搜索的時長和搜索結(jié)果的獲取成本。
[0007]本發(fā)明實例公開的一種全自動音視頻結(jié)構(gòu)化與精準搜索的方法包括兩個方面,分別是一種音視頻內(nèi)容的全自動數(shù)據(jù)結(jié)構(gòu)化方法以及一種結(jié)構(gòu)化后的音視頻精準搜索方法。
[0008]依據(jù)本公開實例的第一方面,提供一種音視頻內(nèi)容的全自動數(shù)據(jù)結(jié)構(gòu)化方法,過程如下。
[0009]系統(tǒng)自動在互聯(lián)網(wǎng)或局域網(wǎng)上批量提取待結(jié)構(gòu)化音視頻,并記錄每一個已提取的待結(jié)構(gòu)化音視頻的互聯(lián)網(wǎng)或局域網(wǎng)地址。
[0010]系統(tǒng)自動利用音頻分析技術批量抽取每一個上述已提取的待結(jié)構(gòu)化音視頻的相應完整音軌并壓縮至不小于16bit的音頻信號以待后用。
[0011]系統(tǒng)自動將上述每一個已抽取并壓縮至不小于16bit的音頻信號的待用音軌邏輯切割為多個以秒為單位的短時音軌。
[0012]系統(tǒng)自動為上述已邏輯切割的多個短時音軌依序標記毫秒級起止時間碼。
[0013]系統(tǒng)自動將上述已邏輯切割的并依序標記毫秒級起止時間碼的多個短時音軌,以批量多線程的方式同時分別提交給多個語音識別服務器,利用語音識別技術完成聲音到文本字符的全自動轉(zhuǎn)化。
[0014]系統(tǒng)自動將上述已完成聲音到文本字符轉(zhuǎn)化的多個短時音軌所對應的轉(zhuǎn)化后文本片段取回,并將所有轉(zhuǎn)化后文本片段內(nèi)的每一個字符依序標記上所對應的毫秒級起止時間碼。
[0015]系統(tǒng)自動將上述已標記毫秒級起止時間碼的所有字符和文本片段重新依序組合成完整的文本,完整文本內(nèi)的每一個字符均有其對應的毫秒級起止時間碼。
[0016]系統(tǒng)自動將上述已標記毫秒級起止時間碼的完整文本與其所對應的完整音軌以及待結(jié)構(gòu)化音視頻均同步建立完整唯一映射關系,即,待結(jié)構(gòu)化音視頻的完整音軌內(nèi)的每一個聲音均有一個唯一對應的已標記毫秒級起止時間碼的文本字符。
[0017]系統(tǒng)自動將上述待結(jié)構(gòu)化音視頻的互聯(lián)網(wǎng)或局域網(wǎng)地址、其所對應的完整音軌以及其所對應的已標記毫秒級起止時間碼的唯一完整文本以字符串方式錄入結(jié)構(gòu)化音視頻索引數(shù)據(jù)庫。
[0018]至此,音視頻內(nèi)容的全自動數(shù)據(jù)結(jié)構(gòu)化過程完成。
[0019]依據(jù)本公開實例的第二方面,提供一種結(jié)構(gòu)化后的音視頻精準搜索方法,過程如下。
[0020]系統(tǒng)接收用戶發(fā)起的視頻精準搜索請求,所述搜索請求中至少攜帶視頻內(nèi)容關鍵詞字符或用戶主觀認為的視頻描述型字符。
[0021]系統(tǒng)自動從本公開實例第一方面所述的結(jié)構(gòu)化音視頻索引數(shù)據(jù)庫中以全文檢索的方式,提取與上述用戶搜索請求中一致的多個字符串,利用聚類算法分別確定待展示搜索結(jié)果的音視頻資源,并為每一個待展示音視頻資源確定字符串匹配度分數(shù)。
[0022]系統(tǒng)自動從本公開實例第一方面所述的結(jié)構(gòu)化音視頻索引數(shù)據(jù)庫中以上下文語義分析的方式,提取與上述用戶搜索請求中近似的多個字符串,利用聚類算法分別確定待展示搜索結(jié)果的音視頻資源,并為每一個待展示音視頻資源確定語義匹配度分數(shù)。
[0023]系統(tǒng)自動利用公式:字符串匹配度分數(shù)+語義匹配度分數(shù),分別計算得到每個待展示音視頻資源的最終得分。
系統(tǒng)根據(jù)每個待展示音視頻資源的最終得分,以降序列表的方式,向用戶反饋最終搜索結(jié)果。
【附圖說明】
[0024]說明書附圖頁內(nèi)的圖1為本發(fā)明實施例中一種全自動音視頻結(jié)構(gòu)化與精準搜索的方法的實施流程圖。
【主權(quán)項】
1.一種全自動音視頻結(jié)構(gòu)化與精準搜索的方法,其特征在于,所述方法主要包括:音視頻自動提取模塊、音文自動轉(zhuǎn)換模塊、音文自動耦合模塊以及結(jié)構(gòu)化內(nèi)容搜索模塊。
2.根據(jù)權(quán)利要求1所述的一種全自動音視頻結(jié)構(gòu)化與精準搜索的方法的音視頻自動提取模塊,其特征在于,自動在互聯(lián)網(wǎng)或局域網(wǎng)上批量提取待結(jié)構(gòu)化音視頻并記錄其對應的互聯(lián)網(wǎng)或局域網(wǎng)地址、抽取并壓縮其對應的音軌、邏輯切割每個音軌為多個以秒為單位的短時音軌并依序標記起止時間碼。
3.根據(jù)權(quán)利要求1所述的一種全自動音視頻結(jié)構(gòu)化與精準搜索的方法的音文自動轉(zhuǎn)換模塊,其特征在于,以批量多線程的方式利用語音識別技術完成上述所有短時音軌的聲音到文本字符的全自動轉(zhuǎn)化、并將所有轉(zhuǎn)化后文本片段內(nèi)的每一個字符依序標記上所對應的起止時間碼。
4.根據(jù)權(quán)利要求1所述的一種全自動音視頻結(jié)構(gòu)化與精準搜索的方法的音文自動耦合模塊,其特征在于,系統(tǒng)自動將上述已標記毫秒級起止時間碼的完整文本與其所對應的完整音軌以及待結(jié)構(gòu)化音視頻均同步建立完整唯一映射關系,使得完整音軌內(nèi)的每一個聲音均有一個唯一對應的已標記毫秒級起止時間碼的文本字符,同時,系統(tǒng)自動將上述待結(jié)構(gòu)化音視頻的互聯(lián)網(wǎng)或局域網(wǎng)地址、其所對應的完整音軌以及其所對應的已標記毫秒級起止時間碼的唯一完整文本以字符串方式錄入結(jié)構(gòu)化音視頻索引數(shù)據(jù)庫。
5.根據(jù)權(quán)利要求1所述的一種全自動音視頻結(jié)構(gòu)化與精準搜索的方法的結(jié)構(gòu)化內(nèi)容搜索模塊,其特征在于,系統(tǒng)自動在上述結(jié)構(gòu)化音視頻索引數(shù)據(jù)庫中以全文檢索的方式,提取與用戶搜索請求中一致的多個字符串,利用聚類算法分別確定待展示搜索結(jié)果的音視頻資源,同時,系統(tǒng)自動從上述結(jié)構(gòu)化音視頻索引數(shù)據(jù)庫中以上下文語義分析的方式,提取與用戶搜索請求中近似的多個字符串,利用聚類算法分別確定待展示搜索結(jié)果的音視頻資源。
【專利摘要】本發(fā)明實例涉及一種全自動音視頻結(jié)構(gòu)化與精準搜索的方法,特別是涉及一種基于大語音識別技術的全自動音視頻內(nèi)容文本型結(jié)構(gòu)化后精準搜索音視頻內(nèi)容到每一秒的方法。本發(fā)明實例公開了一種全自動音視頻結(jié)構(gòu)化與精準搜索的方法,用以快速大規(guī)模結(jié)構(gòu)化互聯(lián)網(wǎng)數(shù)據(jù)中的海量音視頻內(nèi)容并幫助用戶提高音視頻內(nèi)容搜索的精準性,降低音視頻內(nèi)容搜索的時長和搜索結(jié)果的獲取成本。本發(fā)明實例公開的一種全自動音視頻結(jié)構(gòu)化與精準搜索的方法包括兩個方面,分別是一種音視頻內(nèi)容的全自動數(shù)據(jù)結(jié)構(gòu)化方法以及一種結(jié)構(gòu)化后的音視頻精準搜索方法。
【IPC分類】G06F17-30
【公開號】CN104834740
【申請?zhí)枴緾N201510258687
【發(fā)明人】常鍇, 羅振坤
【申請人】深圳市東方泰明科技有限公司, 常鍇
【公開日】2015年8月12日
【申請日】2015年5月20日