專利名稱:檢索語(yǔ)音文件的設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明 涉及一種用于檢索語(yǔ)音文件的設(shè)備和方法,具體地說(shuō),本發(fā)明涉及根據(jù) 輸入的查詢條件檢索語(yǔ)音文件、從而得到語(yǔ)音文件的各時(shí)間點(diǎn)與查詢條件的相關(guān)度的設(shè) 備和方法。
背景技術(shù):
隨著多媒體技術(shù)的發(fā)展,語(yǔ)音媒體得到了越來(lái)越多的關(guān)注。由于語(yǔ)音本身的特 點(diǎn),用戶很難像檢索文本一樣快速檢索語(yǔ)音文件。當(dāng)用戶想在語(yǔ)音文件中查詢自己感興 趣的相關(guān)語(yǔ)音片段的時(shí)候,用戶不得不從頭開(kāi)始瀏覽整個(gè)語(yǔ)音文件。在語(yǔ)音文件較大的 情況下,這是非常耗費(fèi)時(shí)間和精力的。雖然語(yǔ)音播放器中的快進(jìn)和快退按鈕能幫助用戶 相對(duì)較快地瀏覽文件,但是其并不能為用戶提供語(yǔ)音文件中的各時(shí)間點(diǎn)與所查詢的條件 的相關(guān)程度,更加不能查詢到與查詢條件相關(guān)的語(yǔ)音段落。通常,存在兩種方法來(lái)在語(yǔ)音文件中檢索與用戶輸入的查詢條件相關(guān)的時(shí)間 點(diǎn)。第一種方法是基于關(guān)鍵字標(biāo)注的方法,其基于語(yǔ)音識(shí)別技術(shù),將語(yǔ)音文件轉(zhuǎn)換為文 本,并標(biāo)注轉(zhuǎn)換后的文本中與用戶輸入的文本查詢條件相關(guān)的文本。然而,該方法存在 下述不足之處1.該方法基于語(yǔ)音識(shí)別技術(shù),僅僅進(jìn)行一次相關(guān)度計(jì)算,因此檢索性能 受語(yǔ)音識(shí)別的效果影響相對(duì)較大,容錯(cuò)性能較差;2.當(dāng)文本查詢條件不是關(guān)鍵字而是句 子甚至段落時(shí),該方法的效率大大下降;3.該方法僅針對(duì)文本查詢條件進(jìn)行查詢,使用 范圍受到限制。第二種方法是基于語(yǔ)義分割的方法,其利用語(yǔ)音分割技術(shù),按照語(yǔ)義分割語(yǔ)音 文件,然后利用語(yǔ)音檢索的方法檢索分割好的片斷與預(yù)定查詢條件的相關(guān)程度。然而, 由于當(dāng)今的語(yǔ)義分割技術(shù)尚不夠成熟,錯(cuò)誤率較高,因此在此基礎(chǔ)上進(jìn)行一次相關(guān)度計(jì) 算而獲得的檢索結(jié)果的錯(cuò)誤率也非常高。
發(fā)明內(nèi)容
本發(fā)明提供了一種用于檢索語(yǔ)音文件的設(shè)備和方法,其能夠根據(jù)用戶輸入的多 種查詢條件檢索語(yǔ)音文件,并以較高精度得到語(yǔ)音文件的各時(shí)間點(diǎn)與查詢條件的相關(guān) 度,從而改進(jìn)了檢索效率。進(jìn)一步說(shuō),本發(fā)明還提供一種用于檢索語(yǔ)音文件的設(shè)備和方 法,其不但能夠以較高精度得到語(yǔ)音文件的各時(shí)間點(diǎn)與查詢條件的相關(guān)度,還能夠得到 語(yǔ)音文件中與所述查詢條件相關(guān)的語(yǔ)音段落,從而在改進(jìn)檢索效率的同時(shí)還提高了用戶 操作的方便度。根據(jù)本發(fā)明的一個(gè)方面,一種用于根據(jù)輸入的查詢條件檢索語(yǔ)音文件的設(shè)備, 包括以下裝置分割裝置,被配置為將一個(gè)或多個(gè)語(yǔ)音文件分別分割為一個(gè)或多個(gè)語(yǔ)音 片;第一相關(guān)度確定裝置,被配置為確定每個(gè)語(yǔ)音片與所述查詢條件的第一相關(guān)度;以 及第二相關(guān)度確定裝置,被配置為根據(jù)所述第一相關(guān)度,確定每個(gè)語(yǔ)音文件的每個(gè)預(yù)定 時(shí)間點(diǎn)與所述查詢條件的第二相關(guān)度。
根據(jù)本發(fā)明的另一方面,一種用于根據(jù)輸入的查詢條件檢索語(yǔ)音文件的方法, 包括以下步驟分割步驟,用于將一個(gè)或多個(gè)語(yǔ)音文件分別分割為一個(gè)或多個(gè)語(yǔ)音片; 第一相關(guān)度確定步驟,用于確定每個(gè)語(yǔ)音片與所述查詢條件的第一相關(guān)度;以及第二相 關(guān)度確定步驟,用于根據(jù)所述第一相關(guān)度,確定每個(gè)語(yǔ)音文件的每個(gè)預(yù)定時(shí)間點(diǎn)與所述 查詢條件的第二相關(guān)度。根據(jù) 本發(fā)明各方面的設(shè)備和方法能夠以較高精度得到語(yǔ)音文件的各時(shí)間點(diǎn)與輸 入的查詢條件的相關(guān)度,從而改進(jìn)了檢索效率。通過(guò)參考附圖閱讀下面以示例性方式給出的本發(fā)明實(shí)施例的具體描述,本發(fā)明 的上述和其他目標(biāo)、特征和優(yōu)點(diǎn)將變得更加明顯。
圖1示意性示出了根據(jù)本發(fā)明第一實(shí)施例的語(yǔ)音文件檢索設(shè)備100的框圖;圖2示意性示出了由本發(fā)明第一實(shí)施例的語(yǔ)音文件檢索設(shè)備100使用的窗函數(shù)的 波形特征;圖3示意性示出了根據(jù)本發(fā)明第二實(shí)施例的語(yǔ)音文件檢索設(shè)備200的框圖;圖4示意性示出了由根據(jù)本發(fā)明第一實(shí)施例的語(yǔ)音文件檢索設(shè)備100執(zhí)行的處理 的流程圖;圖5示意性示出了由根據(jù)本發(fā)明第二實(shí)施例的語(yǔ)音文件檢索設(shè)備200執(zhí)行的處理 的流程圖;以及圖6示意性示出了由根據(jù)本發(fā)明第二實(shí)施例的語(yǔ)音文件檢索設(shè)備200執(zhí)行的處理 中的段落發(fā)現(xiàn)處理的流程圖。
具體實(shí)施例方式在具體描述本發(fā)明實(shí)施例前,首先說(shuō)明在本發(fā)明實(shí)施例中使用的相關(guān)技術(shù)術(shù) 語(yǔ)“語(yǔ)音片”語(yǔ)音片是將一語(yǔ)音文件分割而得到的各個(gè)片段。相鄰語(yǔ)音片之間 在時(shí)間上可以重疊。所有語(yǔ)音片構(gòu)成的集合將涵蓋該語(yǔ)音文件?!罢Z(yǔ)音段落”語(yǔ)音段落是語(yǔ)音文件的任一部分。在本發(fā)明實(shí)施例中,與查詢 條件相關(guān)的語(yǔ)音段落的長(zhǎng)度可以大于語(yǔ)音片的長(zhǎng)度、等于語(yǔ)音片的長(zhǎng)度,也可以小于語(yǔ) 音片的長(zhǎng)度。以下,將參照附圖詳細(xì)描述本發(fā)明的優(yōu)選實(shí)施例。參考圖1,根據(jù)本發(fā)明第一實(shí)施例的語(yǔ)音文件檢索設(shè)備100包括分割裝置11、第 一相關(guān)度確定裝置12和第二相關(guān)度確定裝置13。分割裝置11將一個(gè)或多個(gè)語(yǔ)音文件分 別分割為一個(gè)或多個(gè)語(yǔ)音片。第一相關(guān)度確定裝置12確定每個(gè)語(yǔ)音片與用戶輸入的查詢 條件的第一相關(guān)度。第二相關(guān)度確定裝置13根據(jù)所述第一相關(guān)度,確定每個(gè)語(yǔ)音文件的 每個(gè)預(yù)定時(shí)間點(diǎn)與所述查詢條件的第二相關(guān)度。以下將具體描述各裝置的功能配置。分割裝置11配置為利用語(yǔ)音分割方法,例如定時(shí)分割方法,通過(guò)下述處理將一 個(gè)或多個(gè)語(yǔ)音文件分別分割為一個(gè)或多個(gè)語(yǔ)音片
首先,設(shè)置固定時(shí)間長(zhǎng)度(TL)和固定重合時(shí)間長(zhǎng)度(OTL)。其中,TL必須大 于一個(gè)詞的發(fā)音長(zhǎng)度,而OTL必須小于TL。在本發(fā)明實(shí)施例中,例如,將TL設(shè)置30 秒,而將OTL設(shè)置為29秒。其次,假設(shè)一個(gè)語(yǔ)音文件的長(zhǎng)度為T(mén),可以如下分割該語(yǔ)音文件第一個(gè)語(yǔ)音片的起始時(shí)間是0,終止時(shí)間是Min丨TL,T丨,即TL和T中較小者。 如果Min丨TL,Τ} = T,則分割處理結(jié)束。下一個(gè)語(yǔ)音片的起始時(shí)間Sn是Sn = Sh+TL-OTL (1)終止時(shí)間En是En = Min(Sn+TL, Τ) (2)其中,Slri是前一時(shí)間片的起始時(shí)間。重復(fù)上述處理,直至Min(Sn+TL,Τ) = Τ,此時(shí),分割處理結(jié)束。本領(lǐng)域技術(shù)人員應(yīng)理解,在上述分割處理中,各語(yǔ)音片之間是重疊的,然而, 各語(yǔ)音片之間不必重疊。此外,本領(lǐng)域技術(shù)人員應(yīng)理解,分割裝置11所采用的上述定時(shí) 分割方法僅僅是一個(gè)示例,而并非限制本發(fā)明。分割裝置11可配置為采用任何語(yǔ)音分割 方法,例如基于時(shí)間的方法、基于事件的方法、基于語(yǔ)義的方法或這些方法的組合等。通過(guò)分割裝置11的上述分割處理,每個(gè)語(yǔ)音文件被分割為一個(gè)或多個(gè)語(yǔ)音片。第一相關(guān)度確定裝置12確定經(jīng)過(guò)上述分割裝置11的分割所得到的每個(gè)語(yǔ)音片與 用戶輸入的查詢條件的第一相關(guān)度,即,語(yǔ)音片相關(guān)度。在本發(fā)明實(shí)施例中,例如,第一相關(guān)度確定裝置12配置為利用Okapi ΒΜ25概率 模型(Probabilistic Model)作為統(tǒng)計(jì)檢索模型,通過(guò)下式(3),確定每個(gè)語(yǔ)音片與查詢條件
的第一相關(guān)度
權(quán)利要求
1.一種用于根據(jù)輸入的查詢條件檢索語(yǔ)音文件的設(shè)備,包括以下裝置分割裝置,被配置為將一個(gè)或多個(gè)語(yǔ)音文件分別分割為一個(gè)或多個(gè)語(yǔ)音片;第一相關(guān)度確定裝置,被配置為確定每個(gè)語(yǔ)音片與所述查詢條件的第一相關(guān)度;以及第二相關(guān)度確定裝置,被配置為根據(jù)所述第一相關(guān)度,確定每個(gè)語(yǔ)音文件的每個(gè)預(yù) 定時(shí)間點(diǎn)與所述查詢條件的第二相關(guān)度。
2.如權(quán)利要求1所述的設(shè)備,還包括段落發(fā)現(xiàn)裝置,被配置為判斷對(duì)于每個(gè)語(yǔ)音文件 的每個(gè)預(yù)定時(shí)間點(diǎn)的所述第二相關(guān)度是否高于預(yù)設(shè)的閾值,如果所述第二相關(guān)度高于所 述閾值,則確定該預(yù)定時(shí)間點(diǎn)為構(gòu)成與所述查詢條件相關(guān)的段落的時(shí)間點(diǎn),從而發(fā)現(xiàn)與 所述查詢條件相關(guān)的段落。
3.如權(quán)利要求1所述的設(shè)備,還包括預(yù)處理裝置,被配置為將每個(gè)語(yǔ)音片與查詢條件分別轉(zhuǎn)換為具有相同格式的數(shù)據(jù)。
4.如權(quán)利要求1所述的設(shè)備,其中,所述第二相關(guān)度確定裝置被配置為利用窗函數(shù)來(lái) 確定所述第二相關(guān)度。
5.如權(quán)利要求1所述的設(shè)備,其中所述查詢條件包括文本查詢條件、語(yǔ)音查詢條件、 或文本查詢條件和語(yǔ)音查詢條件的組合。
6.一種用于根據(jù)輸入的查詢條件檢索語(yǔ)音文件的方法,包括以下步驟分割步驟,用于將一個(gè)或多個(gè)語(yǔ)音文件分別分割為一個(gè)或多個(gè)語(yǔ)音片;第一相關(guān)度確定步驟,用于確定每個(gè)語(yǔ)音片與所述查詢條件的第一相關(guān)度;以及第二相關(guān)度確定步驟,用于根據(jù)所述第一相關(guān)度,確定每個(gè)語(yǔ)音文件的每個(gè)預(yù)定時(shí) 間點(diǎn)與所述查詢條件的第二相關(guān)度。
7.如權(quán)利要求6所述的方法,還包括段落發(fā)現(xiàn)步驟,用于判斷對(duì)于每個(gè)語(yǔ)音文件的每 個(gè)預(yù)定時(shí)間點(diǎn)的所述第二相關(guān)度是否高于預(yù)設(shè)的閾值,如果所述第二相關(guān)度高于所述閾 值,則確定該預(yù)定時(shí)間點(diǎn)為構(gòu)成與所述查詢條件相關(guān)的段落的時(shí)間點(diǎn),從而發(fā)現(xiàn)與所述 查詢條件相關(guān)的段落。
8.如權(quán)利要求6所述的方法,還包括預(yù)處理步驟,用于將每個(gè)語(yǔ)音片與查詢條件分別轉(zhuǎn)換為具有相同格式的數(shù)據(jù)。
9.如權(quán)利要求6所述的方法,其中,所述第二相關(guān)度確定步驟被配置為利用窗函數(shù)來(lái) 確定所述第二相關(guān)度。
10.如權(quán)利要求6所述的方法,其中所述查詢條件包括文本查詢條件、語(yǔ)音查詢條 件、或文本查詢條件和語(yǔ)音查詢條件的組合。
全文摘要
本發(fā)明提供了一種用于根據(jù)輸入的查詢條件檢索語(yǔ)音文件的設(shè)備,包括以下裝置分割裝置,被配置為將一個(gè)或多個(gè)語(yǔ)音文件分別分割為一個(gè)或多個(gè)語(yǔ)音片;第一相關(guān)度確定裝置,被配置為確定每個(gè)語(yǔ)音片與所述查詢條件的第一相關(guān)度;第二相關(guān)度確定裝置,被配置為根據(jù)所述第一相關(guān)度,確定每個(gè)語(yǔ)音文件的每個(gè)預(yù)定時(shí)間點(diǎn)與所述查詢條件的第二相關(guān)度。
文檔編號(hào)G06F17/30GK102023994SQ20091017684
公開(kāi)日2011年4月20日 申請(qǐng)日期2009年9月22日 優(yōu)先權(quán)日2009年9月22日
發(fā)明者史達(dá)飛, 尹悅燕, 趙利軍, 鄭繼川, 魯耀杰 申請(qǐng)人:株式會(huì)社理光