一種錄音文件索引的裝置及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及多媒體技術(shù)領(lǐng)域,尤其涉及一種錄音文件索引的裝置及方法。
【背景技術(shù)】
[0002]現(xiàn)在的移動(dòng)終端已經(jīng)可以很方便的進(jìn)行錄音工作,但涉及到時(shí)間較長的錄音操作時(shí),回放查看錄音文件時(shí),仍然需要使用滑條對(duì)有用的內(nèi)容以預(yù)覽的方式進(jìn)行內(nèi)容的檢索,無法直接調(diào)整播放想要播放的內(nèi)容,需要多次才能找到想要查看的內(nèi)容,錄音文件缺乏有效的索引方式導(dǎo)致錄音文件的瀏覽效率會(huì)很低。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的主要目的在于提出一種錄音文件索引的裝置及方法,旨在實(shí)現(xiàn)對(duì)錄音文件的快速索引。
[0004]為實(shí)現(xiàn)上述目的,本發(fā)明提出一種錄音文件索引的裝置,包括:
[0005]文件生成單元,用于開啟錄音和語音識(shí)別,獲取錄音文件和對(duì)應(yīng)的語音識(shí)別文本;
[0006]時(shí)間映射單元,用于將所述錄音文件的時(shí)間軸映射到所述語音識(shí)別文本中;
[0007]文本保存單元,用于將語音識(shí)別文本及其對(duì)應(yīng)于時(shí)間軸中的時(shí)間對(duì)應(yīng)保存為文本文件。
[0008]其中,所述文件生成單元,包括:
[0009]第一計(jì)時(shí)模塊,用于開啟錄音,同時(shí)開啟計(jì)時(shí)器用于記錄錄音過程中整句音頻數(shù)據(jù)的起始時(shí)間和整句結(jié)束時(shí)間;
[0010]第二計(jì)時(shí)模塊,用于將所述整句音頻數(shù)據(jù)發(fā)送到語音識(shí)別服務(wù)器進(jìn)行語音識(shí)別,并記錄所述整句音頻數(shù)據(jù)的發(fā)送時(shí)間和對(duì)應(yīng)的語音識(shí)別文本的接收時(shí)間;
[0011]所述時(shí)間映射單元,包括:
[0012]時(shí)間修正模塊,用于根據(jù)所述發(fā)送時(shí)間和接收時(shí)間的時(shí)間差對(duì)所述整句結(jié)束時(shí)間進(jìn)行修正,得到所述整句音頻數(shù)據(jù)的結(jié)束時(shí)間;
[0013]時(shí)間標(biāo)記模塊,用于根據(jù)所述起始時(shí)間和結(jié)束時(shí)間對(duì)所述整句音頻數(shù)據(jù)對(duì)應(yīng)的語音識(shí)別文本的起始時(shí)間點(diǎn)和結(jié)尾時(shí)間點(diǎn)進(jìn)行標(biāo)記。
[0014]其中,所述時(shí)間標(biāo)記模塊,包括:
[0015]字符統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)所述整句音頻數(shù)據(jù)對(duì)應(yīng)的語音識(shí)別文本中的字符;
[0016]時(shí)長計(jì)算子模塊,用于根據(jù)所述起始時(shí)間和結(jié)束時(shí)間計(jì)算出所述語音識(shí)別文本中每個(gè)字符的平均時(shí)長;
[0017]字符標(biāo)記子模塊,用于根據(jù)所述平均時(shí)長對(duì)每個(gè)字符進(jìn)行時(shí)間軸標(biāo)記,其中所述語音識(shí)別文本中的第一個(gè)字符標(biāo)記起始時(shí)間點(diǎn),最后一個(gè)字符標(biāo)記為結(jié)尾時(shí)間點(diǎn)。
[0018]其中,所述裝置,還包括:
[0019]文件播放單元,用于播放所述錄音文件時(shí),顯示所述文本文件中記錄的語音識(shí)別文本,并突出顯示所述錄音文件的時(shí)間軸當(dāng)前對(duì)應(yīng)的語音識(shí)別文本。
[0020]其中,所述裝置,還包括:
[0021]索引切換單元,用于當(dāng)顯示的語音識(shí)別文本檢測到索引指令時(shí),將所述錄音文件切換到所述索引指令指向的語音識(shí)別文本對(duì)應(yīng)的時(shí)間。
[0022]另外,為實(shí)現(xiàn)上述目的,本發(fā)明還提出了一種錄音文件索引的方法,包括:
[0023]開啟錄音和語音識(shí)別,獲取錄音文件和對(duì)應(yīng)的語音識(shí)別文本;
[0024]將所述錄音文件的時(shí)間軸映射到所述語音識(shí)別文本中;
[0025]將語音識(shí)別文本及其對(duì)應(yīng)于時(shí)間軸中的時(shí)間對(duì)應(yīng)保存為文本文件。
[0026]其中,所述開啟錄音和語音識(shí)別,獲取錄音文件和對(duì)應(yīng)的語音識(shí)別文本,包括:
[0027]開啟錄音,同時(shí)開啟計(jì)時(shí)器用于記錄錄音過程中整句音頻數(shù)據(jù)的起始時(shí)間和整句結(jié)束時(shí)間;
[0028]將所述整句音頻數(shù)據(jù)發(fā)送到語音識(shí)別服務(wù)器進(jìn)行語音識(shí)別,并記錄所述整句音頻數(shù)據(jù)的發(fā)送時(shí)間和對(duì)應(yīng)的語音識(shí)別文本的接收時(shí)間;
[0029]所述將所述錄音文件的時(shí)間軸映射到所述語音識(shí)別文本中,包括:
[0030]根據(jù)所述發(fā)送時(shí)間和接收時(shí)間的時(shí)間差對(duì)所述整句結(jié)束時(shí)間進(jìn)行修正,得到所述整句音頻數(shù)據(jù)的結(jié)束時(shí)間;
[0031]根據(jù)所述起始時(shí)間和結(jié)束時(shí)間對(duì)所述整句音頻數(shù)據(jù)對(duì)應(yīng)的語音識(shí)別文本的起始時(shí)間點(diǎn)和結(jié)尾時(shí)間點(diǎn)進(jìn)行標(biāo)記。
[0032]其中,所述根據(jù)所述起始時(shí)間和結(jié)束時(shí)間對(duì)所述整句音頻數(shù)據(jù)對(duì)應(yīng)的語音識(shí)別文本的起始時(shí)間點(diǎn)和結(jié)尾時(shí)間點(diǎn)進(jìn)行標(biāo)記,包括:
[0033]統(tǒng)計(jì)所述整句音頻數(shù)據(jù)對(duì)應(yīng)的語音識(shí)別文本中的字符;
[0034]根據(jù)所述起始時(shí)間和結(jié)束時(shí)間計(jì)算出所述語音識(shí)別文本中每個(gè)字符的平均時(shí)長;
[0035]根據(jù)所述平均時(shí)長對(duì)每個(gè)字符進(jìn)行時(shí)間軸標(biāo)記,其中所述語音識(shí)別文本中的第一個(gè)字符標(biāo)記起始時(shí)間點(diǎn),最后一個(gè)字符標(biāo)記為結(jié)尾時(shí)間點(diǎn)。
[0036]其中,所述將語音識(shí)別文本及其對(duì)應(yīng)于時(shí)間軸中的時(shí)間對(duì)應(yīng)保存為文本文件之后,還包括:
[0037]播放所述錄音文件時(shí),顯示所述文本文件中記錄的語音識(shí)別文本,并突出顯示所述錄音文件的時(shí)間軸當(dāng)前對(duì)應(yīng)的語音識(shí)別文本。
[0038]其中,所述播放所述錄音文件時(shí),顯示所述文本文件中記錄的語音識(shí)別文本,并突出顯示所述錄音文件的時(shí)間軸當(dāng)前對(duì)應(yīng)的語音識(shí)別文本之后,還包括:
[0039]當(dāng)顯示的語音識(shí)別文本檢測到索引指令時(shí),將所述錄音文件切換到所述索引指令指向的語音識(shí)別文本對(duì)應(yīng)的時(shí)間。
[0040]本發(fā)明所提出的錄音文件索引的裝置及方法,通過在錄制錄音文件時(shí)對(duì)錄音進(jìn)行語音識(shí)別,將錄音文件中的時(shí)間軸映射到語音識(shí)別文件中,將語音識(shí)別文件及其對(duì)應(yīng)于時(shí)間軸中的時(shí)間對(duì)應(yīng)保存,建立文本和時(shí)間軸之間的關(guān)聯(lián),通過文本實(shí)現(xiàn)對(duì)錄音文件的索引,實(shí)現(xiàn)了對(duì)錄音文件中內(nèi)容的快速查看和切換,提高了對(duì)錄音文件的瀏覽的效率。
【附圖說明】
[0041 ]圖1為實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例一個(gè)可選的移動(dòng)終端的硬件結(jié)構(gòu)示意圖;
[0042]圖2為如圖1所示的移動(dòng)終端的無線通信系統(tǒng)示意圖;
[0043]圖3為本發(fā)明的一種錄音文件索引的方法第一實(shí)施例的方法流程圖;
[0044]圖4為本發(fā)明的一種錄音文件索引的方法第二實(shí)施例的方法流程圖;
[0045]圖5為本發(fā)明的一種錄音文件索引的裝置第一實(shí)施例的結(jié)構(gòu)方框圖;
[0046]圖6為本發(fā)明的一種錄音文件索引的裝置第二實(shí)施例的結(jié)構(gòu)方框圖。
[0047]本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說明。
【具體實(shí)施方式】
[0048]應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0049]現(xiàn)在將參考附圖描述實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的移動(dòng)終端。在后續(xù)的描述中,使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發(fā)明的說明,其本身并沒有特定的意義。因此,"模塊"與"部件"可以混合地使用。
[0050]移動(dòng)終端可以以各種形式來實(shí)施。例如,本發(fā)明中描述的終端可以包括諸如移動(dòng)電話、智能電話、筆記本電腦、數(shù)字廣播接收器、PDA(個(gè)人數(shù)字助理)、PAD(平板電腦)、PMP(便攜式多媒體播放器)、導(dǎo)航裝置等等的移動(dòng)終端以及諸如數(shù)字TV、臺(tái)式計(jì)算機(jī)等等的固定終端。下面,假設(shè)終端是移動(dòng)終端。然而,本領(lǐng)域技術(shù)人員將理解的是,除了特別用于移動(dòng)目的的元件之外,根據(jù)本發(fā)明的實(shí)施方式的構(gòu)造也能夠應(yīng)用于固定類型的終端。
[0051]圖1為實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例一個(gè)可選的移動(dòng)終端的硬件結(jié)構(gòu)示意圖。
[0052]移動(dòng)終端100可以包括無線通信單元110、A/V(音頻/視頻)輸入單元120、用戶輸入單元130、輸出單元150、存儲(chǔ)器160、接口單元170、控制器180和電源單元190等等。圖1示出了具有各種組件的移動(dòng)終端,但是應(yīng)理解的是,并不要求實(shí)施所有示出的組件。可以替代地實(shí)施更多或更少的組件。將在下面詳細(xì)描述移動(dòng)終端的元件。
[0053]無線通信單元110通常包括一個(gè)或多個(gè)組件,其允許移動(dòng)終端100與無線通信系統(tǒng)或網(wǎng)絡(luò)之間的無線電通信。例如,無線通信單元可以包括廣播接收模塊111、移動(dòng)通信模塊112、無線互聯(lián)網(wǎng)模塊113、短程通信模塊114和位置信息模塊115中的至少一個(gè)。
[0054]廣播接收模塊111經(jīng)由廣播信道從外部廣播管理服務(wù)器接收廣播信號(hào)和/或廣播相關(guān)信息。廣播信道可以包括衛(wèi)星信道和/或地面信道。廣播管理服務(wù)器可以是生成并發(fā)送廣播信號(hào)和/或廣播相關(guān)信息的服務(wù)器或者接收之前生成的廣播信號(hào)和/或廣播相關(guān)信息并且將其發(fā)送給終端的服務(wù)器。廣播信號(hào)可以包括TV廣播信號(hào)、無線電廣播信號(hào)、數(shù)據(jù)廣播信號(hào)等等。而且,廣播信號(hào)可以進(jìn)一步包括與TV或無線電廣播信號(hào)組合的廣播信號(hào)。廣播相關(guān)信息也可以經(jīng)由移動(dòng)通信網(wǎng)絡(luò)提供,并且在該情況下,廣播相關(guān)信息可以由移動(dòng)通信模塊112來接收。廣播信號(hào)可以以各種形式存在,例如,其可以以數(shù)字多媒體廣播(DMB)的電子節(jié)目指南(EPG)、數(shù)字視頻廣播手持(DVB-H)的電子服務(wù)指南(ESG)等等的形式而存在。廣播接收模塊111可以通過使用各種類型的廣播系統(tǒng)接收信號(hào)廣播。特別地,廣播接收模塊111可以通過使用諸如多媒體廣播-地面(DMB-T)、數(shù)字多媒體廣播-衛(wèi)星(DMB-S)、數(shù)字視頻廣播-手持(DVB-H),前向鏈路媒體(MediaFLO?)的數(shù)據(jù)廣播系統(tǒng)、地面數(shù)字廣播綜合服務(wù)(ISDB-T)等等的數(shù)字廣播系統(tǒng)接收數(shù)字廣播。廣播接收模塊111可以被構(gòu)造為適合提供廣播信號(hào)的各種廣播系統(tǒng)以及上述數(shù)字廣播系統(tǒng)。經(jīng)由廣播接收模塊111接收的廣播信號(hào)和/或廣播相關(guān)信息可以存儲(chǔ)在存儲(chǔ)器160(或者其它類型的存儲(chǔ)介質(zhì))中。
[0055]移動(dòng)通信模塊112將無線電信號(hào)發(fā)送到基站(例如,接入點(diǎn)、節(jié)點(diǎn)B等等)、外部終端以及服務(wù)器中的至少一個(gè)和/或從其接收無線電信號(hào)。這樣的無線電信號(hào)可以包括語音通話信號(hào)、視頻通話信號(hào)、或者根據(jù)文本和/或多媒體消息發(fā)送和/或接收的各種類型的數(shù)據(jù)。
[0056]無線互聯(lián)網(wǎng)模塊113支持移動(dòng)終端的無線互聯(lián)網(wǎng)接入。該模塊可以內(nèi)部或外部地耦接到終端。該模塊所涉及的無線互聯(lián)網(wǎng)接入技術(shù)可以包括WLAN(無線LAN)(W1-F