語音處理系統(tǒng)及語音處理方法

文檔序號(hào)：2836124閱讀：287來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音處理系統(tǒng)及語音處理方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音處理系統(tǒng)及語音處理方法，特別涉及一種音視頻拍攝過程中獲取的語音的語音處理系統(tǒng)及語音處理方法。
背景技術(shù)：
目前，隨著多媒體技術(shù)的發(fā)展，人們可以隨時(shí)進(jìn)行音頻、視頻的拍攝以備后續(xù)作為資料庫或留念。例如，在開會(huì)時(shí)，一般采用攝影機(jī)拍攝或者錄音的方式記錄會(huì)議的過程。但在會(huì)后，當(dāng)用戶查詢會(huì)議中某個(gè)發(fā)言者針對(duì)某話題所說的話時(shí)，需要將所拍攝的整個(gè)會(huì)議過程從頭開始播放以尋找該發(fā)言者針對(duì)該話題的發(fā)言內(nèi)容，如此浪費(fèi)時(shí)間。

發(fā)明內(nèi)容
鑒于以上內(nèi)容，有必要提供一種語音處理系統(tǒng)及語音處理方法，方便查找發(fā)言者針對(duì)某話題的發(fā)言內(nèi)容。一種語音處理系統(tǒng)，該語音處理系統(tǒng)包括:一特征獲取模塊，用于從一預(yù)存的語音文件中提取各發(fā)言者的語音特征，其中，該語音文件中包括有各發(fā)言者的發(fā)言；一語音識(shí)別模塊，用于響應(yīng)用戶選擇一預(yù)存的聲紋模型的操作，判斷該語音文件中是否有與該選擇的聲紋模型匹配的發(fā)言者語音；一語音轉(zhuǎn)換模塊，用于在該語音文件中有與該聲紋模型匹配的發(fā)言者語音時(shí)，獲取與該聲紋模型匹配的發(fā)言者語音，并將該些發(fā)言者語音提取出來，按照在該語音文件的時(shí)間先后順序組成一單一音頻文件，復(fù)制該單一音頻文件，并將該復(fù)制的單一音頻文件轉(zhuǎn)換成文本，其中，該文本包括詞語；一關(guān)聯(lián)模塊，用于根據(jù)單一音頻文件中各個(gè)詞語對(duì)應(yīng)的語音的播放時(shí)間點(diǎn)，將語音轉(zhuǎn)換模塊轉(zhuǎn)換成的文本中的詞語與對(duì)應(yīng)的播放時(shí)間點(diǎn)相關(guān)聯(lián)；一查詢模塊，用于響應(yīng)用戶輸入的關(guān)鍵字的操作，判斷該被轉(zhuǎn)換的文本中是否存在該輸入的關(guān)鍵字；及一執(zhí)行模塊，用于當(dāng)該被轉(zhuǎn)換的文本中存在該輸入的關(guān)鍵字時(shí)，獲取該轉(zhuǎn)換的文本中的關(guān)鍵字所關(guān)聯(lián)的播放時(shí)間點(diǎn)，根據(jù)該獲取的播放時(shí)間點(diǎn)確定單一音頻文件中該關(guān)鍵字對(duì)應(yīng)語音的播放時(shí)間點(diǎn)，并控制一音頻播放裝置從該播放時(shí)間點(diǎn)開始播放該單一音頻文件。一種語音處理方法，該方法包括:從一預(yù)存的語音文件中提取各發(fā)言者的語音特征，其中，該語音文件中記錄有各發(fā)言者的發(fā)言；響應(yīng)用戶選擇一預(yù)存的聲紋模型的操作，判斷該語音文件中是否有與該選擇的聲紋模型匹配的發(fā)言者語音；在該語音文件中有與該聲紋模型匹配的發(fā)言者語音時(shí)，獲取與該聲紋模型匹配的發(fā)言者語音，并將該些發(fā)言者語音提取出來，按照在該語音文件的時(shí)間先后順序組成一單一音頻文件，將該單一音頻文件復(fù)制，并將該復(fù)制的單一音頻文件轉(zhuǎn)換成文本，其中，該文本包括詞語；根據(jù)單一音頻文件中各個(gè)詞語對(duì)應(yīng)的語音的播放時(shí)間點(diǎn)，將被轉(zhuǎn)換成的文本中的詞語與對(duì)應(yīng)的播放時(shí)間點(diǎn)相關(guān)聯(lián)；響應(yīng)用戶輸入的關(guān)鍵字的操作，判斷該被轉(zhuǎn)換的文本中是否存在該輸入的關(guān)鍵字；及當(dāng)該被轉(zhuǎn)換的文本中存在該輸入的關(guān)鍵字時(shí)，獲取該文字中的關(guān)鍵字所關(guān)聯(lián)的播放時(shí)間點(diǎn)，根據(jù)該獲取的播放時(shí)間點(diǎn)確定單一音頻文件中該關(guān)鍵字對(duì)應(yīng)語音的播放時(shí)間點(diǎn)，并控制一音頻播放裝置從該播放時(shí)間點(diǎn)開始播放該單一音頻文件。本發(fā)明通過從一預(yù)存的語音文件中提取各發(fā)言者的語音特征，通過在該語音文件
中有與該聲紋模型匹配的發(fā)言者語音時(shí)，獲取與該聲紋模型匹配的發(fā)言者語音，并按照在
該語音文件的時(shí)間先后順序組成一單一音頻文件，通過將該單一音頻文件轉(zhuǎn)換成對(duì)應(yīng)的文
本，并將該文本中的詞語與對(duì)應(yīng)的時(shí)間相關(guān)聯(lián)，通過當(dāng)該被轉(zhuǎn)換的文本中存在該輸入的關(guān)
鍵字時(shí)，獲取該轉(zhuǎn)換的文本中的關(guān)鍵字所關(guān)聯(lián)的時(shí)間，根據(jù)該獲取的時(shí)間確定單一音頻文
件中該關(guān)鍵字對(duì)應(yīng)語音的播放時(shí)間點(diǎn)，并控制一音頻播放裝置從該播放時(shí)間點(diǎn)開始播放該
單一音頻文件。從而方便查找發(fā)言者針對(duì)某話題的發(fā)言內(nèi)容。

圖1是本發(fā)明一實(shí)施方式中語音處理系統(tǒng)的方框示意圖。圖2是本發(fā)明一實(shí)施方式中語音處理方法的流程圖。主要元件符號(hào)說明
權(quán)利要求
1.一種語音處理系統(tǒng)，其特征在于，該語音處理系統(tǒng)包括: 一特征獲取模塊，用于從一預(yù)存的語音文件中提取各發(fā)言者的語音特征，其中，該語音文件中包括有各發(fā)言者的發(fā)言；一語音識(shí)別模塊，用于響應(yīng)用戶選擇一預(yù)存的聲紋模型的操作，判斷該語音文件中是否有與該選擇的聲紋模型匹配的發(fā)言者語音；一語音轉(zhuǎn)換模塊，用于在該語音文件中有與該聲紋模型匹配的發(fā)言者語音時(shí)，獲取與該聲紋模型匹配的發(fā)言者語音，并將該些發(fā)言者語音提取出來，按照在該語音文件的時(shí)間先后順序組成一單一音頻文件，復(fù)制該單一音頻文件，并將該復(fù)制的單一音頻文件轉(zhuǎn)換成文本，其中，該文本包括詞語；一關(guān)聯(lián)模塊，用于根據(jù)單一音頻文件中各個(gè)詞語對(duì)應(yīng)的語音的播放時(shí)間點(diǎn)，將語音轉(zhuǎn)換模塊轉(zhuǎn)換成的文本中的詞語與對(duì)應(yīng)的播放時(shí)間點(diǎn)相關(guān)聯(lián)；一查詢模塊，用于響應(yīng)用戶輸入的關(guān)鍵字的操作，判斷該被轉(zhuǎn)換的文本中是否存在該輸入的關(guān)鍵字；及一執(zhí)行模塊，用于當(dāng)該被轉(zhuǎn)換的文本中存在該輸入的關(guān)鍵字時(shí)，獲取該轉(zhuǎn)換的文本中的關(guān)鍵字所關(guān)聯(lián)的播放時(shí)間點(diǎn)，根據(jù)該獲取的播放時(shí)間點(diǎn)確定單一音頻文件中該關(guān)鍵字對(duì)應(yīng)語音的播放時(shí)間點(diǎn)，并控制一音頻播放裝置從該播放時(shí)間點(diǎn)開始播放該單一音頻文件。
2.如權(quán)利要求1所述的語音處理系統(tǒng)，其特征在于:該語音處理系統(tǒng)還包括一備注模塊，該備注模塊用于響應(yīng)用戶在播放單一音頻文件時(shí)輸入文字的操作，確定此時(shí)該單一音頻文件的播放時(shí)間點(diǎn)，將該輸入的文字轉(zhuǎn)換成語音，并將該轉(zhuǎn)換的語音插入在該單一音頻文件中與該確定的時(shí)間點(diǎn)對(duì)應(yīng)的位置中。
3.如權(quán)利要求1所述的語音處理系統(tǒng)，其特征在于:該特征獲取模塊通過梅爾倒頻譜系數(shù)進(jìn)行語音文件的語音特征的提取。
4.一種語音處理方法，其特征在于，該方法包括: 從一預(yù)存的語音文件中提取各發(fā)言者的語音特征，其中，該語音文件中記錄有各發(fā)言者的發(fā)言；響應(yīng)用戶選擇一預(yù)存的聲紋模型的操作，判斷該語音文件中是否有與該選擇的聲紋模型匹配的發(fā)言者語音；在該語音文件中有與該聲紋模型匹配的發(fā)言者語音時(shí)，獲取與該聲紋模型匹配的發(fā)言者語音，并將該些發(fā)言者語音提取出來，按照在該語音文件的時(shí)間先后順序組成一單一音頻文件，將該單一音頻文件復(fù)制，并將該復(fù)制的單一音頻文件轉(zhuǎn)換成文本，其中，該文本包括詞語；根據(jù)單一音頻文件中各個(gè)詞語對(duì)應(yīng)的語音的播放時(shí)間點(diǎn)，將被轉(zhuǎn)換成的文本中的詞語與對(duì)應(yīng)的播放時(shí)間點(diǎn)相關(guān)聯(lián)；響應(yīng)用戶輸入的關(guān)鍵字的操作，判斷該被轉(zhuǎn)換的文本中是否存在該輸入的關(guān)鍵字；及當(dāng)該被轉(zhuǎn)換的文本中存在該輸入的關(guān)鍵字時(shí)，獲取該文字中的關(guān)鍵字所關(guān)聯(lián)的播放時(shí)間點(diǎn)，根據(jù)該獲取的播放時(shí)間點(diǎn)確定單一音頻文件中該關(guān)鍵字對(duì)應(yīng)語音的播放時(shí)間點(diǎn)，并控制一音頻播放裝置從該播放時(shí)間點(diǎn)開始播放該單一音頻文件。
5.如權(quán)利要求4所述的語音處理方法，其特征在于，該方法包括: 響應(yīng)用戶在播放單一音頻文件時(shí)輸入文字的操作，確定此時(shí)該單一音頻文件的播放時(shí)間點(diǎn)，將該輸入的文字轉(zhuǎn)換成語音，并將該轉(zhuǎn)換的語音插入在該單一音頻文件中與該確定的時(shí)間所對(duì)應(yīng)位置中。
6.如權(quán)利要求4所述的語音處理方法，其特征在于，該方法包括: 通過梅爾倒頻譜系數(shù)進(jìn)行語音文件的語音特征的提取。
全文摘要
一種語音處理方法包括從一預(yù)存的語音文件中提取各發(fā)言者的語音特征；響應(yīng)用戶的操作，在該語音文件中有與該選擇的聲紋模型匹配的發(fā)言者語音時(shí)，獲取與該聲紋模型匹配的發(fā)言者語音，按照在該語音文件的時(shí)間先后順序組成一單一音頻文件，復(fù)制該獲取的單一音頻文件，將該復(fù)制的單一音頻文件轉(zhuǎn)換成對(duì)應(yīng)的文本；將該文本中的詞語與對(duì)應(yīng)的時(shí)間相關(guān)聯(lián)；響應(yīng)用戶操作，當(dāng)該被轉(zhuǎn)換的文本中存在輸入的關(guān)鍵字時(shí)，獲取該文字中的關(guān)鍵字所關(guān)聯(lián)的時(shí)間，根據(jù)該獲取的時(shí)間確定單一音頻文件中該關(guān)鍵字對(duì)應(yīng)語音的播放時(shí)間點(diǎn)，并控制一音頻播放裝置從該播放時(shí)間點(diǎn)開始播放該單一音頻文件。本發(fā)明還提供一種語音處理系統(tǒng)，方便查找發(fā)言者針對(duì)某話題的發(fā)言內(nèi)容。
文檔編號(hào)G10L17/02GK103165131SQ20111042639
公開日2013年6月19日申請(qǐng)日期2011年12月17日優(yōu)先權(quán)日2011年12月17日
發(fā)明者林希申請(qǐng)人:富泰華工業(yè)(深圳)有限公司, 鴻海精密工業(yè)股份有限公司

完整全部詳細(xì)技術(shù)資料下載