語音信息智能保存方法及裝置與流程

文檔序號：12495562閱讀：422來源：國知局

本發(fā)明涉及通訊技術領域，尤其涉及一種語音信息智能保存方法及裝置。

背景技術：

隨著通訊技術的迅猛發(fā)展，手機等移動終端為越來越多的用戶所擁有，其中，語音即時通話隨著微信、QQ等即時通信工具以及網(wǎng)絡傳輸技術的飛速發(fā)展而逐漸受到越來越多人的喜愛。但是，在語音輸入時，因為各種各樣的意外情況或用戶不同的習慣，人們輸入的語音信息往往包含較多的無效信息，例如，環(huán)境噪音、較長的空白，或者其他用戶習慣的碎語(例如較長的尾音或無效的疊音等)，因此，使得在通話過程中發(fā)送給用戶的語音信息可能造成斷續(xù)或存在較多無效信息，浪費了網(wǎng)絡資源，也給對方造成理解障礙，或者是在單純的錄音操作時保存了斷續(xù)的語音信息或保存了過多的無效信息，而浪費了手機存儲。

因此，有必要提供一種語音信息智能保存方法及裝置，避免上述情況的出現(xiàn)，提高用戶體驗。

技術實現(xiàn)要素：

鑒于此，本發(fā)明提出一種語音信息智能保存方法及裝置，旨在解決現(xiàn)有技術中語音輸入時保存語音存在無效信息的問題。

為實現(xiàn)上述目的，本發(fā)明提出一種語音信息智能保存裝置，所述裝置包括：

接收模塊，用于接收用戶輸入的語音信息；

匹配模塊，用于將所述語音信息的各語音片段與數(shù)據(jù)庫中的無效語音模板進行匹配，若存在匹配成功的語音片段，則標識所述匹配成功的語音片段為無效語音片段；

過濾模塊，用于將所述無效語音片段從所述語音信息中過濾以得到調整后的語音信息；

保存模塊，用于保存所述調整后的語音信息作為最終語音信息。

可選地，所述匹配模塊具體包括：

分段單元，用于依據(jù)所述無效語音模板長度將所述語音信息依次分為多個語音片段；

比對單元，用于將各個所述語音片段依次與所述無效語音模板進行比對以得到各個所述語音片段與所述無效語音模板的相似度；

標識單元，用于將相似度大于預設閾值的各個所述語音片段標識為匹配成功的所述無效語音片段。

可選地，所述過濾模塊具體包括：

提示單元，用于提示用戶刪除或替換所述無效語音片段；

替換單元，用于當用戶選擇替換所述無效語音片段時，將用戶輸入的新的有效語音片段替換所述無效語音片段以得到所述調整后的語音信息；

刪除單元，用于當用戶選擇刪除所述無效語音片段時，直接刪除所述無效語音片段以得到所述調整后的語音信息；

可選地，所述接收模塊還用于接收用戶輸入的所述無效語音模板并存儲在所述數(shù)據(jù)庫中，其中，所述數(shù)據(jù)庫中包含至少一個所述無效語音模板。

可選地，所述裝置還包括：

學習模塊，用于依據(jù)用戶輸入的歷史語音信息，比對各個所述歷史語音信息以得到所述無效語音模板并保存至所述數(shù)據(jù)庫中。

此外，為實現(xiàn)上述目的，本發(fā)明還提出一種語音信息智能保存方法，包括以下步驟：

接收用戶輸入的語音信息；

將所述語音信息的各語音片段與數(shù)據(jù)庫中的無效語音模板進行匹配，若存在匹配成功的語音片段，則標識所述匹配成功的語音片段為無效語音片段；

將所述無效語音片段從所述語音信息中過濾以得到所述調整后的語音信息；

保存所述調整后的語音信息作為最終語音信息。

可選地，所述將所述語音信息的各語音片段與數(shù)據(jù)庫中的無效語音模板進行匹配，若存在匹配成功的語音片段，則標識匹配成功的所述語音片段為無效語音片段的步驟具體包括：

依據(jù)所述無效語音模板長度將所述語音信息依次分為多個語音片段；

將各個所述語音片段依次與所述無效語音模板進行比對以得到各個所述語音片段與所述無效語音模板的相似度；

將相似度大于預設閾值的各個所述語音片段標識為匹配成功的所述無效語音片段。

可選地，所述將所述無效語音片段從所述語音信息中過濾以得到調整后的所述語音信息的步驟具體包括：

提示用戶刪除或替換所述無效語音片段；

當用戶選擇替換所述無效語音片段時，將用戶輸入的新的有效語音片段替換所述無效語音片段以得到所述調整后的語音信息；

當用戶選擇刪除所述無效語音片段時，直接刪除所述無效語音片段以得到所述調整后的語音信息；

可選地，所述方法還包括：

接收用戶輸入的所述無效語音模板并存儲在所述數(shù)據(jù)庫中，其中，所述數(shù)據(jù)庫中包含至少一個所述無效語音模板。

可選地，所述方法還包括：

依據(jù)用戶輸入的歷史語音信息，比對各個所述歷史語音信息以得到所述無效語音模板并保存至所述數(shù)據(jù)庫中。

本發(fā)明提出的語音智能保存方法及裝置，移動終端接收用戶輸入的語音信息將各語音片段與數(shù)據(jù)庫中的無效語音模板進行匹配并標識匹配成功的所述語音片段為無效語音片段；將所述無效語音片段從所述語音信息中過濾。從而，在接收用戶輸入的語音信息后，對語音信息中的無效語音片段進行過濾后再保存，使得保存的語音信息更為完整有效，同時也較少了存儲時的存儲負擔和語音通話時的帶寬負擔，提升了用戶體驗。

附圖說明

圖1為實現(xiàn)本發(fā)明各個實施例一個可選的移動終端的硬件結構示意圖；

圖2為如圖1所示的移動終端的無線通信系統(tǒng)示意圖；

圖3為本發(fā)明第一實施例提供的語音信息智能保存裝置的模塊示意圖；

圖4為本發(fā)明中彈出語音過濾提示框時的即時通信界面一示例圖；

圖5為所示是用戶選擇替換無效語音片段后的即時通信界面一示例圖；

圖6為本發(fā)明第四實施例提供的語音信息智能保存方法的流程示意圖；

圖7為本發(fā)明第五實施例提供的語音信息智能保存方法的流程示意圖；

圖8為本發(fā)明第六實施例提供的語音信息智能保存方法的流程示意圖。

本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結合實施例，參照附圖做進一步說明。

具體實施方式

應當理解，此處所描述的具體實施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

現(xiàn)在將參考附圖描述實現(xiàn)本發(fā)明各個實施例的移動終端。在后續(xù)的描述中，使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發(fā)明的說明，其本身并沒有特定的意義。因此，"模塊"與"部件"可以混合地使用。

移動終端可以以各種形式來實施。例如，本發(fā)明中描述的終端可以包括諸如移動電話、智能電話、筆記本電腦、數(shù)字廣播接收器、PDA(個人數(shù)字助理)、PAD(平板電腦)、PMP(便攜式多媒體播放器)、導航裝置等等的移動終端以及諸如數(shù)字TV、臺式計算機等等的固定終端。下面，假設終端是移動終端。然而，本領域技術人員將理解的是，除了特別用于移動目的的元件之外，根據(jù)本發(fā)明的實施方式的構造也能夠應用于固定類型的終端。

圖1為實現(xiàn)本發(fā)明各個實施例一個可選的移動終端的硬件結構示意。

移動終端100可以包括無線通信單元110、A/V(音頻/視頻)輸入單元120、用戶輸入單元130、感測單元140、輸出單元150、存儲器160、接口單元170、控制器180和電源單元190等等。圖1示出了具有各種組件的移動終端，但是應理解的是，并不要求實施所有示出的組件?？梢蕴娲貙嵤└嗷蚋俚慕M件。將在下面詳細描述移動終端的元件。

無線通信單元110通常包括一個或多個組件，其允許移動終端100與無線通信系統(tǒng)或網(wǎng)絡之間的無線電通信。例如，無線通信單元可以包括廣播接收模塊111、移動通信模塊112、無線互聯(lián)網(wǎng)模塊113中的至少一個。

廣播接收模塊111經(jīng)由廣播信道從外部廣播管理服務器接收廣播信號和/或廣播相關信息。廣播信道可以包括衛(wèi)星信道和/或地面信道。廣播管理服務器可以是生成并發(fā)送廣播信號和/或廣播相關信息的服務器或者接收之前生成的廣播信號和/或廣播相關信息并且將其發(fā)送給終端的服務器。廣播信號可以包括TV廣播信號、無線電廣播信號、數(shù)據(jù)廣播信號等等。而且，廣播信號可以進一步包括與TV或無線電廣播信號組合的廣播信號。廣播相關信息也可以經(jīng)由移動通信網(wǎng)絡提供，并且在該情況下，廣播相關信息可以由移動通信模塊112來接收。廣播信號可以以各種形式存在，例如，其可以以數(shù)字多媒體廣播(DMB)的電子節(jié)目指南(EPG)、數(shù)字視頻廣播手持(DVB-H)的電子服務指南(ESG)等等的形式而存在。廣播接收模塊111可以通過使用各種類型的廣播系統(tǒng)接收信號廣播。特別地，廣播接收模塊111可以通過使用諸如多媒體廣播-地面(DMB-T)、數(shù)字多媒體廣播-衛(wèi)星(DMB-S)、數(shù)字視頻廣播-手持(DVB-H)，前向鏈路媒體(MediaFLO^@)的數(shù)據(jù)廣播系統(tǒng)、地面數(shù)字廣播綜合服務(ISDB-T)等等的數(shù)字廣播系統(tǒng)接收數(shù)字廣播。廣播接收模塊111可以被構造為適合提供廣播信號的各種廣播系統(tǒng)以及上述數(shù)字廣播系統(tǒng)。經(jīng)由廣播接收模塊111接收的廣播信號和/或廣播相關信息可以存儲在存儲器160(或者其它類型的存儲介質)中。

移動通信模塊112將無線電信號發(fā)送到基站(例如，接入點、節(jié)點B等等)、外部終端以及服務器中的至少一個和/或從其接收無線電信號。這樣的無線電信號可以包括語音通話信號、視頻通話信號、或者根據(jù)文本和/或多媒體消息發(fā)送和/或接收的各種類型的數(shù)據(jù)。

無線互聯(lián)網(wǎng)模塊113支持移動終端的無線互聯(lián)網(wǎng)接入。該模塊可以內部或外部地耦接到終端。該模塊所涉及的無線互聯(lián)網(wǎng)接入技術可以包括WLAN(無線LAN)(Wi-Fi)、Wibro(無線寬帶)、Wimax(全球微波互聯(lián)接入)、HSDPA(高速下行鏈路分組接入)等等。

A/V輸入單元120用于接收音頻或視頻信號。A/V輸入單元120可以包括麥克風122，麥克風122可以在電話通話模式、記錄模式、語音識別模式等等運行模式中經(jīng)由麥克風接收聲音(音頻數(shù)據(jù))，并且能夠將這樣的聲音處理為音頻數(shù)據(jù)。處理后的音頻(語音)數(shù)據(jù)可以在電話通話模式的情況下轉換為可經(jīng)由移動通信模塊112發(fā)送到移動通信基站的格式輸出。麥克風122可以實施各種類型的噪聲消除(或抑制)算法以消除(或抑制)在接收和發(fā)送音頻信號的過程中產(chǎn)生的噪聲或者干擾。

用戶輸入單元130可以根據(jù)用戶輸入的命令生成鍵輸入數(shù)據(jù)以控制移動終端的各種操作。用戶輸入單元130允許用戶輸入各種類型的信息，并且可以包括鍵盤、鍋仔片、觸摸板(例如，檢測由于被接觸而導致的電阻、壓力、電容等等的變化的觸敏組件)、滾輪、搖桿等等。特別地，當觸摸板以層的形式疊加在顯示單元151上時，可以形成觸摸屏。

感測單元140檢測移動終端100的當前狀態(tài)，(例如，移動終端100的打開或關閉狀態(tài))、移動終端100的位置、用戶對于移動終端100的接觸(即，觸摸輸入)的有無、移動終端100的取向、移動終端100的加速或減速移動和方向等等，并且生成用于控制移動終端100的操作的命令或信號。例如，當移動終端100實施為滑動型移動電話時，感測單元140可以感測該滑動型電話是打開還是關閉。另外，感測單元140能夠檢測電源單元190是否提供電力或者接口單元170是否與外部裝置耦接。

接口單元170用作至少一個外部裝置與移動終端100連接可以通過的接口。例如，外部裝置可以包括有線或無線頭戴式耳機端口、外部電源(或電池充電器)端口、有線或無線數(shù)據(jù)端口、存儲卡端口、用于連接具有識別模塊的裝置的端口、音頻輸入/輸出(I/O)端口、視頻I/O端口、耳機端口等等。識別模塊可以是存儲用于驗證用戶使用移動終端100的各種信息并且可以包括用戶識別模塊(UIM)、客戶識別模塊(SIM)、通用客戶識別模塊(USIM)等等。另外，具有識別模塊的裝置(下面稱為"識別裝置")可以采取智能卡的形式，因此，識別裝置可以經(jīng)由端口或其它連接裝置與移動終端100連接。接口單元170可以用于接收來自外部裝置的輸入(例如，數(shù)據(jù)信息、電力等等)并且將接收到的輸入傳輸?shù)揭苿咏K端100內的一個或多個元件或者可以用于在移動終端和外部裝置之間傳輸數(shù)據(jù)。

另外，當移動終端100與外部底座連接時，接口單元170可以用作允許通過其將電力從底座提供到移動終端100的路徑或者可以用作允許從底座輸入的各種命令信號通過其傳輸?shù)揭苿咏K端的路徑。從底座輸入的各種命令信號或電力可以用作用于識別移動終端是否準確地安裝在底座上的信號。輸出單元150被構造為以視覺、音頻和/或觸覺方式提供輸出信號(例如，音頻信號、視頻信號、警報信號、振動信號等等)。輸出單元150可以包括顯示單元151、音頻輸出模塊152、警報單元153等等。

顯示單元151可以顯示在移動終端100中處理的信息。例如，當移動終端100處于電話通話模式時，顯示單元151可以顯示與通話或其它通信(例如，文本消息收發(fā)、多媒體文件下載等等)相關的用戶界面(UI)或圖形用戶界面(GUI)。當移動終端100處于視頻通話模式或者圖像捕獲模式時，顯示單元151可以顯示捕獲的圖像和/或接收的圖像、示出視頻或圖像以及相關功能的UI或GUI等等。

同時，當顯示單元151和觸摸板以層的形式彼此疊加以形成觸摸屏時，顯示單元151可以用作輸入裝置和輸出裝置。顯示單元151可以包括液晶顯示器(LCD)、薄膜晶體管LCD(TFT-LCD)、有機發(fā)光二極管(OLED)顯示器、柔性顯示器、三維(3D)顯示器等等中的至少一種。這些顯示器中的一些可以被構造為透明狀以允許用戶從外部觀看，這可以稱為透明顯示器，典型的透明顯示器可以例如為TOLED(透明有機發(fā)光二極管)顯示器等等。根據(jù)特定想要的實施方式，移動終端100可以包括兩個或更多顯示單元(或其它顯示裝置)，例如，移動終端可以包括外部顯示單元(未示出)和內部顯示單元(未示出)。觸摸屏可用于檢測觸摸輸入壓力以及觸摸輸入位置和觸摸輸入面積。

音頻輸出模塊152可以在移動終端處于呼叫信號接收模式、通話模式、記錄模式、語音識別模式、廣播接收模式等等模式下時，將無線通信單元110接收的或者在存儲器160中存儲的音頻數(shù)據(jù)轉換音頻信號并且輸出為聲音。而且，音頻輸出模塊152可以提供與移動終端100執(zhí)行的特定功能相關的音頻輸出(例如，呼叫信號接收聲音、消息接收聲音等等)。音頻輸出模塊152可以包括揚聲器、蜂鳴器等等。

警報單元153可以提供輸出以將事件的發(fā)生通知給移動終端100。典型的事件可以包括呼叫接收、消息接收、鍵信號輸入、觸摸輸入等等。除了音頻或視頻輸出之外，警報單元153可以以不同的方式提供輸出以通知事件的發(fā)生。例如，警報單元153可以以振動的形式提供輸出，當接收到呼叫、消息或一些其它進入通信(incoming communication)時，警報單元153可以提供觸覺輸出(即，振動)以將其通知給用戶。通過提供這樣的觸覺輸出，即使在用戶的移動電話處于用戶的口袋中時，用戶也能夠識別出各種事件的發(fā)生。警報單元153也可以經(jīng)由顯示單元151或音頻輸出模塊152提供通知事件的發(fā)生的輸出。

存儲器160可以存儲由控制器180執(zhí)行的處理和控制操作的軟件程序等等，或者可以暫時地存儲己經(jīng)輸出或將要輸出的數(shù)據(jù)(例如，電話簿、消息、靜態(tài)圖像、視頻等等)。而且，存儲器160可以存儲關于當觸摸施加到觸摸屏時輸出的各種方式的振動和音頻信號的數(shù)據(jù)。

存儲器160可以包括至少一種類型的存儲介質，所述存儲介質包括閃存、硬盤、多媒體卡、卡型存儲器(例如，SD或DX存儲器等等)、隨機訪問存儲器(RAM)、靜態(tài)隨機訪問存儲器(SRAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、可編程只讀存儲器(PROM)、磁性存儲器、磁盤、光盤等等。而且，移動終端100可以與通過網(wǎng)絡連接執(zhí)行存儲器160的存儲功能的網(wǎng)絡存儲裝置協(xié)作。

控制器180通常控制移動終端的總體操作。例如，控制器180執(zhí)行與語音通話、數(shù)據(jù)通信、視頻通話等等相關的控制和處理。另外，控制器180可以包括用于再現(xiàn)(或回放)多媒體數(shù)據(jù)的多媒體模塊1810，多媒體模塊1810可以構造在控制器180內，或者可以構造為與控制器180分離?？刂破?80可以執(zhí)行模式識別處理，以將在觸摸屏上執(zhí)行的手寫輸入或者圖片繪制輸入識別為字符或圖像。

電源單元190在控制器180的控制下接收外部電力或內部電力并且提供操作各元件和組件所需的適當?shù)碾娏Α?/p>

這里描述的各種實施方式可以以使用例如計算機軟件、硬件或其任何組合的計算機可讀介質來實施。對于硬件實施，這里描述的實施方式可以通過使用特定用途集成電路(ASIC)、數(shù)字信號處理器(DSP)、數(shù)字信號處理裝置(DSPD)、可編程邏輯裝置(PLD)、現(xiàn)場可編程門陣列(FPGA)、處理器、控制器、微控制器、微處理器、被設計為執(zhí)行這里描述的功能的電子單元中的至少一種來實施，在一些情況下，這樣的實施方式可以在控制器180中實施。對于軟件實施，諸如過程或功能的實施方式可以與允許執(zhí)行至少一種功能或操作的單獨的軟件模塊來實施。軟件代碼可以由以任何適當?shù)木幊陶Z言編寫的軟件應用程序(或程序)來實施，軟件代碼可以存儲在存儲器160中并且由控制器180執(zhí)行。

至此，己經(jīng)按照其功能描述了移動終端。下面，為了簡要起見，將描述諸如折疊型、直板型、擺動型、滑動型移動終端等等的各種類型的移動終端中的滑動型移動終端作為示例。因此，本發(fā)明能夠應用于任何類型的移動終端，并且不限于滑動型移動終端。

如圖1中所示的移動終端100可以被構造為利用經(jīng)由幀或分組發(fā)送數(shù)據(jù)的諸如有線和無線通信系統(tǒng)以及基于衛(wèi)星的通信系統(tǒng)來操作。

現(xiàn)在將參考圖2描述其中根據(jù)本發(fā)明的移動終端能夠操作的通信系統(tǒng)。

這樣的通信系統(tǒng)可以使用不同的空中接口和/或物理層。例如，由通信系統(tǒng)使用的空中接口包括例如頻分多址(FDMA)、時分多址(TDMA)、碼分多址(CDMA)和通用移動通信系統(tǒng)(UMTS)(特別地，長期演進(LTE))、全球移動通信系統(tǒng)(GSM)等等。作為非限制性示例，下面的描述涉及CDMA通信系統(tǒng)，但是這樣的教導同樣適用于其它類型的系統(tǒng)。

參考圖2，CDMA無線通信系統(tǒng)可以包括多個移動終端100、多個基站(BS)270、基站控制器(BSC)275和移動交換中心(MSC)280。MSC280被構造為與公共電話交換網(wǎng)絡(PSTN)290形成接口。MSC280還被構造為與可以經(jīng)由回程線路耦接到基站270的BSC275形成接口?；爻叹€路可以根據(jù)若干己知的接口中的任一種來構造，所述接口包括例如E1/T1、ATM，IP、PPP、幀中繼、HDSL、ADSL或xDSL。將理解的是，如圖2中所示的系統(tǒng)可以包括多個BSC2750。

每個BS270可以服務一個或多個分區(qū)(或區(qū)域)，由多向天線或指向特定方向的天線覆蓋的每個分區(qū)放射狀地遠離BS270?；蛘撸總€分區(qū)可以由用于分集接收的兩個或更多天線覆蓋。每個BS270可以被構造為支持多個頻率分配，并且每個頻率分配具有特定頻譜(例如，1.25MHz,5MHz等等)。

分區(qū)與頻率分配的交叉可以被稱為CDMA信道。BS270也可以被稱為基站收發(fā)器子系統(tǒng)(BTS)或者其它等效術語。在這樣的情況下，術語"基站"可以用于籠統(tǒng)地表示單個BSC275和至少一個BS270。基站也可以被稱為"蜂窩站"。或者，特定BS270的各分區(qū)可以被稱為多個蜂窩站。

如圖2中所示，廣播發(fā)射器(BT)295將廣播信號發(fā)送給在系統(tǒng)內操作的移動終端100。如圖1中所示的廣播接收模塊111被設置在移動終端100處以接收由BT295發(fā)送的廣播信號。在圖2中，示出了幾個全球定位系統(tǒng)(GPS)衛(wèi)星300。衛(wèi)星300幫助定位多個移動終端100中的至少一個。

在圖2中，描繪了多個衛(wèi)星300，但是理解的是，可以利用任何數(shù)目的衛(wèi)星獲得有用的定位信息。如圖1中所示的GPS模塊115通常被構造為與衛(wèi)星300配合以獲得想要的定位信息。替代GPS跟蹤技術或者在GPS跟蹤技術之外，可以使用可以跟蹤移動終端的位置的其它技術。另外，至少一個GPS衛(wèi)星300可以選擇性地或者額外地處理衛(wèi)星DMB傳輸。

作為無線通信系統(tǒng)的一個典型操作，BS270接收來自各種移動終端100的反向鏈路信號。移動終端100通常參與通話、消息收發(fā)和其它類型的通信。特定基站270接收的每個反向鏈路信號被在特定BS270內進行處理。獲得的數(shù)據(jù)被轉發(fā)給相關的BSC275。BSC提供通話資源分配和包括BS270之間的軟切換過程的協(xié)調的移動管理功能。BSC275還將接收到的數(shù)據(jù)路由到MSC280，其提供用于與PSTN290形成接口的額外的路由服務。類似地，PSTN290與MSC280形成接口，MSC與BSC275形成接口，并且BSC275相應地控制BS270以將正向鏈路信號發(fā)送到移動終端100。

基于上述移動終端硬件結構以及通信系統(tǒng)，提出本發(fā)明方法各個實施例。

如圖3所示，本發(fā)明第一實施例提出一種語音信息智能保存裝置，應用于移動終端，所述裝置包括：

接收模塊310，用于接收用戶輸入的語音信息；

具體的，用戶可在各種模式下進行語音信息的輸入，本發(fā)明對此不作限制。例如，通過移動終端的上的錄音應用進行錄音時通過點擊或觸摸按鍵觸發(fā)語音輸入功能，此時，接收模塊310接收用戶語音輸入。又例如，在即時通信應用界面上通過點擊或觸摸語音通話按鍵選項而觸發(fā)語音輸入功能，此時，接收模塊310接收用戶輸入。用戶可以通過移動終端上任一設置了語音接收/輸入功能的應用程序進行語音輸入，接收模塊310實時監(jiān)測語音輸入功能是否被觸發(fā)并及時接收用戶語音輸入。

進一步的，接收模塊還用于接收用戶輸入的無效語音模板并保存到數(shù)據(jù)庫中。

具體的，用戶可以自定義無效語音模板并輸入至移動終端中進行保存，用于后續(xù)對用戶輸入的語音信息進行過濾。此處，無效語音模板的數(shù)量為一個或一個以上。所述無效語音可以為某一噪聲、某一特定詞匯或者是空白語音。例如，由于用戶說話習慣不好，其語音輸入時經(jīng)常會有拖長且重復的語氣助詞，例如“明天早上九點在XX地見吧…吧…吧…”，則用戶可以將“吧”作為無效語音模板輸入。用戶還可以直接輸入一段空語音作為無效語音模板，以便后續(xù)過濾輸入的語音信息中的間歇停頓。本發(fā)明對無效語音模板的具體形式不作限制，用戶可以依據(jù)需要自行設定客制化的無效語音模板。

匹配模塊320，用于將所述語音信息的各語音片段與數(shù)據(jù)庫中的無效語音模板進行匹配，若存在匹配成功的語音片段，則標識所述匹配成功的語音片段為無效語音片段；

具體的，當用戶語音輸入完畢之后，此時，匹配模塊320需要將用戶輸入的語音信息與數(shù)據(jù)庫中無效語音模板進行匹配。以數(shù)據(jù)庫中有兩個無效語音模板例如模板A和模板B為例。匹配模塊320將輸入的語音信息的各個語音片段的聲紋特征與模板A和B的聲紋特征分別進行比對，當相似度達到預設值，則認為匹配成功。各個語音片段的長度可以依據(jù)模板確定，例如，模板A的長度為1ms，語音信息的長度為1s，則可以將語音長度從0s開始分為10個1ms的語音片段，再將每個語音片段的聲紋特征逐一與模板A進行比對。與模板A比對完之后，再與模板B進比對，此時假設模板B的長度為2ms，則可以將語音信息從0s開始分為5個2ms的語音片段，再將每個語音片段的聲紋特征逐一與模板B進行比對。逐一比對過后，匹配模塊320將標識匹配成功的語音片段為無效語音片段。

過濾模塊330，用于將所述無效語音片段從所述語音信息中過濾以得到調整后的語音信息；

保存模塊340，用于保存所述調整后的語音信息作為最終語音信息。

具體的，過濾的方式可以是直接刪除，也可以是將無效語音片段替換為其他有效的語音片段。同時，過濾模塊330還可以提示用戶對過濾方式進行選擇，依據(jù)用戶選擇采用對應的過濾方式刪除或替換無效語音片段，得到調整后的語音信息，將該調整后的語音信息保存在數(shù)據(jù)庫中作為最終語音信息，此時，不管用戶處于何種模式下，例如錄音模式或語音通話模式，因為最終保存的語音信息中的無效語音信息已經(jīng)被過濾，故保存的最終語音信息所包含的信息并無多余的信息，其有效率非常高，避免了無效語音信息對移動終端存儲的浪費，同時，若是在語音通話模式下，無效語音的過濾也避免了占用過多的帶寬，使有效利用率更高。

進一步的，所述語音智能保存裝置還包括：

學習模塊，用于依據(jù)用戶輸入的歷史語音信息，比對各個所述歷史語音信息以得到所述無效語音模板并保存至所述數(shù)據(jù)庫中。

具體的，依據(jù)用戶輸入的歷史語音信息，學習模塊可以對各個語音信息進行分析比對并得到相似的語音信息，比對兩者之間的不同，將不同的地方作為備選無效語音模板，若該備選無效語音模板出現(xiàn)的次數(shù)超過預設，則將其作為無效語音模板保存到數(shù)據(jù)庫中。例如，經(jīng)語音識別，歷史語音信息C和歷史信息D為分別為“你…額…好”以及“你好”，C出現(xiàn)了“你”“額”“好”三個字，D則出現(xiàn)“你”“好”，兩者相同的字為2/3(相同的字符數(shù)/兩語音信息中較長者字符數(shù))，且相同字符的相對順序相同，則認為兩者為相似的語音信息，同時“額”可以作為備選無效語音模板。若后續(xù)在其他相似語音的比對中，“額”作為相似語音的而不同字符出現(xiàn)大次數(shù)超過預設，例如，10次以上，則將“額”作為無效語音模板保存。通過長時間的學習，可以不斷增加無效語音模板，提高語音信息過濾的準確度。

本發(fā)明提出的語音智能保存裝置，移動終端接收用戶輸入的語音信息將各語音片段與數(shù)據(jù)庫中的無效語音模板進行匹配并標識匹配成功的所述語音片段為無效語音片段；將所述無效語音片段從所述語音信息中過濾。從而，在接收用戶輸入的語音信息后，對語音信息中的無效語音片段進行過濾后再保存，使得保存的語音信息更為完整有效，同時也較少了存儲時的存儲負擔和語音通話時的帶寬負擔，提升了用戶體驗。

本發(fā)明第二實施例進一步提供了另一種語音智能保存裝置。在第二實施例中，所述語音智能保存裝置與第一實施例的區(qū)別在于，在本實施例中，匹配模塊320具體包括：

分段單元，用于依據(jù)所述無效語音模板長度將所述語音信息依次分為多個語音片段；

比對單元，用于將各個所述語音片段依次與所述無效語音模板進行比對以得到各個所述語音片段與所述無效語音模板的相似度；

標識單元，用于將相似度大于預設閾值的各個所述語音片段標識為匹配成功的所述無效語音片段。

具體的，為使匹配更為快速準確，分段單元首先依據(jù)當前要匹配的無效語音模板長度將待匹配的語音信息依次分為多個語音片段，再由比對單元將各個語音片段與當前要匹配的語音模板進行比對，比對完畢后再依據(jù)下一個無效語音模板重新進行片段劃分，再繼續(xù)比對。例如，當前要與無效語音模板A匹配，而模板A的長度為1ms，語音信息的長度為1s，則可以將語音長度從0s開始分為10個1ms的語音片段，再將每個語音片段的聲紋特征逐一與模板A進行比對，比對完后與無效語音模板B匹配，若模板B的長度為2ms，則可以將語音信息從0s開始分為5個2ms的語音片段，再將每個語音片段的聲紋特征逐一與模板B進行比對。比對時，比對單元將記錄各個片段與各個無效語音模板的相似度，詳細的，可以通過分析兩者的聲紋特征進行比對，再以百分比記錄相似度。與數(shù)據(jù)庫中的所有無效語音模板比對完畢后，此時，相似度大于預設閾值的各個語音片段則可以判斷為匹配成功，標識單元將該語音片段標識為無效語音片段。

本發(fā)明提出的語音智能保存裝置，在將語音信息與無效語音模板進行匹配時，依據(jù)無效語音模板的長度對語音信息進行分段，實現(xiàn)了片段匹配和標識，使匹配更為迅速準確，同時片段標識也使過濾時更容易定位，避免誤過濾。

本發(fā)明第三實施例進一步提供了另一種語音智能保存裝置。在第三實施例中，所述語音智能保存裝置與第一實施例的區(qū)別在于，在本實施例中，過來模塊330具體包括：

提示單元，用于提示用戶刪除或替換所述無效語音片段；

替換單元，用于當用戶選擇替換所述無效語音片段時，將用戶輸入的新的有效語音片段替換所述無效語音片段以得到所述調整后的語音信息；

刪除單元，用于當用戶選擇刪除所述無效語音片段時，直接刪除所述無效語音片段以得到所述調整后的語音信息；

具體的，當確定用戶輸入的語音信息中存在無效語音片段時，提示單元可以通過彈窗等方式提示用戶刪除或替換無效語音片段，同時列出各個無效語音片段以供用戶選擇。依據(jù)用戶的不同選擇，刪除單元和替換單元分別進行不同的操作。若用戶選擇直接刪除無效語音片段，則刪除單元直接刪除用戶所選擇的無效語音片段。若用戶選擇替換，則提示單元會提示用戶輸入新的語音片段用以替換需要刪除的無效語音片段，替換單元依據(jù)標識將用戶輸入的有效語音片段替換用戶選擇的無效語音片段。以當前應用場景為即時通信為例，請參考圖4，所示為本發(fā)明中彈出語音過濾提示框時的即時通信界面一示例圖。在即時通信界面上，用戶可以通過長按語音通話按鈕“語音”進行語音輸入，由匹配模塊對輸入的語音信息進行識別匹配，當確認其中存在無效語音片段時，此時，提示單元彈出如圖所示的彈窗，顯示在最前端(可能覆蓋原即時通信界面)，列舉無效語音片段，當用戶點擊某一語音片段后，提示單元再提供不同的“刪除”“替換”選項以供用戶選擇(圖中未示出)。可以理解的是，上述提示方式不僅適用于即時通信場景，也適用于前面各實施例所提的其他場景，例如錄音場景。請同時參考圖5，所示為用戶選擇替換無效語音片段后的即時通信界面一示例圖，當用戶通過彈窗選擇某一無效語音片段且進一步選擇替換選項時，此時，提示單元繼續(xù)彈出提示框，提示用戶輸入一段語音片段用以替換無效語音片段，此時，用戶可以通過長按語音通話按鈕“語音”進行語音輸入，當輸入結束，則松開該選項，此時，接收模塊310得到可替換的語音片段，替換單元將可調換的有效語音片段直接代替需要刪除的無效語音片段放置到用戶輸入的語音信息中，得到調整后的語音信息。

本發(fā)明提出的語音智能保存裝置，在過濾無效語音片段時向用戶列舉無效語音片段，并向用戶提供不同的處理方式供用戶選擇，同時，使用戶實時掌握輸入的語音信息的實時處理狀況，避免無匹配時造成誤過濾。

如圖6所示，本發(fā)明第四實施例提出一種語音信息智能保存方法，應用于移動終端，在本實施例中，所述方法包括：

步驟S610，接收用戶輸入的語音信息；

具體的，用戶可在各種模式下進行語音信息的輸入，本發(fā)明對此不作限制。例如，通過移動終端的上的錄音應用進行錄音時通過點擊或觸摸按鍵觸發(fā)語音輸入功能，此時，移動終端接收用戶語音輸入。又例如，在即時通信應用界面上通過點擊或觸摸語音通話按鍵選項而觸發(fā)語音輸入功能，此時，移動終端接收用戶輸入。用戶可以通過移動終端上任一設置了語音接收/輸入功能的應用程序進行語音輸入，移動終端實時監(jiān)測語音輸入功能是否被觸發(fā)并及時接收用戶語音輸入。

步驟S620，將所述語音信息的各語音片段與數(shù)據(jù)庫中的無效語音模板進行匹配，若存在匹配成功的語音片段，則標識所述匹配成功的語音片段為無效語音片段；

具體的，當用戶語音輸入完畢之后，此時，移動終端需要將用戶輸入的語音信息與數(shù)據(jù)庫中無效語音模板進行匹配。以數(shù)據(jù)庫中有兩個無效語音模板例如模板A和模板B為例。移動終端將輸入的語音信息的各個語音片段的聲紋特征與模板A和B的聲紋特征分別進行比對，當相似度達到預設值，則認為匹配成功。各個語音片段的長度可以依據(jù)模板確定，例如，模板A的長度為1ms，語音信息的長度為1s，則可以將語音長度從0s開始分為10個1ms的語音片段，再將每個語音片段的聲紋特征逐一與模板A進行比對。與模板A比對完之后，再與模板B進比對，此時假設模板B的長度為2ms，則可以將語音信息從0s開始分為5個2ms的語音片段，再將每個語音片段的聲紋特征逐一與模板B進行比對。逐一比對過后，移動終端將標識匹配成功的語音片段為無效語音片段。

步驟S630，將所述無效語音片段從所述語音信息中過濾以得到調整后的語音信息；

步驟S640，保存所述調整后的語音信息作為最終語音信息。

具體的，過濾的方式可以是直接刪除，也可以是將無效語音片段替換為其他有效的語音片段。同時，移動終端還可以提示用戶對過濾方式進行選擇，依據(jù)用戶選擇采用對應的過濾方式刪除或替換無效語音片段，得到調整后的語音信息，將該調整后的語音信息保存在數(shù)據(jù)庫中作為最終語音信息，此時，不管用戶處于何種模式下，例如錄音模式或語音通話模式，因為最終保存的語音信息中的無效語音信息已經(jīng)被過濾，故保存的最終語音信息所包含的信息并無多余的信息，其有效率非常高，避免了無效語音信息對移動終端存儲的浪費，同時，若是在語音通話模式下，無效語音的過濾也避免了占用過多的帶寬，使有效利用率更高。

進一步的，所述方法還包括：

接收用戶輸入的無效語音模板并保存到數(shù)據(jù)庫中；

進一步的，所述方法還包括：

依據(jù)用戶輸入的歷史語音信息，比對各個所述歷史語音信息以得到所述無效語音模板并保存至所述數(shù)據(jù)庫中。

具體的，依據(jù)用戶輸入的歷史語音信息，移動終端可以對各個語音信息進行分析比對并得到相似的語音信息，比對兩者之間的不同，將不同的地方作為備選無效語音模板，若該備選無效語音模板出現(xiàn)的次數(shù)超過預設，則將其作為無效語音模板保存到數(shù)據(jù)庫中。例如，經(jīng)語音識別，歷史語音信息C和歷史信息D為分別為“你…額…好”以及“你好”，C出現(xiàn)了“你”“額”“好”三個字，D則出現(xiàn)“你”“好”，兩者相同的字為2/3(相同的字符數(shù)/兩語音信息中較長者字符數(shù))，且相同字符的相對順序相同，則認為兩者為相似的語音信息，同時“額”可以作為備選無效語音模板。若后續(xù)在其他相似語音的比對中，“額”作為相似語音的而不同字符出現(xiàn)大次數(shù)超過預設，例如，10次以上，則將“額”作為無效語音模板保存。通過長時間的學習，可以不斷增加無效語音模板，提高語音信息過濾的準確度。

本發(fā)明提出的語音智能保存方法，移動終端接收用戶輸入的語音信息將各語音片段與數(shù)據(jù)庫中的無效語音模板進行匹配并標識匹配成功的所述語音片段為無效語音片段；將所述無效語音片段從所述語音信息中過濾。從而，在接收用戶輸入的語音信息后，對語音信息中的無效語音片段進行過濾后再保存，使得保存的語音信息更為完整有效，同時也較少了存儲時的存儲負擔和語音通話時的帶寬負擔，提升了用戶體驗。

如圖7所示，本發(fā)明第五實施例進一步提供了另一種語音智能保存方法。在第五實施例中，所述語音智能保存方法與第一實施例的區(qū)別在于，在本實施例中，步驟S620具體包括：

步驟S710，依據(jù)所述無效語音模板長度將所述語音信息依次分為多個語音片段；

步驟S720，將各個所述語音片段依次與所述無效語音模板進行比對以得到各個所述語音片段與所述無效語音模板的相似度；

步驟S730，將相似度大于預設閾值的各個所述語音片段標識為匹配成功的所述無效語音片段。

具體的，為使匹配更為快速準確，移動終端首先依據(jù)當前要匹配的無效語音模板長度將待匹配的語音信息依次分為多個語音片段，再將各個語音片段與當前要匹配的語音模板進行比對，比對完畢后再依據(jù)下一個無效語音模板重新進行片段劃分，再繼續(xù)比對。例如，當前要與無效語音模板A匹配，而模板A的長度為1ms，語音信息的長度為1s時，則可以將語音長度從0s開始分為10個1ms的語音片段，再將每個語音片段的聲紋特征逐一與模板A進行比對，比對完后與無效語音模板B匹配，若模板B的長度為2ms，則可以將語音信息從0s開始分為5個2ms的語音片段，再將每個語音片段的聲紋特征逐一與模板B進行比對。比對時，移動終端將記錄各個片段與各個無效語音模板的相似度，詳細的，可以通過分析兩者的聲紋特征進行比對，再以百分比記錄相似度。與數(shù)據(jù)庫中的所有無效語音模板比對完畢后，此時，相似度大于預設閾值的各個語音片段則可以判斷為匹配成功，移動終端將該語音片段標識為無效語音片段。

本發(fā)明提出的語音智能保存方法，在將語音信息與無效語音模板進行匹配時，依據(jù)無效語音模板的長度對語音信息進行分段，實現(xiàn)了片段匹配和標識，使匹配更為迅速準確，同時片段標識也使過濾時更容易定位，避免誤過濾。

如圖8所示，本發(fā)明第六實施例進一步提供了另一種語音智能保存方法。在第六實施例中，所述語音智能保存與第一實施例的區(qū)別在于，在本實施例中，步驟S630具體包括：

步驟S810，提示用戶刪除或替換所述無效語音片段；

步驟S820，當用戶選擇替換所述無效語音片段時，將用戶輸入的新的有效語音片段替換所述無效語音片段以得到所述調整后的語音信息；

步驟S830，當用戶選擇刪除所述無效語音片段時，直接刪除所述無效語音片段以得到調整后的所述語音信息；

具體的，當確定用戶輸入的語音信息中存在無效語音片段時，移動終端可以通過彈窗等方式提示用戶刪除或替換無效語音片段，同時列出各個無效語音片段以供用戶選擇。依據(jù)用戶的不同選擇，分別進行不同的操作。若用戶選擇直接刪除無效語音片段，則直接刪除用戶所選擇的無效語音片段。若用戶選擇替換，則移動終端會提示用戶輸入新的語音片段用以替換需要刪除的無效語音片段，依據(jù)標識將用戶輸入的有效語音片段替換用戶選擇的無效語音片段。以當前應用場景為即時通信為例，請參考圖4，所示為本發(fā)明中彈出語音過濾提示框時的即時通信界面一示例圖。在即時通信界面上，用戶可以通過長按語音通話按鈕“語音”進行語音輸入，由匹配模塊對輸入的語音信息進行識別匹配，當確認其中存在無效語音片段時，此時，提示單元彈出如圖所示的彈窗，顯示在最前端(可能覆蓋原即時通信界面)，列舉無效語音片段，當用戶點擊某一語音片段后，提示單元再提供不同的“刪除”“替換”選項以供用戶選擇(圖中未示出)?？梢岳斫獾氖?，上述提示方式不僅適用于即時通信場景，也適用于前面各實施例所提的其他場景，例如錄音場景。請同時參考圖5，所示為用戶選擇替換無效語音片段后的即時通信界面一示例圖，當用戶通過彈窗選擇某一無效語音片段且進一步選擇替換選項時，此時，提示單元繼續(xù)彈出提示框，提示用戶輸入一段語音片段用以替換無效語音片段，此時，用戶可以通過長按語音通話按鈕“語音”進行語音輸入，當輸入結束，則松開該選項，此時，接收模塊310得到可替換的語音片段，替換單元將可調換的有效語音片段直接代替需要刪除的無效語音片段放置到用戶輸入的語音信息中，得到調整后的語音信息。

本發(fā)明提出的語音智能保存方法，在過濾無效語音片段時向用戶列舉無效語音片段，并向用戶提供不同的處理方式供用戶選擇，同時，使用戶實時掌握輸入的語音信息的實時處理狀況，避免無匹配時造成誤過濾。

需要說明的是，在本文中，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，并不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。

上述本發(fā)明實施例序號僅僅為了描述，不代表實施例的優(yōu)劣，在不沖突的情況下，本發(fā)明實施例及實施例中的特征可以相互組合實施。

通過以上的實施方式的描述，本領域的技術人員可以清楚地了解到上述實施例方法可借助軟件加必需的通用硬件平臺的方式來實現(xiàn)，當然也可以通過硬件，但很多情況下前者是更佳的實施方式?；谶@樣的理解，本發(fā)明的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來，該計算機軟件產(chǎn)品存儲在一個存儲介質(如ROM/RAM、磁碟、光盤)中，包括若干指令用以使得一臺終端設備(可以是手機，計算機，服務器，空調器，或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例所述的方法。

以上僅為本發(fā)明的優(yōu)選實施例，并非因此限制本發(fā)明的專利范圍，凡是利用本發(fā)明說明書及附圖內容所作的等效結構或等效流程變換，或直接或間接運用在其他相關的技術領域，均同理包括在本發(fā)明的專利保護范圍內。

完整全部詳細技術資料下載

當前第1頁1 2 3