專利名稱:一種記錄通信終端下行語音信號的方法及該通信終端的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別領(lǐng)域,具體的講是一種記錄通信終端下行語音信號的方法及該通信終端。
技術(shù)背景使用移動通信終端在進行通信時,使用者時常會遇到這樣的情景,在至少兩個通話者交 談中, 一個通話者向另外一個通話者口述電話號碼讓對方記憶,而這時記憶電話號碼的一方 會很難記憶一連串毫無聯(lián)系的數(shù)字,而且這些數(shù)字可能很長,在中國,以手機號碼為例包括 ll位數(shù)字。 一般通話的一方需要找紙張等記錄上述的電話號碼,而記錄用的媒介物并不是隨 時都能夠找到,所以在使用移動通信終端一邊進行通信一邊需要記憶電話號碼等信息時,會 給通信雙方帶來很大的麻煩。圖1所示為現(xiàn)有技術(shù)中的通信終端處理上行/下行語音信號的系統(tǒng)結(jié)構(gòu)圖。A為處理上行 語音信號系統(tǒng)部分的示意圖,包括,麥克風(fēng),A/D轉(zhuǎn)換器,語音編碼模塊,信道編碼模塊, 調(diào)制模塊,發(fā)送模塊,其中,A/D轉(zhuǎn)換器將用戶的模擬語音音頻信息轉(zhuǎn)換成數(shù)字語音音頻信 息,再對該信息進行語音編碼,即進行壓縮,并轉(zhuǎn)換成適合通信的數(shù)據(jù)格式,在經(jīng)過信道編 碼、調(diào)制,最后發(fā)送出去。B為處理下行語音信號系統(tǒng)部分的示意圖,包括,接收模塊,解 調(diào)模塊,信道譯碼模塊,語音譯碼模塊,D/A轉(zhuǎn)換器,揚聲器,其中,語音譯碼模塊將通信 所用的信號轉(zhuǎn)換為語音信號,即對其進行解壓縮,再傳送給D/A轉(zhuǎn)換器轉(zhuǎn)換為模擬語音音頻 信息,通過揚聲器進行播放。自動語音識別(ASR)技術(shù),是一種先進的能夠?qū)⑷祟愓Z音信息轉(zhuǎn)換成字符串信息的人 工智能技術(shù)。在現(xiàn)有技術(shù)中已經(jīng)能夠?qū)?shù)字語音信息和/或模擬語音信息轉(zhuǎn)換成字符串形式的 數(shù)據(jù)。現(xiàn)有技術(shù)中也有一些解決方法,例如,申請日為2005年9月30日的中國專利,名稱為 "視障者用移動通訊終端的設(shè)置方法和裝置",該發(fā)明公開了一種裝置和方法,所述裝置使用 智能語音識別和文字-語音轉(zhuǎn)換輸出,使視障者和手機終端之間直接通過語音交流,從而實現(xiàn) 撥號、通話、接電話、聽短信等功能。但是以上現(xiàn)有的技術(shù)方案中,只能實現(xiàn)對手機終端使用者語音命令的識別,無法解決在 通話中以文字的方式記錄對方語音信息的問題。發(fā)明內(nèi)容本發(fā)明為了解決以上現(xiàn)有技術(shù)中的不足,提供了一種記錄通信終端下行語音信號的方 法,通過自動語音識別技術(shù),將下行語音對方的內(nèi)容以字符串?dāng)?shù)據(jù)的形式自動記錄于通信終 端。本發(fā)明還提供了一種記錄下行語音信號的通信終端,通過自動語音識別模塊將通過對方 的內(nèi)容以字符串?dāng)?shù)據(jù)的形式自動記錄于通信終端。一種記錄通信終端下行語音信號的方法,對接收到的下行語音信號進行解調(diào)、信道譯碼、 語音譯碼將其轉(zhuǎn)換為語音音頻信息,然后將上述語音音頻信息轉(zhuǎn)換成模擬語音音頻信號進行輸出,保持上述對下行語音信號處理過程,'還包括以下步驟步驟20,將由語音譯碼步驟得到的語音音頻信息轉(zhuǎn)換為字符串?dāng)?shù)據(jù),并將所述字符串?dāng)?shù) 據(jù)存儲于一存儲器。所述語音音頻信息包括,電話號碼信息,地址信息。根據(jù)本發(fā)明方法的一個進一步的方面,所述字符串?dāng)?shù)據(jù)以通話對方的電話號碼和/或時 間為索引進行存儲。根據(jù)本發(fā)明方法的再一個進一步的方面,還包括一顯示步驟,將所述存儲的字符串?dāng)?shù)據(jù) 顯示在所述通信終端的顯示屏上。根據(jù)本發(fā)明方法的另一個進一步的方面,還包括步驟10'在用戶通話過程中,用戶發(fā) 出開始自動語音識別的指令進入步驟20;步驟30,判斷用戶是否發(fā)出停止自動語音識別的指 令,如果發(fā)出該停止自動語音識別的指令則停止步驟20,否則回到步驟20。通常開始與停止 轉(zhuǎn)換的指令為點擊一個按鍵。根據(jù)本發(fā)明方法的另一個進一步的方面,還包括一錄音步驟21,將由所述語音譯碼步驟 得到的所述語音音頻信息存儲于所述存儲器。根據(jù)本發(fā)明方法的另一個進一步的方面,所述步驟21存儲的語音音頻信息與所述步驟 20中存儲的字符串?dāng)?shù)據(jù)以通話對方的電話號碼和/或時間為索引建立一一對應(yīng)的關(guān)系。根據(jù)本發(fā)明方法的另一個進一步的方面,當(dāng)模擬語音音頻信息與字符串?dāng)?shù)據(jù)具有一一對應(yīng)的關(guān)系后還包括一檢索步驟,當(dāng)用戶選中字符串?dāng)?shù)據(jù)時,檢索存儲器中與其相應(yīng)的語音音 頻信息,并經(jīng)過D/A轉(zhuǎn)換和揚聲器進行播放。根據(jù)本發(fā)明方法的另一個進一步的方面,該通信終端為移動通信終端或者固定通信終端。一種記錄下行語音信號的通信終端,所述下行語音信號通過該通信終端通的解調(diào)模塊、 信道譯碼模塊、語音譯碼模塊被轉(zhuǎn)換為語音音頻信息,并向D/A轉(zhuǎn)換器輸出該語音音頻信息, 在上述語音音頻信息正常傳輸?shù)那闆r下,還包括一自動語音識別模塊,連接于語音譯碼模塊, 用于將所述語音譯碼模塊輸出的語音音頻信息轉(zhuǎn)換為字符串?dāng)?shù)據(jù);存儲器,連接于所述自動 語音識別模塊,用于存儲所述字符串?dāng)?shù)據(jù)。根據(jù)本發(fā)明通信終端的一個進一步的方面,還包括一顯示模塊,連接與所述存儲器,將 所述存儲的字符串?dāng)?shù)據(jù)顯示在所述通信終端的顯示屏上。根據(jù)本發(fā)明通信終端的再一個進一步的方面,還包括開關(guān)模塊,連接于所述自動語音識 別模塊,用于啟動或停止所述自動語音識別模塊。該開關(guān)模塊可以為按鍵。根據(jù)本發(fā)明通信終端的另一個進一步的方面,還包括一錄音模塊,連接于所述語音譯碼 模塊、所述存儲器和所述開關(guān)模塊,在開關(guān)模塊的控制下將所述語音音頻信息存儲于所述存 儲器。根據(jù)本發(fā)明通信終端的另一個進一步的方面,該通信終端還包括一檢索模塊,與所述存 儲器和D/A轉(zhuǎn)換器相聯(lián)接,當(dāng)用戶選中所述字符串?dāng)?shù)據(jù)時檢索與其相應(yīng)的語音音頻信息,將 其傳送給D/A轉(zhuǎn)換器進行D/A轉(zhuǎn)換,并通過揚聲器進行播放。根據(jù)本發(fā)明通信終端的另一個進一步的方面,所述通信終端是指,固定通信終端或移動 通信終端。本發(fā)明的有益效果在于,使用戶在打電話時出現(xiàn)需要記錄的內(nèi)容,能夠方便的將所需記 錄的內(nèi)容轉(zhuǎn)換為字符串?dāng)?shù)據(jù),以便于在通話完成后不需要人工輸入就可以利用通話對方的通話內(nèi)容。并且還提供了語音錄音的輔助核對方法,如果在自動語音識別準(zhǔn)確率不夠的情況下, 可以通過播放錄音的方式檢查自動轉(zhuǎn)換的字符串?dāng)?shù)據(jù)是否準(zhǔn)確。
圖1為現(xiàn)有技術(shù)中通信終端處理上行/下行語音信號的系統(tǒng)結(jié)構(gòu)圖;圖2為本發(fā)明記錄通信終端下行語音信號方法的流程圖;圖3為本發(fā)明通信終端中處理下行語音信號部分的結(jié)構(gòu)示意圖。
具體實施方式
下面,結(jié)合附圖對于本發(fā)明進行如下詳細說明。圖2為本發(fā)明記錄通信終端下行語音信號方法的流程圖,在保持原有下行語音信號處理 過程不變的情況下,經(jīng)過步驟IO,在用戶通話過程中,用戶發(fā)出了開始自動語音識別的指令, 例如用戶點擊了一個按鍵作為觸發(fā)指令,進入步驟20,在這個過程中繼續(xù)進行正常的通話;步驟20,在處理下行語音信號的過程中,不影響用戶收聽對方語音信息的同時,通過自動語 音識別模塊(ASR)對經(jīng)過語音譯碼的語音音頻信息進行識別,將所述語音音頻信息轉(zhuǎn)換為字 符串?dāng)?shù)據(jù),該語音音頻信息例如,通話過程中需要記錄的電話號碼數(shù)據(jù),或者地址數(shù)據(jù)或者 人名等,并且將該字符串?dāng)?shù)據(jù)存儲于通信終端的存儲器內(nèi),存儲的格式可以根據(jù)例如時間和/ 或者通過對方的電話號碼來存儲,即,根據(jù)時間和/或根據(jù)電話號碼為索引逐條記錄所述字符 串?dāng)?shù)據(jù),或者在通信終端電話簿中以新建條目的方式建立新的條目,并將所述字符串?dāng)?shù)據(jù)存 儲于條目內(nèi)的相應(yīng)字段內(nèi),例如,電話號碼存儲于新建條目的電話號碼字段內(nèi);步驟30,如 果用戶發(fā)出了停止自動語音識別的指令,則停止步驟20,進行正常通話,如果用戶沒有發(fā)出 停止自動語音識別指令,則繼續(xù)進行自動語音識別和存儲的步驟20。所述發(fā)出開始自動語音 識別的指令和發(fā)出停止自動語音識別的指令,可以為點擊按鍵而產(chǎn)生的電信號,或者為釋放 按鍵時產(chǎn)生的電信號。本發(fā)明還包括一顯示步驟(圖未示),在用戶的控制下或者自動地在通 信終端的顯示屏上顯示存儲于存儲器中的所述字符串?dāng)?shù)據(jù)。作為一種優(yōu)選的方法,在開始自動語音識別步驟20后,與上述步驟20同時啟動一個錄 音步驟21,在語音譯碼步驟后,將語音音頻信息存儲于所述存儲器,優(yōu)選的存儲順序為按照 時間和/或電話號碼為索引逐條存儲語音音頻信息,該存儲索引與所述字符串?dāng)?shù)據(jù)的存儲索引 相同,可以根據(jù)兩者存儲的時間和/或電話號碼為索引建立字符串?dāng)?shù)據(jù)與語音音頻信息之間的 一一對應(yīng)關(guān)系,這樣字符串?dāng)?shù)據(jù)和語音音頻信息一一對應(yīng)。當(dāng)存儲的字符串?dāng)?shù)據(jù)和語音音頻 信息具有一一對應(yīng)的關(guān)系后,作為進一步的優(yōu)選實施方案,還包括一檢索步驟,當(dāng)用戶在存儲器中查找某一個字符串?dāng)?shù)據(jù)時,同時檢索存儲器中與該字符串?dāng)?shù)據(jù)對應(yīng)的語音音頻信息,將該語音音頻信息傳送至D/A轉(zhuǎn)換器,經(jīng)過D/A轉(zhuǎn)換后通過揚聲器進行播放。這樣是為了在 自動語音識別效果不是很理想的時候,用戶可以參考該模擬語音音頻信息修改所述字符串?dāng)?shù) 據(jù)。本發(fā)明方法可以應(yīng)用于移動通信終端或固定通信終端上。圖3為本發(fā)明通信終端中處理下行語音信號部分的結(jié)構(gòu)示意圖?,F(xiàn)有的下行語音信號處 理結(jié)構(gòu)不再贅述,本發(fā)明通信終端還包括自動語音識別模塊、開關(guān)模塊、存儲器,顯示模塊; 所述自動語音識別模塊連接于所述語音譯碼模塊的一個輸出端,接收經(jīng)過所述語音譯碼模塊 譯碼的語音音頻信息,將其識別并轉(zhuǎn)換為字符串?dāng)?shù)據(jù),并將其按照當(dāng)前通話對方的電話號碼 和/或時間存儲于存儲器,這個處理過程并不影響原來語音譯碼模塊與所述D/A轉(zhuǎn)換器之間的 數(shù)據(jù)傳送;還包括一開關(guān)模塊,與所述自動語音識別模塊相連接,控制該模塊開始或者停止 工作,該開關(guān)模塊例如可以為一按鍵,通過用戶對按鍵的按壓或釋放,以相關(guān)電路的電信號, 控制啟動或者停止對下行語音信號的自動語音識別;存儲器,與所述自動語音識別模塊相連 接,用于存儲所述字符串?dāng)?shù)據(jù),該存儲器可以使用通信終端已有的存儲器;顯示模塊,連接 于存儲器,用于向用戶顯示存儲的通話過程中識別的字符串?dāng)?shù)據(jù)。作為最佳實施方式,本發(fā)明通信終端優(yōu)選的為移動通信終端或者固定通信終端,該通信 終端還包括一錄音模塊,與所述語音譯碼模塊的輸出端、開關(guān)模塊、存儲器相連接,受所述 開關(guān)模塊的控制,在不影響語音譯碼模塊與D/A轉(zhuǎn)換器傳遞語音信息的同時,收到經(jīng)過所述 語音譯碼模塊處理過的語音音頻信息,將其存儲于所述存儲器??蛇x的可以按照字符串?dāng)?shù)據(jù) 的存儲順序,作為本最佳實施方式的進一步方案,本發(fā)明通信終端還包括一檢索模塊,與所 述存儲器和D/A轉(zhuǎn)換器相連接,當(dāng)用戶選中某條字符串?dāng)?shù)據(jù)時,檢索與之相應(yīng)的語音音頻信 息,傳送給D/A轉(zhuǎn)換器進行D/A轉(zhuǎn)換,最后通過揚聲器進行播放,字符串?dāng)?shù)據(jù)與語音音頻信 息之間的相應(yīng)關(guān)系可以根據(jù)其存儲的時間和/或電話號碼建立。本發(fā)明通信終端的工作過程為,用戶通過通信終端與對方通話,在通話的過程中出現(xiàn)需 要記錄的通話內(nèi)容,例如,電話號碼,地址,人名等信息時,用戶按壓通信終端上的一個按 鍵,啟動自動語音識別模塊和錄音模塊。此時,下行語音處理并不被影響,對方的語音信號 被通信終端接收到,通過解調(diào)模塊、信道譯碼模塊、語音譯碼模塊的處理,并傳送給D/A轉(zhuǎn) 換器、傳送給揚聲器進行語音的播放。只是在本發(fā)明自動語音識別模塊啟動后,接收所述語 音譯碼模塊的處理結(jié)果,g卩,語音音頻信息,將其識別并轉(zhuǎn)換為字符串?dāng)?shù)據(jù),并將其按照當(dāng) 前通話的對方電話號碼和時間順序存儲于所述存儲器中,例如,在通話過程中分別需要記錄 3個不同的內(nèi)容,例如,三個不同的電話號碼,第一條記錄為11111111,第二條記錄為 22222222,第三條記錄為33333333,按照記錄時間進行存儲的同時將該通話對方的電話號碼(12345678)在每條記錄的結(jié)尾標(biāo)出,即,第一條記錄內(nèi)容為11111111,記錄時間為2007 年3月1日10:10,該次通話對方電話號碼為12345678;第二條記錄內(nèi)容為22222222,記錄 時間為2007年3月1日10:11,該次通話對方電話號碼為12345678;第三條記錄內(nèi)容為 33333333,記錄時間為2007年3月1日10:13,該次通話對方電話號碼為12345678;。當(dāng)用 戶通話完畢,在通信終端的存儲器中查找該字符串?dāng)?shù)據(jù)時,提供了例如,復(fù)制、粘貼等操作 便于用戶應(yīng)用該數(shù)據(jù),這種在通信終端的存儲器中對數(shù)據(jù)進行復(fù)制、粘貼等操作都已經(jīng)為現(xiàn) 有技術(shù)?;蛘?,直接將三個記錄在通信終端電話簿中以新建條目的方式分別建立三個新的條 目,并且將每個電話號碼存儲于條目內(nèi)的電話號碼字段內(nèi)。并且在啟動自動語音識別模塊的 同時還可以啟動錄音模塊,收到所述語音譯碼模塊處理過的語音音頻信息,將其存儲于存儲 器,并且其存儲的時間和/或電話號碼與存儲所述字符串?dāng)?shù)據(jù)的時間和/或電話號碼相對應(yīng), 當(dāng)用戶選中存儲的字符串?dāng)?shù)據(jù)時,由檢索模塊找到與該字符串?dāng)?shù)據(jù)時間相同的語音音頻信息, 并將該語音音頻信息傳送給所述D/A轉(zhuǎn)換器進行D/A轉(zhuǎn)換,從而通過揚聲器播放該語音音頻 信息,以供用戶校驗。這樣,可以防止在自動語音識別效果不理想的時候輸入錯誤信息。 本發(fā)明的通信終端包括移動通信終端或固定通信終端。本發(fā)明的有益效果在于,使用戶在打電話時出現(xiàn)需要記錄的內(nèi)容,能夠方便的將所需記 錄的內(nèi)容轉(zhuǎn)換為字符串?dāng)?shù)據(jù),以便于在通話完成后不需要人工輸入就可以利用所述通話內(nèi)容。 并且還提供了語音錄音的輔助核對方法,如果在自動語音識別準(zhǔn)確率不夠的情況下,可以通 過播放錄音的方式檢査自動轉(zhuǎn)換的字符串?dāng)?shù)據(jù)是否準(zhǔn)確。以上具體實施方式
僅用于說明本發(fā)明,而非用于限定本發(fā)明。
權(quán)利要求
1. 一種記錄通信終端下行語音信號的方法,對接收到的下行語音信號進行解調(diào)、信道譯碼、語音譯碼將其轉(zhuǎn)換為語音音頻信息,然后將上述語音音頻信息轉(zhuǎn)換成模擬語音音頻信號進行輸出,保持上述對下行語音信號處理過程,其特征在于,還包括以下步驟步驟20,將由語音譯碼步驟得到的語音音頻信息轉(zhuǎn)換為字符串?dāng)?shù)據(jù),并將所述字符串?dāng)?shù)據(jù)存儲于一存儲器。
2. 根據(jù)權(quán)利要求1所述的記錄通信終端下行語音信號的方法,其特征在于,所述語音 音頻信息包括,電話號碼信息,地址信息。
3. 根據(jù)權(quán)利要求1所述的記錄通信終端下行語音信號的方法,其特征在于,所述字符串?dāng)?shù)據(jù)以通話對方的電話號碼和/或時間為索引進行存儲。
4. 根據(jù)權(quán)利要求!所述的記錄通信終端下行語音信號的方法,其特征在于,還包括一 顯示步驟,將所述存儲的字符串?dāng)?shù)據(jù)顯示在所述通信終端的顯示屏上。
5. 根據(jù)權(quán)利要求4所述的記錄通信終端下行語音信號的方法,其特征在于,還包括步驟IO,在用戶通話過程中,用戶發(fā)出開始自動語音識別的指令進入步驟20;步驟30,判斷用戶是否發(fā)出停止自動語音識別的指令,如果發(fā)出該停止自動語音識別的 指令則停止步驟20,否則回到步驟20。
6. 根據(jù)權(quán)利要求5所述的記錄通信終端下行語音信號的方法,其特征在于,所述發(fā)出 開始自動語音識別的指令和發(fā)出停止自動語音識別的指令是指點擊按鍵的操作。
7. 根據(jù)權(quán)利要求5所述的記錄通信終端下行語音信號的方法,其特征在于,還包括一 錄音步驟21,將由所述語音譯碼步驟得到的所述語音音頻信息存儲于所述存儲器。
8. 根據(jù)權(quán)利要求7所述的記錄通信終端下行語音信號的方法,其特征在于,所述步驟 21存儲的語音音頻信息與所述步驟20中存儲的字符串?dāng)?shù)據(jù)以通話對方的電話號碼和/或時間 為索引建立一一對應(yīng)的關(guān)系。
9. 根據(jù)權(quán)利要求8所述的記錄通信終端下行語音信號的方法,其特征在于,還包括一 檢索步驟,當(dāng)用戶選中字符串?dāng)?shù)據(jù)時,檢索存儲器中與其相應(yīng)的語音音頻信息,并經(jīng)過D/A 轉(zhuǎn)換和揚聲器進行播放。
10. 根據(jù)權(quán)利要求1所述的記錄通信終端下行語音信號的方法,其特征在于,所述通信 終端是指,固定通信終端或移動通信終端。
11. 一種記錄下行語音信號的通信終端,所述下行語音信號通過該通信終端通的解調(diào)模 塊、信道譯碼模塊、語音譯碼模塊被轉(zhuǎn)換為語音音頻信息,并向D/A轉(zhuǎn)換器傳送該語音音頻信息,在上述語音音頻信息正常傳輸?shù)那闆r下,其特征在于,還包括一自動語音識別模塊,連接于語音譯碼模塊,用于將所述語音譯碼模塊輸出的語 音音頻信息轉(zhuǎn)換為字符串?dāng)?shù)據(jù);存儲器,連接于所述自動語音識別模塊,用于存儲所述字符 串?dāng)?shù)據(jù)。
12. 根據(jù)權(quán)利要求11所述的記錄下行語音信號的通信終端,其特征在于,還包括一顯 示模塊,連接與所述存儲器,將所述存儲的字符串?dāng)?shù)據(jù)顯示在所述通信終端的顯示屏上。
13. 根據(jù)權(quán)利要求12所述的記錄下行語音信號的通信終端,其特征在于,還包括開關(guān) 模塊,連接于所述自動語音識別模塊,用于啟動或停止所述自動語音識別模塊。
14.根據(jù)權(quán)利要求13所述的記錄下行語音信號的通信終端,其特征在于,還包括一錄 音模塊,連接于所述語音譯碼模塊、所述存儲器和所述開關(guān)模塊,在開關(guān)模塊的控制下將所 述語音音頻信息存儲于所述存儲器。
15. 根據(jù)權(quán)利要求M所述的記錄下行語音信號的通信終端,其特征在于,還包括一檢 索模塊,與所述存儲器和D/A轉(zhuǎn)換器相聯(lián)接,當(dāng)用戶選中所述字符串?dāng)?shù)據(jù)時檢索與其相應(yīng)的 語音音頻信息,將其傳送給D/A轉(zhuǎn)換器進行D/A轉(zhuǎn)換,并通過揚聲器進行播放。
16. 根據(jù)權(quán)利要求n所述的記錄下行語音信號的通信終端,其特征在于,所述開關(guān)模 塊為按鍵。
17. 根據(jù)權(quán)利要求11所述的記錄下行語音信號的通信終端,其特征在于,所述通信終 端是指,固定通信終端或移動通信終端。
全文摘要
本發(fā)明涉及語音識別領(lǐng)域,具體的講是一種記錄通信終端下行語音信號的方法及該通信終端。為了在通話過程中將對方的語音信息記錄于通信終端上,本發(fā)明的方法包括,在保持所述處理下行語音信號的過程中還包括以下步驟步驟20,將由所述語音譯碼步驟得到的語音音頻信息轉(zhuǎn)換為字符串?dāng)?shù)據(jù),并將所述字符串?dāng)?shù)據(jù)存儲于一存儲器。本發(fā)明的有益效果在于,能夠自動將通過對方的語音內(nèi)容轉(zhuǎn)換為字符串形式,并存儲于通信終端上。
文檔編號H04M1/247GK101277338SQ20071006491
公開日2008年10月1日 申請日期2007年3月29日 優(yōu)先權(quán)日2007年3月29日
發(fā)明者晨 楊 申請人:西門子(中國)有限公司