語音輸入系統(tǒng)和方法

文檔序號(hào)：2826401閱讀：578來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音輸入系統(tǒng)和方法
【專利摘要】本發(fā)明提供了一種語音輸入系統(tǒng)和方法。所述語音輸入方法，包括：將采集的語音按照預(yù)定時(shí)間間隔分隔成多個(gè)分段；當(dāng)通過單音對(duì)應(yīng)拼音的分類器判斷出分段的語音信息的置信度超過預(yù)定閾值時(shí)，把置信度超過預(yù)定閾值的語音分段判別為對(duì)應(yīng)一個(gè)單字的拼音；根據(jù)拼音識(shí)別規(guī)則來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字，其中，所述拼音序列對(duì)應(yīng)于所采集的語音。
【專利說明】語音輸入系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識(shí)別技術(shù)。更具體地講，涉及一種語音輸入系統(tǒng)和方法。
【背景技術(shù)】
[0002]目前手持式設(shè)備上的輸入方式一般都是通過鍵盤或觸摸屏進(jìn)行輸入。為了給用戶提供交互方式，往往需要通過為某種操作預(yù)留特定的輸入鍵的方式來進(jìn)行用戶與設(shè)備之間的交互。對(duì)于一些復(fù)雜的操作，在設(shè)備上無法預(yù)留過多的輸入鍵，只能通過復(fù)用某些操作鍵以及組合一些操作鍵的方式來實(shí)現(xiàn)，或者通過復(fù)雜的菜單分級(jí)的策略，用戶往往要進(jìn)行多次菜單操作才能實(shí)現(xiàn)所需的功能。這些輸入方式，一來容易引起誤操作，二來實(shí)現(xiàn)的功能依然有限，無法滿足用戶的實(shí)際需求。
[0003]與傳統(tǒng)的通過鍵盤以及觸摸屏輸入方式不同，語音輸入作為一種最自然的交互方式，無需占用額外的硬件及尺寸方面的資源，只通過一個(gè)簡(jiǎn)單的麥克風(fēng)即可實(shí)現(xiàn)動(dòng)態(tài)擴(kuò)展的虛擬界面來完成多種輸入操作。這樣對(duì)于手持設(shè)備的所有操作均可以通過語音輸入來實(shí)現(xiàn)，無需對(duì)某種功能指定特殊的鍵，因而在不增加設(shè)備外觀尺寸的前提下能夠最大程序的豐富手持式設(shè)備的交互樂趣。
[0004]在現(xiàn)有的語音輸入方法中，用戶點(diǎn)擊語音輸入的開始按鈕之后錄入語音，點(diǎn)擊結(jié)束按鈕并將語音上傳到服務(wù)器端，并接收其返回的解析得到的文字信息。
[0005]然而，這樣的語音輸入方法會(huì)造成如下問題:1、語音傳輸占用帶寬，在網(wǎng)絡(luò)信號(hào)不好的時(shí)候發(fā)送語音的過程會(huì)耗時(shí)或失?。?、一次輸入完畢，用戶對(duì)輸入結(jié)果沒有很好的預(yù)期，只有看到返回結(jié)果才知道是否輸入成功。
[0006]因此，需要一種能夠提供語音輸入的準(zhǔn)確性和效率的語音輸入方法。

【發(fā)明內(nèi)容】

[0007]本發(fā)明的目的在于提供一種提供更高準(zhǔn)確性和更高效率的語音輸入系統(tǒng)和方法。
[0008]為了實(shí)現(xiàn)上述目的，提供了一種語音輸入方法，包括:將采集的語音按照預(yù)定時(shí)間間隔分隔成多個(gè)分段；當(dāng)通過單音對(duì)應(yīng)拼音的分類器判斷出分段的語音信息的置信度超過預(yù)定閾值時(shí)，把置信度超過預(yù)定閾值的語音分段判別為對(duì)應(yīng)一個(gè)單字的拼音；根據(jù)拼音識(shí)別規(guī)則來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字，其中，所述拼音序列對(duì)應(yīng)于所采集的語音。
[0009]所述對(duì)應(yīng)一個(gè)單字的拼音可以是一個(gè)或多個(gè)拼音。
[0010]在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí)，所述方法可還包括:將所述多個(gè)拼音顯示在屏幕上，并且用戶可針對(duì)所述對(duì)應(yīng)一個(gè)單字的多個(gè)拼音選取期望的拼音。
[0011]在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí)，所述方法可還包括:對(duì)所述多個(gè)拼音進(jìn)行拼音糾錯(cuò)以得到正確的拼音。
[0012]所述語音輸入方法可還包括:如果在自檢查的開始時(shí)間過去預(yù)定時(shí)間的時(shí)間段內(nèi)不存在超過預(yù)定閾值的置信度的分段，則將檢查的起始時(shí)間重新設(shè)置為自檢查的開始時(shí)間過去短于所述預(yù)定時(shí)間的時(shí)間段作為重新設(shè)置的開始時(shí)間，并從所述重新設(shè)置的開始時(shí)間檢查分段的語音信息。
[0013]根據(jù)本發(fā)明的另一方面，提供了一種語音輸入系統(tǒng)，包括:語音分段單元，用于將采集的語音按照預(yù)定時(shí)間間隔分隔成多個(gè)分段；置信度判別單元當(dāng)通過單音對(duì)應(yīng)拼音的分類器判斷出分段的語音信息的置信度超過預(yù)定閾值時(shí)，把置信度超過預(yù)定閾值的語音分段判別為對(duì)應(yīng)一個(gè)單字的拼音；漢字識(shí)別單元，根據(jù)拼音識(shí)別規(guī)則來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字，其中，所述拼音序列對(duì)應(yīng)于所采集的語音。
[0014]所述對(duì)應(yīng)一個(gè)單字的拼音可以是一個(gè)或多個(gè)拼音。
[0015]所述語音輸入系統(tǒng)可還包括:拼音顯示單元，在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí)，用于將所述多個(gè)拼音顯示在屏幕上，并且用戶針對(duì)所述對(duì)應(yīng)一個(gè)單字的多個(gè)拼音選取期望的拼音。
[0016]所述語音輸入系統(tǒng)可還包括:拼音糾錯(cuò)單元，在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí)，對(duì)所述多個(gè)拼音進(jìn)行拼音糾錯(cuò)以得到正確的拼音。
[0017]在自檢查的開始時(shí)間過去預(yù)定時(shí)間的時(shí)間段內(nèi)不存在超過預(yù)定閾值的置信度的分段的情況下，置信度判別單元可還用于將檢查的起始時(shí)間重新設(shè)置為自檢查的開始時(shí)間過去短于所述預(yù)定時(shí)間的時(shí)間段作為重新設(shè)置的開始時(shí)間，并從所述重新設(shè)置的開始時(shí)間檢查分段的語音信息。
[0018]將在接下來的描述中部分闡述本發(fā)明另外的方面和/或優(yōu)點(diǎn)，還有一部分通過描述將是清楚的，或者可以經(jīng)過本發(fā)明的實(shí)施而得知。
【專利附圖】

【附圖說明】
[0019]通過下面結(jié)合附圖進(jìn)行的描述，本發(fā)明的上述和其他目的和特點(diǎn)將會(huì)變得更加清楚，其中:
[0020]圖1是示出根據(jù)本發(fā)明第一實(shí)施例的語音輸入方法的流程圖；
[0021]圖2是示出根據(jù)本發(fā)明第二實(shí)施例的語音輸入方法的流程圖；
[0022]圖3是示出根據(jù)本發(fā)明第一實(shí)施例的語音輸入系統(tǒng)的框圖；
[0023]圖4是示出根據(jù)本發(fā)明第二實(shí)施例的語音輸入系統(tǒng)的框圖。
【具體實(shí)施方式】
[0024]現(xiàn)在，詳細(xì)描述本發(fā)明的實(shí)施例，其示例在附圖中表示，其中，相同的標(biāo)號(hào)始終表示相同的部件。以下通過參考附圖描述實(shí)施例以解釋本發(fā)明。
[0025]圖1是示出根據(jù)本發(fā)明第一實(shí)施例的語音輸入方法的流程圖。
[0026]如圖1所示，在步驟S101，在用戶開始語音錄入之后，客戶端進(jìn)行語音采集并可將采集到的語音存儲(chǔ)在其緩存器中。
[0027]在步驟S102，客戶端從錄入開始時(shí)間起按照預(yù)定時(shí)間間隔將采集的語音分隔成多個(gè)分段。所述預(yù)定時(shí)間間隔可表示為t，例如0.1s。
[0028]在步驟S103，客戶端從錄入開始時(shí)間依次檢查所述多個(gè)分段內(nèi)的語音信息，直到通過單音對(duì)應(yīng)拼音的分類器判斷出置信度超過第一預(yù)定閾值(例如，S)時(shí)，把檢查的語音分段判別為對(duì)應(yīng)一個(gè)單字的拼音。此時(shí)語音分段的長(zhǎng)度可表示為n*t (即，檢查到上次截止時(shí)間開始的第η段的時(shí)候發(fā)現(xiàn)n*t時(shí)間段內(nèi)的語音對(duì)應(yīng)到了一個(gè)單字的拼音)。其中，η表示第η分段，t表示預(yù)定時(shí)間間隔。即表示采集的η個(gè)分段的語音對(duì)應(yīng)一個(gè)單字的拼音。
[0029]這里的單音對(duì)應(yīng)拼音的分類器可由客戶端從服務(wù)器端下載。另外，這里的單音對(duì)應(yīng)拼音的分類器可由現(xiàn)有技術(shù)中的分類器來實(shí)現(xiàn)，例如，分類器能夠自動(dòng)將語音輸入數(shù)據(jù)劃分到已知類別(即，不同的拼音)，因此這里不對(duì)其進(jìn)行詳細(xì)描述。
[0030]判別出對(duì)應(yīng)一個(gè)單字的拼音之后，在步驟S104，將該拼音進(jìn)行記錄并顯示到客戶端的屏幕上。同時(shí)將上述語音緩存的處理起始時(shí)刻更新到下一時(shí)間分段，即總時(shí)間軸上的(n+1) *t處，并開始下一輪的語音匹配。
[0031]可選擇地，在語音輸入中間或結(jié)束了以后，用戶可以隨時(shí)暫停語音輸入并查看單字識(shí)別的成功情況，并(傳統(tǒng)輸入或語音輸入)更改錯(cuò)誤的音。
[0032]在步驟S105，確定是否完成全部語音分段的判別。
[0033]如果在步驟S105確定沒有完成全部語音分段的判別，則返回步驟S103繼續(xù)對(duì)剩余語音分段進(jìn)行判別。否則，執(zhí)行步驟S106以根據(jù)拼音識(shí)別規(guī)則來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字?，F(xiàn)有技術(shù)中存在多種根據(jù)拼音序列得到漢字的技術(shù)(比如現(xiàn)有的搜索引擎糾錯(cuò)功能)。例如，根據(jù)拼音序列得到漢字，就是糾錯(cuò)的一種。比如在百度輸入‘fenleiqi’會(huì)提示是不是要找‘分類器’?，F(xiàn)有的搜索引擎糾錯(cuò)功能的原理有多種，例如:1、如果用戶檢索‘fenleiqi’，但是沒有結(jié)果，這是用戶會(huì)再檢索‘分類器’，那這兩者作為關(guān)聯(lián)檢索詞就會(huì)作為糾錯(cuò)的依據(jù)；2、事先維護(hù)一個(gè)漢字到拼音的對(duì)應(yīng)關(guān)系和不同拼音對(duì)應(yīng)到某些漢字的可能性(大量文本統(tǒng)計(jì)就能做到)，當(dāng)輸入拼音的時(shí)候就能得到最可能出現(xiàn)的漢字是什么。
[0034]應(yīng)該理解步驟S106可由客戶端執(zhí)行也可以由服務(wù)器端執(zhí)行。因此，通過將拼音序列的編碼信息而非語音信號(hào)的編碼信息提交給服務(wù)器端，使得占用比較少的帶寬。
[0035]可選擇地，客戶端也可以將原始語音和拼音序列一起發(fā)送給服務(wù)器端，由服務(wù)器端來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字。在服務(wù)器端拼音序列的引入，將可以指導(dǎo)原始語音信息的解析，提高解析的精確度。具體來說就是有當(dāng)存在多種可能的解析結(jié)論時(shí)，對(duì)應(yīng)結(jié)論的拼音和客戶端傳輸?shù)钠匆粼较嗨?，則該結(jié)論的置信度越大。比如用戶說了一句:“王上”但是發(fā)音不標(biāo)準(zhǔn)，直接語音解析可能就得到了“黃山”。結(jié)合步驟S104客戶端上可以更改錯(cuò)誤的拼音，那么在服務(wù)器解析語言的時(shí)候就能得到進(jìn)一步的指導(dǎo)。現(xiàn)有技術(shù)中存在多種對(duì)于相似性的評(píng)價(jià)方式，例如拼音對(duì)應(yīng)的字母序列的編輯距離等。編輯距離就是兩個(gè)字符串通過最少的步數(shù)添加、刪除、替換字母互換的步數(shù)。比如“huangshan”和“huangshang”的編輯距離為1，后者比前者多了一個(gè)字符。
[0036]另外，拼音序列和語音信號(hào)的對(duì)應(yīng)關(guān)系可以進(jìn)一步的作為后續(xù)語音識(shí)別模塊的訓(xùn)練依據(jù)，從而提高服務(wù)器端的在線語音識(shí)別能力。
[0037]圖2是示出根據(jù)本發(fā)明第二實(shí)施例的語音輸入方法的流程圖。
[0038]圖2中的步驟S201-S202與圖1中的步驟S101-S102相同，因此在此不再贅述。
[0039]在步驟S203，客戶端從錄入開始時(shí)間依次檢查所述多個(gè)分段內(nèi)的語音信息，直到通過單音對(duì)應(yīng)拼音的分類器判斷出置信度超過第二預(yù)定閾值S’(第二預(yù)定閾值S’〈第一預(yù)定閾值S)時(shí)，把檢查的語音分段判別為對(duì)應(yīng)一個(gè)單字的多個(gè)拼音。此時(shí)語音分段的長(zhǎng)度可表示為n*t。其中，η表示第η分段，t表示預(yù)定時(shí)間間隔。即表示采集的η個(gè)分段的語音對(duì)應(yīng)一個(gè)單字的拼音。例如，當(dāng)用戶語音輸入“黃”時(shí)，可能給出符合條件S’的‘wang’或‘huang’的拼音。[0040]判別出對(duì)應(yīng)一個(gè)單字的多個(gè)拼音之后，在步驟S204，將該多個(gè)拼音進(jìn)行記錄并顯示到客戶端的屏幕上。同時(shí)將上述語音緩存的處理起始時(shí)刻更新到下一時(shí)間分段，即總時(shí)間軸上的(n+1) *t處，并開始下一輪的語音匹配。
[0041]可選擇地，用戶可針對(duì)單字的多個(gè)拼音選取期望的拼音。
[0042]如果在用戶沒有選擇期望的拼音的情況下，在步驟S205，針對(duì)所述多個(gè)拼音進(jìn)行糾錯(cuò)。例如，在上述步驟S203中，當(dāng)用戶語音輸入“黃”時(shí)，給出符合條件S’的‘wang’或‘huang’的拼音，同時(shí)對(duì)于語音‘河’給出拼音‘he’。通過拼音糾錯(cuò),可確定‘huanghe’是概率更高的詞對(duì)應(yīng)的音。因而通過拼音糾錯(cuò)可選用‘huanghe’這個(gè)拼音序列。應(yīng)該理解步驟S205可由客戶端執(zhí)行也可以由服務(wù)器端執(zhí)行(B卩，客戶端將得到的多個(gè)拼音發(fā)送給服務(wù)器端，由服務(wù)器端進(jìn)行糾錯(cuò))。
[0043]在步驟S206，確定是否完成全部語音分段的判別。
[0044]如果在步驟S206確定沒有完成全部語音分段的判別，則返回步驟S203繼續(xù)對(duì)剩余語音分段進(jìn)行判別。否則，執(zhí)行步驟S207以根據(jù)拼音識(shí)別規(guī)則來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字。應(yīng)該理解步驟S207可由客戶端執(zhí)行也可以由服務(wù)器端執(zhí)行。
[0045]另一方面，預(yù)定分段的輸入語音可能對(duì)應(yīng)于噪聲或靜音等情況。下面將對(duì)這種情況進(jìn)行描述。
[0046]在客戶端按照預(yù)定時(shí)間間隔從錄入開始時(shí)間將采集的語音分隔成多個(gè)分段(所述預(yù)定時(shí)間間隔可表示為t，例如0.1s)之后，客戶端從錄入開始時(shí)間依次檢查所述多個(gè)分段內(nèi)的語音信息，如果在N*t的時(shí)間內(nèi)(N為預(yù)設(shè)閾值，比如10，對(duì)應(yīng)ls)，該片段語音無法匹配到任何單字的拼音，那么這段時(shí)間可能對(duì)應(yīng)了噪聲或靜音等情況。
[0047]S卩，如果起始時(shí)刻為i*t，在(i+N)*t時(shí)刻發(fā)現(xiàn)N*t的時(shí)間段內(nèi)無法匹配到任何單字的拼音。則將起始時(shí)刻重置為(i+M) *t (其中M為小于N的整數(shù))并重新開始執(zhí)行如圖1中的步驟S103或圖2中的步驟S203以判別對(duì)應(yīng)一個(gè)單字的拼音。
[0048]這里，之所以不將起始時(shí)刻重置為(i+N) *t是因?yàn)榭赡?N-M) *t的這段時(shí)間對(duì)應(yīng)了半個(gè)字的音，而沒有被識(shí)別，但是前面的M*t的時(shí)間基本上可以確定沒有對(duì)應(yīng)某個(gè)實(shí)際的字)。比如t為0.1，N為10，M為5。整條語音的長(zhǎng)度是3秒。其中0-0.8秒是靜默期或噪聲期，第0.8-0.12秒用戶發(fā)了一個(gè)‘黃’的音，在1.2-1.5秒又是靜默期，在1.5-2.0秒用戶發(fā)音‘山’。那么從O到1.0秒的時(shí)候，用戶的‘黃’這個(gè)音還沒有發(fā)完，識(shí)別不出來，同時(shí)I秒已經(jīng)達(dá)到了，所以歷史的這一秒不對(duì)應(yīng)到某個(gè)漢字。那么就從(N-M) *5=0.5秒開始再作檢測(cè)。0.5-1.2秒因?yàn)槟軝z測(cè)到完整的用戶發(fā)音‘黃’，所以得到了 ‘huang’這個(gè)拼音。再?gòu)?.2秒往后檢測(cè)繼續(xù)檢測(cè)到‘shan’這個(gè)音。
[0049]圖3是示出根據(jù)本發(fā)明第一實(shí)施例的語音輸入系統(tǒng)的框圖。
[0050]如圖3所示，根據(jù)本發(fā)明第一實(shí)施例的語音輸入系統(tǒng)包括:語音采集單元301、語音分段單元302、置信度判別單元303、拼音顯示單元304、漢字識(shí)別單元305。
[0051]在用戶開始語音錄入之后，語音采集單元301進(jìn)行語音采集并可將采集到的語音存儲(chǔ)在其緩存器中。
[0052]語音分段單元302從錄入開始時(shí)間起按照預(yù)定時(shí)間閾值將采集的語音分隔成多個(gè)分段。
[0053]置信度判別單元303從錄入開始時(shí)間依次檢查所述多個(gè)分段內(nèi)的語音信息，直到通過單音對(duì)應(yīng)拼音的分類器判斷出置信度超過第一預(yù)定閾值(例如，S)時(shí)，把檢查的語音分段判別為對(duì)應(yīng)一個(gè)單字的拼音。
[0054]同樣，置信度判別單元303可從語音中識(shí)別出對(duì)應(yīng)噪聲或靜音等情況。
[0055]拼音顯示單元304將判別的拼音顯示在屏幕上。
[0056]漢字識(shí)別單元305用于識(shí)別與拼音序列對(duì)應(yīng)的漢字，所述拼音序列對(duì)應(yīng)于采集的語音。
[0057]應(yīng)該理解，根據(jù)本發(fā)明第一實(shí)施例的語音輸入系統(tǒng)中的語音采集單元301、語音分段單元302、置信度判別單元303、拼音顯示單元304和漢字識(shí)別單元305可在客戶端實(shí)現(xiàn)，或者語音采集單元301、語音分段單元302、置信度判別單元303、拼音顯示單元304可在客戶端實(shí)現(xiàn)，而漢字識(shí)別單元305可在服務(wù)器端實(shí)現(xiàn)。
[0058]圖4是示出根據(jù)本發(fā)明第二實(shí)施例的語音輸入系統(tǒng)的框圖。
[0059]根據(jù)本發(fā)明第二實(shí)施例的語音輸入系統(tǒng)包括:語音采集單元401、語音分段單元402、置信度判別單元403、拼音顯示單元404、漢字識(shí)別單元405。
[0060]在用戶開始語音錄入之后，語音采集單元401進(jìn)行語音采集并可將采集到的語音存儲(chǔ)在其緩存器中。
[0061]語音分段單元402從錄入開始時(shí)間起按照預(yù)定時(shí)間閾值將采集的語音分隔成多個(gè)分段。
[0062]置信度判別單元403從錄入開始時(shí)間依次檢查所述多個(gè)分段內(nèi)的語音信息，直到通過單音對(duì)應(yīng)拼音的分類器判斷出置信度超過第二預(yù)定閾值S’(第二預(yù)定閾值S’〈第一預(yù)定閾值S)時(shí)，把檢查的語音分段判別為對(duì)應(yīng)一個(gè)單字的多個(gè)拼音。
[0063]在判別出多個(gè)拼音的情況下，拼音顯示單元404將判別的多個(gè)拼音顯示在屏幕上?？捎捎脩翎槍?duì)所述多個(gè)拼音選取期望的拼音。
[0064]同樣，置信度判別單元403可從語音中識(shí)別出對(duì)應(yīng)噪聲或靜音等情況。
[0065]漢字識(shí)別單元405用于識(shí)別與拼音序列對(duì)應(yīng)的漢字，所述拼音序列對(duì)應(yīng)于采集的語音。
[0066]根據(jù)本發(fā)明的語音輸入系統(tǒng)還可包括拼音糾錯(cuò)單元406。在用戶沒有針對(duì)所述多個(gè)拼音選取期望的拼音的情況下，拼音糾錯(cuò)單元406可對(duì)所述多個(gè)拼音進(jìn)行拼音糾錯(cuò)以得到正確的拼音。
[0067]應(yīng)該理解，根據(jù)本發(fā)明第二實(shí)施例的語音輸入系統(tǒng)中的語音采集單元401、語音分段單元402、置信度判別單元403、拼音顯示單元404、漢字識(shí)別單元405和拼音糾錯(cuò)單元406可在客戶端實(shí)現(xiàn)，或者語音采集單元401、語音分段單元402、置信度判別單元403、拼音顯示單元404可在客戶端實(shí)現(xiàn)，而漢字識(shí)別單元405和拼音糾錯(cuò)單元406可在服務(wù)器端實(shí)現(xiàn)；或者只有漢字識(shí)別單元405在服務(wù)器端實(shí)現(xiàn)。
[0068]根據(jù)本發(fā)明實(shí)施例的語音輸入系統(tǒng)和方法，通過將拼音傳輸?shù)椒?wù)器端，因此可以減小帶寬的占用。另外，在將拼音和原始語音傳輸?shù)椒?wù)器端的情況下，可以提升語音識(shí)別的準(zhǔn)確性。
[0069]盡管已經(jīng)參照本發(fā)明的實(shí)施例具體顯示和描述了本發(fā)明，但是本領(lǐng)域的技術(shù)人員應(yīng)該理解，在不脫離由權(quán)利要求限定的本發(fā)明的精神和范圍的情況下，可以對(duì)其進(jìn)行形式和細(xì)節(jié)上的各種改變。
【權(quán)利要求】
1.一種語音輸入方法,包括: 將采集的語音按照預(yù)定時(shí)間間隔分隔成多個(gè)分段；當(dāng)通過單音對(duì)應(yīng)拼音的分類器判斷出分段的語音信息的置信度超過預(yù)定閾值時(shí)，把置信度超過預(yù)定閾值的語音分段判別為對(duì)應(yīng)一個(gè)單字的拼音；根據(jù)拼音識(shí)別規(guī)則來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字，其中，所述拼音序列對(duì)應(yīng)于所采集的語音。
2.如權(quán)利要求1所述的語音輸入方法，其中，所述對(duì)應(yīng)一個(gè)單字的拼音是一個(gè)或多個(gè)拼音。
3.如權(quán)利要求2所述的語音輸入方法，其中，在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí)，所述方法還包括:將所述多個(gè)拼音顯示在屏幕上，并且用戶針對(duì)所述對(duì)應(yīng)一個(gè)單字的多個(gè)拼音選取期望的拼音。
4.如權(quán)利要求2所述的方法，其中，在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí)，所述方法還包括:對(duì)所述多個(gè)拼音進(jìn)行拼音糾錯(cuò)以得到正確的拼音。
5.如權(quán)利要求1所述的語音輸入方法，還包括:如果在自檢查的開始時(shí)間過去預(yù)定時(shí)間的時(shí)間段內(nèi)不存在超過預(yù)定閾值的置信度的分段，則將檢查的起始時(shí)間重新設(shè)置為自檢查的開始時(shí)間過去短于所述預(yù)定時(shí)間的時(shí)間段作為重新設(shè)置的開始時(shí)間，并從所述重新設(shè)置的開始時(shí)間檢查分段的語音信息。
6.—種語音輸入系統(tǒng),包括: 語音分段單元，用于將采集的語音按照預(yù)定時(shí)間間隔分隔成多個(gè)分段；置信度判別單元當(dāng)通過單音對(duì)應(yīng)拼音的分類器判斷出分段的語音信息的置信度超過預(yù)定閾值時(shí)，把置信度超過預(yù)定閾值的語音分段判別為對(duì)應(yīng)一個(gè)單字的拼音；漢字識(shí)別單元，根據(jù)拼音識(shí)別規(guī)則來識(shí)別與得到的拼音序列對(duì)應(yīng)的漢字，其中，所述拼音序列對(duì)應(yīng)于所采集的語音。
7.如權(quán)利要求6所述的語音輸入系統(tǒng)，其中，所述對(duì)應(yīng)一個(gè)單字的拼音是一個(gè)或多個(gè)拼音。
8.如權(quán)利要求7所述的語音輸入系統(tǒng)，還包括:拼音顯示單元，在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí)，用于將所述多個(gè)拼音顯示在屏幕上，并且用戶針對(duì)所述對(duì)應(yīng)一個(gè)單字的多個(gè)拼音選取期望的拼音。
9.如權(quán)利要求7所述的語音輸入系統(tǒng)，還包括:拼音糾錯(cuò)單元，在所述對(duì)應(yīng)一個(gè)單字的拼音是多個(gè)拼音時(shí)，對(duì)所述多個(gè)拼音進(jìn)行拼音糾錯(cuò)以得到正確的拼音。
10.如權(quán)利要求6所述的語音輸入系統(tǒng)，其中，在自檢查的開始時(shí)間過去預(yù)定時(shí)間的時(shí)間段內(nèi)不存在超過預(yù)定閾值的置信度的分段的情況下，置信度判別單元還用于將檢查的起始時(shí)間重新設(shè)置為自檢查的開始時(shí)間過去短于所述預(yù)定時(shí)間的時(shí)間段作為重新設(shè)置的開始時(shí)間，并從所述重新設(shè)置的開始時(shí)間檢查分段的語音信息。
【文檔編號(hào)】G10L15/04GK103559880SQ201310552972
【公開日】2014年2月5日申請(qǐng)日期:2013年11月8日優(yōu)先權(quán)日:2013年11月8日
【發(fā)明者】王光遠(yuǎn) 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王光遠(yuǎn)
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音輸入系統(tǒng)相關(guān)技術(shù)

搜狗語音輸入使用方法相關(guān)技術(shù)

語音輸入相關(guān)技術(shù)

語音輸入軟件相關(guān)技術(shù)

搜狗語音輸入相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音輸入系統(tǒng)和方法